このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210408となっている論文です。

PDF登録状況(公開日: 20210408)

TitleAuthorsAbstract論文公表日・翻訳日
# スケール共変およびスケール不変ガウス微分ネットワーク

Scale-covariant and scale-invariant Gaussian derivative networks ( http://arxiv.org/abs/2011.14759v8 )

ライセンス: Link先を確認
Tony Lindeberg(参考訳) 本稿では,パラメータ化スケール空間演算をカスケードに結合して深層学習アーキテクチャを構築する,スケール空間理論とディープラーニングのハイブリッドアプローチを提案する。 学習パラメータを複数のスケールチャネル間で共有し、スケール空間プリミティブの変換特性をスケール変換で利用することにより、ネットワークは証明可能なスケール共変となる。 さらに、マルチスケールチャネル上で最大プーリングを行うことにより、画像分類のためのネットワークアーキテクチャも確実にスケール不変となる。 MNISTLargeScaleデータセットにおいて,トレーニングデータに関する4因子,テストデータに関する16因子に対して,元のMNISTからの再スケール画像を含むネットワークの性能について検討した。 その結果,訓練データに存在しないスケールでパターンを分類する性能が向上し,スケール一般化が可能となった。

This paper presents a hybrid approach between scale-space theory and deep learning, where a deep learning architecture is constructed by coupling parameterized scale-space operations in cascade. By sharing the learnt parameters between multiple scale channels, and by using the transformation properties of the scale-space primitives under scaling transformations, the resulting network becomes provably scale covariant. By in addition performing max pooling over the multiple scale channels, a resulting network architecture for image classification also becomes provably scale invariant. We investigate the performance of such networks on the MNISTLargeScale dataset, which contains rescaled images from original MNIST over a factor of 4 concerning training data and over a factor of 16 concerning testing data. It is demonstrated that the resulting approach allows for scale generalization, enabling good performance for classifying patterns at scales not present in the training data.
翻訳日:2021-06-06 14:44:00 公開日:2021-04-08
# 公平なランキングは少数派の結果を改善するか? オンライン雇用における人的・アルゴリズム的バイアスの相互作用の理解

Does Fair Ranking Improve Minority Outcomes? Understanding the Interplay of Human and Algorithmic Biases in Online Hiring ( http://arxiv.org/abs/2012.00423v2 )

ライセンス: Link先を確認
Tom S\"uhr, Sophie Hilgard, Himabindu Lakkaraju(参考訳) ランキングアルゴリズムはLinkedIn、TaskRabbit、Fiverrなど、さまざまなオンライン採用プラットフォームで広く採用されている。 以前の研究では、これらのプラットフォームで採用されるランキングアルゴリズムは様々な望ましくないバイアスの傾向を示しており、未表現候補の露出を増加させる公正ランキングアルゴリズム(Det-Greedyなど)が提案されている。 しかし、公平なランク付けアルゴリズムが実世界の成果(例えば、雇用決定)を実際に改善するかどうかを探求する作業はほとんどないし全くない。 さらに、他の要因(仕事の文脈や雇用者の固有のバイアスなど)が、実際に公正なランキングの有効性にどのように影響するか、明確な理解もできない。 本研究では、雇用者の仕事状況や固有のバイアスなど、オンライン雇用プラットフォームにおけるジェンダーバイアスのさまざまな源泉を分析し、これらの要因が雇用決定に影響を与えるランキングアルゴリズムとどのように相互作用するかを明らかにする。 我々の知る限り、この研究は、オンライン雇用の文脈における上記の要因間の相互作用を研究する最初の試みである。 オンラインフリーランシングサイトtaskrabbitのデータを用いて,オンライン採用シナリオをシミュレーションした大規模ユーザ調査を実施した。 その結果,公平なランキングアルゴリズムは少数民族の選択率を改善するが,その効果は職の文脈や候補者プロファイルに大きく依存することがわかった。

Ranking algorithms are being widely employed in various online hiring platforms including LinkedIn, TaskRabbit, and Fiverr. Prior research has demonstrated that ranking algorithms employed by these platforms are prone to a variety of undesirable biases, leading to the proposal of fair ranking algorithms (e.g., Det-Greedy) which increase exposure of underrepresented candidates. However, there is little to no work that explores whether fair ranking algorithms actually improve real world outcomes (e.g., hiring decisions) for underrepresented groups. Furthermore, there is no clear understanding as to how other factors (e.g., job context, inherent biases of the employers) may impact the efficacy of fair ranking in practice. In this work, we analyze various sources of gender biases in online hiring platforms, including the job context and inherent biases of employers and establish how these factors interact with ranking algorithms to affect hiring decisions. To the best of our knowledge, this work makes the first attempt at studying the interplay between the aforementioned factors in the context of online hiring. We carry out a largescale user study simulating online hiring scenarios with data from TaskRabbit, a popular online freelancing site. Our results demonstrate that while fair ranking algorithms generally improve the selection rates of underrepresented minorities, their effectiveness relies heavily on the job contexts and candidate profiles.
翻訳日:2021-05-30 19:32:42 公開日:2021-04-08
# アンテナ傾き最適化のための安全強化学習アーキテクチャ

A Safe Reinforcement Learning Architecture for Antenna Tilt Optimisation ( http://arxiv.org/abs/2012.01296v2 )

ライセンス: Link先を確認
Erik Aumayr, Saman Feghhi, Filippo Vannella, Ezeddin Al Hakim, Grigorios Iakovidis(参考訳) 環境との安全なインタラクションは、現実世界の問題に適用する際の強化学習(rl)の最も難しい側面の1つです。 これは、安全でないアクションが環境に高いあるいは不可逆的な悪影響を及ぼす場合に特に重要である。 ネットワーク管理における遠隔電気ティルト(RET)最適化は,基地局のアンテナ傾斜角の探索的修正によりネットワークの性能が著しく低下するおそれのある安全クリティカルなアプリケーションである。 本稿では,セルラーネットワークにおけるRET最適化に対応するために,モジュール型安全強化学習(SRL)アーキテクチャを提案する。 このアプローチでは、安全シールドが安全なベースラインに対してRLエージェントの性能を継続的にベンチマークし、ネットワーク上で実行される安全なアンテナ傾斜更新を決定する。 本研究は, SRL剤のベースライン上での性能向上を実証し, 動作の安全性を確保した。

Safe interaction with the environment is one of the most challenging aspects of Reinforcement Learning (RL) when applied to real-world problems. This is particularly important when unsafe actions have a high or irreversible negative impact on the environment. In the context of network management operations, Remote Electrical Tilt (RET) optimisation is a safety-critical application in which exploratory modifications of antenna tilt angles of base stations can cause significant performance degradation in the network. In this paper, we propose a modular Safe Reinforcement Learning (SRL) architecture which is then used to address the RET optimisation in cellular networks. In this approach, a safety shield continuously benchmarks the performance of RL agents against safe baselines, and determines safe antenna tilt updates to be performed on the network. Our results demonstrate improved performance of the SRL agent over the baseline while ensuring the safety of the performed actions.
翻訳日:2021-05-25 03:51:17 公開日:2021-04-08
# 自然摂動に対するロバスト性のための属性誘導学習

Attribute-Guided Adversarial Training for Robustness to Natural Perturbations ( http://arxiv.org/abs/2012.01806v3 )

ライセンス: Link先を確認
Tejas Gokhale, Rushil Anirudh, Bhavya Kailkhura, Jayaraman J. Thiagarajan, Chitta Baral, Yezhou Yang(参考訳) 堅牢なディープラーニングにおける既存の作業は、小さなピクセルレベルのノルムベースの摂動に重点を置いているが、現実のいくつかの設定で発生する摂動には影響しないかもしれない。 このような場合、テストデータは利用できないかもしれないが、摂動のタイプ(回転の度合いの不明など)に関する幅広い仕様が知られている。 i.i.d.ではない未確認のテストドメインに対して堅牢性が期待できる設定を考える。 しかし、訓練領域から逸脱している。 この偏差は正確には分かっていないかもしれないが、その広範な特徴付けは属性の観点から前もって指定されている。 テスト領域からデータにアクセスすることなく,属性空間への分類器の露出を最大化するために,新たなサンプルを生成することを学習する対戦型トレーニング手法を提案する。 本手法では,内的最大化が逆摂動を発生させ,外的最小化がモデルパラメータを求めることで,内的最大化から発生する逆摂動の損失を最適化することにより,内的最大化を最小化する。 我々は,自然発生する3種類の摂動(物体関連シフト,幾何学的変換,共通画像破壊)に対するアプローチの適用性を示す。 このアプローチにより、ディープニューラルネットワークは、幅広い自然発生の摂動に対して頑健になる。 mnist, cifar-10, およびclevrデータセットの新たな変種を用いて, 学習した深層ニューラルネットワークのロバスト性向上を示すことにより, 提案手法の有用性を示す。

While existing work in robust deep learning has focused on small pixel-level norm-based perturbations, this may not account for perturbations encountered in several real-world settings. In many such cases although test data might not be available, broad specifications about the types of perturbations (such as an unknown degree of rotation) may be known. We consider a setup where robustness is expected over an unseen test domain that is not i.i.d. but deviates from the training domain. While this deviation may not be exactly known, its broad characterization is specified a priori, in terms of attributes. We propose an adversarial training approach which learns to generate new samples so as to maximize exposure of the classifier to the attributes-space, without having access to the data from the test domain. Our adversarial training solves a min-max optimization problem, with the inner maximization generating adversarial perturbations, and the outer minimization finding model parameters by optimizing the loss on adversarial perturbations generated from the inner maximization. We demonstrate the applicability of our approach on three types of naturally occurring perturbations -- object-related shifts, geometric transformations, and common image corruptions. Our approach enables deep neural networks to be robust against a wide range of naturally occurring perturbations. We demonstrate the usefulness of the proposed approach by showing the robustness gains of deep neural networks trained using our adversarial training on MNIST, CIFAR-10, and a new variant of the CLEVR dataset.
翻訳日:2021-05-23 15:07:06 公開日:2021-04-08
# ドメインランダム化とメタラーニングによる視覚表現の連続的適応

Continual Adaptation of Visual Representations via Domain Randomization and Meta-learning ( http://arxiv.org/abs/2012.04324v2 )

ライセンス: Link先を確認
Riccardo Volpi, Diane Larlus, Gr\'egory Rogez(参考訳) ほとんどの標準的な学習アプローチは、異なる性質のサンプルで順次トレーニングされた時にドリフトしやすい脆弱なモデルへとつながります。 特に、モデルが異なる視覚的なドメインから連続して学習すると、過去のドメインを忘れ、最新のものを好む傾向があります。 この文脈では、忘れることに対して本質的に堅牢なモデルを学ぶ方法の一つがドメインランダム化であり、視覚タスクでは、画像操作で現在のドメインの分布をランダム化する。 この結果に基づいて,レギュラライザが,現行ドメインから異なる"副"メタドメインへのモデル転送に伴う損失を明示的に罰すると同時に,それらへの適応を容易にするメタラーニング戦略を考案する。 このようなメタドメインはランダムな画像操作によっても生成される。 我々は、分類からセマンティックセグメンテーションまで、様々な実験において、新しいドメインに移る際に破滅的な忘れをしがちなモデルをもたらすことを実証的に実証した。

Most standard learning approaches lead to fragile models which are prone to drift when sequentially trained on samples of a different nature - the well-known "catastrophic forgetting" issue. In particular, when a model consecutively learns from different visual domains, it tends to forget the past domains in favor of the most recent ones. In this context, we show that one way to learn models that are inherently more robust against forgetting is domain randomization - for vision tasks, randomizing the current domain's distribution with heavy image manipulations. Building on this result, we devise a meta-learning strategy where a regularizer explicitly penalizes any loss associated with transferring the model from the current domain to different "auxiliary" meta-domains, while also easing adaptation to them. Such meta-domains are also generated through randomized image manipulations. We empirically demonstrate in a variety of experiments - spanning from classification to semantic segmentation - that our approach results in models that are less prone to catastrophic forgetting when transferred to new domains.
翻訳日:2021-05-16 17:35:52 公開日:2021-04-08
# 構造規則化深層クラスタリングを用いた教師なしドメイン適応のための固有データ構造発見に向けて

Towards Uncovering the Intrinsic Data Structures for Unsupervised Domain Adaptation using Structurally Regularized Deep Clustering ( http://arxiv.org/abs/2012.04280v2 )

ライセンス: Link先を確認
Hui Tang, Xiatian Zhu, Ke Chen, Kui Jia, C. L. Philip Chen(参考訳) 教師なし領域適応 (unsupervised domain adaptation, uda) とは、分布が対象領域と異なるソース領域のラベル付きデータに対して、対象領域上のラベルなしデータの予測を行う分類モデルを学ぶことである。 メインストリームのUDAメソッドは、ソース機能で訓練された分類器をターゲットの機能に簡単に適用できるように、ドメイン整合性のある特徴を学習しようとする。 優れた結果が得られたが、これらの手法は本質的なデータ構造を標的識別に損なう可能性があり、特にUDAタスクの帰納的環境における一般化の問題を提起する。 この問題に対処するため、我々は、ドメイン間の構造的類似性に関するudaの仮定に動機づけられ、制約付きクラスタリングによって内在的ターゲットの識別を直接解明することを提案し、そこでは、非常に同じ仮定にかかっている構造的ソース正規化を用いてクラスタリングソリューションを制約する。 技術的には、対象データの正規化識別クラスタリングと生成データを統合する構造規則化深層クラスタリングのハイブリッドモデルを提案し、本手法をH-SRDCと呼ぶ。 このハイブリッドモデルは,ネットワーク予測の分布と補助的分布との間のkullback-leiblerの発散を最小限に抑え,ドメイン共有型分類器とクラスタセンタロイドを学習することで構造的正規化を課す深層クラスタリングフレームワークに基づいている。 構造的類似性の仮定を豊かにすることにより、セマンティックセグメンテーションの画素レベルのUDAタスクに対してH-SRDCを拡張することができる。 画像分類とセマンティックセグメンテーションの7つのUDAベンチマークについて広範な実験を行った。 明示的な特徴アライメントを持たず,提案したH-SRDCはインダクティブ設定とトランスダクティブ設定の両方で既存の手法よりも優れている。 実装コードはhttps://github.com/h uitangtang/H-SRDC.co mで公開しています。

Unsupervised domain adaptation (UDA) is to learn classification models that make predictions for unlabeled data on a target domain, given labeled data on a source domain whose distribution diverges from the target one. Mainstream UDA methods strive to learn domain-aligned features such that classifiers trained on the source features can be readily applied to the target ones. Although impressive results have been achieved, these methods have a potential risk of damaging the intrinsic data structures of target discrimination, raising an issue of generalization particularly for UDA tasks in an inductive setting. To address this issue, we are motivated by a UDA assumption of structural similarity across domains, and propose to directly uncover the intrinsic target discrimination via constrained clustering, where we constrain the clustering solutions using structural source regularization that hinges on the very same assumption. Technically, we propose a hybrid model of Structurally Regularized Deep Clustering, which integrates the regularized discriminative clustering of target data with a generative one, and we thus term our method as H-SRDC. Our hybrid model is based on a deep clustering framework that minimizes the Kullback-Leibler divergence between the distribution of network prediction and an auxiliary one, where we impose structural regularization by learning domain-shared classifier and cluster centroids. By enriching the structural similarity assumption, we are able to extend H-SRDC for a pixel-level UDA task of semantic segmentation. We conduct extensive experiments on seven UDA benchmarks of image classification and semantic segmentation. With no explicit feature alignment, our proposed H-SRDC outperforms all the existing methods under both the inductive and transductive settings. We make our implementation codes publicly available at https://github.com/h uitangtang/H-SRDC.
翻訳日:2021-05-16 17:34:43 公開日:2021-04-08
# (参考訳) 森林火災動態モデリングのための畳み込みLSTMニューラルネットワーク

Convolutional LSTM Neural Networks for Modeling Wildland Fire Dynamics ( http://arxiv.org/abs/2012.06679v2 )

ライセンス: CC BY 4.0
John Burge and Matthew Bonanni and Matthias Ihme and Lily Hu(参考訳) 気候の変化に伴い、森林火災の深刻度は悪化すると予想されている。 火災伝播ダイナミクスを正確に捉えたモデルは、これらの火災による被害の理解、対応、軽減に大いに役立っている。 機械学習技術はそのようなモデルを開発するための潜在的アプローチを提供する。 本研究の目的は,ConvLSTM(Convolutio nal Long Short-Term Memory)リカレントニューラルネットワークによる森林火災伝播のダイナミクスのモデル化の可能性を評価することである。 機械学習モデルは、数学的アナログモデルによって生成されたシミュレートされたワイルドファイアデータに基づいて訓練される。 3つのシミュレーションデータセットが分析され、それぞれが複雑度を増している。 最も単純なデータセットは、単一の結合因子として一定の風向きを含み、最も複雑なデータセットは、動的風、複雑な地形、空間的に変化する水分量、異種植物密度分布を含む。 本研究では,ConvLSTMが連続時間ステップで消火速度のダイナミクスをいかに効果的に学習できるかを検討する。 convlstmsは局所的な火災伝達イベントを捕捉できるだけでなく、火災が拡散する速度など全体の火災ダイナミクスを捉えることができることが示されている。 最後に、コンブLSTMは、以前同様の山火事の動態をモデル化するために使われた他のネットワークアーキテクチャよりも優れていることを示す。

As the climate changes, the severity of wildland fires is expected to worsen. Models that accurately capture fire propagation dynamics greatly help efforts for understanding, responding to and mitigating the damages caused by these fires. Machine learning techniques provide a potential approach for developing such models. The objective of this study is to evaluate the feasibility of using a Convolutional Long Short-Term Memory (ConvLSTM) recurrent neural network to model the dynamics of wildland fire propagation. The machine learning model is trained on simulated wildfire data generated by a mathematical analogue model. Three simulated datasets are analyzed, each with increasing degrees of complexity. The simplest dataset includes a constant wind direction as a single confounding factor, whereas the most complex dataset includes dynamic wind, complex terrain, spatially varying moisture content and heterogenous vegetation density distributions. We examine how effective the ConvLSTM can learn the fire-spread dynamics over consecutive time steps. It is shown that ConvLSTMs can capture local fire transmission events, as well as the overall fire dynamics, such as the rate at which the fire spreads. Finally, we demonstrate that ConvLSTMs outperform other network architectures that have previously been used to model similar wildland fire dynamics.
翻訳日:2021-05-11 03:28:59 公開日:2021-04-08
# 単一GPU上の1Kクラスを越えたセマンティックセグメンテーションのスケーリング

Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU ( http://arxiv.org/abs/2012.07489v2 )

ライセンス: Link先を確認
Shipra Jain, Danda Paudel Pani, Martin Danelljan, Luc Van Gool(参考訳) 最先端のオブジェクト検出法と画像分類法は、それぞれ9kクラスと10kクラスで顕著に機能する。 対照的に、セマンティックセグメンテーションデータセットのクラス数は比較的限られている。 ラベル付きデータの欠如とセグメンテーションに対する高い計算要求が考慮される場合、これは驚くべきことではない。 本稿では,メモリオーバーヘッドを増大させることなく,既存のセマンティックセマンティックセマンティクスモデルを多数のセマンティクスクラスに対してトレーニングし,拡張するための新しいトレーニング手法を提案する。 埋め込み型スケーラブルなセグメンテーション手法では,O(C) から O(1) へのセグメンテーションモデルの出力の空間的複雑さを低減し,地絡クラス確率の近似法を提案し,それをクロスエントロピー損失の計算に用いる。 提案されたアプローチは一般的であり、任意の最先端セグメンテーションモデルで採用でき、1つのgpuで任意の数のセマンティクスクラスに対して優雅にスケールすることができる。 我々のアプローチは類似しており、場合によっては、異なるバックボーンを持つDeeplabV3+モデルを採用する際に、Cityscapes、Pascal VOC、ADE20k、COCO-Stuff10kデータセットのmIoUをさらに改善する。 我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。

The state-of-the-art object detection and image classification methods can perform impressively on more than 9k and 10k classes, respectively. In contrast, the number of classes in semantic segmentation datasets is relatively limited. This is not surprising when the restrictions caused by the lack of labeled data and high computation demand for segmentation are considered. In this paper, we propose a novel training methodology to train and scale the existing semantic segmentation models for a large number of semantic classes without increasing the memory overhead. In our embedding-based scalable segmentation approach, we reduce the space complexity of the segmentation model's output from O(C) to O(1), propose an approximation method for ground-truth class probability, and use it to compute cross-entropy loss. The proposed approach is general and can be adopted by any state-of-the-art segmentation model to gracefully scale it for any number of semantic classes with only one GPU. Our approach achieves similar, and in some cases, even better mIoU for Cityscapes, Pascal VOC, ADE20k, COCO-Stuff10k datasets when adopted to DeeplabV3+ model with different backbones. We demonstrate a clear benefit of our approach on a dataset with 1284 classes, bootstrapped from LVIS and COCO annotations, with three times better mIoU than the DeeplabV3+ model.
翻訳日:2021-05-08 14:30:18 公開日:2021-04-08
# GTA:ビデオアクション理解のためのグローバルな時間的注意

GTA: Global Temporal Attention for Video Action Understanding ( http://arxiv.org/abs/2012.08510v2 )

ライセンス: Link先を確認
Bo He, Xitong Yang, Zuxuan Wu, Hao Chen, Ser-Nam Lim, Abhinav Shrivastava(参考訳) 自己注意は、長距離依存をモデル化するためのペアワイズインタラクションを学び、ビデオアクション認識に大きな改善をもたらす。 本稿では,ビデオにおける時間モデルに対する自己着想の深い理解を求める。 まず,すべての画素のフラット化による時空間情報の絡み合いモデリングが最適であり,フレーム間の時間的関係を明示的に把握できないことを示す。 この目的のために,空間的注意を疎結合にして,グローバルな時間的注意をグローバルな時間的注意に向けるGTA(Global Temporal Attention)を導入する。 画素と意味的に類似した領域にGTAを適用し,空間的粒度の異なる時間的関係を捉える。 インスタンス固有のアテンションマトリックスを計算する従来のセルフアテンションとは異なり、gtaは異なるサンプルにまたがる時間的構造をエンコードするグローバルアテンションマトリックスを直接学習する。 さらに,gtaをクロスチャネルマルチヘッド方式で強化し,チャネル間インタラクションを活用し,時間モデルを改善する。 2dおよび3dネットワークに関する広範囲な実験により,本手法は時間的モデリングを一貫して強化し,3つのビデオ行動認識データセット上で最先端のパフォーマンスを提供することが示された。

Self-attention learns pairwise interactions to model long-range dependencies, yielding great improvements for video action recognition. In this paper, we seek a deeper understanding of self-attention for temporal modeling in videos. We first demonstrate that the entangled modeling of spatio-temporal information by flattening all pixels is sub-optimal, failing to capture temporal relationships among frames explicitly. To this end, we introduce Global Temporal Attention (GTA), which performs global temporal attention on top of spatial attention in a decoupled manner. We apply GTA on both pixels and semantically similar regions to capture temporal relationships at different levels of spatial granularity. Unlike conventional self-attention that computes an instance-specific attention matrix, GTA directly learns a global attention matrix that is intended to encode temporal structures that generalize across different samples. We further augment GTA with a cross-channel multi-head fashion to exploit channel interactions for better temporal modeling. Extensive experiments on 2D and 3D networks demonstrate that our approach consistently enhances temporal modeling and provides state-of-the-art performance on three video action recognition datasets.
翻訳日:2021-05-07 05:19:34 公開日:2021-04-08
# 層還元: 層整合性によるコンバータベース自己監督モデルの高速化

Layer Reduction: Accelerating Conformer-Based Self-Supervised Model via Layer Consistency ( http://arxiv.org/abs/2105.00812v1 )

ライセンス: Link先を確認
Jinchuan Tian, Rongzhi Gu, Helin Wang, Yuexian Zou(参考訳) トランスフォーマーベースの自己教師型モデルは、特徴抽出器として訓練され、多くの下流音声タスクで最先端のパフォーマンスを達成することができる。 しかし、これらのモデルのトレーニングと推論のプロセスは、非常に高い計算コストと大きなパラメータの予算に遭遇する可能性がある。 ALBERTで提案されたパラメータ共有戦略(PSS)はパラメータ還元の道を開くが、必要な計算量は変わらない。 興味深いことに、我々は実験において、異なるトランスフォーマー層からの特徴埋め込みの分布が、PSSの統合時に類似していることを発見した。 このような特徴分布の類似性を考えると、異なる層からの特徴埋め込みは、同様の表現力を持つと仮定する。 この作業では、レイヤ一貫性により、Transformerベースのモデルをより効率的な方法で採用することができます。各トレーニングイテレーションにおけるコンバータ層の数を均一にサンプリングし、Shallow Layer Inference(SLI)を適用して、推論ステージにおけるレイヤ数を削減できます。 実験では,我々のモデルはLibriSpeechデータセットを用いて訓練され,音声分類と音声認識の両方のタスクで評価される。 従来のBERT法と同等の性能を維持しつつ,7.8Xパラメータ削減,41.9%のトレーニング高速化,37.7%の推論高速化を実現した。

Transformer-based self-supervised models are trained as feature extractors and have empowered many downstream speech tasks to achieve state-of-the-art performance. However, both the training and inference process of these models may encounter prohibitively high computational cost and large parameter budget. Although Parameter Sharing Strategy (PSS) proposed in ALBERT paves the way for parameter reduction, the computation required remains the same. Interestingly, we found in experiments that distributions of feature embeddings from different Transformer layers are similar when PSS is integrated: a property termed as Layer Consistency (LC) in this paper. Given this similarity of feature distributions, we assume that feature embeddings from different layers would have similar representing power. In this work, Layer Consistency enables us to adopt Transformer-based models in a more efficient manner: the number of Conformer layers in each training iteration could be uniformly sampled and Shallow Layer Inference (SLI) could be applied to reduce the number of layers in inference stage. In experiments, our models are trained with LibriSpeech dataset and then evaluated on both phone classification and Speech Recognition tasks. We experimentally achieve 7.8X parameter reduction, 41.9% training speedup and 37.7% inference speedup while maintaining comparable performance with conventional BERT-like self-supervised methods.
翻訳日:2021-05-04 20:41:18 公開日:2021-04-08
# ビデオ圧縮におけるループフィルタリングのための多次元注意ネットワーク

Multi-Density Attention Network for Loop Filtering in Video Compression ( http://arxiv.org/abs/2104.12865v1 )

ライセンス: Link先を確認
Zhao Wang, Changyue Ma, Yan Ye(参考訳) ビデオ圧縮は、消費者やプロの動画アプリケーションにとって基本的な要件である。 H.264/AVCやH.265/HEVCといったビデオコーディング標準は、多くのビデオアプリケーションで帯域幅とストレージの効率的な使用を可能にするために広く市場に展開されている。 符号化アーチファクトの削減と圧縮効率の向上のために,再構成ビデオのニューラルネットワークに基づくループフィルタリングが文献で開発されている。 しかし,ループフィルタリングは,映像コンテンツのばらつきやサンプリング密度などにより難しい課題である。 本稿では,ビデオ圧縮におけるループフィルタリングのためのオンラインスケーリングに基づくマルチ密度アテンションネットワークを提案する。 a) 多重密度特徴抽出のための並列多重解像度畳み込みストリーム,(b) 単一注意分岐,(b) サンプル相関を学習してマスクマップを生成する,(c) 複数のブランチからデータを融合するチャネル・ミューチュアルな注意手順,(d) 実信号に従ってネットワークの出力結果をさらに最適化する,オンラインスケーリング技術である。 提案するマルチ密度アテンションネットワークは,複数のサンプリング密度からリッチな特徴を学習し,解像度の異なるビデオコンテンツに対して頑健に動作する。 さらに、オンラインスケーリングプロセスは、オフライン事前学習モデルの信号適応性を高める。 実験の結果、同じビデオ品質で10.18%のビットレート削減が、最新のVersatile Video Coding (VVC)標準で達成できることが示されている。 提案アルゴリズムの客観的性能は最先端手法を上回り,主観的品質改善は細部保存とアーティファクト緩和の観点から明らかである。

Video compression is a basic requirement for consumer and professional video applications alike. Video coding standards such as H.264/AVC and H.265/HEVC are widely deployed in the market to enable efficient use of bandwidth and storage for many video applications. To reduce the coding artifacts and improve the compression efficiency, neural network based loop filtering of the reconstructed video has been developed in the literature. However, loop filtering is a challenging task due to the variation in video content and sampling densities. In this paper, we propose a on-line scaling based multi-density attention network for loop filtering in video compression. The core of our approach lies in several aspects: (a) parallel multi-resolution convolution streams for extracting multi-density features, (b) single attention branch to learn the sample correlations and generate mask maps, (c) a channel-mutual attention procedure to fuse the data from multiple branches, (d) on-line scaling technique to further optimize the output results of network according to the actual signal. The proposed multi-density attention network learns rich features from multiple sampling densities and performs robustly on video content of different resolutions. Moreover, the online scaling process enhances the signal adaptability of the off-line pre-trained model. Experimental results show that 10.18% bit-rate reduction at the same video quality can be achieved over the latest Versatile Video Coding (VVC) standard. The objective performance of the proposed algorithm outperforms the state-of-the-art methods and the subjective quality improvement is obvious in terms of detail preservation and artifact alleviation.
翻訳日:2021-05-03 19:39:42 公開日:2021-04-08
# LieTransformer: リー群に対する同変自己アテンション

LieTransformer: Equivariant self-attention for Lie Groups ( http://arxiv.org/abs/2012.10885v3 )

ライセンス: Link先を確認
Michael Hutchinson, Charline Le Lan, Sheheryar Zaidi, Emilien Dupont, Yee Whye Teh, Hyunjik Kim(参考訳) グループ同変ニューラルネットワークはグループ不変ニューラルネットワークの構成要素として用いられ、原則付きパラメータ共有による一般化性能とデータ効率の向上が示されている。 このような研究は主に群同変線型写像が必ずしも畳み込みであることを示す結果に基づいて、群同変線型写像に焦点が当てられている。 本研究は,ディープラーニングモデルの顕著な構築ブロックとして現れつつある,文学の範囲を自己意識に拡張するものである。 任意のリー群とその離散部分群に同値なリー自己結合層からなる構造であるリー変換器を提案する。 本手法の一般性は, 点雲上の形状計数, 分子特性の回帰, ハミルトン力学下での粒子軌道のモデル化など, 幅広いタスクにおいて, ベースライン法と競合する実験結果を示すことによって示される。

Group equivariant neural networks are used as building blocks of group invariant neural networks, which have been shown to improve generalisation performance and data efficiency through principled parameter sharing. Such works have mostly focused on group equivariant convolutions, building on the result that group equivariant linear maps are necessarily convolutions. In this work, we extend the scope of the literature to self-attention, that is emerging as a prominent building block of deep learning models. We propose the LieTransformer, an architecture composed of LieSelfAttention layers that are equivariant to arbitrary Lie groups and their discrete subgroups. We demonstrate the generality of our approach by showing experimental results that are competitive to baseline methods on a wide range of tasks: shape counting on point clouds, molecular property regression and modelling particle trajectories under Hamiltonian dynamics.
翻訳日:2021-05-01 04:46:25 公開日:2021-04-08
# HyperSeg: リアルタイムセマンティックセグメンテーションのためのパッチワイドハイパーネットワーク

HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation ( http://arxiv.org/abs/2012.11582v2 )

ライセンス: Link先を確認
Yuval Nirkin, Lior Wolf, Tal Hassner(参考訳) 本稿では、エンコーダがデコーダのパラメータ(重み)をエンコードし生成する、新しいリアルタイム意味セグメンテーションネットワークを提案する。 さらに、最大適応性を実現するために、各デコーダブロックの重みは空間的に異なる。 この目的のために,高レベルなコンテキスト特徴を描画するネスト型u-net,消費直前にデコーダ内の各ブロックの重みを生成するマルチヘッド重み生成モジュール,効率的なメモリ利用,新たな動的パッチワイズ畳み込みからなるプライマリネットワークからなる,新たなタイプのハイパーネットワークを設計した。 従来のブロックが少ないにもかかわらず、我々のアーキテクチャはリアルタイムのパフォーマンスを得る。 ランタイム対精度のトレードオフに関しては、一般的なセマンティックセグメンテーションベンチマークのstate of the art(sota)の結果を上回っています。 CityscapesとCamVidのリアルタイムセマンティックセグメンテーション。 コードはhttps://nirkin.com/h yperseg.com/。

We present a novel, real-time, semantic segmentation network in which the encoder both encodes and generates the parameters (weights) of the decoder. Furthermore, to allow maximal adaptivity, the weights at each decoder block vary spatially. For this purpose, we design a new type of hypernetwork, composed of a nested U-Net for drawing higher level context features, a multi-headed weight generating module which generates the weights of each block in the decoder immediately before they are consumed, for efficient memory utilization, and a primary network that is composed of novel dynamic patch-wise convolutions. Despite the usage of less-conventional blocks, our architecture obtains real-time performance. In terms of the runtime vs. accuracy trade-off, we surpass state of the art (SotA) results on popular semantic segmentation benchmarks: PASCAL VOC 2012 (val. set) and real-time semantic segmentation on Cityscapes, and CamVid. The code is available: https://nirkin.com/h yperseg.
翻訳日:2021-04-27 06:29:59 公開日:2021-04-08
# 天文画像のための自己教師付き表現学習

Self-Supervised Representation Learning for Astronomical Images ( http://arxiv.org/abs/2012.13083v2 )

ライセンス: Link先を確認
Md Abul Hayat, George Stein, Peter Harrington, Zarija Luki\'c, Mustafa Mustafa(参考訳) スカイサーベイは天文学における最大のデータ生成装置であり、有意義な科学情報を抽出するための自動化ツールが必須である。 ラベルを必要としない自己教師型学習は,様々な科学的タスクにおいて意味論的に有用なスカイサーベイ画像の表現を復元する。 これらの表現は、ラベル付きデータのみでトレーニングされた教師付きメソッドを上回る機能、または微調整された機能として直接使用できる。 我々は,Sloan Digital Sky Survey (SDSS) のマルチバンド銀河測光システムにおいて,画像表現の学習に対照的な学習フレームワークを適用した。 次に、銀河形態分類に使用し、Galaxy Zoo 2データセットとSDSSスペクトルのラベルを用いて、光度赤方偏移推定に微調整する。 どちらのダウンストリームタスクでも,同じ学習表現を用いて,教師ありの最先端結果を上回り,トレーニングに2~4分の1のラベルを用いながら教師ありモデルの精度を実現できることを示す。

Sky surveys are the largest data generators in astronomy, making automated tools for extracting meaningful scientific information an absolute necessity. We show that, without the need for labels, self-supervised learning recovers representations of sky survey images that are semantically useful for a variety of scientific tasks. These representations can be directly used as features, or fine-tuned, to outperform supervised methods trained only on labeled data. We apply a contrastive learning framework on multi-band galaxy photometry from the Sloan Digital Sky Survey (SDSS) to learn image representations. We then use them for galaxy morphology classification, and fine-tune them for photometric redshift estimation, using labels from the Galaxy Zoo 2 dataset and SDSS spectroscopy. In both downstream tasks, using the same learned representations, we outperform the supervised state-of-the-art results, and we show that our approach can achieve the accuracy of supervised models while using 2-4 times fewer labels for training.
翻訳日:2021-04-25 08:10:17 公開日:2021-04-08
# 消去による道路障害の検出

Detecting Road Obstacles by Erasing Them ( http://arxiv.org/abs/2012.13633v2 )

ライセンス: Link先を確認
Krzysztof Lis, Sina Honari, Pascal Fua, Mathieu Salzmann(参考訳) 車両は道路上の無数の障害物に遭遇し、事前に記録して検知器を訓練することは不可能である。 代わりに、イメージパッチを選択し、それらのパッチから障害を取り除く傾向がある周辺の道路テクスチャに塗り込みます。 次に、元のパッチと塗られたパッチとの相違を認識するためにトレーニングされたネットワークを使用します。 我々はまた、単眼道路障害物検出のための新しいデータセットを提供し、新しいデータセットと標準のFishyscapes Lost \& Foundベンチマークの両方において、我々のアプローチが最先端の手法よりも優れていることを示す。

Vehicles can encounter a myriad of obstacles on the road, and it is impossible to record them all beforehand to train a detector. Instead, we select image patches and inpaint them with the surrounding road texture, which tends to remove obstacles from those patches. We then uses a network trained to recognize discrepancies between the original patch and the inpainted one, which signals an erased obstacle. We also contribute a new dataset for monocular road obstacle detection, and show that our approach outperforms the state-of-the-art methods on both our new dataset and the standard Fishyscapes Lost \& Found benchmark.
翻訳日:2021-04-25 04:33:29 公開日:2021-04-08
# 教師付き学習モデルを用いた社会・行動科学論文の再現性予測

Predicting the Reproducibility of Social and Behavioral Science Papers Using Supervised Learning Models ( http://arxiv.org/abs/2104.04580v1 )

ライセンス: Link先を確認
Jian Wu, Rajal Nivargi, Sree Sai Teja Lanka, Arjun Manoj Menon, Sai Ajay Modukuri, Nishanth Nakshatri, Xin Wei, Zhuoer Wang, James Caverlee, Sarah M. Rajtmajer, C. Lee Giles(参考訳) 近年、社会・行動科学(SBS)における研究主張の再現性と堅牢性の検証に多大な努力が注がれており、その多くが資源集約的な複製プロジェクトに関与している。 本稿では,SBS論文の再現性の予測を,特徴セットに基づいた機械学習手法を用いて検討する。 本研究では,学術研究から5種類の特徴を抽出し,論文の再現性評価を支援する枠組みを提案する。 書誌機能、会場機能、著者機能は公開APIから収集されるか、パーサーをカスタマイズしたオープンソースの機械学習ライブラリを使用して抽出される。 p値などの統計的特徴は、ボディテキストのパターンを認識することによって抽出される。 資金情報などの意味的特徴は公開APIから得られるか、自然言語処理モデルを用いて抽出される。 我々は,個々の特徴と,その重要性の相互相関を解析し,人間の評価した真実ラベルの集合を予測する。 そこで我々は,SBS論文の再現性を予測する上で,比較的重要な役割を担う9つの上位機能のサブセットを特定した。 異なる特徴セットで訓練された10個の教師付き予測分類器の性能を比較することにより、結果が検証される。

In recent years, significant effort has been invested verifying the reproducibility and robustness of research claims in social and behavioral sciences (SBS), much of which has involved resource-intensive replication projects. In this paper, we investigate prediction of the reproducibility of SBS papers using machine learning methods based on a set of features. We propose a framework that extracts five types of features from scholarly work that can be used to support assessments of reproducibility of published research claims. Bibliometric features, venue features, and author features are collected from public APIs or extracted using open source machine learning libraries with customized parsers. Statistical features, such as p-values, are extracted by recognizing patterns in the body text. Semantic features, such as funding information, are obtained from public APIs or are extracted using natural language processing models. We analyze pairwise correlations between individual features and their importance for predicting a set of human-assessed ground truth labels. In doing so, we identify a subset of 9 top features that play relatively more important roles in predicting the reproducibility of SBS papers in our corpus. Results are verified by comparing performances of 10 supervised predictive classifiers trained on different sets of features.
翻訳日:2021-04-13 14:43:44 公開日:2021-04-08
# イメージスタイル転送のロバスト性の再考と改善

Rethinking and Improving the Robustness of Image Style Transfer ( http://arxiv.org/abs/2104.05623v1 )

ライセンス: Link先を確認
Pei Wang, Yijun Li, Nuno Vasconcelos(参考訳) ニューラルスタイルの転送手法の広範な研究は、事前訓練されたVGGネットワークによって抽出された特徴間の相関が、画像の視覚的スタイルをキャプチャする顕著な能力を持つことを示した。 しかし驚くべきことに、このスタイリゼーションの質は堅牢ではなく、resnetファミリのようなより先進的で軽量なネットワークの機能に適用すると格段に劣化することが多い。 異なるネットワークアーキテクチャで広範な実験を行うことで,VGGとResNetの主なアーキテクチャ的違いを表す残余接続が,スタイル伝達に適さない小さなエントロピーの特徴マップを生成することがわかった。 そこで我々は,resnetアーキテクチャのロバスト性を向上させるために,機能活性化のソフトマックス変換に基づく簡易かつ効果的な解を提案する。 実験の結果、この小さな魔法は、ランダムな重みを持つネットワークであっても、スタイライゼーション結果の質を大幅に改善できることが示されている。 これは、特徴抽出に使用されるアーキテクチャが、スタイル転送のタスクに学習重みの使用よりも重要であることを示唆している。

Extensive research in neural style transfer methods has shown that the correlation between features extracted by a pre-trained VGG network has a remarkable ability to capture the visual style of an image. Surprisingly, however, this stylization quality is not robust and often degrades significantly when applied to features from more advanced and lightweight networks, such as those in the ResNet family. By performing extensive experiments with different network architectures, we find that residual connections, which represent the main architectural difference between VGG and ResNet, produce feature maps of small entropy, which are not suitable for style transfer. To improve the robustness of the ResNet architecture, we then propose a simple yet effective solution based on a softmax transformation of the feature activations that enhances their entropy. Experimental results demonstrate that this small magic can greatly improve the quality of stylization results, even for networks with random weights. This suggests that the architecture used for feature extraction is more important than the use of learned weights for the task of style transfer.
翻訳日:2021-04-13 13:53:30 公開日:2021-04-08
# 重み付き信号時間論理のためのニューラルネットワーク

Neural Network for Weighted Signal Temporal Logic ( http://arxiv.org/abs/2104.05435v1 )

ライセンス: Link先を確認
Ruixuan Yan, Agung Julius(参考訳) 本稿では,ニューラルネットワークの特性と時間論理を結合した重み付き信号時間論理ニューラルネットワーク(wSTL-NN)を提案する。 重み付き信号時間論理(wSTL)公式は、論理演算子と時間演算子を組み合わせた部分形式から再帰的に構成される。 wSTLの量的セマンティクスは、重量が高いサブフォーミュラの量的満足度が、全体のwSTL公式の量的満足度により影響を与えるように定義される。 wSTL-NNでは、各ニューロンはwSTLサブフォーミュラに対応し、その出力は公式の量的満足度に対応する。 我々はwSTL式を時系列データを分類する機能としてwSTL-NNを使用する。 STL機能は従来の方法よりも説明しやすい。 wSTL-NNはエンドツーエンドの微分可能であり、wSTL公式の学習はバックプロパゲーションを使って行うことができる。 本稿では,wSTL-NNをスパーシフィケートする2つの手法を導入し,そのフレームワークを占有検知時系列データセットに適用し,オフィスルームの占有状況を予測する分類器を学習する。

In this paper, we propose a neuro-symbolic framework called weighted Signal Temporal Logic Neural Network (wSTL-NN) that combines the characteristics of neural networks and temporal logics. Weighted Signal Temporal Logic (wSTL) formulas are recursively composed of subformulas that are combined using logical and temporal operators. The quantitative semantics of wSTL is defined such that the quantitative satisfaction of subformulas with higher weights has more influence on the quantitative satisfaction of the overall wSTL formula. In the wSTL-NN, each neuron corresponds to a wSTL subformula, and its output corresponds to the quantitative satisfaction of the formula. We use wSTL-NN to represent wSTL formulas as features to classify time series data. STL features are more explainable than those used in classical methods. The wSTL-NN is end-to-end differentiable, which allows learning of wSTL formulas to be done using back-propagation. To reduce the number of weights, we introduce two techniques to sparsify the wSTL-NN.We apply our framework to an occupancy detection time-series dataset to learn a classifier that predicts the occupancy status of an office room.
翻訳日:2021-04-13 13:49:19 公開日:2021-04-08
# (参考訳) DenResCov-19:X線による新型コロナウイルス、肺炎、結核の自動分類のためのディープトランスファー学習ネットワーク [全文訳有]

DenResCov-19: A deep transfer learning network for robust automatic classification of COVID-19, pneumonia, and tuberculosis from X-rays ( http://arxiv.org/abs/2104.04006v1 )

ライセンス: CC BY 4.0
Michail Mamalakis, Andrew J. Swift, Bart Vorselaars, Surajit Ray, Simonne Weeks, Weiping Ding, Richard H. Clayton, Louise S. Mackenzie, Abhirup Banerjee(参考訳) 新型コロナウイルス(COVID-19)の世界的なパンデミックは、世界の人口の豊かさに影響を与え、迅速な検査、診断、治療の需要が高まっている。 新型コロナウイルス(COVID-19)とともに、他の肺炎や結核の病因も医療システムにとって新たな課題となっている。 本研究の目的は、胸部X線画像に基づいて、新型コロナウイルス、肺炎、結核の患者を診断するための新しい深層移行学習パイプラインを開発することである。 いくつかのケースでは、DenseNetとResnetは直交性能を持つ。 提案モデルでは、畳み込みニューラルネットワークブロックを備えた余剰層を作成し、これらの2つのモデルを組み合わせて、どちらのモデルよりも優れた性能を確立する。 同じ戦略は、相補的な性能を持つ2つの競合するネットワークが観察される他のアプリケーションで有用である。 提案したネットワークの性能を,2クラス(肺炎対健康),3クラス(COVID-19を含む),4クラス(結核を含む)の分類問題で検証した。 提案するネットワークは4つのデータセットすべてにおいてこれらの肺疾患の分類に成功しており、drknet、resnet、inception-v3のベンチマークネットワークを大きく改善した。 これらの新たな発見は、新型コロナウイルスやその他の肺疾患を検出する、最先端の高速トラック決定ネットワークを提供する。

The global pandemic of COVID-19 is continuing to have a significant effect on the well-being of global population, increasing the demand for rapid testing, diagnosis, and treatment. Along with COVID-19, other etiologies of pneumonia and tuberculosis constitute additional challenges to the medical system. In this regard, the objective of this work is to develop a new deep transfer learning pipeline to diagnose patients with COVID-19, pneumonia, and tuberculosis, based on chest x-ray images. We observed in some instances DenseNet and Resnet have orthogonal performances. In our proposed model, we have created an extra layer with convolutional neural network blocks to combine these two models to establish superior performance over either model. The same strategy can be useful in other applications where two competing networks with complementary performance are observed. We have tested the performance of our proposed network on two-class (pneumonia vs healthy), three-class (including COVID-19), and four-class (including tuberculosis) classification problems. The proposed network has been able to successfully classify these lung diseases in all four datasets and has provided significant improvement over the benchmark networks of DenseNet, ResNet, and Inception-V3. These novel findings can deliver a state-of-the-art pre-screening fast-track decision network to detect COVID-19 and other lung pathologies.
翻訳日:2021-04-13 00:52:08 公開日:2021-04-08
# (参考訳) CutPaste: 異常検出とローカライゼーションのための自己監視型学習 [全文訳有]

CutPaste: Self-Supervised Learning for Anomaly Detection and Localization ( http://arxiv.org/abs/2104.04015v1 )

ライセンス: CC BY 4.0
Chun-Liang Li, Kihyuk Sohn, Jinsung Yoon, Tomas Pfister(参考訳) 画像の未知の異常パターンを異常データなしで検出する欠陥検出のための高性能モデルの構築を目指す。 そこで本研究では,正規トレーニングデータのみを用いた異常検出のための2段階フレームワークを提案する。 まず、自己教師付き深層表現を学習し、学習した表現に基づいて生成的な一クラス分類器を構築する。 我々は、画像パッチをカットし、大きな画像のランダムな位置でペーストする単純なデータ拡張戦略であるCutPasteから正規データを分類することで表現を学習する。 MVTec異常検出データセットに関する実証研究は,提案アルゴリズムが実世界の様々な欠陥を検出可能であることを実証している。 我々は,スクラッチから表現を学習する場合に,従来の3.1 AUCによる改善をもたらす。 ImageNet上で事前訓練された表現の転送学習により、新しい最先端の96.6 AUCを実現する。 最後に、パッチから表現を学習し抽出するためにフレームワークを拡張し、トレーニング中にアノテーションなしで欠陥領域をローカライズできるようにします。

We aim at constructing a high performance model for defect detection that detects unknown anomalous patterns of an image without anomalous data. To this end, we propose a two-stage framework for building anomaly detectors using normal training data only. We first learn self-supervised deep representations and then build a generative one-class classifier on learned representations. We learn representations by classifying normal data from the CutPaste, a simple data augmentation strategy that cuts an image patch and pastes at a random location of a large image. Our empirical study on MVTec anomaly detection dataset demonstrates the proposed algorithm is general to be able to detect various types of real-world defects. We bring the improvement upon previous arts by 3.1 AUCs when learning representations from scratch. By transfer learning on pretrained representations on ImageNet, we achieve a new state-of-theart 96.6 AUC. Lastly, we extend the framework to learn and extract representations from patches to allow localizing defective areas without annotations during training.
翻訳日:2021-04-13 00:27:40 公開日:2021-04-08
# (参考訳) TRiPOD:野生における人間の軌道と詩のダイナミクス予測 [全文訳有]

TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild ( http://arxiv.org/abs/2104.04029v1 )

ライセンス: CC BY 4.0
Vida Adeli, Mahsa Ehsanpour, Ian Reid, Juan Carlos Niebles, Silvio Savarese, Ehsan Adeli, Hamid Rezatofighi(参考訳) 人間の軌道とポーズダイナミクスの合同予測は、ロボット工学や自律運転から監視システムまで、様々な応用の基本的な構成要素である。 身体力学の予測には、人間の相互作用やシーンに存在する物体に埋め込まれた微妙な情報をキャプチャする必要がある。 本稿では,入力空間と出力空間の両方において,人間と物体の相互作用をモデル化するために,グラフ注意ネットワークに基づく新しい軌道・ポーズダイナミクス(ニックネームtripod)を提案する。 モデルは、これらの異なるレベルの相互作用を効率的に融合させるために、グラフ上のメッセージパッシングインターフェースによって補われます。 さらに,実世界の課題を取り入れるために,推定された身体関節が各フレームで可視・視認可能かどうかを示す指標を提示する。 閉ざされたり センサーの視野外だったりします 最後に,2つの挑戦的データセット(PoseTrackと3DPW)に基づいて,この共同作業のための新しいベンチマークを提案し,世界空間における予測の有効性を評価するための評価指標を提案する。 評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。

Joint forecasting of human trajectory and pose dynamics is a fundamental building block of various applications ranging from robotics and autonomous driving to surveillance systems. Predicting body dynamics requires capturing subtle information embedded in the humans' interactions with each other and with the objects present in the scene. In this paper, we propose a novel TRajectory and POse Dynamics (nicknamed TRiPOD) method based on graph attentional networks to model the human-human and human-object interactions both in the input space and the output space (decoded future output). The model is supplemented by a message passing interface over the graphs to fuse these different levels of interactions efficiently. Furthermore, to incorporate a real-world challenge, we propound to learn an indicator representing whether an estimated body joint is visible/invisible at each frame, e.g. due to occlusion or being outside the sensor field of view. Finally, we introduce a new benchmark for this joint task based on two challenging datasets (PoseTrack and 3DPW) and propose evaluation metrics to measure the effectiveness of predictions in the global space, even when there are invisible cases of joints. Our evaluation shows that TRiPOD outperforms all prior work and state-of-the-art specifically designed for each of the trajectory and pose forecasting tasks.
翻訳日:2021-04-13 00:09:09 公開日:2021-04-08
# (参考訳) サンプリングによる分類のためのグラフ準同型のスケールアップ [全文訳有]

Scaling up graph homomorphism for classification via sampling ( http://arxiv.org/abs/2104.04040v1 )

ライセンス: CC BY 4.0
Paul Beaujean and Florian Sikora and Florian Yger(参考訳) 機能生成は、グラフ機械学習における調査のオープントピックである。 本稿では、同様の理論的性質と帰納バイアスを考慮した能力を有する同型数に対するスケーラブルな代替として、グラフ準同型密度特徴を用いて検討する。 そこで本研究では準同型密度の加法近似を計算する単純なサンプリングアルゴリズムの高性能実装を提案する。 グラフ機械学習の文脈では、サンプル準同型密度で訓練された単純な線形モデルが、標準グラフ分類データセットでグラフニューラルネットワークに匹敵するパフォーマンスを達成できることを実験で実証する。 最後に、このアルゴリズムがブルームフィルタで実装された場合、非常に大きなグラフにスケールできることを合成データ実験で示す。

Feature generation is an open topic of investigation in graph machine learning. In this paper, we study the use of graph homomorphism density features as a scalable alternative to homomorphism numbers which retain similar theoretical properties and ability to take into account inductive bias. For this, we propose a high-performance implementation of a simple sampling algorithm which computes additive approximations of homomorphism densities. In the context of graph machine learning, we demonstrate in experiments that simple linear models trained on sample homomorphism densities can achieve performance comparable to graph neural networks on standard graph classification datasets. Finally, we show in experiments on synthetic data that this algorithm scales to very large graphs when implemented with Bloom filters.
翻訳日:2021-04-12 23:46:06 公開日:2021-04-08
# (参考訳) 統計的視点による半教師付き分類器の学習:簡単なレビュー [全文訳有]

Semi-Supervised Learning of Classifiers from a Statistical Perspective: A Brief Review ( http://arxiv.org/abs/2104.04046v1 )

ライセンス: CC BY 4.0
Daniel Ahfock, Geoffrey J. McLachlan(参考訳) 分類器の訓練データが限られた数の分類された観測であるが、はるかに多くの分類されていない観測からなる状況において、機械学習における半教師付き学習(ssl)のアプローチに注目が集まっている。 これは、取得した未分類データに対して真のクラスラベルの提供を試みる際に生じる、高い取得コストとその後の財務、時間、倫理的な問題により、分類データの調達が極めてコストがかかるためである。 本稿では,この問題に対する統計sslのアプローチを概観し,部分的に分類されたサンプルから生成した分類器が,サンプルが完全に分類された場合よりも実際の予測誤差率を小さくできるという最近の結果に注目した。

There has been increasing attention to semi-supervised learning (SSL) approaches in machine learning to forming a classifier in situations where the training data for a classifier consists of a limited number of classified observations but a much larger number of unclassified observations. This is because the procurement of classified data can be quite costly due to high acquisition costs and subsequent financial, time, and ethical issues that can arise in attempts to provide the true class labels for the unclassified data that have been acquired. We provide here a review of statistical SSL approaches to this problem, focussing on the recent result that a classifier formed from a partially classified sample can actually have smaller expected error rate than that if the sample were completely classified.
翻訳日:2021-04-12 23:30:42 公開日:2021-04-08
# (参考訳) 不均一高密度サブハイパグラフ検出 [全文訳有]

Heterogeneous Dense Subhypergraph Detection ( http://arxiv.org/abs/2104.04047v1 )

ライセンス: CC BY 4.0
Mingao Yuan and Zuofeng Shang(参考訳) ヘテロジニアス高密度ハイパーグラフの存在をテストする問題について検討する。 ヌル仮説は異質な Erd\"{o}s-R\'{e}nyi の均一なランダムハイパーグラフに対応し、その代わりの仮説は高密度な部分ハイパーグラフを含む異質な均一なランダムハイパーグラフに対応する。 エッジ確率が分かっている場合に検出境界を確立し、仮説を識別するための漸近的に強力なテストを構築する。 また,エッジ確率を含まない適応テストを構築した。

We study the problem of testing the existence of a heterogeneous dense subhypergraph. The null hypothesis corresponds to a heterogeneous Erd\"{o}s-R\'{e}nyi uniform random hypergraph and the alternative hypothesis corresponds to a heterogeneous uniform random hypergraph that contains a dense subhypergraph. We establish detection boundaries when the edge probabilities are known and construct an asymptotically powerful test for distinguishing the hypotheses. We also construct an adaptive test which does not involve edge probabilities, and hence, is more practically useful.
翻訳日:2021-04-12 23:09:13 公開日:2021-04-08
# (参考訳) 車両価格予測モデルのための量子支援特徴選択 [全文訳有]

Quantum-Assisted Feature Selection for Vehicle Price Prediction Modeling ( http://arxiv.org/abs/2104.04049v1 )

ライセンス: CC BY 4.0
David Von Dollen, Florian Neukart, Daniel Weimer, Thomas B\"ack(参考訳) 機械学習モデル評価体制の中では、特徴選択はモデルの複雑さを減らし、一般化、モデル適合、予測の精度に関するモデル性能を改善する技術である。 しかし、$k$ の最適特徴のサブセットを見つけるための機能空間の探索は、既知のnp-hard問題である。 本研究では,価格予測の基盤となる回帰問題に対する一般化平均情報係数やピアソン相関係数など,組合せ探索を二元二次モデルとして符号化する指標について検討する。 提案手法のヒューリスティックとして最小冗長性最大関係性を用いて,組合せ探索に量子支援対古典サブルーチンを活用することで,実行時間とモデル性能という形でのトレードオフを検討する。 我々は,新しい指標を用いて合成データ上で最適な部分集合を求めるために,0.9点([0,1]の範囲)の精度スコアを得る。 価格予測の現実的な問題に対して,予測モデルを検証し,平均絶対誤差スコアを量子アシスト法$(1471.02 \pm{135.6})$,再帰的特徴除去法$(1678.3 \pm{143.7})$に対して比較検討した。 本研究は, 量子支援ルーチンを活用することで, 合成および実世界のデータに対する学習アルゴリズムへの入力次元性を低減し, 予測モデル出力の質を高める解を見出した。

Within machine learning model evaluation regimes, feature selection is a technique to reduce model complexity and improve model performance in regards to generalization, model fit, and accuracy of prediction. However, the search over the space of features to find the subset of $k$ optimal features is a known NP-Hard problem. In this work, we study metrics for encoding the combinatorial search as a binary quadratic model, such as Generalized Mean Information Coefficient and Pearson Correlation Coefficient in application to the underlying regression problem of price prediction. We investigate trade-offs in the form of run-times and model performance, of leveraging quantum-assisted vs. classical subroutines for the combinatorial search, using minimum redundancy maximal relevancy as the heuristic for our approach. We achieve accuracy scores of 0.9 (in the range of [0,1]) for finding optimal subsets on synthetic data using a new metric that we define. We test and cross-validate predictive models on a real-world problem of price prediction, and show a performance improvement of mean absolute error scores for our quantum-assisted method $(1471.02 \pm{135.6})$, vs. similar methodologies such as recursive feature elimination $(1678.3 \pm{143.7})$. Our findings show that by leveraging quantum-assisted routines we find solutions that increase the quality of predictive model output while reducing the input dimensionality to the learning algorithm on synthetic and real-world data.
翻訳日:2021-04-12 22:55:32 公開日:2021-04-08
# (参考訳) AlephBERT:ヘブライ語でNLPアプリケーションを始めるための大規模な事前学習言語モデル [全文訳有]

AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your Hebrew NLP Application With ( http://arxiv.org/abs/2104.04052v1 )

ライセンス: CC BY 4.0
Amit Seker, Elron Bandel, Dan Bareket, Idan Brusilovsky, Refael Shaked Greenfeld, Reut Tsarfaty(参考訳) 大規模事前学習言語モデル(PLM)は、言語理解技術の発達においてユビキタスになり、多くの人工知能の進歩の中心にある。 PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。 問題は2つある。 第一に、NLPモデルのトレーニングに利用できるヘブライ語リソースは、英語のリソースと同等ではない。 第二に、Hebrew PLMの進捗を評価するためのタスクやベンチマークはない。 この作業では、両方の側面を修復することを目指している。 まず,従来のヘブライ語plmよりも大きな語彙とデータセットでトレーニングされた,現代ヘブライ語のための大規模事前学習言語モデルalephbertを提案する。 第2に、AlephBERTを用いて、複数のヘブライ語タスクとベンチマークに対して、セグメンテーション、パート・オブ・Speech Tagging、フルモルフォロジー・タギング、ネームド・エンティティ認識、センティメント・アナリティクスを含む、新しい最先端の結果を提示する。 我々はAlephBERTモデルを一般公開し、ヘブライのNLPアプリケーションを開発するための単一エントリポイントを提供します。

Large Pre-trained Language Models (PLMs) have become ubiquitous in the development of language understanding technology and lie at the heart of many artificial intelligence advances. While advances reported for English using PLMs are unprecedented, reported advances using PLMs in Hebrew are few and far between. The problem is twofold. First, Hebrew resources available for training NLP models are not at the same order of magnitude as their English counterparts. Second, there are no accepted tasks and benchmarks to evaluate the progress of Hebrew PLMs on. In this work we aim to remedy both aspects. First, we present AlephBERT, a large pre-trained language model for Modern Hebrew, which is trained on larger vocabulary and a larger dataset than any Hebrew PLM before. Second, using AlephBERT we present new state-of-the-art results on multiple Hebrew tasks and benchmarks, including: Segmentation, Part-of-Speech Tagging, full Morphological Tagging, Named-Entity Recognition and Sentiment Analysis. We make our AlephBERT model publicly available, providing a single point of entry for the development of Hebrew NLP applications.
翻訳日:2021-04-12 22:41:20 公開日:2021-04-08
# (参考訳) 差分からコミットメッセージを生成するスケッチベースニューラルモデル [全文訳有]

A Sketch-Based Neural Model for Generating Commit Messages from Diffs ( http://arxiv.org/abs/2104.04087v1 )

ライセンス: CC BY 4.0
Nicolae-Teodor Pavel and Traian Rebedea(参考訳) コミットメッセージは、特に大規模チームで働く場合、ソフトウェア開発に重要な影響を与える。 異なるスタイルの書き方を持つ複数の開発者は、しばしば同じプロジェクトに関与します。 このため、有益なコミットメッセージを書くという厳密なパターンを維持することは困難であり、最も頻繁な問題は、これらのメッセージが十分に記述できないことである。 本稿では、コード差分をコミットメッセージに変換するためにニューラルネットワーク変換(NMT)技術を適用し、このタスクのために改良されたスケッチベースのエンコーダを提案する。 私たちはアプローチを3つに分けました。 まず、この問題に対してより適切なNMTベースラインを見つけることに焦点を当てる。 次に、NMTモデルの性能は、特定のファイルタイプを含む例をトレーニングすることで改善できることを示す。 最後に,最近のコード生成手法に触発された新しいスケッチベースニューラルモデルを紹介し,スケッチベースのエンコーダが既存のアートソリューションを大幅に上回っていることを示す。 結果は、この改善が特にJavaソースコードファイルに関係していることを強調し、このタスクのために近年導入された2つの異なるデータセットを調べる。

Commit messages have an important impact in software development, especially when working in large teams. Multiple developers who have a different style of writing may often be involved in the same project. For this reason, it may be difficult to maintain a strict pattern of writing informative commit messages, with the most frequent issue being that these messages are not descriptive enough. In this paper we apply neural machine translation (NMT) techniques to convert code diffs into commit messages and we present an improved sketch-based encoder for this task. We split the approach into three parts. Firstly, we focus on finding a more suitable NMT baseline for this problem. Secondly, we show that the performance of the NMT models can be improved by training on examples containing a specific file type. Lastly, we introduce a novel sketch-based neural model inspired by recent approaches used for code generation and we show that the sketch-based encoder significantly outperforms existing state of the art solutions. The results highlight that this improvement is relevant especially for Java source code files, by examining two different datasets introduced in recent years for this task.
翻訳日:2021-04-12 22:27:58 公開日:2021-04-08
# (参考訳) 因果判定と因果効果推定は同一ではない...なぜ重要か [全文訳有]

Causal Decision Making and Causal Effect Estimation Are Not the Same... and Why It Matters ( http://arxiv.org/abs/2104.04103v1 )

ライセンス: CC BY 4.0
Carlos Fern\'andez-Lor\'ia and Foster Provost(参考訳) 大規模意思決定(CDM)はビジネスの日常的な部分となり、ますますCDMは機械学習アルゴリズムに基づいている。 例えば、企業は消費者の行動に影響を及ぼす目的で、しばしばオファー、インセンティブ、レコメンデーションをターゲットにしている。 近年,機械学習モデルを用いたCDMと因果効果推定(CEE)に関する研究が加速されている。 この記事では、CDMはCEEと同一ではなく、正反対に正確なCEEは正確なCDMには必要ない、という重要な視点を強調します。 私たちの経験では、これは実践者やほとんどの研究者にはよく理解されていない。 技術的には、興味の見積は異なり、モデリングとCDMの統計モデルの使用の両方に重要な意味を持つ。 私たちは、これらの3つの意味を強調するために、最近の研究を取り上げます。 1) 因果的機械学習の目的関数を慎重に検討すべきであり, 可能であれば, 正確な効果サイズ推定よりも, 正確な「処理割り当て」を最適化すべきである。 (2)コンファウンディングはcdmに対してceeと同じ影響を及ぼさない。 cdmをサポートするためには、根拠のないデータと同様に、根拠のないデータで学ぶのがよいかもしれない。 最後に、(3)因果的統計的モデリングはcdmをサポートするために全く必要ではないかもしれない。 この観察は、最初は「不安定な」ように見える、少なくとも1つの一般的なcdmの実践を説明するのに役立ちます。 我々の見解では、これらの観測は将来の研究のためにかなりの肥大な土台を開く。 私たちの視点を完全に共有するかどうかに関わらず、複数の貢献分野の関連記事を参照することで、この分野の今後の研究を促進することを願っています。

Causal decision making (CDM) at scale has become a routine part of business, and increasingly CDM is based on machine learning algorithms. For example, businesses often target offers, incentives, and recommendations with the goal of affecting consumer behavior. Recently, we have seen an acceleration of research related to CDM and to causal effect estimation (CEE) using machine learned models. This article highlights an important perspective: CDM is not the same as CEE, and counterintuitively, accurate CEE is not necessary for accurate CDM. Our experience is that this is not well understood by practitioners nor by most researchers. Technically, the estimand of interest is different, and this has important implications both for modeling and for the use of statistical models for CDM. We draw on recent research to highlight three of these implications. (1) We should carefully consider the objective function of the causal machine learning, and if possible, we should optimize for accurate "treatment assignment" rather than for accurate effect-size estimation. (2) Confounding does not have the same effect on CDM as it does on CEE. The upshot here is that for supporting CDM it may be just as good to learn with confounded data as with unconfounded data. Finally, (3) causal statistical modeling may not be necessary at all to support CDM, because there may be (and perhaps often is) a proxy target for statistical modeling that can do as well or better. This observation helps to explain at least one broad common CDM practice that seems "wrong" at first blush: the widespread use of non-causal models for targeting interventions. Our perspective is that these observations open up substantial fertile ground for future research. Whether or not you share our perspective completely, we hope we facilitate future research in this area by pointing to related articles from multiple contributing fields.
翻訳日:2021-04-12 22:11:49 公開日:2021-04-08
# (参考訳) イメージベース仮想フィッティングルーム [全文訳有]

Image-based Virtual Fitting Room ( http://arxiv.org/abs/2104.04104v1 )

ライセンス: CC BY-SA 4.0
Zhiling Huang and Junwen Bu and Jie Chen(参考訳) バーチャルフィッティングルームは、Eコマースプラットフォームやファッションデザイナーにとって難しいが便利な機能だ。 既存の作品はごくわずかな種類のファッションアイテムしか検出できない。 また、選択したファッションアイテムのテクスチャやスタイルの変更も不十分であった。 本稿では,この問題に対処するための新しいアプローチを提案する。 まずMask R-CNNを用いて、異なるファッションアイテムの領域を抽出し、選択したファッションアイテムのスタイルを変更するためにNeural Style Transferを用いた。 私たちが使ったデータセットはPaperDollのデータセットとeBayのModaNetが提供するアノテーションのイメージで構成されています。 我々は8つのモデルと最良のモデルで、68.72%のmAP、0.2%のASDRで、定量と定性の両方で非常に優れたベースラインモデルを訓練した。

Virtual fitting room is a challenging task yet useful feature for e-commerce platforms and fashion designers. Existing works can only detect very few types of fashion items. Besides they did poorly in changing the texture and style of the selected fashion items. In this project, we propose a novel approach to address this problem. We firstly used Mask R-CNN to find the regions of different fashion items, and secondly used Neural Style Transfer to change the style of the selected fashion items. The dataset we used is composed of images from PaperDoll dataset and annotations provided by eBay's ModaNet. We trained 8 models and our best model massively outperformed baseline models both quantitatively and qualitatively, with 68.72% mAP, 0.2% ASDR.
翻訳日:2021-04-12 21:58:39 公開日:2021-04-08
# (参考訳) FACESEC: 顔認識システムのためのきめ細かいロバスト性評価フレームワーク [全文訳有]

FACESEC: A Fine-grained Robustness Evaluation Framework for Face Recognition Systems ( http://arxiv.org/abs/2104.04107v1 )

ライセンス: CC BY 4.0
Liang Tong, Zhengzhang Chen, Jingchao Ni, Wei Cheng, Dongjin Song, Haifeng Chen, Yevgeniy Vorobeychik(参考訳) 顔認識システムのきめ細かい堅牢性評価のためのフレームワークであるFACESECを提案する。 FACESECの評価は、摂動の性質(ピクセルレベルまたは顔のアクセサリーなど)、攻撃者のシステム知識(トレーニングデータと学習アーキテクチャに関する)、目標(ドッジまたは偽装)、能力(個々の入力またはそれらのセットに合わせた)の4つの次元に沿って行われる。 我々は、FACESECを用いて、5つの顔認識システムをクローズドセットとオープンセットの両方で研究し、これらに対する物理的に実現可能な攻撃を防御するための最先端のアプローチを評価する。 ニューラルネットワークの正確な知識は、ブラックボックス攻撃におけるトレーニングデータの知識よりもはるかに重要である。 さらに,オープンセットの顔認識システムは,異なるタイプの攻撃下でのクローズドセットシステムよりも脆弱であることがわかった。 しかし、他の脅威モデルのバリエーションに対する攻撃の有効性は、摂動の性質とニューラルネットワークアーキテクチャの両方に大きく依存しているように見える。 例えば、敵のフェイスマスクを含む攻撃は通常、敵に訓練されたモデルに対してもより強力であり、ArcFaceアーキテクチャは他のものよりも堅牢である。

We present FACESEC, a framework for fine-grained robustness evaluation of face recognition systems. FACESEC evaluation is performed along four dimensions of adversarial modeling: the nature of perturbation (e.g., pixel-level or face accessories), the attacker's system knowledge (about training data and learning architecture), goals (dodging or impersonation), and capability (tailored to individual inputs or across sets of these). We use FACESEC to study five face recognition systems in both closed-set and open-set settings, and to evaluate the state-of-the-art approach for defending against physically realizable attacks on these. We find that accurate knowledge of neural architecture is significantly more important than knowledge of the training data in black-box attacks. Moreover, we observe that open-set face recognition systems are more vulnerable than closed-set systems under different types of attacks. The efficacy of attacks for other threat model variations, however, appears highly dependent on both the nature of perturbation and the neural network architecture. For example, attacks that involve adversarial face masks are usually more potent, even against adversarially trained models, and the ArcFace architecture tends to be more robust than the others.
翻訳日:2021-04-12 21:46:39 公開日:2021-04-08
# (参考訳) XFORMAL:多言語形式的スタイル転送のためのベンチマーク [全文訳有]

XFORMAL: A Benchmark for Multilingual Formality Style Transfer ( http://arxiv.org/abs/2104.04108v1 )

ライセンス: CC BY 4.0
Eleftheria Briakou, Di Lu, Ke Zhang, Joel Tetreault(参考訳) ブラジルのポルトガル語、フランス語、イタリア語の非公式テキストの複数の形式的な改定のベンチマークであるXFORMALを作成し、リリースすることで、多言語スタイルの転送に向けた第一歩を踏み出します。 XFORMALの結果は、最先端のスタイル転送アプローチは単純なベースラインに近い性能を示し、多言語移動ではスタイル転送がさらに難しいことを示唆している。

We take the first step towards multilingual style transfer by creating and releasing XFORMAL, a benchmark of multiple formal reformulations of informal text in Brazilian Portuguese, French, and Italian. Results on XFORMAL suggest that state-of-the-art style transfer approaches perform close to simple baselines, indicating that style transfer is even more challenging when moving multilingual.
翻訳日:2021-04-12 21:25:54 公開日:2021-04-08
# (参考訳) 雑音ラベル付きデータによる学習の理論解析 [全文訳有]

A Theoretical Analysis of Learning with Noisily Labeled Data ( http://arxiv.org/abs/2104.04114v1 )

ライセンス: CC BY 4.0
Yi Xu, Qi Qian, Hao Li, Rong Jin(参考訳) ノイズラベルは、深い教師付き学習において非常に一般的である。 多くの研究は、ノイズラベルの深層学習の堅牢性を改善する傾向にあるが、希少な研究は、ノイズラベル付きデータによる学習の訓練行動を理論的に説明することに焦点を当てている。 本稿では,その2つの現象である清潔なデータファーストと相転移を理論的に説明して考察する。 具体的には、最初のエポックトレーニングで、クリーンラベルの例が最初に学習されることを示す。 次に,クリーンなデータステージから学習した後,不正なクラスラベルの割合が一定のしきい値よりも小さい場合,連続的なトレーニングモデルにより,テストエラーのさらなる改善が期待できることを示す。

Noisy labels are very common in deep supervised learning. Although many studies tend to improve the robustness of deep training for noisy labels, rare works focus on theoretically explaining the training behaviors of learning with noisily labeled data, which is a fundamental principle in understanding its generalization. In this draft, we study its two phenomena, clean data first and phase transition, by explaining them from a theoretical viewpoint. Specifically, we first show that in the first epoch training, the examples with clean labels will be learned first. We then show that after the learning from clean data stage, continuously training model can achieve further improvement in testing error when the rate of corrupted class labels is smaller than a certain threshold; otherwise, extensively training could lead to an increasing testing error.
翻訳日:2021-04-12 21:03:06 公開日:2021-04-08
# 不均一エンティティ表現のマッチングのためのディープインデックスアクティブラーニング

Deep Indexed Active Learning for Matching Heterogeneous Entity Representations ( http://arxiv.org/abs/2104.03986v1 )

ライセンス: Link先を確認
Arjit Jain, Sunita Sarawagi, Prithviraj Sen(参考訳) レコードの2つの大きなリストが与えられたとき、エンティティ解決(er)のタスクは、同じ現実世界のエンティティに対応するリストのデカルト積からペアを見つけることである。 通常、ERのようなタスクにおける受動的学習法は、有用なモデルを生成するために大量のラベル付きデータを必要とする。 アクティブラーニングは、低リソース環境でerに有望なアプローチである。 しかし、ユーザがラベルを付けるための情報的サンプルを見つけるための検索空間は、アクティブな学習をスケールしにくくするインスタンスペアタスクにおいて、二次的に成長する。 この設定では、手作りの述語、事前訓練された言語モデルの埋め込み、あるいはカルテシアン製品から不可能なペアを抽出するためのルール学習に依存している。 このブロッキングステップは、低いリコールにつながる製品領域の重要な領域を見逃す可能性がある。 本稿では,ブロッキングのリコールとブロックペアのマッチング精度を最大化するために,組込みを共同で学習するスケーラブルなアクティブラーニング手法であるdiardを提案する。 DIALはIndex-By-Committeeフレームワークを使用しており、各委員会メンバーは強力なトランスフォーマーモデルに基づいて表現を学ぶ。 学習データの作成におけるマッチングとブロッカの驚くべき違いと,そのパラメータのトレーニングに使用される目的について注目する。 5つのベンチマークデータセットと多言語レコードマッチングデータセットの実験は、精度、リコール、実行時間の観点から、我々のアプローチの有効性を示している。 コードはhttps://github.com/A rjitJ/DIALで入手できる。

Given two large lists of records, the task in entity resolution (ER) is to find the pairs from the Cartesian product of the lists that correspond to the same real world entity. Typically, passive learning methods on tasks like ER require large amounts of labeled data to yield useful models. Active Learning is a promising approach for ER in low resource settings. However, the search space, to find informative samples for the user to label, grows quadratically for instance-pair tasks making active learning hard to scale. Previous works, in this setting, rely on hand-crafted predicates, pre-trained language model embeddings, or rule learning to prune away unlikely pairs from the Cartesian product. This blocking step can miss out on important regions in the product space leading to low recall. We propose DIAL, a scalable active learning approach that jointly learns embeddings to maximize recall for blocking and accuracy for matching blocked pairs. DIAL uses an Index-By-Committee framework, where each committee member learns representations based on powerful transformer models. We highlight surprising differences between the matcher and the blocker in the creation of the training data and the objective used to train their parameters. Experiments on five benchmark datasets and a multilingual record matching dataset show the effectiveness of our approach in terms of precision, recall and running time. Code is available at https://github.com/A rjitJ/DIAL
翻訳日:2021-04-12 14:15:38 公開日:2021-04-08
# 条件付き対向ネットワークを持つ再設計都市

Re-designing cities with conditional adversarial networks ( http://arxiv.org/abs/2104.04013v1 )

ライセンス: Link先を確認
Mohamed R. Ibrahim, James Haworth, Nicola Christie(参考訳) 本稿は,1)都市介入政策,2)介入が必要な場所を特定できる注意マップ,3)介入実施後の高解像度街並み画像(1024×1024または1536×1536)を作成することにより,都市景観の街並み画像を再設計する条件付き生成広告ネットワークを提案する。 また,この研究を可能にした実生活シナリオによる都市内介入前後の街路レベル画像を含む新たなデータセットも導入する。 提案手法は実写画像に適用した様々な都市介入の訓練を行っている。 トレーニングされたモデルは、リモデリング都市で強力なパフォーマンスを示し、単一のGPUで計算される他のドメインで画像から画像への変換を適用する既存の手法よりも優れています。 この研究は、顔のランドマーク操作やセマンティックセグメンテーションからのイメージ合成の主流を超えて、敵対的学習に基づく都市の異なる属性を再考し、再設計する上で、機械学習が役割を果たすための扉を開く。

This paper introduces a conditional generative adversarial network to redesign a street-level image of urban scenes by generating 1) an urban intervention policy, 2) an attention map that localises where intervention is needed, 3) a high-resolution street-level image (1024 X 1024 or 1536 X1536) after implementing the intervention. We also introduce a new dataset that comprises aligned street-level images of before and after urban interventions from real-life scenarios that make this research possible. The introduced method has been trained on different ranges of urban interventions applied to realistic images. The trained model shows strong performance in re-modelling cities, outperforming existing methods that apply image-to-image translation in other domains that is computed in a single GPU. This research opens the door for machine intelligence to play a role in re-thinking and re-designing the different attributes of cities based on adversarial learning, going beyond the mainstream of facial landmarks manipulation or image synthesis from semantic segmentation.
翻訳日:2021-04-12 14:15:00 公開日:2021-04-08
# 生成的ランドマーク

Generative Landmarks ( http://arxiv.org/abs/2104.04055v1 )

ライセンス: Link先を確認
David Ferman, Gaurav Bharaj(参考訳) 時間的一貫性とパーソナライゼーションを改善したランドマーク検出のための汎用的アプローチを提案する。 わずかなランドマーク検出手法のほとんどは、時間的ボリューム上のアノテーションの不整合が最適なランドマーク学習につながる、手作業でラベル付けされたランドマークに依存している。 さらに、パーソナライズされた高品質なランドマークは達成が難しいことが多い。 画像翻訳問題としてランドマーク検出を提案する。 2セットの未表示のマーク(ペイント付き)と未マークの動画を撮影した。 次に,生成的逆ネットワークと周期的一貫性を用いて,非マーク画像のマーカーをシミュレートするランドマークテンプレートの変形を予測した。 我々の新しい手法は手動でラベル付けされた先行情報に頼らず、時間的に一貫性があり、画像クラスに依存しない顔と手動ランドマークの検出例を示す。

We propose a general purpose approach to detect landmarks with improved temporal consistency, and personalization. Most sparse landmark detection methods rely on laborious, manually labelled landmarks, where inconsistency in annotations over a temporal volume leads to sub-optimal landmark learning. Further, high-quality landmarks with personalization is often hard to achieve. We pose landmark detection as an image translation problem. We capture two sets of unpaired marked (with paint) and unmarked videos. We then use a generative adversarial network and cyclic consistency to predict deformations of landmark templates that simulate markers on unmarked images until these images are indistinguishable from ground-truth marked images. Our novel method does not rely on manually labelled priors, is temporally consistent, and image class agnostic -- face, and hand landmarks detection examples are shown.
翻訳日:2021-04-12 14:11:31 公開日:2021-04-08
# 味付けタコトロン : 韻律言語的特徴の条件付き学習

Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features ( http://arxiv.org/abs/2104.04050v1 )

ライセンス: Link先を確認
Mahsa Elyasi, Gaurav Bharaj(参考訳) tacotron-2のようなtts(neural sequence-to-sequence text-to-speech synthesis)は、テキストを高品質な音声に変換する。 しかし、自然韻律による音声生成は依然として課題である。 安田ら。 アル 自然言語とは異なり、Tacotron-2のエンコーダは韻律的特徴(例)を完全に表現していない。 英語では音節の強勢)は文字から始まり、フラットな基本周波数の変化をもたらす。 本研究では,より自然な韻律を実現するために,英語の2つの基本韻律的特徴であるストレス音節とピッチアクセントにTacotron-2を調和させる手法を提案する。 この目的のために、分類器を用いて、これらの特徴をエンドツーエンドで学習し、Tacotron-2のText-To-Mel Spectrogram(pre-enco der, post-encoder, in-decoder)の3つの部分に特徴条件を適用する。 さらに,プリエンコーダ段階とイントラデコーダ段階における協調的な特徴により,韻律的自然合成音声(vs. tacotron-2)が生成され,より正確なピッチアクセントとストレスパターンを持つ音声が生成できることを示した。 定量的評価の結果,合成音声と自然音声の間には,高い基本周波数パターン相関と低いメルケプストラム歪み測度が得られることがわかった。 主観評価の結果,提案手法の平均評価スコアは,自然発話(ljspeechコーパス)4.28に対して,タコトロン-2,3.91よりも4.14フェア高い値を示した。

Neural sequence-to-sequence text-to-speech synthesis (TTS), such as Tacotron-2, transforms text into high-quality speech. However, generating speech with natural prosody still remains a challenge. Yasuda et. al. show that unlike natural speech, Tacotron-2's encoder doesn't fully represent prosodic features (e.g. syllable stress in English) from characters, and result in flat fundamental frequency variations. In this work, we propose a novel carefully designed strategy for conditioning Tacotron-2 on two fundamental prosodic features in English -- stress syllable and pitch accent, that help achieve more natural prosody. To this end, we use of a classifier to learn these features in an end-to-end fashion, and apply feature conditioning at three parts of Tacotron-2's Text-To-Mel Spectrogram: pre-encoder, post-encoder, and intra-decoder. Further, we show that jointly conditioned features at pre-encoder and intra-decoder stages result in prosodically natural synthesized speech (vs. Tacotron-2), and allows the model to produce speech with more accurate pitch accent and stress patterns. Quantitative evaluations show that our formulation achieves higher fundamental frequency contour correlation, and lower Mel Cepstral Distortion measure between synthesized and natural speech. And subjective evaluation shows that the proposed method's Mean Opinion Score of 4.14 fairs higher than baseline Tacotron-2, 3.91, when compared against natural speech (LJSpeech corpus), 4.28.
翻訳日:2021-04-12 14:11:16 公開日:2021-04-08
# 移動学習方言に対するGrapheme-to-Phoneme変換モデル

Grapheme-to-Phoneme Transformer Model for Transfer Learning Dialects ( http://arxiv.org/abs/2104.04091v1 )

ライセンス: Link先を確認
Eric Engelhart, Mahsa Elyasi, Gaurav Bharaj(参考訳) Grapheme-to-Phoneme( G2P)モデルは、単語を発音に変換する。 古典的なG2P法はルールベースのシステムと発音辞書を含み、現代のG2P法はLSTMやTransformerベースのアテンションモデルなどの学習を取り入れている。 通常、辞書ベースの手法では、構築にかなりの手作業が必要であり、見当たらない単語への適応性は限られている。 そして、トランスフォーマーベースのモデルは、重要なトレーニングデータを必要とし、特に限られたデータを持つ方言では、うまく一般化しない。 英語の未熟な方言に適応するトランスフォーマティブ・アテンション・モデルを用いて,小型辞書を用いた新しい使用法を提案する。 本手法は,テキストから音声へのアクセント変換や,発音辞書サイズが制限された方言のロバストなg2pモデルの構築に応用できる可能性が示唆された。 私たちはインディアンとイギリス人の2つの英語方言を実験した。 イギリス英語辞書の1000語を用いてゼロから訓練されたモデルで、14211語が持たれると、完全な辞書を用いて生成されたテストセット上での音素誤り率(PER)は26.877%になる。 同じモデルはCMUDict American English Dictionaryで事前訓練され、同じデータセットで微調整され、PERはテストセットで2.469%となる。

Grapheme-to-Phoneme (G2P) models convert words to their phonetic pronunciations. Classic G2P methods include rule-based systems and pronunciation dictionaries, while modern G2P systems incorporate learning, such as, LSTM and Transformer-based attention models. Usually, dictionary-based methods require significant manual effort to build, and have limited adaptivity on unseen words. And transformer-based models require significant training data, and do not generalize well, especially for dialects with limited data. We propose a novel use of transformer-based attention model that can adapt to unseen dialects of English language, while using a small dictionary. We show that our method has potential applications for accent transfer for text-to-speech, and for building robust G2P models for dialects with limited pronunciation dictionary size. We experiment with two English dialects: Indian and British. A model trained from scratch using 1000 words from British English dictionary, with 14211 words held out, leads to phoneme error rate (PER) of 26.877%, on a test set generated using the full dictionary. The same model pretrained on CMUDict American English dictionary, and fine-tuned on the same dataset leads to PER of 2.469% on the test set.
翻訳日:2021-04-12 14:10:49 公開日:2021-04-08
# 自律システムにおけるマルチモーダルマルチタスク学習のためのソフトウェア/ハードウェア共同設計

Software/Hardware Co-design for Multi-modal Multi-task Learning in Autonomous Systems ( http://arxiv.org/abs/2104.04000v1 )

ライセンス: Link先を確認
Cong Hao, Deming Chen(参考訳) 結果の品質(QoR)とサービス品質(QoS)を同時に最適化することは、非常に難しい。 まず、複数の入力ソースがあり、例えば、異なるセンサーからのマルチモーダルデータがあり、様々なデータ前処理、センサー融合、特徴集約が必要である。 第2に、知覚、ローカライゼーション、制御など、さまざまなAIモデルを同時に実行するために必要な複数のタスクがある。 第三に、コンピューティングと制御システムは異質であり、組み込みCPU、GPU、FPGA、専用アクセラレータなどの様々な特徴を持つハードウェアコンポーネントで構成されている。 したがって、自律システムは基本的に、ハードウェアの性能と実装戦略を認識する必要があるマルチモーダルマルチタスク(mmmt)学習を必要とする。 MMMT学習は研究の関心を集めているが、自律システムにおけるその応用はいまだに未熟である。 本稿ではまず,自律システムにMMMT技術を適用する機会について論じ,解決すべき課題について論じる。 また、特に電力/リソース制限や異種プラットフォームにおいて、自律システムにとって重要なmmmtモデルとハードウェアの共同設計の必要性と機会について論じる。 我々は,mmmtモデルと異種ハードウェア実装の共設計を,ソリューション品質の向上と全体的な電力消費とクリティカルパス遅延の低減を目的として,差別化可能な最適化問題として定式化した。 我々は、自律システムとソフトウェア/ハードウェアの共同設計ソリューションにおけるMMMTのさらなる探索を提唱する。

Optimizing the quality of result (QoR) and the quality of service (QoS) of AI-empowered autonomous systems simultaneously is very challenging. First, there are multiple input sources, e.g., multi-modal data from different sensors, requiring diverse data preprocessing, sensor fusion, and feature aggregation. Second, there are multiple tasks that require various AI models to run simultaneously, e.g., perception, localization, and control. Third, the computing and control system is heterogeneous, composed of hardware components with varied features, such as embedded CPUs, GPUs, FPGAs, and dedicated accelerators. Therefore, autonomous systems essentially require multi-modal multi-task (MMMT) learning which must be aware of hardware performance and implementation strategies. While MMMT learning has been attracting intensive research interests, its applications in autonomous systems are still underexplored. In this paper, we first discuss the opportunities of applying MMMT techniques in autonomous systems and then discuss the unique challenges that must be solved. In addition, we discuss the necessity and opportunities of MMMT model and hardware co-design, which is critical for autonomous systems especially with power/resource-limit ed or heterogeneous platforms. We formulate the MMMT model and heterogeneous hardware implementation co-design as a differentiable optimization problem, with the objective of improving the solution quality and reducing the overall power consumption and critical path latency. We advocate for further explorations of MMMT in autonomous systems and software/hardware co-design solutions.
翻訳日:2021-04-12 14:10:11 公開日:2021-04-08
# カウンターファクトリアルを用いた気候変動の処理--データ拡張による不確実な気候における作物の成長予測

Handling Climate Change Using Counterfactuals: Using Counterfactuals in Data Augmentation to Predict Crop Growth in an Uncertain Climate Future ( http://arxiv.org/abs/2104.04008v1 )

ライセンス: Link先を確認
Mohammed Temraz and Eoin Kenny and Elodie Ruelle and Laurence Shalloo and Barry Smyth and Mark T Keane(参考訳) 気候変動は人類にとって大きな課題であり、特に農業への影響において、責任あるAIが直面するべき課題である。 本稿では,草地経営支援による持続的農業を支援するcbrシステム(pbi-cbr)について,作物生育予測の正確性について検討する。 気候変動に伴い、PBI-CBRの歴史的ケースは将来の草の生育を予測するのにあまり役に立たない。 したがって、データ拡張を用いてPBI-CBRを拡張し、(XAIからの)反ファクト的手法を用いて、特に破壊的な気候イベントに対処する。 研究1は、PBI-CBRが気候破壊期における草の生長を予測するために、歴史的、極端な気候変動(気候異常なケース)を使用する傾向があることを示している。 研究2では,2018年の干ばつ時のpbicbrの予測精度が,アウトバウンダリ上の反事実として生成される合成異常値によって向上することを示した。 この研究では、インスタンスベースのカウンターファクチュアルメソッドが、ベンチマーク、制約誘導メソッドよりも優れていることも示しています。

Climate change poses a major challenge to humanity, especially in its impact on agriculture, a challenge that a responsible AI should meet. In this paper, we examine a CBR system (PBI-CBR) designed to aid sustainable dairy farming by supporting grassland management, through accurate crop growth prediction. As climate changes, PBI-CBRs historical cases become less useful in predicting future grass growth. Hence, we extend PBI-CBR using data augmentation, to specifically handle disruptive climate events, using a counterfactual method (from XAI). Study 1 shows that historical, extreme climate-events (climate outlier cases) tend to be used by PBI-CBR to predict grass growth during climate disrupted periods. Study 2 shows that synthetic outliers, generated as counterfactuals on a outlier-boundary, improve the predictive accuracy of PBICBR, during the drought of 2018. This study also shows that an instance-based counterfactual method does better than a benchmark, constraint-guided method.
翻訳日:2021-04-12 14:06:45 公開日:2021-04-08
# Direct-PoseNet: Photometric Consistencyによる絶対的なPose回帰

Direct-PoseNet: Absolute Pose Regression with Photometric Consistency ( http://arxiv.org/abs/2104.04073v1 )

ライセンス: Link先を確認
Shuai Chen, Zirui Wang, Victor Prisacariu(参考訳) 本稿では,絶対ポーズ回帰 (apr) ネットワークと,新しいビュー合成に基づく直接マッチングモジュールを組み合わせた再局在化パイプラインを提案する。 i) 微分可能レンダリングによる姿勢回帰ネットワークを洗練するための測光的監督信号を提供する直接マッチングモジュールを設計し, ii) 姿勢回帰において, 従来の四元数からso(3)へ回転表現を変換し, 回転と翻訳損失項のバランスを取る必要をなくした。 その結果,本ネットワークは,7-scenesベンチマークとllffデータセットにおいて,すべての単一画像apr手法において最先端の性能を実現する。

We present a relocalization pipeline, which combines an absolute pose regression (APR) network with a novel view synthesis based direct matching module, offering superior accuracy while maintaining low inference time. Our contribution is twofold: i) we design a direct matching module that supplies a photometric supervision signal to refine the pose regression network via differentiable rendering; ii) we modify the rotation representation from the classical quaternion to SO(3) in pose regression, removing the need for balancing rotation and translation loss terms. As a result, our network Direct-PoseNet achieves state-of-the-art performance among all other single-image APR methods on the 7-Scenes benchmark and the LLFF dataset.
翻訳日:2021-04-12 14:06:25 公開日:2021-04-08
# 自然言語表現を用いた臨床物語からの患者の状態検出

Detecting of a Patient's Condition From Clinical Narratives Using Natural Language Representation ( http://arxiv.org/abs/2104.03969v1 )

ライセンス: Link先を確認
Thanh-Dung Le, Jerome Rambaud, Guillaume Sans, Philippe Jouvet and Rita Noumeir(参考訳) 本稿では,チュ・サント・ジャスティネ病院(chusj)における臨床ナラティブにおける概念ラベル検出のための機械学習に基づく臨床自然言語表現学習と教師付き分類フレームワークを提案する。 このフレームワークは,文脈的臨床物語入力から分布構文と潜在意味(表現学習)を共同で発見し,文脈的アウトプット(教師付き分類)におけるラベル付けの知識表現を学習する。 まず、小さなデータセットで効率的な表現学習アプローチを実現するために、数値値とテキストを混合する。 数値的なバイタルサイン値を取得するために4つの異なる方法が適用される。 そして,様々な表現学習手法を用いて,臨床物語データからリッチな構造を発見する。 第2に, 疾患予測に自動で遭遇した場合, 心不全が生じる。 バイナリ分類器は、前ステップで処理データの知識表現を学ぶために反復的に訓練される。 多層パーセプトロンニューラルネットワークは、他の識別的および生成的分類器よりも優れる。 その結果, 提案手法では, 精度, 再現率, 精度が89 %, 88 %, 89 %の分類性能が得られた。 さらに、スパルシティ低減を活用すべく、生成型オートエンコーダ(ae)学習アルゴリズムを提案する。 AEアルゴリズムは、他のスパーシリティ低減手法をオーバーパフォーマンスしている。 また、分類器の性能は、精度、リコール、精度でそれぞれ91%、91%、91%の達成に成功している。

This paper proposes a joint clinical natural language representation learning and supervised classification framework based on machine learning for detecting concept labels in clinical narratives at CHU Sainte Justine Hospital (CHUSJ). The novel framework jointly discovers distributional syntactic and latent semantic (representation learning) from contextual clinical narrative inputs and, then, learns the knowledge representation for labeling in the contextual output (supervised classification). First, for having an effective representation learning approach with a small data set, mixing of numeric values and texts. Four different methods are applied to capture the numerical vital sign values. Then, different representation learning approaches are using to discover the rich structure from clinical narrative data. Second, for an automatic encounter with disease prediction, in this case, cardiac failure. The binary classifiers are iteratively trained to learn the knowledge representation of processed data in the preceding steps. The multilayer perceptron neural network outperforms other discriminative and generative classifiers. Consequently, the proposed framework yields an overall classification performance with accuracy, recall, and precision of 89 % and 88 %, 89 %, respectively. Furthermore, a generative autoencoder (AE) learning algorithm is then proposed to leverage the sparsity reduction. Affirmatively, AE algorithm is overperforming other sparsity reduction techniques. And, the classifier performances can successfully achieve up to 91 %, 91%, and 91%, respectively, for accuracy, recall, and precision.
翻訳日:2021-04-12 14:01:59 公開日:2021-04-08
# ACERAC:微細時間離散化における効率的な強化学習

ACERAC: Efficient reinforcement learning in fine time discretization ( http://arxiv.org/abs/2104.04004v1 )

ライセンス: Link先を確認
Pawe{\l} Wawrzy\'nski, Jakub {\L}yskawa(参考訳) 本稿では,細時間離散化における強化学習(rl)の枠組みと学習アルゴリズムを提案する。 RLの主な目的の1つは、物理機械がプログラムされる代わりに最適な振る舞いを学ぶ方法を提供することである。 しかし、機械は通常細かな時間の離散化で制御される。 最も一般的なRL法は、それぞれのアクションに独立なランダム要素を適用するが、その設定には適さない。 制御されたシステムを混乱させるので実現不可能であり、単一のアクションが政策改善に翻訳可能な重要なエクスペリエンスを生み出すのに十分ではないため、十分な探索が保証されない。 本稿で紹介したRLフレームワークでは、状態と乱数要素に基づくアクションを後続のタイミングで自動相関するポリシーが検討されている。 ここで導入されたRLアルゴリズムは、そのようなポリシーを概ね最適化する。 このアルゴリズムの効率は、4つのシミュレーション学習制御問題 (ant, halfcheetah, hopper, walker2d) における他の3つのrl法 (ppo, sac, acer) で検証された。 ここで導入されたアルゴリズムは、ほとんどのケースで競合を上回っている。

We propose a framework for reinforcement learning (RL) in fine time discretization and a learning algorithm in this framework. One of the main goals of RL is to provide a way for physical machines to learn optimal behavior instead of being programmed. However, the machines are usually controlled in fine time discretization. The most common RL methods apply independent random elements to each action, which is not suitable in that setting. It is not feasible because it causes the controlled system to jerk, and does not ensure sufficient exploration since a single action is not long enough to create a significant experience that could be translated into policy improvement. In the RL framework introduced in this paper, policies are considered that produce actions based on states and random elements autocorrelated in subsequent time instants. The RL algorithm introduced here approximately optimizes such a policy. The efficiency of this algorithm is verified against three other RL methods (PPO, SAC, ACER) in four simulated learning control problems (Ant, HalfCheetah, Hopper, and Walker2D) in diverse time discretization. The algorithm introduced here outperforms the competitors in most cases considered.
翻訳日:2021-04-12 14:00:37 公開日:2021-04-08
# LISTAとそれを超える設計空間の研究

A Design Space Study for LISTA and Beyond ( http://arxiv.org/abs/2104.04110v1 )

ライセンス: Link先を確認
Tianjian Meng, Xiaohan Chen, Yifan Jiang, Zhangyang Wang(参考訳) 近年、問題固有のディープネットワークの構築において、反復アルゴリズムの展開、逆問題の解決など、大きな成功を収めている。 unrollingは、モデルベースのpremierをディープラーニングの学習能力に組み込むと考えられている。 本稿では,ディープネットワークの設計アプローチとしてのアンロールの役割を再検討する。 スパースリカバリのためのlistaを代表例として,未ロールモデルに対する設計空間調査を初めて実施した。 あらゆる可能性のあるバリエーションの中で、接続パターンやニューロンタイプを大きく変化させることに重点を置いており、LISTAから生じる巨大な設計空間につながっている。 この空間を効率的に探索し、トップパフォーマーを特定するために、ニューラルアーキテクチャサーチ(NAS)の新たなツールを活用する。 検索したトップアーキテクチャを多くの設定で慎重に検討し、LISTAよりも一貫して優れたネットワークを発見することができる。 さらに,"箱を開ける"ために,さらに可視化と分析を行い,検索したトップアーキテクチャが高度に一貫性があり,潜在的に転送可能なパターンを示していることを示す。 私たちの研究は、モデルベースの最適化とデータ駆動学習をうまく組み合わせる方法について、さらなるリフレクションと調査のきっかけになることを期待しています。

In recent years, great success has been witnessed in building problem-specific deep networks from unrolling iterative algorithms, for solving inverse problems and beyond. Unrolling is believed to incorporate the model-based prior with the learning capacity of deep learning. This paper revisits the role of unrolling as a design approach for deep networks: to what extent its resulting special architecture is superior, and can we find better? Using LISTA for sparse recovery as a representative example, we conduct the first thorough design space study for the unrolled models. Among all possible variations, we focus on extensively varying the connectivity patterns and neuron types, leading to a gigantic design space arising from LISTA. To efficiently explore this space and identify top performers, we leverage the emerging tool of neural architecture search (NAS). We carefully examine the searched top architectures in a number of settings, and are able to discover networks that are consistently better than LISTA. We further present more visualization and analysis to "open the black box", and find that the searched top architectures demonstrate highly consistent and potentially transferable patterns. We hope our study to spark more reflections and explorations on how to better mingle model-based optimization prior and data-driven learning.
翻訳日:2021-04-12 14:00:16 公開日:2021-04-08
# 動的障害を有する高速道路におけるリスクアウェアレーン選択

Risk-Aware Lane Selection on Highway with Dynamic Obstacles ( http://arxiv.org/abs/2104.04105v1 )

ライセンス: Link先を確認
Sangjae Bae, David Isele, Kikuo Fujimura, Scott J. Moura(参考訳) 本稿では,離散レーン選択アルゴリズムを提案する。 特に、高速道路の運転は、各車線が異なるレベルの交通の流れを持つターゲットのシナリオと見なされている。 車線変更が裁量的である場合、例えば、旅行時間を著しく短縮したり、より高い安全性を確保しない限り、車線変更を推奨する。 このような「便益」の評価は、ダイナミックな速度で複数の周囲の車両と共に、不確実性を伴う。 本稿では,設計に注意深いコストを考慮したリアルタイムレーン選択アルゴリズムを提案する。 このアルゴリズムは、連続時間と空間領域における他の車両の不確実な動的位置を評価する探索に基づく最適化手法である。 実演では,CARLAシミュレーション環境下に最先端のモーションプランナフレームワーク(ニューラルネットワーク統合モデル予測制御)を組み込む。

This paper proposes a discretionary lane selection algorithm. In particular, highway driving is considered as a targeted scenario, where each lane has a different level of traffic flow. When lane-changing is discretionary, it is advised not to change lanes unless highly beneficial, e.g., reducing travel time significantly or securing higher safety. Evaluating such "benefit" is a challenge, along with multiple surrounding vehicles in dynamic speed and heading with uncertainty. We propose a real-time lane-selection algorithm with careful cost considerations and with modularity in design. The algorithm is a search-based optimization method that evaluates uncertain dynamic positions of other vehicles under a continuous time and space domain. For demonstration, we incorporate a state-of-the-art motion planner framework (Neural Networks integrated Model Predictive Control) under a CARLA simulation environment.
翻訳日:2021-04-12 13:58:40 公開日:2021-04-08
# 衣料人体のための動的表面関数ネットワーク

Dynamic Surface Function Networks for Clothed Human Bodies ( http://arxiv.org/abs/2104.03978v1 )

ライセンス: Link先を確認
Andrei Burov and Matthias Nie{\ss}ner and Justus Thies(参考訳) 衣服の時間的コヒーレントな再構築と追跡のための新しい手法を提案する。 単眼のrgb-d配列が与えられると、動的表面関数ネットワークに基づく個人特異的体モデルが学習される。 この目的のために、SMPLボディモデルの標準空間に埋め込まれた多層パーセプトロン(MLP)を用いて、人物の表面を明示的にモデル化する。 古典的なフォワードレンダリングでは、表現された表面はテンプレートメッシュのトポロジーを使ってラスタライズすることができる。 テンプレートメッシュの各表面点について、mlpの評価を行い、実際の表面位置を予測する。 ポーズ依存変形を処理するために、SMPLポーズパラメータにMLPを条件付けする。 この表面表現とポーズパラメータは, 合成による解析とラスタ化の原理を用いて, 自己教師あり方式で学習できることを示す。 その結果,入力データから時間的コヒーレントなメッシュシーケンスを再構築することができた。 基礎となる表面表現は、ポーズ依存の変形を含む再構成された人の新しいアニメーションを合成するのに使うことができる。

We present a novel method for temporal coherent reconstruction and tracking of clothed humans. Given a monocular RGB-D sequence, we learn a person-specific body model which is based on a dynamic surface function network. To this end, we explicitly model the surface of the person using a multi-layer perceptron (MLP) which is embedded into the canonical space of the SMPL body model. With classical forward rendering, the represented surface can be rasterized using the topology of a template mesh. For each surface point of the template mesh, the MLP is evaluated to predict the actual surface location. To handle pose-dependent deformations, the MLP is conditioned on the SMPL pose parameters. We show that this surface representation as well as the pose parameters can be learned in a self-supervised fashion using the principle of analysis-by-synthesi s and differentiable rasterization. As a result, we are able to reconstruct a temporally coherent mesh sequence from the input data. The underlying surface representation can be used to synthesize new animations of the reconstructed person including pose-dependent deformations.
翻訳日:2021-04-12 13:57:18 公開日:2021-04-08
# 補助タスクと探索を可能にするobjectnav

Auxiliary Tasks and Exploration Enable ObjectNav ( http://arxiv.org/abs/2104.04112v1 )

ライセンス: Link先を確認
Joel Ye, Dhruv Batra, Abhishek Das, and Erik Wijmans(参考訳) ObjectGoal Navigation(ObjectNav )は、エージェントが見えない環境でオブジェクトインスタンスにナビゲートする、具体化されたタスクである。 以前の研究では、バニラ視覚およびリカレントモジュールを使用するエンドツーエンドのObjectNavエージェントが示されている。 CNN+RNNは、過度な適合とサンプルの非効率のために、性能が良くない。 これにより、現在の最先端の手法では、分析および学習されたコンポーネントを混合し、環境の明示的な空間マップを操作できる。 代わりに、補助的な学習タスクと探索報酬を追加することで、汎用的な学習エージェントを再利用する。 我々のエージェントは、Habitat ObjectNav Challengeにおいて、24.5%の成功率と8.1%のSPL、それぞれ37%と8%の相対的な改善を達成した。 本分析から, エージェントは, RNNのダイナミックスを円滑にするために視覚入力を単純化し, 有効なRNN次元を最小化することで, 補助的なタスクの過度な適合を抑えることを提案する。 高性能なObjectNavエージェントは、滑らかで低次元のリカレントダイナミクスを学習することで、長い水平線上でコヒーレントな計画を維持する必要がある。 サイト: https://joel99.githu b.io/objectnav/

ObjectGoal Navigation (ObjectNav) is an embodied task wherein agents are to navigate to an object instance in an unseen environment. Prior works have shown that end-to-end ObjectNav agents that use vanilla visual and recurrent modules, e.g. a CNN+RNN, perform poorly due to overfitting and sample inefficiency. This has motivated current state-of-the-art methods to mix analytic and learned components and operate on explicit spatial maps of the environment. We instead re-enable a generic learned agent by adding auxiliary learning tasks and an exploration reward. Our agents achieve 24.5% success and 8.1% SPL, a 37% and 8% relative improvement over prior state-of-the-art, respectively, on the Habitat ObjectNav Challenge. From our analysis, we propose that agents will act to simplify their visual inputs so as to smooth their RNN dynamics, and that auxiliary tasks reduce overfitting by minimizing effective RNN dimensionality; i.e. a performant ObjectNav agent that must maintain coherent plans over long horizons does so by learning smooth, low-dimensional recurrent dynamics. Site: https://joel99.githu b.io/objectnav/
翻訳日:2021-04-12 13:57:04 公開日:2021-04-08
# 畳み込みニューラルネットワークによる太陽電池のメタライゼーション設計の改善

Improving Solar Cell Metallization Designs using Convolutional Neural Networks ( http://arxiv.org/abs/2104.04017v1 )

ライセンス: Link先を確認
Sumit Bhattacharya, Devanshu Arya, Debjani Bhowmick, Rajat Mani Thomas, Deepak Kumar Gupta(参考訳) 太陽電池の金属化設計を最適化することは、太陽電池の性能を改善する方法の1つである。 近年,Topology Optimization (TO) を用いて, 太陽電池の複雑な金属化パターンを設計し, 性能を向上することが示されている。 従来の形状最適化法では得られない従来型デザインパターンを生成する。 本稿では,この設計プロセスが深層学習にインスパイアされた戦略によりさらに改善可能であることを示す。 改良された金属化設計の獲得に使用できるCNNベースのパラメータ化スキームであるSolarNetを提案する。 SolarNetは、電極材料分布を直接最適化するのではなく、CNNモデルの重みを最適化するように最適化領域を変更する。 cnnが生成した設計は、物理方程式を用いて評価され、その結果、バックプロパゲーションのための勾配を生成する。 SolarNetは、太陽電池モデルとCNNパイプラインによるバックプロパゲーションを含むエンドツーエンドでトレーニングされている。 異なる形状の太陽電池と異なるバスバージオメトリーを応用することにより、SolarNetは従来のTOアプローチと比較して太陽電池の性能を向上させることを示した。

Optimizing the design of solar cell metallizations is one of the ways to improve the performance of solar cells. Recently, it has been shown that Topology Optimization (TO) can be used to design complex metallization patterns for solar cells that lead to improved performance. TO generates unconventional design patterns that cannot be obtained with the traditional shape optimization methods. In this paper, we show that this design process can be improved further using a deep learning inspired strategy. We present SolarNet, a CNN-based reparameterization scheme that can be used to obtain improved metallization designs. SolarNet modifies the optimization domain such that rather than optimizing the electrode material distribution directly, the weights of a CNN model are optimized. The design generated by CNN is then evaluated using the physics equations, which in turn generates gradients for backpropagation. SolarNet is trained end-to-end involving backpropagation through the solar cell model as well as the CNN pipeline. Through application on solar cells of different shapes as well as different busbar geometries, we demonstrate that SolarNet improves the performance of solar cells compared to the traditional TO approach.
翻訳日:2021-04-12 13:55:06 公開日:2021-04-08
# 核融合炉におけるトリチウム育種率の高速回帰

Fast Regression of the Tritium Breeding Ratio in Fusion Reactors ( http://arxiv.org/abs/2104.04026v1 )

ライセンス: Link先を確認
Petr M\'anek (1 and 2), Graham Van Goffrier (1), Vignesh Gopakumar (3), Nikolaos Nikolaou (1), Jonathan Shimwell (3) and Ingo Waldmann (1) ((1) Department of Physics and Astronomy, University College London, London, UK, (2) Institute of Experimental and Applied Physics, Czech Technical University, Prague, Czech Republic, (3) UK Atomic Energy Authority, Culham Science Centre, Abingdon, UK)(参考訳) トリチウム繁殖比(TBR)は、現代および次世代のD-T核融合炉の設計に欠かせない量である。 育種ブランケットで発生するトリチウム燃料と原子炉実行時に消費される燃料の比を表し、tbrは原子炉の形状と材料特性に複雑な方法で依存する。 本研究では,イギリス原子力公社で使用中のモンテカルロtbrモデルに対して,安価で高品質な近似値を生成するためのサロゲートモデルの訓練について検討した。 特徴空間の次元的縮小の可能性について検討し, 9種類のサロゲートモデルの応用可能性について検討し, ハイパーパラメータ最適化を行った。 ここでは,これらのモデルの性能とスケーリング特性について述べる。最も高速な人工ニューラルネットワークは,R^2=0.985$,平均予測時間は0.898\\mu\mathrm{s}$であり,高価なMCモデルに対して8\cdot 10^6$である。 さらに, 個別に解析したサロゲートのいずれとも対話可能な, 適応型サンプリングアルゴリズムである quality-adaptive surrogate sampling を提案する。 トイtbr理論の予備実験により,このアルゴリズムがサロゲートモデリングプロセスの高速化に有効であることを実証した。

The tritium breeding ratio (TBR) is an essential quantity for the design of modern and next-generation D-T fueled nuclear fusion reactors. Representing the ratio between tritium fuel generated in breeding blankets and fuel consumed during reactor runtime, the TBR depends on reactor geometry and material properties in a complex manner. In this work, we explored the training of surrogate models to produce a cheap but high-quality approximation for a Monte Carlo TBR model in use at the UK Atomic Energy Authority. We investigated possibilities for dimensional reduction of its feature space, reviewed 9 families of surrogate models for potential applicability, and performed hyperparameter optimisation. Here we present the performance and scaling properties of these models, the fastest of which, an artificial neural network, demonstrated $R^2=0.985$ and a mean prediction time of $0.898\ \mu\mathrm{s}$, representing a relative speedup of $8\cdot 10^6$ with respect to the expensive MC model. We further present a novel adaptive sampling algorithm, Quality-Adaptive Surrogate Sampling, capable of interfacing with any of the individually studied surrogates. Our preliminary testing on a toy TBR theory has demonstrated the efficacy of this algorithm for accelerating the surrogate modelling process.
翻訳日:2021-04-12 13:54:50 公開日:2021-04-08
# 強化学習による最適市場作り

Optimal Market Making by Reinforcement Learning ( http://arxiv.org/abs/2104.04036v1 )

ライセンス: Link先を確認
Matias Selser, Javier Kreiner, Manuel Maurette(参考訳) エージェントが商品の購入と販売の注文を最大化しながら市場に対して流動性を提供する古典的な量的金融市場形成問題を解決するために強化学習アルゴリズムを適用する。 最適なエージェントは、在庫の価格リスクと入札の拡散を捉えた利益との微妙なバランスを見つけなければならない。 我々は、元のユーティリティ関数に相当するポリシー間の順序関係を決定する報酬関数を持つ環境を設計する。 エージェントを最適解とベンチマーク対称エージェントと比較すると、Deep Q-Learningアルゴリズムが最適なエージェントを回復できることがわかった。

We apply Reinforcement Learning algorithms to solve the classic quantitative finance Market Making problem, in which an agent provides liquidity to the market by placing buy and sell orders while maximizing a utility function. The optimal agent has to find a delicate balance between the price risk of her inventory and the profits obtained by capturing the bid-ask spread. We design an environment with a reward function that determines an order relation between policies equivalent to the original utility function. When comparing our agents with the optimal solution and a benchmark symmetric agent, we find that the Deep Q-Learning algorithm manages to recover the optimal agent.
翻訳日:2021-04-12 13:54:30 公開日:2021-04-08
# CLVSA:金融市場の動向予測を目的とした畳み込みLSTMに基づく変動系列列列モデル

CLVSA: A Convolutional LSTM Based Variational Sequence-to-Sequence Model with Attention for Predicting Trends of Financial Markets ( http://arxiv.org/abs/2104.04041v1 )

ライセンス: Link先を確認
Jia Wang, Tong Sun, Benyuan Liu, Yu Cao, Hongwei Zhu(参考訳) 金融市場は複雑な力学システムである。 この複雑さは、市場と参加者間の相互作用から生じ、言い換えれば、参加者全体の活動の統合結果が市場の動向を決定する一方で、市場の動向が参加者の活動に影響を与える。 これらの相互作用は金融市場を進化させ続ける。 音声やビデオなどの自然な逐次データで観測される変動を捉える確率的リカレントモデルにインスパイアされたCLVSAは、確率的リカレント・ネットワーク、シーケンス・ツー・シーケンス・アーキテクチャ、自己保持機構、畳み込みLSTMユニットから構成されるハイブリッドモデルであり、生の金融取引データにおける変動基盤の特徴を捉える。 提案モデルは,2010年1月から2017年12月までの6つの未来をバックテストした結果に基づいて,畳み込みニューラルネットワーク,バニラlstmネットワーク,シーケンシャル・ツー・シーケンスモデルなどの基本モデルよりも優れている。 実験の結果,clvsaは,近似後段の導入により,kullback-leibler 発散に基づく余分な正規化剤を活用し,トラップの過剰フィットを防止することができた。

Financial markets are a complex dynamical system. The complexity comes from the interaction between a market and its participants, in other words, the integrated outcome of activities of the entire participants determines the markets trend, while the markets trend affects activities of participants. These interwoven interactions make financial markets keep evolving. Inspired by stochastic recurrent models that successfully capture variability observed in natural sequential data such as speech and video, we propose CLVSA, a hybrid model that consists of stochastic recurrent networks, the sequence-to-sequence architecture, the self- and inter-attention mechanism, and convolutional LSTM units to capture variationally underlying features in raw financial trading data. Our model outperforms basic models, such as convolutional neural network, vanilla LSTM network, and sequence-to-sequence model with attention, based on backtesting results of six futures from January 2010 to December 2017. Our experimental results show that, by introducing an approximate posterior, CLVSA takes advantage of an extra regularizer based on the Kullback-Leibler divergence to prevent itself from overfitting traps.
翻訳日:2021-04-12 13:54:20 公開日:2021-04-08
# (参考訳) RTIC:グラフ畳み込みネットワークを用いたテキスト・画像合成のための残差学習 [全文訳有]

RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network ( http://arxiv.org/abs/2104.03015v2 )

ライセンス: CC BY 4.0
Minchul Shin, Yoonjae Cho, Byungsoo Ko, Geonmo Gu(参考訳) 本稿では,画像検索のための画像とテキストの合成学習について検討する。 クエリは、画像に対する所望の修正を記述した画像とテキストの形式で与えられる。目標は、与えられた修正を満たすターゲットイメージを検索し、テキストと画像のモダリティの両方で情報を構成することでクエリに類似させることである。 この課題を達成するために,スキップ接続を用いた簡易な新しいアーキテクチャを提案し,遅延空間におけるソースとターゲット画像間のエラーを効果的に符号化する。 さらに,グラフ畳み込みネットワーク(GCN)と既存の合成手法を組み合わせた新しい手法を提案する。 この組み合わせは、プラグアンドプレイ方式でパフォーマンスを一貫して改善する。 広く使われているデータセットで徹底的で徹底的な実験を行い、このモデルでタスクの最先端のスコアを得る。 トレーニング条件の差が最終成績に大きく影響するため, 比較の公平性を確保するため, 評価の厳格な基準を提案する。 再現性のために、比較したすべてのメソッドを含む実装をリリースします。

In this paper, we study the compositional learning of images and texts for image retrieval. The query is given in the form of an image and text that describes the desired modifications to the image; the goal is to retrieve the target image that satisfies the given modifications and resembles the query by composing information in both the text and image modalities. To accomplish this task, we propose a simple new architecture using skip connections that can effectively encode the errors between the source and target images in the latent space. Furthermore, we introduce a novel method that combines the graph convolutional network (GCN) with existing composition methods. We find that the combination consistently improves the performance in a plug-and-play manner. We perform thorough and exhaustive experiments on several widely used datasets, and achieve state-of-the-art scores on the task with our model. To ensure fairness in comparison, we suggest a strict standard for the evaluation because a small difference in the training conditions can significantly affect the final performance. We release our implementation, including that of all the compared methods, for reproducibility.
翻訳日:2021-04-12 13:36:04 公開日:2021-04-08
# PhoNLP: ベトナム語音声タギングのための多タスク共同学習モデル : エンティティ認識と依存性解析

PhoNLP: A joint multi-task learning model for Vietnamese part-of-speech tagging, named entity recognition and dependency parsing ( http://arxiv.org/abs/2101.01476v2 )

ライセンス: Link先を確認
Linh The Nguyen, Dat Quoc Nguyen(参考訳) PhoNLPと名づけられた最初のマルチタスク学習モデルを提案し,ベトナムの音声合成(POS)タグ付け,エンティティ認識(NER)と依存性解析を行った。 ベトナムのベンチマークデータセットの実験では、PhoNLPが最先端の結果を生成し、訓練済みのベトナム語モデルであるPhoBERT(Nguyen and Nguyen, 2020)を個別に微調整する単一タスク学習アプローチよりも優れていた。 PhoNLPはApache License 2.0の下でオープンソースツールキットとして公開しています。 我々はベトナム語でPhoNLPを指定するが、我々のPhoNLPトレーニングおよび評価コマンドスクリプトは、実際に、トレーニング済みのBERT言語モデルとPOSタグ付け、NER、依存性解析の3つのタスクで利用できるゴールドアノテートコーパスを持つ他の言語で直接動作する。 我々はPhoNLPがベトナム語だけでなく他の言語にも、将来のNLP研究や応用のための強力なベースラインとして役立つことを願っている。 私たちのPhoNLPは、https://github.com/V inAIResearch/PhoNLPで利用可能です。

We present the first multi-task learning model -- named PhoNLP -- for joint Vietnamese part-of-speech (POS) tagging, named entity recognition (NER) and dependency parsing. Experiments on Vietnamese benchmark datasets show that PhoNLP produces state-of-the-art results, outperforming a single-task learning approach that fine-tunes the pre-trained Vietnamese language model PhoBERT (Nguyen and Nguyen, 2020) for each task independently. We publicly release PhoNLP as an open-source toolkit under the Apache License 2.0. Although we specify PhoNLP for Vietnamese, our PhoNLP training and evaluation command scripts in fact can directly work for other languages that have a pre-trained BERT-based language model and gold annotated corpora available for the three tasks of POS tagging, NER and dependency parsing. We hope that PhoNLP can serve as a strong baseline and useful toolkit for future NLP research and applications to not only Vietnamese but also the other languages. Our PhoNLP is available at: https://github.com/V inAIResearch/PhoNLP
翻訳日:2021-04-11 11:38:19 公開日:2021-04-08
# zero-shot sim-to-real transfer of tactile control policies for aggressive swing-up manipulation

Zero-shot sim-to-real transfer of tactile control policies for aggressive swing-up manipulation ( http://arxiv.org/abs/2101.02680v2 )

ライセンス: Link先を確認
Thomas Bi, Carmelo Sferrazza and Raffaello D'Andrea(参考訳) 本稿では,視覚型触覚センサを搭載したロボットが,操作対象の物理的特性をすべて事前に把握することなく,動的操作タスクを実行できることを示す。 この目的のために、触覚センサによって提供されるフィードバックのみに頼りながら、異なる質量、半径、長さの極を180度の角度に振り上げることができるロボットシステムを提案する。 これは、ポールとソフトセンサーの相互作用を正確にモデル化する新しいシミュレータを開発することで達成される。 知覚観察履歴に基づいて条件付けされ、ポールの物理的特徴に関する事前知識を持たないフィードバックポリシーが、上記のシミュレーションで学習される。 物理システム上で評価すると、ポリシーは、さらなる適応なしに、物理的特性において著しく異なる広い範囲の極を振り上げることができる。 著者らの知る限り、これは閉ループにおけるポールの揺動操作を制御するために、高次元触覚観測からのフィードバックポリシーを用いた最初の研究である。

This paper aims to show that robots equipped with a vision-based tactile sensor can perform dynamic manipulation tasks without prior knowledge of all the physical attributes of the objects to be manipulated. For this purpose, a robotic system is presented that is able to swing up poles of different masses, radii and lengths, to an angle of 180 degrees, while relying solely on the feedback provided by the tactile sensor. This is achieved by developing a novel simulator that accurately models the interaction of a pole with the soft sensor. A feedback policy that is conditioned on a sensory observation history, and which has no prior knowledge of the physical features of the pole, is then learned in the aforementioned simulation. When evaluated on the physical system, the policy is able to swing up a wide range of poles that differ significantly in their physical attributes without further adaptation. To the authors' knowledge, this is the first work where a feedback policy from high-dimensional tactile observations is used to control the swing-up manipulation of poles in closed-loop.
翻訳日:2021-04-10 13:30:49 公開日:2021-04-08
# (参考訳) マルチモーダル核融合精製ネットワーク [全文訳有]

Multimodal Fusion Refiner Networks ( http://arxiv.org/abs/2104.03435v1 )

ライセンス: CC BY 4.0
Sethuraman Sankaran, David Yang, Ser-Nam Lim(参考訳) マルチモーダル情報に依存するタスクは通常、異なるモーダル情報を組み合わせた融合モジュールを含む。 本研究では,強いユニモーダル表現と強いマルチモーダル表現を組み合わせたrefnet(refnet)を開発した。 ReFNetは、融合ネットワークと復号/復号モジュールを結合し、モダリティ中心の責任条件を課す。 このアプローチは、既存のマルチモーダル融合フレームワークにおける大きなギャップに対処し、非モーダル表現と融合表現の両方が潜在核融合空間で強くエンコードされることを保証する。 Refiner Fusion Networkはマルチモーダルトランスなどの強力なベースライン融合モジュールの性能を向上させることができることを示す。 精細化ネットワークは, 潜伏空間に融合した埋め込みのグラフィカルな表現を誘導し, 一定の条件下で証明し, 数値実験において強い実験結果によって支持される。 これらのグラフ構造はReFNetとMulti-Similarity contrastive loss関数を組み合わせることでさらに強化される。 精製器融合ネットワークのモジュラー性は、異なる核融合アーキテクチャと容易に組み合わせることができ、さらに、ラベルなしデータセットの事前トレーニングに精製器ステップを適用でき、教師なしデータを利用して性能を向上させることができる。 3つのデータセット上の精錬機融合ネットワークのパワーを実証し,ラベル付きデータのほんの一部で性能を維持できることを示した。

Tasks that rely on multi-modal information typically include a fusion module that combines information from different modalities. In this work, we develop a Refiner Fusion Network (ReFNet) that enables fusion modules to combine strong unimodal representation with strong multimodal representations. ReFNet combines the fusion network with a decoding/defusing module, which imposes a modality-centric responsibility condition. This approach addresses a big gap in existing multimodal fusion frameworks by ensuring that both unimodal and fused representations are strongly encoded in the latent fusion space. We demonstrate that the Refiner Fusion Network can improve upon performance of powerful baseline fusion modules such as multimodal transformers. The refiner network enables inducing graphical representations of the fused embeddings in the latent space, which we prove under certain conditions and is supported by strong empirical results in the numerical experiments. These graph structures are further strengthened by combining the ReFNet with a Multi-Similarity contrastive loss function. The modular nature of Refiner Fusion Network lends itself to be combined with different fusion architectures easily, and in addition, the refiner step can be applied for pre-training on unlabeled datasets, thus leveraging unsupervised data towards improving performance. We demonstrate the power of Refiner Fusion Networks on three datasets, and further show that they can maintain performance with only a small fraction of labeled data.
翻訳日:2021-04-10 02:20:58 公開日:2021-04-08
# (参考訳) CAPTRA: 点雲からの剛体および人工物体のキャテゴリーレベルのポストラッキング [全文訳有]

CAPTRA: CAtegory-level Pose Tracking for Rigid and Articulated Objects from Point Clouds ( http://arxiv.org/abs/2104.03437v1 )

ライセンス: CC BY 4.0
Yijia Weng, He Wang, Qiang Zhou, Yuzhe Qin, Yueqi Duan, Qingnan Fan, Baoquan Chen, Hao Su, Leonidas J. Guibas(参考訳) 本研究では,ポイントクラウドシーケンスからのオブジェクトのカテゴリーレベルのオンラインポーズトラッキングの問題に取り組む。 そこで本研究では,新しいオブジェクトインスタンスの9DoFポーズトラッキングと,既知のカテゴリから抽出されたオブジェクトの部品ごとのポーズトラッキングを行う統合フレームワークを提案する。 ここで、6Dポーズと3Dサイズからなる9DoFポーズは、自由な6Dポーズを持つ3Dアモーダルバウンディングボックス表現と等価である。 現在のフレームの深さ点の雲と、最終フレームから推定されたポーズを考えると、新しいエンドツーエンドパイプラインは、ポーズを正確に更新することを学びます。 1) 入力深度点雲の姿勢を正規化するポーズ標準化モジュール, 2) 小さなフレーム間デルタ回転を直接レグレッションするローテーションネットモジュール,3) 正規化された座標とセグメンテーションを予測し、3次元の大きさと翻訳の分析計算を可能にするコーディネートネットの3つのモジュールからなる。 提案手法は,高密度座標予測と直接回転回帰を組み合わせることで両世界の長所を統合し,9DoFのポーズ精度に最適化されたエンドツーエンドの微分可能なパイプラインを生成する(非微分可能RANSACを用いない)。 提案手法は,カテゴリレベルの剛性オブジェクトポーズ(NOCS-REAL275)と,高速なFPS 〜12で定性オブジェクトポーズベンチマーク(SAPIEN , BMVC)において,新しい最先端性能を実現することを示す。

In this work, we tackle the problem of category-level online pose tracking of objects from point cloud sequences. For the first time, we propose a unified framework that can handle 9DoF pose tracking for novel rigid object instances as well as per-part pose tracking for articulated objects from known categories. Here the 9DoF pose, comprising 6D pose and 3D size, is equivalent to a 3D amodal bounding box representation with free 6D pose. Given the depth point cloud at the current frame and the estimated pose from the last frame, our novel end-to-end pipeline learns to accurately update the pose. Our pipeline is composed of three modules: 1) a pose canonicalization module that normalizes the pose of the input depth point cloud; 2) RotationNet, a module that directly regresses small interframe delta rotations; and 3) CoordinateNet, a module that predicts the normalized coordinates and segmentation, enabling analytical computation of the 3D size and translation. Leveraging the small pose regime in the pose-canonicalized point clouds, our method integrates the best of both worlds by combining dense coordinate prediction and direct rotation regression, thus yielding an end-to-end differentiable pipeline optimized for 9DoF pose accuracy (without using non-differentiable RANSAC). Our extensive experiments demonstrate that our method achieves new state-of-the-art performance on category-level rigid object pose (NOCS-REAL275) and articulated object pose benchmarks (SAPIEN , BMVC) at the fastest FPS ~12.
翻訳日:2021-04-10 02:07:20 公開日:2021-04-08
# (参考訳) 構造冗長性を低減した畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Network Pruning with Structural Redundancy Reduction ( http://arxiv.org/abs/2104.03438v1 )

ライセンス: CC BY 4.0
Zi Wang, Chengcheng Li, Xiangyang Wang(参考訳) 畳み込みニューラルネットワーク(cnn)のプルーニングは、近年最も成功したネットワーク圧縮アプローチの1つとなっている。 既存のネットワークプルーニングの作業は通常、コンパクトなアーキテクチャを実現するためにネットワーク内の最も重要でないフィルタを取り除くことに重点を置いている。 本研究では, 構造的冗長性を特定することは, 理論上, 経験上, 重要でないフィルタを見つけるよりも重要な役割を担っていると主張する。 まず,ネットワークプルーニング問題を冗長性低減の観点から統計的にモデル化し,最も構造的冗長性が高い層内のプルーニングが,すべての層で最も重要なフィルタをプルーニングするよりも優れていることを発見した。 そこで本研究では,CNNの構造的冗長性と,選択した層内のプーンフィルタを最も冗長性の高いネットワークプルーニング手法を提案する。 ベンチマークネットワークアーキテクチャとデータセットに関する実験により,提案手法が先行する最先端技術を大きく上回っていることが示された。

Convolutional neural network (CNN) pruning has become one of the most successful network compression approaches in recent years. Existing works on network pruning usually focus on removing the least important filters in the network to achieve compact architectures. In this study, we claim that identifying structural redundancy plays a more essential role than finding unimportant filters, theoretically and empirically. We first statistically model the network pruning problem in a redundancy reduction perspective and find that pruning in the layer(s) with the most structural redundancy outperforms pruning the least important filters across all layers. Based on this finding, we then propose a network pruning approach that identifies structural redundancy of a CNN and prunes filters in the selected layer(s) with the most redundancy. Experiments on various benchmark network architectures and datasets show that our proposed approach significantly outperforms the previous state-of-the-art.
翻訳日:2021-04-10 01:28:32 公開日:2021-04-08
# (参考訳) 多次元性能影響分析によるユーザエクスペリエンス自動テスト [全文訳有]

Automated User Experience Testing through Multi-Dimensional Performance Impact Analysis ( http://arxiv.org/abs/2104.03453v1 )

ライセンス: CC BY 4.0
Chidera Biringa, Gokhan Kul(参考訳) 自動化されたソフトウェアテストスイートは数多く存在するが、通常はユニット、システム、インターフェーステストに重点を置いている。 しかし、特に新しいセキュリティ機能のようなソフトウェアアップデートは、ユーザーエクスペリエンスを低下させる可能性がある。 本稿では,コード変更が時間単位とシステムテストにどのように影響するかを学習し,その情報に基づいてユーザエクスペリエンスの変化を概説する,新しいユーザエクスペリエンステスト手法を提案する。 このようなツールは既存の継続的インテグレーションパイプラインに統合することができ、ソフトウェアチームが即座にユーザエクスペリエンスのフィードバックを提供する。 我々は,構文的,レイアウト,構文的特徴からなる特徴セットを構築し,抽象構文木ベース埋め込みを用いて,近似意味距離を計算し,機械学習アルゴリズムに入力する。 実験では,ソフトウェア更新の時間的影響を推定するために,いくつかの回帰手法を用いた。 当社のオープンソースツールは,ランダムフォレストレグレッサで絶対誤差率3.7%を達成した。

Although there are many automated software testing suites, they usually focus on unit, system, and interface testing. However, especially software updates such as new security features have the potential to diminish user experience. In this paper, we propose a novel automated user experience testing methodology that learns how code changes impact the time unit and system tests take, and extrapolate user experience changes based on this information. Such a tool can be integrated into existing continuous integration pipelines, and it provides software teams immediate user experience feedback. We construct a feature set from lexical, layout, and syntactic characteristics of the code, and using Abstract Syntax Tree-Based Embeddings, we can calculate the approximate semantic distance to feed into a machine learning algorithm. In our experiments, we use several regression methods to estimate the time impact of software updates. Our open-source tool achieved 3.7% mean absolute error rate with a random forest regressor.
翻訳日:2021-04-10 01:11:45 公開日:2021-04-08
# (参考訳) Nutribullets Hybrid: マルチドキュメントヘルス要約 [全文訳有]

Nutribullets Hybrid: Multi-document Health Summarization ( http://arxiv.org/abs/2104.03465v1 )

ライセンス: CC BY 4.0
Darsh J Shah, Lili Yu, Tao Lei and Regina Barzilay(参考訳) 本稿では,入力文書の類似性と矛盾を強調する比較要約を生成する手法を提案する。 このような要約を作成する上で重要な課題は、典型的な要約システムのトレーニングに必要な大規模な並列トレーニングデータがないことである。 この目的のために,従来の概念対テキストシステムに触発されたハイブリッド生成手法を提案する。 異なるソース間の正確な比較を可能にするため、まず入力文書から関連する関係を抽出する。 コンテンツ計画コンポーネントは、決定論的演算子を使用して、要約に含めるサブセットを特定した後、これらの関係を集約する。 表面実現コンポーネントは、この情報をテキスト入力言語モデルを用いて語彙化する。 コンテンツ選択と実現を別々にモデル化することで、制限されたアノテーションで効果的にトレーニングすることができます。 私たちは、栄養と健康の領域でモデルを実装し、テストしました。 従来の手法と比較して、我々のフレームワークはより忠実で関連性があり、集約に敏感な要約をもたらします。

We present a method for generating comparative summaries that highlights similarities and contradictions in input documents. The key challenge in creating such summaries is the lack of large parallel training data required for training typical summarization systems. To this end, we introduce a hybrid generation approach inspired by traditional concept-to-text systems. To enable accurate comparison between different sources, the model first learns to extract pertinent relations from input documents. The content planning component uses deterministic operators to aggregate these relations after identifying a subset for inclusion into a summary. The surface realization component lexicalizes this information using a text-infilling language model. By separately modeling content selection and realization, we can effectively train them with limited annotations. We implemented and tested the model in the domain of nutrition and health -- rife with inconsistencies. Compared to conventional methods, our framework leads to more faithful, relevant and aggregation-sensitiv e summarization -- while being equally fluent.
翻訳日:2021-04-10 01:05:28 公開日:2021-04-08
# (参考訳) 説明可能なAIユーザエクスペリエンスのための質問駆動設計プロセス [全文訳有]

Question-Driven Design Process for Explainable AI User Experiences ( http://arxiv.org/abs/2104.03483v1 )

ライセンス: CC BY 4.0
Q. Vera Liao, Milena Pribi\'c, Jaesik Han, Sarah Miller, Daby Sow(参考訳) AIシステムの幅広い設計課題は、AIを理解するのに役立つ適切な情報を提供するための説明可能性である。 説明可能なai(xai)の技術分野は、豊富な技術ツールボックスを生み出した。 デザイナーは現在、最も適切なXAIテクニックを選択し、UXソリューションに変換する方法の課題に取り組んでいます。 XAI UXに関する設計上の課題を調査した結果,これらの課題に対処するための設計プロセスを提案する。 我々は、プロセスが満たすべき要件を特定するために、ユーザのニーズ、XAI技術の選択、XAI UXの設計、評価を根拠とした質問駆動設計プロセスを提案する。 我々は、xai技術の原型的ユーザ質問と例題間のマッピングガイドを提供し、デザイナーとaiエンジニアのコラボレーションを支援する境界オブジェクトとして機能する。 医療有害事象予測のためのxai設計のユースケースを提示し、aiシステムの設計課題に取り組むために学んだ教訓を議論する。

A pervasive design issue of AI systems is their explainability--how to provide appropriate information to help users understand the AI. The technical field of explainable AI (XAI) has produced a rich toolbox of techniques. Designers are now tasked with the challenges of how to select the most suitable XAI techniques and translate them into UX solutions. Informed by our previous work studying design challenges around XAI UX, this work proposes a design process to tackle these challenges. We review our and related prior work to identify requirements that the process should fulfill, and accordingly, propose a Question-Driven Design Process that grounds the user needs, choices of XAI techniques, design, and evaluation of XAI UX all in the user questions. We provide a mapping guide between prototypical user questions and exemplars of XAI techniques, serving as boundary objects to support collaboration between designers and AI engineers. We demonstrate it with a use case of designing XAI for healthcare adverse events prediction, and discuss lessons learned for tackling design challenges of AI systems.
翻訳日:2021-04-10 00:53:53 公開日:2021-04-08
# (参考訳) 訓練支援ベクターマシンの深い特徴 [全文訳有]

Deep Features for training Support Vector Machine ( http://arxiv.org/abs/2104.03488v1 )

ライセンス: CC BY 4.0
Loris Nanni, Stefano Ghidoni, Sheryl Brahnam(参考訳) 特徴はコンピュータビジョンにおいて重要な役割を果たす。 当初は手作りのアルゴリズムで有能な要素を検出するように設計されていたが、現在では畳み込みニューラルネットワーク(CNN)の異なる層でしばしば学習されている。 本稿では,訓練済みcnnから抽出した特徴に基づく汎用コンピュータビジョンシステムを開発した。 複数の学習された機能は単一の構造に結合され、異なる画像分類タスクに取り組む。 提案システムは,CNNの内部層から特徴を抽出し,それらを和規則で結合したSVMへの入力として利用する手法を実験的に検討した。 次元低減技術は、内部層の高次元化に使用される。 得られた視覚システムは、画像データセットの多種多様なコレクションにわたって標準CNNの性能を大幅に向上させる。 同じアプローチを用いた異なるトポロジのアンサンブルは、ウイルスデータセットの最先端の結果を得る。

Features play a crucial role in computer vision. Initially designed to detect salient elements by means of handcrafted algorithms, features are now often learned by different layers in Convolutional Neural Networks (CNNs). This paper develops a generic computer vision system based on features extracted from trained CNNs. Multiple learned features are combined into a single structure to work on different image classification tasks. The proposed system was experimentally derived by testing several approaches for extracting features from the inner layers of CNNs and using them as inputs to SVMs that are then combined by sum rule. Dimensionality reduction techniques are used to reduce the high dimensionality of inner layers. The resulting vision system is shown to significantly boost the performance of standard CNNs across a large and diverse collection of image data sets. An ensemble of different topologies using the same approach obtains state-of-the-art results on a virus data set.
翻訳日:2021-04-10 00:28:37 公開日:2021-04-08
# (参考訳) DeepI2P: ディープ分類によるイメージツーポイントクラウド登録 [全文訳有]

DeepI2P: Image-to-Point Cloud Registration via Deep Classification ( http://arxiv.org/abs/2104.03501v1 )

ライセンス: CC BY 4.0
Jiaxin Li, Gim Hee Lee(参考訳) 本稿では,イメージとポイントクラウド間の相互モダリティ登録のための新しいアプローチであるdeepi2pを提案する。 画像(例)が与えられる。 rgbカメラから)および一般的なポイントクラウド(例えば、) 同じシーンの異なる場所で撮影された3dlidarスキャナから、カメラとlidarの座標フレーム間の相対的な剛性変換を推定する。 共通特徴記述子を学習して登録の対応を確立することは、本質的には外観の欠如と2つのモダリティ間の幾何学的相関のため困難である。 登録問題を分類および逆カメラ投影最適化問題に変換することで難易度を回避する。 分類ニューラルネットワークは、ポイントクラウド内の各点の投影がカメラフラスタム内かそれ以上であるかをラベル付けするように設計されている。 これらのラベル付きポイントはその後、新しい逆カメラ投影ソルバに渡され、相対的なポーズを推定する。 Oxford Robotcar と KITTI のデータセットによる大規模な実験結果から,本手法の有効性が示された。 ソースコードはhttps://github.com/l ijx10/DeepI2Pで入手できる。

This paper presents DeepI2P: a novel approach for cross-modality registration between an image and a point cloud. Given an image (e.g. from a rgb-camera) and a general point cloud (e.g. from a 3D Lidar scanner) captured at different locations in the same scene, our method estimates the relative rigid transformation between the coordinate frames of the camera and Lidar. Learning common feature descriptors to establish correspondences for the registration is inherently challenging due to the lack of appearance and geometric correlations across the two modalities. We circumvent the difficulty by converting the registration problem into a classification and inverse camera projection optimization problem. A classification neural network is designed to label whether the projection of each point in the point cloud is within or beyond the camera frustum. These labeled points are subsequently passed into a novel inverse camera projection solver to estimate the relative pose. Extensive experimental results on Oxford Robotcar and KITTI datasets demonstrate the feasibility of our approach. Our source code is available at https://github.com/l ijx10/DeepI2P
翻訳日:2021-04-10 00:20:28 公開日:2021-04-08
# (参考訳) wav2vec 2.0埋め込みによる音声からの感情認識 [全文訳有]

Emotion Recognition from Speech Using Wav2vec 2.0 Embeddings ( http://arxiv.org/abs/2104.03502v1 )

ライセンス: CC BY 4.0
Leonardo Pepino, Pablo Riera, Luciana Ferrer(参考訳) 感情認識データセットは比較的小さいため、より高度なディープラーニングアプローチの使用が難しい。 本稿では,事前学習されたwav2vec 2.0モデルから抽出した特徴を単純なニューラルネットワークを用いてモデル化した音声感情認識のための伝達学習手法を提案する。 下流モデルと共同で学習するトレーニング可能な重みを用いて,事前学習したモデルからの複数のレイヤの出力を組み合わせることを提案する。 さらに,2種類のwav2vec 2.0モデルを用いた音声認識の性能比較を行った。 提案手法をIEMOCAPとRAVDESSの2つの標準感情データベース上で評価し,結果よりも優れた性能を示した。

Emotion recognition datasets are relatively small, making the use of the more sophisticated deep learning approaches challenging. In this work, we propose a transfer learning method for speech emotion recognition where features extracted from pre-trained wav2vec 2.0 models are modeled using simple neural networks. We propose to combine the output of several layers from the pre-trained model using trainable weights which are learned jointly with the downstream model. Further, we compare performance using two different wav2vec 2.0 models, with and without finetuning for speech recognition. We evaluate our proposed approaches on two standard emotion databases IEMOCAP and RAVDESS, showing superior performance compared to results in the literature.
翻訳日:2021-04-10 00:03:29 公開日:2021-04-08
# (参考訳) SemEval-2021 Task 5: BERToxic を用いたヘイトスピーチの微粒化検出 [全文訳有]

Lone Pine at SemEval-2021 Task 5: Fine-Grained Detection of Hate Speech Using BERToxic ( http://arxiv.org/abs/2104.03506v1 )

ライセンス: CC BY 4.0
Yakoob Khan, Weicheng Ma, Soroush Vosoughi(参考訳) 本稿では,Toxic Spans Detection problem (SemEval-2021 Task 5)について述べる。 提案するBERToxicは,所定のテキスト中の有毒なテキストスパンを見つけるために事前訓練されたBERTモデルを微調整し,追加の処理後ステップを用いて境界を洗練させるシステムである。 1)連続する有毒トークン間の文字オフセットを有毒としてラベル付けし、(2)少なくとも1つの有毒トークンを有毒とラベルした単語に有毒ラベルを割り当てる。 実験により, この2つの処理ステップにより, テストセットの性能が4.16%向上することを示した。 また,データ拡張およびアンサンブルモデリング戦略がシステムに与える影響についても検討した。 我々のシステムは提供されたベースラインを大きく上回り、F1スコアは0.683となり、Lone Pineは91チーム中17位に入った。 私たちのコードはhttps://github.com/Y akoob-Khan/Toxic-Spa ns-Detectionで利用可能です。

This paper describes our approach to the Toxic Spans Detection problem (SemEval-2021 Task 5). We propose BERToxic, a system that fine-tunes a pre-trained BERT model to locate toxic text spans in a given text and utilizes additional post-processing steps to refine the boundaries. The post-processing steps involve (1) labeling character offsets between consecutive toxic tokens as toxic and (2) assigning a toxic label to words that have at least one token labeled as toxic. Through experiments, we show that these two post-processing steps improve the performance of our model by 4.16% on the test set. We also studied the effects of data augmentation and ensemble modeling strategies on our system. Our system significantly outperformed the provided baseline and achieved an F1-score of 0.683, placing Lone Pine in the 17th place out of 91 teams in the competition. Our code is made available at https://github.com/Y akoob-Khan/Toxic-Spa ns-Detection
翻訳日:2021-04-09 23:51:20 公開日:2021-04-08
# (参考訳) 3次元形状モデルに基づく認識可能な3次元顔形状の再構成 [全文訳有]

Reconstructing Recognizable 3D Face Shapes based on 3D Morphable Models ( http://arxiv.org/abs/2104.03515v1 )

ライセンス: CC BY 4.0
Diqiong Jiang, Yiwei Jin, Risheng Deng, Ruofeng Tong, Fanglue Zhang, Yukun Yai, Ming Tang(参考訳) 最近の多くの作品は、同一人物の形状パラメータを集約し、パラメトリックモデル(例えば3dmm)に基づいて異なる人物の形状を分離することで、特徴的な3d顔形状を再構成している。 しかし,これらの形状パラメータを用いた顔認識作業の精度が高いにもかかわらず,これらのパラメータから再構成した顔形状の視覚的識別は不十分である。 識別形状パラメータは、表現された3d顔形状における視覚的な識別を保証するか? 本稿では, 形状パラメータと形状形状の再構成の関係を解析し, 形状パラメータと形状幾何学領域の識別性を高めることを目的とした, 形状パラメータに対する新しい形状識別正則化(SIR)損失を提案する。 さらに、ランドマークとアイデンティティアノテーションの両方を含むトレーニングデータの欠如に対処するために、アイデンティティとランドマークのラベルを含む混合データを活用するためのネットワーク構造と関連するトレーニング戦略を提案する。 提案手法は, 形状パラメータの再構成誤差, 視覚的識別性, 顔認識精度の観点から, 既存の手法と比較する。 実験の結果,本手法は最先端手法よりも優れていた。

Many recent works have reconstructed distinctive 3D face shapes by aggregating shape parameters of the same identity and separating those of different people based on parametric models (e.g., 3D morphable models (3DMMs)). However, despite the high accuracy in the face recognition task using these shape parameters, the visual discrimination of face shapes reconstructed from those parameters is unsatisfactory. The following research question has not been answered in previous works: Do discriminative shape parameters guarantee visual discrimination in represented 3D face shapes? This paper analyzes the relationship between shape parameters and reconstructed shape geometry and proposes a novel shape identity-aware regularization(SIR) loss for shape parameters, aiming at increasing discriminability in both the shape parameter and shape geometry domains. Moreover, to cope with the lack of training data containing both landmark and identity annotations, we propose a network structure and an associated training strategy to leverage mixed data containing either identity or landmark labels. We compare our method with existing methods in terms of the reconstruction error, visual distinguishability, and face recognition accuracy of the shape parameters. Experimental results show that our method outperforms the state-of-the-art methods.
翻訳日:2021-04-09 23:42:45 公開日:2021-04-08
# (参考訳) カスケード次元リフト法による3次元深部単眼人物ポーズ推定 [全文訳有]

Deep Monocular 3D Human Pose Estimation via Cascaded Dimension-Lifting ( http://arxiv.org/abs/2104.03520v1 )

ライセンス: CC BY 4.0
Changgong Zhang, Fangneng Zhan, Yuan Chang(参考訳) 1つの画像からの3次元ポーズ推定は、深さの曖昧さのために難しい問題である。 従来の手法の1つのタイプは、外部の2Dポーズ検出器に頼って得られた2D関節を3D空間に持ち上げる。 しかし、この種のアプローチは、3次元ポーズ推定のための強い手がかりである画像の文脈情報を捨てる。 一方、他の方法では、ジョイントを単分子画像から直接予測するが、2.5D出力表現である$P^{2.5D} = (u,v,z^{r})$は、$u$と$v$の両方が画像空間にあるが、ルート相対3D空間では$z^{r}$である。 したがって、地中真実情報(例えば、カメラからのルートジョイントの深さ)は、通常、2.5D出力を3D空間に変換するために利用され、実際の適用性が制限される。 本研究では,文脈情報を利用するだけでなく,ケースド次元リフトにより直接3次元空間に出力を生成する新しいエンドツーエンドフレームワークを提案する。 具体的には,2次元画像空間から3次元空間へのポーズを複数の連続的なサブタスクに分解する作業,1)2次元空間における個々の関節の推定,2)根相対的深さ推定,3)3次元空間への持ち上げ,それぞれが直接監督と文脈的画像特徴を用いて学習プロセスを導く。 広汎な実験により,提案フレームワークは2つの広く使用されている3次元ポーズデータセット(Human3.6M, MuPoTS-3D)上で最先端のパフォーマンスを実現することが示された。

The 3D pose estimation from a single image is a challenging problem due to depth ambiguity. One type of the previous methods lifts 2D joints, obtained by resorting to external 2D pose detectors, to the 3D space. However, this type of approaches discards the contextual information of images which are strong cues for 3D pose estimation. Meanwhile, some other methods predict the joints directly from monocular images but adopt a 2.5D output representation $P^{2.5D} = (u,v,z^{r}) $ where both $u$ and $v$ are in the image space but $z^{r}$ in root-relative 3D space. Thus, the ground-truth information (e.g., the depth of root joint from the camera) is normally utilized to transform the 2.5D output to the 3D space, which limits the applicability in practice. In this work, we propose a novel end-to-end framework that not only exploits the contextual information but also produces the output directly in the 3D space via cascaded dimension-lifting. Specifically, we decompose the task of lifting pose from 2D image space to 3D spatial space into several sequential sub-tasks, 1) kinematic skeletons \& individual joints estimation in 2D space, 2) root-relative depth estimation, and 3) lifting to the 3D space, each of which employs direct supervisions and contextual image features to guide the learning process. Extensive experiments show that the proposed framework achieves state-of-the-art performance on two widely used 3D human pose datasets (Human3.6M, MuPoTS-3D).
翻訳日:2021-04-09 23:22:14 公開日:2021-04-08
# (参考訳) ファウンダス画像におけるカップとディスクセグメンテーションのための双方向 ConvLSTM を用いたM-Net [全文訳有]

M-Net with Bidirectional ConvLSTM for Cup and Disc Segmentation in Fundus Images ( http://arxiv.org/abs/2104.03549v1 )

ライセンス: CC BY 4.0
Maleeha Khalid Khan (1) Syed Muhammad Anwar (2)(参考訳) 緑内障は眼疾患であり、光ファイバーを劣化させることが知られており、カップの大きさが増大し、視力の恒久的な喪失につながる可能性がある。 緑内障は白内障の2番目の原因であるが、緑内障は治療できないためより危険である。 緑内障の早期診断と治療は緑内障の進行と損傷を遅らせるのに役立つ。 緑内障の検出には、Cup to Disc ratio(CDR)が重要な情報を提供する。 CDRはカップ領域とディスク領域の正確なセグメンテーションに大きく依存する。 本稿では,共同カップとディスクセグメンテーションに基づく双方向畳み込み長短期メモリ(LSTM)を用いた改良型M-Netを提案する。 提案するネットワークは,エンコーダとデコーダの機能と双方向LSTMを組み合わせたものである。 提案モデルでは,カップ/ディスク比の異常を観測可能なカップ領域とディスク領域について検討した。 提案モデルは,本モデルが視ディスクのサイススコア 0.92 とセグメンテーションカップとディスク領域の精度 98.99% を達成している。

Glaucoma is a severe eye disease that is known to deteriorate optic never fibers, causing cup size to increase, which could result in permanent loss of vision. Glaucoma is the second leading cause of blindness after cataract, but glaucoma being more dangerous as it is not curable. Early diagnoses and treatment of glaucoma can help to slow the progression of glaucoma and its damages. For the detection of glaucoma, the Cup to Disc ratio (CDR) provides significant information. The CDR depends heavily on the accurate segmentation of cup and disc regions. In this paper, we have proposed a modified M-Net with bidirectional convolution long short-term memory (LSTM), based on joint cup and disc segmentation. The proposed network combines features of encoder and decoder, with bidirectional LSTM. Our proposed model segments cup and disc regions based on which the abnormalities in cup to disc ratio can be observed. The proposed model is tested on REFUGE2 data, where our model achieves a dice score of 0.92 for optic disc and an accuracy of 98.99% in segmenting cup and disc regions
翻訳日:2021-04-09 22:50:45 公開日:2021-04-08
# (参考訳) 電子顕微鏡ボリュームによるミトコンドリアセグメンテーションのための安定なディープニューラルネットワークアーキテクチャ

Stable deep neural network architectures for mitochondria segmentation on electron microscopy volumes ( http://arxiv.org/abs/2104.03577v1 )

ライセンス: CC BY 4.0
Daniel Franco-Barranco and Arrate Mu\~noz-Barrutia and Ignacio Arganda-Carreras(参考訳) 電子顕微鏡(em)はミトコンドリアなどの細胞内オルガネラの同定を可能にし、臨床および科学研究の洞察を与える。 近年では、公共のミトコンドリアセグメンテーションデータセットに対する以前のアプローチと比較して、優れたパフォーマンス、あるいは人間レベルの精度を報告している新しいディープラーニングアーキテクチャが数多く発表されている。 残念ながら、これらの出版物の多くは、得られた結果をサポートするためにコードもトレーニングの詳細も公開していないため、再現性の問題や疑わしいモデル比較につながる。 そのため,最近の実験結果報告のベストプラクティスに従って,ミトコンドリアのセグメンテーションのための最先端のディープラーニングアーキテクチャをEMボリュームに広範な研究を行い,この課題に対する2次元および3次元U-Net様モデルの違いによる性能への影響を評価する。 各コンポーネントの貢献をよりよく理解するために、前処理と後処理操作の共通セットが実装され、各アプローチでテストされている。 さらに、すべてのアーキテクチャに対するハイパーパラメータ値の徹底的な網羅が実施され、各構成が複数回実行され、評価指標の平均および標準偏差値が報告されている。 この手法を用いて,epfl海馬ミトコンドリアセグメンテーションデータセットにおける最先端の成果を一貫して得る,非常に安定したアーキテクチャとハイパーパラメータの構成を見出した。 さらに、提案したモデルをLucchi++とKasthuri++の2つの利用可能なデータセットでベンチマークしました。 この研究に由来するコードとそのドキュメントが公開されている。

Electron microscopy (EM) allows the identification of intracellular organelles such as mitochondria, providing insights for clinical and scientific studies. In recent years, a number of novel deep learning architectures have been published reporting superior performance, or even human-level accuracy, compared to previous approaches on public mitochondria segmentation datasets. Unfortunately, many of these publications do not make neither the code nor the full training details public to support the results obtained, leading to reproducibility issues and dubious model comparisons. For that reason, and following a recent code of best practices for reporting experimental results, we present an extensive study of the state-of-the-art deep learning architectures for the segmentation of mitochondria on EM volumes, and evaluate the impact in performance of different variations of 2D and 3D U-Net-like models for this task. To better understand the contribution of each component, a common set of pre- and post-processing operations has been implemented and tested with each approach. Moreover, an exhaustive sweep of hyperparameters values for all architectures have been performed and each configuration has been run multiple times to report the mean and standard deviation values of the evaluation metrics. Using this methodology, we found very stable architectures and hyperparameter configurations that consistently obtain state-of-the-art results in the well-known EPFL Hippocampus mitochondria segmentation dataset. Furthermore, we have benchmarked our proposed models on two other available datasets, Lucchi++ and Kasthuri++, where they outperform all previous works. The code derived from this research and its documentation are publicly available.
翻訳日:2021-04-09 22:41:44 公開日:2021-04-08
# (参考訳) 不確かさを意識した生活予測装置 [全文訳有]

Uncertainty-aware Remaining Useful Life predictor ( http://arxiv.org/abs/2104.03613v1 )

ライセンス: CC BY-SA 4.0
Luca Biggio, Alexander Wieland, Manuel Arias Chao, Iason Kastanis, Olga Fink(参考訳) 有効寿命 (Remaining Useful Life, RUL) とは、特定の産業資産が定義された仕様内でいつまで運用されるかを予測する問題である。 rul予測手法を実生活アプリケーションに適用することは、メンテナンスコストとマシンダウンタイムを大幅に削減する可能性を持つインテリジェントな保守戦略の設計の前提条件である。 幅広いエンジニアリング分野における優れたパフォーマンスを考慮して、機械学習(ML)アルゴリズムは、インテリジェントなメンテナンスシステムの設計に関わる課題に取り組むための自然な候補である。 特に、潜在的に破滅的な結果や、遅すぎるか早すぎるかというメンテナンス決定に伴う実質的なコストを考えると、MLアルゴリズムは予測と並行して不確実性の推定を提供するのが望ましい。 しかし、RUL問題における不確実性推定に使用される標準的なデータ駆動手法は、大きなデータセットに十分にスケールしないか、あるいは生センサデータからRUL推定への高次元マッピングをモデル化するのに十分な表現力がない。 本研究では,DGP(Deep Gaussian Processes)を,上記の制限に対する可能な解として考える。 RUL予測に適用したいくつかのDGPの徹底的な評価と比較を行う。 N-CMAPSS (New Commercial Modular Aero-Propulsion System Simulation) では,NASAによる航空機用エンジンの性能評価を行った。 その結果,提案手法は, 精度の高いRUL予測と, 精度の高い不確実性推定を行い, より信頼性の高い(安全クリティカルな)産業用アプリケーションを実現することができた。

Remaining Useful Life (RUL) estimation is the problem of inferring how long a certain industrial asset can be expected to operate within its defined specifications. Deploying successful RUL prediction methods in real-life applications is a prerequisite for the design of intelligent maintenance strategies with the potential of drastically reducing maintenance costs and machine downtimes. In light of their superior performance in a wide range of engineering fields, Machine Learning (ML) algorithms are natural candidates to tackle the challenges involved in the design of intelligent maintenance systems. In particular, given the potentially catastrophic consequences or substantial costs associated with maintenance decisions that are either too late or too early, it is desirable that ML algorithms provide uncertainty estimates alongside their predictions. However, standard data-driven methods used for uncertainty estimation in RUL problems do not scale well to large datasets or are not sufficiently expressive to model the high-dimensional mapping from raw sensor data to RUL estimates. In this work, we consider Deep Gaussian Processes (DGPs) as possible solutions to the aforementioned limitations. We perform a thorough evaluation and comparison of several variants of DGPs applied to RUL predictions. The performance of the algorithms is evaluated on the N-CMAPSS (New Commercial Modular Aero-Propulsion System Simulation) dataset from NASA for aircraft engines. The results show that the proposed methods are able to provide very accurate RUL predictions along with sensible uncertainty estimates, providing more reliable solutions for (safety-critical) real-life industrial applications.
翻訳日:2021-04-09 22:39:00 公開日:2021-04-08
# (参考訳) ドメイン拡張メタラーニングによるオープンドメインの一般化 [全文訳有]

Open Domain Generalization with Domain-Augmented Meta-Learning ( http://arxiv.org/abs/2104.03620v1 )

ライセンス: CC BY 4.0
Yang Shu, Zhangjie Cao, Chenyu Wang, Jianmin Wang, Mingsheng Long(参考訳) 一般化能力の高いモデルを学ぶために利用可能なデータセットを活用することは、コンピュータビジョンにとって重要であり、特に未確認領域の注釈付きデータが利用できない場合である。 個別のソースドメインと対象ドメインの分布とラベル集合が異なる未知のターゲットドメインにおいて、異なるソースドメインから学び高いパフォーマンスを達成するオープンドメイン一般化(opendg)の新規かつ実用的な問題について検討する。 この問題は様々なソースドメインに適用でき、現実世界のアプリケーションにも広く適用できる。 オープンドメインの一般化表現を学習するためのドメイン拡張メタラーニングフレームワークを提案する。 新しいディリクレ混合とラベルレベルを蒸留ソフトラベルで拡張し、各ドメインを欠落クラスやその他のドメイン知識で補完する。 新しいメタ学習タスクと損失を設計してドメイン上のメタ学習を行い、ドメイン固有の知識を保持し、同時にドメイン間の知識を一般化する。 種々のマルチドメインデータセットの実験結果から、提案したドメイン拡張メタラーニング(DAML)が、未確認ドメイン認識の先行手法より優れていることが示された。

Leveraging datasets available to learn a model with high generalization ability to unseen domains is important for computer vision, especially when the unseen domain's annotated data are unavailable. We study a novel and practical problem of Open Domain Generalization (OpenDG), which learns from different source domains to achieve high performance on an unknown target domain, where the distributions and label sets of each individual source domain and the target domain can be different. The problem can be generally applied to diverse source domains and widely applicable to real-world applications. We propose a Domain-Augmented Meta-Learning framework to learn open-domain generalizable representations. We augment domains on both feature-level by a new Dirichlet mixup and label-level by distilled soft-labeling, which complements each domain with missing classes and other domain knowledge. We conduct meta-learning over domains by designing new meta-learning tasks and losses to preserve domain unique knowledge and generalize knowledge across domains simultaneously. Experiment results on various multi-domain datasets demonstrate that the proposed Domain-Augmented Meta-Learning (DAML) outperforms prior methods for unseen domain recognition.
翻訳日:2021-04-09 22:22:46 公開日:2021-04-08
# (参考訳) 誘導データ均質化によるポストホック領域適応 [全文訳有]

Post-Hoc Domain Adaptation via Guided Data Homogenization ( http://arxiv.org/abs/2104.03624v1 )

ライセンス: CC BY-SA 4.0
Kurt Willis, Luis Oala(参考訳) データ分散のシフトに対処することは、ディープラーニングモデルを現実世界の設定に展開するための重要な前提条件である。 この問題に対する一般的なアプローチは、転送学習を通じてモデルを新しい領域に調整することである。 しかし、多くの場合、これはデプロイされたモデルに対するポストホックな方法では適用されず、パラメータ調整によって事前に確立された安全認定を損なう。 このような状況下では、モデルからデータへの適応の負担をシフトさせる誘導型データ均質化によるデータ分布の変化に対処することを提案する。 このアプローチでは、ディープラーニングモデルに暗黙的に含まれているトレーニングデータに関する情報を使用して、ドメイン転送関数を学習する。 これにより、モデル自体を変更することなく、未知のシナリオにモデルをターゲットとするデプロイが可能になる。 我々は、CIFAR-10とMNISTデータセットの実験を通して、データ均質化の可能性を示す。

Addressing shifts in data distributions is an important prerequisite for the deployment of deep learning models to real-world settings. A general approach to this problem involves the adjustment of models to a new domain through transfer learning. However, in many cases, this is not applicable in a post-hoc manner to deployed models and further parameter adjustments jeopardize safety certifications that were established beforehand. In such a context, we propose to deal with changes in the data distribution via guided data homogenization which shifts the burden of adaptation from the model to the data. This approach makes use of information about the training data contained implicitly in the deep learning model to learn a domain transfer function. This allows for a targeted deployment of models to unknown scenarios without changing the model itself. We demonstrate the potential of data homogenization through experiments on the CIFAR-10 and MNIST data sets.
翻訳日:2021-04-09 22:04:07 公開日:2021-04-08
# (参考訳) 事例とシーンを融合した意味的シーン補完 [全文訳有]

Semantic Scene Completion via Integrating Instances and Scene in-the-Loop ( http://arxiv.org/abs/2104.03640v1 )

ライセンス: CC BY 4.0
Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan-Yee Lin, Xiaogang Wang, Hongsheng Li(参考訳) セマンティクスシーンの完成は、単一のビュー深度またはrgbd画像から正確なvoxel-wiseセマンティクスで完全な3dシーンを再構築することを目的としている。 屋内のシーン理解にとって重要な問題だが、難しい問題である。 本稿では,インスタンスレベルとシーンレベルのセマンティクス情報の両方を活用する,scene-instance-scen e network(\textit{sisnet})という新しいフレームワークを提案する。 本手法は, セマンティックなカテゴリが容易に混在している近傍のオブジェクトと同様に, きめ細かい形状を推定できる。 重要な洞察は、インスタンスを生の入力画像の代わりに粗い完了したセマンティックシーンから切り離して、インスタンスと全体シーンの再構築を導くことである。 sisnetはscene-to-instance(si )とinstance-to-scene(is )セマンティクス補完を行う。 特に、siは、シーンからインスタンスを効果的に分離するためにオブジェクトの周囲のコンテキストをエンコードすることができ、各インスタンスをより詳細な詳細をキャプチャするために、より高解像度にボクセル化することができる。 ISでは、きめ細かいインスタンス情報を3Dシーンに統合することで、より正確なセマンティックシーンの完成につながる。 このような反復機構を利用することで、シーンとインスタンスの完了は互いに利益をもたらし、より高い完了精度を達成する。 大規模な実験により,提案手法は実際のNYU,NYUCADおよび合成SUNCG-RGBDデータセットにおいて,常に最先端の手法より優れていることが示された。 コードと追加資料は \url{https://github.com/y jcaimeow/SISNet} で入手できる。

Semantic Scene Completion aims at reconstructing a complete 3D scene with precise voxel-wise semantics from a single-view depth or RGBD image. It is a crucial but challenging problem for indoor scene understanding. In this work, we present a novel framework named Scene-Instance-Scene Network (\textit{SISNet}), which takes advantages of both instance and scene level semantic information. Our method is capable of inferring fine-grained shape details as well as nearby objects whose semantic categories are easily mixed-up. The key insight is that we decouple the instances from a coarsely completed semantic scene instead of a raw input image to guide the reconstruction of instances and the overall scene. SISNet conducts iterative scene-to-instance (SI) and instance-to-scene (IS) semantic completion. Specifically, the SI is able to encode objects' surrounding context for effectively decoupling instances from the scene and each instance could be voxelized into higher resolution to capture finer details. With IS, fine-grained instance information can be integrated back into the 3D scene and thus leads to more accurate semantic scene completion. Utilizing such an iterative mechanism, the scene and instance completion benefits each other to achieve higher completion accuracy. Extensively experiments show that our proposed method consistently outperforms state-of-the-art methods on both real NYU, NYUCAD and synthetic SUNCG-RGBD datasets. The code and the supplementary material will be available at \url{https://github.com/y jcaimeow/SISNet}.
翻訳日:2021-04-09 21:56:54 公開日:2021-04-08
# (参考訳) DeepProg: 疾患予後を予測するトランスフォーマーベースのフレームワーク [全文訳有]

DeepProg: A Transformer-based Framework for Predicting Disease Prognosis ( http://arxiv.org/abs/2104.03642v1 )

ライセンス: CC BY 4.0
Huy Hoang Nguyen, Simo Saarakkala, Matthew B. Blaschko, Aleksei Tiulpin(参考訳) 診断タスクを自動化するために、ディープラーニングメソッドの大部分が構築されている。 しかし、臨床実践において、より高度な疑問は、疾患の経過を予測する方法である。 この問題の現在の方法は複雑で、しばしばドメイン知識を必要とするため、実践者が使うのが難しい。 本稿では,一対多のシーケンス予測問題として予後予測タスクを定式化する。 放射線医と一般医の2人のエージェントによる臨床的意思決定プロセスに触発され,画像と補助データから疾患の予後を推定する汎用的なエンド・ツー・エンド・トランスフォーマー・ベースの枠組みを提案する。 本手法の有効性と妥当性を合成データに示し, 膝関節の構造的変形性変化の予測について検討した。

A vast majority of deep learning methods are built to automate diagnostic tasks. However, in clinical practice, a more advanced question is how to predict the course of a disease. Current methods for this problem are complicated, and often require domain knowledge, making them difficult for practitioners to use. In this paper, we formulate the prognosis prediction task as a one-to-many sequence prediction problem. Inspired by a clinical decision making process with two agents -- a radiologist and a general practitioner -- we propose a generic end-to-end transformer-based framework to estimate disease prognosis from images and auxiliary data. The effectiveness and validation of the developed method are shown on synthetic data, and in the task of predicting the development of structural osteoarthritic changes in knee joints.
翻訳日:2021-04-09 21:36:40 公開日:2021-04-08
# (参考訳) カプセル内視鏡における遠隔血管および構造物の高度画像強調法 [全文訳有]

Advanced Image Enhancement Method for Distant Vessels and Structures in Capsule Endoscopy ( http://arxiv.org/abs/2104.03668v1 )

ライセンス: CC BY 4.0
Olivier Rukundo, Marius Pedersen, {\O}istein Hovde(参考訳) 本稿では,カプセル内視鏡画像のより遠く(あるいはより暗い)部分の血管や構造について十分な情報を得るために,カプセル内視鏡画像のコントラスト向上のための高度な手法を提案する。 提案手法は,カプセル内視鏡画像の暗黒領域と明るい領域をそれぞれ拡張するための2つのアルゴリズムを組み合わせたものである。 本研究で提案した半単位重み付き双線形アルゴリズム (HWB) は, HSV の成分 V のより暗いマップの内容に応じて,より暗い領域を強化するために用いられる。 TWBは、HSVの成分Vのより明るいマップ内容の明るさが徐々に増大した後に増強操作を行い、言い換えれば、成分Vの強度内容が増加するにつれて、TWBはその平均重みを減少させる。 広範にわたる実験実験を行い、基準画像とPM強調画像の評価に基づいて、胃腸科医({\O}H)は、PM強調画像は、血管に関する情報、画像のコントラスト、カプセル内視鏡画像のより遠くにある構造物の視界や視認性に基づいて、最も優れた画像であると結論付けた。

This paper proposes an advanced method for contrast enhancement of capsule endoscopic images, with the main objective to obtain sufficient information about the vessels and structures in more distant (or darker) parts of capsule endoscopic images. The proposed method (PM) combines two algorithms for the enhancement of darker and brighter areas of capsule endoscopic images, respectively. The half-unit weighted bilinear algorithm (HWB) proposed in our previous work is used to enhance darker areas according to the darker map content of its HSV's component V. Enhancement of brighter areas is achieved thanks to the novel thresholded weighted-bilinear algorithm (TWB) developed to avoid overexposure and enlargement of specular highlight spots while preserving the hue, in such areas. The TWB performs enhancement operations following a gradual increment of the brightness of the brighter map content of its HSV's component V. In other words, the TWB decreases its averaged-weights as the intensity content of the component V increases. Extensive experimental demonstrations were conducted, and based on evaluation of the reference and PM enhanced images, a gastroenterologist ({\O}H) concluded that the PM enhanced images were the best ones based on the information about the vessels, contrast in the images, and the view or visibility of the structures in more distant parts of the capsule endoscopy images.
翻訳日:2021-04-09 21:26:19 公開日:2021-04-08
# (参考訳) ポイント・ボクセル拡散による3次元形状生成と完成 [全文訳有]

3D Shape Generation and Completion through Point-Voxel Diffusion ( http://arxiv.org/abs/2104.03670v1 )

ライセンス: CC BY 4.0
Linqi Zhou, Yilun Du, Jiajun Wu(参考訳) 本稿では,3次元形状の確率的生成モデルを提案する。 潜在ベクトルを形状に決定論的に変換することを学ぶ既存のモデルと異なり、我々のモデルであるpoint-voxel diffusion(pvd)は無条件形状生成と条件付きマルチモーダル形状完了のための統一的確率的定式化である。 PVDは3次元形状のハイブリッド・ポイント・ボクセル表現で拡散モデルを合成する。 観測された点雲データからガウス雑音への拡散過程を反転させ、(条件付き)確率関数に対する変分下限を最適化することで、一連の分節化ステップと見なすことができる。 実験により、PVDは高忠実度形状を合成し、部分点雲を完了し、実物の単視点深度スキャンから複数の完了結果を生成することができることが示された。

We propose a novel approach for probabilistic generative modeling of 3D shapes. Unlike most existing models that learn to deterministically translate a latent vector to a shape, our model, Point-Voxel Diffusion (PVD), is a unified, probabilistic formulation for unconditional shape generation and conditional, multi-modal shape completion. PVD marries denoising diffusion models with the hybrid, point-voxel representation of 3D shapes. It can be viewed as a series of denoising steps, reversing the diffusion process from observed point cloud data to Gaussian noise, and is trained by optimizing a variational lower bound to the (conditional) likelihood function. Experiments demonstrate that PVD is capable of synthesizing high-fidelity shapes, completing partial point clouds, and generating multiple completion results from single-view depth scans of real objects.
翻訳日:2021-04-09 21:13:50 公開日:2021-04-08
# (参考訳) 説明可能性に基づくグラフニューラルネットワークに対するバックドア攻撃 [全文訳有]

Explainability-based Backdoor Attacks Against Graph Neural Networks ( http://arxiv.org/abs/2104.03674v1 )

ライセンス: CC BY 4.0
Jing Xu, Minhui (Jason) Xue, Stjepan Picek(参考訳) バックドア攻撃は、ニューラルネットワークモデルにとって深刻な脅威である。 バックドアモデルでは、トリガー埋め込み入力をアタッカー・チョーゼンターゲットラベルに誤分類し、他の良質な入力で正常に実行する。 ニューラルネットワークのバックドア攻撃には、すでに多くの研究があるが、グラフニューラルネットワーク(gnn)を考えるものはごくわずかである。 そのため、GNNに対するバックドア攻撃のパフォーマンスにトリガー注入位置が及ぼす影響を説明するための集中的な研究は行われていない。 このギャップを埋めるため,我々はgnnにおけるバックドア攻撃の性能を実験的に検討する。 我々は、2つの強力なGNN説明可能性アプローチを適用し、最適なトリガー注入位置を選択して2つの攻撃目標を達成する。 ベンチマークデータセットと最先端ニューラルネットワークモデルを用いた実験結果から,GNNに対するバックドア攻撃に対するトリガ注入位置の選択において,提案手法の有効性が示された。 例えば、ノード分類タスクでは、GraphLIMEが選択したトリガー注入位置によるバックドアアタックが、2.5ドル未満の精度低下で、攻撃成功率が84ドル以上に達する。

Backdoor attacks represent a serious threat to neural network models. A backdoored model will misclassify the trigger-embedded inputs into an attacker-chosen target label while performing normally on other benign inputs. There are already numerous works on backdoor attacks on neural networks, but only a few works consider graph neural networks (GNNs). As such, there is no intensive research on explaining the impact of trigger injecting position on the performance of backdoor attacks on GNNs. To bridge this gap, we conduct an experimental investigation on the performance of backdoor attacks on GNNs. We apply two powerful GNN explainability approaches to select the optimal trigger injecting position to achieve two attacker objectives -- high attack success rate and low clean accuracy drop. Our empirical results on benchmark datasets and state-of-the-art neural network models demonstrate the proposed method's effectiveness in selecting trigger injecting position for backdoor attacks on GNNs. For instance, on the node classification task, the backdoor attack with trigger injecting position selected by GraphLIME reaches over $84 \%$ attack success rate with less than $2.5 \%$ accuracy drop
翻訳日:2021-04-09 20:44:40 公開日:2021-04-08
# (参考訳) HindSight: 部分ホール階層を表現するグラフベースの視覚モデルアーキテクチャ [全文訳有]

HindSight: A Graph-Based Vision Model Architecture For Representing Part-Whole Hierarchies ( http://arxiv.org/abs/2104.03722v1 )

ライセンス: CC BY 4.0
Muhammad AbdurRafae(参考訳) 本稿では,画像中の部分全体階層の表現をグラフ形式で符号化するモデルアーキテクチャを提案する。 イメージを異なるレベルのパッチに分割して、これらすべてのパッチを、完全に接続されたグラフのノードとして扱うことが目的だ。 動的特徴抽出モジュールは、各グラフイテレーションでこれらのパッチから特徴表現を抽出するために使用される。 これにより、固有の階層的な情報を包含する画像のリッチなグラフ表現を学べる。 適切な自己監督型トレーニング技術を利用することで、そのようなモデルを汎用視覚エンコーダモデルとしてトレーニングし、下流の様々な視覚関連タスク(画像分類、オブジェクト検出、画像キャプチャなど)に使用することができる。 ).

This paper presents a model architecture for encoding the representations of part-whole hierarchies in images in form of a graph. The idea is to divide the image into patches of different levels and then treat all of these patches as nodes for a fully connected graph. A dynamic feature extraction module is used to extract feature representations from these patches in each graph iteration. This enables us to learn a rich graph representation of the image that encompasses the inherent part-whole hierarchical information. Utilizing proper self-supervised training techniques, such a model can be trained as a general purpose vision encoder model which can then be used for various vision related downstream tasks (e.g., Image Classification, Object Detection, Image Captioning, etc.).
翻訳日:2021-04-09 20:33:12 公開日:2021-04-08
# (参考訳) メタ学習支援プロトコル [全文訳有]

Support-Target Protocol for Meta-Learning ( http://arxiv.org/abs/2104.03736v1 )

ライセンス: CC BY 4.0
Su Lu, Han-Jia Ye, De-Chuan Zhan(参考訳) サポート/クエリ(S/Q)トレーニングプロトコルはメタラーニングで広く使われている。 S/Qプロトコルは、タスク固有のモデルをSでトレーニングし、Qで評価し、Qのサイズと品質に依存するクエリ損失を使用してメタモデルを最適化する。 本稿ではメタラーニングのための新しいS/Tプロトコルを提案する。 タスクに対して理論的に最適なモデルTにアクセスできると仮定すると、Sで訓練されたタスク固有モデルとT/Tプロトコルを直接一致させることができる。 S/Tプロトコルの実践には2つの課題がある。 まず、タスク固有のモデルをTにマッチさせる方法を決定する必要がある。この目的のために、敵の学習によって生成された架空のデータセット上でのタスク固有のモデル間の差を最小限に抑え、タスク固有のモデルにTの予測能力を蒸留する。 第二に、私たちは通常、準備が整った最適モデルを持っていません。 代替として,グローバルに事前訓練されたメタモデルである局所タスクを微調整し,効率性と妥当性を両立させることにより,サロゲートターゲットモデルを構築する。

The support/query (S/Q) training protocol is widely used in meta-learning. S/Q protocol trains a task-specific model on S and then evaluates it on Q to optimize the meta-model using query loss, which depends on size and quality of Q. In this paper, we study a new S/T protocol for meta-learning. Assuming that we have access to the theoretically optimal model T for a task, we can directly match the task-specific model trained on S to T. S/T protocol offers a more accurate evaluation since it does not rely on possibly biased and noisy query instances. There are two challenges in putting S/T protocol into practice. Firstly, we have to determine how to match the task-specific model to T. To this end, we minimize the discrepancy between them on a fictitious dataset generated by adversarial learning, and distill the prediction ability of T to the task-specific model. Secondly, we usually do not have ready-made optimal models. As an alternative, we construct surrogate target models by fine-tuning on local tasks the globally pre-trained meta-model, maintaining both efficiency and veracity.
翻訳日:2021-04-09 20:21:27 公開日:2021-04-08
# (参考訳) 最適移動によるコンロミゼーションメトリックによるFew-Shot行動認識 [全文訳有]

Few-Shot Action Recognition with Compromised Metric via Optimal Transport ( http://arxiv.org/abs/2104.03737v1 )

ライセンス: CC BY 4.0
Su Lu, Han-Jia Ye, De-Chuan Zhan(参考訳) コンピュータビジョンシステムでは必須であるが、少数ショット画像分類の広範な研究にもかかわらず、少数ショット動作認識はまだ成熟していない。 一般的な数ショット学習アルゴリズムは、見知らぬクラスから移動可能な埋め込みを抽出し、メトリックベースの分類器を構築することで、見知らぬクラスで再利用する。 これらのアルゴリズムをアクション認識に適用する際の大きな障害は、ビデオの複雑な構造である。 既存のソリューションでは、ビデオからフレームをサンプリングし、埋め込みを集約してビデオレベルの表現を形成し、重要な時間的関係を無視している。 2つのビデオ間の明示的なシーケンスマッチングを実行し、それらの距離をマッチングコストとして定義し、シーケンス順序に過度な制限を課す。 本稿では,この2つのソリューションの利点を組み合わせるために,CMOT(Compromized Metric via Optimal Transport)を提案する。 CMOT は Optimal Transport フレームワークの下でビデオのセマンティック情報と時間情報を同時に検討し、コンテンツに敏感なタスクと順序に敏感なタスクを区別する。 詳しくは、2つのビデオからセグメントをサンプリングし、2つのセグメントシーケンス間の最適な輸送問題としてそれらの距離を計算する。 時間的順序付け情報を保存するため,一対のセグメント間の位置距離で補償することにより,地価行列を補正する。 ベンチマークデータセットの実証結果はCMOTの優位性を示している。

Although vital to computer vision systems, few-shot action recognition is still not mature despite the wide research of few-shot image classification. Popular few-shot learning algorithms extract a transferable embedding from seen classes and reuse it on unseen classes by constructing a metric-based classifier. One main obstacle to applying these algorithms in action recognition is the complex structure of videos. Some existing solutions sample frames from a video and aggregate their embeddings to form a video-level representation, neglecting important temporal relations. Others perform an explicit sequence matching between two videos and define their distance as matching cost, imposing too strong restrictions on sequence ordering. In this paper, we propose Compromised Metric via Optimal Transport (CMOT) to combine the advantages of these two solutions. CMOT simultaneously considers semantic and temporal information in videos under Optimal Transport framework, and is discriminative for both content-sensitive and ordering-sensitive tasks. In detail, given two videos, we sample segments from them and cast the calculation of their distance as an optimal transport problem between two segment sequences. To preserve the inherent temporal ordering information, we additionally amend the ground cost matrix by penalizing it with the positional distance between a pair of segments. Empirical results on benchmark datasets demonstrate the superiority of CMOT.
翻訳日:2021-04-09 19:58:39 公開日:2021-04-08
# (参考訳) AI開発における過剰規制から逃れる自主的安全約束

Voluntary safety commitments provide an escape from over-regulation in AI development ( http://arxiv.org/abs/2104.03741v1 )

ライセンス: CC BY 4.0
The Anh Han, Tom Lenaerts, Francisco C. Santos, and Luis Moniz Pereira(参考訳) 人工知能(AI)とその関連技術が私たちの日常生活に導入され、その悪用に対する恐れと不安、そしてその創造に隠された偏見が、このような問題に対処する規制の要求につながった。 しかし、よく理解されていないイノベーションプロセスを盲目的に調整することで、このプロセスを阻害し、最高の意図の下でも、生成された技術から社会が得る利益を減らすことができる。 本稿では,AI技術を用いたドメイン優越競争の基本的なダイナミクスを捉えるベースラインモデルから,リスクテイクに無条件に適用した場合に,社会的に望ましくない結果が生じることを実証する。 潜在的に安全でない行動です 過剰規制の有害な効果を解消するための代替手段として,技術者が自発的に行動の方針を追求するか,あるいは安全に行動するための拘束契約を確立するか,あるいは誓約に従わない者を許可するかを選択できる自発的コミットメントアプローチを提案する。 全体として、この研究は、仲間や機関による制裁による自発的なコミットメントが、AI技術を通じたドメイン優位性への短期的な競争において、すべてのシナリオにおいて社会的に有益な結果をもたらすことを初めて明らかにしている。 これらの結果は、倫理的で責任あるAI技術開発プロセスを保証することを目的としたガバナンスと規制ポリシーの設計に直接関係している。

With the introduction of Artificial Intelligence (AI) and related technologies in our daily lives, fear and anxiety about their misuse as well as the hidden biases in their creation have led to a demand for regulation to address such issues. Yet blindly regulating an innovation process that is not well understood, may stifle this process and reduce benefits that society may gain from the generated technology, even under the best intentions. In this paper, starting from a baseline model that captures the fundamental dynamics of a race for domain supremacy using AI technology, we demonstrate how socially unwanted outcomes may be produced when sanctioning is applied unconditionally to risk-taking, i.e. potentially unsafe, behaviours. As an alternative to resolve the detrimental effect of over-regulation, we propose a voluntary commitment approach wherein technologists have the freedom of choice between independently pursuing their course of actions or establishing binding agreements to act safely, with sanctioning of those that do not abide to what they pledged. Overall, this work reveals for the first time how voluntary commitments, with sanctions either by peers or an institution, leads to socially beneficial outcomes in all scenarios envisageable in a short-term race towards domain supremacy through AI technology. These results are directly relevant for the design of governance and regulatory policies that aim to ensure an ethical and responsible AI technology development process.
翻訳日:2021-04-09 19:39:02 公開日:2021-04-08
# (参考訳) ニューラルネットワークによるインフレ予測

Predicting Inflation with Neural Networks ( http://arxiv.org/abs/2104.03757v1 )

ライセンス: CC BY 4.0
Livia Paranhos(参考訳) 本稿では,インフレーション予測にニューラルネットワークモデルを適用する。 マクロ経済情報を共通成分に要約する特定のリカレントニューラルネットワーク、長期記憶モデル(LSTM)の使用は、この論文の大きな貢献である。 米国のデータによるエクササイズの結果、推定されたニューラルネットは通常、標準ベンチマークよりも優れた予測性能を示し、特に長い地平線において。 特にLSTMは、長い水平線で従来のフィードフォワードネットワークより優れており、インフレの長期的傾向を捉える上で、反復モデルによる利点が示唆されている。 この発見は、精度が向上する限り、比較的古い情報を予測に組み込むlstmのいわゆるlong memoryによって合理化され、推定パラメータの数を節約することができる。 興味深いことに、マクロ経済情報を含むニューラルネットは、大恐慌の前後のインフレの特徴をよく捉えており、おそらくこのエピソードにおける非線形性とマクロ情報の役割を示している。 予測に使用される推定共通コンポーネントは、ビジネスサイクルのダイナミクスや価格に関する情報を捉えることができるように思われる。

This paper applies neural network models to forecast inflation. The use of a particular recurrent neural network, the long-short term memory model, or LSTM, that summarizes macroeconomic information into common components is a major contribution of the paper. Results from an exercise with US data indicate that the estimated neural nets usually present better forecasting performance than standard benchmarks, especially at long horizons. The LSTM in particular is found to outperform the traditional feed-forward network at long horizons, suggesting an advantage of the recurrent model in capturing the long-term trend of inflation. This finding can be rationalized by the so called long memory of the LSTM that incorporates relatively old information in the forecast as long as accuracy is improved, while economizing in the number of estimated parameters. Interestingly, the neural nets containing macroeconomic information capture well the features of inflation during and after the Great Recession, possibly indicating a role for nonlinearities and macro information in this episode. The estimated common components used in the forecast seem able to capture the business cycle dynamics, as well as information on prices.
翻訳日:2021-04-09 19:38:02 公開日:2021-04-08
# (参考訳) ジョブショップスケジューリングのための強化学習環境 [全文訳有]

A Reinforcement Learning Environment For Job-Shop Scheduling ( http://arxiv.org/abs/2104.03760v1 )

ライセンス: CC BY 4.0
Pierre Tassel, Martin Gebser, Konstantin Schekotihin(参考訳) スケジューリングは、様々な自動化システムアプリケーションで発生する基本的なタスクである。例えば、ジョブショップのマシンの最適なスケジュールは、生産コストと無駄を減らすことができる。 それでも、そのようなスケジュールを見つけることはしばしば難解であり、与えられた時間制限内での組合せ最適化問題(COP)法では達成できない。 複雑な振る舞いの学習における深層強化学習(DRL)の最近の進歩は、新しいCOPアプリケーションの可能性を可能にしている。 本稿では,ジョブショップスケジューリングのための効率的なDRL環境を提案する。 さらに,cop法で用いられるスパースメイクスパン最小化基準と密接に関連した,有意義でコンパクトな状態表現と,新しい,単純な密集した報酬関数を設計する。 提案手法は従来のベンチマークインスタンスのDRLメソッドよりも大幅に優れており,最先端のCOPアプローチに近い。

Scheduling is a fundamental task occurring in various automated systems applications, e.g., optimal schedules for machines on a job shop allow for a reduction of production costs and waste. Nevertheless, finding such schedules is often intractable and cannot be achieved by Combinatorial Optimization Problem (COP) methods within a given time limit. Recent advances of Deep Reinforcement Learning (DRL) in learning complex behavior enable new COP application possibilities. This paper presents an efficient DRL environment for Job-Shop Scheduling -- an important problem in the field. Furthermore, we design a meaningful and compact state representation as well as a novel, simple dense reward function, closely related to the sparse make-span minimization criteria used by COP methods. We demonstrate that our approach significantly outperforms existing DRL methods on classic benchmark instances, coming close to state-of-the-art COP approaches.
翻訳日:2021-04-09 19:37:02 公開日:2021-04-08
# (参考訳) uppsala nlp at semeval-2021 task 2: word-in-context disambiguationにおける微調整と特徴抽出のための多言語モデル [全文訳有]

Uppsala NLP at SemEval-2021 Task 2: Multilingual Language Models for Fine-tuning and Feature Extraction in Word-in-Context Disambiguation ( http://arxiv.org/abs/2104.03767v1 )

ライセンス: CC BY 4.0
Huiling You, Xingran Zhu and Sara Stymne(参考訳) 本論文では,多言語・多言語・言語間の単語間曖昧化に関するSemEval-2021タスク2へのUppsala NLPの提出について述べる。 XLM-RoBERTa(XLMR)、Multilingual BERT(mBERT)、Multilingual distilled BERT(mDistilBERT)の3つの事前学習言語モデルの有用性を検討した。 これら3つのモデルを微調整と特徴抽出の2つの設定で比較した。 2つ目のケースでは、依存性ベースの情報を使う実験も行います。 微調整は特徴抽出よりも優れている。 XLMRは細調整と特徴抽出の両方でmBERTよりも優れているが、これらの2つのモデルは多言語設定で同様の性能を示す。 mDistilBERTは微調整では性能が良くないが、特徴抽出器として使用する場合、他のモデルと同様の結果が得られる。 我々はXLMRとmBERTで微調整した2つの最良のシステムを提出した。

We describe the Uppsala NLP submission to SemEval-2021 Task 2 on multilingual and cross-lingual word-in-context disambiguation. We explore the usefulness of three pre-trained multilingual language models, XLM-RoBERTa (XLMR), Multilingual BERT (mBERT) and multilingual distilled BERT (mDistilBERT). We compare these three models in two setups, fine-tuning and as feature extractors. In the second case we also experiment with using dependency-based information. We find that fine-tuning is better than feature extraction. XLMR performs better than mBERT in the cross-lingual setting both with fine-tuning and feature extraction, whereas these two models give a similar performance in the multilingual setting. mDistilBERT performs poorly with fine-tuning but gives similar results to the other models when used as a feature extractor. We submitted our two best systems, fine-tuned with XLMR and mBERT.
翻訳日:2021-04-09 19:21:50 公開日:2021-04-08
# (参考訳) 文脈単語埋め込みを用いた意味変化の統計的に重要な検出 [全文訳有]

Statistically significant detection of semantic shifts using contextual word embeddings ( http://arxiv.org/abs/2104.03776v1 )

ライセンス: CC BY 4.0
Yang Liu, Alan Medlar and Dorota Glowacka(参考訳) 例えば、小さなデータセットにおける語彙意味シフトの検出。 歴史的言語学やデジタル人文科学では 統計力の欠如が原因で困難です この問題は、トークンごとにひとつの埋め込みを生成し、それゆえデータに存在する可変性を隠蔽する非コンテキスト的な単語埋め込みによって悪化する。 本稿では,文脈的単語埋め込みと置換に基づく統計的テストを組み合わせることで意味変化を推定する手法を提案する。 偽発見率手順を用いて複数の比較を行う。 本手法の性能をシミュレーションで実証し,偽陽性を抑圧することにより,一貫して高精度に達成する。 また,SemEval-2020 Task 1 と Liverpool FC subreddit corpus の実際のデータも分析した。 サンプルの変動を考慮することで、全体の性能を劣化させることなく、個々の意味シフト推定の堅牢性を向上させることができることを示す。

Detecting lexical semantic shifts in smaller data sets, e.g. in historical linguistics and digital humanities, is challenging due to a lack of statistical power. This issue is exacerbated by non-contextual word embeddings that produce one embedding per token and therefore mask the variability present in the data. In this article, we propose an approach to estimate semantic shifts by combining contextual word embeddings with permutation-based statistical tests. Multiple comparisons are addressed using a false discovery rate procedure. We demonstrate the performance of this approach in simulation, achieving consistently high precision by suppressing false positives. We additionally analyzed real-world data from SemEval-2020 Task 1 and the Liverpool FC subreddit corpus. We show that by taking sample variation into account, we can improve the robustness of individual semantic shift estimates without degrading overall performance.
翻訳日:2021-04-09 19:13:51 公開日:2021-04-08
# (参考訳) 漸進的意味セグメンテーション [全文訳有]

Progressive Semantic Segmentation ( http://arxiv.org/abs/2104.03778v1 )

ライセンス: CC BY 4.0
Chuong Huynh, Anh Tran, Khoa Luu, Minh Hoai(参考訳) この研究の目的は、GPUメモリの使用をオーバーロードしたり、出力セグメンテーションマップの細部をなくすことなく、高解像度画像を分割することである。 メモリ制約は、大きなイメージを縮小するか、イメージを別の処理のためにローカルパッチに分割する必要があることを意味する。 しかし、前者のアプローチでは細部が失われるが、後者はグローバルなイメージが欠如しているため曖昧である可能性がある。 本稿では,複数の倍率レベルで画像を見ることで局所的な曖昧さを解消するマルチスケールフレームワークMagNetを提案する。 マグネットは、各段が拡大レベルに対応する複数の処理段階を有し、1段の出力が次の段に供給され、粗い情報伝達が行われる。 各ステージは、前段よりも高分解能で画像を解析し、損失の少ないダウンサンプリングステップにより予め失われた詳細を回収し、処理段階を通じてセグメンテーション出力を段階的に洗練する。 都市ビュー、空中シーン、医療画像の高解像度データセットによる実験では、MagNetは最先端の手法を著しく上回っている。

The objective of this work is to segment high-resolution images without overloading GPU memory usage or losing the fine details in the output segmentation map. The memory constraint means that we must either downsample the big image or divide the image into local patches for separate processing. However, the former approach would lose the fine details, while the latter can be ambiguous due to the lack of a global picture. In this work, we present MagNet, a multi-scale framework that resolves local ambiguity by looking at the image at multiple magnification levels. MagNet has multiple processing stages, where each stage corresponds to a magnification level, and the output of one stage is fed into the next stage for coarse-to-fine information propagation. Each stage analyzes the image at a higher resolution than the previous stage, recovering the previously lost details due to the lossy downsampling step, and the segmentation output is progressively refined through the processing stages. Experiments on three high-resolution datasets of urban views, aerial scenes, and medical images show that MagNet consistently outperforms the state-of-the-art methods by a significant margin.
翻訳日:2021-04-09 18:59:54 公開日:2021-04-08
# (参考訳) 皮膚科の分類は知らないのか? 目に見えない条件のロングテール検出 [全文訳有]

Does Your Dermatology Classifier Know What It Doesn't Know? Detecting the Long-Tail of Unseen Conditions ( http://arxiv.org/abs/2104.03829v1 )

ライセンス: CC BY 4.0
Abhijit Guha Roy, Jie Ren, Shekoofeh Azizi, Aaron Loh, Vivek Natarajan, Basil Mustafa, Nick Pawlowski, Jan Freyberg, Yuan Liu, Zach Beaver, Nam Vo, Peggy Bui, Samantha Winter, Patricia MacWilliams, Greg S. Corrado, Umesh Telang, Yun Liu, Taylan Cemgil, Alan Karthikesalingam, Balaji Lakshminarayanan, Jim Winkens(参考訳) 我々は,自信ある分類器を訓練するのに十分なデータがない稀な条件を検知しながら,皮膚の状態を正確に分類できる深層学習ベースシステムを開発し,厳格に評価する。 我々は、このタスクを、アウト・オブ・ディストリビューション(OOD)検出問題とみなしている。 新たなアプローチである階層的外れ値検出(hod)では,各トレーニング外れ値クラスに対して複数の回避クラスを割り当て,各クラスの細粒度分類とともに,異常値対外れ値の粗い分類を共同で行う。 本稿では,現代表現学習手法 (BiT, SimCLR, MICLe) と併用して,HOD損失の有効性を実証し,その結果をさらに改善するための異なるアンサンブル戦略を探求する。 リスクレベルや皮膚の種類が変化する状況について広範なサブグループ分析を行い,各サブグループでood検出性能がどのように変化するかを調査し,ベースラインと比較し,フレームワークの利点を実証した。 最後に, 下流臨床効果を近似するコスト指標を提案する。 我々は,提案手法をベースラインシステムと比較するために,このコスト測定値を用いて,実世界の展開シナリオにおけるシステム全体の有効性を示す。

We develop and rigorously evaluate a deep learning based system that can accurately classify skin conditions while detecting rare conditions for which there is not enough data available for training a confident classifier. We frame this task as an out-of-distribution (OOD) detection problem. Our novel approach, hierarchical outlier detection (HOD) assigns multiple abstention classes for each training outlier class and jointly performs a coarse classification of inliers vs. outliers, along with fine-grained classification of the individual classes. We demonstrate the effectiveness of the HOD loss in conjunction with modern representation learning approaches (BiT, SimCLR, MICLe) and explore different ensembling strategies for further improving the results. We perform an extensive subgroup analysis over conditions of varying risk levels and different skin types to investigate how the OOD detection performance changes over each subgroup and demonstrate the gains of our framework in comparison to baselines. Finally, we introduce a cost metric to approximate downstream clinical impact. We use this cost metric to compare the proposed method against a baseline system, thereby making a stronger case for the overall system effectiveness in a real-world deployment scenario.
翻訳日:2021-04-09 18:46:55 公開日:2021-04-08
# (参考訳) ORBIT:Teachable Object Recognitionのための実世界のFew-Shotデータセット [全文訳有]

ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition ( http://arxiv.org/abs/2104.03841v1 )

ライセンス: CC BY 4.0
Daniela Massiceti, Luisa Zintgraf, John Bronskill, Lida Theodorou, Matthew Tobias Harris, Edward Cutrell, Cecily Morrison, Katja Hofmann, Simone Stumpf(参考訳) オブジェクト認識は過去10年で大きな進歩を遂げてきたが、依然としてオブジェクトカテゴリごとに多くの高品質なトレーニング例に依存している。 対照的に、いくつかの例から新しいオブジェクトを学ぶことで、ロボット工学からユーザパーソナライズまで、多くのインパクトのあるアプリケーションが可能になる。 しかし、ほとんどの少数の機械学習研究は、現実世界にデプロイする際、これらのアプリケーションが直面する高いばらつきに欠けるベンチマークデータセットによって推進されている。 このギャップを埋めるため,我々は,視覚障害者を対象とした実世界の教示可能な物体認識システムとして,orbit datasetとbenchmarkを紹介する。 このデータセットには、携帯電話で視覚障害者が記録した486のオブジェクトの3,822本のビデオが含まれており、このベンチマークは現実的で非常に困難な認識問題を反映している。 我々は、ベンチマークで最初の最先端技術を設定し、さらなるイノベーションのための大きなスコープがあることを示し、ブラインド/ロービジョンコミュニティのためのツールを含む、幅広い現実世界のビジョンアプリケーションに影響を与える可能性を秘めている。 データセットとベンチマークコードはhttps://github.com/m icrosoft/ORBIT-Datas etでアクセスすることができる。

Object recognition has made great advances in the last decade, but predominately still relies on many high-quality training examples per object category. In contrast, learning new objects from only a few examples could enable many impactful applications from robotics to user personalization. Most few-shot learning research, however, has been driven by benchmark datasets that lack the high variation that these applications will face when deployed in the real-world. To close this gap, we present the ORBIT dataset and benchmark, grounded in a real-world application of teachable object recognizers for people who are blind/low vision. The dataset contains 3,822 videos of 486 objects recorded by people who are blind/low-vision on their mobile phones, and the benchmark reflects a realistic, highly challenging recognition problem, providing a rich playground to drive research in robustness to few-shot, high-variation conditions. We set the first state-of-the-art on the benchmark and show that there is massive scope for further innovation, holding the potential to impact a broad range of real-world vision applications including tools for the blind/low-vision community. The dataset and benchmark code can be accessed at https://github.com/m icrosoft/ORBIT-Datas et.
翻訳日:2021-04-09 18:14:50 公開日:2021-04-08
# (参考訳) InAugment: 内部拡張による分類器の改善 [全文訳有]

InAugment: Improving Classifiers via Internal Augmentation ( http://arxiv.org/abs/2104.03843v1 )

ライセンス: CC BY 4.0
Moab Arar, Ariel Shamir, Amit Bermano(参考訳) 画像拡張技術は、入力画像に回転、せん断、色歪みなどの変換関数を適用する。 これらの拡張は、ニューラルネットワークの一般化能力を改善するのに有用であることが証明された。 本稿では,画像内部統計を利用した新しい拡張操作であるinaugmentを提案する。 キーとなるアイデアは、イメージ自体からパッチをコピーし、拡張操作を適用し、それらを同じイメージ上のランダムな位置にペーストすることだ。 この手法はシンプルで実装が容易であり、既存の拡張技術と組み込むことができる。 私たちは、CIFARとImageNetという2つの一般的なデータセットでInAugmentをテストする。 我々は最先端の強化技術の改善を示す。 自動補完機能の導入は、他の拡張技術(例えば、cifarデータセットでトレーニングされた複数のアーキテクチャに対する+1%の改善)よりも大幅に改善される。 また,imagenetデータセットにおけるresnet50 と efficientnet-b3 top-1 の精度を,事前拡張法と比較して向上させた。 最後に,InAugmentを用いた畳み込みニューラルネットワークのトレーニングにより,モデルの精度と信頼性が向上するだけでなく,分布外画像の性能が向上することが示唆された。

Image augmentation techniques apply transformation functions such as rotation, shearing, or color distortion on an input image. These augmentations were proven useful in improving neural networks' generalization ability. In this paper, we present a novel augmentation operation, InAugment, that exploits image internal statistics. The key idea is to copy patches from the image itself, apply augmentation operations on them, and paste them back at random positions on the same image. This method is simple and easy to implement and can be incorporated with existing augmentation techniques. We test InAugment on two popular datasets -- CIFAR and ImageNet. We show improvement over state-of-the-art augmentation techniques. Incorporating InAugment with Auto Augment yields a significant improvement over other augmentation techniques (e.g., +1% improvement over multiple architectures trained on the CIFAR dataset). We also demonstrate an increase for ResNet50 and EfficientNet-B3 top-1's accuracy on the ImageNet dataset compared to prior augmentation methods. Finally, our experiments suggest that training convolutional neural network using InAugment not only improves the model's accuracy and confidence but its performance on out-of-distribution images.
翻訳日:2021-04-09 17:13:52 公開日:2021-04-08
# (参考訳) テキスト分類におけるアルゴリズム性能,語彙,実行時間の関係を探る [全文訳有]

Exploring the Relationship Between Algorithm Performance, Vocabulary, and Run-Time in Text Classification ( http://arxiv.org/abs/2104.03848v1 )

ライセンス: CC BY 4.0
Wilson Fearn, Orion Weller, Kevin Seppi(参考訳) テキスト分類は自然言語処理の重要な分野であり、文書分類や感情分析など多くの応用がある。 当然のことながら、テキスト分類を行う人はアルゴリズムの実行時間に関係しており、その多くは単語の袋の表現のため、コーパスの語彙のサイズに依存する。 多くの研究で前処理技術が語彙サイズや正確性に与える影響が研究されているが、モデルの実行時間にどのように影響するかは調査されていない。 このギャップを埋めるため,前処理技術が語彙サイズ,モデル性能,モデル実行時間にどのように影響するかを総合的に検討し,4つのモデルと2つのデータセットで10の技術を評価した。 個々の手法が精度を損なわずに実行時間を短縮できるのに対し、いくつかの手法の組み合わせでは2-5%の精度で実行時間を最大65%削減できることを示す。 さらに、いくつかの前処理技術の組み合わせは、モデルの精度を向上しながら、実行時間を15%削減できる。

Text classification is a significant branch of natural language processing, and has many applications including document classification and sentiment analysis. Unsurprisingly, those who do text classification are concerned with the run-time of their algorithms, many of which depend on the size of the corpus' vocabulary due to their bag-of-words representation. Although many studies have examined the effect of preprocessing techniques on vocabulary size and accuracy, none have examined how these methods affect a model's run-time. To fill this gap, we provide a comprehensive study that examines how preprocessing techniques affect the vocabulary size, model performance, and model run-time, evaluating ten techniques over four models and two datasets. We show that some individual methods can reduce run-time with no loss of accuracy, while some combinations of methods can trade 2-5% of the accuracy for up to a 65% reduction of run-time. Furthermore, some combinations of preprocessing techniques can even provide a 15% reduction in run-time while simultaneously improving model accuracy.
翻訳日:2021-04-09 16:56:04 公開日:2021-04-08
# (参考訳) 野生におけるエンドツーエンドのニューラルフェイス認証を目指して -指向性照明効果の定量化と補正- [全文訳有]

Towards End-to-End Neural Face Authentication in the Wild - Quantifying and Compensating for Directional Lighting Effects ( http://arxiv.org/abs/2104.03854v1 )

ライセンス: CC BY 4.0
Viktor Varkarakis, Wang Yao, Peter Corcoran(参考訳) 近年、低消費電力のニューラルアクセラレータハードウェアが利用可能となり、エンドツーエンドの顔認識アルゴリズムの改善が加わり、オンデバイス顔認識技術が実現された。 本研究では, 指向性照明がニューラルフェイス認識器(SoA)に及ぼす影響について検討する。 方向性の異なる公共データセットが不足しているため、データサンプルを増強するために合成再照明技術を用いる。 トップライティングとその変種(上左、上右)は精度にはほとんど影響を与えないが、下左または下右の方向ライティングは最も明瞭な効果を持つ。 ネットワーク重みの微調整に続いて、顔認識モデルは、全ての照明条件における元の受信者動作特性曲線(ROC)性能に近い性能を示し、微調整データセットで使用される照明拡張を超えて一般化する能力を示す。 この研究は、SoAニューラルフェイス認識モデルを調整して、指向性照明効果を補正できることを示し、顔認識を適用する前に前処理ステップを不要にする。

The recent availability of low-power neural accelerator hardware, combined with improvements in end-to-end neural facial recognition algorithms provides, enabling technology for on-device facial authentication. The present research work examines the effects of directional lighting on a State-of-Art(SoA) neural face recognizer. A synthetic re-lighting technique is used to augment data samples due to the lack of public data-sets with sufficient directional lighting variations. Top lighting and its variants (top-left, top-right) are found to have minimal effect on accuracy, while bottom-left or bottom-right directional lighting has the most pronounced effects. Following the fine-tuning of network weights, the face recognition model is shown to achieve close to the original Receiver Operating Characteristic curve (ROC)performance across all lighting conditions and demonstrates an ability to generalize beyond the lighting augmentations used in the fine-tuning data-set. This work shows that an SoA neural face recognition model can be tuned to compensate for directional lighting effects, removing the need for a pre-processing step before applying facial recognition.
翻訳日:2021-04-09 16:37:29 公開日:2021-04-08
# (参考訳) 学習記述子を用いた3次元サーフェルマップ支援ビジュアルリローカライゼーション [全文訳有]

3D Surfel Map-Aided Visual Relocalization with Learned Descriptors ( http://arxiv.org/abs/2104.03856v1 )

ライセンス: CC BY 4.0
Haoyang Ye, Huaiyang Huang, Marco Hutter, Timothy Sandy, Ming Liu(参考訳) 本稿では,3次元サーベイルマップからの幾何情報を用いた視覚的再局在化手法を提案する。 視覚データベースは3Dサーベイルマップレンダリングのグローバルインデックスによって構築され、画像ポイントと3Dサーベイルの関連性を提供する。 サーフェル再投影制約は、ビジュアルデータベースのキーフレームポーズとマップポイントを最適化するために利用される。 階層型カメラ再ローカライズアルゴリズムは、視覚データベースを用いて6-DoFカメラのポーズを推定する。 学習済みのディスクリプタは、難しいケースのパフォーマンス向上にさらに使用される。 本手法の有効性と効率を示すために,実世界環境下での評価とシミュレーションを行い,最終カメラのポーズを3次元環境と一貫して一致させる。

In this paper, we introduce a method for visual relocalization using the geometric information from a 3D surfel map. A visual database is first built by global indices from the 3D surfel map rendering, which provides associations between image points and 3D surfels. Surfel reprojection constraints are utilized to optimize the keyframe poses and map points in the visual database. A hierarchical camera relocalization algorithm then utilizes the visual database to estimate 6-DoF camera poses. Learned descriptors are further used to improve the performance in challenging cases. We present evaluation under real-world conditions and simulation to show the effectiveness and efficiency of our method, and make the final camera poses consistently well aligned with the 3D environment.
翻訳日:2021-04-09 16:23:57 公開日:2021-04-08
# (参考訳) 深海塩分予測のための異種物体のモデル化 [全文訳有]

Modeling Object Dissimilarity for Deep Saliency Prediction ( http://arxiv.org/abs/2104.03864v1 )

ライセンス: CC BY 4.0
Bahar Aydemir, Deblina Bhattacharjee, Seungryong Kim, Tong Zhang, Mathieu Salzmann and Sabine S\"usstrunk(参考訳) 正当性予測は過去20年間に大きく進歩し、現在の手法では、色、強度、大きさのコントラストといった低レベルの情報や、物体全体の注意や視線方向といった高レベルの情報をモデル化している。 しかし、これらの手法は、人間が自然に行う物体間の相違を考慮しない。 本稿では,複数物体の出現や大きさの相違など,物体間の差異を明示的にモデル化する,検出誘導型塩分予測ネットワークを提案する。 当社のアプローチは一般的なもので、ディープサリエンシー予測ネットワークによって抽出された機能とオブジェクトの相違点を融合することが可能です。 実験によって証明されたように、この手法はベースラインネットワークの精度を一貫して向上させ、SALICON、MIT300、CAT2000の3つのサリエンシベンチマークで最先端のモデルを上回ります。

Saliency prediction has made great strides over the past two decades, with current techniques modeling low-level information, such as color, intensity and size contrasts, and high-level one, such as attention and gaze direction for entire objects. Despite this, these methods fail to account for the dissimilarity between objects, which humans naturally do. In this paper, we introduce a detection-guided saliency prediction network that explicitly models the differences between multiple objects, such as their appearance and size dissimilarities. Our approach is general, allowing us to fuse our object dissimilarities with features extracted by any deep saliency prediction network. As evidenced by our experiments, this consistently boosts the accuracy of the baseline networks, enabling us to outperform the state-of-the-art models on three saliency benchmarks, namely SALICON, MIT300 and CAT2000.
翻訳日:2021-04-09 16:06:42 公開日:2021-04-08
# (参考訳) 双曲空間におけるBERTの探索 [全文訳有]

Probing BERT in Hyperbolic Spaces ( http://arxiv.org/abs/2104.03869v1 )

ライセンス: CC BY 4.0
Boli Chen, Yao Fu, Guangwei Xu, Pengjun Xie, Chuanqi Tan, Mosha Chen, Liping Jing(参考訳) 近年,文脈化単語埋め込みで学習される言語特性を探索する様々な探索課題が提案されている。 これらの作品の多くは、これらの埋め込みが特定の計量空間(一般にユークリッド空間)にあることを暗黙的に仮定している。 この研究は、階層構造に対するより良い帰納的バイアスを示し、文脈化表現にエンコードされた言語階層を明らかにする、幾何学的特殊空間の族である双曲空間を考える。 我々は、これらの埋め込みを明示的に定義された階層を持つポインケア部分空間に投影する構造プローブであるポインケアプローブを導入する。 a) 階層構造が頭部依存構造として定義される依存木,(b) 階層構造が単語の極性(肯定性と否定性)として定義される語彙的感情。 我々は、プローブのキーデシプラタムは言語構造の存在に対する感度であると主張している。 典型的なコンテキスト型埋め込みモデルであるBERTにプローブを適用した。 構文部分空間において、このプローブはユークリッドプローブよりも木構造を回復し、bert構文の幾何が必ずしもユークリッドではない可能性を明らかにする。 感情サブスペースでは、ポジティブな感情とネガティブな感情に対する2つのメタ埋め込みの可能性を明らかにし、語彙的に制御された文脈化が埋め込みの幾何学的局在をどのように変えるかを示す。 本研究の成果は,広範囲な実験と可視化を通じて実証した。 結果はhttps://github.com/f ranxyao/poincareprob eで再生できます。

Recently, a variety of probing tasks are proposed to discover linguistic properties learned in contextualized word embeddings. Many of these works implicitly assume these embeddings lay in certain metric spaces, typically the Euclidean space. This work considers a family of geometrically special spaces, the hyperbolic spaces, that exhibit better inductive biases for hierarchical structures and may better reveal linguistic hierarchies encoded in contextualized representations. We introduce a Poincare probe, a structural probe projecting these embeddings into a Poincare subspace with explicitly defined hierarchies. We focus on two probing objectives: (a) dependency trees where the hierarchy is defined as head-dependent structures; (b) lexical sentiments where the hierarchy is defined as the polarity of words (positivity and negativity). We argue that a key desideratum of a probe is its sensitivity to the existence of linguistic structures. We apply our probes on BERT, a typical contextualized embedding model. In a syntactic subspace, our probe better recovers tree structures than Euclidean probes, revealing the possibility that the geometry of BERT syntax may not necessarily be Euclidean. In a sentiment subspace, we reveal two possible meta-embeddings for positive and negative sentiments and show how lexically-controlled contextualization would change the geometric localization of embeddings. We demonstrate the findings with our Poincare probe via extensive experiments and visualization. Our results can be reproduced at https://github.com/F ranxYao/PoincareProb e.
翻訳日:2021-04-09 16:05:18 公開日:2021-04-08
# (参考訳) 分類・スリップページ・失敗・発見 [全文訳有]

Classification, Slippage, Failure and Discovery ( http://arxiv.org/abs/2104.03886v1 )

ライセンス: CC BY-SA 4.0
Marc B\"ohlen(参考訳) このテキストは、技術的に教育され建設的な技術批判のためのベクトルとして、機械学習が分類システムを注入する可能性を主張している。 このテキストは、画像データ作成とニューラルネットワークに基づく分類に関するいくつかの実験で、この可能性を説明している。 テキストは分類におけるスリップの様々な側面を考慮し、予測通りに実行できなかった時に機械学習システムから引き起こされる災害とは対照的に、発見の可能性を考察している。

This text argues for the potential of machine learning infused classification systems as vectors for a technically-engaged and constructive technology critique. The text describes this potential with several experiments in image data creation and neural network based classification. The text considers varying aspects of slippage in classification and considers the potential for discovery - as opposed to disaster - stemming from machine learning systems when they fail to perform as anticipated.
翻訳日:2021-04-09 15:44:15 公開日:2021-04-08
# (参考訳) アンカー生成とクラス不均衡の最適化による自律走行のための物体検出の強化 [全文訳有]

Enhancing Object Detection for Autonomous Driving by Optimizing Anchor Generation and Addressing Class Imbalance ( http://arxiv.org/abs/2104.03888v1 )

ライセンス: CC BY 4.0
Manuel Carranza-Garc\'ia, Pedro Lara-Ben\'itez, Jorge Garc\'ia-Guti\'errez, Jos\'e C. Riquelme(参考訳) オブジェクト検出は、過去数年間、コンピュータビジョンにおける最も活発なトピックの1つです。 最近の研究は主に、汎用COCOベンチマークの最先端の推進に焦点を当てている。 しかし、自動運転のような特定の用途におけるそのような検出フレームワークの使用は、まだ解決すべき領域である。 本研究では、より高速なr-cnnに基づく拡張された2次元物体検出器を提案する。 アンカー生成手順と少数クラスのパフォーマンス低下という2つの主な側面が改善されている。 デフォルトの均一アンカー構成は、車両カメラの視点投影のため、このシナリオでは適していない。 そこで我々は,画像をクラスタリングによって重要領域に分割し,進化的アルゴリズムを用いて各領域のベースアンカーを最適化する視点認識手法を提案する。 さらに,第1段階で提案される候補領域の空間情報を含めることで,第2段ヘッダネットワークの精度を高めるモジュールを追加する。 また,2段検出装置において,焦点損失の低減版を用いることで,対象物検出の難易度と低表現度を著しく向上できることを示すため,前景のクラスバランスに対処するための異なる再重み付け戦略についても検討した。 最後に,異なる学習戦略の強みを組み合わせたアンサンブルモデルを設計する。 この提案は,これまでで最も広範囲で多様なデータセットであるwaymo open datasetを用いて評価されている。 その結果,最良単一モデルを用いた場合の平均精度は6.13%,アンサンブルを用いた9.69%であった。 Faster R-CNNに対する修正は計算コストを増大させるものではなく、他のアンカーベースの検出フレームワークを最適化するために容易に拡張できる。

Object detection has been one of the most active topics in computer vision for the past years. Recent works have mainly focused on pushing the state-of-the-art in the general-purpose COCO benchmark. However, the use of such detection frameworks in specific applications such as autonomous driving is yet an area to be addressed. This study presents an enhanced 2D object detector based on Faster R-CNN that is better suited for the context of autonomous vehicles. Two main aspects are improved: the anchor generation procedure and the performance drop in minority classes. The default uniform anchor configuration is not suitable in this scenario due to the perspective projection of the vehicle cameras. Therefore, we propose a perspective-aware methodology that divides the image into key regions via clustering and uses evolutionary algorithms to optimize the base anchors for each of them. Furthermore, we add a module that enhances the precision of the second-stage header network by including the spatial information of the candidate regions proposed in the first stage. We also explore different re-weighting strategies to address the foreground-foregroun d class imbalance, showing that the use of a reduced version of focal loss can significantly improve the detection of difficult and underrepresented objects in two-stage detectors. Finally, we design an ensemble model to combine the strengths of the different learning strategies. Our proposal is evaluated with the Waymo Open Dataset, which is the most extensive and diverse up to date. The results demonstrate an average accuracy improvement of 6.13% mAP when using the best single model, and of 9.69% mAP with the ensemble. The proposed modifications over the Faster R-CNN do not increase computational cost and can easily be extended to optimize other anchor-based detection frameworks.
翻訳日:2021-04-09 15:34:18 公開日:2021-04-08
# (参考訳) モノトニック性へのバイアス変換器の注意について [全文訳有]

On Biasing Transformer Attention Towards Monotonicity ( http://arxiv.org/abs/2104.03945v1 )

ライセンス: CC BY 4.0
Annette Rios, Chantal Amrhein, No\"emi Aepli, Rico Sennrich(参考訳) 自然言語処理におけるシークエンス・ツー・シークエンス・タスクの多くは、ソースシーケンスとターゲットシーケンスのアライメントにおいて概ね単調であり、以前の研究は特定の注意機能や事前学習を通じて単調な注意行動の学習を促進または強制してきた。 本研究では,標準的な注意機構と適合する単調性損失関数を導入し,グラニュムから音素への変換,形態的屈折,音訳,方言正規化など,いくつかのシーケンスからシーケンスへのタスクでテストする。 実験により、ほとんど単調な振る舞いが達成できることが示される。 パフォーマンスは混在しており、RNNベースラインよりも大きく向上している。 一般的な単調性はトランスフォーマーのマルチヘッドの注意を引かないが、頭部のサブセットのみが単調な振る舞いに偏っている場合、孤立した改善が見られる。

Many sequence-to-sequence tasks in natural language processing are roughly monotonic in the alignment between source and target sequence, and previous work has facilitated or enforced learning of monotonic attention behavior via specialized attention functions or pretraining. In this work, we introduce a monotonicity loss function that is compatible with standard attention mechanisms and test it on several sequence-to-sequence tasks: grapheme-to-phoneme conversion, morphological inflection, transliteration, and dialect normalization. Experiments show that we can achieve largely monotonic behavior. Performance is mixed, with larger gains on top of RNN baselines. General monotonicity does not benefit transformer multihead attention, however, we see isolated improvements when only a subset of heads is biased towards monotonic behavior.
翻訳日:2021-04-09 14:49:12 公開日:2021-04-08
# (参考訳) 世界革命の成果物のデレンダリング [全文訳有]

De-rendering the World's Revolutionary Artefacts ( http://arxiv.org/abs/2104.03954v1 )

ライセンス: CC BY 4.0
Shangzhe Wu and Ameesh Makadia and Jiajun Wu and Noah Snavely and Richard Tucker and Angjoo Kanazawa(参考訳) 最近の研究は、教師なしのイメージデレンダリングにおいてエキサイティングな結果を示している -- 明示的な監督なしに、単一のイメージコレクションから3Dの形状、外観、照明を分解することを学ぶ。 しかし、これらの多くは単純な材料と照明モデルを想定している。 本研究では,実画像から環境照明や表面材料を回収する手法として,明示的な3次元監視やマルチビュー画像やマルチライト画像にも依存しないレーダを提案する。 具体的には,vasなどの鏡面反射を含む表面特性の困難さを示す回転対称アーティファクトに着目した。 そこで本研究では,新たな自己教師型アルベド判別器を導入し,トレーニング中に基盤構造を必要とせず,可塑性アルベドを復元する。 回転対称性を利用した形状再構成モジュールと連動して,世界革命的アーティファクトのデレンダリングを可能にするエンドツーエンド学習フレームワークを提案する。 実データに対して実験を行い,分解結果を実証し,自由視点レンダリングやリライティングなどのアプリケーションを実現する。

Recent works have shown exciting results in unsupervised image de-rendering -- learning to decompose 3D shape, appearance, and lighting from single-image collections without explicit supervision. However, many of these assume simplistic material and lighting models. We propose a method, termed RADAR, that can recover environment illumination and surface materials from real single-image collections, relying neither on explicit 3D supervision, nor on multi-view or multi-light images. Specifically, we focus on rotationally symmetric artefacts that exhibit challenging surface properties including specular reflections, such as vases. We introduce a novel self-supervised albedo discriminator, which allows the model to recover plausible albedo without requiring any ground-truth during training. In conjunction with a shape reconstruction module exploiting rotational symmetry, we present an end-to-end learning framework that is able to de-render the world's revolutionary artefacts. We conduct experiments on a real vase dataset and demonstrate compelling decomposition results, allowing for applications including free-viewpoint rendering and relighting.
翻訳日:2021-04-09 14:34:38 公開日:2021-04-08
# (参考訳) 一般化可能な局所的機能表現のための変調周期的活性化 [全文訳有]

Modulated Periodic Activations for Generalizable Local Functional Representations ( http://arxiv.org/abs/2104.03960v1 )

ライセンス: CC BY 4.0
Ishit Mehta, Micha\"el Gharbi, Connelly Barnes, Eli Shechtman, Ravi Ramamoorthi, Manmohan Chandraker(参考訳) 多層パーセプトロン(mlps)は、画像、形状、光場などの低次元信号を含むサンプリングおよび再構成問題に対して強力な機能表現を行う。 最近の研究は、周期的アクティベーションや位置エンコーディングを用いて、高周波コンテンツを表現する能力を大幅に改善している。 これはしばしば一般化の犠牲となり、現代の手法は1つの信号に最適化される。 我々は,複数のインスタンスに一般化し,最先端の忠実性を実現する新しい表現を提案する。 信号の符号化にはデュアルMLPアーキテクチャを用いる。 合成ネットワークは、低次元入力(例えば、)から機能マッピングを作成する。 pixel-position) を出力領域 (例) RGB色)。 変調ネットワークは、ターゲット信号に対応する潜在コードを、合成ネットワークの周期的活性化を変調するパラメータにマッピングする。 また,一般化可能な局所関数表現を提案する。 信号のドメインは通常のグリッドに分割され、各タイルは潜在コードで表現される。 テスト時、信号は遅延コードブックを推論(または直接最適化)することにより高忠実度で符号化される。 提案手法は,画像,映像,形状の汎用的な機能表現を生成し,単一信号に最適化された先行処理よりも高い再構成品質を実現する。

Multi-Layer Perceptrons (MLPs) make powerful functional representations for sampling and reconstruction problems involving low-dimensional signals like images,shapes and light fields. Recent works have significantly improved their ability to represent high-frequency content by using periodic activations or positional encodings. This often came at the expense of generalization: modern methods are typically optimized for a single signal. We present a new representation that generalizes to multiple instances and achieves state-of-the-art fidelity. We use a dual-MLP architecture to encode the signals. A synthesis network creates a functional mapping from a low-dimensional input (e.g. pixel-position) to the output domain (e.g. RGB color). A modulation network maps a latent code corresponding to the target signal to parameters that modulate the periodic activations of the synthesis network. We also propose a local-functional representation which enables generalization. The signal's domain is partitioned into a regular grid,with each tile represented by a latent code. At test time, the signal is encoded with high-fidelity by inferring (or directly optimizing) the latent code-book. Our approach produces generalizable functional representations of images, videos and shapes, and achieves higher reconstruction quality than prior works that are optimized for a single signal.
翻訳日:2021-04-09 14:15:08 公開日:2021-04-08
# (参考訳) 手書きトランスフォーマー [全文訳有]

Handwriting Transformers ( http://arxiv.org/abs/2104.03964v1 )

ライセンス: CC BY 4.0
Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer, Fahad Shahbaz Khan, Mubarak Shah(参考訳) 本稿では, トランスフォーマーを用いた手書きテキスト画像生成手法であるHWTを提案する。 提案したHWTは,自己アテンション機構を用いて,スタイル例内の長短範囲関係をキャプチャし,グローバルなスタイルパターンとローカルなスタイルパターンの両方を符号化する。 さらに,提案したトランスフォーマーベースHWTは,各クエリ文字のスタイル表現を収集することにより,スタイル内容の絡み合いを可能にするエンコーダ・デコーダアテンションを備える。 私たちの知る限りでは、スタイル化された手書きテキスト生成のためのトランスフォーマティブベースの生成ネットワークを最初に導入しました。 提案するHWTは,現実的な手書きテキスト画像を生成するとともに,定性的,定量的,人為的評価により,最先端の成果を著しく上回っている。 提案したHWTは、任意の長さのテキストと任意の書き込みスタイルを数ショット設定で処理できる。 さらに、HWTは、訓練中に単語と書き方の両方が見えないという難解なシナリオを一般化し、現実的な手書きテキスト画像を生成する。

We propose a novel transformer-based styled handwritten text image generation approach, HWT, that strives to learn both style-content entanglement as well as global and local writing style patterns. The proposed HWT captures the long and short range relationships within the style examples through a self-attention mechanism, thereby encoding both global and local style patterns. Further, the proposed transformer-based HWT comprises an encoder-decoder attention that enables style-content entanglement by gathering the style representation of each query character. To the best of our knowledge, we are the first to introduce a transformer-based generative network for styled handwritten text generation. Our proposed HWT generates realistic styled handwritten text images and significantly outperforms the state-of-the-art demonstrated through extensive qualitative, quantitative and human-based evaluations. The proposed HWT can handle arbitrary length of text and any desired writing style in a few-shot setting. Further, our HWT generalizes well to the challenging scenario where both words and writing style are unseen during training, generating realistic styled handwritten text images.
翻訳日:2021-04-09 13:56:18 公開日:2021-04-08
# CARRNN: 散発時間データから深部表現学習のための連続自己回帰リカレントニューラルネットワーク

CARRNN: A Continuous Autoregressive Recurrent Neural Network for Deep Representation Learning from Sporadic Temporal Data ( http://arxiv.org/abs/2104.03739v1 )

ライセンス: Link先を確認
Mostafa Mehdipour Ghazi, Lauge S{\o}rensen, S\'ebastien Ourselin, Mads Nielsen(参考訳) 多変量長手データからの時間的パターンの学習は、特にデータが散発的である場合、例えば、データが不規則性や非同期性に悩まされる可能性がある医療アプリケーションにおいて、連続するデータポイント間の時間は特徴やサンプルによって異なるため、完了のために構築された既存のディープラーニングモデルの適用を妨げる。 本稿では,Recurrent Neural Network (RNN) とContinuous-time Autoregressive (CAR) モデルに基づく統合ディープラーニングアーキテクチャを用いて,散発データにおける複数の時間的特徴をモデル化するための新しいディープラーニングモデルを開発した。 提案モデルはCARRNNと呼ばれ、時間ラグによって変調されたニューラルネットワークを用いてトレーニング可能な一般化離散時間自己回帰モデルを用いて、不規則性と非同期性に起因する変化を記述する。 アルツハイマー病の進行モデルおよび集中治療ユニット(icu)の死亡率予測に提供されたデータを用いて,多変量時系列回帰タスクに適用し,gru(gated recurrent unit)に基づく提案モデルでは,提案するrnnモデルとgresとlstm(long short-term memory)ネットワークを用いた最先端の予測誤差が最小となる。

Learning temporal patterns from multivariate longitudinal data is challenging especially in cases when data is sporadic, as often seen in, e.g., healthcare applications where the data can suffer from irregularity and asynchronicity as the time between consecutive data points can vary across features and samples, hindering the application of existing deep learning models that are constructed for complete, evenly spaced data with fixed sequence lengths. In this paper, a novel deep learning-based model is developed for modeling multiple temporal features in sporadic data using an integrated deep learning architecture based on a recurrent neural network (RNN) unit and a continuous-time autoregressive (CAR) model. The proposed model, called CARRNN, uses a generalized discrete-time autoregressive model that is trainable end-to-end using neural networks modulated by time lags to describe the changes caused by the irregularity and asynchronicity. It is applied to multivariate time-series regression tasks using data provided for Alzheimer's disease progression modeling and intensive care unit (ICU) mortality rate prediction, where the proposed model based on a gated recurrent unit (GRU) achieves the lowest prediction errors among the proposed RNN-based models and state-of-the-art methods using GRUs and long short-term memory (LSTM) networks in their architecture.
翻訳日:2021-04-09 13:22:31 公開日:2021-04-08
# grab: 解釈可能なテキストパターンの抽出と探索のためのライブラリ

GrASP: A Library for Extracting and Exploring Human-Interpretable Textual Patterns ( http://arxiv.org/abs/2104.03958v1 )

ライセンス: Link先を確認
Piyawat Lertvittayakumjorn, Leshem Choshen, Eyal Shnarch, Francesca Toni(参考訳) データ探索は、テキストデータを含むすべてのデータサイエンスおよび機械学習プロジェクトの重要なステップである。 テキストデータからパターンを描画する既存のアルゴリズムであるGrASP用のPythonライブラリを提供する。 このライブラリは、ユーザがデータや抽出されたパターンを便利に探索できるWebベースのインターフェースを備えている。 また,このライブラリを2つの設定(spam検出と引数マイニング)で使用することを示し,テキストデータ探索以外のライブラリの今後の展開について論じる。

Data exploration is an important step of every data science and machine learning project, including those involving textual data. We provide a Python library for GrASP, an existing algorithm for drawing patterns from textual data. The library is equipped with a web-based interface empowering human users to conveniently explore the data and the extracted patterns. We also demonstrate the use of the library in two settings (spam detection and argument mining) and discuss future deployments of the library, e.g., beyond textual data exploration.
翻訳日:2021-04-09 13:21:59 公開日:2021-04-08
# 文脈半監督学習:ASRシステムにおける空気サーベイランスと非転写ATCデータを活用するためのアプローチ

Contextual Semi-Supervised Learning: An Approach To Leverage Air-Surveillance and Untranscribed ATC Data in ASR Systems ( http://arxiv.org/abs/2104.03643v1 )

ライセンス: Link先を確認
Juan Zuluaga-Gomez and Iuliia Nigmatulina and Amrutha Prasad and Petr Motlicek and Karel Vesel\'y and Martin Kocour and Igor Sz\"oke(参考訳) 航空交通管理、特に航空交通管制(ATC)は、主に航空交通管制官とパイロットの間の音声通信に依存している。 ほとんどの場合、これらの音声コミュニケーションは、自動音声認識(asr)技術で活用できるよく定義された文法に従う。 飛行機へのコールサインは、atco-パイロット通信の必須部分である。 本稿では,半教師訓練中に文脈知識を付加し,コールサインを含む発話の一部を認識する際のasrシステムエラー率を低減させる2段階アプローチを提案する。 当初、WFSTは文脈知識(すなわち、文脈知識)を表す。 ATCoパイロット通信の航空監視データ)。 次に、セミ・スーパーバイザード・ラーニング(SSL)の間、第2パスの復号(すなわち)によって文脈知識が付加される。 lattice re-scoring (英語) 結果は'unseen domain'(例)を示している。 管理訓練データに存在しない空港のデータ)は、スタンドアロンのSSLと比較して、文脈的なSSLによってさらに助けられる。 そこで本研究では,発話中の発声符号のasr性能のみを評価する評価指標として,callsign word error rate (ca-wer)を導入する。 我々は,LiveATCから収集したATCベースのテストセット上で,SSL中にコンテキスト知識を追加することで,さらに17.5%のCA-WERの改善を施した32.1%CA-WERの相対的改善を得た。

Air traffic management and specifically air-traffic control (ATC) rely mostly on voice communications between Air Traffic Controllers (ATCos) and pilots. In most cases, these voice communications follow a well-defined grammar that could be leveraged in Automatic Speech Recognition (ASR) technologies. The callsign used to address an airplane is an essential part of all ATCo-pilot communications. We propose a two-steps approach to add contextual knowledge during semi-supervised training to reduce the ASR system error rates at recognizing the part of the utterance that contains the callsign. Initially, we represent in a WFST the contextual knowledge (i.e. air-surveillance data) of an ATCo-pilot communication. Then, during Semi-Supervised Learning (SSL) the contextual knowledge is added by second-pass decoding (i.e. lattice re-scoring). Results show that `unseen domains' (e.g. data from airports not present in the supervised training data) are further aided by contextual SSL when compared to standalone SSL. For this task, we introduce the Callsign Word Error Rate (CA-WER) as an evaluation metric, which only assesses ASR performance of the spoken callsign in an utterance. We obtained a 32.1% CA-WER relative improvement applying SSL with an additional 17.5% CA-WER improvement by adding contextual knowledge during SSL on a challenging ATC-based test set gathered from LiveATC.
翻訳日:2021-04-09 13:21:50 公開日:2021-04-08
# 画像クラスタリングに先立つ単一名詞

The Single-Noun Prior for Image Clustering ( http://arxiv.org/abs/2104.03952v1 )

ライセンス: Link先を確認
Niv Cohen and Yedid Hoshen(参考訳) 近年,自己教師付きクラスタリング手法は精度の向上を図っているが,教師付き分類法のようには機能していない。 これは、最近、自己教師付き機能がいくつかの重要なタスクにおける教師付き機能のパフォーマンスを上回った機能学習の状況とは対照的である。 性能格差は,人間に意味のあるクラスの違いに対応する特徴を監督せずに特定することが困難である,という仮説を立てる。 性能ギャップを低減するために、我々は「単一名詞」という先行概念を導入し、これは意味的クラスタが人間が単一名詞でラベル付けする概念に対応する傾向があることを述べる。 画像と文を共通の空間にマッピングする事前学習されたネットワークを利用することで、制約付き最適化タスクを事前に取得する。 本稿では,施設配置問題の特別な場合として,この最適化タスクを大規模に解くための簡単な手法を提案する。 提案手法は画像クラスタリングデータセットを用いて検証し,既存手法よりも高い精度が得られることを示す。

Self-supervised clustering methods have achieved increasing accuracy in recent years but do not yet perform as well as supervised classification methods. This contrasts with the situation for feature learning, where self-supervised features have recently surpassed the performance of supervised features on several important tasks. We hypothesize that the performance gap is due to the difficulty of specifying, without supervision, which features correspond to class differences that are semantic to humans. To reduce the performance gap, we introduce the "single-noun" prior - which states that semantic clusters tend to correspond to concepts that humans label by a single-noun. By utilizing a pre-trained network that maps images and sentences into a common space, we impose this prior obtaining a constrained optimization task. We show that our formulation is a special case of the facility location problem, and introduce a simple-yet-effective approach for solving this optimization task at scale. We test our approach on several commonly reported image clustering datasets and obtain significant accuracy gains over the best existing approaches.
翻訳日:2021-04-09 13:21:27 公開日:2021-04-08
# 過去をシミュレートして何をすべきかを学ぶ

Learning What To Do by Simulating the Past ( http://arxiv.org/abs/2104.03946v1 )

ライセンス: Link先を確認
David Lindner, Rohin Shah, Pieter Abbeel, Anca Dragan(参考訳) 報酬関数は指定が難しいため、最近の研究は人間のフィードバックから学ぶポリシーに焦点を当てている。 しかし、そのようなアプローチはそのようなフィードバックを得るコストがかかる。 近年の研究では、エージェントが効果的に自由な情報ソースにアクセスできることが提案されている。人間が行動したあらゆる環境において、状態はすでに人間の好みに最適化されており、エージェントは状態から人間が望むものに関する情報を抽出することができる。 このような学習は原則として可能であるが、観測された状態につながる可能性のある全ての過去の軌跡をシミュレートする必要がある。 これはgridworldsでは実現可能ですが、どのように複雑なタスクにスケールするか? 本研究では,学習した特徴エンコーダと学習した逆モデルを組み合わせることで,エージェントが人間の行動のシミュレーションに時間をかけて行なわなければならないことを推測できることを示す。 得られたアルゴリズムは、そのスキルの最適なポリシーからサンプリングされた単一の状態から、MuJoCo環境で特定のスキルを再現することができる。

Since reward functions are hard to specify, recent work has focused on learning policies from human feedback. However, such approaches are impeded by the expense of acquiring such feedback. Recent work proposed that agents have access to a source of information that is effectively free: in any environment that humans have acted in, the state will already be optimized for human preferences, and thus an agent can extract information about what humans want from the state. Such learning is possible in principle, but requires simulating all possible past trajectories that could have led to the observed state. This is feasible in gridworlds, but how do we scale it to complex tasks? In this work, we show that by combining a learned feature encoder with learned inverse models, we can enable agents to simulate human actions backwards in time to infer what they must have done. The resulting algorithm is able to reproduce a specific skill in MuJoCo environments given a single state sampled from the optimal policy for that skill.
翻訳日:2021-04-09 13:21:10 公開日:2021-04-08
# 擬似教師付き深部宇宙クラスタリング

Pseudo-supervised Deep Subspace Clustering ( http://arxiv.org/abs/2104.03531v1 )

ライセンス: Link先を確認
Juncheng Lv and Zhao Kang and Xiao Lu and Zenglin Xu(参考訳) オートエンコーダ(AE)ベースのディープサブスペースクラスタリング(DSC)手法は、分類的分離性を優先しながら、ディープニューラルネットワークを用いて抽出された強力な表現により、優れた性能を達成した。 しかし、AEの自己再構成損失は、豊富な有用な関係情報を無視し、識別不能な表現につながる可能性があるため、クラスタリング性能は必然的に低下する。 セマンティックラベルを入力せずに高いレベルの類似性を学ぶことも難しい。 dscが直面するもう1つの未解決問題は、エンコーダとデコーダの間の自己表現層によって引き起こされる$n\times n$ similarity matrixによる巨大なメモリコストである。 これらの問題に対処するため, 自己表現層で類似性を学習しながら, 復元損失の重み付けを行い, 局所構造情報を取得する。 ネットワークトレーニング中に獲得した未知の知識の恩恵を受ける疑似グラフと疑似ラベルは、類似性学習を監督するためにさらに用いられる。 共同学習と反復学習は、全体的な最適解を得るのに役立つ。 ベンチマークデータセットに関する大規模な実験は、我々のアプローチの優位性を示している。 さらに, $k$-nearest neighbors アルゴリズムと組み合わせることで,本手法が大規模なサンプル外問題に対処可能であることを示す。

Auto-Encoder (AE)-based deep subspace clustering (DSC) methods have achieved impressive performance due to the powerful representation extracted using deep neural networks while prioritizing categorical separability. However, self-reconstruction loss of an AE ignores rich useful relation information and might lead to indiscriminative representation, which inevitably degrades the clustering performance. It is also challenging to learn high-level similarity without feeding semantic labels. Another unsolved problem facing DSC is the huge memory cost due to $n\times n$ similarity matrix, which is incurred by the self-expression layer between an encoder and decoder. To tackle these problems, we use pairwise similarity to weigh the reconstruction loss to capture local structure information, while a similarity is learned by the self-expression layer. Pseudo-graphs and pseudo-labels, which allow benefiting from uncertain knowledge acquired during network training, are further employed to supervise similarity learning. Joint learning and iterative training facilitate to obtain an overall optimal solution. Extensive experiments on benchmark datasets demonstrate the superiority of our approach. By combining with the $k$-nearest neighbors algorithm, we further show that our method can address the large-scale and out-of-sample problems.
翻訳日:2021-04-09 13:20:37 公開日:2021-04-08
# 必要なものをラベル付けする:部分ラベル付きシーンによる知覚と予測のためのファイングラインドアクティブセレクション

Just Label What You Need: Fine-Grained Active Selection for Perception and Prediction through Partially Labeled Scenes ( http://arxiv.org/abs/2104.03956v1 )

ライセンス: Link先を確認
Sean Segal, Nishanth Kumar, Sergio Casas, Wenyuan Zeng, Mengye Ren, Jingkang Wang, Raquel Urtasun(参考訳) 自動運転車は衝突を避け、安全に運転するために、近くのアクターの将来の位置を認識し予測する必要がある。 学習したディープラーニングモジュールは、しばしばこのタスクに責任を持ち、大規模で高品質なトレーニングデータセットを必要とする。 データ収集は、このドメインのラベル付けよりもはるかに安価であることが多いため、ラベル付けするサンプルのサブセットの決定は、モデルのパフォーマンスに大きな影響を与える可能性がある。 現在のモデルの状態を利用してラベル付けの例を反復的に選択するアクティブラーニング技術は、この問題に対する有望な解決策を提供する。 しかし、このアプローチの魅力にもかかわらず、知覚と予測(P&P)問題に対するアクティブラーニングアプローチの科学的分析はほとんど行われていない。 本研究では,P&Pのアクティブラーニング手法について検討し,従来のアクティブラーニングの定式化がP&P設定に不適であることを確かめる。 そこで我々は,我々のアプローチがコストに配慮したものであることを保証する一般化を導入し,部分的にラベル付けされたシーンを通して,サンプルのきめ細かい選択を可能にする。 実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。

Self-driving vehicles must perceive and predict the future positions of nearby actors in order to avoid collisions and drive safely. A learned deep learning module is often responsible for this task, requiring large-scale, high-quality training datasets. As data collection is often significantly cheaper than labeling in this domain, the decision of which subset of examples to label can have a profound impact on model performance. Active learning techniques, which leverage the state of the current model to iteratively select examples for labeling, offer a promising solution to this problem. However, despite the appeal of this approach, there has been little scientific analysis of active learning approaches for the perception and prediction (P&P) problem. In this work, we study active learning techniques for P&P and find that the traditional active learning formulation is ill-suited for the P&P setting. We thus introduce generalizations that ensure that our approach is both cost-aware and allows for fine-grained selection of examples through partially labeled scenes. Our experiments on a real-world, large-scale self-driving dataset suggest that fine-grained selection can improve the performance across perception, prediction, and downstream planning tasks.
翻訳日:2021-04-09 13:20:18 公開日:2021-04-08
# スコアマッチングのための一貫したアニールサンプリングのチューニングについて

On tuning consistent annealed sampling for denoising score matching ( http://arxiv.org/abs/2104.03725v1 )

ライセンス: Link先を確認
Joan Serr\`a, Santiago Pascual, Jordi Pons(参考訳) スコアベースの生成モデルは、画像とオーディオの合成に最先端の品質を提供する。 これらのモデルからのサンプリングは反復的に行われ、通常、離散化された一連のノイズレベルと事前定義されたスキームを用いる。 本稿では,まず,スコアマッチングを訓練したモデルの3つの一般的なサンプリングスキームについて概説する。 次に,その1つに着目し,一貫した焼鈍サンプリングを行い,そのハイパーパラメータ境界について検討する。 次に、これらの境界を明示的に考慮し、少数のステップまたは可変ステップを使用する際のチューニングを容易にするハイパーパラメータの定式化を強調する。 最後に, 定式化と他のサンプリングスキームとのつながりを強調する。

Score-based generative models provide state-of-the-art quality for image and audio synthesis. Sampling from these models is performed iteratively, typically employing a discretized series of noise levels and a predefined scheme. In this note, we first overview three common sampling schemes for models trained with denoising score matching. Next, we focus on one of them, consistent annealed sampling, and study its hyper-parameter boundaries. We then highlight a possible formulation of such hyper-parameter that explicitly considers those boundaries and facilitates tuning when using few or a variable number of steps. Finally, we highlight some connections of the formulation with other sampling schemes.
翻訳日:2021-04-09 13:19:58 公開日:2021-04-08
# アンハリック・イングリッシュ機械翻訳のための拡張並列コーパス

Extended Parallel Corpus for Amharic-English Machine Translation ( http://arxiv.org/abs/2104.03543v1 )

ライセンス: Link先を確認
Andargachew Mekonnen Gezmu, Andreas N\"urnberger and Tesfaye Bayu Bati(参考訳) 本稿では,Amharic- English parallel corpusの取得,前処理,セグメンテーション,アライメントについて述べる。 リソース不足の言語であるamharicの機械翻訳に有用である。 コーパスは以前コンパイルされたコーパスよりも大きく、研究目的でリリースされている。 コーパスを用いてニューラルマシン翻訳とフレーズベース統計機械翻訳モデルを訓練した。 自動評価では、ニューラルマシン翻訳モデルは句ベースの統計機械翻訳モデルを上回る。

This paper describes the acquisition, preprocessing, segmentation, and alignment of an Amharic-English parallel corpus. It will be useful for machine translation of an under-resourced language, Amharic. The corpus is larger than previously compiled corpora; it is released for research purposes. We trained neural machine translation and phrase-based statistical machine translation models using the corpus. In the automatic evaluation, neural machine translation models outperform phrase-based statistical machine translation models.
翻訳日:2021-04-09 13:19:49 公開日:2021-04-08
# 意味的役割によるフレーズによるビデオ質問応答

Video Question Answering with Phrases via Semantic Roles ( http://arxiv.org/abs/2104.03762v1 )

ライセンス: Link先を確認
Arka Sadhu, Kan Chen, Ram Nevatia(参考訳) Video Question Answering (VidQA) 評価指標は、1ワードの回答に限られている。 これらのメトリクスは、VidQAモデルのアプリケーションシナリオを制限する。 本研究では、ビデオ記述から派生したセマンティックな役割を利用して特定のフレーズをマスキングし、VidQAを補足タスクとするVidQAPを導入する。 回答句の評価を可能にするために,予測した回答を空文字列と比較して相対的に改善する計算を行う。 VidQAデータセットにおける言語バイアスの影響を低減するため、同じ質問に対して異なる回答を持つ動画を検索する。 研究を容易にするために,ActivityNet-SRL-QAとCharades-SRL-QAを構築し,それを3つの視覚言語モデルを拡張してベンチマークする。 さらに,今後の課題を導くために,広範な解析・アブレーション研究を行う。

Video Question Answering (VidQA) evaluation metrics have been limited to a single-word answer or selecting a phrase from a fixed set of phrases. These metrics limit the VidQA models' application scenario. In this work, we leverage semantic roles derived from video descriptions to mask out certain phrases, to introduce VidQAP which poses VidQA as a fill-in-the-phrase task. To enable evaluation of answer phrases, we compute the relative improvement of the predicted answer compared to an empty string. To reduce the influence of language bias in VidQA datasets, we retrieve a video having a different answer for the same question. To facilitate research, we construct ActivityNet-SRL-QA and Charades-SRL-QA and benchmark them by extending three vision-language models. We further perform extensive analysis and ablative studies to guide future work.
翻訳日:2021-04-09 13:19:44 公開日:2021-04-08
# 視覚に基づく車体制御の強化学習へのベイズ的アプローチ

A Bayesian Approach to Reinforcement Learning of Vision-Based Vehicular Control ( http://arxiv.org/abs/2104.03807v1 )

ライセンス: Link先を確認
Zahra Gharaee and Karl Holmquist and Linbo He and Michael Felsberg(参考訳) 本稿では,自律運転のための最先端の強化学習手法を提案する。 本手法では,センサデータから車両制御信号を学習するために,時間差分学習を用いる。 エージェントは前方カメラからのイメージにアクセスでき、セマンティックセグメンテーションマップを生成するために前処理される。 基礎的真理と推定意味セグメンテーション入力の両方を用いてシステムを訓練した。 大規模な実験から得られた結果から, 地中真理入力データに基づくシステムトレーニングは, 推定入力を用いた場合であっても, 推定入力によるシステムトレーニングよりも優れた性能が得られると結論付けた。 このシステムは,CARLAシミュレータを用いて,現実的な都市環境下での訓練と評価を行う。 シミュレータには、他のシステムやメソッドとの比較が可能なベンチマークも含まれている。 システムに必要なトレーニング時間は低く、ベンチマークのパフォーマンスは、競合するアプローチよりも優れていることが示されている。

In this paper, we present a state-of-the-art reinforcement learning method for autonomous driving. Our approach employs temporal difference learning in a Bayesian framework to learn vehicle control signals from sensor data. The agent has access to images from a forward facing camera, which are preprocessed to generate semantic segmentation maps. We trained our system using both ground truth and estimated semantic segmentation input. Based on our observations from a large set of experiments, we conclude that training the system on ground truth input data leads to better performance than training the system on estimated input even if estimated input is used for evaluation. The system is trained and evaluated in a realistic simulated urban environment using the CARLA simulator. The simulator also contains a benchmark that allows for comparing to other systems and methods. The required training time of the system is shown to be lower and the performance on the benchmark superior to competing approaches.
翻訳日:2021-04-09 13:19:28 公開日:2021-04-08
# 事前学習型オートエンコーダを用いた言語間変換のための簡易幾何学的手法

A Simple Geometric Method for Cross-Lingual Linguistic Transformations with Pre-trained Autoencoders ( http://arxiv.org/abs/2104.03630v1 )

ライセンス: Link先を確認
Maarten De Raedt, Fr\'ederic Godin, Pieter Buteneers, Chris Develder and Thomas Demeester(参考訳) 複数の言語で訓練された強力な文エンコーダが増えている。 これらのシステムは、幅広い言語特性をベクトル表現に埋め込むことができる。 明示的な探索タスクは、特定の言語的性質の存在を検証するために使用できるが、ベクトル表現が間接的にその特性を操るために操作できるかどうかは不明である。 本研究では,事前学習された文エンコーダやデコーダのチューニングを必要とせず,言語特性を変換するための埋め込み空間における幾何マッピングの利用について検討する。 我々は,事前学習した多言語オートエンコーダを用いて3つの言語特性に対するアプローチを検証するとともに,モノリンガルとクロスリンガルの両方で結果を分析する。

Powerful sentence encoders trained for multiple languages are on the rise. These systems are capable of embedding a wide range of linguistic properties into vector representations. While explicit probing tasks can be used to verify the presence of specific linguistic properties, it is unclear whether the vector representations can be manipulated to indirectly steer such properties. We investigate the use of a geometric mapping in embedding space to transform linguistic properties, without any tuning of the pre-trained sentence encoder or decoder. We validate our approach on three linguistic properties using a pre-trained multilingual autoencoder and analyze the results in both monolingual and cross-lingual settings.
翻訳日:2021-04-09 13:19:14 公開日:2021-04-08
# 高原の復興: 景観改善のための半監督型アクティブラーニング

Relieving the Plateau: Active Semi-Supervised Learning for a Better Landscape ( http://arxiv.org/abs/2104.03525v1 )

ライセンス: Link先を確認
Seo Taek Kong, Soomin Jeon, Jaewon Lee, Hongseok Lee, Kyu-Hwan Jung(参考訳) 深層学習(DL)は大量のラベル付きデータに依存しており、ラベル付きサンプル効率を改善することは、その出現以来最も重要な問題である。 semi-supervised learning (ssl) はラベル付きデータよりもアクセスしやすいラベルなしデータを活用する。 active learning (al)は、ラベルなしのインスタンスを選択して、ラベル付きデータの少ないパフォーマンスを期待する。 プールベースのALでラベル付きデータのプールが利用可能であることを考えると、トレーニング時にSSLを、ラベル付きセットを更新するためにALを使用するのは当然である。 本研究では,十分に広いReLUネットワーク上での勾配勾配の収束が,グラム行列の固有スペクトルを用いて表現できることを最初に証明する。 いくつかの理論的知見を取り入れたALアルゴリズムである収束率制御(CRC)を提案する。このアルゴリズムは、学習力学の改善の観点から取得ステップを定式化し、ラベル付き集合に含めることにより問題条件を改善する。 CRCと組み合わせたSSLアルゴリズムは,ラベル付きデータが少ないため,高いパフォーマンスを実現することができる。

Deep learning (DL) relies on massive amounts of labeled data, and improving its labeled sample-efficiency remains one of the most important problems since its advent. Semi-supervised learning (SSL) leverages unlabeled data that are more accessible than their labeled counterparts. Active learning (AL) selects unlabeled instances to be annotated by a human-in-the-loop in hopes of better performance with less labeled data. Given the accessible pool of unlabeled data in pool-based AL, it seems natural to use SSL when training and AL to update the labeled set; however, algorithms designed for their combination remain limited. In this work, we first prove that convergence of gradient descent on sufficiently wide ReLU networks can be expressed in terms of their Gram matrix' eigen-spectrum. Equipped with a few theoretical insights, we propose convergence rate control (CRC), an AL algorithm that selects unlabeled data to improve the problem conditioning upon inclusion to the labeled set, by formulating an acquisition step in terms of improving training dynamics. Extensive experiments show that SSL algorithms coupled with CRC can achieve high performance using very few labeled data.
翻訳日:2021-04-09 13:19:02 公開日:2021-04-08
# Half-Truth: 部分的にフェイクなオーディオ検出データセット

Half-Truth: A Partially Fake Audio Detection Dataset ( http://arxiv.org/abs/2104.03617v1 )

ライセンス: Link先を確認
Jiangyan Yi, Ye Bai, Jianhua Tao, Zhengkun Tian, Chenglong Wang, Tao Wang, Ruibo Fu(参考訳) 多様な有望なデータセットは、ASVspoofデータベースのような偽オーディオ検出の開発を支えているように設計されている。 しかし、以前のデータセットは攻撃的な状況を無視しており、ハッカーは実際の音声に小さな偽のクリップを隠している。 これは、小さな偽のクリップをスピーチ全体の発話と区別することが難しいため、深刻な脅威となる。 そこで本稿では,半真実音声検出(had)のためのデータセットを開発した。 hadデータセットの一部のフェイクオーディオは、発話中の数単語だけを変更し、その単語の音声は最新の最先端の音声合成技術で生成される。 我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。 いくつかのベンチマーク結果は、このデータセットで示される。 その結果、一部の偽オーディオは、偽オーディオ検出のための完全偽オーディオよりもはるかに難しいことが判明した。

Diverse promising datasets have been designed to hold back the development of fake audio detection, such as ASVspoof databases. However, previous datasets ignore an attacking situation, in which the hacker hides some small fake clips in real speech audio. This poses a serious threat since that it is difficult to distinguish the small fake clip from the whole speech utterance. Therefore, this paper develops such a dataset for half-truth audio detection (HAD). Partially fake audio in the HAD dataset involves only changing a few words in an utterance.The audio of the words is generated with the very latest state-of-the-art speech synthesis technology. We can not only detect fake uttrances but also localize manipulated regions in a speech using this dataset. Some benchmark results are presented on this dataset. The results show that partially fake audio presents much more challenging than fully fake audio for fake audio detection.
翻訳日:2021-04-09 13:18:42 公開日:2021-04-08
# Sparse Non negative Matrix Factorization のアーチティパル解析 : 相違によるロバスト性

Archetypal Analysis for Sparse Nonnegative Matrix Factorization: Robustness Under Misspecification ( http://arxiv.org/abs/2104.03527v1 )

ライセンス: Link先を確認
Kayhan Behdin and Rahul Mazumder(参考訳) 我々は,非負行列因子分解 (nmf) のアーチ型正則化問題を考える。 ゴールは、非負のスパース因子の非負の線形結合としてデータ点の集合を表現することであり、アーチ型正則化(archetypal regularization)によって生じる幾何学的性質が魅力的である。 我々はジャワディとモンタナリ (2019) で研究されたロバストネスの概念を、(a) 推定アーチタイプが基礎となるアーキタイプに近く、(b) 弱ロバストネスは基礎となるアーキタイプに近い少なくとも1つの復元アーキタイプが存在することを示唆する(a) 強ロバストネスの概念に一般化する。 我々のロバスト性保証に関する理論的結果は、基礎となるデータに対する最小限の仮定の下で保持され、基礎となるアーチタイプがスパースする必要のない設定に適用されます。 我々は,最適化問題に対する新しいアルゴリズムを提案し,提案するフレームワークと理論的発展に関するさらなる知見をもたらす合成および実データセットに関する数値実験を行った。

We consider the problem of sparse nonnegative matrix factorization (NMF) with archetypal regularization. The goal is to represent a collection of data points as nonnegative linear combinations of a few nonnegative sparse factors with appealing geometric properties, arising from the use of archetypal regularization. We generalize the notion of robustness studied in Javadi and Montanari (2019) (without sparsity) to the notions of (a) strong robustness that implies each estimated archetype is close to the underlying archetypes and (b) weak robustness that implies there exists at least one recovered archetype that is close to the underlying archetypes. Our theoretical results on robustness guarantees hold under minimal assumptions on the underlying data, and applies to settings where the underlying archetypes need not be sparse. We propose new algorithms for our optimization problem; and present numerical experiments on synthetic and real datasets that shed further insights into our proposed framework and theoretical developments.
翻訳日:2021-04-09 13:18:28 公開日:2021-04-08
# 厳密な確率的二階深層学習

Exact Stochastic Second Order Deep Learning ( http://arxiv.org/abs/2104.03804v1 )

ライセンス: Link先を確認
Fares B. Mehouachi, Chaouki Kasmi(参考訳) ディープラーニングの最適化は主に、バックプロパゲーションの中心的な概念を中心に構築された一階法に支配されている。 二階微分を考慮した二階最適化法は、優れた理論的性質にもかかわらず、はるかに使われない。 この二階法の不適切さは、その計算コスト、性能の低さ、そしてディープラーニングの非凸性に起因する。 コスト効率のよい解に到達することなく、二階最適化の不適切さを解決するために、いくつかの試みが行われた。 本研究では,ニューラルネットワークの適切な正規化を前提として,この長期にわたる深層学習の問題を確率論的に解くことができることを示す。 興味深いことに、確率的ヘッシアンとその正確な固有値の表現を提供する。 非凸性問題を解き、正則化とスペクトル調整により平坦な最小値を求めるための正確な解を調整した。 一般的なデータセット上での確率的二階法を正確にテストし,その深層学習への適性を明らかにする。

Optimization in Deep Learning is mainly dominated by first-order methods which are built around the central concept of backpropagation. Second-order optimization methods, which take into account the second-order derivatives are far less used despite superior theoretical properties. This inadequacy of second-order methods stems from its exorbitant computational cost, poor performance, and the ineluctable non-convex nature of Deep Learning. Several attempts were made to resolve the inadequacy of second-order optimization without reaching a cost-effective solution, much less an exact solution. In this work, we show that this long-standing problem in Deep Learning could be solved in the stochastic case, given a suitable regularization of the neural network. Interestingly, we provide an expression of the stochastic Hessian and its exact eigenvalues. We provide a closed-form formula for the exact stochastic second-order Newton direction, we solve the non-convexity issue and adjust our exact solution to favor flat minima through regularization and spectral adjustment. We test our exact stochastic second-order method on popular datasets and reveal its adequacy for Deep Learning.
翻訳日:2021-04-09 13:18:07 公開日:2021-04-08
# 生成型adversarial networkの効率的な訓練におけるサンプル混合法の効果に関する実証的研究

An Empirical Study of the Effects of Sample-Mixing Methods for Efficient Training of Generative Adversarial Networks ( http://arxiv.org/abs/2104.03535v1 )

ライセンス: Link先を確認
Makoto Takamoto and Yusuke Morishita(参考訳) 生成的敵ネットワーク(GAN)のトレーニングは、ジェネレータが高品質なサンプルを提供する前に膨大なイテレーションを必要とすることはよく知られている。 この問題にはいくつかの研究があるが、普遍的な解決法はない。 本研究では, 試料混合法, ミックスアップ法, カットミックス法, および新たに提案された平滑化地域混合法 (srmix) が, この問題を緩和する効果について検討した。 試料混合法は幅広い分類問題の精度と堅牢性を高めることが知られており, 判別器の役割は実検体と偽検体の分類として解釈できるため, GANにも自然に適用可能である。 また, サンプル混合法を実物と偽物の明確な「ラベル」を持たない飽和損失を有するGANに適用する新たな定式化も提案した。 我々はLSUNとCelebAデータセットを用いて膨大な数値実験を行った。 その結果,Mix と SRMix は FID の点で画像の品質を向上し,特に SRMix はほとんどのケースで最高の改善を示した。 分析の結果,混合サンプルはバニラ・フェイク・サンプルと異なる特性を呈し,混合パターンは判別者の判断に大きく影響することがわかった。 mixupの生成された画像は高いレベルの機能を持っているが、低レベルの機能はそれほど印象的ではない。 一方,cutmixは逆の傾向を示した。 SRMixでは,中程度の傾向,すなわち,高い,低レベルの特徴が認められた。 我々は,GANの収束を加速し,生成したサンプルの品質を向上させるために,新たな視点を提供すると考えている。

It is well-known that training of generative adversarial networks (GANs) requires huge iterations before the generator's providing good-quality samples. Although there are several studies to tackle this problem, there is still no universal solution. In this paper, we investigated the effect of sample mixing methods, that is, Mixup, CutMix, and newly proposed Smoothed Regional Mix (SRMix), to alleviate this problem. The sample-mixing methods are known to enhance the accuracy and robustness in the wide range of classification problems, and can naturally be applicable to GANs because the role of the discriminator can be interpreted as the classification between real and fake samples. We also proposed a new formalism applying the sample-mixing methods to GANs with the saturated losses which do not have a clear "label" of real and fake. We performed a vast amount of numerical experiments using LSUN and CelebA datasets. The results showed that Mixup and SRMix improved the quality of the generated images in terms of FID in most cases, in particular, SRMix showed the best improvement in most cases. Our analysis indicates that the mixed-samples can provide different properties from the vanilla fake samples, and the mixing pattern strongly affects the decision of the discriminators. The generated images of Mixup have good high-level feature but low-level feature is not so impressible. On the other hand, CutMix showed the opposite tendency. Our SRMix showed the middle tendency, that is, showed good high and low level features. We believe that our finding provides a new perspective to accelerate the GANs convergence and improve the quality of generated samples.
翻訳日:2021-04-09 13:17:52 公開日:2021-04-08
# PDO-e$\text{S}^\text{2}$CNNs:partial Differential Operator based Equivariant Spherical CNNs

PDO-e$\text{S}^\text{2}$CNNs: Partial Differential Operator Based Equivariant Spherical CNNs ( http://arxiv.org/abs/2104.03584v1 )

ライセンス: Link先を確認
Zhengyang Shen, Tiancheng Shen, Zhouchen Lin, Jinwen Ma(参考訳) 球面信号は、惑星データ、LiDARスキャン、三次元オブジェクトのデジタル化など、多くのアプリケーションに存在し、球面データを効率的に処理できるモデルを求めている。 単に球面データを2次元平面に投影し、投影からの歪みと非効率な翻訳等価性のために平面畳み込みニューラルネットワーク(CNN)を使用する場合、うまく動作しない。 実際、球面cnnを設計する良い原理は歪みを避け、平面cnnのシフト同分散特性を球面領域の回転同分散に変換することである。 本研究では、偏微分作用素を用いて球面同変 CNN, PDO-e$\text{S}^\text{2}$CNN を設計する。 次に、PDO-e$\text{S}^\text{2}$CNNを離散化し、離散化による等分散誤差を分析する。 等分散誤差が理論的に球面領域で解析されるのはこれが初めてである。 実験では、PDO-e$\text{S}^\text{2}$CNNはパラメータ効率が向上し、他の球面CNNよりも優れていた。

Spherical signals exist in many applications, e.g., planetary data, LiDAR scans and digitalization of 3D objects, calling for models that can process spherical data effectively. It does not perform well when simply projecting spherical data into the 2D plane and then using planar convolution neural networks (CNNs), because of the distortion from projection and ineffective translation equivariance. Actually, good principles of designing spherical CNNs are avoiding distortions and converting the shift equivariance property in planar CNNs to rotation equivariance in the spherical domain. In this work, we use partial differential operators (PDOs) to design a spherical equivariant CNN, PDO-e$\text{S}^\text{2}$CNN, which is exactly rotation equivariant in the continuous domain. We then discretize PDO-e$\text{S}^\text{2}$CNNs, and analyze the equivariance error resulted from discretization. This is the first time that the equivariance error is theoretically analyzed in the spherical domain. In experiments, PDO-e$\text{S}^\text{2}$CNNs show greater parameter efficiency and outperform other spherical CNNs significantly on several tasks.
翻訳日:2021-04-09 13:17:25 公開日:2021-04-08
# SiT:自己監督型VIsion Transformer

SiT: Self-supervised vIsion Transformer ( http://arxiv.org/abs/2104.03602v1 )

ライセンス: Link先を確認
Sara Atito and Muhammad Awais and Josef Kittler(参考訳) 近年,教師あり学習とのギャップを減らし,コンピュータビジョンにおける自己指導型学習手法の推進力が高まっている。 自然言語処理(NLP)では、自己教師型学習とトランスフォーマーがすでに選択方法となっている。 近年の文献によると、トランスフォーマーはコンピュータビジョンでも人気が高まっている。 これまでのところ、視覚変換器は大規模な教師付きデータやある種のコスーパービジョンを用いて事前訓練されたときにうまく機能することが示されている。 教師のネットワークに関してです これらの教師付き事前訓練されたビジョントランスフォーマーは、最小限の変更で下流タスクに非常に良い結果をもたらす。 本研究では,イメージ/ビジョン変換器の事前学習における自己教師型学習のメリットについて検討し,下流の分類タスクに利用した。 本稿では,sit(self-supervised vision transformers)を提案し,プリテキストモデルを得るための自己教師付き学習機構について検討する。 SiTのアーキテクチャの柔軟性により、自動エンコーダとして使用でき、複数の自己管理タスクをシームレスに処理できます。 学習済みのsatは、数百万ではなく数千の画像からなる小規模データセットのダウンストリーム分類タスクのために微調整可能であることを示す。 提案手法は共通プロトコルを用いて標準データセット上で評価される。 その結果, 変圧器の強度と自己教師あり学習への適合性が示された。 我々は既存の自己教師あり学習手法を大差で上回った。 また,sitはショット学習に適しており,sitから学習した特徴の上に線形分類器を訓練することで,有用な表現を学習していることを示した。 事前トレーニング、微調整、評価コードは、https://github.com/S ara-Ahmed/SiT.comで利用できる。

Self-supervised learning methods are gaining increasing traction in computer vision due to their recent success in reducing the gap with supervised learning. In natural language processing (NLP) self-supervised learning and transformers are already the methods of choice. The recent literature suggests that the transformers are becoming increasingly popular also in computer vision. So far, the vision transformers have been shown to work well when pretrained either using a large scale supervised data or with some kind of co-supervision, e.g. in terms of teacher network. These supervised pretrained vision transformers achieve very good results in downstream tasks with minimal changes. In this work we investigate the merits of self-supervised learning for pretraining image/vision transformers and then using them for downstream classification tasks. We propose Self-supervised vIsion Transformers (SiT) and discuss several self-supervised training mechanisms to obtain a pretext model. The architectural flexibility of SiT allows us to use it as an autoencoder and work with multiple self-supervised tasks seamlessly. We show that a pretrained SiT can be finetuned for a downstream classification task on small scale datasets, consisting of a few thousand images rather than several millions. The proposed approach is evaluated on standard datasets using common protocols. The results demonstrate the strength of the transformers and their suitability for self-supervised learning. We outperformed existing self-supervised learning methods by large margin. We also observed that SiT is good for few shot learning and also showed that it is learning useful representation by simply training a linear classifier on top of the learned features from SiT. Pretraining, finetuning, and evaluation codes will be available under: https://github.com/S ara-Ahmed/SiT.
翻訳日:2021-04-09 13:17:03 公開日:2021-04-08
# 移動ロボットのセマンティック認知による空間的イマジネーション

Spatial Imagination With Semantic Cognition for Mobile Robots ( http://arxiv.org/abs/2104.03638v1 )

ライセンス: Link先を確認
Zhengcheng Shen, Linh K\"astner and Jens Lambrecht(参考訳) 経験とセマンティック認知に基づく環境の想像力は、限られた観測範囲を拡張し、マッピング、衝突回避、経路計画のためのより多くの情報を提供する大きな可能性を秘めている。 本稿では,移動ロボットが意味認識に基づく空間的想像力を実現するためのトレーニングベースアルゴリズムを提案し,提案手法の評価を行った。 本研究では,フォトリアリスティックなシミュレーション環境Habitatをトレーニングと評価に利用した。 トレーニングされたモデルは、エンコーダとしてのresent-18とバックボーンとしてのunetで構成されている。 画像や経験をリコールし、従来の意味マッピング手法と比較することにより、オブジェクトの見えない部分の想像力を普遍的に実現できることを実証する。 この手法が意味マッピングの効率と正確性を向上させることが判明した。

The imagination of the surrounding environment based on experience and semantic cognition has great potential to extend the limited observations and provide more information for mapping, collision avoidance, and path planning. This paper provides a training-based algorithm for mobile robots to perform spatial imagination based on semantic cognition and evaluates the proposed method for the mapping task. We utilize a photo-realistic simulation environment, Habitat, for training and evaluation. The trained model is composed of Resent-18 as encoder and Unet as the backbone. We demonstrate that the algorithm can perform imagination for unseen parts of the object universally, by recalling the images and experience and compare our approach with traditional semantic mapping methods. It is found that our approach will improve the efficiency and accuracy of semantic mapping.
翻訳日:2021-04-09 13:16:39 公開日:2021-04-08
# 音声言語理解のためのRNNトランスデューサモデル

RNN Transducer Models For Spoken Language Understanding ( http://arxiv.org/abs/2104.03842v1 )

ライセンス: Link先を確認
Samuel Thomas, Hong-Kwang J. Kuo, George Saon, Zolt\'an T\"uske, Brian Kingsbury, Gakuto Kurata, Zvi Kons, Ron Hoory(参考訳) 本稿では,言語理解のためのRNNトランスデューサ(RNN-T)モデルの構築と適応に関する総合的研究を行う。 これらのエンド・ツー・エンド(E2E)モデルは、3つの実践的な設定で構築される:動詞の書き起こしが利用可能なケース、利用可能なアノテーションがSLUラベルとその値のみである制約付きケース、より制限付きのケース。 本稿では、事前訓練された自動音声認識(ASR)システムからRNN-T SLUモデルを開発し、続いてSLU適応ステップを示す。 実際の音声データが入手できない環境では、様々なSLUモデルの適応に人工合成音声を用いる。 ATISコーパスと顧客コールセンタデータセットの2つのSLUデータセットで評価すると、提案モデルは他のE2Eモデルの性能を密に追跡し、最先端の結果が得られる。

We present a comprehensive study on building and adapting RNN transducer (RNN-T) models for spoken language understanding(SLU). These end-to-end (E2E) models are constructed in three practical settings: a case where verbatim transcripts are available, a constrained case where the only available annotations are SLU labels and their values, and a more restrictive case where transcripts are available but not corresponding audio. We show how RNN-T SLU models can be developed starting from pre-trained automatic speech recognition (ASR) systems, followed by an SLU adaptation step. In settings where real audio data is not available, artificially synthesized speech is used to successfully adapt various SLU models. When evaluated on two SLU data sets, the ATIS corpus and a customer call center data set, the proposed models closely track the performance of other E2E models and achieve state-of-the-art results.
翻訳日:2021-04-09 13:16:16 公開日:2021-04-08
# BR-NS:ノベルティ検索のためのアーカイブレスアプローチ

BR-NS: an Archive-less Approach to Novelty Search ( http://arxiv.org/abs/2104.03936v1 )

ライセンス: Link先を確認
Achkan Salehi, Alexandre Coninx, Stephane Doncieux(参考訳) ノベルティサーチ(NS)のような多様な検索アルゴリズムに基づくオープンエンドラーニングは、研究コミュニティからますます注目を集めているため、より複雑な実世界の問題に応用するためには、必ずしもユークリッドではない高次元の行動空間を探索する必要があると期待するのも当然である。 ノベルティ・サーチは伝統的にk-ネアレスト近傍の探索と、ユークリッド空間に居住していると仮定された以前に訪れた行動記述子のアーカイブに依存している。 これは多くの問題のために問題となる。 一方、ユークリッド距離と近距離探索は異なる振る舞いをすることが知られており、高次元空間では意味をなさない。 一方、アーカイブは、メモリを考慮すれば、アーカイブ内の最寄りの近傍を見つける計算の複雑さはそのサイズで線形に増加するため、バウンダリでなければならない。 準最適境界(sub-optimal bound)は、行動空間において「サイクリング(cycling)」となり、探索の進行を阻害する。 さらに、nsの性能は、アーカイブに要素を追加または削除する戦略や、k-nn検索で使用する近傍の数など、多くのアルゴリズム選択とハイパーパラメータに依存する。 本稿では,行動認識に基づくノベルティ探索 (BR-NS) という,行動空間で定義可能な測度を前提とせず,近隣の探索に頼らない,新規性推定の代替手法について論じる。 我々は、その実現可能性とダイナミクス、および時間複雑性の観点からアーカイブベースのnsよりも潜在的に有利な点について洞察を得るために実験を行う。

As open-ended learning based on divergent search algorithms such as Novelty Search (NS) draws more and more attention from the research community, it is natural to expect that its application to increasingly complex real-world problems will require the exploration to operate in higher dimensional Behavior Spaces which will not necessarily be Euclidean. Novelty Search traditionally relies on k-nearest neighbours search and an archive of previously visited behavior descriptors which are assumed to live in a Euclidean space. This is problematic because of a number of issues. On one hand, Euclidean distance and Nearest-neighbour search are known to behave differently and become less meaningful in high dimensional spaces. On the other hand, the archive has to be bounded since, memory considerations aside, the computational complexity of finding nearest neighbours in that archive grows linearithmically with its size. A sub-optimal bound can result in "cycling" in the behavior space, which inhibits the progress of the exploration. Furthermore, the performance of NS depends on a number of algorithmic choices and hyperparameters, such as the strategies to add or remove elements to the archive and the number of neighbours to use in k-nn search. In this paper, we discuss an alternative approach to novelty estimation, dubbed Behavior Recognition based Novelty Search (BR-NS), which does not require an archive, makes no assumption on the metrics that can be defined in the behavior space and does not rely on nearest neighbours search. We conduct experiments to gain insight into its feasibility and dynamics as well as potential advantages over archive-based NS in terms of time complexity.
翻訳日:2021-04-09 13:15:58 公開日:2021-04-08
# 人工手指制御におけるEMGのマルチモーダル融合と人間のグラフインテント推論のためのビジョン

Multimodal Fusion of EMG and Vision for Human Grasp Intent Inference in Prosthetic Hand Control ( http://arxiv.org/abs/2104.03893v1 )

ライセンス: Link先を確認
Mehrshad Zandigohar, Mo Han, Mohammadreza Sharif, Sezen Yagmur Gunay, Mariusz P. Furmanek, Mathew Yarossi, Paolo Bonato, Cagdas Onal, Taskin Padir, Deniz Erdogmus, Gunar Schirner(参考訳) 下腕のアンプでは、ロボット義手は日常の生活で細かい物体操作を行う能力を取り戻すことを約束する。 脳波や筋電図などの生理的信号に基づく現在の制御方法は、運動アーチファクト、経時的皮膚電極接合インピーダンスの変動性、筋疲労、その他の要因による推測結果の低下を招きやすい。 視覚的証拠は、しばしばオブジェクトの閉塞、照明の変化、ビューアングルに依存するオブジェクトの可変形状などによって、自身の人工物にも影響を受けやすい。 生理的および視覚的センサ計測を用いたマルチモーダルエビデンス融合は、これらのモダリティの相補的な強度による自然なアプローチである。 本稿では,ニューラルネットモデルにより処理された前腕からの視線映像,視線,筋電図を用いた意図推定のためのベイズ証拠融合フレームワークを提案する。 我々は、手が物体に近づくと、時間関数として個人と融合のパフォーマンスを分析する。 この目的のために、ニューラルネットワークコンポーネントをトレーニングするための新しいデータ処理および拡張技術を開発した。 実験データから,EMGと視覚的エビデンスは相補的な強度を示し,その結果,多モーダルなエビデンスの融合は各時間における各エビデンスモダリティより優れることが示された。 具体的には、核融合は平均して、直近の把握型分類精度を13.66%、14.8%向上させ、EMGと視覚的証拠を個別に比較した。 13のラベルのうち95.3%(チャンスレベル7.7%)の総合融解精度を達成し、より詳細な分析により、ロボットの動作を成功させるために、正しい把持が十分に早期に推測され、上位候補よりも高い信頼度で達成されていることを示している。

For lower arm amputees, robotic prosthetic hands offer the promise to regain the capability to perform fine object manipulation in activities of daily living. Current control methods based on physiological signals such as EEG and EMG are prone to poor inference outcomes due to motion artifacts, variability of skin electrode junction impedance over time, muscle fatigue, and other factors. Visual evidence is also susceptible to its own artifacts, most often due to object occlusion, lighting changes, variable shapes of objects depending on view-angle, among other factors. Multimodal evidence fusion using physiological and vision sensor measurements is a natural approach due to the complementary strengths of these modalities. In this paper, we present a Bayesian evidence fusion framework for grasp intent inference using eye-view video, gaze, and EMG from the forearm processed by neural network models. We analyze individual and fused performance as a function of time as the hand approaches the object to grasp it. For this purpose, we have also developed novel data processing and augmentation techniques to train neural network components. Our experimental data analyses demonstrate that EMG and visual evidence show complementary strengths, and as a consequence, fusion of multimodal evidence can outperform each individual evidence modality at any given time. Specifically, results indicate that, on average, fusion improves the instantaneous upcoming grasp type classification accuracy while in the reaching phase by 13.66% and 14.8%, relative to EMG and visual evidence individually. An overall fusion accuracy of 95.3% among 13 labels (compared to a chance level of 7.7%) is achieved, and more detailed analysis indicate that the correct grasp is inferred sufficiently early and with high confidence compared to the top contender, in order to allow successful robot actuation to close the loop.
翻訳日:2021-04-09 13:15:32 公開日:2021-04-08
# 分散ネットワークにおけるベイズ変分フェデレーション学習とアンラーニング

Bayesian Variational Federated Learning and Unlearning in Decentralized Networks ( http://arxiv.org/abs/2104.03834v1 )

ライセンス: Link先を確認
Jinu Gong, Osvaldo Simeone, Joonhyuk Kang(参考訳) 連合ベイズ学習(federated bayesian learning)は、認識論的不確実性を定量化し、信頼できる意思決定を可能にする、協調的トレーニングアルゴリズムの定義のための原則付きフレームワークを提供する。 共同訓練が完了すると、エージェントは彼女の法的「忘れられる権利」を行使することを決断し、共同で訓練されたモデルへの彼女の貢献を削除および破棄するよう要求する。 本稿では,ベイズフレームワーク内の分散ネットワークにおけるフェデレート学習とアンラーニングについて述べる。 指数型モデル内の局所自由エネルギー最小化問題の分散解と、局所ゴシップ駆動通信に基づくフェデレーション付き変分推論(VI)ソリューションを特に開発する。 提案プロトコルは,効率的な学習機構を実現する。

Federated Bayesian learning offers a principled framework for the definition of collaborative training algorithms that are able to quantify epistemic uncertainty and to produce trustworthy decisions. Upon the completion of collaborative training, an agent may decide to exercise her legal "right to be forgotten", which calls for her contribution to the jointly trained model to be deleted and discarded. This paper studies federated learning and unlearning in a decentralized network within a Bayesian framework. It specifically develops federated variational inference (VI) solutions based on the decentralized solution of local free energy minimization problems within exponential-family models and on local gossip-driven communication. The proposed protocols are demonstrated to yield efficient unlearning mechanisms.
翻訳日:2021-04-09 13:14:58 公開日:2021-04-08
# 単一勾配ステップがランダム二層ニューラルネットワークの逆例を見つける

A single gradient step finds adversarial examples on random two-layers neural networks ( http://arxiv.org/abs/2104.03863v1 )

ライセンス: Link先を確認
S\'ebastien Bubeck, Yeshwanth Cherapanamjeri, Gauthier Gidel and R\'emi Tachet des Combes(参考訳) Daniely と Schacham は先日、ランダム不完全な2層 ReLU ニューラルネットワーク上で勾配降下が逆例となることを示した。 アンダーコンプリート」という用語は、ニューロンの数が周囲の次元の消失分数である場合にのみその証明が成り立つという事実を指す。 それらの結果は、ニューロンの数が次元よりも大きい(また、次元における部分指数)オーバーコンプリートの場合にまで拡大する。 実際、勾配降下の1つのステップが十分であることを示す。 また,スムースなアクティベーション関数を持つ任意のサブ指数幅ランダムニューラルネットワークに対して,この結果を示す。

Daniely and Schacham recently showed that gradient descent finds adversarial examples on random undercomplete two-layers ReLU neural networks. The term "undercomplete" refers to the fact that their proof only holds when the number of neurons is a vanishing fraction of the ambient dimension. We extend their result to the overcomplete case, where the number of neurons is larger than the dimension (yet also subexponential in the dimension). In fact we prove that a single step of gradient descent suffices. We also show this result for any subexponential width random neural network with smooth activation function.
翻訳日:2021-04-09 13:14:45 公開日:2021-04-08
# Few-Shotローカライゼーションと分類のためのプロトタイプ領域提案ネットワーク

Prototypical Region Proposal Networks for Few-Shot Localization and Classification ( http://arxiv.org/abs/2104.03496v1 )

ライセンス: Link先を確認
Elliott Skomski, Aaron Tuor, Andrew Avila, Lauren Phillips, Zachary New, Henry Kvinge, Courtney D. Corley, and Nathan Hodas(参考訳) 近年,画像の分類法として,分類対象が画像の中心的な主題であるユースケースに焦点が当てられている。 このユースケースに合わせたベンチマークビジョンデータセットの成功にもかかわらず、これらの方法は一般的に、密に注釈された、多忙な画像を含むユースケースで失敗する。 関連するオブジェクトのローカライズには,ラベルなしの問合せ画像の符号化特徴をクラスセンタロイドで比較し,問合せ画像における支持集合クラスの存在と位置を示す領域提案を生成する,プロトタイプベースの少数ショットセグメンテーションモデルを用いる。 これらの領域の提案は、少数ショットの画像分類器への追加条件入力として使用される。 我々は,2つの段階(セグメンテーションと分類)をエンドツーエンドの分類モデルであるPRoPnetに統一するフレームワークを開発し,複数のオブジェクトクラスを含む自然なシーンによる画像データセットの精度向上を実証的に実証した。

Recently proposed few-shot image classification methods have generally focused on use cases where the objects to be classified are the central subject of images. Despite success on benchmark vision datasets aligned with this use case, these methods typically fail on use cases involving densely-annotated, busy images: images common in the wild where objects of relevance are not the central subject, instead appearing potentially occluded, small, or among other incidental objects belonging to other classes of potential interest. To localize relevant objects, we employ a prototype-based few-shot segmentation model which compares the encoded features of unlabeled query images with support class centroids to produce region proposals indicating the presence and location of support set classes in a query image. These region proposals are then used as additional conditioning input to few-shot image classifiers. We develop a framework to unify the two stages (segmentation and classification) into an end-to-end classification model -- PRoPnet -- and empirically demonstrate that our methods improve accuracy on image datasets with natural scenes containing multiple object classes.
翻訳日:2021-04-09 13:14:14 公開日:2021-04-08
# Py-Feat: Pythonの表情解析ツールボックス

Py-Feat: Python Facial Expression Analysis Toolbox ( http://arxiv.org/abs/2104.03509v1 )

ライセンス: Link先を確認
Jin Hyun Cheong, Tiankang Xie, Sophie Byrne, Luke J. Chang(参考訳) 表情の研究は、非常に難しい仕事だ。 感情コンピューティングの分野での最近の進歩は、画像やビデオから表情を自動的に検出する、驚くべき進歩をもたらした。 しかし、この研究の多くは心理学などの社会科学分野では広く普及していない。 現在の芸術モデルは、伝統的に社会科学訓練プログラムに組み込まれていない相当な専門知識を必要とする。 さらに、表情研究をサポートする包括的なツールや機能セットを提供する、ユーザフレンドリーでオープンソースなソフトウェアがないことも注目すべきです。 本稿では,表情データの検出,前処理,解析,可視化をサポートするオープンソースのPythonツールボックスであるPy-Featを紹介する。 Py-Featは、ドメインの専門家がコンピュータビジョンモデルを広めてベンチマークしやすくし、エンドユーザが顔表現データを素早く処理し、分析し、視覚化することを可能にする。 このプラットフォームが人間の行動研究における表情データの利用を促進することを願っている。

Studying facial expressions is a notoriously difficult endeavor. Recent advances in the field of affective computing have yielded impressive progress in automatically detecting facial expressions from pictures and videos. However, much of this work has yet to be widely disseminated in social science domains such as psychology. Current state of the art models require considerable domain expertise that is not traditionally incorporated into social science training programs. Furthermore, there is a notable absence of user-friendly and open-source software that provides a comprehensive set of tools and functions that support facial expression research. In this paper, we introduce Py-Feat, an open-source Python toolbox that provides support for detecting, preprocessing, analyzing, and visualizing facial expression data. Py-Feat makes it easy for domain experts to disseminate and benchmark computer vision models and also for end users to quickly process, analyze, and visualize face expression data. We hope this platform will facilitate increased use of facial expression data in human behavior research.
翻訳日:2021-04-09 13:13:54 公開日:2021-04-08
# 3次元CT画像による動詞分割のためのアラスラス残差接続エンコーダとアテンションデコーダフレームワーク

Atrous Residual Interconnected Encoder to Attention Decoder Framework for Vertebrae Segmentation via 3D Volumetric CT Images ( http://arxiv.org/abs/2104.03715v1 )

ライセンス: Link先を確認
Wenqiang Li, YM Tang, Ziyang Wang, KM Yu, Sandy To(参考訳) コンピュータ支援手術の前提条件としてctを用いた医用画像の自動セグメンテーションが広く適用されている。 深層学習技術の発展に伴い、深層畳み込みニューラルネットワーク(dcnn)は、医用画像の自動意味セグメンテーションにおいて堅牢な性能を示している。 しかし,DCNNに基づくセマンティックセグメンテーションアルゴリズムは,エンコーダとデコーダの機能損失,マルチスケールオブジェクト,フィルタの視野の制限,医用画像データの欠如といった課題をまだ満たしている。 本稿では,3次元容積CT画像を用いた新しい椎骨分割法を提案する。 提案モデルは,ミニバッチトレーニング性能の最適化にレイヤ正規化を用いた,エンコーダからデコーダへの構造に基づく。 エンコーダとデコーダ間の情報損失の懸念に対処するため、簡単なショートカット接続ではなく、エンコーダからデコーダへより多くの機能を渡すためにAtrous Residual Pathを設計した。 提案モデルでは,デコーダ部分のアテンションモジュールを用いて,変動スケールの特徴を抽出する。 提案モデルは,様々な指標を用いて公開データセット上で評価される。 実験の結果,本モデルは他の医学的意味セグメンテーション法と比較して競争力が得られた。

Automatic medical image segmentation based on Computed Tomography (CT) has been widely applied for computer-aided surgery as a prerequisite. With the development of deep learning technologies, deep convolutional neural networks (DCNNs) have shown robust performance in automated semantic segmentation of medical images. However, semantic segmentation algorithms based on DCNNs still meet the challenges of feature loss between encoder and decoder, multi-scale object, restricted field of view of filters, and lack of medical image data. This paper proposes a novel algorithm for automated vertebrae segmentation via 3D volumetric spine CT images. The proposed model is based on the structure of encoder to decoder, using layer normalization to optimize mini-batch training performance. To address the concern of the information loss between encoder and decoder, we designed an Atrous Residual Path to pass more features from encoder to decoder instead of an easy shortcut connection. The proposed model also applied the attention module in the decoder part to extract features from variant scales. The proposed model is evaluated on a publicly available dataset by a variety of metrics. The experimental results show that our model achieves competitive performance compared with other state-of-the-art medical semantic segmentation methods.
翻訳日:2021-04-09 13:13:40 公開日:2021-04-08
# 表面CNNのためのフィールド畳み込み

Field Convolutions for Surface CNNs ( http://arxiv.org/abs/2104.03916v1 )

ライセンス: Link先を確認
Thomas W. Mitchel, Vladimir G. Kim, Michael Kazhdan(参考訳) 簡単な観測に基づいてベクトル場に作用する新しい曲面畳み込み作用素を提案する: 与えられた点で定義された1つの座標パラメータ化に対して近傍の特徴を組み合わせる代わりに、各近傍にその座標フレーム内の点の位置を記述する。 この定式化は、内部空間の畳み込みと散乱操作における平行輸送を結合し、フィルタ自体に制約を課さず、等距離の作用と通勤する畳み込みの定義を提供し、記述ポテンシャルを増大させ、ノイズやその他のニュアンス要因に対して堅牢である。 その結果、フィールド畳み込み(field convolution)と呼ばれる豊富な畳み込みの概念が、表面上のcnnに適している。 フィールド畳み込みは柔軟で、実装はまっすぐであり、その高度に識別される性質は学習パイプライン全体にわたってカスケード効果を持つ。 残留フィールド畳み込みブロックから構築された単純なネットワークを用いて,形状分類,セグメンテーション,対応,スパースマッチングなどの基本的な幾何処理タスクにおける標準ベンチマークの結果を得る。

We present a novel surface convolution operator acting on vector fields that is based on a simple observation: instead of combining neighboring features with respect to a single coordinate parameterization defined at a given point, we have every neighbor describe the position of the point within its own coordinate frame. This formulation combines intrinsic spatial convolution with parallel transport in a scattering operation while placing no constraints on the filters themselves, providing a definition of convolution that commutes with the action of isometries, has increased descriptive potential, and is robust to noise and other nuisance factors. The result is a rich notion of convolution which we call field convolution, well-suited for CNNs on surfaces. Field convolutions are flexible and straight-forward to implement, and their highly discriminating nature has cascading effects throughout the learning pipeline. Using simple networks constructed from residual field convolution blocks, we achieve state-of-the-art results on standard benchmarks in fundamental geometry processing tasks, such as shape classification, segmentation, correspondence, and sparse matching.
翻訳日:2021-04-09 13:13:17 公開日:2021-04-08
# 単純なニューラル確率言語モデルの再検討

Revisiting Simple Neural Probabilistic Language Models ( http://arxiv.org/abs/2104.03474v1 )

ライセンス: Link先を確認
Simeng Sun, Mohit Iyyer(参考訳) 言語モデリングの最近の進歩は、ニューラルアーキテクチャの進歩だけでなく、ハードウェアと最適化の改善によっても引き起こされている。 本稿では,固定ウィンドウ内の単語埋め込みを結合し,その結果をフィードフォワードネットワークに渡して次の単語を予測する,-\citet{bengio2003anp} のニューラル確率言語モデル (nplm) を再検討する。 現代のハードウェアにスケールアップすると、このモデル(多くの制限にもかかわらず)は、単語レベルの言語モデルのベンチマークで期待以上にパフォーマンスが向上する。 解析の結果,NPLMは入力コンテキストが短いが長期依存を扱うのに苦労するベースライン変換器よりも難易度が高いことがわかった。 この結果から,トランスフォーマーをNPLMの局所連結層に置き換えることで,3つの単語レベルの言語モデリングデータセット間で小さなが一貫したパープレキシティが減少する。

Recent progress in language modeling has been driven not only by advances in neural architectures, but also through hardware and optimization improvements. In this paper, we revisit the neural probabilistic language model (NPLM) of~\citet{Bengio2003ANP}, which simply concatenates word embeddings within a fixed window and passes the result through a feed-forward network to predict the next word. When scaled up to modern hardware, this model (despite its many limitations) performs much better than expected on word-level language model benchmarks. Our analysis reveals that the NPLM achieves lower perplexity than a baseline Transformer with short input contexts but struggles to handle long-term dependencies. Inspired by this result, we modify the Transformer by replacing its first self-attention layer with the NPLM's local concatenation layer, which results in small but consistent perplexity decreases across three word-level language modeling datasets.
翻訳日:2021-04-09 13:12:24 公開日:2021-04-08
# サブネット探索による低複雑さ探査

Low-Complexity Probing via Finding Subnetworks ( http://arxiv.org/abs/2104.03514v1 )

ライセンス: Link先を確認
Steven Cao, Victor Sanh, Alexander M. Rush(参考訳) 言語特性のためのニューラルネットワークの探索における主要なアプローチは、モデルの内部表現の上に新しい浅い多層パーセプトロン(MLP)を訓練することである。 このアプローチは、モデルにエンコードされたプロパティを検出することができるが、タスクを直接学習する可能性のある新しいパラメータを追加するコストがかかる。 そこで我々は,言語的タスクを実行する既存のサブネットワークを探索する,減算的プルーニングに基づくプローブを提案する。 mlpと比較すると、サブネットワークプローブは事前学習されたモデルにおいて高い精度とランダムモデルでのより低い精度の両方を達成しているため、興味のある特性を見つけるのに優れ、学習自体が悪くなっている。 次に、各プローブの複雑さを変化させることで、パレートドープしたサブネットワークが、プローブの複雑さの予算を考慮すれば高い精度で MLP を探索することを示す。 最後に,各タスクにまたがるサブネットワークを分析し,各タスクのエンコード場所を特定し,下位レベルタスクを低レベルレイヤにキャプチャし,過去の作業で同様の結果を再現する。

The dominant approach in probing neural networks for linguistic properties is to train a new shallow multi-layer perceptron (MLP) on top of the model's internal representations. This approach can detect properties encoded in the model, but at the cost of adding new parameters that may learn the task directly. We instead propose a subtractive pruning-based probe, where we find an existing subnetwork that performs the linguistic task of interest. Compared to an MLP, the subnetwork probe achieves both higher accuracy on pre-trained models and lower accuracy on random models, so it is both better at finding properties of interest and worse at learning on its own. Next, by varying the complexity of each probe, we show that subnetwork probing Pareto-dominates MLP probing in that it achieves higher accuracy given any budget of probe complexity. Finally, we analyze the resulting subnetworks across various tasks to locate where each task is encoded, and we find that lower-level tasks are captured in lower layers, reproducing similar findings in past work.
翻訳日:2021-04-09 13:12:06 公開日:2021-04-08
# 日本語形態素解析と語彙正規化のためのユーザ生成テキストコーパス

User-Generated Text Corpus for Evaluating Japanese Morphological Analysis and Lexical Normalization ( http://arxiv.org/abs/2104.03523v1 )

ライセンス: Link先を確認
Shohei Higashiyama, Masao Utiyama, Taro Watanabe, Eiichiro Sumita(参考訳) 形態素解析(MA)と語彙正規化(LN)はどちらも,日本語ユーザ生成テキスト(UGT)にとって重要な課題である。 各種MA/LNシステムの評価と比較を行うため,日本語UGTコーパスを構築した。 コーパスは, 形態情報および正規化情報を付加した929文と, 頻繁なUGT現象を分類したカテゴリ情報から構成される。 コーパスの実験では、非一般語および非標準形に対する既存のMA/LN手法の低性能を実証し、このコーパスがUGTのさらなる研究のための挑戦的なベンチマークとなることを示した。

Morphological analysis (MA) and lexical normalization (LN) are both important tasks for Japanese user-generated text (UGT). To evaluate and compare different MA/LN systems, we have constructed a publicly available Japanese UGT corpus. Our corpus comprises 929 sentences annotated with morphological and normalization information, along with category information we classified for frequent UGT-specific phenomena. Experiments on the corpus demonstrated the low performance of existing MA/LN methods for non-general words and non-standard forms, indicating that the corpus would be a challenging benchmark for further research on UGT.
翻訳日:2021-04-09 13:11:48 公開日:2021-04-08
# BSTC: 大規模中国語-英語音声翻訳データセット

BSTC: A Large-Scale Chinese-English Speech Translation Dataset ( http://arxiv.org/abs/2104.03575v1 )

ライセンス: Link先を確認
Ruiqing Zhang, Xiyang Wang, Chuanqiang Zhang, Zhongjun HeHua Wu, Zhi Li, Haifeng Wang, Ying Chen, Qinfei Li(参考訳) 本稿では,中国語と英語の大規模翻訳データセットであるBSTC(Baidu Speech Translation Corpus)を提案する。 このデータセットは、約68時間のマンダリンデータ、手作業による書き起こしと英語への翻訳、自動音声認識(asr)モデルによる自動書き起こしを含む、講演や講義のライセンスビデオのコレクションに基づいて構築されている。 さらに,3人の経験豊富なインタプリタに対して,モックカンファレンスの設定でテスト講演を同時に解釈するように依頼しました。 このコーパスは,自動同時翻訳の研究と実用システムの開発を促進することが期待されている。 同時翻訳タスクを整理し,このコーパスを用いて同時翻訳システムの評価を行った。

This paper presents BSTC (Baidu Speech Translation Corpus), a large-scale Chinese-English speech translation dataset. This dataset is constructed based on a collection of licensed videos of talks or lectures, including about 68 hours of Mandarin data, their manual transcripts and translations into English, as well as automated transcripts by an automatic speech recognition (ASR) model. We have further asked three experienced interpreters to simultaneously interpret the testing talks in a mock conference setting. This corpus is expected to promote the research of automatic simultaneous translation as well as the development of practical systems. We have organized simultaneous translation tasks and used this corpus to evaluate automatic simultaneous translation systems.
翻訳日:2021-04-09 13:11:35 公開日:2021-04-08
# 誰が先に行くの? 分類向上のための自己監督型概念ソーティングモデル

Who Should Go First? A Self-Supervised Concept Sorting Model for Improving Taxonomy Expansion ( http://arxiv.org/abs/2104.03682v1 )

ライセンス: Link先を確認
Xiangchen Song, Jiaming Shen, Jieyu Zhang, and Jiawei Han(参考訳) 分類法は様々な機械学習やテキストマイニングシステムで広く使われ、知識を整理し、下流の作業を容易にする。 重要な課題の1つは、データとビジネスのスコープが実際のアプリケーションで大きくなるにつれて、既存の分類体系を拡大して新しい概念を組み込む必要があることである。 分類の展開過程に関する以前の研究は、新しい概念を独立かつ同時に独立に展開し、それらの間の潜在的な関係と挿入操作の適切な順序を無視した。 しかし、実際には、新しい概念は相互に相関し、局所的なハイパーニム・ハイポニム構造を形成する傾向がある。 このようなシナリオでは、新しい概念の依存関係を無視し、挿入順序がエラー伝搬を引き起こす可能性がある。 例えば、既存の分類学拡張システムは、そのハイパーネムの前に既存の分類学に仮説を挿入する可能性がある。 既存の分類体系を補完するために,新しい概念の中で局所ハイパーニム・ハイプニム構造を同時に発見し,挿入順序を決定する新しい自己教師付きフレームワークであるtaxoorderを提案する。 分類体系は任意の分類体系に直接接続でき、拡張された分類体系の品質を向上させることができる。 実世界のデータセットを用いた実験は、分類学拡張システムを強化するためのTaxoOrderの有効性を検証し、様々な評価基準の下でのベースラインと比較して、より良い分類基準をもたらす。

Taxonomies have been widely used in various machine learning and text mining systems to organize knowledge and facilitate downstream tasks. One critical challenge is that, as data and business scope grow in real applications, existing taxonomies need to be expanded to incorporate new concepts. Previous works on taxonomy expansion process the new concepts independently and simultaneously, ignoring the potential relationships among them and the appropriate order of inserting operations. However, in reality, the new concepts tend to be mutually correlated and form local hypernym-hyponym structures. In such a scenario, ignoring the dependencies of new concepts and the order of insertion may trigger error propagation. For example, existing taxonomy expansion systems may insert hyponyms to existing taxonomies before their hypernym, leading to sub-optimal expanded taxonomies. To complement existing taxonomy expansion systems, we propose TaxoOrder, a novel self-supervised framework that simultaneously discovers the local hypernym-hyponym structure among new concepts and decides the order of insertion. TaxoOrder can be directly plugged into any taxonomy expansion system and improve the quality of expanded taxonomies. Experiments on the real-world dataset validate the effectiveness of TaxoOrder to enhance taxonomy expansion systems, leading to better-resulting taxonomies with comparison to baselines under various evaluation metrics.
翻訳日:2021-04-09 13:11:24 公開日:2021-04-08
# スマートで計算可能な契約のための言語

Languages for Smart and Computable Contracts ( http://arxiv.org/abs/2104.03764v1 )

ライセンス: Link先を確認
Christopher D. Clack(参考訳) スマートコントラクトは、コンピュータ技術を使用して、商用契約のパフォーマンスを自動化する。 しかし、どのようにしてコンピュータコードは当事者の意図に忠実である、という確信が持てるのだろうか? この質問の深さと微妙さを理解するには、自然言語とコンピュータ言語の探索、それらの言語における表現の意味論、および法学と計算機科学の間のギャップが必要である。 ここでは、重要な問題のいくつかを考察し、現在の研究方向を探り、計算可能契約の具体的な方法論を含む信頼性の高いスマートコントラクトの開発における言語設計の重要性を説明します。

Smart Contracts use computer technology to automate the performance of aspects of commercial agreements. Yet how can there be confidence that the computer code is faithful to the intentions of the parties? To understand the depth and subtlety of this question requires an exploration of natural and computer languages, of the semantics of expressions in those languages, and of the gap that exists between the disciplines of law and computer science. Here we provide a perspective on some of the key issues, explore some current research directions, and explain the importance of language design in the development of reliable Smart Contracts, including the specific methodology of Computable Contracts.
翻訳日:2021-04-09 13:11:02 公開日:2021-04-08
# ベトナムで「実体認識」 新型コロナ

COVID-19 Named Entity Recognition for Vietnamese ( http://arxiv.org/abs/2104.03879v1 )

ライセンス: Link先を確認
Thinh Hung Truong, Mai Hoang Dao, Dat Quoc Nguyen(参考訳) 現在の新型コロナウイルス(COVID-19)パンデミックは、パンデミックに対抗するためにNLP研究や下流のアプリケーションを促進する多くのコーパスを生み出している。 しかし、これらのコーパスのほとんどは英語専用である。 パンデミックは世界的な問題なので、英語以外の言語でcovid-19関連のデータセットを作成する価値がある。 本稿では,ベトナムにおける最初の手動注釈付きドメイン固有データセットを提案する。 特に、我々のデータセットは名前付きエンティティ認識(NER)タスクにアノテートされ、新たに定義されたエンティティタイプは、他の将来の流行で使用できます。 我々のデータセットには、既存のベトナムのNERデータセットと比較して最も多くのエンティティが含まれています。 ベトナム語の単語セグメンテーションはnerの結果を改善するのに役立ち、ベトナム語用単言語モデルphobert (nguyen and nguyen, 2020) が多言語モデルxlm-r (conneau et al., 2020) よりも高い結果を生み出す、事前学習された言語モデルによって最高のパフォーマンスを得ることができます。 私たちはデータセットをhttps://github.com/V inAIResearch/PhoNER_ COVID19で公開しています。

The current COVID-19 pandemic has lead to the creation of many corpora that facilitate NLP research and downstream applications to help fight the pandemic. However, most of these corpora are exclusively for English. As the pandemic is a global problem, it is worth creating COVID-19 related datasets for languages other than English. In this paper, we present the first manually-annotated COVID-19 domain-specific dataset for Vietnamese. Particularly, our dataset is annotated for the named entity recognition (NER) task with newly-defined entity types that can be used in other future epidemics. Our dataset also contains the largest number of entities compared to existing Vietnamese NER datasets. We empirically conduct experiments using strong baselines on our dataset, and find that: automatic Vietnamese word segmentation helps improve the NER results and the highest performances are obtained by fine-tuning pre-trained language models where the monolingual model PhoBERT for Vietnamese (Nguyen and Nguyen, 2020) produces higher results than the multilingual model XLM-R (Conneau et al., 2020). We publicly release our dataset at: https://github.com/V inAIResearch/PhoNER_ COVID19
翻訳日:2021-04-09 13:10:51 公開日:2021-04-08
# 混合反復修正について

On Mixed Iterated Revisions ( http://arxiv.org/abs/2104.03571v1 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 数種類の反復的信念の変化があり、変化の種類や強さが異なる: ある作用素は公式を導入し、ある作用素はそれらを削除し、ある作用素は無条件に公式を付加する。 例えば、第1のステップは修正、第2のステップは縮小、第3のステップは以前の信念の洗練である。 本項で検討した10人のオペレーターは,辞書修正,改良,重度の離脱の3つにすべて還元可能であることが示されている。 逆に、これらの3つは、配列を再構成するコストで、レキソグラフィーのリビジョンで表現することができる。 この再構成は明示的に行う必要はなく、元のシーケンスで動作するアルゴリズムが示される。 信念変化演算子の混合シーケンスの複雑さも分析される。 その多くは、満足度チェッカーへの多項式数だけを必要とするが、もっと簡単なものもある。

Several forms of iterable belief change exist, differing in the kind of change and its strength: some operators introduce formulae, others remove them; some add formulae unconditionally, others only as additions to the previous beliefs; some only relative to the current situation, others in all possible cases. A sequence of changes may involve several of them: for example, the first step is a revision, the second a contraction and the third a refinement of the previous beliefs. The ten operators considered in this article are shown to be all reducible to three: lexicographic revision, refinement and severe withdrawal. In turn, these three can be expressed in terms of lexicographic revision at the cost of restructuring the sequence. This restructuring needs not to be done explicitly: an algorithm that works on the original sequence is shown. The complexity of mixed sequences of belief change operators is also analyzed. Most of them require only a polynomial number of calls to a satisfiability checker, some are even easier.
翻訳日:2021-04-09 13:10:29 公開日:2021-04-08
# 映像インペインティングのための進行時間特徴アライメントネットワーク

Progressive Temporal Feature Alignment Network for Video Inpainting ( http://arxiv.org/abs/2104.03507v1 )

ライセンス: Link先を確認
Xueyan Zou, Linjie Yang, Ding Liu, Yong Jae Lee(参考訳) ビデオインパインティングは、時空間の「崩壊した」領域を可算な内容で埋めることを目的としている。 この目的を達成するためには、近隣のフレームからの対応を見つけ、未知のコンテンツを忠実に表現する必要がある。 現在の方法は、注意、フローベースのワープ、あるいは3次元時間的畳み込みによってこの目標を達成する。 しかし、流れに基づくワーピングは、光流が正確でない場合にアーティファクトを生成できるが、時間的畳み込みは空間的不均衡に苦しむことがある。 そこで本研究では,現在フレームから抽出した特徴を光流を用いて隣接フレームから逸脱させた特徴量で徐々に強化する「進行時間特徴アライメントネットワーク」を提案する。 提案手法は時間的特徴伝播段階における空間的ずれを補正し,映像の視覚的品質と時間的一貫性を大幅に改善する。 提案アーキテクチャを用いて,既存のディープラーニング手法と比較して,DAVISおよびFVIデータセットの最先端性能を実現する。 コードはhttps://github.com/M aureenZOU/TSAMで入手できる。

Video inpainting aims to fill spatio-temporal "corrupted" regions with plausible content. To achieve this goal, it is necessary to find correspondences from neighbouring frames to faithfully hallucinate the unknown content. Current methods achieve this goal through attention, flow-based warping, or 3D temporal convolution. However, flow-based warping can create artifacts when optical flow is not accurate, while temporal convolution may suffer from spatial misalignment. We propose 'Progressive Temporal Feature Alignment Network', which progressively enriches features extracted from the current frame with the feature warped from neighbouring frames using optical flow. Our approach corrects the spatial misalignment in the temporal feature propagation stage, greatly improving visual quality and temporal consistency of the inpainted videos. Using the proposed architecture, we achieve state-of-the-art performance on the DAVIS and FVI datasets compared to existing deep learning approaches. Code is available at https://github.com/M aureenZOU/TSAM.
翻訳日:2021-04-09 13:08:38 公開日:2021-04-08
# siam-reid:再識別機能を備えたsiamese tracker

Siam-ReID: Confuser Aware Siamese Tracker with Re-identification Feature ( http://arxiv.org/abs/2104.03510v1 )

ライセンス: Link先を確認
Abu Md Niamul Taufique, Andreas Savakis, Michael Braun, Daniel Kubacki, Ethan Dell, Lei Qian, Sean M. O'Rourke(参考訳) シームズディープネットワークトラッカーは、リアルタイムの速度と最先端の性能のために近年大きな注目を集めている。 しかし、シームズ・トラッカーは、空中画像でよく見られる類似したコンフューザーに悩まされ、トラッカー・オブジェクトが異なるポーズと照明の下で再出現する長い閉塞により、困難な状況に陥る。 本研究は,シアーム追跡者のための新しい再同定フレームワーク siamreid を提案する。 再識別機能は三重項損失とクラスバランス損失の両方を用いて訓練される。 提案手法は,UAVDT単体追跡ベンチマークにおける最先端性能を実現する。

Siamese deep-network trackers have received significant attention in recent years due to their real-time speed and state-of-the-art performance. However, Siamese trackers suffer from similar looking confusers, that are prevalent in aerial imagery and create challenging conditions due to prolonged occlusions where the tracker object re-appears under different pose and illumination. Our work proposes SiamReID, a novel re-identification framework for Siamese trackers, that incorporates confuser rejection during prolonged occlusions and is well-suited for aerial tracking. The re-identification feature is trained using both triplet loss and a class balanced loss. Our approach achieves state-of-the-art performance in the UAVDT single object tracking benchmark.
翻訳日:2021-04-09 13:08:21 公開日:2021-04-08
# TokenPose: 人間の視点推定のためのキーポイントトークンの学習

TokenPose: Learning Keypoint Tokens for Human Pose Estimation ( http://arxiv.org/abs/2104.03516v1 )

ライセンス: Link先を確認
Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang, Shu-Tao Xia, Erjin Zhou(参考訳) 人間のポーズ推定は、キーポイントを見つけるために部品間の視覚的手がかりと解剖学的制約に深く依存する。 しかし、既存のcnnベースのメソッドの多くは視覚的表現に優れており、キーポイント間の制約関係を明示的に学習する能力が欠けている。 本稿では,人間のポーズ推定のためのトークン表現(tokenpose)に基づく新しい手法を提案する。 詳しくは、各キーポイントは、画像から制約関係と外観手がかりを同時に学習するトークンとして明示的に埋め込まれている。 広範な実験により、小規模および大規模のトークンポスモデルは、より軽量である一方で、最先端のcnnベースのモデルと同等であることが示された。 具体的には、TokenPose-S と TokenPose-L はそれぞれ 72.5 AP と 75.8 AP を COCO 検証データセット上で達成し、パラメータ (\textcolor{red}{ $\downarrow 80.6\%$} 、 \textcolor{red}{$\downarrow$ 5,6.8\%$} ) と GFLOPs (\textcolor{red}{$\downarrow$ 75.3\%$} 、 \textcolor{red}{$\downarrow$ $24.7\%$} が大幅に削減された。

Human pose estimation deeply relies on visual clues and anatomical constraints between parts to locate keypoints. Most existing CNN-based methods do well in visual representation, however, lacking in the ability to explicitly learn the constraint relationships between keypoints. In this paper, we propose a novel approach based on Token representation for human Pose estimation~(TokenPos e). In detail, each keypoint is explicitly embedded as a token to simultaneously learn constraint relationships and appearance cues from images. Extensive experiments show that the small and large TokenPose models are on par with state-of-the-art CNN-based counterparts while being more lightweight. Specifically, our TokenPose-S and TokenPose-L achieve 72.5 AP and 75.8 AP on COCO validation dataset respectively, with significant reduction in parameters (\textcolor{red}{ $\downarrow80.6\%$} ; \textcolor{red}{$\downarrow$ $56.8\%$}) and GFLOPs (\textcolor{red}{$\downarrow$$ 75.3\%$}; \textcolor{red}{$\downarrow$ $24.7\%$}).
翻訳日:2021-04-09 13:08:09 公開日:2021-04-08
# 相関学習による複数物体追跡

Multiple Object Tracking with Correlation Learning ( http://arxiv.org/abs/2104.03541v1 )

ライセンス: Link先を確認
Qiang Wang, Yun Zheng, Pan Pan, Yinghui Xu(参考訳) 近年の研究では、畳み込みネットワークは、検出と外観の特徴を同時に学習することにより、複数の物体追跡の性能を大幅に改善した。 しかし、畳み込みネットワーク構造自体の局所的な認識のため、空間的および時間的両方の長距離依存を効率的に得ることはできない。 空間配置を組み込むために, 局所相関モジュールを用いて対象と周囲の環境のトポロジカルな関係をモデル化し, 混み合った場面におけるモデルの識別力を高めることを提案する。 具体的には,各空間の位置とその文脈の密接な対応を確立し,自己教師付き学習を通じて相関量を明確に制約する。 時間的文脈を活用するために、既存のアプローチでは2つ以上の隣接フレームを使用して拡張された特徴表現を構築するが、動的モーションシーンは本質的にCNNを通しての描写が困難である。 そこで本論文では,異なる層における畳み込み特徴マップ上でフレーム対フレームマッチングを確立するための学習可能な相関演算子を提案する。 提案手法は,MOTデータセットの大規模な実験結果により,相関学習と優れた性能の相関学習の有効性を示し,MOT17では76.5%,IDF1では73.6%の最先端MOTAが得られる。

Recent works have shown that convolutional networks have substantially improved the performance of multiple object tracking by simultaneously learning detection and appearance features. However, due to the local perception of the convolutional network structure itself, the long-range dependencies in both the spatial and temporal cannot be obtained efficiently. To incorporate the spatial layout, we propose to exploit the local correlation module to model the topological relationship between targets and their surrounding environment, which can enhance the discriminative power of our model in crowded scenes. Specifically, we establish dense correspondences of each spatial location and its context, and explicitly constrain the correlation volumes through self-supervised learning. To exploit the temporal context, existing approaches generally utilize two or more adjacent frames to construct an enhanced feature representation, but the dynamic motion scene is inherently difficult to depict via CNNs. Instead, our paper proposes a learnable correlation operator to establish frame-to-frame matches over convolutional feature maps in the different layers to align and propagate temporal context. With extensive experimental results on the MOT datasets, our approach demonstrates the effectiveness of correlation learning with the superior performance and obtains state-of-the-art MOTA of 76.5% and IDF1 of 73.6% on MOT17.
翻訳日:2021-04-09 13:07:37 公開日:2021-04-08
# 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit

1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit ( http://arxiv.org/abs/2104.03544v1 )

ライセンス: Link先を確認
Qiyao Wang, Pengfei Li, Li Zhu, Yi Niu(参考訳) 本稿では,icdar 2021におけるロバスト・リーディング・チャレンジ - 集積回路テキストスポッティングと審美評価 (icdar rrc-ictext 2021) のための提案手法を提案する。 テキストスポッティングタスクでは、集積回路上の文字を検出し、ヨロフ5検出モデルに基づいて分類する。 シンセテキスト,生成データ,データサンプルを用いて,小文字と非小文字のバランスをとる。 半教師付きアルゴリズムと蒸留を用いてモデルの精度をさらに向上する。 審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。 最後に,NVIDIA Tensorrtに基づく推論速度の高速化とメモリ消費の削減を目的としたモデル展開を行う。 タスク3.1では31fps,306mメモリ(rank1),タスク3.2では78.7\%f2スコア,30fpsでは306mメモリ(rank1)で59.1マップを実現する。

This paper presents our proposed methods to ICDAR 2021 Robust Reading Challenge - Integrated Circuit Text Spotting and Aesthetic Assessment (ICDAR RRC-ICTEXT 2021). For the text spotting task, we detect the characters on integrated circuit and classify them based on yolov5 detection model. We balance the lowercase and non-lowercase by using SynthText, generated data and data sampler. We adopt semi-supervised algorithm and distillation to furtherly improve the model's accuracy. For the aesthetic assessment task, we add a classification branch of 3 classes to differentiate the aesthetic classes of each character. Finally, we make model deployment to accelerate inference speed and reduce memory consumption based on NVIDIA Tensorrt. Our methods achieve 59.1 mAP on task 3.1 with 31 FPS and 306M memory (rank 1), 78.7\% F2 score on task 3.2 with 30 FPS and 306M memory (rank 1).
翻訳日:2021-04-09 13:07:15 公開日:2021-04-08
# ASFlow:適応ピラミッドサンプリングによる教師なし光フロー学習

ASFlow: Unsupervised Optical Flow Learning with Adaptive Pyramid Sampling ( http://arxiv.org/abs/2104.03560v1 )

ライセンス: Link先を確認
Kunming Luo, Ao Luo, Chuan Wang, Haoqiang Fan, Shuaicheng Liu(参考訳) 深層ピラミッドネットワークにおける適応型ピラミッドサンプリングを提案することにより,教師なし光フロー推定手法を提案する。 具体的には、ピラミッドダウンサンプリングにおいて、クロスリージョンプールを回避し、局所的な特徴収集を促進するContent Aware Pooling (CAP)モジュールを提案する。 ピラミッドアップサンプリングでは, クロスエッジ補間を回避し, 鋭い動き境界を生み出す適応フローアップサンプリング (AFU) モジュールを提案する。 MPI-SIntel, KITTI 2012, KITTI 2015 など,複数の主要なベンチマークにおいて, 教師なし光フロー推定の最適性能を実現する。 KITTI 2012 では EPE=1.5 と F1=9.67% KITTI 2015 がそれぞれ 16.7% と 13.1% を上回りました。

We present an unsupervised optical flow estimation method by proposing an adaptive pyramid sampling in the deep pyramid network. Specifically, in the pyramid downsampling, we propose an Content Aware Pooling (CAP) module, which promotes local feature gathering by avoiding cross region pooling, so that the learned features become more representative. In the pyramid upsampling, we propose an Adaptive Flow Upsampling (AFU) module, where cross edge interpolation can be avoided, producing sharp motion boundaries. Equipped with these two modules, our method achieves the best performance for unsupervised optical flow estimation on multiple leading benchmarks, including MPI-SIntel, KITTI 2012 and KITTI 2015. Particuarlly, we achieve EPE=1.5 on KITTI 2012 and F1=9.67% KITTI 2015, which outperform the previous state-of-the-art methods by 16.7% and 13.1%, respectively.
翻訳日:2021-04-09 13:06:55 公開日:2021-04-08
# PQA: 知覚的質問回答

PQA: Perceptual Question Answering ( http://arxiv.org/abs/2104.03589v1 )

ライセンス: Link先を確認
Yonggang Qi, Kai Zhang, Aneeshan Sain, Yi-Zhe Song(参考訳) 知覚的組織は、人間の視覚システムに関する数少ない確立された理論の1つである。 この研究は、セグメンテーションと検出に関する多くの深層的研究の基盤となったが、深層モデルの学習への優先的なシフト以降、研究は急速に減少している。 制限された試みのうち、ほとんどが知覚的な組織ルールを用いて複雑な視覚シーンを解釈することを目的としていた。 しかし、モデルが実世界の画像の視覚的複雑さを効果的に捉えられなかったため、これは最適でないことが証明されている。 本稿では,2つの位置変化を提唱することで,知覚的組織の研究を振り返る。 (i) 複雑な実画像の代わりに意図的に生成された合成データを調べ, (ii) 既存のデータを説明するのではなく, 新たな知覚的価値パターンの合成を機械に依頼する。 私たちの全体的な答えは、新しい視覚的挑戦、知覚的質問応答(PQA)の挑戦の導入にあります。 PQAのゴールは、知覚的質問対を観察する際に、スクラッチから答えを全て生成することで、同様の問題を解くことである(図1参照)。 したがって、我々の最初の貢献は知覚的質問応答ペアの最初のデータセットであり、それぞれが特定のゲシュタルト原理のために特別に生成される。 次に,人間心理学からの洞察を借りて,知覚的組織を自己発見問題として位置づけるエージェントを設計し,提案するグリッド・ツー・グリッドマッピングネットワークがスクラッチから解答パターンを直接生成する。 実験により, エージェントはナイーブと強固なベースラインの選択に勝ることを示した。 しかし、人間による研究では、平均的な人間と比べて天文学的により多くのデータを使って学習していることを示している。

Perceptual organization remains one of the very few established theories on the human visual system. It underpinned many pre-deep seminal works on segmentation and detection, yet research has seen a rapid decline since the preferential shift to learning deep models. Of the limited attempts, most aimed at interpreting complex visual scenes using perceptual organizational rules. This has however been proven to be sub-optimal, since models were unable to effectively capture the visual complexity in real-world imagery. In this paper, we rejuvenate the study of perceptual organization, by advocating two positional changes: (i) we examine purposefully generated synthetic data, instead of complex real imagery, and (ii) we ask machines to synthesize novel perceptually-valid patterns, instead of explaining existing data. Our overall answer lies with the introduction of a novel visual challenge -- the challenge of perceptual question answering (PQA). Upon observing example perceptual question-answer pairs, the goal for PQA is to solve similar questions by generating answers entirely from scratch (see Figure 1). Our first contribution is therefore the first dataset of perceptual question-answer pairs, each generated specifically for a particular Gestalt principle. We then borrow insights from human psychology to design an agent that casts perceptual organization as a self-attention problem, where a proposed grid-to-grid mapping network directly generates answer patterns from scratch. Experiments show our agent to outperform a selection of naive and strong baselines. A human study however indicates that ours uses astronomically more data to learn when compared to an average human, necessitating future research (with or without our dataset).
翻訳日:2021-04-09 13:06:37 公開日:2021-04-08
# VQAの共振パターンはどのように転送可能か?

How Transferable are Reasoning Patterns in VQA? ( http://arxiv.org/abs/2104.03656v1 )

ライセンス: Link先を確認
Corentin Kervadec, Theo Jaunet, Grigory Antipov, Moez Baccouche, Romain Vuillemot and Christian Wolf(参考訳) 当初から、VQA(Visual Question Answering)はタスクとして知られており、モデルがデータセットのバイアスを利用してハイレベルな推論を行う代わりにショートカットを見つける傾向にある。 古典的な手法では、トレーニングデータからバイアスを取り除くか、バイアスを検出して取り除くためにモデルに分岐を追加することでこれに対処する。 本稿では,視覚における不確実性は,視覚と言語の問題における推論の学習が成功するのを妨げる要因であると主張する。 視覚託宣を訓練し、大規模な研究では、標準モデルに比べてデータセットバイアスの急激な利用がはるかに少ないという実験的な証拠を提供する。 我々は,ビジュアル・オラクルで作業中の注意機構を調査し,それをsomaトランスフォーマモデルと比較する。 オンラインビジュアライゼーションツールで得られた推論パターンの詳細な分析と可視化を提供する(https://reasoningpa tterns.github.io)。 我々はこれらの知見を,オーラルからSOTAトランスフォーマーベースのVQAモデルへの推論パターンの転送により活用する。 実験では,各質問タイプ毎の頻繁な回答の精度が向上し,一般化が向上し,データセットバイアスへの依存度が低下する証拠が得られた。

Since its inception, Visual Question Answering (VQA) is notoriously known as a task, where models are prone to exploit biases in datasets to find shortcuts instead of performing high-level reasoning. Classical methods address this by removing biases from training data, or adding branches to models to detect and remove biases. In this paper, we argue that uncertainty in vision is a dominating factor preventing the successful learning of reasoning in vision and language problems. We train a visual oracle and in a large scale study provide experimental evidence that it is much less prone to exploiting spurious dataset biases compared to standard models. We propose to study the attention mechanisms at work in the visual oracle and compare them with a SOTA Transformer-based model. We provide an in-depth analysis and visualizations of reasoning patterns obtained with an online visualization tool which we make publicly available (https://reasoningpa tterns.github.io). We exploit these insights by transferring reasoning patterns from the oracle to a SOTA Transformer-based VQA model taking standard noisy visual inputs via fine-tuning. In experiments we report higher overall accuracy, as well as accuracy on infrequent answers for each question type, which provides evidence for improved generalization and a decrease of the dependency on dataset biases.
翻訳日:2021-04-09 13:06:08 公開日:2021-04-08
# DSC-PoseNet:Dual-sca le Consistencyによる6DoFオブジェクトポス推定学習

DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale Consistency ( http://arxiv.org/abs/2104.03658v1 )

ライセンス: Link先を確認
Zongxin Yang, Xin Yu, Yi Yang(参考訳) 2Dオブジェクトバウンディングボックスラベリングと比較して、特にシーンの奥行き画像が利用できない場合、人間が3Dオブジェクトのポーズをアノテートすることは極めて困難である。 本稿では,RGB画像と2次元オブジェクトアノテーションのみを付与した場合に,オブジェクトのポーズを効果的に推定できるかどうかを検討する。 そこで本稿では,2dオブジェクトバウンディングボックスから6dofオブジェクトのポーズを得るための2段階ポーズ推定フレームワークを提案する。 最初のステップでは、フレームワークは、オブジェクトを実データや合成データから弱い教師付きで分割することを学び、セグメンテーションマスクはポーズ推定の先行として機能する。 第2のステップでは,dsc-posenetと呼ばれる2次元ポーズ推定ネットワークを設計し,差分レンダラを用いて物体のポーズを予測する。 具体的に言うと、DSC-PoseNetはまず、セグメンテーションマスクと可視化されたオブジェクトマスクを比較して、元の画像スケールでオブジェクトのポーズを予測する。 そして、再びポーズを見積もるために、オブジェクト領域を一定のスケールにリサイズします。 この方法では, 大規模変動を排除し, 回転推定に焦点を合わせ, ポーズ推定を容易にする。 さらに,初期ポーズ推定を用いて疑似接地真実を生成し,自己教師あり方式でdsc-posenetを訓練する。 これら2つの尺度における推定結果は、最終ポーズ推定としてまとめられる。 広範に使用されているベンチマーク実験により, 提案手法は, 合成データ上で訓練された最先端モデルよりも高い性能を示し, 完全教師付き手法と同等であることがわかった。

Compared to 2D object bounding-box labeling, it is very difficult for humans to annotate 3D object poses, especially when depth images of scenes are unavailable. This paper investigates whether we can estimate the object poses effectively when only RGB images and 2D object annotations are given. To this end, we present a two-step pose estimation framework to attain 6DoF object poses from 2D object bounding-boxes. In the first step, the framework learns to segment objects from real and synthetic data in a weakly-supervised fashion, and the segmentation masks will act as a prior for pose estimation. In the second step, we design a dual-scale pose estimation network, namely DSC-PoseNet, to predict object poses by employing a differential renderer. To be specific, our DSC-PoseNet firstly predicts object poses in the original image scale by comparing the segmentation masks and the rendered visible object masks. Then, we resize object regions to a fixed scale to estimate poses once again. In this fashion, we eliminate large scale variations and focus on rotation estimation, thus facilitating pose estimation. Moreover, we exploit the initial pose estimation to generate pseudo ground-truth to train our DSC-PoseNet in a self-supervised manner. The estimation results in these two scales are ensembled as our final pose estimation. Extensive experiments on widely-used benchmarks demonstrate that our method outperforms state-of-the-art models trained on synthetic data by a large margin and even is on par with several fully-supervised methods.
翻訳日:2021-04-09 13:05:47 公開日:2021-04-08
# Piecewise Linear Unit を用いた特殊アクティベーション関数の学習

Learning specialized activation functions with the Piecewise Linear Unit ( http://arxiv.org/abs/2104.03693v1 )

ライセンス: Link先を確認
Yucong Zhou, Zezhou Zhu, Zhao Zhong(参考訳) アクティベーション関数の選択は、現代のディープニューラルネットワークにとって不可欠である。 Rectified Linear Unit(ReLU)などの手作業で設計されたアクティベーション関数は、様々なタスクやモデルで有望なパフォーマンスを示す。 自動検出アクティベーション関数であるswishが提案され、多くの挑戦的なデータセットでreluを上回っている。 しかし、主な欠点は2つある。 第一に、木に基づく探索空間は高度に離散的で制限され、探索は困難である。 第二に、サンプルベースの探索法は非効率であり、データセットやニューラルアーキテクチャごとに特別なアクティベーション関数を見つけることは不可能である。 これらの欠点に対処するために、慎重に設計された定式化と学習手法を組み込んだPiecewise Linear Unit(PWLU)と呼ばれる新しいアクティベーション関数を提案する。 特別なアクティベーション関数を学習し、ImageNetやCOCOといった大規模データセット上でSOTAパフォーマンスを達成することができる。 例えば、ImageNet分類データセットでは、PWLUはResNet-18/ResNet-50/ MobileNet-V2/MobileN et-V3/EfficientNet-B 0のSwishよりも0.9%/0.53%/1.0%/1.7% /1.0%トップ-1精度を改善している。 PWLUは推論時に実装も簡単で効率も良く、現実世界のアプリケーションにも広く適用できる。

The choice of activation functions is crucial for modern deep neural networks. Popular hand-designed activation functions like Rectified Linear Unit(ReLU) and its variants show promising performance in various tasks and models. Swish, the automatically discovered activation function, has been proposed and outperforms ReLU on many challenging datasets. However, it has two main drawbacks. First, the tree-based search space is highly discrete and restricted, which is difficult for searching. Second, the sample-based searching method is inefficient, making it infeasible to find specialized activation functions for each dataset or neural architecture. To tackle these drawbacks, we propose a new activation function called Piecewise Linear Unit(PWLU), which incorporates a carefully designed formulation and learning method. It can learn specialized activation functions and achieves SOTA performance on large-scale datasets like ImageNet and COCO. For example, on ImageNet classification dataset, PWLU improves 0.9%/0.53%/1.0%/1.7% /1.0% top-1 accuracy over Swish for ResNet-18/ResNet-50/ MobileNet-V2/MobileN et-V3/EfficientNet-B 0. PWLU is also easy to implement and efficient at inference, which can be widely applied in real-world applications.
翻訳日:2021-04-09 13:05:17 公開日:2021-04-08
# ハイパースペクトル画像分類のためのロバスト自己組立ネットワーク

Robust Self-Ensembling Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2104.03765v1 )

ライセンス: Link先を確認
Yonghao Xu, Bo Du, and Liangpei Zhang(参考訳) 近年の研究では、ハイパースペクトル画像(HSI)分類タスクにおけるディープラーニングアルゴリズムの大きな可能性を示している。 しかしながら、これらのモデルのトレーニングは通常、大量のラベル付きデータを必要とする。 HSI用のピクセルレベルのアノテーションの収集は手間と時間を要するため、小さなサンプルサイズで優れた性能が得られるアルゴリズムを開発することは非常に重要である。 本研究では,この問題に対処する頑健な自己認識ネットワーク(RSEN)を提案する。 提案するrsenは,ベースネットワークとアンサンブルネットワークを含む2つのサブネットワークで構成されている。 ラベル付きデータからの教師付き損失とラベル付きデータからの教師なし損失の両方の制約により、ベースネットワークとアンサンブルネットワークは相互に学習し、自己センシング機構を実現することができる。 提案手法は,hsi分類タスクに自己センシング技術を導入する最初の試みであり,ネットワークトレーニングを支援するためにhsiのラベルなしデータを利用する方法について異なる視点を提供する。 さらに,自己センシング学習のロバスト性を高めるための新しい一貫性フィルタを提案する。 3つのベンチマークHSIデータセットの大規模な実験により、提案アルゴリズムは最先端の手法と比較して競合性能が得られることを示した。

Recent research has shown the great potential of deep learning algorithms in the hyperspectral image (HSI) classification task. Nevertheless, training these models usually requires a large amount of labeled data. Since the collection of pixel-level annotations for HSI is laborious and time-consuming, developing algorithms that can yield good performance in the small sample size situation is of great significance. In this study, we propose a robust self-ensembling network (RSEN) to address this problem. The proposed RSEN consists of two subnetworks including a base network and an ensemble network. With the constraint of both the supervised loss from the labeled data and the unsupervised loss from the unlabeled data, the base network and the ensemble network can learn from each other, achieving the self-ensembling mechanism. To the best of our knowledge, the proposed method is the first attempt to introduce the self-ensembling technique into the HSI classification task, which provides a different view on how to utilize the unlabeled data in HSI to assist the network training. We further propose a novel consistency filter to increase the robustness of self-ensembling learning. Extensive experiments on three benchmark HSI datasets demonstrate that the proposed algorithm can yield competitive performance compared with the state-of-the-art methods.
翻訳日:2021-04-09 13:04:55 公開日:2021-04-08
# モノクロ3次元物体検出のための幾何学的距離分解

Geometry-based Distance Decomposition for Monocular 3D Object Detection ( http://arxiv.org/abs/2104.03775v1 )

ライセンス: Link先を確認
Xuepeng Shi, Qi Ye, Xiaozhi Chen, Chuangrong Chen, Zhixiang Chen, Tae-Kyun Kim(参考訳) モノクロ3D物体検出は自動運転にとって非常に重要であるが、依然として困難である。 主な課題は、明示的な深度情報がない場合の物体の距離を予測することである。 既存のほとんどの手法では距離を単一変数として回帰するのとは異なり、新しい幾何学に基づく距離分解法を提案する。 分解因子は、最も代表的かつ安定な変数、すなわち、オブジェクトの距離を分解する。 画像平面の物理的高さと投影された視覚高さ。 さらに, この分解は, 2つの高さ間の自己一貫性を保ち, 両者が不正確な場合のロバストな距離予測に繋がる。 この分解により、異なるシナリオにおける距離の不確実性の原因を追跡できる。 このような分解は距離予測を解釈可能、正確、堅牢にする。 提案手法は,RGB画像からの3次元境界ボックスをコンパクトなアーキテクチャで直接予測し,学習と推論をシンプルかつ効率的にする。 実験の結果,KITTIデータセット上での単眼3次元物体検出と鳥眼視タスクの最先端性能を実現し,異なるカメラ固有の画像に一般化できることが示唆された。

Monocular 3D object detection is of great significance for autonomous driving but remains challenging. The core challenge is to predict the distance of objects in the absence of explicit depth information. Unlike regressing the distance as a single variable in most existing methods, we propose a novel geometry-based distance decomposition to recover the distance by its factors. The decomposition factors the distance of objects into the most representative and stable variables, i.e. the physical height and the projected visual height in the image plane. Moreover, the decomposition maintains the self-consistency between the two heights, leading to the robust distance prediction when both predicted heights are inaccurate. The decomposition also enables us to trace the cause of the distance uncertainty for different scenarios. Such decomposition makes the distance prediction interpretable, accurate, and robust. Our method directly predicts 3D bounding boxes from RGB images with a compact architecture, making the training and inference simple and efficient. The experimental results show that our method achieves the state-of-the-art performance on the monocular 3D Object detection and Birds Eye View tasks on the KITTI dataset, and can generalize to images with different camera intrinsics.
翻訳日:2021-04-09 13:04:36 公開日:2021-04-08
# Affine-modeled video extract from a single motion blurred image

Affine-modeled video extraction from a single motion blurred image ( http://arxiv.org/abs/2104.03777v1 )

ライセンス: Link先を確認
Daoyu Li, Liheng Bian, and Jun Zhang(参考訳) モーションブルー画像は露光時間における複数のシャープフレームの時間平均である。 これらのシャープなビデオフレームを単一のぼやけた画像から復元することは、その強い不適切さだけでなく、回転や深度での運動といった現実における様々な複雑な動きによって、非自明である。 本稿では,アフィン運動モデルを用いた一般化された映像抽出法について述べる。 そのワークフローでは、動くオブジェクトはアルファチャネルで最初にセジメントされる。 これにより、異なる動きの異なる物体を分離して回収することができる。 次に、各ビデオクリップを参照フレームの一連のアフィン変換としてモデル化することにより、可変空間を縮小し、リングアーティファクトを減衰させるために、$l0$-normの総変分正規化を導入する。 微分可能なアフィン作用素はアフィンモデルの勾配-蛍光最適化を実現するために用いられ、これはアーティファクトをさらに削減するための新しい粗大な戦略に従う。 その結果、アフィンパラメータとシャープ参照画像の両方が検索される。 最終的にステップワイズアフィン変換に入力され、シャープなビデオフレームを復元する。 ステップワイズ検索はフレームオーダーの曖昧さをバイパスする性質を維持する。 公開データセットと実際のキャプチャデータの両方の実験は、報告されたテクニックの最先端のパフォーマンスを検証する。

A motion-blurred image is the temporal average of multiple sharp frames over the exposure time. Recovering these sharp video frames from a single blurred image is nontrivial, due to not only its strong ill-posedness, but also various types of complex motion in reality such as rotation and motion in depth. In this work, we report a generalized video extraction method using the affine motion modeling, enabling to tackle multiple types of complex motion and their mixing. In its workflow, the moving objects are first segemented in the alpha channel. This allows separate recovery of different objects with different motion. Then, we reduce the variable space by modeling each video clip as a series of affine transformations of a reference frame, and introduce the $l0$-norm total variation regularization to attenuate the ringing artifact. The differentiable affine operators are employed to realize gradient-descent optimization of the affine model, which follows a novel coarse-to-fine strategy to further reduce artifacts. As a result, both the affine parameters and sharp reference image are retrieved. They are finally input into stepwise affine transformation to recover the sharp video frames. The stepwise retrieval maintains the nature to bypass the frame order ambiguity. Experiments on both public datasets and real captured data validate the state-of-the-art performance of the reported technique.
翻訳日:2021-04-09 13:04:17 公開日:2021-04-08
# ロバスト微分可能SVD

Robust Differentiable SVD ( http://arxiv.org/abs/2104.03821v1 )

ライセンス: Link先を確認
Wei Wang, Zheng Dang, Yinlin Hu, Pascal Fua and Mathieu Salzmann(参考訳) 対称行列の固有分解は多くのコンピュータビジョンアルゴリズムの中心にある。 しかし、固有ベクトルの微分は数値的に不安定である傾向があり、SVDを用いて解析的に計算するか、パワーイテレーション(PI)法を用いて近似する。 この不安定性は互いに近い固有値の存在によって生じる。 これにより、固有分解をディープネットワークに組み込むことが難しくなり、特に大きな行列を扱う場合、しばしば収束が低下する。 これは、データを小さな任意のグループに分割することで緩和できるが、理論的根拠がなく、固有分解の全力を活用できない。 これまでの研究では,前方通過時のSVDと後方通過時の勾配を計算するためにPIを用いてこれを緩和した。 しかし、PIを用いて複数の固有ベクトルを計算するのに必要な反復デフレ手順は誤りを蓄積し、不正確な勾配をもたらす傾向にある。 ここでは, SVD勾配のテイラー展開が, 反復過程に頼らずにPIを用いて得られる勾配と理論的に等価であることを示し, より正確な勾配を得る。 この精度の向上による画像分類とスタイル転送の利点を実証する。

Eigendecomposition of symmetric matrices is at the heart of many computer vision algorithms. However, the derivatives of the eigenvectors tend to be numerically unstable, whether using the SVD to compute them analytically or using the Power Iteration (PI) method to approximate them. This instability arises in the presence of eigenvalues that are close to each other. This makes integrating eigendecomposition into deep networks difficult and often results in poor convergence, particularly when dealing with large matrices. While this can be mitigated by partitioning the data into small arbitrary groups, doing so has no theoretical basis and makes it impossible to exploit the full power of eigendecomposition. In previous work, we mitigated this using SVD during the forward pass and PI to compute the gradients during the backward pass. However, the iterative deflation procedure required to compute multiple eigenvectors using PI tends to accumulate errors and yield inaccurate gradients. Here, we show that the Taylor expansion of the SVD gradient is theoretically equivalent to the gradient obtained using PI without relying in practice on an iterative process and thus yields more accurate gradients. We demonstrate the benefits of this increased accuracy for image classification and style transfer.
翻訳日:2021-04-09 13:03:55 公開日:2021-04-08
# CoCoNets: 連続したコントラスト3Dシーン表現

CoCoNets: Continuous Contrastive 3D Scene Representations ( http://arxiv.org/abs/2104.03851v1 )

ライセンス: Link先を確認
Shamit Lal, Mihir Prabhudesai, Ishita Mediratta, Adam W. Harley, Katerina Fragkiadaki(参考訳) 本稿では,RGB と RGB-D の提示した画像と映像からのアモーダル3次元特徴表現の自己教師付き学習,オブジェクトやシーンのセマンティックコンテンツへの依存,および視覚的対応,オブジェクト追跡,オブジェクト検出といった下流タスクにおけるシーン表現の評価を行う。 このモデルは、3D特徴点の形でシーンの潜在3D表現を推論し、各連続世界3D点を対応する特徴ベクトルにマッピングする。 このモデルは、クエリビューから予測される3D特徴点クラウドとマッチングし、クエリビューで予測される3D特徴点クラウドをレンダリングすることで、コントラスト的なビュー予測のために訓練される。 特に、この表現は入力ビューから見えなくても、任意の3Dロケーションに対してクエリすることができる。 我々のモデルは、最近のエキサイティングな研究の3つの強力なアイデアをまとめている。ビュー予測のための神経的ボトルネックとしての3D特徴格子、3Dグリッドの解像度制限を扱う暗黙の関数、特徴表現の教師なしトレーニングのための対照的な学習である。 得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。 我々は,3次元グリッド空間分解能に制限された3次元特徴学習とビュー予測の既存手法よりも優れており,アモーダルな3次元表現を構築しようとしなかったり,非畳み込みボトルネックによる組み合わせシーンの変動に対処しなかったりしている。

This paper explores self-supervised learning of amodal 3D feature representations from RGB and RGB-D posed images and videos, agnostic to object and scene semantic content, and evaluates the resulting scene representations in the downstream tasks of visual correspondence, object tracking, and object detection. The model infers a latent3D representation of the scene in the form of 3D feature points, where each continuous world 3D point is mapped to its corresponding feature vector. The model is trained for contrastive view prediction by rendering 3D feature clouds in queried viewpoints and matching against the 3D feature point cloud predicted from the query view. Notably, the representation can be queried for any 3D location, even if it is not visible from the input view. Our model brings together three powerful ideas of recent exciting research work: 3D feature grids as a neural bottleneck for view prediction, implicit functions for handling resolution limitations of 3D grids, and contrastive learning for unsupervised training of feature representations. We show the resulting 3D visual feature representations effectively scale across objects and scenes, imagine information occluded or missing from the input viewpoints, track objects over time, align semantically related objects in 3D, and improve 3D object detection. We outperform many existing state-of-the-art methods for 3D feature learning and view prediction, which are either limited by 3D grid spatial resolution, do not attempt to build amodal 3D representations, or do not handle combinatorial scene variability due to their non-convolutional bottlenecks.
翻訳日:2021-04-09 13:03:38 公開日:2021-04-08
# SMD-Nets: ステレオ混合密度ネットワーク

SMD-Nets: Stereo Mixture Density Networks ( http://arxiv.org/abs/2104.03866v1 )

ライセンス: Link先を確認
Fabio Tosi, Yiyi Liao, Carolin Schmitt, Andreas Geiger(参考訳) ステレオマッチングの精度はここ数年でディープラーニングによって大幅に向上したが、シャープな境界と高解像度の出力の回復は依然として困難である。 本稿では,2dおよび3dアーキテクチャの幅広いクラスに対応可能な,単純かつ効果的な学習フレームワークであるステレオ混合密度ネットワーク(smd-nets)を提案する。 具体的には, バイモーダル混合密度を出力表現として活用し, 観測結果に内在する有理不確かさを明示的にモデル化しながら, 不連続近傍の鋭く正確な不一致推定を可能にすることを示す。 さらに,画像領域における不一致推定を連続問題として定式化し,任意の空間精度で不一致を問合せする。 我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。 実験では,物体境界付近での深度精度の向上と,標準GPU上の超高分解能不均一マップの予測を行った。 各種ステレオバックボーンの性能を向上することにより,本手法の柔軟性を実証する。

Despite stereo matching accuracy has greatly improved by deep learning in the last few years, recovering sharp boundaries and high-resolution outputs efficiently remains challenging. In this paper, we propose Stereo Mixture Density Networks (SMD-Nets), a simple yet effective learning framework compatible with a wide class of 2D and 3D architectures which ameliorates both issues. Specifically, we exploit bimodal mixture densities as output representation and show that this allows for sharp and precise disparity estimates near discontinuities while explicitly modeling the aleatoric uncertainty inherent in the observations. Moreover, we formulate disparity estimation as a continuous problem in the image domain, allowing our model to query disparities at arbitrary spatial precision. We carry out comprehensive experiments on a new high-resolution and highly realistic synthetic stereo dataset, consisting of stereo pairs at 8Mpx resolution, as well as on real-world stereo datasets. Our experiments demonstrate increased depth accuracy near object boundaries and prediction of ultra high-resolution disparity maps on standard GPUs. We demonstrate the flexibility of our technique by improving the performance of a variety of stereo backbones.
翻訳日:2021-04-09 13:03:07 公開日:2021-04-08
# 複数の劣化を伴うブラインド超解法のための条件付きメタネットワーク

Conditional Meta-Network for Blind Super-Resolution with Multiple Degradations ( http://arxiv.org/abs/2104.03926v1 )

ライセンス: Link先を確認
Guanghao Yin, Wei Wang, Zehuan Yuan, Shouqian Sun, Changhu Wang(参考訳) 単一画像の超解像法(SISR)は単一劣化において大きな成功を収めているが、実際のシナリオでは複数の劣化効果で性能低下を被っている。 近年,複数の劣化に対する盲目および非盲目モデルが検討されている。 しかし、これらの手法は通常、トレーニングデータとテストデータの間の分散シフトに対して著しく劣化する。 この目的に向けて,SRフレームワークが入力分布の変化に適応する方法を学ぶのに役立つ条件付きメタネットワークフレームワーク(CMDSR)を初めて提案する。 本稿では,基本SRネットワーク(BaseNet)のパラメータの適応に使用する条件ネットを用いて,タスクレベルでの劣化を抽出する。 具体的には、我々のフレームワークのConditionNetは、最初に、同じタスクから一連の劣化したイメージパッチで構成されたサポートセットから劣化を学習する。 そして、適応的なBaseNetは条件の特徴に応じてパラメータを素早くシフトします。 さらに, 劣化を早期に抽出するために, 内部タスク間距離を減少させ, タスクレベルの機能間のタスク間距離を増加させるタスクコントラスト損失を提案する。 劣化マップを事前に定義しなければ、我々のブラインドフレームワークは1つのパラメータを更新して、かなりのSR結果を得ることができる。 広範囲にわたる実験は、様々な盲目、さらには盲目の方法に対するCMDSRの有効性を示す。 柔軟なBaseNet構造は、CMDSRが大規模なSISRモデルの一般的なフレームワークであることを明らかにする。

Although single-image super-resolution (SISR) methods have achieved great success on single degradation, they still suffer performance drop with multiple degrading effects in real scenarios. Recently, some blind and non-blind models for multiple degradations have been explored. However, those methods usually degrade significantly for distribution shifts between the training and test data. Towards this end, we propose a conditional meta-network framework (named CMDSR) for the first time, which helps SR framework learn how to adapt to changes in input distribution. We extract degradation prior at task-level with the proposed ConditionNet, which will be used to adapt the parameters of the basic SR network (BaseNet). Specifically, the ConditionNet of our framework first learns the degradation prior from a support set, which is composed of a series of degraded image patches from the same task. Then the adaptive BaseNet rapidly shifts its parameters according to the conditional features. Moreover, in order to better extract degradation prior, we propose a task contrastive loss to decrease the inner-task distance and increase the cross-task distance between task-level features. Without predefining degradation maps, our blind framework can conduct one single parameter update to yield considerable SR results. Extensive experiments demonstrate the effectiveness of CMDSR over various blind, even non-blind methods. The flexible BaseNet structure also reveals that CMDSR can be a general framework for large series of SISR models.
翻訳日:2021-04-09 13:02:48 公開日:2021-04-08
# SNARF:非リジッドニューラルインシシット形状のアニメーションのための微分フォワードスキニング

SNARF: Differentiable Forward Skinning for Animating Non-Rigid Neural Implicit Shapes ( http://arxiv.org/abs/2104.03953v1 )

ライセンス: Link先を確認
Xu Chen, Yufeng Zheng, Michael J. Black, Otmar Hilliges, Andreas Geiger(参考訳) ニューラルな暗黙の表面表現は、連続的かつ解像度に依存しない方法で3次元形状をキャプチャするための有望なパラダイムとして登場した。 しかし、それらを明瞭な形に適応させることは非自明である。 既存のアプローチは、正準点に変形した逆ワープ場を学ぶ。 しかし、後方ワープフィールドはポーズに依存するため、学習するには大量のデータを必要とするため、これは問題となる。 そこで本研究では,多角形メッシュに対する線形ブレンドスキン(LBS)の利点とニューラル暗黙表面の利点を,直接の監督なしに前方変形場を学習することによって組み合わせたSNARFを提案する。 この変形場は標準的、ポーズ独立な空間で定義され、見えないポーズを一般化することができる。 変形点の対応は暗黙的に定義され、トポロジーの変化下では一意ではないため、ポーズ付きメッシュから変形場を学ぶことは困難である。 そこで本研究では,任意の変形点の正準対応を反復的ルート探索を用いて発見するフォワードスキニングモデルを提案する。 骨変化を伴う3次元メッシュからエンドツーエンドのトレーニングを可能にする,暗黙的な分化による分析勾配を導出する。 最先端のニューラルネットワークの暗黙的表現と比較すると,このアプローチは,精度を維持しつつ,未認識のポーズを一般化する。 我々は,多様で目立たないポーズの3D人間に挑戦するシナリオにおいて,本手法を実証する。

Neural implicit surface representations have emerged as a promising paradigm to capture 3D shapes in a continuous and resolution-independe nt manner. However, adapting them to articulated shapes is non-trivial. Existing approaches learn a backward warp field that maps deformed to canonical points. However, this is problematic since the backward warp field is pose dependent and thus requires large amounts of data to learn. To address this, we introduce SNARF, which combines the advantages of linear blend skinning (LBS) for polygonal meshes with those of neural implicit surfaces by learning a forward deformation field without direct supervision. This deformation field is defined in canonical, pose-independent space, allowing for generalization to unseen poses. Learning the deformation field from posed meshes alone is challenging since the correspondences of deformed points are defined implicitly and may not be unique under changes of topology. We propose a forward skinning model that finds all canonical correspondences of any deformed point using iterative root finding. We derive analytical gradients via implicit differentiation, enabling end-to-end training from 3D meshes with bone transformations. Compared to state-of-the-art neural implicit representations, our approach generalizes better to unseen poses while preserving accuracy. We demonstrate our method in challenging scenarios on (clothed) 3D humans in diverse and unseen poses.
翻訳日:2021-04-09 13:02:26 公開日:2021-04-08
# Panoptic Segmentation Forecasting

Panoptic Segmentation Forecasting ( http://arxiv.org/abs/2104.03962v1 )

ライセンス: Link先を確認
Colin Graber and Grace Tsai and Michael Firman and Gabriel Brostow and Alexander Schwing(参考訳) 我々の目標は、最近の観測結果から近い将来の予測を行うことです。 我々は、この予測能力、すなわち予測能力は、観察を受動的に分析するだけでなく、リアルタイムで反応する必要がある自律エージェントの成功に不可欠であると考えている。 重要なことに、選択されたシーン分解に基づいて正確な予測ヒンジが生じる。 動的シーンを個々の「物」と背景の「物」に分解することで、優れた予測が達成できると考えている。 背景の「足」は主にカメラの動きによって動き、前景の「物」はカメラと個々の物体の動きによって動く。 この分解後、panoptic segmentation forecastingを導入する。 パノプティクスのセグメンテーション予測は、インスタンスの軌跡を予測したり、将来の画像フレームの出現を予測する既存の極端間の中間領域を開く。 この課題に対処するために、我々は2成分モデルを開発する。一方のコンポーネントは、オードメトリーを予測して背景物の力学を学習し、もう一方のコンポーネントは検出された物の力学を予測する。 この新しいタスクのリーダーボードを確立し、利用可能なベースラインを上回る最先端のモデルを検証する。

Our goal is to forecast the near future given a set of recent observations. We think this ability to forecast, i.e., to anticipate, is integral for the success of autonomous agents which need not only passively analyze an observation but also must react to it in real-time. Importantly, accurate forecasting hinges upon the chosen scene decomposition. We think that superior forecasting can be achieved by decomposing a dynamic scene into individual 'things' and background 'stuff'. Background 'stuff' largely moves because of camera motion, while foreground 'things' move because of both camera and individual object motion. Following this decomposition, we introduce panoptic segmentation forecasting. Panoptic segmentation forecasting opens up a middle-ground between existing extremes, which either forecast instance trajectories or predict the appearance of future image frames. To address this task we develop a two-component model: one component learns the dynamics of the background stuff by anticipating odometry, the other one anticipates the dynamics of detected things. We establish a leaderboard for this novel task, and validate a state-of-the-art model that outperforms available baselines.
翻訳日:2021-04-09 13:02:00 公開日:2021-04-08
# InfinityGAN:無限解像合成を目指して

InfinityGAN: Towards Infinite-Resolution Image Synthesis ( http://arxiv.org/abs/2104.03963v1 )

ライセンス: Link先を確認
Chieh Hubert Lin, Hsin-Ying Lee, Yen-Chi Cheng, Sergey Tulyakov, Ming-Hsuan Yang(参考訳) 任意の解像度画像を生成するinfinityganを提案する。 この問題はいくつかの重要な課題と関連している。 第一に、既存のモデルを高解像度にスケールすることは、計算と高解像度のトレーニングデータの可用性の両面でリソースに制約される。 Infinity-GANは、低い計算資源とシームレスにパッチ・バイ・パッチを訓練し、推測する。 第二に、大きな画像は局所的でグローバルに一貫性があり、反復的なパターンを避け、リアルに見えるべきである。 これらの問題に対処するために、InfinityGANはグローバルな外観、局所構造、テクスチャを考慮に入れ、この定式化により、これまで達成できなかった解像度とディテールのレベルで画像を生成することができる。 InfinityGANは、並列化可能な推論を特徴とするベースラインよりも優れたグローバル構造を持つ画像を生成する。 最後に, 任意の入力と出力解像度での空間的, マルチモーダルなアウトペインティング, 画像のインタクションなど, 本手法でアンロックされたいくつかのアプリケーションについて述べる。

We present InfinityGAN, a method to generate arbitrary-resolution images. The problem is associated with several key challenges. First, scaling existing models to a high resolution is resource-constrained , both in terms of computation and availability of high-resolution training data. Infinity-GAN trains and infers patch-by-patch seamlessly with low computational resources. Second, large images should be locally and globally consistent, avoid repetitive patterns, and look realistic. To address these, InfinityGAN takes global appearance, local structure and texture into account.With this formulation, we can generate images with resolution and level of detail not attainable before. Experimental evaluation supports that InfinityGAN generates imageswith superior global structure compared to baselines at the same time featuring parallelizable inference. Finally, we how several applications unlocked by our approach, such as fusing styles spatially, multi-modal outpainting and image inbetweening at arbitrary input and output resolutions
翻訳日:2021-04-09 13:01:43 公開日:2021-04-08
# 静止画像からの光流れの学習

Learning optical flow from still images ( http://arxiv.org/abs/2104.03965v1 )

ライセンス: Link先を確認
Filippo Aleotti, Matteo Poggi, Stefano Mattoccia(参考訳) 本稿では,光フローネットワークをトレーニングするためのデータ不足を取り上げ,ラベル付き合成データセットやラベルなし実ビデオなどの既存の情報源の限界を強調する。 具体的には,手軽に利用可能な実画像から高精度な光学フローアノテーションを迅速かつ大量に生成する枠組みを提案する。 画像が与えられた場合、既製の単眼深度推定ネットワークを用いて、観測シーンのための可視点雲を構築する。 そして、カメラを、既知の動きベクトルと回転角で再構成した環境で仮想的に移動させ、入力画像の各画素と新しいフレームの各画素を接続する新しいビューと対応する光フローフィールドを合成する。 我々のデータでトレーニングすると、最新の光学フローネットワークは、注釈付き合成データセットやラベルなしビデオでトレーニングされたのと同じモデルと比較して、実際のデータを見るのに優れた一般化を実現し、合成画像と組み合わせればより優れた特殊化を実現します。

This paper deals with the scarcity of data for training optical flow networks, highlighting the limitations of existing sources such as labeled synthetic datasets or unlabeled real videos. Specifically, we introduce a framework to generate accurate ground-truth optical flow annotations quickly and in large amounts from any readily available single real picture. Given an image, we use an off-the-shelf monocular depth estimation network to build a plausible point cloud for the observed scene. Then, we virtually move the camera in the reconstructed environment with known motion vectors and rotation angles, allowing us to synthesize both a novel view and the corresponding optical flow field connecting each pixel in the input image to the one in the new frame. When trained with our data, state-of-the-art optical flow networks achieve superior generalization to unseen real data compared to the same models trained either on annotated synthetic datasets or unlabeled videos, and better specialization if combined with synthetic images.
翻訳日:2021-04-09 13:01:24 公開日:2021-04-08
# 型付きラムダ計算に基づく対話型シェルの提案

A Proposal for an Interactive Shell Based on a Typed Lambda Calculus ( http://arxiv.org/abs/2104.03678v1 )

ライセンス: Link先を確認
Kouji Matsui(参考訳) 本稿では,対話型シェル置換のためにラムダ計算を前提とした関数型プログラミング言語Favalonを提案する。 Favalonは、型推論、フレキシブルなランタイム型メタデータ、シェルがコマンドをリンクするのと同じテクニックを使用して、既存のライブラリやコマンドの型付きバージョンとシームレスに統合する。 Favalonの構文の多くはユーザ定義関数でカスタマイズ可能で、コマンドラインシェルに精通している人なら誰でも拡張できる。 さらに、favalonの型推論エンジンはランタイムライブラリから分離でき、他のアプリケーションに簡単に再利用できる。

This paper presents Favalon, a functional programming language built on the premise of a lambda calculus for use as an interactive shell replacement. Favalon seamlessly integrates with typed versions of existing libraries and commands using type inference, flexible runtime type metadata, and the same techniques employed by shells to link commands together. Much of Favalon's syntax is customizable via user-defined functions, allowing it to be extended by anyone who is familiar with a command-line shell. Furthermore, Favalon's type inference engine can be separated from its runtime library and easily repurposed for other applications.
翻訳日:2021-04-09 13:01:07 公開日:2021-04-08
# メタファーが政治談話にどう影響するか:ニューラルメタファー検出を用いた大規模トピック非依存研究

How Metaphors Impact Political Discourse: A Large-Scale Topic-Agnostic Study Using Neural Metaphor Detection ( http://arxiv.org/abs/2104.03928v1 )

ライセンス: Link先を確認
Vinodkumar Prabhakaran, Marek Rei, Ekaterina Shutova(参考訳) メタファーは政治的レトリックにおいて効果的なフレーミング装置として広く用いられている。 政治談話における戦争メタファーのような特定のメタファーの有効性は以前にも記録されているが、これらの研究はしばしば少数の手書きのメタファーの使用例に依存している。 大規模なトピックに依存しない研究は、メタファーの汎用的な説得力を確立するために必要であり、その説得力を導く幅広いパターンに光を当てる必要がある。 本稿では,政治的言論におけるメタファーの大規模データ駆動研究について述べる。 この調査は、2017年2月まで、Facebookの公開ページに412人の政治家が投稿した8万5千件以上の投稿の公開データセットで実施する。 Our contributions are threefold: we show evidence that metaphor use correlates with ideological leanings in complex ways that depend on concurrent political events such as winning or losing elections; we show that posts with metaphors elicit more engagement from their audience overall even after controlling for various socio-political factors such as gender and political party affiliation; and finally, we demonstrate that metaphoricity is indeed the reason for increased engagement of posts, through a fine-grained linguistic analysis of metaphorical vs. literal usages of 513 words across 70K posts.

Metaphors are widely used in political rhetoric as an effective framing device. While the efficacy of specific metaphors such as the war metaphor in political discourse has been documented before, those studies often rely on small number of hand-coded instances of metaphor use. Larger-scale topic-agnostic studies are required to establish the general persuasiveness of metaphors as a device, and to shed light on the broader patterns that guide their persuasiveness. In this paper, we present a large-scale data-driven study of metaphors used in political discourse. We conduct this study on a publicly available dataset of over 85K posts made by 412 US politicians in their Facebook public pages, up until Feb 2017. Our contributions are threefold: we show evidence that metaphor use correlates with ideological leanings in complex ways that depend on concurrent political events such as winning or losing elections; we show that posts with metaphors elicit more engagement from their audience overall even after controlling for various socio-political factors such as gender and political party affiliation; and finally, we demonstrate that metaphoricity is indeed the reason for increased engagement of posts, through a fine-grained linguistic analysis of metaphorical vs. literal usages of 513 words across 70K posts.
翻訳日:2021-04-09 13:00:57 公開日:2021-04-08
# 自然言語処理に基づく機械学習による臨床物語における心不全の検出

Machine Learning Based on Natural Language Processing to Detect Cardiac Failure in Clinical Narratives ( http://arxiv.org/abs/2104.03934v1 )

ライセンス: Link先を確認
Thanh-Dung Le, Rita Noumeir, Jerome Rambaud, Guillaume Sans, and Philippe Jouvet(参考訳) 本研究の目的は、チュサント・ジャスティネ病院の研究データウェアハウスにおける医師ノートを用いて、患者の心不全や健康状態を自動的に検出する自然言語処理に基づく機械学習アルゴリズムを開発することである。 まず,baba-of-word (BoW), term frequency inverse document frequency (TFIDF), Neural word embeddeds (word2vec)を用いて単語表現学習を行った。 それぞれの表現技法は、重要なケアデータにおける単語の意味と統語的分析を維持することを目的としている。 これは、単語表現の相互情報を強化するのに役立ち、さらに適切な分析ステップの利点をもたらす。 第2に、前ステップから生成された単語表現ベクトル空間を通じて、心不全または安定した患者の状態を検出するために機械学習分類器を用いた。 この機械学習アプローチは、ロジスティック回帰(LR)、ガウスネーブベイズ(Gaussian Naive-Bayes、GaussianNB)、多層パーセプトロンニューラルネットワーク(MLPNN)を含む教師付きバイナリ分類アルゴリズムに基づいている。 技術的には、主に分類器の訓練中に経験的損失を最適化する。 その結果、精度(acc)、精度(pre)、リコール(rec)、F1スコア(f1)を含む高い分類性能を得るための自動学習アルゴリズムが実現された。 その結果, TFIDF と MLPNN の組み合わせは, 総合的な性能で常に他の組み合わせよりも優れていた。 機能選択を伴わない場合, 提案したフレームワークは, acc, pre, rec, f1が84%, 82%, 85%, 83%の総合的な分類性能を示した。 注目すべきは,機能選択がうまく適用できれば,全体のパフォーマンスが評価毎に最大4%向上することです。

The purpose of the study presented herein is to develop a machine learning algorithm based on natural language processing that automatically detects whether a patient has a cardiac failure or a healthy condition by using physician notes in Research Data Warehouse at CHU Sainte Justine Hospital. First, a word representation learning technique was employed by using bag-of-word (BoW), term frequency inverse document frequency (TFIDF), and neural word embeddings (word2vec). Each representation technique aims to retain the words semantic and syntactic analysis in critical care data. It helps to enrich the mutual information for the word representation and leads to an advantage for further appropriate analysis steps. Second, a machine learning classifier was used to detect the patients condition for either cardiac failure or stable patient through the created word representation vector space from the previous step. This machine learning approach is based on a supervised binary classification algorithm, including logistic regression (LR), Gaussian Naive-Bayes (GaussianNB), and multilayer perceptron neural network (MLPNN). Technically, it mainly optimizes the empirical loss during training the classifiers. As a result, an automatic learning algorithm would be accomplished to draw a high classification performance, including accuracy (acc), precision (pre), recall (rec), and F1 score (f1). The results show that the combination of TFIDF and MLPNN always outperformed other combinations with all overall performance. In the case without any feature selection, the proposed framework yielded an overall classification performance with acc, pre, rec, and f1 of 84% and 82%, 85%, and 83%, respectively. Significantly, if the feature selection was well applied, the overall performance would finally improve up to 4% for each evaluation.
翻訳日:2021-04-09 13:00:39 公開日:2021-04-08
# GiとPalスコア:ディープニューラルネットワークの一般化統計

Gi and Pal Scores: Deep Neural Network Generalization Statistics ( http://arxiv.org/abs/2104.03469v1 )

ライセンス: Link先を確認
Yair Schiff, Brian Quanz, Payel Das, Pin-Yu Chen(参考訳) ディープラーニングの分野は、さまざまな回帰、分類、制御タスクにおける人間のようなパフォーマンスの実証的な証拠に富んでいる。 しかし、これらの成功にもかかわらず、この分野は強い理論上の誤差境界とネットワークの一般化と学習不変性の一貫した尺度を欠いている。 本研究では,深いニューラルネットワークの一般化能力を捉える2つの新しい尺度であるGi-scoreとPal-scoreを紹介する。 収入不平等の尺度であるgini係数とpalma比に着想を得た本統計は、一般化ギャップを正確に予測する摂動に対するネットワークの不変性、すなわちトレーニングとテストセットの精度の差のロバストな尺度である。

The field of Deep Learning is rich with empirical evidence of human-like performance on a variety of regression, classification, and control tasks. However, despite these successes, the field lacks strong theoretical error bounds and consistent measures of network generalization and learned invariances. In this work, we introduce two new measures, the Gi-score and Pal-score, that capture a deep neural network's generalization capabilities. Inspired by the Gini coefficient and Palma ratio, measures of income inequality, our statistics are robust measures of a network's invariance to perturbations that accurately predict generalization gaps, i.e., the difference between accuracy on training and test sets.
翻訳日:2021-04-09 12:59:22 公開日:2021-04-08
# Neural Temporal Point Processs: レビュー

Neural Temporal Point Processes: A Review ( http://arxiv.org/abs/2104.03528v1 )

ライセンス: Link先を確認
Oleksandr Shchur, Ali Caner T\"urkmen, Tim Januschowski, Stephan G\"unnemann(参考訳) 時間点過程(TPP)は連続時間事象列の確率的生成モデルである。 ニューラルTPPは、ポイントプロセス文学の基本概念とディープラーニングアプローチを組み合わせることで、柔軟で効率的なモデルの構築を可能にする。 ニューラルTPPの話題は近年大きな注目を集めており、このクラスのモデルに多くの新しいアーキテクチャや応用が開発されている。 本稿では,ニューラルTPPに関する既存の知識体系を統合することを目的とする。 具体的には、ニューラルTPPモデルを定義するための重要な設計選択と一般的な原則に焦点を当てる。 次に,文献に共通する適用領域の概要について述べる。 本稿では,ニューラルTPPの分野における今後の課題の一覧と今後の研究の方向性について述べる。

Temporal point processes (TPP) are probabilistic generative models for continuous-time event sequences. Neural TPPs combine the fundamental ideas from point process literature with deep learning approaches, thus enabling construction of flexible and efficient models. The topic of neural TPPs has attracted significant attention in the recent years, leading to the development of numerous new architectures and applications for this class of models. In this review paper we aim to consolidate the existing body of knowledge on neural TPPs. Specifically, we focus on important design choices and general principles for defining neural TPP models. Next, we provide an overview of application areas commonly considered in the literature. We conclude this survey with the list of open challenges and important directions for future work in the field of neural TPPs.
翻訳日:2021-04-09 12:59:10 公開日:2021-04-08
# 強化学習を用いたグラフ分割とスパース行列順序付け

Graph Partitioning and Sparse Matrix Ordering using Reinforcement Learning ( http://arxiv.org/abs/2104.03546v1 )

ライセンス: Link先を確認
Alice Gatti, Zhixiong Hu, Pieter Ghysels, Esmond G. Ng, Tess Smidt(参考訳) 本稿では,強化学習とグラフ畳み込みニューラルネットワークに基づくグラフ分割手法を提案する。 新たな強化学習に基づくアプローチは,グラフの粗い表現で得られた所定の分割を洗練し,アルゴリズムを再帰的に適用する。 ニューラルネットワークはグラフ注意層を使用して実装され、アドバンテージアクター評論家(A2C)エージェントを使用してトレーニングされる。 正規化カットまたは商カットを最小化するエッジセパレータと、小さな頂点セパレータを見出すエッジセパレータの2つの変種を示す。 頂点分離器は、その三角因子化が補充を減少させるようにスパース行列を置換する入れ子分解順序を構築するために使用される。 分割品質をMETISおよびScotchを用いて得られるパーティショニングと比較し、スパースソルバSuperLUにおいてネストされた分離順序を評価する。 その結果,提案手法はmetisやscotchと同様の分割品質が得られることがわかった。 さらに、この方法は、あるクラスのグラフから別のグラフへ一般化し、 suitesparse sparse matrix collectionの様々なグラフ上でうまく機能する。

We present a novel method for graph partitioning, based on reinforcement learning and graph convolutional neural networks. The new reinforcement learning based approach is used to refine a given partitioning obtained on a coarser representation of the graph, and the algorithm is applied recursively. The neural network is implemented using graph attention layers, and trained using an advantage actor critic (A2C) agent. We present two variants, one for finding an edge separator that minimizes the normalized cut or quotient cut, and one that finds a small vertex separator. The vertex separators are then used to construct a nested dissection ordering for permuting a sparse matrix so that its triangular factorization will incur less fill-in. The partitioning quality is compared with partitions obtained using METIS and Scotch, and the nested dissection ordering is evaluated in the sparse solver SuperLU. Our results show that the proposed method achieves similar partitioning quality than METIS and Scotch. Furthermore, the method generalizes from one class of graphs to another, and works well on a variety of graphs from the SuiteSparse sparse matrix collection.
翻訳日:2021-04-09 12:59:00 公開日:2021-04-08
# 線形文脈バンディットにおける良き表現の活用

Leveraging Good Representations in Linear Contextual Bandits ( http://arxiv.org/abs/2104.03781v1 )

ライセンス: Link先を確認
Matteo Papini, Andrea Tirinzoni, Marcello Restelli, Alessandro Lazaric and Matteo Pirotta(参考訳) 線形文脈バンディット文学は主に、与えられた表現に対する効率的な学習アルゴリズムの設計に焦点を当てている。 しかし、文脈的バンディット問題は、学習アルゴリズムの後悔に直接影響を及ぼす異なる特徴を持つ複数の線形表現を許容することがある。 特に、最近の研究は、一定の問題依存的後悔が達成できる「良い」表現が存在することを示した。 本稿ではまず,文献で提案されている「良い」表現の異なる定義を体系的に分析する。 そこで我々は,$M$の候補集合において,最適な表現に適応できる新しい選択アルゴリズムを提案する。 我々は、LinUCBを最良の表現($\ln M$ factorまで)で実行したことによる後悔よりも、後悔は決して悪いことではないことを示した。 その結果,本アルゴリズムは,集合内で「よい」表現が利用可能であれば,常に後悔する。 さらに,初期表現が「良い」場合であっても,暗黙的に「良い」表現を構築することによって,アルゴリズムが常に後悔することを示す。 最後に,多くの標準的な文脈的包帯問題における理論的知見を実証的に検証した。

The linear contextual bandit literature is mostly focused on the design of efficient learning algorithms for a given representation. However, a contextual bandit problem may admit multiple linear representations, each one with different characteristics that directly impact the regret of the learning algorithm. In particular, recent works showed that there exist "good" representations for which constant problem-dependent regret can be achieved. In this paper, we first provide a systematic analysis of the different definitions of "good" representations proposed in the literature. We then propose a novel selection algorithm able to adapt to the best representation in a set of $M$ candidates. We show that the regret is indeed never worse than the regret obtained by running LinUCB on the best representation (up to a $\ln M$ factor). As a result, our algorithm achieves constant regret whenever a "good" representation is available in the set. Furthermore, we show that the algorithm may still achieve constant regret by implicitly constructing a "good" representation, even when none of the initial representations is "good". Finally, we empirically validate our theoretical findings in a number of standard contextual bandit problems.
翻訳日:2021-04-09 12:58:41 公開日:2021-04-08
# 情報ギャップ下における線形バンディットのインセンティブ探索

Incentivizing Exploration in Linear Bandits under Information Gap ( http://arxiv.org/abs/2104.03860v1 )

ライセンス: Link先を確認
Huazheng Wang, Haifeng Xu, Chuanhao Li, Zhiyuan Liu, Hongning Wang(参考訳) 本研究では,リニアバンディットにおける筋電図利用者の探索にインセンティブを与える問題について検討する。 長期報酬を最大化するために、このシステムは、利用者に探索用アームを引き出すインセンティブを与え、エクスプロイト、探索、補償のトレードオフをバランスさせることを目的としている。 本研究では,ユーザによって観察されるコンテキスト特徴が,ユーザのプライベート情報に基づく特徴がシステムからアクセスできないような,新たな,実用的なモチベーションを持つ環境について考察する。 このような情報ギャップ下での探索をインセンティブ化する新しい手法を提案し,その方法がサブリニア後悔とサブリニア補償の両方を達成することを証明した。 我々は,情報ギャップによる付加的な補償を,ユーザと同じコンテキスト,すなわち情報ギャップのないシステムに対して理論的かつ経験的に分析する。 問題の範囲を低くした補償も提供します。

We study the problem of incentivizing exploration for myopic users in linear bandits, where the users tend to exploit arm with the highest predicted reward instead of exploring. In order to maximize the long-term reward, the system offers compensation to incentivize the users to pull the exploratory arms, with the goal of balancing the trade-off among exploitation, exploration and compensation. We consider a new and practically motivated setting where the context features observed by the user are more informative than those used by the system, e.g., features based on users' private information are not accessible by the system. We propose a new method to incentivize exploration under such information gap, and prove that the method achieves both sublinear regret and sublinear compensation. We theoretical and empirically analyze the added compensation due to the information gap, compared with the case that the system has access to the same context features as the user, i.e., without information gap. We also provide a compensation lower bound of our problem.
翻訳日:2021-04-09 12:58:23 公開日:2021-04-08
# OGGN: ニューラルネットワークの逆関数モデリングのための新しい一般化されたOracleガイド生成アーキテクチャ

OGGN: A Novel Generalized Oracle Guided Generative Architecture for Modelling Inverse Function of Artificial Neural Networks ( http://arxiv.org/abs/2104.03935v1 )

ライセンス: Link先を確認
Mohammad Aaftab V, Mansi Sharma(参考訳) 本稿では,ANN(Artificial Neural Network)の逆関数を,完全にあるいは部分的にモデル化するための新しい生成ニューラルネットワークアーキテクチャを提案する。 ann の完全な逆関数のモデル化は、所望の出力に対応するすべての特徴の値を生成することを伴う。 一方、逆関数を部分的にモデル化することは、特徴のサブセットの値を生成し、残りの特徴値を修正することを意味する。 特徴セット生成は、人工知能ニューラルネットワークにとって重要なステップであり、工学と科学のいくつかの実践的な応用に有用である。 提案されているOracle Guided Generative Neural Networkは、OGGNと呼ばれ、さまざまな機能生成問題に対処する柔軟性がある。 一般に、ANNは与えられた特徴ベクトルに基づいてターゲット値を予測することができる。 OGGNアーキテクチャは、ANNの所定の目標値が与えられた特徴ベクトルを生成することができる。 生成された特徴ベクトルが前方ANNに供給されると、ANNが予測した目標値は所定の目標値に近接する。 したがって、OGGNアーキテクチャは、前方ANNで表される関数の逆関数をマッピングすることができる。 また、この作品にも重要な貢献がある。 本稿では,制約関数として定義された関数の新しいクラスについても紹介する。 この制約関数により、ニューラルネットワークは与えられた局所空間を長時間調査することができる。 したがって、損失関数の局所的な最適点を見つけることは、グローバルな最適点を見つけることとは別に可能である。 OGGNは、多くの変数の多項式方程式系の解法にも適用できる。 合成データセットの実験は、様々なユースケースにおけるOGGNの有効性を検証する。

This paper presents a novel Generative Neural Network Architecture for modelling the inverse function of an Artificial Neural Network (ANN) either completely or partially. Modelling the complete inverse function of an ANN involves generating the values of all features that corresponds to a desired output. On the other hand, partially modelling the inverse function means generating the values of a subset of features and fixing the remaining feature values. The feature set generation is a critical step for artificial neural networks, useful in several practical applications in engineering and science. The proposed Oracle Guided Generative Neural Network, dubbed as OGGN, is flexible to handle a variety of feature generation problems. In general, an ANN is able to predict the target values based on given feature vectors. The OGGN architecture enables to generate feature vectors given the predetermined target values of an ANN. When generated feature vectors are fed to the forward ANN, the target value predicted by ANN will be close to the predetermined target values. Therefore, the OGGN architecture is able to map, inverse function of the function represented by forward ANN. Besides, there is another important contribution of this work. This paper also introduces a new class of functions, defined as constraint functions. The constraint functions enable a neural network to investigate a given local space for a longer period of time. Thus, enabling to find a local optimum of the loss function apart from just being able to find the global optimum. OGGN can also be adapted to solve a system of polynomial equations in many variables. The experiments on synthetic datasets validate the effectiveness of OGGN on various use cases.
翻訳日:2021-04-09 12:58:05 公開日:2021-04-08
# 従来の自律ナビゲーションシステムへの深部強化学習型障害物回避の展開に向けて

Towards Deployment of Deep-Reinforcement-L earning-Based Obstacle Avoidance into Conventional Autonomous Navigation Systems ( http://arxiv.org/abs/2104.03616v1 )

ライセンス: Link先を確認
Linh K\"astner, Teham Buiyan, Xinlin Zhao, Lei Jiao, Zhengcheng Shen and Jens Lambrecht(参考訳) 近年,移動ロボットは様々な産業,特に物流において重要なツールとなっている。 深層強化学習は、過度に保守的なアプローチを置き換える代替案として現れ、より効率的で柔軟なナビゲーションを約束した。 しかし、深層強化学習のアプローチは、局所的な極小さと長期記憶の欠如のため、長距離ナビゲーションには適していないため、モバイルロボティクスの産業アプリケーションへの広範な統合を妨げる。 本稿では,従来のナビゲーションスタックに深層強化学習に基づくローカルプランナを組み込んだナビゲーションシステムを提案する。 そこで,従来の手法とともに深層強化学習アルゴリズムを訓練し,テストするためのフレームワークを提案する。 従来型プランナーに対する深層強化学習型ナビゲーションシステムの評価を行い,安全性,効率,ロバスト性の観点から評価した。

Recently, mobile robots have become important tools in various industries, especially in logistics. Deep reinforcement learning emerged as an alternative planning method to replace overly conservative approaches and promises more efficient and flexible navigation. However, deep reinforcement learning approaches are not suitable for long-range navigation due to their proneness to local minima and lack of long term memory, which hinders its widespread integration into industrial applications of mobile robotics. In this paper, we propose a navigation system incorporating deep-reinforcement-l earning-based local planners into conventional navigation stacks for long-range navigation. Therefore, a framework for training and testing the deep reinforcement learning algorithms along with classic approaches is presented. We evaluated our deep-reinforcement-l earning-enhanced navigation system against various conventional planners and found that our system outperforms them in terms of safety, efficiency and robustness.
翻訳日:2021-04-09 12:56:57 公開日:2021-04-08
# waypointジェネレータを用いた深部強化学習に基づく障害物回避と従来のグローバルプランナーとの接続

Connecting Deep-Reinforcement-L earning-based Obstacle Avoidance with Conventional Global Planners using Waypoint Generators ( http://arxiv.org/abs/2104.03663v1 )

ライセンス: Link先を確認
Linh K\"astner, Teham Buiyan, Xinlin Zhao, Zhengcheng Shen, Cornelius Marx and Jens Lambrecht(参考訳) 深層強化学習は,高動的環境において効率的な動的障害物回避手法として出現した。 過度に保守的あるいは非効率なナビゲーションアプローチを置き換える可能性がある。 しかし、深層強化学習の既存ナビゲーションシステムへの統合は、深層強化学習に基づくナビゲーションの明快な性質から、まだ未開のフロンティアであり、現在のナビゲーションシステムへの広範な統合を妨げている。 本稿では,新しい深部力覚学習に基づく障害物回避手法と,waypoint生成を用いた従来のグローバル計画手法を連携させる中間プランナーの概念を提案する。 そこで,既存のナビゲーションシステムと異なるwaypointジェネレータを統合し,従来のナビゲーションシステムと比較する。 その結果,特に動的環境において,安全性,効率性,経路平滑性が向上した。

Deep Reinforcement Learning has emerged as an efficient dynamic obstacle avoidance method in highly dynamic environments. It has the potential to replace overly conservative or inefficient navigation approaches. However, the integration of Deep Reinforcement Learning into existing navigation systems is still an open frontier due to the myopic nature of Deep-Reinforcement-L earning-based navigation, which hinders its widespread integration into current navigation systems. In this paper, we propose the concept of an intermediate planner to interconnect novel Deep-Reinforcement-L earning-based obstacle avoidance with conventional global planning methods using waypoint generation. Therefore, we integrate different waypoint generators into existing navigation systems and compare the joint system against traditional ones. We found an increased performance in terms of safety, efficiency and path smoothness especially in highly dynamic environments.
翻訳日:2021-04-09 12:56:44 公開日:2021-04-08
# 表現型音声合成のためのマルチスケールスタイル制御

Towards Multi-Scale Style Control for Expressive Speech Synthesis ( http://arxiv.org/abs/2104.03521v1 )

ライセンス: Link先を確認
Xiang Li, Changhe Song, Jingbei Li, Zhiyong Wu, Jia Jia, Helen Meng(参考訳) 本稿では,エンドツーエンドの音声合成のためのマルチスケール音声スタイルモデリング手法を提案する。 提案手法では,マルチスケールの参照エンコーダを用いて,対象音声の大域的発話レベルと局所的な準音素レベルの両方の特徴を抽出し,入力音素列の拡張として音声合成モデルに入力する。 訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。 提案手法をスタイル伝達タスクに適用することにより,マルチスケール音声スタイルモデルの制御性や合成音声の表現性を大幅に向上することを示す実験結果が得られた。 さらに,各尺度のスタイル抽出に異なる参照音声を割り当てることで,提案手法の柔軟性をさらに明らかにした。

This paper introduces a multi-scale speech style modeling method for end-to-end expressive speech synthesis. The proposed method employs a multi-scale reference encoder to extract both the global-scale utterance-level and the local-scale quasi-phoneme-level style features of the target speech, which are then fed into the speech synthesis model as an extension to the input phoneme sequence. During training time, the multi-scale style model could be jointly trained with the speech synthesis model in an end-to-end fashion. By applying the proposed method to style transfer task, experimental results indicate that the controllability of the multi-scale speech style model and the expressiveness of the synthesized speech are greatly improved. Moreover, by assigning different reference speeches to extraction of style on each scale, the flexibility of the proposed method is further revealed.
翻訳日:2021-04-09 12:56:30 公開日:2021-04-08
# WNARS:WFSTに基づく非自己回帰ストリーミングエンドツーエンド音声認識

WNARS: WFST based Non-autoregressive Streaming End-to-End Speech Recognition ( http://arxiv.org/abs/2104.03587v1 )

ライセンス: Link先を確認
Zhichao Wang, Wenwen Yang, Pan Zhou, Wei Chen(参考訳) 近年,自動音声認識(ASR)分野において,注目型エンコーダデコーダ(AED)のエンド・ツー・エンド(E2E)モデルが注目されている。 しかし、AEDモデルは商用アプリケーションにデプロイする際の欠点がある。 自己回帰ビームサーチデコーディングは、高速アプリケーションでは非効率である。 また、外部語レベルの言語モデルを統合することも不便である。 最も重要なことは、AEDモデルがグローバルなアテンションメカニズムのためにストリーミング認識が困難であることです。 本稿では,これらの問題を解決するために,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサ(WFST)を用いた新しいフレームワークWNARSを提案する。 我々は、自己回帰ビーム探索からCTC分岐復号に切り換え、WFSTでチャンクワイズストリーミングでファーストパス復号を行う。 そして、デコーダブランチは、生成した仮説を非自己回帰的に第2パス復元する。 AISHELL-1タスクでは、WNARSは640msのレイテンシで5.22%の文字エラー率を達成しています。 提案手法は,強いTDNN-BLSTM格子のないMMIベースラインと比較して,50%レイテンシで20%以上の改善を実現している。

Recently, attention-based encoder-decoder (AED) end-to-end (E2E) models have drawn more and more attention in the field of automatic speech recognition (ASR). AED models, however, still have drawbacks when deploying in commercial applications. Autoregressive beam search decoding makes it inefficient for high-concurrency applications. It is also inconvenient to integrate external word-level language models. The most important thing is that AED models are difficult for streaming recognition due to global attention mechanism. In this paper, we propose a novel framework, namely WNARS, using hybrid CTC-attention AED models and weighted finite-state transducers (WFST) to solve these problems together. We switch from autoregressive beam search to CTC branch decoding, which performs first-pass decoding with WFST in chunk-wise streaming way. The decoder branch then performs second-pass rescoring on the generated hypotheses non-autoregressively . On the AISHELL-1 task, our WNARS achieves a character error rate of 5.22% with 640ms latency, to the best of our knowledge, which is the state-of-the-art performance for online ASR. Further experiments on our 10,000-hour Mandarin task show the proposed method achieves more than 20% improvements with 50% latency compared to a strong TDNN-BLSTM lattice-free MMI baseline.
翻訳日:2021-04-09 12:56:17 公開日:2021-04-08
# クロスドメインコミュニケーションの実現 - AIとHWエンジニアのギャップを埋める方法

Enabling Cross-Domain Communication: How to Bridge the Gap between AI and HW Engineers ( http://arxiv.org/abs/2104.03780v1 )

ライセンス: Link先を確認
Michael J. Klaiber, Axel J. Acosta, Ingo Feldner, Falk Rehm(参考訳) システム設計における重要な問題は、ハードウェア、ソフトウェア、ドメインエキスパート間のコミュニケーションの欠如である。 最近の研究では、ニューラルアクセラレーターの自動HW/SW共設計フローの進展が、この種のコミュニケーションを時代遅れにしているように見える。 しかし、現実世界のシステムの多くは、複数の処理ユニット、通信ネットワーク、メモリで構成されている。 したがって、(再構成可能な)ニューラルアクセラレータのHW/SW共設計プロセスは、共通の共設計手法への重要なサブプロブレムである。 究極の課題は、システムレベルでの設計空間探索の制約を定義することです - ハードウェアアーキテクチャの深い知識と理解を必要とするタスク、ワークロードのハードウェアとアプリケーションドメインへのマッピングなどです。 人工知能。 ほとんどのプロジェクトでは、これらのスキルが複数の人、あるいは異なるチームに分散されているため、デジタルシステムのための確立されたエンドツーエンド開発方法論が存在しない主な理由の1つです。 本稿は、(構成可能な)専用アクセラレータを含むシステムのための方法論を確立し、その過程で言語やツールが果たす中心的な役割を概説する可能性について論じる。

A key issue in system design is the lack of communication between hardware, software and domain expert. Recent research work shows progress in automatic HW/SW co-design flows of neural accelerators that seems to make this kind of communication obsolete. Most real-world systems, however, are a composition of multiple processing units, communication networks and memories. A HW/SW co-design process of (reconfigurable) neural accelerators, therefore, is an important sub-problem towards a common co-design methodology. The ultimate challenge is to define the constraints for the design space exploration on system level - a task which requires deep knowledge and understanding of hardware architectures, mapping of workloads onto hardware and the application domain, e.g. artificial intelligence. For most projects, these skills are distributed among several people or even different teams which is one of the major reasons why there is no established end-to-end development methodology for digital systems. This position paper discusses possibilities how to establish such a methodology for systems that include (reconfigurable) dedicated accelerators and outlines the central role that languages and tools play in the process.
翻訳日:2021-04-09 12:55:54 公開日:2021-04-08
# ドメイン適応と少数話者適応のための機械音声連鎖の検討

Exploring Machine Speech Chain for Domain Adaptation and Few-Shot Speaker Adaptation ( http://arxiv.org/abs/2104.03815v1 )

ライセンス: Link先を確認
Fengpeng Yue, Yan Deng, Lei He, Tom Ko(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)とテキスト音声(TTS)の両方を1つのサークルに統合して共同訓練を行うマシン音声チェインは、大量の未ペアデータを活用することで、データ拡張に有効であることが証明されている。 本稿では,音声連鎖におけるTS->ASRパイプラインを用いて,ターゲット領域からのテキストデータのみを用いて,ニューラルTSモデルとE2E ASRモデルの両方のドメイン適応を行う。 我々は、オーディオブックドメイン(LibriSpeech)からプレゼンテーションドメイン(TED-Lium)に適応して実験を行い、TED-Liumテストセット上でのE2E ASRモデルの相対単語誤り率(WER)を10%削減し、プレゼンテーションドメインでニューラルTSによって生成された合成音声において相対WERを51.5%削減する。 さらに,対象話者からの発話を教師なしの方法で使用することにより,E2E ASRに少数話者適応を適用することにより,さらなる利得が得られる。

Machine Speech Chain, which integrates both end-to-end (E2E) automatic speech recognition (ASR) and text-to-speech (TTS) into one circle for joint training, has been proven to be effective in data augmentation by leveraging large amounts of unpaired data. In this paper, we explore the TTS->ASR pipeline in speech chain to do domain adaptation for both neural TTS and E2E ASR models, with only text data from target domain. We conduct experiments by adapting from audiobook domain (LibriSpeech) to presentation domain (TED-LIUM), there is a relative word error rate (WER) reduction of 10% for the E2E ASR model on the TED-LIUM test set, and a relative WER reduction of 51.5% in synthetic speech generated by neural TTS in the presentation domain. Further, we apply few-shot speaker adaptation for the E2E ASR by using a few utterances from target speakers in an unsupervised way, results in additional gains.
翻訳日:2021-04-09 12:55:37 公開日:2021-04-08
# MetricGAN+: 音声強調のためのMetricGANの改良版

MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement ( http://arxiv.org/abs/2104.03538v1 )

ライセンス: Link先を確認
Szu-Wei Fu, Cheng Yu, Tsun-An Hsieh, Peter Plantinga, Mirco Ravanelli, Xugang Lu, Yu Tsao(参考訳) 音声強調モデルの訓練に用いられるコスト関数と人間の聴覚知覚との差は、通常、強調音声の品質を満足させることができない。 したがって、人間の知覚を考慮した客観的評価指標は、ギャップを減らすための橋渡しとなる可能性がある。 従来提案したMetricGANは,メトリックを識別器に接続することで,客観的なメトリクスを最適化するように設計されていた。 目標評価関数のスコアのみがトレーニング中に必要となるため、メトリクスは差別化できないこともある。 本研究では,音声処理のドメイン知識を組み込んだ3つの学習手法を提案する。 これらの手法を用いて、VoiceBank-DEMANDデータセットの実験結果から、MetricGAN+は以前のMetricGANと比較してPESQスコアを0.3増加させ、最先端の結果(PESQスコア=3.15)を達成できることが示された。

The discrepancy between the cost function used for training a speech enhancement model and human auditory perception usually makes the quality of enhanced speech unsatisfactory. Objective evaluation metrics which consider human perception can hence serve as a bridge to reduce the gap. Our previously proposed MetricGAN was designed to optimize objective metrics by connecting the metric with a discriminator. Because only the scores of the target evaluation functions are needed during training, the metrics can even be non-differentiable. In this study, we propose a MetricGAN+ in which three training techniques incorporating domain-knowledge of speech processing are proposed. With these techniques, experimental results on the VoiceBank-DEMAND dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).
翻訳日:2021-04-09 12:55:14 公開日:2021-04-08
# 簡素なゲームにおける投票力の計算と贈収賄

Computation and Bribery of Voting Power in Delegative Simple Games ( http://arxiv.org/abs/2104.03692v1 )

ライセンス: Link先を確認
Gianlorenzo D'Angelo, Esmaeil Delfaraz and Hugo Gilbert(参考訳) 軽量投票ゲームは、協調ゲームにおいて最も重要なクラスの1つである。 最近、張とグロッシ[53]は、流動民主主義選挙における各有権者の相対的重要性を分析するのに好適な、エレガントな単純ゲーム(delegative simple game)と呼ばれる、このクラスの変種を提案した。 さらに、彼らはデリゲートグラフにおける各エージェント(すなわち有権者と議員の両方)の重要性を、彼女が蓄積した総投票重量と、代表者から受け取った支持構造に基づいて計算するために、遅延的バンジャフ指数(delagative Banzhaf index)と呼ばれるパワーインデックスを定義した。 単純ゲームに関するいくつかの結果を得る。 まず,delegative simple gamesにおけるdelegative banzhafとshapley-shubikの値を計算する擬似多項時間アルゴリズムを提案する。 次に、代表者の投票力/重みを最大化・最小化することを目的とした贈収賄問題について、定員数を最大にすることで検討する。 投票者のパワーインデックス値の最小化/最大化の問題はNPハードであることを示す。 さらに、投票者の投票重量を最大化するために1-1/e$よりもよい近似保証を持つことは、$p = np$ でない限り不可能であると証明する。 最後に,エージェントが持つ最小のパワーインデックス値を最大化する,与えられた数のグルを持つデリゲーショングラフを見つけることは計算量的に難しい問題であることを示す。

Weighted voting games is one of the most important classes of cooperative games. Recently, Zhang and Grossi [53] proposed a variant of this class, called delegative simple games, which is well suited to analyse the relative importance of each voter in liquid democracy elections. Moreover, they defined a power index, called the delagative Banzhaf index to compute the importance of each agent (i.e., both voters and delegators) in a delegation graph based on two key parameters: the total voting weight she has accumulated and the structure of supports she receives from her delegators. We obtain several results related to delegative simple games. We first propose a pseudo-polynomial time algorithm to compute the delegative Banzhaf and Shapley-Shubik values in delegative simple games. We then investigate a bribery problem where the goal is to maximize/minimize the voting power/weight of a given voter in a delegation graph by changing at most a fixed number of delegations. We show that the problems of minimizing/maximizin g a voter's power index value are strongly NP-hard. Furthermore, we prove that having a better approximation guarantee than $1-1/e$ to maximize the voting weight of a voter is not possible, unless $P = NP$, then we provide some parameterized complexity results for this problem. Finally, we show that finding a delegation graph with a given number of gurus that maximizes the minimum power index value an agent can have is a computationally hard problem.
翻訳日:2021-04-09 12:54:57 公開日:2021-04-08
# ネットワーク内最適化による3次元顔画像再構成

Riggable 3D Face Reconstruction via In-Network Optimization ( http://arxiv.org/abs/2104.03493v1 )

ライセンス: Link先を確認
Ziqian Bai, Zhaopeng Cui, Xiaoming Liu, Ping Tan(参考訳) 本稿では,表情,ポーズ,照度など,個人化された顔リグと画像ごとのパラメータを共同で推定する,単眼画像からの3次元顔再構成法を提案する。 この目的を達成するために、ネットワーク内最適化の異なるエンドツーエンドのトレーニング可能なネットワークを設計する。 ネットワークはまず、フェースリグをニューラルデコーダでコンパクトな潜伏符号としてパラメータ化し、学習可能な最適化を通じて潜伏符号と画像ごとのパラメータを推定する。 パーソナライズされた顔リグを推定することで,静的な再構築を超越し,ビデオ再ターゲティングなどの下流アプリケーションを可能にする。 ネットワーク内での最適化は、第一原理から導かれる制約を明示的に強制し、回帰に基づく手法よりも優先事項を導入する。 最後に、ディープラーニングによるデータ駆動前処理を利用して、不適切な単眼設定を制約し、最適化の困難さを緩和する。 実験により,SOTA再構成精度,ロバスト性,一般化性を実現し,標準的な顔リグアプリケーションをサポートすることを確認した。

This paper presents a method for riggable 3D face reconstruction from monocular images, which jointly estimates a personalized face rig and per-image parameters including expressions, poses, and illuminations. To achieve this goal, we design an end-to-end trainable network embedded with a differentiable in-network optimization. The network first parameterizes the face rig as a compact latent code with a neural decoder, and then estimates the latent code as well as per-image parameters via a learnable optimization. By estimating a personalized face rig, our method goes beyond static reconstructions and enables downstream applications such as video retargeting. In-network optimization explicitly enforces constraints derived from the first principles, thus introduces additional priors than regression-based methods. Finally, data-driven priors from deep learning are utilized to constrain the ill-posed monocular setting and ease the optimization difficulty. Experiments demonstrate that our method achieves SOTA reconstruction accuracy, reasonable robustness and generalization ability, and supports standard face rig applications.
翻訳日:2021-04-09 12:54:34 公開日:2021-04-08
# マルチモーダルデータにおける知識の蒸留によるMRIによるアルツハイマー病予測

MRI-based Alzheimer's disease prediction via distilling the knowledge in multi-modal data ( http://arxiv.org/abs/2104.03618v1 )

ライセンス: Link先を確認
Hao Guan (1), Chaoyue Wang (1), Dacheng Tao (1) ((1) School of Computer Science, The University of Sydney)(参考訳) 軽度認知障害(MCI)変換予測、すなわち、アルツハイマー病(AD)に転換するリスクの高いMCI患者を特定することは、ADの進行を予防または遅らせるために不可欠である。 従来の研究では、マルチモーダルデータの融合は予測精度を効果的に向上させることが示されているが、それらの応用は主にマルチモーダルデータの可用性の制限や高コストによって制限されている。 MRI(MRI)のみを用いた効果的な予測モデルの構築は依然として困難な研究課題である。 本研究では,MCI変換予測のためのMRIネットワークにマルチモーダルデータから学習した知識を抽出することを目的としたマルチモーダルマルチインスタンス蒸留方式を提案する。 既存の蒸留アルゴリズムとは対照的に、提案したマルチインスタンス確率は、複雑な萎縮分布を表現する優れた能力を示し、MRIベースのネットワークを誘導して入力MRIをよりよく探索することができる。 我々の知る限り、マルチモーダル情報から抽出した余分なインスペクションを活用することで、MRIに基づく予測モデルの改善を試みる最初の研究である。 実験は、我々のフレームワークの利点を実証し、データ限定臨床環境での可能性を示している。

Mild cognitive impairment (MCI) conversion prediction, i.e., identifying MCI patients of high risks converting to Alzheimer's disease (AD), is essential for preventing or slowing the progression of AD. Although previous studies have shown that the fusion of multi-modal data can effectively improve the prediction accuracy, their applications are largely restricted by the limited availability or high cost of multi-modal data. Building an effective prediction model using only magnetic resonance imaging (MRI) remains a challenging research topic. In this work, we propose a multi-modal multi-instance distillation scheme, which aims to distill the knowledge learned from multi-modal data to an MRI-based network for MCI conversion prediction. In contrast to existing distillation algorithms, the proposed multi-instance probabilities demonstrate a superior capability of representing the complicated atrophy distributions, and can guide the MRI-based network to better explore the input MRI. To our best knowledge, this is the first study that attempts to improve an MRI-based prediction model by leveraging extra supervision distilled from multi-modal information. Experiments demonstrate the advantage of our framework, suggesting its potentials in the data-limited clinical settings.
翻訳日:2021-04-09 12:54:16 公開日:2021-04-08
# befd: 血管分割のための境界拡張と特徴分断

BEFD: Boundary Enhancement and Feature Denoising for Vessel Segmentation ( http://arxiv.org/abs/2104.03768v1 )

ライセンス: Link先を確認
Mo Zhang, Fei Yu, Jie Zhao, Li Zhang, Quanzheng Li(参考訳) 血管のセグメンテーションは多くの診断や研究用途に不可欠である。 近年、CNNベースのモデルではセグメンテーションの課題が突破されてきているが、そのような手法は通常、船体セグメンテーションに不可欠なオブジェクト境界や微妙な構造といった高周波情報を失う。 この問題に対処するため,我々は,終端から終端にかけて任意のエンコーダ・デコーダ・アーキテクチャに統合可能な意味セグメンテーションにおける境界情報を抽出するネットワーク能力を容易にするために,境界拡張と特徴分断(befd)モジュールを提案する。 Sobelエッジ検出器を導入することで、ネットワークは事前に追加のエッジを取得することができ、医用画像セグメンテーションのための教師なしの方法で境界を拡張できる。 さらに,低レベルの特徴に隠された雑音を低減するために,雑音ブロックを用いる。 網膜血管データセットと血管柄付きデータセットの実験結果は,新しいBEFDモジュールの優れた性能を示す。

Blood vessel segmentation is crucial for many diagnostic and research applications. In recent years, CNN-based models have leaded to breakthroughs in the task of segmentation, however, such methods usually lose high-frequency information like object boundaries and subtle structures, which are vital to vessel segmentation. To tackle this issue, we propose Boundary Enhancement and Feature Denoising (BEFD) module to facilitate the network ability of extracting boundary information in semantic segmentation, which can be integrated into arbitrary encoder-decoder architecture in an end-to-end way. By introducing Sobel edge detector, the network is able to acquire additional edge prior, thus enhancing boundary in an unsupervised manner for medical image segmentation. In addition, we also utilize a denoising block to reduce the noise hidden in the low-level features. Experimental results on retinal vessel dataset and angiocarpy dataset demonstrate the superior performance of the new BEFD module.
翻訳日:2021-04-09 12:53:55 公開日:2021-04-08
# 不確かさを意識した時間的自己学習(UATS):前立腺領域のセグメンテーションのための半教師付き学習

Uncertainty-Aware Temporal Self-Learning (UATS): Semi-Supervised Learning for Segmentation of Prostate Zones and Beyond ( http://arxiv.org/abs/2104.03840v1 )

ライセンス: Link先を確認
Anneke Meyer, Suhita Ghosh, Daniel Schindele, Martin Schostak, Sebastian Stober, Christian Hansen, Marko Rak(参考訳) 様々な畳み込みニューラルネットワーク(CNN)に基づく概念が、前立腺の自動分割と、その粗い部分分割をトランジションゾーン(TZ)と周辺ゾーン(PZ)に導入している。 しかし, TZ, PZ, 遠位前立腺尿道(DPU)および前線維筋肉腫(AFS)の微細な分節化を目標とすると, 課題はより困難になり, 人間のパフォーマンスのレベルではまだ解決されていない。 ひとつの理由として、教師付きトレーニングのためのラベル付きデータの不足がある。 そこで本研究では,半教師付き学習 (ssl) 手法である不確実性認識時間学習 (uats) を適用し,コストと時間を要する手話の真理ラベリングを克服する手法を提案する。 SSL技術と時間的アンサンブルと不確実性誘導型自己学習を組み合わせることで、ラベルのないイメージを活用できます。 本手法は, 教師付きベースラインよりも有意に優れ, 最大78.9%, 87.3%, 75.3%, 50.6%, TZ, PZ, DPU, AFSのDice係数が得られた。 得られた結果は、すべての構造に対する人間性能の範囲である。 さらに,この手法の雑音に対する頑健性について検討し,ラベル付きデータの比率や海馬や皮膚病変のセグメンテーションといった課題に対する一般化能力を示す。 UATSは、特に最小限のラベル付きデータに対して、教師付きベースラインよりも優れたセグメンテーション品質を実現した。

Various convolutional neural network (CNN) based concepts have been introduced for the prostate's automatic segmentation and its coarse subdivision into transition zone (TZ) and peripheral zone (PZ). However, when targeting a fine-grained segmentation of TZ, PZ, distal prostatic urethra (DPU) and the anterior fibromuscular stroma (AFS), the task becomes more challenging and has not yet been solved at the level of human performance. One reason might be the insufficient amount of labeled data for supervised training. Therefore, we propose to apply a semi-supervised learning (SSL) technique named uncertainty-aware temporal self-learning (UATS) to overcome the expensive and time-consuming manual ground truth labeling. We combine the SSL techniques temporal ensembling and uncertainty-guided self-learning to benefit from unlabeled images, which are often readily available. Our method significantly outperforms the supervised baseline and obtained a Dice coefficient (DC) of up to 78.9% , 87.3%, 75.3%, 50.6% for TZ, PZ, DPU and AFS, respectively. The obtained results are in the range of human inter-rater performance for all structures. Moreover, we investigate the method's robustness against noise and demonstrate the generalization capability for varying ratios of labeled data and on other challenging tasks, namely the hippocampus and skin lesion segmentation. UATS achieved superiority segmentation quality compared to the supervised baseline, particularly for minimal amounts of labeled data.
翻訳日:2021-04-09 12:53:38 公開日:2021-04-08
# 尿路内視鏡像における病変検出のためのトランスファーラーニングアプローチ

A transfer-learning approach for lesion detection in endoscopic images from the urinary tract ( http://arxiv.org/abs/2104.03927v1 )

ライセンス: Link先を確認
Jorge F. Lazo, Sara Moccia, Aldo Marzullo, Michele Catellani, Ottavio De Cobelli, Benoit Rosa, Michel de Mathelin, Elena De Momi(参考訳) 尿管鏡および嚢胞内視鏡は、尿路沿いの腫瘍を同定し治療するための金標準法である。 通常の手術では病変の10~20%が欠落していたことが報告されている。 本研究では,2段階のトレーニング戦略を用いて3つの異なる畳み込みニューラルネットワーク(cnns)を実装し,病変の有無に関わらず尿路からの画像を分類する。 尿管内視鏡および膀胱内視鏡検査で計6,101枚の画像が得られた。 CNNは3つのデータセット上で2段階の方法でトランスファー学習を使用してトレーニングされ、テストされた。 1) 尿管内視鏡像のみ, 2) 嚢胞内視鏡像のみ, 3) 両者の組み合わせが得られた。 膀胱内視鏡検査では,roc曲線 (auc) 値0.846以下の領域の検索が良好であった。 resnet50は尿管内視鏡および両データセットの組み合わせにおいて, 0.987および0.940のauc値で最高の結果を得た。 両方のドメインを理解したトレーニングデータセットを使用することで、一般的にパフォーマンスが向上するが、転送学習の第2段階の実行は、同等のパフォーマンスを達成する。 すべてのシナリオでパフォーマンスが向上する単一のモデルはありませんが、ResNet50は、ほとんどのシナリオで最高のパフォーマンスを達成するネットワークです。 その結果,尿路系内視鏡像の病変検出の改善を視野に入れ,さらなる調査の機会が開けた。

Ureteroscopy and cystoscopy are the gold standard methods to identify and treat tumors along the urinary tract. It has been reported that during a normal procedure a rate of 10-20 % of the lesions could be missed. In this work we study the implementation of 3 different Convolutional Neural Networks (CNNs), using a 2-steps training strategy, to classify images from the urinary tract with and without lesions. A total of 6,101 images from ureteroscopy and cystoscopy procedures were collected. The CNNs were trained and tested using transfer learning in a two-steps fashion on 3 datasets. The datasets used were: 1) only ureteroscopy images, 2) only cystoscopy images and 3) the combination of both of them. For cystoscopy data, VGG performed better obtaining an Area Under the ROC Curve (AUC) value of 0.846. In the cases of ureteroscopy and the combination of both datasets, ResNet50 achieved the best results with AUC values of 0.987 and 0.940. The use of a training dataset that comprehends both domains results in general better performances, but performing a second stage of transfer learning achieves comparable ones. There is no single model which performs better in all scenarios, but ResNet50 is the network that achieves the best performances in most of them. The obtained results open the opportunity for further investigation with a view for improving lesion detection in endoscopic images of the urinary system.
翻訳日:2021-04-09 12:53:09 公開日:2021-04-08
# MCMCを模擬したガウス過程による雑音可能性からの近似ベイズ推定

Approximate Bayesian inference from noisy likelihoods with Gaussian process emulated MCMC ( http://arxiv.org/abs/2104.03942v1 )

ライセンス: Link先を確認
Marko J\"arvenp\"a\"a, Jukka Corander(参考訳) 複素モデルの応用においてますます一般的になりつつある計算制約により、限られたノイズ可能性評価しか得られない場合に、近似ベイズ推定を効率的に行う方法を提案する。 提案手法は,gaussian process (gp) を用いたlog-likelihood関数を局所的にモデル化し,metropolis-hastings (mh) アルゴリズムが適用可能であれば,その進展をエミュレートする手法である。 予め特定されたエラー許容範囲内で、各MHの受け入れ/拒絶判定を行うような逐次的な設計戦略を用いて、新しいログ状評価位置を選択する。 その結果得られたアプローチは、gpモデルを完全に活用するため、概念的にはシンプルでサンプル効率がよい。 また、GPモデリングの仮定違反に対してより堅牢であり、グローバルGPサロゲートモデリングに基づく様々な既存の推論手法と比較して、後方が前よりもかなり集中している典型的な状況に適している。 提案手法の確率論的解釈と中央理論的な側面を考察し,シミュレータに基づく統計モデルにおける確率的推論の文脈における結果アルゴリズムの利点を実証する。

We present an efficient approach for doing approximate Bayesian inference when only a limited number of noisy likelihood evaluations can be obtained due to computational constraints, which is becoming increasingly common for applications of complex models. Our main methodological innovation is to model the log-likelihood function using a Gaussian process (GP) in a local fashion and apply this model to emulate the progression that an exact Metropolis-Hastings (MH) algorithm would take if it was applicable. New log-likelihood evaluation locations are selected using sequential experimental design strategies such that each MH accept/reject decision is done within a pre-specified error tolerance. The resulting approach is conceptually simple and sample-efficient as it takes full advantage of the GP model. It is also more robust to violations of GP modelling assumptions and better suited for the typical situation where the posterior is substantially more concentrated than the prior, compared with various existing inference methods based on global GP surrogate modelling. We discuss the probabilistic interpretations and central theoretical aspects of our approach, and we then demonstrate the benefits of the resulting algorithm in the context of likelihood-free inference for simulator-based statistical models.
翻訳日:2021-04-09 12:52:20 公開日:2021-04-08
# リモートおよびポータブルレーザー誘起分解分光のための半教師付きオンデバイスニューラルネットワーク適応

Semi-supervised on-device neural network adaptation for remote and portable laser-induced breakdown spectroscopy ( http://arxiv.org/abs/2104.03439v1 )

ライセンス: Link先を確認
Kshitij Bhardwaj and Maya Gokhale(参考訳) レーザー誘起分解分光法(LIBS)は、金属の工業分析や宇宙探査など、ターゲット試料の化学組成を決定するために用いられる、一般的な高速元素分析法である。 近年,LIBSデータ処理における機械学習(ML)技術の利用が増加している。 しかし、LIBSのMLは、 (i) 予測モデルは、高度にリソースを制約されたバッテリー駆動のポータブルなLIBSシステムにデプロイする必要があるため軽量でなければならない; (ii) 遠隔操作が可能であるため、モデルは、トレーニングデータや動的環境/センサノイズに異なる入力タイプがないため、入力分布におけるドメインシフトに自己適応できなければならない。 このオンデバイスでのモデルのリトレーニングは、リモートlibsシステムに新しいラベル付きデータがないため、高速であるだけでなく、教師なしであるべきである。 本稿では,新たな入力データに対してラベルを必要とせずにデバイス上で適用可能な軽量多層パーセプトロン(MLP)モデルを提案する。 データストリーミング中の平均精度は89.3%、適応をサポートしないMLPモデルに比べて最大2.1%高い精度を示している。 また,Google Pixel2電話機上でのモデルの推論と再トレーニング性能も特徴付ける。

Laser-induced breakdown spectroscopy (LIBS) is a popular, fast elemental analysis technique used to determine the chemical composition of target samples, such as in industrial analysis of metals or in space exploration. Recently, there has been a rise in the use of machine learning (ML) techniques for LIBS data processing. However, ML for LIBS is challenging as: (i) the predictive models must be lightweight since they need to be deployed in highly resource-constrained and battery-operated portable LIBS systems; and (ii) since these systems can be remote, the models must be able to self-adapt to any domain shift in input distributions which could be due to the lack of different types of inputs in training data or dynamic environmental/sensor noise. This on-device retraining of model should not only be fast but also unsupervised due to the absence of new labeled data in remote LIBS systems. We introduce a lightweight multi-layer perceptron (MLP) model for LIBS that can be adapted on-device without requiring labels for new input data. It shows 89.3% average accuracy during data streaming, and up to 2.1% better accuracy compared to an MLP model that does not support adaptation. Finally, we also characterize the inference and retraining performance of our model on Google Pixel2 phone.
翻訳日:2021-04-09 12:51:34 公開日:2021-04-08
# 空気中におけるコミュニケーションとフェデレーション学習の協調最適化

Joint Optimization of Communications and Federated Learning Over the Air ( http://arxiv.org/abs/2104.03490v1 )

ライセンス: Link先を確認
Xin Fan, Yue Wang, Yan Huo, and Zhi Tian(参考訳) フェデレートラーニング(FL)は、データプライバシを保護しながら、リッチな分散データを利用するための魅力的なパラダイムである。 それにもかかわらず、非理想的通信リンクと限られた送信リソースは高速で正確なflの実装のボトルネックとなっている。 本稿では,リアル無線ネットワークにおけるアナログアグリゲーション伝送に基づく通信とFLの協調最適化について検討する。 まず,空気上のFLの収束速度に対する閉形式式を導出し,FLに対するアナログ凝集の影響を理論的に定量化する。 解析結果に基づいて,パラメータサーバが作業者のサブセットを選択し,適切な電力スケーリング係数を決定することのできる,正確なFL実装のための共同最適化モデルを開発した。 空気上のflの実用的設定は観測不能パラメータに遭遇するので,制御近似を用いた作業者選択と電力割当の協調最適化を再構成する。 最後に、探索空間を小さくすることで、単純かつ最適な有限集合探索法により、結果の混合整数プログラミング問題を効率的に解く。 シミュレーションの結果,提案手法はベンチマーク法を上回り,ノイズのない無線チャネル上でflが実装される理想的な場合と同等の性能が得られることがわかった。

Federated learning (FL) is an attractive paradigm for making use of rich distributed data while protecting data privacy. Nonetheless, nonideal communication links and limited transmission resources have become the bottleneck of the implementation of fast and accurate FL. In this paper, we study joint optimization of communications and FL based on analog aggregation transmission in realistic wireless networks. We first derive a closed-form expression for the expected convergence rate of FL over the air, which theoretically quantifies the impact of analog aggregation on FL. Based on the analytical result, we develop a joint optimization model for accurate FL implementation, which allows a parameter server to select a subset of workers and determine an appropriate power scaling factor. Since the practical setting of FL over the air encounters unobservable parameters, we reformulate the joint optimization of worker selection and power allocation using controlled approximation. Finally, we efficiently solve the resulting mixed-integer programming problem via a simple yet optimal finite-set search method by reducing the search space. Simulation results show that the proposed solutions developed for realistic wireless analog channels outperform a benchmark method, and achieve comparable performance of the ideal case where FL is implemented over noise-free wireless channels.
翻訳日:2021-04-09 12:51:13 公開日:2021-04-08
# 強化学習を用いた数値積分のための効率的な時間ステップ

Efficient time stepping for numerical integration using reinforcement learning ( http://arxiv.org/abs/2104.03562v1 )

ライセンス: Link先を確認
Michael Dellnitz and Eyke H\"ullermeier and Marvin L\"ucke and Sina Ober-Bl\"obaum and Christian Offen and Sebastian Peitz and Karlson Pfannschmidt(参考訳) 科学と工学における多くの問題は積分の効率的な数値近似を必要とするが、特に重要な応用は微分方程式の初期値問題の数値解である。 複素系では、等距離離散化は、禁止的に大きな誤差または計算の労力をもたらすため、しばしば不適切である。 この目的のためにテイラー級数展開に基づく誤差推定子に依存する適応スキームが開発されている。 これらの推定子a)は強い滑らかさの仮定に依存しており、b) 複雑なシステムに対する誤ったステップ(つまり、ステップ拒否のメカニズムが必要)をもたらす可能性があるが、我々は機械学習に基づくデータ駆動時間ステッピングスキーム、特に強化学習(rl)とメタラーニングを提案する。 まず、(スムースまたはハイブリッドシステムの場合)1人または複数のベース学習者がrlを使用して訓練される。 次に、メタ学習者を訓練し、(システム状態に依存する)現在の状況に最適なベース学習者を選択する。 滑らかかつ非滑らかな問題を含むいくつかの例は、最先端の数値スキームに対する我々のアプローチの優れた性能を示している。 コードはhttps://github.com/l ueckem/quadrature-ML で入手できる。

Many problems in science and engineering require the efficient numerical approximation of integrals, a particularly important application being the numerical solution of initial value problems for differential equations. For complex systems, an equidistant discretization is often inadvisable, as it either results in prohibitively large errors or computational effort. To this end, adaptive schemes have been developed that rely on error estimators based on Taylor series expansions. While these estimators a) rely on strong smoothness assumptions and b) may still result in erroneous steps for complex systems (and thus require step rejection mechanisms), we here propose a data-driven time stepping scheme based on machine learning, and more specifically on reinforcement learning (RL) and meta-learning. First, one or several (in the case of non-smooth or hybrid systems) base learners are trained using RL. Then, a meta-learner is trained which (depending on the system state) selects the base learner that appears to be optimal for the current situation. Several examples including both smooth and non-smooth problems demonstrate the superior performance of our approach over state-of-the-art numerical schemes. The code is available under https://github.com/l ueckem/quadrature-ML .
翻訳日:2021-04-09 12:50:55 公開日:2021-04-08
# GKD:グラフ独立推論のための半教師付きグラフ知識蒸留

GKD: Semi-supervised Graph Knowledge Distillation for Graph-Independent Inference ( http://arxiv.org/abs/2104.03597v1 )

ライセンス: Link先を確認
Mahsa Ghorbani, Mojtaba Bahrami, Anees Kazi, Mahdieh SoleymaniBaghshah, Hamid R. Rabiee, and Nassir Navab(参考訳) マルチモーダル医療データの増大により、画像や非画像データなどの様々なモダリティを同時に処理し、疾患予測領域に関する包括的な洞察を得る機会が開かれた。 グラフ畳み込みネットワーク(GCN)を用いた最近の研究は、患者の疾患予測関連を調査しながら、異質なモダリティを統合するための新しい半教師付きアプローチを提供する。 しかし、グラフ構築に使用されるメタデータが推論時に利用できない場合(例えば、異なる集団から来る場合)、従来の手法では性能が低下する。 そこで本研究では,知識蒸留に基づく新しい半教師付き手法GKDを提案する。 学習段階でのみグラフと非グラフモダリティの恩恵を受けるために,ディープニューラルネットワークの他にラベル伝達アルゴリズムを用いた教師コンポーネントをトレーニングする。 教師コンポーネントは利用可能なすべての情報をソフトな擬似ラベルに埋め込む。 次に、ソフト擬似ラベルを使用して、グラフモダリティが利用できない未発見のテストデータの病気予測のための深層学生ネットワークを訓練する。 自閉症スペクトラム障害とアルツハイマー病を診断するための2つの公開データセットと,合成多モードデータセットの徹底的な解析を行った。 これらの実験によると、GKDは従来のグラフベースのディープラーニング手法よりも精度、AUC、マクロF1で優れている。

The increased amount of multi-modal medical data has opened the opportunities to simultaneously process various modalities such as imaging and non-imaging data to gain a comprehensive insight into the disease prediction domain. Recent studies using Graph Convolutional Networks (GCNs) provide novel semi-supervised approaches for integrating heterogeneous modalities while investigating the patients' associations for disease prediction. However, when the meta-data used for graph construction is not available at inference time (e.g., coming from a distinct population), the conventional methods exhibit poor performance. To address this issue, we propose a novel semi-supervised approach named GKD based on knowledge distillation. We train a teacher component that employs the label-propagation algorithm besides a deep neural network to benefit from the graph and non-graph modalities only in the training phase. The teacher component embeds all the available information into the soft pseudo-labels. The soft pseudo-labels are then used to train a deep student network for disease prediction of unseen test data for which the graph modality is unavailable. We perform our experiments on two public datasets for diagnosing Autism spectrum disorder, and Alzheimer's disease, along with a thorough analysis on synthetic multi-modal datasets. According to these experiments, GKD outperforms the previous graph-based deep learning methods in terms of accuracy, AUC, and Macro F1.
翻訳日:2021-04-09 12:50:34 公開日:2021-04-08
# IoTにおける多変量時系列異常検出のための変換器を用いたグラフ構造学習

Learning Graph Structures with Transformer for Multivariate Time Series Anomaly Detection in IoT ( http://arxiv.org/abs/2104.03466v1 )

ライセンス: Link先を確認
Zekai Chen, Dingshuo Chen, Zixuan Yuan, Xiuzhen Cheng, Xiao Zhang(参考訳) 様々なインターネットに接続されたセンサーデバイスを含む多くの現実世界のiotシステムは、大量の多変量時系列データを生成する。 一方、スマート電力グリッドや配水ネットワークといった重要なIoTインフラストラクチャは、しばしばサイバー攻撃の標的であり、研究価値を異常に検出する。 しかし,センサ間の複雑なトポロジカルおよび非線形依存関係を考えると,そのような関係性をモデル化することは,効率的かつ正確な異常検出システムでは避けられない。 さらに、多変量時系列の時間依存性と確率性のため、異常検出は依然として大きな課題である。 本研究は,グラフ構造を自動学習し,グラフ畳み込みと時間依存性のモデル化を行い,多変量時系列異常検出のための新しいフレームワークであるgtaを提案した。 グラフ構造学習の基本的な考え方は、Gumbel-softmaxサンプリング戦略に基づいて、センサ間の双方向関連を直接学習する接続学習ポリシーと呼ばれる。 また,グラフノード間の異常情報フローをモデル化するために,影響伝播畳み込みという新しいグラフ畳み込みを考案した。 さらに,2次複雑性を克服するために,従来のマルチヘッド自己注意の代わりにマルチブランチアテンション機構を提案する。 4つの公開異常検出ベンチマークに関する広範な実験は、我々のアプローチが他の最先端技術よりも優れていることを示している。

Many real-world IoT systems comprising various internet-connected sensory devices generate substantial amounts of multivariate time series data. Meanwhile, those critical IoT infrastructures, such as smart power grids and water distribution networks, are often targets of cyber-attacks, making anomaly detection of high research value. However, considering the complex topological and nonlinear dependencies that are initially unknown among sensors, modeling such relatedness is inevitable for any efficient and accurate anomaly detection system. Additionally, due to multivariate time series' temporal dependency and stochasticity, their anomaly detection remains a big challenge. This work proposed a novel framework, namely GTA, for multivariate time series anomaly detection by automatically learning a graph structure followed by the graph convolution and modeling the temporal dependency through a Transformer-based architecture. The core idea of learning graph structure is called the connection learning policy based on the Gumbel-softmax sampling strategy to learn bi-directed associations among sensors directly. We also devised a novel graph convolution named Influence Propagation convolution to model the anomaly information flow between graph nodes. Moreover, we proposed a multi-branch attention mechanism to substitute for original multi-head self-attention to overcome the quadratic complexity challenge. The extensive experiments on four public anomaly detection benchmarks further demonstrate our approach's superiority over other state-of-the-arts.
翻訳日:2021-04-09 12:49:55 公開日:2021-04-08
# QD-GCN: 分散コミュニティ検索のためのクエリ駆動グラフ畳み込みネットワーク

QD-GCN: Query-Driven Graph Convolutional Networks for Attributed Community Search ( http://arxiv.org/abs/2104.03583v1 )

ライセンス: Link先を確認
Yuli Jiang, Yu Rong, Hong Cheng, Xin Huang, Kangfei Zhao, Junzhou Huang(参考訳) 近年,コミュニティ検出やグラフクラスタリングと関連するが,異なる問題である有意なコミュニティ検索が文献で広く研究されている。 グラフから既存の静的なコミュニティを見つけ出すコミュニティ検出と比較すると,任意のクエリを与えられた凝集構造と均質なノード属性の両方を持つ動的コミュニティを見つけることを目的としているため,属性付きコミュニティ検索(ACS)の方が難しい。 ACS問題を解くために最も一般的なパラダイムは、構造マッチングと属性フィルタリングという2つのサブプロブレムとして問題を単純化し、それらを別々に扱うことである。 しかし、実世界のグラフでは、コミュニティ構造とノード属性は実際には相互に相関している。 この静脈において、現在の研究は、ACS問題に不可欠なこれらの相関を捉えることはできない。 本稿では,クエリ駆動型グラフ畳み込みネットワーク(qd-gcn)を提案する。 特にQD-GCNでは,グラフトポロジとノード属性を同時に符号化する強力なツールであるGraph Convolutional Networksを活用して,クエリ依存のコミュニティ情報を元のグラフから抽出する。 このクエリ依存のコミュニティ情報を利用することで、QD-GCNはクエリを指定してターゲットコミュニティを予測することができる。 qd-gcnが既存のコミュニティ検索アルゴリズムよりも効率と有効性の両方において優れていることが実世界グラフ実験によって示されている。

Recently, attributed community search, a related but different problem to community detection and graph clustering, has been widely studied in the literature. Compared with the community detection that finds all existing static communities from a graph, the attributed community search (ACS) is more challenging since it aims to find dynamic communities with both cohesive structures and homogeneous node attributes given arbitrary queries. To solve the ACS problem, the most popular paradigm is to simplify the problem as two sub-problems, that is, structural matching and attribute filtering and deal with them separately. However, in real-world graphs, the community structure and the node attributes are actually correlated to each other. In this vein, current studies cannot capture these correlations which are vital for the ACS problem. In this paper, we propose Query-Driven Graph Convolutional Networks (QD-GCN), an end-to-end framework that unifies the community structure as well as node attribute to solve the ACS problem. In particular, QD-GCN leverages the Graph Convolutional Networks, which is a powerful tool to encode the graph topology and node attributes concurrently, as the backbones to extract the query-dependent community information from the original graph. By utilizing this query-dependent community information, QD-GCN is able to predict the target community given any queries. Experiments on real-world graphs with ground-truth communities demonstrate that QD-GCN outperforms existing attributed community search algorithms in terms of both efficiency and effectiveness.
翻訳日:2021-04-09 12:49:32 公開日:2021-04-08
# 残留ガウス過程:マルチフィデリティシミュレーションのための可搬性非パラメトリックベイズエミュレータ

Residual Gaussian Process: A Tractable Nonparametric Bayesian Emulator for Multi-fidelity Simulations ( http://arxiv.org/abs/2104.03743v1 )

ライセンス: Link先を確認
Wei W. Xing, Akeel A. Shah, Peng Wang, Shandian Zhe Qian Fu, and Robert. M. Kirby(参考訳) 多重忠実性モデリングにおける課題は、精度、不確実性推定、高次元性に関するものである。 最下位の忠実度解の和として最も高い忠実度解と連続する忠実度レベルにおける解間の残差とが書かれ、ガウス過程が低忠実度解および各残差の上に置かれる新規な付加構造が導入された。 得られたモデルは予測後段に対する閉形式解を備えており、不確実性推定を必要とする高度な高次元タスクに適用できる。 その利点は、単変量ベンチマークと3つの挑戦的多変量問題で示される。 特に計算予算が限られているモデルを改善するために,アクティブな学習がいかに有効かを示す。 さらに、不定値の場合の平均予測に対して誤差境界を導出する。

Challenges in multi-fidelity modeling relate to accuracy, uncertainty estimation and high-dimensionality. A novel additive structure is introduced in which the highest fidelity solution is written as a sum of the lowest fidelity solution and residuals between the solutions at successive fidelity levels, with Gaussian process priors placed over the low fidelity solution and each of the residuals. The resulting model is equipped with a closed-form solution for the predictive posterior, making it applicable to advanced, high-dimensional tasks that require uncertainty estimation. Its advantages are demonstrated on univariate benchmarks and on three challenging multivariate problems. It is shown how active learning can be used to enhance the model, especially with a limited computational budget. Furthermore, error bounds are derived for the mean prediction in the univariate case.
翻訳日:2021-04-09 12:49:05 公開日:2021-04-08
# クリーントレーニングデータのない音声の聴取:ノイズ2雑音アプローチ

Speech Denoising without Clean Training Data: a Noise2Noise Approach ( http://arxiv.org/abs/2104.03838v1 )

ライセンス: Link先を確認
Madhav Mahesh Kashyap, Anuj Tambwekar, Krishnamoorthy Manohara, S Natarajan(参考訳) 本稿では, 雑音下音声サンプルのみを用いて, 深層音声認識ネットワークを訓練できることを示すことにより, 深層学習に基づく音声デオライズ手法で要求されるクリーン音声データの重み依存問題に対処する。 従来の認識では、優れた発声性能を達成するためには、ノイズの多い音声サンプルと完全にクリーンな音声サンプルの両方が必要であり、高価な録音装置と極端に制御された防音録音スタジオが必要である。 これらの要件は、特に経済的に不利な地域や低リソース言語において、データ収集において大きな課題となる。 本研究は, 雑音訓練音声のみを用いて, ディープニューラルネットワークを用いた音声の学習を成功させることを示す。 さらに, 複雑な雑音分布と低信号対雑音比(高雑音環境)を含む場合において, クリーントレーニング音声目標を用いた従来の訓練方式よりも高い音化性能を達成できることが判明した。 本研究は,20階層のDeep Complex U-Netアーキテクチャを用いた実環境雑音と合成雑音の両方に対する提案手法の有効性を実証した。

This paper tackles the problem of the heavy dependence of clean speech data required by deep learning based audio-denoising methods by showing that it is possible to train deep speech denoising networks using only noisy speech samples. Conventional wisdom dictates that in order to achieve good speech denoising performance, there is a requirement for a large quantity of both noisy speech samples and perfectly clean speech samples, resulting in a need for expensive audio recording equipment and extremely controlled soundproof recording studios. These requirements pose significant challenges in data collection, especially in economically disadvantaged regions and for low resource languages. This work shows that speech denoising deep neural networks can be successfully trained utilizing only noisy training audio. Furthermore it is revealed that such training regimes achieve superior denoising performance over conventional training regimes utilizing clean training audio targets, in cases involving complex noise distributions and low Signal-to-Noise ratios (high noise environments). This is demonstrated through experiments studying the efficacy of our proposed approach over both real-world noises and synthetic noises using the 20 layered Deep Complex U-Net architecture.
翻訳日:2021-04-09 12:48:52 公開日:2021-04-08
# SerumRNN: ステップバイステップオーディオVSTエフェクトプログラミング

SerumRNN: Step by Step Audio VST Effect Programming ( http://arxiv.org/abs/2104.03876v1 )

ライセンス: Link先を確認
Christopher Mitcheltree, Hideki Koike(参考訳) 音声生成VSTシンセサイザーをプログラムする学習は、通常、非効率な試行錯誤によって得られる時間のかかるプロセスであり、長年の経験の後にのみ習得される。 音声設計者のための教育的・創造的なツールとして,音声効果を適用し,ユーザの入力音声を所望の音声へ変更するためのステップ・バイ・ステップの指示を行うシステムであるsoseornnを提案する。 我々はXfer Records Serumにシステムを適用し、現在オーディオ制作コミュニティで使われている最もポピュラーで複雑なVSTシンセサイザーの1つである。 以上の結果から,SerumRNNは様々なオーディオ効果やシンセサイザープリセットに対して,常に有用なフィードバックを提供することができることがわかった。 本稿では,反復システムの利点を示し,SerumRNNがエフェクトの優先順位付けを学習し,様々なベースラインよりも効率の良いエフェクト順序列を発見できることを示す。

Learning to program an audio production VST synthesizer is a time consuming process, usually obtained through inefficient trial and error and only mastered after years of experience. As an educational and creative tool for sound designers, we propose SerumRNN: a system that provides step-by-step instructions for applying audio effects to change a user's input audio towards a desired sound. We apply our system to Xfer Records Serum: currently one of the most popular and complex VST synthesizers used by the audio production community. Our results indicate that SerumRNN is consistently able to provide useful feedback for a variety of different audio effects and synthesizer presets. We demonstrate the benefits of using an iterative system and show that SerumRNN learns to prioritize effects and can discover more efficient effect order sequences than a variety of baselines.
翻訳日:2021-04-09 12:48:33 公開日:2021-04-08
# ニューラルネットワークを用いたマッチングフィルタリングの一般化

Generalized Approach to Matched Filtering using Neural Networks ( http://arxiv.org/abs/2104.03961v1 )

ライセンス: Link先を確認
Jingkai Yan, Mariam Avagyan, Robert E. Colgan, Do\u{g}a Veske, Imre Bartos, John Wright, Zsuzsa M\'arka, Szabolcs M\'arka(参考訳) 重力波科学は先駆的な分野であり、現在急速に進化しているデータ分析手法は深層学習技術を模倣し発明している。 フィールドの洗練された旗艦探索の大部分は、コア内のタイムテストされたマッチングフィルタリング原理に依存している。 本稿では,新たな深層学習と従来の手法との関係について重要な考察を行う。マッチングフィルタリングは,特定のニューラルネットワークと正式に等価である。 つまり、ニューラルネットワークは、マッチしたフィルタリングを正確に実装するために分析的に構築することができ、さらにデータでトレーニングしたり、パフォーマンスを改善するためにさらなる複雑さで強化することができる。 この基本的な等価性は、重力波信号に対する異なるアプローチの相対的複雑さを共通の枠組みで特徴付ける「複雑度標準ろうそく」を定義することを可能にする。 さらに、ニューラルネットワークが圧倒的なノイズの中で信号を見つける問題にどうアプローチするかの手がかりとなる興味深い対称性を垣間見ることができる。 さらに,提案したニューラルネットワークアーキテクチャは,パラメータ分布の事前知識の有無にかかわらず,マッチングフィルタリングよりも優れていることを示す。 事前が与えられると、提案したニューラルネットワークは統計的に最適な性能に近づくことができる。 また,mnet-shallowとmnet-deepという2つの異なるニューラルネットワークアーキテクチャを提案し,検討した。 MNet-Shallowはより単純な構造を持ち、MNet-Deepはより柔軟で幅広い分布を扱うことができる。 LIGOデータと合成インジェクションを用いた実験により理論的知見を裏付ける。 最後に,重力波検出における深層学習の役割に関する新たな視点を提案する。

Gravitational wave science is a pioneering field with rapidly evolving data analysis methodology currently assimilating and inventing deep learning techniques. The bulk of the sophisticated flagship searches of the field rely on the time-tested matched filtering principle within their core. In this paper, we make a key observation on the relationship between the emerging deep learning and the traditional techniques: matched filtering is formally equivalent to a particular neural network. This means that a neural network can be constructed analytically to exactly implement matched filtering, and can be further trained on data or boosted with additional complexity for improved performance. This fundamental equivalence allows us to define a "complexity standard candle" allowing us to characterize the relative complexity of the different approaches to gravitational wave signals in a common framework. Additionally it also provides a glimpse of an intriguing symmetry that could provide clues on how neural networks approach the problem of finding signals in overwhelming noise. Moreover, we show that the proposed neural network architecture can outperform matched filtering, both with or without knowledge of a prior on the parameter distribution. When a prior is given, the proposed neural network can approach the statistically optimal performance. We also propose and investigate two different neural network architectures MNet-Shallow and MNet-Deep, both of which implement matched filtering at initialization and can be trained on data. MNet-Shallow has simpler structure, while MNet-Deep is more flexible and can deal with a wider range of distributions. Our theoretical findings are corroborated by experiments using real LIGO data and synthetic injections. Finally, our results suggest new perspectives on the role of deep learning in gravitational wave detection.
翻訳日:2021-04-09 12:47:51 公開日:2021-04-08
# (参考訳) SOLO: オンライン検索, 組合せ最適化問題のオフライン学習 [全文訳有]

SOLO: Search Online, Learn Offline for Combinatorial Optimization Problems ( http://arxiv.org/abs/2104.01646v2 )

ライセンス: CC BY 4.0
Joel Oren, Chana Ross, Maksym Lefarov, Felix Richter, Ayal Taitler, Zohar Feldman, Christian Daniel, Dotan Di Castro(参考訳) 本研究では,マシンスケジューリング,ルーティング,割り当てといった実世界のアプリケーションにおける組合せ問題について検討する。 強化学習(RL)と計画を組み合わせる手法を提案する。 この方法は、オフラインでもオンラインでも、問題コンポーネント(例えばスケジューリング問題におけるジョブ)が事前に知られておらず、意思決定プロセス中に到着するコンビネータ問題でも同じように適用することができる。 私たちのソリューションは非常に汎用的でスケーラブルで、問題パラメータの分散知識を活用しています。 我々は、解法プロセスをMDPとして構成し、状態がグラフとして表現されるディープQラーニングアプローチを採用し、訓練されたポリシーが原則化された方法で任意の変更に対処できるようにする。 学習されたポリシーは期待通りに機能するが、小さな偏差は組合せ設定においてかなりの負の効果を持つ。 これらの欠点を、互換性のある探索アルゴリズムであるモンテカルロ木探索において、グラフ畳み込みポリシーを非最適ヒューリスティックとして利用することで軽減し、全体的な性能を大幅に向上させる。 提案手法は, マシンスケジューリングとキャパシタ付き車両ルーティングの2つの問題について実証する。 本手法は, 計算時間と性能の両方において, 独自に調整した数学解法, 美術学習に基づくアルゴリズム, および共通ヒューリスティックスよりも優れていることを示す。

We study combinatorial problems with real world applications such as machine scheduling, routing, and assignment. We propose a method that combines Reinforcement Learning (RL) and planning. This method can equally be applied to both the offline, as well as online, variants of the combinatorial problem, in which the problem components (e.g., jobs in scheduling problems) are not known in advance, but rather arrive during the decision-making process. Our solution is quite generic, scalable, and leverages distributional knowledge of the problem parameters. We frame the solution process as an MDP, and take a Deep Q-Learning approach wherein states are represented as graphs, thereby allowing our trained policies to deal with arbitrary changes in a principled manner. Though learned policies work well in expectation, small deviations can have substantial negative effects in combinatorial settings. We mitigate these drawbacks by employing our graph-convolutional policies as non-optimal heuristics in a compatible search algorithm, Monte Carlo Tree Search, to significantly improve overall performance. We demonstrate our method on two problems: Machine Scheduling and Capacitated Vehicle Routing. We show that our method outperforms custom-tailored mathematical solvers, state of the art learning-based algorithms, and common heuristics, both in computation time and performance.
翻訳日:2021-04-09 11:48:09 公開日:2021-04-08
# (参考訳) InverseForm: 構造化境界認識セグメンテーションのためのロス関数 [全文訳有]

InverseForm: A Loss Function for Structured Boundary-Aware Segmentation ( http://arxiv.org/abs/2104.02745v2 )

ライセンス: CC BY 4.0
Shubhankar Borse, Ying Wang, Yizhe Zhang, Fatih Porikli(参考訳) 本稿では,推定と対象境界間のパラメトリック変換の程度を効率的に学習する逆変換ネットワークを用いた意味セグメンテーションのための新しい境界認識損失項を提案する。 このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完し、そのサイズと計算複雑性を増大させることなくセグメンテーションバックボーンモデルの一貫性と顕著な性能向上を可能にする。 都市景観,NYU-Depth-v2,PASCAL を含む3つの屋内および屋外セグメンテーション・ベンチマークにおける損失関数の定量的および定性的効果を解析し,複数のバックボーンネットワークのトレーニングフェーズに統合した。 実験の結果,提案手法はベースラインを一貫して上回り,また2つのデータセットに対して新たな最先端設定を行うことができた。

We present a novel boundary-aware loss term for semantic segmentation using an inverse-transformati on network, which efficiently learns the degree of parametric transformations between estimated and target boundaries. This plug-in loss term complements the cross-entropy loss in capturing boundary transformations and allows consistent and significant performance improvement on segmentation backbone models without increasing their size and computational complexity. We analyze the quantitative and qualitative effects of our loss function on three indoor and outdoor segmentation benchmarks, including Cityscapes, NYU-Depth-v2, and PASCAL, integrating it into the training phase of several backbone networks in both single-task and multi-task settings. Our extensive experiments show that the proposed method consistently outperforms baselines, and even sets the new state-of-the-art on two datasets.
翻訳日:2021-04-09 11:28:49 公開日:2021-04-08
# (参考訳) Plinius: セキュアで永続的な機械学習モデルトレーニング [全文訳有]

Plinius: Secure and Persistent Machine Learning Model Training ( http://arxiv.org/abs/2104.02987v2 )

ライセンス: CC BY 4.0
Peterson Yuhala, Pascal Felber, Valerio Schiavoni, Alain Tchana(参考訳) クラウドベースの機械学習(ML)技術の普及に伴い、MLデータに対するプライバシと整合性の保証が求められている。 さらに、DRAMが直面している大きなスケーラビリティ上の課題とセカンダリストレージのアクセス時間の高さは、MLシステムにとって大きなパフォーマンスボトルネックとなっている。 セキュリティ面に取り組むためのソリューションは存在するが、パフォーマンスは依然として問題である。 永続メモリ(PM)は電力損失(DRAMとは違い)に耐性があり、高速かつきめ細かなメモリアクセス(ディスクストレージとは違い)を提供し、遅延と帯域幅はDRAMに近い(それぞれ ns と GB/s の順)。 本稿では,Intel SGXエンクレーブを用いたMLフレームワークであるPLINIUSと,フォールトトレランス保証のためのPMを提案する。 p liniusは、(i)pm上のmlモデルの暗号化ミラーコピーを作成し、維持するために、新しいミラーリングメカニズムを使用し、(ii) システム障害後のほぼ瞬時データ回復のために、バイトアドレス可能なpmで暗号化されたトレーニングデータを生成する。 ディスクベースのチェックポイントシステムと比較して、PLINIUSは実PMハードウェア上でモデルを保存および復元するためにそれぞれ3.2倍と3.7倍高速であり、SGXエンクレーブで堅牢かつセキュアなMLモデルのトレーニングを実現する。

With the increasing popularity of cloud based machine learning (ML) techniques there comes a need for privacy and integrity guarantees for ML data. In addition, the significant scalability challenges faced by DRAM coupled with the high access-times of secondary storage represent a huge performance bottleneck for ML systems. While solutions exist to tackle the security aspect, performance remains an issue. Persistent memory (PM) is resilient to power loss (unlike DRAM), provides fast and fine-granular access to memory (unlike disk storage) and has latency and bandwidth close to DRAM (in the order of ns and GB/s, respectively). We present PLINIUS, a ML framework using Intel SGX enclaves for secure training of ML models and PM for fault tolerance guarantees. P LINIUS uses a novel mirroring mechanism to create and maintain (i) encrypted mirror copies of ML models on PM, and (ii) encrypted training data in byte-addressable PM, for near-instantaneous data recovery after a system failure. Compared to disk-based checkpointing systems,PLINIUS is 3.2x and 3.7x faster respectively for saving and restoring models on real PM hardware, achieving robust and secure ML model training in SGX enclaves.
翻訳日:2021-04-09 11:13:08 公開日:2021-04-08
# (参考訳) 予測モデルにおけるgoogle trendsの適切な利用 [全文訳有]

The Proper Use of Google Trends in Forecasting Models ( http://arxiv.org/abs/2104.03065v2 )

ライセンス: CC BY 4.0
Marcelo C. Medeiros, Henrique F. Pires(参考訳) Google Trendsは、学者でも民間でも公共部門でも、予測者が使っている最も人気のある無料ツールの1つとして広く知られている。 いくつかの異なる分野から、google trendsが予測の正確性を改善することを結論付ける多くの論文がある。 しかし、広く知られていないと思われるのは、google検索データの各サンプルが、同じ検索語、データ、場所を設定する場合でも、互いに異なることだ。 これは、偶然に任意の結論を見つけることができることを意味する。 本稿は,問題になり得る理由と,その克服方法を明らかにすることを目的とする。

It is widely known that Google Trends have become one of the most popular free tools used by forecasters both in academics and in the private and public sectors. There are many papers, from several different fields, concluding that Google Trends improve forecasts' accuracy. However, what seems to be widely unknown, is that each sample of Google search data is different from the other, even if you set the same search term, data and location. This means that it is possible to find arbitrary conclusions merely by chance. This paper aims to show why and when it can become a problem and how to overcome this obstacle.
翻訳日:2021-04-09 10:47:20 公開日:2021-04-08
# talk, don't write: direct speech-based image retrieval の検討

Talk, Don't Write: A Study of Direct Speech-Based Image Retrieval ( http://arxiv.org/abs/2104.01894v2 )

ライセンス: Link先を確認
Ramon Sanabria, Austin Waters, Jason Baldridge(参考訳) 音声に基づく画像検索は, 検索自体に重きを置くことなく, 共同表現学習の指標として研究されてきた。 そのため、絶対的な意味でも、自動音声認識(ASR)と強力なテキストエンコーダを組み合わせた代替戦略においても、音声ベースの検索が実際にどの程度うまく機能するかは不明だ。 本研究では,エンコーダアーキテクチャの選択,トレーニング方法論(非モーダルおよびマルチモーダル事前学習を含む),その他の要因を幅広く研究し,拡張する。 実験では、Flickr Audio、Places Audio、Localized Narrativesの3つのデータセットで、さまざまなタイプの音声をカバーしています。 私たちの最高のモデル構成は、例えば、Flickr Audioでは21.8%から33.2%、Places Audioでは27.6%から53.4%にリコール・アット・ワンをプッシュするなど、最先端技術よりも大幅に向上する。 また,音声の自発的,アクセント的,あるいは自動書き起こしが困難である場合,asr-to-textエンコーディングのカスケードを克服できる最善の音声モデルを示す。

Speech-based image retrieval has been studied as a proxy for joint representation learning, usually without emphasis on retrieval itself. As such, it is unclear how well speech-based retrieval can work in practice -- both in an absolute sense and versus alternative strategies that combine automatic speech recognition (ASR) with strong text encoders. In this work, we extensively study and expand choices of encoder architectures, training methodology (including unimodal and multimodal pretraining), and other factors. Our experiments cover different types of speech in three datasets: Flickr Audio, Places Audio, and Localized Narratives. Our best model configuration achieves large gains over state of the art, e.g., pushing recall-at-one from 21.8% to 33.2% for Flickr Audio and 27.6% to 53.4% for Places Audio. We also show our best speech-based models can match or exceed cascaded ASR-to-text encoding when speech is spontaneous, accented, or otherwise hard to automatically transcribe.
翻訳日:2021-04-09 10:38:17 公開日:2021-04-08
# HumAID: ディープラーニングベンチマークを備えたTwitterの人手による災害データ

HumAID: Human-Annotated Disaster Incidents Data from Twitter with Deep Learning Benchmarks ( http://arxiv.org/abs/2104.03090v2 )

ライセンス: Link先を確認
Firoj Alam, Umair Qazi, Muhammad Imran, Ferda Ofli(参考訳) ソーシャルネットワークは情報消費や普及に広く使われており、特に自然災害などの時間的危機的な出来事で使われている。 その膨大な量にもかかわらず、ソーシャルメディアのコンテンツはどんなアプリケーションでも直接使うにはうるさすぎることが多い。 したがって、効率的な消費と意思決定を容易にするために、利用可能なコンテンツをフィルタリング、分類、簡潔に要約することが重要である。 このような問題に対処するために、ラベル付きデータセットの作成に先立って、教師付きモデリングアプローチを用いて自動分類システムが開発された。 しかし、既存のデータセットは異なる側面(例えば、サイズ、重複を含む)に限定されており、より高度でデータに精通したディープラーニングモデルをサポートするには適していない。 本稿では,2016年から2019年にかけて発生した19の災害イベントを対象に,約2400万ツイートのプールから抽出した,約77万ツイートの大規模データセットを提案する。 また,人間のアノテーションに対するソーシャルメディアデータサンプリングにおいて重要なデータ収集・サンプリングパイプラインを提案する。 本稿では,古典的および深層学習(fastTextおよびtransformer)モデルを用いた多クラス分類結果について報告する。 データセットと関連するリソースが公開されている。 https://crisisnlp.qc ri.org/humaid_datase t.html

Social networks are widely used for information consumption and dissemination, especially during time-critical events such as natural disasters. Despite its significantly large volume, social media content is often too noisy for direct use in any application. Therefore, it is important to filter, categorize, and concisely summarize the available content to facilitate effective consumption and decision-making. To address such issues automatic classification systems have been developed using supervised modeling approaches, thanks to the earlier efforts on creating labeled datasets. However, existing datasets are limited in different aspects (e.g., size, contains duplicates) and less suitable to support more advanced and data-hungry deep learning models. In this paper, we present a new large-scale dataset with ~77K human-labeled tweets, sampled from a pool of ~24 million tweets across 19 disaster events that happened between 2016 and 2019. Moreover, we propose a data collection and sampling pipeline, which is important for social media data sampling for human annotation. We report multiclass classification results using classic and deep learning (fastText and transformer) based models to set the ground for future studies. The dataset and associated resources are publicly available. https://crisisnlp.qc ri.org/humaid_datase t.html
翻訳日:2021-04-09 10:37:57 公開日:2021-04-08
# メカトロニクス系の異種多変量時系列データを用いたオートエンコーダに基づく表現学習

Autoencoder-based Representation Learning from Heterogeneous Multivariate Time Series Data of Mechatronic Systems ( http://arxiv.org/abs/2104.02784v2 )

ライセンス: Link先を確認
Karl-Philipp Kortmann, Moritz Fehsenfeld and Mark Wielitzka(参考訳) 現代のメカトロニクス系のセンサと制御データは、サンプリングレートと値範囲の異なる異種時系列としてしばしば利用できる。 教師付き機械学習の分野からの適切な分類と回帰手法は、例えば条件監視の文脈では予測タスクにすでに存在しているが、その性能はラベル付きトレーニングデータの数と強く一致している。 それらの規定は、人的時間や追加のセンサーという形で高い労力に結びつくことが多い。 本稿では,データベースの異種性に特化して対処し,既存の手法と比較してラベル付きトレーニングデータの量を削減するオートエンコーダネットワークを用いた教師なし特徴抽出手法を提案する。 異なるアプリケーションドメインからのメカトロニクスシステムの3つの公開データセットを使用して結果を検証する。

Sensor and control data of modern mechatronic systems are often available as heterogeneous time series with different sampling rates and value ranges. Suitable classification and regression methods from the field of supervised machine learning already exist for predictive tasks, for example in the context of condition monitoring, but their performance scales strongly with the number of labeled training data. Their provision is often associated with high effort in the form of person-hours or additional sensors. In this paper, we present a method for unsupervised feature extraction using autoencoder networks that specifically addresses the heterogeneous nature of the database and reduces the amount of labeled training data required compared to existing methods. Three public datasets of mechatronic systems from different application domains are used to validate the results.
翻訳日:2021-04-09 10:37:37 公開日:2021-04-08
# DG-Font: 教師なしフォント生成のための変形可能な生成ネットワーク

DG-Font: Deformable Generative Networks for Unsupervised Font Generation ( http://arxiv.org/abs/2104.03064v2 )

ライセンス: Link先を確認
Yangchen Xie and Xinyuan Chen and Li Sun and Yue Lu(参考訳) フォント生成は、特に多くの文字で構成され、近年多くの注目を集めている一部の書記システムにとって、困難な問題である。 しかし、既存のフォント生成手法はしばしば教師付き学習である。 大量のペアデータが必要で、それは労働集約的で収集に費用がかかる。 また、一般的な画像から画像への翻訳モデルは、フォント生成に直接適用できないテクスチャや色の集合としてスタイルを定義することが多い。 そこで本研究では,非教師なしフォント生成(dgfont)のための新しい変形可能な生成ネットワークを提案する。 本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。 fdscの出力はミキサーに供給され、最終的な結果を生成する。 FDSCを利用して、ミキサーは完全な構造を持つ高品質なキャラクタを出力する。 生成画像の品質をさらに向上するために,コンテンツエンコーダ内の3つの変形可能な畳み込み層を用いて,スタイル不変特徴表現を学習する。 実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。 ソースコードはhttps://github.com/e cnuycxie/DG-Font.com で入手できる。

Font generation is a challenging problem especially for some writing systems that consist of a large number of characters and has attracted a lot of attention in recent years. However, existing methods for font generation are often in supervised learning. They require a large number of paired data, which is labor-intensive and expensive to collect. Besides, common image-to-image translation models often define style as the set of textures and colors, which cannot be directly applied to font generation. To address these problems, we propose novel deformable generative networks for unsupervised font generation (DGFont). We introduce a feature deformation skip connection (FDSC) which predicts pairs of displacement maps and employs the predicted maps to apply deformable convolution to the low-level feature maps from the content encoder. The outputs of FDSC are fed into a mixer to generate the final results. Taking advantage of FDSC, the mixer outputs a high-quality character with a complete structure. To further improve the quality of generated images, we use three deformable convolution layers in the content encoder to learn style-invariant feature representations. Experiments demonstrate that our model generates characters in higher quality than state-of-art methods. The source code is available at https://github.com/e cnuycxie/DG-Font.
翻訳日:2021-04-09 10:36:59 公開日:2021-04-08
# 視覚言語表現学習のためのエンド・ツー・エンド事前学習

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning ( http://arxiv.org/abs/2104.03135v2 )

ライセンス: Link先を確認
Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu, Jianlong Fu(参考訳) 我々は、数百万の画像テキストペアから相互にアライメントを学習することを目的とした、視覚言語事前学習(VLPT)のための畳み込みニューラルネットワーク(CNN)とトランスフォーマーの共同学習について研究する。 State-of-the-art approach extract salient image region andaligned region with words-by-step。 領域ベースの視覚的特徴は通常画像の一部を表現するため、既存の視覚言語モデルがペアの自然言語から意味を完全に理解することは困難である。 本稿では,全体像を入力として取り出す「tHe bOx から tHe bOx を抽出する」ための SOHO を提案し,エンドツーエンドで視覚言語表現を学習する。 SOHOは、領域ベースのアプローチよりも10倍高速な推論を可能にするバウンディングボックスアノテーションを必要としない。 特に、SOHOは、横断的な理解を容易にする視覚辞書(VD)を通して、包括的でコンパクトな画像の特徴を抽出することを学ぶ。 VDは、類似のセマンティクスの一貫した視覚的抽象化を表現するように設計されている。 これはオンザフライで更新され、提案するプレトレーニングタスクマスクビジュアルモデリング(mvm)で利用されます。 我々は、標準VLPT設定に従うことで、確立された4つの視覚言語タスクの実験を行う。 特に、MSCOCOテキスト検索5kテストスプリットの2.0% R@1スコア、NLVR$^2$テストPスプリットの1.5%精度、SNLI-VEテストスプリットの6.7%精度の絶対ゲインを達成する。

We study joint learning of Convolutional Neural Network (CNN) and Transformer for vision-language pre-training (VLPT) which aims to learn cross-modal alignments from millions of image-text pairs. State-of-the-art approaches extract salient image regions and align regions with words step-by-step. As region-based visual features usually represent parts of an image, it is challenging for existing vision-language models to fully understand the semantics from paired natural languages. In this paper, we propose SOHO to "See Out of tHe bOx" that takes a whole image as input, and learns vision-language representation in an end-to-end manner. SOHO does not require bounding box annotations which enables inference 10 times faster than region-based approaches. In particular, SOHO learns to extract comprehensive yet compact image features through a visual dictionary (VD) that facilitates cross-modal understanding. VD is designed to represent consistent visual abstractions of similar semantics. It is updated on-the-fly and utilized in our proposed pre-training task Masked Visual Modeling (MVM). We conduct experiments on four well-established vision-language tasks by following standard VLPT settings. In particular, SOHO achieves absolute gains of 2.0% R@1 score on MSCOCO text retrieval 5k test split, 1.5% accuracy on NLVR$^2$ test-P split, 6.7% accuracy on SNLI-VE test split, respectively.
翻訳日:2021-04-09 10:36:39 公開日:2021-04-08
# 自己接触と人間行動について

On Self-Contact and Human Pose ( http://arxiv.org/abs/2104.03176v2 )

ライセンス: Link先を確認
Lea M\"uller and Ahmed A. A. Osman and Siyu Tang and Chun-Hao P. Huang and Michael J. Black(参考訳) 人々は1時間に23回顔に触れ、腕と脚を渡り、腰に手を置くなどします。 多くの人の画像には何らかの形の自己接触が含まれているが、現在の3D人間のポーズと形状(HPS)回帰法はこの接触を推定できないのが普通である。 そこで我々は,自己接触によるポーズ推定を大幅に改善する新しいデータセットと手法を開発した。 まず、3dスキャンに適合するsmpl-xボディを含む3dコンタクトポーズ(3dcp)と、amassのポーズのデータセットを作成します。 第2に、これを活用して、amazon mechanical turkによって収集された画像のmtpデータセットを作成し、自己接触で3dcpのポーズを模倣する人々を含む。 第3に,接触制約を含む新しいHPS最適化手法SMPLify-XMCを開発した。 第4に、より多様な画像に対して、離散自己接触(DSC)情報を用いた画像のデータセットをラベル付けし、ポーズ最適化中に離散接触を利用する新たな最適化手法SMPLify-DCを使用する。 最後に、SPINトレーニング中にデータセットを使用して、TUCH(Towards Understanding Contact in Humans)と呼ばれる新しい3Dヒューマンポーズ回帰器を学習します。 新たな自己接触トレーニングデータにより,保持されていないテストデータと既存の3DPWのようなデータセットの3次元ポーズ推定が大幅に向上することを示す。 本手法は, 自己接触ポーズの結果を改善するだけでなく, 非接触ポーズの精度を向上させる。 コードとデータは、https://tuch.is.tue. mpg.deで研究目的に利用できる。

People touch their face 23 times an hour, they cross their arms and legs, put their hands on their hips, etc. While many images of people contain some form of self-contact, current 3D human pose and shape (HPS) regression methods typically fail to estimate this contact. To address this, we develop new datasets and methods that significantly improve human pose estimation with self-contact. First, we create a dataset of 3D Contact Poses (3DCP) containing SMPL-X bodies fit to 3D scans as well as poses from AMASS, which we refine to ensure good contact. Second, we leverage this to create the Mimic-The-Pose (MTP) dataset of images, collected via Amazon Mechanical Turk, containing people mimicking the 3DCP poses with selfcontact. Third, we develop a novel HPS optimization method, SMPLify-XMC, that includes contact constraints and uses the known 3DCP body pose during fitting to create near ground-truth poses for MTP images. Fourth, for more image variety, we label a dataset of in-the-wild images with Discrete Self-Contact (DSC) information and use another new optimization method, SMPLify-DC, that exploits discrete contacts during pose optimization. Finally, we use our datasets during SPIN training to learn a new 3D human pose regressor, called TUCH (Towards Understanding Contact in Humans). We show that the new self-contact training data significantly improves 3D human pose estimates on withheld test data and existing datasets like 3DPW. Not only does our method improve results for self-contact poses, but it also improves accuracy for non-contact poses. The code and data are available for research purposes at https://tuch.is.tue. mpg.de.
翻訳日:2021-04-09 10:36:12 公開日:2021-04-08
# ディエンス対応の教師なし学習のためのワープ整合性

Warp Consistency for Unsupervised Learning of Dense Correspondences ( http://arxiv.org/abs/2104.03308v2 )

ライセンス: Link先を確認
Prune Truong and Martin Danelljan and Fisher Yu and Luc Van Gool(参考訳) 密接な対応を学習する上での鍵となる課題は、実画像対に対する地道一致の欠如にある。 光度整合性損失は教師なしの代替手段を提供するが、幾何学的および意味的マッチングタスクにおいてユビキタスな大きな外観変化に苦しむ。 さらに、合成トレーニングペアに依存する手法は、実際のデータに対する一般化の貧弱さに悩まされることが多い。 密接な対応回帰のための教師なし学習目標であるwarp一貫性を提案する。 当社の目標は,外観や視点の変化が大きい設定でも有効です。 一対の実際の画像が与えられたとき、まず、ランダムにサンプリングされたワープを元の画像の1つに適用することにより、三重項画像を構築する。 三重項間のフロー一貫性の制約をすべて導出し解析する。 観測結果と実験結果から,導出した2つの制約を応用した一般教師なしの目的を設計する。 我々は、幾何学的および意味的マッチングタスクのための最近の3つの密接な対応ネットワークをトレーニングすることにより、ワープ整合性損失を検証する。 当社のアプローチでは,MegaDepth,RobotCar, TSSなど,いくつかの挑戦的なベンチマークに対して,新たな最先端性を実現しています。 コードとモデルはhttps://github.com/P runeTruong/DenseMatc hing.comでリリースされる。

The key challenge in learning dense correspondences lies in the lack of ground-truth matches for real image pairs. While photometric consistency losses provide unsupervised alternatives, they struggle with large appearance changes, which are ubiquitous in geometric and semantic matching tasks. Moreover, methods relying on synthetic training pairs often suffer from poor generalisation to real data. We propose Warp Consistency, an unsupervised learning objective for dense correspondence regression. Our objective is effective even in settings with large appearance and view-point changes. Given a pair of real images, we first construct an image triplet by applying a randomly sampled warp to one of the original images. We derive and analyze all flow-consistency constraints arising between the triplet. From our observations and empirical results, we design a general unsupervised objective employing two of the derived constraints. We validate our warp consistency loss by training three recent dense correspondence networks for the geometric and semantic matching tasks. Our approach sets a new state-of-the-art on several challenging benchmarks, including MegaDepth, RobotCar and TSS. Code and models will be released at https://github.com/P runeTruong/DenseMatc hing.
翻訳日:2021-04-09 10:35:40 公開日:2021-04-08
# SCANimate: スキン付きアバターネットワークの微妙な監視による学習

SCANimate: Weakly Supervised Learning of Skinned Clothed Avatar Networks ( http://arxiv.org/abs/2104.03313v2 )

ライセンス: Link先を確認
Shunsuke Saito, Jinlong Yang, Qianli Ma, Michael J. Black(参考訳) SCANimateは、服を着た人間の生の3Dスキャンを行い、それらをアニマタブルなアバターに変える、エンドツーエンドのトレーニング可能なフレームワークである。 これらのアバターはポーズパラメータによって駆動され、自然に動き変形するリアルな服装を持つ。 SCANimateは、カスタマイズされたメッシュテンプレートやサーフェスメッシュ登録に依存しない。 人体スキャンにsmplのようなパラメトリック3dボディーモデルを適用することは容易であるが,ボディートポロジーの表面登録はボディー形状から著しくずれる可能性があるため,しばしばそうではない。 また, 調音変換は可逆であり, 擬似および非擬似形状における幾何的周期の整合性をもたらす。 これらの観察により,テンプレートベース表面登録を伴わずに関節変形を解消することで,スキャンを正準的なポーズに整列させる弱い教師付き学習法が得られた。 さらに, 位置依存変形をモデル化しながらアライメントスキャンの欠落領域を完備化するために, 局所的なポーズ認識型暗黙関数を導入し, 学習したポーズ補正を用いて形状をモデル化する。 一般的なグローバルポーズ埋め込みとは対照的に、我々の局所ポーズ条件付けは長距離スプリアス相関を著しく低減し、特に訓練データに制限がある場合、目に見えないポーズへの一般化を改善する。 本手法はポーズ認識型外観モデルに適用でき,完全にテクスチャ化されたアバターを生成できる。 トレーニングデータの量が異なる各種衣料品について,各設定における忠実度と汎用性の観点から,既存ソリューションや他の変種よりも優れていることを示す。 コードはhttps://scanimate.is .tue.mpg.deで入手できる。

We present SCANimate, an end-to-end trainable framework that takes raw 3D scans of a clothed human and turns them into an animatable avatar. These avatars are driven by pose parameters and have realistic clothing that moves and deforms naturally. SCANimate does not rely on a customized mesh template or surface mesh registration. We observe that fitting a parametric 3D body model, like SMPL, to a clothed human scan is tractable while surface registration of the body topology to the scan is often not, because clothing can deviate significantly from the body shape. We also observe that articulated transformations are invertible, resulting in geometric cycle consistency in the posed and unposed shapes. These observations lead us to a weakly supervised learning method that aligns scans into a canonical pose by disentangling articulated deformations without template-based surface registration. Furthermore, to complete missing regions in the aligned scans while modeling pose-dependent deformations, we introduce a locally pose-aware implicit function that learns to complete and model geometry with learned pose correctives. In contrast to commonly used global pose embeddings, our local pose conditioning significantly reduces long-range spurious correlations and improves generalization to unseen poses, especially when training data is limited. Our method can be applied to pose-aware appearance modeling to generate a fully textured avatar. We demonstrate our approach on various clothing types with different amounts of training data, outperforming existing solutions and other variants in terms of fidelity and generality in every setting. The code is available at https://scanimate.is .tue.mpg.de.
翻訳日:2021-04-09 10:35:22 公開日:2021-04-08