このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210422となっている論文です。

PDF登録状況(公開日: 20210422)

TitleAuthorsAbstract論文公表日・翻訳日
# 効率的なビデオ分類のための時間差凝集と時間差分分解

Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization for Efficient Video Classification ( http://arxiv.org/abs/2012.00317v3 )

ライセンス: Link先を確認
Youngwan Lee, Hyung-Il Kim, Kimin Yun, Jinyoung Moon(参考訳) 近年注目されているビデオ分類研究は、時間モデリングと3次元効率的なアーキテクチャの分野である。 しかし、時間的モデリング手法は効率的ではなく、3次元効率的なアーキテクチャは時間的モデリングにはあまり関心がない。 それらのギャップを橋渡しするために,時間的ワンショットアグリゲーション(t-osa)モジュールと深さ分解成分(d(2+1)d)からなる,vov3dと呼ばれる効率的な時間的モデリング3dアーキテクチャを提案する。 このT-OSAを積み重ねることで、ネットワーク自体がショートレンジとロングレンジの時間的関係を外部モジュールなしでモデル化することができる。 カーネル因子分解とチャネル因子分解に触発されて,d(2+1)dと呼ばれる深さ方向の時空間因子分解モジュールも設計し,三次元の深さ方向の畳み込みを2つの空間的および時間的深さ方向の畳み込みに分解し,ネットワークをより軽量かつ効率的にする。 提案手法と効率的な分解成分(D(2+1)D)を用いて,VoV3D-MとVoV3D-Lの2種類のVoV3Dネットワークを構築する。 時間モデリングの効率性と有効性により、VoV3D-Lは6倍のモデルパラメータと16倍の計算能力を有し、Somes-SomethingとKineetics-400の双方で最先端の時間モデリング手法を上回っている。 さらに、VoV3Dは最先端の効率的な3Dアーキテクチャよりも時間的モデリング能力が優れている。 vov3dが効率的なビデオ分類のベースラインになることを願っている。

Video classification researches that have recently attracted attention are the fields of temporal modeling and 3D efficient architecture. However, the temporal modeling methods are not efficient or the 3D efficient architecture is less interested in temporal modeling. For bridging the gap between them, we propose an efficient temporal modeling 3D architecture, called VoV3D, that consists of a temporal one-shot aggregation (T-OSA) module and depthwise factorized component, D(2+1)D. The T-OSA is devised to build a feature hierarchy by aggregating temporal features with different temporal receptive fields. Stacking this T-OSA enables the network itself to model short-range as well as long-range temporal relationships across frames without any external modules. Inspired by kernel factorization and channel factorization, we also design a depthwise spatiotemporal factorization module, named, D(2+1)D that decomposes a 3D depthwise convolution into two spatial and temporal depthwise convolutions for making our network more lightweight and efficient. By using the proposed temporal modeling method (T-OSA), and the efficient factorized component (D(2+1)D), we construct two types of VoV3D networks, VoV3D-M and VoV3D-L. Thanks to its efficiency and effectiveness of temporal modeling, VoV3D-L has 6x fewer model parameters and 16x less computation, surpassing a state-of-the-art temporal modeling method on both Something-Something and Kinetics-400. Furthermore, VoV3D shows better temporal modeling ability than a state-of-the-art efficient 3D architecture, X3D having comparable model capacity. We hope that VoV3D can serve as a baseline for efficient video classification.
翻訳日:2021-05-30 19:50:23 公開日:2021-04-22
# (参考訳) 信頼できる材料発見ワークフローのためのディープラーニングによる不確かさの活用 [全文訳有]

Leveraging Uncertainty from Deep Learning for Trustworthy Materials Discovery Workflows ( http://arxiv.org/abs/2012.01478v2 )

ライセンス: CC BY 4.0
Jize Zhang, Bhavya Kailkhura, T. Yong-Jin Han(参考訳) 本稿では、深層ニューラルネットワークの予測不確実性を利用して、機械学習ベースの材料アプリケーションワークフローで科学者が通常遭遇する課題に答える。 まず,予測的不確実性を利用することで,特定の分類精度を達成するために必要なトレーニングデータセットのサイズをユーザが決定できることを示す。 次に,紛らわしいサンプルの判断を検知・拒否するために,不確実性誘導決定基準を提案する。 最後に, 分布外サンプルの検出にも予測の不確かさが有効であることを示す。 この手法は、画像取得条件の変化や合成条件の変化など、データにおける幅広い実世界のシフトを検出するのに十分な精度を持つことが分かっています。 走査型電子顕微鏡 (sem) 画像からの微視的情報を用いて, 不確実性を考慮した深層学習を応用することで, 分類モデルの性能と信頼性が著しく向上することを示す。

In this paper, we leverage predictive uncertainty of deep neural networks to answer challenging questions material scientists usually encounter in machine learning based materials applications workflows. First, we show that by leveraging predictive uncertainty, a user can determine the required training data set size necessary to achieve a certain classification accuracy. Next, we propose uncertainty guided decision referral to detect and refrain from making decisions on confusing samples. Finally, we show that predictive uncertainty can also be used to detect out-of-distribution test samples. We find that this scheme is accurate enough to detect a wide range of real-world shifts in data, e.g., changes in the image acquisition conditions or changes in the synthesis conditions. Using microstructure information from scanning electron microscope (SEM) images as an example use case, we show that leveraging uncertainty-aware deep learning can significantly improve the performance and dependability of classification models.
翻訳日:2021-05-30 02:35:29 公開日:2021-04-22
# (参考訳) 合成一般化可能な3次元構造予測 [全文訳有]

Compositionally Generalizable 3D Structure Prediction ( http://arxiv.org/abs/2012.02493v3 )

ライセンス: CC BY 4.0
Songfang Han, Jiayuan Gu, Kaichun Mo, Li Yi, Siyu Hu, Xuejin Chen, Hao Su(参考訳) シングルイメージの3次元形状復元はコンピュータビジョンにおいて重要かつ長年の課題である。 多くの既存の作品が、ディープラーニング時代の最先端のパフォーマンスを常に押し付けている。 しかしながら、形状幾何分布が全く異なる未発見のオブジェクトカテゴリに対して、学習スキルを一般化する方法に関して、より困難で未検討の課題が残されている。 本稿では,合成汎化可能性の概念を取り入れ,これらの未知のカテゴリをよりよく一般化できる新しい枠組みを提案する。 本研究では,3次元形状復元問題を適切な部分問題に分解し,それらの問題を一般化可能性に配慮した神経サブモジュールで解決する。 私たちの定式化の背景にある直観は、対象部分(スレートと円筒部分)、それらの関係(隣接性と変換対称性)、および形状部分構造(t-接合と対称部分のグループ)は、オブジェクトのジオメトリが全く異なるように見えるにもかかわらず、ほとんどが対象のカテゴリ間で共有されていることである。 椅子とキャビネット)。 PartNetの実験では、最先端技術よりも優れたパフォーマンスを実現しています。 これは、問題要因化とネットワーク設計を検証する。

Single-image 3D shape reconstruction is an important and long-standing problem in computer vision. A plethora of existing works is constantly pushing the state-of-the-art performance in the deep learning era. However, there remains a much more difficult and under-explored issue on how to generalize the learned skills over unseen object categories that have very different shape geometry distributions. In this paper, we bring in the concept of compositional generalizability and propose a novel framework that could better generalize to these unseen categories. We factorize the 3D shape reconstruction problem into proper sub-problems, each of which is tackled by a carefully designed neural sub-module with generalizability concerns. The intuition behind our formulation is that object parts (slates and cylindrical parts), their relationships (adjacency and translation symmetry), and shape substructures (T-junctions and a symmetric group of parts) are mostly shared across object categories, even though object geometries may look very different (e.g. chairs and cabinets). Experiments on PartNet show that we achieve superior performance than state-of-the-art. This validates our problem factorization and network designs.
翻訳日:2021-05-23 08:00:05 公開日:2021-04-22
# (参考訳) レーザーによる毛虫, ホッパー, アブラムシおよびそれらを中和するシミュレーションプログラム [全文訳有]

Detect caterpillar, grasshopper, aphid and simulation program for neutralizing them by laser ( http://arxiv.org/abs/2105.02955v1 )

ライセンス: CC BY 4.0
Rakhmatulin Ildar(参考訳) 作物の害虫からの保護は栽培作物に関係している。 しかし、現代の殺虫剤による害虫対策は、人間に多くの危険をもたらす。 したがって、安全で効果的な害虫防除法の開発に関する研究は有望である。 本本は害虫防除の新しい方法を提案する。 我々は害虫検出にニューラルネットワークを用い,その中和に強力なレーザー装置(5W)を開発した。 最も有用な特徴を抽出するため、害虫による画像の処理方法について詳述する。 aphids, grasshopper, cabbage caterpillar を例に, 各種ニューラルネットワークモデルを分析し, 昆虫ごとの最適なモデルと特性を選択した。 本稿では,現像レーザ装置の動作原理を詳述する。 我々は,それらの座標の映像ストリーム計算で害虫を検索し,レーザーでデバイスに座標を伝達するプログラムを開発した。

The protection of crops from pests is relevant for any cultivated crop. But modern methods of pest control by pesticides carry many dangers for humans. Therefore, research into the development of safe and effective pest control methods is promising. This manuscript presents a new method of pest control. We used neural networks for pest detection and developed a powerful laser device (5 W) for their neutralization. In the manuscript methods of processing images with pests to extract the most useful feature are described in detail. Using the following pets as an example: aphids, grasshopper, cabbage caterpillar, we analyzed various neural network models and selected the optimal models and characteristics for each insect. In the paper the principle of operation of the developed laser device is described in detail. We created the program to search a pest in the video stream calculation of their coordinates and transmission data with coordinates to the device with the laser.
翻訳日:2021-05-11 11:25:15 公開日:2021-04-22
# 頑健な画像分類のためのミニバッチグラフ

Mini-batch graphs for robust image classification ( http://arxiv.org/abs/2105.03237v1 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Vineet Jain and Kaleem Siddiqi(参考訳) コンピュータビジョンにおける分類タスクのための現在のディープラーニングモデルは、ミニバッチを使用して訓練される。 本稿では,ミニバッチにおけるサンプル間の関係を利用して,グラフニューラルネットワークを用いて類似画像から情報を集約する。 これにより、入力画像の変更が分類性能に与える影響を軽減することができる。 画像に基づく物体とシーンの分類に関する様々な実験は、このアプローチが分類器のパフォーマンスを向上するだけでなく、画像摂動や敵攻撃に対する頑健性を高めることを示している。 さらに,ミニバッチグラフニューラルネットワークは,生成型逆ネットワークにおけるモード崩壊の問題を軽減できることを示す。

Current deep learning models for classification tasks in computer vision are trained using mini-batches. In the present article, we take advantage of the relationships between samples in a mini-batch, using graph neural networks to aggregate information from similar images. This helps mitigate the adverse effects of alterations to the input images on classification performance. Diverse experiments on image-based object and scene classification show that this approach not only improves a classifier's performance but also increases its robustness to image perturbations and adversarial attacks. Further, we also show that mini-batch graph neural networks can help to alleviate the problem of mode collapse in Generative Adversarial Networks.
翻訳日:2021-05-11 08:34:01 公開日:2021-04-22
# (参考訳) データ駆動型還元次数モデリングのためのニューラル常微分方程式 [全文訳有]

Neural Ordinary Differential Equations for Data-Driven Reduced Order Modeling of Environmental Hydrodynamics ( http://arxiv.org/abs/2104.13962v1 )

ライセンス: CC BY 4.0
Sourav Dutta, Peter Rivera-Casillas, Matthew W. Farthing(参考訳) 流体シミュレーションのモデル還元は、多くの科学および工学分野において大きな関心を寄せ続けている。 本稿では、最近導入された連続深度微分可能ネットワークのファミリーであるNeural Ordinary Differential Equations(Chen et al 2018)を用いて、遅延空間のダイナミクスを縮小順序モデルで伝播させる方法について検討する。 直交分解と放射基底関数補間および動的モード分解に基づく2つの古典的非侵入的手法との比較を行った。 実験課題は,シリンダーまわりの非圧縮性流れと,河川・河口系における浅層水力力学の実世界の応用である。 この結果から,ニューラルODEは潜在空間力学の安定かつ正確な進化のためのエレガントなフレームワークであり,外挿予測の可能性も期待できることがわかった。 しかしながら、大規模システムへの普及を促進するためには、トレーニング時間を短縮するための努力が必要である。 これにより、幅広いシステムダイナミクスに対して一般化可能なニューラルODE近似を構築するために、より包括的なハイパーパラメータ空間の探索が可能になる。

Model reduction for fluid flow simulation continues to be of great interest across a number of scientific and engineering fields. Here, we explore the use of Neural Ordinary Differential Equations, a recently introduced family of continuous-depth, differentiable networks (Chen et al 2018), as a way to propagate latent-space dynamics in reduced order models. We compare their behavior with two classical non-intrusive methods based on proper orthogonal decomposition and radial basis function interpolation as well as dynamic mode decomposition. The test problems we consider include incompressible flow around a cylinder as well as real-world applications of shallow water hydrodynamics in riverine and estuarine systems. Our findings indicate that Neural ODEs provide an elegant framework for stable and accurate evolution of latent-space dynamics with a promising potential of extrapolatory predictions. However, in order to facilitate their widespread adoption for large-scale systems, significant effort needs to be directed at accelerating their training times. This will enable a more comprehensive exploration of the hyperparameter space for building generalizable Neural ODE approximations over a wide range of system dynamics.
翻訳日:2021-05-04 04:55:23 公開日:2021-04-22
# ファジィエキスパートシステムによるcovid-19患者のicu入所予測

Fuzzy Expert Systems for Prediction of ICU Admission in Patients with COVID-19 ( http://arxiv.org/abs/2104.12868v1 )

ライセンス: Link先を確認
Ali Akbar Sadat Asl, Mohammad Mahdi Ershadi, Shahabeddin Sotudian(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中のほぼすべての国に劇的な影響を与えており、多くの病院がコビッドの感染者に圧倒されている。 医療資源が限られているため、これらの資源の適切な配分を決定することは極めて重要な問題である。 さらに、不確実性は、特に医学分野において決定に影響を及ぼす主要な要因である。 この問題に対処するために,不確実性と複雑性の高いシステムモデリングにおいて,ファジィ論理(FL)を最も適した手法の1つである。 icuで治療する必要がある場合の決定において、flの利点を利用するつもりです。 本研究では, インターバルタイプ2ファジィエキスパートシステムを用いて, ICU入院の予測を行った。 この予測タスクのために,適応型ニューロファジー推論システム (anfis) も開発した。 最後に、これらのファジィシステムの結果を、NB(Naive Bayes)、CBR(Case-Based Reasoning)、DT(Decision Tree)、K Nearest Neighbor(KNN)といった有名な分類手法と比較する。 その結果,2型ファジィエキスパートシステムとANFISモデルは,他のシステムモデリング手法と比較して,精度とF測定の両面で競合することを示した。

The pandemic COVID-19 disease has had a dramatic impact on almost all countries around the world so that many hospitals have been overwhelmed with Covid-19 cases. As medical resources are limited, deciding on the proper allocation of these resources is a very crucial issue. Besides, uncertainty is a major factor that can affect decisions, especially in medical fields. To cope with this issue, we use fuzzy logic (FL) as one of the most suitable methods in modeling systems with high uncertainty and complexity. We intend to make use of the advantages of FL in decisions on cases that need to treat in ICU. In this study, an interval type-2 fuzzy expert system is proposed for prediction of ICU admission in COVID-19 patients. For this prediction task, we also developed an adaptive neuro-fuzzy inference system (ANFIS). Finally, the results of these fuzzy systems are compared to some well-known classification methods such as Naive Bayes (NB), Case-Based Reasoning (CBR), Decision Tree (DT), and K Nearest Neighbor (KNN). The results show that the type-2 fuzzy expert system and ANFIS models perform competitively in terms of accuracy and F-measure compared to the other system modeling techniques.
翻訳日:2021-05-03 19:50:08 公開日:2021-04-22
# (参考訳) ai障害の理解と回避 - 実践的ガイド

Understanding and Avoiding AI Failures: A Practical Guide ( http://arxiv.org/abs/2104.12582v1 )

ライセンス: CC BY 4.0
Robert Williams(参考訳) AI技術の能力とユビキティが向上するにつれ、AI事故はますます一般的になりつつある。 通常の事故理論、高信頼性理論、オープンシステム理論に基づいて、aiアプリケーションに関連するリスクを理解するためのフレームワークを構築します。 さらに、AIの安全性原則を使用して、AIのインテリジェンスと人間のような品質のユニークなリスクを定量化しています。 これら2つのフィールドは、現代のAIのリスクをより完全に表現している。 事故の根本原因を求めるのではなく,事故近傍のシステム特性に注目することで,現行のaiシステムの安全性に注意を払うべき場所を特定する。

As AI technologies increase in capability and ubiquity, AI accidents are becoming more common. Based on normal accident theory, high reliability theory, and open systems theory, we create a framework for understanding the risks associated with AI applications. In addition, we also use AI safety principles to quantify the unique risks of increased intelligence and human-like qualities in AI. Together, these two fields give a more complete picture of the risks of contemporary AI. By focusing on system properties near accidents instead of seeking a root cause of accidents, we identify where attention should be paid to safety for current generation AI systems.
翻訳日:2021-04-29 07:04:25 公開日:2021-04-22
# 知識グラフにおけるエンティティマッチングのための推移制約の活用

Exploiting Transitivity Constraints for Entity Matching in Knowledge Graphs ( http://arxiv.org/abs/2104.12589v1 )

ライセンス: Link先を確認
Jurian Baas, Mehdi Dastani, Ad Feelders(参考訳) 知識グラフにおけるエンティティマッチングの目標は、類似度メトリックを使用して同じ現実世界のオブジェクトを参照するエンティティを特定することである。 エンティティマッチングの結果は、同じ関係として解釈されるエンティティペアの集合と見なすことができる。 しかし、同定されたペアの集合は、同じ関係から期待されるいくつかの構造的性質、特に推移性を満たすことができないかもしれない。 本研究では,移動性のアドホックな実施,すなわち移動性を示す。 トランジショナル・クロージャを取れば 特定されたエンティティ・ペアのセットで 精度が劇的に低下する そこで我々は,与えられた類似度尺度から開始し,同一実世界のオブジェクトを参照していると認識されたエンティティ対を生成し,クラスタ編集アルゴリズムを適用し,スプリアスリンクを多数追加することなく推移性を実現する手法を提案する。

The goal of entity matching in knowledge graphs is to identify entities that refer to the same real-world objects using some similarity metric. The result of entity matching can be seen as a set of entity pairs interpreted as the same-as relation. However, the identified set of pairs may fail to satisfy some structural properties, in particular transitivity, that are expected from the same-as relation. In this work, we show that an ad-hoc enforcement of transitivity, i.e. taking the transitive closure, on the identified set of entity pairs may decrease precision dramatically. We therefore propose a methodology that starts with a given similarity measure, generates a set of entity pairs that are identified as referring to the same real-world objects, and applies the cluster editing algorithm to enforce transitivity without adding many spurious links, leading to overall improved performance.
翻訳日:2021-04-27 14:26:43 公開日:2021-04-22
# 非線形偏微分方程式のベイズ数値解法

Bayesian Numerical Methods for Nonlinear Partial Differential Equations ( http://arxiv.org/abs/2104.12587v1 )

ライセンス: Link先を確認
Junyang Wang, Jon Cockayne, Oksana Chkrebtii, T. J. Sullivan, Chris. J. Oates(参考訳) 微分方程式の数値解は、形式的統計的アプローチを適用できる推論問題として定式化することができる。 しかし、非線形偏微分方程式(英語版) (PDE) は、特に明示的な条件式が欠如していることから、推論の観点からかなりの問題を引き起こす。 本稿では、線形PDEに関する初期の研究を、非線形PDEによって定義された初期値問題の一般的なクラスに拡張し、PDEの右辺、初期条件、境界条件の評価が計算コストが高い問題によって動機付けられた。 提案手法は, 非線形微分作用素の離散化に基づく近似的近似により, 正確なベイズ推定とみなすことができる。 概念実証実験の結果, pdeの未知解に対する有意義な確率的不確実性定量化が可能となり, 右辺, 初期条件, 境界条件の倍数を制御できた。 PDE の解の適切な事前モデルは、Mate\'{e}rn 過程のサンプルパス特性の新たな理論的解析を用いて同定される。

The numerical solution of differential equations can be formulated as an inference problem to which formal statistical approaches can be applied. However, nonlinear partial differential equations (PDEs) pose substantial challenges from an inferential perspective, most notably the absence of explicit conditioning formula. This paper extends earlier work on linear PDEs to a general class of initial value problems specified by nonlinear PDEs, motivated by problems for which evaluations of the right-hand-side, initial conditions, or boundary conditions of the PDE have a high computational cost. The proposed method can be viewed as exact Bayesian inference under an approximate likelihood, which is based on discretisation of the nonlinear differential operator. Proof-of-concept experimental results demonstrate that meaningful probabilistic uncertainty quantification for the unknown solution of the PDE can be performed, while controlling the number of times the right-hand-side, initial and boundary conditions are evaluated. A suitable prior model for the solution of the PDE is identified using novel theoretical analysis of the sample path properties of Mat\'{e}rn processes, which may be of independent interest.
翻訳日:2021-04-27 14:20:19 公開日:2021-04-22
# MAQ-CaF: 感作性汚染物質に対するモジュール型空気品質校正・予測法

MAQ-CaF: A Modular Air Quality Calibration and Forecasting method for cross-sensitive pollutants ( http://arxiv.org/abs/2104.12594v1 )

ライセンス: Link先を確認
Yousuf Hashmy, ZillUllah Khan, Rehan Hafiz, Usman Younis, and Tausif Tauqeer(参考訳) 気候変動の課題は世界中に広まり、特に未発展の国では最悪の打撃を受けている。 低コストな展開で汚染物質を正確に測定し、予測する必要性は、かつてないほど重要になっている。 低コストの空気品質モニタリングセンサーは、誤った測定、頻繁なダウンタイム、不確実な運用条件の傾向にある。 このような状況は、効果的で柔軟な校正法を確保するために慎重なアプローチを必要とする。 モジュール型空気品質校正および予測手法であるMAQ-CaFを提案し、IoTフレームワークの可能性を活用するモジュール型機械学習ベースの設計を通じて、信頼性の低い課題をサイドステップする。 キャリブレーションされたデータはローカルとリモートの両方に格納され、将来の予測機能が追加される。 我々の特別に設計された検証プロセスは、精度を損なうことなく提案されたソリューションの適用性と柔軟性を確立するのに役立つ。 CO, SO2, NO2, O3, PM1.0, PM2.5, PM10を適度に測定した。 このような試みは、適切な監視と、安価なモニタリングを通じてより広い地理的地域を横断する大気質の追跡を通じて、気候変動の世界的な課題に対処するためのステップである。

The climatic challenges are rising across the globe in general and in worst hit under-developed countries in particular. The need for accurate measurements and forecasting of pollutants with low-cost deployment is more pertinent today than ever before. Low-cost air quality monitoring sensors are prone to erroneous measurements, frequent downtimes, and uncertain operational conditions. Such a situation demands a prudent approach to ensure an effective and flexible calibration scheme. We propose MAQ-CaF, a modular air quality calibration, and forecasting methodology, that side-steps the challenges of unreliability through its modular machine learning-based design which leverages the potential of IoT framework. It stores the calibrated data both locally and remotely with an added feature of future predictions. Our specially designed validation process helps to establish the proposed solution's applicability and flexibility without compromising accuracy. CO, SO2, NO2, O3, PM1.0, PM2.5 and PM10 were calibrated and monitored with reasonable accuracy. Such an attempt is a step toward addressing climate change's global challenge through appropriate monitoring and air quality tracking across a wider geographical region via affordable monitoring.
翻訳日:2021-04-27 14:18:19 公開日:2021-04-22
# (参考訳) Articulated Animationのための動き表現 [全文訳有]

Motion Representations for Articulated Animation ( http://arxiv.org/abs/2104.11280v1 )

ライセンス: CC BY 4.0
Aliaksandr Siarohin, Oliver J. Woodford, Jian Ren, Menglei Chai and Sergey Tulyakov(参考訳) 異なる部分からなる調音物体をアニメーション化する新しい動き表現法を提案する。 完全に教師なしの方法で、本手法は対象部品を識別し、駆動ビデオで追跡し、主軸を考慮して動きを推定する。 従来のキーポイントに基づく研究とは対照的に,提案手法は位置,形状,ポーズを記述し,有意義かつ一貫した領域を抽出する。 領域は、駆動ビデオのフレームでより容易に検出される意味的に関連し、異なる対象部分に対応する。 背景からフォアグラウンドのデカップリングを強制するために,アフィン変換を付加した非対象のグローバルな動きをモデル化する。 アニメーションを容易にし,運転物体の形状の漏れを防止するため,領域空間における物体の形状とポーズを乱す。 我々のモデルは様々なオブジェクトをアニメートすることができ、既存のベンチマークでは従来のメソッドを大きく上回っています。 本稿では,高精細度ビデオを用いた挑戦的な新しいベンチマークを提案し,その改善が特に顕著であることを示し,96.6%のユーザ嗜好を得た。

We propose novel motion representations for animating articulated objects consisting of distinct parts. In a completely unsupervised manner, our method identifies object parts, tracks them in a driving video, and infers their motions by considering their principal axes. In contrast to the previous keypoint-based works, our method extracts meaningful and consistent regions, describing locations, shape, and pose. The regions correspond to semantically relevant and distinct object parts, that are more easily detected in frames of the driving video. To force decoupling of foreground from background, we model non-object related global motion with an additional affine transformation. To facilitate animation and prevent the leakage of the shape of the driving object, we disentangle shape and pose of objects in the region space. Our model can animate a variety of objects, surpassing previous methods by a large margin on existing benchmarks. We present a challenging new benchmark with high-resolution videos and show that the improvement is particularly pronounced when articulated objects are considered, reaching 96.6% user preference vs. the state of the art.
翻訳日:2021-04-26 21:56:12 公開日:2021-04-22
# (参考訳) ハミルトン-ヤコビ偏微分方程式と非凸前駆に対する最大後値と後平均推定値との連結 [全文訳有]

Connecting Hamilton--Jacobi partial differential equations with maximum a posteriori and posterior mean estimators for some non-convex priors ( http://arxiv.org/abs/2104.11285v1 )

ライセンス: CC BY 4.0
J\'er\^ome Darbon and Gabriel P. Langlois and Tingwei Meng(参考訳) 多くの画像問題は、有限次元最適化問題として表される逆問題として定式化することができる。 これらの最適化問題は一般に、データ忠実度と正規化項の和を最小化する。 23,26]では、これらの最適化問題と(多重時間)ハミルトン-ヤコビ偏微分方程式の接続は、データの忠実度と正規化項の両方の凸性仮定の下で提案されている。 特に、これらの凸性仮定の下では、最小値の表現公式がいくつか得られる。 ベイズの観点からは、そのような最小化器は最大後部推定器と見なすことができる。 本章では、ある種の非凸正則化を考えるとともに、その最小化に対する類似表現公式も得られることを示す。 これは、もともと最適制御で生じるハミルトン-ヤコビ偏微分方程式を解くために開発されたミンプラス代数技術を活用することで達成される。 25] では, 粘性ハミルトン-ヤコビ偏微分方程式とガウスデータ忠実性項と対数凸優先項を持つベイズ後平均推定子との関係が強調された。 また、ガウス的データ忠実度を持つベイズ的後進平均推定器や、min-plus代数手法の類似を用いた非log-concave先行値についても同様の結果を示す。

Many imaging problems can be formulated as inverse problems expressed as finite-dimensional optimization problems. These optimization problems generally consist of minimizing the sum of a data fidelity and regularization terms. In [23,26], connections between these optimization problems and (multi-time) Hamilton--Jacobi partial differential equations have been proposed under the convexity assumptions of both the data fidelity and regularization terms. In particular, under these convexity assumptions, some representation formulas for a minimizer can be obtained. From a Bayesian perspective, such a minimizer can be seen as a maximum a posteriori estimator. In this chapter, we consider a certain class of non-convex regularizations and show that similar representation formulas for the minimizer can also be obtained. This is achieved by leveraging min-plus algebra techniques that have been originally developed for solving certain Hamilton--Jacobi partial differential equations arising in optimal control. Note that connections between viscous Hamilton--Jacobi partial differential equations and Bayesian posterior mean estimators with Gaussian data fidelity terms and log-concave priors have been highlighted in [25]. We also present similar results for certain Bayesian posterior mean estimators with Gaussian data fidelity and certain non-log-concave priors using an analogue of min-plus algebra techniques.
翻訳日:2021-04-26 21:40:29 公開日:2021-04-22
# (参考訳) H-Net:非教師付きアテンションベースステレオ深さ推定法 [全文訳有]

H-Net: Unsupervised Attention-based Stereo Depth Estimation Leveraging Epipolar Geometry ( http://arxiv.org/abs/2104.11288v1 )

ライセンス: CC BY 4.0
Baoru Huang, Jian-Qing Zheng, Stamatia Giannarou, Daniel S. Elson(参考訳) ステレオ画像対からの深度推定はコンピュータビジョンにおいて最も検討された応用の1つとなり、従来の手法のほとんどは完全に教師付き学習設定に依存していた。 しかし、正確でスケーラブルな地上真実データを取得することの難しさから、完全教師付き手法の訓練は困難である。 代わりとして、この課題を緩和するために、自己監督型メソッドがより普及しています。 本稿では,ステレオマッチングを洗練するためにエピポーラ幾何を利用した,教師なしステレオ深度推定のためのディープラーニングフレームワークであるh-netを提案する。 最初に、修正ステレオ画像間の相互情報を抽出する深度推定にシームズオートエンコーダアーキテクチャを用いる。 エピポーラ制約を強制するために、入力ステレオペア間の相互情報を学習しながら同じエピポーラライン上にある特徴の対応をより強調する相互エピポーラ注意機構が設計されている。 提案した注意機構に意味情報を組み込むことによりステレオ対応をさらに強化する。 より具体的には、最適な輸送アルゴリズムは、両方のカメラで見えない領域の注意を抑え、異常をなくすために使用される。 kitti2015とcityscapesでの広範囲な実験により、この手法は、全教師付きアプローチでギャップを閉じながら、最先端の未教師付きステレオ深度推定手法よりも優れていることが示された。

Depth estimation from a stereo image pair has become one of the most explored applications in computer vision, with most of the previous methods relying on fully supervised learning settings. However, due to the difficulty in acquiring accurate and scalable ground truth data, the training of fully supervised methods is challenging. As an alternative, self-supervised methods are becoming more popular to mitigate this challenge. In this paper, we introduce the H-Net, a deep-learning framework for unsupervised stereo depth estimation that leverages epipolar geometry to refine stereo matching. For the first time, a Siamese autoencoder architecture is used for depth estimation which allows mutual information between the rectified stereo images to be extracted. To enforce the epipolar constraint, the mutual epipolar attention mechanism has been designed which gives more emphasis to correspondences of features which lie on the same epipolar line while learning mutual information between the input stereo pair. Stereo correspondences are further enhanced by incorporating semantic information to the proposed attention mechanism. More specifically, the optimal transport algorithm is used to suppress attention and eliminate outliers in areas not visible in both cameras. Extensive experiments on KITTI2015 and Cityscapes show that our method outperforms the state-ofthe-art unsupervised stereo depth estimation methods while closing the gap with the fully supervised approaches.
翻訳日:2021-04-26 21:14:41 公開日:2021-04-22
# (参考訳) テキスト分類における測地距離と文脈埋め込み圧縮について [全文訳有]

On Geodesic Distances and Contextual Embedding Compression for Text Classification ( http://arxiv.org/abs/2104.11295v1 )

ライセンス: CC BY 4.0
Rishi Jha and Kai Mihata(参考訳) IoTデバイスやオーバーザネットワークデータパイプラインのようなメモリ制約のある設定では、コンテキスト埋め込みが小さくなるという利点がある。 本研究では, コンテキスト埋め込みデータ(BERT)を多様体に投影することの有効性について検討し, 非線形次元還元法を用いてそれらの埋め込みを圧縮する。 特に,isomapとpcaの組み合わせを適用した新しい後処理手法を提案する。 リーマン多様体上の最短経路の推定である測地距離の推定は、アイソマップのk-ネアレスト近傍グラフから得られることが、圧縮埋め込みの性能をオリジナルのbert埋め込みに匹敵することを示した。 1つのデータセットでは、12倍の次元減少にもかかわらず、圧縮された埋め込みは、下流の分類タスクにおいて元のBERT埋め込みの0.1%以内に実行される。 さらに, この手法は, 線形次元削減と比較して, 構文データに依存するタスクに特に有効であることがわかった。 これらの結果は、既存のトランスフォーマーから低次元のテキスト埋め込みを実現し、データ固有およびアプリケーション固有の埋め込み圧縮への道を開く新しい幾何学的アプローチに有望である。

In some memory-constrained settings like IoT devices and over-the-network data pipelines, it can be advantageous to have smaller contextual embeddings. We investigate the efficacy of projecting contextual embedding data (BERT) onto a manifold, and using nonlinear dimensionality reduction techniques to compress these embeddings. In particular, we propose a novel post-processing approach, applying a combination of Isomap and PCA. We find that the geodesic distance estimations, estimates of the shortest path on a Riemannian manifold, from Isomap's k-Nearest Neighbors graph bolstered the performance of the compressed embeddings to be comparable to the original BERT embeddings. On one dataset, we find that despite a 12-fold dimensionality reduction, the compressed embeddings performed within 0.1% of the original BERT embeddings on a downstream classification task. In addition, we find that this approach works particularly well on tasks reliant on syntactic data, when compared with linear dimensionality reduction. These results show promise for a novel geometric approach to achieve lower dimensional text embeddings from existing transformers and pave the way for data-specific and application-specific embedding compressions.
翻訳日:2021-04-26 21:00:07 公開日:2021-04-22
# (参考訳) Earnings-21: 野生におけるASRの実践的ベンチマーク [全文訳有]

Earnings-21: A Practical Benchmark for ASR in the Wild ( http://arxiv.org/abs/2104.11348v1 )

ライセンス: CC BY-SA 4.0
Miguel Del Rio, Natalie Delworth, Ryan Westerman, Michelle Huang, Nishchal Bhandari, Joseph Palakapilly, Quinten McNamara, Joshua Dong, Piotr Zelasko, Miguel Jette(参考訳) 一般的な音声コーパスは、学術的および商業的なASRシステムに不適当に挑戦する。 特に、音声コーパスには詳細な分析やWER測定に必要なメタデータがない。 これに応えて、9つの金融セクターのエンティティ・ディエンス・スピーチを含む39時間の収支表であるEarnings-21を提示する。 このコーパスは、名前付きエンティティ認識に特に注意を払って、野生のasrシステムをベンチマークすることを目的としている。 我々は、4つの商用ASRモデル、オープンソースツールで構築された2つの内部モデル、オープンソースのLibriSpeechモデルをベンチマークし、Earnings-21の性能差について議論する。 最近リリースしたfstalignツールを使用して、各モデルの認識能力を異なるパーティション下で率直に分析する。 解析の結果,特定のnerカテゴリのasr精度は低く,理解と使用の書き起こしに重大な障害が生じた。 Earnings-21は学術的および商業的なASRシステム評価を橋渡しし、実世界のオーディオにおけるエンティティモデリングとWERのさらなる研究を可能にする。

Commonly used speech corpora inadequately challenge academic and commercial ASR systems. In particular, speech corpora lack metadata needed for detailed analysis and WER measurement. In response, we present Earnings-21, a 39-hour corpus of earnings calls containing entity-dense speech from nine different financial sectors. This corpus is intended to benchmark ASR systems in the wild with special attention towards named entity recognition. We benchmark four commercial ASR models, two internal models built with open-source tools, and an open-source LibriSpeech model and discuss their differences in performance on Earnings-21. Using our recently released fstalign tool, we provide a candid analysis of each model's recognition capabilities under different partitions. Our analysis finds that ASR accuracy for certain NER categories is poor, presenting a significant impediment to transcript comprehension and usage. Earnings-21 bridges academic and commercial ASR system evaluation and enables further research on entity modeling and WER on real world audio.
翻訳日:2021-04-26 20:53:30 公開日:2021-04-22
# (参考訳) 新型コロナウイルスの時系列解析 : 症例と死亡例 [全文訳有]

Scalable Predictive Time-Series Analysis of COVID-19: Cases and Fatalities ( http://arxiv.org/abs/2104.11349v1 )

ライセンス: CC BY 4.0
Shradha Shinde, Jay Joshi, Sowmya Mareedu, Yeon Pyo Kim, Jongwook Woo(参考訳) 新型コロナウイルス19は、2019年12月から世界中で流行し始めた急性疾患である。 世界中に広がり、700万人以上が感染し、2020年10月現在で2万人が死亡している。 本稿では,Times Series: ARIMA と ETS をベースとした従来型およびビッグデータプラットフォームを用いて,死者数と米国ロサンゼルスおよびニューヨークで確認された症例数を予測した。 また,Facebook Prophet APIを用いた時系列予測モデルも実装した。 さらに,ロジスティック回帰(ロジスティック回帰)とランダムフォレスト回帰(ランダムフォレスト回帰)という分類モデルを開発した。 モデルはレガシーシステム(Azure ML Studio)とビッグデータシステム(Oracle CloudとDatabricks)で構築および実行される。 さらに,モデルの精度について述べる。

COVID 19 is an acute disease that started spreading throughout the world, beginning in December 2019. It has spread worldwide and has affected more than 7 million people, and 200 thousand people have died due to this infection as of Oct 2020. In this paper, we have forecasted the number of deaths and the confirmed cases in Los Angeles and New York of the United States using the traditional and Big Data platforms based on the Times Series: ARIMA and ETS. We also implemented a more sophisticated time-series forecast model using Facebook Prophet API. Furthermore, we developed the classification models: Logistic Regression and Random Forest regression to show that the Weather does not affect the number of the confirmed cases. The models are built and run in legacy systems (Azure ML Studio) and Big Data systems (Oracle Cloud and Databricks). Besides, we present the accuracy of the models.
翻訳日:2021-04-26 20:44:48 公開日:2021-04-22
# SPECTRE:ロバスト統計を用いたバックドア攻撃対策

SPECTRE: Defending Against Backdoor Attacks Using Robust Statistics ( http://arxiv.org/abs/2104.11315v1 )

ライセンス: Link先を確認
Jonathan Hayase, Weihao Kong, Raghav Somani, Sewoong Oh(参考訳) 現代の機械学習では、複数のソースから収集した大量のデータのトレーニングがますます必要になる。 特に関連するシナリオは、攻撃者が特定した透かしによって引き起こされた場合、少量の有毒データが訓練されたモデルの振る舞いを変更する場合である。 このような妥協されたモデルは、モデルが正しくない場合、気づかないままデプロイされる。 このようなモデルの中間表現を使って、破損した例をクリーンなものから分離しようとする有望な試みがあった。 しかし、これらの防御は、有毒な例の特定のスペクトルシグネチャが検出に十分な大きさである場合にのみ機能する。 既存の防御では防げない広範囲な攻撃がある。 本研究では,ロバスト共分散推定を用いた新しい防御アルゴリズムを提案し,破損データのスペクトルシグネチャを増幅する。 この防御はクリーンなモデルを提供し、以前の方法が有毒な例を検知する見込みのない体制でも、バックドアを完全に取り除きます。 コードと事前訓練されたモデルはhttps://github.com/s ewoonglab/spectre-de fense.comで入手できる。

Modern machine learning increasingly requires training on a large collection of data from multiple sources, not all of which can be trusted. A particularly concerning scenario is when a small fraction of poisoned data changes the behavior of the trained model when triggered by an attacker-specified watermark. Such a compromised model will be deployed unnoticed as the model is accurate otherwise. There have been promising attempts to use the intermediate representations of such a model to separate corrupted examples from clean ones. However, these defenses work only when a certain spectral signature of the poisoned examples is large enough for detection. There is a wide range of attacks that cannot be protected against by the existing defenses. We propose a novel defense algorithm using robust covariance estimation to amplify the spectral signature of corrupted data. This defense provides a clean model, completely removing the backdoor, even in regimes where previous methods have no hope of detecting the poisoned examples. Code and pre-trained models are available at https://github.com/S ewoongLab/spectre-de fense .
翻訳日:2021-04-26 13:16:45 公開日:2021-04-22
# sbnet:自然言語に基づく車両探索のためのセグメンテーションベースネットワーク

SBNet: Segmentation-based Network for Natural Language-based Vehicle Search ( http://arxiv.org/abs/2104.11589v1 )

ライセンス: Link先を確認
Sangrok Lee, Taekang Woo, Sang Hun Lee(参考訳) 自然言語に基づく車両検索は、自然言語をクエリとして記述し、所定の画像内で対象車両を見つけるタスクである。 この技術は、容疑者車両を探す警察など、様々な分野に適用することができる。 しかし、言語記述の曖昧さとマルチモーダルデータの処理が困難であることから、困難である。 そこで本研究では,自然言語に基づく車両検索のセグメンテーションを行う深層ニューラルネットワークsbnetを提案する。 また,性能を向上させるためのタスク固有モジュールを2つ提案する。異なるドメインの機能を同じ空間に組み込むための置換モジュールと,時間情報を学ぶ将来の予測モジュールである。 SBnetはCityFlow-NLデータセットを使用してトレーニングされており、それぞれ3つのユニークな自然言語記述を持つ2,498のトラックと、530のユニークなトラックとその対応するクエリセットをテストしている。 sbnetは、ai city challenge 2021において、自然言語ベースの車両追跡トラックのベースラインを大きく改善した。

Natural language-based vehicle retrieval is a task to find a target vehicle within a given image based on a natural language description as a query. This technology can be applied to various areas including police searching for a suspect vehicle. However, it is challenging due to the ambiguity of language descriptions and the difficulty of processing multi-modal data. To tackle this problem, we propose a deep neural network called SBNet that performs natural language-based segmentation for vehicle retrieval. We also propose two task-specific modules to improve performance: a substitution module that helps features from different domains to be embedded in the same space and a future prediction module that learns temporal information. SBnet has been trained using the CityFlow-NL dataset that contains 2,498 tracks of vehicles with three unique natural language descriptions each and tested 530 unique vehicle tracks and their corresponding query sets. SBNet achieved a significant improvement over the baseline in the natural language-based vehicle tracking track in the AI City Challenge 2021.
翻訳日:2021-04-26 13:16:29 公開日:2021-04-22
# VeriMedi: Proxy-based Deep Metric Learning and Exact Solution を用いたピア同定

VeriMedi: Pill Identification using Proxy-based Deep Metric Learning and Exact Solution ( http://arxiv.org/abs/2104.11231v1 )

ライセンス: Link先を確認
Tekin Evrim Ozmermer, Viktors Roze, Stanislavs Hilcuks, Alina Nescerecka(参考訳) 本稿では,VeriMedi デバイスで撮影された画像を用いて薬剤の同定と検証を行うシステムを提案する。 verimedi deviceはiot(internet of things, モノのインターネット)デバイスで、バイアルの底から充填された錠剤の写真を撮り、この研究で提示されたソリューションを使って、バイアル内の錠剤を識別する。 このソリューションには、セグメンテーションと識別を行う2つの連続接続型ディープラーニングソリューションがある。 セグメンテーションソリューションは、Mask R-CNNモデルを使用して、バイセル画像の各ピルのマスクを生成し、その後、セグメンテーションして薬を収穫し、背景をぼかす。 その後、セグメント化されたピル画像が識別ソリューションに送られ、プロキシアンカーロス(PAL)関数でトレーニングされたディープメトリックラーニングモデルが各ピル画像の埋め込みベクトルを生成する。 生成された埋め込みベクトルは、1層に完全に接続されたネットワークに入力され、個々のピル画像を予測する正確な解で訓練される。 そして、アグリゲーション/検証関数は、複数の単一のピル画像から来る複数の予測を集約し、予め定義されたルールに関する最終予測の正しさを検証する。 さらに、より優れたプロキシ初期化によって、モデルのパフォーマンスが向上し、モデルがデータセット全体を再トレーニングすることなく、新たなクラスのイメージを継続的に学習できるようにしました。 初期クラスでトレーニングされたモデルが新しいクラスでのみ再トレーニングされると、古いクラスと新しいクラスの両方でモデルの精度が向上する。 この研究で提示した識別ソリューションは、継続学習や細粒度視覚分類を必要とする他の問題領域にも再利用できる。

We present the system that we have developed for the identification and verification of pills using images that are taken by the VeriMedi device. The VeriMedi device is an Internet of Things device that takes pictures of a filled pill vial from the bottom of the vial and uses the solution that is presented in this research to identify the pills in the vials. The solution has two serially connected deep learning solutions which do segmentation and identification. The segmentation solution creates the masks for each pill in the vial image by using the Mask R-CNN model, then segments and crops the pills and blurs the background. After that, the segmented pill images are sent to the identification solution where a Deep Metric Learning model that is trained with Proxy Anchor Loss (PAL) function generates embedding vectors for each pill image. The generated embedding vectors are fed into a one-layer fully connected network that is trained with the exact solution to predict each single pill image. Then, the aggregation/verifica tion function aggregates the multiple predictions coming from multiple single pill images and verifies the correctness of the final prediction with respect to predefined rules. Besides, we enhanced the PAL with a better proxy initialization that increased the performance of the models and let the model learn the new classes of images continually without retraining the model with the whole dataset. When the model that is trained with initial classes is retrained only with new classes, the accuracy of the model increases for both old and new classes. The identification solution that we have presented in this research can also be reused for other problem domains which require continual learning and/or Fine-Grained Visual Categorization.
翻訳日:2021-04-26 13:16:02 公開日:2021-04-22
# 静的画像からの表情認識のためのランドマーク認識とパートベースアンサンブル転送学習ネットワーク

Landmark-Aware and Part-based Ensemble Transfer Learning Network for Facial Expression Recognition from Static images ( http://arxiv.org/abs/2104.11274v1 )

ライセンス: Link先を確認
Rohan Wadhawan and Tapan K. Gandhi(参考訳) 静的画像からの表情認識はコンピュータビジョンアプリケーションでは難しい問題である。 コンピュータビジョンタスクの最先端手法である畳み込みニューラルネットワーク(convolutional neural network, cnn)は、極端なポーズ、照明、咬合条件を持つ顔からの表情の予測に成功している。 この問題を軽減するため、CNNには転送、マルチタスク、アンサンブル学習などのテクニックが伴い、高い計算複雑性を犠牲にして高い精度を提供することが多い。 本研究では,顔の特徴の空間的方向パターンを特定の表情に関連付けて,人間の表情認識をモデル化する,部分的なアンサンブル・トランスファー学習ネットワークを提案する。 それは5つのサブネットワークで構成されており、各サブネットワークは、顔のランドマークの5つのサブセットのうちの1つ(まぶた、目、鼻、口、顎)から表情分類への転送学習を行う。 提案したネットワークをCK+, JAFFE, SFEWデータセット上でテストし, CK+, JAFFEデータセットのベンチマークをそれぞれ0.51\%, 5.34\%で上回った。 さらに、合計1.65Mモデルパラメータで構成され、リアルタイムデプロイメントの計算効率を保証するために、わずか3.28$\times$10^{6}$ FLOPSしか必要としない。 提案したアンサンブルのGrad-CAM視覚化では,有効アンサンブルネットワークの設計パラメータであるサブネットワークの相補性を強調した。 最後に,クロスデータセット評価の結果から,提案するアンサンブルは高い一般化能力を持つことが明らかとなった。 sfew trainデータセットでトレーニングされたモデルは、ck+データセット上で47.53\%の精度を実現しています。

Facial Expression Recognition from static images is a challenging problem in computer vision applications. Convolutional Neural Network (CNN), the state-of-the-art method for various computer vision tasks, has had limited success in predicting expressions from faces having extreme poses, illumination, and occlusion conditions. To mitigate this issue, CNNs are often accompanied by techniques like transfer, multi-task, or ensemble learning that often provide high accuracy at the cost of high computational complexity. In this work, we propose a Part-based Ensemble Transfer Learning network, which models how humans recognize facial expressions by correlating the spatial orientation pattern of the facial features with a specific expression. It consists of 5 sub-networks, in which each sub-network performs transfer learning from one of the five subsets of facial landmarks: eyebrows, eyes, nose, mouth, or jaw to expression classification. We test the proposed network on the CK+, JAFFE, and SFEW datasets, and it outperforms the benchmark for CK+ and JAFFE datasets by 0.51\% and 5.34\%, respectively. Additionally, it consists of a total of 1.65M model parameters and requires only 3.28 $\times$ $10^{6}$ FLOPS, which ensures computational efficiency for real-time deployment. Grad-CAM visualizations of our proposed ensemble highlight the complementary nature of its sub-networks, a key design parameter of an effective ensemble network. Lastly, cross-dataset evaluation results reveal that our proposed ensemble has a high generalization capacity. Our model trained on the SFEW Train dataset achieves an accuracy of 47.53\% on the CK+ dataset, which is higher than what it achieves on the SFEW Valid dataset.
翻訳日:2021-04-26 13:11:45 公開日:2021-04-22
# パッチショートカット:ブラックボックスの脆弱性を効果的に発見する解釈可能なプロキシモデル

Patch Shortcuts: Interpretable Proxy Models Efficiently Find Black-Box Vulnerabilities ( http://arxiv.org/abs/2104.11691v1 )

ライセンス: Link先を確認
Julia Rosenzweig, Joachim Sicking, Sebastian Houben, Michael Mock, Maram Akila(参考訳) 安全な機械学習(ML)のための重要な柱は、ニューラルネットワークの弱点を体系的に緩和し、重要なアプリケーションにデプロイすることである。 安全リスクのユビキタスクラスは、ショートカット、すなわち学習される。 ネットワークは実際のタスクと意味的な関係を持たない決定のために悪用します。 このようなショートカットに依存するネットワークは、見当たらない入力にうまく一般化しないリスクを負う。 説明可能性メソッドはそのようなネットワーク脆弱性を明らかにするのに役立つ。 しかし、これらの技術の多くは、ネットワークへのアクセスが制限されている場合、いわゆるブラックボックス設定では直接適用されない。 これらのセットアップは、サードパーティのMLコンポーネントを使用する場合には一般的である。 この制約に対処するため,関心のブラックボックスモデルのプロキシとして,解釈可能なネットワークを用いて学習したショートカットを検出する手法を提案する。 イントロスペクションのプロキシの保証を活用することで、学習したショートカットの候補を自動的に抽出します。 ブラックボックスへの転送性は体系的に検証される。 具体的には、プロキシモデルとしてbagnetを選択します。 パッチショートカットを抽出した自律走行データセットA2D2がブラックボックスモデルに大きな影響を及ぼすことを示す。 このようなパッチベースの脆弱性を効率的に識別することにより、より安全なMLモデルに寄与する。

An important pillar for safe machine learning (ML) is the systematic mitigation of weaknesses in neural networks to afford their deployment in critical applications. An ubiquitous class of safety risks are learned shortcuts, i.e. spurious correlations a network exploits for its decisions that have no semantic connection to the actual task. Networks relying on such shortcuts bear the risk of not generalizing well to unseen inputs. Explainability methods help to uncover such network vulnerabilities. However, many of these techniques are not directly applicable if access to the network is constrained, in so-called black-box setups. These setups are prevalent when using third-party ML components. To address this constraint, we present an approach to detect learned shortcuts using an interpretable-by-des ign network as a proxy to the black-box model of interest. Leveraging the proxy's guarantees on introspection we automatically extract candidates for learned shortcuts. Their transferability to the black box is validated in a systematic fashion. Concretely, as proxy model we choose a BagNet, which bases its decisions purely on local image patches. We demonstrate on the autonomous driving dataset A2D2 that extracted patch shortcuts significantly influence the black box model. By efficiently identifying such patch-based vulnerabilities, we contribute to safer ML models.
翻訳日:2021-04-26 13:10:06 公開日:2021-04-22
# マルチモーダル画像アライメントのためのDeep Lucas-Kanade Homography

Deep Lucas-Kanade Homography for Multimodal Image Alignment ( http://arxiv.org/abs/2104.11693v1 )

ライセンス: Link先を確認
Yiming Zhao, Xinming Huang and Ziming Zhang(参考訳) 多くのコンピュータビジョンアプリケーションにおいて、画像対を異なるセンサーや画像対に大きく変化させるようにホモグラフィーを推定することが重要かつ一般的な課題である。 他とは対照的に,従来のルーカスカナーデアルゴリズムをネットワークで拡張することにより,画素ワイドなマルチモーダル画像対の一般的な解を提案する。 提案手法における重要な貢献は,Deep Lucas-Kanade Feature Map (DLKFM) と呼ばれる特徴マップの構築方法である。 学習したDLKFMは、様々な外観変化条件下で自然に不変の特徴を認識することができる。 ルーカス・カナードアルゴリズムには2つの優れた特性がある:(1)テンプレート特徴マップは入力特徴マップと輝度一貫性を保ちます。 2) DLKFM上に構築されたルーカス・カナーデ目的関数は、基底真理ホモグラフィーパラメータの周りのスムーズな景観を持つので、ルーカス・カナーデの反復解は基底真理に容易に収束できる。 これらの特性により、特徴マップ上でLucas-Kanadeアルゴリズムを直接更新することで、画像ペアを大きな外観変化と正確に整合させることができる。 データセット、コード、デモビデオをオンラインで共有しています。

Estimating homography to align image pairs captured by different sensors or image pairs with large appearance changes is an important and general challenge for many computer vision applications. In contrast to others, we propose a generic solution to pixel-wise align multimodal image pairs by extending the traditional Lucas-Kanade algorithm with networks. The key contribution in our method is how we construct feature maps, named as deep Lucas-Kanade feature map (DLKFM). The learned DLKFM can spontaneously recognize invariant features under various appearance-changing conditions. It also has two nice properties for the Lucas-Kanade algorithm: (1) The template feature map keeps brightness consistency with the input feature map, thus the color difference is very small while they are well-aligned. (2) The Lucas-Kanade objective function built on DLKFM has a smooth landscape around ground truth homography parameters, so the iterative solution of the Lucas-Kanade can easily converge to the ground truth. With those properties, directly updating the Lucas-Kanade algorithm on our feature maps will precisely align image pairs with large appearance changes. We share the datasets, code, and demo video online.
翻訳日:2021-04-26 13:03:56 公開日:2021-04-22
# 実時間逆モデリングのための機械学習フレームワークとアクティブ製造制御のための複合材料多目的プロセス最適化

A Machine Learning Framework for Real-time Inverse Modeling and Multi-objective Process Optimization of Composites for Active Manufacturing Control ( http://arxiv.org/abs/2104.11342v1 )

ライセンス: Link先を確認
Keith D. Humfeld, Dawei Gu, Geoffrey A. Butler, Karl Nelson, Navid Zobeiry(参考訳) 航空宇宙複合材料の製造には、オートクレーブ内の対流加熱を用いて複数の部品を同時に処理することができる。 工具配置などの不確実性から、対流境界条件(bcs)は各実行で異なる。 その結果、一部の部品の温度履歴は、過熱または過熱のためプロセス仕様に適合しない可能性がある。 有限要素(fe)シミュレーションを用いた熱化学的解析は、通常、bcsの想定範囲に基づいて行われる。 しかし、これは設計に不必要な制約をもたらす。 プロセスを監視するために、熱電対(tcs)は重要な場所の近くのツールの下に置かれる。 TCデータは、トライアル・アンド・エラーFE分析を用いてBCのバック計算に使用することができる。 しかし, 逆熱伝達問題は不良であるため, 与えられたTCデータに対して多くの解が得られる。 本研究では,複数部品のTCデータに基づいて,リアルタイムに空気温度サイクルを最適化し,製造の能動的制御が可能な機械学習(ML)フレームワークを提案する。 このフレームワークは、300シミュレーション/秒の速度で不適切なキュリング問題を逆モデリングするための2つのリカレントニューラルネットワーク(nn)と、35,000シミュレーション/秒の速度での気温の多目的最適化のための分類nnで構成されている。 3つのTCのデータを含む3つの複合部品のプロセス最適化のためのフレームワークの仮想的なデモを示す。

For manufacturing of aerospace composites, several parts may be processed simultaneously using convective heating in an autoclave. Due to uncertainties including tool placement, convective Boundary Conditions (BCs) vary in each run. As a result, temperature histories in some of the parts may not conform to process specifications due to under-curing or over-heating. Thermochemical analysis using Finite Element (FE) simulations are typically conducted prior to fabrication based on assumed range of BCs. This, however, introduces unnecessary constraints on the design. To monitor the process, thermocouples (TCs) are placed under tools near critical locations. The TC data may be used to back-calculate BCs using trial-and-error FE analysis. However, since the inverse heat transfer problem is ill-posed, many solutions are obtained for given TC data. In this study, a novel machine learning (ML) framework is presented capable of optimizing air temperature cycle in real-time based on TC data from multiple parts, for active control of manufacturing. The framework consists of two recurrent Neural Networks (NN) for inverse modeling of the ill-posed curing problem at the speed of 300 simulations/second, and a classification NN for multi-objective optimization of the air temperature at the speed of 35,000 simulations/second. A virtual demonstration of the framework for process optimization of three composite parts with data from three TCs is presented.
翻訳日:2021-04-26 13:02:39 公開日:2021-04-22
# 遺伝的アルゴリズムを用いたパーソナライズ学習経路の構築

Constructing a personalized learning path using genetic algorithms approach ( http://arxiv.org/abs/2104.11276v1 )

ライセンス: Link先を確認
Lumbardh Elshani, Krenare Pireva Nu\c{c}i(参考訳) 従来の学習の実質的な欠点は、すべての生徒が同じ学習シーケンスに従うことであるが、すべての生徒が同じ知識の背景、同じ好み、同じ学習目標、同じニーズを持っているわけではない。 教科書のような伝統的な教育資源は、多くの場合、学習プロセス中に一定の順序に従うよう学生を追求し、パフォーマンスを損なう。 学習シークエンシングは学習プロセスの一部として重要な研究課題である。 そのため、多くの研究論文は学習者のニーズ、興味、行動、能力を考慮して学習経路にパーソナライズを提供するメカニズムの開発に焦点を当てている。 ほとんどの場合、これらの研究者は学生の好みに完全に焦点を合わせ、コース内の様々な概念の間に存在する難易度と関係度を無視している。 本研究では,遺伝的アルゴリズムを用いた学習経路構築の可能性について検討し,学習コースの構成概念の難易度と関係度に遭遇する。 遺伝的アルゴリズムは,学習経路のシーケンスの基本部分として,学習対象の難易度,継続時間,評価,関係度に基づいて最適な学習経路を生成するのに適していることを示す。 これらの結果から,従来の学習パスの質と比較すると,GAアプローチによる学習パスの弱さが従来の学習パスの質に比して好意的であり,学習パスの質は3.59倍,学習パスの最高解は8.34倍であった。

A substantial disadvantage of traditional learning is that all students follow the same learning sequence, but not all of them have the same background of knowledge, the same preferences, the same learning goals, and the same needs. Traditional teaching resources, such as textbooks, in most cases pursue students to follow fixed sequences during the learning process, thus impairing their performance. Learning sequencing is an important research issue as part of the learning process because no fixed learning paths will be appropriate for all learners. For this reason, many research papers are focused on the development of mechanisms to offer personalization on learning paths, considering the learner needs, interests, behaviors, and abilities. In most cases, these researchers are totally focused on the student's preferences, ignoring the level of difficulty and the relation degree that exists between various concepts in a course. This research paper presents the possibility of constructing personalized learning paths using genetic algorithm-based model, encountering the level of difficulty and relation degree of the constituent concepts of a course. The experimental results shows that the genetic algorithm is suitable to generate optimal learning paths based on learning object difficulty level, duration, rating, and relation degree between each learning object as elementary parts of the sequence of the learning path. From these results compared to the quality of the traditional learning path, we observed that even the quality of the weakest learning path generated by our GA approach is in a favor compared to quality of the traditional learning path, with a difference of 3.59\%, while the highest solution generated in the end resulted 8.34\% in favor of our proposal compared to the traditional learning paths.
翻訳日:2021-04-26 12:59:43 公開日:2021-04-22
# 等変ウェーブレット:高速回転と変換不変ウェーブレット散乱変換

Equivariant Wavelets: Fast Rotation and Translation Invariant Wavelet Scattering Transforms ( http://arxiv.org/abs/2104.11244v1 )

ライセンス: Link先を確認
Andrew K. Saydjari, Douglas P. Finkbeiner(参考訳) フィルタと重みが固定された畳み込みニューラルネットワーク(CNN)であるウェーブレット散乱ネットワークは、画像解析に有望なツールである。 画像統計に対称性を加えることで、人間の解釈性が向上し、一般化を助け、次元を減らすことができる。 本研究では,高速かつ翻訳不変かつ回転不変なウェーブレット散乱ネットワーク(EqWS)とウェーブレットのフィルタバンク(トリグレット)を導入する。 本稿では, 係数の非分散/同分散を定量化し, スケール等分散化の難しさを簡潔に解説する。 MNISTでは、係数の回転不変化に関するトレーニングは、テストデータに一般化された場合の回転不変性を維持し、残留対称性の破れ項を可視化する。 回転同分散を利用して桁の回転角を推定し、各係数の回転依存性を1つの角度から再構築する。 我々はEMNISTとCIFAR-10/100の線形分類器でEqWSをベンチマークし、カラー画像に新しい2階のクロスカラーチャネル結合を導入する。 本研究では, 散乱係数とRWSTの等方的低減性能を, 天体物理学的関係を考慮した磁気流体力学シミュレーションの等方的分類で比較した。

Wavelet scattering networks, which are convolutional neural networks (CNNs) with fixed filters and weights, are promising tools for image analysis. Imposing symmetry on image statistics can improve human interpretability, aid in generalization, and provide dimension reduction. In this work, we introduce a fast-to-compute, translationally invariant and rotationally equivariant wavelet scattering network (EqWS) and filter bank of wavelets (triglets). We demonstrate the interpretability and quantify the invariance/equivaria nce of the coefficients, briefly commenting on difficulties with implementing scale equivariance. On MNIST, we show that training on a rotationally invariant reduction of the coefficients maintains rotational invariance when generalized to test data and visualize residual symmetry breaking terms. Rotation equivariance is leveraged to estimate the rotation angle of digits and reconstruct the full rotation dependence of each coefficient from a single angle. We benchmark EqWS with linear classifiers on EMNIST and CIFAR-10/100, introducing a new second-order, cross-color channel coupling for the color images. We conclude by comparing the performance of an isotropic reduction of the scattering coefficients and RWST, a previous coefficient reduction, on an isotropic classification of magnetohydrodynamic simulations with astrophysical relevance.
翻訳日:2021-04-26 12:59:16 公開日:2021-04-22
# 確率零次最適化のための次元非感性アルゴリズム

A Dimension-Insensitiv e Algorithm for Stochastic Zeroth-Order Optimization ( http://arxiv.org/abs/2104.11283v1 )

ライセンス: Link先を確認
Hongcheng Liu and Yu Yang(参考訳) 本稿では,コスト関数の期待を最小化し,その勾配が直接アクセスできないような,凸確率的ゼロ次最適化(s-zoo)問題について述べる。 この問題を解決するために、従来の最適化手法は、主に次元で多項式的に成長するクエリ複雑度、すなわち関数評価の数は、決定変数の数の多項式関数である。 したがって、これらの手法は、多くの近代的な応用で生じる大量次元問題の解決にうまく機能しない可能性がある。 より最近の手法は、証明可能な次元非感受性を持つことができるが、ほとんど全ての手法は、至る所のスパースや圧縮可能な勾配のようなより厳密な条件で機能する。 したがって, 本研究に先立ち, 次元非感応性S-ZOOがそのような条件なしに可能かどうかは不明である。 本稿では,スペーサ性誘導確率勾配自由(SI-SGF)アルゴリズムを提案することにより,この問題に対する肯定的な回答を与える。 勾配間隔や勾配圧縮性を満足しない場合, 凸面および強凸面の双方において, 次元不感なクエリ複雑性を実現することが証明された。 提案したSI-SGFは,既存の代替品と比較して強い可能性を示した。

This paper concerns a convex, stochastic zeroth-order optimization (S-ZOO) problem, where the objective is to minimize the expectation of a cost function and its gradient is not accessible directly. To solve this problem, traditional optimization techniques mostly yield query complexities that grow polynomially with dimensionality, i.e., the number of function evaluations is a polynomial function of the number of decision variables. Consequently, these methods may not perform well in solving massive-dimensional problems arising in many modern applications. Although more recent methods can be provably dimension-insensitiv e, almost all of them work with arguably more stringent conditions such as everywhere sparse or compressible gradient. Thus, prior to this research, it was unknown whether dimension-insensitiv e S-ZOO is possible without such conditions. In this paper, we give an affirmative answer to this question by proposing a sparsity-inducing stochastic gradient-free (SI-SGF) algorithm. It is proved to achieve dimension-insensitiv e query complexity in both convex and strongly convex cases when neither gradient sparsity nor gradient compressibility is satisfied. Our numerical results demonstrate the strong potential of the proposed SI-SGF compared with existing alternatives.
翻訳日:2021-04-26 12:57:21 公開日:2021-04-22
# ソフトウェア定義エッジコンピューティング - IoTデータ分析をサポートする新しいアーキテクチャパラダイム

Software-Defined Edge Computing: A New Architecture Paradigm to Support IoT Data Analysis ( http://arxiv.org/abs/2104.11645v1 )

ライセンス: Link先を確認
Di Wu, Xiaofeng Xie, Xiang Ni, Bin Fu, Hanhui Deng Haibo Zeng, and Zhijin Qin(参考訳) IoT(Internet of Things)アプリケーションの迅速なデプロイは、処理が必要な大量のデータを生み出します。 これらのIoTアプリケーションは、レイテンシと帯域幅に関する特定の通信要件を持ち、時間依存性などの生成されたデータに新機能を提供する。 したがって、スマートなIoTデータプロセスと分析をサポートするために、通信とコンピューティングの本質的な性質を探求することで、現在のIoTアーキテクチャを再構築することが望ましい。 この論文では、IoTデータの特徴、IoTネットワークアーキテクチャのトレンド、IoTデータ分析におけるいくつかの問題とそのソリューションを紹介します。 具体的には、ソフトウェア定義エッジコンピューティングは、IoTデータ分析のユニークなニーズをサポートするための有望なアーキテクチャであると考えています。 さらに,本アーキテクチャにおけるデータ異常検出実験を行い,ecg診断のための2つのアーキテクチャの比較を行った。 その結果,本手法は有効かつ有効であることがわかった。

The rapid deployment of Internet of Things (IoT) applications leads to massive data that need to be processed. These IoT applications have specific communication requirements on latency and bandwidth, and present new features on their generated data such as time-dependency. Therefore, it is desirable to reshape the current IoT architectures by exploring their inherent nature of communication and computing to support smart IoT data process and analysis. We introduce in this paper features of IoT data, trends of IoT network architectures, some problems in IoT data analysis, and their solutions. Specifically, we view that software-defined edge computing is a promising architecture to support the unique needs of IoT data analysis. We further present an experiment on data anomaly detection in this architecture, and the comparison between two architectures for ECG diagnosis. Results show that our method is effective and feasible.
翻訳日:2021-04-26 12:55:26 公開日:2021-04-22
# 修正拡散モデルによる劣化音声の復元

Restoring degraded speech via a modified diffusion model ( http://arxiv.org/abs/2104.11347v1 )

ライセンス: Link先を確認
Jianwei Zhang, Suren Jayasuriya, Visar Berisha(参考訳) 多くの決定論的数学的操作(例)がある。 圧縮、クリップ、ダウンサンプリング) 音声品質を著しく低下させる。 本稿では,元々の音声信号を復元することを目的とした,差分モデルの修正に基づくニューラルネットワークアーキテクチャを提案する。 最近発表された拡散ベースのボコーダであるDiffWaveは、短いパラメータセットで、最先端の合成音声品質と比較的短い波形生成時間を示した。 diffwave の mel-spectrum upsampler を deep cnn upsampler に置き換える。 モデルは、元の音声波形を用いて訓練されるが、劣化した音声メルスペクトルに基づく。 訓練後、劣化したメルスペクトラムのみを入力とし、モデルが原音声の推定を生成する。 提案モデルにより,複数の実験において音声品質(元はベースラインとしてのDiffWaveモデル)が改善された。 これには、lpc-10圧縮による音声品質の向上、amr-nb圧縮、信号クリッピングが含まれる。 本手法は元々のdiffwaveアーキテクチャと比較して,複数の客観的な知覚指標と主観的比較において優れた性能を実現する。 アウト・オブ・コーパス評価設定では、ベースラインの改善がさらに増幅される。

There are many deterministic mathematical operations (e.g. compression, clipping, downsampling) that degrade speech quality considerably. In this paper we introduce a neural network architecture, based on a modification of the DiffWave model, that aims to restore the original speech signal. DiffWave, a recently published diffusion-based vocoder, has shown state-of-the-art synthesized speech quality and relatively shorter waveform generation times, with only a small set of parameters. We replace the mel-spectrum upsampler in DiffWave with a deep CNN upsampler, which is trained to alter the degraded speech mel-spectrum to match that of the original speech. The model is trained using the original speech waveform, but conditioned on the degraded speech mel-spectrum. Post-training, only the degraded mel-spectrum is used as input and the model generates an estimate of the original speech. Our model results in improved speech quality (original DiffWave model as baseline) on several different experiments. These include improving the quality of speech degraded by LPC-10 compression, AMR-NB compression, and signal clipping. Compared to the original DiffWave architecture, our scheme achieves better performance on several objective perceptual metrics and in subjective comparisons. Improvements over baseline are further amplified in a out-of-corpus evaluation setting.
翻訳日:2021-04-26 12:54:07 公開日:2021-04-22
# ホモトピー継続手法を用いたステップワイズ特徴選択のためのより強力で一般的な選択的推論

More Powerful and General Selective Inference for Stepwise Feature Selection using the Homotopy Continuation Approach ( http://arxiv.org/abs/2012.13545v2 )

ライセンス: Link先を確認
Kazuya Sugiyama, Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) データ駆動仮説のための新しい統計的推論フレームワークとして,条件選択推論(SI)が活発に研究されている。 条件付きSIの基本的な考え方は、線形および/または二次不等式の集合によって特徴づけられる選択事象に推論を条件付けることである。 条件付きSIは主に、段階的特徴選択(SFS)のような特徴選択の文脈で研究されている。 既存の条件付きSI法の主な制限は、オーバーコンディショニングによる電力損失であり、計算的トラクタビリティに必要である。 本研究では,この制限を克服するホモトピー法を用いて,SFSのより強力で汎用的な条件付きSI法を開発した。 ホモトピーベースのSIは特に複雑な特徴選択アルゴリズムに有効である。 一例として、AICに基づく停止基準付き前向きSFSのための条件付きSI法を開発し、アルゴリズムの複雑さの増加に悪影響を及ぼさないことを示す。 提案手法の有効性と有効性を示すため,いくつかの実験を行った。

Conditional selective inference (SI) has been actively studied as a new statistical inference framework for data-driven hypotheses. The basic idea of conditional SI is to make inferences conditional on the selection event characterized by a set of linear and/or quadratic inequalities. Conditional SI has been mainly studied in the context of feature selection such as stepwise feature selection (SFS). The main limitation of the existing conditional SI methods is the loss of power due to over-conditioning, which is required for computational tractability. In this study, we develop a more powerful and general conditional SI method for SFS using the homotopy method which enables us to overcome this limitation. The homotopy-based SI is especially effective for more complicated feature selection algorithms. As an example, we develop a conditional SI method for forward-backward SFS with AIC-based stopping criteria and show that it is not adversely affected by the increased complexity of the algorithm. We conduct several experiments to demonstrate the effectiveness and efficiency of the proposed method.
翻訳日:2021-04-25 04:38:01 公開日:2021-04-22
# (参考訳) 新型コロナウイルスとビッグデータ:ソーシャルメディアによるパンデミックの時空間的理解のための多面的分析 [全文訳有]

COVID-19 and Big Data: Multi-faceted Analysis for Spatio-temporal Understanding of the Pandemic with Social Media Conversations ( http://arxiv.org/abs/2104.10807v1 )

ライセンス: CC BY 4.0
Shayan Fazeli, Davina Zamanzadeh, Anaelia Ovalle, Thu Nguyen, Gilbert Gee, Majid Sarrafzadeh(参考訳) 新型コロナウイルス(covid-19)は2019年末から世界大打撃を受けており、主要イベントや世界規模のイベントにおいて重要な役割を担い続けている。 その後、無害な生命は残っていない。 世界の注目を集めたソーシャルメディアプラットフォームは、新型コロナウイルス(COVID-19)に関する世界的な会話の手段として利用されている。 特に、パンデミックに関する感情、経験、観察を表現するために、多くの人がこれらのサイトを使っている。 新型コロナウイルスのパンデミックに関するソーシャルメディア上でこれらの会話が示す重要な特性を多面的に分析する。 本稿では,パンデミックを取り巻くソーシャルメディア会話の重要コンテンツと特徴の分析,マイニング,追跡のための枠組みを提案する。 TwitterとRedditを中心に、新型コロナウイルス(COVID-19)のソーシャルメディア会話に関する大規模なデータセットを集めました。 分析は、米国中の時間と地域を通じて、ウイルスの獲得、症状、会話の話題、言語複雑性の測定に関する潜在的な報告を追跡する。 また、新型コロナウイルスの会話におけるヘイトフルツイートのインスタンスを認識するためのBERTベースのモデルを提案し、最先端のパフォーマンスよりもエラー率を低くする。 本研究は,提案フレームワークの有効性を実証的に検証し,ソーシャルメディアデータを効果的に活用し,感染症の発生過程に関する安価かつ詳細な知見を公衆衛生専門家に提供することをさらに実証する。

COVID-19 has been devastating the world since the end of 2019 and has continued to play a significant role in major national and worldwide events, and consequently, the news. In its wake, it has left no life unaffected. Having earned the world's attention, social media platforms have served as a vehicle for the global conversation about COVID-19. In particular, many people have used these sites in order to express their feelings, experiences, and observations about the pandemic. We provide a multi-faceted analysis of critical properties exhibited by these conversations on social media regarding the novel coronavirus pandemic. We present a framework for analysis, mining, and tracking the critical content and characteristics of social media conversations around the pandemic. Focusing on Twitter and Reddit, we have gathered a large-scale dataset on COVID-19 social media conversations. Our analyses cover tracking potential reports on virus acquisition, symptoms, conversation topics, and language complexity measures through time and by region across the United States. We also present a BERT-based model for recognizing instances of hateful tweets in COVID-19 conversations, which achieves a lower error-rate than the state-of-the-art performance. Our results provide empirical validation for the effectiveness of our proposed framework and further demonstrate that social media data can be efficiently leveraged to provide public health experts with inexpensive but thorough insight over the course of an outbreak.
翻訳日:2021-04-23 23:51:56 公開日:2021-04-22
# (参考訳) 言語処理のニューラルネットワークモデルにおけるファジィ発見 [全文訳有]

Finding Fuzziness in Neural Network Models of Language Processing ( http://arxiv.org/abs/2104.10813v1 )

ライセンス: CC BY 4.0
Kanishka Misra and Julia Taylor Rayz(参考訳) 人間はしばしば不正確言語を用いてコミュニケーションし、曖昧な境界を持つファジィ概念が言語の使用において一般的であることを示す。 本稿では,ファジィメンバーシップパターンに対応する言語分布統計を収集するために訓練されたモデルについて検証する。 自然言語推論のタスクを用いて,温度データの"クール"や"ホット"といったファジィ知覚へのマッピングを調べることにより,従来の温度の場合のアートモデルの最近の状態を検証した。 言語ヘッジの古典的ファジィ集合理論の定式化に類似したパターンを示すモデルが, かなりのノイズを伴い, ファジィにのみ訓練されたモデルは, ファジィの符号化において有望であることを示す。

Humans often communicate by using imprecise language, suggesting that fuzzy concepts with unclear boundaries are prevalent in language use. In this paper, we test the extent to which models trained to capture the distributional statistics of language show correspondence to fuzzy-membership patterns. Using the task of natural language inference, we test a recent state of the art model on the classical case of temperature, by examining its mapping of temperature data to fuzzy-perceptions such as "cool", "hot", etc. We find the model to show patterns that are similar to classical fuzzy-set theoretic formulations of linguistic hedges, albeit with a substantial amount of noise, suggesting that models trained solely on language show promise in encoding fuzziness.
翻訳日:2021-04-23 23:14:35 公開日:2021-04-22
# (参考訳) 親友クラスタリングによる高精度かつ効率的な大規模回帰手法 [全文訳有]

An Accurate and Efficient Large-scale Regression Method through Best Friend Clustering ( http://arxiv.org/abs/2104.10819v1 )

ライセンス: CC BY 4.0
Kun Li, Liang Yuan, Yunquan Zhang, Gongwei Chen(参考訳) 機械学習分野のデータサイズが指数関数的に増加するにつれ、高性能コンピューティングハードウェアが提供する膨大なコアを利用することで、計算を加速することは避けられない。 しかし、クラスタリングや回帰のための既存の並列手法は、しばしば低い精度、遅い収束、複雑なハイパーパラメータチューニングといった問題に悩まされる。 さらに、並列効率は通常、モデルプロパティの保存と分散システム上のコンピューティングワークロードの分割のバランスを保ちながら、改善が難しい。 本稿では,データサンプルの中から最も重要な情報をキャプチャする,新しくシンプルなデータ構造を提案する。 ハードウェア並列性とは無関係な階層的クラスタリング戦略をサポートするいくつかの有利な特性、最適なクラスタリングを決定するための明確なメトリクス、コンパクト性を維持するためのバランスの取れたパーティション、計算フェーズを高速化するための効率的な並列化がある。 次に,クラスタリングと回帰手法を並列ライブラリとして組み合わせ,データのハイブリッド構造とモデル並列性を用いて予測を行う。 実験により,本ライブラリは収束性,正確性,拡張性において顕著な性能を得た。

As the data size in Machine Learning fields grows exponentially, it is inevitable to accelerate the computation by utilizing the ever-growing large number of available cores provided by high-performance computing hardware. However, existing parallel methods for clustering or regression often suffer from problems of low accuracy, slow convergence, and complex hyperparameter-tunin g. Furthermore, the parallel efficiency is usually difficult to improve while striking a balance between preserving model properties and partitioning computing workloads on distributed systems. In this paper, we propose a novel and simple data structure capturing the most important information among data samples. It has several advantageous properties supporting a hierarchical clustering strategy that is irrelevant to the hardware parallelism, well-defined metrics for determining optimal clustering, balanced partition for maintaining the compactness property, and efficient parallelization for accelerating computation phases. Then we combine the clustering with regression techniques as a parallel library and utilize a hybrid structure of data and model parallelism to make predictions. Experiments illustrate that our library obtains remarkable performance on convergence, accuracy, and scalability.
翻訳日:2021-04-23 23:03:06 公開日:2021-04-22
# (参考訳) 幾何学グラフを用いたラプラス学習のためのロバスト証明 [全文訳有]

Robust Certification for Laplace Learning on Geometric Graphs ( http://arxiv.org/abs/2104.10837v1 )

ライセンス: CC0 1.0
Matthew Thorpe and Bao Wang(参考訳) グラフラプラシアン(GL)に基づく半教師付き学習は、グラフ内のノードを分類する最もよく使われる手法の1つである。 機械学習(ML)アルゴリズムの敵対的堅牢性の理解と証明は、多くのセキュリティクリティカルな適用領域において重要な意味を持つため、さまざまな研究コミュニティから大きな注目を集めている。 一般的なMLアルゴリズムに対する対向ロバスト性の理論的証明には大きな関心がある。 本稿では,GL分類器に対する最初の対逆ロバスト認証を提案する。 より正確には、敵の攻撃前後のgl分類器の分類精度の差を定量的に限定する。 数値的な検証結果から,$k$-nearest 近傍分類器に既存の対角防御を活用すれば,GL分類器の堅牢性を大幅に向上できることを示す。

Graph Laplacian (GL)-based semi-supervised learning is one of the most used approaches for classifying nodes in a graph. Understanding and certifying the adversarial robustness of machine learning (ML) algorithms has attracted large amounts of attention from different research communities due to its crucial importance in many security-critical applied domains. There is great interest in the theoretical certification of adversarial robustness for popular ML algorithms. In this paper, we provide the first adversarial robust certification for the GL classifier. More precisely we quantitatively bound the difference in the classification accuracy of the GL classifier before and after an adversarial attack. Numerically, we validate our theoretical certification results and show that leveraging existing adversarial defenses for the $k$-nearest neighbor classifier can remarkably improve the robustness of the GL classifier.
翻訳日:2021-04-23 22:44:34 公開日:2021-04-22
# (参考訳) レグレット最小化思考におけるニューラルフィクションセルフプレイの最適化 [全文訳有]

Optimize Neural Fictitious Self-Play in Regret Minimization Thinking ( http://arxiv.org/abs/2104.10845v1 )

ライセンス: CC BY 4.0
Yuxuan Chen, Li Zhang, Shijian Li, Gang Pan(参考訳) Nash Equilibriumにアプローチするためのディープラーニングアルゴリズムの最適化は、不完全な情報ゲームにおいて重要な問題である。 スタークラフトとポーカー。 neural fictitious self-play (nfsp) は、不完全な情報ゲームにおいて、事前のドメイン知識なしでナッシュ均衡の近似を学ぶ効果的な方法を提供している。 しかし,NFSPの最適化問題として最適性ギャップが残され,その解決によりNFSPの性能が向上した。 本研究では,NFSPの最適性ギャップに着目し,NFSPの最適応答計算を後悔マッチングに置き換える手法を提案する。 新しいアルゴリズムは、最適性ギャップを反復するとゼロに収束させ、元のNFSPよりも早く収束させることができる。 我々はOpenSpielで完全情報ゲームと不完全情報ゲームの3つの典型的な環境で実験を行い、新しいアルゴリズムの性能が元のNFSPよりも優れていることを示した。

Optimization of deep learning algorithms to approach Nash Equilibrium remains a significant problem in imperfect information games, e.g. StarCraft and poker. Neural Fictitious Self-Play (NFSP) has provided an effective way to learn approximate Nash Equilibrium without prior domain knowledge in imperfect information games. However, optimality gap was left as an optimization problem of NFSP and by solving the problem, the performance of NFSP could be improved. In this study, focusing on the optimality gap of NFSP, we have proposed a new method replacing NFSP's best response computation with regret matching method. The new algorithm can make the optimality gap converge to zero as it iterates, thus converge faster than original NFSP. We have conduct experiments on three typical environments of perfect-information games and imperfect information games in OpenSpiel and all showed that our new algorithm performances better than original NFSP.
翻訳日:2021-04-23 22:18:17 公開日:2021-04-22
# (参考訳) Token Labeling: ImageNet上で56Mパラメータを持つ85.5%のTop-1精度ビジョントランスのトレーニング [全文訳有]

Token Labeling: Training a 85.5% Top-1 Accuracy Vision Transformer with 56M Parameters on ImageNet ( http://arxiv.org/abs/2104.10858v1 )

ライセンス: CC BY 4.0
Zihang Jiang, Qibin Hou, Li Yuan, Daquan Zhou, Xiaojie Jin, Anran Wang, Jiashi Feng(参考訳) 本稿では,imagenet分類タスクにおける視覚トランスフォーマの強力なベースラインを提供する。 最近のビジョントランスフォーマーは、ImageNet分類において有望な結果を示しているが、そのパフォーマンスは、ほぼ同じモデルサイズで強力な畳み込みニューラルネットワーク(CNN)よりも遅れている。 本研究では,新しいトランスフォーマーアーキテクチャを記述する代わりに,イメージネット分類におけるビジョントランスフォーマーの可能性を探究する。 視覚トランスフォーマーの構造を微調整し、トークンラベリングを導入することで、新たなトレーニング目標として、同様のトレーニングパラメータと計算量を持つcnnや他のトランスフォーマーベースの分類モデルよりも優れた結果が得られることを示した。 例えば、26Mの学習可能なパラメータを持つ視覚変換器を用いて、ImageNet上で84.4%のTop-1精度を達成できる。 モデルサイズが56m/150mまでスケールすると、追加のデータなしでさらに85.4%/86.2%に拡大できる。 この研究は、強力な視覚トランスフォーマーを訓練するための有用な技術を提供することを願っている。 私たちのコードとトレーニングの詳細はhttps://github.com/z ihangJiang/TokenLabe ling.comで公開されます。

This paper provides a strong baseline for vision transformers on the ImageNet classification task. While recent vision transformers have demonstrated promising results in ImageNet classification, their performance still lags behind powerful convolutional neural networks (CNNs) with approximately the same model size. In this work, instead of describing a novel transformer architecture, we explore the potential of vision transformers in ImageNet classification by developing a bag of training techniques. We show that by slightly tuning the structure of vision transformers and introducing token labeling -- a new training objective, our models are able to achieve better results than the CNN counterparts and other transformer-based classification models with similar amount of training parameters and computations. Taking a vision transformer with 26M learnable parameters as an example, we can achieve a 84.4% Top-1 accuracy on ImageNet. When the model size is scaled up to 56M/150M, the result can be further increased to 85.4%/86.2% without extra data. We hope this study could provide researchers with useful techniques to train powerful vision transformers. Our code and all the training details will be made publicly available at https://github.com/z ihangJiang/TokenLabe ling.
翻訳日:2021-04-23 22:02:39 公開日:2021-04-22
# (参考訳) 学習時間と使用時間:事前学習深層学習モデルを用いた未確認領域の境界値問題の解法 [全文訳有]

Train Once and Use Forever: Solving Boundary Value Problems in Unseen Domains with Pre-trained Deep Learning Models ( http://arxiv.org/abs/2104.10873v1 )

ライセンス: CC BY 4.0
Hengjie Wang, Robert Planas, Aparna Chandramowlishwaran, Ramin Bostanabad(参考訳) 物理学的不定形ニューラルネットワーク(pinns)は、偏微分方程式(pdes)の解法における従来の数値解法を置き換えるためにますます使われている。 多くの魅力的な特徴があるが、最先端のPINNはPDEシステムの特定の実現を代理しており、そのため問題固有のものである。 つまり、境界条件とドメイン形状が変わるたびに、モデルを再トレーニングする必要があります。 この制限は、特にトレーニングに関連するコストと労力がかなり大きいため、現実的または大規模エンジニアリング問題へのPINNの適用を禁止している。 本稿では、深層ニューラルネットワークを用いて境界値問題(BVP)を解決するための伝達可能なフレームワークを提案する。 まず,小さな正方形領域上の任意の境界条件に対して,bvpの解を推定できるニューラルネットワークである \emph{genomic flow network} (gfnet) を導入する。 そこで我々は、GFNetの推論を組み立てたり縫ったりして、空間的正則性を保ちながら、見えない大きな領域でBVPの解を得る新しい反復アルゴリズムである「emph{mosaic flow} (MF)」予測器を提案する。 筆者らのフレームワークは, 未確認形状と境界条件の領域におけるLaplace方程式とNavier-Stokes方程式の解を, トレーニングを行う領域よりも1,200ドル, 12ドル大きく見積もることができることを示した。 我々のフレームワークはトレーニングを不要にするため、最先端と比較して最大3桁のスピードアップを示す。

Physics-informed neural networks (PINNs) are increasingly employed to replace/augment traditional numerical methods in solving partial differential equations (PDEs). While having many attractive features, state-of-the-art PINNs surrogate a specific realization of a PDE system and hence are problem-specific. That is, each time the boundary conditions and domain shape change, the model needs to be re-trained. This limitation prohibits the application of PINNs in realistic or large-scale engineering problems especially since the costs and efforts associated with their training are considerable. This paper introduces a transferable framework for solving boundary value problems (BVPs) via deep neural networks which can be trained once and used forever for various domains of unseen sizes, shapes, and boundary conditions. First, we introduce \emph{genomic flow network} (GFNet), a neural network that can infer the solution of a BVP across arbitrary boundary conditions on a small square domain called \emph{genome}. Then, we propose \emph{mosaic flow} (MF) predictor, a novel iterative algorithm that assembles or stitches the GFNet's inferences to obtain the solution of BVPs on unseen, large domains while preserving the spatial regularity of the solution. We demonstrate that our framework can estimate the solution of Laplace and Navier-Stokes equations in domains of unseen shapes and boundary conditions that are, respectively, $1200$ and $12$ times larger than the domains where training is performed. Since our framework eliminates the need to re-train, it demonstrates up to 3 orders of magnitude speedups compared to the state-of-the-art.
翻訳日:2021-04-23 21:46:55 公開日:2021-04-22
# (参考訳) ロバスト360-8PA:360FoV画像の正規化8点アルゴリズムを再設計 [全文訳有]

Robust 360-8PA: Redesigning The Normalized 8-point Algorithm for 360-FoV Images ( http://arxiv.org/abs/2104.10900v1 )

ライセンス: CC BY 4.0
Bolivar Solarte, Chin-Hsuan Wu, Kuan-Wei Lu, Min Sun, Wei-Chen Chiu, Yi-Hsuan Tsai(参考訳) 球面投影における360-FoV画像(等方形画像)から必須行列を推定するための,古典的8点アルゴリズム(8-PA)の新たなプレコンディショニング手法を提案する。 必要行列の精度を低下させる可能性のある不均一な鍵特徴分布と異常対応の効果を緩和するために,球面カメラを新たな空間領域に変形させる非剛性変換を最適化し,新たな制約と本質行列に対するよりロバストで正確な解を定義する。 ランダム合成点, 360fov, 魚眼画像を用いた実験により, 計算時間を大幅にオーバーヘッドすることなく, カメラのポーズ精度を約20%向上できることを示した。 さらに、本手法のさらなる利点として、よく知られたゴールドスタンダード・メソッド(GSM)をさらに改善する定数重み付き最小二乗最適化(すなわち、エピポーラ誤差を用いた非線形最適化)と、RANSACイテレーションの数を緩和することにより、正規化結果がより信頼性が高く、堅牢で、正確な解であることを示す。

This paper presents a novel preconditioning strategy for the classic 8-point algorithm (8-PA) for estimating an essential matrix from 360-FoV images (i.e., equirectangular images) in spherical projection. To alleviate the effect of uneven key-feature distributions and outlier correspondences, which can potentially decrease the accuracy of an essential matrix, our method optimizes a non-rigid transformation to deform a spherical camera into a new spatial domain, defining a new constraint and a more robust and accurate solution for an essential matrix. Through several experiments using random synthetic points, 360-FoV, and fish-eye images, we demonstrate that our normalization can increase the camera pose accuracy by about 20% without significantly overhead the computation time. In addition, we present further benefits of our method through both a constant weighted least-square optimization that improves further the well known Gold Standard Method (GSM) (i.e., the non-linear optimization by using epipolar errors); and a relaxation of the number of RANSAC iterations, both showing that our normalization outcomes a more reliable, robust, and accurate solution.
翻訳日:2021-04-23 21:25:45 公開日:2021-04-22
# (参考訳) xcrossnet:クリックスルー率予測のための構造指向学習 [全文訳有]

XCrossNet: Feature Structure-Oriented Learning for Click-Through Rate Prediction ( http://arxiv.org/abs/2104.10907v1 )

ライセンス: CC BY 4.0
Runlong Yu, Yuyang Ye, Qi Liu, Zihan Wang, Chunfeng Yang, Yucheng Hu, Enhong Chen(参考訳) CTR(Click-Through Rate)予測は、近年の商業リコメンデータシステムにおける中核的なタスクである。 CTR予測研究のメインラインである機能横断は、予測性能を高めるための有望な方法を示している。 様々なモデルが手動のフィーチャエンジニアリングなしで機能の相互作用を学習できるが、異なる特徴構造の表現を個別に学習することはめったにない。 特に、クロススパースの特徴のモデリングに重点を置いているが、クロス密集した特徴を具体的に表現することを無視している。 そこで我々は,高密度かつスパースな特徴相互作用を明示的に学習することを目的とした,新しいExtreme Cross Network(XCrossNet)を提案する。 機能構造指向モデルとしてのXCrossNetは、より表現力のある表現とより正確なCTR予測をもたらす。 Criteo Kaggleデータセットに関する実験的研究は、XCrossNetの有効性と効率の両面で、最先端モデルよりも大幅に改善されたことを示している。

Click-Through Rate (CTR) prediction is a core task in nowadays commercial recommender systems. Feature crossing, as the mainline of research on CTR prediction, has shown a promising way to enhance predictive performance. Even though various models are able to learn feature interactions without manual feature engineering, they rarely attempt to individually learn representations for different feature structures. In particular, they mainly focus on the modeling of cross sparse features but neglect to specifically represent cross dense features. Motivated by this, we propose a novel Extreme Cross Network, abbreviated XCrossNet, which aims at learning dense and sparse feature interactions in an explicit manner. XCrossNet as a feature structure-oriented model leads to a more expressive representation and a more precise CTR prediction, which is not only explicit and interpretable, but also time-efficient and easy to implement. Experimental studies on Criteo Kaggle dataset show significant improvement of XCrossNet over state-of-the-art models on both effectiveness and efficiency.
翻訳日:2021-04-23 21:13:51 公開日:2021-04-22
# (参考訳) 弱い協調型マルチエージェント交通制御問題に対する独立強化学習 [全文訳有]

Independent Reinforcement Learning for Weakly Cooperative Multiagent Traffic Control Problem ( http://arxiv.org/abs/2104.10917v1 )

ライセンス: CC BY 4.0
Chengwei Zhang and Shan Jin and Wanli Xue and Xiaofei Xie and Shengyong Chen and Rong Chen(参考訳) 適応交通信号制御(atsc)問題は、交差点が共通の目標を最適化するために協調する都市交差点間のマルチエージェント協調ゲームとしてモデル化することができる。 近年、強化学習(RL)は逐次意思決定問題を管理する上で大きな成功を収めており、ASTC問題にRLを適用する動機となっている。 ここでは、複雑な交通協調制御問題を解決するために、独立強化学習(IRL)を用いる。 この問題の最大の課題の1つは、交叉の観測情報が部分的に観測可能であり、IRLアルゴリズムの学習性能を制限することである。 そこで我々は,交通制御問題を部分的に観測可能な弱い協調交通モデル (PO-WCTM) としてモデル化し,交差点群全体の交通状況を最適化する。 完全協調ゲームにおける全てのエージェントのリターンを平均化する従来のIRLタスクとは異なり、PO-WCTMにおける各交差点の学習目標は、交通環境仮説とも一致する学習の協調的困難を軽減することである。 また,この2つのメカニズムを用いて,2重dqn (ddqn) アルゴリズムを拡張した協調重要レエントダブルdqn (cil-ddqn) と呼ばれるirlアルゴリズムを提案する。 前者のメカニズムは、他のエージェントの戦略変更によって引き起こされる経験失敗の問題に対処するexperience reply bufferに格納された経験の重要性を減少させる。 後者のメカニズムは、高い推定でウェイトエクスペリエンスを高め、DDQNニューラルネットワークを「高い」トレーニングすることで、協調的な共同戦略の選択の確率を向上させる。 実験の結果,CIL-DDQNはトラヒック制御問題のほぼすべての性能指標において,他の手法よりも優れていた。

The adaptive traffic signal control (ATSC) problem can be modeled as a multiagent cooperative game among urban intersections, where intersections cooperate to optimize their common goal. Recently, reinforcement learning (RL) has achieved marked successes in managing sequential decision making problems, which motivates us to apply RL in the ASTC problem. Here we use independent reinforcement learning (IRL) to solve a complex traffic cooperative control problem in this study. One of the largest challenges of this problem is that the observation information of intersection is typically partially observable, which limits the learning performance of IRL algorithms. To this, we model the traffic control problem as a partially observable weak cooperative traffic model (PO-WCTM) to optimize the overall traffic situation of a group of intersections. Different from a traditional IRL task that averages the returns of all agents in fully cooperative games, the learning goal of each intersection in PO-WCTM is to reduce the cooperative difficulty of learning, which is also consistent with the traffic environment hypothesis. We also propose an IRL algorithm called Cooperative Important Lenient Double DQN (CIL-DDQN), which extends Double DQN (DDQN) algorithm using two mechanisms: the forgetful experience mechanism and the lenient weight training mechanism. The former mechanism decreases the importance of experiences stored in the experience reply buffer, which deals with the problem of experience failure caused by the strategy change of other agents. The latter mechanism increases the weight experiences with high estimation and `leniently' trains the DDQN neural network, which improves the probability of the selection of cooperative joint strategies. Experimental results show that CIL-DDQN outperforms other methods in almost all performance indicators of the traffic control problem.
翻訳日:2021-04-23 21:04:30 公開日:2021-04-22
# (参考訳) ハイブリッドエンコーダ:ハイブリッドトランスフォーマーエンコーダネットワークによる効率的かつ高精度なネイティブアドスメンテーション [全文訳有]

Hybrid Encoder: Towards Efficient and Precise Native AdsRecommendation via Hybrid Transformer Encoding Networks ( http://arxiv.org/abs/2104.10925v1 )

ライセンス: CC BY 4.0
Junhan Yang, Zheng Liu, Bowen Jin, Jianxun Lian, Defu Lian, Akshay Soni, Eun Yong Kang, Yajun Wang, Guangzhong Sun, Xing Xie(参考訳) トランスフォーマー符号化ネットワークは自然言語を理解する強力なツールであることが証明されている。 彼らは、ユーザのWeb閲覧履歴に基づいて適切な広告を推奨するネイティブ広告サービスにおいて、重要な役割を演じている。 効率的な推奨のために、従来の手法では、シームトランスエンコーダと独立してユーザーおよび広告埋め込みを生成し、近似近辺探索(ann)を活用できる。 ユーザと広告に関する基本的な意味が複雑であることを考えると、このような独立して生成された埋め込みは情報損失を招きやすいため、推奨品質は低下する。 もうひとつのエンコーディング戦略であるクロスエンコーダは、はるかに正確だが、実行コストが大きくなり、ネイティブ広告レコメンデーションのようなリアルタイムサービスでは実現不可能になる。 本研究では,検索とランキングという2つのステップを通じて,効率よく正確なネイティブ広告推薦を行うハイブリッドエンコーダを提案する。 検索ステップでは、ユーザと広告をシアム成分で符号化し、関連する候補をANN検索を介して検索する。 ランキングステップでは、各広告に不整合埋め込みを施し、各ユーザーが広告関連埋め込みを施し、候補セットからの高品質広告のきめ細かい選択に寄与する。 どちらのステップも、事前に計算され、キャッシュされた中間結果のおかげで軽量化されている。 この2段階のワークフローでハイブリッドエンコーダの性能を最適化するため、プログレッシブトレーニングパイプラインが開発され、検索およびランキングタスクのステップバイステップにおけるモデル機能を構築する。 ハイブリッドエンコーダの有効性は実験的に検証され、追加コストが非常に少ないため、シアムエンコーダを著しく上回り、クロスエンコーダと同等の推奨品質を達成する。

Transformer encoding networks have been proved to be a powerful tool of understanding natural languages. They are playing a critical role in native ads service, which facilitates the recommendation of appropriate ads based on user's web browsing history. For the sake of efficient recommendation, conventional methods would generate user and advertisement embeddings independently with a siamese transformer encoder, such that approximate nearest neighbour search (ANN) can be leveraged. Given that the underlying semantic about user and ad can be complicated, such independently generated embeddings are prone to information loss, which leads to inferior recommendation quality. Although another encoding strategy, the cross encoder, can be much more accurate, it will lead to huge running cost and become infeasible for realtime services, like native ads recommendation. In this work, we propose hybrid encoder, which makes efficient and precise native ads recommendation through two consecutive steps: retrieval and ranking. In the retrieval step, user and ad are encoded with a siamese component, which enables relevant candidates to be retrieved via ANN search. In the ranking step, it further represents each ad with disentangled embeddings and each user with ad-related embeddings, which contributes to the fine-grained selection of high-quality ads from the candidate set. Both steps are light-weighted, thanks to the pre-computed and cached intermedia results. To optimize the hybrid encoder's performance in this two-stage workflow, a progressive training pipeline is developed, which builds up the model's capability in the retrieval and ranking task step-by-step. The hybrid encoder's effectiveness is experimentally verified: with very little additional cost, it outperforms the siamese encoder significantly and achieves comparable recommendation quality as the cross encoder.
翻訳日:2021-04-23 20:43:45 公開日:2021-04-22
# (参考訳) 深層学習におけるセミオティック・アグリゲーション [全文訳有]

Semiotic Aggregation in Deep Learning ( http://arxiv.org/abs/2104.10931v1 )

ライセンス: CC BY 4.0
Bogdan Musat, Razvan Andonie(参考訳) 畳み込みニューラルネットワークはニューラルネットワーク層の階層構造を利用する。 連続するレイヤにおける情報集中の統計的側面は、特徴抽象化プロセスに関する洞察をもたらすことができる。 我々は、これらの層の塩分濃度マップを、記号やサイン利用行動の研究としても知られるセミオティックスの観点から分析する。 計算記号論において、この集合演算(スーパー化)は空間エントロピーの減少を伴う:記号はスーパーサインに集約される。 空間エントロピーを用いて, サリエンシーマップの情報内容の計算を行い, ネットワークの連続層間におけるスーパー化過程の研究を行う。 実験では、スーパー化過程を可視化し、得られた知識を用いて神経決定モデルを説明する方法を示す。 さらに,セミオティックグリード技術を用いて,ニューラルモデルのアーキテクチャを最適化する試みを行った。 我々の知る限りでは、これはディープニューラルネットワークの分析と解釈における計算セミオティックスの最初の応用である。

Convolutional neural networks utilize a hierarchy of neural network layers. The statistical aspects of information concentration in successive layers can bring an insight into the feature abstraction process. We analyze the saliency maps of these layers from the perspective of semiotics, also known as the study of signs and sign-using behavior. In computational semiotics, this aggregation operation (known as superization) is accompanied by a decrease of spatial entropy: signs are aggregated into supersign. Using spatial entropy, we compute the information content of the saliency maps and study the superization processes which take place between successive layers of the network. In our experiments, we visualize the superization process and show how the obtained knowledge can be used to explain the neural decision model. In addition, we attempt to optimize the architecture of the neural model employing a semiotic greedy technique. To the extent of our knowledge, this is the first application of computational semiotics in the analysis and interpretation of deep neural networks.
翻訳日:2021-04-23 20:24:54 公開日:2021-04-22
# (参考訳) 動的法則探索による時系列解析 [全文訳有]

Time series analysis with dynamic law exploration ( http://arxiv.org/abs/2104.10970v1 )

ライセンス: CC BY-SA 4.0
A. Jakovac(参考訳) 本稿では,時系列の時間進化を規定する動的法則の同定方法について検討する。 有限差分方程式とそれに対する微分方程式表現を与える。 我々はまた、時間反転のような必要な対称性が法に課せられるかについても研究している。 音響データに対する線形法則の圧縮性能について検討する。

In this paper we examine, how the dynamic laws governing the time evolution of a time series can be identified. We give a finite difference equation as well as a differential equation representation for that. We also study, how the required symmetries, like time reversal can be imposed on the laws. We study the compression performance of linear laws on sound data.
翻訳日:2021-04-23 20:04:43 公開日:2021-04-22
# (参考訳) ImageNet-21K Pretraining for the Masses [全文訳有]

ImageNet-21K Pretraining for the Masses ( http://arxiv.org/abs/2104.10972v1 )

ライセンス: CC BY 4.0
Tal Ridnik, Emanuel Ben-Baruch, Asaf Noy, Lihi Zelnik-Manor(参考訳) ImageNet-1Kは、コンピュータビジョンタスクのためのディープラーニングモデルを事前訓練するための主要なデータセットである。 ImageNet-21Kデータセットは、より多くの画像やクラスを含むが、その複雑さと、標準のImageNet-1Kプリトレーニングと比較して付加価値の過小評価のため、事前トレーニングにはあまり使われない。 本稿では,このギャップを解消し,ImageNet-21Kの高品質な事前トレーニングを実現することを目的とする。 % Va は WordNet 階層と,セマンティック・ソフトマックス(セマンティック・ソフトマックス) と呼ばれる新しいトレーニング手法を利用して,ImageNet-21K による多数のデータセットやタスクの事前学習のメリットを顕著に示す。 また、vitのような著名な新モデルのimagenet-21kプリトレーニング方式よりも優れています。 % 提案した事前学習パイプラインは効率が高く,アクセス可能であり,一般に公開されているデータセットからSoTA再現可能な結果につながる。 トレーニングコードと事前トレーニングされたモデルは、https://github.com/A libaba-MIIL/ImageNet 21Kで公開されている。

ImageNet-1K serves as the primary dataset for pretraining deep learning models for computer vision tasks. ImageNet-21K dataset, which contains more pictures and classes, is used less frequently for pretraining, mainly due to its complexity, and underestimation of its added value compared to standard ImageNet-1K pretraining. This paper aims to close this gap, and make high-quality efficient pretraining on ImageNet-21K available for everyone. % Via a dedicated preprocessing stage, utilizing WordNet hierarchies, and a novel training scheme called semantic softmax, we show that various models, including small mobile-oriented models, significantly benefit from ImageNet-21K pretraining on numerous datasets and tasks. We also show that we outperform previous ImageNet-21K pretraining schemes for prominent new models like ViT. % Our proposed pretraining pipeline is efficient, accessible, and leads to SoTA reproducible results, from a publicly available dataset. The training code and pretrained models are available at: https://github.com/A libaba-MIIL/ImageNet 21K
翻訳日:2021-04-23 19:55:31 公開日:2021-04-22
# (参考訳) 神経科学と強化学習の学習ギャップ [全文訳有]

A learning gap between neuroscience and reinforcement learning ( http://arxiv.org/abs/2104.10995v1 )

ライセンス: CC BY 4.0
Samuel T. Wauthier, Pietro Mazzaglia, Ozan \c{C}atal, Cedric De Boom, Tim Verbelen, Bart Dhoedt(参考訳) 歴史的に、人工知能は分野の進歩に神経科学から多くのインスピレーションを得ている。 しかし、強化学習の現在の進歩は、今日の神経科学における関心の多くを捉えることができないベンチマーク問題に主に焦点が当てられている。 本稿では,強化学習アルゴリズムを用いてt-mazeタスクを神経科学から拡張し,最先端のアルゴリズムではこの問題を解決できないことを示す。 最後に、神経科学からの洞察が遭遇した問題のいくつかを説明するのに役立つことを指摘します。

Historically, artificial intelligence has drawn much inspiration from neuroscience to fuel advances in the field. However, current progress in reinforcement learning is largely focused on benchmark problems that fail to capture many of the aspects that are of interest in neuroscience today. We illustrate this point by extending a T-maze task from neuroscience for use with reinforcement learning algorithms, and show that state-of-the-art algorithms are not capable of solving this problem. Finally, we point out where insights from neuroscience could help explain some of the issues encountered.
翻訳日:2021-04-23 19:37:31 公開日:2021-04-22
# (参考訳) hazy re-id: 天候条件下でのドメイン適応者再同定のための干渉抑制モデル [全文訳有]

Hazy Re-ID: An Interference Suppression Model For Domain Adaptation Person Re-identification Under Inclement Weather Condition ( http://arxiv.org/abs/2104.11004v1 )

ライセンス: CC BY 4.0
Jian Pang, Dacheng Zhang, Huafeng Li, Weifeng Liu, Zhengtao Yu(参考訳) 従来のドメイン適応者再識別(Re-ID)タスクでは、晴れた天候下でターゲットドメイン内のトレーニング画像とテスト画像の両方を収集する。 しかし、実際には、迷路、ほこり、雪などの厳しい気象条件下では、回収すべき歩行者が得られる。 本稿では,ドメイン適応型Re-IDにおける悪天候による干渉に対処する新しい干渉抑制モデル(ISM)を提案する。 ISMでは、クリアな内在的類似性行列とヘイジーな内在的類似性行列との相違を低減し、特徴レベルで干渉情報を蒸留するために教師留学生モデルを用いる。 さらに、分布レベルでは、学生モデルを支援するために余分な判別器を導入し、干渉特徴分布をより明確にする。 実験の結果,提案手法は2つの合成データセットにおいて最先端の手法よりも優れた性能を示すことがわかった。 関連コードはhttps://github.com/p angjian123/ISM-ReID. comで公開される。

In a conventional domain adaptation person Re-identification (Re-ID) task, both the training and test images in target domain are collected under the sunny weather. However, in reality, the pedestrians to be retrieved may be obtained under severe weather conditions such as hazy, dusty and snowing, etc. This paper proposes a novel Interference Suppression Model (ISM) to deal with the interference caused by the hazy weather in domain adaptation person Re-ID. A teacherstudent model is used in the ISM to distill the interference information at the feature level by reducing the discrepancy between the clear and the hazy intrinsic similarity matrix. Furthermore, in the distribution level, the extra discriminator is introduced to assist the student model make the interference feature distribution more clear. The experimental results show that the proposed method achieves the superior performance on two synthetic datasets than the stateof-the-art methods. The related code will be released online https://github.com/p angjian123/ISM-ReID.
翻訳日:2021-04-23 19:25:30 公開日:2021-04-22
# (参考訳) 深い残差オートエンコーダを用いたsara(smart autonomous robot assistant surgeon)の教師なし異常検出 [全文訳有]

Unsupervised anomaly detection for a Smart Autonomous Robotic Assistant Surgeon (SARAS)using a deep residual autoencoder ( http://arxiv.org/abs/2104.11008v1 )

ライセンス: CC BY-SA 4.0
Dinesh Jackson Samuel and Fabio Cuzzolin(参考訳) Minimally-Invasive Surgery (MIS) における異常検出には、従来、コンソールから手順を監視する人間専門家が必要である。 一方、データの不足は、自律的なロボット支援手術システムへの移行を妨げている。 この領域における自動異常検出システムは、典型的には古典的教師付き学習に依存している。 しかし, 手術環境における異常事象は稀であり, データを捕捉し, 教師付きで検出モデルを訓練することは困難である。 そこで本研究では,ロボット支援手術における残差オートエンコーダに基づく異常検出手法を提案する。 オートエンコーダがデータの「正常」分布を学習させ、この分布から逸脱した異常事象を再構成誤差を測定することで検出する。 このモデルは、公開されているcholec80データセットと、smart autonomous robot assistant surgeon(saras)プロジェクトの一部として作成された人工解剖学('phantoms')を使った一連のビデオの両方で訓練され、検証される。 このシステムは、それぞれColec80で78.4%、91.5%、SARASファントムデータセットで95.6%、88.1%のリコールと精度を達成する。 エンド・ツー・エンドのシステムは、フレーム当たり約25msの処理時間でリアルタイム異常検出のためのサラスデモンストレーションプラットフォームの一部として開発・展開された。

Anomaly detection in Minimally-Invasive Surgery (MIS) traditionally requires a human expert monitoring the procedure from a console. Data scarcity, on the other hand, hinders what would be a desirable migration towards autonomous robotic-assisted surgical systems. Automated anomaly detection systems in this area typically rely on classical supervised learning. Anomalous events in a surgical setting, however, are rare, making it difficult to capture data to train a detection model in a supervised fashion. In this work we thus propose an unsupervised approach to anomaly detection for robotic-assisted surgery based on deep residual autoencoders. The idea is to make the autoencoder learn the 'normal' distribution of the data and detect abnormal events deviating from this distribution by measuring the reconstruction error. The model is trained and validated upon both the publicly available Cholec80 dataset, provided with extra annotation, and on a set of videos captured on procedures using artificial anatomies ('phantoms') produced as part of the Smart Autonomous Robotic Assistant Surgeon (SARAS) project. The system achieves recall and precision equal to 78.4%, 91.5%, respectively, on Cholec80 and of 95.6%, 88.1% on the SARAS phantom dataset. The end-to-end system was developed and deployed as part of the SARAS demonstration platform for real-time anomaly detection with a processing time of about 25 ms per frame.
翻訳日:2021-04-23 19:18:06 公開日:2021-04-22
# (参考訳) 物理的に一貫性のある予測スキルの強化--物理インフォームド・機械学習による水文プロセス [全文訳有]

Enhancing predictive skills in physically-consisten t way: Physics Informed Machine Learning for Hydrological Processes ( http://arxiv.org/abs/2104.11009v1 )

ライセンス: CC BY 4.0
Pravin Bhasme, Jenil Vagadiya, Udit Bhatia(参考訳) 現在の水文モデリングのモデリング手法は、機械学習(ml)アルゴリズムを含む物理ベースまたはデータサイエンスの手法に依存することが多い。 物理に基づくモデルは、あるインスタンスにおいて非現実的なパラメータ値をもたらす構造を固くする傾向があるが、MLアルゴリズムは、よく知られた物理プロセスによって課される制約を無視しながら、入出力関係を確立する。 物理モデルはより良いプロセス理解を可能にし、MLアルゴリズムはより良い予測能力を示すという概念があるが、予測能力に加わらない科学的知識は騙される可能性がある。 したがって、MLアルゴリズムと物理ベースのモデルを相乗的に組み合わせるためのハイブリッドモデリングアプローチが必要である。 本稿では,概念水文モデルのプロセス理解と最先端mlモデルの予測能力を組み合わせた物理インフォームド機械学習(piml)モデルを開発した。 本研究では,インドのナルマダ川流域におけるターゲット(流れ)と中間変数(実際の蒸発散)の月次時系列予測に提案モデルを適用した。 以上の結果から,PIMLモデルが純粋概念モデル(abcd$モデル)とMLアルゴリズムを上回り,水収支解析によって検証された出力の物理的整合性を確保した。 MLアルゴリズムと概念モデル構造を組み合わせるための体系的なアプローチは,洪水リスク評価において重要な水文プロセスの予測精度の向上に有効である。

Current modeling approaches for hydrological modeling often rely on either physics-based or data-science methods, including Machine Learning (ML) algorithms. While physics-based models tend to rigid structure resulting in unrealistic parameter values in certain instances, ML algorithms establish the input-output relationship while ignoring the constraints imposed by well-known physical processes. While there is a notion that the physics model enables better process understanding and ML algorithms exhibit better predictive skills, scientific knowledge that does not add to predictive ability may be deceptive. Hence, there is a need for a hybrid modeling approach to couple ML algorithms and physics-based models in a synergistic manner. Here we develop a Physics Informed Machine Learning (PIML) model that combines the process understanding of conceptual hydrological model with predictive abilities of state-of-the-art ML models. We apply the proposed model to predict the monthly time series of the target (streamflow) and intermediate variables (actual evapotranspiration) in the Narmada river basin in India. Our results show the capability of the PIML model to outperform a purely conceptual model ($abcd$ model) and ML algorithms while ensuring the physical consistency in outputs validated through water balance analysis. The systematic approach for combining conceptual model structure with ML algorithms could be used to improve the predictive accuracy of crucial hydrological processes important for flood risk assessment.
翻訳日:2021-04-23 19:05:49 公開日:2021-04-22
# (参考訳) 意味画像分割における不完全データとインクリメンタル学習のためのデータ適応損失関数 [全文訳有]

A Data-Adaptive Loss Function for Incomplete Data and Incremental Learning in Semantic Image Segmentation ( http://arxiv.org/abs/2104.11020v1 )

ライセンス: CC BY 4.0
Minh H. Vu and Gabriella Norman and Tufve Nyholm and Tommy L\"ofstedt(参考訳) 近年,深層学習は様々な医用画像解析アプリケーションの性能を劇的に向上させてきた。 様々なタイプのディープラーニングモデルの中で、畳み込みニューラルネットワークが最も成功しており、医療画像の多くの応用に使われている。 深層畳み込みニューラルネットワークのトレーニングには、しばしば大量の画像データが必要となる。 高価なイメージングシステムや、専門家が手動で真実の注釈を作成する必要があるため、医療画像領域で大量のデータを集めるのに時間と費用がかかることが多い。 決定支援システムがすでにデプロイされ、使用されている場合に、新しい構造を追加すると潜在的な問題が発生する。 放射線治療の分野は絶えず発展しており、新しい構造も意思決定支援システムによってカバーされる必要がある。 本研究では,アノテーションが欠落している場合でも,利用可能なデータに適応して利用可能なすべてのデータを利用する新しい損失関数を提案する。 提案する損失関数はインクリメンタルな学習環境でもうまく機能し,新しい構造が現れると自動的に組み込まれることを実証する。 大規模な社内データセット実験により,提案手法はベースラインモデルと同等に動作し,トレーニング時間を大幅に短縮することを示した。

In the last years, deep learning has dramatically improved the performances in a variety of medical image analysis applications. Among different types of deep learning models, convolutional neural networks have been among the most successful and they have been used in many applications in medical imaging. Training deep convolutional neural networks often requires large amounts of image data to generalize well to new unseen images. It is often time-consuming and expensive to collect large amounts of data in the medical image domain due to expensive imaging systems, and the need for experts to manually make ground truth annotations. A potential problem arises if new structures are added when a decision support system is already deployed and in use. Since the field of radiation therapy is constantly developing, the new structures would also have to be covered by the decision support system. In the present work, we propose a novel loss function, that adapts to the available data in order to utilize all available data, even when some have missing annotations. We demonstrate that the proposed loss function also works well in an incremental learning setting, where it can automatically incorporate new structures as they appear. Experiments on a large in-house data set show that the proposed method performs on par with baseline models, while greatly reducing the training time.
翻訳日:2021-04-23 18:48:37 公開日:2021-04-22
# (参考訳) Framing Unpacked:メディアフレームの半スーパービジョンで解釈可能なマルチビューモデル [全文訳有]

Framing Unpacked: A Semi-Supervised Interpretable Multi-View Model of Media Frames ( http://arxiv.org/abs/2104.11030v1 )

ライセンス: CC BY 4.0
Shima Khanehzar, Trevor Cohn, Gosia Mikolajczak, Andrew Turpin, Lea Frermann(参考訳) ニュースメディアが政治問題をどう扱うかを理解することは、公共の態度に影響を及ぼすため重要であるが、自動化は困難である。 計算のアプローチは、ニュース記事全体のフレームを分類することに集中し、信号のフレーミングは、しばしば微妙で局所的である。 さらに、自動ニュース分析はセンシティブなドメインであり、既存の分類器は予測に透明性を欠いている。 本稿では,ニュース記事中のイベントと関連するアクタに関するローカル情報を,自動エンコーディングフレームワークを通じて埋め込み,このシグナルを文書レベルのフレーム分類に活用する,新しい半教師モデルに関する2つの問題に対処する。 我々のモデルは従来のフレーム予測モデルよりも優れており、モデルの半教師付き特性を利用したラベル付きトレーニングデータによりさらに性能を向上させることができ、学習したイベントとアクターの埋め込みは文書レベルの予測を直感的に相関させ、微妙で解釈可能な記事フレーム表現を提供する。

Understanding how news media frame political issues is important due to its impact on public attitudes, yet hard to automate. Computational approaches have largely focused on classifying the frame of a full news article while framing signals are often subtle and local. Furthermore, automatic news analysis is a sensitive domain, and existing classifiers lack transparency in their predictions. This paper addresses both issues with a novel semi-supervised model, which jointly learns to embed local information about the events and related actors in a news article through an auto-encoding framework, and to leverage this signal for document-level frame classification. Our experiments show that: our model outperforms previous models of frame prediction; we can further improve performance with unlabeled training data leveraging the semi-supervised nature of our model; and the learnt event and actor embeddings intuitively corroborate the document-level predictions, providing a nuanced and interpretable article frame representation.
翻訳日:2021-04-23 18:33:26 公開日:2021-04-22
# (参考訳) 不整合表現によるジェンダーとアイデンティティの保護 [全文訳有]

Protecting gender and identity with disentangled speech representations ( http://arxiv.org/abs/2104.11051v1 )

ライセンス: CC BY 4.0
Dimitrios Stoidis and Andrea Cavallaro(参考訳) 言語内容に加えて、我々のスピーチは分類器によって推測できる生体情報に富んでいる。 音声信号のプライバシー保護表現の学習は、個人に関する不要なプライベート情報を共有することなく、下流タスクを可能にする。 本稿では, 音声の非感性表現を生成する場合にのみ, 音声における性別情報の保護が話者識別情報のモデル化よりも効果的であることを示す。 本手法は,変分オートエンコーダを用いた言語コンテンツとジェンダー情報との復号化による音声再構成に依拠する。 具体的には,異なる属性に関する情報を独立に分解可能な部分空間に符号化するために,不整合表現学習を利用する。 本稿では、性別情報をエンコードし、2つの敏感な生体認証識別子(性別とアイデンティティ)をプライバシー保護設定でアンタングルする方法を提案する。 LibriSpeechデータセットの実験では、性別認識と話者検証はランダムな推測に還元され、分類に基づく攻撃から保護され、音声認識のための信号の有用性を維持している。

Besides its linguistic content, our speech is rich in biometric information that can be inferred by classifiers. Learning privacy-preserving representations for speech signals enables downstream tasks without sharing unnecessary, private information about an individual. In this paper, we show that protecting gender information in speech is more effective than modelling speaker-identity information only when generating a non-sensitive representation of speech. Our method relies on reconstructing speech by decoding linguistic content along with gender information using a variational autoencoder. Specifically, we exploit disentangled representation learning to encode information about different attributes into separate subspaces that can be factorised independently. We present a novel way to encode gender information and disentangle two sensitive biometric identifiers, namely gender and identity, in a privacy-protecting setting. Experiments on the LibriSpeech dataset show that gender recognition and speaker verification can be reduced to a random guess, protecting against classification-based attacks, while maintaining the utility of the signal for speech recognition.
翻訳日:2021-04-23 18:00:47 公開日:2021-04-22
# (参考訳) MRRT: 動的環境における高速オンラインリプランニングのための複数の高速探索ランダムツリー [全文訳有]

MRRT: Multiple Rapidly-Exploring Random Trees for Fast Online Replanning in Dynamic Environments ( http://arxiv.org/abs/2104.11059v1 )

ライセンス: CC BY 4.0
Zongyuan Shen, James P. Wilson, Ryan Harvey and Shalabh Gupta(参考訳) 本稿では,移動障害物のある動的環境下での自律走行車両の高速なオンライン再計画に,複数の高速探索木を用いたMRRTアルゴリズムを提案する。 提案アルゴリズムはマルチツリー構造を持つRTRアルゴリズムに基づいている。 はじめに、rrtアルゴリズムを適用し、環境の部分的な知識に基づいて初期解を求める。 そして、ロボットはこの経路を実行し始める。 各イテレーションで、新しい障害物構成はロボットのセンサーによって収集され、経路の再計画に使用される。 この新しい情報は、未知の静的な障害物(海底のレイアウトなど)と動く障害物から得られる。 次に, 環境変化に対応するため, 1) 端伐採, 2) 木の再生育の2つの手順が採用された。 具体的には、エッジプルーニング手順は木を通して衝突状態をチェックし、既に探索された領域のツリー構造を維持しながら、無効なエッジだけを削除する。 無効な縁を取り除いたため、木は複数の隣接した木に分割された。 そのため、RRTアルゴリズムを木の再成長に適用する。 具体的には、サンプルがランダムに作成され、最寄りのノードに接続することで、その近傍のすべての隣接木に結合される。 最後に、ロボットに新しい解決策が見つかる。 提案するmrrtアルゴリズムの利点は次のとおりである: i) 障害物に衝突する辺のみを刈り取ることで最大木構造を保持し、ii) 確率的完全性を保証する、iii) すべての非連結木は将来の接続のために維持され、同時に拡張されるため、高速再計画に効率的である。

This paper presents a novel algorithm, called MRRT, which uses multiple rapidly-exploring random trees for fast online replanning of autonomous vehicles in dynamic environments with moving obstacles. The proposed algorithm is built upon the RRT algorithm with a multi-tree structure. At the beginning, the RRT algorithm is applied to find the initial solution based on partial knowledge of the environment. Then, the robot starts to execute this path. At each iteration, the new obstacle configurations are collected by the robot's sensor and used to replan the path. This new information can come from unknown static obstacles (e.g., seafloor layout) as well as moving obstacles. Then, to accommodate the environmental changes, two procedures are adopted: 1) edge pruning, and 2) tree regrowing. Specifically, the edge pruning procedure checks the collision status through the tree and only removes the invalid edges while maintaining the tree structure of already-explored regions. Due to removal of invalid edges, the tree could be broken into multiple disjoint trees. As such, the RRT algorithm is applied to regrow the trees. Specifically, a sample is created randomly and joined to all the disjoint trees in its local neighborhood by connecting to the nearest nodes. Finally, a new solution is found for the robot. The advantages of the proposed MRRT algorithm are as follows: i) retains the maximal tree structure by only pruning the edges which collide with the obstacles, ii) guarantees probabilistic completeness, and iii) is computational efficient for fast replanning since all disjoint trees are maintained for future connections and expanded simultaneously.
翻訳日:2021-04-23 17:46:36 公開日:2021-04-22
# (参考訳) ニューラルモデルを用いたホークスプロセスのモデリング強度関数の検討 [全文訳有]

Survey on Modeling Intensity Function of Hawkes Process Using Neural Models ( http://arxiv.org/abs/2104.11092v1 )

ライセンス: CC BY-SA 4.0
Jayesh Malaviya(参考訳) 多くの多様なシステムの事象列は連続空間における離散事象の列として表される。 このようなイベントシーケンスの例としては、地震後のイベント、金融取引、eコマース取引、ユーザのソーシャルネットワーク活動、ユーザのweb検索パターンなどがある。 このような複雑なパターンを見つけることは、将来どのイベントが起こるのか、いつ起こるのかを発見するのに役立つ。 ホークス過程(英: Hawkes process)は、時系列離散イベントをモデル化するための数学的ツールである。 伝統的に、ホークスプロセスはパラメータ化されたカーネル関数を持つ強度関数としてデータをモデリングするために重要なコンポーネントを使用する。 ホークス過程の強度関数は、背景強度と事象の履歴の影響の2つの要素を含む。 しかし、そのようなパラメータ化された仮定は、モデリングカーネル関数のバイアスにより、過去のイベントデータを使って将来のイベント特性を正確に捉えることはできない。 本稿では,カーネル関数をモデル化してパラメータ化されたカーネル関数を除去する,新しい深層学習手法を用いた最近の進歩について述べる。 最後に、ホークスプロセスを用いたモデリングを改善するために、将来の研究の方向性を示す。

The event sequence of many diverse systems is represented as a sequence of discrete events in a continuous space. Examples of such an event sequence are earthquake aftershock events, financial transactions, e-commerce transactions, social network activity of a user, and the user's web search pattern. Finding such an intricate pattern helps discover which event will occur in the future and when it will occur. A Hawkes process is a mathematical tool used for modeling such time series discrete events. Traditionally, the Hawkes process uses a critical component for modeling data as an intensity function with a parameterized kernel function. The Hawkes process's intensity function involves two components: the background intensity and the effect of events' history. However, such parameterized assumption can not capture future event characteristics using past events data precisely due to bias in modeling kernel function. This paper explores the recent advancement using novel deep learning-based methods to model kernel function to remove such parametrized kernel function. In the end, we will give potential future research directions to improve modeling using the Hawkes process.
翻訳日:2021-04-23 17:41:59 公開日:2021-04-22
# (参考訳) 非バイナリ入力ベクトルを用いた樹木親機同期 [全文訳有]

Synchronization of Tree Parity Machines using non-binary input vectors ( http://arxiv.org/abs/2104.11105v1 )

ライセンス: CC BY 4.0
Mi{\l}osz Stypi\'nski, Marcin Niemiec(参考訳) ニューラルネットワークは、暗号の分野におけるニューラルネットワークの応用である。 このソリューションの機能はツリーパリティマシンに基づいている。 ニューラルネットワークを使って、ネットワークエンティティ間のセキュアな鍵交換を行う。 本稿では2つのツリーパリティマシンの同期改善を提案する。 この改善は、バイナリよりも幅広い値を持つ入力ベクトルを用いた人工ニューラルネットワークの学習に基づいている。 これにより、同期処理の期間が短縮される。 そのため、必要なビット交換の削減により、ツリーパリティマシンはより短時間で共通重量を達成する。 このアプローチは神経暗号のセキュリティを改善する

Neural cryptography is the application of artificial neural networks in the subject of cryptography. The functionality of this solution is based on a tree parity machine. It uses artificial neural networks to perform secure key exchange between network entities. This article proposes improvements to the synchronization of two tree parity machines. The improvement is based on learning artificial neural network using input vectors which have a wider range of values than binary ones. As a result, the duration of the synchronization process is reduced. Therefore, tree parity machines achieve common weights in a shorter time due to the reduction of necessary bit exchanges. This approach improves the security of neural cryptography
翻訳日:2021-04-23 17:32:44 公開日:2021-04-22
# (参考訳) フォーミュラRL:テレメトリデータを用いた自律レースの深部強化学習 [全文訳有]

Formula RL: Deep Reinforcement Learning for Autonomous Racing using Telemetry Data ( http://arxiv.org/abs/2104.11106v1 )

ライセンス: CC BY 4.0
Adrian Remonda, Sarah Krebs, Eduardo Veas, Granit Luzhnica, Roman Kern(参考訳) 本稿では,自動運転における強化学習(rl)モデルの利用について検討する。 安全が最優先の乗用車とは対照的に、レーシングカーはラップタイムを最小化することを目指している。 この問題を,車両のテレメトリと連続的な動作空間からなる多次元入力を用いて強化学習タスクとして構成する。 いずれのrl手法がこの問題をより解決し、得られたモデルが未知のトラック上での運転に一般化するかを明らかにするため、我々は2つの実験で10種類の深い決定論的ポリシー勾配 (ddpg) をレースに投入した: i) rl手法がレーシングカーの運転をいかに学ぶかの研究 ii) 学習シナリオがモデルが一般化する能力にどのように影響するかを考察する。 研究によると、rlでトレーニングされたモデルは、オープンソースの手作りロボットよりも高速に運転できるだけでなく、未知のトラックに一般化できる。

This paper explores the use of reinforcement learning (RL) models for autonomous racing. In contrast to passenger cars, where safety is the top priority, a racing car aims to minimize the lap-time. We frame the problem as a reinforcement learning task with a multidimensional input consisting of the vehicle telemetry, and a continuous action space. To find out which RL methods better solve the problem and whether the obtained models generalize to driving on unknown tracks, we put 10 variants of deep deterministic policy gradient (DDPG) to race in two experiments: i)~studying how RL methods learn to drive a racing car and ii)~studying how the learning scenario influences the capability of the models to generalize. Our studies show that models trained with RL are not only able to drive faster than the baseline open source handcrafted bots but also generalize to unknown tracks.
翻訳日:2021-04-23 17:24:36 公開日:2021-04-22
# (参考訳) 多次元時系列データの特徴選択法 [全文訳有]

A Feature Selection Method for Multi-Dimension Time-Series Data ( http://arxiv.org/abs/2104.11110v1 )

ライセンス: CC BY 4.0
Bahavathy Kathirgamanathan and Padraig Cunningham(参考訳) モーションキャプチャやアクティビティ認識などのアプリケーション領域における時系列データは、多次元であることが多い。 これらのアプリケーション領域では、データは一般的にウェアラブルセンサーから、あるいはビデオから抽出される。 これらのデータストリームには多くの冗長性があり、適切な分類精度は少数の機能(ディメンション)で達成可能であることが多い。 本稿では,相互情報に基づく多次元時系列データを用いた特徴集合選択手法を提案する。 単一の特徴に基づいて訓練された分類器の出力の相関パターンに基づいて評価スコア(MSTS)を算出し、それに応じて「ベスト」サブセットを選択する。 MSTSは計算コストの面ではるかに効率的であると同時に、機械学習の他の場所で人気がある機能選択戦略であるWrapperベースの機能選択と比較して、全体的な正確性を維持するために管理されている。 本稿では,この特徴選択戦略の背景にあるモチベーションを説明し,その効果を6つの時系列データセットで評価する。

Time-series data in application areas such as motion capture and activity recognition is often multi-dimension. In these application areas data typically comes from wearable sensors or is extracted from video. There is a lot of redundancy in these data streams and good classification accuracy will often be achievable with a small number of features (dimensions). In this paper we present a method for feature subset selection on multidimensional time-series data based on mutual information. This method calculates a merit score (MSTS) based on correlation patterns of the outputs of classifiers trained on single features and the `best' subset is selected accordingly. MSTS was found to be significantly more efficient in terms of computational cost while also managing to maintain a good overall accuracy when compared to Wrapper-based feature selection, a feature selection strategy that is popular elsewhere in Machine Learning. We describe the motivations behind this feature selection strategy and evaluate its effectiveness on six time series datasets.
翻訳日:2021-04-23 17:10:10 公開日:2021-04-22
# (参考訳) ビデオカプセル内視鏡と大腸内視鏡におけるリアルタイムポリープセグメンテーション [全文訳有]

NanoNet: Real-Time Polyp Segmentation in Video Capsule Endoscopy and Colonoscopy ( http://arxiv.org/abs/2104.11138v1 )

ライセンス: CC BY 4.0
Debesh Jha, Nikhil Kumar Tomar, Sharib Ali, Michael A. Riegler, H{\aa}vard D. Johansen, Dag Johansen, Thomas de Lange, P{\aa}l Halvorsen(参考訳) 消化器内視鏡の深層学習は臨床成績の向上に役立ち、病変をより正確に評価するのに役立つ。 この範囲では、がんや先天性病変の境界の特定など、興味のある領域のリアルタイムデライン化を自動化できるセマンティックセグメンテーション手法が、診断と介入の両方に有用である。 しかし,高演算子依存性と高精細画像品質のため,高精度かつリアルタイムな内視鏡像分割は極めて困難である。 臨床環境での自動化手法を活用するためには,低レイテンシの軽量モデルの設計が重要であり,ローエンドの内視鏡ハードウェアデバイスと統合可能である。 本稿では,ビデオカプセル内視鏡と大腸内視鏡画像のセグメンテーションのための新しいアーキテクチャであるnanonetを提案する。 提案アーキテクチャはリアルタイム性能を実現し,他の複雑なアーキテクチャに比べて高いセグメンテーション精度を有する。 我々は,ポリープを用いたビデオカプセル内視鏡および標準大腸内視鏡データセットと内視鏡生検および手術器具からなるデータセットを用いて,本手法の有効性を評価した。 実験では,モデル複雑性,速度,モデルパラメータ,メトリックパフォーマンスのトレードオフの観点から,アーキテクチャの性能向上を実証した。 さらに、モデルのサイズは比較的小さく、数百万のパラメータを持つ従来のディープラーニングアプローチと比較して、36,000近いパラメータしかありません。

Deep learning in gastrointestinal endoscopy can assist to improve clinical performance and be helpful to assess lesions more accurately. To this extent, semantic segmentation methods that can perform automated real-time delineation of a region-of-interest, e.g., boundary identification of cancer or precancerous lesions, can benefit both diagnosis and interventions. However, accurate and real-time segmentation of endoscopic images is extremely challenging due to its high operator dependence and high-definition image quality. To utilize automated methods in clinical settings, it is crucial to design lightweight models with low latency such that they can be integrated with low-end endoscope hardware devices. In this work, we propose NanoNet, a novel architecture for the segmentation of video capsule endoscopy and colonoscopy images. Our proposed architecture allows real-time performance and has higher segmentation accuracy compared to other more complex ones. We use video capsule endoscopy and standard colonoscopy datasets with polyps, and a dataset consisting of endoscopy biopsies and surgical instruments, to evaluate the effectiveness of our approach. Our experiments demonstrate the increased performance of our architecture in terms of a trade-off between model complexity, speed, model parameters, and metric performances. Moreover, the resulting model size is relatively tiny, with only nearly 36,000 parameters compared to traditional deep learning approaches having millions of parameters.
翻訳日:2021-04-23 17:02:55 公開日:2021-04-22
# (参考訳) 入札リギング検出のための深層学習:畳み込みニューラルネットワークに基づくカルテル参加者のフラッグング [全文訳有]

Deep learning for detecting bid rigging: Flagging cartel participants based on convolutional neural networks ( http://arxiv.org/abs/2104.11142v1 )

ライセンス: CC BY 4.0
Martin Huber, David Imhof(参考訳) 本稿では,入札型カルテルのデータ駆動検出に関する文献に加え,他の企業との対決入札インタラクションに基づいてカーテル参加者をフラグアップする深層学習(人工知能のサブフィールド)に基づく新しいアプローチを提案する。 より簡潔に言うと、画像認識のためのいわゆる畳み込みニューラルネットワークと、ある参照会社の正規入札値を、参照会社と同一のテンダーに参加している他の企業の正規入札に対してペアでプロットするグラフを組み合わせる。 日本語とスイスの調達データに基づいて,コンレーシブなエピソードと競争的なエピソード(すなわち,入札カルテルが活動していない場合)のグラフを構築し,ニューラルネットワークをトレーニングするためにグラフのサブセットを用いて,競合入札パターンとコンレーシブを区別することを学ぶ。 残りのグラフを使用して、ニューラルネットワークのサンプル外性能をテストすることで、コルーシブかつ競合的な入札インタラクションを正しく分類する。 本手法を日本語,スイス語,あるいは混合データ(スイス語,日本語のグラフがプールされている)に適用する場合,精度の高い平均精度は約90%以上となる。 ある国からのデータを用いて、訓練されたモデルの他国(すなわち)のパフォーマンスをテストする場合。 全国的に)予測性能が低下する(おそらく、各国の調達手続きが制度的に異なるため)が、しばしば満足できるほど高いままである。 総じて、わずか100グラフの比較的小さなサンプルで訓練されているにもかかわらず、畳み込みニューラルネットワークの概して非常に高精度な精度は、投函と競い合うカルテルに対するディープラーニングアプローチの大きな可能性を示している。

Adding to the literature on the data-driven detection of bid-rigging cartels, we propose a novel approach based on deep learning (a subfield of artificial intelligence) that flags cartel participants based on their pairwise bidding interactions with other firms. More concisely, we combine a so-called convolutional neural network for image recognition with graphs that in a pairwise manner plot the normalized bid values of some reference firm against the normalized bids of any other firms participating in the same tenders as the reference firm. Based on Japanese and Swiss procurement data, we construct such graphs for both collusive and competitive episodes (i.e when a bid-rigging cartel is or is not active) and use a subset of graphs to train the neural network such that it learns distinguishing collusive from competitive bidding patterns. We use the remaining graphs to test the neural network's out-of-sample performance in correctly classifying collusive and competitive bidding interactions. We obtain a very decent average accuracy of around 90% or slightly higher when either applying the method within Japanese, Swiss, or mixed data (in which Swiss and Japanese graphs are pooled). When using data from one country for training to test the trained model's performance in the other country (i.e. transnationally), predictive performance decreases (likely due to institutional differences in procurement procedures across countries), but often remains satisfactorily high. All in all, the generally quite high accuracy of the convolutional neural network despite being trained in a rather small sample of a few 100 graphs points to a large potential of deep learning approaches for flagging and fighting bid-rigging cartels.
翻訳日:2021-04-23 16:50:21 公開日:2021-04-22
# (参考訳) 拡張制御としての信頼:人間-ロボット協調時のアクティブ推論とユーザフィードバック [全文訳有]

Trust as Extended Control: Active Inference and User Feedback During Human-Robot Collaboration ( http://arxiv.org/abs/2104.11153v1 )

ライセンス: CC BY 4.0
Felix Schoeller, Mark Miller, Roy Salomon, Karl J. Friston(参考訳) ロボットとシームレスに対話するには、ユーザーはロボットの行動の原因を推測し、その推論に自信を持たなければならない。 したがって、信頼は人間ロボット協力(HRC)に必要な条件である。 その重要な役割にもかかわらず、信頼がどのように生まれ、発展し、非ヒトの人工物との人間の相互作用をサポートするかはほとんど分かっていない。 本稿では,信頼,人間とロボットのインタラクション,人間とロボットのコラボレーション,人間のインタラクションに関する文献を概観する。 信頼の初期のモデルでは、信頼は善意と能力のトレードオフを伴い、人間と人間の相互作用の研究は、信頼の段階的な構築における共有行動と相互知識の役割を強調している。 次に、拡張モータープラントまたはパートナーとの信頼できる感覚交換のためのエージェントの最良の説明として信頼のモデルを紹介する。 このモデルは、アクティブ推論の認知神経科学に基づいており、hrcの文脈では、人工エージェントに対する仮想制御の観点で信頼をキャストできることを示唆している。 この設定では、インタラクティブなフィードバックは、トラクタの知覚行動サイクルに必要なコンポーネントとなる。 人間の信頼の伝統的な決定要因は、アクティブな推論、情報交換、エンパワーメントの観点で定義できるため、人間とロボットの相互作用とコラボレーションを理解する上で重要な意味を持つ。 さらに,このモデルでは,ボアドムやサプライズをシステムへの過度な依存の指標として用いることができることが示唆された。 最後に,信頼形成における共有行動の役割,特にdyadicコラボレーションの文脈について検討し,人間-ロボット協調システムの受容性と設計に重要な影響を示唆する。

To interact seamlessly with robots, users must infer the causes of a robot's behavior and be confident about that inference. Hence, trust is a necessary condition for human-robot collaboration (HRC). Despite its crucial role, it is largely unknown how trust emerges, develops, and supports human interactions with nonhuman artefacts. Here, we review the literature on trust, human-robot interaction, human-robot collaboration, and human interaction at large. Early models of trust suggest that trust entails a trade-off between benevolence and competence, while studies of human-to-human interaction emphasize the role of shared behavior and mutual knowledge in the gradual building of trust. We then introduce a model of trust as an agent's best explanation for reliable sensory exchange with an extended motor plant or partner. This model is based on the cognitive neuroscience of active inference and suggests that, in the context of HRC, trust can be cast in terms of virtual control over an artificial agent. In this setting, interactive feedback becomes a necessary component of the trustor's perception-action cycle. The resulting model has important implications for understanding human-robot interaction and collaboration, as it allows the traditional determinants of human trust to be defined in terms of active inference, information exchange and empowerment. Furthermore, this model suggests that boredom and surprise may be used as markers for under and over-reliance on the system. Finally, we examine the role of shared behavior in the genesis of trust, especially in the context of dyadic collaboration, suggesting important consequences for the acceptability and design of human-robot collaborative systems.
翻訳日:2021-04-23 16:31:23 公開日:2021-04-22
# (参考訳) 定量メタログラフィーのためのエンド・ツー・エンドコンピュータビジョン手法 [全文訳有]

An End-to-End Computer Vision Methodology for Quantitative Metallography ( http://arxiv.org/abs/2104.11159v1 )

ライセンス: CC BY 4.0
Matan Rusanovsky, Ofer Beeri, Sigalit Ifergane and Gal Oren(参考訳) メタログラフィーは材料の特性を適切に評価するのに重要である。 主に穀物の空間分布と包有物や沈殿物の発生と特性を調査する。 本研究は, 合金の不純物の異常度を自動的に定量化する異常検出のための総合的人工知能モデルを提案する。 1) 包含物(適切な合金メタログラフデータベースと対応する包含物のタグ)上で深い意味分節化を行い, 分離したデータベースに保存された包含物マスクを生成する。 2) 除去された包有物部分を埋めるために深部画像インパインティングを行い、粒の背景を含む「クリーン」金属写真を生成する。 3) 粒界は(別の合金メタログラフデータベースに基づく)深部意味分節法を用いてマークされ、粒度の大きさの分布をさらに検査する準備ができている境界を生成する。 (4)包含マスクに深い異常検出及びパターン認識を行い、包含物の空間的、形状的、領域的異常検出を決定する。 最後に、システムは、さらなる調査のために興味のある分野の専門家に推奨する。 モデルの性能を提示し,いくつかの代表事例に基づいて解析する。 ここで示したモデルはメタログラフィー解析のために開発されたが、そのほとんどは幾何学的対象の異常検出が望まれるより広い問題に一般化することができる。 この作業のために作成されたすべてのモデルとデータセットはhttps://github.com/S cientific-Computing- Lab-NRCN/MLographyで公開されている。

Metallography is crucial for a proper assessment of material's properties. It involves mainly the investigation of spatial distribution of grains and the occurrence and characteristics of inclusions or precipitates. This work presents an holistic artificial intelligence model for Anomaly Detection that automatically quantifies the degree of anomaly of impurities in alloys. We suggest the following examination process: (1) Deep semantic segmentation is performed on the inclusions (based on a suitable metallographic database of alloys and corresponding tags of inclusions), producing inclusions masks that are saved into a separated database. (2) Deep image inpainting is performed to fill the removed inclusions parts, resulting in 'clean' metallographic images, which contain the background of grains. (3) Grains' boundaries are marked using deep semantic segmentation (based on another metallographic database of alloys), producing boundaries that are ready for further inspection on the distribution of grains' size. (4) Deep anomaly detection and pattern recognition is performed on the inclusions masks to determine spatial, shape and area anomaly detection of the inclusions. Finally, the system recommends to an expert on areas of interests for further examination. The performance of the model is presented and analyzed based on few representative cases. Although the models presented here were developed for metallography analysis, most of them can be generalized to a wider set of problems in which anomaly detection of geometrical objects is desired. All models as well as the data-sets that were created for this work, are publicly available at https://github.com/S cientific-Computing- Lab-NRCN/MLography.
翻訳日:2021-04-23 16:12:51 公開日:2021-04-22
# (参考訳) 時間情報を用いたノイズロバストディープスパイクニューラルネットワーク [全文訳有]

Noise-Robust Deep Spiking Neural Networks with Temporal Information ( http://arxiv.org/abs/2104.11169v1 )

ライセンス: CC BY 4.0
Seongsik Park, Dongjin Lee, Sungroh Yoon(参考訳) スパイキングニューラルネットワーク(SNN)は、時間的情報を持つエネルギー効率の高いニューラルネットワークとして登場した。 snnはニューロモルフィックなデバイスで優れた効率を示したが、デバイスはノイズに影響を受けやすく、現実世界のアプリケーションに適用できない。 いくつかの研究はノイズの堅牢性を高めているが、そのほとんどは深いSNNでも時間情報でもないとみなしている。 本稿では,様々なニューラルコーディング手法を用いた深部snsに対する雑音の影響を調査し,時間的情報を含む雑音ロバスト深部snsを提案する。 提案手法により,スパイク削除とジッタを効率よく,かつ堅牢な深層SNNを実現した。

Spiking neural networks (SNNs) have emerged as energy-efficient neural networks with temporal information. SNNs have shown a superior efficiency on neuromorphic devices, but the devices are susceptible to noise, which hinders them from being applied in real-world applications. Several studies have increased noise robustness, but most of them considered neither deep SNNs nor temporal information. In this paper, we investigate the effect of noise on deep SNNs with various neural coding methods and present a noise-robust deep SNN with temporal information. With the proposed methods, we have achieved a deep SNN that is efficient and robust to spike deletion and jitter.
翻訳日:2021-04-23 15:49:08 公開日:2021-04-22
# (参考訳) 人間とロボットの対話による知識の収集・抽出・保存 [全文訳有]

Knowledge Triggering, Extraction and Storage via Human-Robot Verbal Interaction ( http://arxiv.org/abs/2104.11170v1 )

ライセンス: CC BY 4.0
Lucrezia Grassi, Carmine Tommaso Recchiuto, Antonio Sgorbissa(参考訳) 本稿では,人工会話エージェントの知識ベースをランタイムに拡張する新しいアプローチについて述べる。 ソーシャルヒューマノイドロボットと介護施設の住民との知識に基づく会話のために,ユーザの文章から自動的な知識抽出技術と,獲得した概念を知識ベースに挿入する4つの手法が開発され,すでにテスト済みのシステムに統合されている。 新しい知識をリアルタイムで追加することで、ほとんどのロボットやチャットボットに影響を与えるいくつかの制限を克服することができる。 ユーザの文で認識された新しい概念の知識ベースへの挿入は、対話中にカバーできる幅広いトピックを生み出すことが期待され、会話の反復性が低下する。 オントロジーにいくつかの概念を加える際に, 知識抽出手法の性能と, 提案した挿入手法の効率を評価するために, 2つの実験を行った。

This article describes a novel approach to expand in run-time the knowledge base of an Artificial Conversational Agent. A technique for automatic knowledge extraction from the user's sentence and four methods to insert the new acquired concepts in the knowledge base have been developed and integrated into a system that has already been tested for knowledge-based conversation between a social humanoid robot and residents of care homes. The run-time addition of new knowledge allows overcoming some limitations that affect most robots and chatbots: the incapability of engaging the user for a long time due to the restricted number of conversation topics. The insertion in the knowledge base of new concepts recognized in the user's sentence is expected to result in a wider range of topics that can be covered during an interaction, making the conversation less repetitive. Two experiments are presented to assess the performance of the knowledge extraction technique, and the efficiency of the developed insertion methods when adding several concepts in the Ontology.
翻訳日:2021-04-23 15:36:17 公開日:2021-04-22
# (参考訳) 完全畳み込み線解析 [全文訳有]

Fully Convolutional Line Parsing ( http://arxiv.org/abs/2104.11207v1 )

ライセンス: CC0 1.0
Xili Dai, Xiaojun Yuan, Haigang Gong, Yi Ma(参考訳) 画像から線分を検出する一段階のF-Clip(Fully Convolutional Line Parsing Network)を提案する。 提案するネットワークは非常にシンプルで柔軟性があり、異なるアプリケーションの速度と精度を優雅にトレードオフするバリエーションがある。 F-Clipは、各行の中央位置、長さ、角度で予測することで、ラインセグメントをエンドツーエンドで検出する。 実画像データセットにおける線分角分布の実証的観察に基づき, 畳み込みネットワークの畳み込みカーネルの設計をさらにカスタマイズし, このような統計的事前化を効果的に活用する。 提案手法は,1つのGPU上で最大73FPSのリアルタイムライン検出器を実現することにより,効率と精度のトレードオフを著しく向上することを示す。 このような推論速度は,従来の手法の精度を損なうことなく,リアルタイムタスクに容易に適用できる。 さらに、性能改善バックボーンネットワークを備えた場合、F-Clipは、同じまたはそれ以上のフレームレートで精度で全ての最先端ライン検出器を著しく上回ることができる。 ソースコード https://github.com/D elay-Xili/F-Clip.com

We present a one-stage Fully Convolutional Line Parsing network (F-Clip) that detects line segments from images. The proposed network is very simple and flexible with variations that gracefully trade off between speed and accuracy for different applications. F-Clip detects line segments in an end-to-end fashion by predicting them with each line's center position, length, and angle. Based on empirical observation of the distribution of line angles in real image datasets, we further customize the design of convolution kernels of our fully convolutional network to effectively exploit such statistical priors. We conduct extensive experiments and show that our method achieves a significantly better trade-off between efficiency and accuracy, resulting in a real-time line detector at up to 73 FPS on a single GPU. Such inference speed makes our method readily applicable to real-time tasks without compromising any accuracy of previous methods. Moreover, when equipped with a performance-improvin g backbone network, F-Clip is able to significantly outperform all state-of-the-art line detectors on accuracy at a similar or even higher frame rate. Source code https://github.com/D elay-Xili/F-Clip.
翻訳日:2021-04-23 15:04:28 公開日:2021-04-22
# (参考訳) KeypointDeformer: 形状制御のための教師なし3次元キーポイント発見 [全文訳有]

KeypointDeformer: Unsupervised 3D Keypoint Discovery for Shape Control ( http://arxiv.org/abs/2104.11224v1 )

ライセンス: CC BY 4.0
Tomas Jakab, Richard Tucker, Ameesh Makadia, Jiajun Wu, Noah Snavely, Angjoo Kanazawa(参考訳) 自動検出された3次元キーポイントによる形状制御のための新しい教師なし手法であるKeypointDeformerを紹介する。 我々はこれを、同じオブジェクトカテゴリからターゲット3Dオブジェクトにソース3Dオブジェクトをアライメントする問題として捉えた。 本手法は2つの物体の形状の違いを潜在表現の比較により解析する。 この潜在表現は教師なしの方法で学習される3dキーポイントの形式である。 ソースとターゲットオブジェクトの3Dキーポイントの違いは、ソースオブジェクトをターゲットオブジェクトに変形させる形状変形アルゴリズムに通知する。 モデル全体がエンドツーエンドで学習され、3dキーポイントを同時に発見し、オブジェクトの形状を変形するためにそれらを使用するように学習する。 本手法は, 直観的かつ意味論的に形状変形の制御を行う。 さらに,3次元キーポイントは形状変化が大きいにもかかわらず,オブジェクトカテゴリインスタンス間で一致している。 我々の手法は教師なしであるため、3Dキーポイントや変形のアノテーションを必要とせずに、新しいオブジェクトカテゴリに簡単にデプロイできる。

We introduce KeypointDeformer, a novel unsupervised method for shape control through automatically discovered 3D keypoints. We cast this as the problem of aligning a source 3D object to a target 3D object from the same object category. Our method analyzes the difference between the shapes of the two objects by comparing their latent representations. This latent representation is in the form of 3D keypoints that are learned in an unsupervised way. The difference between the 3D keypoints of the source and the target objects then informs the shape deformation algorithm that deforms the source object into the target object. The whole model is learned end-to-end and simultaneously discovers 3D keypoints while learning to use them for deforming object shapes. Our approach produces intuitive and semantically consistent control of shape deformations. Moreover, our discovered 3D keypoints are consistent across object category instances despite large shape variations. As our method is unsupervised, it can be readily deployed to new object categories without requiring annotations for 3D keypoints and deformations.
翻訳日:2021-04-23 14:51:29 公開日:2021-04-22
# (参考訳) 道路を想像する: 微分可能シミュレーションによるマルチエージェント軌道予測 [全文訳有]

Imagining The Road Ahead: Multi-Agent Trajectory Prediction via Differentiable Simulation ( http://arxiv.org/abs/2104.11212v1 )

ライセンス: CC BY-SA 4.0
Adam Scibior, Vasileios Lioutas, Daniele Reda, Peyman Bateni, Frank Wood(参考訳) 本研究では,マルチエージェント軌道予測のための完全微分可能なシミュレータを用いた深層生成モデルを開発した。 エージェントは条件付きリカレント変動ニューラルネットワーク(CVRNN)でモデル化され、世界の現在の状態を表すエゴ中心のバードビューイメージを入力として、ステアリングとアクセラレーションからなるアクションを出力し、キネマティック自転車モデルを用いてその後のエージェント状態を導出する。 そして、各エージェントに対して全シミュレーション状態を微分可能レンダリングし、次のステップを開始する。 本研究では,標準ニューラルアーキテクチャと標準変分学習目標を用いて,対話データセットの最先端の結果を得るとともに,随時多様性を誘発する損失を伴わずに現実的なマルチモーダル予測を実現する。 シミュレーションの個々の構成要素を調べるためにアブレーション実験を行い,このレベルを達成するためには,自転車モデルとバードビュー画像からの連続フィードバックの両方が不可欠であることを見出した。 Imagining the Road Ahead" の略で、当社のモデル ITRA と名付けています。

We develop a deep generative model built on a fully differentiable simulator for multi-agent trajectory prediction. Agents are modeled with conditional recurrent variational neural networks (CVRNNs), which take as input an ego-centric birdview image representing the current state of the world and output an action, consisting of steering and acceleration, which is used to derive the subsequent agent state using a kinematic bicycle model. The full simulation state is then differentiably rendered for each agent, initiating the next time step. We achieve state-of-the-art results on the INTERACTION dataset, using standard neural architectures and a standard variational training objective, producing realistic multi-modal predictions without any ad-hoc diversity-inducing losses. We conduct ablation studies to examine individual components of the simulator, finding that both the kinematic bicycle model and the continuous feedback from the birdview image are crucial for achieving this level of performance. We name our model ITRA, for "Imagining the Road Ahead".
翻訳日:2021-04-23 14:32:07 公開日:2021-04-22
# 運動プログラムによる階層的動作理解

Hierarchical Motion Understanding via Motion Programs ( http://arxiv.org/abs/2104.11216v1 )

ライセンス: Link先を確認
Sumith Kulal, Jiayuan Mao, Alex Aiken, Jiajun Wu(参考訳) 人間の動きの映像解析に対する最近のアプローチは、推論の基本単位として生のピクセルやキーポイントに焦点を当てている。 バックスウィングやフォロースルーなどの動きの自然な粗い単位をキャプチャできる高レベルなモーションプリミティブを付加することで、下流分析タスクを改善することができると仮定する。 この高いレベルの抽象化は、繰り返しプリミティブのループのような、現在低レベルの表現ではアクセスできない重要な機能も捉えることができる。 そこで我々は,運動を高レベルプリミティブの構成として表現する,ニューロシンボリックなプログラムライクな表現であるモーションプログラムを紹介する。 また,人間の動画から自動的に動作プログラムを誘導し,映像合成における動作プログラムを活用するシステムを提案する。 実験により、運動プログラムは人間の様々な動きを正確に記述できることが示され、推定されたプログラムにはアームスイングやジャンピングジャックのような意味的に意味のある動作プリミティブが含まれている。 我々の表現は、ビデオ補間やビデオ予測といった下流タスクにも役立ち、市販モデルよりも優れています。 さらに,これらのプログラムが多種多様な反復動作を検知し,インタラクティブなビデオ編集を容易にする方法を示す。

Current approaches to video analysis of human motion focus on raw pixels or keypoints as the basic units of reasoning. We posit that adding higher-level motion primitives, which can capture natural coarser units of motion such as backswing or follow-through, can be used to improve downstream analysis tasks. This higher level of abstraction can also capture key features, such as loops of repeated primitives, that are currently inaccessible at lower levels of representation. We therefore introduce Motion Programs, a neuro-symbolic, program-like representation that expresses motions as a composition of high-level primitives. We also present a system for automatically inducing motion programs from videos of human motion and for leveraging motion programs in video synthesis. Experiments show that motion programs can accurately describe a diverse set of human motions and the inferred programs contain semantically meaningful motion primitives, such as arm swings and jumping jacks. Our representation also benefits downstream tasks such as video interpolation and video prediction and outperforms off-the-shelf models. We further demonstrate how these programs can detect diverse kinds of repetitive motion and facilitate interactive video editing.
翻訳日:2021-04-23 14:10:44 公開日:2021-04-22
# ニューラルネットワークロスランドスケープにおける単調線形補間の解析

Analyzing Monotonic Linear Interpolation in Neural Network Loss Landscapes ( http://arxiv.org/abs/2104.11044v1 )

ライセンス: Link先を確認
James Lucas, Juhan Bae, Michael R. Zhang, Stanislav Fort, Richard Zemel, Roger Grosse(参考訳) 確率勾配降下(SGD)によるトレーニング後の初期ニューラルネットワークパラメータと収束パラメータの線形補間は、訓練目標の単調な減少につながる。 この単調線形補間(MLI)特性はGoodfellowらによって初めて観察された。 2014年) ニューラルネットワークの非凸目的と高度に非線形なトレーニングダイナミクスにもかかわらず継続する。 この研究を拡張し、この性質について、我々の知る限り、まだ研究されていないいくつかの仮説を評価する。 微分幾何学のツールを用いて、関数空間における補間経路と平均二乗誤差の下でのMLI特性に対する十分な条件を満たすネットワークの単調性との間の接続を描く。 MLIプロパティはさまざまな設定(例)で保持される。 ネットワークアーキテクチャと学習問題) MLIプロパティに違反するネットワークは,初期化から遠ざかる重みを奨励することにより,体系的に生成可能であることを示す。 MLIプロパティは、ニューラルネットワークの損失ランドスケープ幾何学に関する重要な疑問を提起し、そのグローバルな特性をさらに研究する必要性を強調している。

Linear interpolation between initial neural network parameters and converged parameters after training with stochastic gradient descent (SGD) typically leads to a monotonic decrease in the training objective. This Monotonic Linear Interpolation (MLI) property, first observed by Goodfellow et al. (2014) persists in spite of the non-convex objectives and highly non-linear training dynamics of neural networks. Extending this work, we evaluate several hypotheses for this property that, to our knowledge, have not yet been explored. Using tools from differential geometry, we draw connections between the interpolated paths in function space and the monotonicity of the network - providing sufficient conditions for the MLI property under mean squared error. While the MLI property holds under various settings (e.g. network architectures and learning problems), we show in practice that networks violating the MLI property can be produced systematically, by encouraging the weights to move far from initialization. The MLI property raises important questions about the loss landscape geometry of neural networks and highlights the need to further study their global properties.
翻訳日:2021-04-23 14:10:24 公開日:2021-04-22
# So-ViT:視覚変換のためのマインドビジュアルトークン

So-ViT: Mind Visual Tokens for Vision Transformer ( http://arxiv.org/abs/2104.10935v1 )

ライセンス: Link先を確認
Jiangtao Xie, Ruiren Zeng, Qilong Wang, Ziqi Zhou, Peihua Li(参考訳) 近年の視覚変換器(ViT)アーキテクチャは、バックボーンが純粋に自己認識機構から構成されており、視覚分類において非常に有望な性能を実現している。 しかし、オリジナルのvitの高性能は、超大規模データセットを使った事前トレーニングに大きく依存しており、スクラッチからトレーニングするとimagenet-1kにかなり劣る。 本稿では,視覚的トークンの役割を慎重に検討し,この問題への取り組みを行う。 まず、分類ヘッドの場合、既存のViTはクラストークンのみを使用し、ハイレベルなビジュアルトークンに固有のリッチなセマンティック情報を完全に無視する。 そこで本研究では,視覚トークンの2次相互分散をクラストークンと組み合わせ,最終分類を行う新しい分類パラダイムを提案する。 一方, 2次プール化を改善するために, 高速特異値パワー正規化を提案する。 第2に、オリジナルのViTは、固定サイズのイメージパッチの単純埋め込みを採用し、翻訳の等価性と局所性をモデル化する能力に欠ける。 この問題を軽減するために,視覚トークン埋め込みのためのオフ・ザ・棚畳み込みに基づく軽量階層モジュールを開発した。 提案アーキテクチャはSo-ViTと呼ばれ,ImageNet-1K上で徹底的に評価されている。 その結果、我々のモデルは、スクラッチからトレーニングされた場合、競合するViTモデルよりも優れ、最先端のCNNモデルと同等かそれ以上であることがわかった。 コードはhttps://github.com/j iangtaoxie/So-ViTで入手できる。

Recently the vision transformer (ViT) architecture, where the backbone purely consists of self-attention mechanism, has achieved very promising performance in visual classification. However, the high performance of the original ViT heavily depends on pretraining using ultra large-scale datasets, and it significantly underperforms on ImageNet-1K if trained from scratch. This paper makes the efforts toward addressing this problem, by carefully considering the role of visual tokens. First, for classification head, existing ViT only exploits class token while entirely neglecting rich semantic information inherent in high-level visual tokens. Therefore, we propose a new classification paradigm, where the second-order, cross-covariance pooling of visual tokens is combined with class token for final classification. Meanwhile, a fast singular value power normalization is proposed for improving the second-order pooling. Second, the original ViT employs the naive embedding of fixed-size image patches, lacking the ability to model translation equivariance and locality. To alleviate this problem, we develop a light-weight, hierarchical module based on off-the-shelf convolutions for visual token embedding. The proposed architecture, which we call So-ViT, is thoroughly evaluated on ImageNet-1K. The results show our models, when trained from scratch, outperform the competing ViT variants, while being on par with or better than state-of-the-art CNN models. Code is available at https://github.com/j iangtaoxie/So-ViT
翻訳日:2021-04-23 14:10:06 公開日:2021-04-22
# 合成コントラスト学習による音声視覚知識の蒸留

Distilling Audio-Visual Knowledge by Compositional Contrastive Learning ( http://arxiv.org/abs/2104.10955v1 )

ライセンス: Link先を確認
Yanbei Chen, Yongqin Xian, A. Sophia Koepke, Ying Shan, Zeynep Akata(参考訳) マルチモーダルな手掛かり(例えば、)にアクセスできること 視覚とオーディオ) 認知的なタスクを、単一のモダリティから学ぶよりも速く行うことができる。 本研究では,これらのデータモダリティが意味的に関連付けられなくても,異質なモダリティにまたがる知識の伝達を提案する。 異なるモーダルの表現を直接整列するのではなく、よりリッチなマルチモーダル知識を明らかにするために、モーダル間のオーディオ、画像、ビデオ表現を構成する。 本研究の主な目的は,モーダル間のセマンティックギャップを埋めてタスク関連セマンティクスを捉え,コンストラクショナルコントラスト学習によってモーダル間の表現をまとめることを容易にするコンストラクショナル埋め込みを学習することである。 我々は,UCF101,ActivityNet, VGGSoundの3つのビデオデータセットに対して,新しい総合的マルチモーダル蒸留ベンチマークを構築した。 さらに,本モデルは,映像表現学習を改善するために視聴覚知識の伝達において,既存の様々な知識蒸留法を著しく上回っていることを示す。 https://github.com/y anbeic/ccl.com/。

Having access to multi-modal cues (e.g. vision and audio) empowers some cognitive tasks to be done faster compared to learning from a single modality. In this work, we propose to transfer knowledge across heterogeneous modalities, even though these data modalities may not be semantically correlated. Rather than directly aligning the representations of different modalities, we compose audio, image, and video representations across modalities to uncover richer multi-modal knowledge. Our main idea is to learn a compositional embedding that closes the cross-modal semantic gap and captures the task-relevant semantics, which facilitates pulling together representations across modalities by compositional contrastive learning. We establish a new, comprehensive multi-modal distillation benchmark on three video datasets: UCF101, ActivityNet, and VGGSound. Moreover, we demonstrate that our model significantly outperforms a variety of existing knowledge distillation methods in transferring audio-visual knowledge to improve video representation learning. Code is released here: https://github.com/y anbeic/CCL.
翻訳日:2021-04-23 14:09:43 公開日:2021-04-22
# Choquet積分を用いた神経誘発エッジ機能融合

Neuro-inspired edge feature fusion using Choquet integrals ( http://arxiv.org/abs/2104.10984v1 )

ライセンス: Link先を確認
Cedric Marco-Detchart, Giancarlo Lucca, Carlos Lopez-Molina, Laura De Miguel, Gra\c{c}aliz Pereira Dimuro, Humberto Bustince(参考訳) ヒトの視覚系は、視覚野で初期視覚手がかり(またはプリミティブ)が融合して複雑な形状や記述子を構成する階層的情報処理を行うことが知られている。 レンズの適応や特徴検出など、プロセスに関するさまざまな側面が広く研究されているが、他の部分(機能融合など)は、ほとんど無視されている。 本研究では,コッケ積分の一般化を用いた初期視覚プリミティブの融合と,近年広く研究されている新しいアグリゲーション演算子について詳述する。 そこで我々は,初期視覚野のニューロンの挙動をモデル化するために,チョケ積分の一般化を用いて初等エッジキューを巧みに融合させる手法を提案する。 提案手法は,最先端境界検出データセットの試験に性能を付加する,フルフレームエッジ検出アルゴリズムを実現する。

It is known that the human visual system performs a hierarchical information process in which early vision cues (or primitives) are fused in the visual cortex to compose complex shapes and descriptors. While different aspects of the process have been extensively studied, as the lens adaptation or the feature detection, some other,as the feature fusion, have been mostly left aside. In this work we elaborate on the fusion of early vision primitives using generalizations of the Choquet integral, and novel aggregation operators that have been extensively studied in recent years. We propose to use generalizations of the Choquet integral to sensibly fuse elementary edge cues, in an attempt to model the behaviour of neurons in the early visual cortex. Our proposal leads to a full-framed edge detection algorithm, whose performance is put to the test in state-of-the-art boundary detection datasets.
翻訳日:2021-04-23 14:09:23 公開日:2021-04-22
# Pareto-Efficient Spacesのためのネットワーク空間探索

Network Space Search for Pareto-Efficient Spaces ( http://arxiv.org/abs/2104.11014v1 )

ライセンス: Link先を確認
Min-Fong Hong, Hao-Yun Chen, Min-Hung Chen, Yu-Syuan Xu, Hsien-Kai Kuo, Yi-Min Tsai, Hung-Jen Chen, Kevin Jou(参考訳) ネットワーク空間は、手作りのネットワーク設計やニューラルアーキテクチャサーチ(NAS)の検索空間の定義において重要な要素として知られている。 しかし、効果的な空間には膨大な事前知識や手作業が必要であり、効率を意識したアーキテクチャを発見するには追加の制約が必要である。 本稿では,ネットワーク空間探索(NSS)という新たな課題を,単一のアーキテクチャではなく,好ましいネットワーク空間の探索として定義する。 そこで本研究では,効率の良いネットワーク空間を自動的に探索するnss手法を提案する。 Elite Spacesという名前のネットワーク空間は、人間の専門知識が最小限に抑えられたExpanded Search Spaceから発見された。 パレート効率の良いエリート空間は、様々な複雑さの制約の下でパレートフロントと整列しており、さらにNAS探索空間として機能し、微分可能なNASアプローチ(例)の恩恵を受けることができる。 CIFAR-100では、平均2.3%のエラー率と3.7%がベースラインよりも目標に近く、十分なネットワークを見つけるのに必要なサンプルが約90%少ない)。 さらに,今後の未探索空間において優れた空間を探索することが可能であり,ネットワーク空間の自動探索において大きな可能性を秘めている。

Network spaces have been known as a critical factor in both handcrafted network designs or defining search spaces for Neural Architecture Search (NAS). However, an effective space involves tremendous prior knowledge and/or manual effort, and additional constraints are required to discover efficiency-aware architectures. In this paper, we define a new problem, Network Space Search (NSS), as searching for favorable network spaces instead of a single architecture. We propose an NSS method to directly search for efficient-aware network spaces automatically, reducing the manual effort and immense cost in discovering satisfactory ones. The resultant network spaces, named Elite Spaces, are discovered from Expanded Search Space with minimal human expertise imposed. The Pareto-efficient Elite Spaces are aligned with the Pareto front under various complexity constraints and can be further served as NAS search spaces, benefiting differentiable NAS approaches (e.g. In CIFAR-100, an averagely 2.3% lower error rate and 3.7% closer to target constraint than the baseline with around 90% fewer samples required to find satisfactory networks). Moreover, our NSS approach is capable of searching for superior spaces in future unexplored spaces, revealing great potential in searching for network spaces automatically.
翻訳日:2021-04-23 14:09:08 公開日:2021-04-22
# スケルトンに基づく行動認識のための階層的成長グリッドネットワーク

Hierarchical growing grid networks for skeleton based action recognition ( http://arxiv.org/abs/2104.11165v1 )

ライセンス: Link先を確認
Zahra Gharaee(参考訳) 本稿では,格子型ニューラルネットワークの層を応用して,行動認識のための新しい認知アーキテクチャを開発し,それらの層を用いて,その表現構造を自動配置する。 成長段階における神経地図の拡張に加えて、システムは入力空間の事前知識を提供し、学習相の処理速度を増加させる。 成長するグリッドネットワークの2つの層とは別に、アーキテクチャは前処理層、順序付けられたベクトル表現層、および1層の教師付きニューラルネットワークで構成されている。 これらのレイヤーは、アクション認識問題を解決するために設計されている。 第1層成長格子は、人間の行動の入力データを受信し、ニューラルネットワークは、訓練された地図の誘発活性化を接続することにより、各アクションシーケンスを表すアクションパターンベクトルを生成する。 次に、パターンベクトルを順序付きベクトル表現層に送信し、第2層成長格子のキーアクティベーションの時間不変な入力ベクトルを構築する。 第2層成長グリッドは、入力ベクトルを対応するアクションクラスタ/サブクラスタに分類し、最後に1層教師付きニューラルネットワークは、型付きクラスタにアクションラベルを付ける。 異なるアクションデータセットを用いた3つの実験は、システムが素早く効率的にアクションを分類できることを示す。 成長するグリッドアーキテクチャの性能は、自己組織マップに基づくシステムの結果と組み合わせられ、成長するグリッドアーキテクチャは、アクション認識タスクにおいて著しく優れていることを示す。

In this paper, a novel cognitive architecture for action recognition is developed by applying layers of growing grid neural networks.Using these layers makes the system capable of automatically arranging its representational structure. In addition to the expansion of the neural map during the growth phase, the system is provided with a prior knowledge of the input space, which increases the processing speed of the learning phase. Apart from two layers of growing grid networks the architecture is composed of a preprocessing layer, an ordered vector representation layer and a one-layer supervised neural network. These layers are designed to solve the action recognition problem. The first-layer growing grid receives the input data of human actions and the neural map generates an action pattern vector representing each action sequence by connecting the elicited activation of the trained map. The pattern vectors are then sent to the ordered vector representation layer to build the time-invariant input vectors of key activations for the second-layer growing grid. The second-layer growing grid categorizes the input vectors to the corresponding action clusters/sub-cluster s and finally the one-layer supervised neural network labels the shaped clusters with action labels. Three experiments using different datasets of actions show that the system is capable of learning to categorize the actions quickly and efficiently. The performance of the growing grid architecture is com-pared with the results from a system based on Self-Organizing Maps, showing that the growing grid architecture performs significantly superior on the action recognition tasks.
翻訳日:2021-04-23 14:08:47 公開日:2021-04-22
# manipulathor: ビジュアルオブジェクト操作のためのフレームワーク

ManipulaTHOR: A Framework for Visual Object Manipulation ( http://arxiv.org/abs/2104.11213v1 )

ライセンス: Link先を確認
Kiana Ehsani, Winson Han, Alvaro Herrasti, Eli VanderBilt, Luca Weihs, Eric Kolve, Aniruddha Kembhavi, Roozbeh Mottaghi(参考訳) Embodied AIのドメインは、特に環境内のエージェントのナビゲートにおいて、非常に進歩している。 これらの初期の成功は、エージェントが環境内のオブジェクトと活発に対話する必要があるタスクに取り組むための、コミュニティのためのビルディングブロックを形成しました。 オブジェクト操作はロボットコミュニティ内で確立された研究領域であり、特に視覚的に豊かで複雑なシーンを含む見過ごされた現実的なセットアップを扱う際には、マニピュレータの動き、把握、長期水平計画、(テーブルトップ操作とは対照的に)移動エージェントを使った操作、そして見えない環境やオブジェクトへの一般化など、いくつかの課題を提起している。 我々は、物理対応で視覚的にリッチなAI2-THORフレームワーク上に構築されたオブジェクト操作のためのフレームワークを提案し、ArmPointNavとして知られるEmbodied AIコミュニティに新しい課題を提示する。 このタスクは、一般的なポイントナビゲーションタスクをオブジェクト操作に拡張し、3次元障害物回避、オクルージョンの存在下でオブジェクトを操作すること、長期計画を必要とする複数オブジェクト操作を含む新しい課題を提供する。 PointNavの課題で成功した一般的な学習パラダイムは、有望だが、改善の余地は大きい。

The domain of Embodied AI has recently witnessed substantial progress, particularly in navigating agents within their environments. These early successes have laid the building blocks for the community to tackle tasks that require agents to actively interact with objects in their environment. Object manipulation is an established research domain within the robotics community and poses several challenges including manipulator motion, grasping and long-horizon planning, particularly when dealing with oft-overlooked practical setups involving visually rich and complex scenes, manipulation using mobile agents (as opposed to tabletop manipulation), and generalization to unseen environments and objects. We propose a framework for object manipulation built upon the physics-enabled, visually rich AI2-THOR framework and present a new challenge to the Embodied AI community known as ArmPointNav. This task extends the popular point navigation task to object manipulation and offers new challenges including 3D obstacle avoidance, manipulating objects in the presence of occlusion, and multi-object manipulation that necessitates long term planning. Popular learning paradigms that are successful on PointNav challenges show promise, but leave a large room for improvement.
翻訳日:2021-04-23 14:08:23 公開日:2021-04-22
# マルチスケール視覚トランスフォーマー

Multiscale Vision Transformers ( http://arxiv.org/abs/2104.11227v1 )

ライセンス: Link先を確認
Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer(参考訳) 本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。 マルチスケールトランスフォーマはいくつかのチャンネルレゾリューションスケールステージを持つ。 入力解像度と小さなチャネル次元から始まり、ステージは空間分解能を低下させながらチャネル容量を階層的に拡大する。 これにより、初期層が空間解像度で動作し、単純な低レベルな視覚情報をモデル化し、より深い層が空間的に粗いが、複雑で高次元的な特徴を持つマルチスケールな特徴ピラミッドが作られる。 本稿では,映像認識タスクにおける視覚信号の高密度な性質をモデル化するための基本的なアーキテクチャ的前提として,大規模外的事前学習に依存し,計算やパラメータにおいて5~10倍のコストがかかる並列視覚変換器を性能的に評価する。 さらに、時間次元を除去し、視覚変換器の先行作業に優れる画像分類に我々のモデルを適用する。 https://github.com/f acebookresearch/slow fast

We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10x more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https://github.com/f acebookresearch/Slow Fast
翻訳日:2021-04-23 14:08:01 公開日:2021-04-22
# VATT: 生ビデオ, 音声, テキストからのマルチモーダル自己監督学習用トランスフォーマ

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text ( http://arxiv.org/abs/2104.11178v1 )

ライセンス: Link先を確認
Hassan Akbari, Linagzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, Boqing Gong(参考訳) 本稿では,畳み込みフリートランスフォーマーを用いてラベルなしデータからマルチモーダル表現を学ぶためのフレームワークを提案する。 具体的には、VATT(Video-Audio-Tex t Transformer)は生の信号を入力として取り出し、様々な下流タスクに十分なリッチなマルチモーダル表現を抽出する。 マルチモーダルなコントラスト損失を用いて,vattのエンドツーエンドをスクラッチからトレーニングし,映像動作認識,音声イベント分類,画像分類,テキストからビデオへの検索といった下流タスクによってその性能を評価する。 さらに,3つのモード間の重みの共有により,モダリティ非依存なシングルバックボーントランスについて検討した。 畳み込みのないVATTは、下流タスクにおいて最先端のConvNetベースのアーキテクチャよりも優れていることを示す。 特にVATTのビジョントランスフォーマーは、Kineetics-400で82.1%、Kineetics-600で83.6%、Moments in Timeで41.1%というトップ1の精度を達成した。 画像分類への転送はImageNetの78.7%の精度で、同じトランスフォーマーをスクラッチからトレーニングすることで64.7%の精度を実現した。 vattのオーディオトランスフォーマーはまた、事前トレーニングなしでオーディオセットの39.4%のマップを達成することで、波形ベースのオーディオイベント認識の新しい記録を設定する。

We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations that are rich enough to benefit a variety of downstream tasks. We train VATT end-to-end from scratch using multimodal contrastive losses and evaluate its performance by the downstream tasks of video action recognition, audio event classification, image classification, and text-to-video retrieval. Furthermore, we study a modality-agnostic single-backbone Transformer by sharing weights among the three modalities. We show that the convolution-free VATT outperforms state-of-the-art ConvNet-based architectures in the downstream tasks. Especially, VATT's vision Transformer achieves the top-1 accuracy of 82.1% on Kinetics-400, 83.6% on Kinetics-600,and 41.1% on Moments in Time, new records while avoiding supervised pre-training. Transferring to image classification leads to 78.7% top-1 accuracy on ImageNet compared to 64.7% by training the same Transformer from scratch, showing the generalizability of our model despite the domain gap between videos and images. VATT's audio Transformer also sets a new record on waveform-based audio event recognition by achieving the mAP of 39.4% on AudioSet without any supervised pre-training.
翻訳日:2021-04-23 14:07:26 公開日:2021-04-22
# 大腸内視鏡ポリープ検出と分類:データセット作成と比較評価

Colonoscopy Polyp Detection and Classification: Dataset Creation and Comparative Evaluations ( http://arxiv.org/abs/2104.10824v1 )

ライセンス: Link先を確認
Kaidong Li, Mohammad I. Fathan, Krushi Patel, Tianxiao Zhang, Cuncong Zhong, Ajay Bansal, Amit Rastogi, Jean S. Wang, Guanghui Wang(参考訳) 大腸癌 (crc) は高い死亡率を持つ最も一般的ながんの1つである。 大腸内視鏡はCRCスクリーニングの望ましい方法であり、CRC死亡率の低下に有効であることが証明されている。 これにより、信頼性の高いコンピュータ支援ポリープ検出・分類システムにより、大腸内視鏡の有用性が著しく向上する。 本稿では,さまざまなソースから収集した内視鏡的データセットを作成し,経験豊富な消化器科医の助けを借りて,ポリプの位置と分類結果の基礎的真実を注釈する。 このデータセットは、polyp分類のための機械学習モデルをトレーニングし、評価するためのベンチマークプラットフォームとして機能する。 また、8つの最先端のディープラーニングに基づくオブジェクト検出モデルの性能を比較した。 結果は,CRCスクリーニングにおいて深部CNNモデルが有望であることを示す。 この研究は、将来のポリプの検出と分類の研究のベースラインとなる。

Colorectal cancer (CRC) is one of the most common types of cancer with a high mortality rate. Colonoscopy is the preferred procedure for CRC screening and has proven to be effective in reducing CRC mortality. Thus, a reliable computer-aided polyp detection and classification system can significantly increase the effectiveness of colonoscopy. In this paper, we create an endoscopic dataset collected from various sources and annotate the ground truth of polyp location and classification results with the help of experienced gastroenterologists. The dataset can serve as a benchmark platform to train and evaluate the machine learning models for polyp classification. We have also compared the performance of eight state-of-the-art deep learning-based object detection models. The results demonstrate that deep CNN models are promising in CRC screening. This work can serve as a baseline for future research in polyp detection and classification.
翻訳日:2021-04-23 14:06:58 公開日:2021-04-22
# 深層学習型検出器のための学習伝達可能な3次元逆クローク

Learning Transferable 3D Adversarial Cloaks for Deep Trained Detectors ( http://arxiv.org/abs/2104.11101v1 )

ライセンス: Link先を確認
Arman Maesumi and Mingkang Zhu and Yi Wang and Tianlong Chen and Zhangyang Wang and Chandrajit Bajaj(参考訳) 本稿では,人間の3dメッシュ上の攻撃パッチを訓練するパッチベースの攻撃パイプラインを提案する。 私たちは、参照する人間のメッシュで三角形の顔をサンプリングし、それらの顔に逆向きのテクスチャアトラスを作成します。 敵のテクスチャは、さまざまなポーズで人間のメッシュに転送され、現実世界の背景イメージのコレクションにレンダリングされます。 従来のパッチベースの敵攻撃とは対照的に、この新たな攻撃は3Dオブジェクトの世界にマッピングされ、異なるレンダリングによってテクスチャアトラスにバックプロパゲーションされる。 このように、対向パッチは実世界の材料と整合した変形の下で訓練される。 さらに、既存の敵パッチと異なり、我々の新しい3D対向パッチは、さまざまなビューの下で、最先端のディープオブジェクト検出器をしっかりと騙すことで、物理的な世界で永続的に強い攻撃スキームにつながる可能性がある。

This paper presents a novel patch-based adversarial attack pipeline that trains adversarial patches on 3D human meshes. We sample triangular faces on a reference human mesh, and create an adversarial texture atlas over those faces. The adversarial texture is transferred to human meshes in various poses, which are rendered onto a collection of real-world background images. Contrary to the traditional patch-based adversarial attacks, where prior work attempts to fool trained object detectors using appended adversarial patches, this new form of attack is mapped into the 3D object world and back-propagated to the texture atlas through differentiable rendering. As such, the adversarial patch is trained under deformation consistent with real-world materials. In addition, and unlike existing adversarial patches, our new 3D adversarial patch is shown to fool state-of-the-art deep object detectors robustly under varying views, potentially leading to an attacking scheme that is persistently strong in the physical world.
翻訳日:2021-04-23 14:06:46 公開日:2021-04-22
# 対話型AIのための事前学習言語モデルに関する短い調査-NLPの新しい展開

A Short Survey of Pre-trained Language Models for Conversational AI-A NewAge in NLP ( http://arxiv.org/abs/2104.10810v1 )

ライセンス: Link先を確認
Munazza Zaib and Quan Z. Sheng and Wei Emma Zhang(参考訳) 人間と自然にコミュニケーションできる対話システムを構築することは、エージェントベースのコンピューティングでは難しいが興味深い問題である。 この領域の急速な成長は、これらのシステムが、不十分なタスク固有のデータセットから構文、文法、意思決定、推論を学ぶことを期待されているため、データ不足の長期的問題によって妨げられる。 最近導入された事前学習言語モデルは、データ不足の問題に対処する可能性があり、文脈化された単語の埋め込みを生成することで大きな利点をもたらす。 これらのモデルは、NLPにおけるImageNetに匹敵すると考えられており、階層関係、長期依存、感情など、さまざまな言語の側面を捉えている。 本稿では,事前学習された言語モデルの分野における最近の進歩について述べる。 また、これらの言語モデルの強みが、より魅力的で雄弁な会話エージェントの設計にどのように活用できるかを慎重に検討する。 そこで本研究では,これらの事前学習モデルが対話システムに関係する課題を克服できるかどうか,それらの課題を克服するためにアーキテクチャをどのように活用できるかを確かめる。 対話システムの分野でのオープンチャレンジも検討されている。

Building a dialogue system that can communicate naturally with humans is a challenging yet interesting problem of agent-based computing. The rapid growth in this area is usually hindered by the long-standing problem of data scarcity as these systems are expected to learn syntax, grammar, decision making, and reasoning from insufficient amounts of task-specific dataset. The recently introduced pre-trained language models have the potential to address the issue of data scarcity and bring considerable advantages by generating contextualized word embeddings. These models are considered counterpart of ImageNet in NLP and have demonstrated to capture different facets of language such as hierarchical relations, long-term dependency, and sentiment. In this short survey paper, we discuss the recent progress made in the field of pre-trained language models. We also deliberate that how the strengths of these language models can be leveraged in designing more engaging and more eloquent conversational agents. This paper, therefore, intends to establish whether these pre-trained models can overcome the challenges pertinent to dialogue systems, and how their architecture could be exploited in order to overcome these challenges. Open challenges in the field of dialogue systems have also been deliberated.
翻訳日:2021-04-23 14:06:02 公開日:2021-04-22
# 分割線形ホモトピー継続を用いたロバスト回帰・異常検出のための条件付き選択的推論

Conditional Selective Inference for Robust Regression and Outlier Detection using Piecewise-Linear Homotopy Continuation ( http://arxiv.org/abs/2104.10840v1 )

ライセンス: Link先を確認
Toshiaki Tsukurimichi, Yu Inatsu, Vo Nguyen Le Duy, Ichiro Takeuchi(参考訳) 雑音環境下の実データ解析では,まずロバストな手法を用いて異常値を特定し,その後異常値除去後のさらなる解析を行うことが一般的である。 本稿では,外乱が除去された後に推定されるモデルの統計的推測を,選択推論(SI)問題と解釈できると考えている。 条件付きSIフレームワークを使用するには、ロバストなメソッドがアウトリーチを識別する方法のイベントを特徴付ける必要がある。 残念ながら、選択イベントが線形/二次制約によって表現できる場合に適用できるため、既存のメソッドはここで直接使用することができない。 本稿では,ホモトピー手法を用いて,一般的なロバスト回帰に対する条件付きSI法を提案する。 提案した条件付きSI法は, 広範囲の頑健な回帰法と外れ値検出法に適用可能であり, 合成データと実データの両方において良好な実験性能を有することを示す。

In practical data analysis under noisy environment, it is common to first use robust methods to identify outliers, and then to conduct further analysis after removing the outliers. In this paper, we consider statistical inference of the model estimated after outliers are removed, which can be interpreted as a selective inference (SI) problem. To use conditional SI framework, it is necessary to characterize the events of how the robust method identifies outliers. Unfortunately, the existing methods cannot be directly used here because they are applicable to the case where the selection events can be represented by linear/quadratic constraints. In this paper, we propose a conditional SI method for popular robust regressions by using homotopy method. We show that the proposed conditional SI method is applicable to a wide class of robust regression and outlier detection methods and has good empirical performance on both synthetic data and real data experiments.
翻訳日:2021-04-23 14:05:29 公開日:2021-04-22
# 深層学習を用いたリモートセンシングrgb画像からのハイプマップ予測のためのシャドウに着目して

Focusing on Shadows for Predicting Heightmaps from Single Remotely Sensed RGB Images with Deep Learning ( http://arxiv.org/abs/2104.10874v1 )

ライセンス: Link先を確認
Savvas Karatsiolis and Andreas Kamilaris(参考訳) 単一のリモートセンシング画像における建物と植生の高さマップの推定は難しい課題である。 この問題に対する効果的な解決策は、遠隔センシング分野における空中画像の3次元情報を必要とする複雑で要求の多い問題を解くためのステップストーンを構成することができる。 本稿では,リモートセンシング画像のシャドーマップを利用したタスク中心のDeep Learning(DL)モデルを提案する。 シャドウは効率的に計算され、計算の複雑さをあまり増やさない。 モデルは、空中画像とライダーの測定で訓練され、タスクにおいて優れたパフォーマンスを達成する。 我々は、英国マンチェスターの広範囲をカバーするデータセットと、2018年のIEEE GRSS Data Fusion Contest Lidarデータセットでモデルを検証した。 本研究は,提案するDLアーキテクチャと影情報をモデルに注入する手法が,単一リモートセンシング画像の高度マップ推定タスクの改善に有用であることを示唆している。

Estimating the heightmaps of buildings and vegetation in single remotely sensed images is a challenging problem. Effective solutions to this problem can comprise the stepping stone for solving complex and demanding problems that require 3D information of aerial imagery in the remote sensing discipline, which might be expensive or not feasible to require. We propose a task-focused Deep Learning (DL) model that takes advantage of the shadow map of a remotely sensed image to calculate its heightmap. The shadow is computed efficiently and does not add significant computation complexity. The model is trained with aerial images and their Lidar measurements, achieving superior performance on the task. We validate the model with a dataset covering a large area of Manchester, UK, as well as the 2018 IEEE GRSS Data Fusion Contest Lidar dataset. Our work suggests that the proposed DL architecture and the technique of injecting shadows information into the model are valuable for improving the heightmap estimation task for single remotely sensed imagery.
翻訳日:2021-04-23 14:05:12 公開日:2021-04-22
# ヨーロッパ上空10mの大陸規模の土地被覆マッピング(ELC10)

Continental-scale land cover mapping at 10 m resolution over Europe (ELC10) ( http://arxiv.org/abs/2104.10922v1 )

ライセンス: Link先を確認
Zander S. Venter, Markus A.K. Sydenham(参考訳) CORINEのような広く使われているヨーロッパの土地被覆地図は、中程度の空間解像度 (100 m) で作成され、複雑なワークフローを持つ多様なデータに依存している。 衛星駆動機械学習のワークフローに基づいて,欧州の高解像度 (10 m) ランドカバーマップ (ELC10) を提案する。 LUCAS(Land Use/Cover Area frame Survey)データセットから,ランダムフォレスト分類モデルを70K地点で訓練した。 Google Earth Engineのクラウドコンピューティング環境において、ECC10マップは近似から生成される。 700tbのセンチネル画像が得られた。 調査ユーザー1名から4日。 この地図は8つの土地被覆クラスで90%の精度を達成し、実際の値の3.9% (r2 = 0.83) 以内の統計単位土地被覆率を計算できた。 CORINE (100 m) や S2GLC や From-GLC10 など 10 m の陸地カバーマップよりも高い。 その結果,センチネル-2の大気補正とセンチネル-1画像のスペックルフィルタリングは,分類精度の向上にほとんど影響を与えなかった(<1%)。 しかし、光学画像とレーダー画像の組み合わせにより、センチネル2単独で3%、センチネル1単独で10%の精度が向上した。 LUCAS点のコペルニクス加群による均質多角形への変換は精度を1%向上させ、ランダムフォレストは汚染された訓練データに対して堅牢であることを示した。 さらに、5Kと50KのLUCASポイントの違いはわずか3%(86対89%)である。 10mの解像度で、ECC10マップは、生け垣や庭園のような詳細な景観の特徴を区別することができ、都市部レベルでの航空統計と資産レベルの環境介入(例)の監視の可能性を秘めている。 植樹)。

Widely used European land cover maps such as CORINE are produced at medium spatial resolutions (100 m) and rely on diverse data with complex workflows requiring significant institutional capacity. We present a high resolution (10 m) land cover map (ELC10) of Europe based on a satellite-driven machine learning workflow that is annually updatable. A Random Forest classification model was trained on 70K ground-truth points from the LUCAS (Land Use/Cover Area frame Survey) dataset. Within the Google Earth Engine cloud computing environment, the ELC10 map can be generated from approx. 700 TB of Sentinel imagery within approx. 4 days from a single research user account. The map achieved an overall accuracy of 90% across 8 land cover classes and could account for statistical unit land cover proportions within 3.9% (R2 = 0.83) of the actual value. These accuracies are higher than that of CORINE (100 m) and other 10-m land cover maps including S2GLC and FROM-GLC10. We found that atmospheric correction of Sentinel-2 and speckle filtering of Sentinel-1 imagery had minimal effect on enhancing classification accuracy (< 1%). However, combining optical and radar imagery increased accuracy by 3% compared to Sentinel-2 alone and by 10% compared to Sentinel-1 alone. The conversion of LUCAS points into homogenous polygons under the Copernicus module increased accuracy by <1%, revealing that Random Forests are robust against contaminated training data. Furthermore, the model requires very little training data to achieve moderate accuracies - the difference between 5K and 50K LUCAS points is only 3% (86 vs 89%). At 10-m resolution, the ELC10 map can distinguish detailed landscape features like hedgerows and gardens, and therefore holds potential for aerial statistics at the city borough level and monitoring property-level environmental interventions (e.g. tree planting).
翻訳日:2021-04-23 14:04:53 公開日:2021-04-22
# fcos3d:完全畳み込み型単眼3次元物体検出

FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection ( http://arxiv.org/abs/2104.10956v1 )

ライセンス: Link先を確認
Tai Wang, Xinge Zhu, Jiangmiao Pang, Dahua Lin(参考訳) 単眼3次元物体検出は、低コストの利点を考慮した自動運転において重要な課題である。 深度情報の欠如を主な要因として, 従来の2Dケースと比較して, より困難である。 2D検出の最近の進歩は、この問題をよりよく解決する機会を提供する。 しかし、この3Dタスクで一般的な2D検出器を動作させることは自明ではない。 本稿では, この問題を, 完全畳み込み型単段検出器を用いた手法を用いて検討し, 汎用フレームワークFCOS3Dを提案する。 具体的には、一般的に定義された7-DoF 3Dターゲットを画像領域に変換し、2Dおよび3D属性として分離する。 対象物は2次元のスケールを考慮して異なる特徴レベルに分散され、トレーニング手順として投影された3D中心にのみ割り当てられる。 さらに、中心性は3D中心に基づく2次元グアシアン分布で再定義され、3D目標の定式化に適合する。 これらすべてが、このフレームワークをシンプルで効果的にし、2D検出や2D-3D対応を排除します。 われわれのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジにおける視覚のみの手法のうち、第1位を達成している。 コードとモデルはhttps://github.com/o pen-mmlab/mmdetectio n3dでリリースされている。

Monocular 3D object detection is an important task for autonomous driving considering its advantage of low cost. It is much more challenging compared to conventional 2D case due to its inherent ill-posed property, which is mainly reflected on the lack of depth information. Recent progress on 2D detection offers opportunities to better solving this problem. However, it is non-trivial to make a general adapted 2D detector work in this 3D task. In this technical report, we study this problem with a practice built on fully convolutional single-stage detector and propose a general framework FCOS3D. Specifically, we first transform the commonly defined 7-DoF 3D targets to image domain and decouple it as 2D and 3D attributes. Then the objects are distributed to different feature levels with the consideration of their 2D scales and assigned only according to the projected 3D-center for training procedure. Furthermore, the center-ness is redefined with a 2D Guassian distribution based on the 3D-center to fit the 3D target formulation. All of these make this framework simple yet effective, getting rid of any 2D detection or 2D-3D correspondence priors. Our solution achieves 1st place out of all the vision-only methods in the nuScenes 3D detection challenge of NeurIPS 2020. Code and models are released at https://github.com/o pen-mmlab/mmdetectio n3d.
翻訳日:2021-04-23 14:04:04 公開日:2021-04-22
# 知識グラフ埋め込みのための効率的な関係認識スコーリング関数探索

Efficient Relation-aware Scoring Function Search for Knowledge Graph Embedding ( http://arxiv.org/abs/2104.10880v1 )

ライセンス: Link先を確認
Shimin Di, Quanming Yao, Yongqi Zhang, Lei Chen(参考訳) 知識グラフ(kgs)における三重項の可算性を測定するスコアリング関数は、kg埋め込みの優れた性能を保証するための鍵であり、その設計は文献における重要な問題でもある。 機械学習(AutoML)技術は、最近KGに導入され、タスク認識スコアリング関数を設計し、KG埋め込みにおける最先端のパフォーマンスを実現する。 しかし、探索されたスコアリング関数の有効性は依然として望ましくない。 本稿では,既存のスコアリング関数が異なる意味パターンで異なるパフォーマンスを示すことを観察し,関係認識スコアリング関数を探索することで,それらの意味を探索する動機付けを行う。 しかし、リレーション・アウェア検索は、前よりはるかに大きな検索空間を必要とする。 そこで我々は,空間をスーパーネットとして符号化し,スーパーネットをワンショットで探索する効率的な代替最小化アルゴリズムを提案する。 最後に, 提案手法は, 評価関数を効率よく探索し, 組込み性能が最先端の手法よりも優れていることを示す。

The scoring function, which measures the plausibility of triplets in knowledge graphs (KGs), is the key to ensure the excellent performance of KG embedding, and its design is also an important problem in the literature. Automated machine learning (AutoML) techniques have recently been introduced into KG to design task-aware scoring functions, which achieve state-of-the-art performance in KG embedding. However, the effectiveness of searched scoring functions is still not as good as desired. In this paper, observing that existing scoring functions can exhibit distinct performance on different semantic patterns, we are motivated to explore such semantics by searching relation-aware scoring functions. But the relation-aware search requires a much larger search space than the previous one. Hence, we propose to encode the space as a supernet and propose an efficient alternative minimization algorithm to search through the supernet in a one-shot manner. Finally, experimental results on benchmark datasets demonstrate that the proposed method can efficiently search relation-aware scoring functions, and achieve better embedding performance than state-of-the-art methods.
翻訳日:2021-04-23 14:03:43 公開日:2021-04-22
# XAI-N:エキスパートポリシーと決定木を用いたセンサ型ロボットナビゲーション

XAI-N: Sensor-based Robot Navigation using Expert Policies and Decision Trees ( http://arxiv.org/abs/2104.10818v1 )

ライセンス: Link先を確認
Aaron M. Roth, Jing Liang, and Dinesh Manocha(参考訳) 本稿では,ロボットの障害物や目標の移動を伴う密集した動的環境での衝突のない軌道を計算するためのセンサベース学習ナビゲーションアルゴリズムを提案する。 我々のアプローチは、sim2realパラダイムを用いて訓練された深層強化学習に基づくエキスパートポリシーを使用する。 信頼性を高め,専門家政策の失敗事例を処理するため,政策抽出手法と組み合わせて,結果の方針を決定木形式に変換する。 得られた決定木は、ポリシーの分析と修正に使用し、滑らかさ、振動の頻度、固定化の頻度、目標の妨害など、ナビゲーションメトリクスのパフォーマンスを向上させる特性を有する。 我々は、深層学習の学習力とドメイン固有のアルゴリズムの制御を組み合わせることで、これらの不完全性に対応するためにポリシーを変更することができる。 シミュレーション環境でのアルゴリズムの利点を強調し、移動中の歩行者の間でClearpath Jackalロボットをナビゲートする。

We present a novel sensor-based learning navigation algorithm to compute a collision-free trajectory for a robot in dense and dynamic environments with moving obstacles or targets. Our approach uses deep reinforcement learning-based expert policy that is trained using a sim2real paradigm. In order to increase the reliability and handle the failure cases of the expert policy, we combine with a policy extraction technique to transform the resulting policy into a decision tree format. The resulting decision tree has properties which we use to analyze and modify the policy and improve performance on navigation metrics including smoothness, frequency of oscillation, frequency of immobilization, and obstruction of target. We are able to modify the policy to address these imperfections without retraining, combining the learning power of deep learning with the control of domain-specific algorithms. We highlight the benefits of our algorithm in simulated environments and navigating a Clearpath Jackal robot among moving pedestrians.
翻訳日:2021-04-23 14:03:24 公開日:2021-04-22
# MeSIN:医療勧告のためのマルチレベル選択対話型ネットワーク

MeSIN: Multilevel Selective and Interactive Network for Medication Recommendation ( http://arxiv.org/abs/2104.11026v1 )

ライセンス: Link先を確認
Yang An and Liang Zhang and Mao You and Xueqing Tian and Bo Jin and Xiaopeng Wei(参考訳) 電子健康記録(EHR)を用いた患者の治療薬の推奨は、インテリジェント医療システムにとって重要なデータマイニング課題である。 医師がより効率的に臨床決定を行うのを助けることができる。 However, the inherent complexity of the EHR data renders it as a challenging task: (1) Multilevel structures: the EHR data typically contains multilevel structures which are closely related with the decision-making pathways, e.g., laboratory results lead to disease diagnoses, and then contribute to the prescribed medications; (2) Multiple sequences interactions: multiple sequences in EHR data are usually closely correlated with each other; (3) Abundant noise: lots of task-unrelated features or noise information within EHR data generally result in suboptimal performance. 以上の課題に対処するため,医薬品推奨のための多レベル選択的対話型ネットワーク(MeSIN)を提案する。 具体的には、MeSINは3つのコンポーネントで設計されている。 まず注意選択モジュール(ASM)を用いて、各入院中の推奨薬剤との関連性により、異なる医療コードにフレキシブルな注意スコアを付与する。 第二に、我々は新しい対話型長期記憶ネットワーク(InLSTM)を導入し、校正メモリ拡張セルと拡張入力ゲートの助けを借りて、EHRデータにおけるマルチレベル医療シーケンスの相互作用を強化する。 最後にglobal selective fusion module (gsfm) を用いて,複数ソース情報を埋め込んだ情報を最終患者表現に注入し,医薬品の推奨を行う。 本手法を検証するために,実世界の臨床データセットを用いて広範な実験を行った。 その結果,複数のベースラインに対して一貫性のあるフレームワークの優位性を示し,提案手法の有効性を検証した。

Recommending medications for patients using electronic health records (EHRs) is a crucial data mining task for an intelligent healthcare system. It can assist doctors in making clinical decisions more efficiently. However, the inherent complexity of the EHR data renders it as a challenging task: (1) Multilevel structures: the EHR data typically contains multilevel structures which are closely related with the decision-making pathways, e.g., laboratory results lead to disease diagnoses, and then contribute to the prescribed medications; (2) Multiple sequences interactions: multiple sequences in EHR data are usually closely correlated with each other; (3) Abundant noise: lots of task-unrelated features or noise information within EHR data generally result in suboptimal performance. To tackle the above challenges, we propose a multilevel selective and interactive network (MeSIN) for medication recommendation. Specifically, MeSIN is designed with three components. First, an attentional selective module (ASM) is applied to assign flexible attention scores to different medical codes embeddings by their relevance to the recommended medications in every admission. Second, we incorporate a novel interactive long-short term memory network (InLSTM) to reinforce the interactions of multilevel medical sequences in EHR data with the help of the calibrated memory-augmented cell and an enhanced input gate. Finally, we employ a global selective fusion module (GSFM) to infuse the multi-sourced information embeddings into final patient representations for medications recommendation. To validate our method, extensive experiments have been conducted on a real-world clinical dataset. The results demonstrate a consistent superiority of our framework over several baselines and testify the effectiveness of our proposed approach.
翻訳日:2021-04-23 14:03:10 公開日:2021-04-22
# オートエンコーダとバイアスドトラジェクタを用いた集団変数の追跡

Chasing Collective Variables using Autoencoders and biased trajectories ( http://arxiv.org/abs/2104.11061v1 )

ライセンス: Link先を確認
Zineb Belkacemi, Paraskevi Gkeka, Tony Leli\`evre and Gabriel Stoltz(参考訳) 過去数十年間、自由エネルギーバイアス法は、サンプリング尺度を変更することで分子の重要な構造変化のシミュレーションを加速する強力なツールであることが証明されてきた。 しかし、これらの手法のほとんどが、低次元の緩やかな自由度の事前の知識に依存している。 集合変数 (cv)。 あるいは、機械学習(ML)と次元削減アルゴリズムを使って、そのようなCVを識別することができる。 この文脈では、CVを適応バイアスを用いて反復的に学習するアプローチが提案されている。各繰り返しにおいて、学習されたCVを使用して自由エネルギー適応バイアスを行い、新しいデータを生成し、新しいCVを学ぶ。 これは、各イテレーションで異なる測定値がサンプリングされ、新しいトレーニングデータが異なる分布に従って分散されることを意味する。 機械学習モデルは常に考慮された分布に依存するため、反復的手法は特定のcvに収束することが保証されない。 これは、適応サンプリングに使用される偏りのある測度に関係なく、同じ偏りのないボルツマン・ギブス測度に関して常に学習に戻るための再重み付け手順によって修正することができる。 本稿では,自動エンコーダを用いたcv学習と自動エンコーダによる自由エネルギーバイアスと反復学習を含む新しい反復学習手法を提案する。 本手法は,学習モデルが同一損失を最適化し,CV収束を実現するための重み付け方式を含む。 本研究では,2次元玩具システムとアラニンジペプチドシステムを例に,自由エネルギー適応バイアス法として拡張された適応バイアス力を用いたアルゴリズムの結果を示す。

In the last decades, free energy biasing methods have proven to be powerful tools to accelerate the simulation of important conformational changes of molecules by modifying the sampling measure. However, most of these methods rely on the prior knowledge of low-dimensional slow degrees of freedom, i.e. Collective Variables (CV). Alternatively, such CVs can be identified using machine learning (ML) and dimensionality reduction algorithms. In this context, approaches where the CVs are learned in an iterative way using adaptive biasing have been proposed: at each iteration, the learned CV is used to perform free energy adaptive biasing to generate new data and learn a new CV. This implies that at each iteration, a different measure is sampled, thus the new training data is distributed according to a different distribution. Given that a machine learning model is always dependent on the considered distribution, iterative methods are not guaranteed to converge to a certain CV. This can be remedied by a reweighting procedure to always fall back to learning with respect to the same unbiased Boltzmann-Gibbs measure, regardless of the biased measure used in the adaptive sampling. In this paper, we introduce a new iterative method involving CV learning with autoencoders: Free Energy Biasing and Iterative Learning with AutoEncoders (FEBILAE). Our method includes the reweighting scheme to ensure that the learning model optimizes the same loss, and achieves CV convergence. Using a small 2-dimensional toy system and the alanine dipeptide system as examples, we present results of our algorithm using the extended adaptive biasing force as the free energy adaptive biasing method.
翻訳日:2021-04-23 14:01:33 公開日:2021-04-22
# 肺葉分節に対するマルチタスク半教師あり学習

Multi-task Semi-supervised Learning for Pulmonary Lobe Segmentation ( http://arxiv.org/abs/2104.11017v1 )

ライセンス: Link先を確認
Jingnan Jia, Zhiwei Zhai, M. Els Bakker, I. Hernandez Giron, Marius Staring, Berend C. Stoel(参考訳) 肺葉分節は肺疾患の解析における重要な前処理課題である。 肺血管や気道の分布など、裂け目検出や解剖学的特徴に依存する伝統的な手法は、適度に正確な葉の分節を与える可能性がある。 ディープラーニングベースのメソッドは、従来のアプローチよりも優れていますが、大きなデータセットが必要です。 深層マルチタスク学習は複数の異なる構造のラベルを活用することが期待される。 しかし、一般的にこのようなラベルは複数のデータセットに分散される。 本稿では,無注釈のデータセットと異なる構造を持つデータセットから複数の構造の情報を活用できるマルチタスク半教師付きモデルを提案する。 異なるタスクのバランスをとるために、集中した交互トレーニング戦略が提示されます。 外部独立したCTデータセットを用いてトレーニングモデルの評価を行った。 その結果、本モデルはシングルタスクの代替品を著しく上回り、平均表面距離を7.174mmから4.196mmに改善した。 また、我々のアプローチがバックボーンとして異なるネットワークアーキテクチャで成功していることも示しました。

Pulmonary lobe segmentation is an important preprocessing task for the analysis of lung diseases. Traditional methods relying on fissure detection or other anatomical features, such as the distribution of pulmonary vessels and airways, could provide reasonably accurate lobe segmentations. Deep learning based methods can outperform these traditional approaches, but require large datasets. Deep multi-task learning is expected to utilize labels of multiple different structures. However, commonly such labels are distributed over multiple datasets. In this paper, we proposed a multi-task semi-supervised model that can leverage information of multiple structures from unannotated datasets and datasets annotated with different structures. A focused alternating training strategy is presented to balance the different tasks. We evaluated the trained model on an external independent CT dataset. The results show that our model significantly outperforms single-task alternatives, improving the mean surface distance from 7.174 mm to 4.196 mm. We also demonstrated that our approach is successful for different network architectures as backbones.
翻訳日:2021-04-23 14:01:02 公開日:2021-04-22
# FID計算におけるBuggy Resizing LibrariesとSprising Subtletiesについて

On Buggy Resizing Libraries and Surprising Subtleties in FID Calculation ( http://arxiv.org/abs/2104.11222v1 )

ライセンス: Link先を確認
Gaurav Parmar, Richard Zhang, Jun-Yan Zhu(参考訳) 本稿では,Fr'echet Inception Distance(FID)スコアの非一貫性と,異なる画像処理ライブラリ間の不整合な実装に対する感度について検討する。 FIDスコアは生成モデルを評価するために広く使用されるが、各FID実装は異なる低レベル画像処理プロセスを使用する。 一般的なディープラーニングライブラリにおける画像リサイズ機能は、しばしばエイリアスアーティファクトを導入する。 FIDの計算には微妙な選択が必要であり、これらの選択に相補性が欠如しているため、FIDのスコアは大きく異なる可能性がある。 具体的には,(1)どのイメージリサイズライブラリを使うかの選択,(2)どのインタープリケーションカーネルを使うかの選択,(3)画像を表すときに使用するエンコーディングの方法が重要であることを示す。 さらに,fidスコアを正確に計算するための推奨事項として,避けるべき多くの一般的な落とし穴を概説する。 関連コードで提案した推奨事項を簡単に最適化した実装を提供する。

We investigate the sensitivity of the Fr\'echet Inception Distance (FID) score to inconsistent and often incorrect implementations across different image processing libraries. FID score is widely used to evaluate generative models, but each FID implementation uses a different low-level image processing process. Image resizing functions in commonly-used deep learning libraries often introduce aliasing artifacts. We observe that numerous subtle choices need to be made for FID calculation and a lack of consistencies in these choices can lead to vastly different FID scores. In particular, we show that the following choices are significant: (1) selecting what image resizing library to use, (2) choosing what interpolation kernel to use, (3) what encoding to use when representing images. We additionally outline numerous common pitfalls that should be avoided and provide recommendations for computing the FID score accurately. We provide an easy-to-use optimized implementation of our proposed recommendations in the accompanying code.
翻訳日:2021-04-23 14:00:47 公開日:2021-04-22
# 暗黙的モジュール化音声・視覚表現によるポーズ制御型発話顔生成

Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation ( http://arxiv.org/abs/2104.11116v1 )

ライセンス: Link先を確認
Hang Zhou, Yasheng Sun, Wayne Wu, Chen Change Loy, Xiaogang Wang, Ziwei Liu(参考訳) 任意の音声駆動の話し顔生成では正確な唇の同期が実現されているが、頭部のポーズを効率的に駆動する方法の問題は残る。 以前の手法では、ランドマークや3dパラメータなどの事前に見積もられた構造情報に依存しており、パーソナライズされたリズミカルな動きを生成する。 しかし、そのような推定情報の極端な条件下での不正確さは、劣化問題を引き起こす。 本稿では,ポーズ制御可能な発話顔を生成するためのクリーンで効果的なフレームワークを提案する。 我々は1枚の写真のみを識別基準として生の顔画像を操作する。 鍵となるのは、暗黙の低次元ポーズコードを考案することで、オーディオ視覚表現をモジュール化することである。 音声内容と頭部ポーズ情報の両方が、結合した非同一性埋め込み空間に配置される。 音声-視覚モダリティ間の内在的同期を学習することで音声コンテンツ情報を定義することができるが、変調畳み込みに基づく再構成フレームワークにおいてポーズコードが相補的に学習されることを示す。 広汎な実験により,他のビデオでポーズを制御可能な唇同期音声を生成する。 さらに,本モデルでは,視野の強靭性や面の正面化など,複数の高度な機能を備えている。 コード、モデル、デモビデオはhttps://hangz-nju-cu hk.github.io/project s/PC-AVSで公開されている。

While accurate lip synchronization has been achieved for arbitrary-subject audio-driven talking face generation, the problem of how to efficiently drive the head pose remains. Previous methods rely on pre-estimated structural information such as landmarks and 3D parameters, aiming to generate personalized rhythmic movements. However, the inaccuracy of such estimated information under extreme conditions would lead to degradation problems. In this paper, we propose a clean yet effective framework to generate pose-controllable talking faces. We operate on raw face images, using only a single photo as an identity reference. The key is to modularize audio-visual representations by devising an implicit low-dimension pose code. Substantially, both speech content and head pose information lie in a joint non-identity embedding space. While speech content information can be defined by learning the intrinsic synchronization between audio-visual modalities, we identify that a pose code will be complementarily learned in a modulated convolution-based reconstruction framework. Extensive experiments show that our method generates accurately lip-synced talking faces whose poses are controllable by other videos. Moreover, our model has multiple advanced capabilities including extreme view robustness and talking face frontalization. Code, models, and demo videos are available at https://hangz-nju-cu hk.github.io/project s/PC-AVS.
翻訳日:2021-04-23 14:00:33 公開日:2021-04-22
# 非基底形式からの意味獲得の確率的限界:将来の言語モデルが理解されるか?

Provable Limitations of Acquiring Meaning from Ungrounded Form: What will Future Language Models Understand? ( http://arxiv.org/abs/2104.10809v1 )

ライセンス: Link先を確認
William Merrill, Yoav Goldberg, Roy Schwartz, Noah A. Smith(参考訳) 何十億ものトークンで訓練された言語モデルは、最近多くのNLPタスクにおいて前例のない結果をもたらした。 この成功は、原則として、システムが何らかの基盤にアクセスすることなく、生テキストを"理解"できるかどうかという問題を提起する。 我々は、意味を習得する無地システムの能力について、正式に調査する。 分析では,基礎となる意味論に関する間接的な手がかりを提供する原文中の文脈である「集合」の役割に注目した。 アサーションによってシステムが等価性のような意味関係を保存する表現をエミュレートできるかどうか検討する。 言語内のすべての表現が参照的に透明であれば,アサーションによってセマンティックエミュレーションが可能になる。 しかし、変数バインディングのような透明でないパターンを使用する場合、エミュレーションは計算不能な問題となる。 最後に、形式モデルと自然言語の違いを議論し、結果がどのように様相設定や他の意味関係に一般化するかを考察する。 その結果、コードや言語のアサーションは意味表現を完全にエミュレートする十分な信号を提供していないことが示唆された。 我々は、根拠のない言語モデルが基本的に「理解」能力に制限されているように見える方法を定式化する。

Language models trained on billions of tokens have recently led to unprecedented results on many NLP tasks. This success raises the question of whether, in principle, a system can ever "understand" raw text without access to some form of grounding. We formally investigate the abilities of ungrounded systems to acquire meaning. Our analysis focuses on the role of "assertions": contexts within raw text that provide indirect clues about underlying semantics. We study whether assertions enable a system to emulate representations preserving semantic relations like equivalence. We find that assertions enable semantic emulation if all expressions in the language are referentially transparent. However, if the language uses non-transparent patterns like variable binding, we show that emulation can become an uncomputable problem. Finally, we discuss differences between our formal model and natural language, exploring how our results generalize to a modal setting and other semantic relations. Together, our results suggest that assertions in code or language do not provide sufficient signal to fully emulate semantic representations. We formalize ways in which ungrounded language models appear to be fundamentally limited in their ability to "understand".
翻訳日:2021-04-23 13:59:58 公開日:2021-04-22
# マルチインテント発話のファジィ分類

Fuzzy Classification of Multi-intent Utterances ( http://arxiv.org/abs/2104.10830v1 )

ライセンス: Link先を確認
Geetanjali Bihani and Julia Taylor Rayz(参考訳) 現在の意図分類手法は、言語固有の曖昧さとそれに対応する曖昧さを無視しながら、自然言語の発話にバイナリーインテントクラスメンバーシップを割り当てている。 本研究では、ファジィ化意図クラス上での次数メンバシップを作成することにより、単一意図と多意図自然言語のあいまいさに対処する手法を提案する。 私たちの知る限りでは、インテントカテゴリのメンバシップに対する自然言語発話のファジィな性質の影響に対処し、定量化するのはこれが初めてです。 さらに,単発発話の小さなデータベースを用いて複数発発話におけるクラスメンバシップを生成することにより,分類モデルの学習における多目的発話データのスパース性を克服する。 異なるファジィメンバシップ生成手法と近似文字列類似度尺度を用いて,タスク指向の2つのダイアログデータセットに対するアプローチを評価した。 その結果、異なる意図の発話と基礎となるデータ分布との語彙的重なりが、意図のメンバーシップの曖昧さに与える影響が明らかになった。 さらに, メンバシップ関数と文字列類似度尺度の組み合わせにより, 難読化メンバシップとバイナリメンバシップを比較することにより, アプローチの正確性を評価する。

Current intent classification approaches assign binary intent class memberships to natural language utterances while disregarding the inherent vagueness in language and the corresponding vagueness in intent class boundaries. In this work, we propose a scheme to address the ambiguity in single-intent as well as multi-intent natural language utterances by creating degree memberships over fuzzified intent classes. To our knowledge, this is the first work to address and quantify the impact of the fuzzy nature of natural language utterances over intent category memberships. Additionally, our approach overcomes the sparsity of multi-intent utterance data to train classification models by using a small database of single intent utterances to generate class memberships over multi-intent utterances. We evaluate our approach over two task-oriented dialog datasets, across different fuzzy membership generation techniques and approximate string similarity measures. Our results reveal the impact of lexical overlap between utterances of different intents, and the underlying data distributions, on the fuzzification of intent memberships. Moreover, we evaluate the accuracy of our approach by comparing the defuzzified memberships to their binary counterparts, across different combinations of membership functions and string similarity measures.
翻訳日:2021-04-23 13:59:41 公開日:2021-04-22
# 低異方性センスリトロフィッティング(LASeR) : 等方性と高密度表現に向けて

Low Anisotropy Sense Retrofitting (LASeR) : Towards Isotropic and Sense Enriched Representations ( http://arxiv.org/abs/2104.10833v1 )

ライセンス: Link先を確認
Geetanjali Bihani and Julia Taylor Rayz(参考訳) 文脈表現モデルは多数のnlpタスクで大幅に改善されているが、word senseの曖昧さ回避機能は説明されていない。 このギャップに対処するために,事前学習された言語モデルから抽出された文脈表現が,ある単語の異なる感覚に対して識別可能な表現を生成するかどうかを評価する。 我々は表現幾何学を解析し、文脈表現における表現退化問題の存在を指して、深層事前学習言語モデルのほとんどの層が高度に異方性のある表現を生成することを発見した。 異方性を考慮した結果,様々な言語モデルにまたがる感覚学習能力の変動が明らかになった。 最後に,Low Anisotropy Sense RetrofittingのアプローチであるLASeRを提案する。このアプローチは,既製の表現を等方的かつ意味的に有意義に表現し,表現退化問題を後処理のステップとして解決し,深層ニューラルネットワークモデルから抽出した文脈的表現の感覚豊か化を行う。

Contextual word representation models have shown massive improvements on a multitude of NLP tasks, yet their word sense disambiguation capabilities remain poorly explained. To address this gap, we assess whether contextual word representations extracted from deep pretrained language models create distinguishable representations for different senses of a given word. We analyze the representation geometry and find that most layers of deep pretrained language models create highly anisotropic representations, pointing towards the existence of representation degeneration problem in contextual word representations. After accounting for anisotropy, our study further reveals that there is variability in sense learning capabilities across different language models. Finally, we propose LASeR, a 'Low Anisotropy Sense Retrofitting' approach that renders off-the-shelf representations isotropic and semantically more meaningful, resolving the representation degeneration problem as a post-processing step, and conducting sense-enrichment of contextualized representations extracted from deep neural language models.
翻訳日:2021-04-23 13:59:21 公開日:2021-04-22
# ロバスト関係抽出のための強化された注意

Enriched Attention for Robust Relation Extraction ( http://arxiv.org/abs/2104.10899v1 )

ライセンス: Link先を確認
Heike Adel, Jannik Str\"otgen(参考訳) ニューラルネットワークの普及に伴い,関係抽出モデルの性能は大幅に向上した。 しかし、神経関係抽出の重要な問題は堅牢性であり、モデルは複数の実体と関係を持つ長い文にうまくスケールしない。 本研究では,この問題を集中型注意機構を用いて解決する。 注意することで、モデルは関係抽出に関連する入力文の一部に集中することができる。 本稿では,関係論とそれらの間の最も短い依存関係経路に関する特徴モデリング知識を用いて,注目機能を強化することを提案する。 したがって、異なる関係論において、モデルは文の異なる部分に注意を払うことができる。 我々のモデルは、2つの人気のあるベンチマークで同等のセットアップを使用して以前の作業よりも優れており、分析によって多くのエンティティを持つ長い文にスケールできることが確認されている。

The performance of relation extraction models has increased considerably with the rise of neural networks. However, a key issue of neural relation extraction is robustness: the models do not scale well to long sentences with multiple entities and relations. In this work, we address this problem with an enriched attention mechanism. Attention allows the model to focus on parts of the input sentence that are relevant to relation extraction. We propose to enrich the attention function with features modeling knowledge about the relation arguments and the shortest dependency path between them. Thus, for different relation arguments, the model can pay attention to different parts of the sentence. Our model outperforms prior work using comparable setups on two popular benchmarks, and our analysis confirms that it indeed scales to long sentences with many entities.
翻訳日:2021-04-23 13:59:00 公開日:2021-04-22
# ゼロショット分類のための属性修飾生成メタ学習

Attribute-Modulated Generative Meta Learning for Zero-Shot Classification ( http://arxiv.org/abs/2104.10857v1 )

ライセンス: Link先を確認
Yun Li, Zhe Liu, Lina Yao, Xianzhi Wang, Can Wang(参考訳) ゼロショット学習(ZSL)は、学習中に欠落している、見知らぬクラスから意味不明なクラスに知識を伝達することを目的としている。 zslの有望な戦略は、セマンティクスサイド情報に基づく未認識のクラスの視覚的特徴を合成し、参照されるクラスに対するモデルの固有のバイアスを取り除くためにメタラーニングを組み込むことである。 既存のメタジェネレーティブアプローチはタスク分散間で共有される共通モデルを追い求める;対照的に、タスク特性に適応した生成ネットワークの構築を目指している。 そこで本研究では,ゼロショット学習のためのAttribute-Modulated GenerAtive Meta-modelを提案する。 本モデルは属性対応変調ネットワークと属性対応生成ネットワークから構成される。 未知のクラスが与えられると、変調ネットワークはタスク固有の変換を適用してジェネレータを適応的に変調し、生成ネットワークが高度に多様なタスクに適応できるようにする。 広範に使用されている4つのベンチマークによる実験結果から,AMAZはZSLで3.8%,ZSLでは5.1%,ZSLでは5.1%向上し,本手法の優位性を示した。

Zero-shot learning (ZSL) aims to transfer knowledge from seen classes to semantically related unseen classes, which are absent during training. The promising strategies for ZSL are to synthesize visual features of unseen classes conditioned on semantic side information and to incorporate meta-learning to eliminate the model's inherent bias towards seen classes. Existing meta generative approaches pursue a common model shared across task distributions; in contrast, we aim to construct a generative network adaptive to task characteristics. To this end, we propose the Attribute-Modulated generAtive meta-model for Zero-shot learning (AMAZ). Our model consists of an attribute-aware modulation network and an attribute-augmented generative network. Given unseen classes, the modulation network adaptively modulates the generator by applying task-specific transformations so that the generative network can adapt to highly diverse tasks. Our empirical evaluations on four widely-used benchmarks show that AMAZ improves state-of-the-art methods by 3.8% and 5.1% in ZSL and generalized ZSL settings, respectively, demonstrating the superiority of our method.
翻訳日:2021-04-23 13:58:01 公開日:2021-04-22
# 3次元再構築のための自己最適化ループシフティングとメジャー化

Self-optimizing loop sifting and majorization for 3D reconstruction ( http://arxiv.org/abs/2104.10826v1 )

ライセンス: Link先を確認
Guoxiang Zhang and YangQuan Chen(参考訳) visual concurrent localization and mapping (vslam)と3d reconstruction methodは印象的な進歩を遂げている。 これらの方法は、人間の努力なしに、都市や屋内環境などの大規模環境をマッピングできるため、自動運転車や消費者向けロボットアプリケーションにとって非常に有望である。 しかし、ループの検出と最適化に関しては、改善の余地はまだある。 vSLAMシステムは、偽ループの深刻な影響を減らすためにループを非常に保守的に追加する傾向がある。 これらの保守的なチェックは、通常正しいループを拒否し、パフォーマンスを低下させる。 本稿では,ループ検出をふるいにかけ,主要化できるアルゴリズムを提案する。 提案手法は,異なるループの有用性と有効性を,dmp(dung map posterior)メトリックと比較できる。 アルゴリズムは、単一のユーザ定義しきい値なしで各ループの受け入れをテストし、決定する。 したがって、異なるデータ条件に適応する。 提案手法は,センサタイプ(深度やLiDARの読み出し現在まで),ループ検出,最適化など,汎用的で非依存な手法である。 特定のタイプのslamシステムも必要ありません。 したがって、様々なアプリケーションシナリオに適用できる可能性がある。 公開データセットで実験を行う。 その結果,提案手法は最先端手法よりも優れていた。

Visual simultaneous localization and mapping (vSLAM) and 3D reconstruction methods have gone through impressive progress. These methods are very promising for autonomous vehicle and consumer robot applications because they can map large-scale environments such as cities and indoor environments without the need for much human effort. However, when it comes to loop detection and optimization, there is still room for improvement. vSLAM systems tend to add the loops very conservatively to reduce the severe influence of the false loops. These conservative checks usually lead to correct loops rejected, thus decrease performance. In this paper, an algorithm that can sift and majorize loop detections is proposed. Our proposed algorithm can compare the usefulness and effectiveness of different loops with the dense map posterior (DMP) metric. The algorithm tests and decides the acceptance of each loop without a single user-defined threshold. Thus it is adaptive to different data conditions. The proposed method is general and agnostic to sensor type (as long as depth or LiDAR reading presents), loop detection, and optimization methods. Neither does it require a specific type of SLAM system. Thus it has great potential to be applied to various application scenarios. Experiments are conducted on public datasets. Results show that the proposed method outperforms state-of-the-art methods.
翻訳日:2021-04-23 13:56:52 公開日:2021-04-22
# dannet:非教師なし夜間意味セグメンテーションのためのワンステージドメイン適応ネットワーク

DANNet: A One-Stage Domain Adaptation Network for Unsupervised Nighttime Semantic Segmentation ( http://arxiv.org/abs/2104.10834v1 )

ライセンス: Link先を確認
Xinyi Wu, Zhenyao Wu, Hao Guo, Lili Ju, Song Wang(参考訳) 夜間画像のセマンティクスセグメンテーションは、自動運転における昼間画像と同等に重要な役割を果たすが、前者は、照度が悪いことや激しい人間のアノテーションのため、はるかに困難である。 本稿では,ラベル付き夜間画像データを用いずに,夜間意味セグメンテーションのための新しいドメイン適応ネットワーク(dannet)を提案する。 ラベル付き昼行データセットと、大まかに整列された昼行イメージペアを含むラベルなしデータセットとの敵対的なトレーニングを採用している。 特に、ラベルのない昼夜画像ペアの場合、日中画像の静的オブジェクトカテゴリのピクセルレベルの予測を擬似監督として使用し、対応する夜間画像にセグメント化します。 さらに,昼夜画像ペア間の不一致と日中画像の誤った予測を処理し,小型物体の予測精度を高めるための重み付け戦略を考案した。 提案したDANNetは、夜間セマンティックセグメンテーションのための最初の1段階適応フレームワークであり、別の前処理段階として追加の夜間画像転送モデルを訓練しない。 ダークチューリッヒとナイトタイム駆動データセットに関する広範囲な実験により,夜間意味セグメンテーションにおける最先端の性能が得られた。

Semantic segmentation of nighttime images plays an equally important role as that of daytime images in autonomous driving, but the former is much more challenging due to poor illuminations and arduous human annotations. In this paper, we propose a novel domain adaptation network (DANNet) for nighttime semantic segmentation without using labeled nighttime image data. It employs an adversarial training with a labeled daytime dataset and an unlabeled dataset that contains coarsely aligned day-night image pairs. Specifically, for the unlabeled day-night image pairs, we use the pixel-level predictions of static object categories on a daytime image as a pseudo supervision to segment its counterpart nighttime image. We further design a re-weighting strategy to handle the inaccuracy caused by misalignment between day-night image pairs and wrong predictions of daytime images, as well as boost the prediction accuracy of small objects. The proposed DANNet is the first one stage adaptation framework for nighttime semantic segmentation, which does not train additional day-night image transfer models as a separate pre-processing stage. Extensive experiments on Dark Zurich and Nighttime Driving datasets show that our method achieves state-of-the-art performance for nighttime semantic segmentation.
翻訳日:2021-04-23 13:56:37 公開日:2021-04-22
# ホッケー映像におけるアイスリンクの局在

Localization of Ice-Rink for Broadcast Hockey Videos ( http://arxiv.org/abs/2104.10847v1 )

ライセンス: Link先を確認
Mehrnaz Fani, Pascale Berunelle Walters, David A. Clausi, John Zelek and Alexander Wong(参考訳) 本研究では,放送ビデオからホッケーアイスリンクのローカライズを自動で簡易に行うフレームワークを提案する。 まず、ビデオフレームの階層的な分割と、ヒストグラムに基づくしきい値によってビデオショットに分解される。 アイスリンクモデル上でフレームをローカライズするために、ResNet18ベースの回帰器を実装して訓練し、フレーム単位でモデル上の4つの制御ポイントに回帰する。 このことがビデオの投影ジッタリング問題に繋がる。 これを克服するために、推定フェーズでは、所定のビデオショットの全ての連続フレームに対して、アイスリンクモデル上の制御点の軌跡を、達成された座標でハンウィンドウを畳み込むことにより平滑化させる。 最後に、対応する4つの点の対の直線型変換を用いて、滑らかなホモグラフィ行列を算出する。 回帰選手のトレーニングとテストのためのホッケーデータセットが収集されます。 その結果, ホッケーアイスリンクを局所化し, ジッタリング問題に対処するための簡易かつ包括的な手法が, ホモグラフィ推定の精度に影響を与えずに成功できた。

In this work, an automatic and simple framework for hockey ice-rink localization from broadcast videos is introduced. First, video is broken into video-shots by a hierarchical partitioning of the video frames, and thresholding based on their histograms. To localize the frames on the ice-rink model, a ResNet18-based regressor is implemented and trained, which regresses to four control points on the model in a frame-by-frame fashion. This leads to the projection jittering problem in the video. To overcome this, in the inference phase, the trajectory of the control points on the ice-rink model are smoothed, for all the consecutive frames of a given video-shot, by convolving a Hann window with the achieved coordinates. Finally, the smoothed homography matrix is computed by using the direct linear transform on the four pairs of corresponding points. A hockey dataset for training and testing the regressor is gathered. The results show success of this simple and comprehensive procedure for localizing the hockey ice-rink and addressing the problem of jittering without affecting the accuracy of homography estimation.
翻訳日:2021-04-23 13:56:12 公開日:2021-04-22
# 車両再識別のための強固なベースライン

A Strong Baseline for Vehicle Re-Identification ( http://arxiv.org/abs/2104.10850v1 )

ライセンス: Link先を確認
Su V. Huynh, Nam H. Nguyen, Ngoc T. Nguyen, Vinh TQ. Nguyen, Chau Huynh, Chuong Nguyen(参考訳) 車両再識別(Re-ID)は、異なるカメラで同じ車両を識別することを目的としており、現代の交通管理システムにおいて重要な役割を果たす。 技術的課題は、異なる視点、解像度、閉塞、照明条件において、アルゴリズムが堅牢でなければならないことである。 本稿では、まず、車両のRe-ID性能を妨げる主な要因を解析する。 次に,第5回AIシティチャレンジのデータセットトラック2を対象とし,(1)実データと合成データのドメインギャップを減らし,(2)注目機構付きマルチヘッドを積み重ねることによるネットワーク修正,(3)適応的損失量調整を含むソリューションを提案する。 提案手法は,外部データセットや擬似ラベリングを用いずに,プライベートcityflowテストセット上で61.34%のマップを達成し,veriベンチマークでは87.1%のマップで先行する。 コードはhttps://github.com/c ybercore-co-ltd/trac k2_aicity_2021で入手できる。

Vehicle Re-Identification (Re-ID) aims to identify the same vehicle across different cameras, hence plays an important role in modern traffic management systems. The technical challenges require the algorithms must be robust in different views, resolution, occlusion and illumination conditions. In this paper, we first analyze the main factors hindering the Vehicle Re-ID performance. We then present our solutions, specifically targeting the dataset Track 2 of the 5th AI City Challenge, including (1) reducing the domain gap between real and synthetic data, (2) network modification by stacking multi heads with attention mechanism, (3) adaptive loss weight adjustment. Our method achieves 61.34% mAP on the private CityFlow testset without using external dataset or pseudo labeling, and outperforms all previous works at 87.1% mAP on the Veri benchmark. The code is available at https://github.com/c ybercore-co-ltd/trac k2_aicity_2021.
翻訳日:2021-04-23 13:55:52 公開日:2021-04-22
# 対人パッチ分析と群衆カウントに対する認定防御に向けて

Towards Adversarial Patch Analysis and Certified Defense against Crowd Counting ( http://arxiv.org/abs/2104.10868v1 )

ライセンス: Link先を確認
Qiming Wu, Zhikang Zou, Pan Zhou, Xiaoqing Ye, Binghui Wang, Ang Li(参考訳) 群衆カウントは、安全クリティカルな監視システムの重要性から、多くの注目を集めている。 特に、ディープニューラルネットワーク(DNN)手法は、群衆カウントミッションにおける推定誤差を著しく削減している。 近年の研究では、DNNは敵対的攻撃に弱いことが示されている。 そこで本研究では,群集計数モデルのロバスト性を体系的に評価するために,apam(adversarial patch attack with momentum)と呼ばれるロバストな攻撃戦略を提案する。 特に,入力画像の極端に高密度な背景情報を利用して,一連の変換(補間,回転など)を通じて頑健な敵パッチを生成する。 我々は,画像画素の6\%未満を摂動させることで,デジタルおよび物理的に群衆カウントシステムの性能を著しく低下させることを観察した。 群集数モデルの対向ロバスト性を高めるために, 適応的トレーニング(ADT)よりも十分な回帰モデルに基づくRandomized Ablation (RA)を提案する(RAの平均絶対誤差は, クリーンサンプルではADTより5低く, 逆例ではADTより30低い)。 5つの群集カウントモデルに対する実験により,提案手法の有効性と一般性を示した。 コードは \url{https://github.com/h arrywuhust2022/adv-c rowd- analysis} で入手できる。

Crowd counting has drawn much attention due to its importance in safety-critical surveillance systems. Especially, deep neural network (DNN) methods have significantly reduced estimation errors for crowd counting missions. Recent studies have demonstrated that DNNs are vulnerable to adversarial attacks, i.e., normal images with human-imperceptible perturbations could mislead DNNs to make false predictions. In this work, we propose a robust attack strategy called Adversarial Patch Attack with Momentum (APAM) to systematically evaluate the robustness of crowd counting models, where the attacker's goal is to create an adversarial perturbation that severely degrades their performances, thus leading to public safety accidents (e.g., stampede accidents). Especially, the proposed attack leverages the extreme-density background information of input images to generate robust adversarial patches via a series of transformations (e.g., interpolation, rotation, etc.). We observe that by perturbing less than 6\% of image pixels, our attacks severely degrade the performance of crowd counting systems, both digitally and physically. To better enhance the adversarial robustness of crowd counting models, we propose the first regression model-based Randomized Ablation (RA), which is more sufficient than Adversarial Training (ADT) (Mean Absolute Error of RA is 5 lower than ADT on clean samples and 30 lower than ADT on adversarial examples). Extensive experiments on five crowd counting models demonstrate the effectiveness and generality of the proposed method. Code is available at \url{https://github.com/h arrywuhust2022/Adv-C rowd-analysis}.
翻訳日:2021-04-23 13:55:35 公開日:2021-04-22
# 自動カメラキャリブレーションによる大規模展開のためのコンピュータビジョンに基づくソーシャルディスタンス監視ソリューション

Computer Vision-based Social Distancing Surveillance Solution with Optional Automated Camera Calibration for Large Scale Deployment ( http://arxiv.org/abs/2104.10891v1 )

ライセンス: Link先を確認
Sreetama Das (1), Anirban Nag (1), Dhruba Adhikary (1), Ramswaroop Jeevan Ram (1), Aravind BR (1), Sujit Kumar Ojha (1), Guruprasad M Hegde (2) ((1) Engineering Data Sciences, (2) Research and Technology Centre, Robert Bosch Engineering and Business Solutions Private Limited, Koramangala, Bangalore, India)(参考訳) 新型コロナウイルスの感染拡大でウイルス感染の連鎖を断ち切る最も効果的な手段の一つとして、社会的距離が示唆されている。 本稿では,ソーシャルディスタンシングの規範に準拠するための,コンピュータビジョンに基づくAI支援ソリューションについて述べる。 ソリューションは、人を検出し、追跡し、距離違反を特定するモジュールで構成される。 ツールベースのモードか自動カメラキャリブレーションモードかを選択できる柔軟性を提供し、後者は大規模なデプロイメントに適している。 本稿では,ソーシャルディスタンシング違反に関連するリスクを評価するための異なる指標と,過渡的違反と持続的違反の区別方法について議論する。 提案するソリューションは,異なるテストシナリオで十分に動作し,リアルタイム速度でビデオフィードを処理し,検出された人の顔をぼやけ,配置に最適なデータプライバシ規制に対処します。

Social distancing has been suggested as one of the most effective measures to break the chain of viral transmission in the current COVID-19 pandemic. We herein describe a computer vision-based AI-assisted solution to aid compliance with social distancing norms. The solution consists of modules to detect and track people and to identify distance violations. It provides the flexibility to choose between a tool-based mode or an automated mode of camera calibration, making the latter suitable for large-scale deployments. In this paper, we discuss different metrics to assess the risk associated with social distancing violations and how we can differentiate between transient or persistent violations. Our proposed solution performs satisfactorily under different test scenarios, processes video feed at real-time speed as well as addresses data privacy regulations by blurring faces of detected people, making it ideal for deployments.
翻訳日:2021-04-23 13:54:41 公開日:2021-04-22
# 意味的不正確なデータからの自己指導型学習

Self-Supervised Learning from Semantically Imprecise Data ( http://arxiv.org/abs/2104.10901v1 )

ライセンス: Link先を確認
Clemens-Alexander Brust, Bj\"orn Barz, Joachim Denzler(参考訳) アニマル"や"バード"といった不正確なラベルから学習するが、テスト時に"スノーバンティング"のような正確な予測を行うことは、専門的にラベル付けされたトレーニングデータが少ない場合に重要な能力である。 ボランティアによる貢献やウェブクローリングの結果には精度がないが、それでも価値がある。 そして重要なことは、これらの弱いラベル付けされた例は、高品質のbspokeトレーニングデータよりも低コストで利用できる。 この課題に対処する手法であるCHILLAXは階層型分類器を利用して不正確なラベルから学習する。 しかし、2つの大きな制限がある。 第一に、階層の根元でラベルのない実例、例えば、効果的に学習することはできない。 「オブジェクト」。 第二に、正確なラベルへのアノテーションの補間はテスト時にのみ行われ、自信のある補間がすでにトレーニングデータとして使用できる。 本研究では,制約付き外挿を用いた自己教師型スキームでCHILLAXを拡張し,擬似ラベルを生成する。 これは第2の懸念に対処し、第1の問題を解決し、CHILLAXよりもより弱い監督要件を可能にします。 提案手法を実証的に評価した結果,CHILLAXよりも0.84~1.19パーセントの精度向上が可能であり,長期トレーニングなどの負の結果を伴わないドロップイン代替品として適していることがわかった。

Learning from imprecise labels such as "animal" or "bird", but making precise predictions like "snow bunting" at test time is an important capability when expertly labeled training data is scarce. Contributions by volunteers or results of web crawling lack precision in this manner, but are still valuable. And crucially, these weakly labeled examples are available in larger quantities for lower cost than high-quality bespoke training data. CHILLAX, a recently proposed method to tackle this task, leverages a hierarchical classifier to learn from imprecise labels. However, it has two major limitations. First, it is not capable of learning from effectively unlabeled examples at the root of the hierarchy, e.g. "object". Second, an extrapolation of annotations to precise labels is only performed at test time, where confident extrapolations could be already used as training data. In this work, we extend CHILLAX with a self-supervised scheme using constrained extrapolation to generate pseudo-labels. This addresses the second concern, which in turn solves the first problem, enabling an even weaker supervision requirement than CHILLAX. We evaluate our approach empirically and show that our method allows for a consistent accuracy improvement of 0.84 to 1.19 percent points over CHILLAX and is suitable as a drop-in replacement without any negative consequences such as longer training times.
翻訳日:2021-04-23 13:54:22 公開日:2021-04-22
# 接触型スポーツにおけるタックル障害リスク自動評価 -ラグビーユニオンの例-

Automated Tackle Injury Risk Assessment in Contact-Based Sports -- A Rugby Union Example ( http://arxiv.org/abs/2104.10916v1 )

ライセンス: Link先を確認
Zubair Martin, Amir Patel and Sharief Hendricks(参考訳) タックル・コリシオン・ベースのスポーツにおけるビデオ分析は非常に主観的であり、特に時間的制約下で人間の観察に固有のバイアスにさらされている。 タックル・コリジョンに基づくスポーツにおけるマッチング分析の制限は、コンピュータビジョン応用の機会と見なすことができる。 試合中の選手の動きや動作を映像を用いて客観的に追跡し, 検出し, 認識すると同時に, 負傷経験やスキル実行の理解を深めることで, 怪我の発生状況の把握, デイケガ管理の補助, 審判主観性の向上が期待できる。 本稿では,ラグビーユニオンの試合におけるゲーム内タックルリスクを客観的に評価するシステムを提案する。 まず、ボール検出モデルはYou Only Look Once (YOLO)フレームワークを使用してトレーニングされ、これらの検出はKalman Filter (KF)によって追跡される。 その後、別のYOLOモデルを用いてタックルセグメント内の人/プレイヤーを検出し、ボールキャリアとタックルを識別する。 その後,openposeを用いてボールキャリアとタックルの姿勢を判定し,タックルのリスク評価に相対的な姿勢を用いる。 ラグビータックルを多種多様なコレクションでテストし,62.50%の精度で評価を行った。 これらの結果は、タックルコンタクトベースのスポーツの審判がより主観的な決定を下し、最終的にこれらのスポーツをより安全にすることを可能にする。

Video analysis in tackle-collision based sports is highly subjective and exposed to bias, which is inherent in human observation, especially under time constraints. This limitation of match analysis in tackle-collision based sports can be seen as an opportunity for computer vision applications. Objectively tracking, detecting and recognising an athlete's movements and actions during match play from a distance using video, along with our improved understanding of injury aetiology and skill execution will enhance our understanding how injury occurs, assist match day injury management, reduce referee subjectivity. In this paper, we present a system of objectively evaluating in-game tackle risk in rugby union matches. First, a ball detection model is trained using the You Only Look Once (YOLO) framework, these detections are then tracked by a Kalman Filter (KF). Following this, a separate YOLO model is used to detect persons/players within a tackle segment and then the ball-carrier and tackler are identified. Subsequently, we utilize OpenPose to determine the pose of ball-carrier and tackle, the relative pose of these is then used to evaluate the risk of the tackle. We tested the system on a diverse collection of rugby tackles and achieved an evaluation accuracy of 62.50%. These results will enable referees in tackle-contact based sports to make more subjective decisions, ultimately making these sports safer.
翻訳日:2021-04-23 13:53:58 公開日:2021-04-22
# vm-modnet:自律走行のための移動物体検出

VM-MODNet: Vehicle Motion aware Moving Object Detection for Autonomous Driving ( http://arxiv.org/abs/2104.10985v1 )

ライセンス: Link先を確認
Hazem Rashed, Ahmad El Sallab and Senthil Yogamani(参考訳) 移動物体検出(MOD)は、自走車周辺の移動エージェントを安全な軌道計画のために正確に検出する必要があるため、自律走行において重要な課題である。 また、動きの手がかりに基づく物体の外観非依存検出を可能にする。 運動パララックスの曖昧さのような幾何学的な課題があり、難しい問題となっている。 本研究では,車両の運動情報を活用し,それをモデルに供給し,エゴモーションに基づく適応機構を実現することを目的とする。 モチベーションは、モデルが暗黙的にエゴモーション補償を実行し、パフォーマンスを改善することである。 我々は、6自由度車両の動きをCNNモデルへの入力として供給できる画素ワイドテンソルに変換する。 車両運動テンソル(VMT)を用いたモデルでは,ベースラインアーキテクチャよりもmIoUが5.6%向上した。 また,一般のKITTI_MoSeg_Extended データセットにおいても,LiDARや追加入力フレームを用いた手法と比較して,最先端の処理結果が得られる。 我々のモデルは軽量で、TitanX GPU上で85fpsで動作する。 質的な結果はhttps://youtu.be/ezb fjti-ktkで提供される。

Moving object Detection (MOD) is a critical task in autonomous driving as moving agents around the ego-vehicle need to be accurately detected for safe trajectory planning. It also enables appearance agnostic detection of objects based on motion cues. There are geometric challenges like motion-parallax ambiguity which makes it a difficult problem. In this work, we aim to leverage the vehicle motion information and feed it into the model to have an adaptation mechanism based on ego-motion. The motivation is to enable the model to implicitly perform ego-motion compensation to improve performance. We convert the six degrees of freedom vehicle motion into a pixel-wise tensor which can be fed as input to the CNN model. The proposed model using Vehicle Motion Tensor (VMT) achieves an absolute improvement of 5.6% in mIoU over the baseline architecture. We also achieve state-of-the-art results on the public KITTI_MoSeg_Extended dataset even compared to methods which make use of LiDAR and additional input frames. Our model is also lightweight and runs at 85 fps on a TitanX GPU. Qualitative results are provided in https://youtu.be/ezb fjti-kTk.
翻訳日:2021-04-23 13:53:31 公開日:2021-04-22
# LiDAR Bird's Eye Viewにおけるシミュレーション・トゥ・リアル領域シフト低減のためのサイクル・セマンティック整合性ドメイン適応

Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing Simulation-to-Real Domain Shift in LiDAR Bird's Eye View ( http://arxiv.org/abs/2104.11021v1 )

ライセンス: Link先を確認
Alejandro Barrera, Jorge Beltr\'an, Carlos Guindel, Jose Antonio Iglesias, Fernando Garc\'ia(参考訳) LiDAR情報に基づく物体検出手法の性能は、通常特定のレーザー装置に限られるトレーニングデータの可用性に大きく影響を受ける。 結果として、センサー仕様と駆動シナリオの両方をアドホックに生成できるため、ニューラルネットワークモデルをトレーニングするときに合成データの使用が普及している。 しかし、現在のシミュレータは実際のLiDAR操作を完全に模倣できないため、仮想環境と実環境のギャップを埋めることは依然としてオープンな課題である。 この問題に対処するために、通常、ドメイン適応戦略を適用し、より小さな道路エージェントに失敗しながら、レンジビュー(RV)およびバードアイビュー(BEV)プロジェクションに適用した場合、車両検出に顕著な結果が得られる。 本稿では,ドメイン適応プロセス中に関心のある小物体の情報を保存するために,事前意味分類を用いたサイクガンに基づくbevドメイン適応手法を提案する。 生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。 その結果,提案手法は既存手法よりも優れていることがわかった。

The performance of object detection methods based on LiDAR information is heavily impacted by the availability of training data, usually limited to certain laser devices. As a result, the use of synthetic data is becoming popular when training neural network models, as both sensor specifications and driving scenarios can be generated ad-hoc. However, bridging the gap between virtual and real environments is still an open challenge, as current simulators cannot completely mimic real LiDAR operation. To tackle this issue, domain adaptation strategies are usually applied, obtaining remarkable results on vehicle detection when applied to range view (RV) and bird's eye view (BEV) projections while failing for smaller road agents. In this paper, we present a BEV domain adaptation method based on CycleGAN that uses prior semantic classification in order to preserve the information of small objects of interest during the domain adaptation process. The quality of the generated BEVs has been evaluated using a state-of-the-art 3D object detection framework at KITTI 3D Object Detection Benchmark. The obtained results show the advantages of the proposed method over the existing alternatives.
翻訳日:2021-04-23 13:53:17 公開日:2021-04-22
# コンセンサス規則化と事前誘導によるコンクリート骨材の半監督セグメンテーション

Semi-Supervised Segmentation of Concrete Aggregate Using Consensus Regularisation and Prior Guidance ( http://arxiv.org/abs/2104.11028v1 )

ライセンス: Link先を確認
Max Coenen, Tobias Schack, Dries Beyer, Christian Heipke, Michael Haist(参考訳) 一貫性トレーニングに基づくセグメンテーションのための半教師付きフレームワークは,非ラベルデータから利益を得るために,純粋に教師付きセグメンテーション学習の性能を著しく向上させる強力なツールであることが証明されている。 しかし、一貫性トレーニングの背景にあるコンセンサス原理には、少なくとも1つの欠点がある。 標準一貫性トレーニングの限界を克服するために,先行知識に基づく追加の損失を導入する,意味セグメンテーションのための新しい半教師付きフレームワークを提案する。 具体的には,共有エンコーダと主デコーダからなる軽量アーキテクチャを提案する。 コンセンサストレーニングに基づく非ラベルデータを活用するために,補助デコーダを追加ブランチとして追加し,クラス分布やオートエンコーダの正規化に関する事前情報から得られた制約を追加する。 本稿では,提案手法の有効性を実証し,純粋に教師付きセグメンテーションと標準整合性トレーニングにより得られたセグメンテーション結果より優れていることを示す。

In order to leverage and profit from unlabelled data, semi-supervised frameworks for semantic segmentation based on consistency training have been proven to be powerful tools to significantly improve the performance of purely supervised segmentation learning. However, the consensus principle behind consistency training has at least one drawback, which we identify in this paper: imbalanced label distributions within the data. To overcome the limitations of standard consistency training, we propose a novel semi-supervised framework for semantic segmentation, introducing additional losses based on prior knowledge. Specifically, we propose a light-weight architecture consisting of a shared encoder and a main decoder, which is trained in a supervised manner. An auxiliary decoder is added as additional branch in order to make use of unlabelled data based on consensus training, and we add additional constraints derived from prior information on the class distribution and on auto-encoder regularisation. Experiments performed on our "concrete aggregate dataset" presented in this paper demonstrate the effectiveness of the proposed approach, outperforming the segmentation results achieved by purely supervised segmentation and standard consistency training.
翻訳日:2021-04-23 13:52:59 公開日:2021-04-22
# Patch-Wise Contrastive Learningによるセマンティックセグメンテーションのためのドメイン適応

Domain Adaptation for Semantic Segmentation via Patch-Wise Contrastive Learning ( http://arxiv.org/abs/2104.11056v1 )

ライセンス: Link先を確認
Weizhe Liu, David Ferstl, Samuel Schulter, Lukas Zebedin, Pascal Fua, Christian Leistner(参考訳) セマンティクスセグメンテーションのための非教師なしおよび半教師なし領域適応に対する新しいアプローチを提案する。 機能アライメントのために敵意学習に依存する多くの以前の方法とは異なり、我々はコントラスト学習を利用してドメイン間の構造的に類似したラベルパッチの機能を調整することによってドメインギャップを埋める。 その結果、ネットワークはトレーニングが容易になり、より良いパフォーマンスを提供できる。 提案手法は,2つの難解な領域適応セグメンテーションタスク,特に少数の対象ドメインアノテーションにおいて,最先端の教師なしおよび半教師なしメソッドを一貫して上回っている。 ドメイン適応性の弱いものに自然に拡張することも可能で、わずかな精度低下で最大75%のアノテーションコストを節約できる。

We introduce a novel approach to unsupervised and semi-supervised domain adaptation for semantic segmentation. Unlike many earlier methods that rely on adversarial learning for feature alignment, we leverage contrastive learning to bridge the domain gap by aligning the features of structurally similar label patches across domains. As a result, the networks are easier to train and deliver better performance. Our approach consistently outperforms state-of-the-art unsupervised and semi-supervised methods on two challenging domain adaptive segmentation tasks, particularly with a small number of target domain annotations. It can also be naturally extended to weakly-supervised domain adaptation, where only a minor drop in accuracy can save up to 75% of annotation cost.
翻訳日:2021-04-23 13:52:38 公開日:2021-04-22
# 長期網膜疾患認識のためのリレーショナルサブセット知識蒸留

Relational Subsets Knowledge Distillation for Long-tailed Retinal Diseases Recognition ( http://arxiv.org/abs/2104.11057v1 )

ライセンス: Link先を確認
Lie Ju, Xin Wang, Lin Wang, Tongliang Liu, Xin Zhao, Tom Drummond, Dwarikanath Mahapatra, Zongyuan Ge(参考訳) 現実の世界では、医学データセットは長い尾を持つデータ分布を示すことが多く(一部のクラスはデータの大半を占めるが、ほとんどのクラスはサンプルをほとんど持たない)、これは挑戦的な不均衡学習シナリオをもたらす。 例えば、40種類以上の網膜疾患が様々な病原性を持つと推定されているが、30以上の条件を持つ患者は、世界的な患者コホートから非常に稀であり、ディープラーニングベースのスクリーニングモデルに典型的な長い尾の学習問題をもたらす。 本研究では,長期化データを,領域や表現型情報といった事前知識に基づいて複数のクラスサブセットに分割することで,クラスサブセット学習を提案する。 サブセット固有の知識を学ぶことに集中するようにモデルを強制する。 より具体的には、固定された網膜領域に存在する関係クラスがあるが、多数派と少数派の両方で共通の病理学的特徴が観察されている。 これらのサブセットが教師モデルを学ぶことにより、複数の教師モデルを重み付き知識蒸留損失を伴う統一モデルに蒸留することができる。 提案手法は長期網膜疾患認識タスクに有効であることが判明した。 2つの異なるデータセットにおける実験結果から,本手法は柔軟であり,多くの最先端技術に容易に接続でき,大幅な改善が得られている。

In the real world, medical datasets often exhibit a long-tailed data distribution (i.e., a few classes occupy most of the data, while most classes have rarely few samples), which results in a challenging imbalance learning scenario. For example, there are estimated more than 40 different kinds of retinal diseases with variable morbidity, however with more than 30+ conditions are very rare from the global patient cohorts, which results in a typical long-tailed learning problem for deep learning-based screening models. In this study, we propose class subset learning by dividing the long-tailed data into multiple class subsets according to prior knowledge, such as regions and phenotype information. It enforces the model to focus on learning the subset-specific knowledge. More specifically, there are some relational classes that reside in the fixed retinal regions, or some common pathological features are observed in both the majority and minority conditions. With those subsets learnt teacher models, then we are able to distill the multiple teacher models into a unified model with weighted knowledge distillation loss. The proposed framework proved to be effective for the long-tailed retinal diseases recognition task. The experimental results on two different datasets demonstrate that our method is flexible and can be easily plugged into many other state-of-the-art techniques with significant improvements.
翻訳日:2021-04-23 13:52:22 公開日:2021-04-22
# Sketch-QNet:カラースケッチに基づく画像検索のための四重項ConvNet

Sketch-QNet: A Quadruplet ConvNet for Color Sketch-based Image Retrieval ( http://arxiv.org/abs/2104.11130v1 )

ライセンス: Link先を確認
Anibal Fuentes and Jose M. Saavedra(参考訳) 三重項損失のあるシアムネットワークに基づくアーキテクチャは、画像ベース類似性探索問題において優れた性能を示した。 このアプローチは、正(関連)項目と負(関連)項目の区別を試みる。 しかし、致命的な弱点がある。 クエリが与えられた場合、特定のクエリと異なる色やテクスチャを持つ同じタイプのアイテムなど、弱い関連項目を判別することはできず、多くの現実世界の検索アプリケーションにとって深刻な制限となる可能性がある。 そこで本研究では,上記の弱点を克服する四重極系アーキテクチャを提案する。 さらに、カラースケッチに基づく画像検索(CSBIR)問題に対処するため、Sketch-QNetと呼ぶこの四重極ネットワークのインスタンスを新たに実現した。

Architectures based on siamese networks with triplet loss have shown outstanding performance on the image-based similarity search problem. This approach attempts to discriminate between positive (relevant) and negative (irrelevant) items. However, it undergoes a critical weakness. Given a query, it cannot discriminate weakly relevant items, for instance, items of the same type but different color or texture as the given query, which could be a serious limitation for many real-world search applications. Therefore, in this work, we present a quadruplet-based architecture that overcomes the aforementioned weakness. Moreover, we present an instance of this quadruplet network, which we call Sketch-QNet, to deal with the color sketch-based image retrieval (CSBIR) problem, achieving new state-of-the-art results.
翻訳日:2021-04-23 13:52:02 公開日:2021-04-22
# 適応的・効率的・制御可能な計算のための不均一グリッド畳み込み

Heterogeneous Grid Convolution for Adaptive, Efficient, and Controllable Computation ( http://arxiv.org/abs/2104.11176v1 )

ライセンス: Link先を確認
Ryuhei Hamaguchi, Yasutaka Furukawa, Masaki Onishi, Ken Sakurada(参考訳) 本稿では,画像コンテンツの多様性を利用して,畳み込みアーキテクチャにおける適応的,効率的,制御可能な計算を可能にする,グラフベースの画像表現を構築する新しい不均質なグリッド畳み込みを提案する。 より具体的には、このアプローチは、微分可能なクラスタリングによって畳み込み層からデータ適応グラフ構造を構築し、特徴をグラフにプールし、新しい方向対応グラフ畳み込みを実行し、畳み込み層に戻す。 開発したモジュールを用いて,既存アーキテクチャの高効率かつ強力な拡張である異種グリッド畳み込みネットワークを提案する。 提案手法は, 4つの画像理解タスク, セマンティックセグメンテーション, オブジェクトの局所化, 道路抽出, 健全な物体検出において評価された。 提案手法は4つの課題のうち3つに有効である。 特に、セマンティクスセグメンテーションのための浮動小数点演算を90%以上削減した強力なベースラインを上回り、道路抽出のための最先端の結果を得る。 コード、モデル、データを共有します。

This paper proposes a novel heterogeneous grid convolution that builds a graph-based image representation by exploiting heterogeneity in the image content, enabling adaptive, efficient, and controllable computations in a convolutional architecture. More concretely, the approach builds a data-adaptive graph structure from a convolutional layer by a differentiable clustering method, pools features to the graph, performs a novel direction-aware graph convolution, and unpool features back to the convolutional layer. By using the developed module, the paper proposes heterogeneous grid convolutional networks, highly efficient yet strong extension of existing architectures. We have evaluated the proposed approach on four image understanding tasks, semantic segmentation, object localization, road extraction, and salient object detection. The proposed method is effective on three of the four tasks. Especially, the method outperforms a strong baseline with more than 90% reduction in floating-point operations for semantic segmentation, and achieves the state-of-the-art result for road extraction. We will share our code, model, and data.
翻訳日:2021-04-23 13:51:50 公開日:2021-04-22
# H2O:初対人対話認識のための2つの手操作物体

H2O: Two Hands Manipulating Objects for First Person Interaction Recognition ( http://arxiv.org/abs/2104.11181v1 )

ライセンス: Link先を確認
Taein Kwon, Bugra Tekin, Jan Stuhmer, Federica Bogo, Marc Pollefeys(参考訳) 我々は,両手操作対象のマーカーレス3Dアノテーションを用いた,エゴセントリックな対話認識のための包括的フレームワークを初めて提示する。 そこで本研究では,エゴセントリックな3Dインタラクション認識のための統合データセットを作成する手法を提案する。 本手法は,2つの手の3次元ポーズと操作対象の6次元ポーズのアノテーションと,それぞれのフレームのインタラクションラベルを生成する。 我々のデータセットは、H2O (2 Hands and Objects)と呼ばれ、同期されたマルチビューRGB-D画像、対話ラベル、オブジェクトクラス、左右の手でのグラウンドトルース3Dポーズ、6Dオブジェクトポーズ、グラウンドトルースカメラポーズ、オブジェクトメッシュ、シーンポイントクラウドを提供する。 我々の知る限り、このベンチマークは、左右両手の両方の操作対象のポーズを用いて、一人称行動の研究を可能にし、エゴセントリックな3Dインタラクション認識のための前例のないレベルの詳細を提示する最初のベンチマークである。 さらに,RGB画像から両手の3Dポーズと操作対象の6Dポーズを推定し,対話クラスを予測する手法を提案する。 本手法は,対話を予測するグラフ畳み込みネットワークのトポロジーを学習することにより,手と物体の相互依存性をモデル化する。 本手法は,手動ポーズ推定のための強力なベースラインを確立し,一対一のインタラクション認識のための最先端の精度を実現する。

We present, for the first time, a comprehensive framework for egocentric interaction recognition using markerless 3D annotations of two hands manipulating objects. To this end, we propose a method to create a unified dataset for egocentric 3D interaction recognition. Our method produces annotations of the 3D pose of two hands and the 6D pose of the manipulated objects, along with their interaction labels for each frame. Our dataset, called H2O (2 Hands and Objects), provides synchronized multi-view RGB-D images, interaction labels, object classes, ground-truth 3D poses for left & right hands, 6D object poses, ground-truth camera poses, object meshes and scene point clouds. To the best of our knowledge, this is the first benchmark that enables the study of first-person actions with the use of the pose of both left and right hands manipulating objects and presents an unprecedented level of detail for egocentric 3D interaction recognition. We further propose the first method to predict interaction classes by estimating the 3D pose of two hands and the 6D pose of the manipulated objects, jointly from RGB images. Our method models both inter- and intra-dependencies between both hands and objects by learning the topology of a graph convolutional network that predicts interactions. We show that our method facilitated by this dataset establishes a strong baseline for joint hand-object pose estimation and achieves state-of-the-art accuracy for first person interaction recognition.
翻訳日:2021-04-23 13:51:30 公開日:2021-04-22
# 野生における空中シーン理解:プロトタイプベースのメモリネットワークによるマルチシーン認識

Aerial Scene Understanding in The Wild: Multi-Scene Recognition via Prototype-based Memory Networks ( http://arxiv.org/abs/2104.11200v1 )

ライセンス: Link先を確認
Yuansheng Hua, Lichao Moua, Jianzhe Lin, Konrad Heidler, Xiao Xiang Zhu(参考訳) 航空シーン認識は基本的な視覚的課題であり、ここ数年で研究の関心が高まりつつある。 現在の研究のほとんどは、空中画像を1つのシーンレベルラベルに分類する取り組みを主に展開しているが、現実のシナリオでは、1つの画像に複数のシーンが存在することが多い。 そこで本稿では,より実用的で困難な課題である単一画像におけるマルチシーン認識への一歩を踏み出すことを提案する。 また,このようなタスクに対して手動でアノテーションを付与することは,非常に時間と労力がかかることに留意する。 そこで本研究では,複数シーンを一つの画像で認識するためのプロトタイプベースのメモリネットワークを提案する。 提案するネットワークは,1) プロトタイプ学習モジュール,2) プロトタイプ搭載外部メモリ,3) マルチヘッド注意型メモリ検索モジュールの3つの主要コンポーネントから構成される。 より具体的には、まず1シーンの空中画像データセットから各空中シーンのプロトタイプ表現を学習し、それを外部メモリに格納する。 その後、複数シーン画像の検索に関連するシーンプロトタイプを検索して最終予測を行うマルチヘッドアテンションベースのメモリ検索モジュールが考案される。 特に、トレーニング段階では、注釈付きマルチシーン画像の限られた数しか必要としない。 航空シーン認識の進展を促進するため,我々は新しいマルチシーン空中画像(MAI)データセットを作成する。 変種データセット構成の実験結果は,ネットワークの有効性を示す。 データセットとコードは公開されています。

Aerial scene recognition is a fundamental visual task and has attracted an increasing research interest in the last few years. Most of current researches mainly deploy efforts to categorize an aerial image into one scene-level label, while in real-world scenarios, there often exist multiple scenes in a single image. Therefore, in this paper, we propose to take a step forward to a more practical and challenging task, namely multi-scene recognition in single images. Moreover, we note that manually yielding annotations for such a task is extraordinarily time- and labor-consuming. To address this, we propose a prototype-based memory network to recognize multiple scenes in a single image by leveraging massive well-annotated single-scene images. The proposed network consists of three key components: 1) a prototype learning module, 2) a prototype-inhabiting external memory, and 3) a multi-head attention-based memory retrieval module. To be more specific, we first learn the prototype representation of each aerial scene from single-scene aerial image datasets and store it in an external memory. Afterwards, a multi-head attention-based memory retrieval module is devised to retrieve scene prototypes relevant to query multi-scene images for final predictions. Notably, only a limited number of annotated multi-scene images are needed in the training phase. To facilitate the progress of aerial scene recognition, we produce a new multi-scene aerial image (MAI) dataset. Experimental results on variant dataset configurations demonstrate the effectiveness of our network. Our dataset and codes are publicly available.
翻訳日:2021-04-23 13:51:04 公開日:2021-04-22
# 時空間アライメントとアグリゲーションによるDeep Video Matting

Deep Video Matting via Spatio-Temporal Alignment and Aggregation ( http://arxiv.org/abs/2104.11208v1 )

ライセンス: Link先を確認
Yanan Sun, Guanzhi Wang, Qiao Gu, Chi-Keung Tang, Yu-Wing Tai(参考訳) 自然な画像マッチングの深層学習による顕著な進歩にもかかわらず、時間領域の推論や大規模ビデオマッチングデータセットの欠如による技術的課題から、ビデオマッチングの深層学習に関する代表的な研究はこれまでにない。 本稿では,新しい時空間特徴集約モジュール(st-fam)を用いた深層学習型ビデオマットリングフレームワークを提案する。 光フロー推定はマットング領域では極めて信頼できないため、st-famはネットワークデコーダ内の異なる空間スケールと時間枠にまたがる情報を効果的に調整し集約するように設計されている。 フレーム毎のトリマップアノテーションを排除するため、軽量なインタラクティブなトリマップ伝搬ネットワークも導入されている。 その他のコントリビューションは、定量評価のための基底αマット付き大規模ビデオマッチングデータセットと、質的評価のためのトリマップ付き実世界の高解像度ビデオからなる。 定量的および定性的な実験結果から,本フレームワークは多フレーム時間情報の存在下で,従来のビデオマッチング法や深部画像マッチング法よりも優れていることが示された。

Despite the significant progress made by deep learning in natural image matting, there has been so far no representative work on deep learning for video matting due to the inherent technical challenges in reasoning temporal domain and lack of large-scale video matting datasets. In this paper, we propose a deep learning-based video matting framework which employs a novel and effective spatio-temporal feature aggregation module (ST-FAM). As optical flow estimation can be very unreliable within matting regions, ST-FAM is designed to effectively align and aggregate information across different spatial scales and temporal frames within the network decoder. To eliminate frame-by-frame trimap annotations, a lightweight interactive trimap propagation network is also introduced. The other contribution consists of a large-scale video matting dataset with groundtruth alpha mattes for quantitative evaluation and real-world high-resolution videos with trimaps for qualitative evaluation. Quantitative and qualitative experimental results show that our framework significantly outperforms conventional video matting and deep image matting methods applied to video in presence of multi-frame temporal information.
翻訳日:2021-04-23 13:50:39 公開日:2021-04-22
# Open World Tracking のオープニング

Opening up Open-World Tracking ( http://arxiv.org/abs/2104.11221v1 )

ライセンス: Link先を確認
Yang Liu and Idil Esen Zulfikar and Jonathon Luiten and Achal Dave and Aljo\v{s}a O\v{s}ep and Deva Ramanan and Bastian Leibe and Laura Leal-Taix\'e(参考訳) 本稿では,Open-World Tracking (OWT)を提案する。 オープンワールドトラッキングは、頻繁に観察されるオブジェクトクラスの事前定義されたクローズドセットに属するオブジェクトクラスを追跡することに焦点を当てた、現在のマルチオブジェクトトラッキングベンチマークやメソッドを超えている。 OWTでは、トレーニング用にラベル付けされていない推論時にオブジェクトに遭遇する、という仮定を緩和しています。 本稿の主な貢献は,OWTタスクの形式化と評価プロトコルとメトリック(Open-World Tracking Accuracy, OWTA)の併用である。 これにより、マルチオブジェクトトラッキングコミュニティで提案されたデザインパターンに従う、いくつかの異なるベースラインを厳密に評価することができます。 さらに,我々のOpen-World Tracking Baselineは,OWT環境では良好に機能する一方で,従来のクローズドワールドベンチマークにおいて,調整やチューニングを伴わずに,ほぼ最先端の結果が得られることを示す。 本論文は,オープンワールドにおける多目的追跡の研究に向けた最初のステップであると考えている。これは,オープンワールドに現れる無限の多様なオブジェクトを理解し,反応し,そこから学ぶ必要がある,未来の知的エージェントにとって重要な課題である。

In this paper, we propose and study Open-World Tracking (OWT). Open-world tracking goes beyond current multi-object tracking benchmarks and methods which focus on tracking object classes that belong to a predefined closed-set of frequently observed object classes. In OWT, we relax this assumption: we may encounter objects at inference time that were not labeled for training. The main contribution of this paper is the formalization of the OWT task, along with an evaluation protocol and metric (Open-World Tracking Accuracy, OWTA), which decomposes into two intuitive terms, one for measuring recall, and another for measuring track association accuracy. This allows us to perform a rigorous evaluation of several different baselines that follow design patterns proposed in the multi-object tracking community. Further we show that our Open-World Tracking Baseline, while performing well in the OWT setting, also achieves near state-of-the-art results on traditional closed-world benchmarks, without any adjustments or tuning. We believe that this paper is an initial step towards studying multi-object tracking in the open world, a task of crucial importance for future intelligent agents that will need to understand, react to, and learn from, an infinite variety of objects that can appear in an open world.
翻訳日:2021-04-23 13:50:21 公開日:2021-04-22
# Pri3D: 3Dは2D表現学習に役立つか?

Pri3D: Can 3D Priors Help 2D Representation Learning? ( http://arxiv.org/abs/2104.11225v1 )

ライセンス: Link先を確認
Ji Hou, Saining Xie, Benjamin Graham, Angela Dai, Matthias Nie{\ss}ner(参考訳) 3d知覚の最近の進歩は、3d形状やシーンの幾何学的構造を理解することの素晴らしい進歩を示している。 このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。 本稿では,マルチビューRGB-Dデータに基づいて,ネットワーク事前学習のためのビュー不変な幾何学的表現を学習する手法を提案する。 本稿では,マルチビュー・インエイジ制約と画像幾何制約を併用したコントラスト学習手法を提案する。 この結果は、セマンティックセグメンテーション、インスタンスセグメンテーション、実世界の屋内データセットにおけるオブジェクト検出といったイメージベースタスクにおける2次元のみの表現学習よりも改善されるだけでなく、低データ構造において大幅な改善をもたらす。 我々は,全データに対するセマンティックセグメンテーションの6.0%,ScanNet上のベースラインに対する20%データに対する11.9%を大幅に改善したことを示す。

Recent advances in 3D perception have shown impressive progress in understanding geometric structures of 3Dshapes and even scenes. Inspired by these advances in geometric understanding, we aim to imbue image-based perception with representations learned under geometric constraints. We introduce an approach to learn view-invariant,geome try-aware representations for network pre-training, based on multi-view RGB-D data, that can then be effectively transferred to downstream 2D tasks. We propose to employ contrastive learning under both multi-view im-age constraints and image-geometry constraints to encode3D priors into learned 2D representations. This results not only in improvement over 2D-only representation learning on the image-based tasks of semantic segmentation, instance segmentation, and object detection on real-world in-door datasets, but moreover, provides significant improvement in the low data regime. We show a significant improvement of 6.0% on semantic segmentation on full data as well as 11.9% on 20% data against baselines on ScanNet.
翻訳日:2021-04-23 13:49:57 公開日:2021-04-22
# InstantNet: 瞬時に切り替え可能なネットワークの自動生成とデプロイ

InstantNet: Automated Generation and Deployment of Instantaneously Switchable-Precision Networks ( http://arxiv.org/abs/2104.10853v1 )

ライセンス: Link先を確認
Yonggan Fu, Zhongzhi Yu, Yongan Zhang, Yifan Jiang, Chaojian Li, Yongyuan Liang, Mingchao Jiang, Zhangyang Wang, Yingyan Lin(参考訳) ディープニューラルネットワーク(DNN)を搭載したIoT(Internet of Thing)デバイスは,(1)IoTデバイスにおける時間変化リソースに対応する即時精度効率トレードオフ機能を備えたDNNと,(2)異なるデバイス上でのDNNの実行効率を最適化するためのデータフローを備えた,効率的な開発とデプロイを実現するための,自動化ソリューションに対する大きな需要を動機付けている。 そこで本研究では,可変ビット幅で動作する切換え可能精度ネットワークの自動生成と展開を行うInstantNetを提案する。 広範な実験により、提案されたInstantNetは最先端の設計を一貫して上回っていることが示された。

The promise of Deep Neural Network (DNN) powered Internet of Thing (IoT) devices has motivated a tremendous demand for automated solutions to enable fast development and deployment of efficient (1) DNNs equipped with instantaneous accuracy-efficiency trade-off capability to accommodate the time-varying resources at IoT devices and (2) dataflows to optimize DNNs' execution efficiency on different devices. Therefore, we propose InstantNet to automatically generate and deploy instantaneously switchable-precision networks which operate at variable bit-widths. Extensive experiments show that the proposed InstantNet consistently outperforms state-of-the-art designs.
翻訳日:2021-04-23 13:49:38 公開日:2021-04-22
# ガイドオブザーバビリティを用いた強化学習

Reinforcement Learning using Guided Observability ( http://arxiv.org/abs/2104.10986v1 )

ライセンス: Link先を確認
Stephan Weigand, Pascal Klink, Jan Peters, Joni Pajarinen(参考訳) 近年のブレークスルーにより、強化学習(RL)は、逐次決定問題に挑戦する際、顕著な性能を示した。 しかし、開放的な疑問は、RLが実世界の多くの問題でよく見られる部分可観測性にどう対処するかである。 改良されたメモリ表現や部分可観測性に関する強い仮定に主眼を置いている現代のRLアプローチとは対照的に,多種多様なRL手法とともに適用可能な単純かつ効率的なアプローチを提案する。 トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。 半可観測型強化学習(po-grl)と呼ばれるこのアプローチは、最終的なポリシーの最適性を損なうことなく、ポリシー最適化中に完全な状態情報を利用することができる。 離散部分観測可能マルコフ決定プロセス (POMDP) のベンチマーク問題と連続部分観測可能 MuJoCo と OpenAI のジムタスクにおける総合的な評価は、PO-GRL が性能を向上させることを示している。 最後に,実バレットWAMロボットのボール・イン・ザ・カップ作業におけるPO-GRLを部分的に観察可能であることを示す。

Due to recent breakthroughs, reinforcement learning (RL) has demonstrated impressive performance in challenging sequential decision-making problems. However, an open question is how to make RL cope with partial observability which is prevalent in many real-world problems. Contrary to contemporary RL approaches, which focus mostly on improved memory representations or strong assumptions about the type of partial observability, we propose a simple but efficient approach that can be applied together with a wide variety of RL methods. Our main insight is that smoothly transitioning from full observability to partial observability during the training process yields a high performance policy. The approach, called partially observable guided reinforcement learning (PO-GRL), allows to utilize full state information during policy optimization without compromising the optimality of the final policy. A comprehensive evaluation in discrete partially observableMarkov decision process (POMDP) benchmark problems and continuous partially observable MuJoCo and OpenAI gym tasks shows that PO-GRL improves performance. Finally, we demonstrate PO-GRL in the ball-in-the-cup task on a real Barrett WAM robot under partial observability.
翻訳日:2021-04-23 13:49:21 公開日:2021-04-22
# 確率的最短経路:ミニマックス,パラメータフリーおよび水平自由回帰に向けて

Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret ( http://arxiv.org/abs/2104.11186v1 )

ライセンス: Link先を確認
Jean Tarbouriech, Runlong Zhou, Simon S. Du, Matteo Pirotta, Michal Valko, Alessandro Lazaric(参考訳) エージェントが目標状態に到達する前に蓄積される期待コストを最小化しようとする確率的短経路(ssp)設定における学習の問題について検討する。 我々は,経験的遷移を慎重に歪め,探索ボーナスで経験的コストを摂動させ,関連する値反復スキームの最適化と収束を両立させる新しいモデルベースアルゴリズムEB-SSPを設計する。 EB-SSP が minimax regret rate $\widetilde{O}(B_{\star} \sqrt{S A K})$, where $K$ is the number of episodes, $S$ is the number of state, $A$ is the number of action and $B_{\star}$ bounds the expected cumulative cost of the optimal policy from any state。 興味深いことに、EB-SSPはパラメータフリーでありながらこの結果を得る、すなわち、任意の状態からの最適ポリシーの期待時間とゴールを束縛する$B_{\star}$や$T_{\star}$の事前知識を必要としない。 さらに、様々なケース(例えば、$T_{\star}$のオーダー精度の推定値が利用可能である場合の正のコストや一般的なコストなど)について、後悔は$T_{\star}$に対する対数依存のみを含むので、有限ホリゾン MDP 設定を超えて、最初の地平面自由な後悔をもたらす。

We study the problem of learning in the stochastic shortest path (SSP) setting, where an agent seeks to minimize the expected cost accumulated before reaching a goal state. We design a novel model-based algorithm EB-SSP that carefully skews the empirical transitions and perturbs the empirical costs with an exploration bonus to guarantee both optimism and convergence of the associated value iteration scheme. We prove that EB-SSP achieves the minimax regret rate $\widetilde{O}(B_{\star} \sqrt{S A K})$, where $K$ is the number of episodes, $S$ is the number of states, $A$ is the number of actions and $B_{\star}$ bounds the expected cumulative cost of the optimal policy from any state, thus closing the gap with the lower bound. Interestingly, EB-SSP obtains this result while being parameter-free, i.e., it does not require any prior knowledge of $B_{\star}$, nor of $T_{\star}$ which bounds the expected time-to-goal of the optimal policy from any state. Furthermore, we illustrate various cases (e.g., positive costs, or general costs when an order-accurate estimate of $T_{\star}$ is available) where the regret only contains a logarithmic dependence on $T_{\star}$, thus yielding the first horizon-free regret bound beyond the finite-horizon MDP setting.
翻訳日:2021-04-23 13:48:59 公開日:2021-04-22
# RNN-Transducer予測ネットワークのテキストオンリー領域適応

Fast Text-Only Domain Adaptation of RNN-Transducer Prediction Network ( http://arxiv.org/abs/2104.11127v1 )

ライセンス: Link先を確認
Janne Pylkk\"onen (1), Antti Ukkonen (1 and 2), Juho Kilpikoski (1), Samu Tamminen (1), Hannes Heikinheimo (1) ((1) Speechly, (2) Department of Computer Science, University of Helsinki, Finland)(参考訳) エンドツーエンド音声認識システムの新しいタスクへの適応は困難であることが知られている。 様々な融合法で外部言語モデルを適用するソリューションがいくつか提案されており、おそらくは2パスデコードの組み合わせで提案されている。 また、TSシステムはエンドツーエンドモデルの適応データを生成するために使用されている。 本稿では,少量のテキストデータのみを用いて,RNNトランスデューサモデルを新しいドメインに効果的に適用できることを示す。 予測ネットワークを言語モデルとして解釈するモデル固有の構造を利用することにより、モデルに高速適応を適用することができる。 モデルへの適応は、複雑な復号時間融合と外部言語モデルの必要性を避ける。 適切な正規化を用いることで、予測ネットワークは優れた一般化能力を保ちながら、新しいドメインに適応することができる。 本稿では,複数のasr評価タスクを用いて,対象タスクwerにおいて,この手法が10~45%の相対的な利益をもたらすことを示す。 また,rnn-transducer prediction networkが言語モデルとしてどのように機能するかについても考察した。

Adaption of end-to-end speech recognition systems to new tasks is known to be challenging. A number of solutions have been proposed which apply external language models with various fusion methods, possibly with a combination of two-pass decoding. Also TTS systems have been used to generate adaptation data for the end-to-end models. In this paper we show that RNN-transducer models can be effectively adapted to new domains using only small amounts of textual data. By taking advantage of model's inherent structure, where the prediction network is interpreted as a language model, we can apply fast adaptation to the model. Adapting the model avoids the need for complicated decoding time fusions and external language models. Using appropriate regularization, the prediction network can be adapted to new domains while still retaining good generalization capabilities. We show with multiple ASR evaluation tasks how this method can provide relative gains of 10-45% in target task WER. We also share insights how RNN-transducer prediction network performs as a language model.
翻訳日:2021-04-23 13:47:55 公開日:2021-04-22
# 凸最適化問題の近似勾配へのADMM変換

Converting ADMM to a Proximal Gradient for Convex Optimization Problems ( http://arxiv.org/abs/2104.10911v1 )

ライセンス: Link先を確認
Ryosuke Shimmura and Joe Suzuki(参考訳) 機械学習とデータサイエンスでは、問題解決の効率性を考えることが多い。 混合ラッソや凸クラスタリングなどのスパース推定では、近似勾配法あるいは乗算器の交互方向法(ADMM)を適用し、この問題を解決する。 前者では行列分割を含めるのに時間がかかるが、後者ではfista(fast iterative shrinkage-thresholdi ng algorithm)のような効率的な手法が開発されている。 本稿では,admm溶液を近位勾配法に変換する一般的な方法を提案する。 次に, スパース凸クラスタリングやトレンドフィルタリングといったスパース推定問題に適用し, 数値実験により, 効率の面で大きな改善が得られることを示す。

In machine learning and data science, we often consider efficiency for solving problems. In sparse estimation, such as fused lasso and convex clustering, we apply either the proximal gradient method or the alternating direction method of multipliers (ADMM) to solve the problem. It takes time to include matrix division in the former case, while an efficient method such as FISTA (fast iterative shrinkage-thresholdi ng algorithm) has been developed in the latter case. This paper proposes a general method for converting the ADMM solution to the proximal gradient method, assuming that the constraints and objectives are strongly convex. Then, we apply it to sparse estimation problems, such as sparse convex clustering and trend filtering, and we show by numerical experiments that we can obtain a significant improvement in terms of efficiency.
翻訳日:2021-04-23 13:47:40 公開日:2021-04-22
# 変分ベイズ超木

Variational Bayesian Supertrees ( http://arxiv.org/abs/2104.11191v1 )

ライセンス: Link先を確認
Michael Karcher, Cheng Zhang, and Frederick A Matsen IV(参考訳) ある分類群の重複部分集合(例)を与えられた。 いずれの分類群についても, 系統樹のトポロジーの後方分布を推定するには, 系統樹のトポロジー全体の後部分布をどう推測すればよいか? 非ベイジアンの場合と同等の問題はかなりの研究を惹きつけたが、ベイジアンの場合はそのに値する注意を引き付けていない。 本稿では,この問題に対する変分ベイズアプローチを開発し,その効果を示す。

Given overlapping subsets of a set of taxa (e.g. species), and posterior distributions on phylogenetic tree topologies for each of these taxon sets, how can we infer a posterior distribution on phylogenetic tree topologies for the entire taxon set? Although the equivalent problem for in the non-Bayesian case has attracted substantial research, the Bayesian case has not attracted the attention it deserves. In this paper we develop a variational Bayes approach to this problem and demonstrate its effectiveness.
翻訳日:2021-04-23 13:47:26 公開日:2021-04-22
# 膜電位と活性化閾値ホメオスタシスによる連続学習と適応

Continuous Learning and Adaptation with Membrane Potential and Activation Threshold Homeostasis ( http://arxiv.org/abs/2104.10851v1 )

ライセンス: Link先を確認
Alexander Hadjiivanov(参考訳) ほとんどの古典的な(非スパイク)ニューラルネットワークモデルは、内部ニューロンのダイナミクスを無視し、ニューロンを単純な入力インテグレータとして扱う。 しかし、生体ニューロンは複雑なダイナミクスによって制御される内部状態を持ち、学習や適応、ネットワーク全体の活動や行動において重要な役割を果たす。 本稿では, 生体ニューロンの膜時間定数に類似した単一パラメータを用いて, 細胞内ニューロンの動態を効率的にシミュレートする, 生物学的に誘発されるいくつかのメカニズムを組み合わせた膜電位と活性化閾値ホメオスタシス(MPATH)ニューロンモデルを提案する。 このモデルにより、ニューロンは変動する入力が提示されたときに自動的に活動を調整することで、動的平衡の形式を維持することができる。 MPATHモデルの結果の1つは、神経活動の時間的側面に依存する過程をモデル化するために、繰り返し接続を伴わない時間感覚でニューロンを注入するということである。 実験はモデルが入力に適応し、継続的に学習する能力を示す。

Most classical (non-spiking) neural network models disregard internal neuron dynamics and treat neurons as simple input integrators. However, biological neurons have an internal state governed by complex dynamics that plays a crucial role in learning, adaptation and the overall network activity and behaviour. This paper presents the Membrane Potential and Activation Threshold Homeostasis (MPATH) neuron model, which combines several biologically inspired mechanisms to efficiently simulate internal neuron dynamics with a single parameter analogous to the membrane time constant in biological neurons. The model allows neurons to maintain a form of dynamic equilibrium by automatically regulating their activity when presented with fluctuating input. One consequence of the MPATH model is that it imbues neurons with a sense of time without recurrent connections, paving the way for modelling processes that depend on temporal aspects of neuron activity. Experiments demonstrate the model's ability to adapt to and continually learn from its input.
翻訳日:2021-04-23 13:45:53 公開日:2021-04-22
# 暗画像の深部露光補正のための周波数領域損失関数

Frequency Domain Loss Function for Deep Exposure Correction of Dark Images ( http://arxiv.org/abs/2104.10856v1 )

ライセンス: Link先を確認
Ojasvi Yadav, Koustav Ghosal, Sebastian Lutz, Aljosa Smolic(参考訳) 野生の低照度環境において撮影された暗くぼやけた画像の露光補正の問題に対処する。 古典的なイメージデオライジングフィルタは周波数空間でうまく機能するが、閾値の正しい選択、周波数推定などいくつかの要因によって制約される。 一方、従来のディープネットワークは、画像翻訳問題としてこのタスクを定式化することにより、RGB空間のエンドツーエンドで訓練されている。 しかし、これは暗黒画像固有のノイズに明示的な制約を伴わずに行われ、ノイズやぼやけた出力を生成する。 そこで本研究では,DCT/FFTに基づくマルチスケール損失関数を提案する。 私たちの損失関数は、エンドツーエンドの微分可能、スケール非依存、ジェネリックです。つまり、ほとんどの既存のフレームワークでRAWとJPEGの両方のイメージに、追加のオーバーヘッドなしで適用できます。 この損失関数を用いて, 定量的指標と主観的テストを用いて, 最新技術に対する大幅な改善を報告した。

We address the problem of exposure correction of dark, blurry and noisy images captured in low-light conditions in the wild. Classical image-denoising filters work well in the frequency space but are constrained by several factors such as the correct choice of thresholds, frequency estimates etc. On the other hand, traditional deep networks are trained end-to-end in the RGB space by formulating this task as an image-translation problem. However, that is done without any explicit constraints on the inherent noise of the dark images and thus produce noisy and blurry outputs. To this end we propose a DCT/FFT based multi-scale loss function, which when combined with traditional losses, trains a network to translate the important features for visually pleasing output. Our loss function is end-to-end differentiable, scale-agnostic, and generic; i.e., it can be applied to both RAW and JPEG images in most existing frameworks without additional overhead. Using this loss function, we report significant improvements over the state-of-the-art using quantitative metrics and subjective tests.
翻訳日:2021-04-23 13:45:36 公開日:2021-04-22
# 自律走行のための効率的なLiDARオドメトリー

Efficient LiDAR Odometry for Autonomous Driving ( http://arxiv.org/abs/2104.10879v1 )

ライセンス: Link先を確認
Xin Zheng, Jianke Zhu(参考訳) LiDARオドメトリーは、通常、スキャン登録問題として扱われる自律ナビゲーションの自己局在化とマッピングにおいて重要な役割を担っている。 KITTI odometryベンチマークで有望な性能を達成したが、従来の探索木に基づくアプローチでは、大規模なクラウドを効率的に扱うことが困難である。 近年の球面範囲画像ベース手法は,球面マッピングによる高速近接探索の利点を享受している。 しかし、LiDARビームとほぼ平行な接地点を扱うのはあまり効果的ではない。 これらの問題に対処するために,非球面領域画像と鳥眼視図の両面を活かして,新しい効率的なLiDARオドメトリー手法を提案する。 さらに,局所表面の正規性を頑健に推定する範囲適応法を導入する。 さらに,高速かつメモリ効率のよいモデル更新スキームを提案し,各点と対応する正規値を異なるタイムスタンプで融合する。 我々は,KITTI odometry ベンチマークで広範囲に実験を行い,提案手法が有効であることを示す有望な結果を得た。

LiDAR odometry plays an important role in self-localization and mapping for autonomous navigation, which is usually treated as a scan registration problem. Although having achieved promising performance on KITTI odometry benchmark, the conventional searching tree-based approach still has the difficulty in dealing with the large scale point cloud efficiently. The recent spherical range image-based method enjoys the merits of fast nearest neighbor search by spherical mapping. However, it is not very effective to deal with the ground points nearly parallel to LiDAR beams. To address these issues, we propose a novel efficient LiDAR odometry approach by taking advantage of both non-ground spherical range image and bird's-eye-view map for ground points. Moreover, a range adaptive method is introduced to robustly estimate the local surface normal. Additionally, a very fast and memory-efficient model update scheme is proposed to fuse the points and their corresponding normals at different time-stamps. We have conducted extensive experiments on KITTI odometry benchmark, whose promising results demonstrate that our proposed approach is effective.
翻訳日:2021-04-23 13:45:17 公開日:2021-04-22
# METGAN:光シート顕微鏡におけるTumour InpaintingとModality Synthesis

METGAN: Generative Tumour Inpainting and Modality Synthesis in Light Sheet Microscopy ( http://arxiv.org/abs/2104.10993v1 )

ライセンス: Link先を確認
Izabela Horvath, Johannes C. Paetzold, Oliver Schoppe, Rami Al-Maskari, Ivan Ezhov, Suprosanna Shit, Hongwei Li, Ali Ertuerk, Bjoern H. Menze(参考訳) 新たなマルチモーダルイメージング手法は、先臨床研究のための超高解像度データセットを生成することができる。 しかし、アノテーションの欠如により、このようなデータ分析にディープラーニングが広く使われるのを防いでいる。 これまでのところ、頻繁なラベルエラーのため、既存の生成モデルではこの問題を緩和できていない。 本稿では,実際の解剖情報を活用し,腫瘍の現実的な画像ラベル対を生成する新しい生成法を提案する。 解剖学的画像とラベルのためのデュアルパス生成器を構築し, 独立して事前学習されたセグメンタによって制約された, サイクル一貫性のある設定で学習する。 生成した画像は,既存の手法に比べて定量的に顕著に改善された。 合成の質を検証するため,合成データを付加したデータセット上でセグメンテーションネットワークを訓練し,ベースライン上のセグメンテーションを大幅に改善した。

Novel multimodal imaging methods are capable of generating extensive, super high resolution datasets for preclinical research. Yet, a massive lack of annotations prevents the broad use of deep learning to analyze such data. So far, existing generative models fail to mitigate this problem because of frequent labeling errors. In this paper, we introduce a novel generative method which leverages real anatomical information to generate realistic image-label pairs of tumours. We construct a dual-pathway generator, for the anatomical image and label, trained in a cycle-consistent setup, constrained by an independent, pretrained segmentor. The generated images yield significant quantitative improvement compared to existing methods. To validate the quality of synthesis, we train segmentation networks on a dataset augmented with the synthetic data, substantially improving the segmentation over baseline.
翻訳日:2021-04-23 13:45:00 公開日:2021-04-22
# ラウンドアラウンドアラウンドアラウンドにおける操作に基づくアンカー軌道仮説

Maneuver-based Anchor Trajectory Hypotheses at Roundabouts ( http://arxiv.org/abs/2104.11180v1 )

ライセンス: Link先を確認
Mohamed Hasan, Evangelos Paschalidis, Albert Solernou, He Wang, Gustav Markkula and Richard Romano(参考訳) 周辺車両の将来行動を予測することは、自動運転プラットフォームが他の交通を安全に移動するためには不可欠である。 これは、符号のない交差点を横切るような決定をするときに重要である。 人間の運転データから学習することで、挑戦的なラウンドアバウト環境における車両の動き予測の問題に対処する。 既存の再帰エンコーダデコーダモデルを拡張し、アンカー軌道と組み合わせてラウンドアバウンド上での車両挙動を予測する。 ドライバーの意図は、セマンティック駆動の概念に対応する一連の操作によって符号化される。 したがって,本モデルはラウンドアラウンドアラウンドアラウンドアラウンドにおける可能な結果の空間をカバーする操作特異的アンカートラジェクタ群を用いる。 提案モデルでは,操作固有アンカーに基づいて,予測される将来の軌道上のマルチモーダル分布を出力することができる。 本研究では,公開ラウンドデータセットを用いてモデルを評価し,提案手法を用いたアンカー回帰による予測精度の向上効果を示し,平均rmseを最良ベースラインより28%低減した。 私たちのコードはhttps://github.com/m -hasan-n/roundaboutで利用可能です。

Predicting future behavior of the surrounding vehicles is crucial for self-driving platforms to safely navigate through other traffic. This is critical when making decisions like crossing an unsignalized intersection. We address the problem of vehicle motion prediction in a challenging roundabout environment by learning from human driver data. We extend existing recurrent encoder-decoder models to be advantageously combined with anchor trajectories to predict vehicle behaviors on a roundabout. Drivers' intentions are encoded by a set of maneuvers that correspond to semantic driving concepts. Accordingly, our model employs a set of maneuver-specific anchor trajectories that cover the space of possible outcomes at the roundabout. The proposed model can output a multi-modal distribution over the predicted future trajectories based on the maneuver-specific anchors. We evaluate our model using the public RounD dataset and the experiment results show the effectiveness of the proposed maneuver-based anchor regression in improving prediction accuracy, reducing the average RMSE to 28% less than the best baseline. Our code is available at https://github.com/m -hasan-n/roundabout.
翻訳日:2021-04-23 13:44:45 公開日:2021-04-22
# 3次元誘導によるクロスドメイン・ディスタングル顔操作

Cross-Domain and Disentangled Face Manipulation with 3D Guidance ( http://arxiv.org/abs/2104.11228v1 )

ライセンス: Link先を確認
Can Wang and Menglei Chai and Mingming He and Dongdong Chen and Jing Liao(参考訳) 3次元誘導による顔画像操作は,その意味論的理解とユーザフレンドリーな制御可能性から,様々な対話的シナリオに広く適用されている。 しかし、既存の3dモデルに基づく操作方法は、非写実的な絵画や漫画の肖像画、さらには動物など、ドメイン外の顔に直接は適用できない。 この課題を克服するために,人間の3DMMを用いて任意の領域の顔を操作する最初の方法を提案する。 1) 3DMMパラメータから、各意味属性に対する不整合かつ正確な制御を保証する事前訓練されたStyleGAN2の潜伏空間埋め込みへの不整合マッピング、2)ドメインの相違をブリッジし、一貫した潜伏空間埋め込みを強制することによって、人間の3DMMをドメイン外面に適用するクロスドメイン適応、である。 実験と比較により、ポーズ、表情、形状、アルベド、照明といった主要な3次元顔属性を制御可能な様々な顔領域における高品質な意味操作法が優れていることが示された。 さらに,ユーザフレンドリーな制御と即時フィードバックをサポートする直感的な編集インタフェースを開発した。 私たちのプロジェクトページはhttps://cassiepython .github.io/sigasia/c ddfm3d.htmlです。

Face image manipulation via three-dimensional guidance has been widely applied in various interactive scenarios due to its semantically-meaning ful understanding and user-friendly controllability. However, existing 3D-morphable-model-b ased manipulation methods are not directly applicable to out-of-domain faces, such as non-photorealistic paintings, cartoon portraits, or even animals, mainly due to the formidable difficulties in building the model for each specific face domain. To overcome this challenge, we propose, as far as we know, the first method to manipulate faces in arbitrary domains using human 3DMM. This is achieved through two major steps: 1) disentangled mapping from 3DMM parameters to the latent space embedding of a pre-trained StyleGAN2 that guarantees disentangled and precise controls for each semantic attribute; and 2) cross-domain adaptation that bridges domain discrepancies and makes human 3DMM applicable to out-of-domain faces by enforcing a consistent latent space embedding. Experiments and comparisons demonstrate the superiority of our high-quality semantic manipulation method on a variety of face domains with all major 3D facial attributes controllable: pose, expression, shape, albedo, and illumination. Moreover, we develop an intuitive editing interface to support user-friendly control and instant feedback. Our project page is https://cassiepython .github.io/sigasia/c ddfm3d.html.
翻訳日:2021-04-23 13:44:28 公開日:2021-04-22
# MLを用いたコンパクトモデルによるクロス層信頼性と機能安全評価

Enabling Cross-Layer Reliability and Functional Safety Assessment Through ML-Based Compact Models ( http://arxiv.org/abs/2104.10941v1 )

ライセンス: Link先を確認
Dan Alexandrescu, Aneesh Balakrishnan, Thomas Lange and Maximilien Glorieux(参考訳) 典型的な設計フローは階層的であり、標準セルから完全なボードまで、多くの個々の技術要素を組み立てることに依存している。 プロバイダはコンパクトモデルを使用して、製品の簡易なビューをユーザに提供している。 設計者は、より複雑な構造においてより単純な要素をグループ化し、IP機密性やリバースエンジニアリングの可能性といった明らかな問題を伴って、システムの階層構造を通じて、信頼性と機能的安全情報の伝達を管理する必要がある。 本稿では,サブシステム要素の多数の個別モデルを単一のコンパクトモデルに統合し,階層構造に再利用可能な機械学習に基づくアプローチを提案する。 コンパクトモデルは一貫性、正確性、機密性を提供し、技術、ip、コンポーネント、サブシステムまたはシステムプロバイダは、ユーザが安全かつ正確に消費できる高品質の信頼性および機能安全コンパクトモデルを提供することができる。

Typical design flows are hierarchical and rely on assembling many individual technology elements from standard cells to complete boards. Providers use compact models to provide simplified views of their products to their users. Designers group simpler elements in more complex structures and have to manage the corresponding propagation of reliability and functional safety information through the hierarchy of the system, accompanied by the obvious problems of IP confidentiality, possibility of reverse engineering and so on. This paper proposes a machine-learning-bas ed approach to integrate the many individual models of a subsystem's elements in a single compact model that can be re-used and assembled further up in the hierarchy. The compact models provide consistency, accuracy and confidentiality, allowing technology, IP, component, sub-system or system providers to accompany their offering with high-quality reliability and functional safety compact models that can be safely and accurately consumed by their users.
翻訳日:2021-04-23 13:42:59 公開日:2021-04-22
# CryptGPU:GPU上での高速なプライバシ保護機械学習

CryptGPU: Fast Privacy-Preserving Machine Learning on the GPU ( http://arxiv.org/abs/2104.10949v1 )

ライセンス: Link先を確認
Sijun Tan, Brian Knott, Yuan Tian, and David J. Wu(参考訳) 我々は、GPU(グラフィック処理ユニット)上のすべての操作を実装するプライバシー保護機械学習システムであるCryptGPUを紹介する。 現代的なディープラーニングの成功においてGPUが重要な役割を果たすのと同じように、スケーラブルなプライバシ保護ディープラーニングを実現する上でも不可欠だ。 本稿では,線形代数のための高最適化cudaカーネルで処理可能な浮動小数点演算に,秘密共有値(離散領域)上の暗号操作をロスレスに埋め込む新しいインタフェースを導入することから始める。 次に,gpu上での線形および非線形操作のプライバシ保護評価を可能にするために,一連の"gpuフレンドリー"暗号プロトコルを識別する。 マイクロベンチマークは、私たちのプライベートGPUベースの畳み込みプロトコルが、類似のCPUベースのプロトコルよりも150倍以上高速であることを示している; ReLUアクティベーション関数のような非線形操作では、GPUベースのプロトコルは、CPUアナログの約10倍高速である。 cryptgpuでは、6000万以上のパラメータを持つ畳み込みニューラルネットワークのプライベート推論とプライベートトレーニングをサポートし、imagenetのような大規模なデータセットも処理します。 従来の最新技術と比較して,大規模モデルやデータセットを考える場合,プロトコルはプライベート推論の2倍から8倍,プライベートトレーニングの6倍から36倍改善されている。 私たちの研究は、高速なプライバシ保存機械学習を実現するために、GPU上でセキュアなマルチパーティ計算(MPC)を実行する可能性を示すだけでなく、GPUのコンピューティング能力を最大限に活用できる新しいMPCプリミティブを設計することの重要性も強調しています。

We introduce CryptGPU, a system for privacy-preserving machine learning that implements all operations on the GPU (graphics processing unit). Just as GPUs played a pivotal role in the success of modern deep learning, they are also essential for realizing scalable privacy-preserving deep learning. In this work, we start by introducing a new interface to losslessly embed cryptographic operations over secret-shared values (in a discrete domain) into floating-point operations that can be processed by highly-optimized CUDA kernels for linear algebra. We then identify a sequence of "GPU-friendly" cryptographic protocols to enable privacy-preserving evaluation of both linear and non-linear operations on the GPU. Our microbenchmarks indicate that our private GPU-based convolution protocol is over 150x faster than the analogous CPU-based protocol; for non-linear operations like the ReLU activation function, our GPU-based protocol is around 10x faster than its CPU analog. With CryptGPU, we support private inference and private training on convolutional neural networks with over 60 million parameters as well as handle large datasets like ImageNet. Compared to the previous state-of-the-art, when considering large models and datasets, our protocols achieve a 2x to 8x improvement in private inference and a 6x to 36x improvement for private training. Our work not only showcases the viability of performing secure multiparty computation (MPC) entirely on the GPU to enable fast privacy-preserving machine learning, but also highlights the importance of designing new MPC primitives that can take full advantage of the GPU's computing capabilities.
翻訳日:2021-04-23 13:42:43 公開日:2021-04-22
# 対向攻撃の性能評価:不一致と解決法

Performance Evaluation of Adversarial Attacks: Discrepancies and Solutions ( http://arxiv.org/abs/2104.11103v1 )

ライセンス: Link先を確認
Jing Wu, Mingyi Zhou, Ce Zhu, Yipeng Liu, Mehrtash Harandi, Li Li(参考訳) 近年,機械学習モデルのロバスト性に挑戦する攻撃手法が開発されている。 しかし、主要な評価基準は制限を経験し、異なる設定で結果に相違をもたらすことさえある。 グラデーションベースやクエリベースの攻撃を含む様々な攻撃アルゴリズムを調べることで、偏りのないパフォーマンス評価のための統一標準に関するコンセンサスが欠如していることに気付く。 そこで,本稿では,上記の不一致を効果的に解消するためのPSC(Piece-wise Smpling Curving)ツールキットを提案する。 さらに、PSCツールキットは計算コストと評価効率のバランスをとるオプションを提供する。 実験結果から,pscツールキットは攻撃アルゴリズムの包括的比較を行い,実際の差異を著しく低減した。

Recently, adversarial attack methods have been developed to challenge the robustness of machine learning models. However, mainstream evaluation criteria experience limitations, even yielding discrepancies among results under different settings. By examining various attack algorithms, including gradient-based and query-based attacks, we notice the lack of a consensus on a uniform standard for unbiased performance evaluation. Accordingly, we propose a Piece-wise Sampling Curving (PSC) toolkit to effectively address the aforementioned discrepancy, by generating a comprehensive comparison among adversaries in a given range. In addition, the PSC toolkit offers options for balancing the computational cost and evaluation effectiveness. Experimental results demonstrate our PSC toolkit presents comprehensive comparisons of attack algorithms, significantly reducing discrepancies in practice.
翻訳日:2021-04-23 13:42:14 公開日:2021-04-22
# モノのインターネットにおける異常検出のための効率的なワンクラスSVM

An Efficient One-Class SVM for Anomaly Detection in the Internet of Things ( http://arxiv.org/abs/2104.11146v1 )

ライセンス: Link先を確認
Kun Yang, Samory Kpotufe, Nick Feamster(参考訳) 安全でないiot(internet of things, モノのインターネット)デバイスは、重要なインフラストラクチャとインターネットに大きな脅威をもたらす。これらのデバイスからの異常な動作の検出は、依然として重要な重要性を持つが、これらのタイプのデバイスに対する高速で効率的で正確な異常検出("ノベルティ検出"とも呼ばれる)は、いまだに解明されていない。 1クラスサポートベクターマシン(ocsvm)は、{normal}データと{novel}データの間の複雑な非線形境界を適合させる柔軟性があるため、機械学習におけるノベルティ検出(または異常検出)のための最先端のアプローチの1つである。 スマートホームや都市、コネクテッドビルディングインフラストラクチャのIoTデバイスは、このような環境で現れるさまざまなデバイス、トラフィックパターン、タイプの異常のために、OCSVMで新規検出を行うための魅力的なユースケースを提供する。 これまでの多くの研究で、OCSVMをIoTの新規検出に適用している。 残念なことに、従来のOCSVMは大きなメモリ要件を導入しており、列車のサイズが大きくなるにつれて予測時に計算コストがかかるため、トレーニングポイントの数に応じてスケールする時間と時間を必要とする。 これらのメモリと計算の制約は、複雑な決定境界に適合する際の正確なモデルを開発するために、大規模なトレーニングセットが通常必要となる実世界のデプロイでは禁止される。 本研究では,これらの手法をクラスタリングとガウス混合モデルと組み合わせることで,検出精度を犠牲にすることなく,様々なIoT環境での予測時間と空間の大幅な高速化を実現することにより,いわゆるNystr\omと(ガウス)SketchingアプローチをOCSVMに拡張する。

Insecure Internet of things (IoT) devices pose significant threats to critical infrastructure and the Internet at large; detecting anomalous behavior from these devices remains of critical importance, but fast, efficient, accurate anomaly detection (also called "novelty detection") for these classes of devices remains elusive. One-Class Support Vector Machines (OCSVM) are one of the state-of-the-art approaches for novelty detection (or anomaly detection) in machine learning, due to their flexibility in fitting complex nonlinear boundaries between {normal} and {novel} data. IoT devices in smart homes and cities and connected building infrastructure present a compelling use case for novelty detection with OCSVM due to the variety of devices, traffic patterns, and types of anomalies that can manifest in such environments. Much previous research has thus applied OCSVM to novelty detection for IoT. Unfortunately, conventional OCSVMs introduce significant memory requirements and are computationally expensive at prediction time as the size of the train set grows, requiring space and time that scales with the number of training points. These memory and computational constraints can be prohibitive in practical, real-world deployments, where large training sets are typically needed to develop accurate models when fitting complex decision boundaries. In this work, we extend so-called Nystr\"om and (Gaussian) Sketching approaches to OCSVM, by combining these methods with clustering and Gaussian mixture models to achieve significant speedups in prediction time and space in various IoT settings, without sacrificing detection accuracy.
翻訳日:2021-04-23 13:42:02 公開日:2021-04-22
# マルチタスク学習によるリセットレス強化学習:人間の介入を伴わないデクサラスマニピュレーション行動の学習

Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention ( http://arxiv.org/abs/2104.11203v1 )

ライセンス: Link先を確認
Abhishek Gupta, Justin Yu, Tony Z. Zhao, Vikash Kumar, Aaron Rovinsky, Kelvin Xu, Thomas Devlin, Sergey Levine(参考訳) 強化学習(RL)アルゴリズムは、原則として、試行錯誤によって収集された実世界の大量のデータから学習することで、複雑なロボットスキルを習得することができる。 しかしながら、ほとんどのRLアルゴリズムは、データを収集するために慎重に設計されたセットアップを使用しており、エピソディックなリセットを提供するには人間の監督と介入が必要である。 これは特に、デクスタース操作のようなロボット工学の問題において顕著である。 データ収集をスケーラブルにするためには、明示的な計測や人間の介入なしに自律的に学習できるリセットフリーなアルゴリズムが必要である。 この領域での以前の作業のほとんどは、シングルタスクの学習を扱う。 しかし、私たちはまた、大きなレパートリーのスキルを発揮できるロボットを欲しがるかもしれない。 最初は、この問題を難しくするだけのように思える。 しかし、この研究で重要なことは、適切に選択されたマルチタスクRL設定が、必要最小限の機械で、実際にリセットなし学習の課題を軽減することである。 結果として、マルチタスク問題を解決することは、タスクの異なる組み合わせが他のタスクのリセットを実行するのに役立つため、リセットフリーな問題を解決することができる。 複数のタスクを一緒に学習し、それらを適切にシーケンスすることで、すべてのタスクをリセットフリーで効果的に学習できます。 このようなマルチタスク学習は,より複雑な問題に対して,リセットフリーな学習スキームを効果的にスケールすることができる。 本稿では,リセット不要な学習問題に対処するマルチタスク学習の簡単なスキームを提案し,ハードウェアとシミュレーションの両方において,明示的なリセットを伴わずに複雑な操作タスクを解く学習の有効性を示す。 この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。

Reinforcement Learning (RL) algorithms can in principle acquire complex robotic skills by learning from large amounts of data in the real world, collected via trial and error. However, most RL algorithms use a carefully engineered setup in order to collect data, requiring human supervision and intervention to provide episodic resets. This is particularly evident in challenging robotics problems, such as dexterous manipulation. To make data collection scalable, such applications require reset-free algorithms that are able to learn autonomously, without explicit instrumentation or human intervention. Most prior work in this area handles single-task learning. However, we might also want robots that can perform large repertoires of skills. At first, this would appear to only make the problem harder. However, the key observation we make in this work is that an appropriately chosen multi-task RL setting actually alleviates the reset-free learning challenge, with minimal additional machinery required. In effect, solving a multi-task problem can directly solve the reset-free problem since different combinations of tasks can serve to perform resets for other tasks. By learning multiple tasks together and appropriately sequencing them, we can effectively learn all of the tasks together reset-free. This type of multi-task learning can effectively scale reset-free learning schemes to much more complex problems, as we demonstrate in our experiments. We propose a simple scheme for multi-task learning that tackles the reset-free learning problem, and show its effectiveness at learning to solve complex dexterous manipulation tasks in both hardware and simulation without any explicit resets. This work shows the ability to learn dexterous manipulation behaviors in the real world with RL without any human intervention.
翻訳日:2021-04-23 13:41:32 公開日:2021-04-22
# 部分スペックル走査による圧縮型レンズレス内視鏡

Compressive lensless endoscopy with partial speckle scanning ( http://arxiv.org/abs/2104.10959v1 )

ライセンス: Link先を確認
St\'ephanie Gu\'erit, Siddharth Sivankutty, John Aldo Lee, Herv\'e Rigneault, Laurent Jacques(参考訳) レンズレス内視鏡(le)は、細胞規模でin vivo画像を取得する有望な装置である。 プローブの大きさは小さいため、組織を深く探査することができる。 マルチコアファイバ (MCF) を用いたレンズレス内視鏡は、一般に空間光変調器 (SLM) を用いて、MCFの出力において数百個のビームレットを集中点にコヒーレントに結合する。 このスポットはその後、試料を走査して蛍光像を生成する。 本稿では,圧縮センシング理論に触発された新しいスキャン手法である部分スペックルスキャン(PSS)を提案する。 このような戦略は、高い復元品質を維持しながら、写真白化を避ける。 我々は, LEの2つの重要な特性, (i) 容易にスペックルを生成する能力, (ii) 高速走査ミラーを用いて光パターンをシフトできるMCFにおけるメモリ効果について検討した。 まず、スペックルがサブ指数ランダムフィールドであることを示す。 その粒状構造にもかかわらず、再構成パラメータの適切な選択は、効率的なセンシング行列を構築する良い候補となる。 そして,本手法を数値的に検証し,実験データに適用する。 提案したセンシング技術は従来のラスタスキャンより優れており, はるかに少ない観察で高い再現性が得られる。 固定された再構成品質では,各観測のスペックルパターンの変更を必要とする圧縮センシング方式よりも高速である。

The lensless endoscope (LE) is a promising device to acquire in vivo images at a cellular scale. The tiny size of the probe enables a deep exploration of the tissues. Lensless endoscopy with a multicore fiber (MCF) commonly uses a spatial light modulator (SLM) to coherently combine, at the output of the MCF, few hundreds of beamlets into a focus spot. This spot is subsequently scanned across the sample to generate a fluorescent image. We propose here a novel scanning scheme, partial speckle scanning (PSS), inspired by compressive sensing theory, that avoids the use of an SLM to perform fluorescent imaging in LE with reduced acquisition time. Such a strategy avoids photo-bleaching while keeping high reconstruction quality. We develop our approach on two key properties of the LE: (i) the ability to easily generate speckles, and (ii) the memory effect in MCF that allows to use fast scan mirrors to shift light patterns. First, we show that speckles are sub-exponential random fields. Despite their granular structure, an appropriate choice of the reconstruction parameters makes them good candidates to build efficient sensing matrices. Then, we numerically validate our approach and apply it on experimental data. The proposed sensing technique outperforms conventional raster scanning: higher reconstruction quality is achieved with far fewer observations. For a fixed reconstruction quality, our speckle scanning approach is faster than compressive sensing schemes which require to change the speckle pattern for each observation.
翻訳日:2021-04-23 13:41:01 公開日:2021-04-22
# プライバシ保護型ブロックチェーンフェデレーションラーニングによる医療画像分析

Privacy-Preserved Blockchain-Federated -Learning for Medical Image Analysis Towards Multiple Parties ( http://arxiv.org/abs/2104.10903v1 )

ライセンス: Link先を確認
Rajesh Kumar, WenYong Wang, Cheng Yuan, Jay Kumar, Zakria, He Qing, Ting Yang, Abdullah Aman Khan(参考訳) ブロックチェーンネットワークで患者の-textquoteright sデータを共有することは、covid-19患者のより良い予測のために、正確なディープラーニングモデルを学ぶのに役立つ。 しかし、プライバシ(データ漏洩など)とセキュリティ(データの信頼性や信頼性など)の懸念は、医療センターにとって大きな課題である。 この課題を解決するため、この記事では、連合学習とブロックチェーンに基づくプライバシー保護フレームワークをデザインします。 第1段階では,covid-19画像のセグメンテーションと分類にカプセルネットワークを用いてローカルモデルを訓練する。 セグメンテーションは、モデルをトレーニングするためのノジュールと分類を抽出することを目的としている。 第2のステップでは、同型暗号方式により局所モデルを確保します。 設計されたスキームは、フェデレーション学習の勾配を暗号化し、復号する。 さらに,モデルの分散化のために,勾配を集約し,局所モデルを更新するブロックチェーンベースのフェデレーション学習アルゴリズムを設計する。 このようにして、提案した暗号化スキームはデータプロバイダのプライバシを実現し、ブロックチェーンは共有データの信頼性を保証する。 実験の結果,提案手法の性能を実証した。

To share the patient\textquoterig ht s data in the blockchain network can help to learn the accurate deep learning model for the better prediction of COVID-19 patients. However, privacy (e.g., data leakage) and security (e.g., reliability or trust of data) concerns are the main challenging task for the health care centers. To solve this challenging task, this article designs a privacy-preserving framework based on federated learning and blockchain. In the first step, we train the local model by using the capsule network for the segmentation and classification of the COVID-19 images. The segmentation aims to extract nodules and classification to train the model. In the second step, we secure the local model through the homomorphic encryption scheme. The designed scheme encrypts and decrypts the gradients for federated learning. Moreover, for the decentralization of the model, we design a blockchain-based federated learning algorithm that can aggregate the gradients and update the local model. In this way, the proposed encryption scheme achieves the data provider privacy, and blockchain guarantees the reliability of the shared data. The experiment results demonstrate the performance of the proposed scheme.
翻訳日:2021-04-23 13:40:31 公開日:2021-04-22
# (参考訳) GLiDE:Centroidal Modelを用いた異種環境における一般化可能な四足歩行 [全文訳有]

GLiDE: Generalizable Quadrupedal Locomotion in Diverse Environments with a Centroidal Model ( http://arxiv.org/abs/2104.09771v2 )

ライセンス: CC BY 4.0
Zhaoming Xie, Xingye Da, Buck Babich, Animesh Garg, Michiel van de Panne(参考訳) 足歩行のためのモデルフリー強化学習(RL)は、通常、ロボットのあらゆる自由度の振る舞いを正確に予測できる物理シミュレータに依存している。 対照的に、近似還元次モデルは、多くのモデルベースの制御戦略に十分であることが多い。 本研究では,RLを中心運動モデルで効果的に利用して,四足歩行に対するロバストな制御ポリシを生成する方法について検討する。 フルオーダーモデルによるRLよりも優れているのは、単純な報酬構造、計算コストの削減、堅牢なsim-to-real転送である。 さらに,ステップストーン移動,2本足内バランス,バランスビーム移動,シム・トゥ・リアル移動を,さらに適応することなく示すことにより,その可能性を示す。 追加結果: https://www.pair.tor onto.edu/glide-quadr uped/。

Model-free reinforcement learning (RL) for legged locomotion commonly relies on a physics simulator that can accurately predict the behaviors of every degree of freedom of the robot. In contrast, approximate reduced-order models are often sufficient for many model-based control strategies. In this work we explore how RL can be effectively used with a centroidal model to generate robust control policies for quadrupedal locomotion. Advantages over RL with a full-order model include a simple reward structure, reduced computational costs, and robust sim-to-real transfer. We further show the potential of the method by demonstrating stepping-stone locomotion, two-legged in-place balance, balance beam locomotion, and sim-to-real transfer without further adaptations. Additional Results: https://www.pair.tor onto.edu/glide-quadr uped/.
翻訳日:2021-04-23 11:54:45 公開日:2021-04-22
# (参考訳) SSLM:MRビデオによる診断のための自己監督型学習 [全文訳有]

SSLM: Self-Supervised Learning for Medical Diagnosis from MR Video ( http://arxiv.org/abs/2104.10481v2 )

ライセンス: CC BY 4.0
Siladittya Manna, Saumik Bhattacharya, Umapada Pal(参考訳) 医用画像解析において、高品質なデータを取得するコストと専門家によるアノテーションは、多くの医療応用において障壁となる。 ほとんどのテクニックは教師付き学習フレームワークに基づいており、十分なパフォーマンスを達成するには大量の注釈付きデータが必要である。 そこで本研究では,mri(mr)ビデオクリップのフレームから,膝関節疾患の診断のための空間解剖学的表現を学ぶための自己教師あり学習手法を提案する。 テキストモデルは意味のある空間的文脈不変表現を学習する。 本論文の下流タスクは,クラス不均衡なマルチラベル分類である。 異なる実験により、pretextモデルによって学習された機能は、下流タスクで説明可能なパフォーマンスを提供することが示された。 さらに,データセット内の不均衡に対する戦略を適用せず,マイノリティクラスの表現を学習することにおける,提案プリテキストモデルの効率と信頼性を考察した。 我々の知る限り、この研究はMRビデオ上のクラス不均衡多ラベル分類タスクにおける自己教師付き学習アルゴリズムの有効性と信頼性を示す最初の研究である。 提案する作業の評価コードはhttps://github.com/s adimanna/sslmで入手できる。

In medical image analysis, the cost of acquiring high-quality data and their annotation by experts is a barrier in many medical applications. Most of the techniques used are based on supervised learning framework and need a large amount of annotated data to achieve satisfactory performance. As an alternative, in this paper, we propose a self-supervised learning approach to learn the spatial anatomical representations from the frames of magnetic resonance (MR) video clips for the diagnosis of knee medical conditions. The pretext model learns meaningful spatial context-invariant representations. The downstream task in our paper is a class imbalanced multi-label classification. Different experiments show that the features learnt by the pretext model provide explainable performance in the downstream task. Moreover, the efficiency and reliability of the proposed pretext model in learning representations of minority classes without applying any strategy towards imbalance in the dataset can be seen from the results. To the best of our knowledge, this work is the first work of its kind in showing the effectiveness and reliability of self-supervised learning algorithms in class imbalanced multi-label classification tasks on MR video. The code for evaluation of the proposed work is available at https://github.com/s adimanna/sslm
翻訳日:2021-04-23 11:34:07 公開日:2021-04-22
# (参考訳) 潜在変数モデルによるロスレス圧縮

Lossless Compression with Latent Variable Models ( http://arxiv.org/abs/2104.10544v2 )

ライセンス: CC0 1.0
James Townsend(参考訳) 非対称数値系を用いたビットバック (bb-ans) と呼ばれる潜在変数モデルを用いて, 簡易かつエレガントなロスレス圧縮法を開発した。 この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。 我々はまずMNISTテストセット上で,小変動オートエンコーダ(VAE)モデルを用いて,最先端のロスレス圧縮が可能であることを示す。 次に,完全畳み込み生成モデルを用いて任意のサイズの画像に一般化し,階層的潜在変数モデルにbb-anを拡張し,imagenetデータセットからのフルサイズのカラー画像の最先端のロスレス圧縮を可能にする,新たな経験的洞察を利用する。 我々は、深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュラーソフトウェアフレームワークであるCraystackについて述べる。

We develop a simple and elegant method for lossless compression using latent variable models, which we call 'bits back with asymmetric numeral systems' (BB-ANS). The method involves interleaving encode and decode steps, and achieves an optimal rate when compressing batches of data. We demonstrate it firstly on the MNIST test set, showing that state-of-the-art lossless compression is possible using a small variational autoencoder (VAE) model. We then make use of a novel empirical insight, that fully convolutional generative models, trained on small images, are able to generalize to images of arbitrary size, and extend BB-ANS to hierarchical latent variable models, enabling state-of-the-art lossless compression of full-size colour images from the ImageNet dataset. We describe 'Craystack', a modular software framework which we have developed for rapid prototyping of compression using deep generative models.
翻訳日:2021-04-23 11:19:36 公開日:2021-04-22
# da-dgcex: 分散認識型オートエンコーダ損失による深い説明の妥当性の確保

DA-DGCEx: Ensuring Validity of Deep Guided Counterfactual Explanations With Distribution-Aware Autoencoder Loss ( http://arxiv.org/abs/2104.09062v3 )

ライセンス: Link先を確認
Jokin Labaien, Ekhi Zugasti, Xabier De Carlos(参考訳) ディープラーニングはさまざまな分野で非常に価値のあるツールになっていますが、これらのモデルの学習能力に疑問を持つ人はいません。 それでも、ディープラーニングモデルは解釈可能性の欠如からブラックボックスと見なされることが多いため、意思決定プロセスに一般的な不信がある。 近年、有効性と解釈可能性のバランスを見つけるために、説明可能な人工知能(XAI)が人気を集めており、この分野の手法のいくつかは、反現実的な説明を生み出すために使われている。 これらの説明を生成するプロセスは、一般的に、説明すべき各入力の最適化問題を解決することで成り立っている。 この処理を高速化するために、いくつかの手法は自動エンコーダを使用して、即時対実的な説明を生成する。 近年,分類モデルに付随するオートエンコーダを訓練し,簡単な反事実説明を生成するdgcex(deep guided counterfactual explanations)という手法が提案されている。 しかし、この方法は生成した反実例がデータ多様体に近いことを保証しないので、非現実的な反実例を生成することができる。 そこで本論文では,DGCExのコスト関数を付加したDA-DGCEx(Dis Distribution Aware Deep Guided Counterfactual Explanations)を提案する。

Deep Learning has become a very valuable tool in different fields, and no one doubts the learning capacity of these models. Nevertheless, since Deep Learning models are often seen as black boxes due to their lack of interpretability, there is a general mistrust in their decision-making process. To find a balance between effectiveness and interpretability, Explainable Artificial Intelligence (XAI) is gaining popularity in recent years, and some of the methods within this area are used to generate counterfactual explanations. The process of generating these explanations generally consists of solving an optimization problem for each input to be explained, which is unfeasible when real-time feedback is needed. To speed up this process, some methods have made use of autoencoders to generate instant counterfactual explanations. Recently, a method called Deep Guided Counterfactual Explanations (DGCEx) has been proposed, which trains an autoencoder attached to a classification model, in order to generate straightforward counterfactual explanations. However, this method does not ensure that the generated counterfactual instances are close to the data manifold, so unrealistic counterfactual instances may be generated. To overcome this issue, this paper presents Distribution Aware Deep Guided Counterfactual Explanations (DA-DGCEx), which adds a term to the DGCEx cost function that penalizes out of distribution counterfactual instances.
翻訳日:2021-04-23 11:18:27 公開日:2021-04-22
# 超ピクセルとグラフ畳み込みニューラルネットワークによる空中画像からの栄養不足ストレスの効率的な検出

Superpixels and Graph Convolutional Neural Networks for Efficient Detection of Nutrient Deficiency Stress from Aerial Imagery ( http://arxiv.org/abs/2104.10249v2 )

ライセンス: Link先を確認
Saba Dadsetan, David Pichler, David Wilson, Naira Hovakimyan, Jennifer Hobbs(参考訳) リモートセンシング技術の進歩は、膨大な量のデータの収集につながった。 画像解像度の向上、再訪回数の頻繁化、スペクトルチャネルの追加により、農業を含む各領域にまたがる分析と知性を提供するデータ量が爆発的に増加した。 しかし、このデータの処理には計算時間と費用の面でコストが伴うため、アルゴリズムの目的が効率を改善するためにリアルタイムインテリジェンスを提供することである場合、どちらも考慮する必要がある。 具体的には、養分不足地域をリモートで検知したデータから特定し、農夫に注意を要する地域へ警告する。 過去の手法はピクセルレベルの分類(すなわちピクセルレベルの分類)に重点を置いてきた。 セマンティックセグメンテーション(セマンティックセグメンテーション)は、これらのタスクを達成するためのフィールドであり、しばしば数万のパラメータを持つディープラーニングモデルを使用する。 対照的に,ノードベースの分類を行うためのより軽量なグラフベース手法を提案する。 まず、フィールド全体にわたってスーパーピクセルを生成するためにSimple Linear Iterative Cluster(SLIC)を使用します。 次に,超画素の非ユークリッド領域のセグメンテーションを行うために,グラフ畳み込みニューラルネットワーク(GCN)を利用する。 このモデルは、cnnモデルよりも4桁少ないパラメータを持ち、数分で列車が走る。

Advances in remote sensing technology have led to the capture of massive amounts of data. Increased image resolution, more frequent revisit times, and additional spectral channels have created an explosion in the amount of data that is available to provide analyses and intelligence across domains, including agriculture. However, the processing of this data comes with a cost in terms of computation time and money, both of which must be considered when the goal of an algorithm is to provide real-time intelligence to improve efficiencies. Specifically, we seek to identify nutrient deficient areas from remotely sensed data to alert farmers to regions that require attention; detection of nutrient deficient areas is a key task in precision agriculture as farmers must quickly respond to struggling areas to protect their harvests. Past methods have focused on pixel-level classification (i.e. semantic segmentation) of the field to achieve these tasks, often using deep learning models with tens-of-millions of parameters. In contrast, we propose a much lighter graph-based method to perform node-based classification. We first use Simple Linear Iterative Cluster (SLIC) to produce superpixels across the field. Then, to perform segmentation across the non-Euclidean domain of superpixels, we leverage a Graph Convolutional Neural Network (GCN). This model has 4-orders-of-magnitud e fewer parameters than a CNN model and trains in a matter of minutes.
翻訳日:2021-04-23 11:18:02 公開日:2021-04-22
# カリキュラム学習による多目的建築における初期出力の精度向上

Improving the Accuracy of Early Exits in Multi-Exit Architectures via Curriculum Learning ( http://arxiv.org/abs/2104.10461v2 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) エッジコンピューティングシステムを使用したIoTのような時間に敏感でリソースに制約のある設定のためのディープラーニングサービスをデプロイすることは、推論時間の動的調整を必要とする難しいタスクである。 マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。 このコストを軽減するために,ニューラルネットワークのカリキュラム学習を利用するマルチエクイットカリキュラム学習という,学習の難しさに基づいてトレーニングサンプルをソートし,徐々にネットワークに導入することで,人間の学習を模倣するトレーニング戦略を提案する。 CIFAR-10 と CIFAR-100 データセットの実験とマルチエグジットアーキテクチャの様々な構成により,本手法は標準トレーニング手法と比較して早期出口の精度を一貫して向上することが示された。

Deploying deep learning services for time-sensitive and resource-constrained settings such as IoT using edge computing systems is a challenging task that requires dynamic adjustment of inference time. Multi-exit architectures allow deep neural networks to terminate their execution early in order to adhere to tight deadlines at the cost of accuracy. To mitigate this cost, in this paper we introduce a novel method called Multi-Exit Curriculum Learning that utilizes curriculum learning, a training strategy for neural networks that imitates human learning by sorting the training samples based on their difficulty and gradually introducing them to the network. Experiments on CIFAR-10 and CIFAR-100 datasets and various configurations of multi-exit architectures show that our method consistently improves the accuracy of early exits compared to the standard training approach.
翻訳日:2021-04-23 11:17:39 公開日:2021-04-22
# Dual Head Adversarial Training

Dual Head Adversarial Training ( http://arxiv.org/abs/2104.10377v2 )

ライセンス: Link先を確認
Yujing Jiang, Xingjun Ma, Sarah Monazam Erfani and James Bailey(参考訳) ディープニューラルネットワーク(DNN)は、敵の例や攻撃に対して脆弱であることが知られており、安全クリティカルなアプリケーションにおける信頼性への懸念が高まっている。 敵の攻撃に抵抗する堅牢なDNNを訓練するための防衛方法がいくつか提案されているが、その中では敵の訓練が最も有望な結果を示している。 しかし、近年の研究では、adversarially-traine d dnnの正確性と堅牢性の間に固有のトレードオフがあることが示されている。 本稿では,既存の対向訓練法のロバスト性をさらに高めるための新しい手法であるdh-atを提案する。 既存の改良された対向訓練とは異なり、dh-atはネットワークのアーキテクチャとより堅牢性を求めるトレーニング戦略の両方を修正している。 具体的には、DH-ATはまず第2のネットワークヘッド(または分岐)をネットワークの中間層にアタッチし、2つのヘッドの出力を集約するために軽量畳み込みニューラルネットワーク(CNN)を使用する。 訓練戦略は2つの頭部の相対的な重要性を反映している。 複数のベンチマークデータセットにおいて、DH-ATが既存の対戦訓練手法に顕著な堅牢性向上をもたらすことを実証的に示す。 TRADESと比較すると,DH-ATはPGD40に対する3.4%,AutoAttackに対する2.3%の堅牢性を向上し,クリーンな精度を1.8%向上させることができる。

Deep neural networks (DNNs) are known to be vulnerable to adversarial examples/attacks, raising concerns about their reliability in safety-critical applications. A number of defense methods have been proposed to train robust DNNs resistant to adversarial attacks, among which adversarial training has so far demonstrated the most promising results. However, recent studies have shown that there exists an inherent tradeoff between accuracy and robustness in adversarially-traine d DNNs. In this paper, we propose a novel technique Dual Head Adversarial Training (DH-AT) to further improve the robustness of existing adversarial training methods. Different from existing improved variants of adversarial training, DH-AT modifies both the architecture of the network and the training strategy to seek more robustness. Specifically, DH-AT first attaches a second network head (or branch) to one intermediate layer of the network, then uses a lightweight convolutional neural network (CNN) to aggregate the outputs of the two heads. The training strategy is also adapted to reflect the relative importance of the two heads. We empirically show, on multiple benchmark datasets, that DH-AT can bring notable robustness improvements to existing adversarial training methods. Compared with TRADES, one state-of-the-art adversarial training method, our DH-AT can improve the robustness by 3.4% against PGD40 and 2.3% against AutoAttack, and also improve the clean accuracy by 1.8%.
翻訳日:2021-04-23 11:17:22 公開日:2021-04-22
# 任意形テキスト検出のためのフーリエ輪郭埋め込み

Fourier Contour Embedding for Arbitrary-Shaped Text Detection ( http://arxiv.org/abs/2104.10442v2 )

ライセンス: Link先を確認
Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhanghui Kuang, Lianwen Jin and Wayne Zhang(参考訳) 任意の形のテキスト検出の主な課題の1つは、ネットワークが多様なテキスト幾何分散を学習できる優れたテキストインスタンス表現を設計することである。 既存の手法のほとんどは、デカルト座標系や極座標系におけるマスクや輪郭点列を通して、画像空間領域内のテキストインスタンスをモデル化する。 しかし、マスク表現は高価な後処理につながるかもしれないが、ポイントシーケンスは高度に湾曲した形状のテキストをモデル化する能力に制限がある。 これらの問題に対処するために、フーリエ領域のテキストインスタンスをモデル化し、任意の形状のテキスト輪郭をコンパクトなシグネチャとして表現するための新しいFCE法を提案する。 さらに、FCENetをバックボーン、機能ピラミッドネットワーク(FPN)、逆フーリエ変換(IFT)および非最大抑圧(NMS)で単純な後処理で構築する。 以前の方法とは異なり、FCENetはまずテキストインスタンスのコンパクトなフーリエシグネチャを予測し、テスト中にIFTとNMSを介してテキストの輪郭を再構築する。 広範な実験により、fceは高曲率な形状であってもシーンテキストの輪郭に適合する精度と頑健さを示し、任意の形状のテキスト検出におけるfcenetの有効性と優れた一般化を検証する。 さらに,実験結果から,FCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れていることがわかった。

One of the main challenges for arbitrary-shaped text detection is to design a good text instance representation that allows networks to learn diverse text geometry variances. Most of existing methods model text instances in image spatial domain via masks or contour point sequences in the Cartesian or the polar coordinate system. However, the mask representation might lead to expensive post-processing, while the point sequence one may have limited capability to model texts with highly-curved shapes. To tackle these problems, we model text instances in the Fourier domain and propose one novel Fourier Contour Embedding (FCE) method to represent arbitrary shaped text contours as compact signatures. We further construct FCENet with a backbone, feature pyramid networks (FPN) and a simple post-processing with the Inverse Fourier Transformation (IFT) and Non-Maximum Suppression (NMS). Different from previous methods, FCENet first predicts compact Fourier signatures of text instances, and then reconstructs text contours via IFT and NMS during test. Extensive experiments demonstrate that FCE is accurate and robust to fit contours of scene texts even with highly-curved shapes, and also validate the effectiveness and the good generalization of FCENet for arbitrary-shaped text detection. Furthermore, experimental results show that our FCENet is superior to the state-of-the-art (SOTA) methods on CTW1500 and Total-Text, especially on challenging highly-curved text subset.
翻訳日:2021-04-23 11:16:53 公開日:2021-04-22
# 3次元点雲からのボクセル構造に基づくメッシュ再構成

Voxel Structure-based Mesh Reconstruction from a 3D Point Cloud ( http://arxiv.org/abs/2104.10622v2 )

ライセンス: Link先を確認
Chenlei Lv, Weisi Lin, Baoquan Zhao(参考訳) 3Dポイントクラウドからのメッシュ再構築は、コンピュータグラフィック、コンピュータビジョン、マルチメディア分析の分野で重要なトピックである。 本稿では,ボクセル構造に基づくメッシュ再構築フレームワークを提案する。 局所領域検出の精度を向上させるための本質的な指標を提供する。 検出された局所領域に基づいて、初期再構成メッシュを得ることができる。 我々のフレームワークにおけるメッシュ最適化では、初期再構成メッシュは、外部エッジや内部エッジといった重要な幾何学的特徴を持つ等方的メッシュに最適化される。 実験の結果,メッシュ品質,幾何的特徴保持,処理速度の点で,我々のフレームワークはピアに比べて大きな優位性を示した。

Mesh reconstruction from a 3D point cloud is an important topic in the fields of computer graphic, computer vision, and multimedia analysis. In this paper, we propose a voxel structure-based mesh reconstruction framework. It provides the intrinsic metric to improve the accuracy of local region detection. Based on the detected local regions, an initial reconstructed mesh can be obtained. With the mesh optimization in our framework, the initial reconstructed mesh is optimized into an isotropic one with the important geometric features such as external and internal edges. The experimental results indicate that our framework shows great advantages over peer ones in terms of mesh quality, geometric feature keeping, and processing speed.
翻訳日:2021-04-23 11:16:21 公開日:2021-04-22
# 変動性ターゲティングのためのモデルベースおよびモデルフリーrl混合金融市場の適応学習

Adaptive learning for financial markets mixing model-based and model-free RL for volatility targeting ( http://arxiv.org/abs/2104.10483v2 )

ライセンス: Link先を確認
Eric Benhamou and David Saltiel and Serge Tabachnik and Sui Kai Wong and Fran\c{c}ois Chareyron(参考訳) モデルフリー強化学習は安定した環境において有意義な成果を上げてきたが、今日でも金融市場のような環境の変化に問題がある。 対照的に、モデルベースのrlは環境の基本的な動的概念を捉えることができるが、認知バイアスに苦しむ。 本研究では,モデルフリーの深層強化学習により,モデルベースアプローチを選択することによって,この2つの手法の最良の組み合わせを提案する。 過去のパフォーマンスやボラティリティだけでなく、暗黙のレジームの変化を考慮したマクロやリスクに対する欲求といった追加のコンテキスト情報も使用しています。 また,トレーニングセットの過去のデータのみを考慮することで,従来のRL手法を現実の状況に適用する。 したがって、K-foldクロスバリデーションで示されるトレーニングデータセットでは、将来の情報は利用できない。 従来の統計手法を基盤として,拡張期間に基づく連続的なトレーニングとテストによって定義される従来の「ウォークフォワード分析」を用いて,エージェントの頑健さを断定する。 最後に、2尾のT-テストに基づく統計的差分の重要性の概念を示し、我々のモデルが従来のモデルと異なる方法を強調する。 実験結果から,本手法は,ネットパフォーマンス,シャープ,ソーティノ比,最大ドローダウン,ボラティリティに対する最大ドローダウンなど,金融数学で一般的に用いられる評価指標のほとんどすべてにおいて,markowitzモデルのような従来の金融ベースラインモデルよりも優れていることが示された。

Model-Free Reinforcement Learning has achieved meaningful results in stable environments but, to this day, it remains problematic in regime changing environments like financial markets. In contrast, model-based RL is able to capture some fundamental and dynamical concepts of the environment but suffer from cognitive bias. In this work, we propose to combine the best of the two techniques by selecting various model-based approaches thanks to Model-Free Deep Reinforcement Learning. Using not only past performance and volatility, we include additional contextual information such as macro and risk appetite signals to account for implicit regime changes. We also adapt traditional RL methods to real-life situations by considering only past data for the training sets. Hence, we cannot use future information in our training data set as implied by K-fold cross validation. Building on traditional statistical methods, we use the traditional "walk-forward analysis", which is defined by successive training and testing based on expanding periods, to assert the robustness of the resulting agent. Finally, we present the concept of statistical difference's significance based on a two-tailed T-test, to highlight the ways in which our models differ from more traditional ones. Our experimental results show that our approach outperforms traditional financial baseline portfolio models such as the Markowitz model in almost all evaluation metrics commonly used in financial mathematics, namely net performance, Sharpe and Sortino ratios, maximum drawdown, maximum drawdown over volatility.
翻訳日:2021-04-23 11:16:13 公開日:2021-04-22
# 量子離散事象システムの監視制御

Supervisory Control of Quantum Discrete Event Systems ( http://arxiv.org/abs/2104.09753v2 )

ライセンス: Link先を確認
Daowen Qiu(参考訳) 離散イベントシステム(DES)は、ファジィおよび確率論的システムにおける実用的な応用の必要性から、確率的およびファジィコンピューティングモデルの枠組みとして確立され、深く発展してきた。 量子コンピューティングと量子制御の発展により、自然問題は量子コンピューティングモデルを用いてDESをシミュレートし、量子DES(QDES)を確立することである。 その動機は2つある:一方、qdesは量子コンピュータによってdesがシミュレーションされ処理される場合、量子システムは離散的な事象によって駆動される状態の進化をシミュレートするために使用される。 本稿では,量子有限オートマトン(qfa)をモデル形式としてqdesの基本枠組みを確立することを目的として,qdesの監督制御定理を定式化・証明する。 次に,制御性条件が成立するか否かを決定する多項式時間アルゴリズムを提案する。 特に,qdesの監視制御を記述し,状態複雑度に対するqdesの本質的利点を検証するために,qfaの新たな例をいくつか構築する。

Discrete event systems (DES) have been established and deeply developed in the framework of probabilistic and fuzzy computing models due to the necessity of practical applications in fuzzy and probabilistic systems. With the development of quantum computing and quantum control, a natural problem is to simulate DES by means of quantum computing models and to establish {\it quantum DES} (QDES). The motivation is twofold: on the one hand, QDES have potential applications when DES are simulated and processed by quantum computers, where quantum systems are employed to simulate the evolution of states driven by discrete events, and on the other hand, QDES may have essential advantages over DES concerning state complexity for imitating some practical problems. The goal of this paper is to establish a basic framework of QDES by using {\it quantum finite automata} (QFA) as the modelling formalisms, and the supervisory control theorems of QDES are established and proved. Then we present a polynomial-time algorithm to decide whether or not the controllability condition holds. In particular, we construct a number of new examples of QFA to illustrate the supervisory control of QDES and to verify the essential advantages of QDES over DES in state complexity.
翻訳日:2021-04-23 11:15:47 公開日:2021-04-22
# 二酸化炭素排出量と大規模ニューラルネットワークトレーニング

Carbon Emissions and Large Neural Network Training ( http://arxiv.org/abs/2104.10350v2 )

ライセンス: Link先を確認
David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, Jeff Dean(参考訳) 機械学習(ML)の計算需要は最近急速に増加しており、多くのコストが伴っている。 エネルギーコストの推定は環境への影響を測定し、よりグリーンな戦略を見つけるのに役立つが、詳細な情報なしでは困難である。 我々は,最近の大規模モデルであるt5, meena, gshard, switch transformer, gpt-3のエネルギー使用量とカーボンフットプリントを計算し,進化したトランスフォーマーを発見したニューラルネットワーク探索の初期の推定を洗練する。 エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調する: 大きいが疎に活性化されたDNNは、多くのパラメータを使用しながら精度を犠牲にすることなく、大きくて密度の高いDNNの1/10のエネルギーを消費することができる。 MLワークロードスケジューリングの地理的な場所は、カーボンフリーエネルギーのごく一部と結果のCO2eは、同じ国と同じ組織内であっても、約5X-10Xが異なるためである。 現在、大規模モデルのトレーニングの場所と時期を最適化しています。 データセンターのインフラは、典型的なデータセンターよりも1.4~2倍エネルギー効率が良く、内部のML指向アクセラレータは、既製のシステムよりも2~5倍効率が良い。 注目すべきは、DNN、データセンター、プロセッサの選択により、カーボンフットプリントを最大100-1000Xまで削減できることだ。 これらの大きな要因は、エネルギーコストの遡及的な見積もりを困難にする。 計算ミスを回避するため,大規模な計算資源を必要とするML論文はエネルギー消費とCO2eを明確にする必要がある。 我々は、将来の研究でエネルギー利用とCO2eをより透明にするために取り組んでいます。 MLの炭素フットプリントを減らすために、私たちは、エネルギー使用量とCO2eがモデルを評価する上で重要な指標であるべきだと考えています。

The computation demand for machine learning (ML) has grown rapidly recently, which comes with a number of costs. Estimating the energy cost helps measure its environmental impact and finding greener strategies, yet it is challenging without detailed information. We calculate the energy use and carbon footprint of several recent large models-T5, Meena, GShard, Switch Transformer, and GPT-3-and refine earlier estimates for the neural architecture search that found Evolved Transformer. We highlight the following opportunities to improve energy efficiency and CO2 equivalent emissions (CO2e): Large but sparsely activated DNNs can consume <1/10th the energy of large, dense DNNs without sacrificing accuracy despite using as many or even more parameters. Geographic location matters for ML workload scheduling since the fraction of carbon-free energy and resulting CO2e vary ~5X-10X, even within the same country and the same organization. We are now optimizing where and when large models are trained. Specific datacenter infrastructure matters, as Cloud datacenters can be ~1.4-2X more energy efficient than typical datacenters, and the ML-oriented accelerators inside them can be ~2-5X more effective than off-the-shelf systems. Remarkably, the choice of DNN, datacenter, and processor can reduce the carbon footprint up to ~100-1000X. These large factors also make retroactive estimates of energy cost difficult. To avoid miscalculations, we believe ML papers requiring large computational resources should make energy consumption and CO2e explicit when practical. We are working to be more transparent about energy use and CO2e in our future research. To help reduce the carbon footprint of ML, we believe energy usage and CO2e should be a key metric in evaluating models, and we are collaborating with MLPerf developers to include energy usage during training and inference in this industry standard benchmark.
翻訳日:2021-04-23 11:15:26 公開日:2021-04-22