このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210301となっている論文です。

PDF登録状況(公開日: 20210301)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ArCorona:コロナウイルス(COVID-19)パンデミック初期のアラビア語ツイートの分析 [全文訳有]

ArCorona: Analyzing Arabic Tweets in the Early Days of Coronavirus (COVID-19) Pandemic ( http://arxiv.org/abs/2012.01462v3 )

ライセンス: CC BY 4.0
Hamdy Mubarak and Sabit Hassan(参考訳) 過去数ヶ月の間に、アラブ地域では大量のツイートやコロナウイルス(COVID-19)に関する議論があった。 政策立案者や多くの人々が、公開行動や関心事、政府からの要求、ツイートソースなどを理解するために、共有ツイートの種類を特定することが重要である。 また、ウイルスや悪い治療法に関する噂や誤報の拡散を防ぐことも重要である。 この目的のために、私たちは、covid-19に関連するアラビア語のつぶやきの、手作業による最大のデータセットを提示します。 アノテーションガイドラインを記述し、データセットを分析し、効果的な機械学習とトランスフォーマーに基づく分類モデルを構築する。

Over the past few months, there were huge numbers of circulating tweets and discussions about Coronavirus (COVID-19) in the Arab region. It is important for policy makers and many people to identify types of shared tweets to better understand public behavior, topics of interest, requests from governments, sources of tweets, etc. It is also crucial to prevent spreading of rumors and misinformation about the virus or bad cures. To this end, we present the largest manually annotated dataset of Arabic tweets related to COVID-19. We describe annotation guidelines, analyze our dataset and build effective machine learning and transformer based models for classification.
翻訳日:2021-05-30 03:23:53 公開日:2021-03-01
# 理解と知識

Comprehension and Knowledge ( http://arxiv.org/abs/2012.06561v2 )

ライセンス: Link先を確認
Pavel Naumov, Kevin Ros(参考訳) エージェントが文章を理解する能力は、エージェントの事前の経験と背景知識と密に結びついている。 本稿では、理解をモダリティと解釈し、理解と知識のモダリティの相互作用を記述した完全なバイモーダル論理システムを提案する。

The ability of an agent to comprehend a sentence is tightly connected to the agent's prior experiences and background knowledge. The paper suggests to interpret comprehension as a modality and proposes a complete bimodal logical system that describes an interplay between comprehension and knowledge modalities.
翻訳日:2021-05-11 03:10:36 公開日:2021-03-01
# 学習特異値を用いた非線形逆問題に対する効率的な準ニュートン法

An efficient Quasi-Newton method for nonlinear inverse problems via learned singular values ( http://arxiv.org/abs/2012.07676v2 )

ライセンス: Link先を確認
Danny Smyl, Tyler N. Tallman, Dong Liu, Andreas Hauptmann(参考訳) 工学と物理科学における複雑な最適化問題を解くには、多次元関数微分の繰り返し計算が必要である。 一般に、これは摂動法のような数値的な微分を必要とするため、最終的に時間に敏感なアプリケーションの使用を制限している。 特に非線形逆問題では、ガウス・ニュートン法はジャコビアンから計算される反復的な更新を必要とする。 計算上より効率的な代替手段は準ニュートン法であり、ヤコビアンの繰り返しの計算を近似的な更新に置き換える。 本稿では非線形逆問題に適用可能な高効率データ駆動準ニュートン法を提案する。 これを、特異値分解を用いて、モデル出力から特異値への写像を学習し、更新されたヤコビアンを計算する。 これにより、ラウンドオフエラーを蓄積することなく準ニュートン法の高速化を期待でき、時間クリティカルなアプリケーションを可能にし、不正な問題の解決に必要な事前知識を柔軟に組み込むことができる。 実験データを用いた電気インピーダンストモグラフィーの非線形逆問題について検討した。

Solving complex optimization problems in engineering and the physical sciences requires repetitive computation of multi-dimensional function derivatives. Commonly, this requires computationally-dema nding numerical differentiation such as perturbation techniques, which ultimately limits the use for time-sensitive applications. In particular, in nonlinear inverse problems Gauss-Newton methods are used that require iterative updates to be computed from the Jacobian. Computationally more efficient alternatives are Quasi-Newton methods, where the repeated computation of the Jacobian is replaced by an approximate update. Here we present a highly efficient data-driven Quasi-Newton method applicable to nonlinear inverse problems. We achieve this, by using the singular value decomposition and learning a mapping from model outputs to the singular values to compute the updated Jacobian. This enables a speed-up expected of Quasi-Newton methods without accumulating roundoff errors, enabling time-critical applications and allowing for flexible incorporation of prior knowledge necessary to solve ill-posed problems. We present results for the highly non-linear inverse problem of electrical impedance tomography with experimental data.
翻訳日:2021-05-08 14:12:48 公開日:2021-03-01
# (参考訳) 分散協調型マルチエージェント強化学習における公平な学習政策 [全文訳有]

Learning Fair Policies in Decentralized Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2012.09421v2 )

ライセンス: CC BY 4.0
Matthieu Zimmer, Claire Glanois, Umer Siddique, Paul Weng(参考訳) 我々は,協調型マルチエージェント強化学習(MARL)における公正な政策学習の問題を考える。 公平性の2つの重要な側面を明示的にエンコードする福祉関数を最適化する問題、すなわち効率と平等を原則的に定式化する。 解法として,フェアネスの2つの側面を考慮した2つのサブネットワークからなるニューラルネットワークアーキテクチャを提案する。 実験では、公平な最適化のために2つのサブネットワークの重要性を示す。 我々の全体的なアプローチは、あらゆる(サブ)微分可能福祉機能に対応できるため、概して一般的である。 したがって、文献で提案された公平性の様々な概念(例えば、レキシコグラフィー・マキシミン、一般化されたジニ社会福祉機能、比例フェアネス)と互換性がある。 私たちのソリューションは汎用的で,集中トレーニングや分散実行,あるいは完全な分散化といった,さまざまなmarl設定で実装可能です。 最後に,様々な領域におけるアプローチを実験的に検証し,従来の手法よりもはるかに優れた性能を示す。

We consider the problem of learning fair policies in (deep) cooperative multi-agent reinforcement learning (MARL). We formalize it in a principled way as the problem of optimizing a welfare function that explicitly encodes two important aspects of fairness: efficiency and equity. As a solution method, we propose a novel neural network architecture, which is composed of two sub-networks specifically designed for taking into account the two aspects of fairness. In experiments, we demonstrate the importance of the two sub-networks for fair optimization. Our overall approach is general as it can accommodate any (sub)differentiable welfare function. Therefore, it is compatible with various notions of fairness that have been proposed in the literature (e.g., lexicographic maximin, generalized Gini social welfare function, proportional fairness). Our solution method is generic and can be implemented in various MARL settings: centralized training and decentralized execution, or fully decentralized. Finally, we experimentally validate our approach in various domains and show that it can perform much better than previous methods.
翻訳日:2021-05-02 21:25:52 公開日:2021-03-01
# マンフォールドマッピング学習のためのフローベース生成モデル

Flow-based Generative Models for Learning Manifold to Manifold Mappings ( http://arxiv.org/abs/2012.10013v2 )

ライセンス: Link先を確認
Xingjian Zhen, Rudrasis Chakraborty, Liu Yang, Vikas Singh(参考訳) コンピュータビジョンや機械学習における多くの測定や観察は、非ユークリッドデータとして表される。 最近の提案(球面cnnなど)は、多くのディープニューラルネットワークアーキテクチャを多様体値データに拡張しており、しばしばパフォーマンスが大幅に改善されているが、多様体データの生成モデルに関する文献は、かなり乏しい。 このギャップのために、多様体値データに対するモダリティ伝達/翻訳モデルも存在しないが、生成モデルに基づく多くの方法が自然画像で利用可能である。 本稿では,脳イメージングの必要性に動機づけられたこのギャップについて述べる。そのために我々は,自然画像から多様体値を持つ画像まで,特定の生成モデル(およびモダリティ伝達のための生成モデル)の動作範囲を拡大する。 我々の主な成果は、GLOW(フローベース非可逆生成モデル)の2ストリームバージョンの設計であり、これは、ある種類の多様体値の測定値のフィールドに関する情報を合成することができる。 理論的には、フローベース生成モデル(例えば、GLOW)におけるそれらの機能に類似するだけでなく、重要な利点(ヤコビ行列式は容易に計算できる)を保った多様体値データに対する3種類の可逆層を導入する。 実験では,Human Connectome Project (HCP) の大規模なデータセットを用いて,拡散テンソル画像(DTI)から方向分布関数(ODF)の脳像を確実かつ正確に再構成できる有望な結果を示す。

Many measurements or observations in computer vision and machine learning manifest as non-Euclidean data. While recent proposals (like spherical CNN) have extended a number of deep neural network architectures to manifold-valued data, and this has often provided strong improvements in performance, the literature on generative models for manifold data is quite sparse. Partly due to this gap, there are also no modality transfer/translation models for manifold-valued data whereas numerous such methods based on generative models are available for natural images. This paper addresses this gap, motivated by a need in brain imaging -- in doing so, we expand the operating range of certain generative models (as well as generative models for modality transfer) from natural images to images with manifold-valued measurements. Our main result is the design of a two-stream version of GLOW (flow-based invertible generative models) that can synthesize information of a field of one type of manifold-valued measurements given another. On the theoretical side, we introduce three kinds of invertible layers for manifold-valued data, which are not only analogous to their functionality in flow-based generative models (e.g., GLOW) but also preserve the key benefits (determinants of the Jacobian are easy to calculate). For experiments, on a large dataset from the Human Connectome Project (HCP), we show promising results where we can reliably and accurately reconstruct brain images of a field of orientation distribution functions (ODF) from diffusion tensor images (DTI), where the latter has a $5\times$ faster acquisition time but at the expense of worse angular resolution.
翻訳日:2021-05-01 18:14:45 公開日:2021-03-01
# パワーアウェアスパースゼロ次最適化による光ニューラルネットワークの効率的なオンチップ学習

Efficient On-Chip Learning for Optical Neural Networks Through Power-Aware Sparse Zeroth-Order Optimization ( http://arxiv.org/abs/2012.11148v2 )

ライセンス: Link先を確認
Jiaqi Gu, Chenghao Feng, Zheng Zhao, Zhoufeng Ying, Ray T. Chen, David Z. Pan(参考訳) 光ニューラルネットワーク(ONN)は、超高速実行速度と低エネルギー消費により、高性能なニューロモルフィックコンピューティングにおいて記録破りの可能性を示している。 しかし、現在の学習プロトコルは、実用的な応用においてフォトニック回路最適化のスケーラブルで効率的なソリューションを提供していない。 そこで本研究では,ONNのパワー効率向上のための潜在能力を最大限に発揮するための,新しいオンチップ学習フレームワークを提案する。 実装コストのかかるバックプロパゲーションをデプロイする代わりに、計算予算と電力制約でデバイス構成を直接最適化します。 我々は,onnオンチップ学習を資源制約付き確率的ゼロ次最適化問題としてモデル化し,実用的onn展開においてスケーラブルなオンチップトレーニングソリューションを提供するために,2レベルスパーシティとパワーアウェア動的プルーニングを用いた新しい混合学習戦略を提案する。 従来の手法と比較して、我々は初めて2500以上の光学部品をチップ上で最適化した。 最適化の安定性が向上し、3.7x-7.6倍の効率が向上し、実用的なデバイスバリエーションと熱クロストークで90%以上の電力を節約できる。

Optical neural networks (ONNs) have demonstrated record-breaking potential in high-performance neuromorphic computing due to their ultra-high execution speed and low energy consumption. However, current learning protocols fail to provide scalable and efficient solutions to photonic circuit optimization in practical applications. In this work, we propose a novel on-chip learning framework to release the full potential of ONNs for power-efficient in situ training. Instead of deploying implementation-costl y back-propagation, we directly optimize the device configurations with computation budgets and power constraints. We are the first to model the ONN on-chip learning as a resource-constrained stochastic noisy zeroth-order optimization problem, and propose a novel mixed-training strategy with two-level sparsity and power-aware dynamic pruning to offer a scalable on-chip training solution in practical ONN deployment. Compared with previous methods, we are the first to optimize over 2,500 optical components on chip. We can achieve much better optimization stability, 3.7x-7.6x higher efficiency, and save >90% power under practical device variations and thermal crosstalk.
翻訳日:2021-04-27 06:19:24 公開日:2021-03-01
# (参考訳) TenIPS: テンソル完了のための逆確率サンプリング [全文訳有]

TenIPS: Inverse Propensity Sampling for Tensor Completion ( http://arxiv.org/abs/2101.00323v2 )

ライセンス: CC0 1.0
Chengrun Yang, Lijun Ding, Ziyang Wu, Madeleine Udell(参考訳) テンソルは多方向データの配列を表現するために広く使われている。 テンソルで欠落したエントリの回復は、一般的には、エントリがランダムに完全に欠落している(MCAR)という仮定の下で、広範囲に研究されている。 しかし、ほとんどの実用的な環境では、観測はランダムではない(mnar): 与えられたエントリが観測される確率は、テンソル内の他のエントリまたは欠落エントリの値に依存する可能性がある。 本稿では,mnar観測で部分的に観測されたテンソルを完遂する問題について,その傾向に関する事前情報なしに検討する。 テンソルを完備化するために、元のテンソルと確率のテンソルの両方が低次線型階数であると仮定する。 アルゴリズムはまず凸緩和を用いて確率を推定し、次に高次SVDアプローチを用いて欠落値を予測し、逆の確率によって観測テンソルを再重み付けする。 得られた完備テンソル上の有限サンプル誤差境界を提供する。 数値実験により本手法の有効性が示された。

Tensors are widely used to represent multiway arrays of data. The recovery of missing entries in a tensor has been extensively studied, generally under the assumption that entries are missing completely at random (MCAR). However, in most practical settings, observations are missing not at random (MNAR): the probability that a given entry is observed (also called the propensity) may depend on other entries in the tensor or even on the value of the missing entry. In this paper, we study the problem of completing a partially observed tensor with MNAR observations, without prior information about the propensities. To complete the tensor, we assume that both the original tensor and the tensor of propensities have low multilinear rank. The algorithm first estimates the propensities using a convex relaxation and then predicts missing values using a higher-order SVD approach, reweighting the observed tensor by the inverse propensities. We provide finite-sample error bounds on the resulting complete tensor. Numerical experiments demonstrate the effectiveness of our approach.
翻訳日:2021-04-16 14:23:41 公開日:2021-03-01
# (参考訳) パーシステンスグラフ分類のためのスペクトルウェーブレットの最適化 [全文訳有]

Optimisation of Spectral Wavelets for Persistence-based Graph Classification ( http://arxiv.org/abs/2101.05201v2 )

ライセンス: CC BY 4.0
Ka Man Yim, Jacob Leygonie(参考訳) グラフのスペクトルウェーブレットシグネチャは濾過を決定し、結果として拡張持続図の集合を決定する。 本稿では,グラフのデータセットに対するウェーブレットの選択を最適化するフレームワークを提案する。 グラフのスペクトルウェーブレットシグネチャはそのラプラシアンから導出されるので、このフレームワークはグラフの幾何学的性質を関連する永続化ダイアグラムにエンコードし、先行ノード属性なしでグラフに適用することができる。 我々は,グラフ分類問題に適用し,他の永続化アーキテクチャと競合する性能を得る。 基礎となる理論の基礎を提供するため、通常の永続ホモロジーの微分可能性の結果を拡張持続ホモロジーへ拡張する。

A graph's spectral wavelet signature determines a filtration, and consequently an associated set of extended persistence diagrams. We propose a framework that optimises the choice of wavelet for a dataset of graphs, such that their associated persistence diagrams capture features of the graphs that are best suited to a given data science problem. Since the spectral wavelet signature of a graph is derived from its Laplacian, our framework encodes geometric properties of graphs in their associated persistence diagrams and can be applied to graphs without a priori node attributes. We apply our framework to graph classification problems and obtain performances competitive with other persistence-based architectures. To provide the underlying theoretical foundations, we extend the differentiability result for ordinary persistent homology to extended persistent homology.
翻訳日:2021-04-08 11:12:42 公開日:2021-03-01
# (参考訳) カンフラン地下実験室におけるラドンレベル予測時系列におけるニューラルネットワークの入出力関係の理解 [全文訳有]

Understanding the input-output relationship of neural networks in the time series forecasting radon levels at Canfranc Underground Laboratory ( http://arxiv.org/abs/2102.07616v2 )

ライセンス: CC BY 4.0
I\~naki Rodr\'iguez-Garc\'ia and Miguel C\'ardenas-Montes(参考訳) 暗黒物質直接検出のような地下物理実験は、背景貢献の制御を維持する必要がある。 これらの実験を地下施設で実施することは、宇宙線のような背景源の最小化に役立つ。 最大の背景資料の1つは、研究施設を囲む岩石から放出されるラドンである。 ラドン粒子は、維持作業を行うために開封時に検出器の内部に堆積することができる。 したがって、ラドンレベルが最小の場合にメンテナンス操作をスケジュールしようとする場合、ラドンレベルを予測することは重要なタスクである。 これまで,スペイン・カンフラン地下研究所(LSC)のラドン時系列を良好な結果で予測する深層学習モデルが実施されてきた。 時系列を予測する場合には、時系列の過去の値を入力変数とする。 本研究は,ニューラルネットワークが生成する予測に対する入力変数の相対的寄与を理解することに焦点を当てている。 その結果,時系列の予測が入力変数に依存するかを理解することができた。 これらの結果は、将来より良い予測器を構築するために使われるかもしれない。

Underground physics experiments such as dark matter direct detection need to keep control of the background contribution. Hosting these experiments in underground facilities helps to minimize certain background sources such as the cosmic rays. One of the largest remaining background sources is the radon emanated from the rocks enclosing the research facility. The radon particles could be deposited inside the detectors when they are opened to perform the maintenance operations. Therefore, forecasting the radon levels is a crucial task in an attempt to schedule the maintenance operations when radon level is minimum. In the past, deep learning models have been implemented to forecast the radon time series at the Canfranc Underground Laboratory (LSC), in Spain, with satisfactory results. When forecasting time series, the past values of the time series are taken as input variables. The present work focuses on understanding the relative contribution of these input variables to the predictions generated by neural networks. The results allow us to understand how the predictions of the time series depend on the input variables. These results may be used to build better predictors in the future.
翻訳日:2021-04-06 07:18:34 公開日:2021-03-01
# (参考訳) 曖昧さの定量化からパンニフティズムへ [全文訳有]

From Quantifying Vagueness To Pan-niftyism ( http://arxiv.org/abs/2103.03361v1 )

ライセンス: CC BY 4.0
Natesh Ganesh(参考訳) 本稿では,哲学的曖昧さを定量化するシンプルなモデルを提案する。 意識や機関などの曖昧な概念を定量化するこの取り組みに対する関心が高まっている。 次に、このモデルのいくつかの意味について論じる。例えば、'nifty'の定量化が汎ニフティ主義につながる条件を含む。 統合情報理論のような意識を定量化する枠組みがパン心理学を意味している(形態)理由は、定量化計量の構築に既に暗黙的にエンコードされている構造があることである。

In this short paper, we will introduce a simple model for quantifying philosophical vagueness. There is growing interest in this endeavor to quantify vague concepts of consciousness, agency, etc. We will then discuss some of the implications of this model including the conditions under which the quantification of `nifty' leads to pan-nifty-ism. Understanding this leads to an interesting insight - the reason a framework to quantify consciousness like Integrated Information Theory implies (forms of) panpsychism is because there is favorable structure already implicitly encoded in the construction of the quantification metric.
翻訳日:2021-04-05 07:41:01 公開日:2021-03-01
# グラフレイアウトにおける人間の選好予測のための機械学習アプローチ

A Machine Learning Approach for Predicting Human Preference for Graph Layouts ( http://arxiv.org/abs/2103.03665v1 )

ライセンス: Link先を確認
Shijun Cai, Seok-Hee Hong, Jialiang Shen, Tongliang Liu(参考訳) 人間の脳の視覚的知覚と認知システムが非常に複雑であるため、グラフレイアウトがどんなものを好むのかを理解することは重要かつ困難である。 本稿では,グラフレイアウトに対する人間の嗜好を予測するための最初の機械学習手法を提案する。 一般に、人間の好みラベルを持つデータセットは限定的で、ディープネットワークのトレーニングには不十分である。 これを解決するために、我々は、例えば、グラフレイアウト上の人間の嗜好と相関していることを示す形状ベースのメトリクスやエッジクロス、ストレスといった品質指標を活用するように、伝達学習手法を用いてディープラーニングモデルを訓練する。 人選好データセットを用いた実験結果から,人間の選好をグラフレイアウトで予測できることが示唆された。 我々の知る限り、これは人間の嗜好実験データを用いてグラフレイアウトの質的評価を予測するための最初のアプローチである。

Understanding what graph layout human prefer and why they prefer is significant and challenging due to the highly complex visual perception and cognition system in human brain. In this paper, we present the first machine learning approach for predicting human preference for graph layouts. In general, the data sets with human preference labels are limited and insufficient for training deep networks. To address this, we train our deep learning model by employing the transfer learning method, e.g., exploiting the quality metrics, such as shape-based metrics, edge crossing and stress, which are shown to be correlated to human preference on graph layouts. Experimental results using the ground truth human preference data sets show that our model can successfully predict human preference for graph layouts. To our best knowledge, this is the first approach for predicting qualitative evaluation of graph layouts using human preference experiment data.
翻訳日:2021-04-05 00:53:06 公開日:2021-03-01
# ニューラルネットワーク蒸留と可変選択を用いた心不全の危険因子同定

Risk factor identification for incident heart failure using neural network distillation and variable selection ( http://arxiv.org/abs/2102.12936v2 )

ライセンス: Link先を確認
Yikuan Li, Shishir Rao, Mohammad Mamouei, Gholamreza Salimi-Khorshidi, Dexter Canoy, Abdelaali Hassaine, Thomas Lukasiewicz, Kazem Rahimi(参考訳) 最近の証拠は、何百万もの患者から電子健康記録に基づいて訓練されたディープラーニングモデルが、統計的に比較すると、より正確なリスク予測を実現できることを示している。 これは臨床意思決定を改善する重要な機会を提供するが、解釈可能性の欠如は、日常診療におけるこれらのブラックボックスモデルの導入、信頼性の制限、さらなる仮説検証調査の防止にとって大きな障壁である。 本研究では,既存の深層学習モデル(BEHRT)で学習した隠れパターンを,モデル蒸留と変数選択という2つの手法で解き放つ手法を提案する。 表現型としての心不全の臨床的重要性と多様性から,提案法の有効性を示すために用いられた。 788,880例(8.3%の心不全)のコホートが検討された。 モデル蒸留では, 心不全に関連する598例と379例を, 人口レベルでそれぞれ同定した。 これらの関連は,事前知識と概ね一致していたが,本手法ではさらに検討する価値の低いリンクについても強調した。 これらの重要な集団レベルの知見に加えて,臨床実践における心不全の様相を考慮した個別レベルの解釈へのアプローチを開発した。 これは、個人に対する予測の精度を最大に維持できる最小の出会いセットを検出することで、可変選択によって達成された。 提案した研究は、データ駆動の観点から、人口と個人レベルのリスク要因を識別するための発見誘導ツールを提供する。 これは新しい仮説を生み出し、因果関係に関するさらなる調査を導くのに役立つ。

Recent evidence shows that deep learning models trained on electronic health records from millions of patients can deliver substantially more accurate predictions of risk compared to their statistical counterparts. While this provides an important opportunity for improving clinical decision-making, the lack of interpretability is a major barrier to the incorporation of these black-box models in routine care, limiting their trustworthiness and preventing further hypothesis-testing investigations. In this study, we propose two methods, namely, model distillation and variable selection, to untangle hidden patterns learned by an established deep learning model (BEHRT) for risk association identification. Due to the clinical importance and diversity of heart failure as a phenotype, it was used to showcase the merits of the proposed methods. A cohort with 788,880 (8.3% incident heart failure) patients was considered for the study. Model distillation identified 598 and 379 diseases that were associated and dissociated with heart failure at the population level, respectively. While the associations were broadly consistent with prior knowledge, our method also highlighted several less appreciated links that are worth further investigation. In addition to these important population-level insights, we developed an approach to individual-level interpretation to take account of varying manifestation of heart failure in clinical practice. This was achieved through variable selection by detecting a minimal set of encounters that can maximally preserve the accuracy of prediction for individuals. Our proposed work provides a discovery-enabling tool to identify risk factors in both population and individual levels from a data-driven perspective. This helps to generate new hypotheses and guides further investigations on causal links.
翻訳日:2021-04-05 00:41:35 公開日:2021-03-01
# 挿入型言語生成器の効率的な訓練・制御性・構成一般化に関する研究

On Efficient Training, Controllability and Compositional Generalization of Insertion-based Language Generators ( http://arxiv.org/abs/2102.11008v2 )

ライセンス: Link先を確認
Sidi Lu and Nanyun Peng(参考訳) 左から右への世代順を持つ自動回帰型言語モデルは、言語生成の主要なパラダイムである。 近年,従来の左から右へのパラダイムを超越したアウト・オブ・オーダーテキスト生成が注目され,挿入ベース生成の顕著な変化がみられた。 しかし、挿入操作は各トークンの位置情報を妨害するため、挿入に基づく推定のそれぞれのステップは生成シーケンス全体の双方向な \textit{re-encoding} を必要とするとしばしば信じられている。 この計算オーバーヘッドは、物語、ニュース記事、レポートなど、長く多様なテキストを生成するためにモデルをスケールアップすることを妨げる。 そこで本稿では,従来のトランスフォーマーデコーダと同等の性能を両方向コンテクストエンコーダで維持しつつ,効率的に訓練できるインサートベースシーケンスモデルであるinsnetを提案する。 insnet のストーリー生成と clevr-cogent キャプションを評価し,計算コスト,生成品質,語彙制御を完全に組み込む能力,構成の一般化など,insnet の利点を数次元で示した。

Auto-regressive language models with the left-to-right generation order have been a predominant paradigm for language generation. Recently, out-of-order text generation beyond the traditional left-to-right paradigm has attracted extensive attention, with a notable variation of insertion-based generation, where a model is used to gradually extend the context into a complete sentence purely with insertion operations. However, since insertion operations disturb the position information of each token, it is often believed that each step of the insertion-based likelihood estimation requires a bi-directional \textit{re-encoding} of the whole generated sequence. This computational overhead prohibits the model from scaling up to generate long, diverse texts such as stories, news articles, and reports. To address this issue, we propose InsNet, an insertion-based sequence model that can be trained as efficiently as traditional transformer decoders while maintaining the same performance as that with a bi-directional context encoder. We evaluate InsNet on story generation and CleVR-CoGENT captioning, showing the advantages of InsNet in several dimensions, including computational costs, generation quality, the ability to perfectly incorporate lexical controls, and better compositional generalization.
翻訳日:2021-04-05 00:37:26 公開日:2021-03-01
# 積雪環境指標の積雪とセマンティックセグメンテーションによる道路表面翻訳

Road Surface Translation Under Snow-covered and Semantic Segmentation for Snow Hazard Index ( http://arxiv.org/abs/2101.05616v4 )

ライセンス: Link先を確認
Takato Yasuno, Junichiro Fujii, Hiroaki Sugawara, Masazumi Amakata(参考訳) 2020年は気候変動の影響で記録的な豪雪に見舞われた。 実のところ、2000台の車両が3日間高速道路に停泊していた。 道路面の凍結のため、10台の車両がビリヤード事故を起こした。 道路管理者は、危険箇所の積雪についてドライバーに警告する指標を提供する必要がある。 本研究では,雪害率を自動計算する実画像後処理を用いた深層学習アプリケーションを提案する。 まず, 雪の下に隠れた道路面を, 生成的対向ネットワーク, pix2pixを用いて翻訳する。 次に,DeepLabv3+をバックボーンとしたセマンティックセグメンテーションにより,積雪および路面クラスを検出する。 これらの学習したネットワークに基づき,道路表面の積雪量を示す道路から積雪までのハザード指数を自動的に計算する。 本研究は,日本の寒冷地における1,155枚の実雪画像に適用した結果を示す。 本研究の有用性と実用性について述べる。

In 2020, there was a record heavy snowfall owing to climate change. In reality, 2,000 vehicles were stuck on the highway for three days. Because of the freezing of the road surface, 10 vehicles had a billiard accident. Road managers are required to provide indicators to alert drivers regarding snow cover at hazardous locations. This study proposes a deep learning application with live image post-processing to automatically calculate a snow hazard ratio indicator. First, the road surface hidden under snow is translated using a generative adversarial network, pix2pix. Second, snow-covered and road surface classes are detected by semantic segmentation using DeepLabv3+ with MobileNet as a backbone. Based on these trained networks, we automatically compute the road to snow rate hazard index, indicating the amount of snow covered on the road surface. We demonstrate the applied results to 1,155 live snow images of the cold region in Japan. We mention the usefulness and the practical robustness of our study.
翻訳日:2021-03-29 00:50:44 公開日:2021-03-01
# (参考訳) 電気通信人工知能の次の10年 [全文訳有]

The Next Decade of Telecommunications Artificial Intelligence ( http://arxiv.org/abs/2101.09163v4 )

ライセンス: CC BY 4.0
Ye Ouyang (1), Lilei Wang (1), Aidong Yang (1), Maulik Shah (2), David Belanger (3 and 4), Tongqing Gao (5), Leping Wei (6), Yaqin Zhang (7) ((1) AsiaInfo Technologies, (2) Verizon, (3) AT&T, (4) Stevens Institute of Technology, (5) China Mobile, (6) China Telecom, (7) Tsinghua University)(参考訳) モバイルコミュニケーションと人工知能が37年と64年前に考案されて以来、これはエキサイティングな旅だった。 どちらの分野も独立して進化し、コミュニケーションとコンピューティング産業を大きく変える一方で、5gとディープラーニングの急速な収束は、コアコミュニケーションインフラストラクチャ、ネットワーク管理、垂直アプリケーションを大きく変えつつある。 論文はまず、モバイル通信と人工知能の初期段階における個々のロードマップを概説し、aiとモバイル通信が収束し始めた3gから5gの時代を振り返る。 通信人工知能に関しては,モバイル通信のエコシステムにおける人工知能の進展について,さらに詳しく紹介する。 本稿では,通信エコシステムにおけるAIの分類と,国際電気通信標準化機関が規定する進化経路について要約する。 今後10年にわたって、この論文は通信人工知能の今後のロードマップを予測している。 5Gと6Gの3GPPとITU-Rのタイムラインに従って,3GPPとORANルートのネットワークインテリジェンス,経験と意図に基づくネットワーク管理と運用,ネットワークAIシグナリングシステム,BSSとOSSコンバージェンスによって駆動されるインテリジェントな中拠点ベースのBSS,SLAからESAへの進化,垂直方向のインテリジェントなプライベートネットワークなどについて検討した。 論文は、aiが将来のb5gまたは6gのランドスケープを再構築し、前例のない機会をフル活用するために、研究開発、標準化、エコシステムを転換する必要があるというビジョンで締めくくられている。

It has been an exciting journey since the mobile communications and artificial intelligence were conceived 37 years and 64 years ago. While both fields evolved independently and profoundly changed communications and computing industries, the rapid convergence of 5G and deep learning is beginning to significantly transform the core communication infrastructure, network management and vertical applications. The paper first outlines the individual roadmaps of mobile communications and artificial intelligence in the early stage, with a concentration to review the era from 3G to 5G when AI and mobile communications started to converge. With regard to telecommunications artificial intelligence, the paper further introduces in detail the progress of artificial intelligence in the ecosystem of mobile communications. The paper then summarizes the classifications of AI in telecom ecosystems along with its evolution paths specified by various international telecommunications standardization bodies. Towards the next decade, the paper forecasts the prospective roadmap of telecommunications artificial intelligence. In line with 3GPP and ITU-R timeline of 5G & 6G, the paper further explores the network intelligence following 3GPP and ORAN routes respectively, experience and intention driven network management and operation, network AI signalling system, intelligent middle-office based BSS, intelligent customer experience management and policy control driven by BSS and OSS convergence, evolution from SLA to ELA, and intelligent private network for verticals. The paper is concluded with the vision that AI will reshape the future B5G or 6G landscape and we need pivot our R&D, standardizations, and ecosystem to fully take the unprecedented opportunities.
翻訳日:2021-03-23 11:34:00 公開日:2021-03-01
# 実雑音ラベルデータに対するノイズモデル誤差の解析

Analysing the Noise Model Error for Realistic Noisy Label Data ( http://arxiv.org/abs/2101.09763v2 )

ライセンス: Link先を確認
Michael A. Hedderich, Dawei Zhu, Dietrich Klakow(参考訳) 距離と弱い監視により、大量のラベル付きトレーニングデータを迅速かつ安価に取得することができるが、これらの自動アノテーションは大量のエラーを含む傾向がある。 これらのノイズラベルの負の影響を克服するための一般的な技術は、基礎となるノイズプロセスがモデル化されるノイズモデリングです。 本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。 一般的な合成ノイズに関する理論的結果の他に,NLPドメインから得られたノイズラベルデータセットであるNoisyNERも,現実的な遠隔監視技術を用いて公開している。 異なるノイズパターンを持つ7種類のラベルを提供し、同じインスタンスで異なるノイズレベルを評価する。 並行してクリーンなラベルが利用可能であり、少量の金標準データを活用できるシナリオを研究できる。 理論結果とそれに対応する実験は,騒音分布やサンプリング手法などの騒音モデル推定に影響を与える要因について知見を与える。

Distant and weak supervision allow to obtain large amounts of labeled training data quickly and cheaply, but these automatic annotations tend to contain a high amount of errors. A popular technique to overcome the negative effects of these noisy labels is noise modelling where the underlying noise process is modelled. In this work, we study the quality of these estimated noise models from the theoretical side by deriving the expected error of the noise model. Apart from evaluating the theoretical results on commonly used synthetic noise, we also publish NoisyNER, a new noisy label dataset from the NLP domain that was obtained through a realistic distant supervision technique. It provides seven sets of labels with differing noise patterns to evaluate different noise levels on the same instances. Parallel, clean labels are available making it possible to study scenarios where a small amount of gold-standard data can be leveraged. Our theoretical results and the corresponding experiments give insights into the factors that influence the noise model estimation like the noise distribution and the sampling technique.
翻訳日:2021-03-16 09:19:48 公開日:2021-03-01
# (参考訳) 機械学習ベンチマークにおける変数の会計 [全文訳有]

Accounting for Variance in Machine Learning Benchmarks ( http://arxiv.org/abs/2103.03098v1 )

ライセンス: CC BY 4.0
Xavier Bouthillier, Pierre Delaunay, Mirko Bronzi, Assya Trofimov, Brennan Nichyporuk, Justin Szeto, Naz Sepah, Edward Raff, Kanika Madan, Vikram Voleti, Samira Ebrahimi Kahou, Vincent Michalski, Dmitriy Serdyuk, Tal Arbel, Chris Pal, Ga\"el Varoquaux and Pascal Vincent(参考訳) ある機械学習アルゴリズムAが別のアルゴリズムより優れているという強い実証的証拠 Bは、データサンプリング、データ拡張、パラメータの初期化、ハイパーパラメータ選択などのバリエーションのソースよりも学習パイプラインを最適化する複数の試行を理想的に求めている。 これは非常に高価であり、コーナーは結論に達するために切断されます。 ベンチマークプロセス全体をモデル化し,データサンプリングによるばらつき,パラメータ初期化,ハイパーパラメータ選択の影響を明らかにした。 この分散の点から今日使われている主要な比較手法を解析する。 計算コストの51倍の削減で,不完全な推定器アプローチにより多くの変動源を加えることにより,理想推定器の精度が向上することを示す。 これらの結果に基づいて,5つの異なる深層学習タスク/アーキテクチャにおいて,改善検出の誤り率を検討する。 本研究は性能比較の推奨事項を提案する。

Strong empirical evidence that one machine-learning algorithm A outperforms another one B ideally calls for multiple trials optimizing the learning pipeline over sources of variation such as data sampling, data augmentation, parameter initialization, and hyperparameters choices. This is prohibitively expensive, and corners are cut to reach conclusions. We model the whole benchmarking process, revealing that variance due to data sampling, parameter initialization and hyperparameter choice impact markedly the results. We analyze the predominant comparison methods used today in the light of this variance. We show a counter-intuitive result that adding more sources of variation to an imperfect estimator approaches better the ideal estimator at a 51 times reduction in compute cost. Building on these results, we study the error rate of detecting improvements, on five different deep-learning tasks/architectures. This study leads us to propose recommendations for performance comparisons.
翻訳日:2021-03-07 22:36:16 公開日:2021-03-01
# (参考訳) Cryptonite:Cryptic Crossword Benchmark for Extreme Ambiguity in Language [全文訳有]

Cryptonite: A Cryptic Crossword Benchmark for Extreme Ambiguity in Language ( http://arxiv.org/abs/2103.01242v1 )

ライセンス: CC BY 4.0
Avia Efrat, Uri Shaham, Dan Kilman, Omer Levy(参考訳) あいまいさをターゲットとする現在のNLPデータセットは、ネイティブスピーカーによって比較的容易に解決できる。 本稿では,Cryptoniteについて紹介する。Cryptoniteは,言語的に複雑かつ自然にソースされた,暗号クロスワードに基づく大規模データセットである。 Cryptoniteの各例は、暗号的な手がかり、誤解を招く表面読解の短いフレーズまたは文であり、その解決には意味論、構文学、音声学の単語遊びと世界の知識を曖昧にする必要があります。 クリプティックな手がかりは、経験豊富な問題解決者でも問題となるが、トップレベルの専門家は、ほぼ100%の精度で解決できる。 470kの暗号ヒントを微調整したT5-Largeは、ルールベースの手がかり解法(8.6%)の精度と同等に7.6%の精度しか達成していない。

Current NLP datasets targeting ambiguity can be solved by a native speaker with relative ease. We present Cryptonite, a large-scale dataset based on cryptic crosswords, which is both linguistically complex and naturally sourced. Each example in Cryptonite is a cryptic clue, a short phrase or sentence with a misleading surface reading, whose solving requires disambiguating semantic, syntactic, and phonetic wordplays, as well as world knowledge. Cryptic clues pose a challenge even for experienced solvers, though top-tier experts can solve them with almost 100% accuracy. Cryptonite is a challenging task for current models; fine-tuning T5-Large on 470k cryptic clues achieves only 7.6% accuracy, on par with the accuracy of a rule-based clue solver (8.6%).
翻訳日:2021-03-06 07:52:07 公開日:2021-03-01
# (参考訳) ビデオベースダイアローグにおけるセマンティックグラフの推論パスの学習 [全文訳有]

Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues ( http://arxiv.org/abs/2103.00820v1 )

ライセンス: CC BY 4.0
Hung Le, Nancy F. Chen, Steven C.H. Hoi(参考訳) 従来の視覚的質問応答と比較して、ビデオベースの対話は、マルチターン設定で質問に答えるために対話コンテキストよりも追加の推論を必要とします。 ビデオ地上対話に対する従来のアプローチは、主にターンレベルでの固有情報フローをモデル化することなく、単純なテキスト入力として対話コンテキストを使用する。 本稿では,対話文脈におけるReasoning Paths(PDC)の新たな枠組みを提案する。 PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。 PDCモデルは、この意味グラフ上の推論パスを予測することを学ぶ。 我々の経路予測モデルは、現在の質問に答えるための視覚的手がかりを含む、現在のターンから過去の対話ターンまでの経路を予測する。 我々の推論モデルは、この推論経路を通して視覚情報とテキスト情報の両方を逐次処理し、その解を生成するために伝達特徴を用いる。 提案手法の有効性を実証し,対話コンテキストにおける意味的依存関係を用いて視覚的な手がかりを得る方法について,さらなる知見を提供する。

Compared to traditional visual question answering, video-grounded dialogues require additional reasoning over dialogue context to answer questions in a multi-turn setting. Previous approaches to video-grounded dialogues mostly use dialogue context as a simple text input without modelling the inherent information flows at the turn level. In this paper, we propose a novel framework of Reasoning Paths in Dialogue Context (PDC). PDC model discovers information flows among dialogue turns through a semantic graph constructed based on lexical components in each question and answer. PDC model then learns to predict reasoning paths over this semantic graph. Our path prediction model predicts a path from the current turn through past dialogue turns that contain additional visual cues to answer the current question. Our reasoning model sequentially processes both visual and textual information through this reasoning path and the propagated features are used to generate the answer. Our experimental results demonstrate the effectiveness of our method and provide additional insights on how models use semantic dependencies in a dialogue context to retrieve visual cues.
翻訳日:2021-03-06 07:43:50 公開日:2021-03-01
# (参考訳) 畳み込み正規化:深層畳み込みネットワークロバストネスとトレーニングの改善 [全文訳有]

Convolutional Normalization: Improving Deep Convolutional Network Robustness and Training ( http://arxiv.org/abs/2103.00673v1 )

ライセンス: CC BY 4.0
Sheng Liu, Xiao Li, Yuexiang Zhai, Chong You, Zhihui Zhu, Carlos Fernandez-Granda, and Qing Qu(参考訳) 正規化技術は、現代の畳み込みニューラルネットワーク(ConvNets)の基本コンポーネントとなっている。 特に、多くの最近の研究は、重みの直交性を促進することが深いモデルを訓練し、堅牢性を向上させることを示しています。 ConvNetsでは、ほとんどの既存の手法は畳み込みカーネルの連結や平ら化に由来する重み行列のペナル化や正規化に基づいている。 これらの方法はしばしばカーネルの良性畳み込み構造を破壊したり無視したりする。 対照的に、フーリエ領域の畳み込み構造を十分に活用し、任意のconvnetに便利に組み込むための単純なプラグ・アンド・プレイモジュールとして機能する、単純で効率的な `convolutional normalization'' メソッドを導入する。 提案手法は,畳み込みスパース符号の事前条件付け手法に着想を得ており,各層のチャネルワイドアイソメトリを効果的に促進することができる。 さらに,畳み込み正規化により重み行列の層状スペクトルノルムが減少し,ネットワークのリプシッツ性が向上し,トレーニングが容易になり,ディープコンブネットのロバスト性が向上することを示した。 ノイズ汚損とGAN(Generative Adversarial Network)の分類に応用し,畳み込み正規化はResNetなどの一般的なConvNetの堅牢性とGANの性能を向上させることを示す。 本研究では,CIFAR-10,CIFAR-100, ImageNetの広範な数値実験を行った。

Normalization techniques have become a basic component in modern convolutional neural networks (ConvNets). In particular, many recent works demonstrate that promoting the orthogonality of the weights helps train deep models and improve robustness. For ConvNets, most existing methods are based on penalizing or normalizing weight matrices derived from concatenating or flattening the convolutional kernels. These methods often destroy or ignore the benign convolutional structure of the kernels; therefore, they are often expensive or impractical for deep ConvNets. In contrast, we introduce a simple and efficient ``convolutional normalization'' method that can fully exploit the convolutional structure in the Fourier domain and serve as a simple plug-and-play module to be conveniently incorporated into any ConvNets. Our method is inspired by recent work on preconditioning methods for convolutional sparse coding and can effectively promote each layer's channel-wise isometry. Furthermore, we show that convolutional normalization can reduce the layerwise spectral norm of the weight matrices and hence improve the Lipschitzness of the network, leading to easier training and improved robustness for deep ConvNets. Applied to classification under noise corruptions and generative adversarial network (GAN), we show that convolutional normalization improves the robustness of common ConvNets such as ResNet and the performance of GAN. We verify our findings via extensive numerical experiments on CIFAR-10, CIFAR-100, and ImageNet.
翻訳日:2021-03-06 03:43:15 公開日:2021-03-01
# (参考訳) BERTを用いた非構造化ドメインテキストの知識抽出法 [全文訳有]

BERT-based knowledge extraction method of unstructured domain text ( http://arxiv.org/abs/2103.00728v1 )

ライセンス: CC BY-SA 4.0
Wang Zijia, Li Ye, Zhu Zhongkai(参考訳) 知識グラフの開発とビジネス導入により、非構造化ドメイン文書から知識グラフの実体と関係を抽出する需要が高まっている。 これにより、ドメインテキストの自動知識抽出が極めて意味のあるものになる。 本論文では、非構造化特定ドメインテキスト(保険業界における保険条項など)から知識ポイントを自動的に抽出し、知識グラフ構築のマンパワーを節約するBERTに基づく知識抽出手法を提案する。 ルールやテンプレート,エンティティ抽出モデルに基づく一般的な手法とは違い,本論文では,ドメインの知識ポイントを問合せと解答のペアに変換し,文書の回答に関するテキストを文脈として利用する。 この方法は、BERTのSQuAD読解タスクに似たBERTベースのモデルを採用する。 モデルは微調整されています。 そして、より多くの保険条項から知識ポイントを直接抽出するために使われる。 テスト結果によると、モデルのパフォーマンスは良好である。

With the development and business adoption of knowledge graph, there is an increasing demand for extracting entities and relations of knowledge graphs from unstructured domain documents. This makes the automatic knowledge extraction for domain text quite meaningful. This paper proposes a knowledge extraction method based on BERT, which is used to extract knowledge points from unstructured specific domain texts (such as insurance clauses in the insurance industry) automatically to save manpower of knowledge graph construction. Different from the commonly used methods which are based on rules, templates or entity extraction models, this paper converts the domain knowledge points into question and answer pairs and uses the text around the answer in documents as the context. The method adopts a BERT-based model similar to BERT's SQuAD reading comprehension task. The model is fine-tuned. And it is used to directly extract knowledge points from more insurance clauses. According to the test results, the model performance is good.
翻訳日:2021-03-06 01:48:19 公開日:2021-03-01
# (参考訳) ソーシャルメディアにおける抑うつ検出のためのサブ感情の深層化 [全文訳有]

Deep Bag-of-Sub-Emotions for Depression Detection in Social Media ( http://arxiv.org/abs/2103.01334v1 )

ライセンス: CC BY 4.0
Juan S. Lara, Mario Ezra Aragon, Fabio A. Gonzalez, Manuel Montes-y-Gomez(参考訳) 本稿では,ソーシャルメディアにおける抑うつ検出のための新しい深層学習モデルであるDeepBoSEを提案する。 モデルは、感情情報を含む微分可能なBag-of-Features(BoF) 表現を内部的に計算するように定式化される。 これは、項周波数-逆文書頻度のような古典的重み付けスキームを確率的ディープラーニング操作に再解釈することで達成される。 提案手法の重要な利点は、転送学習パラダイムの下でトレーニングできることであり、これは、ディープラーニングアーキテクチャに直接統合できない従来のBoFモデルを強化するのに有用である。 実験はeRisk17とeRisk18のデータセットで行われ、その結果、DeepBoSEは従来のBoF表現を上回り、技術の状態と競争力があり、eRisk17では0.64、eRisk18では0.65の陽性クラスよりもF1スコアを達成した。

This paper presents the Deep Bag-of-Sub-Emotions (DeepBoSE), a novel deep learning model for depression detection in social media. The model is formulated such that it internally computes a differentiable Bag-of-Features (BoF) representation that incorporates emotional information. This is achieved by a reinterpretation of classical weighting schemes like term frequency-inverse document frequency into probabilistic deep learning operations. An important advantage of the proposed method is that it can be trained under the transfer learning paradigm, which is useful to enhance conventional BoF models that cannot be directly integrated into deep learning architectures. Experiments were performed in the eRisk17 and eRisk18 datasets for the depression detection task; results show that DeepBoSE outperforms conventional BoF representations and it is competitive with the state of the art, achieving a F1-score over the positive class of 0.64 in eRisk17 and 0.65 in eRisk18.
翻訳日:2021-03-06 01:08:21 公開日:2021-03-01
# (参考訳) メタラーニングと自己教師付き学習の相互作用の概要 [全文訳有]

A Brief Summary of Interactions Between Meta-Learning and Self-Supervised Learning ( http://arxiv.org/abs/2103.00845v1 )

ライセンス: CC BY 4.0
Huimin Peng(参考訳) 本稿ではメタラーニングと自己指導型学習の関連について概説する。 メタラーニングはモデル一般化能力の向上や汎用AIアルゴリズムの構築に応用できる。 自己監督学習は、元のデータから自己監督を活用し、非監視の事前トレーニングまたはコントラスト損失目標の最適化を通じて、より高いレベルの一般化機能を抽出します。 自己教師付き学習では、データ拡張技術が広く適用され、類似タスクの訓練モデルから擬似ラベルを推定できるため、データラベルは不要である。 メタラーニングは、さまざまなタスクを解決するために訓練されたディープモデルを適応し、一般的なAIアルゴリズムを開発することを目的としている。 生成的および対照的な自己監督型学習モデルによるメタラーニングの関連性を検討する。 複数のソースからのラベルなしデータは、データソースが大きく異なる場合でも、共同で考えることができる。 メタラーニングと自己教師付き学習モデルの統合は,モデル一般化能力の向上に最も貢献できることを示す。 meta-learnerが指導する自己教師付き学習と、自己監督下での一般的なメタ学習アルゴリズムは、どちらも考えられる組み合わせの例である。

This paper briefly reviews the connections between meta-learning and self-supervised learning. Meta-learning can be applied to improve model generalization capability and to construct general AI algorithms. Self-supervised learning utilizes self-supervision from original data and extracts higher-level generalizable features through unsupervised pre-training or optimization of contrastive loss objectives. In self-supervised learning, data augmentation techniques are widely applied and data labels are not required since pseudo labels can be estimated from trained models on similar tasks. Meta-learning aims to adapt trained deep models to solve diverse tasks and to develop general AI algorithms. We review the associations of meta-learning with both generative and contrastive self-supervised learning models. Unlabeled data from multiple sources can be jointly considered even when data sources are vastly different. We show that an integration of meta-learning and self-supervised learning models can best contribute to the improvement of model generalization capability. Self-supervised learning guided by meta-learner and general meta-learning algorithms under self-supervision are both examples of possible combinations.
翻訳日:2021-03-06 00:09:18 公開日:2021-03-01
# (参考訳) Federated Powerによるプライバシ保護分散SVD

Privacy-Preserving Distributed SVD via Federated Power ( http://arxiv.org/abs/2103.00704v1 )

ライセンス: CC BY 4.0
Xiao Guo and Xiang Li and Xiangyu Chang and Shusen Wang and Zhihua Zhang(参考訳) シンギュラーバリュー分解(SVD)は、機械学習と統計学において最も基本的なツールの1つであり、現代の機械学習コミュニティは通常、データは小規模のデバイスユーザーから来ていると仮定しています。 このようなデバイスの低通信と計算能力、およびユーザーの機密データの潜在的なプライバシー侵害は、SVDの計算を困難にします。 Federated Learning (FL)は、多数のデバイスがデータ共有なしに、コミュニケーション効率の高い方法でモデルを共同学習することを可能にするパラダイムである。 FLフレームワークでは、現代の設定で部分SVDを計算するためのFedPowerと呼ばれるアルゴリズムのクラスを開発しています。 既知の電力法に基づいて、ローカルデバイスは複数のローカル電力イテレーションと1つのグローバルアグリゲーションの間で交互に通信効率を向上させる。 集計では、各局所固有ベクトル行列を直交プロクルス変換(OPT)で重み付けすることを提案する。 実際のストラグラー効果を考慮すると、アグリゲーションは完全あるいは部分的に参加でき、後者では2つのサンプリングとアグリゲーション方式を提案する。 さらに,プライバシー保護の強固さを確保するため,差分プライバシー(dp)の概念を採用することで,通信の際は常にガウスノイズを付加する。 FedPowerの収束境界を理論的に示します。 得られた境界は、ガウスノイズ、並列化、およびデバイスのランダムサンプリングの影響に対応する各部分でそれぞれ解釈可能である。 また、FedPowerのメリットを示す実験も行います。 特に、ローカルイテレーションは通信効率を向上させるだけでなく、プライバシー侵害の可能性も低減します。

Singular value decomposition (SVD) is one of the most fundamental tools in machine learning and statistics.The modern machine learning community usually assumes that data come from and belong to small-scale device users. The low communication and computation power of such devices, and the possible privacy breaches of users' sensitive data make the computation of SVD challenging. Federated learning (FL) is a paradigm enabling a large number of devices to jointly learn a model in a communication-effici ent way without data sharing. In the FL framework, we develop a class of algorithms called FedPower for the computation of partial SVD in the modern setting. Based on the well-known power method, the local devices alternate between multiple local power iterations and one global aggregation to improve communication efficiency. In the aggregation, we propose to weight each local eigenvector matrix with Orthogonal Procrustes Transformation (OPT). Considering the practical stragglers' effect, the aggregation can be fully participated or partially participated, where for the latter we propose two sampling and aggregation schemes. Further, to ensure strong privacy protection, we add Gaussian noise whenever the communication happens by adopting the notion of differential privacy (DP). We theoretically show the convergence bound for FedPower. The resulting bound is interpretable with each part corresponding to the effect of Gaussian noise, parallelization, and random sampling of devices, respectively. We also conduct experiments to demonstrate the merits of FedPower. In particular, the local iterations not only improve communication efficiency but also reduce the chance of privacy breaches.
翻訳日:2021-03-05 20:32:20 公開日:2021-03-01
# (参考訳) スペクトルクラスタリングの裏にある数学とPCAの等価性 [全文訳有]

The Mathematics Behind Spectral Clustering And The Equivalence To PCA ( http://arxiv.org/abs/2103.00733v1 )

ライセンス: CC BY-SA 4.0
T Shen(参考訳) スペクトルクラスタリングは、データから派生したラプラシアン行列の固有値と固有ベクトルを用いて点をクラスタ化する一般的なアルゴリズムである。 長年にわたり、スペクトルクラスタリングは神秘的に機能してきた。 本稿では、グラフラプラシアンが完全連結であるか否かに基づいて、スペクトルクラスタリングを2つのカテゴリに分けて説明する。 完全連結グラフに対して,本論文では,元データ点の類似点とマッピングしたデータ点の類似点との共分散という,目的関数を提供することにより,次元減少部を実証する。 マルチコネクテッドグラフの場合、この論文は、適切な $k$ の場合、最初の $k$ eigenvectors が接続されたコンポーネントの指標であることを証明します。 本論文ではスペクトル埋め込みとPCAの等価性も証明する。

Spectral clustering is a popular algorithm that clusters points using the eigenvalues and eigenvectors of Laplacian matrices derived from the data. For years, spectral clustering has been working mysteriously. This paper explains spectral clustering by dividing it into two categories based on whether the graph Laplacian is fully connected or not. For a fully connected graph, this paper demonstrates the dimension reduction part by offering an objective function: the covariance between the original data points' similarities and the mapped data points' similarities. For a multi-connected graph, this paper proves that with a proper $k$, the first $k$ eigenvectors are the indicators of the connected components. This paper also proves there is an equivalence between spectral embedding and PCA.
翻訳日:2021-03-05 20:31:09 公開日:2021-03-01
# (参考訳) タンジェントカーネル上での微分学習の利点の定量化 [全文訳有]

Quantifying the Benefit of Using Differentiable Learning over Tangent Kernels ( http://arxiv.org/abs/2103.01210v1 )

ライセンス: CC BY 4.0
Eran Malach, Pritish Kamath, Emmanuel Abbe, Nathan Srebro(参考訳) ニューラルネットワークなどの微分可能なモデルに対する勾配降下による学習の相対的力と,対応する接するカーネルの利用について検討する。 ある条件下では、勾配降下は、関連する接核法がランダム推測よりも非自明なアドバンテージ(a.k.a.)を達成した場合にのみ小さな誤差をもたらす。 弱い学習) しかし、勾配降下が任意に高い精度を達成することができる場合でも、この利点は非常に小さい。 このような条件がなければ、特にタンジェントカーネルを使ったカーネル法がランダムな推測よりも非自明な優位性を達成できない場合でも、勾配降下は小さな誤差で学習できることが示される。

We study the relative power of learning with gradient descent on differentiable models, such as neural networks, versus using the corresponding tangent kernels. We show that under certain conditions, gradient descent achieves small error only if a related tangent kernel method achieves a non-trivial advantage over random guessing (a.k.a. weak learning), though this advantage might be very small even when gradient descent can achieve arbitrarily high accuracy. Complementing this, we show that without these conditions, gradient descent can in fact learn with small error even when no kernel method, in particular using the tangent kernel, can achieve a non-trivial advantage over random guessing.
翻訳日:2021-03-05 20:25:15 公開日:2021-03-01
# (参考訳) 高速かつ証明可能な対向ロバスト性を実現するためのマルチクラスブースティングフレームワーク [全文訳有]

A Multiclass Boosting Framework for Achieving Fast and Provable Adversarial Robustness ( http://arxiv.org/abs/2103.01276v1 )

ライセンス: CC BY 4.0
Jacob Abernathy, Pranjal Awasthi, Satyen Kale(参考訳) ディープニューラルネットワークの公表された成果に加えて、オブジェクト認識などのタスクの成功に明らかなバグが現れました。バニラメソッドを使用して訓練されたディープモデルでは、これらの破損が事実上見えない場合でも、出力予測を変更するために入力イメージをわずかに破損させることができます。 この明らかな堅牢性の欠如により、研究者は敵がそのような能力を持つのを防げる方法を提案している。 最先端のアプローチでは、ロバスト性要件を損失関数に組み込んでおり、トレーニングプロセスでは、元の入力ではなく、逆に破壊的な勾配降下ステップを踏む。 本稿では,対向ロバスト性を確保するためのマルチクラスブースティングフレームワークを提案する。 ブーストアルゴリズムは、典型的にはミニマックスの保証を満たすように設計されたため、一般的に敵対的なシナリオに適しています。 この方法論の理論的基盤を提供し、弱い訓練の託宣を条件として、堅牢性を達成できる条件を記述する。 実例では, 逆ロバスト・マルチクラス・ブースティングが最先端の手法に勝るだけでなく, トレーニング時間のごく一部で実現していることを示す。

Alongside the well-publicized accomplishments of deep neural networks there has emerged an apparent bug in their success on tasks such as object recognition: with deep models trained using vanilla methods, input images can be slightly corrupted in order to modify output predictions, even when these corruptions are practically invisible. This apparent lack of robustness has led researchers to propose methods that can help to prevent an adversary from having such capabilities. The state-of-the-art approaches have incorporated the robustness requirement into the loss function, and the training process involves taking stochastic gradient descent steps not using original inputs but on adversarially-corrup ted ones. In this paper we propose a multiclass boosting framework to ensure adversarial robustness. Boosting algorithms are generally well-suited for adversarial scenarios, as they were classically designed to satisfy a minimax guarantee. We provide a theoretical foundation for this methodology and describe conditions under which robustness can be achieved given a weak training oracle. We show empirically that adversarially-robust multiclass boosting not only outperforms the state-of-the-art methods, it does so at a fraction of the training time.
翻訳日:2021-03-05 19:16:27 公開日:2021-03-01
# (参考訳) 関数勾配の推定による生成的粒子変動推定 [全文訳有]

Generative Particle Variational Inference via Estimation of Functional Gradients ( http://arxiv.org/abs/2103.01291v1 )

ライセンス: CC BY 4.0
Neale Ratzlaff, Qinxun Bai, Li Fuxin, Wei Xu(参考訳) 近年,Kulback-Leibler分散を直接最小化し,エビデンスに基づく下界からの近似誤差に悩まされないため,ParVI法が注目されている。 しかし、多くのParVIアプローチは後部からの任意のサンプリングを許さず、そのようなサンプリングを許すものは極端に最適である。 本研究では, 後方分布から標本を推定する新しい学習法を提案する。 経験的サンプリング分布とターゲット分布の間のKL分散の機能勾配で訓練されたニューラルサンプラーを構築し、その勾配が再生カーネルヒルベルト空間内に存在すると仮定する。 生成型ParVI (GPVI) 法は, 生成型サンプリング装置の柔軟性を提供しつつ, ParVI 法の漸近的性能を維持している。 念入りに構築した実験により,gpvi は amortized svgd のような従来の生成的 parvi 法よりも優れており,正確な既知の目標分布と難解な目標分布とを適合させるため,parvi やhamtonian monte carlo のような金標準アプローチと競合することを示した。

Recently, particle-based variational inference (ParVI) methods have gained interest because they directly minimize the Kullback-Leibler divergence and do not suffer from approximation errors from the evidence-based lower bound. However, many ParVI approaches do not allow arbitrary sampling from the posterior, and the few that do allow such sampling suffer from suboptimality. This work proposes a new method for learning to approximately sample from the posterior distribution. We construct a neural sampler that is trained with the functional gradient of the KL-divergence between the empirical sampling distribution and the target distribution, assuming the gradient resides within a reproducing kernel Hilbert space. Our generative ParVI (GPVI) approach maintains the asymptotic performance of ParVI methods while offering the flexibility of a generative sampler. Through carefully constructed experiments, we show that GPVI outperforms previous generative ParVI methods such as amortized SVGD, and is competitive with ParVI as well as gold-standard approaches like Hamiltonian Monte Carlo for fitting both exactly known and intractable target distributions.
翻訳日:2021-03-05 18:36:09 公開日:2021-03-01
# (参考訳) UCBモメンタムQ-ラーニング:忘れずにバイアスを修正する

UCB Momentum Q-learning: Correcting the bias without forgetting ( http://arxiv.org/abs/2103.01312v1 )

ライセンス: CC BY 4.0
Pierre Menard, Omar Darwiche Domingues, Xuedong Shang, Michal Valko(参考訳) UCBMQ, 上信頼境界モーメントQ-ラーニング, 表式およびステージに依存しない, エピソディックマルコフ決定プロセスにおける強化学習のための新しいアルゴリズムを提案する。 UCBMQはQラーニングに基づいており、モーメント項を追加し、探索に対処するための不確実性に直面した楽観主義の原則に依存しています。 ucbmqの新たな技術的要素は、q-learningが抱えるバイアスを修正するためにモメンタムを使用すると同時に、後悔の2次項への影響も制限することです。 UCBMQの場合、$H$がエピソードの長さ、$S$がステートの数、$A$がアクションの数、$T$がエピソードの数、およびpoly$log(SAHT)$の用語を無視する最大$O(\sqrt{H^3SAT}+ H^4 S A)$の後悔を保証することができます。 特に、UBBMQは、十分に大きな$T$に対して、$\Omega(\sqrt{H^3SAT})$の下限を同時に一致させる最初のアルゴリズムであり、(地平線$T$に関して)2次項を持ち、$S$の状態数とのみ線形にスケールする。

We propose UCBMQ, Upper Confidence Bound Momentum Q-learning, a new algorithm for reinforcement learning in tabular and possibly stage-dependent, episodic Markov decision process. UCBMQ is based on Q-learning where we add a momentum term and rely on the principle of optimism in face of uncertainty to deal with exploration. Our new technical ingredient of UCBMQ is the use of momentum to correct the bias that Q-learning suffers while, at the same time, limiting the impact it has on the second-order term of the regret. For UCBMQ , we are able to guarantee a regret of at most $O(\sqrt{H^3SAT}+ H^4 S A )$ where $H$ is the length of an episode, $S$ the number of states, $A$ the number of actions, $T$ the number of episodes and ignoring terms in poly$log(SAHT)$. Notably, UCBMQ is the first algorithm that simultaneously matches the lower bound of $\Omega(\sqrt{H^3SAT})$ for large enough $T$ and has a second-order term (with respect to the horizon $T$) that scales only linearly with the number of states $S$.
翻訳日:2021-03-05 17:47:24 公開日:2021-03-01
# (参考訳) RGBD顔面アンチスプーフィングのためのクロスモーダル焦点損失 [全文訳有]

Cross Modal Focal Loss for RGBD Face Anti-Spoofing ( http://arxiv.org/abs/2103.00948v1 )

ライセンス: CC BY 4.0
Anjith George and Sebastien Marcel(参考訳) 顔認識技術の信頼性を確保するためには,プレゼンテーションアタックの自動検出手法が不可欠である。 プレゼンテーション攻撃検出(PAD)の文献で利用可能な方法のほとんどは、目に見えない攻撃の一般化に失敗します。 近年,PADシステムの堅牢性向上のためにマルチチャネル方式が提案されている。 多くの場合、これらの方法の有効性を制限する追加のチャネルのために限られた量のデータしか利用できません。 本研究では,新しい損失関数とともに,RGBと奥行きチャネルを用いたPADのための新しいフレームワークを提案する。 新しいアーキテクチャは、2つのモダリティからの補完的な情報を使用し、オーバーフィットの影響を減らします。 本質的には、個々のチャネルの信頼度関数として各チャネルの損失寄与を変調するために、クロスモーダルな焦点損失関数を提案する。 2つの公開データセットにおける広範な評価は、提案されたアプローチの有効性を示す。

Automatic methods for detecting presentation attacks are essential to ensure the reliable use of facial recognition technology. Most of the methods available in the literature for presentation attack detection (PAD) fails in generalizing to unseen attacks. In recent years, multi-channel methods have been proposed to improve the robustness of PAD systems. Often, only a limited amount of data is available for additional channels, which limits the effectiveness of these methods. In this work, we present a new framework for PAD that uses RGB and depth channels together with a novel loss function. The new architecture uses complementary information from the two modalities while reducing the impact of overfitting. Essentially, a cross-modal focal loss function is proposed to modulate the loss contribution of each channel as a function of the confidence of individual channels. Extensive evaluations in two publicly available datasets demonstrate the effectiveness of the proposed approach.
翻訳日:2021-03-05 16:23:18 公開日:2021-03-01
# (参考訳) GAN(Generative Adversarial Networks)の公正性について [全文訳有]

On the Fairness of Generative Adversarial Networks (GANs) ( http://arxiv.org/abs/2103.00950v1 )

ライセンス: CC BY 4.0
Patrik Joslin Kenfack, Daniil Dmitrievich Arapovy, Rasheed Hussain, S.M. Ahsan Kazmi, Adil Mehmood Khan(参考訳) GAN(Generative adversarial Network)は、近年のAIの最大の進歩の1つです。 データの確率分布を直接学習し、合成現実データをサンプリングする能力を持つ。 データ強化、クラスアンバランス問題、公正表現学習など、機械学習の古典的な問題を解決するためにGANを使用して、多くのアプリケーションが登場した。 本稿では,GANモデルの公平性に関する問題を分析し,強調する。 この点で、GANsモデルがトレーニングプロセス中に本質的に特定のグループを好む可能性があることを実証的に示し、したがって、テストフェーズ中に異なるグループからのデータを均質に生成することはできません。 さらに,サンプルグループに対してGANモデルを条件付けしたり,あるいはアンサンブル法(ブースティング)を用いて,トレーニングフェーズ中にデータ分散構造を利用して,テストフェーズ中に同じ速度でグループを生成することで,この問題を解決する方法を提案する。

Generative adversarial networks (GANs) are one of the greatest advances in AI in recent years. With their ability to directly learn the probability distribution of data, and then sample synthetic realistic data. Many applications have emerged, using GANs to solve classical problems in machine learning, such as data augmentation, class unbalance problems, and fair representation learning. In this paper, we analyze and highlight fairness concerns of GANs model. In this regard, we show empirically that GANs models may inherently prefer certain groups during the training process and therefore they're not able to homogeneously generate data from different groups during the testing phase. Furthermore, we propose solutions to solve this issue by conditioning the GAN model towards samples' group or using ensemble method (boosting) to allow the GAN model to leverage distributed structure of data during the training phase and generate groups at equal rate during the testing phase.
翻訳日:2021-03-05 16:10:07 公開日:2021-03-01
# (参考訳) Inference-time Label-Preserving Target Projectionによるドメイン一般化 [全文訳有]

Domain Generalization via Inference-time Label-Preserving Target Projections ( http://arxiv.org/abs/2103.01134v1 )

ライセンス: CC BY 4.0
Prashant Pandey, Mrigank Raman, Sumanth Varambally, Prathosh AP(参考訳) 異なる統計を持つ未確認のターゲットドメイン上のソースドメインのセットで訓練された機械学習モデルの一般化は、難しい問題です。 この問題を解決するための多くのアプローチが提案されているが、トレーニング中にのみソースデータを利用するが、推論時に単一のターゲットの例が利用できるという事実を利用できない。 そこで本研究では,対象試料を単なる分類以上の推論に効果的に利用する手法を提案する。 i) ソースデータ上のラベル保存機能またはメトリック変換(ソースサンプルがそれらのドメインに関係なくクラスに応じてクラスタ化されるように) これらの特徴に基づいて訓練された生成モデル(iii) 推論中にソース機能多様体上のターゲットポイントのラベル保存投影は、学習されたメトリックを使用して生成モデルの入力空間の最適化問題を解決することによって解決される。 最後に、投影されたターゲットを分類器で使用する。 プロジェクションされたターゲット特徴は、ソース多様体から来るものであり、設計による実際のターゲットと同じラベルを持っているため、分類器は真のターゲットよりも優れたパフォーマンスを期待できる。 本手法は、複数のデータセットとタスクにおける最新のドメイン一般化手法を上回っていることを実証する。

Generalization of machine learning models trained on a set of source domains on unseen target domains with different statistics, is a challenging problem. While many approaches have been proposed to solve this problem, they only utilize source data during training but do not take advantage of the fact that a single target example is available at the time of inference. Motivated by this, we propose a method that effectively uses the target sample during inference beyond mere classification. Our method has three components - (i) A label-preserving feature or metric transformation on source data such that the source samples are clustered in accordance with their class irrespective of their domain (ii) A generative model trained on the these features (iii) A label-preserving projection of the target point on the source-feature manifold during inference via solving an optimization problem on the input space of the generative model using the learned metric. Finally, the projected target is used in the classifier. Since the projected target feature comes from the source manifold and has the same label as the real target by design, the classifier is expected to perform better on it than the true target. We demonstrate that our method outperforms the state-of-the-art Domain Generalization methods on multiple datasets and tasks.
翻訳日:2021-03-05 15:41:15 公開日:2021-03-01
# 機能相互作用レンズによる解釈可能な人工知能

Interpretable Artificial Intelligence through the Lens of Feature Interaction ( http://arxiv.org/abs/2103.03103v1 )

ライセンス: Link先を確認
Michael Tsang, James Enouen, Yan Liu(参考訳) ディープラーニングモデルの解釈は、多数のパラメータ、ノード間の複雑な接続、そして理解不能な特徴表現のため、非常に難しい問題である。 これにもかかわらず、多くの人は、信頼性、公平性、安全性の鍵となるソリューションとして解釈可能性を検討している。特に、信用承認、ジョブスクリーニング、およびレシディズム予測のようなより重要な決定タスクにディープラーニングが適用されるためである。 深層学習モデルに解釈可能性を提供する優れた研究はたくさんありますが、一般的に使用される多くの方法は「機能相互作用」と呼ばれる現象を考慮していません。 この研究はまず、機能相互作用の歴史的かつ近代的な重要性を説明し、続いて、機能相互作用を明示的に考慮する近代的解釈可能性法を調査した。 この調査は、特にディープラーニングモデルが機能相互作用に大きく依存する現代の状況において、機械学習の解釈可能性のより大きな文脈における機能相互作用の重要性を明らかにすることを目的としている。

Interpretation of deep learning models is a very challenging problem because of their large number of parameters, complex connections between nodes, and unintelligible feature representations. Despite this, many view interpretability as a key solution to trustworthiness, fairness, and safety, especially as deep learning is applied to more critical decision tasks like credit approval, job screening, and recidivism prediction. There is an abundance of good research providing interpretability to deep learning models; however, many of the commonly used methods do not consider a phenomenon called "feature interaction." This work first explains the historical and modern importance of feature interactions and then surveys the modern interpretability methods which do explicitly consider feature interactions. This survey aims to bring to light the importance of feature interactions in the larger context of machine learning interpretability, especially in a modern context where deep learning models heavily rely on feature interactions.
翻訳日:2021-03-05 14:52:13 公開日:2021-03-01
# (参考訳) ゼロショット分類における性能変動 [全文訳有]

Performance Variability in Zero-Shot Classification ( http://arxiv.org/abs/2103.01284v1 )

ライセンス: CC BY 4.0
Mat\'ias Molina (Universidad Nacional de C\'ordoba) and Jorge S\'anchez (CONICET)(参考訳) ゼロショット分類(ZSC)は、トレーニング中に見られないクラスの予測器を学習するタスクです。 文献の異なる方法は同じクラス分割を用いて評価されるが、異なるクラス分割の下での安定性についてはほとんど知られていない。 本研究は,ZSCの性能がトレーニング設定の変更時に強い変動を示すことを示す。 この現象を緩和する試みとして, 使用アンサンブル学習を提案する。

Zero-shot classification (ZSC) is the task of learning predictors for classes not seen during training. Although the different methods in the literature are evaluated using the same class splits, little is known about their stability under different class partitions. In this work we show experimentally that ZSC performance exhibits strong variability under changing training setups. We propose the use ensemble learning as an attempt to mitigate this phenomena.
翻訳日:2021-03-05 14:40:41 公開日:2021-03-01
# (参考訳) 自然言語処理におけるToken-Modification Adversarial Attacks: A Survey [全文訳有]

Token-Modification Adversarial Attacks for Natural Language Processing: A Survey ( http://arxiv.org/abs/2103.00676v1 )

ライセンス: CC BY 4.0
Tom Roth, Yansong Gao, Alsharif Abuadbba, Surya Nepal, Wei Liu(参考訳) 現在、自然言語処理システムに対する多くの敵攻撃がある。 これらのうち、大多数は個々のドキュメントトークンを変更することで成功し、ここでは \textit{token-modification} 攻撃と呼ぶ。 各トークン修飾攻撃は、敵または特定の検索アルゴリズムに対する制約など、基本的な \textit{components} の特定の組み合わせによって定義される。 この観察に動機づけられて,既存のトークン修飾攻撃を調査し,各コンポーネントを抽出した。 我々は、攻撃非依存のフレームワークを用いて調査を構造化し、フィールドの効果的な分類とコンポーネントの比較を容易にする。 この調査は、新しい研究者をこの分野に導き、個々の攻撃コンポーネントに関するさらなる研究を促進することを願っています。

There are now many adversarial attacks for natural language processing systems. Of these, a vast majority achieve success by modifying individual document tokens, which we call here a \textit{token-modification} attack. Each token-modification attack is defined by a specific combination of fundamental \textit{components}, such as a constraint on the adversary or a particular search algorithm. Motivated by this observation, we survey existing token-modification attacks and extract the components of each. We use an attack-independent framework to structure our survey which results in an effective categorisation of the field and an easy comparison of components. We hope this survey will guide new researchers to this field and spark further research into the individual attack components.
翻訳日:2021-03-05 11:12:00 公開日:2021-03-01
# (参考訳) 個人化フェデレーション学習に向けて [全文訳有]

Towards Personalized Federated Learning ( http://arxiv.org/abs/2103.00710v1 )

ライセンス: CC BY 4.0
Alysa Ziying Tan, Han Yu, Lizhen Cui, Qiang Yang(参考訳) ai(artificial intelligence)によるアプリケーションの普及に伴い、ユーザのプライバシとデータの機密性に対する意識と懸念が高まっている。 これにより、連合学習(federated learning:fl)が普及した。 flアプリケーションは、しばしばデータ所有者間でデータ分散とデバイス能力の多様性に直面します。 これによりパーソナライズドFL(Personalized FL)の急速な発展が促進された。 本論文では, FLの手法と応用を主として重視した既存の調査を, PFLの最近の進歩を振り返って補完する。 現在のFL設定でPFLのハードルを議論し、PFL技術をデータベースおよびモデルベースのアプローチに分割するユニークな分類法を提示する。 我々はこれらの重要なアイデアを強調し、新しいPFLアーキテクチャ設計、現実的なPFLベンチマーク、信頼できるPFLアプローチに向けた将来的な研究の軌跡を想定する。

As artificial intelligence (AI)-empowered applications become widespread, there is growing awareness and concern for user privacy and data confidentiality. This has contributed to the popularity of federated learning (FL). FL applications often face data distribution and device capability heterogeneity across data owners. This has stimulated the rapid development of Personalized FL (PFL). In this paper, we complement existing surveys, which largely focus on the methods and applications of FL, with a review of recent advances in PFL. We discuss hurdles to PFL under the current FL settings, and present a unique taxonomy dividing PFL techniques into data-based and model-based approaches. We highlight their key ideas, and envision promising future trajectories of research towards new PFL architectural design, realistic PFL benchmarking, and trustworthy PFL approaches.
翻訳日:2021-03-05 10:05:27 公開日:2021-03-01
# (参考訳) 非ユークリッド微分私的確率凸最適化 [全文訳有]

Non-Euclidean Differentially Private Stochastic Convex Optimization ( http://arxiv.org/abs/2103.01278v1 )

ライセンス: CC BY 4.0
Raef Bassily, Crist\'obal Guzm\'an, Anupama Nandi(参考訳) Differentially private (DP) stochastic convex Optimization (SCO) は基本的な問題であり、i.d.のデータセットが与えられた場合の凸損失関数に関して、人口リスクをほぼ最小化することを目的としている。 データセットに関して差分プライバシーを満たしながら、分布からのサンプル。 プライベート凸最適化の文献における既存の研究の多くは、損失がリプシッツ(おそらく滑らか) w.r.t であると仮定されるユークリッド(すなわち$\ell_2$)の設定に焦点を当てている。 有界な $\ell_2$ diameter を持つ制約集合上の $\ell_2$ norm 。 雑音性確率勾配勾配(SGD)に基づくアルゴリズムは、この設定において最適余剰リスクに達することが知られている。 本研究では,$\ell_p$-setups に対するdp-sco の系統的研究を行う。 p=1$の場合、標準的な平滑性仮定の下で、我々はほぼ最適な過剰リスクを持つ新しいアルゴリズムを与える。 この結果は一般多面体ノルムや実現可能集合にも拡張される。 p\in(1, 2)$の場合、2つの新しいアルゴリズムを与え、その中心となるビルディングブロックは、ガウス機構を一般化する新しいプライバシメカニズムである。 さらに、$d$ が空間の次元である $\sqrt{d}$ に対する必要な依存を示す、$p$ のこの範囲の過剰リスクに対するより低い境界を確立する。 我々の下限は、余剰リスクが$p=1$で突然遷移し、$d$への依存は対数から多項式に変化し、事前の作業 [TTZ15] で開問題を解決することを意味する。 p\in (2, \infty)$ の場合、雑音 SGD は低次元状態において最適余剰リスクを得るが、これは特に$p=\infty$ に対して雑音 SGD の最適性を証明する。 私たちの作品は、規則性、均一凸性、均一な平滑性の概念など、規範空間の幾何学から概念を導き出します。

Differentially private (DP) stochastic convex optimization (SCO) is a fundamental problem, where the goal is to approximately minimize the population risk with respect to a convex loss function, given a dataset of i.i.d. samples from a distribution, while satisfying differential privacy with respect to the dataset. Most of the existing works in the literature of private convex optimization focus on the Euclidean (i.e., $\ell_2$) setting, where the loss is assumed to be Lipschitz (and possibly smooth) w.r.t. the $\ell_2$ norm over a constraint set with bounded $\ell_2$ diameter. Algorithms based on noisy stochastic gradient descent (SGD) are known to attain the optimal excess risk in this setting. In this work, we conduct a systematic study of DP-SCO for $\ell_p$-setups. For $p=1$, under a standard smoothness assumption, we give a new algorithm with nearly optimal excess risk. This result also extends to general polyhedral norms and feasible sets. For $p\in(1, 2)$, we give two new algorithms, whose central building block is a novel privacy mechanism, which generalizes the Gaussian mechanism. Moreover, we establish a lower bound on the excess risk for this range of $p$, showing a necessary dependence on $\sqrt{d}$, where $d$ is the dimension of the space. Our lower bound implies a sudden transition of the excess risk at $p=1$, where the dependence on $d$ changes from logarithmic to polynomial, resolving an open question in prior work [TTZ15] . For $p\in (2, \infty)$, noisy SGD attains optimal excess risk in the low-dimensional regime; in particular, this proves the optimality of noisy SGD for $p=\infty$. Our work draws upon concepts from the geometry of normed spaces, such as the notions of regularity, uniform convexity, and uniform smoothness.
翻訳日:2021-03-05 09:27:21 公開日:2021-03-01
# (参考訳) 内視鏡画像における腎臓結石同定のための深層学習法の評価 [全文訳有]

Assessing deep learning methods for the identification of kidney stones in endoscopic images ( http://arxiv.org/abs/2103.01146v1 )

ライセンス: CC BY 4.0
Francisco Lopez, Andres Varela, Oscar Hinojosa, Mauricio Mendez, Dinh-Hoan Trinh, Jonathan ElBeze, Jacques Hubert, Vincent Estrade, Miguel Gonzalez, Gilberto Ochoa, Christian Daul(参考訳) 腎臓結石のタイプ(生化学組成)を知ることは、適切な治療で再発を予防するために重要である。 尿素コピー中に腎臓結石を断片化し、尿路から抽出し、その組成を形態構成分析を用いて決定する。 この手順は時間を要する(形態構成分析の結果は数日後にのみ利用可能)と退屈な(断片抽出は1時間まで持続する)。 腎結石型を生体内内視鏡像のみで同定することは, 破片の粉塵化を可能とし, 形態・構成分析は避けることができた。 in vivoでの腎臓結石の同定に関する貢献はごくわずかであった。 本稿では、ディープ畳み込みニューラルネットワーク(DCNN)と従来の(非DCNN)の5つの分類手法について論じ、比較する。 ベストメソッドが4つのクラスに対して98%と97%の精度でリコールを行うDCCNアプローチであるとしても、この寄与はXGBoost分類器が良質な特徴ベクトルを利用して、限られたアノテートデータを持つ医療アプリケーションに対するDCNN分類器の性能に近づくことができることを示している。

Knowing the type (i.e., the biochemical composition) of kidney stones is crucial to prevent relapses with an appropriate treatment. During ureteroscopies, kidney stones are fragmented, extracted from the urinary tract, and their composition is determined using a morpho-constitutiona l analysis. This procedure is time consuming (the morpho-constitutiona l analysis results are only available after some days) and tedious (the fragment extraction lasts up to an hour). Identifying the kidney stone type only with the in-vivo endoscopic images would allow for the dusting of the fragments, while the morpho-constitutiona l analysis could be avoided. Only few contributions dealing with the in vivo identification of kidney stones were published. This paper discusses and compares five classification methods including deep convolutional neural networks (DCNN)-based approaches and traditional (non DCNN-based) ones. Even if the best method is a DCCN approach with a precision and recall of 98% and 97% over four classes, this contribution shows that a XGBoost classifier exploiting well-chosen feature vectors can closely approach the performances of DCNN classifiers for a medical application with a limited number of annotated data.
翻訳日:2021-03-05 06:40:10 公開日:2021-03-01
# (参考訳) ビューティーパワービースト

BEAUTY Powered BEAST ( http://arxiv.org/abs/2103.00674v1 )

ライセンス: CC BY 4.0
Kai Zhang, Zhigen Zhao, Wen Zhou(参考訳) 提案された二元膨張近似法(BEAUTY)による一様分布の推定について検討する。 有名なオイラーの公式の拡張を通じて、任意のコプラ分布の特徴関数を、境界二項拡大からの二項相互作用の手段の線形結合と近似する。 この特徴付けにより、決定論的重み行列が各テストのパワー特性を特徴づける対称性統計の二次形式から近似することで、多くの重要な既存のテストの統一が可能になる。 均一に高い出力を実現するため,二元膨張適応対称性試験(BEAST)と呼ばれるオーラクル手法を用いて,データ適応重みによる試験統計を研究する。 二元拡大濾過の特性を利用して、一様性のナイマン・ピアソン検定が対称性統計のオラクル重み付け和によって近似できることが示される。 このオーラクルを備えたBEASTは、我々は代替のあらゆる複雑な形態に対して実証力で検討したすべての既存のテストをリードします。 この神託は、力の大幅な改善の可能性と、それぞれの選択肢の下で最適な重量の形で光を放つ。 このオーラクルをデータ適応重みで近似することにより、拒絶時に不均一性の形式を明確に解釈しながら、多くの既存のテストの幅広い代替案に対する実証力を向上させるBEASTを開発しています。 私たちは、星の位置と明るさの関係の研究でBEASTを説明します。

We study inference about the uniform distribution with the proposed binary expansion approximation of uniformity (BEAUTY) approach. Through an extension of the celebrated Euler's formula, we approximate the characteristic function of any copula distribution with a linear combination of means of binary interactions from marginal binary expansions. This novel characterization enables a unification of many important existing tests through an approximation from some quadratic form of symmetry statistics, where the deterministic weight matrix characterizes the power properties of each test. To achieve a uniformly high power, we study test statistics with data-adaptive weights through an oracle approach, referred to as the binary expansion adaptive symmetry test (BEAST). By utilizing the properties of the binary expansion filtration, we show that the Neyman-Pearson test of uniformity can be approximated by an oracle weighted sum of symmetry statistics. The BEAST with this oracle leads all existing tests we considered in empirical power against all complex forms of alternatives. This oracle therefore sheds light on the potential of substantial improvements in power and on the form of optimal weights under each alternative. By approximating this oracle with data-adaptive weights, we develop the BEAST that improves the empirical power of many existing tests against a wide spectrum of common alternatives while providing clear interpretation of the form of non-uniformity upon rejection. We illustrate the BEAST with a study of the relationship between the location and brightness of stars.
翻訳日:2021-03-05 05:59:12 公開日:2021-03-01
# (参考訳) 自然言語処理モデルを用いたcovid-19インフォデミック対策 [全文訳有]

Combat COVID-19 Infodemic Using Explainable Natural Language Processing Models ( http://arxiv.org/abs/2103.00747v1 )

ライセンス: CC BY 4.0
Jackie Ayoub, X. Jessie Yang, Feng Zhou(参考訳) 新型コロナウイルス(COVID-19)の誤報は、パンデミックが広がるにつれてソーシャルメディアに広まり、関連するリスクは非常に高い。 したがって、そのような誤情報を検出して対処することは重要です。 近年,BERT (Bidirectional Encoder Representations from Transformers) などの自然言語処理技術を用いた深層学習モデルが,誤情報検出に成功している。 本稿では,DistilBERT と SHAP (Shapley Additive exPlanations) に基づく自然言語処理モデルを提案し,その効率と有効性から,新型コロナウイルスの誤報に対処する。 まず、事実チェックでcovid-19に関する984件の主張のデータセットを収集しました。 バックトランスレーションを用いてデータを増大させることで、データセットのサンプルサイズを2倍にし、DistilBERTモデルは優れたパフォーマンスを得ることができた(精度:0.972;曲線下の領域:0.993)。 また,AAAI2021(COVID-19 Fake News Detection Shared Task)の大規模データセットを用いて,良好な性能(精度:0.938,曲線下面積:0.985)を得た。 両方のデータセットのパフォーマンスは、従来の機械学習モデルよりも良かった。 第2に,モデル予測に対する一般の信頼を高めるため,モデル説明可能性の向上のためにSHAPを用いて,テキスト(T),テキスト+SHAP説明(TSE),テキスト+SHAP説明+ソースとエビデンス(TSESE)の3つの条件を用いて,オブジェクト間実験によりさらに評価を行った。 参加者は、TSEおよびTSESEの条件において、T条件よりも、COVID-19に関連する情報を信頼し、共有する可能性が大幅に高かった。 その結果は、新型コロナウイルスの誤報の検出と公衆の信頼向上に良い影響を与えました。

Misinformation of COVID-19 is prevalent on social media as the pandemic unfolds, and the associated risks are extremely high. Thus, it is critical to detect and combat such misinformation. Recently, deep learning models using natural language processing techniques, such as BERT (Bidirectional Encoder Representations from Transformers), have achieved great successes in detecting misinformation. In this paper, we proposed an explainable natural language processing model based on DistilBERT and SHAP (Shapley Additive exPlanations) to combat misinformation about COVID-19 due to their efficiency and effectiveness. First, we collected a dataset of 984 claims about COVID-19 with fact checking. By augmenting the data using back-translation, we doubled the sample size of the dataset and the DistilBERT model was able to obtain good performance (accuracy: 0.972; areas under the curve: 0.993) in detecting misinformation about COVID-19. Our model was also tested on a larger dataset for AAAI2021 - COVID-19 Fake News Detection Shared Task and obtained good performance (accuracy: 0.938; areas under the curve: 0.985). The performance on both datasets was better than traditional machine learning models. Second, in order to boost public trust in model prediction, we employed SHAP to improve model explainability, which was further evaluated using a between-subjects experiment with three conditions, i.e., text (T), text+SHAP explanation (TSE), and text+SHAP explanation+source and evidence (TSESE). The participants were significantly more likely to trust and share information related to COVID-19 in the TSE and TSESE conditions than in the T condition. Our results provided good implications in detecting misinformation about COVID-19 and improving public trust.
翻訳日:2021-03-05 05:26:24 公開日:2021-03-01
# (参考訳) vy\=akarana:構文評価のための無色緑のベンチマーク [全文訳有]

Vy\=akarana: A Colorless Green Benchmark for Syntactic Evaluation in Indic Languages ( http://arxiv.org/abs/2103.00854v1 )

ライセンス: CC BY 4.0
Rajaswa Patil, Jasleen Dhillon, Siddhant Mahurkar, Saumitra Kulkarni, Manav Malhotra and Veeky Baths(参考訳) nluデータセットやindic言語のベンチマークの開発には大きな進展があったが、構文的評価は比較的少ない。 英語とは異なり、Indic言語は豊富な形態素構文、文法的性別、自由線形語順、高い屈折形態素を持っている。 本稿では,多言語言語モデルの構文評価のために,indic 言語における有色無色文の性バランスベンチマークである vy\=akarana について述べる。 このベンチマークは、PoSタグ、Syntax Tree-Depth Prediction、文法的なケースマーキング、およびSubject-Verb Agreementの4つの構文関連タスクで構成されている。 評価タスクから得られたデータセットを用いて、さまざまなアーキテクチャの5つの多言語言語モデルをIndic言語で調べる。 その結果,indic language model(indicbertおよびmuril)のトークンレベルおよび文レベルの表現は,他の高度多言語言語モデルほど効率的にindic languageの構文を捉えていないことがわかった。 さらに,中間層ではmBERT,DistilmBERT,XL M-Rが局所化されているが,Indic言語モデルではそのような構文的局所化は示されていない。

While there has been significant progress towards developing NLU datasets and benchmarks for Indic languages, syntactic evaluation has been relatively less explored. Unlike English, Indic languages have rich morphosyntax, grammatical genders, free linear word-order, and highly inflectional morphology. In this paper, we introduce Vy\=akarana: a benchmark of gender-balanced Colorless Green sentences in Indic languages for syntactic evaluation of multilingual language models. The benchmark comprises four syntax-related tasks: PoS Tagging, Syntax Tree-depth Prediction, Grammatical Case Marking, and Subject-Verb Agreement. We use the datasets from the evaluation tasks to probe five multilingual language models of varying architectures for syntax in Indic languages. Our results show that the token-level and sentence-level representations from the Indic language models (IndicBERT and MuRIL) do not capture the syntax in Indic languages as efficiently as the other highly multilingual language models. Further, our layer-wise probing experiments reveal that while mBERT, DistilmBERT, and XLM-R localize the syntax in middle layers, the Indic language models do not show such syntactic localization.
翻訳日:2021-03-05 04:43:17 公開日:2021-03-01
# (参考訳) アラビア方言識別の改善のためのMARBERTの適応:NADI 2021共有タスクへの提出 [全文訳有]

Adapting MARBERT for Improved Arabic Dialect Identification: Submission to the NADI 2021 Shared Task ( http://arxiv.org/abs/2103.01065v1 )

ライセンス: CC BY-SA 4.0
Badr AlKhamissi, Mohamed Gabr, Muhammad ElNokrashy, Khaled Essam(参考訳) 本稿では,Nuanced Arabic Dialect Identification(NADI) 共有タスク(Abdul-Mageed et al.,2021)に取り組み,その4つのサブタスクのすべてに最先端の結果を示す。 タスクは、国と州の両方のレベルで短い方言(DA)と現代標準アラビア語(MSA)の発話の地理的起源を特定することです。 我々の最終モデルは、MARBERT上に構築された変奏曲のアンサンブルであり、国レベルの開発環境でのDAのF1スコア34.03%を達成し、以前の作業から7.63%改善した。

In this paper, we tackle the Nuanced Arabic Dialect Identification (NADI) shared task (Abdul-Mageed et al., 2021) and demonstrate state-of-the-art results on all of its four subtasks. Tasks are to identify the geographic origin of short Dialectal (DA) and Modern Standard Arabic (MSA) utterances at the levels of both country and province. Our final model is an ensemble of variants built on top of MARBERT that achieves an F1-score of 34.03% for DA at the country-level development set -- an improvement of 7.63% from previous work.
翻訳日:2021-03-05 04:25:18 公開日:2021-03-01
# (参考訳) ベンチマークデータセットを用いたCOVID-19接触追跡アプリのユーザレビューの感性分析 [全文訳有]

Sentiment Analysis of Users' Reviews on COVID-19 Contact Tracing Apps with a Benchmark Dataset ( http://arxiv.org/abs/2103.01196v1 )

ライセンス: CC BY 4.0
Kashif Ahmad, Firoj Alam, Junaid Qadir, Basheer Qolomany, Imran Khan, Talhat Khan, Muhammad Suleman, Naina Said, Syed Zohaib Hassan, Asma Gul, Ala Al-Fuqaha(参考訳) 接触追跡は、新型コロナウイルスの感染率を制御する戦いで世界的に採用されています。 スマートフォンやウェアラブルデバイスなどのデジタル技術のおかげで、COVID-19患者の連絡先を簡単に追跡し、ウイルスへの潜在的な曝露について知らせることができます。 この目的のために、いくつかの興味深いモバイルアプリケーションが開発されている。 しかしながら、これらのアプリケーションの動作メカニズムやパフォーマンスに対する懸念はますます高まっている。 この文献はすでに、ニュースやユーザのアプリケーションレビューなど、さまざまなソースからの情報を分析することによって、アプリケーションに対するコミュニティの反応に関する興味深い調査を行っている。 しかし、私たちの知る限りでは、ユーザのレビューを自動的に分析し、誘発された感情を抽出する既存のソリューションはありません。 本研究では,クラウドソーシングによる手動アノテーションから始めるパイプラインを提案し,ユーザのレビュー自動感情分析のためのaiモデルの開発とトレーニングについて考察する。 総計では、平均F1スコア94.8%を達成した8つの異なる方法を採用し、COVID-19コンタクトトレースアプリケーションにおけるユーザーのレビューの自動感情分析の実現性を示しています。 また、アプリケーションに対する主な利点、欠点、およびユーザーの懸念も強調します。 さらに,46カ国の契約追跡アプリケーションから34,534件のレビューを手作業でアノテートした大規模データセットを収集・注釈する。 提示された分析とデータセットは、将来の研究のベースライン/ベンチマークを提供するものと期待されている。

Contact tracing has been globally adopted in the fight to control the infection rate of COVID-19. Thanks to digital technologies, such as smartphones and wearable devices, contacts of COVID-19 patients can be easily traced and informed about their potential exposure to the virus. To this aim, several interesting mobile applications have been developed. However, there are ever-growing concerns over the working mechanism and performance of these applications. The literature already provides some interesting exploratory studies on the community's response to the applications by analyzing information from different sources, such as news and users' reviews of the applications. However, to the best of our knowledge, there is no existing solution that automatically analyzes users' reviews and extracts the evoked sentiments. In this work, we propose a pipeline starting from manual annotation via a crowd-sourcing study and concluding on the development and training of AI models for automatic sentiment analysis of users' reviews. In total, we employ eight different methods achieving up to an average F1-Scores 94.8% indicating the feasibility of automatic sentiment analysis of users' reviews on the COVID-19 contact tracing applications. We also highlight the key advantages, drawbacks, and users' concerns over the applications. Moreover, we also collect and annotate a large-scale dataset composed of 34,534 reviews manually annotated from the contract tracing applications of 46 distinct countries. The presented analysis and the dataset are expected to provide a baseline/benchmark for future research in the domain.
翻訳日:2021-03-05 04:18:38 公開日:2021-03-01
# (参考訳) 単一言語, 多言語, ゼロショット条件におけるデータセット埋め込みの有効性について [全文訳有]

On the Effectiveness of Dataset Embeddings in Mono-lingual,Multi-l ingual and Zero-shot Conditions ( http://arxiv.org/abs/2103.01273v1 )

ライセンス: CC BY 4.0
Rob van der Goot, Ahmet \"Ust\"un, Barbara Plank(参考訳) 最近の相補的な研究は、その特性を埋め込みに符号化することで、データソースの情報を活用することで、不均一なデータソース上で単一のモデルをトレーニングする場合、パフォーマンスが向上することを示した。 しかし、これらのデータセットの埋め込みが最も効果的である状況は、さまざまな設定、言語、タスクで使用されているため、まだ不明です。 さらに、通常、データソースの金情報が利用可能であり、テストデータはトレーニング中に見られる分布からのものであると仮定されます。 本研究では,モノリンガル設定,多言語設定,予測データソースラベルにおけるデータセット埋め込みの効果をゼロショット設定で比較した。 形態素的タグ付け,補間,依存関係解析の3つのタスクを評価し,104のデータセット,66の言語,2つの異なるデータセットグループ化戦略を用いた。 データセットが同じ言語である場合、パフォーマンスの上昇が最も高く、テストインスタンスがどの分布に描画されているかが分かる。 対照的に、データが目に見えない分布から来る設定では、パフォーマンスが向上する。

Recent complementary strands of research have shown that leveraging information on the data source through encoding their properties into embeddings can lead to performance increase when training a single model on heterogeneous data sources. However, it remains unclear in which situations these dataset embeddings are most effective, because they are used in a large variety of settings, languages and tasks. Furthermore, it is usually assumed that gold information on the data source is available, and that the test data is from a distribution seen during training. In this work, we compare the effect of dataset embeddings in mono-lingual settings, multi-lingual settings, and with predicted data source label in a zero-shot setting. We evaluate on three morphosyntactic tasks: morphological tagging, lemmatization, and dependency parsing, and use 104 datasets, 66 languages, and two different dataset grouping strategies. Performance increases are highest when the datasets are of the same language, and we know from which distribution the test-instance is drawn. In contrast, for setups where the data is from an unseen distribution, performance increase vanishes.
翻訳日:2021-03-05 04:00:15 公開日:2021-03-01
# (参考訳) 映画対話における感情ダイナミクス [全文訳有]

Emotion Dynamics in Movie Dialogues ( http://arxiv.org/abs/2103.01345v1 )

ライセンス: CC BY 4.0
Will E. Hipson and Saif M. Mohammad(参考訳) 感情ダイナミクスは、個人の感情が時間とともにどのように変化するかを測定するためのフレームワークです。 これは私たちの行動や世界との相互作用を理解するための強力なツールです。 本稿では,発話を通して感情のダイナミクスを追跡する枠組みを提案する。 具体的には,心理学の研究に触発された発話感情ダイナミクス(ued)メトリクスをいくつか紹介する。 我々はこの手法を用いて、映画キャラクタの感情的弧をトレースする。 このような何千もの文字アークを分析し、ストーリーのより広い理解を知らせる仮説をテストします。 特に、物語の長さの約90%まで、文字がますますネガティブな言葉を使い、感情的に不一致になる傾向があることを示しています。 UEDは行動研究、社会科学、公衆衛生にも応用されている。

Emotion dynamics is a framework for measuring how an individual's emotions change over time. It is a powerful tool for understanding how we behave and interact with the world. In this paper, we introduce a framework to track emotion dynamics through one's utterances. Specifically we introduce a number of utterance emotion dynamics (UED) metrics inspired by work in Psychology. We use this approach to trace emotional arcs of movie characters. We analyze thousands of such character arcs to test hypotheses that inform our broader understanding of stories. Notably, we show that there is a tendency for characters to use increasingly more negative words and become increasingly emotionally discordant with each other until about 90 percent of the narrative length. UED also has applications in behavior studies, social sciences, and public health.
翻訳日:2021-03-05 03:07:32 公開日:2021-03-01
# (参考訳) データスパーシネス仮説による敵対的脆弱性の解明 [全文訳有]

Explaining Adversarial Vulnerability with a Data Sparsity Hypothesis ( http://arxiv.org/abs/2103.00778v1 )

ライセンス: CC BY 4.0
Mahsa Paknezhad, Cuong Phuc Ngo, Amadeus Aristo Winarto, Alistair Cheong, Beh Chuen Yang, Wu Jiayang, Lee Hwee Kuan(参考訳) ディープラーニング(DL)モデルに堅牢性を提供する多くの提案されたアルゴリズムにもかかわらず、DLモデルは敵対攻撃の影響を受けやすいままである。 DLモデルの敵対的脆弱性は2つの要因から生じると仮定する。 第一の要因はデータスパーシティであり、高次元のデータ空間では、データ分散のサポートの外側に大きな領域がある。 第2の要因は、DLモデルに多くの冗長パラメータが存在することである。 これらの要因により、異なるモデルは異なる決定境界を、比較可能な高い予測精度で導き出すことができる。 データ分散のサポートの外における空間における決定境界の出現は、モデルの予測精度に影響を与えない。 しかし、それらはモデルの対比堅牢性に重要な違いをもたらします。 本論文では,データ分布のサポートから,理想的な決定境界を可能な限り遠ざけることを提案する。本論文では,データ点自体からクラス分布周辺の空間をまたいで学習するための,DLモデルのためのトレーニングフレームワークを提案する。 この目的を達成するために半教師付き学習が展開され、データ分散のサポート外の空間で生成されたラベルのないデータを活用する。 よく知られた敵対攻撃に対して、このトレーニングフレームワークを使用して訓練されたモデルの敵対的堅牢度を測定した結果、他の正規化方法、敵対的トレーニングもデータスパーシティの仮説を支持していることを発見した。 提案手法では,提案手法を用いて雑音によって生成されたラベルなしデータは,既存のデータセットや合成アルゴリズムが生成したラベルなしデータと同程度に有効であることを示す。 私たちのコードはhttps://github.com/M ahsaPaknezhad/Advers ariallyRobustTrainin gで利用可能です。

Despite many proposed algorithms to provide robustness to deep learning (DL) models, DL models remain susceptible to adversarial attacks. We hypothesize that the adversarial vulnerability of DL models stems from two factors. The first factor is data sparsity which is that in the high dimensional data space, there are large regions outside the support of the data distribution. The second factor is the existence of many redundant parameters in the DL models. Owing to these factors, different models are able to come up with different decision boundaries with comparably high prediction accuracy. The appearance of the decision boundaries in the space outside the support of the data distribution does not affect the prediction accuracy of the model. However, they make an important difference in the adversarial robustness of the model. We propose that the ideal decision boundary should be as far as possible from the support of the data distribution.\par In this paper, we develop a training framework for DL models to learn such decision boundaries spanning the space around the class distributions further from the data points themselves. Semi-supervised learning was deployed to achieve this objective by leveraging unlabeled data generated in the space outside the support of the data distribution. We measure adversarial robustness of the models trained using this training framework against well-known adversarial attacks We found that our results, other regularization methods and adversarial training also support our hypothesis of data sparcity. We show that the unlabeled data generated by noise using our framework is almost as effective as unlabeled data, sourced from existing data sets or generated by synthesis algorithms, on adversarial robustness. Our code is available at https://github.com/M ahsaPaknezhad/Advers ariallyRobustTrainin g.
翻訳日:2021-03-05 01:22:46 公開日:2021-03-01
# (参考訳) コントラスト学習を用いたseg analysis schemeの性能向上 [全文訳有]

Using contrastive learning to improve the performance of steganalysis schemes ( http://arxiv.org/abs/2103.00891v1 )

ライセンス: CC BY 4.0
Yanzhen Ren, Yiwen Liu, Lina Wang(参考訳) ステガナリシスの検出精度と一般化を改善するために,コントラスト学習に基づくステガナリシス比較フレームワーク(SCF)を提案する。 SCFは、異なるカテゴリのサンプルの特徴間の距離を最大化し、同じカテゴリのサンプルの特徴間の距離を最小化することにより、ステガナリシスの特徴表現を改善する。 教師付き学習における対照的な損失の計算複雑性を低減するため,類似性の等価性と推移性に基づく新しいステガナリシス・コントラシブ・ロス(StegCL)を設計する。 StegCLは、既存のコントラスト損失の冗長なコンピューティングを排除します。 実験の結果,SCFは既存のステガナリシスDNNの一般化と検出精度を改善し,最大プロモーションはそれぞれ2%と3%であることがわかった。 検出精度を低下させることなく、教師付き学習における対照損失を用いた場合のsegcl使用のトレーニング時間は10%である。

To improve the detection accuracy and generalization of steganalysis, this paper proposes the Steganalysis Contrastive Framework (SCF) based on contrastive learning. The SCF improves the feature representation of steganalysis by maximizing the distance between features of samples of different categories and minimizing the distance between features of samples of the same category. To decrease the computing complexity of the contrastive loss in supervised learning, we design a novel Steganalysis Contrastive Loss (StegCL) based on the equivalence and transitivity of similarity. The StegCL eliminates the redundant computing in the existing contrastive loss. The experimental results show that the SCF improves the generalization and detection accuracy of existing steganalysis DNNs, and the maximum promotion is 2% and 3% respectively. Without decreasing the detection accuracy, the training time of using the StegCL is 10% of that of using the contrastive loss in supervised learning.
翻訳日:2021-03-05 00:44:31 公開日:2021-03-01
# (参考訳) ビジネスルールケースのシーケンスに対する一貫性の測定 [全文訳有]

Measuring Inconsistency over Sequences of Business Rule Cases ( http://arxiv.org/abs/2103.01108v1 )

ライセンス: CC BY 4.0
Carl Corea, Matthias Thimm, Patrick Delfmann(参考訳) 本報告では、ビジネスルールベースのマルチセットに対する(要素ベースの)不整合対策を検討する。 現在では、個々のルールベースを個別に研究するだけでなく、特に適切なリモデリング戦略を決定する上でも、個別のルールベースを個別に研究する上で、個々のルールベースを個別に評価することができるようになっている。 そこで本稿では,任意の(従来の)不整合測度からマルチセット測度を導出し,マルチセットのユースケースに対する新たな合理性仮定を提案し,多ルールベース不整合測度に関する様々な側面の複雑さについて検討する。

In this report, we investigate (element-based) inconsistency measures for multisets of business rule bases. Currently, related works allow to assess individual rule bases, however, as companies might encounter thousands of such instances daily, studying not only individual rule bases separately, but rather also their interrelations becomes necessary, especially in regard to determining suitable re-modelling strategies. We therefore present an approach to induce multiset-measures from arbitrary (traditional) inconsistency measures, propose new rationality postulates for a multiset use-case, and investigate the complexity of various aspects regarding multi-rule base inconsistency measurement.
翻訳日:2021-03-05 00:32:37 公開日:2021-03-01
# (参考訳) アドホックチームワークにおける計画立案のためのコミュニケーションの価値 [全文訳有]

Expected Value of Communication for Planning in Ad Hoc Teamwork ( http://arxiv.org/abs/2103.01171v1 )

ライセンス: CC BY 4.0
William Macke, Reuth Mirsky and Peter Stone(参考訳) 自律エージェントの望ましい目標は、未知のチームメイトとオンザフライで調整できるようにすることだ。 このような能力を実現する「アドホックなチームワーク」は、研究コミュニティで注目を集めています。 アドホックなチームワークの中心的な課題の1つは、他のエージェントの現在の計画を迅速に認識し、それに応じて計画することです。 この論文では、チームメイトが互いにコミュニケーションできるシナリオに焦点を当てていますが、コストがかかります。 したがって、観察に基づく計画認識とコミュニケーションに基づく計画認識を慎重にバランスさせなければならない。 本稿では、チームメイトが従うべき2つのポリシーがいかに類似しているかを評価するための新しい指標を提案する。 次に、アドホックなチームワークのための新しい計画アルゴリズムを提案し、それに従ってどのクエリを問うかを決定する。 本稿では,このアルゴリズムの有効性を,アドホックなチームワーク問題における汎用的なコミュニケーション範囲で実証する。

A desirable goal for autonomous agents is to be able to coordinate on the fly with previously unknown teammates. Known as "ad hoc teamwork", enabling such a capability has been receiving increasing attention in the research community. One of the central challenges in ad hoc teamwork is quickly recognizing the current plans of other agents and planning accordingly. In this paper, we focus on the scenario in which teammates can communicate with one another, but only at a cost. Thus, they must carefully balance plan recognition based on observations vs. that based on communication. This paper proposes a new metric for evaluating how similar are two policies that a teammate may be following - the Expected Divergence Point (EDP). We then present a novel planning algorithm for ad hoc teamwork, determining which query to ask and planning accordingly. We demonstrate the effectiveness of this algorithm in a range of increasingly general communication in ad hoc teamwork problems.
翻訳日:2021-03-04 23:41:18 公開日:2021-03-01
# (参考訳) 深層学習に基づく医用画像の幾何学的登録:視覚的特徴のない精度はどの程度か? [全文訳有]

Deep learning based geometric registration for medical images: How accurate can we get without visual features? ( http://arxiv.org/abs/2103.00885v1 )

ライセンス: CC BY 4.0
Lasse Hansen and Mattias P. Heinrich(参考訳) 医療画像解析の他の分野と同様に、例えば。 セマンティックセグメンテーション ディープラーニングは現在、画像登録のための新しいアプローチの開発を推進しています。 マルチスケールエンコーダデコーダネットワークアーキテクチャは、腹部CTの患者内アライメントや脳MRIの登録など、特に解剖学的ラベルなどの追加の監督が利用可能なタスクの最新の精度を実現します。 これらの手法の成功は、入力画像から記述的な視覚特徴を抽出するディープcnnの優れた能力に大きく依存している。 従来の方法とは対照的に、幾何学的情報の明示的な包含はわずかな役割しか果たさない。 本稿では,幾何学的特徴と最適化のみに基づく登録のための深層学習フレームワークを検討することで,正反対のアプローチを検討する。 グラフ畳み込みとループなメッセージパッシングを組み合わせることで,高精度な3Dポイントクラウド登録を実現する。 実験では, 肺内構造の複雑なキーポイントグラフを用いて, 高密度エンコーダ・デコーダネットワークや他のポイントセット登録法を強力に上回って検証を行った。 私たちのコードはhttps://github.com/m ultimodallearning/de ep-geo-regで公開しています。

As in other areas of medical image analysis, e.g. semantic segmentation, deep learning is currently driving the development of new approaches for image registration. Multi-scale encoder-decoder network architectures achieve state-of-the-art accuracy on tasks such as intra-patient alignment of abdominal CT or brain MRI registration, especially when additional supervision, such as anatomical labels, is available. The success of these methods relies to a large extent on the outstanding ability of deep CNNs to extract descriptive visual features from the input images. In contrast to conventional methods, the explicit inclusion of geometric information plays only a minor role, if at all. In this work we take a look at an exactly opposite approach by investigating a deep learning framework for registration based solely on geometric features and optimisation. We combine graph convolutions with loopy belief message passing to enable highly accurate 3D point cloud registration. Our experimental validation is conducted on complex key-point graphs of inner lung structures, strongly outperforming dense encoder-decoder networks and other point set registration methods. Our code is publicly available at https://github.com/m ultimodallearning/de ep-geo-reg.
翻訳日:2021-03-04 22:35:52 公開日:2021-03-01
# (参考訳) モノクロ3次元物体検出のためのカテゴリー深度分布ネットワーク [全文訳有]

Categorical Depth Distribution Network for Monocular 3D Object Detection ( http://arxiv.org/abs/2103.01100v1 )

ライセンス: CC BY 4.0
Cody Reading, Ali Harakeh, Julia Chae, and Steven L. Waslander (University of Toronto)(参考訳) 単眼3D物体検出は、一般的なマルチセンサーシステムと比較してシンプルな構成のソリューションを提供するため、自動運転車にとって重要な問題です。 単眼的3次元検出の主な課題は、物体の深さを正確に予測することであり、それは直接距離測定の欠如のために物体とシーンの手がかりから推測されなければならない。 多くの手法は3次元検出を支援するために直接深度を推定しようとするが、深度不正確な結果、限られた性能を示す。 提案手法であるCategorical Depth Distribution Network (CaDDN) は,各画素に予測されたカテゴリの深さ分布を用いて,3次元空間の適切な深さ間隔にリッチなコンテキスト特徴情報を投影する。 次に、計算効率の良いバードズ・アイ・ビュー投影と単段検出器を用いて最終的な出力バウンディングボックスを生成する。 結合深さ推定と物体検出のための完全微分可能なエンドツーエンドアプローチとしてCaDDNを設計する。 提案手法をkitti 3d object detection benchmarkで検証し, 単項法のうち1位にランク付けした。 また、新しくリリースされたWaymo Open Datasetで最初のモノラル3D検出結果も提供します。 CaDDNのソースコードは公開前に公開される予定だ。

Monocular 3D object detection is a key problem for autonomous vehicles, as it provides a solution with simple configuration compared to typical multi-sensor systems. The main challenge in monocular 3D detection lies in accurately predicting object depth, which must be inferred from object and scene cues due to the lack of direct range measurement. Many methods attempt to directly estimate depth to assist in 3D detection, but show limited performance as a result of depth inaccuracy. Our proposed solution, Categorical Depth Distribution Network (CaDDN), uses a predicted categorical depth distribution for each pixel to project rich contextual feature information to the appropriate depth interval in 3D space. We then use the computationally efficient bird's-eye-view projection and single-stage detector to produce the final output bounding boxes. We design CaDDN as a fully differentiable end-to-end approach for joint depth estimation and object detection. We validate our approach on the KITTI 3D object detection benchmark, where we rank 1st among published monocular methods. We also provide the first monocular 3D detection results on the newly released Waymo Open Dataset. The source code for CaDDN will be made publicly available before publication.
翻訳日:2021-03-04 22:22:46 公開日:2021-03-01
# (参考訳) ビデオにおける時間的活動検出のための粗細ネットワーク [全文訳有]

Coarse-Fine Networks for Temporal Activity Detection in Videos ( http://arxiv.org/abs/2103.01302v1 )

ライセンス: CC BY 4.0
Kumara Kahatapitiya and Michael S. Ryoo(参考訳) 本稿では,時間分解能の異なる抽象化により,長期動作のためのより良い映像表現を学習できる2ストリームアーキテクチャであるcoarse-fine networksを提案する。 従来のビデオモデルは、動的フレーム選択なしで1つまたは少数の固定時間解像度で入力を処理する。 しかし,入力の複数の時間分解能を処理し,各フレームの重要性を推定することで動的に行うことは,特に時間的活動の局所化の領域において映像表現を大幅に改善することができると論じる。 そこで,(1)粗い特徴を抽出するために学習された時間的ダウンサンプリング層である「グリッドプール」と,2)粗い特徴と微粒な文脈を融合させる時空間的注意メカニズムである「多段階融合」を提案する。 計算量やメモリフットプリントを大幅に削減したCharadesを含む公開データセットにおいて,動作検出の最先端性を向上できることを示す。

In this paper, we introduce 'Coarse-Fine Networks', a two-stream architecture which benefits from different abstractions of temporal resolution to learn better video representations for long-term motion. Traditional Video models process inputs at one (or few) fixed temporal resolution without any dynamic frame selection. However, we argue that, processing multiple temporal resolutions of the input and doing so dynamically by learning to estimate the importance of each frame can largely improve video representations, specially in the domain of temporal activity localization. To this end, we propose (1) `Grid Pool', a learned temporal downsampling layer to extract coarse features, and, (2) `Multi-stage Fusion', a spatio-temporal attention mechanism to fuse a fine-grained context with the coarse features. We show that our method can outperform the state-of-the-arts for action detection in public datasets including Charades with a significantly reduced compute and memory footprint.
翻訳日:2021-03-04 22:05:16 公開日:2021-03-01
# (参考訳) 勝利への異質性:ワンショットフェデレーションクラスタリング [全文訳有]

Heterogeneity for the Win: One-Shot Federated Clustering ( http://arxiv.org/abs/2103.00697v1 )

ライセンス: CC BY-SA 4.0
Don Kurian Dennis, Tian Li and Virginia Smith(参考訳) 本研究では,教師なしフェデレーション学習(fl)のユニークな課題と機会について検討する。 我々は、広く使われている$k$-meansクラスタリング法に基づいて、1ショットのフェデレーションクラスタリングスキームである$k$-FEDを開発し、分析する。 多くの教師付き問題とは対照的に,フェデレーションネットワークにおける統計的不均一性の問題が解析に有用であることを示す。 我々は、中心分離仮定の下で$k$-FEDを分析し、中央分離仮定の最もよく知られた要件と比較する。 私たちの分析は、デバイス当たりのクラスタ数 $(k')$ がネットワーク上のクラスタ総数 $k$, $(k'\le \sqrt{k})$ よりも小さいような異種系では、我々の利点に異種性を使うことができることを示している。 実用的な観点から見ると、$k$-fedには多くの望ましい特性がある。通信のラウンドのみが必要で、非同期に実行でき、部分的な参加やノード/ネットワーク障害を処理できる。 我々は,共通flベンチマーク実験を用いて分析を動機付け,個人化flおよびデバイスサンプリングにおける使用事例によるワンショットクラスタリングの実用性を強調した。

In this work, we explore the unique challenges -- and opportunities -- of unsupervised federated learning (FL). We develop and analyze a one-shot federated clustering scheme, $k$-FED, based on the widely-used Lloyd's method for $k$-means clustering. In contrast to many supervised problems, we show that the issue of statistical heterogeneity in federated networks can in fact benefit our analysis. We analyse $k$-FED under a center separation assumption and compare it to the best known requirements of its centralized counterpart. Our analysis shows that in heterogeneous regimes where the number of clusters per device $(k')$ is smaller than the total number of clusters over the network $k$, $(k'\le \sqrt{k})$, we can use heterogeneity to our advantage -- significantly weakening the cluster separation requirements for $k$-FED. From a practical viewpoint, $k$-FED also has many desirable properties: it requires only round of communication, can run asynchronously, and can handle partial participation or node/network failures. We motivate our analysis with experiments on common FL benchmarks, and highlight the practical utility of one-shot clustering through use-cases in personalized FL and device sampling.
翻訳日:2021-03-04 15:46:22 公開日:2021-03-01
# (参考訳) ミニマックスフェア分類のための適応サンプリング [全文訳有]

Adaptive Sampling for Minimax Fair Classification ( http://arxiv.org/abs/2103.00755v1 )

ライセンス: CC BY 4.0
Shubhanshu Shekhar, Mohammad Ghavamzadeh and Tara Javidi(参考訳) 不均衡なデータセットでトレーニングされた機械学習モデルは、しばしば、不均衡なグループに属する入力に悪影響を及ぼす。 この問題に対処するために,ミニマックス感で公平な分類器を学習できる学習セットを適応的に構築する問題を考察する。 まず,オプティミズムの原理に基づく適応サンプリングアルゴリズムを提案し,その性能に関する理論的境界を導出する。 次に,提案するアルゴリズムの解析手法を適切に適用し,最近文献に提案されている関連する$\epsilon$-greedy戦略の性能限界を導出する。 次に、特定の問題のクラスに対してアルゴリズム独立な下限を導出することにより、適応スキームによって達成される性能が一般に改善されないことを示す。 次に、ロジスティック回帰分類器を用いた合成タスクや畳み込みニューラルネットワークを用いた実世界のタスクの実験を通じて、学習セットを適応的に構築する利点を検証する。

Machine learning models trained on imbalanced datasets can often end up adversely affecting inputs belonging to the underrepresented groups. To address this issue, we consider the problem of adaptively constructing training sets which allow us to learn classifiers that are fair in a minimax sense. We first propose an adaptive sampling algorithm based on the principle of optimism, and derive theoretical bounds on its performance. We then suitably adapt the techniques developed for the analysis of our proposed algorithm to derive bounds on the performance of a related $\epsilon$-greedy strategy recently proposed in the literature. Next, by deriving algorithm independent lower-bounds for a specific class of problems, we show that the performance achieved by our adaptive scheme cannot be improved in general. We then validate the benefits of adaptively constructing training sets via experiments on synthetic tasks with logistic regression classifiers, as well as on several real-world tasks using convolutional neural networks.
翻訳日:2021-03-04 14:40:04 公開日:2021-03-01
# (参考訳) STUDD:教師なし概念ドリフト検出のための学生-教師手法 [全文訳有]

STUDD: A Student-Teacher Method for Unsupervised Concept Drift Detection ( http://arxiv.org/abs/2103.00903v1 )

ライセンス: CC BY 4.0
Vitor Cerqueira, Heitor Murilo Gomes, Albert Bifet, Luis Torgo(参考訳) 概念ドリフト検出は、データストリーム進化環境において重要なタスクである。 この問題に取り組むために設計された最先端のアプローチのほとんどは、予測モデルの損失を監視します。 しかし、このアプローチは、真のラベルが損失を計算するために容易に利用できない多くの現実世界のシナリオでは不足する。 この文脈では、真のラベルにアクセスすることなく、監視されていない方法でコンセプトドリフト検出を行うアプローチへの関心が高まっています。 本論文では,教師の学習パラダイムに基づく,教師なし概念ドリフト検出の新たなアプローチを提案する。 基本的には、一次モデル(教師)の振る舞いを模倣する補助モデル(学生)を作成します。 実行時,新しいインスタンスの予測に教師を使い,概念ドリフト検出のために学生の損失を模倣するモニタリングを行う。 19データストリームを用いた一連の実験において,提案手法は概念の漂流を検知し,芸術的アプローチの状況に対して競合的な振る舞いを示すことができることを示す。

Concept drift detection is a crucial task in data stream evolving environments. Most of state of the art approaches designed to tackle this problem monitor the loss of predictive models. However, this approach falls short in many real-world scenarios, where the true labels are not readily available to compute the loss. In this context, there is increasing attention to approaches that perform concept drift detection in an unsupervised manner, i.e., without access to the true labels. We propose a novel approach to unsupervised concept drift detection based on a student-teacher learning paradigm. Essentially, we create an auxiliary model (student) to mimic the behaviour of the primary model (teacher). At run-time, our approach is to use the teacher for predicting new instances and monitoring the mimicking loss of the student for concept drift detection. In a set of experiments using 19 data streams, we show that the proposed approach can detect concept drift and present a competitive behaviour relative to the state of the art approaches.
翻訳日:2021-03-04 13:08:39 公開日:2021-03-01
# (参考訳) DTW-Merge: 時系列分類のための新しいデータ拡張技術 [全文訳有]

DTW-Merge: A Novel Data Augmentation Technique for Time Series Classification ( http://arxiv.org/abs/2103.01119v1 )

ライセンス: CC BY 4.0
Mohammad Akyash, Hoda Mohammadzade, Hamid Behroozi(参考訳) 近年、ニューラルネットワークは様々なアプリケーションで大きな成功を収めている。 ディープニューラルネットワークのトレーニングの主な課題は、モデルの一般化を改善し、オーバーフィットを回避するのに十分なデータがないことである。 解決策の1つは、新しいトレーニングサンプルを生成することです。 本稿では,動的時間ワーピングに基づく時系列の新たなデータ拡張手法を提案する。 この方法は、2つの時系列の反り部分は同じ時間特性を有するという概念に触発される。 提案されたアプローチを最近紹介したResNetは、2018年のUCR時系列分類アーカイブで結果の改善を明らかにしている。

In recent years, neural networks achieved much success in various applications. The main challenge in training deep neural networks is the lack of sufficient data to improve the model's generalization and avoid overfitting. One of the solutions is to generate new training samples. This paper proposes a novel data augmentation method for time series based on Dynamic Time Warping. This method is inspired by the concept that warped parts of two time series have the same temporal properties. Exploiting the proposed approach with recently-introduced ResNet reveals the improvement of results on the 2018 UCR Time Series Classification Archive.
翻訳日:2021-03-04 12:53:13 公開日:2021-03-01
# (参考訳) 進化的学習を用いた時系列におけるギャップ充足の自動データ駆動アプローチ [全文訳有]

Automated data-driven approach for gap filling in the time series using evolutionary learning ( http://arxiv.org/abs/2103.01124v1 )

ライセンス: CC BY 4.0
Mikhail Sarafanov and Nikolay O. Nikitin and Anna V. Kalyuzhnaya(参考訳) 時系列分析は科学や産業の様々な分野で広く使われている。 しかしながら、実情報源から得られる時系列の大多数は、多くのギャップを含み、複雑な特徴を持ち、不正確な部分や欠落部分を含むことができる。 したがって、時系列のギャップを埋めるために便利で効率的で柔軟な機器を持つことは有用である。 本稿では、FEDOTフレームワークの一部として実装された進化的自動機械学習によるギャップを埋めるアプローチを提案する。 最適なデータ駆動モデル構造の自動識別により、特定の問題にギャップフィリング戦略を適用することができる。 ケーススタディでは,多変量海面高さデータセットを用いた。 実験研究では, 提案手法は他のギャップ充填法と比較し, 複合モデルにより, より高い品質のギャップ修復が可能となった。

Time series analysis is widely used in various fields of science and industry. However, the vast majority of the time series obtained from real sources contain a large number of gaps, have a complex character, and can contain incorrect or missed parts. So, it is useful to have a convenient, efficient, and flexible instrument to fill the gaps in the time series. In this paper, we propose an approach for filling the gaps by the evolutionary automatic machine learning, that is implemented as a part of the FEDOT framework. Automated identification of the optimal data-driven model structure allows the adopting of the gap filling strategy to the specific problem. As a case study, the multivariate sea surface height dataset is used. During the experimental studies, the proposed approach was compared with other gap-filling methods and the composite models allow obtaining the higher quality of the gap restoration.
翻訳日:2021-03-04 12:47:28 公開日:2021-03-01
# (参考訳) 理由、価値、ステークホルダー:説明可能な人工知能のための哲学的枠組み

Reasons, Values, Stakeholders: A Philosophical Framework for Explainable Artificial Intelligence ( http://arxiv.org/abs/2103.00752v1 )

ライセンス: CC BY-SA 4.0
Atoosa Kasirzadeh(参考訳) 福祉割り当てや刑事正義などの結果的な決定に不透明な人工知能システムを使用するという社会的および倫理的意味合いは、コンピュータ科学者、倫理学者、社会科学者、政策立案者、エンドユーザーを含む複数のステークホルダーグループの間で活発な議論を引き起こしました。 しかしながら、この議論の技術的、認識的、規範的な側面を適切に橋渡しするための共通言語や多次元フレームワークの欠如は、議論が可能な限り生産的であることを妨げている。 Drawing on the philosophical literature on the nature and value of explanations, this paper offers a multi-faceted framework that brings more conceptual precision to the present debate by (1) identifying the types of explanations that are most pertinent to artificial intelligence predictions, (2) recognizing the relevance and importance of social and ethical values for the evaluation of these explanations, and (3) demonstrating the importance of these explanations for incorporating a diversified approach to improving the design of truthful algorithmic ecosystems. 提案された哲学的枠組みは、人工知能システムの技術的側面と倫理的側面の関連性を確立するための基礎となる。

The societal and ethical implications of the use of opaque artificial intelligence systems for consequential decisions, such as welfare allocation and criminal justice, have generated a lively debate among multiple stakeholder groups, including computer scientists, ethicists, social scientists, policy makers, and end users. However, the lack of a common language or a multi-dimensional framework to appropriately bridge the technical, epistemic, and normative aspects of this debate prevents the discussion from being as productive as it could be. Drawing on the philosophical literature on the nature and value of explanations, this paper offers a multi-faceted framework that brings more conceptual precision to the present debate by (1) identifying the types of explanations that are most pertinent to artificial intelligence predictions, (2) recognizing the relevance and importance of social and ethical values for the evaluation of these explanations, and (3) demonstrating the importance of these explanations for incorporating a diversified approach to improving the design of truthful algorithmic ecosystems. The proposed philosophical framework thus lays the groundwork for establishing a pertinent connection between the technical and ethical aspects of artificial intelligence systems.
翻訳日:2021-03-04 11:09:22 公開日:2021-03-01
# (参考訳) クラッタと動的背景の衝突検出のためのバイオインスパイアアプローチ感応ニューラルネットワーク [全文訳有]

A Bioinspired Approach-Sensitive Neural Network for Collision Detection in Cluttered and Dynamic Backgrounds ( http://arxiv.org/abs/2103.00857v1 )

ライセンス: CC BY 4.0
Xiao Huang, Hong Qiao, Hui Li and Zhihong Jiang(参考訳) 衝突検出や回避作業を行うロボットの視覚システムにとって、乱雑な動きの背景にある略奪物体の迅速かつ正確でロバストな検出は、重要かつ困難な課題である。 本論文は,哺乳類網膜における一次運動視覚の神経回路に触発され,生体感応型アプローチ感応型ニューラルネットワーク (asnn) を提案する。 第一に、方向選択型視覚処理モジュールは、時空間エネルギーフレームワークに基づいて構築され、2つの相互垂直時空間フィルタリングチャネルのみを介して正確に運動方向を推定することができる。 第二に、新しいアプローチ感応ニューラルネットワークは、横運動に非感応性を持ちながら接近運動に強く応答するオン・オフ経路によって形成されるプッシュプル構造としてモデル化される。 最後に、翻訳の背景を効果的に抑制することができる方向選択的阻害の方法が導入されます。 広汎な合成および実ロボット実験により,提案モデルでは,衝突の正確な検出だけでなく,位置や方向などの衝突情報を抽出することで,迅速な意思決定を導出できることが示されている。

Rapid, accurate and robust detection of looming objects in cluttered moving backgrounds is a significant and challenging problem for robotic visual systems to perform collision detection and avoidance tasks. Inspired by the neural circuit of elementary motion vision in the mammalian retina, this paper proposes a bioinspired approach-sensitive neural network (ASNN) that contains three main contributions. Firstly, a direction-selective visual processing module is built based on the spatiotemporal energy framework, which can estimate motion direction accurately via only two mutually perpendicular spatiotemporal filtering channels. Secondly, a novel approach-sensitive neural network is modeled as a push-pull structure formed by ON and OFF pathways, which responds strongly to approaching motion while insensitivity to lateral motion. Finally, a method of directionally selective inhibition is introduced, which is able to suppress the translational backgrounds effectively. Extensive synthetic and real robotic experiments show that the proposed model is able to not only detect collision accurately and robustly in cluttered and dynamic backgrounds but also extract more collision information like position and direction, for guiding rapid decision making.
翻訳日:2021-03-04 11:08:24 公開日:2021-03-01
# (参考訳) multi-spectral consistency loss を用いた単眼熱ビデオの教師なし深度とエゴモーション推定 [全文訳有]

Unsupervised Depth and Ego-motion Estimation for Monocular Thermal Video using Multi-spectral Consistency Loss ( http://arxiv.org/abs/2103.00760v1 )

ライセンス: CC BY 4.0
Ukcheol Shin, Kyunghyun Lee, SeokJu Lee, In So Kweon(参考訳) ディープラーニングベースの深度とエゴモーションネットワークのほとんどは、可視カメラ用に設計されています。 しかし、可視カメラは外部光源の存在に大きく依存しています。 したがって、夜間のシーンやトンネル、その他の過酷な条件などの低照度条件下での使用は困難です。 熱カメラは、外部光源によらずLWIR(Long Wave Infrared Radiation)を検出するため、この問題を補うための解決策の1つである。 しかし、この利点にもかかわらず、熱カメラの深度とエゴモーション推定の研究は、これまでのところ活発に行われていない。 本稿では,全日深度とエゴモーション推定のための教師なし学習手法を提案する。 提案手法はマルチスペクトル整合性損失を利用して、熱画像から推定した深度で可視・熱画像の再構成を行い、ネットワークの相補的な監視を行う。 提案手法で訓練されたネットワークは、低照度およびゼロ照度条件下での単眼熱ビデオの深度とポーズを堅牢に推定する。 我々の知る限りでは、これは単眼サーマルビデオからの深度とエゴモーションの両方を教師なしで同時に推定する最初の試みである。

Most of the deep-learning based depth and ego-motion networks have been designed for visible cameras. However, visible cameras heavily rely on the presence of an external light source. Therefore, it is challenging to use them under low-light conditions such as night scenes, tunnels, and other harsh conditions. A thermal camera is one solution to compensate for this problem because it detects Long Wave Infrared Radiation(LWIR) regardless of any external light sources. However, despite this advantage, both depth and ego-motion estimation research for the thermal camera are not actively explored until so far. In this paper, we propose an unsupervised learning method for the all-day depth and ego-motion estimation. The proposed method exploits multi-spectral consistency loss to gives complementary supervision for the networks by reconstructing visible and thermal images with the depth and pose estimated from thermal images. The networks trained with the proposed method robustly estimate the depth and pose from monocular thermal video under low-light and even zero-light conditions. To the best of our knowledge, this is the first work to simultaneously estimate both depth and ego-motion from the monocular thermal video in an unsupervised manner.
翻訳日:2021-03-04 09:15:00 公開日:2021-03-01
# (参考訳) 弱々しい監視学習による未開のCOVID-19病変の局在とセグメンテーションを目指して [全文訳有]

Towards Unbiased COVID-19 Lesion Localisation and Segmentation via Weakly Supervised Learning ( http://arxiv.org/abs/2103.00780v1 )

ライセンス: CC BY 4.0
Yang Yang, Jiancong Chen, Ruixuan Wang, Ting Ma, Lingwei Wang, Jie Chen, Wei-Shi Zheng, Tong Zhang(参考訳) 膨大な努力にもかかわらず、胸部CT画像上のCOVID-19の正確な定量評価を支援するための堅牢なモデルを生成することは非常に困難です。 ぼやけた境界の性質のため、教師付きセグメンテーション法は通常、アノテーションバイアスに悩まされる。 偏りのない病変の局在化をサポートし,ラベリングコストを最小限に抑えるため,画像レベルのラベルのみを監督するデータ駆動型フレームワークを提案する。 このフレームワークは、生成する対向ネットワークと病変特異的デコーダの助けを借りて、原画像から潜在的な病変を明示的に分離することができる。 2つのCOVID-19データセットの実験は、提案されたフレームワークの有効性と、いくつかの既存の方法に対する優れたパフォーマンスを示しています。

Despite tremendous efforts, it is very challenging to generate a robust model to assist in the accurate quantification assessment of COVID-19 on chest CT images. Due to the nature of blurred boundaries, the supervised segmentation methods usually suffer from annotation biases. To support unbiased lesion localisation and to minimise the labeling costs, we propose a data-driven framework supervised by only image-level labels. The framework can explicitly separate potential lesions from original images, with the help of a generative adversarial network and a lesion-specific decoder. Experiments on two COVID-19 datasets demonstrate the effectiveness of the proposed framework and its superior performance to several existing methods.
翻訳日:2021-03-04 09:00:06 公開日:2021-03-01
# (参考訳) 機能統計を用いた顔ビデオの感情パターン検出 [全文訳有]

Emotion pattern detection on facial videos using functional statistics ( http://arxiv.org/abs/2103.00844v1 )

ライセンス: CC BY 4.0
Rongjiao Ji, Alessandra Micheletti, Natasa Krklec Jerinkic, Zoranka Desnica(参考訳) 人間の行動を自動的に分析し理解することに対する科学的関心が高まっており、特に表情の進化と対応する感情の認識に言及している。 本論文では,アクターが映像で表現した感情を同定するために,Function ANOVAを用いて顔筋運動の有意なパターンを抽出する手法を提案する。 感情群間の表現に時間的差があるかどうかを関数fテストを用いて判定する。 このような結果は、信頼性の高い自動感情認識システムの構築に向けた第一歩です。

There is an increasing scientific interest in automatically analysing and understanding human behavior, with particular reference to the evolution of facial expressions and the recognition of the corresponding emotions. In this paper we propose a technique based on Functional ANOVA to extract significant patterns of face muscles movements, in order to identify the emotions expressed by actors in recorded videos. We determine if there are time-related differences on expressions among emotional groups by using a functional F-test. Such results are the first step towards the construction of a reliable automatic emotion recognition system
翻訳日:2021-03-04 08:51:40 公開日:2021-03-01
# (参考訳) SkySat画像からのマルチビューステレオを用いた自動ストッキングボリュームモニタリング [全文訳有]

Automatic Stockpile Volume Monitoring using Multi-view Stereo from SkySat Imagery ( http://arxiv.org/abs/2103.00945v1 )

ライセンス: CC BY-SA 4.0
Roger Mar\'i, Carlo de Franchis, Enric Meinhardt-Llopis, Gabriele Facciolo(参考訳) 本稿では,SkySatのプッシュフレーム画像の時系列からのサーフェスボリューム自動監視システムを提案する。 SkySatのデータから大規模な3Dモデルを構築および比較する特定の課題は、これらのカメラモデルがRational Polynomial Cameras(RPC)として表現される、特定の時期に領域をカバーするために必要な複数のビューに関連するカメラモデル間の矛盾を修正することです。 我々は、部分的に重なり合うビューの集合によってカバーされた動的領域を処理できる、日付対応のRPCリファインメントを提案することで、この問題に対処する。 カメラは、衛星の姿勢に関する不正確な知識によって誤りを補う回転によって洗練される。 精巧なRPCを使用して、各日付の異なるステレオペアから複数の一貫性のあるデジタルサーフェスモデル(DSM)を再構築します。 RPCの改良により、各日付のDSM間の一貫性が強化され、3次元表面モデルの体積を正確に測定する上で非常に有益である。 システムは実ケースシナリオでテストされ、大規模な石炭備蓄をモニターする。 当社のボリューム見積は,同じ期間に現場で収集した測定値で検証されます。

This paper proposes a system for automatic surface volume monitoring from time series of SkySat pushframe imagery. A specific challenge of building and comparing large 3D models from SkySat data is to correct inconsistencies between the camera models associated to the multiple views that are necessary to cover the area at a given time, where these camera models are represented as Rational Polynomial Cameras (RPCs). We address the problem by proposing a date-wise RPC refinement, able to handle dynamic areas covered by sets of partially overlapping views. The cameras are refined by means of a rotation that compensates for errors due to inaccurate knowledge of the satellite attitude. The refined RPCs are then used to reconstruct multiple consistent Digital Surface Models (DSMs) from different stereo pairs at each date. RPC refinement strengthens the consistency between the DSMs of each date, which is extremely beneficial to accurately measure volumes in the 3D surface models. The system is tested in a real case scenario, to monitor large coal stockpiles. Our volume estimates are validated with measurements collected on site in the same period of time.
翻訳日:2021-03-04 08:45:41 公開日:2021-03-01
# (参考訳) 圧縮のための深部知覚画像品質評価 [全文訳有]

Deep Perceptual Image Quality Assessment for Compression ( http://arxiv.org/abs/2103.01114v1 )

ライセンス: CC BY 4.0
Juan Carlos Mier, Eddie Huang, Hossein Talebi, Feng Yang, Peyman Milanfar(参考訳) データの効率的な保存と転送には、Lossy Image圧縮が必要です。 通常、ビットレートと品質のトレードオフは最適な圧縮レベルを決定する。 これにより、画像品質メトリックはあらゆるイメージングシステムの不可欠な部分になります。 PSNRやSSIMのような既存のフルリファレンスメトリックは、知覚品質に敏感ではないかもしれないが、最近導入された学習方法は、見えないデータに一般化できないかもしれない。 本稿では,人間の知覚的嗜好で現在まで最大の画像圧縮品質データセットを提案し,ディープラーニングの利用を可能にし,既存の最先端手法よりも優れた画像圧縮のための完全な参照知覚品質評価指標を開発する。 提案モデルは,新しいデータセットで利用可能な数千のサンプルから効果的に学習できることを示し,その結果,人間の知覚的嗜好の他の見知らぬデータセットに最適化されることを示す。

Lossy Image compression is necessary for efficient storage and transfer of data. Typically the trade-off between bit-rate and quality determines the optimal compression level. This makes the image quality metric an integral part of any imaging system. While the existing full-reference metrics such as PSNR and SSIM may be less sensitive to perceptual quality, the recently introduced learning methods may fail to generalize to unseen data. In this paper we propose the largest image compression quality dataset to date with human perceptual preferences, enabling the use of deep learning, and we develop a full reference perceptual quality assessment metric for lossy image compression that outperforms the existing state-of-the-art methods. We show that the proposed model can effectively learn from thousands of examples available in the new dataset, and consequently it generalizes better to other unseen datasets of human perceptual preference.
翻訳日:2021-03-04 08:37:15 公開日:2021-03-01
# (参考訳) ジオメトリに基づくブドウトマトのグラッピング [全文訳有]

Geometry-Based Grasping of Vine Tomatoes ( http://arxiv.org/abs/2103.01272v1 )

ライセンス: CC BY 4.0
Taeke de Haan, Padmaja Kulkarni, and Robert Babuska(参考訳) ブドウトマトの形状に基づく把持方法を提案する。 トマトとトラス茎の幾何学的特徴を特定するためにコンピュータビジョンのパイプラインに依存している。 把握方法は、ロボットハンドとトラスの幾何学モデルを用いて、ステム上の適切な把握位置を決定する。 このアプローチにより、微妙な接触センサーや複雑な力学モデルを必要とすることなく、トマトを損傷させるリスクを最小限に抑えることができる。 RGB-Dカメラと低コストのロボットマニピュレータを用いて,提案手法を検証する実験を行った。 成功率は、トラスの種類に応じて、83%から92%でした。

We propose a geometry-based grasping method for vine tomatoes. It relies on a computer-vision pipeline to identify the required geometric features of the tomatoes and of the truss stem. The grasping method then uses a geometric model of the robotic hand and the truss to determine a suitable grasping location on the stem. This approach allows for grasping tomato trusses without requiring delicate contact sensors or complex mechanistic models and under minimal risk of damaging the tomatoes. Lab experiments were conducted to validate the proposed methods, using an RGB-D camera and a low-cost robotic manipulator. The success rate was 83% to 92%, depending on the type of truss.
翻訳日:2021-03-04 08:28:42 公開日:2021-03-01
# (参考訳) 次なる期待 - システムに敏感な技術開発と作業コンテキストの統合 [全文訳有]

Anticipation Next -- System-sensitive technology development and integration in work contexts ( http://arxiv.org/abs/2103.00923v1 )

ライセンス: CC BY 4.0
Sarah Janboecke and Susanne Zajitschek(参考訳) ワークコンテキストにおける社会技術システムにおける今後の懸念について論じる際、しばしば技術開発と統合の欠如について記述する。 統合中に失敗する技術の経験は、しばしば研究開発プロセス内の機能不全の認識学的アプローチに根ざしています。 したがって、最終的には労働環境における持続可能な技術不信につながる。 これは、新しいテクノロジを統合する組織と、それを発明する組織に当てはまる。 技術開発と統合が失敗した組織は、その本質的にの社会システムにあります。 今日、これらの複雑な社会システムは、より複雑な環境の中で行動します。 これにより、技術開発と統合のための新しい予測方法が求められます。 記述したコンテキストにおける複雑な情報の収集と処理は、次に期待と呼ぶものです。 この爆発的な研究は、システム理論、組織理論、社会技術研究の隣り合う研究分野から既存の文献を用いて様々な概念を組み合わせる。 最終的には、技術開発と作業コンテキストの統合のごく初期段階で使用されるはずの概念的なフレームワークを提案します。

When discussing future concerns within socio-technical systems in work contexts, we often find descriptions of missed technology development and integration. The experience of technology that fails whilst being integrated is often rooted in dysfunctional epistemological approaches within the research and development process. Thus, ultimately leading to sustainable technology-distrust in work contexts. This is true for organisations which integrate new technologies and for organisations that invent them. Organisations in which we find failed technology development and integrations are in their very nature social systems. Nowadays, those complex social systems act within an even more complex environment. This urges for new anticipation methods for technology development and integration. Gathering of and dealing with complex information in the described context is what we call Anticipation Next. This explorative work uses existing literature from the adjoining research fields of system theory, organizational theory, and socio-technical research to combine various concepts. We end with suggesting a conceptual framework that is supposed to be used in very early stages of technology development and integration for and in work contexts.
翻訳日:2021-03-04 06:40:15 公開日:2021-03-01
# (参考訳) Eコマース検索のためのサイクル一貫性翻訳によるクエリ書き換え [全文訳有]

Query Rewriting via Cycle-Consistent Translation for E-Commerce Search ( http://arxiv.org/abs/2103.00800v1 )

ライセンス: CC BY-SA 4.0
Yiming Qiu, Kang Zhang, Han Zhang, Songlin Wang, Sulong Xu, Yun Xiao, Bo Long, Wen-Yun Yang(参考訳) 今日、eコマース検索は多くの人々のショッピングルーチンの不可欠な部分となっています。 今日のEコマース検索における重要な課題の1つは、関連する項目がユーザークエリの正確な用語を含まないセマンティックマッチングの問題である。 本稿では,この問題に対処するために,深層ニューラルネットワークを用いたクエリ書き換え手法を提案する。 具体的には,問合せ書き換えを循環機械翻訳問題に定式化し,大量のクリックログデータを活用する。 そこで本研究では,最新の機械翻訳モデルと連動して,クエリ書き換え精度の最適性能を達成するための循環型一貫性学習アルゴリズムを提案する。 産業シナリオで実用化するために,計算コストとオンラインサービス遅延を低減するため,構文木構築を最適化する。 オフライン実験により,提案手法は,逆インデックスの検索に適した,より標準的なクエリにハードユーザクエリを書き換えることができることがわかった。 提案モデルは,人間によるルールベースの手法と比較して,クエリ書き換えの多様性を有意に改善すると同時に,関連性も良好に維持する。 オンラインA/B実験では、eコマースのビジネス指標が大幅に改善されている。 2020年夏以降、提案されたモデルは当社の検索エンジン生産に投入され、数億人のユーザーに対応している。

Nowadays e-commerce search has become an integral part of many people's shopping routines. One critical challenge in today's e-commerce search is the semantic matching problem where the relevant items may not contain the exact terms in the user query. In this paper, we propose a novel deep neural network based approach to query rewriting, in order to tackle this problem. Specifically, we formulate query rewriting into a cyclic machine translation problem to leverage abundant click log data. Then we introduce a novel cyclic consistent training algorithm in conjunction with state-of-the-art machine translation models to achieve the optimal performance in terms of query rewriting accuracy. In order to make it practical in industrial scenarios, we optimize the syntax tree construction to reduce computational cost and online serving latency. Offline experiments show that the proposed method is able to rewrite hard user queries into more standard queries that are more appropriate for the inverted index to retrieve. Comparing with human curated rule-based method, the proposed model significantly improves query rewriting diversity while maintaining good relevancy. Online A/B experiments show that it improves core e-commerce business metrics significantly. Since the summer of 2020, the proposed model has been launched into our search engine production, serving hundreds of millions of users.
翻訳日:2021-03-04 04:59:35 公開日:2021-03-01
# (参考訳) 最適輸送のためのマニホールド最適化 [全文訳有]

Manifold optimization for optimal transport ( http://arxiv.org/abs/2103.00902v1 )

ライセンス: CC BY 4.0
Bamdev Mishra, N T V Satya Dev, Hiroyuki Kasai, and Pratik Jawanpuria(参考訳) Optimal Transport (OT)は、機械学習に広く関心を寄せている。 これは、いくつかのアプリケーションで約束を示した確率測定間の新しい距離を定義することができます。 本研究では,リーマン多様体最適化の枠組みにおけるOT問題への計算的アプローチについて考察する。 この基礎は、二重確率行列(とその一般化)の多様体である。 多様体幾何学は新しいものではないが、OT問題の解法としての有用性は考慮されていない。 この目的のために、探索空間の幾何を利用して滑らかなリーマン多様体上のOT問題をモデル化できる最適化関連成分を具体的に論じる。 また,開発した最適化要素を再利用する拡張についても検討する。 Manifold最適化ベースの最適トランスポート(MOT)レポジトリを,PythonとMatlabのOT問題を解決する上で有用なコードで提供しています。 コードはhttps://github.com/S atyadevNtv/MOTで入手できる。

Optimal transport (OT) has recently found widespread interest in machine learning. It allows to define novel distances between probability measures, which have shown promise in several applications. In this work, we discuss how to computationally approach OT problems within the framework of the Riemannian manifold optimization. The basis of this is the manifold of doubly stochastic matrices (and its generalization). Even though the manifold geometry is not new, surprisingly, its usefulness for solving OT problems has not been considered. To this end, we specifically discuss optimization-related ingredients that allow modeling the OT problem on smooth Riemannian manifolds by exploiting the geometry of the search space. We also discuss extensions where we reuse the developed optimization ingredients. We make available the Manifold optimization-based Optimal Transport, or MOT, repository with codes useful in solving OT problems in Python and Matlab. The codes are available at https://github.com/S atyadevNtv/MOT.
翻訳日:2021-03-04 04:36:14 公開日:2021-03-01
# (参考訳) 信用リスクマネジメントにおける説明可能なAI [全文訳有]

Explainable AI in Credit Risk Management ( http://arxiv.org/abs/2103.00949v1 )

ライセンス: CC BY 4.0
Branka Hadji Misheva, Joerg Osterrieder, Ali Hirsa, Onkar Kulkarni, Stephen Fung Lin(参考訳) 人工知能(AI)は、世界で最も大きなテクノロジー革命を生み出しました。 金融分野では、顧客エクスペリエンスの向上、金融サービスの民主化、消費者保護の確保、リスク管理の改善に優れた機会を提供します。 最先端の機械学習モデルを実行するのはこれまで以上に簡単ですが、現実世界の金融アプリケーションをサポートするシステムの設計と実装は困難でした。 信頼性の高い技術を確立する上で重要な要素である透明性と説明可能性の欠如と、このトピックに関する研究が、信用リスク管理のアプリケーションに特に焦点を当てているためである。 本稿では,米国P2PLending Platform, Lending Clubが提供しているオープンアクセスデータセットに適用した機械学習(ML)ベースの信用評価モデルに対して,LIME(Local Interpretable Model Agnostic Explanations)とSHAP(SHapley Additive ExPlanations)と呼ばれる2つの高度なポストホックモデル非依存説明可能性手法を実装した。 具体的には、LIMEを使用してインスタンスをローカルとSHAPで説明し、ローカルとグローバルの両方で説明します。 SHAP値を用いて生成されたグラフを説明するために利用可能なさまざまなカーネルを使用して、結果を詳細に議論し、複数の比較シナリオを提示する。 また、これらの最先端のeXplainabale AI(XAI)メソッドの実装に関する実践的課題についても論じ、今後の参照のためにそれらを文書化する。 我々は、この研究のすべての技術的側面を文書化する努力をしてきましたが、同時に結論の一般的な要約を提供します。

Artificial Intelligence (AI) has created the single biggest technology revolution the world has ever seen. For the finance sector, it provides great opportunities to enhance customer experience, democratize financial services, ensure consumer protection and significantly improve risk management. While it is easier than ever to run state-of-the-art machine learning models, designing and implementing systems that support real-world finance applications have been challenging. In large part because they lack transparency and explainability which are important factors in establishing reliable technology and the research on this topic with a specific focus on applications in credit risk management. In this paper, we implement two advanced post-hoc model agnostic explainability techniques called Local Interpretable Model Agnostic Explanations (LIME) and SHapley Additive exPlanations (SHAP) to machine learning (ML)-based credit scoring models applied to the open-access data set offered by the US-based P2P Lending Platform, Lending Club. Specifically, we use LIME to explain instances locally and SHAP to get both local and global explanations. We discuss the results in detail and present multiple comparison scenarios by using various kernels available for explaining graphs generated using SHAP values. We also discuss the practical challenges associated with the implementation of these state-of-art eXplainabale AI (XAI) methods and document them for future reference. We have made an effort to document every technical aspect of this research, while at the same time providing a general summary of the conclusions.
翻訳日:2021-03-04 04:26:57 公開日:2021-03-01
# (参考訳) 非コーディングRNAと深層学習ニューラルネットワークは多癌型を識別する [全文訳有]

Noncoding RNAs and deep learning neural network discriminate multi-cancer types ( http://arxiv.org/abs/2103.01179v1 )

ライセンス: CC BY 4.0
Anyou Wang, Rong Hai, Paul J Rider, Harrison Dulin(参考訳) がんの早期発見は死亡率を劇的に低下させる。 そのため,集団レベルでのがん検診が必要である。 本稿では,すべてのがんタイプを分類する包括的検出システムを開発した。 大規模データから選択された人工知能ディープラーニングニューラルネットワークと非コーディングRNAバイオマーカーを統合することで,ROCのAUC(Area Under Curve of a Receiver Operating curve)の96.3%で,癌と健康な対象を正確に検出することができる。 バイオマーカーは6種類に満たないが,本手法では99%から100%のaucを有する癌と正常癌を区別できる。 さらに、包括的マーカーパネルは、異種性癌組織および状態において、安定して78%の精度で、すべての共通がんを同時に分類することができる。 これは大規模な癌のスクリーニングのための貴重なフレームワークを提供します。 AIモデルと結果のプロットはhttps://combai.org/a i/cancerdetection/で入手できます。

Detecting cancers at early stages can dramatically reduce mortality rates. Therefore, practical cancer screening at the population level is needed. Here, we develop a comprehensive detection system to classify all common cancer types. By integrating artificial intelligence deep learning neural network and noncoding RNA biomarkers selected from massive data, our system can accurately detect cancer vs healthy object with 96.3% of AUC of ROC (Area Under Curve of a Receiver Operating Characteristic curve). Intriguinely, with no more than 6 biomarkers, our approach can easily discriminate any individual cancer type vs normal with 99% to 100% AUC. Furthermore, a comprehensive marker panel can simultaneously multi-classify all common cancers with a stable 78% of accuracy at heterological cancerous tissues and conditions. This provides a valuable framework for large scale cancer screening. The AI models and plots of results were available in https://combai.org/a i/cancerdetection/
翻訳日:2021-03-04 04:11:39 公開日:2021-03-01
# (参考訳) 学習者の言語 [全文訳有]

Learners' languages ( http://arxiv.org/abs/2103.01189v1 )

ライセンス: CC BY-SA 4.0
David I. Spivak(参考訳) Backprop as functor」では、深層学習の基本要素である勾配降下とバックプロパゲーションは、パラメータ化されたユークリッド空間の圏から、パラメータ更新とバックプロパゲーションをキャプチャするために明示的に開発されたカテゴリーである、強いモノイド関手 $\mathbf{Para}(\mathbf{Euc})\to\mathbf{Learn}$ として概念化できることを示した。 するとすぐに、$\mathbf{learn}\cong\mathbf{para}(\mathbf{slens})$ という同型が存在し、ここでは$\mathbf{slens}$ は関数型プログラミングで使われる単純なレンズの対称モノイド圏である。 ここで、$\mathbf{SLens}$ は 1 変数の多項式関手の圏である $\mathbf{Poly}$ の完全部分圏であり、関手 $A\mapsto Ay^A$ を通して観察する。 $(\mathbf{Poly},\otimes)$ がモノイド閉であるという事実を用いて、写像 $A\to B$ in $\mathbf{Para}(\mathbf{SLens})$ が内部ホム型 $[Ay^A,By^B]$ であるような力学系(より正確には一般化されたムーアマシン)の観点で自然な解釈を持つことを示す。 最後に、任意の$p\in\mathbf{Poly}$上の動的システムのカテゴリ$p\text{-}\mathbf{Coalg}$がトーポを形成するという事実をレビューし、その内部言語で記述できる論理命題を検討する。 勾配降下を例に挙げ、今後の作業の方向性について議論して締めくくります。

In "Backprop as functor", the authors show that the fundamental elements of deep learning -- gradient descent and backpropagation -- can be conceptualized as a strong monoidal functor $\mathbf{Para}(\mathbf{Euc})\to\mathbf{Learn}$ from the category of parameterized Euclidean spaces to that of learners, a category developed explicitly to capture parameter update and backpropagation. It was soon realized that there is an isomorphism $\mathbf{Learn}\cong\mathbf{Para}(\mathbf{SLens})$, where $\mathbf{SLens}$ is the symmetric monoidal category of simple lenses as used in functional programming. In this note, we observe that $\mathbf{SLens}$ is a full subcategory of $\mathbf{Poly}$, the category of polynomial functors in one variable, via the functor $A\mapsto Ay^A$. Using the fact that $(\mathbf{Poly},\otimes)$ is monoidal closed, we show that a map $A\to B$ in $\mathbf{Para}(\mathbf{SLens})$ has a natural interpretation in terms of dynamical systems (more precisely, generalized Moore machines) whose interface is the internal-hom type $[Ay^A,By^B]$. Finally, we review the fact that the category $p\text{-}\mathbf{Coalg}$ of dynamical systems on any $p\in\mathbf{Poly}$ forms a topos, and consider the logical propositions that can be stated in its internal language. We give gradient descent as an example, and we conclude by discussing some directions for future work.
翻訳日:2021-03-04 04:02:27 公開日:2021-03-01
# (参考訳) 教師付き学習を用いたクライアント提案予測のオフショアソフトウェアメンテナンスアウトソーシング [全文訳有]

Offshore Software Maintenance Outsourcing Predicting Clients Proposal using Supervised Learning ( http://arxiv.org/abs/2103.01223v1 )

ライセンス: CC BY-SA 4.0
Atif Ikram, Masita Abdul Jalil, Amir Bin Ngah, Ahmad Salman Khan, Tahir Iqbal(参考訳) ソフトウェアエンジニアリングにおいて、ソフトウェアメンテナンスとは、顧客に引き渡された後のソフトウェア製品の修正、更新、改善のプロセスである。 オフショアソフトウェアメンテナンスのアウトソーシングを通じて、クライアントはコスト削減、時間の節約、品質向上といったメリットを得ることができる。 ほとんどの場合、OSMOベンダーはかなりの収益を生み出します。 しかし、複数のクライアント間で適切な提案を選択することは、OSMOベンダーにとって重要な問題である。 本研究の目的は、OSMOベンダーがOSMOクライアントの提案を評価または予測するために使用できる効果的な機械学習手法を提案することである。 データセットは、発展途上国で働くOSMOベンダーの調査によって生成される。 その結果、na\"ive bayesian, smo, logistics rehended 69.75, 81.81, 87.27パーセントのテスト精度が向上した。 本研究は、教師あり学習がOSMOクライアントの提案を予測する最も適した手法であると結論付けている。

In software engineering, software maintenance is the process of correction, updating, and improvement of software products after handed over to the customer. Through offshore software maintenance outsourcing clients can get advantages like reduce cost, save time, and improve quality. In most cases, the OSMO vendor generates considerable revenue. However, the selection of an appropriate proposal among multiple clients is one of the critical problems for OSMO vendors. The purpose of this paper is to suggest an effective machine learning technique that can be used by OSMO vendors to assess or predict the OSMO client proposal. The dataset is generated through a survey of OSMO vendors working in a developing country. The results showed that supervised learning-based classifiers like Na\"ive Bayesian, SMO, Logistics apprehended 69.75, 81.81, and 87.27 percent testing accuracy respectively. This study concludes that supervised learning is the most suitable technique to predict the OSMO client's proposal.
翻訳日:2021-03-04 03:09:50 公開日:2021-03-01
# (参考訳) オプティカルフォーム計測のためのアンサンブル学習による不確かさ定量化 [全文訳有]

Uncertainty Quantification by Ensemble Learning for Computational Optical Form Measurements ( http://arxiv.org/abs/2103.01259v1 )

ライセンス: CC BY 4.0
Lara Hoffmann, Ines Fortmeier and Clemens Elster(参考訳) アンサンブル学習による不確かさの定量化は、計算光学式測定による応用の観点から検討する。 アプリケーションは、大規模な非線形逆問題を解決する必要があります。 エンサンブル学習は、このアプリケーションのために最近開発されたディープラーニングアプローチを拡張するために使用され、逆問題に対する予測ソリューションの不確実性定量を提供します。 不確実性定量化の信頼性を体系的に分散エラーやノイズデータに挿入することで探究します。 提案したアプリケーションは,実世界のアプリケーションにおいて,高次元データに対する信頼に値する予測を行うためのアンサンブル手法の能力を実証する。

Uncertainty quantification by ensemble learning is explored in terms of an application from computational optical form measurements. The application requires to solve a large-scale, nonlinear inverse problem. Ensemble learning is used to extend a recently developed deep learning approach for this application in order to provide an uncertainty quantification of its predicted solution to the inverse problem. By systematically inserting out-of-distribution errors as well as noisy data the reliability of the developed uncertainty quantification is explored. Results are encouraging and the proposed application exemplifies the ability of ensemble methods to make trustworthy predictions on high dimensional data in a real-world application.
翻訳日:2021-03-04 03:02:08 公開日:2021-03-01
# (参考訳) 差分プライバシーを用いた広域ネットワーク学習 [全文訳有]

Wide Network Learning with Differential Privacy ( http://arxiv.org/abs/2103.01294v1 )

ライセンス: CC BY 4.0
Huanyu Zhang, Ilya Mironov, Meisam Hejazinia(参考訳) 強い関心とかなりの努力にもかかわらず、現在の世代のニューラルネットワークは、最も実用的なプライバシートレーニング体制の下で、かなりの精度の損失を被っている。 ニューラルネットワークの特に困難なクラスの1つは、NLPタイプの予測やレコメンダーシステム用にデプロイされるような広いものである。 これらのモデルが共有していることを観察する - 入力の次元を減少させる埋め込み層 -- グラデーションのスパース性を利用したモデルトレーニングのための一般的なアプローチの開発に焦点を合わせます。 より抽象的に言えば、スパース勾配を持つモデルに対する微分プライベートな経験的リスク最小化(ERM)の問題に対処する。 非凸ERM問題の場合、損失はパラメータの数に対数的に依存し、一般のケースに対する多項式依存とは対照的に有意である。 同じ直感に続き、ニューラルネットワークをプライベートに訓練するための新しいアルゴリズムを提案する。 最後に、実世界のデータセット上のDPワイドニューラルネットワークの実証的研究を提供するが、これは以前の研究ではめったに検討されていない。

Despite intense interest and considerable effort, the current generation of neural networks suffers a significant loss of accuracy under most practically relevant privacy training regimes. One particularly challenging class of neural networks are the wide ones, such as those deployed for NLP typeahead prediction or recommender systems. Observing that these models share something in common--an embedding layer that reduces the dimensionality of the input--we focus on developing a general approach towards training these models that takes advantage of the sparsity of the gradients. More abstractly, we address the problem of differentially private Empirical Risk Minimization (ERM) for models that admit sparse gradients. We demonstrate that for non-convex ERM problems, the loss is logarithmically dependent on the number of parameters, in contrast with polynomial dependence for the general case. Following the same intuition, we propose a novel algorithm for privately training neural networks. Finally, we provide an empirical study of a DP wide neural network on a real-world dataset, which has been rarely explored in the previous work.
翻訳日:2021-03-04 02:48:42 公開日:2021-03-01
# (参考訳) 匿名位置情報型ソーシャルネットワークにおける機械学習によるユーザライフタイムの理解と予測 [全文訳有]

Understanding & Predicting User Lifetime with Machine Learning in an Anonymous Location-Based Social Network ( http://arxiv.org/abs/2103.01300v1 )

ライセンス: CC BY 4.0
Jens Helge Reelfs and Max Bergmann and Oliver Hohlfeld and Niklas Henckell(参考訳) 本研究では、サウジアラビア王国の匿名および位置情報ベースのソーシャルネットワーク、Jodelにおけるユーザ寿命を予測する。 ジョデルの立地ベースの性質は、全国的に不協和なコミュニティの設立につながり、不協和なコミュニティの大規模なセットの場合、初めてユーザー寿命の研究を可能にします。 ユーザの寿命は、チャーンを予測するために活用され、潜在的ユーザ損失を回避するために適切な方法を適用することができるため、顧客ベースの評価と運営において重要な測定値である。 5倍のクロスバリデーションを用いた棚型機械学習技術をトレーニングしてテストし,回帰と分類の問題としてユーザ寿命を予測する。 モデルの複雑さと品質のトレードオフについて議論し、我々はまた、非常にうまく機能しない時間依存のフィーチャーサブセット分析に深く掘り下げます。分類問題をバイナリ決定(タイムパン$x$よりも長い寿命)に容易化することで、非常に優れたパフォーマンスを持つ実用的な寿命予測器を可能にします。 特徴的重要性の強い相関関係に基づき,コミュニティモデル間の暗黙的な類似性を同定する。 単一の国全体のモデルは問題を一般化し、どのテストされたコミュニティでも同じように機能する。

In this work, we predict the user lifetime within the anonymous and location-based social network Jodel in the Kingdom of Saudi Arabia. Jodel's location-based nature yields to the establishment of disjoint communities country-wide and enables for the first time the study of user lifetime in the case of a large set of disjoint communities. A user's lifetime is an important measurement for evaluating and steering customer bases as it can be leveraged to predict churn and possibly apply suitable methods to circumvent potential user losses. We train and test off the shelf machine learning techniques with 5-fold crossvalidation to predict user lifetime as a regression and classification problem; identifying the Random Forest to provide very strong results. Discussing model complexity and quality trade-offs, we also dive deep into a time-dependent feature subset analysis, which does not work very well; Easing up the classification problem into a binary decision (lifetime longer than timespan $x$) enables a practical lifetime predictor with very good performance. We identify implicit similarities across community models according to strong correlations in feature importance. A single countrywide model generalizes the problem and works equally well for any tested community; the overall model internally works similar to others also indicated by its feature importances.
翻訳日:2021-03-04 02:09:28 公開日:2021-03-01
# (参考訳) 動的共変量バランス:経時的治療効果の推定

Dynamic covariate balancing: estimating treatment effects over time ( http://arxiv.org/abs/2103.01280v1 )

ライセンス: CC BY 4.0
Davide Viviano, Jelena Bradic(参考訳) 本稿では, 経時的治療における推定と推論の問題について述べる。 そこで本稿では, 治療履歴の推測法として, \textit{dynamic} covariate balancing法を提案する。 本手法では, (i) 処理が時間とともに任意に伝播し, (ii) 処理効果の非定常性と不均一性, (iii) 高次元共変量, (iv) 未知の確率スコア関数が成立する。 推定器の漸近特性について検討し,提案手法のパラメトリック収束率を示す。 本稿では,現状の競合相手に対する手法の利点をシミュレーションと経験的応用で説明する。

This paper discusses the problem of estimation and inference on time-varying treatments. We propose a method for inference on treatment histories, by introducing a \textit{dynamic} covariate balancing method. Our approach allows for (i) treatments to propagate arbitrarily over time; (ii) non-stationarity and heterogeneity of treatment effects; (iii) high-dimensional covariates, and (iv) unknown propensity score functions. We study the asymptotic properties of the estimator, and we showcase the parametric convergence rate of the proposed procedure. We illustrate in simulations and an empirical application the advantage of the method over state-of-the-art competitors.
翻訳日:2021-03-03 23:57:09 公開日:2021-03-01
# (参考訳) Variational Bayes の実践的チュートリアル

A practical tutorial on Variational Bayes ( http://arxiv.org/abs/2103.01327v1 )

ライセンス: CC BY 4.0
Minh-Ngoc Tran, Trong-Nghia Nguyen, and Viet-Hung Dao(参考訳) このチュートリアルでは,変分ベイズ(VB)の実践的視点から,変分推論や変分近似(variantal Approximation)とも呼ばれている。 この論文は、一般的に使用されるvbメソッドの範囲をカバーし、幅広いデータ分析実践者のコミュニティに資料をアクセスできるようにする試みである。 目的は、読者がデータ分析問題でベイズ推論のための最初のVBアルゴリズムを迅速に導き出し、実装できることである。 Matlabのエンドユーザソフトウェアパッケージとドキュメントは、https://vbayeslab.gi thub.io/VBLabDocs/にある。

This tutorial gives a quick introduction to Variational Bayes (VB), also called Variational Inference or Variational Approximation, from a practical point of view. The paper covers a range of commonly used VB methods and an attempt is made to keep the materials accessible to the wide community of data analysis practitioners. The aim is that the reader can quickly derive and implement their first VB algorithm for Bayesian inference with their data analysis problem. An end-user software package in Matlab together with the documentation can be found at https://vbayeslab.gi thub.io/VBLabDocs/
翻訳日:2021-03-03 23:56:19 公開日:2021-03-01
# (参考訳) ポイントプロセスの統計的学習とクロスバリデーション

Statistical learning and cross-validation for point processes ( http://arxiv.org/abs/2103.01356v1 )

ライセンス: CC BY 4.0
Ottmar Cronie, Mehdi Moradi, Christophe A.N. Biscio(参考訳) 本稿では,一般空間における点過程に関する最初の一般(教師あり)統計学習フレームワークを提案する。 論文で定義する2つの新しい概念の組み合わせに基づくアプローチである: i) 2つの点過程間の不一致/予測的正確性の尺度である二変量イノベーション, ii)点過程の細分化を通じて定義する点過程クロスバリデーション(cv)。 一般的な考え方は、CV生成検証セットを対応するトレーニングセットを用いて予測することで、フィッティングを実行することである。 両変数の革新の様々な理論的特性を確立し, CV法が独立な薄型化によって得られた場合について詳細に検討し, 統計的学習手法をパラメトリック強度推定, 非パラメトリック強度推定, パパンガルー条件強度フィッティングの3つの典型的な空間統計的設定に適用した。 これらのケースに関連する理論的特性を導出する以外に、統計的学習アプローチが平均(統合)二乗誤差の点で技術の現状を上回っていることを数値的に示しています。

This paper presents the first general (supervised) statistical learning framework for point processes in general spaces. Our approach is based on the combination of two new concepts, which we define in the paper: i) bivariate innovations, which are measures of discrepancy/predicti on-accuracy between two point processes, and ii) point process cross-validation (CV), which we here define through point process thinning. The general idea is to carry out the fitting by predicting CV-generated validation sets using the corresponding training sets; the prediction error, which we minimise, is measured by means of bivariate innovations. Having established various theoretical properties of our bivariate innovations, we study in detail the case where the CV procedure is obtained through independent thinning and we apply our statistical learning methodology to three typical spatial statistical settings, namely parametric intensity estimation, non-parametric intensity estimation and Papangelou conditional intensity fitting. Aside from deriving theoretical properties related to these cases, in each of them we numerically show that our statistical learning approach outperforms the state of the art in terms of mean (integrated) squared error.
翻訳日:2021-03-03 23:55:20 公開日:2021-03-01
# (参考訳) ハイブリッド量子古典ハミルトン学習アルゴリズム [全文訳有]

A Hybrid Quantum-Classical Hamiltonian Learning Algorithm ( http://arxiv.org/abs/2103.01061v1 )

ライセンス: CC BY 4.0
Youle Wang, Guangxi Li, Xin Wang(参考訳) ハミルトン学習は、量子デバイスと量子シミュレータの認定に不可欠である。 本稿では,ハミルトン作用素のポーリ作用素成分の係数を求めるために,ハイブリッド量子古典ハミルトン学習アルゴリズムを提案する。 その主なサブルーチンは、システムの自由エネルギーの最小化に基づく実用的なログ分割関数推定アルゴリズムである。 具体的には、確率的変動量子固有解法(SVQE)を考案し、ハミルトニアンの対角化を行い、得られた固有値を利用して凸最適化を用いて自由エネルギーの大域最小値を計算する。 本手法は,自由エネルギー最小化におけるフォン・ノイマンのエントロピー推定の難しさを回避できるだけでなく,ハミルトニアン対角化における重要サンプリングによる量子資源の削減を図っている。 最後に,量子多体物理学に興味のあるハミルトニアンの数値実験を行い,その妥当性を実証する。

Hamiltonian learning is crucial to the certification of quantum devices and quantum simulators. In this paper, we propose a hybrid quantum-classical Hamiltonian learning algorithm to find the coefficients of the Pauli operator components of the Hamiltonian. Its main subroutine is the practical log-partition function estimation algorithm, which is based on the minimization of the free energy of the system. Concretely, we devise a stochastic variational quantum eigensolver (SVQE) to diagonalize the Hamiltonians and then exploit the obtained eigenvalues to compute the free energy's global minimum using convex optimization. Our approach not only avoids the challenge of estimating von Neumann entropy in free energy minimization, but also reduces the quantum resources via importance sampling in Hamiltonian diagonalization, facilitating the implementation of our method on near-term quantum devices. Finally, we demonstrate our approach's validity by conducting numerical experiments with Hamiltonians of interest in quantum many-body physics.
翻訳日:2021-03-03 22:24:39 公開日:2021-03-01
# (参考訳) 前方kalmanフィルタを用いた有声音声とピッチ追跡の教師なし分類 [全文訳有]

Unsupervised Classification of Voiced Speech and Pitch Tracking Using Forward-Backward Kalman Filtering ( http://arxiv.org/abs/2103.01173v1 )

ライセンス: CC BY 4.0
Benedikt Boenninghoff, Robert M. Nickel, Steffen Zeiler, Dorothea Kolossa(参考訳) 様々な音声処理手法において,音声の検出,基本周波数の推定,時間経過によるピッチ値の追跡が重要なサブタスクである。 3つのサブタスクごとに多くの異なるアルゴリズムが開発されている。 3つのサブタスクを1つの手順に統合する新しいアルゴリズムを紹介します。 このアルゴリズムは、大量の背景雑音が存在する場合の事前録音音声に応用できる。 例えば、ゼロクロスレートのような標準メトリクスの集まりを組み合わせることで、教師なしのボッキング分類器を定式化する。 ピッチ値の推定は,ハイブリッド自己相関に基づく手法を用いて行う。 推定ピッチ輪郭を滑らかにする前方後方カルマンフィルタを提案する。 実験では,提案手法が現在最先端のピッチ検出アルゴリズムと好適に比較できることを示すことができた。

The detection of voiced speech, the estimation of the fundamental frequency, and the tracking of pitch values over time are crucial subtasks for a variety of speech processing techniques. Many different algorithms have been developed for each of the three subtasks. We present a new algorithm that integrates the three subtasks into a single procedure. The algorithm can be applied to pre-recorded speech utterances in the presence of considerable amounts of background noise. We combine a collection of standard metrics, such as the zero-crossing rate, for example, to formulate an unsupervised voicing classifier. The estimation of pitch values is accomplished with a hybrid autocorrelation-base d technique. We propose a forward-backward Kalman filter to smooth the estimated pitch contour. In experiments, we are able to show that the proposed method compares favorably with current, state-of-the-art pitch detection algorithms.
翻訳日:2021-03-03 21:21:19 公開日:2021-03-01
# OmniNet: トランスフォーマーからの一方向表現

OmniNet: Omnidirectional Representations from Transformers ( http://arxiv.org/abs/2103.01075v1 )

ライセンス: Link先を確認
Yi Tay, Mostafa Dehghani, Vamsi Aribandi, Jai Gupta, Philip Pham, Zhen Qin, Dara Bahri, Da-Cheng Juan, Donald Metzler(参考訳) 本稿では,トランスフォーマー(OmniNet)からのOmnidirectional Representationsを提案する。 OmniNetでは、厳密に水平な受容フィールドを維持する代わりに、各トークンはネットワーク全体のすべてのトークンに参加することができる。 この過程は、ネットワークの幅と深さ全体の受容場を持つ極端または集中的な注意機構の形式として解釈することもできる。 この目的のために、全方向の注意は、本質的に別の自己注意ベースのモデルであるメタランナーを介して学習される。 フルレセプティブ・フィールド・アテンションの計算コストを軽減するために,カーネル・ベース (choromanski et al) のような効率的な自己アテンションモデルを活用する。 )、低位注意(Wang et al.)。 and/or Big Bird (Zaheer et al.) メタリアナーとして。 自動回帰言語モデリング(LM1B, C4)、機械翻訳、長距離アリーナ(LRA)、画像認識に関する広範な実験が行われている。 実験の結果,OmniNetはLM1B,WMT'14 En-De/En-Fr,Long Range Arenaなどの最先端性能を達成した。 さらに、Vision Transformersで全方向表現を使用することで、数ショット学習と微調整の両方で画像認識タスクが大幅に改善されます。

This paper proposes Omnidirectional Representations from Transformers (OmniNet). In OmniNet, instead of maintaining a strictly horizontal receptive field, each token is allowed to attend to all tokens in the entire network. This process can also be interpreted as a form of extreme or intensive attention mechanism that has the receptive field of the entire width and depth of the network. To this end, the omnidirectional attention is learned via a meta-learner, which is essentially another self-attention based model. In order to mitigate the computationally expensive costs of full receptive field attention, we leverage efficient self-attention models such as kernel-based (Choromanski et al.), low-rank attention (Wang et al.) and/or Big Bird (Zaheer et al.) as the meta-learner. Extensive experiments are conducted on autoregressive language modeling (LM1B, C4), Machine Translation, Long Range Arena (LRA), and Image Recognition. The experiments show that OmniNet achieves considerable improvements across these tasks, including achieving state-of-the-art performance on LM1B, WMT'14 En-De/En-Fr, and Long Range Arena. Moreover, using omnidirectional representation in Vision Transformers leads to significant improvements on image recognition tasks on both few-shot learning and fine-tuning setups.
翻訳日:2021-03-03 17:35:40 公開日:2021-03-01
# localdrop:ディープニューラルネットワークのためのハイブリッド正規化

LocalDrop: A Hybrid Regularization for Deep Neural Networks ( http://arxiv.org/abs/2103.00719v1 )

ライセンス: Link先を確認
Ziqing Lu, Chang Xu, Bo Du, Takashi Ishida, Lefei Zhang, and Masashi Sugiyama(参考訳) ニューラルネットワークでは、オーバーフィットを解決するための正規化アルゴリズムの開発が主要な研究領域の1つです。 本稿では,ローカルラデマチャー複雑性を用いたニューラルネットワークの正規化のための新しい手法であるLocalDropを提案する。 完全に接続されたネットワーク(FCN)と畳み込みニューラルネットワーク(CNN)の両方に対する新しい正規化関数(ドロップレートと重み行列を含む)は、厳密な数学的推論によって局所ラデマチャー複雑性の上限提案に基づいて開発されている。 CNNにおけるFCNとDropBlockにおける各層における保持率行列の低下の解析も複雑性解析に含まれる。 新しい正規化関数により、最適保持率行列と重み行列を得るための2段階の手順を確立し、トレーニングモデル全体を実現する。 様々なモデルにおけるlocaldropの有効性を、いくつかのアルゴリズムと比較し、最終性能に異なるハイパーパラメータが与える影響を実証するために、広範な実験が行われている。

In neural networks, developing regularization algorithms to settle overfitting is one of the major study areas. We propose a new approach for the regularization of neural networks by the local Rademacher complexity called LocalDrop. A new regularization function for both fully-connected networks (FCNs) and convolutional neural networks (CNNs), including drop rates and weight matrices, has been developed based on the proposed upper bound of the local Rademacher complexity by the strict mathematical deduction. The analyses of dropout in FCNs and DropBlock in CNNs with keep rate matrices in different layers are also included in the complexity analyses. With the new regularization function, we establish a two-stage procedure to obtain the optimal keep rate matrix and weight matrix to realize the whole training model. Extensive experiments have been conducted to demonstrate the effectiveness of LocalDrop in different models by comparing it with several algorithms and the effects of different hyperparameters on the final performances.
翻訳日:2021-03-03 17:34:06 公開日:2021-03-01
# Persistent Message Passing

Persistent Message Passing ( http://arxiv.org/abs/2103.01043v1 )

ライセンス: Link先を確認
Heiko Strathmann, Mohammadamin Barekatain, Charles Blundell, Petar Veli\v{c}kovi\'c(参考訳) グラフニューラルネットワーク(GNNs)は、アルゴリズムによる推論手順とデータ構造をモデル化する強力な誘導バイアスである。 彼らの長所はMarkovian dynamicsを特徴とするタスクで主に示されており、関連するデータ構造をクエリするのは最新の状態にのみ依存する。 しかし、多くの関心のあるタスクでは、以前の状態に依存する効率的なデータ構造クエリをサポートすることが非常に有益である。 これは、データ構造の進化を時間とともに追跡し、GNNの潜在表現に大きな圧力をかける必要がある。 PMP(Persistent Message Passing)は、ノード表現を上書きするのではなく、必要に応じて新しいノードを生成するという、過去の状態を明示的に永続化することでGNNにクエリする機能を与えるメカニズムである。 PMPは、動的時間範囲クエリにおける2倍以上のテスト入力に分散を一般化し、状態を上書きするGNNを著しく上回ります。

Graph neural networks (GNNs) are a powerful inductive bias for modelling algorithmic reasoning procedures and data structures. Their prowess was mainly demonstrated on tasks featuring Markovian dynamics, where querying any associated data structure depends only on its latest state. For many tasks of interest, however, it may be highly beneficial to support efficient data structure queries dependent on previous states. This requires tracking the data structure's evolution through time, placing significant pressure on the GNN's latent representations. We introduce Persistent Message Passing (PMP), a mechanism which endows GNNs with capability of querying past state by explicitly persisting it: rather than overwriting node representations, it creates new nodes whenever required. PMP generalises out-of-distribution to more than 2x larger test inputs on dynamic temporal range queries, significantly outperforming GNNs which overwrite states.
翻訳日:2021-03-03 17:33:50 公開日:2021-03-01
# 共有グローバルワークスペースによる神経モジュール間の協調

Coordination Among Neural Modules Through a Shared Global Workspace ( http://arxiv.org/abs/2103.01197v1 )

ライセンス: Link先を確認
Anirudh Goyal, Aniket Didolkar, Alex Lamb, Kartikeya Badola, Nan Rosemary Ke, Nasim Rahaman, Jonathan Binas, Charles Blundell, Michael Mozer, Yoshua Bengio(参考訳) ディープラーニングは、モノリシックな隠蔽状態の例を、リッチな構造化状態へと表現する動きから遠ざかっている。 例えば、Transformerは位置ごとにセグメンテーションし、オブジェクト中心アーキテクチャはイメージをエンティティに分解する。 これらのすべてのアーキテクチャでは、異なる要素間の相互作用はペアワイズインタラクションによってモデル化される。トランスフォーマーは、他の位置からの情報を取り入れるために自己意識を利用し、オブジェクト中心アーキテクチャは、エンティティ間の相互作用をモデル化するグラフニューラルネットワークを利用する。 しかしながら、ペアワイズ相互作用は、ダウンストリームタスクに使用できるグローバルコーディネーションやコヒーレントな統合表現を達成できない場合がある。 認知科学において、機能的に特殊なコンポーネントが共通の帯域制限された通信チャネルを介して情報を共有するグローバルワークスペースアーキテクチャが提案されている。 複雑な環境の構造をモデル化するための深層学習の文脈におけるそのようなコミュニケーションチャネルの利用について検討する。 提案手法は、異なる専門家モジュール間の通信を行う共有ワークスペースを含むが、通信帯域に制限があるため、専門家モジュールはアクセスを競う必要がある。 キャパシティ制限は,(1)専門化と構成性を奨励し,(2)独立した専門家の同期を促進するという合理的な根拠を持つことを示す。

Deep learning has seen a movement away from representing examples with a monolithic hidden state towards a richly structured state. For example, Transformers segment by position, and object-centric architectures decompose images into entities. In all these architectures, interactions between different elements are modeled via pairwise interactions: Transformers make use of self-attention to incorporate information from other positions; object-centric architectures make use of graph neural networks to model interactions among entities. However, pairwise interactions may not achieve global coordination or a coherent, integrated representation that can be used for downstream tasks. In cognitive science, a global workspace architecture has been proposed in which functionally specialized components share information through a common, bandwidth-limited communication channel. We explore the use of such a communication channel in the context of deep learning for modeling the structure of complex environments. The proposed method includes a shared workspace through which communication among different specialist modules takes place but due to limits on the communication bandwidth, specialist modules must compete for access. We show that capacity limitations have a rational basis in that (1) they encourage specialization and compositionality and (2) they facilitate the synchronization of otherwise independent specialists.
翻訳日:2021-03-03 17:33:37 公開日:2021-03-01
# 統計的に有意なニューラルネットワークトレーニング停止

Statistically Significant Stopping of Neural Network Training ( http://arxiv.org/abs/2103.01205v1 )

ライセンス: Link先を確認
Justin K. Terry, Mario Jayakumar, Kusal De Alwis(参考訳) ディープラーニング分類器をトレーニングする際の一般的なアプローチは、数イテレーション毎にパラメータを保存し、人間のオブザーバか単純なメトリックベースのヒューリスティックがネットワークがもはや学習していないと判断するまでトレーニングし、最適な検証精度で保存されたパラメータをバックトラックして選択する。 ニューラルネットワークが学習していないかどうかを判断するために、単純な方法が使用されます。なぜなら、最適な値が見つかった後、条件がモデルの最終的な精度に影響を与えないからです。 しかし、ランタイムの観点から見ると、これは多数のニューラルネットワークが同時に訓練されるケース(例えば)にとって非常に重要なことだ。 ハイパーパラメータチューニング)。 そこで本研究では,ニューラルネットワークが学習を停止したかどうかを判断するための統計的意義テストを提案する。 この停止基準は、他の一般的な停止基準と比べて幸福な媒体であり、77%以下のエポックで最高到達確率を達成する基準に匹敵する精度を示し、より早く停止する基準は最終的な正確さに満足できる損失をもたらす。 さらに、これを新しい学習率スケジューラのベースとして使用し、学習率スケジュールを手動で選択する必要をなくし、準直線探索として振る舞うことにより、既存の手法に匹敵する経験的性能を達成する。

The general approach taken when training deep learning classifiers is to save the parameters after every few iterations, train until either a human observer or a simple metric-based heuristic decides the network isn't learning anymore, and then backtrack and pick the saved parameters with the best validation accuracy. Simple methods are used to determine if a neural network isn't learning anymore because, as long as it's well after the optimal values are found, the condition doesn't impact the final accuracy of the model. However from a runtime perspective, this is of great significance to the many cases where numerous neural networks are trained simultaneously (e.g. hyper-parameter tuning). Motivated by this, we introduce a statistical significance test to determine if a neural network has stopped learning. This stopping criterion appears to represent a happy medium compared to other popular stopping criterions, achieving comparable accuracy to the criterions that achieve the highest final accuracies in 77% or fewer epochs, while the criterions which stop sooner do so with an appreciable loss to final accuracy. Additionally, we use this as the basis of a new learning rate scheduler, removing the need to manually choose learning rate schedules and acting as a quasi-line search, achieving superior or comparable empirical performance to existing methods.
翻訳日:2021-03-03 17:30:53 公開日:2021-03-01
# RAGA:グローバルエンティティアライメントのためのリレーショナルグラフアテンションネットワーク

RAGA: Relation-aware Graph Attention Networks for Global Entity Alignment ( http://arxiv.org/abs/2103.00791v1 )

ライセンス: Link先を確認
Renbo Zhu, Meng Ma, Ping Wang(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)から同じ実世界のオブジェクトを参照するエンティティを発見するタスクであり、マルチソースKGを統合する上で最も重要なステップです。 既存の埋め込みに基づくエンティティアライメント法の大半は、局所アライメントのためのKGsの関係トリプルに基づいて、エンティティと関係をベクトル空間に埋め込む。 これらの手法はエンティティ間の多重関係を十分に考慮していないため、kgの構造情報は十分に活用されていない。 本稿では,関係を意識したグラフアテンションネットワークを基盤として,エンティティと関係の相互作用を捉える新しいフレームワークを提案する。 本フレームワークでは,エンティティ情報を関係に分散し,関係情報をエンティティに集約する自己認識機構を採用している。 さらに,1対1のエンティティアライメントを微細な類似度行列と組み合わせるためのグローバルアライメントアルゴリズムを提案する。 3つの実世界のクロスランガルデータセットの実験は、我々のフレームワークが最先端の手法よりも優れていることを示している。

Entity alignment (EA) is the task to discover entities referring to the same real-world object from different knowledge graphs (KGs), which is the most crucial step in integrating multi-source KGs. The majority of the existing embeddings-based entity alignment methods embed entities and relations into a vector space based on relation triples of KGs for local alignment. As these methods insufficiently consider the multiple relations between entities, the structure information of KGs has not been fully leveraged. In this paper, we propose a novel framework based on Relation-aware Graph Attention Networks to capture the interactions between entities and relations. Our framework adopts the self-attention mechanism to spread entity information to the relations and then aggregate relation information back to entities. Furthermore, we propose a global alignment algorithm to make one-to-one entity alignments with a fine-grained similarity matrix. Experiments on three real-world cross-lingual datasets show that our framework outperforms the state-of-the-art methods.
翻訳日:2021-03-03 17:28:50 公開日:2021-03-01
# ゼロショットとオープンセット視覚認識

Counterfactual Zero-Shot and Open-Set Visual Recognition ( http://arxiv.org/abs/2103.00887v1 )

ライセンス: Link先を確認
Zhongqi Yue, Tan Wang, Hanwang Zhang, Qianru Sun, Xian-Sheng Hua(参考訳) ゼロショット学習 (ZSL) とオープンセット認識 (OSR) の双方に対して, 目に見えるクラスのみをトレーニングすることで, 目に見えないクラスに一般化することの共通の課題を提示する。 我々の考えは、見知らぬクラスのための生成されたサンプルは、しばしば真の分布から外れ、見知らぬクラス(高)と見知らぬクラス(低)の認識率の深刻な不均衡を引き起こすという観察に由来する。 主な理由は、生成が反事実的信条ではないことを示し、したがって、その生成はサンプル固有の反事実的問題から導かれる忠実なものを提案する:もし、そのクラス属性をあるクラスに設定し、そのサンプル属性を不変に保ちながら、サンプルはどのように見えるか? 忠実さのおかげで、Consistency Ruleを適用して、見えない/見えないバイナリ分類を実行できます。 もし `yes'' なら、サンプルは特定のクラスからであり、 ``no'' はそうでない。 ZSL と OSR に関する広範な実験を通じて,我々のフレームワークは見かけ/見えない不均衡を効果的に軽減し,全体的な性能を著しく改善することを示した。 このフレームワークは既存のメソッドと直交するため、ZSL/OSRモデルがどのように一般化するかを評価するための新しいベースラインとして機能します。 コードはhttps://github.com/y ue-zhongqi/gcm-cfで入手できる。

We present a novel counterfactual framework for both Zero-Shot Learning (ZSL) and Open-Set Recognition (OSR), whose common challenge is generalizing to the unseen-classes by only training on the seen-classes. Our idea stems from the observation that the generated samples for unseen-classes are often out of the true distribution, which causes severe recognition rate imbalance between the seen-class (high) and unseen-class (low). We show that the key reason is that the generation is not Counterfactual Faithful, and thus we propose a faithful one, whose generation is from the sample-specific counterfactual question: What would the sample look like, if we set its class attribute to a certain class, while keeping its sample attribute unchanged? Thanks to the faithfulness, we can apply the Consistency Rule to perform unseen/seen binary classification, by asking: Would its counterfactual still look like itself? If ``yes'', the sample is from a certain class, and ``no'' otherwise. Through extensive experiments on ZSL and OSR, we demonstrate that our framework effectively mitigates the seen/unseen imbalance and hence significantly improves the overall performance. Note that this framework is orthogonal to existing methods, thus, it can serve as a new baseline to evaluate how ZSL/OSR models generalize. Codes are available at https://github.com/y ue-zhongqi/gcm-cf.
翻訳日:2021-03-03 17:26:47 公開日:2021-03-01
# 学習モノポリーゲームプレイ:モデルフリーなディープラーニングと模倣学習のハイブリッドアプローチ

Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement Learning and Imitation Learning Approach ( http://arxiv.org/abs/2103.00683v1 )

ライセンス: Link先を確認
Marina Haliem, Trevor Bonjour, Aala Alsalem, Shilpa Thomas, Hongyu Li, Vaneet Aggarwal, Bharat Bhargava, and Mayank Kejriwal(参考訳) 動的で複雑な環境でリアルタイムにインフォームドな意思決定をする方法を学ぶことは、難しい問題です。 このタスクを学ぶために、強化学習(rl)は、環境と相互作用するエージェントに依存し、試行錯誤を通じて学習し、その報酬の累積和を最大化する。 マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。 これにより意思決定が難しくなり、rlエージェントが勝利戦略をプレイし学習するための非常に複雑なタスクがもたらされる。 本稿では,人気のボードゲームであるMonopolyの勝利戦略をプレイし,学習することができるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。 そこで,本研究のDRLエージェントは,ルールベースのエージェント(人間の論理に類似した)を模倣して学習プロセスを開始し,そのポリシーを初期化し,成功したアクションを学習し,DRLを用いてポリシーを改善する。 提案エージェントは,異なるエージェントプレーヤに対して高い勝利率を示すため,提案エージェントの知的行動を示す。

Learning how to adapt and make real-time informed decisions in dynamic and complex environments is a challenging problem. To learn this task, Reinforcement Learning (RL) relies on an agent interacting with an environment and learning through trial and error to maximize the cumulative sum of rewards received by it. In multi-player Monopoly game, players have to make several decisions every turn which involves complex actions, such as making trades. This makes the decision-making harder and thus, introduces a highly complicated task for an RL agent to play and learn its winning strategies. In this paper, we introduce a Hybrid Model-Free Deep RL (DRL) approach that is capable of playing and learning winning strategies of the popular board game, Monopoly. To achieve this, our DRL agent (1) starts its learning process by imitating a rule-based agent (that resembles the human logic) to initialize its policy, (2) learns the successful actions, and improves its policy using DRL. Experimental results demonstrate an intelligent behavior of our proposed agent as it shows high win rates against different types of agent-players.
翻訳日:2021-03-03 17:24:38 公開日:2021-03-01
# 都市に耳を傾ける:短期流れ予測問題のための時空間的注意強化オートエンコーダ

Listening to the city, attentively: A Spatio-Temporal Attention Boosted Autoencoder for the Short-Term Flow Prediction Problem ( http://arxiv.org/abs/2103.00983v1 )

ライセンス: Link先を確認
Stefano Fiorini, Michele Ciavotta, Andrea Maurino(参考訳) 近年,交通流の研究や代替モビリティ(共有サービス)の予測の重要性が増している。これは,共有サービスの質を高めるシステムの実現に,交通流の正確かつタイムリーな情報が重要であるためである。 このニーズは、電動自転車や電動スクーターの共有などの代替輸送モビリティを必要とする現在の健康危機によって強調されています。 深層学習の世界での新しいアプローチと、この問題の強い空間的および時間的依存による難しさを考慮して、高レベルの空間的および時間的特徴をより良くマイニングできるマルチアテンション(空間的および時間的)を備えたSTREED-Netと呼ばれるフレームワークを提案します。 都市が分断された異なる地域の流入と流出を予測するために、3つの実際のデータセットの実験を行います。 提案したSTREED-Netモデルにより,この問題の最先端化が図られている。

In recent years, the importance of studying traffic flows and making predictions on alternative mobility (sharing services) has become increasingly important, as accurate and timely information on the travel flow is important for the successful implementation of systems that increase the quality of sharing services. This need has been accentuated by the current health crisis that requires alternative transport mobility such as electric bike and electric scooter sharing. Considering the new approaches in the world of deep learning and the difficulty due to the strong spatial and temporal dependence of this problem, we propose a framework, called STREED-Net, with multi-attention (Spatial and Temporal) able to better mining the high-level spatial and temporal features. We conduct experiments on three real datasets to predict the Inflow and Outflow of the different regions into which the city has been divided. The results indicate that the proposed STREED-Net model improves the state-of-the-art for this problem.
翻訳日:2021-03-03 17:24:15 公開日:2021-03-01
# 小型サンプルを用いた機械学習:合成知識合成

Machine learning on small size samples: A synthetic knowledge synthesis ( http://arxiv.org/abs/2103.01002v1 )

ライセンス: Link先を確認
Peter Kokol, Marko Kokol, Sa\v{s}o Zagoranski(参考訳) ほぼすべての人間の活動のデジタル化の複雑さの増大に対処する、ますます重要な技術のひとつが人工知能であり、より正確には機械学習である。 本研究の目的は,機械学習における小さなデータ問題とは何か,どのように解決されるのかという問いに答えることである。 文献調査の結果,小データセットの利用や,小データセット問題を扱う研究コミュニティの実質的な成長に関して,研究分野が成熟度向上に向かっていることを示す研究出版物数の増加傾向が示された。 顕著な国際協力にもかかわらず、経済発展途上国における研究文献生産の地域集中が観察された。

One of the increasingly important technologies dealing with the growing complexity of the digitalization of almost all human activities is Artificial intelligence, more precisely machine learning Despite the fact, that we live in a Big data world where almost everything is digitally stored, there are many real-world situations, where researchers are faced with small data samples. The present study aim is to answer the following research question namely What is the small data problem in machine learning and how it is solved?. Our bibliometric study showed a positive trend in the number of research publications concerning the use of small datasets and substantial growth of the research community dealing with the small dataset problem, indicating that the research field is moving toward higher maturity levels. Despite notable international cooperation, the regional concentration of research literature production in economically more developed countries was observed.
翻訳日:2021-03-03 17:23:58 公開日:2021-03-01
# 分類器の最適線形組合せ

Optimal Linear Combination of Classifiers ( http://arxiv.org/abs/2103.01109v1 )

ライセンス: Link先を確認
Georgi Nalbantov, Svetoslav Ivanov(参考訳) 1つの分類器を使うか、または1つの分類器を組み合わせるかは、機械学習の中心的なトピックである。 本稿では,分類タスクのバイアス分散フレームワークから導出した分類器の最適線形結合を求める手法を提案する。

The question of whether to use one classifier or a combination of classifiers is a central topic in Machine Learning. We propose here a method for finding an optimal linear combination of classifiers derived from a bias-variance framework for the classification task.
翻訳日:2021-03-03 17:23:34 公開日:2021-03-01
# 連続学習のための後部メタ再生

Posterior Meta-Replay for Continual Learning ( http://arxiv.org/abs/2103.01133v1 )

ライセンス: Link先を確認
Christian Henning, Maria R. Cervera, Francesco D'Angelo, Johannes von Oswald, Regina Traber, Benjamin Ehret, Seijin Kobayashi, Jo\~ao Sacramento, Benjamin F. Grewe(参考訳) 連続学習(CL)アルゴリズムは最近、i.i.dでトレーニングする必要性を克服しようとするため、多くの注目を集めている。 未知のターゲットデータ分布からのサンプル。 事前の作業に基づいて、ベイズの観点からCL問題に取り組む原則的な方法を検討し、タスクコンディショニングハイパーネットワークである共有メタモデルを通じてタスク固有の後方分布を継続的に学習することに焦点を当てます。 我々がPosterior-replay CLと呼ぶこのアプローチは、単一の後方分布の再帰的な更新に焦点を当てたほとんどのベイジアンCLアプローチとは対照的です。 提案手法の利点は,(1)重み空間における解をモデル化し,タスクの相違に対する感受性が低いこと,(2)タスク固有の予測不確実性推定へのアクセス,(2)テスト時間中にタスクの同一性を推定し,トレーニング中にタスク境界を検出すること,(3)過去のデータにアクセスする必要なしにタスク固有の後続を原則的に再検討・更新する能力,である。 提案手法は汎用性であり,ニューラルネットワークによってモデル化された強力な暗黙的分布と同様に,簡単な後続近似(ガウス型など)を用いて実演する。 低次元問題に対する我々のフレームワークの概念的な進歩を説明し、コンピュータビジョンベンチマークの性能向上を示す。

Continual Learning (CL) algorithms have recently received a lot of attention as they attempt to overcome the need to train with an i.i.d. sample from some unknown target data distribution. Building on prior work, we study principled ways to tackle the CL problem by adopting a Bayesian perspective and focus on continually learning a task-specific posterior distribution via a shared meta-model, a task-conditioned hypernetwork. This approach, which we term Posterior-replay CL, is in sharp contrast to most Bayesian CL approaches that focus on the recursive update of a single posterior distribution. The benefits of our approach are (1) an increased flexibility to model solutions in weight space and therewith less susceptibility to task dissimilarity, (2) access to principled task-specific predictive uncertainty estimates, that can be used to infer task identity during test time and to detect task boundaries during training, and (3) the ability to revisit and update task-specific posteriors in a principled manner without requiring access to past data. The proposed framework is versatile, which we demonstrate using simple posterior approximations (such as Gaussians) as well as powerful, implicit distributions modelled via a neural network. We illustrate the conceptual advance of our framework on low-dimensional problems and show performance gains on computer vision benchmarks.
翻訳日:2021-03-03 17:23:29 公開日:2021-03-01
# ニューラルネットワークコントローラの確率安全保証の生成

Generating Probabilistic Safety Guarantees for Neural Network Controllers ( http://arxiv.org/abs/2103.01203v1 )

ライセンス: Link先を確認
Sydney M. Katz, Kyle D. Julian, Christopher A. Strong, Mykel J. Kochenderfer(参考訳) ニューラルネットワークは、表現力のあるポリシーを表現できるため、様々な複雑な設定で効果的なコントローラとして機能する。 しかし、ニューラルネットワークの複雑な性質は、その出力の検証と予測を困難にし、安全クリティカルなアプリケーションでの使用を制限する。 シミュレーションはニューラルネットワークコントローラのパフォーマンスに関する洞察を提供するが、コントローラがすべてのシナリオで安全に動作することを保証するには十分ではない。 この問題に対処するため、最近の研究ではニューラルネットワーク出力のプロパティを検証するための形式的な方法に焦点を当てている。 ニューラルネットワークコントローラの場合、ダイナミクスモデルを使用して、コントローラが安全に動作するために保持する必要がある出力プロパティを決定できます。 本研究では,ニューラルネットワーク検証ツールの結果を用いて,ニューラルネットワークコントローラの確率的安全性保証を行う手法を開発した。 ニューラルネットワークポリシの近似を効率的に生成するための適応的検証手法を開発した。 次に,マルコフ決定過程(MDP)モデルチェックの従来の定式化を変更し,確率力学モデルが与えられた過剰近似ポリシーの保証を行う。 最後に、モデル検査過程における過近似誤差を低減するために、状態抽象化にテクニックを組み込む。 本研究では,航空機衝突回避システムX(ACAS X)に緩やかにインスパイアされた航空機衝突回避ニューラルネットワークの確率的安全性を保証するために,この問題を部分的に観測可能なマルコフ決定プロセス(POMDP)として定式化する。

Neural networks serve as effective controllers in a variety of complex settings due to their ability to represent expressive policies. The complex nature of neural networks, however, makes their output difficult to verify and predict, which limits their use in safety-critical applications. While simulations provide insight into the performance of neural network controllers, they are not enough to guarantee that the controller will perform safely in all scenarios. To address this problem, recent work has focused on formal methods to verify properties of neural network outputs. For neural network controllers, we can use a dynamics model to determine the output properties that must hold for the controller to operate safely. In this work, we develop a method to use the results from neural network verification tools to provide probabilistic safety guarantees on a neural network controller. We develop an adaptive verification approach to efficiently generate an overapproximation of the neural network policy. Next, we modify the traditional formulation of Markov decision process (MDP) model checking to provide guarantees on the overapproximated policy given a stochastic dynamics model. Finally, we incorporate techniques in state abstraction to reduce overapproximation error during the model checking process. We show that our method is able to generate meaningful probabilistic safety guarantees for aircraft collision avoidance neural networks that are loosely inspired by Airborne Collision Avoidance System X (ACAS X), a family of collision avoidance systems that formulates the problem as a partially observable Markov decision process (POMDP).
翻訳日:2021-03-03 17:23:04 公開日:2021-03-01
# コミュニケーション制約付き連合学習における対人訓練

Adversarial training in communication constrained federated learning ( http://arxiv.org/abs/2103.01319v1 )

ライセンス: Link先を確認
Devansh Shah, Parijat Dube, Supriyo Chakraborty, Ashish Verma(参考訳) 連合学習はエージェントデータの分散コーパス上でのモデルトレーニングを可能にする。 しかし、訓練されたモデルは、誤分類を誘発するように設計された敵の例に弱い。 我々は、連合学習環境における敵対的トレーニング(AT)の使用の可能性を検討する。 さらに,一定の通信予算と参加者間の非iidデータ分布を仮定する。 集中型トレーニングとは対照的に、ATがフェデレーション設定で使用されると、自然および敵対的な精度が大幅に低下します。 これは,各エージェントにおいて局所的に実行されるATのエポック数であり,その効果(i) 局所モデル間のドリフト,および (ii) 収束時間(通信ラウンド数で測定される)に起因している。 そこで我々は,フェデレート環境でATを実行するための新しいアルゴリズムであるFedDynATを提案する。 実験により,FedDynATは,モデルドリフトの低減によるモデル収束時間だけでなく,自然と逆の双方の精度を著しく向上することを示した。

Federated learning enables model training over a distributed corpus of agent data. However, the trained model is vulnerable to adversarial examples, designed to elicit misclassification. We study the feasibility of using adversarial training (AT) in the federated learning setting. Furthermore, we do so assuming a fixed communication budget and non-iid data distribution between participating agents. We observe a significant drop in both natural and adversarial accuracies when AT is used in the federated setting as opposed to centralized training. We attribute this to the number of epochs of AT performed locally at the agents, which in turn effects (i) drift between local models; and (ii) convergence time (measured in number of communication rounds). Towards this end, we propose FedDynAT, a novel algorithm for performing AT in federated setting. Through extensive experimentation we show that FedDynAT significantly improves both natural and adversarial accuracy, as well as model convergence time by reducing the model drift.
翻訳日:2021-03-03 17:22:38 公開日:2021-03-01
# AdaSpeech:カスタム音声のための音声への適応テキスト

AdaSpeech: Adaptive Text to Speech for Custom Voice ( http://arxiv.org/abs/2103.00993v1 )

ライセンス: Link先を確認
Mingjian Chen, Xu Tan, Bohan Li, Yanqing Liu, Tao Qin, Sheng Zhao, Tie-Yan Liu(参考訳) 商用音声プラットフォームにおける特定のテキスト対音声(TTS)サービスであるカスタム音声は、音声データが少ないターゲットスピーカーのパーソナル音声を合成するソースTTSモデルを適応させることを目指しています。 1) 多様な顧客をサポートするためには、適応モデルがソース音声データと大きく異なる様々な音響条件を扱う必要があり、2) 多数の顧客をサポートするには、適応パラメータは、高い音声品質を維持しながら、各ターゲット話者がメモリ使用量を減らすのに十分な大きさでなければならない。 本稿では,新しい音声の高品質かつ効率的なカスタマイズのための適応型ttsシステムであるadaspeechを提案する。 1) 音響条件の異なる2つの音響エンコーダを使用して、トレーニング中のターゲット音声から発話レベルベクトルと音素レベルベクトルのシーケンスを抽出します。推論では、発話レベルベクトルを基準音声から抽出し、音響予測器を使用して音素レベルベクトルを予測します。 2)適応パラメータと音声品質のトレードオフを良好にするため,adaspeechのmel-spectrogramデコーダに条件層正規化を導入し,適応のための話者埋め込みに加えてこの部分を微調整する。 我々は、LibriTTSデータセットのソースTSモデルを事前訓練し、VCTKおよびLJSpeechデータセット(LibriTTSとは異なる音響条件)に、20文、約1分間の音声など、ほとんど適応データを持たないように微調整する。 実験の結果、AdaSpeechはベースライン方式よりもはるかに優れた適応品質を達成し、各話者ごとに5Kの特定のパラメータしか示さず、カスタム音声の有効性を示しています。 オーディオサンプルはhttps://speechresear ch.github.io/adaspee ch/で入手できる。

Custom voice, a specific text to speech (TTS) service in commercial speech platforms, aims to adapt a source TTS model to synthesize personal voice for a target speaker using few speech data. Custom voice presents two unique challenges for TTS adaptation: 1) to support diverse customers, the adaptation model needs to handle diverse acoustic conditions that could be very different from source speech data, and 2) to support a large number of customers, the adaptation parameters need to be small enough for each target speaker to reduce memory usage while maintaining high voice quality. In this work, we propose AdaSpeech, an adaptive TTS system for high-quality and efficient customization of new voices. We design several techniques in AdaSpeech to address the two challenges in custom voice: 1) To handle different acoustic conditions, we use two acoustic encoders to extract an utterance-level vector and a sequence of phoneme-level vectors from the target speech during training; in inference, we extract the utterance-level vector from a reference speech and use an acoustic predictor to predict the phoneme-level vectors. 2) To better trade off the adaptation parameters and voice quality, we introduce conditional layer normalization in the mel-spectrogram decoder of AdaSpeech, and fine-tune this part in addition to speaker embedding for adaptation. We pre-train the source TTS model on LibriTTS datasets and fine-tune it on VCTK and LJSpeech datasets (with different acoustic conditions from LibriTTS) with few adaptation data, e.g., 20 sentences, about 1 minute speech. Experiment results show that AdaSpeech achieves much better adaptation quality than baseline methods, with only about 5K specific parameters for each speaker, which demonstrates its effectiveness for custom voice. Audio samples are available at https://speechresear ch.github.io/adaspee ch/.
翻訳日:2021-03-03 17:22:03 公開日:2021-03-01
# アメリカの健康状態:ソーシャルメディアによる健康分類の創造

The Healthy States of America: Creating a Health Taxonomy with Social Media ( http://arxiv.org/abs/2103.01169v1 )

ライセンス: Link先を確認
Sanja Scepanovic, Luca Maria Aiello, Ke Zhou, Sagar Joglekar, Daniele Quercia(参考訳) ソーシャルメディアの取り込み以来、研究者は特定の病気やインフルエンザやうつ病などの慢性疾患の発生と進化を追跡するためにオンラインディスカッションをマイニングしています。 研究対象の疾患の集合を広げるために,非構造化のソーシャルメディアテキストから,事実上あらゆる医学的状態や病気の言及を抽出する自然言語処理のためのDeep Learningツールを開発した。 このツールを使って、RedditとTwitterの投稿を処理し、その結果生じる2つのコンディションの共起ネットワークのクラスタを分析し、それらが明確に定義された医療条件のカテゴリに対応することを発見した。 この結果、オンライン議論から自動的に派生した医療条件の包括的分類法が誕生した。 疾患と関連する健康問題の国際統計分類(ICD-11)に対する分類の構造を検証した。 米国における地理的参照に関するReddit投稿の分類学のサブカテゴリの言及に基づいて、私たちは病気固有の健康スコアを計算することができました。 分類学的な構造を知らない病名数や数とは対照的に、我々の疾患固有の健康スコアは、公式に報告された18の疾患の有病率と因果関係があることが判明した。

Since the uptake of social media, researchers have mined online discussions to track the outbreak and evolution of specific diseases or chronic conditions such as influenza or depression. To broaden the set of diseases under study, we developed a Deep Learning tool for Natural Language Processing that extracts mentions of virtually any medical condition or disease from unstructured social media text. With that tool at hand, we processed Reddit and Twitter posts, analyzed the clusters of the two resulting co-occurrence networks of conditions, and discovered that they correspond to well-defined categories of medical conditions. This resulted in the creation of the first comprehensive taxonomy of medical conditions automatically derived from online discussions. We validated the structure of our taxonomy against the official International Statistical Classification of Diseases and Related Health Problems (ICD-11), finding matches of our clusters with 20 official categories, out of 22. Based on the mentions of our taxonomy's sub-categories on Reddit posts geo-referenced in the U.S., we were then able to compute disease-specific health scores. As opposed to counts of disease mentions or counts with no knowledge of our taxonomy's structure, we found that our disease-specific health scores are causally linked with the officially reported prevalence of 18 conditions.
翻訳日:2021-03-03 17:21:31 公開日:2021-03-01
# 固有値解を用いた教師付き異常検出のためのメタラーニングワンクラス分類器

Meta-learning One-class Classifiers with Eigenvalue Solvers for Supervised Anomaly Detection ( http://arxiv.org/abs/2103.00684v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Atsutoshi Kumagai(参考訳) ニューラルネットワークに基づく異常検出手法は高い性能を実現することが示されている。 しかし、それらはタスクごとに大量のトレーニングデータを必要とします。 教師付き異常検出のためのニューラルネットワークに基づくメタラーニング手法を提案する。 提案手法は,各種データセットを用いたメタトレーニングにより,いくつかのラベル付き正常インスタンスと異常インスタンスを含む未確認タスクの異常検出性能を改善する。 メタ学習フレームワークでは,各タスクへの迅速な適応とその効果的なバックプロパゲーションが重要である。 我々のモデルは,一級分類による一般化固有値問題として適応を定式化し,その大域的最適解を求め,解法を微分可能とした。 提案手法は,既存の異常検出法や,各種データセットの少ない学習法よりも優れた性能を実現することを実験的に実証した。

Neural network-based anomaly detection methods have shown to achieve high performance. However, they require a large amount of training data for each task. We propose a neural network-based meta-learning method for supervised anomaly detection. The proposed method improves the anomaly detection performance on unseen tasks, which contains a few labeled normal and anomalous instances, by meta-training with various datasets. With a meta-learning framework, quick adaptation to each task and its effective backpropagation are important since the model is trained by the adaptation for each epoch. Our model enables them by formulating adaptation as a generalized eigenvalue problem with one-class classification; its global optimum solution is obtained, and the solver is differentiable. We experimentally demonstrate that the proposed method achieves better performance than existing anomaly detection and few-shot learning methods on various datasets.
翻訳日:2021-03-03 17:17:22 公開日:2021-03-01
# 無限ガウス混合モデルを用いたクラスタリングのためのメタラーニング表現

Meta-learning representations for clustering with infinite Gaussian mixture models ( http://arxiv.org/abs/2103.00694v1 )

ライセンス: Link先を確認
Tomoharu Iwata(参考訳) クラスタリングのパフォーマンスを改善するためには、適切な表現が重要です。 多くのニューラルネットワークベースのメトリック学習手法が提案されているが、クラスタリング性能を改善するために直接ニューラルネットワークをトレーニングしていない。 本研究では,無限ガウス混合モデルを用いた変動ベイズ推論(VB)により,表現がクラスタ化されるとクラスタリング性能が向上するようにニューラルネットワークを訓練するメタラーニング手法を提案する。 提案手法は,非ラベルデータとは異なるラベルデータを用いた知識メタ学習を用いて,未ラベルデータをクラスタ化することができる。 目的関数として,適応されたRand index (ARI) の連続近似を提案し,ソフトクラスタリングの割り当てからクラスタリング性能を評価する。 近似したARIとVB推論手順は微分可能であるため、VB推論手順を通じて目的関数をバックプロパゲートしてニューラルネットワークを訓練することができる。 テキストと画像データセットを用いた実験により,提案手法は既存手法よりも高調整率のRandインデックスを持つことを示した。

For better clustering performance, appropriate representations are critical. Although many neural network-based metric learning methods have been proposed, they do not directly train neural networks to improve clustering performance. We propose a meta-learning method that train neural networks for obtaining representations such that clustering performance improves when the representations are clustered by the variational Bayesian (VB) inference with an infinite Gaussian mixture model. The proposed method can cluster unseen unlabeled data using knowledge meta-learned with labeled data that are different from the unlabeled data. For the objective function, we propose a continuous approximation of the adjusted Rand index (ARI), by which we can evaluate the clustering performance from soft clustering assignments. Since the approximated ARI and the VB inference procedure are differentiable, we can backpropagate the objective function through the VB inference procedure to train the neural networks. With experiments using text and image data sets, we demonstrate that our proposed method has a higher adjusted Rand index than existing methods do.
翻訳日:2021-03-03 17:17:09 公開日:2021-03-01
# 確率微分方程式に対するモーメントに基づく変動推論

Moment-Based Variational Inference for Stochastic Differential Equations ( http://arxiv.org/abs/2103.00988v1 )

ライセンス: Link先を確認
Christian Wildner and Heinz Koeppl(参考訳) 拡散過程に対する既存の決定論的変分推論アプローチは、単純な提案と後方の限界密度を対象とする。 本研究では,前処理の制御バージョンとして変分過程を構築し,モーメント関数の組によって後処理を近似する。 モーメント閉包と組み合わせて、平滑化問題は決定論的最適制御問題に還元される。 本研究では,経路方向フィッシャー情報を活用し,変動パラメータの自然勾配降下に対応する最適化手法を提案する。 我々のアプローチは、状態依存拡散項に拡張するよりリッチな変分近似を可能にする。 古典ガウス過程近似は特別な場合として取り戻される。

Existing deterministic variational inference approaches for diffusion processes use simple proposals and target the marginal density of the posterior. We construct the variational process as a controlled version of the prior process and approximate the posterior by a set of moment functions. In combination with moment closure, the smoothing problem is reduced to a deterministic optimal control problem. Exploiting the path-wise Fisher information, we propose an optimization procedure that corresponds to a natural gradient descent in the variational parameters. Our approach allows for richer variational approximations that extend to state-dependent diffusion terms. The classical Gaussian process approximation is recovered as a special case.
翻訳日:2021-03-03 17:16:52 公開日:2021-03-01
# 自動符号化3D変換によるマルチビュー学習

Self-Supervised Multi-View Learning via Auto-Encoding 3D Transformations ( http://arxiv.org/abs/2103.00787v1 )

ライセンス: Link先を確認
Xiang Gao, Wei Hu, Guo-Jun Qi(参考訳) 3Dオブジェクト表現学習は、3D世界を推論するコンピュータビジョンの基本的な課題です。 近年のディープラーニングの進歩は、3Dオブジェクト認識における効率性を示しており、ビューベース手法がこれまでで最も優れている。 しかし、既存の手法における複数のビューの特徴学習は、多くの場合、高コストで大量のデータラベルを必要とする教師付き方式で行われる。 対照的に、自己監督学習はラベル付きデータを介さずにマルチビュー機能表現を学習することを目指している。 この目的のために,3次元オブジェクトの同変変換とその投影された複数のビューを探索し,MV-TER(Multi-View Transformation Equivariant Representation)を学習するための,新しい自己教師型パラダイムを提案する。 具体的には、3Dオブジェクト上で3D変換を行い、投影による変換前後の複数のビューを取得する。 次に、変換前後の複数のビューの融合特徴表現から3d変換パラメータをデコードすることにより、内在的な3dオブジェクト表現をキャプチャする表現を自己学習する。 実験の結果,提案したMV-TERは3次元オブジェクト分類および検索タスクにおける最先端のビューベースアプローチよりも優れており,実世界のデータセットへの一般化を示す。

3D object representation learning is a fundamental challenge in computer vision to infer about the 3D world. Recent advances in deep learning have shown their efficiency in 3D object recognition, among which view-based methods have performed best so far. However, feature learning of multiple views in existing methods is mostly performed in a supervised fashion, which often requires a large amount of data labels with high costs. In contrast, self-supervised learning aims to learn multi-view feature representations without involving labeled data. To this end, we propose a novel self-supervised paradigm to learn Multi-View Transformation Equivariant Representations (MV-TER), exploring the equivariant transformations of a 3D object and its projected multiple views. Specifically, we perform a 3D transformation on a 3D object, and obtain multiple views before and after the transformation via projection. Then, we self-train a representation to capture the intrinsic 3D object representation by decoding 3D transformation parameters from the fused feature representations of multiple views before and after the transformation. Experimental results demonstrate that the proposed MV-TER significantly outperforms the state-of-the-art view-based approaches in 3D object classification and retrieval tasks, and show the generalization to real-world datasets.
翻訳日:2021-03-03 17:12:55 公開日:2021-03-01
# 奥行きレベル動的ニューラルネットワークにおける埋め込み知識蒸留

Embedded Knowledge Distillation in Depth-level Dynamic Neural Network ( http://arxiv.org/abs/2103.00793v1 )

ライセンス: Link先を確認
Shuchang Lyu, Ting-Bing Xu and Guangliang Cheng(参考訳) 実際のアプリケーションでは、異なる計算リソースデバイスは高い精度で異なる深いネットワーク(resnet-18/34/50など)を必要とする。 通常、既存の戦略では、複数のネットワーク(ネット)を設計し、それらを独立に訓練するか、圧縮技術(低ランク分解、刈り込み、教師から教師まで)を使って訓練された大規模モデルを小さなネットに進化させる。 これらの方法は、小網の精度が低いこと、または伴奏型大規模モデルの依存によって引き起こされる複雑な訓練過程の対象となる。 本稿では、類似アーキテクチャの異なる深度サブネットを統合したエレガントな深度レベル動的ニューラルネットワーク(DDNN)を提案する。 異なる深度構成の個々のネットをトレーニングする代わりに、1組の共有重みパラメータを使用して、実行時に異なる深度サブネットを動的に切り替えるようにDDNNを訓練する。 サブネットの一般化を改善するために,教師ネット(フル)から複数のサブネットへの意味的知識伝達を実装するために,DDNNの組込み知識蒸留(EKD)トレーニング機構を設計する。 具体的には、フルネットとサブネット間の後続クラス確率の整合性を制限するためにクルバック・リーブラー分岐を導入し、より豊富なサブネットの特徴表現を駆動するために、異なる深さの同じ解像度特徴に対する自己アテンションに対処する。 これにより、オンライン知識蒸留を通じてDDNNにおいて、余分な計算コストを伴わずに、複数の高精度サブネットを同時に取得できる。 CIFAR-10, CIFAR-100, ImageNetデータセットの大規模な実験により、EDKDトレーニング付きDDNNのサブネットは、フルネットの本来の性能を維持しながら、深さレベルのプルーニングや個別のトレーニングよりも優れたパフォーマンスを達成することが示された。

In real applications, different computation-resource devices need different-depth networks (e.g., ResNet-18/34/50) with high-accuracy. Usually, existing strategies either design multiple networks (nets) and train them independently, or utilize compression techniques (e.g., low-rank decomposition, pruning, and teacher-to-student) to evolve a trained large model into a small net. These methods are subject to the low-accuracy of small nets, or complicated training processes induced by the dependence of accompanying assistive large models. In this article, we propose an elegant Depth-level Dynamic Neural Network (DDNN) integrated different-depth sub-nets of similar architectures. Instead of training individual nets with different-depth configurations, we only train a DDNN to dynamically switch different-depth sub-nets at runtime using one set of shared weight parameters. To improve the generalization of sub-nets, we design the Embedded-Knowledge-D istillation (EKD) training mechanism for the DDNN to implement semantic knowledge transfer from the teacher (full) net to multiple sub-nets. Specifically, the Kullback-Leibler divergence is introduced to constrain the posterior class probability consistency between full-net and sub-net, and self-attention on the same resolution feature of different depth is addressed to drive more abundant feature representations of sub-nets. Thus, we can obtain multiple high accuracy sub-nets simultaneously in a DDNN via the online knowledge distillation in each training iteration without extra computation cost. Extensive experiments on CIFAR-10, CIFAR-100, and ImageNet datasets demonstrate that sub-nets in DDNN with EKD training achieves better performance than the depth-level pruning or individually training while preserving the original performance of full-net.
翻訳日:2021-03-03 17:12:34 公開日:2021-03-01
# ボックスを考えて:$l_1$-APGD for sparse adversarial attack on image Classifications

Mind the box: $l_1$-APGD for sparse adversarial attacks on image classifiers ( http://arxiv.org/abs/2103.01208v1 )

ライセンス: Link先を確認
Francesco Croce, Matthias Hein(参考訳) また、画像領域の$[0,1]^d$も考慮すると、$[0,1]^d$と$[0,1]^d$の交差を有効脅威モデルとみなさないため、確立された$l_1$-投射勾配降下(PGD)攻撃は最適以下であることを示す。 この効果的な脅威モデルのために最も急な降下ステップが期待できるスパーシティを調べ、この集合への正確な射影が計算可能であり、より良い性能をもたらすことを示す。 さらに,小予算の反復であっても高い有効性を有する適応型PGDを提案する。 結果の$l_1$-APGDは、前の作業が $l_1$-robustness を過大評価していることを示す強力なホワイトボックス攻撃です。 敵の訓練に$l_1$-APGDを使用すると、SOTA $l_1$-robustnessで堅牢な分類器が得られる。 最後に、$l_1$-apgd と square attack を$l_1$ から $l_1$-autoattack に適応させることで、$[0,1]^d$ と交差する $l_1$-ball の脅威モデルの敵対的ロバスト性を確実に評価する。

We show that when taking into account also the image domain $[0,1]^d$, established $l_1$-projected gradient descent (PGD) attacks are suboptimal as they do not consider that the effective threat model is the intersection of the $l_1$-ball and $[0,1]^d$. We study the expected sparsity of the steepest descent step for this effective threat model and show that the exact projection onto this set is computationally feasible and yields better performance. Moreover, we propose an adaptive form of PGD which is highly effective even with a small budget of iterations. Our resulting $l_1$-APGD is a strong white box attack showing that prior work overestimated their $l_1$-robustness. Using $l_1$-APGD for adversarial training we get a robust classifier with SOTA $l_1$-robustness. Finally, we combine $l_1$-APGD and an adaptation of the Square Attack to $l_1$ into $l_1$-AutoAttack, an ensemble of attacks which reliably assesses adversarial robustness for the threat model of $l_1$-ball intersected with $[0,1]^d$.
翻訳日:2021-03-03 17:12:02 公開日:2021-03-01
# 実世界のポイントクラウドからのスケーラブルなシーンフロー

Scalable Scene Flow from Point Clouds in the Real World ( http://arxiv.org/abs/2103.01306v1 )

ライセンス: Link先を確認
Philipp Jund, Chris Sweeney, Nichola Abdo, Zhifeng Chen, Jonathon Shlens(参考訳) 自動運転車は、非常にダイナミックな環境で動作し、シーンのどの側面が動いているのか、どこに移動するのかを正確に評価する必要がある。 シーンフローと呼ばれる3Dモーション推定の一般的なアプローチは、連続するLiDARスキャンから3Dポイントクラウドデータを採用することであるが、そのようなアプローチは実際のLiDARデータの小さなサイズによって制限されている。 本稿では,waymo open datasetに基づくシーンフローのための新しい大規模ベンチマークを提案する。 データセットは、注釈付きフレームの数の観点から、以前の現実世界のデータセットよりも$\sim$1,000$\times$大きく、対応する追跡された3Dオブジェクトから導出される。 我々は,従来の作業が実際のLiDARデータの量に基づいてバウンドされていることを実証し,最先端の予測性能を達成するためにはより大きなデータセットが必要であることを示唆した。 さらに, 従来, ダウンサンプリングによる性能低下など, ポイントクラウド上での動作に関するヒューリスティックスが, フルポイントクラウド上でのトラクタブルな新たなモデルの動機となっていることを示す。 この問題に対処するために、フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャ \modelname~を紹介します。 最後に,この問題は,ラベルなし物体の運動を予測する手法を一般化するためのオープン問題を強調することで,半教師付き学習の手法に適応できることを実証する。 このデータセットが、現実世界のシーンフローシステムの開発と、新しい機械学習問題への動機付けに新たな機会を提供することを期待している。

Autonomous vehicles operate in highly dynamic environments necessitating an accurate assessment of which aspects of a scene are moving and where they are moving to. A popular approach to 3D motion estimation -- termed scene flow -- is to employ 3D point cloud data from consecutive LiDAR scans, although such approaches have been limited by the small size of real-world, annotated LiDAR data. In this work, we introduce a new large scale benchmark for scene flow based on the Waymo Open Dataset. The dataset is $\sim$1,000$\times$ larger than previous real-world datasets in terms of the number of annotated frames and is derived from the corresponding tracked 3D objects. We demonstrate how previous works were bounded based on the amount of real LiDAR data available, suggesting that larger datasets are required to achieve state-of-the-art predictive performance. Furthermore, we show how previous heuristics for operating on point clouds such as artificial down-sampling heavily degrade performance, motivating a new class of models that are tractable on the full point cloud. To address this issue, we introduce the model architecture \modelname~that provides real time inference on the full point cloud. Finally, we demonstrate that this problem is amenable to techniques from semi-supervised learning by highlighting open problems for generalizing methods for predicting motion on unlabeled objects. We hope that this dataset may provide new opportunities for developing real world scene flow systems and motivate a new class of machine learning problems.
翻訳日:2021-03-03 17:11:34 公開日:2021-03-01
# Few-Shot Learningのための不変および同変表現の相補的強度の探索

Exploring Complementary Strengths of Invariant and Equivariant Representations for Few-Shot Learning ( http://arxiv.org/abs/2103.01315v1 )

ライセンス: Link先を確認
Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah(参考訳) 多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。 FSL(Few-shot Learning)はこの問題に対処する主要なアプローチであり、少数のサンプルが存在する場合、新しいカテゴリに迅速に適応することが目的である。 FSLタスクは、勾配に基づくメタラーニングとメトリックラーニングのアプローチのアイデアを活用することで、主に解決されてきた。 しかし、最近の研究では、既存の高度なFSLアルゴリズムを上回るシンプルな埋め込みネットワークにより、強力な機能表現の重要性が実証されている。 本研究は, この知見に基づいて, 幾何変換の一般集合に対する等分散と不変性を同時に実施する, 新たな学習機構を提案する。 等価性や不変性は、以前の作品では単独で採用されてきたが、私たちの知る限りでは、これらは共同で使用されていない。 これら両方の対比目的の同時最適化により、モデルは入力変換から独立しているだけでなく、幾何学的変換の構造をエンコードする特徴を共同で学習することができる。 これらの補完的な機能のセットは、少数のデータサンプルだけで新しいクラスを一般化するのに役立ちます。 我々は,新しい自己監督蒸留目的を組み込むことにより,さらなる改良を図る。 提案手法は,5つのベンチマークデータセットにおいて,現在最先端のfsl法を上回ることができることを示す。

In many real-world problems, collecting a large number of labeled samples is infeasible. Few-shot learning (FSL) is the dominant approach to address this issue, where the objective is to quickly adapt to novel categories in presence of a limited number of samples. FSL tasks have been predominantly solved by leveraging the ideas from gradient-based meta-learning and metric learning approaches. However, recent works have demonstrated the significance of powerful feature representations with a simple embedding network that can outperform existing sophisticated FSL algorithms. In this work, we build on this insight and propose a novel training mechanism that simultaneously enforces equivariance and invariance to a general set of geometric transformations. Equivariance or invariance has been employed standalone in the previous works; however, to the best of our knowledge, they have not been used jointly. Simultaneous optimization for both of these contrasting objectives allows the model to jointly learn features that are not only independent of the input transformation but also the features that encode the structure of geometric transformations. These complementary sets of features help generalize well to novel classes with only a few data samples. We achieve additional improvements by incorporating a novel self-supervised distillation objective. Our extensive experimentation shows that even without knowledge distillation our proposed method can outperform current state-of-the-art FSL methods on five popular benchmark datasets.
翻訳日:2021-03-03 17:11:09 公開日:2021-03-01
# 推薦システムにおけるホットエンベディング活用による高性能トレーニング

High-Performance Training by Exploiting Hot-Embeddings in Recommendation Systems ( http://arxiv.org/abs/2103.00686v1 )

ライセンス: Link先を確認
Muhammad Adnan, Yassaman Ebrahimzadeh Maboud, Divya Mahajan, Prashant J. Nair(参考訳) 推奨モデルは、電子商取引およびオンライン広告ベースのアプリケーションのためにユーザーに関連アイテムを提案する一般的な学習モデルです。 現在の推奨モデルには、ディープラーニングベース(DLRM)と時間ベースシーケンス(TBSM)モデルがある。 これらのモデルは、巨大な埋め込みテーブルを使用して、アイテムとユーザのカテゴリ変数(メモリバウンド)の数値表現を格納し、ニューラルネットワークを使用して出力(計算バウンド)を生成する。 これらの競合する計算とメモリの要求のため、レコメンデーションモデルのトレーニングプロセスはそれぞれ、組み込みとニューラルネットワークの実行のためのCPUとGPUに分割される。 このようなトレーニングプロセスは、各埋め込みエントリに同じレベルの重要度を鼻で割り当てる。 本稿では,いくつかの学習入力とその埋め込みテーブルへのアクセスが,最大10000倍以上のエントリがアクセスされることで大きく歪んでいることを観察する。 本稿では、スキューテーブルアクセスを活用して、トレーニング中にGPUリソースを効率的に活用する。 そこで本稿では,gpuメモリ容量と入力人気指数に基づいて動的ノブをソフトウェアに公開する,頻繁にアクセスされる組込み(fae)フレームワークを提案する。 このフレームワークは、GPU内の埋め込みテーブルのホット部分のサイズを効率的に見積もり、変更し、残りの埋め込みをCPUに再配置します。 全体として、我々のフレームワークは、Intel-Xeon CPUとNvidia Tesla-V100 GPUを使用するベースラインと比較して、Kaggle、Terabyte、Alibabaデータセットの推奨モデルのトレーニングを2.34倍高速化し、精度を維持しています。

Recommendation models are commonly used learning models that suggest relevant items to a user for e-commerce and online advertisement-based applications. Current recommendation models include deep-learning-based (DLRM) and time-based sequence (TBSM) models. These models use massive embedding tables to store a numerical representation of item's and user's categorical variables (memory-bound) while also using neural networks to generate outputs (compute-bound). Due to these conflicting compute and memory requirements, the training process for recommendation models is divided across CPU and GPU for embedding and neural network executions, respectively. Such a training process naively assigns the same level of importance to each embedding entry. This paper observes that some training inputs and their accesses into the embedding tables are heavily skewed with certain entries being accessed up to 10000x more. This paper tries to leverage skewed embedded table accesses to efficiently use the GPU resources during training. To this end, this paper proposes a Frequently Accessed Embeddings (FAE) framework that exposes a dynamic knob to the software based on the GPU memory capacity and the input popularity index. This framework efficiently estimates and varies the size of the hot portions of the embedding tables within GPUs and reallocates the rest of the embeddings on the CPU. Overall, our framework speeds-up the training of the recommendation models on Kaggle, Terabyte, and Alibaba datasets by 2.34x as compared to a baseline that uses Intel-Xeon CPUs and Nvidia Tesla-V100 GPUs, while maintaining accuracy.
翻訳日:2021-03-03 17:02:43 公開日:2021-03-01
# 深部強化学習による超音波プローブの標準走査面への自律ナビゲーション

Autonomous Navigation of an Ultrasound Probe Towards Standard Scan Planes with Deep Reinforcement Learning ( http://arxiv.org/abs/2103.00718v1 )

ライセンス: Link先を確認
Keyu Li, Jian Wang, Yangxin Xu, Hao Qin, Dongsheng Liu, Li Liu, Max Q.-H. Meng(参考訳) 自律超音波(US)の取得は、非常に複雑で可変的な画像とその空間関係の解釈を含むため、重要かつ困難な作業です。 本研究では,実世界のusスキャンの制約下で標準スキャンプレーンに向かってナビゲートするために,リアルタイム画像フィードバックに基づいて,仮想usプローブの6次元ポーズを自律的に制御する深層強化学習フレームワークを提案する。 さらに,学習過程における画像品質の最適化を符号化する信頼度に基づく手法を提案する。 本手法は,米国の脊椎イメージングで収集した実世界データを用いて構築したシミュレーション環境で検証した。 実験の結果, 本手法は, 標準スキャンプレーンに対して, 患者内設定で4.91mm/4.65^\circ$の精度で再現可能なusプローブナビゲーションを行い, 患者内および患者間におけるタスクをそれぞれ9.2\%$および4.6\%$で達成できることが判明した。 また,本手法における画像品質最適化の導入により,ナビゲーション性能を効果的に改善できることを示した。

Autonomous ultrasound (US) acquisition is an important yet challenging task, as it involves interpretation of the highly complex and variable images and their spatial relationships. In this work, we propose a deep reinforcement learning framework to autonomously control the 6-D pose of a virtual US probe based on real-time image feedback to navigate towards the standard scan planes under the restrictions in real-world US scans. Furthermore, we propose a confidence-based approach to encode the optimization of image quality in the learning process. We validate our method in a simulation environment built with real-world data collected in the US imaging of the spine. Experimental results demonstrate that our method can perform reproducible US probe navigation towards the standard scan plane with an accuracy of $4.91mm/4.65^\circ$ in the intra-patient setting, and accomplish the task in the intra- and inter-patient settings with a success rate of $92\%$ and $46\%$, respectively. The results also show that the introduction of image quality optimization in our method can effectively improve the navigation performance.
翻訳日:2021-03-03 17:02:19 公開日:2021-03-01
# ルールセットの視覚化:設計空間の探索と検証

Visualizing Rule Sets: Exploration and Validation of a Design Space ( http://arxiv.org/abs/2103.01022v1 )

ライセンス: Link先を確認
Jun Yuan, Oded Nov, Enrico Bertini(参考訳) ルールセットは、透明性と知性が必要な設定でモデルロジックを伝える手段として、機械学習(ML)でよく使用される。 ルールセットは通常、論理文(ルール)のテキストベースのリストとして表示される。 驚いたことに、これまでルールを提示するための視覚的な代替方法を探求する作業は限られていた。 本論文では,ルールの可読性や理解にポジティブな影響を与えると思われる視覚的要因に焦点をあてて,ルールの代替表現を設計するアイデアを検討する。 本稿では,ルールセットを視覚化するための初期設計空間と,その影響を探索するユーザスタディを提案する。 その結果, 設計要因のいくつかは, 精度への影響を最小限に抑えつつ, 読者がいかに効率的にルールを処理できるかに強い影響を与えていることがわかった。 この作業は、ルールをコミュニケーション戦略として使用してMLモデルを理解する際に、実践者がより効果的なソリューションを採用するのに役立ちます。

Rule sets are often used in Machine Learning (ML) as a way to communicate the model logic in settings where transparency and intelligibility are necessary. Rule sets are typically presented as a text-based list of logical statements (rules). Surprisingly, to date there has been limited work on exploring visual alternatives for presenting rules. In this paper, we explore the idea of designing alternative representations of rules, focusing on a number of visual factors we believe have a positive impact on rule readability and understanding. The paper presents an initial design space for visualizing rule sets and a user study exploring their impact. The results show that some design factors have a strong impact on how efficiently readers can process the rules while having minimal impact on accuracy. This work can help practitioners employ more effective solutions when using rules as a communication strategy to understand ML models.
翻訳日:2021-03-03 17:01:57 公開日:2021-03-01
# 複合データ駆動モデルの多目的進化設計

Multi-Objective Evolutionary Design of CompositeData-Driven Models ( http://arxiv.org/abs/2103.01301v1 )

ライセンス: Link先を確認
Iana S. Polonskaia, Nikolay O. Nikitin, Ilia Revin, Pavel Vychuzhanin, Anna V. Kalyuzhnaya(参考訳) 本稿では,複合データ駆動数理モデルの設計のための多目的アプローチを提案する。 機械学習モデル、データ前処理ブロックなど、異なるブロックで構成されるグラフベースの異種パイプラインの識別を自動化できます。 この手法はGPComp@Freeと呼ばれるモデル設計のためのパラメータフリーな遺伝的アルゴリズム(GA)に基づいている。 自動機械学習ソリューションの一部であり、モデリングパイプラインの自動化の効率を高めるために開発されています。 提案手法の正しさと効率性を検証し, 選択解を検証するための一連の実験を行った。 実験結果から, モデル設計に対する多目的アプローチにより, 得られたモデルの多様性と品質が向上することが確認された。 実装されたアプローチは、オープンソースのAutoMLフレームワークFEDOTの一部として利用できる。

In this paper, a multi-objective approach for the design of composite data-driven mathematical models is proposed. It allows automating the identification of graph-based heterogeneous pipelines that consist of different blocks: machine learning models, data preprocessing blocks, etc. The implemented approach is based on a parameter-free genetic algorithm (GA) for model design called GPComp@Free. It is developed to be part of automated machine learning solutions and to increase the efficiency of the modeling pipeline automation. A set of experiments was conducted to verify the correctness and efficiency of the proposed approach and substantiate the selected solutions. The experimental results confirm that a multi-objective approach to the model design allows achieving better diversity and quality of obtained models. The implemented approach is available as a part of the open-source AutoML framework FEDOT.
翻訳日:2021-03-03 17:01:34 公開日:2021-03-01
# Inference Combinatorによる確率的プログラムの学習提案

Learning Proposals for Probabilistic Programs with Inference Combinators ( http://arxiv.org/abs/2103.00668v1 )

ライセンス: Link先を確認
Sam Stites, Heiko Zimmermann, Hao Wu, Eli Sennesh, Jan-Willem can de Meent(参考訳) 推論コンビネーター(inference combinator)と呼ばれる確率的プログラムにおける提案の構築のためのオペレータを開発しています。 推論コンビネータは、遷移核の適用や重要再サンプリングといったプリミティブ演算を構成する重要スペーサよりも文法を定義する。 これらのサンプラーの提案はニューラルネットワークを使ってパラメータ化することができ、変動目標を最適化することでトレーニングすることができる。 その結果、ユーザプログラマブルな変分法のためのフレームワークが構築によって修正され、特定のモデルに合わせることができる。 我々は,このフレームワークの柔軟性を,償却ギブスサンプリングとアニーリングに基づく高度な変分法に適用する。

We develop operators for construction of proposals in probabilistic programs, which we refer to as inference combinators. Inference combinators define a grammar over importance samplers that compose primitive operations such as application of a transition kernels and importance resampling. Proposals in these samplers can be parameterized using neural networks, which in turn can be trained by optimizing variational objectives. The result is a framework for user-programmable variational methods that are correct by construction and can be tailored to specific models. We demonstrate the flexibility of this framework in applications to advanced variational methods based on amortized Gibbs sampling and annealing.
翻訳日:2021-03-03 16:59:47 公開日:2021-03-01
# 電力消費予測のためのパネル半パラメトリック量子回帰ニューラルネットワーク

Panel semiparametric quantile regression neural network for electricity consumption forecasting ( http://arxiv.org/abs/2103.00711v1 )

ライセンス: Link先を確認
Xingcai Zhou and Jiangyan Wang(参考訳) 中国は、改革と開放の長期的な深化の中で、電力産業で大きな成果を上げている。 しかし、複雑な地域経済、社会、自然条件、電力資源は均等に分配されておらず、中国の一部の地域では電気不足の原因となっている。 堅牢な電気予測モデルを開発することが望ましい。 そこで我々は,人工ニューラルネットワークと半パラメトリック量子回帰を利用して,パネル半パラメトリック量子回帰ニューラルネットワーク(PSQRNN)を提案する。 PSQRNNは変数間の潜在的な線形および非線形関係を探索し、観測されていない地域の異質性を解釈し、パラメトリックモデルの解釈可能性を同時に維持することができる。 そしてPSQRNNは、ペナル化量子レグレッションとLASSO、リッジレグレッション、バックプロパゲーションアルゴリズムを組み合わせることで訓練される。 予測精度を評価するため,1999年から2018年にかけて中国の地方電力消費を3つのシナリオに基づいて分析する実験的検討を行った。 その結果,psqrnnモデルは,経済・気候要因を考慮し,電力消費予測に有効であることがわかった。 最後に、中国における次の5ドル(2019-2023年)の省電力消費が予測されている。

China has made great achievements in electric power industry during the long-term deepening of reform and opening up. However, the complex regional economic, social and natural conditions, electricity resources are not evenly distributed, which accounts for the electricity deficiency in some regions of China. It is desirable to develop a robust electricity forecasting model. Motivated by which, we propose a Panel Semiparametric Quantile Regression Neural Network (PSQRNN) by utilizing the artificial neural network and semiparametric quantile regression. The PSQRNN can explore a potential linear and nonlinear relationships among the variables, interpret the unobserved provincial heterogeneity, and maintain the interpretability of parametric models simultaneously. And the PSQRNN is trained by combining the penalized quantile regression with LASSO, ridge regression and backpropagation algorithm. To evaluate the prediction accuracy, an empirical analysis is conducted to analyze the provincial electricity consumption from 1999 to 2018 in China based on three scenarios. From which, one finds that the PSQRNN model performs better for electricity consumption forecasting by considering the economic and climatic factors. Finally, the provincial electricity consumptions of the next $5$ years (2019-2023) in China are reported by forecasting.
翻訳日:2021-03-03 16:59:37 公開日:2021-03-01
# CogDL: グラフのディープラーニングのための拡張ツールキット

CogDL: An Extensive Toolkit for Deep Learning on Graphs ( http://arxiv.org/abs/2103.00959v1 )

ライセンス: Link先を確認
Yukuo Cen, Zhenyu Hou, Yan Wang, Qibin Chen, Yizhen Luo, Xingcheng Yao, Aohan Zeng, Shiguang Guo, Peng Zhang, Guohao Dai, Yu Wang, Chang Zhou, Hongxia Yang, Jie Tang(参考訳) グラフ表現学習は、グラフの低次元ノード埋め込みを学ぶことを目的としている。 ソーシャルネットワーク分析や大規模リコメンデータシステムなど、現実のいくつかのアプリケーションで使用されている。 本論文では,研究者や開発者が容易に実験やアプリケーション構築を行うことができるグラフの深層学習のための広範な研究ツールキットであるCogDLについて紹介する。 ノード分類、リンク予測、グラフ分類、その他のグラフタスクを含む、グラフ領域で最も重要なタスクに対する標準的なトレーニングと評価を提供する。 各タスクに対して、最先端モデルの実装を提供する。 我々のツールキットのモデルは、グラフ埋め込み法とグラフニューラルネットワークの2つの主要な部分に分けられる。 グラフ埋め込みメソッドのほとんどは、ノードレベルまたはグラフレベルの表現を監視されていない方法で学習し、構造情報などのグラフプロパティを保存し、グラフニューラルネットワークはノードの特徴をキャプチャし、半監視または自己監視設定で動作します。 私たちのツールキットで実装されたすべてのモデルは、リーダーボードの結果を簡単に再現できます。 CogDLのほとんどのモデルはPyTorch上に開発されており、ユーザーはPyTorchの利点を利用して独自のモデルを実装することができる。 さらに、大規模な学術データベースとシステムであるAMinerにおける実世界のアプリケーションに対するCogDLの有効性を実証する。

Graph representation learning aims to learn low-dimensional node embeddings for graphs. It is used in several real-world applications such as social network analysis and large-scale recommender systems. In this paper, we introduce CogDL, an extensive research toolkit for deep learning on graphs that allows researchers and developers to easily conduct experiments and build applications. It provides standard training and evaluation for the most important tasks in the graph domain, including node classification, link prediction, graph classification, and other graph tasks. For each task, it offers implementations of state-of-the-art models. The models in our toolkit are divided into two major parts, graph embedding methods and graph neural networks. Most of the graph embedding methods learn node-level or graph-level representations in an unsupervised way and preserves the graph properties such as structural information, while graph neural networks capture node features and work in semi-supervised or self-supervised settings. All models implemented in our toolkit can be easily reproducible for leaderboard results. Most models in CogDL are developed on top of PyTorch, and users can leverage the advantages of PyTorch to implement their own models. Furthermore, we demonstrate the effectiveness of CogDL for real-world applications in AMiner, which is a large academic database and system.
翻訳日:2021-03-03 16:59:17 公開日:2021-03-01
# 高次元変分推論の挑戦と機会

Challenges and Opportunities in High-dimensional Variational Inference ( http://arxiv.org/abs/2103.01085v1 )

ライセンス: Link先を確認
Akash Kumar Dhaka, Alejandro Catalina, Manushi Welandawe, Michael Riis Andersen, Jonathan Huggins, Aki Vehtari(参考訳) 本稿では,ブラックボックス変分推論を用いたモデルパラメータの後方要約推定の限界とベストプラクティスについて検討する。 By taking an importance sampling perspective, we are able to explain and empirically demonstrate: 1) why the intuitions about the behavior of approximate families and divergences for low-dimensional posteriors fail for higher-dimensional posteriors, 2) how we can diagnose the pre-asymptotic reliability of variational inference in practice by examining the behavior of the density ratios (i.e., importance weights), 3) why the choice of variational objective is not as relevant for higher-dimensional posteriors, and 4) why, although flexible variational families can provide some benefits in higher dimensions, they also introduce additional optimization challenges. これらの知見に基づき, 高次元後方では, 最適化が最も容易かつ安定な排他的KL偏差を用いた上で, 変分族の改善やモデルパラメータ変換による近似族との類似性を高めることに注力することを推奨する。 また,低次元から中等次元では重尾の変動族や集団被覆の分岐が重要サンプリングによって近似を改善できる可能性が示唆された。

We explore the limitations of and best practices for using black-box variational inference to estimate posterior summaries of the model parameters. By taking an importance sampling perspective, we are able to explain and empirically demonstrate: 1) why the intuitions about the behavior of approximate families and divergences for low-dimensional posteriors fail for higher-dimensional posteriors, 2) how we can diagnose the pre-asymptotic reliability of variational inference in practice by examining the behavior of the density ratios (i.e., importance weights), 3) why the choice of variational objective is not as relevant for higher-dimensional posteriors, and 4) why, although flexible variational families can provide some benefits in higher dimensions, they also introduce additional optimization challenges. Based on these findings, for high-dimensional posteriors we recommend using the exclusive KL divergence that is most stable and easiest to optimize, and then focusing on improving the variational family or using model parameter transformations to make the posterior more similar to the approximating family. Our results also show that in low to moderate dimensions, heavy-tailed variational families and mass-covering divergences can increase the chances that the approximation can be improved by importance sampling.
翻訳日:2021-03-03 16:58:57 公開日:2021-03-01
# 早期退行決定機構としてのクラス平均

Class Means as an Early Exit Decision Mechanism ( http://arxiv.org/abs/2103.01148v1 )

ライセンス: Link先を確認
Alperen Gormez and Erdem Koyuncu(参考訳) 初期のエグジット機構を持つ最先端のニューラルネットワークは、計算コストの低い優れたパフォーマンスを達成するために、かなりの量のトレーニングと微調整を必要とする。 本稿では,サンプルの類型的手法に基づく新しい早期出口手法を提案する。 既存のほとんどのスキームとは異なり、我々の手法は内部分類器の勾配に基づく訓練を必要としない。 これにより、無線エッジネットワークのように低消費電力デバイスでのニューラルネットワークトレーニングに特に有用である。 特に,一定のトレーニング時間予算が与えられると,既存の早期脱出機構と比較して高い精度が得られる。 さらに、トレーニング時間予算に制限がない場合、既存の早期終了方式と組み合わせて性能を向上し、計算コストとネットワーク精度のトレードオフを改善することができる。

State-of-the-art neural networks with early exit mechanisms often need considerable amount of training and fine-tuning to achieve good performance with low computational cost. We propose a novel early exit technique based on the class means of samples. Unlike most existing schemes, our method does not require gradient-based training of internal classifiers. This makes our method particularly useful for neural network training in low-power devices, as in wireless edge networks. In particular, given a fixed training time budget, our scheme achieves higher accuracy as compared to existing early exit mechanisms. Moreover, if there are no limitations on the training time budget, our method can be combined with an existing early exit scheme to boost its performance, achieving a better trade-off between computational cost and network accuracy.
翻訳日:2021-03-03 16:58:39 公開日:2021-03-01
# フラクタル学習率スケジューリングによる加速

Acceleration via Fractal Learning Rate Schedules ( http://arxiv.org/abs/2103.01338v1 )

ライセンス: Link先を確認
Naman Agarwal, Surbhi Goel, Cyril Zhang(参考訳) 大規模最適化のための反復的手法の実践的トレードオフのバランスをとる場合、学習率のスケジュールは理解が困難であり、チューニングに費用がかかることが知られている。 目的が凸二次的である場合の無害な場合であっても、これらの微妙さの存在を実証する。 数値解析文献からの反復アルゴリズムをバニラ勾配降下を加速するためのChebyshev学習率スケジュールとして再解釈し、不安定性を緩和する問題はステップサイズのフラクタル順序付けにつながることを示した。 深層学習における「安定性の最先端」に対する現在の理解に挑戦するための実験と議論について述べる: 単純な設定であっても、目標に対して負の局所的進歩を行うことで、証明可能な加速が得られる。

When balancing the practical tradeoffs of iterative methods for large-scale optimization, the learning rate schedule remains notoriously difficult to understand and expensive to tune. We demonstrate the presence of these subtleties even in the innocuous case when the objective is a convex quadratic. We reinterpret an iterative algorithm from the numerical analysis literature as what we call the Chebyshev learning rate schedule for accelerating vanilla gradient descent, and show that the problem of mitigating instability leads to a fractal ordering of step sizes. We provide some experiments and discussion to challenge current understandings of the "edge of stability" in deep learning: even in simple settings, provable acceleration can be obtained by making negative local progress on the objective.
翻訳日:2021-03-03 16:58:29 公開日:2021-03-01
# gebt: グラフ畳み込みネットワークトレーニングで早期チケットを描画する

GEBT: Drawing Early-Bird Tickets in Graph Convolutional Network Training ( http://arxiv.org/abs/2103.00794v1 )

ライセンス: Link先を確認
Haoran You, Zhihan Lu, Zijian Zhou, Yingyan Lin(参考訳) graph convolutional networks(gcns)は、グラフ上の表現学習のための最先端のディープラーニングモデルとして登場した。 しかし、大規模なグラフデータセット上のGCNのトレーニングと推論は、大きな実世界のグラフへの適用を制限し、より深く、より洗練されたGCNグラフの探索を妨げることでも有名です。 これは、グラフのサイズが大きくなるにつれて、ノードの多数の特徴と大きな隣接行列が要求されるメモリとデータの動きを簡単に爆発させることができるためである。 前述の課題に取り組むために、GCNグラフをスパースする際に宝くじを描画する可能性を探ります。すなわち、隣接行列を大幅に縮小するが、対応するフルグラフと同等以上の精度を達成できるサブグラフです。 具体的には,GCNグラフをスパシライズする際,ごく初期段階に出現するグラフアーリーバード(GEB)チケットの存在を初めて発見し,GABチケットの出現を自動的に識別する簡易かつ効果的な検出器を提案する。 さらに,GEBTと呼ばれる汎用的なGCNトレーニングフレームワークを開発し,(1)GCNグラフとモデル間で早期バードチケットを共同で描画し,(2)GCNグラフとモデルを同時に分散させることにより,実世界のグラフデータセットを扱うための大規模GCNグラフのトレーニングと推論の方法を確立することにより,GCNトレーニングの効率を大幅に向上させることができる。 様々なGCNモデルとデータセットの実験は、GEBTのGEB発見と効果を一貫して検証し、例えば、GEBTは80.2% 〜85.6%、84.6% ~87.5%のGCNトレーニングと推論コストを削減し、最先端の手法と同等またはそれ以上の精度を実現した。 https://github.com/R ICE-EIC/GEBT

Graph Convolutional Networks (GCNs) have emerged as the state-of-the-art deep learning model for representation learning on graphs. However, it remains notoriously challenging to train and inference GCNs over large graph datasets, limiting their application to large real-world graphs and hindering the exploration of deeper and more sophisticated GCN graphs. This is because as the graph size grows, the sheer number of node features and the large adjacency matrix can easily explode the required memory and data movements. To tackle the aforementioned challenge, we explore the possibility of drawing lottery tickets when sparsifying GCN graphs, i.e., subgraphs that largely shrink the adjacency matrix yet are capable of achieving accuracy comparable to or even better than their corresponding full graphs. Specifically, we for the first time discover the existence of graph early-bird (GEB) tickets that emerge at the very early stage when sparsifying GCN graphs, and propose a simple yet effective detector to automatically identify the emergence of such GEB tickets. Furthermore, we develop a generic efficient GCN training framework dubbed GEBT that can significantly boost the efficiency of GCN training by (1) drawing joint early-bird tickets between the GCN graphs and models and (2) enabling simultaneously sparsifying both GCN graphs and models, paving the way for training and inferencing large GCN graphs to handle real-world graph datasets. Experiments on various GCN models and datasets consistently validate our GEB finding and the effectiveness of our GEBT, e.g., our GEBT achieves up to 80.2% ~ 85.6% and 84.6% ~ 87.5% savings of GCN training and inference costs while leading to a comparable or even better accuracy as compared to state-of-the-art methods. Code available at https://github.com/R ICE-EIC/GEBT
翻訳日:2021-03-03 16:55:51 公開日:2021-03-01
# Panoramic Panoptic Segmentation: Unsupervised Contrastive Learning による全周理解に向けて

Panoramic Panoptic Segmentation: Towards Complete Surrounding Understanding via Unsupervised Contrastive Learning ( http://arxiv.org/abs/2103.00868v1 )

ライセンス: Link先を確認
Alexander Jaus, Kailun Yang, Rainer Stiefelhagen(参考訳) 本研究では,パノラマパオプティックセグメンテーション(panoptic segmentation)を,視野と画像レベルの理解の両面で最も総合的なシーン理解として導入する。 周囲の完全な理解はエージェントに最大限の情報を提供するが、これは現実世界の交通のような安全クリティカルな動的環境において情報的決定を行うために、あらゆるインテリジェントな車両に不可欠である。 注釈付きパノラマ画像の欠如を克服するために,標準ピンホール画像のモデルトレーニングと学習機能の異なるドメインへの転送を可能にするフレームワークを提案する。 提案手法を用いて,野生パノラマパノラマセグメンテーション(WildPPS)データセット上の非適応モデルに対して,PQで測定した5\%以上の大幅な改善を達成した。 提案するPanoramic Robust Feature (PRF) フレームワークは,パノラマ画像のパフォーマンス向上に適しただけでなく,異なる分布から取得したデータ上でモデルトレーニングやデプロイメントを実行する場合にも有効であることを示す。 追加の貢献としてwildpps: the first panoramic panoptic image datasetを出版し、周囲の知覚の進歩を促進する。

In this work, we introduce panoramic panoptic segmentation as the most holistic scene understanding both in terms of field of view and image level understanding. A complete surrounding understanding provides a maximum of information to the agent, which is essential for any intelligent vehicle in order to make informed decisions in a safety-critical dynamic environment such as real-world traffic. In order to overcome the lack of annotated panoramic images, we propose a framework which allows model training on standard pinhole images and transfers the learned features to a different domain. Using our proposed method, we manage to achieve significant improvements of over 5\% measured in PQ over non-adapted models on our Wild Panoramic Panoptic Segmentation (WildPPS) dataset. We show that our proposed Panoramic Robust Feature (PRF) framework is not only suitable to improve performance on panoramic images but can be beneficial whenever model training and deployment are executed on data taken from different distributions. As an additional contribution, we publish WildPPS: The first panoramic panoptic image dataset to foster progress in surrounding perception.
翻訳日:2021-03-03 16:55:15 公開日:2021-03-01
# DR-TANet:街路変化検出のための動的受容時間注意ネットワーク

DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection ( http://arxiv.org/abs/2103.00879v1 )

ライセンス: Link先を確認
Shuo Chen, Kailun Yang, Rainer Stiefelhagen(参考訳) ストリートシーン変化の検出は、コンピュータビジョンコミュニティにおける研究者の関心を捉え続けている。 異なる時間に撮影されたストリートビュー画像の変化領域を特定することを目的としている。 エンコーダ・デコーダアーキテクチャに基づく最先端ネットワークは、2つのチャネル間の対応するレベルの特徴マップを利用して、変更の十分な情報を取得する。 それでも、特徴抽出の効率、特徴相関計算、ネットワーク全体においてもさらなる改善が必要となる。 本稿では,時間的注意の提示と時間的注意の依存性スコープサイズが変化検出の性能に及ぼす影響について検討する。 さらに、TAM(Temporal Attention Module)に基づき、より効率的で軽量なDRTAM(Dynamic Receptive Temporal Attention Module)を導入し、特定の挑戦的エンティティ上でのネットワークの正確性を改善するために、CHVA(Concurrent Horizontal and Vertical Attention)を提案する。 ストリートシーンのデータセット「GSV」「TSUNAMI」「VL-CMU-CD」では、優れた性能を発揮し、ベルやホイッスルのない最新のスコアを確立し、自動運転車に適用可能な高効率を維持します。

Street scene change detection continues to capture researchers' interests in the computer vision community. It aims to identify the changed regions of the paired street-view images captured at different times. The state-of-the-art network based on the encoder-decoder architecture leverages the feature maps at the corresponding level between two channels to gain sufficient information of changes. Still, the efficiency of feature extraction, feature correlation calculation, even the whole network requires further improvement. This paper proposes the temporal attention and explores the impact of the dependency-scope size of temporal attention on the performance of change detection. In addition, based on the Temporal Attention Module (TAM), we introduce a more efficient and light-weight version - Dynamic Receptive Temporal Attention Module (DRTAM) and propose the Concurrent Horizontal and Vertical Attention (CHVA) to improve the accuracy of the network on specific challenging entities. On street scene datasets `GSV', `TSUNAMI' and `VL-CMU-CD', our approach gains excellent performance, establishing new state-of-the-art scores without bells and whistles, while maintaining high efficiency applicable in autonomous vehicles.
翻訳日:2021-03-03 16:54:45 公開日:2021-03-01
# マクロホールのロバスト3次元Uネットセグメンテーション

Robust 3D U-Net Segmentation of Macular Holes ( http://arxiv.org/abs/2103.01299v1 )

ライセンス: Link先を確認
Jonathan Frawley, Chris G. Willcocks, Maged Habib, Caspar Geenen, David H. Steel and Boguslaw Obara(参考訳) 黄斑の穴は視覚障害をもたらす共通の目の状態です。 深層畳み込みニューラルネットワークの黄斑穴セグメンテーション問題への応用について考察する。 基礎として3D U-Netアーキテクチャを使用し、多くの設計のバリエーションを実験する。 手動で黄斑穴を注釈し測定するのは時間がかかり、エラーが発生しやすい。 以前のmacular hole segmentationの自動化アプローチでは、単一の3dスキャンのセグメント化に数分を要した。 提案モデルでは,1秒以内で精度の高いセグメンテーションを生成する。 ネットワーク容量と深さを大幅に簡素化することで、アーキテクチャの単純化のアプローチは、エキスパートのパフォーマンスと残留3D U-Netsなどの最先端のモデルの両方を上回っていることを発見しました。

Macular holes are a common eye condition which result in visual impairment. We look at the application of deep convolutional neural networks to the problem of macular hole segmentation. We use the 3D U-Net architecture as a basis and experiment with a number of design variants. Manually annotating and measuring macular holes is time consuming and error prone. Previous automated approaches to macular hole segmentation take minutes to segment a single 3D scan. Our proposed model generates significantly more accurate segmentations in less than a second. We found that an approach of architectural simplification, by greatly simplifying the network capacity and depth, exceeds both expert performance and state-of-the-art models such as residual 3D U-Nets.
翻訳日:2021-03-03 16:54:23 公開日:2021-03-01
# 目を見つめる以上のものがある:マルチモーダル知識を希釈した自己監督型マルチオブジェクト検出と音追跡

There is More than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking with Sound by Distilling Multimodal Knowledge ( http://arxiv.org/abs/2103.01353v1 )

ライセンス: Link先を確認
Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada(参考訳) オブジェクト固有の音の属性は、オブジェクトの検出と追跡のために豊富な表現を学ぶための貴重な手がかりを提供する。 さらに、映像における視聴覚イベントの共起を利用して、環境内の音だけを監視することで、画像フィールド上のオブジェクトをローカライズすることができる。 今のところこれは、カメラが静的で単一のオブジェクト検出のためのシナリオでしか実現できない。 さらに、これらの手法のロバスト性は、主に照明や天候変化の影響を受けやすいRGB画像に依存しているため、制限されている。 本研究では,RGB,深度,サーマルイメージなどの多様なモダリティを活用したマルチ教師による,補完的キューの活用と知識の蒸留を同時にひとつのオーディオ学生ネットワークに実現する,新しい自己監督型MM-DistillNetフレームワークを提案する。 本稿では,マルチモーダル教師からの情報を自己管理的に蒸留する新しいMTA損失関数を提案する。 また,音声学生に対して,労働集約的なマニュアルアノテーションを使わずに,自己教師付きプリテキストタスクを提案する。 RGB、深度、サーマル、オーディオの113,000以上の時間同期フレームを備えた大規模なマルチモーダルデータセットを紹介します。 広範な実験により,提案手法は,推論時や移動時においても複数の物体を検出できる一方で,最先端の手法よりも優れていることが証明された。

Attributes of sound inherent to objects can provide valuable cues to learn rich representations for object detection and tracking. Furthermore, the co-occurrence of audiovisual events in videos can be exploited to localize objects over the image field by solely monitoring the sound in the environment. Thus far, this has only been feasible in scenarios where the camera is static and for single object detection. Moreover, the robustness of these methods has been limited as they primarily rely on RGB images which are highly susceptible to illumination and weather changes. In this work, we present the novel self-supervised MM-DistillNet framework consisting of multiple teachers that leverage diverse modalities including RGB, depth and thermal images, to simultaneously exploit complementary cues and distill knowledge into a single audio student network. We propose the new MTA loss function that facilitates the distillation of information from multimodal teachers in a self-supervised manner. Additionally, we propose a novel self-supervised pretext task for the audio student that enables us to not rely on labor-intensive manual annotations. We introduce a large-scale multimodal dataset with over 113,000 time-synchronized frames of RGB, depth, thermal, and audio modalities. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods while being able to detect multiple objects using only sound during inference and even while moving.
翻訳日:2021-03-03 16:54:12 公開日:2021-03-01
# 自己監督型表現学習のためのコントラスト分離符号化

Contrastive Separative Coding for Self-supervised Representation Learning ( http://arxiv.org/abs/2103.00816v1 )

ライセンス: Link先を確認
Jun Wang, Max W. Y. Lam, Dan Su, Dong Yu(参考訳) 音声データの長期連続モデリングから堅牢な深度表現を抽出するために,自己監視型学習手法,すなわち対比分離符号化(CSC)を提案する。 我々の重要な発見は、対象信号と対照干渉信号とを分離して、そのような表現を学ぶことである。 First, a multi-task separative encoder is built to extract shared separable and discriminative embedding; secondly, we propose a powerful cross-attention mechanism performed over speaker representations across various interfering conditions, allowing the model to focus on and globally aggregate the most critical information to answer the "query" (current bottom-up embedding) while paying less attention to interfering, noisy, or irrelevant parts; lastly, we form a new probabilistic contrastive loss which estimates and maximizes the mutual information between the representations and the global speaker vector. 従来の教師なし手法は, 将来, 隣り合う, あるいは欠落するサンプルの予測に重点を置いてきたが, 干渉したサンプルの予測には異なる視点を採っている。 さらに, 対照的な分離損失は負のサンプリングを伴わない。 提案手法は, 話者検証性能の向上に寄与する有用な表現を, 悪条件下で学習できることを実証した。

To extract robust deep representations from long sequential modeling of speech data, we propose a self-supervised learning approach, namely Contrastive Separative Coding (CSC). Our key finding is to learn such representations by separating the target signal from contrastive interfering signals. First, a multi-task separative encoder is built to extract shared separable and discriminative embedding; secondly, we propose a powerful cross-attention mechanism performed over speaker representations across various interfering conditions, allowing the model to focus on and globally aggregate the most critical information to answer the "query" (current bottom-up embedding) while paying less attention to interfering, noisy, or irrelevant parts; lastly, we form a new probabilistic contrastive loss which estimates and maximizes the mutual information between the representations and the global speaker vector. While most prior unsupervised methods have focused on predicting the future, neighboring, or missing samples, we take a different perspective of predicting the interfered samples. Moreover, our contrastive separative loss is free from negative sampling. The experiment demonstrates that our approach can learn useful representations achieving a strong speaker verification performance in adverse conditions.
翻訳日:2021-03-03 16:52:47 公開日:2021-03-01
# Sandglasset: 時間領域の音声分離のための軽量多粒度自己アテンシブネットワーク

Sandglasset: A Light Multi-Granularity Self-attentive Network For Time-Domain Speech Separation ( http://arxiv.org/abs/2103.00819v1 )

ライセンス: Link先を確認
Max W. Y. Lam, Jun Wang, Dan Su, Dong Yu(参考訳) 主要な単一チャネル音声分離(SS)モデルの1つは、各セグメントのサイズがすべての層で変化しないデュアルパスセグメンテーション技術を備えたTasNetに基づいている。 対照的に、我々の重要な発見は、マルチグラニュラリティ機能が文脈モデリングと計算効率の向上に不可欠であるということである。 モデルサイズと計算コストを大幅に小さくして, 最先端(SOTA) SS性能を向上する, サンドグラス形状の新規なセルフアテンテートネットワークを提案する。 Sandglasset内の各ブロックに沿って進むと、機能の時間的粒度はネットワークブロックの半分に達するまで徐々に粗くなり、その後、生信号レベルに向かって細かくなります。 また,同一の粒度を持つ機能間の残差接続が,ボトルネック層を通過した後の情報保存に重要であることも明らかにした。 WSJ0-2mixとWSJ0-3mixの2つのベンチマークSSデータセットにおいて、SI-SNRiスコアがそれぞれ0.6 dBと2.4 dBで改善され、以前のSOTA結果と比較して、Sandglassetはわずか2.3Mパラメータで最高の結果を達成しています。

One of the leading single-channel speech separation (SS) models is based on a TasNet with a dual-path segmentation technique, where the size of each segment remains unchanged throughout all layers. In contrast, our key finding is that multi-granularity features are essential for enhancing contextual modeling and computational efficiency. We introduce a self-attentive network with a novel sandglass-shape, namely Sandglasset, which advances the state-of-the-art (SOTA) SS performance at significantly smaller model size and computational cost. Forward along each block inside Sandglasset, the temporal granularity of the features gradually becomes coarser until reaching half of the network blocks, and then successively turns finer towards the raw signal level. We also unfold that residual connections between features with the same granularity are critical for preserving information after passing through the bottleneck layer. Experiments show our Sandglasset with only 2.3M parameters has achieved the best results on two benchmark SS datasets -- WSJ0-2mix and WSJ0-3mix, where the SI-SNRi scores have been improved by absolute 0.6 dB and 2.4 dB, respectively, comparing to the prior SOTA results.
翻訳日:2021-03-03 16:52:29 公開日:2021-03-01
# 時空間医療データにおける潜在線形ダイナミクス

Latent linear dynamics in spatiotemporal medical data ( http://arxiv.org/abs/2103.00930v1 )

ライセンス: Link先を確認
Niklas Gunnarsson, Jens Sj\"olund and Thomas B. Sch\"on(参考訳) 時空間イメージングは医用画像において一般的であり、例えば、応用される。 心臓診断 外科的指導 放射線治療の監視 本稿では,シーケンシャルな画像のみに基づいて,システムの基盤となるダイナミクスを識別する教師なしモデルを提案する。 モデルは、入力を隠れ状態過程と観察された潜伏過程の間に線形関係が保たれる低次元潜伏空間にマッピングする。 システムダイナミクスの知識は、デノイジング、欠落値のインプテーション、将来の画像フレームの補間を可能にする。 本研究では,次元低減のための変分自動エンコーダ (VAE) と,潜在力学のための線形ガウス状態空間モデル (LGSSM) を用いる。 Kalman Variational Auto-Encoderとして知られているこのモデルは、エンドツーエンドのトレーニング可能であり、VAEとLSSSMの両方のウェイトは、限界ログの可能性の低い境界の証拠を最大化することによって同時に更新される。 心臓超音波時系列実験により, ダイナミックスを伴わない類似モデルよりも, ダイナミックスモデルの方が優れた再現性が得られることが示された。 そして、欠落したサンプルをインプットし、外挿する可能性もあります。

Spatiotemporal imaging is common in medical imaging, with applications in e.g. cardiac diagnostics, surgical guidance and radiotherapy monitoring. In this paper, we present an unsupervised model that identifies the underlying dynamics of the system, only based on the sequential images. The model maps the input to a low-dimensional latent space wherein a linear relationship holds between a hidden state process and the observed latent process. Knowledge of the system dynamics enables denoising, imputation of missing values and extrapolation of future image frames. We use a Variational Auto-Encoder (VAE) for the dimensionality reduction and a Linear Gaussian State Space Model (LGSSM) for the latent dynamics. The model, known as a Kalman Variational Auto-Encoder, is end-to-end trainable and the weights, both in the VAE and LGSSM, are simultaneously updated by maximizing the evidence lower bound of the marginal log likelihood. Our experiment, on cardiac ultrasound time series, shows that the dynamical model provide better reconstructions than a similar model without dynamics. And also possibility to impute and extrapolate for missing samples.
翻訳日:2021-03-03 16:50:19 公開日:2021-03-01
# 事前学習型言語モデルを用いた低リソース設定における長文文書要約

Long Document Summarization in a Low Resource Setting using Pretrained Language Models ( http://arxiv.org/abs/2103.00751v1 )

ライセンス: Link先を確認
Ahsaas Bajaj, Pavitra Dangati, Kalpesh Krishna, Pradhiksha Ashok Kumar, Rheeya Uppaal, Bradford Windsor, Eliot Brenner, Dominic Dotterrer, Rajarshi Das and Andrew McCallum(参考訳) 抽象要約は、長い文書を健全な情報を保持しながらコヒーレントな短い文書に圧縮する作業である。 現代の抽象要約法は、大きなトレーニングデータセットを必要とするディープニューラルネットワークに基づいている。 要約データセットの収集は高価で時間を要する作業であるため、実践的な産業環境は通常低リソースである。 本論文では, 平均ソース文書長4268語, 利用可能な120語 (文書, 要約) のみからなる, ロングリーガルブリーフを要約する, 難易度の高い低リソース設定について検討する。 データ不足を理由に、我々は17.9 ROUGE-Lを達成し、それは長い文書に苦労しながら、現代の事前訓練抽象要約BART(Lewis et al., 2020)を使用しました。 そこで我々は, GPT-2 (Radford et al., 2019) の言語モデルパープレキシティスコアに基づく新しいアルゴリズムを用いて, 要約を最良とするソース内の有能な文を同定することにより, これらの長い文書を圧縮しようとする。 圧縮された文書をBARTに送付すると,6.0ROUGE-Lの改善が観察される。 また,本手法は,いくつかの競合サリエンス検出基準線を破る。 さらに、特定された有能な文は、ドメインの専門家による独立した人間のラベル付けと一致する傾向にある。

Abstractive summarization is the task of compressing a long document into a coherent short document while retaining salient information. Modern abstractive summarization methods are based on deep neural networks which often require large training datasets. Since collecting summarization datasets is an expensive and time-consuming task, practical industrial settings are usually low-resource. In this paper, we study a challenging low-resource setting of summarizing long legal briefs with an average source document length of 4268 words and only 120 available (document, summary) pairs. To account for data scarcity, we used a modern pretrained abstractive summarizer BART (Lewis et al., 2020), which only achieves 17.9 ROUGE-L as it struggles with long documents. We thus attempt to compress these long documents by identifying salient sentences in the source which best ground the summary, using a novel algorithm based on GPT-2 (Radford et al., 2019) language model perplexity scores, that operates within the low resource regime. On feeding the compressed documents to BART, we observe a 6.0 ROUGE-L improvement. Our method also beats several competitive salience detection baselines. Furthermore, the identified salient sentences tend to agree with an independent human labeling by domain experts.
翻訳日:2021-03-03 16:48:49 公開日:2021-03-01
# マルチターン対話におけるユーザの満足度推定のためのデータ駆動アプローチ

A Data-driven Approach to Estimate User Satisfaction in Multi-turn Dialogues ( http://arxiv.org/abs/2103.01287v1 )

ライセンス: Link先を確認
Ziming Li and Dookun Park and Julia Kiseleva and Young-Bum Kim and Sungjin Lee(参考訳) マルチターン対話の評価は依然として困難です。 ユーザ満足度と対話レベルの経験をラベル付けする一般的なアプローチは、タスクの難しさを反映していない。 したがって、異なる複雑さレベルの2つのタスクに同じ経験スコアを割り当てることは誤解を招く。 各対話を独立して評価することを提案する別のアプローチは、対話による最終的なユーザー体験に対する各ターンの長期的な影響を無視します。 そこで我々は,対話に対するターンレベルの満足度を,文脈に敏感かつ長期的視点で推定する手法を開発した。 私たちのアプローチはデータ駆動で、簡単にパーソナライズできます。 ユーザと対話システム間の相互作用を予算消費設定を用いて定式化する。 ユーザーはタスクの複雑さに基づいて会話の最初の対話予算を持っていると仮定し、各対話ターンにはコストがかかります。 タスクが完了するか、予算が切れた場合には、ユーザはインタラクションをやめます。 シミュレーション対話プラットフォームと現実的な対話データセットを用いた広範囲な実験により,本手法の有効性を実証する。

The evaluation of multi-turn dialogues remains challenging. The common approach of labeling the user satisfaction with the experience on the dialogue level does not reflect the task's difficulty. Therefore assigning the same experience score to two tasks with different complexity levels is misleading. Another approach, which suggests evaluating each dialogue turn independently, ignores each turn's long-term influence over the final user experience with dialogue. We instead develop a new method to estimate the turn-level satisfaction for dialogue, which is context-sensitive and has a long-term view. Our approach is data-driven which makes it easily personalized. The interactions between users and dialogue systems are formulated using a budget consumption setup. We assume the user has an initial interaction budget for a conversation based on the task complexity, and each dialogue turn has a cost. When the task is completed or the budget has been run out, the user will quit the interaction. We demonstrate the effectiveness of our method by extensive experimentation with a simulated dialogue platform and a realistic dialogue dataset.
翻訳日:2021-03-03 16:48:26 公開日:2021-03-01
# ToxCCIn: 解釈可能な毒性コンテンツ分類

ToxCCIn: Toxic Content Classification with Interpretability ( http://arxiv.org/abs/2103.01328v1 )

ライセンス: Link先を確認
Tong Xiang, Sean MacAvaney, Eugene Yang, Nazli Goharian(参考訳) 近年、トランスフォーマーベースのモデルが様々なタスクの有効性で成功しているにもかかわらず、その決定はしばしば人間にとって不透明なままである。 ソーシャルメディア上での攻撃的言語や毒性の検出といったタスクでは、手動によるアピールプロセスが自動的にフラグ付けされたコンテンツに反することが多いため、説明は特に重要である。 本研究では、ポストが最も有毒なスパンと同じくらい有毒であるという単純かつ強力な仮定に基づいて、これらのモデルの解釈可能性を改善する技術を提案する。 この仮定をトランスフォーマーモデルに取り入れ,スパンの最大毒性に基づいてポストをスコア付けし,適切なスパンを識別するためのトレーニングプロセスを強化した。 人間の研究によれば、このアプローチは効果的であり、ロジスティック回帰分析(しばしば高度に解釈可能なモデルと見なされる)が提供するものよりも優れた説明を生み出すことができる。

Despite the recent successes of transformer-based models in terms of effectiveness on a variety of tasks, their decisions often remain opaque to humans. Explanations are particularly important for tasks like offensive language or toxicity detection on social media because a manual appeal process is often in place to dispute automatically flagged content. In this work, we propose a technique to improve the interpretability of these models, based on a simple and powerful assumption: a post is at least as toxic as its most toxic span. We incorporate this assumption into transformer models by scoring a post based on the maximum toxicity of its spans and augmenting the training process to identify correct spans. We find this approach effective and can produce explanations that exceed the quality of those provided by Logistic Regression analysis (often regarded as a highly-interpretable model), according to a human study.
翻訳日:2021-03-03 16:48:12 公開日:2021-03-01
# バイオインスパイアされた網膜ニューラルネットによる小ターゲット運動情報の正確な抽出

A Bioinspired Retinal Neural Network for Accurately Extracting Small-Target Motion Information in Cluttered Backgrounds ( http://arxiv.org/abs/2103.00848v1 )

ライセンス: Link先を確認
Xiao Huang, Hong Qiao, Hui Li and Zhihong Jiang(参考訳) 雑然とした移動背景における小さな移動ターゲットの堅牢かつ正確な検出は、ロボット視覚システムが検索および追跡タスクを実行するための重要かつ困難な問題です。 哺乳動物網膜における初歩視覚の神経回路に触発され,新しい神経力学に基づく時間的フィルタリングとマルチフォーム2次元空間ガボルフィルタリングに基づくバイオインスパイアされた網膜神経ネットワークを提案する。 このモデルは、2つの垂直時空間フィルタ信号のみを介して運動方向を正確に推定し、空間フィルタの樹状体サイズを調整することにより、異なるサイズと速度の小さなターゲットに応答することができる。 一方,移動背景における目標的特徴を抑えるために,方向選択的抑制のアルゴリズムを提案し,背景運動の影響を効果的に低減することができる。 広範な合成および実データ実験により,提案モデルがより広いサイズと速度範囲の小さなターゲットに対して安定に動作し,他のバイオインスパイアモデルよりも優れた検出性能を示す。 さらに、運動方向と運動エネルギーの情報を正確かつ迅速に抽出することもできます。

Robust and accurate detection of small moving targets in cluttered moving backgrounds is a significant and challenging problem for robotic visual systems to perform search and tracking tasks. Inspired by the neural circuitry of elementary motion vision in the mammalian retina, this paper proposes a bioinspired retinal neural network based on a new neurodynamics-based temporal filtering and multiform 2-D spatial Gabor filtering. This model can estimate motion direction accurately via only two perpendicular spatiotemporal filtering signals, and respond to small targets of different sizes and velocities by adjusting the dendrite field size of the spatial filter. Meanwhile, an algorithm of directionally selective inhibition is proposed to suppress the target-like features in the moving background, which can reduce the influence of background motion effectively. Extensive synthetic and real-data experiments show that the proposed model works stably for small targets of a wider size and velocity range, and has better detection performance than other bioinspired models. Additionally, it can also extract the information of motion direction and motion energy accurately and rapidly.
翻訳日:2021-03-03 16:45:33 公開日:2021-03-01
# 対向攻撃に対する車線検出のためのモデル非依存防御

Model-Agnostic Defense for Lane Detection against Adversarial Attack ( http://arxiv.org/abs/2103.00663v1 )

ライセンス: Link先を確認
Henry Xu, An Ju, David Wagner(参考訳) ニューラルネットワークの敵対的攻撃への感受性は、そのようなモデルが広く適用されている領域であるレーン検出の取り組みに深刻な安全上の懸念を引き起こします。 近年の対向道路パッチに関する研究は、車線を任意の形で知覚し、車両の挙動をローグ制御するための道筋を提示している。 本論文では,特定の車線検出モデルに依存しないまま,自動運転システムが誤認される前に,このような脅威を捕捉できるモジュラレーン検証システムを提案する。 本実験では,単純な畳み込みニューラルネットワーク(cnn)を用いてシステムを実装することで,レーン検出モデルに対する幅広い攻撃を防御できることを示す。 推定時間に10%の影響を与えることで、境界付き非適応攻撃の96%、境界付き適応攻撃の90%、パッチ攻撃の98%を検出でき、真のレーンの95%以上を正確に識別でき、提案する検証システムは、最小のオーバーヘッドでレーン検出セキュリティリスクの軽減に有効であることを示している。

Susceptibility of neural networks to adversarial attack prompts serious safety concerns for lane detection efforts, a domain where such models have been widely applied. Recent work on adversarial road patches have successfully induced perception of lane lines with arbitrary form, presenting an avenue for rogue control of vehicle behavior. In this paper, we propose a modular lane verification system that can catch such threats before the autonomous driving system is misled while remaining agnostic to the particular lane detection model. Our experiments show that implementing the system with a simple convolutional neural network (CNN) can defend against a wide gamut of attacks on lane detection models. With a 10% impact to inference time, we can detect 96% of bounded non-adaptive attacks, 90% of bounded adaptive attacks, and 98% of patch attacks while preserving accurate identification at least 95% of true lanes, indicating that our proposed verification system is effective at mitigating lane detection security risks with minimal overhead.
翻訳日:2021-03-03 16:40:36 公開日:2021-03-01
# FPS-Net: 大規模LiDARポイントクラウドセグメンテーションのための畳み込みネットワーク

FPS-Net: A Convolutional Fusion Network for Large-Scale LiDAR Point Cloud Segmentation ( http://arxiv.org/abs/2103.00738v1 )

ライセンス: Link先を確認
Aoran Xiao, Xiaofei Yang, Shijian Lu, Dayan Guan and Jiaxing Huang(参考訳) LiDARポイントクラウドに基づくシーン理解は、自動運転車が安全に運転する上で不可欠なタスクであり、3Dポイントクラウドをセマンティックセグメンテーションのためのマルチチャネル2Dイメージにマッピングするために、球状のプロジェクションを利用することが多い。 ほとんどの既存のメソッドは、単に異なるポイント属性/モダリティ(例えば)をスタックする。 座標、強度、深さなど 画像チャンネルとして、情報容量を増加させるが、異なる画像チャンネルのポイント属性の異なる特性を無視する。 fps-netは,最適なポイントクラウドセグメンテーションのために,投影画像チャネル間の一意性と不一致を生かす畳み込み型融合ネットワークである。 FPS-Netはエンコーダデコーダ構造を採用。 単一の入力として複数のチャンネルイメージを積み重ねる代わりに、それらを異なるモダリティに分類して、最初にモダリティ固有の特徴を別々に学習し、学習した特徴をピクセルレベルの融合と学習のための共通の高次元特徴空間にマップします。 具体的には、各モダリティの詳細な情報を保存し、階層的モダリティ特有かつ融合した特徴を効果的に学習するエンコーダのビルディングブロックとして、複数の受容場を有する残密ブロックを設計する。 FPS-Netデコーダでは、繰り返し畳み込みブロックを用いて融合した特徴を階層的に復号し、ピクセルレベルの分類を行う。 2つの広く採用されている点群データセット上での広範な実験は、FPS-Netが最先端の投影ベースの方法と比較して優れたセマンティックセグメンテーションを実現することを示している。 さらに,提案手法は一般的な射影法と互換性があり,一貫した性能向上が期待できる。

Scene understanding based on LiDAR point cloud is an essential task for autonomous cars to drive safely, which often employs spherical projection to map 3D point cloud into multi-channel 2D images for semantic segmentation. Most existing methods simply stack different point attributes/modalitie s (e.g. coordinates, intensity, depth, etc.) as image channels to increase information capacity, but ignore distinct characteristics of point attributes in different image channels. We design FPS-Net, a convolutional fusion network that exploits the uniqueness and discrepancy among the projected image channels for optimal point cloud segmentation. FPS-Net adopts an encoder-decoder structure. Instead of simply stacking multiple channel images as a single input, we group them into different modalities to first learn modality-specific features separately and then map the learned features into a common high-dimensional feature space for pixel-level fusion and learning. Specifically, we design a residual dense block with multiple receptive fields as a building block in the encoder which preserves detailed information in each modality and learns hierarchical modality-specific and fused features effectively. In the FPS-Net decoder, we use a recurrent convolution block likewise to hierarchically decode fused features into output space for pixel-level classification. Extensive experiments conducted on two widely adopted point cloud datasets show that FPS-Net achieves superior semantic segmentation as compared with state-of-the-art projection-based methods. In addition, the proposed modality fusion idea is compatible with typical projection-based methods and can be incorporated into them with consistent performance improvements.
翻訳日:2021-03-03 16:40:18 公開日:2021-03-01
# NeuTex: ボリュームニューラルレンダリングのためのニューラルテクスチャマッピング

NeuTex: Neural Texture Mapping for Volumetric Neural Rendering ( http://arxiv.org/abs/2103.00762v1 )

ライセンス: Link先を確認
Fanbo Xiang, Zexiang Xu, Milo\v{s} Ha\v{s}an, Yannick Hold-Geoffroy, Kalyan Sunkavalli, Hao Su(参考訳) 近年の研究では、ボリュームシーン表現と可変ボリュームレンダリングを組み合わせることで、メッシュ再構成が失敗する困難なシーンをリアルにレンダリングできることが示されている。 しかし、これらの方法は、編集できない「ブラックボックス」ボリュームにジオメトリと外観を絡めます。 代わりに,連続的な3次元ボリュームとして表現される幾何学を,連続的な2次元テクスチャマップとして表現するアプローチを提案する。 本研究では3次元から2次元のテクスチャマッピング(あるいは表面パラメータ化)ネットワークをボリューム表現に導入することでこれを実現する。 我々は,このテクスチャマッピングネットワークを,新たに2次元から3次元の逆マッピングネットワークと3次元表面点を元の3次元点にマッピングする新たなサイクル整合性損失を用いて制約する。 我々は,この表現を多視点画像監視のみを用いて再構成し,高品質なレンダリング結果を生成することを実証した。 さらに、幾何学とテクスチャを分離することで、2dテクスチャマップを編集するだけで外観を編集できる。

Recent work has demonstrated that volumetric scene representations combined with differentiable volume rendering can enable photo-realistic rendering for challenging scenes that mesh reconstruction fails on. However, these methods entangle geometry and appearance in a "black-box" volume that cannot be edited. Instead, we present an approach that explicitly disentangles geometry--represente d as a continuous 3D volume--from appearance--represen ted as a continuous 2D texture map. We achieve this by introducing a 3D-to-2D texture mapping (or surface parameterization) network into volumetric representations. We constrain this texture mapping network using an additional 2D-to-3D inverse mapping network and a novel cycle consistency loss to make 3D surface points map to 2D texture points that map back to the original 3D points. We demonstrate that this representation can be reconstructed using only multi-view image supervision and generates high-quality rendering results. More importantly, by separating geometry and texture, we allow users to edit appearance by simply editing 2D texture maps.
翻訳日:2021-03-03 16:39:51 公開日:2021-03-01
# 精度・高能率画像ガイド奥行き完成に向けて

Towards Precise and Efficient Image Guided Depth Completion ( http://arxiv.org/abs/2103.00783v1 )

ライセンス: Link先を確認
Mu Hu, Shuling Wang, Bin Li, Shiyu Ning, Li Fan, and Xiaojin Gong(参考訳) 画像案内深度完成は、スパース深度マップと高品質な画像から濃密深度マップを生成するタスクである。 このタスクでは、色と深さのモダリティを融合する方法が、優れたパフォーマンスを達成する上で重要な役割を果たす。 本論文では, 色優性分枝と深度優性分枝からなる2枝バックボーンを提案し, 2つのモダリティを徹底的に活用・融合する。 具体的には、色画像とスパース深度マップを入力し、密度の深い深度マップを予測する。 他方の分岐は、スパース深度マップと予め予測された深さマップを入力とし、高密度深さマップも出力する。 2つの枝から予測される深度マップは互いに補完的であり、適応的に融合する。 さらに,3次元幾何学的手がかりを符号化する簡単な幾何学的畳み込み層も提案する。 幾何エンコードされたバックボーンは、複数の段階で異なるモダリティの融合を行い、良好な深さ完成結果をもたらします。 さらに、融解深度マップを効率的に洗練するために、拡張および加速CSPN++を実装します。 提案する完全モデルは、提出時点でkitti depth completion online leaderboardで1位にランクインしている。 また、トップクラスのほとんどのメソッドよりもはるかに高速に推論する。 この作業のコードはhttps://github.com/J UGGHM/PENet_ICRA2021 で入手できます。

Image guided depth completion is the task of generating a dense depth map from a sparse depth map and a high quality image. In this task, how to fuse the color and depth modalities plays an important role in achieving good performance. This paper proposes a two-branch backbone that consists of a color-dominant branch and a depth-dominant branch to exploit and fuse two modalities thoroughly. More specifically, one branch inputs a color image and a sparse depth map to predict a dense depth map. The other branch takes as inputs the sparse depth map and the previously predicted depth map, and outputs a dense depth map as well. The depth maps predicted from two branches are complimentary to each other and therefore they are adaptively fused. In addition, we also propose a simple geometric convolutional layer to encode 3D geometric cues. The geometric encoded backbone conducts the fusion of different modalities at multiple stages, leading to good depth completion results. We further implement a dilated and accelerated CSPN++ to refine the fused depth map efficiently. The proposed full model ranks 1st in the KITTI depth completion online leaderboard at the time of submission. It also infers much faster than most of the top ranked methods. The code of this work will be available at https://github.com/J UGGHM/PENet_ICRA2021 .
翻訳日:2021-03-03 16:39:35 公開日:2021-03-01
# テキストキーポイントとリンクを用いた任意形状のシーンテキストの検出と修正

Detection and Rectification of Arbitrary Shaped Scene Texts by using Text Keypoints and Links ( http://arxiv.org/abs/2103.00785v1 )

ライセンス: Link先を確認
Chuhui Xue, Shijian Lu, Steven Hoi(参考訳) 任意の形状のシーンテキストの検出と認識は、テキスト行のオリエンテーション、長さ、曲率などの超豊富なテキスト形状の変化のために大きな課題です。 本稿では,任意の形状のシーンテキストを確実に検出・修正するマスク誘導マルチタスクネットワークを提案する。 センタラインを指定する3種類のキーポイントが検出され、テキストインスタンスの形状が正確に決定される。 さらに、各テキストインスタンスの検出されたキーポイントを水平リンクが関連付ける4種類のキーポイントリンクを検出し、垂直リンクは、上と下の境界に沿って一対のランドマークポイント(各キーポイント)を予測する。 シーンテキストは、関連するランドマークポイント(ローカライゼーションのポリゴンボックス)をリンクし、それぞれ薄いプレートスプラインでポリゴンボックスを変換することで、位置と修正が可能である。 いくつかの公開データセット上での広範な実験は、テキストキーポイントの使用がテキストの向き、長さ、曲率の変化に耐性があることを示し、最先端の方法と比較して優れたシーンテキスト検出と修正性能を実現します。

Detection and recognition of scene texts of arbitrary shapes remain a grand challenge due to the super-rich text shape variation in text line orientations, lengths, curvatures, etc. This paper presents a mask-guided multi-task network that detects and rectifies scene texts of arbitrary shapes reliably. Three types of keypoints are detected which specify the centre line and so the shape of text instances accurately. In addition, four types of keypoint links are detected of which the horizontal links associate the detected keypoints of each text instance and the vertical links predict a pair of landmark points (for each keypoint) along the upper and lower text boundary, respectively. Scene texts can be located and rectified by linking up the associated landmark points (giving localization polygon boxes) and transforming the polygon boxes via thin plate spline, respectively. Extensive experiments over several public datasets show that the use of text keypoints is tolerant to the variation in text orientations, lengths, and curvatures, and it achieves superior scene text detection and rectification performance as compared with state-of-the-art methods.
翻訳日:2021-03-03 16:39:14 公開日:2021-03-01
# 野生の顔にマスクを装着する3dモデルに基づくアプローチ

A 3D model-based approach for fitting masks to faces in the wild ( http://arxiv.org/abs/2103.00803v1 )

ライセンス: Link先を確認
Je Hyeong Hong, Hanjo Kim, Minsoo Kim, Gi Pyo Nam, Junghyun Cho, Hyeong-Seok Ko, Ig-Jae Kim(参考訳) 顔認識の研究は、新型コロナウイルス(covid-19)のパンデミックの時代に大量のラベル付きマスク付き顔画像を必要としている。 残念ながら、ウイルスの急速な拡散は、そのようなデータセットを野生で準備する時間はほとんど残っていない。 この問題を回避するために,マスクされた顔に対して様々なポーズの顔画像を増やすために,WearMask3Dと呼ばれる3Dモデルを用いたアプローチを提案する。 提案手法は,まず入力画像に3D形態素モデルを適用し,マスク表面を顔モデルにオーバーレイし,各マスクテクスチャをワープし,最後に3Dマスクを2Dに投影することで進行する。 マスクテクスチャは、入力画像の明るさと解像度に基づいて調整されます。 3Dで作業することにより、単一のマスクテクスチャから多様なポーズのより自然なマスク面を作り出すことができます。 異なる拡張アプローチを正確に比較するため、マスク付き顔とマスクなし顔からなるデータセットをMFW-miniというラベルで構築した。 実験の結果,公開予定のwearmask3dは,よりリアルなマスク画像を生成するとともに,これらの画像を用いたトレーニングにより,最先端に比べてマスク顔の認識精度が向上することが示された。

Face recognition research now requires a large number of labelled masked face images in the era of this unprecedented COVID-19 pandemic. Unfortunately, the rapid spread of the virus has left us little time to prepare for such dataset in the wild. To circumvent this issue, we present a 3D model-based approach called WearMask3D for augmenting face images of various poses to the masked face counterparts. Our method proceeds by first fitting a 3D morphable model on the input image, second overlaying the mask surface onto the face model and warping the respective mask texture, and last projecting the 3D mask back to 2D. The mask texture is adapted based on the brightness and resolution of the input image. By working in 3D, our method can produce more natural masked faces of diverse poses from a single mask texture. To compare precisely between different augmentation approaches, we have constructed a dataset comprising masked and unmasked faces with labels called MFW-mini. Experimental results demonstrate WearMask3D, which will be made publicly available, produces more realistic masked images, and utilizing these images for training leads to improved recognition accuracy of masked faces compared to the state-of-the-art.
翻訳日:2021-03-03 16:38:55 公開日:2021-03-01
# ノイズX線画像における禁止項目検出のための過剰サンプリング脱閉塞注意ネットワーク

Over-sampling De-occlusion Attention Network for Prohibited Items Detection in Noisy X-ray Images ( http://arxiv.org/abs/2103.00809v1 )

ライセンス: Link先を確認
Renshuai Tao, Yanlu Wei, Hainan Li, Aishan Liu, Yifu Ding, Haotong Qin and Xianglong Liu(参考訳) セキュリティ検査は、スーツケース内の個人の持ち物に対するx線スキャンであり、公衆の安全には極めて重要であるが、人間の検査官には非常に時間がかかる。 幸いなことに、ディープラーニングはコンピュータビジョンの開発を大幅に促進し、自動セキュリティ検査の可能性を提供します。 しかし、荷物内のアイテムがランダムに重なり、ノイズの多いX線画像と大きな閉塞が発生します。 したがって、一般的な画像認識データセットを通じて訓練された従来のCNNベースのモデルは、このシナリオで満足のいくパフォーマンスを達成できません。 これらの問題に対処するため, OPIXray という, 広範に普及している禁止項目 ``cutters'' の5カテゴリから8885個のX線画像を含む, 初の高品質な禁止対象検出データセットを寄贈した。 空港から集めた画像は、プロの検査員が手作業で注釈を付け、モデルトレーニングのベンチマークとして使用し、今後の研究を促進します。 また、入射X線物体検出を改善するため、新たな脱入注意モジュールと新しいオーバーサンプリングトレーニング戦略からなるオーバーサンプリング脱閉塞注意ネットワーク(DOAM-O)も提案しています。 具体的には,禁断モジュールであるdoamが禁止項目の異なる外観情報を同時に活用し,過度にサンプリングされたトレーニング戦略により,このシナリオに適合する高い咬合レベルの項目からなるこれらのハードサンプルに重きを置くことを余儀なくされた。 我々はOPIXrayデータセット上でDOAM-Oを総合的に評価し,SSD,YOLOv3,FCOSなどの有名な検出モデルの性能を安定的に向上できることを示す。

Security inspection is X-ray scanning for personal belongings in suitcases, which is significantly important for the public security but highly time-consuming for human inspectors. Fortunately, deep learning has greatly promoted the development of computer vision, offering a possible way of automatic security inspection. However, items within a luggage are randomly overlapped resulting in noisy X-ray images with heavy occlusions. Thus, traditional CNN-based models trained through common image recognition datasets fail to achieve satisfactory performance in this scenario. To address these problems, we contribute the first high-quality prohibited X-ray object detection dataset named OPIXray, which contains 8885 X-ray images from 5 categories of the widely-occurred prohibited item ``cutters''. The images are gathered from an airport and these prohibited items are annotated manually by professional inspectors, which can be used as a benchmark for model training and further facilitate future research. To better improve occluded X-ray object detection, we further propose an over-sampling de-occlusion attention network (DOAM-O), which consists of a novel de-occlusion attention module and a new over-sampling training strategy. Specifically, our de-occlusion module, namely DOAM, simultaneously leverages the different appearance information of the prohibited items; the over-sampling training strategy forces the model to put more emphasis on these hard samples consisting these items of high occlusion levels, which is more suitable for this scenario. We comprehensively evaluated DOAM-O on the OPIXray dataset, which proves that our model can stably improve the performance of the famous detection models such as SSD, YOLOv3, and FCOS, and outperform many extensively-used attention mechanisms.
翻訳日:2021-03-03 16:38:34 公開日:2021-03-01
# MFST:マルチ機能Siameseトラッカー

MFST: Multi-Features Siamese Tracker ( http://arxiv.org/abs/2103.00810v1 )

ライセンス: Link先を確認
Zhenxi Li, Guillaume-Alexandre Bilodeau, Wassim Bouachir(参考訳) シームズトラッカーは、最近、精度と速度のバランスのために興味深い結果を得た。 この成功は主に、深層類似性ネットワークが画像類似性問題に対処するために特別に設計されたという事実によるものである。 したがって、追跡タスクには従来のCNNよりも本質的に適切である。 しかし、シームズトラッカーは類似性分析とターゲット探索のために最後の畳み込み層に依存しており、性能が制限されている。 本稿では、単一畳み込み層を特徴表現として使うことは、オブジェクトの特徴付けにおいて複数の畳み込み層がいくつかの抽象化レベルを提供するため、深い類似性フレームワークの中で最適な選択ではないと論じる。 このモチベーションから,ロバストな深層類似度追跡のために,複数の階層的特徴マップを利用する新しい追跡アルゴリズムである多機能siamese tracker (mfst) を提案する。 MFSTは階層的な特徴を融合して、よりリッチで効率的な表現を保証する。 さらに,2つの異なるCNNモデルから抽出した深部特徴を校正することで,外観変化を処理する。 この高度な特徴表現に基づいて,我々のアルゴリズムは,標準的なシームズトラッカーを含む最先端トラッカーよりも高いトラッキング精度を実現する。 コードとトレーニングされたモデルはhttps://github.com/z henxili96/MFSTで入手できる。

Siamese trackers have recently achieved interesting results due to their balance between accuracy and speed. This success is mainly due to the fact that deep similarity networks were specifically designed to address the image similarity problem. Therefore, they are inherently more appropriate than classical CNNs for the tracking task. However, Siamese trackers rely on the last convolutional layers for similarity analysis and target search, which restricts their performance. In this paper, we argue that using a single convolutional layer as feature representation is not the optimal choice within the deep similarity framework, as multiple convolutional layers provide several abstraction levels in characterizing an object. Starting from this motivation, we present the Multi-Features Siamese Tracker (MFST), a novel tracking algorithm exploiting several hierarchical feature maps for robust deep similarity tracking. MFST proceeds by fusing hierarchical features to ensure a richer and more efficient representation. Moreover, we handle appearance variation by calibrating deep features extracted from two different CNN models. Based on this advanced feature representation, our algorithm achieves high tracking accuracy, while outperforming several state-of-the-art trackers, including standard Siamese trackers. The code and trained models are available at https://github.com/z henxili96/MFST.
翻訳日:2021-03-03 16:37:56 公開日:2021-03-01
# DST: ノイズラベルを用いた学習のためのデータ選択と共同トレーニング

DST: Data Selection and joint Training for Learning with Noisy Labels ( http://arxiv.org/abs/2103.00813v1 )

ライセンス: Link先を確認
Yi Wei, Xue Mei, Xin Liu, Pengxiang Xu(参考訳) ディープニューラルネットワークのトレーニングは、正確なアノテーションを備えた大量のトレーニングデータに大きく依存する。 この問題を解決するために、データを自動注釈する様々な方法が提案されている。 しかし、アノテーションの自動生成は必然的に騒々しいラベルになります。 本稿では,正確なアノテーションを用いたトレーニングサンプルを自動的に選択するデータ選択共同学習法を提案する。 具体的には、dstは、トレーニングサンプル毎に元のアノテーションと予測ラベルに基づいて混合モデルに適合し、混合モデルは、トレーニングデータセットを正しくラベル付けされたデータセット、正しく予測されたセット、誤ったデータセットに動的に分割する。 次に、DSTはこれらのデータセットを教師付きでトレーニングする。 確認バイアス問題のため、2つのネットワークを交互に訓練し、各ネットワークに別のネットワークを教えるデータ分割を確立するよう指示する。 各イテレーションでは、正しくラベルされたラベルと予測されたラベルはそれぞれ混合モデルからの確率によって重み付けされ、誤ったサンプルの確率を生成するために一様分布が使用される。 CIFAR-10、CIFAR-100、Clothing1Mの実験では、DSTは最先端の手法に匹敵するか、優れていることを示した。

Training a deep neural network heavily relies on a large amount of training data with accurate annotations. To alleviate this problem, various methods have been proposed to annotate the data automatically. However, automatically generating annotations will inevitably yields noisy labels. In this paper, we propose a Data Selection and joint Training (DST) method to automatically select training samples with accurate annotations. Specifically, DST fits a mixture model according to the original annotation as well as the predicted label for each training sample, and the mixture model is utilized to dynamically divide the training dataset into a correctly labeled dataset, a correctly predicted set and a wrong dataset. Then, DST is trained with these datasets in a supervised manner. Due to confirmation bias problem, we train the two networks alternately, and each network is tasked to establish the data division to teach another network. For each iteration, the correctly labeled and predicted labels are reweighted respectively by the probabilities from the mixture model, and a uniform distribution is used to generate the probabilities of the wrong samples. Experiments on CIFAR-10, CIFAR-100 and Clothing1M demonstrate that DST is the comparable or superior to the state-of-the-art methods.
翻訳日:2021-03-03 16:37:34 公開日:2021-03-01
# 自己監督型低照度画像強調とデノナイジング

Self-supervised Low Light Image Enhancement and Denoising ( http://arxiv.org/abs/2103.00832v1 )

ライセンス: Link先を確認
Yu Zhang and Xiaoguang Di and Bin Zhang and Qingyan Li and Shiyu Yan and Chunhui Wang(参考訳) 本論文では, 画像コントラストの改善とノイズ低減を同時に実現し, プリデノイジング/ポストデノイジングによるブレを回避する, 深層学習に基づく自己監視型低照度画像強調法を提案する。 この方法は、イメージコントラスト強化ネットワーク(ICE-Net)と再エンハンスメントおよびデノイジングネットワーク(RED-Net)の2つの深いサブネットワークを含む。 ICE-Netは低照度画像を入力としてコントラスト強調画像を生成する。 RED-NetはICE-Netと低光画像の結果を入力として取り、低光画像の再強調とデノネーズを同時に行うことができる。 どちらのネットワークも低光画像のみでトレーニングすることができ、これは最大エントロピーベースレチネックス(ME-Retinex)モデルとノイズが独立に分散しているという仮定によって達成される。 me-retinexモデルでは、反射率画像の最大チャンネルが低光度画像の最大チャンネルに合致し、エントロピーが最大となるように反射率画像に対する新たな制約を導入し、反射率モデルの反射率と照明の分解を非無条件問題に変換し、アイスネットを自己教師ありの方法で訓練できるようにする。 RED-Netの損失関数は、トレーニング中にノイズとディテールを分離するために慎重に策定されており、ノイズが独立して分散されている場合、スムージングフィルタ(リーガ平均フィルタ)の処理後、ノイズ部の勾配はディテール部のグラデーションよりも小さくなければならないという考えに基づいています。 提案手法が効率的であることを実験により定性的かつ定量的に証明することができる。

This paper proposes a self-supervised low light image enhancement method based on deep learning, which can improve the image contrast and reduce noise at the same time to avoid the blur caused by pre-/post-denoising. The method contains two deep sub-networks, an Image Contrast Enhancement Network (ICE-Net) and a Re-Enhancement and Denoising Network (RED-Net). The ICE-Net takes the low light image as input and produces a contrast enhanced image. The RED-Net takes the result of ICE-Net and the low light image as input, and can re-enhance the low light image and denoise at the same time. Both of the networks can be trained with low light images only, which is achieved by a Maximum Entropy based Retinex (ME-Retinex) model and an assumption that noises are independently distributed. In the ME-Retinex model, a new constraint on the reflectance image is introduced that the maximum channel of the reflectance image conforms to the maximum channel of the low light image and its entropy should be the largest, which converts the decomposition of reflectance and illumination in Retinex model to a non-ill-conditioned problem and allows the ICE-Net to be trained with a self-supervised way. The loss functions of RED-Net are carefully formulated to separate the noises and details during training, and they are based on the idea that, if noises are independently distributed, after the processing of smoothing filters (\eg mean filter), the gradient of the noise part should be smaller than the gradient of the detail part. It can be proved qualitatively and quantitatively through experiments that the proposed method is efficient.
翻訳日:2021-03-03 16:37:15 公開日:2021-03-01
# 二元ニューラルネットワークの学習周波数領域近似

Learning Frequency Domain Approximation for Binary Neural Networks ( http://arxiv.org/abs/2103.00841v1 )

ライセンス: Link先を確認
Yixing Xu, Kai Han, Chang Xu, Yehui Tang, Chunjing Xu, Yunhe Wang(参考訳) バイナリニューラルネットワーク(BNN)は、元の完全精度の重みと1ビットへのアクティベーションを符号関数で表現する。 従来の符号関数の勾配は、バックプロパゲーションに使用できないあらゆる場所においてほぼゼロであるため、近似勾配を用いて最適化の困難さを緩和する試みがいくつか提案されている。 しかし、これらの近似はデファクト勾配の主方向を損なう。 そこで本研究では,周波数領域近似(FDA)をトレーニングするための正弦関数の組み合わせを用いて,フーリエ周波数領域における符号関数の勾配を推定する。 提案手法は,全エネルギーのほとんどを占める元の符号関数の低周波情報には影響を与えず,膨大な計算オーバーヘッドを回避するために高周波係数は無視される。 さらに,雑音適応モジュールをトレーニングフェーズに組み込んで近似誤差を補償する。 いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。

Binary neural networks (BNNs) represent original full-precision weights and activations into 1-bit with sign function. Since the gradient of the conventional sign function is almost zero everywhere which cannot be used for back-propagation, several attempts have been proposed to alleviate the optimization difficulty by using approximate gradient. However, those approximations corrupt the main direction of de facto gradient. To this end, we propose to estimate the gradient of sign function in the Fourier frequency domain using the combination of sine functions for training BNNs, namely frequency domain approximation (FDA). The proposed approach does not affect the low-frequency information of the original sign function which occupies most of the overall energy, and high-frequency coefficients will be ignored to avoid the huge computational overhead. In addition, we embed a noise adaptation module into the training phase to compensate the approximation error. The experiments on several benchmark datasets and neural architectures illustrate that the binary network learned using our method achieves the state-of-the-art accuracy.
翻訳日:2021-03-03 16:36:42 公開日:2021-03-01
# ADAADepth: 自己監督単眼深推定のためのデータ拡張と注意の適応

ADAADepth: Adapting Data Augmentation and Attention for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2103.00853v1 )

ライセンス: Link先を確認
Vinay Kaushik, Kartik Jindgar and Brejesh Lall(参考訳) 深度に関する自己教師付き学習は、深度を予測するための基礎的な真理アノテーションを持つことの必要性を軽減するため、高度に研究された研究トピックである。 深度は視線合成のタスクの中間解として学習され、歪んだ光度整合性を利用する。 ステレオデータを用いてトレーニングすると良い結果が得られるが、予測深度は依然としてノイズや照明の変化、スペクトル反射に敏感である。 また、単一のカメラから奥行きを学習することで、咬合にもより取り組むことができる。 深度向上を深度監督として活用し、正確で堅牢な深度を学習するADAAを提案します。 本稿では,リッチなコンテキスト特徴を学習し,さらに深度を向上するリレーショナル自己認識モジュールを提案する。 また,マスク上のL1正規化を強制することにより,全損失に対する自動マスキング戦略を最適化する。 新たなプログレッシブトレーニング戦略は,まず低い解像度で奥行きを学習し,その後,わずかなトレーニングで元の解像度に進行する。 ResNet18エンコーダを使用して、深度とポーズの両方を予測する機能を学びます。 我々は,標準KITTI駆動データセットの予測深度を評価し,ディープラーニングフレームワークにおいてトレーニング可能なパラメータの数が著しく少ない一方,単眼深度推定の最先端結果を得た。 また,Make3Dデータセット上で,他の手法よりも優れた一般化を示すモデルの評価を行った。

Self-supervised learning of depth has been a highly studied topic of research as it alleviates the requirement of having ground truth annotations for predicting depth. Depth is learnt as an intermediate solution to the task of view synthesis, utilising warped photometric consistency. Although it gives good results when trained using stereo data, the predicted depth is still sensitive to noise, illumination changes and specular reflections. Also, occlusion can be tackled better by learning depth from a single camera. We propose ADAA, utilising depth augmentation as depth supervision for learning accurate and robust depth. We propose a relational self-attention module that learns rich contextual features and further enhances depth results. We also optimize the auto-masking strategy across all losses by enforcing L1 regularisation over mask. Our novel progressive training strategy first learns depth at a lower resolution and then progresses to the original resolution with slight training. We utilise a ResNet18 encoder, learning features for prediction of both depth and pose. We evaluate our predicted depth on the standard KITTI driving dataset and achieve state-of-the-art results for monocular depth estimation whilst having significantly lower number of trainable parameters in our deep learning framework. We also evaluate our model on Make3D dataset showing better generalization than other methods.
翻訳日:2021-03-03 16:36:26 公開日:2021-03-01
# ゼロ参照深曲推定による低照度画像の学習

Learning to Enhance Low-Light Image via Zero-Reference Deep Curve Estimation ( http://arxiv.org/abs/2103.00860v1 )

ライセンス: Link先を確認
Chongyi Li and Chunle Guo and Chen Change Loy(参考訳) 本稿では、深部ネットワークを用いた画像特異的曲線推定のタスクとして光強調を定式化するゼロ参照深部曲線推定法(Zero-DCE)を提案する。 提案手法は,DCE-Netという軽量な深層ネットワークを訓練し,画像のダイナミックレンジ調整のための画素幅と高次曲線を推定する。 曲線推定は、画素値範囲、単調性、微分可能性を考慮して特別に設計される。 Zero-DCEは、参照画像に対するリラックスした仮定、すなわち、トレーニング中にペアデータやペアデータも必要としないという点で魅力的である。 これは、拡張品質を暗黙的に測定し、ネットワークの学習を促進する、慎重に定式化された非参照損失関数のセットによって達成される。 その単純さにもかかわらず、様々な照明条件によく当てはまることを示す。 画像強調は直観的かつ単純な非線形曲線マッピングによって実現できるため,本手法は効率的である。 さらに、わずか10Kパラメータの小さなネットワークを利用するZero-DCE++と呼ばれる、加速された軽量バージョンのZero-DCEを紹介します。 zero-dce++は、zero-dceの拡張性能を維持しながら、高速な推論速度(単一のgpu/cpu上の1000/11fps)を持つ。 各種ベンチマーク実験により, 最先端手法に対する本手法の利点を質的, 定量的に実証した。 さらに, 本手法の暗闇における顔検出における潜在的メリットについて考察した。 ソースコードはhttps://li-chongyi.g ithub.io/Proj_Zero-D CE++.htmlで公開される。

This paper presents a novel method, Zero-Reference Deep Curve Estimation (Zero-DCE), which formulates light enhancement as a task of image-specific curve estimation with a deep network. Our method trains a lightweight deep network, DCE-Net, to estimate pixel-wise and high-order curves for dynamic range adjustment of a given image. The curve estimation is specially designed, considering pixel value range, monotonicity, and differentiability. Zero-DCE is appealing in its relaxed assumption on reference images, i.e., it does not require any paired or even unpaired data during training. This is achieved through a set of carefully formulated non-reference loss functions, which implicitly measure the enhancement quality and drive the learning of the network. Despite its simplicity, we show that it generalizes well to diverse lighting conditions. Our method is efficient as image enhancement can be achieved by an intuitive and simple nonlinear curve mapping. We further present an accelerated and light version of Zero-DCE, called Zero-DCE++, that takes advantage of a tiny network with just 10K parameters. Zero-DCE++ has a fast inference speed (1000/11 FPS on a single GPU/CPU for an image of size 1200*900*3) while keeping the enhancement performance of Zero-DCE. Extensive experiments on various benchmarks demonstrate the advantages of our method over state-of-the-art methods qualitatively and quantitatively. Furthermore, the potential benefits of our method to face detection in the dark are discussed. The source code will be made publicly available at https://li-chongyi.g ithub.io/Proj_Zero-D CE++.html.
翻訳日:2021-03-03 16:36:04 公開日:2021-03-01
# FineNet:Face Video Deblurringのフレーム補間と強化

FineNet: Frame Interpolation and Enhancement for Face Video Deblurring ( http://arxiv.org/abs/2103.00871v1 )

ライセンス: Link先を確認
Phong Tran, Anh Tran, Thao Nguyen, Minh Hoai(参考訳) この作品の目的は、顔のビデオを破壊することです。 本研究では,(1)ぼやけたフレームの強化,(2)ぼやけたフレームを欠落した値として扱い,補間により推定する手法を提案する。 これらのアプローチは互いに補完的であり、それらの組み合わせは個々のアプローチよりも優れています。 また,ビデオフレーム間の位置オフセットを見つけるために,顔の構造を利用する新しいモジュールも導入する。 このモジュールは両方のアプローチの処理パイプラインに統合され、最終的な結果の品質が向上する。 3つの実・合成されたぼやけたビデオデータセットの実験により,本手法は,定量的および定性的な結果の両面で,従来の最先端手法よりも高い性能を示した。

The objective of this work is to deblur face videos. We propose a method that tackles this problem from two directions: (1) enhancing the blurry frames, and (2) treating the blurry frames as missing values and estimate them by interpolation. These approaches are complementary to each other, and their combination outperforms individual ones. We also introduce a novel module that leverages the structure of faces for finding positional offsets between video frames. This module can be integrated into the processing pipelines of both approaches, improving the quality of the final outcome. Experiments on three real and synthetically generated blurry video datasets show that our method outperforms the previous state-of-the-art methods by a large margin in terms of both quantitative and qualitative results.
翻訳日:2021-03-03 16:35:38 公開日:2021-03-01
# DF-VO:視覚オドメトリーに何を学ぶべきか?

DF-VO: What Should Be Learnt for Visual Odometry? ( http://arxiv.org/abs/2103.00933v1 )

ライセンス: Link先を確認
Huangying Zhan, Chamara Saroj Weerasekera, Jia-Wang Bian, Ravi Garg, Ian Reid(参考訳) マルチビュージオメトリベースの方法は、その優れたパフォーマンスのために、過去数十年間の単眼視覚オドメトリーを支配していますが、動的および低テクスチャシーンに脆弱です。 さらに重要なことに、モノクロメソッドはスケールドリフトの問題、すなわちエラーは時間とともに蓄積する。 近年の研究では、地下の真理ラベルを取得することなく、深層ニューラルネットワークがシーン深度と相対カメラを自己監督的に学習できることが示されている。 さらに驚くべきことに、よく訓練されたネットワークは長いビデオよりもスケール一貫性のある予測を可能にするが、幾何学的情報を無視した従来の方法よりも精度は劣っている。 近年のコンピュータビジョンの進歩を基盤として,多視点幾何と深層学習,すなわちDF-VOの深部学習を統合することで,シンプルながら堅牢なVOシステムを設計する。 本研究では, 深度流から高品質な対応を精査し, 正確なカメラポーズを幾何学的モジュールで復元する手法を提案する。 b) 幾何学的に三角化された深度をスケール一貫性のある深度に整列させることで, スケールドリフト問題に対処する。 包括的なアブレーション研究は提案された方法の有効性を示し、広範な評価結果は、例えば、私たちのシステムの最新のパフォーマンスを示しています(1.652%)対。 ORB-SLAM (3.247%}) の翻訳誤差は KITTI Odometry のベンチマークで示されている。 ソースコードは \href{https://github.com/H uangying-Zhan/DF-VO}{DF-VO} で公開されている。

Multi-view geometry-based methods dominate the last few decades in monocular Visual Odometry for their superior performance, while they have been vulnerable to dynamic and low-texture scenes. More importantly, monocular methods suffer from scale-drift issue, i.e., errors accumulate over time. Recent studies show that deep neural networks can learn scene depths and relative camera in a self-supervised manner without acquiring ground truth labels. More surprisingly, they show that the well-trained networks enable scale-consistent predictions over long videos, while the accuracy is still inferior to traditional methods because of ignoring geometric information. Building on top of recent progress in computer vision, we design a simple yet robust VO system by integrating multi-view geometry and deep learning on Depth and optical Flow, namely DF-VO. In this work, a) we propose a method to carefully sample high-quality correspondences from deep flows and recover accurate camera poses with a geometric module; b) we address the scale-drift issue by aligning geometrically triangulated depths to the scale-consistent deep depths, where the dynamic scenes are taken into account. Comprehensive ablation studies show the effectiveness of the proposed method, and extensive evaluation results show the state-of-the-art performance of our system, e.g., Ours (1.652%) v.s. ORB-SLAM (3.247%}) in terms of translation error in KITTI Odometry benchmark. Source code is publicly available at: \href{https://github.com/H uangying-Zhan/DF-VO}{DF-VO}.
翻訳日:2021-03-03 16:35:27 公開日:2021-03-01
# 小さなエネルギーが長い道のり:エネルギー効率の良い、畳み込みニューラルネットワークからスパイクニューラルネットワークへの正確な変換

A Little Energy Goes a Long Way: Energy-Efficient, Accurate Conversion from Convolutional Neural Networks to Spiking Neural Networks ( http://arxiv.org/abs/2103.00944v1 )

ライセンス: Link先を確認
Dengyu Wu, Xinping Yi, Xiaowei Huang(参考訳) スパイキングニューラルネットワーク(SNN)は、空間的時間的データ、すなわち現実世界の知覚データを処理できる固有の能力を提供するが、高精度モデルのトレーニングが困難である。 SNNに関する主要な研究のスレッドは、トレーニング済みの畳み込みニューラルネットワーク(CNN)を同じ構造のSNNに変換することである。 最先端の変換方法が精度限界、すなわち元CNNに対するSNNのほぼゼロの精度損失に近づいている。 しかし、これは入力を処理するためにはるかに多くのエネルギーが消費される場合にのみ可能であることに留意する。 本稿では、この「精度のためのエネルギー」という傾向は必要ないと論じ、ほぼゼロに近い精度の損失を達成するために、わずかなエネルギーが長い道のりを歩むことができる。 具体的には、比較的短いスパイクトレイン(例えばCIFAR10画像の256タイムステップ)を使用して、ほぼゼロの精度の損失を達成できる新しいCNN-to-SNN変換方法を提案する。 明示的な電流制御(ECC)と呼ばれる新しい変換方法は、入力を処理する際にSNNを流れる電流を明示的に制御するために、3つの手法(現在の正規化、残留除去のしきい値化、バッチ正規化の一貫性維持)を含む。 SKerasと呼ばれるツールにECCを実装し、Keras CNNモデルを便利にインポートし、それらをSNNに変換する。 VGG16やCIFAR10やCIFAR100などの各種データセットと連携し、最先端の変換方法との比較など、幅広い実験を行います。 その結果,ECCはエネルギー消費と精度損失を同時に最適化できる有望な手法であることがわかった。

Spiking neural networks (SNNs) offer an inherent ability to process spatial-temporal data, or in other words, realworld sensory data, but suffer from the difficulty of training high accuracy models. A major thread of research on SNNs is on converting a pre-trained convolutional neural network (CNN) to an SNN of the same structure. State-of-the-art conversion methods are approaching the accuracy limit, i.e., the near-zero accuracy loss of SNN against the original CNN. However, we note that this is made possible only when significantly more energy is consumed to process an input. In this paper, we argue that this trend of ''energy for accuracy'' is not necessary -- a little energy can go a long way to achieve the near-zero accuracy loss. Specifically, we propose a novel CNN-to-SNN conversion method that is able to use a reasonably short spike train (e.g., 256 timesteps for CIFAR10 images) to achieve the near-zero accuracy loss. The new conversion method, named as explicit current control (ECC), contains three techniques (current normalisation, thresholding for residual elimination, and consistency maintenance for batch-normalisation) , in order to explicitly control the currents flowing through the SNN when processing inputs. We implement ECC into a tool nicknamed SpKeras, which can conveniently import Keras CNN models and convert them into SNNs. We conduct an extensive set of experiments with the tool -- working with VGG16 and various datasets such as CIFAR10 and CIFAR100 -- and compare with state-of-the-art conversion methods. Results show that ECC is a promising method that can optimise over energy consumption and accuracy loss simultaneously.
翻訳日:2021-03-03 16:34:36 公開日:2021-03-01
# Few-Shot Lifelong Learning

Few-Shot Lifelong Learning ( http://arxiv.org/abs/2103.00991v1 )

ライセンス: Link先を確認
Pratik Mazumder, Pravendra Singh, Piyush Rai(参考訳) 多くの現実世界の分類問題には、ラベル付きトレーニングサンプルがほとんどないクラスがしばしば存在する。 さらに、すべての可能なクラスは、最初はトレーニングに利用できず、段階的に与えられることがあります。 ディープラーニングモデルは、現実の状況でうまく機能するために、この2つの問題に対処する必要がある。 本論文では,深層学習モデルが短距離/連続学習を行うことを可能にするFew-Shot Lifelong Learning (FSLL)法を提案する。 提案手法では,モデルからごく少数のパラメータを選択して,モデル全体をトレーニングする代わりに,新しいクラスのセットをトレーニングする。 これは過剰フィットを防ぐのに役立つ。 現在重要でないパラメータのみが選択されるように、モデルからいくつかのパラメータを選択します。 モデル内の重要なパラメータをそのまま保持することで、破滅的な忘れを最小化します。 さらに,その分離を最大化するために,新しいプロトタイプと古いプロトタイプのコサイン類似性を最小化し,分類性能を向上する。 また,本手法を自己スーパービジョンと統合することで,モデル性能が大幅に向上することを示す。 提案手法は, miniImageNet, CIFAR-100, CUB-200データセットにおいて, 既存の手法よりも優れていることを示す。 具体的には、CUBデータセットの絶対マージン19.27%で最先端の手法を上回ります。

Many real-world classification problems often have classes with very few labeled training samples. Moreover, all possible classes may not be initially available for training, and may be given incrementally. Deep learning models need to deal with this two-fold problem in order to perform well in real-life situations. In this paper, we propose a novel Few-Shot Lifelong Learning (FSLL) method that enables deep learning models to perform lifelong/continual learning on few-shot data. Our method selects very few parameters from the model for training every new set of classes instead of training the full model. This helps in preventing overfitting. We choose the few parameters from the model in such a way that only the currently unimportant parameters get selected. By keeping the important parameters in the model intact, our approach minimizes catastrophic forgetting. Furthermore, we minimize the cosine similarity between the new and the old class prototypes in order to maximize their separation, thereby improving the classification performance. We also show that integrating our method with self-supervision improves the model performance significantly. We experimentally show that our method significantly outperforms existing methods on the miniImageNet, CIFAR-100, and CUB-200 datasets. Specifically, we outperform the state-of-the-art method by an absolute margin of 19.27% for the CUB dataset.
翻訳日:2021-03-03 16:33:36 公開日:2021-03-01
# 道路ダイナミクスとコストマップの自己監督同時マルチステップ予測

Self-Supervised Simultaneous Multi-Step Prediction of Road Dynamics and Cost Map ( http://arxiv.org/abs/2103.01039v1 )

ライセンス: Link先を確認
Elmira Amirloo, Mohsen Rohani, Ershad Banijamali, Jun Luo, Pascal Poupart(参考訳) 教師付き学習は従来の自律運転ソリューションの知覚モジュールに広く使用されているが、スケーラビリティは大量のデータラベリングを必要とする。 対照的に、エンドツーエンドアーキテクチャはラベル付きデータを必要とせず、よりスケーラブルになる可能性があるが、解釈性は犠牲になる。 本稿では,空間コストマップと道路ダイナミクスの同時多段階予測のために,完全自己教師あり方式で訓練した新しいアーキテクチャを提案する。 当社のソリューションは、動き計画のための手動で設計されたコスト関数を、自然に解釈可能な学習された高次元コストマップに置き換え、さまざまなコンテキスト情報を手動データラベリングなしで統合できます。 実世界の運転データによる実験から,我々のソリューションは,ベースラインと比較して長期計画地平線における衝突数や道路違反の低減につながることが示され,拡張性や解釈性を犠牲にすることなく,完全自己監督型予測の実現可能性を示す。

While supervised learning is widely used for perception modules in conventional autonomous driving solutions, scalability is hindered by the huge amount of data labeling needed. In contrast, while end-to-end architectures do not require labeled data and are potentially more scalable, interpretability is sacrificed. We introduce a novel architecture that is trained in a fully self-supervised fashion for simultaneous multi-step prediction of space-time cost map and road dynamics. Our solution replaces the manually designed cost function for motion planning with a learned high dimensional cost map that is naturally interpretable and allows diverse contextual information to be integrated without manual data labeling. Experiments on real world driving data show that our solution leads to lower number of collisions and road violations in long planning horizons in comparison to baselines, demonstrating the feasibility of fully self-supervised prediction without sacrificing either scalability or interpretability.
翻訳日:2021-03-03 16:33:18 公開日:2021-03-01
# 高精度データフリー量子化のための分散サンプル生成

Diversifying Sample Generation for Accurate Data-Free Quantization ( http://arxiv.org/abs/2103.01049v1 )

ライセンス: Link先を確認
Xiangguo Zhang, Haotong Qin, Yifu Ding, Ruihao Gong, Qinghua Yan, Renshuai Tao, Yuhang Li, Fengwei Yu, Xianglong Liu(参考訳) 量子化は、ニューラルネットワークを圧縮し加速する最も一般的なアプローチの1つとして現れてきた。 近年、データフリー量子化は実用的で有望なソリューションとして広く研究されている。 FP32のバッチ正規化(BN)統計に基づいて、量子化モデルを校正するデータを合成し、従来の量子化法における実際のトレーニングデータへの重い依存を著しく軽減する。 残念なことに、BN統計によって制約された合成データは、分布レベルとサンプルレベルの両方で深刻な均質化を被り、さらに量子化モデルの性能低下を引き起こす。 均質化による悪影響を軽減するために,DSG(Diverse Sample Generation)方式を提案する。 具体的には、BN層における特徴統計の整合を緩め、分布レベルで制約を緩和し、異なるデータサンプルの特定の層を強化するための層方向の拡張を設計する。 我々のDSGスキームは多用途であり、AdaRoundのような最先端のポストトレーニング量子化手法にも適用できる。 DSG方式を大規模画像分類タスクで評価し、特に低ビット(W4A4では最大22%改善)に量子化する場合には、様々なネットワークアーキテクチャや量子化手法に対して、一貫して大幅な改善が得られる。 さらに、多様性の向上により、合成データで校正されたモデルは、実際のデータで校正されたモデルに近い性能を発揮し、W4A4でそれを上回ります。

Quantization has emerged as one of the most prevalent approaches to compress and accelerate neural networks. Recently, data-free quantization has been widely studied as a practical and promising solution. It synthesizes data for calibrating the quantized model according to the batch normalization (BN) statistics of FP32 ones and significantly relieves the heavy dependency on real training data in traditional quantization methods. Unfortunately, we find that in practice, the synthetic data identically constrained by BN statistics suffers serious homogenization at both distribution level and sample level and further causes a significant performance drop of the quantized model. We propose Diverse Sample Generation (DSG) scheme to mitigate the adverse effects caused by homogenization. Specifically, we slack the alignment of feature statistics in the BN layer to relax the constraint at the distribution level and design a layerwise enhancement to reinforce specific layers for different data samples. Our DSG scheme is versatile and even able to be applied to the state-of-the-art post-training quantization method like AdaRound. We evaluate the DSG scheme on the large-scale image classification task and consistently obtain significant improvements over various network architectures and quantization methods, especially when quantized to lower bits (e.g., up to 22% improvement on W4A4). Moreover, benefiting from the enhanced diversity, models calibrated by synthetic data perform close to those calibrated by real data and even outperform them on W4A4.
翻訳日:2021-03-03 16:33:01 公開日:2021-03-01
# 二重注意抑制攻撃 : 物理的世界における逆境カモフラージュの発生

Dual Attention Suppression Attack: Generate Adversarial Camouflage in Physical World ( http://arxiv.org/abs/2103.01050v1 )

ライセンス: Link先を確認
Jiakai Wang, Aishan Liu, Zixin Yin, Shunchang Liu, Shiyu Tang, and Xianglong Liu(参考訳) ディープラーニングモデルは、敵の例に弱い。 実用的なディープラーニングシステムのより脅威的なタイプとして、身体的な逆転例は、近年広範な研究の注目を集めています。 しかし、モデル非依存や人間特有のパターンのような本質的な特徴を生かさずに、既存の作品は、異なるモデルへの攻撃や視覚的に不審な外観に欠ける、物理的な世界での弱い敵対的な摂動を引き起こす。 本稿では,認識過程の本質的特徴に注意が反映されるという視点に動機づけられ,モデルと人間の双方の注意を抑圧することにより,視覚・自然の物理的カモフラージュを生成できるdual attention suppression(das)攻撃を提案する。 攻撃に関しては,対象領域から非対象領域へのモデル共有類似の注意パターンを逸脱させることで,移動可能な対向カモフラージュを生成する。 一方,人間の視覚的注意が常に突出した項目(例えば不審な歪み)に焦点を当てているという事実から,人間特有のボトムアップ的注意を回避し,シナリオコンテキストに関連付けられた視覚的・自然的な迷彩を生成する。 最新のモデル(例えば、Yolo-V5)の分類および検出タスクにおいて、ディジタル世界と物理世界の両方で広範な実験を行い、我々の手法が最先端の手法よりも優れていることを示す。

Deep learning models are vulnerable to adversarial examples. As a more threatening type for practical deep learning systems, physical adversarial examples have received extensive research attention in recent years. However, without exploiting the intrinsic characteristics such as model-agnostic and human-specific patterns, existing works generate weak adversarial perturbations in the physical world, which fall short of attacking across different models and show visually suspicious appearance. Motivated by the viewpoint that attention reflects the intrinsic characteristics of the recognition process, this paper proposes the Dual Attention Suppression (DAS) attack to generate visually-natural physical adversarial camouflages with strong transferability by suppressing both model and human attention. As for attacking, we generate transferable adversarial camouflages by distracting the model-shared similar attention patterns from the target to non-target regions. Meanwhile, based on the fact that human visual attention always focuses on salient items (e.g., suspicious distortions), we evade the human-specific bottom-up attention to generate visually-natural camouflages which are correlated to the scenario context. We conduct extensive experiments in both the digital and physical world for classification and detection tasks on up-to-date models (e.g., Yolo-V5) and significantly demonstrate that our method outperforms state-of-the-art methods.
翻訳日:2021-03-03 16:32:37 公開日:2021-03-01
# p2-net: ピクセルと点マッチングのための局所特徴の同時記述と検出

P2-Net: Joint Description and Detection of Local Features for Pixel and Point Matching ( http://arxiv.org/abs/2103.01055v1 )

ライセンス: Link先を確認
Bing Wang, Changhao Chen, Zhaopeng Cui, Jie Qin, Chris Xiaoxuan Lu, Zhengdi Yu, Peijun Zhao, Zhen Dong, Fan Zhu, Niki Trigoni, Andrew Markham(参考訳) 2Dおよび3Dキーポイントの正確な記述と検出は、画像と点雲間の対応を確立する上で重要である。 学習ベースの2Dまたは3Dローカル特徴記述子と検出器が多数提案されているにもかかわらず、共有ディスクリプタと共同キーポイント検出器は、直接ピクセルとポイントと一致する。 この研究は、2D画像と3D点雲の微粒な対応を確立するための取り組みである。 画素と点を直接マッチングするために、2dおよび3d入力を共有潜在表現空間にマッピングし、同時にキーポイントを記述および検出する2つの完全畳み込みフレームワークが提示される。 さらに、新たなロス関数と組み合わせた超広帯域受信機構を設計し、画素と点局所領域の固有の情報変動を緩和する。 大規模な実験結果から,本フレームワークは画像と点雲の微粒化マッチングにおける競合性能を示し,室内の視覚的ローカライゼーションの課題に対する最先端の結果が得られた。 ソースコードは[no-name-for-blind-re view]で入手できる。

Accurately describing and detecting 2D and 3D keypoints is crucial to establishing correspondences across images and point clouds. Despite a plethora of learning-based 2D or 3D local feature descriptors and detectors having been proposed, the derivation of a shared descriptor and joint keypoint detector that directly matches pixels and points remains under-explored by the community. This work takes the initiative to establish fine-grained correspondences between 2D images and 3D point clouds. In order to directly match pixels and points, a dual fully convolutional framework is presented that maps 2D and 3D inputs into a shared latent representation space to simultaneously describe and detect keypoints. Furthermore, an ultra-wide reception mechanism in combination with a novel loss function are designed to mitigate the intrinsic information variations between pixel and point local regions. Extensive experimental results demonstrate that our framework shows competitive performance in fine-grained matching between images and point clouds and achieves state-of-the-art results for the task of indoor visual localization. Our source code will be available at [no-name-for-blind-re view].
翻訳日:2021-03-03 16:32:09 公開日:2021-03-01
# Few-Shotオブジェクト検出のためのUniversal-Prototype Augmentation

Universal-Prototype Augmentation for Few-Shot Object Detection ( http://arxiv.org/abs/2103.01077v1 )

ライセンス: Link先を確認
Aming Wu, Yahong Han, Linchao Zhu, Yi Yang, Cheng Deng(参考訳) Few-shot Object Detection (FSOD)は、ラベル付きサンプルの少ない新しいオブジェクト検出のパフォーマンスを強化することを目的とする。 少数のサンプルの制約を緩和するため、新しいオブジェクトの学習機能の一般化能力の向上が重要な役割を果たす。 したがって、fsodの特徴学習プロセスは、異なる視覚変化の下で不変であり、特徴の一般化に役立つ本質的対象特性により焦点をあてるべきである。 本稿では、メタラーニングパラダイムのこれまでの試みと異なり、異なるオブジェクトカテゴリにまたがって普遍的な特性を持つオブジェクトの特徴を滑らかにする方法を考察する。 我々は,すべての対象カテゴリから学習した新しいプロトタイプ,すなわちユニバーサルプロトタイプを提案する。 不変特性を特徴付ける利点に加えて、ユニバーサルプロトタイプは非平衡対象圏の影響を緩和する。 オブジェクト特徴を普遍的なプロトタイプで拡張した後、拡張特徴と元の特徴との一致を最大化するために一貫性損失を課し、不変なオブジェクト特性を学習するのに有益である。 そこで我々は,新規なオブジェクトに対する特徴一般化のメリットを持つユニバーサルプロトタイプ({FSOD}^{up}$)を用いた,少数ショットオブジェクト検出の新しいフレームワークを開発した。 PASCAL VOCとMS COCOの実験結果は${FSOD}^{up}$の有効性を示しています。 特に、VOC Split2 の 1 ショットの場合、${FSOD}^{up}$ は mAP の点で 6.8 % を上回ります。 さらに、長尾検出データセット、すなわちLVIS上で ${FSOD}^{up}$ をさらに検証する。 そして$FSOD}^{up}$を使うことは最先端のメソッドよりも優れています。

Few-shot object detection (FSOD) aims to strengthen the performance of novel object detection with few labeled samples. To alleviate the constraint of few samples, enhancing the generalization ability of learned features for novel objects plays a key role. Thus, the feature learning process of FSOD should focus more on intrinsical object characteristics, which are invariant under different visual changes and therefore are helpful for feature generalization. Unlike previous attempts of the meta-learning paradigm, in this paper, we explore how to smooth object features with intrinsical characteristics that are universal across different object categories. We propose a new prototype, namely universal prototype, that is learned from all object categories. Besides the advantage of characterizing invariant characteristics, the universal prototypes alleviate the impact of unbalanced object categories. After augmenting object features with the universal prototypes, we impose a consistency loss to maximize the agreement between the augmented features and the original one, which is beneficial for learning invariant object characteristics. Thus, we develop a new framework of few-shot object detection with universal prototypes (${FSOD}^{up}$) that owns the merit of feature generalization towards novel objects. Experimental results on PASCAL VOC and MS COCO demonstrate the effectiveness of ${FSOD}^{up}$. Particularly, for the 1-shot case of VOC Split2, ${FSOD}^{up}$ outperforms the baseline by 6.8\% in terms of mAP. Moreover, we further verify ${FSOD}^{up}$ on a long-tail detection dataset, i.e., LVIS. And employing ${FSOD}^{up}$ outperforms the state-of-the-art method.
翻訳日:2021-03-03 16:31:48 公開日:2021-03-01
# StyleGAN用円形人工物の系統解析と除去

Systematic Analysis and Removal of Circular Artifacts for StyleGAN ( http://arxiv.org/abs/2103.01090v1 )

ライセンス: Link先を確認
Way Tan, Bihan Wen, Xulei Yang(参考訳) StyleGANは、高解像度と超リアルな顔画像の合成で有名な最先端の画像ジェネレーターの1つです。 バニラスタイルGANモデルによって生成された画像は視覚的に魅力的であるが、しばしば、生成された画像の品質を著しく低下させる顕著な円形のアーティファクトを含んでいる。 本研究では、バニラ様式GANアーキテクチャの異なる段階の機能を検討し、メカニズム解析と広範な実験の両方を用いて、これらの円形アーティファクトがどのように形成されるのかを体系的に調査する。 このような望ましくないアーティファクトを促進するバニラスタイルガンのキーモジュールが強調される。 私たちの調査では、アーティファクトが通常、円形であり、比較的小さく、まれに2つ以上の部分に分割される理由も説明しています。 さらに,バニラ型GANの顕著な円形アーティファクトを,新しいピクセルインスタンス正規化(PIN)層を適用して,簡易かつ効果的に除去する手法を提案する。

StyleGAN is one of the state-of-the-art image generators which is well-known for synthesizing high-resolution and hyper-realistic face images. Though images generated by vanilla StyleGAN model are visually appealing, they sometimes contain prominent circular artifacts which severely degrade the quality of generated images. In this work, we provide a systematic investigation on how those circular artifacts are formed by studying the functionalities of different stages of vanilla StyleGAN architecture, with both mechanism analysis and extensive experiments. The key modules of vanilla StyleGAN that promote such undesired artifacts are highlighted. Our investigation also explains why the artifacts are usually circular, relatively small and rarely split into 2 or more parts. Besides, we propose a simple yet effective solution to remove the prominent circular artifacts for vanilla StyleGAN, by applying a novel pixel-instance normalization (PIN) layer.
翻訳日:2021-03-03 16:31:23 公開日:2021-03-01
# instancerefer:マルチレベルコンテクスト参照によるポイントクラウドの視覚的接地のための協調的総合的理解

InstanceRefer: Cooperative Holistic Understanding for Visual Grounding on Point Clouds through Instance Multi-level Contextual Referring ( http://arxiv.org/abs/2103.01128v1 )

ライセンス: Link先を確認
Zhihao Yuan, Xu Yan, Yinghong Liao, Ruimao Zhang, Zhen Li, Shuguang Cui(参考訳) 2次元画像の視覚的接地と比較すると,点雲上の自然言語誘導3次元物体の局在は,ばらばらで不規則な性質のため,より困難である。 本稿では,インスタンス属性の統一化,関係性,局在性知覚を通じて,優れた3次元視覚接地を実現するための新しいモデルであるInstanceReferを提案する。 実際、自然言語から予測されたターゲットカテゴリに基づいて、私たちのモデルはまず、ポイントクラウド上のパンオプティクスセグメンテーションからインスタンスをフィルタリングして、少数の候補を得ます。 このようなインスタンスレベルの候補は、冗長な3Dオブジェクトプロポーサル候補よりも効果的で合理的である。 そして,各候補に対して,複数レベルの文脈的理解,インスタンス属性認識,インスタンス間関係知覚,インスタンス間グローバルローカライゼーション知覚から,協調的全体的シーン言語理解を行う。 最終的に、最も関連する候補は適応信頼融合によって効果的に局所化される。 実験では、私たちのInstanceReferは、ScanReferベンチマークの9.5%の改善(ランキング1位)とSr3Dの7.2%の改善など、以前の最先端のメソッドを大きなマージンで上回っていることを確認しています。

Compared with the visual grounding in 2D images, the natural-language-gui ded 3D object localization on point clouds is more challenging due to the sparse and disordered property. In this paper, we propose a new model, named InstanceRefer, to achieve a superior 3D visual grounding through unifying instance attribute, relation and localization perceptions. In practice, based on the predicted target category from natural language, our model first filters instances from panoptic segmentation on point clouds to obtain a small number of candidates. Note that such instance-level candidates are more effective and rational than the redundant 3D object-proposal candidates. Then, for each candidate, we conduct the cooperative holistic scene-language understanding, i.e., multi-level contextual referring from instance attribute perception, instance-to-instance relation perception and instance-to-backgrou nd global localization perception. Eventually, the most relevant candidate is localized effectively through adaptive confidence fusion. Experiments confirm that our InstanceRefer outperforms previous state-of-the-art methods by a large margin, i.e., 9.5% improvement on the ScanRefer benchmark (ranked 1st place) and 7.2% improvement on Sr3D.
翻訳日:2021-03-03 16:31:06 公開日:2021-03-01
# siameseネットワークにおける物体追跡のための多重畳み込み特徴

Multiple Convolutional Features in Siamese Networks for Object Tracking ( http://arxiv.org/abs/2103.01222v1 )

ライセンス: Link先を確認
Zhenxi Li, Guillaume-Alexandre Bilodeau, Wassim Bouachir(参考訳) シームズトラッカーは、精度と速度のバランスのため、物体追跡において高い性能を示した。 分類ベースのcnnとは異なり、ディープ類似性ネットワークは画像類似性問題に対処するために特別に設計されており、本質的に追跡タスクに適している。 しかし、シームズトラッカーは主に類似性分析とターゲット探索に最後の畳み込み層を使用し、性能を制限している。 本稿では,単一畳み込み層を特徴表現として用いることは,深い類似性の枠組みにおいて最適選択ではないと主張する。 本研究では,複数の階層的特徴マップを用いてロバストな追跡を行う,新しい追跡アルゴリズムであるsiamese tracker (mfst)を提案する。 畳み込み層はオブジェクトを特徴づけるいくつかの抽象レベルを提供するので、階層的な特徴を融合させることで、ターゲットのよりリッチで効率的な表現を得ることができる。 さらに,2つの異なるCNNモデルから抽出した深部特徴を校正することにより,ターゲットの外観変化を処理する。 この高度な特徴表現に基づいて,本手法はオブジェクト追跡ベンチマークにおいて,標準的なサイメシトラッカよりも高いトラッキング精度を実現する。 ソースコードとトレーニングされたモデルはhttps://github.com/z henxili96/MFSTで入手できる。

Siamese trackers demonstrated high performance in object tracking due to their balance between accuracy and speed. Unlike classification-based CNNs, deep similarity networks are specifically designed to address the image similarity problem, and thus are inherently more appropriate for the tracking task. However, Siamese trackers mainly use the last convolutional layers for similarity analysis and target search, which restricts their performance. In this paper, we argue that using a single convolutional layer as feature representation is not an optimal choice in a deep similarity framework. We present a Multiple Features-Siamese Tracker (MFST), a novel tracking algorithm exploiting several hierarchical feature maps for robust tracking. Since convolutional layers provide several abstraction levels in characterizing an object, fusing hierarchical features allows to obtain a richer and more efficient representation of the target. Moreover, we handle the target appearance variations by calibrating the deep features extracted from two different CNN models. Based on this advanced feature representation, our method achieves high tracking accuracy, while outperforming the standard siamese tracker on object tracking benchmarks. The source code and trained models are available at https://github.com/z henxili96/MFST.
翻訳日:2021-03-03 16:30:43 公開日:2021-03-01
# シングルイメージシャドウ除去のための自動露光融合

Auto-Exposure Fusion for Single-Image Shadow Removal ( http://arxiv.org/abs/2103.01255v1 )

ライセンス: Link先を確認
Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang(参考訳) シャドウ除去は、その固有の背景依存性と空間変動特性のために、未知で多様なシャドウパターンにつながる、まだ困難な作業です。 最先端のディープニューラルネットワークでさえ、トレースレスのシャドウ除去された背景をほとんど回復できない。 本稿では,これらの課題に対処するため,露光融合問題として定式化して新しい解法を提案する。 直感的には、まず複数の過剰露光画像 w.r.t を推定できる。 これらの画像の影領域が入力画像の影のない領域と同じ色を持つようにするための入力画像。 そして、元の入力をオーバー露光画像と融合し、最終的なシャドウフリー画像を生成する。 それでも、シャドーの空間的不変性は、融合が十分に「スマート」である必要があり、すなわち、最終的な出力を自然なものにするために、異なる画像から適切なオーバー露光ピクセルを自動的に選択する必要がある。 この課題に対処するため,我々は,影画像を入力として全露光画像の融合重みマップを生成する,"bf shadow-aware fusionnet} を提案する。 さらに, 残りの影跡を更に排除するために, {\bf boundary-aware refinenet} を提案する。 我々はISTD, ISTD+, SRDデータセットの広範な実験を行い, 提案手法の有効性を検証し, シャドー領域における性能と非シャドウ領域における非シャドウ領域における同等の性能を示す。 モデルとコードをhttps://github.com/t singqguo/exposure-fu sion-shadow-removalでリリースします。

Shadow removal is still a challenging task due to its inherent background-dependent and spatial-variant properties, leading to unknown and diverse shadow patterns. Even powerful state-of-the-art deep neural networks could hardly recover traceless shadow-removed background. This paper proposes a new solution for this task by formulating it as an exposure fusion problem to address the challenges. Intuitively, we can first estimate multiple over-exposure images w.r.t. the input image to let the shadow regions in these images have the same color with shadow-free areas in the input image. Then, we fuse the original input with the over-exposure images to generate the final shadow-free counterpart. Nevertheless, the spatial-variant property of the shadow requires the fusion to be sufficiently `smart', that is, it should automatically select proper over-exposure pixels from different images to make the final output natural. To address this challenge, we propose the {\bf shadow-aware FusionNet} that takes the shadow image as input to generate fusion weight maps across all the over-exposure images. Moreover, we propose the {\bf boundary-aware RefineNet} to eliminate the remaining shadow trace further. We conduct extensive experiments on the ISTD, ISTD+, and SRD datasets to validate our method's effectiveness and show better performance in shadow regions and comparable performance in non-shadow regions over the state-of-the-art methods. We release the model and code in https://github.com/t singqguo/exposure-fu sion-shadow-removal.
翻訳日:2021-03-03 16:30:23 公開日:2021-03-01
# HSI特徴の高次元幾何学の探索

Exploring the high dimensional geometry of HSI features ( http://arxiv.org/abs/2103.01303v1 )

ライセンス: Link先を確認
Wojciech Czaja, Ilya Kavalerov, Weilin Li(参考訳) 3次元フーリエ散乱変換とディープニューラルネットワークによって引き起こされる特徴空間ジオメトリを4つの標準超スペクトル画像に拡張した属性プロファイルを用いて検討する。 クラス平均の距離と角度、クラスの変動性、およびそれらの低次元構造を調べます。 これらの統計を生の特徴の統計と比較し,これら2つの方法の非常に異なる性質について考察した。 また、新たに観測された神経崩壊の深層学習現象との関連性を探ります。

We explore feature space geometries induced by the 3-D Fourier scattering transform and deep neural network with extended attribute profiles on four standard hyperspectral images. We examine the distances and angles of class means, the variability of classes, and their low-dimensional structures. These statistics are compared to that of raw features, and our results provide insight into the vastly different properties of these two methods. We also explore a connection with the newly observed deep learning phenomenon of neural collapse.
翻訳日:2021-03-03 16:29:57 公開日:2021-03-01
# 脳プログラミングは敵対的攻撃と相反する: シンボリック学習による正確な画像分類とロバストな画像分類に向けて

Brain Programming is Immune to Adversarial Attacks: Towards Accurate and Robust Image Classification using Symbolic Learning ( http://arxiv.org/abs/2103.01359v1 )

ライセンス: Link先を確認
Gerardo Ibarra-Vazquez, Gustavo Olague, Mariana Chan-Ley, Cesar Puente, Carlos Soubervielle-Montalv o(参考訳) 近年、深層畳み込みニューラルネットワーク(dcnn)と逆境攻撃(aa)の脆弱性に関するセキュリティ上の懸念が、人間の視覚にほとんど見えない入力画像に小さな修正を加えることで、その予測は信頼できないものになっている。 そのため,新たな分類器を開発する際には,正確なスコアに加えて,逆例に頑健性を与える必要がある。 本研究では,アートメディア分類の複雑な問題に対するaaの効果について比較研究を行い,美術品の美術品群集を分類するための特徴の精巧な分析を行った。 我々は、コンピュータビジョンからのビジュアルワードアプローチ、最先端のDCNNモデル(AlexNet、VGG、ResNet、ResNet101)、Brain Programming (BP)アルゴリズムの4つを試した。 本研究では,アルゴリズムの性能を精度で解析する。 また,実例とクリーン画像との精度比を用いてロバスト性を測定した。 また,各分類器の予測の信頼度を統計的に解析し,結果と相関させる。 高速勾配符号法を用いて計算した逆例を用いて,BP予測の変化が2\%以下であることを確認した。 また、マルチピクセル攻撃を考えると、BPは変更なく7つのクラスのうち4つを獲得し、残りは予測で最大4\%の誤差を持つ。 最後に、bpには4つのカテゴリがあり、反対パッチは変更なし、残りの3つのクラスは1\%である。 さらに, 統計解析の結果, BPの信頼度は, 各実験におけるクリーン画像とパーチュラブル画像のペアごとに有意差は認められなかった。 これらの結果から,DCNNや手工芸工法と比較してBPの対向例に対する頑健さが証明され,その芸術メディア分類における性能は,提案した摂動によって損なわれていた。

In recent years, the security concerns about the vulnerability of Deep Convolutional Neural Networks (DCNN) to Adversarial Attacks (AA) in the form of small modifications to the input image almost invisible to human vision make their predictions untrustworthy. Therefore, it is necessary to provide robustness to adversarial examples in addition to an accurate score when developing a new classifier. In this work, we perform a comparative study of the effects of AA on the complex problem of art media categorization, which involves a sophisticated analysis of features to classify a fine collection of artworks. We tested a prevailing bag of visual words approach from computer vision, four state-of-the-art DCNN models (AlexNet, VGG, ResNet, ResNet101), and the Brain Programming (BP) algorithm. In this study, we analyze the algorithms' performance using accuracy. Besides, we use the accuracy ratio between adversarial examples and clean images to measure robustness. Moreover, we propose a statistical analysis of each classifier's predictions' confidence to corroborate the results. We confirm that BP predictions' change was below 2\% using adversarial examples computed with the fast gradient sign method. Also, considering the multiple pixel attack, BP obtained four out of seven classes without changes and the rest with a maximum error of 4\% in the predictions. Finally, BP also gets four categories using adversarial patches without changes and for the remaining three classes with a variation of 1\%. Additionally, the statistical analysis showed that the predictions' confidence of BP were not significantly different for each pair of clean and perturbed images in every experiment. These results prove BP's robustness against adversarial examples compared to DCNN and handcrafted features methods, whose performance on the art media classification was compromised with the proposed perturbations.
翻訳日:2021-03-03 16:29:50 公開日:2021-03-01
# 深部畳み込みニューラルネットワークを用いたマルチクラスバーンハウンド画像分類

Multiclass Burn Wound Image Classification Using Deep Convolutional Neural Networks ( http://arxiv.org/abs/2103.01361v1 )

ライセンス: Link先を確認
Behrouz Rostami, Jeffrey Niezgoda, Sandeep Gopalakrishnan, Zeyun Yu(参考訳) 世界中で毎年何百万人もの人が急性や慢性の傷に悩まされている。 創傷専門家が管理プロトコルのより正確な診断と最適化を可能にするためには、継続的な創傷監視が重要です。 機械学習に基づく分類アプローチは、より信頼性の高い結果、コスト削減、治癒時間の短縮、患者の満足度向上をもたらす最適なケア戦略を提供する。 本研究では, 深層学習による傷傷画像の分類を, 傷の状況に応じて2、3つのカテゴリに分類する。 事前訓練された深い畳み込みニューラルネットワークであるAlexNetは、火傷画像データセットを使用して微調整され、分類器として利用される。 分類器の性能は、精度、精度、リコール、および混乱行列などの分類指標を使用して評価される。 同じデータセットを使った以前の研究と比較したところ、設計した分類器は分類精度を8%以上向上させた。

Millions of people are affected by acute and chronic wounds yearly across the world. Continuous wound monitoring is important for wound specialists to allow more accurate diagnosis and optimization of management protocols. Machine Learning-based classification approaches provide optimal care strategies resulting in more reliable outcomes, cost savings, healing time reduction, and improved patient satisfaction. In this study, we use a deep learning-based method to classify burn wound images into two or three different categories based on the wound conditions. A pre-trained deep convolutional neural network, AlexNet, is fine-tuned using a burn wound image dataset and utilized as the classifier. The classifier's performance is evaluated using classification metrics such as accuracy, precision, and recall as well as confusion matrix. A comparison with previous works that used the same dataset showed that our designed classifier improved the classification accuracy by more than 8%.
翻訳日:2021-03-03 16:29:17 公開日:2021-03-01
# クリーンラベル攻撃によるロバスト学習

Robust learning under clean-label attack ( http://arxiv.org/abs/2103.00671v1 )

ライセンス: Link先を確認
Avrim Blum, Steve Hanneke, Jian Qian, Han Shao(参考訳) 本研究では,テスト時に特定のテストインスタンスに誤りを犯すアルゴリズムを騙すためのトレーニングセットに,攻撃者が(任意の)正しくラベル付けされたサンプルを注入する,クリーンラベルデータポゾン攻撃下でのロバスト学習の問題について検討する。 学習目標は、最適なPAC学習よりも難しい攻撃可能な速度(攻撃可能なテストインスタンスの確率質量)を最小化することである。 攻撃可能なレートを減少させるロバストなアルゴリズムは、pacサンプルの複雑さ、すなわち$o(1/\epsilon)$における$\epsilon$への最適依存を実現できる。 一方、線形分類器のSVMなど、一部の最適なPAC学習者でも攻撃可能な速度は大きいかもしれません。 さらに,データ分布がゼロマージンの場合,線形仮説のクラスはロバストに学習できず,正マージンの場合ロバストに学習可能であるが,その次元に指数関数的なサンプル複雑性を必要とすることを示した。 VC次元の境界を持つ一般的な仮説クラスの場合、攻撃者が最大$t>0$の毒の例を追加することを制限されている場合、最適な堅牢な学習サンプルの複雑さは$t$でほぼ直線的に成長する。

We study the problem of robust learning under clean-label data-poisoning attacks, where the attacker injects (an arbitrary set of) correctly-labeled examples to the training set to fool the algorithm into making mistakes on specific test instances at test time. The learning goal is to minimize the attackable rate (the probability mass of attackable test instances), which is more difficult than optimal PAC learning. As we show, any robust algorithm with diminishing attackable rate can achieve the optimal dependence on $\epsilon$ in its PAC sample complexity, i.e., $O(1/\epsilon)$. On the other hand, the attackable rate might be large even for some optimal PAC learners, e.g., SVM for linear classifiers. Furthermore, we show that the class of linear hypotheses is not robustly learnable when the data distribution has zero margin and is robustly learnable in the case of positive margin but requires sample complexity exponential in the dimension. For a general hypothesis class with bounded VC dimension, if the attacker is limited to add at most $t>0$ poison examples, the optimal robust learning sample complexity grows almost linearly with $t$.
翻訳日:2021-03-03 16:19:55 公開日:2021-03-01
# 確率的プログラムに対する推論アルゴリズムのメタラーニング

Meta-Learning an Inference Algorithm for Probabilistic Programs ( http://arxiv.org/abs/2103.00737v1 )

ライセンス: Link先を確認
Gwonsoo Che and Hongseok Yang(参考訳) 本稿では,制約付き確率プログラムの後方参照アルゴリズムを学習するためのメタアルゴリズムを提案する。 meta-algorithmは、観測を伴うモデルを記述する確率的プログラムのトレーニングセットを取り、同様のプログラムの後方を推論する効率的な方法の学習を試みる。 私たちのアプローチの重要な特徴は、確率的プログラミング言語のプログラムとして与えられたモデル記述自身から直接情報を抽出するホワイトボックス推論アルゴリズムを使うことです。 具体的には、ホワイトボックス推論アルゴリズムは、言語内の各種類のアトミックコマンドに対応する複数のニューラルネットワークを備えており、これらのネットワークを用いてプログラム内の個々のアトミックコマンドを分析して、与えられた確率プログラムの近似後部を計算する。 これらのネットワークのパラメータは、メタアルゴリズムによるトレーニングセットから学習される。 6つのモデルクラスに対する経験的評価は,アプローチの有望さを示している。

We present a meta-algorithm for learning a posterior-inference algorithm for restricted probabilistic programs. Our meta-algorithm takes a training set of probabilistic programs that describe models with observations, and attempts to learn an efficient method for inferring the posterior of a similar program. A key feature of our approach is the use of what we call a white-box inference algorithm that extracts information directly from model descriptions themselves, given as programs in a probabilistic programming language. Concretely, our white-box inference algorithm is equipped with multiple neural networks, one for each type of atomic command in the language, and computes an approximate posterior of a given probabilistic program by analysing individual atomic commands in the program using these networks. The parameters of these networks are then learnt from a training set by our meta-algorithm. Our empirical evaluation for six model classes shows the promise of our approach.
翻訳日:2021-03-03 16:19:33 公開日:2021-03-01
# グラフ上での自動機械学習:調査

Automated Machine Learning on Graphs: A Survey ( http://arxiv.org/abs/2103.00742v1 )

ライセンス: Link先を確認
Ziwei Zhang, Xin Wang and Wenwu Zhu(参考訳) グラフ上の機械学習は、学術と産業の両方で広く研究されている。 しかし、グラフ学習に関する文献が多くの新しい手法や技術と共にブームとなり、異なるグラフ関連タスクに対して最適な機械学習アルゴリズムを手動で設計することはますます困難になっている。 この重要な課題を解決するため、グラフ機械学習とAutoMLの強みを融合させたグラフの自動機械学習(AutoML)が研究コミュニティから注目を集めています。 そこで本稿では,グラフ機械学習のためのハイパーパラメータ最適化(HPO)とニューラルアーキテクチャ探索(NAS)を中心に,AutoMLをグラフ上で総合的に調査する。 グラフ機械学習の自動化に関するライブラリをさらに概観し,グラフ上のautoml専用のオープンソースライブラリであるautoglについて詳しく説明する。 最後に、自動化グラフ機械学習の今後の研究方向に関する洞察を共有します。 我々の知る限り、この論文はグラフ上の自動機械学習の体系的かつ包括的なレビューとしては初めてである。

Machine learning on graphs has been extensively studied in both academic and industry. However, as the literature on graph learning booms with a vast number of emerging methods and techniques, it becomes increasingly difficult to manually design the optimal machine learning algorithm for different graph-related tasks. To solve this critical challenge, automated machine learning (AutoML) on graphs which combines the strength of graph machine learning and AutoML together, is gaining attentions from the research community. Therefore, we comprehensively survey AutoML on graphs in this paper, primarily focusing on hyper-parameter optimization (HPO) and neural architecture search (NAS) for graph machine learning. We further overview libraries related to automated graph machine learning and in depth discuss AutoGL, the first dedicated open-source library for AutoML on graphs. In the end, we share our insights on future research directions for automated graph machine learning. To the best of our knowledge, this paper is the first systematic and comprehensive review of automated machine learning on graphs.
翻訳日:2021-03-03 16:19:20 公開日:2021-03-01
# メタラーニングによるグラフニューラルネットワークの自己監督型補助学習

Self-supervised Auxiliary Learning for Graph Neural Networks via Meta-Learning ( http://arxiv.org/abs/2103.00771v1 )

ライセンス: Link先を確認
Dasol Hwang, Jinyoung Park, Sunyoung Kwon, Kyung-Min Kim, Jung-Woo Ha, and Hyunwoo j. Kim(参考訳) 近年、グラフニューラルネットワーク(GNN)はグラフ構造化データの表現学習に広く採用されており、リンク予測やノード分類といった様々なアプリケーションで最先端のパフォーマンスを提供している。 同時に、グラフ上の表現学習に豊富なラベルのないデータを活用するために、ある程度自己監督学習が研究されている。 しかし、主課題を支援する補助タスクとして自己超越タスクを採用することは、グラフに関する文献ではあまり研究されていない。 本稿では,グラフニューラルネットワークを効果的に学習するための自己監視型補助学習フレームワークを提案する。 さらに、まずメタパス予測を非均質グラフの自己監視補助タスクとして設計する。 本手法では,様々な補助タスクを用いて一次タスクを学習し,一般化性能を向上させる。 提案手法は補助タスクの効果的な組み合わせを特定し,それらを自動的にバランスさせ,一次タスクを改善する。 本手法は,任意のグラフニューラルネットワークに対して,手動ラベリングや追加データなしでプラグイン方式で適用することができる。 また、他の補助的なタスクにも拡張できる。 提案手法は,ヘテロジニアスグラフにおけるリンク予測とノード分類の性能を一貫して向上させることを示す。

In recent years, graph neural networks (GNNs) have been widely adopted in representation learning of graph-structured data and provided state-of-the-art performance in various application such as link prediction and node classification. Simultaneously, self-supervised learning has been studied to some extent to leverage rich unlabeled data in representation learning on graphs. However, employing self-supervision tasks as auxiliary tasks to assist a primary task has been less explored in the literature on graphs. In this paper, we propose a novel self-supervised auxiliary learning framework to effectively learn graph neural networks. Moreover, we design first a meta-path prediction as a self-supervised auxiliary task for heterogeneous graphs. Our method is learning to learn a primary task with various auxiliary tasks to improve generalization performance. The proposed method identifies an effective combination of auxiliary tasks and automatically balances them to improve the primary task. Our methods can be applied to any graph neural networks in a plug-in manner without manual labeling or additional data. Also, it can be extended to any other auxiliary tasks. Our experiments demonstrate that the proposed method consistently improves the performance of link prediction and node classification on heterogeneous graphs.
翻訳日:2021-03-03 16:19:05 公開日:2021-03-01
# 構造ラベルのための計算効率の高いWasserstein損失

Computationally Efficient Wasserstein Loss for Structured Labels ( http://arxiv.org/abs/2103.00899v1 )

ライセンス: Link先を確認
Ayato Toyokuni, Sho Yokoi, Hisashi Kashima, Makoto Yamada(参考訳) ラベルの確率分布を推定する問題は、年齢推定、感情分析、セマンティックセグメンテーションを含むラベル分布学習(LDL)問題として広く研究されている。 階層的テキスト分類タスクに着目した木-ワッサーシュタイン距離正規化LDLアルゴリズムを提案する。 予測されたラベルと真のラベルの類似度を木-Wasserstein距離を用いて測定するニューラルネットワークを用いて,ラベル階層全体の予測を提案する。 合成および実世界のデータセットを用いた実験により,提案手法が学習中にラベルの構造を十分に検討できることを示し,計算時間とメモリ使用量の観点からシンクホーンアルゴリズムと比較した。

The problem of estimating the probability distribution of labels has been widely studied as a label distribution learning (LDL) problem, whose applications include age estimation, emotion analysis, and semantic segmentation. We propose a tree-Wasserstein distance regularized LDL algorithm, focusing on hierarchical text classification tasks. We propose predicting the entire label hierarchy using neural networks, where the similarity between predicted and true labels is measured using the tree-Wasserstein distance. Through experiments using synthetic and real-world datasets, we demonstrate that the proposed method successfully considers the structure of labels during training, and it compares favorably with the Sinkhorn algorithm in terms of computation time and memory usage.
翻訳日:2021-03-03 16:18:51 公開日:2021-03-01
# 後方更新によるセキュアな双方向非同期垂直フェデレーション学習

Secure Bilevel Asynchronous Vertical Federated Learning with Backward Updating ( http://arxiv.org/abs/2103.00958v1 )

ライセンス: Link先を確認
Qingsong Zhang, Bin Gu, Cheng Deng and Heng Huang(参考訳) 垂直連合学習(VFL)は、多人数協調モデリングの新たな需要とプライバシー漏洩の懸念から注目を集めている。 実際のVFLアプリケーションでは、通常は1つまたは一部のパーティのみがラベルを保持するため、すべてのパーティがプライバシの漏洩なしにモデルを共同で学習することは困難である。 一方、既存のほとんどのVFLアルゴリズムは同期計算に閉じ込められており、実際のアプリケーションでは効率が悪い。 これらの課題を解決するために、新しい {\bf b}ackward 更新機構と、VF{${\textbf{B}}^2$}-SGD, -SVRG, -SAGA を含む3つの新しいアルゴリズムが提案される、新しい {\bf b}ackward 更新機構および {\bf b}ilevel 非同期並列アーキテクチャ (VF{${\textbf{B}}^2$}) と統合された新しい {\bf VF}L フレームワークを提案する。 強凸条件と非凸条件の両方下でのこれら3つのアルゴリズムの収束率の理論結果を導出する。 私達はまた半正直な脅威モデルの下でVF{${\textbf{B}}^2$}のセキュリティを証明します。 ベンチマークデータセットに関する広範な実験は、アルゴリズムが効率的でスケーラブルでロスレスであることを示しています。

Vertical federated learning (VFL) attracts increasing attention due to the emerging demands of multi-party collaborative modeling and concerns of privacy leakage. In the real VFL applications, usually only one or partial parties hold labels, which makes it challenging for all parties to collaboratively learn the model without privacy leakage. Meanwhile, most existing VFL algorithms are trapped in the synchronous computations, which leads to inefficiency in their real-world applications. To address these challenging problems, we propose a novel {\bf VF}L framework integrated with new {\bf b}ackward updating mechanism and {\bf b}ilevel asynchronous parallel architecture (VF{${\textbf{B}}^2$}), under which three new algorithms, including VF{${\textbf{B}}^2$}-SGD, -SVRG, and -SAGA, are proposed. We derive the theoretical results of the convergence rates of these three algorithms under both strongly convex and nonconvex conditions. We also prove the security of VF{${\textbf{B}}^2$} under semi-honest threat models. Extensive experiments on benchmark datasets demonstrate that our algorithms are efficient, scalable and lossless.
翻訳日:2021-03-03 16:18:38 公開日:2021-03-01
# Snowflake:パラメータ凍結によるGNNの高次元連続制御へのスケーリング

Snowflake: Scaling GNNs to High-Dimensional Continuous Control via Parameter Freezing ( http://arxiv.org/abs/2103.01009v1 )

ライセンス: Link先を確認
Charlie Blake, Vitaly Kurin, Maximilian Igl, Shimon Whiteson(参考訳) 最近の研究によると、グラフニューラルネットワーク(GNN)は、典型的な多層パーセプトロン(MLP)と同じくらい効果的で、転送とマルチタスクのパフォーマンスが優れた移動制御のポリシーを学ぶことができる(Wang et al., 2018; Huang et al., 2020)。 これまでのところ、GNNの性能はセンサーやアクチュエータの数が増加するにつれて急速に低下しているため、小さなエージェントのトレーニングに限られている。 教師付き学習環境におけるGNNの使用の主な動機は、大規模なグラフへの適用性であるが、この利点はまだロコモーション制御のために実現されていない。 我々は、メッセージのエンコード、デコード、伝搬を行うネットワーク内のMLPに過度に適合する、この低いスケーリングを引き起こす共通のGNNアーキテクチャの弱点を特定します。 これに対抗するために、オーバーフィッティングに苦しむネットワークの一部でパラメータを凍結する高次元連続制御のためのGNNトレーニング手法であるSnowflakeを導入する。 スノーフレークは大規模エージェントの移動制御におけるGNNの性能を大幅に向上させ、現在ではMPPの性能に適合し、転送特性も優れている。

Recent research has shown that Graph Neural Networks (GNNs) can learn policies for locomotion control that are as effective as a typical multi-layer perceptron (MLP), with superior transfer and multi-task performance (Wang et al., 2018; Huang et al., 2020). Results have so far been limited to training on small agents, with the performance of GNNs deteriorating rapidly as the number of sensors and actuators grows. A key motivation for the use of GNNs in the supervised learning setting is their applicability to large graphs, but this benefit has not yet been realised for locomotion control. We identify the weakness with a common GNN architecture that causes this poor scaling: overfitting in the MLPs within the network that encode, decode, and propagate messages. To combat this, we introduce Snowflake, a GNN training method for high-dimensional continuous control that freezes parameters in parts of the network that suffer from overfitting. Snowflake significantly boosts the performance of GNNs for locomotion control on large agents, now matching the performance of MLPs, and with superior transfer properties.
翻訳日:2021-03-03 16:17:39 公開日:2021-03-01
# 非侵入検査システムの予測保守ツール

Predictive Maintenance Tool for Non-Intrusive Inspection Systems ( http://arxiv.org/abs/2103.01044v1 )

ライセンス: Link先を確認
Georgi Nalbantov, Dimitar Todorov, Nikolay Zografov, Stefan Georgiev, Nadia Bojilova(参考訳) 国境を越えたセキュリティは社会にとって最優先事項です。 経済は偽造者やその他の脅威のために毎年数十億ドルを失う。 空港、港、国境管理、税関当局などのx線セキュリティシステム(niis-non-intrusive inspection system)を備えたセキュリティチェックポイントは、niisを使用してバッグ、航空、陸上、海上および鉄道貨物および車両を検査することで、無数の脅威に対処している。 X線スキャンシステムへの依存は、提供された24/7の連続的な機能を必要とする。 そのため、作業条件を厳密に監視し、X線システム全体のダウンタイムを減らすためにプリエンプティブアクションを行う必要がある。 本稿では,PMT4NIIS(Predictive maintenance Tool for Non-Intrusive Inspection Systems)と呼ばれる予測保守意思決定支援システムを提案する。 産業用プラットフォームは、さまざまなX線セキュリティシステムの動作状態のための24/7サービスデスクと監視センターの基礎です。

Cross-border security is of topmost priority for societies. Economies lose billions each year due to counterfeiters and other threats. Security checkpoints equipped with X-ray Security Systems (NIIS-Non-Intrusive Inspection Systems) like airports, ports, border control and customs authorities tackle the myriad of threats by using NIIS to inspect bags, air, land, sea and rail cargo, and vehicles. The reliance on the X-ray scanning systems necessitates their continuous 24/7 functioning being provided for. Hence the need for their working condition being closely monitored and preemptive actions being taken to reduce the overall X-ray systems downtime. In this paper, we present a predictive maintenance decision support system, abbreviated as PMT4NIIS (Predictive Maintenance Tool for Non-Intrusive Inspection Systems), which is a kind of augmented analytics platforms that provides real-time AI-generated warnings for upcoming risk of system malfunctioning leading to possible downtime. The industrial platform is the basis of a 24/7 Service Desk and Monitoring center for the working condition of various X-ray Security Systems.
翻訳日:2021-03-03 16:17:19 公開日:2021-03-01
# ほぼ最適に後悔するバイアス付きグラフニューラルネットワークサンプル

A Biased Graph Neural Network Sampler with Near-Optimal Regret ( http://arxiv.org/abs/2103.01089v1 )

ライセンス: Link先を確認
Qingru Zhang, David Wipf, Quan Gan and Le Song(参考訳) グラフニューラルネットワーク(GNN)は、グラフおよびリレーショナルデータにディープネットワークアーキテクチャを適用する手段として最近登場した。 しかし,産業データセットの規模が大きくなると,GNN層間での情報共有に必要なメッセージパッシング計算はもはやスケーラブルではない。 トラクタブルな予算内でのフルグラフトレーニングを近似するために様々なサンプリング手法が導入されたが、高分散や限られた理論的保証のような未解決の合併症が残っている。 これらの問題に対処するため,我々は既存の作業に基づき,gnnの隣人サンプリングをマルチアームバンディット問題として扱うとともに,分散を低減し,不安定で非バウンドなペイアウトを回避するように設計されたバイアスをある程度導入した,新たに設計された報奨機能を備えている。 そして、以前のBandit-GNNのユースケースとは異なり、このポリシーはSGDが導入したGNNトレーニングダイナミクスを考慮に入れながら、ほぼ最適に後悔する。 現実的な見地からすると、これはより低い分散推定と、複数のベンチマークで競合的または優れたテスト精度に変換される。

Graph neural networks (GNN) have recently emerged as a vehicle for applying deep network architectures to graph and relational data. However, given the increasing size of industrial datasets, in many practical situations, the message passing computations required for sharing information across GNN layers are no longer scalable. Although various sampling methods have been introduced to approximate full-graph training within a tractable budget, there remain unresolved complications such as high variances and limited theoretical guarantees. To address these issues, we build upon existing work and treat GNN neighbor sampling as a multi-armed bandit problem but with a newly-designed reward function that introduces some degree of bias designed to reduce variance and avoid unstable, possibly-unbounded payouts. And unlike prior bandit-GNN use cases, the resulting policy leads to near-optimal regret while accounting for the GNN training dynamics introduced by SGD. From a practical standpoint, this translates into lower variance estimates and competitive or superior test accuracy across several benchmarks.
翻訳日:2021-03-03 16:16:58 公開日:2021-03-01
# 斜め決定木に対する反実例:正確で効率的なアルゴリズム

Counterfactual Explanations for Oblique Decision Trees: Exact, Efficient Algorithms ( http://arxiv.org/abs/2103.01096v1 )

ライセンス: Link先を確認
Miguel \'A. Carreira-Perpi\~n\&# x27;an and Suryabhan Singh Hada(参考訳) 我々は、ソース入力インスタンスの機能を最小に調整して、与えられた分類子の下でターゲットクラスに分類する問題である、反事実的説明を考える。 これは、トレーニングされたモデルをクエリし、決定を覆す可能性のあるアクションを提案する手段として、最近の関心事となっている。 数学的には、この問題は敵の例を見つけることと同義であり、近年は大きな注目を集めている。 反事実的な説明や敵対的な例に関するほとんどの研究は、ニューラルネットワークのような区別可能な分類器に焦点を当てている。 我々は軸合わせと斜め(超平面分割)の両方の分類木に注目した。 ここで、反事実最適化問題は非凸かつ非微分可能であるが、高次元特徴ベクトルでも連続的かつカテゴリ的特徴でも、厳密解を非常に効率的に計算できることを示し、異なるデータセットや設定でそれを示す。 結果は、解釈可能性と反実用説明が特に重要である金融、医療、または法的申請に特に関連しています。

We consider counterfactual explanations, the problem of minimally adjusting features in a source input instance so that it is classified as a target class under a given classifier. This has become a topic of recent interest as a way to query a trained model and suggest possible actions to overturn its decision. Mathematically, the problem is formally equivalent to that of finding adversarial examples, which also has attracted significant attention recently. Most work on either counterfactual explanations or adversarial examples has focused on differentiable classifiers, such as neural nets. We focus on classification trees, both axis-aligned and oblique (having hyperplane splits). Although here the counterfactual optimization problem is nonconvex and nondifferentiable, we show that an exact solution can be computed very efficiently, even with high-dimensional feature vectors and with both continuous and categorical features, and demonstrate it in different datasets and settings. The results are particularly relevant for finance, medicine or legal applications, where interpretability and counterfactual explanations are particularly important.
翻訳日:2021-03-03 16:16:37 公開日:2021-03-01
# 株式市場における極端なボラティリティ予測:GameStopが長期記憶ネットワークと出会うとき

Extreme Volatility Prediction in Stock Market: When GameStop meets Long Short-Term Memory Networks ( http://arxiv.org/abs/2103.01121v1 )

ライセンス: Link先を確認
Yigit Alparslan and Edward Kim(参考訳) 2021年の初めには、GameStop社株(NYSEのTicker GME)などの特定の株式のボラティリティが急増した。 GameStopの株価は10年平均から485円のピークまで約10倍に上昇した。 本論文では, 合併崩壊の予測と取引により, 過激なボラティリティの存在下では買取戦略を上回り得ると仮定する。 2002年2月から2021年2月まで、GME株のボラティリティを調査し、SPYをベンチマーク(低変動ETFファンドであるため)として比較しています。 戦略1では,長期短期記憶(LSTM)ニューラルネットワークを開発し,極端なボラティリティの存在下での極めて短い期間で,株価のリカレントな予測を行う。 当社の戦略2では,株価の異常を予測した後,統合的ブレークアウトのみに特化して設計したLSTMオートエンコーダネットワークを開発した。 私たちのシミュレーションでバックテストされると、私たちの戦略1は、SPYの853取引とGMEの452取引を実行します。 我々の戦略2は スパイと325のgmeの取引で 931の取引を実行します ベンチマークとして選択した期間に1株の購入と保有の両方の戦略を比較します。 私たちのシミュレーションでは、SPYは1株の売買から281.160円、戦略1から110.29円、53.5%の成功率、戦略2から4.34円、57.6%の成功率を返します。 GMEは1株の売買から45.63円、戦略1から69.046円、成功率47.12%、成功率48%の戦略2から2.10円を返します。 総じて,lstmに基づく予測モデル(strategy 1)がgmeに適用された場合を除き,学習支援型予測モデルでは,購入と保持が優れる。 この研究が、LSTMに基づく極端なボラティリティ予測の分野にさらに光を当て、売買戦略を上回ることを願っています。

The beginning of 2021 saw a surge in volatility for certain stocks such as GameStop company stock (Ticker GME under NYSE). GameStop stock increased around 10 fold from its decade-long average to its peak at \$485. In this paper, we hypothesize a buy-and-hold strategy can be outperformed in the presence of extreme volatility by predicting and trading consolidation breakouts. We investigate GME stock for its volatility and compare it to SPY as a benchmark (since it is a less volatile ETF fund) from February 2002 to February 2021. For strategy 1, we develop a Long Short-term Memory (LSTM) Neural Network to predict stock prices recurrently with a very short look ahead period in the presence of extreme volatility. For our strategy 2, we develop an LSTM autoencoder network specifically designed to trade only on consolidation breakouts after predicting anomalies in the stock price. When back-tested in our simulations, our strategy 1 executes 863 trades for SPY and 452 trades for GME. Our strategy 2 executes 931 trades for SPY and 325 trades for GME. We compare both strategies to buying and holding one single share for the period that we picked as a benchmark. In our simulations, SPY returns \$281.160 from buying and holding one single share, \$110.29 from strategy 1 with 53.5% success rate and \$4.34 from strategy 2 with 57.6% success rate. GME returns \$45.63 from buying and holding one single share, \$69.046 from strategy 1 with 47.12% success rate and \$2.10 from strategy 2 with 48% success rate. Overall, buying and holding outperforms all deep-learning assisted prediction models in our study except for when the LSTM-based prediction model (strategy 1) is applied to GME. We hope that our study sheds more light into the field of extreme volatility predictions based on LSTMs to outperform buying and holding strategy.
翻訳日:2021-03-03 16:16:21 公開日:2021-03-01
# SWIS -- 効率的なニューラルネットワーク高速化のための共有重みbItスポーサリティ

SWIS -- Shared Weight bIt Sparsity for Efficient Neural Network Acceleration ( http://arxiv.org/abs/2103.01308v1 )

ライセンス: Link先を確認
Shurui Li, Wojciech Romaszkan, Alexander Graening, Puneet Gupta(参考訳) 量子化は、コモディティハードウェアへの道を開くニューラルネットワークコンピューティングシステムの性能と効率の向上を先導している。 本論文では,オフラインの重み分解およびスケジューリングアルゴリズムを用いて,性能とストレージ圧縮の改善を実現する,効率的なニューラルネットワーク推論アクセラレーションのための量子化フレームワークであるSWIS - Shared Weight bIt Sparsityを提案する。 swisは、mobilenet-v2から4ビットのトレーニング後の(再トレーニングによる)ビットを定量化する場合の重量減少と比較して、最大54.3% (19.8%) の点精度向上を達成できる。 SWISアクセラレータは6倍のスピードアップと1.9倍のエネルギー向上を実現している。

Quantization is spearheading the increase in performance and efficiency of neural network computing systems making headway into commodity hardware. We present SWIS - Shared Weight bIt Sparsity, a quantization framework for efficient neural network inference acceleration delivering improved performance and storage compression through an offline weight decomposition and scheduling algorithm. SWIS can achieve up to 54.3% (19.8%) point accuracy improvement compared to weight truncation when quantizing MobileNet-v2 to 4 (2) bits post-training (with retraining) showing the strength of leveraging shared bit-sparsity in weights. SWIS accelerator gives up to 6x speedup and 1.9x energy improvement overstate of the art bit-serial architectures.
翻訳日:2021-03-03 16:15:45 公開日:2021-03-01
# 知識誘導動的システムモデリング:河川水質のモデル化を事例として

Knowledge-Guided Dynamic Systems Modeling: A Case Study on Modeling River Water Quality ( http://arxiv.org/abs/2103.00792v1 )

ライセンス: Link先を確認
Namyong Park, MinHyeok Kim, Nguyen Xuan Hoai, R.I. (Bob) McKay, Dong-Kyun Kim(参考訳) 実世界の現象をモデル化することは、エコロジーモデリングや財務予測など、多くの科学と工学の取り組みの焦点となっている。 複雑な動的システムのための正確なモデルの構築は、基盤となるプロセスの理解を改善し、リソース効率に繋がる。 この目標に向けて、知識駆動モデリングは人間の専門知識に基づいたモデルを構築するが、しばしば準最適である。 反対の極端に、データ駆動モデリングはデータから直接モデルを学び、広範囲なデータと潜在的に過剰なフィッティングを生成する。 中間的アプローチであるモデルリビジョンに注目し,事前知識とデータを組み合わせることで,両世界のベストを達成する。 本稿では,木に付随する文法(tag)に基づく遺伝的モデル修正フレームワークを提案し,タグ形式とgp演算子を用いて,事前知識を取り入れ,事前知識に準拠したデータ駆動型修正を行う。 我々のフレームワークは複雑なシステムの進化的モデリングにおける高い計算コストに対処するために設計されている。 河川水質モデリングの難易度に関する事例研究を通じて,既存の手法よりも高いモデリング精度で,フレームワークが効率的に解釈可能なモデルを学習できることを実証する。

Modeling real-world phenomena is a focus of many science and engineering efforts, such as ecological modeling and financial forecasting, to name a few. Building an accurate model for complex and dynamic systems improves understanding of underlying processes and leads to resource efficiency. Towards this goal, knowledge-driven modeling builds a model based on human expertise, yet is often suboptimal. At the opposite extreme, data-driven modeling learns a model directly from data, requiring extensive data and potentially generating overfitting. We focus on an intermediate approach, model revision, in which prior knowledge and data are combined to achieve the best of both worlds. In this paper, we propose a genetic model revision framework based on tree-adjoining grammar (TAG) guided genetic programming (GP), using the TAG formalism and GP operators in an effective mechanism to incorporate prior knowledge and make data-driven revisions in a way that complies with prior knowledge. Our framework is designed to address the high computational cost of evolutionary modeling of complex systems. Via a case study on the challenging problem of river water quality modeling, we show that the framework efficiently learns an interpretable model, with higher modeling accuracy than existing methods.
翻訳日:2021-03-03 16:11:53 公開日:2021-03-01
# モバイルエッジネットワークにおけるブロックチェーンベースのフェデレーション学習と車両インターネットへの応用

Blockchain-Based Federated Learning in Mobile Edge Networks with Application in Internet of Vehicles ( http://arxiv.org/abs/2103.01116v1 )

ライセンス: Link先を確認
Rui Wang, Heju Li, Erwu Liu(参考訳) Internet of Vehicles(IoV)システムパラダイムにおけるデータスケールの急速な増加は、データ共有を通じて新興アプリケーションのサービス品質を向上する新たな可能性を生み出している。 それでもプライバシの懸念は、データプロバイダが従来のIoVネットワークでプライベートデータを共有するための大きなボトルネックである。 この目的のために、新たな学習パラダイムとしてのフェデレーテッドラーニング(FL)が提案されている。データプロバイダは、ローデータをアップロードするのではなく、ローカルのローデータでトレーニングされたローカルモデル更新のみを送信する。 残念なことに、データプロバイダからアップロードされたローカルモデル更新の違いを分析することで、プライベート情報を漏らし、部分的なフェデレーションノードが悪意のある振る舞いを実行する場合、システムのパフォーマンスを保証できない。 さらに、従来のクラウドベースのFLは、IoVシステムにおける端末機器の急速な増加による通信オーバーヘッドに課題を提起している。 これらすべての課題は、モバイルエッジコンピューティング(MEC)技術がIoVシステムに自然に統合された、自律的なブロックチェーン強化プライバシー保護FLフレームワークの提案を刺激します。

The rapid increase of the data scale in Internet of Vehicles (IoV) system paradigm, hews out new possibilities in boosting the service quality for the emerging applications through data sharing. Nevertheless, privacy concerns are major bottlenecks for data providers to share private data in traditional IoV networks. To this end, federated learning (FL) as an emerging learning paradigm, where data providers only send local model updates trained on their local raw data rather than upload any raw data, has been recently proposed to build a privacy-preserving data sharing models. Unfortunately, by analyzing on the differences of uploaded local model updates from data providers, private information can still be divulged, and performance of the system cannot be guaranteed when partial federated nodes executes malicious behavior. Additionally, traditional cloud-based FL poses challenges to the communication overhead with the rapid increase of terminal equipment in IoV system. All these issues inspire us to propose an autonomous blockchain empowered privacy-preserving FL framework in this paper, where the mobile edge computing (MEC) technology was naturally integrated in IoV system.
翻訳日:2021-03-03 16:11:32 公開日:2021-03-01
# 分類器システムによる深層学習:初期結果

Deep Learning with a Classifier System: Initial Results ( http://arxiv.org/abs/2103.01118v1 )

ライセンス: Link先を確認
Richard J. Preen and Larry Bull(参考訳) 本稿では,ディープニューラルネットワークを用いた適応計算が可能な学習分類器システムを用いた最初の結果を示す。 集団内の個々の分類器は2つのニューラルネットワークで構成されている。 1つ目はゲーティングまたはガードコンポーネントとして動作し、インスタンスごとに関連するディープニューラルネットワークの条件付き計算を可能にする。 自己適応突然変異は再生に応用され、予測ネットワークは生涯学習中に確率勾配降下で洗練される。 完全連結型及び畳み込み型層の使用は、(i)各層に適用される勾配降下学習率、(ii)各層内の単位数、すなわち、完全連結型ニューロンの数と畳み込み型カーネルフィルタの数、(iii)各層の接続数、(iv)各重みがアクティブであるかどうか、(iv)局所最適度からの脱出を可能にする手書きデジタル認識タスクにおいて評価される。 最大予測誤差を達成した後、性能を維持しつつ、重みとユニットの数を自動で削減する。

This article presents the first results from using a learning classifier system capable of performing adaptive computation with deep neural networks. Individual classifiers within the population are composed of two neural networks. The first acts as a gating or guarding component, which enables the conditional computation of an associated deep neural network on a per instance basis. Self-adaptive mutation is applied upon reproduction and prediction networks are refined with stochastic gradient descent during lifetime learning. The use of fully-connected and convolutional layers are evaluated on handwritten digit recognition tasks where evolution adapts (i) the gradient descent learning rate applied to each layer (ii) the number of units within each layer, i.e., the number of fully-connected neurons and the number of convolutional kernel filters (iii) the connectivity of each layer, i.e., whether each weight is active (iv) the weight magnitudes, enabling escape from local optima. The system automatically reduces the number of weights and units while maintaining performance after achieving a maximum prediction error.
翻訳日:2021-03-03 16:11:11 公開日:2021-03-01
# Roosterize: ディープラーニングを用いたCoq検証プロジェクトのためのLemmaネームの提案

Roosterize: Suggesting Lemma Names for Coq Verification Projects Using Deep Learning ( http://arxiv.org/abs/2103.01346v1 )

ライセンス: Link先を確認
Pengyu Nie, Karl Palmskog, Junyi Jessy Li, Milos Gligoric(参考訳) 命名規約は、coqのような証明アシスタントを使用する大規模検証プロジェクトで重要な関心事である。 特に、補題名は証明エンジニアが効果的にCoqコードを理解し、修正するために使用します。 しかし、正確で情報的な補題名を提供することは複雑な作業であり、現在手動で行うことが多い。 規則ベースのツールを使って補題の命名が自動化されたとしても、生成された名前は明示的に指定されていない重要な規約に従わない可能性がある。 Coqプロジェクトにおける補題名を自動的に提案する、Roosterizeと呼ばれるツールチェーンをデモします。 Roosterizeは、既存のCoqコードで訓練されたニューラルネットワークモデルを利用しており、命名規則の手動仕様を避けている。 Coqプロジェクト開発中に証明書エンジニアがRoosterizeから提案に便利にアクセスできるようにするために、ツールチェーンを人気のVisual Studio Codeエディタに統合しました。 評価の結果,Roosterizeは強塩基性に優れており,実際に有用であることが示唆された。 roosterizeのデモビデオは、https://youtu.be/hz5 ac7q14rcで見ることができる。

Naming conventions are an important concern in large verification projects using proof assistants, such as Coq. In particular, lemma names are used by proof engineers to effectively understand and modify Coq code. However, providing accurate and informative lemma names is a complex task, which is currently often carried out manually. Even when lemma naming is automated using rule-based tools, generated names may fail to adhere to important conventions not specified explicitly. We demonstrate a toolchain, dubbed Roosterize, which automatically suggests lemma names in Coq projects. Roosterize leverages a neural network model trained on existing Coq code, thus avoiding manual specification of naming conventions. To allow proof engineers to conveniently access suggestions from Roosterize during Coq project development, we integrated the toolchain into the popular Visual Studio Code editor. Our evaluation shows that Roosterize substantially outperforms strong baselines for suggesting lemma names and is useful in practice. The demo video for Roosterize can be viewed at: https://youtu.be/HZ5 ac7Q14rc.
翻訳日:2021-03-03 16:09:51 公開日:2021-03-01
# 変圧器による単発モーション補完

Single-Shot Motion Completion with Transformer ( http://arxiv.org/abs/2103.00776v1 )

ライセンス: Link先を確認
Yinglin Duan (1), Tianyang Shi (1), Zhengxia Zou (2), Yenan Lin (3), Zhehui Qian (3), Bohan Zhang (3), Yi Yuan (1) ((1) NetEase Fuxi AI Lab, (2) University of Michigan, (3) NetEase)(参考訳) モーションコンプリートは、映画やゲームアプリケーションにとって非常に重要な課題であり、長い間議論されてきた問題です。 異なるモーションコンプリートシナリオ(イントゥイニング、インフィル、ブレンディング)の場合、以前のほとんどのメソッドはケースバイケースの設計におけるコンプリートの問題に対処する。 本研究では、複数の動作完了問題を統一した枠組みで解くためのシンプルで効果的な方法を提案し、複数の評価設定で新たな芸術的精度を実現する。 注意に基づくモデルの最近の大きな成功に触発されて、完成はシーケンス予測問題に対するシーケンスであると考える。 本手法は,入力動作の長距離依存性を学習するセルフアテンションを持つ標準トランスコーダと,時間情報をモデル化し,キーフレームを識別する訓練可能な混合埋め込みモジュールの2つのモジュールからなる。 本手法は非自己回帰的に動作し,単一のフォワード伝搬内で複数フレームの欠落をリアルタイムに予測する。 音楽ダンスの応用において,本手法の有効性を実証した。

Motion completion is a challenging and long-discussed problem, which is of great significance in film and game applications. For different motion completion scenarios (in-betweening, in-filling, and blending), most previous methods deal with the completion problems with case-by-case designs. In this work, we propose a simple but effective method to solve multiple motion completion problems under a unified framework and achieves a new state of the art accuracy under multiple evaluation settings. Inspired by the recent great success of attention-based models, we consider the completion as a sequence to sequence prediction problem. Our method consists of two modules - a standard transformer encoder with self-attention that learns long-range dependencies of input motions, and a trainable mixture embedding module that models temporal information and discriminates key-frames. Our method can run in a non-autoregressive manner and predict multiple missing frames within a single forward propagation in real time. We finally show the effectiveness of our method in music-dance applications.
翻訳日:2021-03-03 16:06:41 公開日:2021-03-01
# Bi-LSTMとマルチスケールCNNを用いた運転行動認識モデル

A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN ( http://arxiv.org/abs/2103.00801v1 )

ライセンス: Link先を確認
He Zhang, Zhixiong Nan, Tao Yang, Yifan Liu and Nanning Zheng(参考訳) 自動運転では、周囲のエージェントの運転行動を知覚することは、自我自動車が合理的な決定を下すために重要です。 本稿では,運転行動認識のための軌跡情報に基づくニューラルネットワークモデルを提案する。 本モデルでは,手作り特徴を用いた運転行動の認識や軌道の直接符号化と異なり,多スケール畳み込みニューラルネットワーク(MSCNN)モジュールを用いて,空間情報や時間情報をエンコードする高次特徴を自動的に抽出する。 入力としてエージェントの軌道シーケンスが与えられた場合、まず、双方向長短メモリ(Bi-LSTM)モジュールとMSCNNモジュールがそれぞれ入力を処理し、2つの特徴を生成し、2つの特徴を融合してエージェントの動作を分類する。 提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。

In autonomous driving, perceiving the driving behaviors of surrounding agents is important for the ego-vehicle to make a reasonable decision. In this paper, we propose a neural network model based on trajectories information for driving behavior recognition. Unlike existing trajectory-based methods that recognize the driving behavior using the hand-crafted features or directly encoding the trajectory, our model involves a Multi-Scale Convolutional Neural Network (MSCNN) module to automatically extract the high-level features which are supposed to encode the rich spatial and temporal information. Given a trajectory sequence of an agent as the input, firstly, the Bi-directional Long Short Term Memory (Bi-LSTM) module and the MSCNN module respectively process the input, generating two features, and then the two features are fused to classify the behavior of the agent. We evaluate the proposed model on the public BLVD dataset, achieving a satisfying performance.
翻訳日:2021-03-03 16:06:24 公開日:2021-03-01
# イベントベースビゾモフタポリシのための表現学習

Representation Learning for Event-based Visuomotor Policies ( http://arxiv.org/abs/2103.00806v1 )

ライセンス: Link先を確認
Sai Vemprala, Sami Mian, Ashish Kapoor(参考訳) イベントベースのカメラは動的視覚センサであり、マイクロ秒レベルで画素ごとの明るさの変化を非同期で測定することができる。 これにより、従来のフレームベースのカメラよりも大幅に高速になり、高速ナビゲーションに向いている。 興味深いセンサーのモダリティはあるものの、この非同期データは一般的な機械学習技術に課題をもたらす。 本稿では,非同期なイベントカメラデータから教師なし表現学習を行うイベント変分オートエンコーダを提案する。 時空間イベントデータからコンテクストをエンコードするためにコンパクト表現を学習することは可能であることを示す。 さらに,このような事前訓練された表現がナビゲーションに有用であることを示し,エンドツーエンドの報酬駆動認識の代わりに強化学習での使用を可能にする。 シミュレーションで障害物回避シナリオに適用することにより、この枠組みの学習のバイスモモモターポリシーを検証します。 イベントデータから学習した表現は,異なる制御能力に適応可能な高速制御ポリシのトレーニングを可能にし,イベント画像からのエンドツーエンド学習よりも高い堅牢性を示す。

Event-based cameras are dynamic vision sensors that can provide asynchronous measurements of changes in per-pixel brightness at a microsecond level. This makes them significantly faster than conventional frame-based cameras, and an appealing choice for high-speed navigation. While an interesting sensor modality, this asynchronous data poses a challenge for common machine learning techniques. In this paper, we present an event variational autoencoder for unsupervised representation learning from asynchronous event camera data. We show that it is feasible to learn compact representations from spatiotemporal event data to encode the context. Furthermore, we show that such pretrained representations can be beneficial for navigation, allowing for usage in reinforcement learning instead of end-to-end reward driven perception. We validate this framework of learning visuomotor policies by applying it to an obstacle avoidance scenario in simulation. We show that representations learnt from event data enable training fast control policies that can adapt to different control capacities, and demonstrate a higher degree of robustness than end-to-end learning from event images.
翻訳日:2021-03-03 16:06:07 公開日:2021-03-01
# クロスマップトランスフォーマー : 視覚言語ナビゲーションのためのダブルバックトランスレーションを用いたクロスモーダルマスクドパストランスフォーマー

CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation ( http://arxiv.org/abs/2103.00852v1 )

ライセンス: Link先を確認
Aly Magassouba, Komei Sugiura, and Hisashi Kawai(参考訳) 自然言語指示によるナビゲーションは、ユーザーと自然に対話する国内サービスロボットに特に適している。 このタスクは、自然言語ナビゲーション命令が与えられた指定された宛先につながる一連のアクションの予測を含みます。 したがって、作業は「トイレからシルクアウトし、右にある階段で待つ」などの指示の理解を必要とします。 視覚と言語ナビゲーションは、特に環境の探索と、言語と視覚の関係をモデル化するための指示によって指定された経路の正確な追従を必要とするため、依然として困難である。 そこで我々はCrossMap Transformerネットワークを提案し,言語的および視覚的特徴をエンコードしてパスを順次生成する。 CrossMap変換器は、ナビゲーション命令を生成するTransformerベースのスピーカーに接続されている。 生成されたパスは、生成された命令がパスに変換される間、命令に変換されます。実験結果は、命令の理解と命令生成の点で私たちのアプローチの利点を示しています。

Navigation guided by natural language instructions is particularly suitable for Domestic Service Robots that interacts naturally with users. This task involves the prediction of a sequence of actions that leads to a specified destination given a natural language navigation instruction. The task thus requires the understanding of instructions, such as ``Walk out of the bathroom and wait on the stairs that are on the right''. The Visual and Language Navigation remains challenging, notably because it requires the exploration of the environment and at the accurate following of a path specified by the instructions to model the relationship between language and vision. To address this, we propose the CrossMap Transformer network, which encodes the linguistic and visual features to sequentially generate a path. The CrossMap transformer is tied to a Transformer-based speaker that generates navigation instructions. The two networks share common latent features, for mutual enhancement through a double back translation model: Generated paths are translated into instructions while generated instructions are translated into path The experimental results show the benefits of our approach in terms of instruction understanding and instruction generation.
翻訳日:2021-03-03 16:05:52 公開日:2021-03-01
# fool me once: コントラスト学習による分散検出によるロバスト選択的セグメンテーション

Fool Me Once: Robust Selective Segmentation via Out-of-Distribution Detection with Contrastive Learning ( http://arxiv.org/abs/2103.00869v1 )

ライセンス: Link先を確認
David Williams, Matthew Gadd, Daniele De Martini and Paul Newman(参考訳) 本研究では,シーンの未知領域のセグメンテーションを拒否できるように,セグメンテーションと画素単位のアウト・オブ・ディストリビューション(ood)検出を同時に行うようにネットワークを訓練する。 これは、OoDデータセットを新しい対比目標とデータ拡張スキームで活用することによって実現される。 トレーニングデータに未知のクラスを含むデータを組み合わせることで、よりロバストな特徴表現を未知のクラスとは明確に表現された既知のクラスで学習することができる。 未知のクラスや条件が提示されると、セグメンテーションに対する多くの現在のアプローチはしばしば不正確なセグメンテーションに対して高い信頼性を示し、多くの運用環境で信頼できない。 そこで本研究では,異常な運転シーンを実世界のデータセットで検証し,oodとして予測される場面に基づいてシーンを選択的に分割することで,代替手法に対して0.2のiouでセグメンテーション精度を向上できることを示す。

In this work, we train a network to simultaneously perform segmentation and pixel-wise Out-of-Distribution (OoD) detection, such that the segmentation of unknown regions of scenes can be rejected. This is made possible by leveraging an OoD dataset with a novel contrastive objective and data augmentation scheme. By combining data including unknown classes in the training data, a more robust feature representation can be learned with known classes represented distinctly from those unknown. When presented with unknown classes or conditions, many current approaches for segmentation frequently exhibit high confidence in their inaccurate segmentations and cannot be trusted in many operational environments. We validate our system on a real-world dataset of unusual driving scenes, and show that by selectively segmenting scenes based on what is predicted as OoD, we can increase the segmentation accuracy by an IoU of 0.2 with respect to alternative techniques.
翻訳日:2021-03-03 16:05:34 公開日:2021-03-01
# ladmm-net:圧縮データからのスペクトル画像融合のための未ロール深層ネットワーク

LADMM-Net: An Unrolled Deep Network For Spectral Image Fusion From Compressive Data ( http://arxiv.org/abs/2103.00940v1 )

ライセンス: Link先を確認
Juan Marcos Ram\'irez, Jos\'e Ignacio Mart\'inez Torre, Henry Arguello Fuentes(参考訳) ハイパースペクトル(HS)およびマルチスペクトル(MS)画像融合は、低空間分解能HS画像と低スペクトル分解能MS画像から高分解能スペクトル画像を推定することを目的とする。 圧縮スペクトルイメージング (CSI) は、少ないスナップショット数を用いてスペクトル画像の関連情報をキャプチャする取得フレームワークとして登場した。 マルチセンサーcsi測定から様々なスペクトル画像融合法が提案されている。 にもかかわらず、これらの手法は高い実行時間を示し、表現変換を選択する欠点に直面している。 本研究では,HSおよびMS圧縮測定による融合問題の解法として,アルゴリズムアンロール法に基づくディープラーニングアーキテクチャを提案する。 LADMM-Netと呼ばれるこのアーキテクチャは、乗算器の交互方向法の線形化バージョンの各イテレーションを、結合が深いネットワークを形成する処理層にキャストする。 線形化アプローチは、高価な行列演算を使わずに対象変数を推定する。 このアプローチはまた、補助変数とラグランジュ乗算器の両方に含まれる画像高周波成分を推定する。 提案手法の性能を2つのスペクトル画像データベースと1つのデータセットを用いて評価した。 広範にシミュレーションした結果,提案手法は圧縮データからスペクトル画像を融合する最先端手法よりも優れていることがわかった。

Hyperspectral (HS) and multispectral (MS) image fusion aims at estimating a high-resolution spectral image from a low-spatial-resoluti on HS image and a low-spectral-resolut ion MS image. Compressive spectral imaging (CSI) has emerged as an acquisition framework that captures the relevant information of spectral images using a reduced number of snapshots. Various spectral image fusion methods from multi-sensor CSI measurements have been proposed. Nevertheless, these methods exhibit high running times and face the drawback of choosing a representation transform. In this work, a deep learning architecture under the algorithm unrolling approach is proposed for solving the fusion problem from HS and MS compressive measurements. This architecture, dubbed LADMM-Net, casts each iteration of a linearized version of the alternating direction method of multipliers into a processing layer whose concatenation forms a deep network. The linearized approach leads to estimate the target variable without resorting to expensive matrix operations. This approach also estimates the image high-frequency component included in both the auxiliary variable and the Lagrange multiplier. The performance of the proposed technique is evaluated on two spectral image databases and one dataset captured at the laboratory. Extensive simulations show that the proposed method outperforms the state-of-the-art approaches that fuse spectral images from compressive data.
翻訳日:2021-03-03 16:05:15 公開日:2021-03-01
# DPCNによる空中・地上ロボットによる実現可能領域の認識

Collaborative Recognition of Feasible region with Aerial and Ground Robots through DPCN ( http://arxiv.org/abs/2103.00947v1 )

ライセンス: Link先を確認
Yunshuang Li, Zheyuan Huang, Zexi chen, Yue Wang and Rong Xiong(参考訳) 地上ロボットは、障害物に近づいた場合にのみ衝突し、危険を感知して行動を起こすことができ、通常は衝突を避けるには遅すぎるため、ロボットに深刻な損傷を与える。 この問題に対処するため,実現可能な地域を認識した空地ロボットと地上ロボットのコラボレーションを提案する。 地上ロボットと同じ経路の視点を大規模に分散させることによる空中ロボットの利点を活かし、協調作業は地上ロボットの道路区分に関するグローバルな情報を提供し、実現可能な領域を入手し、事前の姿勢を調整できるようにする。 通常の状況下では、これらの2つのデバイス間の変換はGPSによって得られるが、誤りが多く、実現可能な領域の認識に直接的に悪影響を及ぼす。 そこで我々は, 深層位相相関ネットワーク (DPCN) と呼ばれる異種センサ計測の整合化における最先端の研究成果を利用して, 異種マッピングの性能を向上する。 ネットワークは軽量で、より良い一般化を約束している。 ヘテロジニアスなセンサ画像と空中道路セグメンテーション画像からなるAero-Groundデータセットを用いた。 その結果,協調システムは精度,速度,安定性に優れていた。

Ground robots always get collision in that only if they get close to the obstacles, can they sense the danger and take actions, which is usually too late to avoid the crash, causing severe damage to the robots. To address this issue, we present collaboration of aerial and ground robots in recognition of feasible region. Taking the aerial robots' advantages of having large scale variance of view points of the same route which the ground robots is on, the collaboration work provides global information of road segmentation for the ground robot, thus enabling it to obtain feasible region and adjust its pose ahead of time. Under normal circumstance, the transformation between these two devices can be obtained by GPS yet with much error, directly causing inferior influence on recognition of feasible region. Thereby, we utilize the state-of-the-art research achievements in matching heterogeneous sensor measurements called deep phase correlation network(DPCN), which has excellent performance on heterogeneous mapping, to refine the transformation. The network is light-weighted and promising for better generalization. We use Aero-Ground dataset which consists of heterogeneous sensor images and aerial road segmentation images. The results show that our collaborative system has great accuracy, speed and stability.
翻訳日:2021-03-03 16:04:56 公開日:2021-03-01
# 3d文字の二次動作のための深いエミュレータ

A Deep Emulator for Secondary Motion of 3D Characters ( http://arxiv.org/abs/2103.01261v1 )

ライセンス: Link先を確認
Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic(参考訳) 3Dキャラクタをアニメーションする高速で軽量な手法は、コンピュータゲームなどの様々なアプリケーションで好まれる。 本稿では,3次元キャラクタのスキンアニメーションを鮮明な二次動作効果で強化する学習的アプローチを提案する。 エッジが隣接する頂点間の内部力を暗黙的にエンコードするキャラクタシミュレーションメッシュの各局所パッチを符号化するニューラルネットワークを設計する。 ネットワークはキャラクタダイナミクスの通常の微分方程式をエミュレートし、現在の加速度、速度、位置から新しい頂点位置を予測する。 ローカルな方法であるため、ネットワークはメッシュトポロジーから独立しており、テスト時に任意に形状の3D文字メッシュに一般化します。 さらに、頂点あたりの制約や剛性などの材料特性を表現し、メッシュの異なる部分のダイナミクスを容易に調整できるようにします。 本手法を各種の文字メッシュと複雑な動作シーケンスで評価する。 提案手法は, 地上構造に基づく物理シミュレーションの30倍以上の効率で, 高速近似を行う代替解よりも優れる。

Fast and light-weight methods for animating 3D characters are desirable in various applications such as computer games. We present a learning-based approach to enhance skinning-based animations of 3D characters with vivid secondary motion effects. We design a neural network that encodes each local patch of a character simulation mesh where the edges implicitly encode the internal forces between the neighboring vertices. The network emulates the ordinary differential equations of the character dynamics, predicting new vertex positions from the current accelerations, velocities and positions. Being a local method, our network is independent of the mesh topology and generalizes to arbitrarily shaped 3D character meshes at test time. We further represent per-vertex constraints and material properties such as stiffness, enabling us to easily adjust the dynamics in different parts of the mesh. We evaluate our method on various character meshes and complex motion sequences. Our method can be over 30 times more efficient than ground-truth physically based simulation, and outperforms alternative solutions that provide fast approximations.
翻訳日:2021-03-03 16:04:35 公開日:2021-03-01
# 目標関係グラフを用いた階層的および部分的観察可能な目標駆動政策学習

Hierarchical and Partially Observable Goal-driven Policy Learning with Goals Relational Graph ( http://arxiv.org/abs/2103.01350v1 )

ライセンス: Link先を確認
Xin Ye and Yezhou Yang(参考訳) 本稿では,目標駆動ビジュアルナビゲーションなどの部分的に観測可能な目標駆動タスクに取り組むための目標関係グラフ(grg)を備えた,新たな2層階層強化学習手法を提案する。 GRGは, 目標空間におけるすべての目標の関係を, 1) 指定された最終目標を達成するための下位目標を掲げるハイレベルネットワーク, 2) 最適政策に向けた低レベルネットワーク, 3) 目に見えない環境と目標を一般化する総合システムを通じて把握する。 グリッドワールドドメインとロボティクスオブジェクト探索タスクという,部分的に監視可能な目標駆動タスクの2つの設定でアプローチを評価します。 実験の結果,本手法は未知環境と新たな目標の両方において優れた一般化性能を示すことがわかった。

We present a novel two-layer hierarchical reinforcement learning approach equipped with a Goals Relational Graph (GRG) for tackling the partially observable goal-driven task, such as goal-driven visual navigation. Our GRG captures the underlying relations of all goals in the goal space through a Dirichlet-categorica l process that facilitates: 1) the high-level network raising a sub-goal towards achieving a designated final goal; 2) the low-level network towards an optimal policy; and 3) the overall system generalizing unseen environments and goals. We evaluate our approach with two settings of partially observable goal-driven tasks -- a grid-world domain and a robotic object search task. Our experimental results show that our approach exhibits superior generalization performance on both unseen environments and new goals.
翻訳日:2021-03-03 16:04:19 公開日:2021-03-01
# Surrogate gradient Learning を用いたマルチラベルオーディオタグの高速しきい値最適化

Fast threshold optimization for multi-label audio tagging using Surrogate gradient learning ( http://arxiv.org/abs/2103.00833v1 )

ライセンス: Link先を確認
Thomas Pellegrini (IRIT-SAMoVA), Timoth\'ee Masquelier (CERCO)(参考訳) マルチラベルオーディオタグは、音声録音に一連のタグを割り当てることで構成される。 推定時には、どのクラスがアクティブかを決定するために、確率的分類器が出力する信頼度スコアにしきい値を適用する。 本研究では,訓練された分類器を廃棄することを検討し,f-measure (micro-f1) の場合,関心のある性能指標に従って決定しきい値を自動的に最適化することを目指す。 SGL-Thresh for Surrogate Gradient Learning of Thresholds(SGL-Thres h for Surrogate Gradient Learning of Thresholds)と呼ばれる新手法を提案する。 f1は微分可能ではないので,シグモイド関数の勾配を用いてしきい値操作勾配を近似する。 最先端の事前学習型深層ニューラルネットワークを用いた3つのデータセットの実験を報告する。 いずれの場合も、SGL-Threshはデフォルトしきい値(defThresh)、ヒューリスティック検索アルゴリズム、F1勾配を数値的に推定する手法の3つのアプローチより優れていた。 AudioSetのevalでは54.9\% F1に達し、defThreshでは50.7%だった。 SGL-Threshは非常に高速で、多数のタグに拡張可能です。 再現性を容易にするため、pytorchのデータとソースコードはオンラインで入手できる。

Multi-label audio tagging consists of assigning sets of tags to audio recordings. At inference time, thresholds are applied on the confidence scores outputted by a probabilistic classifier, in order to decide which classes are detected active. In this work, we consider having at disposal a trained classifier and we seek to automatically optimize the decision thresholds according to a performance metric of interest, in our case F-measure (micro-F1). We propose a new method, called SGL-Thresh for Surrogate Gradient Learning of Thresholds, that makes use of gradient descent. Since F1 is not differentiable, we propose to approximate the thresholding operation gradients with the gradients of a sigmoid function. We report experiments on three datasets, using state-of-the-art pre-trained deep neural networks. In all cases, SGL-Thresh outperformed three other approaches: a default threshold value (defThresh), an heuristic search algorithm and a method estimating F1 gradients numerically. It reached 54.9\% F1 on AudioSet eval, compared to 50.7% with defThresh. SGL-Thresh is very fast and scalable to a large number of tags. To facilitate reproducibility, data and source code in Pytorch are available online: https://github.com/t opel/SGL-Thresh
翻訳日:2021-03-03 15:59:55 公開日:2021-03-01
# 決定境界を提示しないフェデレーション学習

Federated Learning without Revealing the Decision Boundaries ( http://arxiv.org/abs/2103.00695v1 )

ライセンス: Link先を確認
Roozbeh Yousefzadeh(参考訳) 最近のプライバシー保護手法では、オリジナルの画像ではなく、ノイズのように見え、元の画像にさかのぼることの難しい混合画像でモデルを訓練している。 これらの混合画像は、トレーニングされたモデルの決定境界のサンプルであり、これらの方法は、フェデレート学習を担当するエンティティから画像の内容を隠すのに成功しているが、トレーニングされたモデルの決定境界に関する重要な情報を提供する。 エンティティがモデルの決定境界に関する正確なサンプルを持っていれば、トレーニング中やその後のモデルに対する効果的な敵攻撃に使用することができる。 イメージをそのエンティティから隠さなければならない場合、モデルの決定境界をどうやって信頼すればよいのか? 救済策として,画像の暗号化方法を提案し,モデル内に復号モジュールを隠蔽する。 連合学習を担当するエンティティは、複雑な値の係数のセットのみにアクセスするが、モデルはまず画像を復号し、その後、畳み込み層に配置する。 このようにして、エンティティはトレーニングイメージが表示されず、モデルの決定境界の位置を知らないでしょう。

We consider the recent privacy preserving methods that train the models not on original images, but on mixed images that look like noise and hard to trace back to the original images. We explain that those mixed images will be samples on the decision boundaries of the trained model, and although such methods successfully hide the contents of images from the entity in charge of federated learning, they provide crucial information to that entity about the decision boundaries of the trained model. Once the entity has exact samples on the decision boundaries of the model, they may use it for effective adversarial attacks on the model during training and/or afterwards. If we have to hide our images from that entity, how can we trust them with the decision boundaries of our model? As a remedy, we propose a method to encrypt the images, and have a decryption module hidden inside the model. The entity in charge of federated learning will only have access to a set of complex-valued coefficients, but the model will first decrypt the images and then put them through the convolutional layers. This way, the entity will not see the training images and they will not know the location of the decision boundaries of the model.
翻訳日:2021-03-03 15:55:10 公開日:2021-03-01
# エッジ機械学習推論ボットのマイグレーション: Google Edgeモデルの高速化に関する実証的研究

Mitigating Edge Machine Learning Inference Bottlenecks: An Empirical Study on Accelerating Google Edge Models ( http://arxiv.org/abs/2103.00768v1 )

ライセンス: Link先を確認
Amirali Boroumand, Saugata Ghose, Berkin Akin, Ravi Narayanaswami, Geraldo F. Oliveira, Xiaoyu Ma, Eric Shiu, Onur Mutlu(参考訳) エッジコンピューティングの必要性が拡大するにつれて、現代の多くのコンシューマデバイスには、厳しいリソース制約に収まることなく、幅広いニューラルネットワーク(NN)モデルを計算可能なエッジ機械学習(ML)アクセラレータが含まれている。 私たちは24のGoogleエッジNNモデル(CNN、LSTM、トランスデューサ、RCNNを含む)を使用して商用Edge TPUを分析し、アクセラレータが計算スループット、エネルギー効率、およびメモリアクセス処理の3つの欠点に苦しんでいることを見つけます。 我々は,各NN層の特徴を全Googleエッジモデルで包括的に研究し,これらの欠点は,異なるモデルと同一モデル内の異なるレイヤにまたがる鍵層特性に多量の不均一性が存在するため,アクセルのすべてのサイズに適合するアプローチから生じることを見出した。 Mensaという新しいアクセラレーションフレームワークを提案する。 Mensaは複数の異種MLエッジアクセラレータ(オンチップとニアデータアクセラレータの両方を含む)を組み込んでおり、それぞれがモデルの特定のサブセットの特性に対応します。 実行時、mensaは、効率と層間依存性の両方を考慮して、最善のアクセラレーターで実行するように各レイヤをスケジュールする。 GoogleのエッジNNモデルを分析すると、すべてのレイヤが自然に少数のクラスタにグループ化されていることが分かり、これらのモデルに対するMensaの効率的な実装を3つの特別なアクセラレータで設計することができます。 すべての24のGoogleエッジモデルで平均されるMensaは、Edge TPU上で3.0xと3.1x、最先端のアクセラレータであるEyeriss v2上で2.4xと4.3xでエネルギー効率とスループットを改善します。

As the need for edge computing grows, many modern consumer devices now contain edge machine learning (ML) accelerators that can compute a wide range of neural network (NN) models while still fitting within tight resource constraints. We analyze a commercial Edge TPU using 24 Google edge NN models (including CNNs, LSTMs, transducers, and RCNNs), and find that the accelerator suffers from three shortcomings, in terms of computational throughput, energy efficiency, and memory access handling. We comprehensively study the characteristics of each NN layer in all of the Google edge models, and find that these shortcomings arise from the one-size-fits-all approach of the accelerator, as there is a high amount of heterogeneity in key layer characteristics both across different models and across different layers in the same model. We propose a new acceleration framework called Mensa. Mensa incorporates multiple heterogeneous ML edge accelerators (including both on-chip and near-data accelerators), each of which caters to the characteristics of a particular subset of models. At runtime, Mensa schedules each layer to run on the best-suited accelerator, accounting for both efficiency and inter-layer dependencies. As we analyze the Google edge NN models, we discover that all of the layers naturally group into a small number of clusters, which allows us to design an efficient implementation of Mensa for these models with only three specialized accelerators. Averaged across all 24 Google edge models, Mensa improves energy efficiency and throughput by 3.0x and 3.1x over the Edge TPU, and by 2.4x and 4.3x over Eyeriss v2, a state-of-the-art accelerator.
翻訳日:2021-03-03 15:54:51 公開日:2021-03-01
# 統計レバレッジを用いたストリーミングビジネスプロセスイベントのオンライン異常検出

Online anomaly detection using statistical leverage for streaming business process events ( http://arxiv.org/abs/2103.00831v1 )

ライセンス: Link先を確認
Jonghyeon Ko and Marco Comuzzi(参考訳) オフライン設定におけるイベントログのトレースレベルの異常を検出する手法が最近文献に現れているが、オンライン設定には現在そのようなテクニックが欠けている。 オンライン設定におけるイベントログの異常検出は、プロセス実行中の異常を検出するために重要であり、その結果、早期の修正アクションを迅速に行うことができる。 本稿では,統計レバレッジを用いたイベントストリームにおけるイベントログ異常検出手法について述べる。 レバレッジは統計学において、外れ値を特定するための尺度の開発に広く使われており、本論文ではイベントストリームデータの特定のシナリオに適用されている。 提案手法は人工イベントストリームと実イベントストリームの両方で評価されている。

While several techniques for detecting trace-level anomalies in event logs in offline settings have appeared recently in the literature, such techniques are currently lacking for online settings. Event log anomaly detection in online settings can be crucial for discovering anomalies in process execution as soon as they occur and, consequently, allowing to promptly take early corrective actions. This paper describes a novel approach to event log anomaly detection on event streams that uses statistical leverage. Leverage has been used extensively in statistics to develop measures to identify outliers and it has been adapted in this paper to the specific scenario of event stream data. The proposed approach has been evaluated on both artificial and real event streams.
翻訳日:2021-03-03 15:54:20 公開日:2021-03-01
# CARMI:コストベース構築アルゴリズムを用いたキャッシュ対応学習指標

CARMI: A Cache-Aware Learned Index with a Cost-based Construction Algorithm ( http://arxiv.org/abs/2103.00858v1 )

ライセンス: Link先を確認
Jiaoyi Zhang and Yihan Gao(参考訳) 従来のインデックス構造を置き換えるために機械学習モデルを使用する学習インデックスは、最近の研究で有望な結果を示している。 しかし、この新しいタイプのインデックス構造に対する我々の理解は、まだ初期段階にあり、多くの詳細を慎重に検討し改善する必要がある。 本論文では,Kraskaらによって提案された再帰モデルインデックス(RMI)フレームワークの効率を改善するキャッシュ認識学習インデックス(CARMI)の設計を提案する。 そして、さまざまなアプリケーションシナリオで最適なインデックスを構築するためのコストベースの構築アルゴリズム。 本稿では,学習インデックスの最適設計を最適化問題として求める問題を定式化し,それを解決する動的プログラミングアルゴリズムと,高速化のための部分的欲望ステップを提案する。 実験により, 各種データ分散およびワークロード要求下でのベースラインに比べて, 性能が著しく向上したインデックス構築戦略が得られた。 CARMIはBツリーに比べて平均2.52倍のスピードアップが得られるが、Bツリーのメモリ空間は平均0.56倍である。

Learned indexes, which use machine learning models to replace traditional index structures, have shown promising results in recent studies. However, our understanding of this new type of index structure is still at an early stage with many details that need to be carefully examined and improved. In this paper, we propose a cache-aware learned index (CARMI) design to improve the efficiency of the Recursive Model Index (RMI) framework proposed by Kraska et al. and a cost-based construction algorithm to construct the optimal indexes in a wide variety of application scenarios. We formulate the problem of finding the optimal design of a learned index as an optimization problem and propose a dynamic programming algorithm for solving it and a partial greedy step to speed up. Experiments show that our index construction strategy can construct indexes with significantly better performance compared to baselines under various data distribution and workload requirements. Among them, CARMI can obtain an average of 2.52X speedup compared to B-tree, while using only about 0.56X memory space of B-tree on average.
翻訳日:2021-03-03 15:54:09 公開日:2021-03-01
# 計画とプランナー評価のための異種臨界相互作用生成

Diverse Critical Interaction Generation for Planning and Planner Evaluation ( http://arxiv.org/abs/2103.00906v1 )

ライセンス: Link先を確認
Zhao-Heng Yin, Lingfeng Sun, Liting Sun, Masayoshi Tomizuka, Wei Zhan(参考訳) 自律走行車の意思決定モジュール(av)を評価するための多様で包括的な相互作用エージェントの生成は、安全で堅牢な計画に不可欠である。 効率と安全性の懸念から、ほとんどの研究者はシミュレータで敵エージェントを訓練し、評価されたavと相互作用するテストケースを生成する。 しかし、既存のほとんどの手法は、様々な交通シナリオにおける自然な相互作用とクリティカルな相互作用の両方を提供していない。 そこで本研究では,車両を所望のスタイルで別々に制御することで,多様なインタラクションを生成するスタイルジェネレーティブモデルRouteGANを提案する。 スタイル係数を変更することで、モデルはオンラインプランナーとして異なる安全レベルの軌道を生成することができます。 実験は、私たちのモデルがさまざまなシナリオで多様な相互作用を生成できることを示しています。 複数のクリティカルレベルのRouteGANプランナーと相互作用して衝突速度をテストすることで、モデルと異なるプランナーを評価します。

Generating diverse and comprehensive interacting agents to evaluate the decision-making modules of autonomous vehicles~(AV) is essential for safe and robust planning. Due to efficiency and safety concerns, most researchers choose to train adversary agents in simulators and generate test cases to interact with evaluated AVs. However, most existing methods fail to provide both natural and critical interaction behaviors in various traffic scenarios. To tackle this problem, we propose a styled generative model RouteGAN that generates diverse interactions by controlling the vehicles separately with desired styles. By altering its style coefficients, the model can generate trajectories with different safety levels serve as an online planner. Experiments show that our model can generate diverse interactions in various scenarios. We evaluate different planners with our model by testing their collision rate in interaction with RouteGAN planners of multiple critical levels.
翻訳日:2021-03-03 15:53:51 公開日:2021-03-01
# 訓練されたニューラルネットワークの情報内容の計算

Computing the Information Content of Trained Neural Networks ( http://arxiv.org/abs/2103.01045v1 )

ライセンス: Link先を確認
Jeremy Bernstein and Yisong Yue(参考訳) 学習アルゴリズムはトレーニングデータからどの程度情報を抽出し、ニューラルネットワークの重みに格納するのでしょうか? あまりに多すぎると、ネットワークはトレーニングデータに過度に適合する。 あまりに少なすぎると、ネットワークは何も収まらないでしょう。 Na\" は、ネットワークが格納する情報の量は、訓練可能なウェイト数に比例して拡張されるべきである。 トレーニングデータよりもはるかに重い重みを持つニューラルネットワークが、どのように一般化されるのか? この混乱に対する単純な解決法は、重みの数は、保存される実際の情報の量に対する悪いプロキシであるということである。 例えば、典型的な重みベクトルは高い圧縮性を持つ。 その後、別の質問が発生します:保存された情報の実際の量を計算できますか? 本論文では,無限に広がったニューラルネットワークの情報内容に対する整合性推定器と閉形式上界の両方を導出する。 導出は、神経情報の内容とガウス正則の負のログ確率の間の識別に基づいている。 この同定は無限に広いネットワークの解空間全体の一般化挙動を解析的に制御する境界を与える。 境界は、ネットワークアーキテクチャとトレーニングデータの両方に単純な依存を持っています。 Valle-P\'erezらの発見を裏付ける。 (2019) 近似ガウス積分法を用いて同様の解析を行い, 境界は空でないこと, 有限幅での経験的一般化行動と相関することが判明した。

How much information does a learning algorithm extract from the training data and store in a neural network's weights? Too much, and the network would overfit to the training data. Too little, and the network would not fit to anything at all. Na\"ively, the amount of information the network stores should scale in proportion to the number of trainable weights. This raises the question: how can neural networks with vastly more weights than training data still generalise? A simple resolution to this conundrum is that the number of weights is usually a bad proxy for the actual amount of information stored. For instance, typical weight vectors may be highly compressible. Then another question occurs: is it possible to compute the actual amount of information stored? This paper derives both a consistent estimator and a closed-form upper bound on the information content of infinitely wide neural networks. The derivation is based on an identification between neural information content and the negative log probability of a Gaussian orthant. This identification yields bounds that analytically control the generalisation behaviour of the entire solution space of infinitely wide networks. The bounds have a simple dependence on both the network architecture and the training data. Corroborating the findings of Valle-P\'erez et al. (2019), who conducted a similar analysis using approximate Gaussian integration techniques, the bounds are found to be both non-vacuous and correlated with the empirical generalisation behaviour at finite width.
翻訳日:2021-03-03 15:53:37 公開日:2021-03-01
# GreenAIからみた変分オートエンコーダに関する調査

A survey on Variational Autoencoders from a GreenAI perspective ( http://arxiv.org/abs/2103.01071v1 )

ライセンス: Link先を確認
A. Asperti, D. Evangelista, E. Loli Piccolomini(参考訳) 変分オートエンコーダ(VAE)は、統計や情報理論の要素とディープニューラルネットワークが提供する柔軟性を融合して高次元データの生成問題を効率的に解く強力な生成モデルである。 VAEの重要な洞察は、データから新しい意味のあるサンプルを生成するような方法でデータの潜在分布を学ぶことです。 このアプローチは、VAEのアーキテクチャ設計における膨大な研究とバリエーションをもたらし、非教師なし表現学習として知られる最近の研究分野を物語った。 この記事では、VAEの最も成功した最近のバリエーションのいくつかの比較評価を提供します。 特に、グリーンAIの精神のもと、さまざまなモデルのエネルギー効率の分析に焦点を当て、カーボンフットプリントの削減と再生技術の経済的コストの削減を目指しています。 各アーキテクチャに対して、数学的定式化、設計の基礎となる考え方、詳細なモデル記述、実行中の実装、定量的結果を提供する。

Variational AutoEncoders (VAEs) are powerful generative models that merge elements from statistics and information theory with the flexibility offered by deep neural networks to efficiently solve the generation problem for high dimensional data. The key insight of VAEs is to learn the latent distribution of data in such a way that new meaningful samples can be generated from it. This approach led to tremendous research and variations in the architectural design of VAEs, nourishing the recent field of research known as unsupervised representation learning. In this article, we provide a comparative evaluation of some of the most successful, recent variations of VAEs. We particularly focus the analysis on the energetic efficiency of the different models, in the spirit of the so called Green AI, aiming both to reduce the carbon footprint and the financial cost of generative techniques. For each architecture we provide its mathematical formulation, the ideas underlying its design, a detailed model description, a running implementation and quantitative results.
翻訳日:2021-03-03 15:53:18 公開日:2021-03-01
# サブニキスト検体超音波画像の深部展開復元

Deep Unfolded Recovery of Sub-Nyquist Sampled Ultrasound Image ( http://arxiv.org/abs/2103.01263v1 )

ライセンス: Link先を確認
Alon Mamistvalov and Yonina C. Eldar(参考訳) Bモード超音波(US)画像を生成する最も一般的な技術は、トランスデューサアレイで受信した信号を適切な遅延が適用される前にサンプリングする、遅延と和(DAS)ビームフォーミングである。 これにより、Nyquistレートを超えるサンプリングレートと、十分な画質を確保するために多数のアンテナ素子を使用する必要がある。 本研究では,圧縮センシング(cs)とfinite rate of innovation(fri)フレームワークを用いて,反復アルゴリズムを用いたサンプリングレートとアレイサイズを削減する手法を提案する。 反復アルゴリズムは通常、多数の反復を必要とするため、リアルタイムでの使用が困難になる。 本稿では,istaアルゴリズムの展開に基づく時間領域と空間領域におけるサブnyquistサンプルからの再構成法を提案する。 私たちのネットワークへの入力は、周波数領域の要約と遅延後のサブサンプルビームフォーミング信号であり、回復のために保存される米国の信号のサブセットのみを必要とします。 本手法は,高品質な撮像性能を確保しつつ,配列要素数,サンプリングレート,計算時間を削減できる。 emph{in vivo}データを用いて,従来の36倍までのデータ量を削減しつつ,高品質な画像が得られることを示す。 画像の解像度とコントラストの面では、提案手法とDASおよび最小分散(MV)ビームフォーミングよりも優れており、リアルタイムに適用可能なリカバリ手法への道が開けられている。

The most common technique for generating B-mode ultrasound (US) images is delay and sum (DAS) beamforming, where the signals received at the transducer array are sampled before an appropriate delay is applied. This necessitates sampling rates exceeding the Nyquist rate and the use of a large number of antenna elements to ensure sufficient image quality. Recently we proposed methods to reduce the sampling rate and the array size relying on image recovery using iterative algorithms, based on compressed sensing (CS) and the finite rate of innovation (FRI) frameworks. Iterative algorithms typically require a large number of iterations, making them difficult to use in real-time. Here, we propose a reconstruction method from sub-Nyquist samples in the time and spatial domain, that is based on unfolding the ISTA algorithm, resulting in an efficient and interpretable deep network. The inputs to our network are the subsampled beamformed signals after summation and delay in the frequency domain, requiring only a subset of the US signal to be stored for recovery. Our method allows reducing the number of array elements, sampling rate, and computational time while ensuring high quality imaging performance. Using \emph{in vivo} data we demonstrate that the proposed method yields high-quality images while reducing the data volume traditionally used up to 36 times. In terms of image resolution and contrast, our technique outperforms previously suggested methods as well as DAS and minimum-variance (MV) beamforming, paving the way to real-time applicable recovery methods.
翻訳日:2021-03-03 15:53:01 公開日:2021-03-01
# 機械学習はCOVID-19の景気後退に耐えられるか?

Can Machine Learning Catch the COVID-19 Recession? ( http://arxiv.org/abs/2103.01201v1 )

ライセンス: Link先を確認
Philippe Goulet Coulombe, Massimiliano Marcellino, Dalibor Stevanovic(参考訳) uk-mdとラベル付けされ、米国とカナダで同様のデータセットに匹敵する大規模なマクロ経済データセットから収集された証拠に基づいて、パンデミック時に予測する最も有望な道は、機械学習(ml)メソッドを使用して一般的な非線形性を可能にすることだ。 しかし、すべての非線形MLメソッドが似ているわけではない。 例えば、(通常の木や森のような)外挿を許さないものや、(線形動的成分を補完する) do がある。 前例のない時代におけるMLベースの予測のこのその他の重要な側面は、広範囲にわたる擬似サンプルエクササイズで研究されている。

Based on evidence gathered from a newly built large macroeconomic data set for the UK, labeled UK-MD and comparable to similar datasets for the US and Canada, it seems the most promising avenue for forecasting during the pandemic is to allow for general forms of nonlinearity by using machine learning (ML) methods. But not all nonlinear ML methods are alike. For instance, some do not allow to extrapolate (like regular trees and forests) and some do (when complemented with linear dynamic components). This and other crucial aspects of ML-based forecasting in unprecedented times are studied in an extensive pseudo-out-of-sample exercise.
翻訳日:2021-03-03 15:48:13 公開日:2021-03-01
# アプリケーションによる最大関数プーリング

Maximal function pooling with applications ( http://arxiv.org/abs/2103.01292v1 )

ライセンス: Link先を確認
Wojciech Czaja, Weilin Li, Yiran Li, Mike Pekala(参考訳) Hardy-Littlewood maximal関数に触発され、maxfun poolingと呼ばれる新しいプール戦略を提案します。 最大プールや平均プールのような最も一般的なプール関数の代替として、またこれら2つのアルゴリズムを補間する方法として提示される。 まず、畳み込みスパース符号化の文脈で、次に画像分類のための2つのアプリケーションでmaxfunプーリングの特徴を実証します。

Inspired by the Hardy-Littlewood maximal function, we propose a novel pooling strategy which is called maxfun pooling. It is presented both as a viable alternative to some of the most popular pooling functions, such as max pooling and average pooling, and as a way of interpolating between these two algorithms. We demonstrate the features of maxfun pooling with two applications: first in the context of convolutional sparse coding, and then for image classification.
翻訳日:2021-03-03 15:47:41 公開日:2021-03-01
# SmartON:エネルギーハーベスティングシステムのジャストインタイムアクティブイベント検出

SmartON: Just-in-Time Active Event Detection on Energy Harvesting Systems ( http://arxiv.org/abs/2103.00749v1 )

ライセンス: Link先を確認
Yubo Luo, Shahriar Nirjon(参考訳) 我々は、関心事を検出するために、適切なタイミングで積極的に起きることを学習する電池レスシステムであるSmartONを提案する。 これは、収穫エネルギーの制約の下でイベント到着時間の分布に合わせてデューティサイクルを適用することによって行われる。 既存のエネルギー収穫システムは、データを検知して処理するために定期的に起きるか、エネルギー源の可用性に応じてのみ起きるかのいずれかだが、SmartONは3段階の学習フレームワークを使用して、エネルギー収穫パターンと実行時のイベントのパターンを学習し、その知識を使用してイベントが発生した時に自分自身を目覚めさせる。 三相学習フレームワークにより、短期および長期の環境変化に迅速に適応できます。 CTID(Charging-then-I nmediate-Dischargegi ng)のウェイクアップシステムよりも頻繁に眠り続け、イベントパターンに適応できるため、SmartONはエネルギー無駄を削減し、エネルギー効率を高め、より多くのイベントをキャプチャできます。 smartonを実現するために,電力管理モジュールがキャパシタをオンザフライで起動し,ストレージ容量を動的に増加させる専用ハードウェアプラットフォームを開発した。 我々はシミュレーション駆動と実システムの両方の実験を行い、SmartONが1X--7X以上の事象を捕捉し、CTIDシステムよりも8X--17Xエネルギー効率が高いことを示した。

We propose SmartON, a batteryless system that learns to wake up proactively at the right moment in order to detect events of interest. It does so by adapting the duty cycle to match the distribution of event arrival times under the constraints of harvested energy. While existing energy harvesting systems either wake up periodically at a fixed rate to sense and process the data, or wake up only in accordance with the availability of the energy source, SmartON employs a three-phase learning framework to learn the energy harvesting pattern as well as the pattern of events at run-time, and uses that knowledge to wake itself up when events are most likely to occur. The three-phase learning framework enables rapid adaptation to environmental changes in both short and long terms. Being able to remain asleep more often than a CTID (charging-then-immed iate-discharging) wake-up system and adapt to the event pattern, SmartON is able to reduce energy waste, increase energy efficiency, and capture more events. To realize SmartON we have developed a dedicated hardware platform whose power management module activates capacitors on-the-fly to dynamically increase its storage capacitance. We conduct both simulation-driven and real-system experiments to demonstrate that SmartON captures 1X--7X more events and is 8X--17X more energy-efficient than a CTID system.
翻訳日:2021-03-03 15:45:21 公開日:2021-03-01
# 境界ペナルティを有するニューラルネットワークの変分学習における誤差推定

Error Estimates for the Variational Training of Neural Networks with Boundary Penalty ( http://arxiv.org/abs/2103.01007v1 )

ライセンス: Link先を確認
Johannes M\"uller, Marius Zeinhofer(参考訳) 我々は、異なる境界条件を持つ変分問題の解の近似において、空間 $H^1(\Omega)$ 上の二次エネルギーに対するリッツ法による誤差を推定する。 境界ペナルティ法で処理されるディリクレ境界値に対しては,特に注意が払われる。 任意の非線型クラス $V\subseteq H^1(\Omega)$ を検討し、最適化精度、アンサツクラスの近似能力、および-ディリクレ境界値の場合-ペナルイゼーション強度 $\lambda$ に依存する誤差を推定する。 非随意境界条件では、リッツ法の誤差はアンザッツ類の近似率と同じ速度で減衰する。 境界ペナルティ法では、近似レートが$r$ in $H^1(\Omega)$と近似レートが$s$ in $L^2(\partial\Omega)$と与えられると、推定誤差の最適崩壊率は$\min(s/2, r) \in [r/2, r]$となり、$\lambda_n\sim n^{s}$を選択することで達成される。 この速度をどのように改善できるか、有限要素関数の既存の推定値との関係、およびReLUネットワークを通じて与えられるアンサッツクラスへの影響について論じる。 最後に、$\Gamma$-convergence の概念を使用して、Ritz メソッドが $p$-Laplace のような非線形定常 PDE を含む幅広いエネルギークラスに収束することを示します。

We establish estimates on the error made by the Ritz method for quadratic energies on the space $H^1(\Omega)$ in the approximation of the solution of variational problems with different boundary conditions. Special attention is paid to the case of Dirichlet boundary values which are treated with the boundary penalty method. We consider arbitrary and in general non linear classes $V\subseteq H^1(\Omega)$ of ansatz functions and estimate the error in dependence of the optimisation accuracy, the approximation capabilities of the ansatz class and - in the case of Dirichlet boundary values - the penalisation strength $\lambda$. For non-essential boundary conditions the error of the Ritz method decays with the same rate as the approximation rate of the ansatz classes. For the boundary penalty method we obtain that given an approximation rate of $r$ in $H^1(\Omega)$ and an approximation rate of $s$ in $L^2(\partial\Omega)$ of the ansatz classes, the optimal decay rate of the estimated error is $\min(s/2, r) \in [r/2, r]$ and achieved by choosing $\lambda_n\sim n^{s}$. We discuss how this rate can be improved, the relation to existing estimates for finite element functions as well as the implications for ansatz classes which are given through ReLU networks. Finally, we use the notion of $\Gamma$-convergence to show that the Ritz method converges for a wide class of energies including nonlinear stationary PDEs like the $p$-Laplace.
翻訳日:2021-03-03 15:44:53 公開日:2021-03-01
# 戦略的学習における情報格差

Information Discrepancy in Strategic Learning ( http://arxiv.org/abs/2103.01028v1 )

ライセンス: Link先を確認
Yahav Bechavod, Chara Podimata, Zhiwei Steven Wu, and Juba Ziani(参考訳) 本研究では,主席が得点規則を策定し,エージェントが得点を改善するために戦略的投資を行う意思決定モデルについて検討する。 戦略学習文学における既存の研究とは異なり、主席のスコアリングルールがエージェントに完全に知られているとは仮定せず、エージェントはそれぞれの情報ソースに基づいてスコアリングルールの異なる見積もりを形成する可能性がある。 私たちは、モデルにおける情報格差に起因する結果の相違に注目します。 そのために、異なるサブグループに属するエージェントの集団について検討し、デプロイされたスコアリングルールに関する知識を決定する。 各サブグループ内のエージェントは、仲間が受け取った過去のスコアを観察し、デプロイされたスコアリングルールの見積もりを構築し、それに従ってその努力を投資することができる。 首長は、エージェントの行動を考慮して、人口全体の社会的福祉を最大化するスコアリングルールを展開している。 さまざまなサブグループにわたる戦略的努力投資に対する福祉最大化スコアリングルールの影響を特徴づける理論的結果のコレクションを提供します。 特に、配置されたスコアリングルールがすべてのグループに最適の戦略投資を奨励し、異なる最適性の概念を得るために必要な十分な条件を特定します。 最後に,台湾信用データと成人データを用いた実験結果を用いて,理論解析を補完し検証する。

We study a decision-making model where a principal deploys a scoring rule and the agents strategically invest effort to improve their scores. Unlike existing work in the strategic learning literature, we do not assume that the principal's scoring rule is fully known to the agents, and agents may form different estimates of the scoring rule based on their own sources of information. We focus on disparities in outcomes that stem from information discrepancies in our model. To do so, we consider a population of agents who belong to different subgroups, which determine their knowledge about the deployed scoring rule. Agents within each subgroup observe the past scores received by their peers, which allow them to construct an estimate of the deployed scoring rule and to invest their efforts accordingly. The principal, taking into account the agents' behaviors, deploys a scoring rule that maximizes the social welfare of the whole population. We provide a collection of theoretical results that characterize the impact of the welfare-maximizing scoring rules on the strategic effort investments across different subgroups. In particular, we identify sufficient and necessary conditions for when the deployed scoring rule incentivizes optimal strategic investment across all groups for different notions of optimality. Finally, we complement and validate our theoretical analysis with experimental results on the real-world datasets Taiwan-Credit and Adult.
翻訳日:2021-03-03 15:44:22 公開日:2021-03-01
# 適応的メッシュリファインメントのための強化学習

Reinforcement Learning for Adaptive Mesh Refinement ( http://arxiv.org/abs/2103.01342v1 )

ライセンス: Link先を確認
Jiachen Yang, Tarik Dzanic, Brenden Petersen, Jun Kudo, Ketan Mittal, Vladimir Tomov, Jean-Sylvain Camier, Tuo Zhao, Hongyuan Zha, Tzanio Kolev, Robert Anderson, Daniel Faissol(参考訳) 偏微分方程式によって支配される複雑な物理系の大規模有限要素シミュレーションは、より高い分解能が要求される領域に計算予算を割り当てるために適応メッシュ改良(AMR)に大きく依存する。 既存のスケーラブルなAMR法は、瞬時誤差推定に基づくヒューリスティックな精細化決定を行うため、シミュレーション全体に対して長期的最適性を目指していない。 本研究では, AMRをマルコフ決定プロセスとして新規に定式化し,深層強化学習(RL)を用いてシミュレーションから直接改良政策を訓練する手法を提案する。 AMRは、状態次元と利用可能なアクションセットの両方がすべてのステップで変化するという点でRLに新しい問題を引き起こします。 これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。 我々は、静的関数推定と、RLポリシーが広く使用されているエラー推定器と競合し、より大きく、より複雑で、目に見えないテスト問題に一般化できるさまざまなフィールドのアドベクションに関する包括的な実験で実証します。

Large-scale finite element simulations of complex physical systems governed by partial differential equations crucially depend on adaptive mesh refinement (AMR) to allocate computational budget to regions where higher resolution is required. Existing scalable AMR methods make heuristic refinement decisions based on instantaneous error estimation and thus do not aim for long-term optimality over an entire simulation. We propose a novel formulation of AMR as a Markov decision process and apply deep reinforcement learning (RL) to train refinement policies directly from simulation. AMR poses a new problem for RL in that both the state dimension and available action set changes at every step, which we solve by proposing new policy architectures with differing generality and inductive bias. The model sizes of these policy architectures are independent of the mesh size and hence scale to arbitrarily large and complex simulations. We demonstrate in comprehensive experiments on static function estimation and the advection of different fields that RL policies can be competitive with a widely-used error estimator and generalize to larger, more complex, and unseen test problems.
翻訳日:2021-03-03 15:44:00 公開日:2021-03-01
# 部分的に観測された状態軌道からの縮小モデル学習のための非マルコフ項の演算子推論

Operator inference of non-Markovian terms for learning reduced models from partially observed state trajectories ( http://arxiv.org/abs/2103.01362v1 )

ライセンス: Link先を確認
Wayne Isaac Tan Uy, Benjamin Peherstorfer(参考訳) 本研究は,高次元力学系の部分的に観測された状態軌跡から還元モデルを学ぶための非インタラクティブモデル還元手法を提案する。 提案手法は,現在の縮小状態のみに依存して次の状態を予測する従来のマルコフ的還元モデルとは対照的に,将来の状態予測を行う非マルコフ的還元モデルを構築することで,部分的に観測された状態による情報の損失を補償する。 この研究の中核的な貢献は、高次元力学系から部分的に観測された状態をサンプリングするデータサンプリングスキームと、非マルコフ還元項をサンプル状態に適合させる回帰問題の定式化である。 特定の条件下では、提案されたアプローチはデータから、高次元力学系の制御方程式と離散作用素を必要とする侵入的手法で得られる全く同じ非マルコフ項を回復する。 数値実験の結果,提案手法は非マルコフ還元モデルにつながり,訓練体制をはるかに超えた予測が可能となった。 さらに, 数値実験では, 従来のマルコフ還元モデルと同程度の精度の20%の観測状態成分を持つ軌道から非マルコフ還元モデルを学習し, 99%の観測成分を持つ軌道に適合する。

This work introduces a non-intrusive model reduction approach for learning reduced models from partially observed state trajectories of high-dimensional dynamical systems. The proposed approach compensates for the loss of information due to the partially observed states by constructing non-Markovian reduced models that make future-state predictions based on a history of reduced states, in contrast to traditional Markovian reduced models that rely on the current reduced state alone to predict the next state. The core contributions of this work are a data sampling scheme to sample partially observed states from high-dimensional dynamical systems and a formulation of a regression problem to fit the non-Markovian reduced terms to the sampled states. Under certain conditions, the proposed approach recovers from data the very same non-Markovian terms that one obtains with intrusive methods that require the governing equations and discrete operators of the high-dimensional dynamical system. Numerical results demonstrate that the proposed approach leads to non-Markovian reduced models that are predictive far beyond the training regime. Additionally, in the numerical experiments, the proposed approach learns non-Markovian reduced models from trajectories with only 20% observed state components that are about as accurate as traditional Markovian reduced models fitted to trajectories with 99% observed components.
翻訳日:2021-03-03 15:43:41 公開日:2021-03-01
# 分散学習のための動的クラスタリングによるグラディエント符号化

Gradient Coding with Dynamic Clustering for Straggler-Tolerant Distributed Learning ( http://arxiv.org/abs/2103.01206v1 )

ライセンス: Link先を確認
Baturalp Buyukates and Emre Ozfatura and Sennur Ulukus and Deniz Gunduz(参考訳) 分散実装は、大規模機械学習アプリケーションのスピードアップに不可欠である。 分散勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。 分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。 コード分散計算技術が最近導入され、トラグラーを緩和し、冗長な計算をワーカーに割り当てることでGDイテレーションを高速化している。 本稿では, グラデーション符号化(GC)を検討し, 作業者に冗長なデータを割り当て, 過去のストラグリング動作に応じて選択可能なコード群の中から動的に選択できる柔軟性を得る, 新たな動的GCスキームを提案する。 特に,クラスタリングを伴うGCについて検討し,各反復でクラスタを動的に形成することにより,クラスタ内のストラグラー数を規制する。 時間相関のストラグリング動作の下では、gc-dcは、各イテレーションにおいて、過去のストラグラーの振る舞いに基づいて、できるだけ均一にストラグラーをクラスタに分散することを目的としている。 同種および異種労働者モデルの両方において、GC-DCは、元のGCスキームと比較して通信負荷が増加することなく、イテレーション毎の平均完了時間を大幅に改善することを示しています。

Distributed implementations are crucial in speeding up large scale machine learning applications. Distributed gradient descent (GD) is widely employed to parallelize the learning task by distributing the dataset across multiple workers. A significant performance bottleneck for the per-iteration completion time in distributed synchronous GD is $straggling$ workers. Coded distributed computation techniques have been introduced recently to mitigate stragglers and to speed up GD iterations by assigning redundant computations to workers. In this paper, we consider gradient coding (GC), and propose a novel dynamic GC scheme, which assigns redundant data to workers to acquire the flexibility to dynamically choose from among a set of possible codes depending on the past straggling behavior. In particular, we consider GC with clustering, and regulate the number of stragglers in each cluster by dynamically forming the clusters at each iteration; hence, the proposed scheme is called $GC$ $with$ $dynamic$ $clustering$ (GC-DC). Under a time-correlated straggling behavior, GC-DC gains from adapting to the straggling behavior over time such that, at each iteration, GC-DC aims at distributing the stragglers across clusters as uniformly as possible based on the past straggler behavior. For both homogeneous and heterogeneous worker models, we numerically show that GC-DC provides significant improvements in the average per-iteration completion time without an increase in the communication load compared to the original GC scheme.
翻訳日:2021-03-03 15:38:06 公開日:2021-03-01
# 自然言語ビデオのローカライゼーション: Span-based Question Answering Frameworkの再考

Natural Language Video Localization: A Revisit in Span-based Question Answering Framework ( http://arxiv.org/abs/2102.13558v2 )

ライセンス: Link先を確認
Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh(参考訳) 自然言語ビデオローカライゼーション(NLVL)は、テキストクエリに意味的に対応する未編集ビデオからターゲットモーメントを見つけることを目的としている。 既存のアプローチは主にコンピュータビジョンの観点からNLVL問題をランク付け、アンカー、回帰タスクとして定式化することで解決している。 これらの手法は、長いビデオのローカライズ時に大きな性能劣化に悩まされる。 本研究では,入力映像をテキストパスとして扱うことにより,スパンベースの質問応答 (QA) という新たな視点からNLVLに対処する。 NLVLに対処するために、標準のスパンベースのQAフレームワーク(VSLBaseという名前)上にビデオスパンローカライズネットワーク(VSLNet)を提案します。 VSLNetは、シンプルで効果的なクエリガイドハイライト(QGH)戦略を通じて、NLVLとスパンベースのQAの違いに取り組みます。 QGHはVSLNetをガイドして、ハイライトされた領域内のマッチングビデオスパンを検索する。 長編ビデオのパフォーマンス劣化に対処するため,マルチスケールスプリット・アンド・コンカネーション戦略を適用し,VSLNetをVSLNet-Lに拡張する。 VSLNet-Lはまず、トリミングされていないビデオを短いクリップセグメントに分割し、ターゲットモーメントを含むクリップセグメントを予測し、他のセグメントの重要性を抑制します。 最後に、クリップセグメントを異なる信頼度で結合して、ターゲットモーメントを正確に特定する。 3つのベンチマークデータセットに関する広範な実験では、提案された VSLNet と VSLNet-L が最新手法を上回っていることが示された。 本研究は,NLVL問題の解決に有効な手法として,スパンベースQAフレームワークが重要であることを示唆する。

Natural Language Video Localization (NLVL) aims to locate a target moment from an untrimmed video that semantically corresponds to a text query. Existing approaches mainly solve the NLVL problem from the perspective of computer vision by formulating it as ranking, anchor, or regression tasks. These methods suffer from large performance degradation when localizing on long videos. In this work, we address the NLVL from a new perspective, i.e., span-based question answering (QA), by treating the input video as a text passage. We propose a video span localizing network (VSLNet), on top of the standard span-based QA framework (named VSLBase), to address NLVL. VSLNet tackles the differences between NLVL and span-based QA through a simple yet effective query-guided highlighting (QGH) strategy. QGH guides VSLNet to search for the matching video span within a highlighted region. To address the performance degradation on long videos, we further extend VSLNet to VSLNet-L by applying a multi-scale split-and-concatenat ion strategy. VSLNet-L first splits the untrimmed video into short clip segments; then, it predicts which clip segment contains the target moment and suppresses the importance of other segments. Finally, the clip segments are concatenated, with different confidences, to locate the target moment accurately. Extensive experiments on three benchmark datasets show that the proposed VSLNet and VSLNet-L outperform the state-of-the-art methods; VSLNet-L addresses the issue of performance degradation on long videos. Our study suggests that the span-based QA framework is an effective strategy to solve the NLVL problem.
翻訳日:2021-03-02 12:46:56 公開日:2021-03-01
# 教師-学生設定におけるロバストさの理解:新しい視点

Understanding Robustness in Teacher-Student Setting: A New Perspective ( http://arxiv.org/abs/2102.13170v2 )

ライセンス: Link先を確認
Zhuolin Yang, Zhaoxi Chen, Tiffany Cai, Xinyun Chen, Bo Li, Yuandong Tian(参考訳) 逆の例は機械学習モデルのユビキタスな性質として現れており、有界な逆の摂動はモデルを誤った誤った予測に導く可能性がある。 このような例は、機械学習モデルの堅牢性を評価する方法と、モデルトレーニングプロセスを理解するためのプロキシを提供します。 広範な研究は、逆例の存在を説明し、モデルの堅牢性を改善する方法を提供することを試みる(例)。 対人訓練)。 彼らは主に、事前に定義されたラベルを持つデータセットで訓練されたモデルに焦点を当てていますが、教師-学生フレームワークを活用し、特定のインスタンスにラベルを提供するために教師モデル、またはオラクルを仮定します。 我々は、低ランク入力データの場合、Tian(2019)を拡張し、入力サブスペース内で学生の専門化(訓練された学生ニューロンと同一層における特定の教師ニューロンとの相関性が高い)が引き続き起こることを示すが、教師と学生ノードはデータサブスペースから大きく異なっており、それが逆の例につながると推測する。 広範な実験により、学生の専門性は、標準トレーニング、敵対的トレーニング、信頼度調整された敵対的トレーニング、堅牢な機能データセットによるトレーニングなど、さまざまなシナリオにおけるモデル堅牢性と強く相関することを示しています。 我々の研究は、敵対的な事例に関する将来の探索を暗示し、原則化されたデータ拡張を通じてモデルロバスト性を高めることができる。

Adversarial examples have appeared as a ubiquitous property of machine learning models where bounded adversarial perturbation could mislead the models to make arbitrarily incorrect predictions. Such examples provide a way to assess the robustness of machine learning models as well as a proxy for understanding the model training process. Extensive studies try to explain the existence of adversarial examples and provide ways to improve model robustness (e.g. adversarial training). While they mostly focus on models trained on datasets with predefined labels, we leverage the teacher-student framework and assume a teacher model, or oracle, to provide the labels for given instances. We extend Tian (2019) in the case of low-rank input data and show that student specialization (trained student neuron is highly correlated with certain teacher neuron at the same layer) still happens within the input subspace, but the teacher and student nodes could differ wildly out of the data subspace, which we conjecture leads to adversarial examples. Extensive experiments show that student specialization correlates strongly with model robustness in different scenarios, including student trained via standard training, adversarial training, confidence-calibrate d adversarial training, and training with robust feature dataset. Our studies could shed light on the future exploration about adversarial examples, and enhancing model robustness via principled data augmentation.
翻訳日:2021-03-02 12:46:25 公開日:2021-03-01
# 公正かつ安定なグラフ表現学習のための統一フレームワークを目指して

Towards a Unified Framework for Fair and Stable Graph Representation Learning ( http://arxiv.org/abs/2102.13186v2 )

ライセンス: Link先を確認
Chirag Agarwal, Himabindu Lakkaraju, and Marinka Zitnik(参考訳) グラフニューラルネットワーク(GNN)が出力する表現が現実のアプリケーションにますます採用されているため、これらの表現が公平かつ安定であることを保証することが重要である。 本研究では,非現実的公正性と安定性の鍵となる関係を確立し,それを利用して,任意のGNNで公正かつ安定な表現を学習できる新しいフレームワークNIFTY(uNIfying Fairness and StabiliTY)を提案する。 公平性と安定性を同時に考慮し,GNNにおけるニューラルメッセージパッシングを強化するために,リプシッツ定数を用いた階層単位の重み正規化を開発する,新たな目的関数を導入する。 そこで我々は,目的関数とGNNアーキテクチャの両方において,公平性と安定性を強制する。 さらに, 重み正規化は, 結果表現の反実的公正性と安定性を促進することを理論的に示す。 刑事司法および金融貸付分野における高利害判断からなる3つの新しいグラフデータセットを紹介します。 上記のデータセットの広範な実験は、私たちのフレームワークの有効性を示しています。

As the representations output by Graph Neural Networks (GNNs) are increasingly employed in real-world applications, it becomes important to ensure that these representations are fair and stable. In this work, we establish a key connection between counterfactual fairness and stability and leverage it to propose a novel framework, NIFTY (uNIfying Fairness and stabiliTY), which can be used with any GNN to learn fair and stable representations. We introduce a novel objective function that simultaneously accounts for fairness and stability and develop a layer-wise weight normalization using the Lipschitz constant to enhance neural message passing in GNNs. In doing so, we enforce fairness and stability both in the objective function as well as in the GNN architecture. Further, we show theoretically that our layer-wise weight normalization promotes counterfactual fairness and stability in the resulting representations. We introduce three new graph datasets comprising of high-stakes decisions in criminal justice and financial lending domains. Extensive experimentation with the above datasets demonstrates the efficacy of our framework.
翻訳日:2021-03-02 12:45:48 公開日:2021-03-01
# 不特定ロボットモデルを用いたCRiSP逆キネマティクス学習の構造予測

Structured Prediction for CRiSP Inverse Kinematics Learning with Misspecified Robot Models ( http://arxiv.org/abs/2102.12942v2 )

ライセンス: Link先を確認
Gian Maria Marconi, Raffaello Camoriano, Lorenzo Rosasco and Carlo Ciliberto(参考訳) 機械学習の最近の進歩により、従来は正確なモデリングを分析的に解決する必要のある問題は、データ駆動戦略でうまくアプローチできる。 これらのうち、冗長なロボットアームの逆キネマティクスを計算することは、ロボットの非線形構造、硬い関節制約、非可逆キネマティクスマップのために大きな課題となる。 さらに、ほとんどの学習アルゴリズムは完全にデータ駆動のアプローチを検討する一方で、ロボットの構造に関する有用な情報が利用可能であり、積極的に利用されるべきである。 本研究では,逆運動学を学習する上で,単純かつ効果的な手法を提案する。 本研究では、データ駆動戦略とフォワードキネマティクス関数によって提供されるモデルを組み合わせた構造化予測アルゴリズムを導入し、この問題を的確に解決する。 提案手法により、予測された関節構成がロボットの制約内に適切に収まることが保証される。 また,推定器の一般化特性に関する統計的保証や,軌道再構成作業における性能の実証的評価も提供する。

With the recent advances in machine learning, problems that traditionally would require accurate modeling to be solved analytically can now be successfully approached with data-driven strategies. Among these, computing the inverse kinematics of a redundant robot arm poses a significant challenge due to the non-linear structure of the robot, the hard joint constraints and the non-invertible kinematics map. Moreover, most learning algorithms consider a completely data-driven approach, while often useful information on the structure of the robot is available and should be positively exploited. In this work, we present a simple, yet effective, approach for learning the inverse kinematics. We introduce a structured prediction algorithm that combines a data-driven strategy with the model provided by a forward kinematics function -- even when this function is misspeficied -- to accurately solve the problem. The proposed approach ensures that predicted joint configurations are well within the robot's constraints. We also provide statistical guarantees on the generalization properties of our estimator as well as an empirical evaluation of its performance on trajectory reconstruction tasks.
翻訳日:2021-03-02 12:45:29 公開日:2021-03-01
# FjORD: 順序付きドロップアウトによる異種目標下での公正かつ正確なフェデレーション学習

FjORD: Fair and Accurate Federated Learning under heterogeneous targets with Ordered Dropout ( http://arxiv.org/abs/2102.13451v2 )

ライセンス: Link先を確認
Samuel Horvath, Stefanos Laskaridis, Mario Almeida, Ilias Leontiadis, Stylianos I. Venieris and Nicholas D. Lane(参考訳) Federated Learning(FL)は、ビジョンからキーボードの予測まで、さまざまなMLタスクで大きな牽引力を得ています。 大規模な展開では、クライアントの不均一性は事実であり、公平性、トレーニングパフォーマンス、正確性の主な問題となっています。 統計的データ不均一性に取り組むためにかなりの努力が行われているが、システム不均質性と呼ばれるクライアントの処理能力とネットワークの帯域幅の多様性は、ほとんど未調査のままである。 現在のソリューションでは、利用可能なデバイスの大部分を無視したり、モデルのキャパシティに統一的な制限を設定したりしている。 本研究では,ニューラルネットワークにおける知識の順序付きネスト表現を実現する機構であるOrdered Dropoutを導入し,リトレーニングを必要とせずに低フットプリントサブモデルの抽出を可能にする。 さらに、線形マップの場合、Ordered Dropout は SVD と同等であることを示します。 我々は、この手法と自己蒸留手法を、FjORDと呼ばれるフレームワークでFLの領域で採用する。 FjORDは、モデル幅をクライアントの機能に合わせることで、クライアントシステムの不均一性の問題を軽減する。 CNNとRNNの両方の多様なモダリティに対する広範な評価は、FjORDがそのネスト構造を維持しながら、常に最先端のベースラインよりも大幅なパフォーマンス向上につながることを示している。

Federated Learning (FL) has been gaining significant traction across different ML tasks, ranging from vision to keyboard predictions. In large-scale deployments, client heterogeneity is a fact, and constitutes a primary problem for fairness, training performance and accuracy. Although significant efforts have been made into tackling statistical data heterogeneity, the diversity in the processing capabilities and network bandwidth of clients, termed as system heterogeneity, has remained largely unexplored. Current solutions either disregard a large portion of available devices or set a uniform limit on the model's capacity, restricted by the least capable participants. In this work, we introduce Ordered Dropout, a mechanism that achieves an ordered, nested representation of knowledge in Neural Networks and enables the extraction of lower footprint submodels without the need of retraining. We further show that for linear maps our Ordered Dropout is equivalent to SVD. We employ this technique, along with a self-distillation methodology, in the realm of FL in a framework called FjORD. FjORD alleviates the problem of client system heterogeneity by tailoring the model width to the client's capabilities. Extensive evaluation on both CNNs and RNNs across diverse modalities shows that FjORD consistently leads to significant performance gains over state-of-the-art baselines, while maintaining its nested structure.
翻訳日:2021-03-02 12:45:13 公開日:2021-03-01