このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210223となっている論文です。

PDF登録状況(公開日: 20210223)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 浅層サブグラフサンプラーを用いたディープグラフニューラルネットワーク [全文訳有]

Deep Graph Neural Networks with Shallow Subgraph Samplers ( http://arxiv.org/abs/2012.01380v2 )

ライセンス: CC BY 4.0
Hanqing Zeng, Muhan Zhang, Yinglong Xia, Ajitesh Srivastava, Andrey Malevich, Rajgopal Kannan, Viktor Prasanna, Long Jin, Ren Chen(参考訳) グラフニューラルネットワーク(GNN)はグラフ上で表現を学習する強力なモデルだが、最先端のモデルでは2~3層以上の精度が向上していない。 ディープGNNは基本的に対処する必要がある。 過剰な動作による表現力の挑戦,および 2) 近所の爆発による 計算課題。 我々は,GNNの精度と効率を両立させるため,GNNの深部表現を用いて,浅部部分グラフのみにメッセージを送るという,シンプルな「深部GNN,浅部サンプル」設計原理を提案する。 適切にサンプリングされた部分グラフは、無関係またはノイズの多いノードを除外し、重要な隣り合う特徴やグラフ構造を保持する。 ディープGNNは、グローバルグラフ信号を単に「ホワイトノイズ」に過度にスムースにするのではなく、情報的局所信号を滑らかにして特徴学習を強化する。 深層gnnと浅層サンプラーの組み合わせが最良の学習性能をもたらす理由を理論的に正当化する。 次に, 様々なサンプリングアルゴリズムとニューラルアーキテクチャ拡張を提案し, 良好な実験結果を得た。 最大の公開グラフデータセットであるogbn-papers100Mでは、ハードウェアコストを大幅に削減して最先端の精度を実現する。

While Graph Neural Networks (GNNs) are powerful models for learning representations on graphs, most state-of-the-art models do not have significant accuracy gain beyond two to three layers. Deep GNNs fundamentally need to address: 1). expressivity challenge due to oversmoothing, and 2). computation challenge due to neighborhood explosion. We propose a simple "deep GNN, shallow sampler" design principle to improve both the GNN accuracy and efficiency -- to generate representation of a target node, we use a deep GNN to pass messages only within a shallow, localized subgraph. A properly sampled subgraph may exclude irrelevant or even noisy nodes, and still preserve the critical neighbor features and graph structures. The deep GNN then smooths the informative local signals to enhance feature learning, rather than oversmoothing the global graph signals into just "white noise". We theoretically justify why the combination of deep GNNs with shallow samplers yields the best learning performance. We then propose various sampling algorithms and neural architecture extensions to achieve good empirical results. On the largest public graph dataset, ogbn-papers100M, we achieve state-of-the-art accuracy with an order of magnitude reduction in hardware cost.
翻訳日:2021-05-30 04:52:56 公開日:2021-02-23
# ニューラルネットワークの活性化における隠れた不確かさ

The Hidden Uncertainty in a Neural Networks Activations ( http://arxiv.org/abs/2012.03082v2 )

ライセンス: Link先を確認
Janis Postels, Hermann Blum, Yannick Str\"umpler, Cesar Cadena, Roland Siegwart, Luc Van Gool, Federico Tombari(参考訳) ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。 本研究は, この分布がモデルの不確実性と相関するかどうかを考察し, 新規入力に一般化する能力を示す。 まず,特定の潜在表現を観察することで,認識的不確かさと驚き,すなわち負のログ様相を識別できることを実証的に検証した。 さらに,隠れ表現の出力条件分布は,予測分布のエントロピーを通したアレタリック不確かさの定量化にも有効であることを示す。 我々は,異なる階層の表現から推定される認識論的不確実性を解析し,より深い層が定式化されているが計算コストが高い手法(例えば,計算量が多い)と類似した振る舞いを持つ不確実性をもたらすと結論づける。 深いアンサンブル)。 我々のアプローチではトレーニングプロセスを変更する必要はないが、事前の作業に従い、潜在表現の情報を増加させる追加の正規化損失を実験する。 その結果, データ分布に近い不明瞭なキャリブレーションを犠牲にして, OODの検出精度が向上することが判明した。 分類モデルと回帰モデルの両方について検討を行った。

The distribution of a neural network's latent representations has been successfully used to detect out-of-distribution (OOD) data. This work investigates whether this distribution moreover correlates with a model's epistemic uncertainty, thus indicates its ability to generalise to novel inputs. We first empirically verify that epistemic uncertainty can be identified with the surprise, thus the negative log-likelihood, of observing a particular latent representation. Moreover, we demonstrate that the output-conditional distribution of hidden representations also allows quantifying aleatoric uncertainty via the entropy of the predictive distribution. We analyse epistemic and aleatoric uncertainty inferred from the representations of different layers and conclude that deeper layers lead to uncertainty with similar behaviour as established - but computationally more expensive - methods (e.g. deep ensembles). While our approach does not require modifying the training process, we follow prior work and experiment with an additional regularising loss that increases the information in the latent representations. We find that this leads to improved OOD detection of epistemic uncertainty at the cost of ambiguous calibration close to the data distribution. We verify our findings on both classification and regression models.
翻訳日:2021-05-22 12:12:34 公開日:2021-02-23
# ニューラルネットワークの表現解析を用いた人的活動認識のための伝達学習

Transfer Learning for Human Activity Recognition using Representational Analysis of Neural Networks ( http://arxiv.org/abs/2012.04479v2 )

ライセンス: Link先を確認
Sizhe An, Ganapati Bhat, Suat Gumussoy, Umit Ogras(参考訳) HAR(Human Activity Recognition)の研究は、モバイルの健康モニタリング、活動認識、患者のリハビリテーションに応用されているため、近年増加している。 一般的なアプローチは、既知のユーザとオフラインでhar分類器をトレーニングし、新しいユーザのために同じ分類器を使用する。 しかし、このアプローチでは、トレーニングデータ内のアクティビティパターンが異なる場合、新規ユーザの精度が低下する可能性がある。 同時に、新しいユーザのためのスクラッチからのトレーニングは、高い計算コストとトレーニング時間のために、モバイルアプリケーションでは実現できない。 この問題に対処するために,2つのコンポーネントを持つHAR転送学習フレームワークを提案する。 まず、表現分析によって、ユーザ間で転送可能な共通機能と、カスタマイズが必要なユーザ固有の機能を明らかにする。 この知見を用いて、オフライン分類器の再利用部分を新規ユーザへ転送し、残りのユーザのみを微調整する。 5つのデータセットによる実験では,転送学習を使わずに,ベースラインと比較して43%の精度向上と66%のトレーニング時間短縮が得られた。 さらに、Nvidia Jetson Xavier-NXハードウェアプラットフォームでの計測では、スクラッチからトレーニングと同じまたはより高い精度で、消費電力とエネルギー消費がそれぞれ43%と68%減少していることが明らかになった。

Human activity recognition (HAR) research has increased in recent years due to its applications in mobile health monitoring, activity recognition, and patient rehabilitation. The typical approach is training a HAR classifier offline with known users and then using the same classifier for new users. However, the accuracy for new users can be low with this approach if their activity patterns are different than those in the training data. At the same time, training from scratch for new users is not feasible for mobile applications due to the high computational cost and training time. To address this issue, we propose a HAR transfer learning framework with two components. First, a representational analysis reveals common features that can transfer across users and user-specific features that need to be customized. Using this insight, we transfer the reusable portion of the offline classifier to new users and fine-tune only the rest. Our experiments with five datasets show up to 43% accuracy improvement and 66% training time reduction when compared to the baseline without using transfer learning. Furthermore, measurements on the Nvidia Jetson Xavier-NX hardware platform reveal that the power and energy consumption decrease by 43% and 68%, respectively, while achieving the same or higher accuracy as training from scratch.
翻訳日:2021-05-22 11:59:11 公開日:2021-02-23
# 完全密度モデルは異常検出を保証できない

Perfect density models cannot guarantee anomaly detection ( http://arxiv.org/abs/2012.03808v2 )

ライセンス: Link先を確認
Charline Le Lan, Laurent Dinh(参考訳) その可能性のトラクタビリティのおかげで、いくつかの深い生成モデルは、異常検出、不確実性推定、アクティブラーニングといった一見単純だが重要な応用を約束する。 しかしながら、これらの応用が示唆する期待と矛盾する異常に起因する可能性値が実証的に示される。 本稿では,分布密度の挙動を詳細に検討し,推定問題や次元の呪いを超えて,従来考えられていたよりも有意義な情報が少ないことを示す。 分布外検出におけるこれらの可能性の使用は強い仮説と暗黙の仮説に依存しており、信頼性の高い異常検出のためにこれらの仮定を明示的に定式化する必要があることを強調する。

Thanks to the tractability of their likelihood, some deep generative models show promise for seemingly straightforward but important applications like anomaly detection, uncertainty estimation, and active learning. However, the likelihood values empirically attributed to anomalies conflict with the expectations these proposed applications suggest. In this paper, we take a closer look at the behavior of distribution densities and show that these quantities carry less meaningful information than previously thought, beyond estimation issues or the curse of dimensionality. We conclude that the use of these likelihoods for out-of-distribution detection relies on strong and implicit hypotheses, and highlight the necessity of explicitly formulating these assumptions for reliable anomaly detection.
翻訳日:2021-05-16 21:46:16 公開日:2021-02-23
# (参考訳) 政策強化学習の半監督

Semi-Supervised Off Policy Reinforcement Learning ( http://arxiv.org/abs/2012.04809v5 )

ライセンス: CC BY 4.0
Aaron Sonabend-W, Nilanjana Laha, Ashwin N. Ananthakrishnan, Tianxi Cai, Rajarshi Mukherjee(参考訳) 強化学習 (rl) は, 患者の不均一性を考慮した逐次的治療戦略を推定することに成功した。 しかし、強化学習の報奨として用いられる健康情報はしばしばよくコード化されておらず、むしろ臨床ノートに埋め込まれている。 正確な結果情報を抽出することは資源集約的な作業であり、利用可能な注釈付きコホートのほとんどは小さい。 この問題に対処するために,実測結果を持つ小さなラベル付きデータを効率よく活用する半教師付き学習(SSL)手法と,結果サロゲートを持つ大規模ラベル付きデータを提案する。 特に,Q-ラーニングに対する半教師付き,効率的なアプローチを提案する。 SSLをシーケンシャルな治療体制に一般化することは、次のような興味深い課題をもたらす。 2)修正SSLフレームワークで活用する代用変数は、結果を予測するが、最適ポリシーや値関数には影響しない。 Q関数と値関数推定器の理論的結果を提供し、SSLからどれだけの効率が得られるかを理解する。 提案手法は,少なくとも教師付きアプローチと同じくらい効率的であり,またインプテーションモデルの誤特定にも頑健である。

Reinforcement learning (RL) has shown great success in estimating sequential treatment strategies which take into account patient heterogeneity. However, health-outcome information, which is used as the reward for reinforcement learning methods, is often not well coded but rather embedded in clinical notes. Extracting precise outcome information is a resource intensive task, so most of the available well-annotated cohorts are small. To address this issue, we propose a semi-supervised learning (SSL) approach that efficiently leverages a small sized labeled data with true outcome observed, and a large unlabeled data with outcome surrogates. In particular, we propose a semi-supervised, efficient approach to Q-learning and doubly robust off policy value estimation. Generalizing SSL to sequential treatment regimes brings interesting challenges: 1) Feature distribution for Q-learning is unknown as it includes previous outcomes. 2) The surrogate variables we leverage in the modified SSL framework are predictive of the outcome but not informative to the optimal policy or value function. We provide theoretical results for our Q-function and value function estimators to understand to what degree efficiency can be gained from SSL. Our method is at least as efficient as the supervised approach, and moreover safe as it robust to mis-specification of the imputation models.
翻訳日:2021-05-16 15:21:31 公開日:2021-02-23
# (参考訳) 凸ポテンシャル流:最適輸送と凸最適化を伴う普遍確率分布 [全文訳有]

Convex Potential Flows: Universal Probability Distributions with Optimal Transport and Convex Optimization ( http://arxiv.org/abs/2012.05942v2 )

ライセンス: CC BY 4.0
Chin-Wei Huang, Ricky T. Q. Chen, Christos Tsirigotis, Aaron Courville(参考訳) フローベースモデルは、トラクタブル密度の確率モデルを設計するための強力なツールである。 本稿では、最適輸送(OT)理論にインスパイアされた可逆モデルの自然かつ効率的なパラメータ化であるConvex Potential Flows (CP-Flow)を紹介する。 CP-フローは強凸神経電位関数の勾配写像である。 凸性は可逆性を含み、効率的な反転のために凸共役を解くために凸最適化に頼ることができる。 最大確率トレーニングを可能にするために、共役勾配法を用いて逆ヘッセンベクトル積を解くジャコビアンの対決定式の新たな勾配推定器を導出する。 勾配推定器は、一定メモリコストを有し、凸最適化ルーチンの誤差許容レベルを低減し、効果的に非バイアス化することができる。 理論的には、cp-フローは普遍密度近似であり、ot の意味で最適であることが証明される。 実験の結果,CP-Flowは密度推定と変分推定の標準ベンチマークで競合的に動作することがわかった。

Flow-based models are powerful tools for designing probabilistic models with tractable density. This paper introduces Convex Potential Flows (CP-Flow), a natural and efficient parameterization of invertible models inspired by the optimal transport (OT) theory. CP-Flows are the gradient map of a strongly convex neural potential function. The convexity implies invertibility and allows us to resort to convex optimization to solve the convex conjugate for efficient inversion. To enable maximum likelihood training, we derive a new gradient estimator of the log-determinant of the Jacobian, which involves solving an inverse-Hessian vector product using the conjugate gradient method. The gradient estimator has constant-memory cost, and can be made effectively unbiased by reducing the error tolerance level of the convex optimization routine. Theoretically, we prove that CP-Flows are universal density approximators and are optimal in the OT sense. Our empirical results show that CP-Flow performs competitively on standard benchmarks of density estimation and variational inference.
翻訳日:2021-05-15 09:41:07 公開日:2021-02-23
# (参考訳) 微分プライベート分散決定木学習のためのスケーラブルで確率的精度の高いアルゴリズム [全文訳有]

Scalable and Provably Accurate Algorithms for Differentially Private Distributed Decision Tree Learning ( http://arxiv.org/abs/2012.10602v3 )

ライセンス: CC BY 4.0
Kaiwen Wang, Travis Dick, Maria-Florina Balcan(参考訳) 本稿では,分散環境での個人的,トップダウンの意思決定木学習に有効なアルゴリズムを初めて紹介する(Balcan et al., 2012)。 本稿では,プライバシ保存型決定木学習アルゴリズムdp-topdownを提案し,2つの分散実装を提案する。 最初の方法であるNoisyCountsはLaplaceメカニズムを用いて自然に単一マシンアルゴリズムを拡張します。 第2の手法であるlocalrnmは,各データホルダで局所最適化を行うことで,通信やノイズの増加を大幅に削減する。 我々は、単一マシンと分散設定の両方において、差分的にプライベートなトップダウン決定木学習のための最初のユーティリティ保証を提供する。 これらの保証は、データセットが十分に大きい場合、プライベートに学習した決定ツリーのエラーがすぐにゼロになることを示している。 実際のデータセットに関する広範な実験は、分散環境でプライベートな決定木を学習する際のプライバシー、正確性、一般化のトレードオフを示している。

This paper introduces the first provably accurate algorithms for differentially private, top-down decision tree learning in the distributed setting (Balcan et al., 2012). We propose DP-TopDown, a general privacy preserving decision tree learning algorithm, and present two distributed implementations. Our first method NoisyCounts naturally extends the single machine algorithm by using the Laplace mechanism. Our second method LocalRNM significantly reduces communication and added noise by performing local optimization at each data holder. We provide the first utility guarantees for differentially private top-down decision tree learning in both the single machine and distributed settings. These guarantees show that the error of the privately-learned decision tree quickly goes to zero provided that the dataset is sufficiently large. Our extensive experiments on real datasets illustrate the trade-offs of privacy, accuracy and generalization when learning private decision trees in the distributed setting.
翻訳日:2021-05-01 16:38:00 公開日:2021-02-23
# (参考訳) オンライン広告におけるユーザ応答予測

User Response Prediction in Online Advertising ( http://arxiv.org/abs/2101.02342v2 )

ライセンス: CC BY 4.0
Zhabiz Gharibshah, Xingquan Zhu(参考訳) 巨大な市場であるオンライン広告は、検索エンジン、サードパーティーのウェブサイト、ソーシャルメディア、モバイルアプリなど、さまざまなプラットフォームで大きな注目を集めている。 オンラインキャンペーンの繁栄はオンラインマーケティングにおける課題であり、広告(ad)クリエイティビティへのクリック、製品へのサブスクリプション、アイテムの購入、オンライン調査による明示的なユーザーフィードバックなど、さまざまな指標を通じてユーザーの反応によって評価される。 近年,ユーザ応答予測のための機械学習手法を含む計算手法を用いた研究の数が大幅に増加していることが報告されている。 しかし、既存の文献は主に特定の課題を解決するためにアルゴリズム駆動設計に焦点を当てており、多くの重要な質問に答えるために包括的なレビューは存在しない。 オンラインデジタル広告エコシステムに関わる当事者は何か? ユーザ応答予測に利用可能なデータの種類は? 信頼性のある/または透明な方法でユーザ応答を予測するには? 本稿では,オンライン広告および関連するレコメンデーションアプリケーションにおけるユーザ応答予測の総合的なレビューを行う。 私たちの重要なゴールは、オンライン広告プラットフォーム、利害関係者、データ可用性、および典型的なユーザ応答予測方法について、徹底的に理解することです。 本稿では,さまざまなオンラインプラットフォームで使用されている機械学習手法の進歩を中心に,最先端のユーザ応答予測手法を分類する分類法を提案する。 さらに,この分野におけるユーザ応答予測,ベンチマークデータセット,オープンソースコードのアプリケーションについても検討する。

Online advertising, as the vast market, has gained significant attention in various platforms ranging from search engines, third-party websites, social media, and mobile apps. The prosperity of online campaigns is a challenge in online marketing and is usually evaluated by user response through different metrics, such as clicks on advertisement (ad) creatives, subscriptions to products, purchases of items, or explicit user feedback through online surveys. Recent years have witnessed a significant increase in the number of studies using computational approaches, including machine learning methods, for user response prediction. However, existing literature mainly focuses on algorithmic-driven designs to solve specific challenges, and no comprehensive review exists to answer many important questions. What are the parties involved in the online digital advertising eco-systems? What type of data are available for user response prediction? How to predict user response in a reliable and/or transparent way? In this survey, we provide a comprehensive review of user response prediction in online advertising and related recommender applications. Our essential goal is to provide a thorough understanding of online advertising platforms, stakeholders, data availability, and typical ways of user response prediction. We propose a taxonomy to categorize state-of-the-art user response prediction methods, primarily focus on the current progress of machine learning methods used in different online platforms. In addition, we also review applications of user response prediction, benchmark datasets, and open-source codes in the field.
翻訳日:2021-04-10 21:36:29 公開日:2021-02-23
# グラフを用いたモビリティトラジェクタからの大規模位置埋め込み学習

Learning Large-scale Location Embedding From Human Mobility Trajectories with Graphs ( http://arxiv.org/abs/2103.00483v1 )

ライセンス: Link先を確認
Chenyu Tian, Yuchun Zhang, Zefeng Weng(参考訳) GPS座標やその他の位置インジケータは詳細な位置インジケータであり、Geo-Awareアプリケーションで機械学習モデルによって効果的に活用することが難しい。 従来の位置埋め込み方式は、主に関心のある領域で発生した特定の問題に適したものである。 都市全体の規模に関しては、既存のアプローチは常に膨大な計算コストと情報損失に悩まされる。 位置情報サービス(lbs)データの蓄積と公開が増加し,都市動態と人的移動性の研究が可能となった。 本研究では,大規模LBSデータを用いて位置のベクトル表現を学習する。 既存の研究とは違って,空間接続と人間の移動性の両方を考慮し,GCN-L2VというGCN支援スキップグラムモデルを用いて,フローグラフと空間グラフから共同で表現を学習することを提案する。 このモデルは、人間のモビリティと空間情報にコンテキスト情報を組み込む。 これにより、GCN-L2Vは位置間の関係を捉え、空間環境における意味的類似性をよりよく理解することができる。 定量的実験やケーススタディを通じて,GCN-L2Vで学習した表現が有効であることを示す。 GCN-L2Vは他の場所埋め込み法や下流のGeo-Awareアプリケーションと相補的に適用することができる。

GPS coordinates and other location indicators are fine-grained location indicators that are difficult to be effectively utilized by machine learning models in Geo-aware applications. Previous location embedding methods are mostly tailored for specific problems that are taken place within areas of interest. When it comes to the scale of the entire cities, existing approaches always suffer from extensive computational cost and signigicant information loss. An increasing amount of location-based service (LBS) data are being accumulated and released to the public and enables us to study urban dynamics and human mobility. This study learns vector representations for locations using the large-scale LBS data. Different from existing studies, we propose to consider both spatial connection and human mobility, and jointly learn the representations from a flow graph and a spatial graph through a GCN-aided skip-gram model named GCN-L2V. This model embeds context information in human mobility and spatial information. By doing so, GCN-L2V is able to capture relationships among locations and provide a better notion of semantic similarity in a spatial environment. Across quantitative experiments and case studies, we empirically demonstrate that the representations learned by GCN-L2V are effective. GCN-L2V can be applied in a complementary manner to other place embedding methods and down-streaming Geo-aware applications.
翻訳日:2021-04-05 00:47:37 公開日:2021-02-23
# 深層学習によるガスタービンブレードの自動ボアスコープ損傷評価

Automatic Borescope Damage Assessments for Gas Turbine Blades via Deep Learning ( http://arxiv.org/abs/2103.05430v1 )

ライセンス: Link先を確認
Chun Yui Wong, Pranay Seshadri, Geoffrey T. Parks(参考訳) 燃費を最大化するため、エアロエンジンのブレード部品は材料限界に近い動作をする。 厳しい運転環境は、圧縮機とタービンブレードにサービス内損傷を生じさせ、エンジンの性能に重大な影響を及ぼした。 ブレード視覚検査の現在の方法は、主にボアスコープイメージングに基づいている。 これらの検査の間、検査対象のコンポーネントのセンテンシングは、人間のバイアスを避けるための体系的なアプローチが欠如しているため、かなりの手作業を必要とする。 高速かつ高精度なセンテンシングを実現するため,ボアスコープビデオを用いた深層学習によるローターブレードの損傷検出のための自動ワークフローを提案する。 コンピュータビジョンによる最先端の手法に基づいて,ブレード列の各ブレードの損傷統計を別々に提示し,2つのボアスコープビデオでワークフローを実演する。

To maximise fuel economy, bladed components in aero-engines operate close to material limits. The severe operating environment leads to in-service damage on compressor and turbine blades, having a profound and immediate impact on the performance of the engine. Current methods of blade visual inspection are mainly based on borescope imaging. During these inspections, the sentencing of components under inspection requires significant manual effort, with a lack of systematic approaches to avoid human biases. To perform fast and accurate sentencing, we propose an automatic workflow based on deep learning for detecting damage present on rotor blades using borescope videos. Building upon state-of-the-art methods from computer vision, we show that damage statistics can be presented for each blade in a blade row separately, and demonstrate the workflow on two borescope videos.
翻訳日:2021-04-05 00:47:12 公開日:2021-02-23
# (参考訳) 変圧器を用いた野生の透明物体のセグメンテーション [全文訳有]

Segmenting Transparent Object in the Wild with Transformer ( http://arxiv.org/abs/2101.08461v3 )

ライセンス: CC BY 4.0
Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang, Ping Luo(参考訳) この研究は、最初の大規模な透明オブジェクトセグメンテーションデータセットであるtrans10k-v2と呼ばれる新しい細粒度透明オブジェクトセグメンテーションデータセットを提案する。 カテゴリが2つしかないTrans10K-v1とは異なり、新しいデータセットにはいくつかの魅力的なメリットがあります。 1) 人間の家庭環境において一般的に発生する透明な物体の微細なカテゴリが11個あり, 現実の応用に有効である。 2) Trans10K-v2は、現在の高度なセグメンテーション手法に、以前のバージョンよりも多くの課題をもたらす。 さらに,Trans2Segと呼ばれるトランスフォーマーベースセグメンテーションパイプラインを提案する。 第一に、Trans2Segのトランスフォーマーエンコーダは、純粋なCNNアーキテクチャよりも優れた利点を示すCNNのローカルレセプティブフィールドとは対照的に、グローバルレセプティブフィールドを提供する。 次に、辞書検索の課題としてセマンティックセグメンテーションを定式化することにより、Trans2Segのトランスフォーマーデコーダのクエリとして学習可能なプロトタイプを設計し、各プロトタイプがデータセット全体の1つのカテゴリの統計を学習する。 最近の20以上のセマンティクスセグメンテーション法をベンチマークし、trans2segがcnnベースの手法を圧倒的に上回り、提案アルゴリズムが透明なオブジェクトセグメンテーションを解決できる可能性を示した。

This work presents a new fine-grained transparent object segmentation dataset, termed Trans10K-v2, extending Trans10K-v1, the first large-scale transparent object segmentation dataset. Unlike Trans10K-v1 that only has two limited categories, our new dataset has several appealing benefits. (1) It has 11 fine-grained categories of transparent objects, commonly occurring in the human domestic environment, making it more practical for real-world application. (2) Trans10K-v2 brings more challenges for the current advanced segmentation methods than its former version. Furthermore, a novel transformer-based segmentation pipeline termed Trans2Seg is proposed. Firstly, the transformer encoder of Trans2Seg provides the global receptive field in contrast to CNN's local receptive field, which shows excellent advantages over pure CNN architectures. Secondly, by formulating semantic segmentation as a problem of dictionary look-up, we design a set of learnable prototypes as the query of Trans2Seg's transformer decoder, where each prototype learns the statistics of one category in the whole dataset. We benchmark more than 20 recent semantic segmentation methods, demonstrating that Trans2Seg significantly outperforms all the CNN-based methods, showing the proposed algorithm's potential ability to solve transparent object segmentation.
翻訳日:2021-03-21 19:14:14 公開日:2021-02-23
# (参考訳) パワーローグラフのマッチングにおける$d$-hopsのパワー

The Power of $D$-hops in Matching Power-Law Graphs ( http://arxiv.org/abs/2102.12975v1 )

ライセンス: CC BY 4.0
Liren Yu, Jiaming Xu, Xiaojun Lin(参考訳) 本稿では,パワーローグラフに対するシードグラフマッチングについて検討する。 2つのエッジ関連グラフが、有理次数分布を持つ共通親グラフから独立にエッジサンプリングされることを仮定する。 正しく一致した頂点ペアのセットをランダムに選択し、初期種子として明らかにする。 我々のゴールは、2つのグラフ間の残りの潜在頂点対応を回復するために種を用いることである。 既存の1ドルホップ地区での高次種子の使用に焦点を当てたアプローチを出発し、適度に定義された$D$ホップ地区で低次種子を利用する効率的なアルゴリズムを開発しました。 具体的には、まず頂点ペアのセットと適切な度数(第1のスライスと呼ばれる)をマッチングし、ドルドル=ホップの近所の低次種子の数を計算します。 これにより、他のグラフと一致するカスケードプロセスをトリガーするために必要な初期種子の数を大幅に削減できます。 n$頂点, max degree $\Theta(\sqrt{n})$, and the power-law exponent $2<\beta<3$ のChung-Luランダムグラフモデルでは,$D> \frac{4-\beta}{3-\beta}$として,最初のスライスを最適に選択することによって,アルゴリズムは,$\Omega((\log n)^{4-\beta})$初期シーズのみで提供される,誤りのない真のペアの定数を正しく一致させることができることを示した。 この結果はシードサイズ要件を指数関数的に減少させ、最もよく知られた結果には$n^{1/2+\epsilon}$種(小さな定数$\epsilon>0$)が必要となる。 合成データと実データによる性能評価は,アルゴリズムの性能向上をさらに裏付ける。

This paper studies seeded graph matching for power-law graphs. Assume that two edge-correlated graphs are independently edge-sampled from a common parent graph with a power-law degree distribution. A set of correctly matched vertex-pairs is chosen at random and revealed as initial seeds. Our goal is to use the seeds to recover the remaining latent vertex correspondence between the two graphs. Departing from the existing approaches that focus on the use of high-degree seeds in $1$-hop neighborhoods, we develop an efficient algorithm that exploits the low-degree seeds in suitably-defined $D$-hop neighborhoods. Specifically, we first match a set of vertex-pairs with appropriate degrees (which we refer to as the first slice) based on the number of low-degree seeds in their $D$-hop neighborhoods. This significantly reduces the number of initial seeds needed to trigger a cascading process to match the rest of the graphs. Under the Chung-Lu random graph model with $n$ vertices, max degree $\Theta(\sqrt{n})$, and the power-law exponent $2<\beta<3$, we show that as soon as $D> \frac{4-\beta}{3-\beta}$, by optimally choosing the first slice, with high probability our algorithm can correctly match a constant fraction of the true pairs without any error, provided with only $\Omega((\log n)^{4-\beta})$ initial seeds. Our result achieves an exponential reduction in the seed size requirement, as the best previously known result requires $n^{1/2+\epsilon}$ seeds (for any small constant $\epsilon>0$). Performance evaluation with synthetic and real data further corroborates the improved performance of our algorithm.
翻訳日:2021-02-27 00:48:32 公開日:2021-02-23
# 機械学習による非線形力学系の任意の状態への制御

Controlling nonlinear dynamical systems into arbitrary states using machine learning ( http://arxiv.org/abs/2102.12969v1 )

ライセンス: Link先を確認
Alexander Haluszczynski, Christoph R\"ath(参考訳) 本稿では,機械学習(ML)に依存した,新しい完全データ駆動型制御方式を提案する。 最近開発されたMLに基づく複雑なシステムの予測機能により、非線形系は任意の初期状態から来る任意の動的対象状態に留まることが証明された。 Lorenz と R\"ossler システムの例を用いて、我々のアプローチを概説し、これらのシステムが周期だけでなく、例えば、いかに正確に周期的にもたらされるかを示す。 断続的かつ異なるカオス的行動。 必要なデータ量が少なく,柔軟性の高いコントロールスキームを備えることで,工学から医学まで幅広い応用の可能性について簡単に議論する。

We propose a novel and fully data driven control scheme which relies on machine learning (ML). Exploiting recently developed ML-based prediction capabilities of complex systems, we demonstrate that nonlinear systems can be forced to stay in arbitrary dynamical target states coming from any initial state. We outline our approach using the examples of the Lorenz and the R\"ossler system and show how these systems can very accurately be brought not only to periodic but also to e.g. intermittent and different chaotic behavior. Having this highly flexible control scheme with little demands on the amount of required data on hand, we briefly discuss possible applications that range from engineering to medicine.
翻訳日:2021-02-26 13:46:53 公開日:2021-02-23
# ターゲットパターン検索による高次インタラクションの学習

Learning High-Order Interactions via Targeted Pattern Search ( http://arxiv.org/abs/2102.12974v1 )

ライセンス: Link先を確認
Michela C. Massi, Nicola R. Franco, Francesca Ieva, Andrea Manzoni, Anna Maria Paganoni, Paolo Zunino(参考訳) ロジスティック回帰(英: Logistic Regression、LR)は、経験的二項分類研究において広く用いられる統計的手法である。 しかし、現実のシナリオは、しばしば、as-is LRモデルの使用を妨げる複雑さを共有し、代わりにデータのばらつきを捉えるために高次相互作用を含める必要性を強調します。 これはさらに難しくなる: (i) データセットがますます多くの変数で拡大する; (ii) 一般的に強く不均衡な設定で実行される; (iii) サンプルが非常に大きいから非常に小さい; (iv) 予測モデルと解釈可能な結果の両方を提供する必要性。 本稿では,ターゲットパターン探索(LIPS)による高次相互作用の学習アルゴリズムを提案する。入力データが分類された場合に,不均衡な二項分類タスクに対するLRモデルに含まれる様々な順序の相互作用条件を選択する。 LIPSの論理は、アイテムセットとカテゴリー的相互作用の双対性に由来する。 このアルゴリズムは、よく知られた頻繁なアイテムセットマイニングアルゴリズムに基づくインタラクション学習ステップと、ユーザがLRモデルに含まれるインタラクションの数を指定することのできる、新しい異種性に基づくインタラクション選択ステップに依存している。 さらに、より具体的なニーズに対処できる2つの変種(Scores LIPSとClusters LIPS)を特化しています。 一連の実験を通じて,本アルゴリズムの妥当性を検証し,実生活研究シナリオに適用可能であることを証明した。

Logistic Regression (LR) is a widely used statistical method in empirical binary classification studies. However, real-life scenarios oftentimes share complexities that prevent from the use of the as-is LR model, and instead highlight the need to include high-order interactions to capture data variability. This becomes even more challenging because of: (i) datasets growing wider, with more and more variables; (ii) studies being typically conducted in strongly imbalanced settings; (iii) samples going from very large to extremely small; (iv) the need of providing both predictive models and interpretable results. In this paper we present a novel algorithm, Learning high-order Interactions via targeted Pattern Search (LIPS), to select interaction terms of varying order to include in a LR model for an imbalanced binary classification task when input data are categorical. LIPS's rationale stems from the duality between item sets and categorical interactions. The algorithm relies on an interaction learning step based on a well-known frequent item set mining algorithm, and a novel dissimilarity-based interaction selection step that allows the user to specify the number of interactions to be included in the LR model. In addition, we particularize two variants (Scores LIPS and Clusters LIPS), that can address even more specific needs. Through a set of experiments we validate our algorithm and prove its wide applicability to real-life research scenarios, showing that it outperforms a benchmark state-of-the-art algorithm.
翻訳日:2021-02-26 13:46:42 公開日:2021-02-23
# クロスビルディング知識転送におけるデータ選択を探求するマイクロサービスベースのフレームワーク

A microservice-based framework for exploring data selection in cross-building knowledge transfer ( http://arxiv.org/abs/2102.12970v1 )

ライセンス: Link先を確認
Mouna Labiadh (SOC, LIRIS, CETHIL), Christian Obrecht (CETHIL), Catarina Ferreira da Silva (ISCTE-IUL), Parisa Ghodous (SOC, LIRIS)(参考訳) 改良されたディープラーニングは、様々なアプリケーションで顕著な成功を収めた。 しかし、成功した機械学習アプリケーションは、十分な量のデータの可用性に依存する。 対象ドメインからのデータがない場合、複数のソースからの代表的データ収集がしばしば必要となる。 しかしながら、既存のマルチソースデータでトレーニングされたモデルでは、ターゲットドメインの認識が不十分な場合があります。 この問題はドメインシフトと呼ばれる。 本稿では,マルチソーストレーニングデータ選択の妥当性について検討し,ドメイン一般化の文脈において,ドメインシフト課題に取り組む。 このソリューションをサポートするために,マイクロサービス指向の方法論も提案する。 我々は,建築エネルギー消費量予測のユースケースに関する実験研究を行っている。 実験結果から,最小限の建物記述により,エネルギー消費データの選択に用いる場合のクロスビルディング一般化性能が向上することが示唆された。

Supervised deep learning has achieved remarkable success in various applications. Successful machine learning application however depends on the availability of sufficiently large amount of data. In the absence of data from the target domain, representative data collection from multiple sources is often needed. However, a model trained on existing multi-source data might generalize poorly on the unseen target domain. This problem is referred to as domain shift. In this paper, we explore the suitability of multi-source training data selection to tackle the domain shift challenge in the context of domain generalization. We also propose a microservice-oriente d methodology for supporting this solution. We perform our experimental study on the use case of building energy consumption prediction. Experimental results suggest that minimal building description is capable of improving cross-building generalization performances when used to select energy consumption data.
翻訳日:2021-02-26 13:36:30 公開日:2021-02-23
# (参考訳) 条件付き優先の下でのロケーショントレースプライバシ [全文訳有]

Location Trace Privacy Under Conditional Priors ( http://arxiv.org/abs/2102.11955v1 )

ライセンス: CC BY 4.0
Casey Meehan, Kamalika Chaudhuri(参考訳) ロケーションベースのサービスのユーザーに意味のあるプライバシーを提供することは、複数の場所が短期間で明らかになった場合に特に困難です。 これは主に、ポイント間で予測できる膨大な依存度によるものです。 条件依存データに対する期待されるプライバシー損失をバウンダリングするためのR'enyi分散に基づくプライバシフレームワークを提案する。 さらに,gaussian process conditional priorsにおいて,このプライバシを実現するアルゴリズムを示す。 このフレームワークは、条件付きデータを保護することが非常に難しい理由を例示し、ユーザーのトレース内の敏感な場所の固定半径内にプライバシーを維持する戦略を提供します。

Providing meaningful privacy to users of location based services is particularly challenging when multiple locations are revealed in a short period of time. This is primarily due to the tremendous degree of dependence that can be anticipated between points. We propose a R\'enyi divergence based privacy framework for bounding expected privacy loss for conditionally dependent data. Additionally, we demonstrate an algorithm for achieving this privacy under Gaussian process conditional priors. This framework both exemplifies why conditionally dependent data is so challenging to protect and offers a strategy for preserving privacy to within a fixed radius for sensitive locations in a user's trace.
翻訳日:2021-02-26 13:31:51 公開日:2021-02-23
# (参考訳) サブモジュラ最大化のためのインスタンス固有近似 [全文訳有]

Instance Specific Approximations for Submodular Maximization ( http://arxiv.org/abs/2102.11911v1 )

ライセンス: CC BY 4.0
Eric Balkanski, Sharon Qian, Yaron Singer(参考訳) 機械学習における多くの最適化問題において、最適な解を見つけることは計算に難解であり、実際にうまく機能するアルゴリズムを求める。 計算の難解性はしばしば病的インスタンスから生じるため、実世界のインスタンスにおける最適解に対してアルゴリズムの性能をベンチマークする方法を探した。 主な課題は、最適なソリューションが難解な問題に対して効率的に計算できないことです。 したがって、主要な質問は、実際に遭遇したインスタンスの最適なソリューションと比較して、アルゴリズムのパフォーマンスを測定する方法です。 本稿では,この問題をサブモジュラ最適化問題という文脈で解決する。 濃度制約の下での部分モジュラー最大化の正準問題に対して、最適値の1-1/e \approx 0.63$未満の解を計算することは困難である。 有名なgreedyアルゴリズムのようなアルゴリズムは、任意のインスタンスで1-1/e$のバウンドを達成でき、実際に使用される。 我々の主な貢献は、部分モジュラー最大化のための新しいアルゴリズムではなく、部分モジュラー最大化のためのアルゴリズムが与えられた問題インスタンス上でいかに最適かを測定する分析方法である。 この手法を用いて,多種多様な実世界のデータセットと目的に対して,greedy が発見した解の近似値が 1-1/e$ を超え,少なくとも 0.95 であることを示す。 本手法は, 2つの最小化問題の目的を低くし, 原最大化問題に対する最適解の値の上限を求める, 新規な手法を用いて開発する。

For many optimization problems in machine learning, finding an optimal solution is computationally intractable and we seek algorithms that perform well in practice. Since computational intractability often results from pathological instances, we look for methods to benchmark the performance of algorithms against optimal solutions on real-world instances. The main challenge is that an optimal solution cannot be efficiently computed for intractable problems, and we therefore often do not know how far a solution is from being optimal. A major question is therefore how to measure the performance of an algorithm in comparison to an optimal solution on instances we encounter in practice. In this paper, we address this question in the context of submodular optimization problems. For the canonical problem of submodular maximization under a cardinality constraint, it is intractable to compute a solution that is better than a $1-1/e \approx 0.63$ fraction of the optimum. Algorithms like the celebrated greedy algorithm are guaranteed to achieve this $1-1/e$ bound on any instance and are used in practice. Our main contribution is not a new algorithm for submodular maximization but an analytical method that measures how close an algorithm for submodular maximization is to optimal on a given problem instance. We use this method to show that on a wide variety of real-world datasets and objectives, the approximation of the solution found by greedy goes well beyond $1-1/e$ and is often at least 0.95. We develop this method using a novel technique that lower bounds the objective of a dual minimization problem to obtain an upper bound on the value of an optimal solution to the primal maximization problem.
翻訳日:2021-02-26 09:15:39 公開日:2021-02-23
# (参考訳) Bridging Breiman's Brook:アルゴリズムモデリングから統計的学習へ [全文訳有]

Bridging Breiman's Brook: From Algorithmic Modeling to Statistical Learning ( http://arxiv.org/abs/2102.12328v1 )

ライセンス: CC BY 4.0
Lucas Mentch and Giles Hooker(参考訳) 2001年、レオ・ブレイマンは「データモデリング」と「アルゴリズムモデリング」の文化の違いについて書いた。 20年後のこの区分は、個人をキャンプに割り当てること、知的境界の両面で、はるかに短命であると感じた。 これは主に、アルゴリズムの手法をツールボックスに組み込んだ「データモデラー」によるものであり、特にブレマン自身のランダムフォレスト手法の統計的理解における最近の進歩に起因している。 これは「ブリーマン・ウォン(breiman won)」と簡潔に表現できるが、これら同じ発展は彼が提唱した予測優先哲学の限界を露呈し、注意深い統計分析がより重要である。 本論文では,ブレイマンが最初に記述した2つの考え方を融合させた結果として生じた,ランダムな森林文学におけるこれらのエキサイティングな最近の展開について概説する。 また、統計と統計学者が現在見落としている領域も尋ねます。

In 2001, Leo Breiman wrote of a divide between "data modeling" and "algorithmic modeling" cultures. Twenty years later this division feels far more ephemeral, both in terms of assigning individuals to camps, and in terms of intellectual boundaries. We argue that this is largely due to the "data modelers" incorporating algorithmic methods into their toolbox, particularly driven by recent developments in the statistical understanding of Breiman's own Random Forest methods. While this can be simplistically described as "Breiman won", these same developments also expose the limitations of the prediction-first philosophy that he espoused, making careful statistical analysis all the more important. This paper outlines these exciting recent developments in the random forest literature which, in our view, occurred as a result of a necessary blending of the two ways of thinking Breiman originally described. We also ask what areas statistics and statisticians might currently overlook.
翻訳日:2021-02-26 07:27:20 公開日:2021-02-23
# (参考訳) 単語埋め込みに基づく著者検出モデルの意味的対向摂動に対する感度 [全文訳有]

The Sensitivity of Word Embeddings-based Author Detection Models to Semantic-preserving Adversarial Perturbations ( http://arxiv.org/abs/2102.11917v1 )

ライセンス: CC BY 4.0
Jeremiah Duncan, Fabian Fallas, Chris Gropp, Emily Herron, Maria Mahbub, Paula Olaya, Eduardo Ponce, Tabitha K. Samuel, Daniel Schultz, Sudarshan Srinivasan, Maofeng Tang, Viktor Zenkov, Quan Zhou, Edmon Begoli(参考訳) 著者分析は自然言語処理の分野において重要な課題である。 それは記事、ニュース、本、またはメッセージの最も可能性の高い作家の検出を可能にします。 この技術は、著者の帰属、盗作の検出、スタイル分析、誤情報のソースなどに関連するタスクに複数の用途があります。 本論文では,入力の逆操作に対する既成アプローチの限界と感度について検討する。 そこで我々はまず,著者検出と入力摂動のための実験用フレームワークを開発した。 次に, 著者検出モデルの性能を, 入力ナラティブの意味保存的逆動の集合に実験的に評価した。 最後に, 異なる摂動戦略, 入力およびモデル構成, およびこれらが著者検出モデルに与える影響を比較し, 分析する。

Authorship analysis is an important subject in the field of natural language processing. It allows the detection of the most likely writer of articles, news, books, or messages. This technique has multiple uses in tasks related to authorship attribution, detection of plagiarism, style analysis, sources of misinformation, etc. The focus of this paper is to explore the limitations and sensitiveness of established approaches to adversarial manipulations of inputs. To this end, and using those established techniques, we first developed an experimental frame-work for author detection and input perturbations. Next, we experimentally evaluated the performance of the authorship detection model to a collection of semantic-preserving adversarial perturbations of input narratives. Finally, we compare and analyze the effects of different perturbation strategies, input and model configurations, and the effects of these on the author detection model.
翻訳日:2021-02-26 01:45:47 公開日:2021-02-23
# (参考訳) Baby Intuitions Benchmark (BIB): 他人の目標、好み、行動を検討する。 [全文訳有]

Baby Intuitions Benchmark (BIB): Discerning the goals, preferences, and actions of others ( http://arxiv.org/abs/2102.11938v1 )

ライセンス: CC BY 4.0
Kanishk Gandhi, Gala Stojnic, Brenden M. Lake, Moira R. Dillon(参考訳) 日常生活に関する人間のような常識を達成するために、機械学習システムは他人の目標、好み、行動を理解し、推論しなければならない。 ヒトの幼児は、他のエージェントの行動の根本原因について推測することで、直感的にそのような常識を達成する。 私たちのベンチマークBIBは、乳児認知の研究によって直接通知され、人間の幼児のような他のエージェントについての汎用的で常識的な推論を達成するために機械に挑戦します。 さらに, 幼児の認知に関する研究では, 機械が映像シーケンスからエージェントの行動の妥当性を予測し, 将来の研究におけるヒトの幼児との直接の検証に適合させる予測パラダイムに違反する。 最近提案された深層学習に基づく推論モデルでは、幼児のような推論が得られず、BIBはオープンな課題であることを示す。

To achieve human-like common sense about everyday life, machine learning systems must understand and reason about the goals, preferences, and actions of others. Human infants intuitively achieve such common sense by making inferences about the underlying causes of other agents' actions. Directly informed by research on infant cognition, our benchmark BIB challenges machines to achieve generalizable, common-sense reasoning about other agents like human infants do. As in studies on infant cognition, moreover, we use a violation of expectation paradigm in which machines must predict the plausibility of an agent's behavior given a video sequence, making this benchmark appropriate for direct validation with human infants in future studies. We show that recently proposed, deep-learning-based agency reasoning models fail to show infant-like reasoning, leaving BIB an open challenge.
翻訳日:2021-02-26 01:08:03 公開日:2021-02-23
# (参考訳) ハイブリッド学習と推論システムのためのモジュラデザインパターン:分類学、パターン、ユースケース [全文訳有]

Modular Design Patterns for Hybrid Learning and Reasoning Systems: a taxonomy, patterns and use cases ( http://arxiv.org/abs/2102.11965v1 )

ライセンス: CC BY 4.0
Michael van Bekkum, Maaike de Boer, Frank van Harmelen, Andr\'e Meyer-Vitali, Annette ten Teije(参考訳) 統計(データ駆動)とシンボリック(知識駆動)のメソッドの統合は、現代のAIの重要な課題の1つとして広く認識されています。 近年、このようなハイブリッドニューロシンボリックaiシステムに関する多くの論文が出版されている。 急速に成長している文学は多様であり、ほとんどが経験的であり、これらの多種多様なハイブリッドシステムの統一的な見解を欠いている。 本稿では,近年の文献を大規模に分析し,そのようなハイブリッド・ニューロシンボリックシステムのためのモジュラー設計パターンのセットを提案する。 少数の基本パターンのみをビルディングブロックとして構成することで、非常に多数のハイブリッドシステムのアーキテクチャを記述することができます。 1) ハイブリッドシステムで使用されるプロセスとデータ構造の両方を記述するための分類学的に組織化された語彙、2) ハイブリッドaiシステムの15以上のデザインパターンの集合、3) 基本パターンと合成パターンの集合、3) ハイブリッドaiシステムのための2つの現実的なユースケースにおけるこれらのデザインパターンの適用。 私たちのパターンは、これまで認識されていなかったシステム間の類似性を示しています。 最後に、我々のデザインパターンは、ニューロシンボリックアーキテクチャを分類するKautz氏の以前の試みを拡張し、洗練します。

The unification of statistical (data-driven) and symbolic (knowledge-driven) methods is widely recognised as one of the key challenges of modern AI. Recent years have seen large number of publications on such hybrid neuro-symbolic AI systems. That rapidly growing literature is highly diverse and mostly empirical, and is lacking a unifying view of the large variety of these hybrid systems. In this paper we analyse a large body of recent literature and we propose a set of modular design patterns for such hybrid, neuro-symbolic systems. We are able to describe the architecture of a very large number of hybrid systems by composing only a small set of elementary patterns as building blocks. The main contributions of this paper are: 1) a taxonomically organised vocabulary to describe both processes and data structures used in hybrid systems; 2) a set of 15+ design patterns for hybrid AI systems, organised in a set of elementary patterns and a set of compositional patterns; 3) an application of these design patterns in two realistic use-cases for hybrid AI systems. Our patterns reveal similarities between systems that were not recognised until now. Finally, our design patterns extend and refine Kautz' earlier attempt at categorising neuro-symbolic architectures.
翻訳日:2021-02-26 00:46:35 公開日:2021-02-23
# (参考訳) SpaceNet Multi-Temporal Urban Development Challenge [全文訳有]

The SpaceNet Multi-Temporal Urban Development Challenge ( http://arxiv.org/abs/2102.11958v1 )

ライセンス: CC BY-SA 4.0
Adam Van Etten, Daniel Hogan(参考訳) 足跡を構築することは、多くの人道的アプリケーションに有用なプロキシを提供する。 例えば、建物の足跡は高い忠実度人口の推定に役立ち、人口統計の定量化は国連持続可能な開発目標指標の約1/4に基本である。 本稿では,スペースネット・パートナーズ(SpaceNet Partners)が,SpaceNet Multi-Temporal Urban Development Challenge(SpaceNet 7)を通じて,フットプリントの正確なローカライズ,トラッキング,変更検出を行う技術開発について論じる。 このNeurIPS 2020コンペティションでは、急速に都市化エリアで収集された衛星画像の時系列の建物を特定し、追跡するよう求められました。 このコンペティションは、Planet Labsの衛星画像モザイクの4m解像度で、約100のユニークな地理をカバーする24の画像(月1回)を含む、まったく新しいオープンソースのデータセットを中心に行われました。 この解像度で個々の建物を追跡することは非常に難しいが、勝者たちは新しく開発されたSpaceNet Change and Object Tracking(SCOT)メトリクスで印象的なパフォーマンスを示した。 本稿では,トップ5の入賞アプローチと,緯度による性能低下など,いくつかの興味深い逸話を生んだ結果の分析について述べる。

Building footprints provide a useful proxy for a great many humanitarian applications. For example, building footprints are useful for high fidelity population estimates, and quantifying population statistics is fundamental to ~1/4 of the United Nations Sustainable Development Goals Indicators. In this paper we (the SpaceNet Partners) discuss efforts to develop techniques for precise building footprint localization, tracking, and change detection via the SpaceNet Multi-Temporal Urban Development Challenge (also known as SpaceNet 7). In this NeurIPS 2020 competition, participants were asked identify and track buildings in satellite imagery time series collected over rapidly urbanizing areas. The competition centered around a brand new open source dataset of Planet Labs satellite imagery mosaics at 4m resolution, which includes 24 images (one per month) covering ~100 unique geographies. Tracking individual buildings at this resolution is quite challenging, yet the winning participants demonstrated impressive performance with the newly developed SpaceNet Change and Object Tracking (SCOT) metric. This paper details the top-5 winning approaches, as well as analysis of results that yielded a handful of interesting anecdotes such as decreasing performance with latitude.
翻訳日:2021-02-25 18:06:56 公開日:2021-02-23
# Interventional Sum-Product Networks: Tractable Probabilistic Modelsによる因果推論

Interventional Sum-Product Networks: Causal Inference with Tractable Probabilistic Models ( http://arxiv.org/abs/2102.10440v2 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami, Athresh Karanam, Sriraam Natarajan and Kristian Kersting(参考訳) 確率モデルは因果関係を研究する上で重要なツールであるが、推論の難しさに苦しむ。 説明可能な因果モデルへのステップとして,例えばニューラルネットワークなど,ゲート関数によって過度にパラメータ化される総積ネットワーク(spn)を用いた介入分布の学習の問題を考える。 任意に介入した因果グラフを入力とし、パールのdo-operatorを効果的に仮定すると、ゲート関数はSPNのパラメータを予測する。 結果として生じる介入SPNは、個人の健康をテーマとした構造因果モデルによって動機づけられ、図示される。 3つのベンチマークデータセットと合成健康データセットに関する経験的評価は、介入SPNがモデリングにおいて表現力があり、介入に適応するのに柔軟であることを明確に示しています。

While probabilistic models are an important tool for studying causality, doing so suffers from the intractability of inference. As a step towards tractable causal models, we consider the problem of learning interventional distributions using sum-product networks (SPNs) that are over-parameterized by gate functions, e.g., neural networks. Providing an arbitrarily intervened causal graph as input, effectively subsuming Pearl's do-operator, the gate function predicts the parameters of the SPN. The resulting interventional SPNs are motivated and illustrated by a structural causal model themed around personal health. Our empirical evaluation on three benchmark data sets as well as a synthetic health data set clearly demonstrates that interventional SPNs indeed are both expressive in modelling and flexible in adapting to the interventions.
翻訳日:2021-02-25 13:47:48 公開日:2021-02-23
# 非局所課題に対する畳み込みニューラルネットワークの不適合性に関する議論

Arguments for the Unsuitability of Convolutional Neural Networks for Non--Local Tasks ( http://arxiv.org/abs/2102.11944v1 )

ライセンス: Link先を確認
Sebastian Stabinger, David Peer, and Antonio Rodr\'iguez-S\'anchez(参考訳) 畳み込みニューラルネットワークは、画像分類の最先端の方法として過去数年間に確立され、多くのデータセットでは、画像の分類において人間を上回っています。 残念なことに、同じアーキテクチャは、画像を正しく分類するために画像の一部を互いに比較しなければならない場合、ずっと悪い結果をもたらす。 これまで、この不足を説明するための十分な理論的な議論は提示されていない。 本稿では,畳み込み層は本質的にはグローバルであるが,畳み込み層は設計によって局所的であるため,畳み込み層はそのような問題に対してはほとんど使われないと主張する。 この洞察を用いて、比較タスクをソートタスクに再構成し、ソートネットワークでの発見を使用して、ニューラルネットワークが比較タスクを一般化可能な方法で解決するために必要なパラメータ数に対する低い境界を提案する。 この低い境界を使用して、組み合わせ爆発を防ぐために注意と反復/繰り返し処理が必要であると主張します。

Convolutional neural networks have established themselves over the past years as the state of the art method for image classification, and for many datasets, they even surpass humans in categorizing images. Unfortunately, the same architectures perform much worse when they have to compare parts of an image to each other to correctly classify this image. Until now, no well-formed theoretical argument has been presented to explain this deficiency. In this paper, we will argue that convolutional layers are of little use for such problems, since comparison tasks are global by nature, but convolutional layers are local by design. We will use this insight to reformulate a comparison task into a sorting task and use findings on sorting networks to propose a lower bound for the number of parameters a neural network needs to solve comparison tasks in a generalizable way. We will use this lower bound to argue that attention, as well as iterative/recurrent processing, is needed to prevent a combinatorial explosion.
翻訳日:2021-02-25 13:46:08 公開日:2021-02-23
# Transformer Modifications は実装と応用にまたがって移行するのか?

Do Transformer Modifications Transfer Across Implementations and Applications? ( http://arxiv.org/abs/2102.11972v1 )

ライセンス: Link先を確認
Sharan Narang, Hyung Won Chung, Yi Tay, William Fedus, Thibault Fevry, Michael Matena, Karishma Malkan, Noah Fiedel, Noam Shazeer, Zhenzhong Lan, Yanqi Zhou, Wei Li, Nan Ding, Jake Marcus, Adam Roberts, Colin Raffel(参考訳) 研究コミュニティは、3年以上前に導入されて以来、トランスフォーマーアーキテクチャの大規模な変更を提案してきた。 本稿では,自然言語処理におけるTransformerの共通利用を網羅した共有実験環境において,これらの変更の多くを包括的に評価する。 驚いたことに、ほとんどの変更はパフォーマンスを有意義に改善しない。 さらに、Transformerの変種のほとんどは、私たちが使ったのと同じコードベースで開発されたか、比較的小さな変更だった。 パフォーマンスの改善は実装の詳細に強く依存し、実験結果の一般性を改善するためのいくつかの推奨を行う可能性があると推測する。

The research community has proposed copious modifications to the Transformer architecture since it was introduced over three years ago, relatively few of which have seen widespread adoption. In this paper, we comprehensively evaluate many of these modifications in a shared experimental setting that covers most of the common uses of the Transformer in natural language processing. Surprisingly, we find that most modifications do not meaningfully improve performance. Furthermore, most of the Transformer variants we found beneficial were either developed in the same codebase that we used or are relatively minor changes. We conjecture that performance improvements may strongly depend on implementation details and correspondingly make some recommendations for improving the generality of experimental results.
翻訳日:2021-02-25 13:45:14 公開日:2021-02-23
# 時間的ブラックボックスモデルの特徴的重要度記述

Feature Importance Explanations for Temporal Black-Box Models ( http://arxiv.org/abs/2102.11934v1 )

ライセンス: Link先を確認
Akshay Sood and Mark Craven(参考訳) 教師付き学習フレームワークのモデルは、人間が解釈するのは難しい機能に対して、豊かで複雑な表現を捉えることができる。 このようなモデルを説明する既存の手法は、しばしば時間を要するコンポーネントを持たないアーキテクチャやデータに特有のものである。 本研究では、本質的に時間的であるモデルを説明する手法であるTIMEを提案する。 我々のアプローチ(i)は,グローバル特徴の重要度を分析するためにモデル非依存な置換に基づくアプローチを用い,(ii)時間的順序と局所的な影響の窓に関して有意義な特徴の重要性を識別し,(iii)統計的厳密性を提供するために仮説検定を用いる。

Models in the supervised learning framework may capture rich and complex representations over the features that are hard for humans to interpret. Existing methods to explain such models are often specific to architectures and data where the features do not have a time-varying component. In this work, we propose TIME, a method to explain models that are inherently temporal in nature. Our approach (i) uses a model-agnostic permutation-based approach to analyze global feature importance, (ii) identifies the importance of salient features with respect to their temporal ordering as well as localized windows of influence, and (iii) uses hypothesis testing to provide statistical rigor.
翻訳日:2021-02-25 13:41:52 公開日:2021-02-23
# 接地関係推論:ドメイン知識駆動型説明可能な自律運転

Grounded Relational Inference: Domain Knowledge Driven Explainable Autonomous Driving ( http://arxiv.org/abs/2102.11905v1 )

ライセンス: Link先を確認
Chen Tang, Nishan Srishankar, Sujitha Martin, Masayoshi Tomizuka(参考訳) 操作中に人間や他の物体と対話する自動運転車や他のロボティクスシステムにとって説明可能性は不可欠です。 人間は、信頼できる安全な協力のために機械が行う行動を理解し、予測する必要がある。 本研究では、モデルに専門的なドメイン知識を組み込むことにより、設計段階での自動運転システムの説明性の実現を目指します。 GRI(Grounded Relational Inference)を提案する。 エージェントの関係を表す相互作用グラフを推論することで、対話システムの基盤となるダイナミクスをモデル化する。 我々は、関係的潜在空間を専門家ドメイン知識で定義された意味的行動に接することで、解釈可能な相互作用グラフを保証する。 シミュレーションと実世界の両方の状況下でのインタラクティブな交通シナリオをモデル化し,その相互作用によって車両の挙動を説明する解釈可能なグラフを生成できることを実証する。

Explainability is essential for autonomous vehicles and other robotics systems interacting with humans and other objects during operation. Humans need to understand and anticipate the actions taken by the machines for trustful and safe cooperation. In this work, we aim to enable the explainability of an autonomous driving system at the design stage by incorporating expert domain knowledge into the model. We propose Grounded Relational Inference (GRI). It models an interactive system's underlying dynamics by inferring an interaction graph representing the agents' relations. We ensure an interpretable interaction graph by grounding the relational latent space into semantic behaviors defined with expert domain knowledge. We demonstrate that it can model interactive traffic scenarios under both simulation and real-world settings, and generate interpretable graphs explaining the vehicle's behavior by their interactions.
翻訳日:2021-02-25 13:38:45 公開日:2021-02-23
# 量子クロスエントロピーと最大可能性原理

Quantum Cross Entropy and Maximum Likelihood Principle ( http://arxiv.org/abs/2102.11887v1 )

ライセンス: Link先を確認
Zhou Shangnan, Yixu Wang(参考訳) 量子機械学習は、機械学習と量子コンピューティングの交差点における新興分野である。 古典的クロスエントロピーは機械学習の中心的な役割を担っている。 我々は、その量子一般化、量子クロスエントロピーを定義し、その量子忠実度と最大の可能性原理との関係を調べます。 また、量子測定における物理的影響についても論じる。

Quantum machine learning is an emerging field at the intersection of machine learning and quantum computing. Classical cross entropy plays a central role in machine learning. We define its quantum generalization, the quantum cross entropy, and investigate its relations with the quantum fidelity and the maximum likelihood principle. We also discuss its physical implications on quantum measurements.
翻訳日:2021-02-25 13:35:31 公開日:2021-02-23
# Learner-Private Online Convex Optimization

Learner-Private Online Convex Optimization ( http://arxiv.org/abs/2102.11976v1 )

ライセンス: Link先を確認
Jiaming Xu, Kuang Xu and Dana Yang(参考訳) オンライン凸最適化は、学習者が凸関数の最適解に到達するために外部データソースを順次クエリするフレームワークである。 このパラダイムは、大規模最適化と機械学習のスケーラビリティのおかげで、最近大きな人気を集めている。 しかし、繰り返し行われるインタラクションは、送信されたクエリを観察する盗聴敵からのプライバシーリスクを学習者に暴露します。 本論文では,学習者の質問を一階オンライン凸最適化において最適に難読化する方法を検討し,学習者の学習した最適値は,盗聴相手の推定が困難であることを示す。 学習者のプライバシの定式化は,凸関数をランダムに描画するベイズ式と,その関数を固定した最小値の定式化と,逆の誤差確率を最小値の基準で測定する最小値の定式化である。 我々は、学習者が敵対者による正確な予測の確率を1ドル/L$以下に保ちたい場合、クエリの複雑さのオーバーヘッドは、ミニマックス製剤では$L$に加算されるが、ベイズ製剤では$L$に乗算されることを示した。 従来の2元フィードバックの学習者-個人学習モデルと比較すると,本研究は,完全フィードバックを持つ一般凸関数のかなりリッチなファミリーに適用できる。 私たちの証明は、dirichletプロセスの理論によるツールと、完全なoracleの下での情報漏洩量を測定するためのより洗練された分析ラインによって、主に実現されています。

Online convex optimization is a framework where a learner sequentially queries an external data source in order to arrive at the optimal solution of a convex function. The paradigm has gained significant popularity recently thanks to its scalability in large-scale optimization and machine learning. The repeated interactions, however, expose the learner to privacy risks from eavesdropping adversary that observe the submitted queries. In this paper, we study how to optimally obfuscate the learner's queries in first-order online convex optimization, so that their learned optimal value is provably difficult to estimate for the eavesdropping adversary. We consider two formulations of learner privacy: a Bayesian formulation in which the convex function is drawn randomly, and a minimax formulation in which the function is fixed and the adversary's probability of error is measured with respect to a minimax criterion. We show that, if the learner wants to ensure the probability of accurate prediction by the adversary be kept below $1/L$, then the overhead in query complexity is additive in $L$ in the minimax formulation, but multiplicative in $L$ in the Bayesian formulation. Compared to existing learner-private sequential learning models with binary feedback, our results apply to the significantly richer family of general convex functions with full-gradient feedback. Our proofs are largely enabled by tools from the theory of Dirichlet processes, as well as more sophisticated lines of analysis aimed at measuring the amount of information leakage under a full-gradient oracle.
翻訳日:2021-02-25 13:35:26 公開日:2021-02-23
# 公正な選抜:功労主義と社会福祉

Fair Set Selection: Meritocracy and Social Welfare ( http://arxiv.org/abs/2102.11932v1 )

ライセンス: Link先を確認
Thomas Kleine Buening and Meirav Segal and Debabrota Basu and Christos Dimitrakakis(参考訳) 本論文では,実効性最大化問題として,候補集団から個人群を選択する問題を定式化する。 意思決定者の視点からは、期待されるユーティリティを最大化する選択ポリシーを見つけることと等価である。 我々の枠組みは、選択政策に関して個人が期待する限界貢献(EMC)の概念を、長所主義からの逸脱の尺度として導く。 最大化問題を解決するために,ポリシー勾配アルゴリズムを提案する。 特定の政策構造において、政策勾配は個人のemcに比例する。 したがって、ポリシー勾配アルゴリズムは、emcがゼロである局所最適解を導き、実効主義を満足する。 均一なポリシーでは、EMCはShapley値に減少します。 EMCはまた、一般選択ポリシーに対するシェープリー値の公正選択特性を一般化する。 大学進学シミュレーションにおける異なる政策構造の影響を実験的に分析し,ランキングアルゴリズムと欲望アルゴリズムとの比較を行った。 分離可能な線形政策がemcを最小化しつつ高い実用性を達成することを検証した。 また、多様性などのグループ公平性の概念を成功裏に推進するユーティリティ機能を設計できることも示します。

In this paper, we formulate the problem of selecting a set of individuals from a candidate population as a utility maximisation problem. From the decision maker's perspective, it is equivalent to finding a selection policy that maximises expected utility. Our framework leads to the notion of expected marginal contribution (EMC) of an individual with respect to a selection policy as a measure of deviation from meritocracy. In order to solve the maximisation problem, we propose to use a policy gradient algorithm. For certain policy structures, the policy gradients are proportional to EMCs of individuals. Consequently, the policy gradient algorithm leads to a locally optimal solution that has zero EMC, and satisfies meritocracy. For uniform policies, EMC reduces to the Shapley value. EMC also generalises the fair selection properties of Shapley value for general selection policies. We experimentally analyse the effect of different policy structures in a simulated college admission setting and compare with ranking and greedy algorithms. Our results verify that separable linear policies achieve high utility while minimising EMCs. We also show that we can design utility functions that successfully promote notions of group fairness, such as diversity.
翻訳日:2021-02-25 13:33:19 公開日:2021-02-23
# イベントカメラを用いた屋内ロボットのリアルタイム検出と追跡

Event Camera Based Real-Time Detection and Tracking of Indoor Ground Robots ( http://arxiv.org/abs/2102.11916v1 )

ライセンス: Link先を確認
Himanshu Patel, Craig Iaboni, Deepan Lobo, Ji-won Choi, Pramod Abichandani(参考訳) 本稿では,イベントカメラを用いて複数の移動ロボットをリアルタイムに検出・追跡する手法を提案する。 ノイズのあるアプリケーションの密度に基づく空間クラスタリング(DBSCAN)を用いて、ロボットと1本のk次元(k-d)木を検知し、屋内アリーナで動きながら正確に追跡する。 ロバスト検出とトラックは、イベントカメラのノイズやイベントの欠如(ロボットがゆっくりと動いたり止まったりするため)に直面して維持される。 既製のRGBカメラベースの追跡システムは、地上の真実を提供するために使用されました。 i)DBSCANパラメータの変化、ii)イベント蓄積時間、iii)アリーナ内のロボットの数、およびiv)検出および追跡性能に対するロボットの速度を研究するために、最大4つのロボットを含む実験が行われます。 実験結果は、イベントカメラのノイズと、最大3台のロボットを含むテストのために停止するロボットと、最大で93%のロボットによる検出と追跡の忠実性を示した。

This paper presents a real-time method to detect and track multiple mobile ground robots using event cameras. The method uses density-based spatial clustering of applications with noise (DBSCAN) to detect the robots and a single k-dimensional (k-d) tree to accurately keep track of them as they move in an indoor arena. Robust detections and tracks are maintained in the face of event camera noise and lack of events (due to robots moving slowly or stopping). An off-the-shelf RGB camera-based tracking system was used to provide ground truth. Experiments including up to 4 robots are performed to study the effect of i) varying DBSCAN parameters, ii) the event accumulation time, iii) the number of robots in the arena, and iv) the speed of the robots on the detection and tracking performance. The experimental results showed 100% detection and tracking fidelity in the face of event camera noise and robots stopping for tests involving up to 3 robots (and upwards of 93% for 4 robots).
翻訳日:2021-02-25 13:33:05 公開日:2021-02-23
# ニューラルネットワークの非特異逆ロバスト性

Non-Singular Adversarial Robustness of Neural Networks ( http://arxiv.org/abs/2102.11935v1 )

ライセンス: Link先を確認
Yu-Lin Tsai, Chia-Yi Hsu, Chia-Mu Yu, Pin-Yu Chen(参考訳) 敵対的堅牢性は、小さな入力摂動に対する過敏性のため、ニューラルネットワークにとって新たな課題となっている。 批判的ではあるが、この特異な問題を解決するだけでは、包括的な堅牢性評価は提供できないと論じている。 さらに悪いことに、特異な堅牢性から引き出された結論は、モデル全体の堅牢性の誤った感覚を与えるかもしれません。 特に,入力摂動に頑健な対向的に訓練されたモデルは,標準モデルと比較してもなお(あるいはそれ以上)重み摂動に対して脆弱であることが示された。 本稿では,データ入力とモデル重みに対する関節摂動のレンズを通して,ニューラルネットワークの非特異な対角ロバスト性の概念を定式化する。 本研究は,同時入力重み付き対向摂動を考慮した最初の研究である。 reluアクティベーション関数と標準分類損失を持つ多層フィードフォワードニューラルネットワークモデルに基づいて,データ入力とモデル重みに対する$\ell_\infty$-norm有界摂動の損失感度を定量化するための誤差解析を行う。 誤差解析に基づいて,ロバストトレーニングのための新しい正規化関数を提案し,入力重み付き摂動に対する非特異なロバスト性が向上することを示す。

Adversarial robustness has become an emerging challenge for neural network owing to its over-sensitivity to small input perturbations. While being critical, we argue that solving this singular issue alone fails to provide a comprehensive robustness assessment. Even worse, the conclusions drawn from singular robustness may give a false sense of overall model robustness. Specifically, our findings show that adversarially trained models that are robust to input perturbations are still (or even more) vulnerable to weight perturbations when compared to standard models. In this paper, we formalize the notion of non-singular adversarial robustness for neural networks through the lens of joint perturbations to data inputs as well as model weights. To our best knowledge, this study is the first work considering simultaneous input-weight adversarial perturbations. Based on a multi-layer feed-forward neural network model with ReLU activation functions and standard classification loss, we establish error analysis for quantifying the loss sensitivity subject to $\ell_\infty$-norm bounded perturbations on data inputs and model weights. Based on the error analysis, we propose novel regularization functions for robust training and demonstrate improved non-singular robustness against joint input-weight adversarial perturbations.
翻訳日:2021-02-25 13:28:32 公開日:2021-02-23
# senone-aware adversarial multi-task training for unsupervised child to adult speech adapt

Senone-aware Adversarial Multi-task Training for Unsupervised Child to Adult Speech Adaptation ( http://arxiv.org/abs/2102.11488v1 )

ライセンス: Link先を確認
Richeng Duan, Nancy F. Chen(参考訳) 声道の生理的差異に起因する高い音響的変動のため,子音の音響的モデリングは困難である。 公開データセットの不足により、タスクはより困難になります。 そこで本研究では,成人音声と小児音声のセノンレベルにおける音響ミスマッチを最小限に抑えるために,多タスク学習を逆行する特徴適応手法を提案し,大量の書き起こし成人音声を活用する。 提案手法は, 児童音声認識, 児童発音評価, 児童流動度スコア予測の3つのタスクで検証した。 実験の結果,提案手法は競争ベースラインを一貫して上回り,音声認識における相対誤差の7.7%,評価タスクにおける最大25.2%の相対利得を達成した。

Acoustic modeling for child speech is challenging due to the high acoustic variability caused by physiological differences in the vocal tract. The dearth of publicly available datasets makes the task more challenging. In this work, we propose a feature adaptation approach by exploiting adversarial multi-task training to minimize acoustic mismatch at the senone (tied triphone states) level between adult and child speech and leverage large amounts of transcribed adult speech. We validate the proposed method on three tasks: child speech recognition, child pronunciation assessment, and child fluency score prediction. Empirical results indicate that our proposed approach consistently outperforms competitive baselines, achieving 7.7% relative error reduction on speech recognition and up to 25.2% relative gains on the evaluation tasks.
翻訳日:2021-02-25 13:26:10 公開日:2021-02-23
# 量子エントロピー因果推論

Quantum Entropic Causal Inference ( http://arxiv.org/abs/2102.11764v1 )

ライセンス: Link先を確認
Mohammad Ali Javidian, Vaneet Aggarwal, Fanglin Bao, Zubin Jacob(参考訳) 量子コンピューティングとネットワークノードがスケールアップするにつれて、様々なサブシステムによるシステム全体のパフォーマンスへの影響に重要な疑問が生まれます。 これらの質問は、マクロスコピック波動関数のトモグラフィ再構築と大規模量子ビットシステムの接続の最適化、量子ネットワークをまたがる情報の信頼性の高い放送、および量子コンピュータ上の古典的な因果推論アルゴリズムの高速化に関連している。 既存の因果推論技術の量子領域への直接的一般化は、重ね合わせと絡み合いのため不可能である。 エントロピー原理を利用して量子情報科学と因果推論を融合するための新しい理論的枠組みを提唱する。 まず、有名な量子限界問題とエントロピー因果推論の間の基本的な関係を構築します。 第二に、幾何学的量子不一致の定義に触発され、古典条件確率と量子条件密度行列の間のギャップを埋める。 これらの基本的な理論的進歩を利用して、量子エントロピー因果推論のためのスケーラブルなアルゴリズムアプローチを開発する。 提案したフレームワークを量子ノイズリンク上のメッセージ送信者を特定する実験的に関連するシナリオに適用する。 合成量子データセット上のこの成功した推論は、将来のマルチノード量子ネットワーク上で悪意のある活動の起源を特定する基礎を築くことができる。 我々は古典的および量子因果推論を、量子コンピューティングとネットワークにおける将来の応用への道を切り開く原則的な方法で統一する。

As quantum computing and networking nodes scale-up, important open questions arise on the causal influence of various sub-systems on the total system performance. These questions are related to the tomographic reconstruction of the macroscopic wavefunction and optimizing connectivity of large engineered qubit systems, the reliable broadcasting of information across quantum networks as well as speed-up of classical causal inference algorithms on quantum computers. A direct generalization of the existing causal inference techniques to the quantum domain is not possible due to superposition and entanglement. We put forth a new theoretical framework for merging quantum information science and causal inference by exploiting entropic principles. First, we build the fundamental connection between the celebrated quantum marginal problem and entropic causal inference. Second, inspired by the definition of geometric quantum discord, we fill the gap between classical conditional probabilities and quantum conditional density matrices. These fundamental theoretical advances are exploited to develop a scalable algorithmic approach for quantum entropic causal inference. We apply our proposed framework to an experimentally relevant scenario of identifying message senders on quantum noisy links. This successful inference on a synthetic quantum dataset can lay the foundations of identifying originators of malicious activity on future multi-node quantum networks. We unify classical and quantum causal inference in a principled way paving the way for future applications in quantum computing and networking.
翻訳日:2021-02-25 13:25:34 公開日:2021-02-23
# より小さいサイズで良い俳優が現れる:アクター・クリティカル非対称性の値に関するケーススタディ

Good Actors can come in Smaller Sizes: A Case Study on the Value of Actor-Critic Asymmetry ( http://arxiv.org/abs/2102.11893v1 )

ライセンス: Link先を確認
Siddharth Mysore, Bassel Mabsout, Renato Mancuso, Kate Saenko(参考訳) アクター批判強化学習アルゴリズムのアクターや批評家は機能的に分離されているが、同じネットワークアーキテクチャを使うことが多い。 本ケーススタディでは,アクタと批評家のアーキテクチャを独立して考える場合,ネットワークサイズのパフォーマンスへの影響について検討する。 アーキテクチャ対称性の仮定を緩和することにより、小さなアクターが対称対称性と同等のポリシー性能を達成することが可能となる。 私たちの実験では、ネットワークウェイト数を最大97%削減し、複数のタスクで複数のアルゴリズムを平均64%削減しました。 アクタの複雑さを減らす実用的な利点を考えると、アクタと批評家の構成は独立して考慮すべきアクタ批判的な設計の側面であると考えています。

Actors and critics in actor-critic reinforcement learning algorithms are functionally separate, yet they often use the same network architectures. This case study explores the performance impact of network sizes when considering actor and critic architectures independently. By relaxing the assumption of architectural symmetry, it is often possible for smaller actors to achieve comparable policy performance to their symmetric counterparts. Our experiments show up to 97% reduction in the number of network weights with an average reduction of 64% over multiple algorithms on multiple tasks. Given the practical benefits of reducing actor complexity, we believe configurations of actors and critics are aspects of actor-critic design that deserve to be considered independently.
翻訳日:2021-02-25 13:25:15 公開日:2021-02-23
# 文書検索のためのニューラルランキングモデル

Neural Ranking Models for Document Retrieval ( http://arxiv.org/abs/2102.11903v1 )

ライセンス: Link先を確認
Mohamed Trabelsi, Zhiyu Chen, Brian D. Davison, Jeff Heflin(参考訳) ランキングモデルは情報検索システムの主要な構成要素である。 ランキングに対するいくつかのアプローチは、手作りの機能セットを使った従来の機械学習アルゴリズムに基づいている。 近年,情報検索において深層学習モデルを活用している。 これらのモデルは、ランキングタスクの生データから特徴を抽出するためにエンドツーエンドで訓練され、手作りの機能の制限を克服します。 さまざまなディープラーニングモデルが提案されており、各モデルはランキングに使用される特徴を抽出するためのニューラルネットワークコンポーネントのセットを提示している。 本稿では,各モデルの主要な貢献と限界を理解するために,異なる次元の文献で提案されたモデルを比較した。 本論文の議論では,有望な神経成分を解析し,今後の研究方向性を提案する。 また,ランク付けすべき項目が構造化文書,回答,画像,ビデオである文書検索と他の検索タスクの類似性を示す。

Ranking models are the main components of information retrieval systems. Several approaches to ranking are based on traditional machine learning algorithms using a set of hand-crafted features. Recently, researchers have leveraged deep learning models in information retrieval. These models are trained end-to-end to extract features from the raw data for ranking tasks, so that they overcome the limitations of hand-crafted features. A variety of deep learning models have been proposed, and each model presents a set of neural network components to extract features that are used for ranking. In this paper, we compare the proposed models in the literature along different dimensions in order to understand the major contributions and limitations of each model. In our discussion of the literature, we analyze the promising neural components, and propose future research directions. We also show the analogy between document retrieval and other retrieval tasks where the items to be ranked are structured documents, answers, images and videos.
翻訳日:2021-02-25 13:25:03 公開日:2021-02-23
# 一般化可能性と輸送性

A Review of Generalizability and Transportability ( http://arxiv.org/abs/2102.11904v1 )

ライセンス: Link先を確認
Irina Degtiar and Sherri Rose(参考訳) 因果効果を評価する場合、結果を一般化しようとする目標集団を決定することは重要な決定である。 ランダム化および観測研究は、ターゲット集団における因果効果を推定するための強みと制限を有する。 ランダム化されたデータからの見積もりは内部的妥当性を持つが、しばしば対象人口を表すものではない。 観測データは対象の個体群をよりよく反映し、したがって外的妥当性が高いが、未測定の埋没により潜在的なバイアスにさらされる可能性がある。 因果推論の文献の多くは、内部妥当性のバイアスに対処することに焦点を当てているが、ターゲット人口の偏見のない推定には、内部および外部の妥当性の両方が必要である。 本稿では, 汎用性と輸送性へのアプローチ, 必要な仮定の合成, 治療効果の不均一性, 研究と対象集団間の差異の検証など, 外部妥当性バイアスに対処するための枠組みを提案する。

When assessing causal effects, determining the target population to which the results are intended to generalize is a critical decision. Randomized and observational studies each have strengths and limitations for estimating causal effects in a target population. Estimates from randomized data may have internal validity but are often not representative of the target population. Observational data may better reflect the target population, and hence be more likely to have external validity, but are subject to potential bias due to unmeasured confounding. While much of the causal inference literature has focused on addressing internal validity bias, both internal and external validity are necessary for unbiased estimates in a target population. This paper presents a framework for addressing external validity bias, including a synthesis of approaches for generalizability and transportability, the assumptions they require, as well as tests for the heterogeneity of treatment effects and differences between study and target populations.
翻訳日:2021-02-25 13:23:08 公開日:2021-02-23
# 支持ベクトルマシンによる平均治療効果の推定

Estimating Average Treatment Effects with Support Vector Machines ( http://arxiv.org/abs/2102.11926v1 )

ライセンス: Link先を確認
Alexander Tarr and Kosuke Imai(参考訳) サポートベクターマシン(SVM)は、機械学習文献で最も人気のある分類アルゴリズムの1つです。 我々は,SVMを用いて共変量と平均因果効果のバランスを推定できることを実証した。 具体的には、SVM分類器をカーネルベース重み付け法として適用し、有効サンプルサイズを最大化しつつ、処理群と制御群との最大平均誤差を最小化する。 また、SVMは最大平衡部分集合を計算するための二次整数プログラムの連続緩和であり、カーディナリティマッチング法との直接的な関係を確立していることを示した。 SVMのもう一つの重要な特徴は、正規化パラメータが共変バランスと有効なサンプルサイズの間のトレードオフを制御することである。 その結果、既存のSVMパスアルゴリズムを用いて、バランスサンプルサイズのフロンティアを計算することができる。 このトレードオフから生じる因果効果推定のバイアスを特徴づけ、提案されたSVM手順と既存のカーネルバランシング手法を結びつけます。 最後に,提案手法の性能を評価するためにシミュレーションと実験を行い,svmが最先端の共変量バランス手法と競合していることを見いだす。

Support vector machine (SVM) is one of the most popular classification algorithms in the machine learning literature. We demonstrate that SVM can be used to balance covariates and estimate average causal effects under the unconfoundedness assumption. Specifically, we adapt the SVM classifier as a kernel-based weighting procedure that minimizes the maximum mean discrepancy between the treatment and control groups while simultaneously maximizing effective sample size. We also show that SVM is a continuous relaxation of the quadratic integer program for computing the largest balanced subset, establishing its direct relation to the cardinality matching method. Another important feature of SVM is that the regularization parameter controls the trade-off between covariate balance and effective sample size. As a result, the existing SVM path algorithm can be used to compute the balance-sample size frontier. We characterize the bias of causal effect estimation arising from this trade-off, connecting the proposed SVM procedure to the existing kernel balancing methods. Finally, we conduct simulation and empirical studies to evaluate the performance of the proposed methodology and find that SVM is competitive with the state-of-the-art covariate balancing methods.
翻訳日:2021-02-25 13:22:55 公開日:2021-02-23
# LiDARスキャン合成におけるドロップポイントの学習

Learning to Drop Points for LiDAR Scan Synthesis ( http://arxiv.org/abs/2102.11952v1 )

ライセンス: Link先を確認
Kazuto Nakashima and Ryo Kurazume(参考訳) 3Dシーンのジェネラティブモデリングは、モバイルロボットが信頼できない観察を改善するための重要なトピックです。 しかし、自然画像領域の急速な進歩にもかかわらず、ポイントクラウドなどの3Dデータでは、生成モデルの構築は依然として困難です。 点雲に関する既存の研究のほとんどは、小さく均一な密度のデータに焦点を当てている。 対照的に、移動ロボットで広く使われている3次元LiDAR点雲は、多数の点と様々な密度のために扱いにくい。 この問題を回避するため, 既存のLiDAR処理タスクにおいて, 筒状深度マップのような3次元から2次元の投影表現が研究されている。 本論文では,リアルなLiDARデータを改良した2次元表現として合成する,ジェネレーティブ・アドバーサリ・ネットワークに基づく新しいフレームワークを提案する。 我々の生成アーキテクチャは、逆深度マップの分布を学習し、損失画素を同時にシミュレートするために設計されており、基礎となる滑らかな幾何学とそれに対応するレーザー反射の不確かさを分解することができる。 損失画素をシミュレートするために,gumbel-sigmoid再パラメータ化手法を用いてサンプル依存のバイナリマスクを作成するための微分可能なフレームワークを提案する。 2つのLiDARデータセットの合成および再構築タスクにおけるアプローチの有効性を実証する。 LiDARデータの様々な破損を回復することで、潜在的なアプリケーションをさらに紹介します。

Generative modeling of 3D scenes is a crucial topic for aiding mobile robots to improve unreliable observations. However, despite the rapid progress in the natural image domain, building generative models is still challenging for 3D data, such as point clouds. Most existing studies on point clouds have focused on small and uniform-density data. In contrast, 3D LiDAR point clouds widely used in mobile robots are non-trivial to be handled because of the large number of points and varying-density. To circumvent this issue, 3D-to-2D projected representation such as a cylindrical depth map has been studied in existing LiDAR processing tasks but susceptible to discrete lossy pixels caused by failures of laser reflection. This paper proposes a novel framework based on generative adversarial networks to synthesize realistic LiDAR data as an improved 2D representation. Our generative architectures are designed to learn a distribution of inverse depth maps and simultaneously simulate the lossy pixels, which enables us to decompose an underlying smooth geometry and the corresponding uncertainty of laser reflection. To simulate the lossy pixels, we propose a differentiable framework to learn to produce sample-dependent binary masks using the Gumbel-Sigmoid reparametrization trick. We demonstrate the effectiveness of our approach in synthesis and reconstruction tasks on two LiDAR datasets. We further showcase potential applications by recovering various corruptions in LiDAR data.
翻訳日:2021-02-25 13:22:37 公開日:2021-02-23
# 状態強化強化強化学習: 報酬による学習の限界を克服する

State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards ( http://arxiv.org/abs/2102.11941v1 )

ライセンス: Link先を確認
Miguel Calvo-Fullana, Santiago Paternain, Luiz F. O. Chamon, Alejandro Ribeiro(参考訳) 制約付き強化学習は、与えられたしきい値に個別に蓄積しなければならない複数の報酬を伴う。 この問題のクラスでは、報酬の任意の線形組み合わせによって所望の最適政策を誘導することができない簡単な例を示します。 したがって、正規化法も古典的原始的方法も最適方針を与えない制約付き強化学習問題が存在する。 この研究は、Lagrange乗算器で状態を増強し、プリミラル・デュアルメソッドを乗算器の進化を駆動するダイナミクスの部分として再解釈することによって、この欠点に対処する。 このアプローチは、制約付き強化学習問題を解決するための体系的な状態拡張手順を提供する。 したがって、原始双対法は最適なポリシーを見つけるのに失敗する可能性があるが、拡張ポリシーを実行しながらデュアルダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが得られる。

Constrained reinforcement learning involves multiple rewards that must individually accumulate to given thresholds. In this class of problems, we show a simple example in which the desired optimal policy cannot be induced by any linear combination of rewards. Hence, there exist constrained reinforcement learning problems for which neither regularized nor classical primal-dual methods yield optimal policies. This work addresses this shortcoming by augmenting the state with Lagrange multipliers and reinterpreting primal-dual methods as the portion of the dynamics that drives the multipliers evolution. This approach provides a systematic state augmentation procedure that is guaranteed to solve reinforcement learning problems with constraints. Thus, while primal-dual methods can fail at finding optimal policies, running the dual dynamics while executing the augmented policy yields an algorithm that provably samples actions from the optimal policy.
翻訳日:2021-02-25 13:21:43 公開日:2021-02-23
# (参考訳) ROAD:自動運転のためのROADイベント認識データセット [全文訳有]

ROAD: The ROad event Awareness Dataset for Autonomous Driving ( http://arxiv.org/abs/2102.11585v1 )

ライセンス: CC BY 4.0
Gurkirt Singh, Stephen Akrigg, Manuele Di Maio, Valentina Fontana, Reza Javanmard Alitappeh, Suman Saha, Kossar Jeddisaravi, Farzad Yousefi, Jacob Culley, Tom Nicholson, Jordan Omokeowa, Salman Khan, Stanislao Grazioso, Andrew Bradley, Giuseppe Di Gironimo, Fabio Cuzzolin(参考訳) 人間は、特に道路イベントとその進化を理解することを伴う総合的な方法で運転にアプローチする。 これらの機能を自動運転車に投入することで、状況認識と意思決定を人間レベルのパフォーマンスに近づける可能性があります。 この目的のために、我々は、自動運転のためのROADイベントAwareness Dataset(ROAD)を私たちの知識に紹介する。 ROADは、移動エージェント、実行するアクション、および対応するシーンの位置で構成されたトリプレットとして定義された、道路イベントを検出する自律車両の能力をテストするように設計されています。 ROADは、もともとOxford RobotCar Datasetからの22のビデオで構成されており、各道路イベントのイメージプレーン内の位置を示すバウンディングボックスがアノテートされている。 また、オンライン道路イベント認識のための新たなインクリメンタルアルゴリズムとして、時間とともに膨張するRetinaNetをベースとして、フレームレベルおよびビデオレベルのイベント検出において平均16.8%と6.1%の平均精度を50%のオーバーラップで達成する。 これらの数字は有望だが、自動運転における状況認識が直面する課題を強調している。 最後に、道路学者は複雑な(道路)活動の検出、将来の道路イベント予測、精神状態の感覚的な道路エージェントのモデル化といったエキサイティングなタスクを研究できる。

Humans approach driving in a holistic fashion which entails, in particular, understanding road events and their evolution. Injecting these capabilities in an autonomous vehicle has thus the potential to take situational awareness and decision making closer to human-level performance. To this purpose, we introduce the ROad event Awareness Dataset (ROAD) for Autonomous Driving, to our knowledge the first of its kind. ROAD is designed to test an autonomous vehicle's ability to detect road events, defined as triplets composed by a moving agent, the action(s) it performs and the corresponding scene locations. ROAD comprises 22 videos, originally from the Oxford RobotCar Dataset, annotated with bounding boxes showing the location in the image plane of each road event. We also provide as baseline a new incremental algorithm for online road event awareness, based on inflating RetinaNet along time, which achieves a mean average precision of 16.8% and 6.1% for frame-level and video-level event detection, respectively, at 50% overlap. Though promising, these figures highlight the challenges faced by situation awareness in autonomous driving. Finally, ROAD allows scholars to investigate exciting tasks such as complex (road) activity detection, future road event anticipation and the modelling of sentient road agents in terms of mental states.
翻訳日:2021-02-25 13:18:58 公開日:2021-02-23
# (参考訳) DeepThermal: オフライン強化学習を用いた火力発電ユニットの燃焼最適化 [全文訳有]

DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning ( http://arxiv.org/abs/2102.11492v1 )

ライセンス: CC BY 4.0
Xianyuan Zhan, Haoran Xu, Yue Zhang, Yusen Huo, Xiangyu Zhu, Honglei Yin, Yu Zheng(参考訳) 火力発電は世界の電力供給において主要な役割を担っている。 世界中で大量の石炭を消費し、深刻な大気汚染を引き起こす。 熱発電ユニット(TPGU)の燃焼効率を最適化することは、エネルギー産業において非常に困難かつ重要な課題である。 我々はtpgusの燃焼制御戦略を最適化する新しいデータ駆動型aiシステム、deepthermalを開発した。 MOREと呼ばれる新しいモデルベースのオフライン強化学習(RL)フレームワークは、TGPUのログ化された履歴操作データを活用して、純粋にオフライントレーニングを通じて、非常に複雑な制約付きマルコフ決定プロセス問題を解決する。 MOREは、長期的な報酬(燃焼効率の向上と汚染物質の排出削減)の同時改善と運用リスク(安全制約満足)のコントロールを目指しています。 DeepThermalでは、まずオフラインデータセットからデータ駆動の燃焼プロセスシミュレーターを学びます。 MOREのRLエージェントは、新しい制限探索スキームを介して、実際の履歴データと慎重にフィルタリングおよび処理されたシミュレーションデータを組み合わせて訓練されます。 DeepThermalは中国の4大石炭火力発電所に配備されている。 実世界の実験では、DeepThermalがTPGUの燃焼効率を効果的に改善することを示しています。 また,標準オフラインrlベンチマークにおける最先端アルゴリズムとの比較により,より優れた性能を示す。 著者の最高の知識のために、DeepThermalはオフラインRLアプローチを使用して現実世界の複雑なミッションクリティカルな制御タスクを解決するために使用された最初のAIアプリケーションです。

Thermal power generation plays a dominant role in the world's electricity supply. It consumes large amounts of coal worldwide, and causes serious air pollution. Optimizing the combustion efficiency of a thermal power generating unit (TPGU) is a highly challenging and critical task in the energy industry. We develop a new data-driven AI system, namely DeepThermal, to optimize the combustion control strategy for TPGUs. At its core, is a new model-based offline reinforcement learning (RL) framework, called MORE, which leverages logged historical operational data of a TGPU to solve a highly complex constrained Markov decision process problem via purely offline training. MORE aims at simultaneously improving the long-term reward (increase combustion efficiency and reduce pollutant emission) and controlling operational risks (safety constraints satisfaction). In DeepThermal, we first learn a data-driven combustion process simulator from the offline dataset. The RL agent of MORE is then trained by combining real historical data as well as carefully filtered and processed simulation data through a novel restrictive exploration scheme. DeepThermal has been successfully deployed in four large coal-fired thermal power plants in China. Real-world experiments show that DeepThermal effectively improves the combustion efficiency of a TPGU. We also report and demonstrate the superior performance of MORE by comparing with the state-of-the-art algorithms on the standard offline RL benchmarks. To the best knowledge of the authors, DeepThermal is the first AI application that has been used to solve real-world complex mission-critical control tasks using the offline RL approach.
翻訳日:2021-02-25 12:44:20 公開日:2021-02-23
# (参考訳) ベイズ因果推論の同定可能性のシミュレーションによる検証 [全文訳有]

A Simulation-Based Test of Identifiability for Bayesian Causal Inference ( http://arxiv.org/abs/2102.11761v1 )

ライセンス: CC BY 4.0
Sam Witty, David Jensen, Vikash Mansinghka(参考訳) 本稿では、因果推論のためのベイズモデルの識別性をテストする手順について紹介する。 do-calculus は、因果グラフが与えられたときの健全かつ完備であるが、器用変数設計や回帰不連続設計、対象内設計など、多くの実践的な仮定は、グラフ構造だけでは表現できない。 本論文では,シミュレート観測による粒子最適化方式に基づく完全自動識別試験であるシミュレーションに基づく識別可能性(SBI)について述べる。 このアプローチは、ガウス過程を用いた柔軟な事前を含む構造因果モデルにおける関数の先行として因果仮定を表現する。 我々はSBIが漸近的に健全かつ完全であることを証明し、実用的な有限サンプル境界を生成する。 また、SBIは、グラフに基づく識別の既知の結果と、グラフベースの手法が決定不能な設計に対する広く保持された直観に一致していることを示す。

This paper introduces a procedure for testing the identifiability of Bayesian models for causal inference. Although the do-calculus is sound and complete given a causal graph, many practical assumptions cannot be expressed in terms of graph structure alone, such as the assumptions required by instrumental variable designs, regression discontinuity designs, and within-subjects designs. We present simulation-based identifiability (SBI), a fully automated identification test based on a particle optimization scheme with simulated observations. This approach expresses causal assumptions as priors over functions in a structural causal model, including flexible priors using Gaussian processes. We prove that SBI is asymptotically sound and complete, and produces practical finite-sample bounds. We also show empirically that SBI agrees with known results in graph-based identification as well as with widely-held intuitions for designs in which graph-based methods are inconclusive.
翻訳日:2021-02-25 12:20:59 公開日:2021-02-23
# (参考訳) ただのモーメント:パラディグマ的高次元非凸問題におけるモーメントに基づく加速法の解析的研究 [全文訳有]

Just a Momentum: Analytical Study of Momentum-Based Acceleration Methods Methods in Paradigmatic High-Dimensional Non-Convex Problem ( http://arxiv.org/abs/2102.11755v1 )

ライセンス: CC BY 4.0
Stefano Sarao Mannelli and Pierfrancesco Urbani(参考訳) 損失関数を最適化する場合、バニラ勾配法ではなく運動量に基づく加速法を用いるのが一般的である。 任意の損失関数に広く適用されているにもかかわらず、それらの挙動は一般には非凸であり、高次元の風景は理解されていない。 本研究では,動的平均場理論を用いて,原型的非凸モデルである行列テンソルモデルにおいて,これらの手法の平均挙動を解析的に記述した。 重球運動量やネステロフ加速を含むいくつかのアルゴリズムの挙動を記述する閉集合方程式を導出する。 さらに、エネルギー的景観の底部に向かってリラックスする巨大粒子の数学的に等価な物理系の進化を特徴づける。 正しいマッピングの下では、2つのダイナミクスは等価であり、大きな質量を持つと重いボールのダイナミクスの有効時間ステップが増大し、速度が上がることに気付く。

When optimizing over loss functions it is common practice to use momentum-based accelerated methods rather than vanilla gradient-based method. Despite widely applied to arbitrary loss function, their behaviour in generically non-convex, high dimensional landscapes is poorly understood. In this work we used dynamical mean field theory techniques to describe analytically the average behaviour of these methods in a prototypical non-convex model: the (spiked) matrix-tensor model. We derive a closed set of equations that describe the behaviours of several algorithms including heavy-ball momentum and Nesterov acceleration. Additionally we characterize the evolution of a mathematically equivalent physical system of massive particles relaxing toward the bottom of an energetic landscape. Under the correct mapping the two dynamics are equivalent and it can be noticed that having a large mass increases the effective time step of the heavy ball dynamics leading to a speed up.
翻訳日:2021-02-25 11:28:18 公開日:2021-02-23
# (参考訳) ユーザーレベルのプライバシーで学ぶ

Learning with User-Level Privacy ( http://arxiv.org/abs/2102.11845v1 )

ライセンス: CC0 1.0
Daniel Levy, Ziteng Sun, Kareem Amin, Satyen Kale, Alex Kulesza, Mehryar Mohri, Ananda Theertha Suresh(参考訳) ユーザレベルの差分プライバシ制約下での学習タスクを解くためのアルゴリズムを提案し,解析する。 個々のサンプルのプライバシーだけを保証するのではなく、ユーザーレベルのDPはユーザーのコントリビューション全体($m \ge 1$サンプル)を保護し、情報漏洩に対するより厳密でより現実的な保護を提供します。 高次元平均推定、滑らかな損失を伴う経験的リスク最小化、確率的凸最適化、有限な計量エントロピーを持つ学習仮説クラスでは、ユーザがより多くのサンプルを提供すれば、プライバシコストは$o(1/\sqrt{m})$となる。 対照的に、$n$のユーザ数を増やすと、プライバシコストはより高速な$O(1/n)$レートで減少する。 平均推定と確率凸最適化のためのアルゴリズムの最悪の最適性を示す下限でこれらの結果を補完する。 私たちのアルゴリズムは、全範囲ではなく、分布の濃度半径 $\tau$ として誤差スケーリングで任意の次元のプライベート平均推定のための新しい技術に依存します。 均一収束の下では、プライバシコストが$\tau$に比例した、適応的に選択されたクエリ列にプライベートに答えるアルゴリズムを導出し、それを適用して検討する学習課題を解決する。

We propose and analyze algorithms to solve a range of learning tasks under user-level differential privacy constraints. Rather than guaranteeing only the privacy of individual samples, user-level DP protects a user's entire contribution ($m \ge 1$ samples), providing more stringent but more realistic protection against information leaks. We show that for high-dimensional mean estimation, empirical risk minimization with smooth losses, stochastic convex optimization, and learning hypothesis class with finite metric entropy, the privacy cost decreases as $O(1/\sqrt{m})$ as users provide more samples. In contrast, when increasing the number of users $n$, the privacy cost decreases at a faster $O(1/n)$ rate. We complement these results with lower bounds showing the worst-case optimality of our algorithm for mean estimation and stochastic convex optimization. Our algorithms rely on novel techniques for private mean estimation in arbitrary dimension with error scaling as the concentration radius $\tau$ of the distribution rather than the entire range. Under uniform convergence, we derive an algorithm that privately answers a sequence of $K$ adaptively chosen queries with privacy cost proportional to $\tau$, and apply it to solve the learning tasks we consider.
翻訳日:2021-02-25 09:58:20 公開日:2021-02-23
# (参考訳) VisualCheXbert: 放射線医学レポートラベルと画像ラベルの相違に対処する [全文訳有]

VisualCheXbert: Addressing the Discrepancy Between Radiology Report Labels and Image Labels ( http://arxiv.org/abs/2102.11467v1 )

ライセンス: CC BY 4.0
Saahil Jain, Akshay Smit, Steven QH Truong, Chanh DT Nguyen, Minh-Thanh Huynh, Mudit Jain, Victoria A. Young, Andrew Y. Ng, Matthew P. Lungren, Pranav Rajpurkar(参考訳) 医用画像の解釈にコンピュータビジョンモデルを監督するためには, 自由テキストラジオグラフィーレポートからの医療条件の自動抽出が重要である。 本研究では, 放射線医はX線画像と放射線医と有意に一致せず, 画像ラベルのプロキシとして, レポートラベルの品質を低下させることを示した。 画像のラベリングとよりよく一致したラジオロジーレポートからラベルを作成する手法を開発し,評価する。 胸部X線画像から医療状況を検出するために訓練されたコンピュータビジョンモデルにより訓練された監視信号を用いて,生物医学的に事前訓練されたBERTモデルを用いて,放射線学レポートから画像ラベルに直接マップする。 VisualCheXbert は F1 スコア平均 0.14 (95% CI 0.12, 0.17) で既存の放射線学レポートラベラを用いたアプローチよりも優れていた。 また,0.12 (95% ci 0.09, 0.15) から 0.21 (95% ci 0.18, 0.24) までのいくつかの医療条件において,対応するx線報告書を平均f1スコアでラベル付けする放射線科医よりも,visualchexbert は胸部x線像をラベル付けする放射線科医とよく一致していることがわかった。

Automatic extraction of medical conditions from free-text radiology reports is critical for supervising computer vision models to interpret medical images. In this work, we show that radiologists labeling reports significantly disagree with radiologists labeling corresponding chest X-ray images, which reduces the quality of report labels as proxies for image labels. We develop and evaluate methods to produce labels from radiology reports that have better agreement with radiologists labeling images. Our best performing method, called VisualCheXbert, uses a biomedically-pretrai ned BERT model to directly map from a radiology report to the image labels, with a supervisory signal determined by a computer vision model trained to detect medical conditions from chest X-ray images. We find that VisualCheXbert outperforms an approach using an existing radiology report labeler by an average F1 score of 0.14 (95% CI 0.12, 0.17). We also find that VisualCheXbert better agrees with radiologists labeling chest X-ray images than do radiologists labeling the corresponding radiology reports by an average F1 score across several medical conditions of between 0.12 (95% CI 0.09, 0.15) and 0.21 (95% CI 0.18, 0.24).
翻訳日:2021-02-25 09:57:13 公開日:2021-02-23
# (参考訳) 不確実性認識一般化適応サイクルGAN [全文訳有]

Uncertainty-aware Generalized Adaptive CycleGAN ( http://arxiv.org/abs/2102.11747v1 )

ライセンス: CC BY 4.0
Uddeshya Upadhyay, Yanbei Chen, Zeynep Akata(参考訳) unpaired image-to-image translationは、教師なしの方法で画像ドメイン間のマッピングを学ぶことを指す。 既存のメソッドは、アウトプライヤへの堅牢性や予測不確実性を明示的にモデル化することなく、決定論的なマッピングを学習することが多く、テスト時に未確認の分散(OOD)パターンに遭遇するとパフォーマンスが低下する。 そこで本研究では,一般ガウス分布によって残存する画素をモデル化し,重尾分布をモデル化できる,Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC) という新しい確率論的手法を提案する。 自然画像における不対画像のノイズ除去と医療画像領域における不対モダリティプロロゲーションの2つの課題について,本モデルと最先端の手法を比較した。 実験結果から, 信号対雑音比や構造的類似度などの定量的指標において, 最近の手法に比べ, 優れた画像生成品質が得られた。 また,OODテストデータに対する強い堅牢性を示す。

Unpaired image-to-image translation refers to learning inter-image-domain mapping in an unsupervised manner. Existing methods often learn deterministic mappings without explicitly modelling the robustness to outliers or predictive uncertainty, leading to performance degradation when encountering unseen out-of-distribution (OOD) patterns at test time. To address this limitation, we propose a novel probabilistic method called Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC), which models the per-pixel residual by generalized Gaussian distribution, capable of modelling heavy-tailed distributions. We compare our model with a wide variety of state-of-the-art methods on two challenging tasks: unpaired image denoising in the natural image and unpaired modality prorogation in medical image domains. Experimental results demonstrate that our model offers superior image generation quality compared to recent methods in terms of quantitative metrics such as signal-to-noise ratio and structural similarity. Our model also exhibits stronger robustness towards OOD test data.
翻訳日:2021-02-25 09:31:43 公開日:2021-02-23
# (参考訳) 密度マップの深ベイズ回帰を用いた不確実性細胞検出による定量的顕微鏡の確率的空間解析 [全文訳有]

Probabilistic Spatial Analysis in Quantitative Microscopy with Uncertainty-Aware Cell Detection using Deep Bayesian Regression of Density Maps ( http://arxiv.org/abs/2102.11865v1 )

ライセンス: CC BY 4.0
Alvaro Gomariz, Tiziano Portenier, C\'esar Nombela-Arrieta, Orcun Goksel(参考訳) 3d顕微鏡は多様な生体システムの研究の鍵であり、大規模データセットの可用性が高まるにつれて、精度だけでなく、予測の不確実性も示唆し、潜在的なエラーやそれを用いた結論への信頼が高まる。 従来の深層学習法は決定論的な結果をもたらすことが多いが、深層ベイズ学習の進歩は、多数の画像分類および分割タスクにおける確率的解釈を伴う正確な予測を可能にする。 しかし、このようなベイズ法を細胞検出に拡張するのは非自明であり、特殊な学習フレームワークを必要とする。 特に、密度マップの回帰は、後処理ステップで局所的なピークからセル座標を抽出する成功例であり、これは有意義な確率的出力を妨げる。 本稿では,大規模顕微鏡画像上で動作し,(i)セル提案を生成するためにピーク検出を適用可能な不確実性認識密度マップの回帰のためのベイズ法を統合し,(ii)多数の提案から校正される確率空間へのマッピングを学ぶことにより,所望の確率的予測を行う深層学習型セル検出フレームワークを提案する。 予測が成功する確率を正確に表します。 このようなキャリブレーション予測を用いて,モンテカルロサンプリングを用いた確率空間解析を提案する。 本研究では, 骨髄内における間葉系間質細胞型の分布について, 既存の記述を修正し, 検出不能な空間パターンを明らかにする方法を提案する。 このような確率論的解析を定量的顕微鏡パイプラインに導入することで、空間分布の生物学的仮説をテストするための信頼区間を報告できる。

3D microscopy is key in the investigation of diverse biological systems, and the ever increasing availability of large datasets demands automatic cell identification methods that not only are accurate, but also can imply the uncertainty in their predictions to inform about potential errors and hence confidence in conclusions using them. While conventional deep learning methods often yield deterministic results, advances in deep Bayesian learning allow for accurate predictions with a probabilistic interpretation in numerous image classification and segmentation tasks. It is however nontrivial to extend such Bayesian methods to cell detection, which requires specialized learning frameworks. In particular, regression of density maps is a popular successful approach for extracting cell coordinates from local peaks in a postprocessing step, which hinders any meaningful probabilistic output. We herein propose a deep learning-based cell detection framework that can operate on large microscopy images and outputs desired probabilistic predictions by (i) integrating Bayesian techniques for the regression of uncertainty-aware density maps, where peak detection can be applied to generate cell proposals, and (ii) learning a mapping from the numerous proposals to a probabilistic space that is calibrated, i.e. accurately represents the chances of a successful prediction. Utilizing such calibrated predictions, we propose a probabilistic spatial analysis with Monte-Carlo sampling. We demonstrate this in revising an existing description of the distribution of a mesenchymal stromal cell type within the bone marrow, where our proposed methods allow us to reveal spatial patterns that are otherwise undetectable. Introducing such probabilistic analysis in quantitative microscopy pipelines will allow for reporting confidence intervals for testing biological hypotheses of spatial distributions.
翻訳日:2021-02-25 09:12:20 公開日:2021-02-23
# (参考訳) 微分可能な論理機械 [全文訳有]

Differentiable Logic Machines ( http://arxiv.org/abs/2102.11529v1 )

ライセンス: CC BY 4.0
Zimmer Matthieu and Feng Xuening and Glanois Claire and Jiang Zhaohui and Zhang Jianyi and Weng Paul and Jianye Hao and Dong Li and Wulong Liu(参考訳) より一般的なAIシステムを構築するためには、推論、学習、意思決定の統合が重要です。 この方向への一歩として、帰納論理プログラミング(ILP)と深部強化学習(RL)の両問題を解くことができる新しいニューラル論理アーキテクチャを提案する。 我々のアーキテクチャは、規則の代わりに述語に重みを割り当てることで、一階述語論理プログラムの制限的かつ表現的連続空間を定義する。 したがって、完全に微分可能であり、勾配降下で効率的に訓練することができる。 さらに,アクター批判アルゴリズムを用いた深いRL設定において,新しい効率的な批評家アーキテクチャを提案する。 ilp問題とrl問題の両方における最先端手法と比較して,本提案は,完全な解釈可能なソリューションを提供しながら,特にテストフェーズにおいて,より優れたスケーリングを実現する。

The integration of reasoning, learning, and decision-making is key to build more general AI systems. As a step in this direction, we propose a novel neural-logic architecture that can solve both inductive logic programming (ILP) and deep reinforcement learning (RL) problems. Our architecture defines a restricted but expressive continuous space of first-order logic programs by assigning weights to predicates instead of rules. Therefore, it is fully differentiable and can be efficiently trained with gradient descent. Besides, in the deep RL setting with actor-critic algorithms, we propose a novel efficient critic architecture. Compared to state-of-the-art methods on both ILP and RL problems, our proposition achieves excellent performance, while being able to provide a fully interpretable solution and scaling much better, especially during the testing phase.
翻訳日:2021-02-25 08:35:17 公開日:2021-02-23
# (参考訳) 深部特徴の袋を用いた船舶の自動分類 [全文訳有]

Automatic Ship Classification Utilizing Bag of Deep Features ( http://arxiv.org/abs/2102.11520v1 )

ライセンス: CC BY 4.0
Sadegh Soleimani Pour, Ata Jodeiri, Hossein Rashidi, Seyed Mostafa Mirhassani, Hoda Kheradfallah, Hadi Seyedarabi(参考訳) 自然画像におけるシルエットプロファイルに基づく船舶の検出と分類は、コンピュータサイエンスにおいて重要な作業である。 この問題は、セキュリティ、トラフィック制御、さらには軍国主義など、さまざまな観点から見ることができます。 したがって、上記の各アプリケーションでは、特定の処理が必要です。 本論文では,"bag of words"(単語の袋)を適用することにより,その単語が,事前訓練された深層畳み込みネットワークモデルを用いて得られる特徴であることを示す。 3つのVGGモデルを用いてオブジェクトの識別精度を向上する。 初期提案として選択された画像の領域は、scale invariant feature transform (sift)法によって生成されたキーポイント上のグリーディアルゴリズムから導出される。 BOWメソッドの深い特徴を使用することは、船舶の認識と分類に良い改善をもたらします。 最終的に、従来の方法と比較して約5%の改善を示す船舶の分類で91.8%の精度を得た。

Detection and classification of ships based on their silhouette profiles in natural imagery is an important undertaking in computer science. This problem can be viewed from a variety of perspectives, including security, traffic control, and even militarism. Therefore, in each of the aforementioned applications, specific processing is required. In this paper, by applying the "bag of words" (BoW), a new method is presented that its words are the features that are obtained using pre-trained models of deep convolutional networks. , Three VGG models are utilized which provide superior accuracy in identifying objects. The regions of the image that are selected as the initial proposals are derived from a greedy algorithm on the key points generated by the Scale Invariant Feature Transform (SIFT) method. Using the deep features in the BOW method provides a good improvement in the recognition and classification of ships. Eventually, we obtained an accuracy of 91.8% in the classification of the ships which shows the improvement of about 5% compared to previous methods.
翻訳日:2021-02-25 07:44:44 公開日:2021-02-23
# (参考訳) ソースフリー非教師付きドメイン適応のための自己教師付きノイズラベル学習 [全文訳有]

Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2102.11614v1 )

ライセンス: CC BY 4.0
Weijie Chen and Luojun Lin and Shicai Yang and Di Xie and Shiliang Pu and Yueting Zhuang and Wenqi Ren(参考訳) 多くの既存の監視されていないドメイン適応アプローチで、ソースデータに自由にアクセスする強力な前提条件です。 しかし、コストのかかるデータ送信とデータプライバシ保護の制約のため、ソースデータは多くの現実的なシナリオでは不可知である。 通常、与えられたソースドメインの事前トレーニングモデルは、ラベルなしのターゲットデータのみを使用して最適化されることが期待されます。 本稿では,事前学習されたモデルが,直接ネットワーク推論によってラベルなし対象データのノイズラベルを事前に生成できるため,雑音ラベル学習の観点からこの問題を解決する。 自己監督型学習を組み込んだこの問題モデルでは,事前生成ラベルを用いた学習モデルと,その場で自動生成ラベルを効果的に微調整できる,新しい自己監督型雑音ラベル学習法を提案する。 有効性を検証するために大規模な実験が行われた。 本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。 コードはリリースされる。

It is a strong prerequisite to access source data freely in many existing unsupervised domain adaptation approaches. However, source data is agnostic in many practical scenarios due to the constraints of expensive data transmission and data privacy protection. Usually, the given source domain pre-trained model is expected to optimize with only unlabeled target data, which is termed as source-free unsupervised domain adaptation. In this paper, we solve this problem from the perspective of noisy label learning, since the given pre-trained model can pre-generate noisy label for unlabeled target data via directly network inference. Under this problem modeling, incorporating self-supervised learning, we propose a novel Self-Supervised Noisy Label Learning method, which can effectively fine-tune the pre-trained model with pre-generated label as well as selfgenerated label on the fly. Extensive experiments had been conducted to validate its effectiveness. Our method can easily achieve state-of-the-art results and surpass other methods by a very large margin. Code will be released.
翻訳日:2021-02-25 07:33:58 公開日:2021-02-23
# (参考訳) 低リソースインドの言語におけるファクトチェックのファクタリゼーション [全文訳有]

Factorization of Fact-Checks for Low Resource Indian Languages ( http://arxiv.org/abs/2102.11276v1 )

ライセンス: CC BY 4.0
Shivangi Singhal, Rajiv Ratn Shah, Ponnurangam Kumaraguru(参考訳) テクノロジの進歩とインターネットの個人へのアクセシビリティは、リアルタイム情報に革命をもたらしている。 信頼度チェックを通さずに自分の考えを表現できる自由は、エコシステムにおける偽コンテンツの拡散につながる。 それは個人および社会全体に悲惨な効果をもたらすことができます。 インドでも偽ニュースの増幅が急増している。 分断された情報は、しばしば交換説明で再発行され、いくつかの異なる発生率を描写すると主張します。 このような作り話を抑制するためには、そのような重複や虚偽の主張を公に調査する必要がある。 自動事実チェックと偽ニュース検出の研究の大半は英語のみに限られている。 しかし、文人人口の10%が英語を話せないインドのような国では、偽造を広めるための地域言語の役割は損なわれない。 本稿では,インドの地域言語を対象とした,最初の大規模多言語ファクトチェックデータセットであるfactdrilを紹介する。 私たちは、11の低リソース言語をカバーする7ヶ月にわたる完全なデータセットを収集します。 私たちの提案データセットは、英語に属する9,058のサンプル、ヒンディー語への5,155のサンプル、および残りの8,222のサンプルからなる。 Bangla, Marathi, Malayalam, Telugu, Tamil, Oriya, Assamese, Punjabi, Urdu, Sinhala, Burmese。 また,ファクトドリルにおける3つのm(多言語,マルチメディア,マルチドメイン)の詳細な特徴と,他の属性の完全なリストについて述べる。 最後に、データセットの潜在的なユースケースを示す。 このデータセットは貴重なリソースであり、低リソース言語での偽ニュースの拡散と戦う出発点となると期待しています。

The advancement in technology and accessibility of internet to each individual is revolutionizing the real time information. The liberty to express your thoughts without passing through any credibility check is leading to dissemination of fake content in the ecosystem. It can have disastrous effects on both individuals and society as a whole. The amplification of fake news is becoming rampant in India too. Debunked information often gets republished with a replacement description, claiming it to depict some different incidence. To curb such fabricated stories, it is necessary to investigate such deduplicates and false claims made in public. The majority of studies on automatic fact-checking and fake news detection is restricted to English only. But for a country like India where only 10% of the literate population speak English, role of regional languages in spreading falsity cannot be undermined. In this paper, we introduce FactDRIL: the first large scale multilingual Fact-checking Dataset for Regional Indian Languages. We collect an exhaustive dataset across 7 months covering 11 low-resource languages. Our propose dataset consists of 9,058 samples belonging to English, 5,155 samples to Hindi and remaining 8,222 samples are distributed across various regional languages, i.e. Bangla, Marathi, Malayalam, Telugu, Tamil, Oriya, Assamese, Punjabi, Urdu, Sinhala and Burmese. We also present the detailed characterization of three M's (multi-lingual, multi-media, multi-domain) in the FactDRIL accompanied with the complete list of other varied attributes making it a unique dataset to study. Lastly, we present some potential use cases of the dataset. We expect this dataset will be a valuable resource and serve as a starting point to fight proliferation of fake news in low resource languages.
翻訳日:2021-02-25 07:13:40 公開日:2021-02-23
# (参考訳) 順序付きオートエンコーディングによる自己回帰モデルの任意のサンプリング [全文訳有]

Anytime Sampling for Autoregressive Models via Ordered Autoencoding ( http://arxiv.org/abs/2102.11495v1 )

ライセンス: CC BY 4.0
Yilun Xu, Yang Song, Sahaj Garg, Linyuan Gong, Rui Shu, Aditya Grover, Stefano Ermon(参考訳) 自動回帰モデルは画像生成や音声生成などのタスクに広く使われている。 しかし、これらのモデルのサンプリングプロセスは中断を許さず、リアルタイムの計算リソースに適応できません。 この課題は、本質的にシーケンシャルで、典型的にはデータ次元に関して線形にスケールする遅いサンプリングプロセスを含む強力な自己回帰モデルの展開を妨げる。 この難易度に対処するため、いつでもサンプリングを可能にする新しい自動回帰モデルファミリーを提案します。 主成分分析に触発されて,次元が再構成における重要度に基づいて順序づけされる構造的表現空間を学習する。 この潜在空間における自己回帰モデルを用いて、元のデータ空間に復号する前に生成過程を切断し、サンプル品質を計算効率で交換する。 実験では,サンプリングの計算予算を削減し,サンプル品質が優雅に劣化する複数の画像および音声生成タスクを実演する。 このアプローチは、画像データの全潜在次元の60\%から80\%しか使っていないサンプル品質(fidによる測定)がほとんど失われない。 コードはhttps://github.com/N ewbeeer/Anytime-Auto -Regressive-Modelで入手できる。

Autoregressive models are widely used for tasks such as image and audio generation. The sampling process of these models, however, does not allow interruptions and cannot adapt to real-time computational resources. This challenge impedes the deployment of powerful autoregressive models, which involve a slow sampling process that is sequential in nature and typically scales linearly with respect to the data dimension. To address this difficulty, we propose a new family of autoregressive models that enables anytime sampling. Inspired by Principal Component Analysis, we learn a structured representation space where dimensions are ordered based on their importance with respect to reconstruction. Using an autoregressive model in this latent space, we trade off sample quality for computational efficiency by truncating the generation process before decoding into the original data space. Experimentally, we demonstrate in several image and audio generation tasks that sample quality degrades gracefully as we reduce the computational budget for sampling. The approach suffers almost no loss in sample quality (measured by FID) using only 60\% to 80\% of all latent dimensions for image data. Code is available at https://github.com/N ewbeeer/Anytime-Auto -Regressive-Model .
翻訳日:2021-02-25 06:36:56 公開日:2021-02-23
# (参考訳) histo-fetch -- ギガピクセル全体のスライド画像のオンザフライ処理がニューラルネットワークトレーニングを単純化し、高速化する [全文訳有]

Histo-fetch -- On-the-fly processing of gigapixel whole slide images simplifies and speeds neural network training ( http://arxiv.org/abs/2102.11433v1 )

ライセンス: CC BY 4.0
Brendon Lutnick, Leema Krishna Murali, Brandon Ginley, and Pinaki Sarder(参考訳) ニューラルネットワークへの入力を行うために,病理全体スライド画像(wsis)からランダムパッチやラベルを効率的に抽出するカスタムパイプライン(histo-fetch)を開発した。 我々は、ネットワークトレーニング中に必要に応じてこれらのパッチをプリフェッチし、切り欠きや切り欠きなどのwsi準備の必要性を回避した。 本稿では,一般的なネットワークCycleGANとProGANを用いて,人工的な染料転送と画像生成を行うパイプラインの有用性を実証する。

We created a custom pipeline (histo-fetch) to efficiently extract random patches and labels from pathology whole slide images (WSIs) for input to a neural network on-the-fly. We prefetch these patches as needed during network training, avoiding the need for WSI preparation such as chopping/tiling. We demonstrate the utility of this pipeline to perform artificial stain transfer and image generation using the popular networks CycleGAN and ProGAN, respectively.
翻訳日:2021-02-25 05:59:21 公開日:2021-02-23
# (参考訳) 大規模最適化のためのマルチスペース進化探索 [全文訳有]

Multi-Space Evolutionary Search for Large-Scale Optimization ( http://arxiv.org/abs/2102.11693v1 )

ライセンス: CC BY 4.0
Liang Feng, Qingxia Shang, Yaqing Hou, Kay Chen Tan and Yew-Soon On(参考訳) 近年,多くの決定変数を含む最適化問題を解くために用いられる進化的アルゴリズムを改善するために,進化的探索のために与えられた問題の解空間を単純化する試みが数多く行われている。 文献では、既存のアプローチは一般に分解に基づく方法と次元還元に基づく方法に分類される。 前者は大規模な問題をいくつかの小さなサブ問題に分解し、後者は元の高次元解空間を低次元空間に変換する。 しかし、与えられた大規模最適化問題は必ずしも分解可能であるとは限りませんし、元の問題の大域的最適化が低次元問題空間で維持されることを保証することも困難です。 そこで本稿では,大規模最適化問題に対する既存の進化的探索法を強化するために,多空間進化探索という新しい探索パラダイムを提案する。 1つの検索空間で進化的探索を行う既存のアプローチとは対照的に、提案されたパラダイムは、与えられた問題から派生した複数の解空間の探索を行うように設計されている。 提案したパラダイムは、問題の分解性や決定変数の間に特定の関係が存在するなど、関心の大規模最適化問題に関する仮定をしない。 提案手法の有効性を検証するため,cec2013の大規模ベンチマーク問題を用いて4つの最先端アルゴリズムとの比較を行った。

In recent years, to improve the evolutionary algorithms used to solve optimization problems involving a large number of decision variables, many attempts have been made to simplify the problem solution space of a given problem for the evolutionary search. In the literature, the existing approaches can generally be categorized as decomposition-based methods and dimension-reduction- based methods. The former decomposes a large-scale problem into several smaller subproblems, while the latter transforms the original high-dimensional solution space into a low-dimensional space. However, it is worth noting that a given large-scale optimization problem may not always be decomposable, and it is also difficult to guarantee that the global optimum of the original problem is preserved in the reduced low-dimensional problem space. This paper thus proposes a new search paradigm, namely the multi-space evolutionary search, to enhance the existing evolutionary search methods for solving large-scale optimization problems. In contrast to existing approaches that perform an evolutionary search in a single search space, the proposed paradigm is designed to conduct a search in multiple solution spaces that are derived from the given problem, each possessing a unique landscape. The proposed paradigm makes no assumptions about the large-scale optimization problem of interest, such as that the problem is decomposable or that a certain relationship exists among the decision variables. To verify the efficacy of the proposed paradigm, comprehensive empirical studies in comparison to four state-of-the-art algorithms were conducted using the CEC2013 large-scale benchmark problems.
翻訳日:2021-02-25 05:52:56 公開日:2021-02-23
# (参考訳) 音声認識システムにおける音韻補正のための文脈の進化的最適化 [全文訳有]

Evolutionary optimization of contexts for phonetic correction in speech recognition systems ( http://arxiv.org/abs/2102.11480v1 )

ライセンス: CC BY 4.0
Rafael Viana-C\'amara, Diego Campos-Sobrino, Mario Campos-Soberanis(参考訳) 自動音声認識(ASR)は、自然コミュニケーション方法を提供するためにそれを使用するアプリケーションの需要が高いため、学術的および商業的関心が高まっている分野です。 汎用的なASRシステムはドメイン固有言語を使用するアプリケーションで失敗することが一般的である。 言語モデルや後処理の補正方法を変更するコンテキストを提供するなど,エラーの低減にさまざまな戦略が使用されている。 この記事では、特定のアプリケーション領域に最適化されたコンテキストを生成するための進化的プロセスの使用、および音韻距離メトリクスに基づく異なる補正技術について説明します。 その結果、文脈最適化のためのツールとしての遺伝的アルゴリズムの有効性が示され、音韻表現に基づく後処理補正に加えられ、認識された音声の誤りを低減できる。

Automatic Speech Recognition (ASR) is an area of growing academic and commercial interest due to the high demand for applications that use it to provide a natural communication method. It is common for general purpose ASR systems to fail in applications that use a domain-specific language. Various strategies have been used to reduce the error, such as providing a context that modifies the language model and post-processing correction methods. This article explores the use of an evolutionary process to generate an optimized context for a specific application domain, as well as different correction techniques based on phonetic distance metrics. The results show the viability of a genetic algorithm as a tool for context optimization, which, added to a post-processing correction based on phonetic representations, can reduce the errors on the recognized speech.
翻訳日:2021-02-25 05:36:25 公開日:2021-02-23
# (参考訳) オペレータダイナミクスのための機械学習回帰 [全文訳有]

Machine Learning Regression for Operator Dynamics ( http://arxiv.org/abs/2102.11868v1 )

ライセンス: CC BY 4.0
Justin Reyes, Sayandip Dhara, Eduardo R. Mucciolo(参考訳) 量子多体(QMB)システムに作用する演算子の期待値のダイナミクスを決定することは難しい課題である。 行列積状態(MPS)は伝統的にこれらのシステムの"go-to"モデルであり、この表現の期待値を計算することは比較的単純で高精度である。 しかし、そのような計算は長い時間に延ばすと計算コストがかかる。 本稿では,期待値の計算を長い時間間隔に効率的に拡張する解を提案する。 短時間間隔で計算されたMPS期待値の回帰のためのツールとして, 多層パーセプトロン(MLP)モデルを用いる。 このモデルでは、高い精度を維持しつつ、長時間ダイナミクスを生成する計算コストが大幅に削減される。 これらの結果は、1つの空間次元の量子スピンモデルに関連する作用素で示される。

Determining the dynamics of the expectation values for operators acting on a quantum many-body (QMB) system is a challenging task. Matrix product states (MPS) have traditionally been the "go-to" models for these systems because calculating expectation values in this representation can be done with relative simplicity and high accuracy. However, such calculations can become computationally costly when extended to long times. Here, we present a solution for efficiently extending the computation of expectation values to long time intervals. We utilize a multi-layer perceptron (MLP) model as a tool for regression on MPS expectation values calculated within the regime of short time intervals. With this model, the computational cost of generating long-time dynamics is significantly reduced, while maintaining a high accuracy. These results are demonstrated with operators relevant to quantum spin models in one spatial dimension.
翻訳日:2021-02-25 05:26:53 公開日:2021-02-23
# (参考訳) 境界条件の構造的類似性とゴール衝突同定のための効率的な局所探索アルゴリズム [全文訳有]

Structural Similarity of Boundary Conditions and an Efficient Local Search Algorithm for Goal Conflict Identification ( http://arxiv.org/abs/2102.11482v1 )

ライセンス: CC BY 4.0
Hongzhen Zhong, Hai Wan, Weilin Luo, Zhanhao Xiao, Jia Li, Biqing Fang(参考訳) 目標指向要求工学では、目標競合識別は要件分析において基本的な重要性を持つ。 このタスクは、境界条件(bcs)と呼ばれるドメイン内で目標が分散する、実現可能な状況を見つけることを目的としている。 しかし、既存の目標競合同定のアプローチでは、状況のより多くの組み合わせをカバーする十分なBCと一般的なBCを見つけることができません。 これらの既存手法によって発見されたBCから、実験例で頻繁に発生する公式構造に類似したBCの対が存在するという興味深い現象が観察されている。 言い換えれば、紀元前が見つかると、前者を少し変えてすぐに新しい紀元前が発見される。 LOGIONと呼ばれる局所探索アルゴリズムを開発し、BCを見つけ、その構造的類似性は公式の近傍関係によって捉えられる。 構造的類似性に基づいて、LOGIONは短期間で多くのBCを見つけることができる。 さらに、多くの紀元前が特定されているため、より一般的な紀元前を選択できる可能性がある。 一連のケースで実験を行うことで、LOGIONがBCの構造的類似性を有効に活用することを示しています。 また、我々のアルゴリズムを最先端の2つのアプローチと比較する。 実験結果は、LOGIONが最先端のアプローチよりも1桁大きなBCを生成し、LOGIONが多数のBCのおかげでより一般的なBCを見つけることを確認することを示しています。

In goal-oriented requirements engineering, goal conflict identification is of fundamental importance for requirements analysis. The task aims to find the feasible situations which make the goals diverge within the domain, called boundary conditions (BCs). However, the existing approaches for goal conflict identification fail to find sufficient BCs and general BCs which cover more combinations of circumstances. From the BCs found by these existing approaches, we have observed an interesting phenomenon that there are some pairs of BCs are similar in formula structure, which occurs frequently in the experimental cases. In other words, once a BC is found, a new BC may be discovered quickly by slightly changing the former. It inspires us to develop a local search algorithm named LOGION to find BCs, in which the structural similarity is captured by the neighborhood relation of formulae. Based on structural similarity, LOGION can find a lot of BCs in a short time. Moreover, due to the large number of BCs identified, it potentially selects more general BCs from them. By taking experiments on a set of cases, we show that LOGION effectively exploits the structural similarity of BCs. We also compare our algorithm against the two state-of-the-art approaches. The experimental results show that LOGION produces one order of magnitude more BCs than the state-of-the-art approaches and confirm that LOGION finds out more general BCs thanks to a large number of BCs.
翻訳日:2021-02-25 05:16:59 公開日:2021-02-23
# (参考訳) 繰り返しモデル予測制御 [全文訳有]

Recurrent Model Predictive Control ( http://arxiv.org/abs/2102.11736v1 )

ライセンス: CC BY 4.0
Zhengyu Liu, Jingliang Duan, Wenxuan Wang, Shengbo Eben Li, Yuming Yin, Ziyu Lin, Qi Sun, Bo Cheng(参考訳) 本稿では,非線形有限ホライゾン最適制御問題を解くために,リカレントモデル予測制御(rmpc)と呼ばれるオフラインアルゴリズムを提案する。 従来のモデル予測制御(MPC)アルゴリズムとは異なり、現在のコンピューティングリソースをフル活用し、最長モデル予測水平線を適応的に選択することができる。 提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。 予測ステップの数は、学習されたポリシー関数の繰り返しサイクルの数に等しい。 任意の初期ポリシー関数により、提案したRMPCアルゴリズムは、設計された損失関数を直接最小化し、最適ポリシーに収束することができる。 rmpcアルゴリズムの完全ベルマン最適原理の収束と最適性をさらに証明し、2つの数値例を用いてその一般化と効率を示す。

This paper proposes an off-line algorithm, called Recurrent Model Predictive Control (RMPC), to solve general nonlinear finite-horizon optimal control problems. Unlike traditional Model Predictive Control (MPC) algorithms, it can make full use of the current computing resources and adaptively select the longest model prediction horizon. Our algorithm employs a recurrent function to approximate the optimal policy, which maps the system states and reference values directly to the control inputs. The number of prediction steps is equal to the number of recurrent cycles of the learned policy function. With an arbitrary initial policy function, the proposed RMPC algorithm can converge to the optimal policy by directly minimizing the designed loss function. We further prove the convergence and optimality of the RMPC algorithm thorough Bellman optimality principle, and demonstrate its generality and efficiency using two numerical examples.
翻訳日:2021-02-25 04:51:09 公開日:2021-02-23
# (参考訳) シェーファーの枠組みにおける論理に基づく論証のパラメータ化複雑性 [全文訳有]

Parameterized Complexity of Logic-Based Argumentation in Schaefer's Framework ( http://arxiv.org/abs/2102.11782v1 )

ライセンス: CC BY 4.0
Yasir Mahmood, Arne Meier, Johannes Schmidt(参考訳) 論理に基づく議論は、非単調推論をモデル化する定評のある形式主義である。 aiには何十年も前から大きな役割を果たしてきた。 形式的に、式の一式は、それが一貫した部分集合最小であり、主張を暗示するならば、与えられたクレームの支持である。 このような場合、サポートとクレームのペアを一緒に引数と呼びます。 本稿では,議論の中で研究されている3つの計算タスクの命題的変種について検討する。arg(ある論理式に対して与えられたクレームに対するサポートが存在する)、arg-check(与えられたクレームに対するサポートを与えられた集合である)、arg-rel(argとそれに含まれる追加の公式を必要とする)である。 ARG-Check は複雑性クラス DP に対して完全であり、その他の2つの問題は多項式階層の第2レベル (Parson et al., J. Log) に対して完全であることが知られている。 Comput., 2003)、そしてそれ故に、非常に難解である。 第一に、シェイファーの枠組み(STOC 1978)内の問題の可能性のあるすべての命題フラグメントを検討し、各フラグメントの異なるパラメータ化を研究する。 上記の決定問題に関連する合理的な構造パラメータ(クレーム,サポート,ナレッジベースのサイズ)のリストを同定する。 最終的に、固定パラメータがどこにあるか、いつそれが止まるのかを示す各問題に対して、パラメータ化の難しさの細かい境界を徹底的に描き出す。 驚くべきことに、いくつかのケースは非常に難易度が高い(paraNP以降)。

Logic-based argumentation is a well-established formalism modelling nonmonotonic reasoning. It has been playing a major role in AI for decades, now. Informally, a set of formulas is the support for a given claim if it is consistent, subset-minimal, and implies the claim. In such a case, the pair of the support and the claim together is called an argument. In this paper, we study the propositional variants of the following three computational tasks studied in argumentation: ARG (exists a support for a given claim with respect to a given set of formulas), ARG-Check (is a given set a support for a given claim), and ARG-Rel (similarly as ARG plus requiring an additionally given formula to be contained in the support). ARG-Check is complete for the complexity class DP, and the other two problems are known to be complete for the second level of the polynomial hierarchy (Parson et al., J. Log. Comput., 2003) and, accordingly, are highly intractable. Analyzing the reason for this intractability, we perform a two-dimensional classification: first, we consider all possible propositional fragments of the problem within Schaefer's framework (STOC 1978), and then study different parameterizations for each of the fragment. We identify a list of reasonable structural parameters (size of the claim, support, knowledge-base) that are connected to the aforementioned decision problems. Eventually, we thoroughly draw a fine border of parameterized intractability for each of the problems showing where the problems are fixed-parameter tractable and when this exactly stops. Surprisingly, several cases are of very high intractability (paraNP and beyond).
翻訳日:2021-02-25 04:33:07 公開日:2021-02-23
# (参考訳) 深層畳み込みニューラルネットワークにおける注意層と損失アンサンブルを用いた超音波画像中の乳癌病変の分類 [全文訳有]

Classification of Breast Cancer Lesions in Ultrasound Images by using Attention Layer and loss Ensembles in Deep Convolutional Neural Networks ( http://arxiv.org/abs/2102.11519v1 )

ライセンス: CC BY 4.0
Elham Yousef Kalaf, Ata Jodeiri, Seyed Kamaledin Setarehdan, Ng Wei Lin, Kartini Binti Rahman, Nur Aishah Taib, Sarinder Kaur Dhillon(参考訳) 乳房超音波画像における良性病変と悪性病変の信頼性の高い分類は、乳癌の早期診断に有効かつ比較的安価に有用である。 しかし、診断の精度は、超音波システムの品質とユーザー(放射線科医)の経験に大きく依存しています。 深い畳み込みニューラルネットワークアプローチの活用は、乳房超音波画像の効率的な分析にソリューションを提供しました。 本研究では,vgg16アーキテクチャを改良したアテンションモジュールを用いて,乳癌病変の分類のための新しい枠組みを提案する。 また,双曲性コサイン損失の二値交互エントロピーと対数の組み合わせである新たなアンサンブル損失関数を提案し,分類病変とそのラベル間のモデル差を改善する。 トレーニング済みのImageNet重みからトレーニングされたネットワークは、その後、超音波データセットで微調整される。 本研究で提案したモデルは,93%の精度で他の改良VGG16アーキテクチャよりも優れており,乳がん病変の分類のための他の技術フレームワークと競合する結果となった。 本研究では,事前学習したVGG16アーキテクチャを用いて伝達学習手法を適用した。 乳房超音波画像における良性または悪性病変の予測のために, 分類タスクの異なるcnnモデルを訓練した。 実験の結果, 分類作業において損失関数の選択が重要であり, 注意ブロックを追加することで, モデルの性能を高めることができた。

Reliable classification of benign and malignant lesions in breast ultrasound images can provide an effective and relatively low cost method for early diagnosis of breast cancer. The accuracy of the diagnosis is however highly dependent on the quality of the ultrasound systems and the experience of the users (radiologists). The leverage in deep convolutional neural network approaches provided solutions in efficient analysis of breast ultrasound images. In this study, we proposed a new framework for classification of breast cancer lesions by use of an attention module in modified VGG16 architecture. We also proposed new ensembled loss function which is the combination of binary cross-entropy and logarithm of the hyperbolic cosine loss to improve the model discrepancy between classified lesions and its labels. Networks trained from pretrained ImageNet weights, and subsequently fine-tuned with ultrasound datasets. The proposed model in this study outperformed other modified VGG16 architectures with the accuracy of 93% and also the results are competitive with other state of the art frameworks for classification of breast cancer lesions. In this study, we employed transfer learning approaches with the pre-trained VGG16 architecture. Different CNN models for classification task were trained to predict benign or malignant lesions in breast ultrasound images. Our Experimental results show that the choice of loss function is highly important in classification task and by adding an attention block we could empower the performance our model.
翻訳日:2021-02-25 03:59:57 公開日:2021-02-23
# (参考訳) 画像キャプションのための拡張モダリティ遷移 [全文訳有]

Enhanced Modality Transition for Image Captioning ( http://arxiv.org/abs/2102.11526v1 )

ライセンス: CC BY 4.0
Ziwei Wang, Yadan Luo and Zi Huang(参考訳) 画像キャプションモデルは、情報的かつコヒーレントな文で画像を自動的に記述するクロスモダリティ知識発見タスクである。 キャプションを生成するために、以前のエンコーダ・デコーダフレームワークは、ビジュアルベクトルをリカレント言語モデルに直接転送し、リカレントユニットは、視覚特徴に基づいて文を生成する。 これらの文は一般に読みやすいが、画像とテキストのモダリティの実質的なギャップが十分に解決されていないため、詳細やハイライトの欠如に悩まされている。 本研究では,視覚特徴を言語モデルに転送する前に意味表現に転送するモーダリティ遷移モジュール(mtm)を明示的に構築する。 トレーニングフェーズでは、提案したモダリティ損失によりモダリティ遷移ネットワークが最適化され、生成された予備テキストエンコーディングと、事前訓練されたテキスト自動エンコーダのターゲット文ベクトルを比較する。 このようにして、視覚ベクトルはより文脈的かつ正確な言語生成のためにテキストサブ空間に転送される。 この新しいMTMは、既存のほとんどの方法に組み込むことができます。 提案したフレームワークの有効性を実証したMS-COCOデータセットの大規模な実験が行われ、最先端技術と比較して3.4%性能が向上した。

Image captioning model is a cross-modality knowledge discovery task, which targets at automatically describing an image with an informative and coherent sentence. To generate the captions, the previous encoder-decoder frameworks directly forward the visual vectors to the recurrent language model, forcing the recurrent units to generate a sentence based on the visual features. Although these sentences are generally readable, they still suffer from the lack of details and highlights, due to the fact that the substantial gap between the image and text modalities is not sufficiently addressed. In this work, we explicitly build a Modality Transition Module (MTM) to transfer visual features into semantic representations before forwarding them to the language model. During the training phase, the modality transition network is optimised by the proposed modality loss, which compares the generated preliminary textual encodings with the target sentence vectors from a pre-trained text auto-encoder. In this way, the visual vectors are transited into the textual subspace for more contextual and precise language generation. The novel MTM can be incorporated into most of the existing methods. Extensive experiments have been conducted on the MS-COCO dataset demonstrating the effectiveness of the proposed framework, improving the performance by 3.4% comparing to the state-of-the-arts.
翻訳日:2021-02-25 03:50:38 公開日:2021-02-23
# (参考訳) EscapeWildFire: リアルタイムで山火事をエスケープする人を支援する [全文訳有]

EscapeWildFire: Assisting People to Escape Wildfires in Real-Time ( http://arxiv.org/abs/2102.11558v1 )

ライセンス: CC BY 4.0
Andreas Kamilaris, Jean-Baptiste Filippi, Chirag Padubidri, Jesper Provoost, Savvas Karatsiolis, Ian Cole, Wouter Couwenbergh and Evi Demetriou(参考訳) 過去数十年間、森林火災や世界中で焼かれた土地の面積は、気候の変化や地球温暖化によって着実に増加してきた。 したがって、より多くの人々が森林火災にさらされて危険にさらされる可能性が高くなります。 したがって、山火事時に人々を効果的に支援し、安全に誘導する広汎なシステムを設計する必要がある。 本稿では,wildfireの地理的進展をモデル化し予測するバックエンドシステムに接続されたモバイルアプリケーションである escapewildfire について述べる。 小さなパイロットはシステムの正確性を示します。 コードはオープンソースであり、世界中の消防当局はこのアプローチを採用することを奨励されている。

Over the past couple of decades, the number of wildfires and area of land burned around the world has been steadily increasing, partly due to climatic changes and global warming. Therefore, there is a high probability that more people will be exposed to and endangered by forest fires. Hence there is an urgent need to design pervasive systems that effectively assist people and guide them to safety during wildfires. This paper presents EscapeWildFire, a mobile application connected to a backend system which models and predicts wildfire geographical progression, assisting citizens to escape wildfires in real-time. A small pilot indicates the correctness of the system. The code is open-source; fire authorities around the world are encouraged to adopt this approach.
翻訳日:2021-02-25 03:39:04 公開日:2021-02-23
# (参考訳) 高度に不均衡な病理データを用いた細胞検出のための深層学習 [全文訳有]

Cell abundance aware deep learning for cell detection on highly imbalanced pathological data ( http://arxiv.org/abs/2102.11677v1 )

ライセンス: CC BY 4.0
Yeman Brhane Hagos, Catherine SY Lecat, Dominic Patel, Lydia Lee, Thien-An Tran, Manuel Rodriguez- Justo, Kwee Yong, Yinyin Yuan(参考訳) 組織セクションの自動解析は、疾患の生物学をよりよく理解し、予後や治療の選択を導くバイオマーカーを明らかにする可能性がある。 デジタル病理学では、少ない細胞型は生物学的に重要であるが、それらの不足はバイアスと準最適細胞検出モデルをもたらす可能性がある。 細胞不均衡が細胞検出に与える影響を最小限に抑えるため,モデルトレーニング中の細胞型の存在量を考慮した深層学習パイプラインを提案する。 細胞重画像が生成され、より少ない細胞により重い重みを割り当て、重みを使ってダイス重なり損失機能を調整した。 このモデルは骨髄腫骨髄トレフィンサンプルで訓練および評価された。 本モデルでは, 細胞検出F1スコアが0.78で, ベースラインモデルに比べて2%増加し, 稀な細胞型検出におけるベースラインモデルよりも優れていた。 その結果,細胞量による深層学習損失関数のスケールアップは細胞検出性能を向上させることがわかった。 本研究は,学級不均衡を伴う病理データの深層学習手法にドメイン知識を取り入れることの重要性を実証するものである。

Automated analysis of tissue sections allows a better understanding of disease biology and may reveal biomarkers that could guide prognosis or treatment selection. In digital pathology, less abundant cell types can be of biological significance, but their scarcity can result in biased and sub-optimal cell detection model. To minimize the effect of cell imbalance on cell detection, we proposed a deep learning pipeline that considers the abundance of cell types during model training. Cell weight images were generated, which assign larger weights to less abundant cells and used the weights to regularize Dice overlap loss function. The model was trained and evaluated on myeloma bone marrow trephine samples. Our model obtained a cell detection F1-score of 0.78, a 2% increase compared to baseline models, and it outperformed baseline models at detecting rare cell types. We found that scaling deep learning loss function by the abundance of cells improves cell detection performance. Our results demonstrate the importance of incorporating domain knowledge on deep learning methods for pathological data with class imbalance.
翻訳日:2021-02-25 03:30:02 公開日:2021-02-23
# (参考訳) V2W-BERT:ソフトウェア脆弱性の効果的な階層的マルチクラス分類のためのフレームワーク [全文訳有]

V2W-BERT: A Framework for Effective Hierarchical Multiclass Classification of Software Vulnerabilities ( http://arxiv.org/abs/2102.11498v1 )

ライセンス: CC BY 4.0
Siddhartha Shankar Das, Edoardo Serra, Mahantesh Halappanavar, Alex Pothen, Ehab Al-Shaer(参考訳) アーキテクチャ、ソフトウェアの設計または実装における欠陥、バグ、エラーなどのコンピュータシステムの弱さは、システムのセキュリティを侵害するために攻撃者が悪用することができる脆弱性を提供します。 common weak enumerations (cwe) は階層的に設計されたソフトウェア弱点の辞書であり、ソフトウェアの欠陥を理解する手段、その悪用による潜在的な影響、およびこれらの欠陥を緩和する手段を提供する。 Common Vulnerabilities and Exposures(CVE)は、特定の製品またはプロトコルの脆弱性をユニークに識別する、簡潔な低レベルの記述です。 CVEのCWEへの分類またはマッピングは、影響を理解し、脆弱性を緩和する手段を提供します。 CVEの手動マッピングは有効な選択肢ではないため、自動化アプローチは望ましいが難しい。 本稿では,Transformer-based learning framework(V2W-BERT)を提案する。 自然言語処理,リンク予測,転送学習のアイデアを駆使して,トレーニング対象データの多いCWEインスタンスだけでなく,トレーニング対象データが少ない,あるいはまったくない,希少なCWEクラスにおいても,従来の手法よりも優れていた。 また,過去のデータを用いて将来のcveのリンクを予測する手法にも大きな改善が見られ,実用的利用にも有効なアプローチが期待できる。 mitreおよびnational vulnerability databaseのデータを用いて、ランダム分割データに対する最大97%の予測精度と、時間分割データにおける最大94%の予測精度を達成する。 私たちの研究は、サイバーセキュリティにおけるますます難しい問題を解決するアプリケーションだけでなく、より良い方法やトレーニングモデルの設計に影響を与えます。

Weaknesses in computer systems such as faults, bugs and errors in the architecture, design or implementation of software provide vulnerabilities that can be exploited by attackers to compromise the security of a system. Common Weakness Enumerations (CWE) are a hierarchically designed dictionary of software weaknesses that provide a means to understand software flaws, potential impact of their exploitation, and means to mitigate these flaws. Common Vulnerabilities and Exposures (CVE) are brief low-level descriptions that uniquely identify vulnerabilities in a specific product or protocol. Classifying or mapping of CVEs to CWEs provides a means to understand the impact and mitigate the vulnerabilities. Since manual mapping of CVEs is not a viable option, automated approaches are desirable but challenging. We present a novel Transformer-based learning framework (V2W-BERT) in this paper. By using ideas from natural language processing, link prediction and transfer learning, our method outperforms previous approaches not only for CWE instances with abundant data to train, but also rare CWE classes with little or no data to train. Our approach also shows significant improvements in using historical data to predict links for future instances of CVEs, and therefore, provides a viable approach for practical applications. Using data from MITRE and National Vulnerability Database, we achieve up to 97% prediction accuracy for randomly partitioned data and up to 94% prediction accuracy in temporally partitioned data. We believe that our work will influence the design of better methods and training models, as well as applications to solve increasingly harder problems in cybersecurity.
翻訳日:2021-02-25 03:23:45 公開日:2021-02-23
# (参考訳) QuPeL: 量子パーソナライゼーションとフェデレーション学習への応用

QuPeL: Quantized Personalization with Applications to Federated Learning ( http://arxiv.org/abs/2102.11786v1 )

ライセンス: CC BY 4.0
Kaan Ozkara, Navjot Singh, Deepesh Data, Suhas Diggavi(参考訳) 従来、フェデレーションラーニング(FL)は、複数のクライアントとサーバーを共同利用しながら、単一のグローバルモデルをトレーニングすることを目指しています。 FLアルゴリズムが直面する2つの自然な課題は、クライアント間でのデータの不均一性と、多様なリソースを持つクライアントのコラボレーションです。 本稿では,リソースの多様性を尊重しながら異種クライアントとの協調学習を容易にする, \textit{quantized} と \textit{personalized} flアルゴリズムクペルを導入する。 パーソナライズのために、クライアントはリソースに応じて異なる量子化パラメータを持つ \textit{compressed Personalized Model} を学習できる。 そこで,まず,量子化値の最適化を行う緩和型最適化問題を用いて,量子化モデルの学習アルゴリズムを提案する。 各クライアントが(フェデレーション)学習プロセスに参加すると、量子化モデル(価値と精度の両方)の要件が異なる場合、グローバルに訓練されたモデルに対して、ローカルクライアントの目的に対するペナルティ用語を導入して、量子化パーソナライゼーションフレームワークを策定し、コラボレーションを促進します。 我々は,この量子化パーソナライズ問題を解決するための交互近勾配更新法を開発し,その収束特性を分析する。 数値的に、量子化レベルを最適化することで性能が向上し、QuPeLがFedAvgとクライアントのローカルトレーニングの両方で不均一な環境で性能を向上することを示す。

Traditionally, federated learning (FL) aims to train a single global model while collaboratively using multiple clients and a server. Two natural challenges that FL algorithms face are heterogeneity in data across clients and collaboration of clients with {\em diverse resources}. In this work, we introduce a \textit{quantized} and \textit{personalized} FL algorithm QuPeL that facilitates collective training with heterogeneous clients while respecting resource diversity. For personalization, we allow clients to learn \textit{compressed personalized models} with different quantization parameters depending on their resources. Towards this, first we propose an algorithm for learning quantized models through a relaxed optimization problem, where quantization values are also optimized over. When each client participating in the (federated) learning process has different requirements of the quantized model (both in value and precision), we formulate a quantized personalization framework by introducing a penalty term for local client objectives against a globally trained model to encourage collaboration. We develop an alternating proximal gradient update for solving this quantized personalization problem, and we analyze its convergence properties. Numerically, we show that optimizing over the quantization levels increases the performance and we validate that QuPeL outperforms both FedAvg and local training of clients in a heterogeneous setting.
翻訳日:2021-02-25 03:01:50 公開日:2021-02-23
# (参考訳) トランスを用いた非監視脳異常検出とセグメンテーション [全文訳有]

Unsupervised Brain Anomaly Detection and Segmentation with Transformers ( http://arxiv.org/abs/2102.11650v1 )

ライセンス: CC BY 4.0
Walter Hugo Lopez Pinaya, Petru-Daniel Tudosiu, Robert Gray, Geraint Rees, Parashkev Nachev, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 病理的な脳の外観は、特定の病理学的特徴よりも正常性からの逸脱によって定義される、異常としてのみ認識されるほど不均一である。 医用画像における最も困難な課題のうち、そのような異常を検出するには、コンパクトさと構造組織を特徴づける複雑な長距離相互作用の表現力を組み合わせた正常な脳のモデルが必要である。 これらの要件トランスフォーマーは、現在の他の候補アーキテクチャよりも満足できる可能性が高いが、データや計算資源に対する要求により、その応用は阻害されている。 本稿では,ベクトル量子化変分オートエンコーダの潜在表現と自己回帰トランスフォーマのアンサンブルを組み合わせることで,比較的控えめなデータレジーム内で,正常な脳画像データからの逸脱によって定義された教師なし異常検出とセグメンテーションを実現する。 本手法と現状のアプローチを比較して, 合成病変および実際の病理病変を含む一連の実験を行った。 実際の病変では,UK Biobankの放射線学的に正常な被験者15,000名を対象にモデルをトレーニングし,小血管疾患,脱髄性病変,腫瘍を伴う4種類の脳MRデータセットの性能評価を行った。 画像ワイドと画素ワイドの両方で優れた異常検出性能を示し、後処理なしで達成できることを示す。 これらの結果は、この最も困難なイメージングタスクにおいてトランスフォーマーの可能性に注意を向ける。

Pathological brain appearances may be so heterogeneous as to be intelligible only as anomalies, defined by their deviation from normality rather than any specific pathological characteristic. Amongst the hardest tasks in medical imaging, detecting such anomalies requires models of the normal brain that combine compactness with the expressivity of the complex, long-range interactions that characterise its structural organisation. These are requirements transformers have arguably greater potential to satisfy than other current candidate architectures, but their application has been inhibited by their demands on data and computational resource. Here we combine the latent representation of vector quantised variational autoencoders with an ensemble of autoregressive transformers to enable unsupervised anomaly detection and segmentation defined by deviation from healthy brain imaging data, achievable at low computational cost, within relative modest data regimes. We compare our method to current state-of-the-art approaches across a series of experiments involving synthetic and real pathological lesions. On real lesions, we train our models on 15,000 radiologically normal participants from UK Biobank, and evaluate performance on four different brain MR datasets with small vessel disease, demyelinating lesions, and tumours. We demonstrate superior anomaly detection performance both image-wise and pixel-wise, achievable without post-processing. These results draw attention to the potential of transformers in this most challenging of imaging tasks.
翻訳日:2021-02-25 03:00:37 公開日:2021-02-23
# (参考訳) Online Stochastic Gradient Descentが単一軌道から線形ダイナミカルシステムを学ぶ

Online Stochastic Gradient Descent Learns Linear Dynamical Systems from A Single Trajectory ( http://arxiv.org/abs/2102.11822v1 )

ライセンス: CC BY 4.0
Navid Reyhanian, Jarvis Haupt(参考訳) 本研究では, 安定な時間不変線形力学系の重み行列を, ノイズ測定の単一シーケンスから推定する問題を検討する。 システムを記述する未知の重み行列がブルーノフスキー標準形式である場合、オンラインおよびオフライン確率勾配勾配(SGD)法を用いて、システムの伝達関数に基づいて定式化された方程式の線形系から、システムの基底真さ不明行列を効率的に推定できることを示す。 具体的には、具体的な複雑性境界を導出することにより、SGDは基底真理重みから任意の小さなフロベニウスノルム距離に期待して線型収束することを示す。 私たちの知る限りでは、オンラインおよびオフラインの勾配に基づく1つの軌道から線形力学系における重み行列推定のための線形収束特性を確立する最初の研究である。 提案手法の性能が我々の理論と整合していることを広範な数値テストで検証し、既存の手法と比較して優れた性能を示す。

This work investigates the problem of estimating the weight matrices of a stable time-invariant linear dynamical system from a single sequence of noisy measurements. We show that if the unknown weight matrices describing the system are in Brunovsky canonical form, we can efficiently estimate the ground truth unknown matrices of the system from a linear system of equations formulated based on the transfer function of the system, using both online and offline stochastic gradient descent (SGD) methods. Specifically, by deriving concrete complexity bounds, we show that SGD converges linearly in expectation to any arbitrary small Frobenius norm distance from the ground truth weights. To the best of our knowledge, ours is the first work to establish linear convergence characteristics for online and offline gradient-based iterative methods for weight matrix estimation in linear dynamical systems from a single trajectory. Extensive numerical tests verify that the performance of the proposed methods is consistent with our theory, and show their superior performance relative to existing state of the art methods.
翻訳日:2021-02-25 02:38:10 公開日:2021-02-23
# (参考訳) 連続的一般化ゼロショット学習のためのメタ学習属性自己制御 [全文訳有]

Meta-Learned Attribute Self-Gating for Continual Generalized Zero-Shot Learning ( http://arxiv.org/abs/2102.11856v1 )

ライセンス: CC BY 4.0
Vinay Kumar Verma, Kevin Liang, Nikhil Mehta, Lawrence Carin(参考訳) ゼロショット学習(ZSL)は、クラス属性を活用することでトレーニング中に目に見えないカテゴリにモデルを一般化するための有望なアプローチであることが示されているが、依然として課題は残っている。 近年、訓練中のクラスに対する偏りに対処するために生成モデルを使用する手法がzslの技術を後押ししているが、これらの生成モデルは訓練に遅く、計算コストがかかる可能性がある。 さらに、従来のZSLメソッドの多くは、目に見えないクラスへのワンタイム適応を想定していますが、実際には、世界は常に変化しており、デプロイされたモデルに一定の調整が必要です。 シーケンシャルなデータストリームを扱う準備ができていないモデルは、破滅的な忘れを経験する可能性が高い。 これら2つの課題を解決するために,メタ継続的ゼロショット学習(MCZSL)手法を提案する。 特に,属性の自己ゲーティングと大規模クラス正規化をメタラーニングベースのトレーニングと組み合わせることで,高コストのジェネレーティブベースアプローチよりもはるかに高速なモデル(>100\times$)をトレーニングしながら,最先端の成果を達成できるのです。 我々は、一般化ゼロショット学習と一般化ゼロショット学習設定の両方において、5つの標準ZSLデータセット(CUB、aPY、AWA1、AWA2、SUN)で実験を行うことによってこれを実証する。

Zero-shot learning (ZSL) has been shown to be a promising approach to generalizing a model to categories unseen during training by leveraging class attributes, but challenges still remain. Recently, methods using generative models to combat bias towards classes seen during training have pushed the state of the art of ZSL, but these generative models can be slow or computationally expensive to train. Additionally, while many previous ZSL methods assume a one-time adaptation to unseen classes, in reality, the world is always changing, necessitating a constant adjustment for deployed models. Models unprepared to handle a sequential stream of data are likely to experience catastrophic forgetting. We propose a meta-continual zero-shot learning (MCZSL) approach to address both these issues. In particular, by pairing self-gating of attributes and scaled class normalization with meta-learning based training, we are able to outperform state-of-the-art results while being able to train our models substantially faster ($>100\times$) than expensive generative-based approaches. We demonstrate this by performing experiments on five standard ZSL datasets (CUB, aPY, AWA1, AWA2 and SUN) in both generalized zero-shot learning and generalized continual zero-shot learning settings.
翻訳日:2021-02-25 02:34:57 公開日:2021-02-23
# (参考訳) 視聴覚話者ローカリゼーションのためのデータ融合:動的ストリーム重みを空間領域に拡張する [全文訳有]

Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain ( http://arxiv.org/abs/2102.11588v1 )

ライセンス: CC BY 4.0
Julio Wissing, Benedikt Boenninghoff, Dorothea Kolossa, Tsubasa Ochiaiy, Marc Delcroixy, Keisuke Kinoshitay, Tomohiro Nakataniy, Shoko Arakiy, Christopher Schymura(参考訳) 複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。 どちらのアプリケーションも、例えばビームフォーミングやユニークな話者IDの割り当てなど、既知の話者位置の恩恵を受ける。 近年,視覚データを付加した音響信号を用いた手法がいくつか提案されている。 しかし、例えば照明条件の悪さや背景ノイズの存在などにより、特定の空間領域において音響的・視覚的モダリティが損なわれることがある。 本稿では,個別の動的ストリーム重み付けを局所化空間内の特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。 この融合は、時間と位置に依存した信頼性に基づいて、個々のオーディオとビデオトラッカーの予測を組み合わせるニューラルネットワークを介して達成される。 オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。

Estimating the positions of multiple speakers can be helpful for tasks like automatic speech recognition or speaker diarization. Both applications benefit from a known speaker position when, for instance, applying beamforming or assigning unique speaker identities. Recently, several approaches utilizing acoustic signals augmented with visual data have been proposed for this task. However, both the acoustic and the visual modality may be corrupted in specific spatial regions, for instance due to poor lighting conditions or to the presence of background noise. This paper proposes a novel audiovisual data fusion framework for speaker localization by assigning individual dynamic stream weights to specific regions in the localization space. This fusion is achieved via a neural network, which combines the predictions of individual audio and video trackers based on their time- and location-dependent reliability. A performance evaluation using audiovisual recordings yields promising results, with the proposed fusion approach outperforming all baseline models.
翻訳日:2021-02-25 02:09:32 公開日:2021-02-23
# (参考訳) SISE-PC:説明可能な病理のための半監督画像サブサンプル [全文訳有]

SISE-PC: Semi-supervised Image Subsampling for Explainable Pathology ( http://arxiv.org/abs/2102.11560v1 )

ライセンス: CC BY 4.0
Sohini Roychowdhury, Kwok Sun Tang, Mohith Ashok, Anoop Sanka(参考訳) 深層学習 (DL) を用いた自動病理分類は予測的に効率的であることが証明されているが, DL法はデータであり, 計算コストが高いことが判明した。 本研究は,OCT画像の遅延符号化のためのSimCLRコントラスト損失を用いたResnet特徴抽出器の事前学習により,DLトレーニングコストを削減することを目的とする。 我々は,SimCLRラテントエンコーディングのラベル伝搬を用いて,最も不確実なOCT画像サンプルを含む最小限のサブサンプルデータセットを同定する,新しいアクティブラーニングフレームワークを提案する。 事前学習されたResnetモデルはラベル付き最小サンプルデータで微調整され、基礎となる病理部位は視覚的に説明される。 提案手法では,最大97%の分類精度を達成するためにresnetモデルを微調整することが可能な,専門家の注意を要する最も不確実性が最大2%のoct画像を特定する。 提案手法は予測コストを最小化するために他の医用画像にも拡張できる。

Although automated pathology classification using deep learning (DL) has proved to be predictively efficient, DL methods are found to be data and compute cost intensive. In this work, we aim to reduce DL training costs by pre-training a Resnet feature extractor using SimCLR contrastive loss for latent encoding of OCT images. We propose a novel active learning framework that identifies a minimal sub-sampled dataset containing the most uncertain OCT image samples using label propagation on the SimCLR latent encodings. The pre-trained Resnet model is then fine-tuned with the labelled minimal sub-sampled data and the underlying pathological sites are visually explained. Our framework identifies upto 2% of OCT images to be most uncertain that need prioritized specialist attention and that can fine-tune a Resnet model to achieve upto 97% classification accuracy. The proposed method can be extended to other medical images to minimize prediction costs.
翻訳日:2021-02-25 01:21:31 公開日:2021-02-23
# (参考訳) テキスト感情分析のための新しい深層学習法 [全文訳有]

A Novel Deep Learning Method for Textual Sentiment Analysis ( http://arxiv.org/abs/2102.11651v1 )

ライセンス: CC BY 4.0
Hossein Sadr, Mozhdeh Nazari Solimandarabi, Mir Mohsen Pedram, Mohammad Teshnehlab(参考訳) 感性分析は自然言語処理の分野で最も重要なタスクの1つとして知られており、畳み込みニューラルネットワーク(CNN)はこの目的のために一般的に使用される顕著なモデルの1つである。 近年、畳み込みニューラルネットワークは目覚ましい成果を上げているが、いくつかの制限に直面している。 第一に、文中のすべての単語は文の意味表現に等しく貢献しており、有益な単語を抽出できないと考える。 第二に、十分な結果を得るために大量のトレーニングデータが必要ですが、正確な調整が必要なパラメータはたくさんあります。 この目的のために,情報的単語の抽出と重み付けが可能な階層的注意層と統合された畳み込みニューラルネットワークを提案する。 さらに、ソースドメインで学んだ知識を、パフォーマンスの向上を目的としたターゲットドメインに転送する転送学習の効果についても検討する。 実験結果に基づき, 分類精度が高く, 情報的単語を抽出できるだけでなく, インクリメンタルトランスファー学習を適用すれば, 分類性能が大幅に向上する。

Sentiment analysis is known as one of the most crucial tasks in the field of natural language processing and Convolutional Neural Network (CNN) is one of those prominent models that is commonly used for this aim. Although convolutional neural networks have obtained remarkable results in recent years, they are still confronted with some limitations. Firstly, they consider that all words in a sentence have equal contributions in the sentence meaning representation and are not able to extract informative words. Secondly, they require a large number of training data to obtain considerable results while they have many parameters that must be accurately adjusted. To this end, a convolutional neural network integrated with a hierarchical attention layer is proposed which is able to extract informative words and assign them higher weight. Moreover, the effect of transfer learning that transfers knowledge learned in the source domain to the target domain with the aim of improving the performance is also explored. Based on the empirical results, the proposed model not only has higher classification accuracy and can extract informative words but also applying incremental transfer learning can significantly enhance the classification performance.
翻訳日:2021-02-25 01:13:32 公開日:2021-02-23
# (参考訳) パラフレーズは単語の類似を説明しない [全文訳有]

Paraphrases do not explain word analogies ( http://arxiv.org/abs/2102.11749v1 )

ライセンス: CC BY 4.0
Louis Fournier and Ewan Dunbar(参考訳) 多くの種類の分布語埋め込みは(弱く)言語規則性を方向として符号化している(「ジャンプ」と「ジャンプ」の違いは「ウォーク」や「ウォークド」などと同じような方向にある)。 この事実を説明するためにいくつかの試みが行われている。 我々はAllenとHospedalesの最近の理論的説明(ICML, 2019)に反応し、2vecとGloVeは規則性に関わる4つの単語の間の特定のパラフレーズの関係が保持されるたびに言語規則を符号化すると主張している。 我々は、説明が通らないことを実証する:この説明の下で必要な言い換えの関係は、経験的に保持していない。

Many types of distributional word embeddings (weakly) encode linguistic regularities as directions (the difference between "jump" and "jumped" will be in a similar direction to that of "walk" and "walked," and so on). Several attempts have been made to explain this fact. We respond to Allen and Hospedales' recent (ICML, 2019) theoretical explanation, which claims that word2vec and GloVe will encode linguistic regularities whenever a specific relation of paraphrase holds between the four words involved in the regularity. We demonstrate that the explanation does not go through: the paraphrase relations needed under this explanation do not hold empirically.
翻訳日:2021-02-25 01:01:10 公開日:2021-02-23
# (参考訳) ラベルなしグラフニューラルネットワークの動的ラベル付け [全文訳有]

Dynamic Labeling for Unlabeled Graph Neural Networks ( http://arxiv.org/abs/2102.11485v1 )

ライセンス: CC BY 4.0
Zeyu Sun, Wenjie Zhang, Lili Mou, Qihao Zhu, Yingfei Xiong, Lu Zhang(参考訳) 既存のグラフニューラルネットワーク(GNN)は、ノードをそのアイデンティティ、タイプ、内容によってベクトルとして表現するノード埋め込みに大きく依存している。 しかし、未ラベルのノードを持つグラフは現実世界のアプリケーション(匿名のソーシャルネットワークなど)に広く存在する。 以前のGNNは、ランダムなラベルをノードに割り当てるか(GNNにアーティファクトを導入する)、1つの埋め込みをすべてのノードに割り当てるか(別のノードを区別できない)。 本稿では,グラフ分類とノード分類という2種類の分類タスクにおける既存手法の限界を解析する。 提案手法は,タスクの各タイプに対して統計的に,あるいは漸近的に所望の特性を満たす動的ラベリングと優先的動的ラベリングの2つの手法を提案する。 実験の結果,様々なグラフ関連タスクにおいて高い性能が得られた。

Existing graph neural networks (GNNs) largely rely on node embeddings, which represent a node as a vector by its identity, type, or content. However, graphs with unlabeled nodes widely exist in real-world applications (e.g., anonymized social networks). Previous GNNs either assign random labels to nodes (which introduces artefacts to the GNN) or assign one embedding to all nodes (which fails to distinguish one node from another). In this paper, we analyze the limitation of existing approaches in two types of classification tasks, graph classification and node classification. Inspired by our analysis, we propose two techniques, Dynamic Labeling and Preferential Dynamic Labeling, that satisfy desired properties statistically or asymptotically for each type of the task. Experimental results show that we achieve high performance in various graph-related tasks.
翻訳日:2021-02-25 00:25:37 公開日:2021-02-23
# (参考訳) ドメイン適応のための決定ルールの抽出 [全文訳有]

Decision Rule Elicitation for Domain Adaptation ( http://arxiv.org/abs/2102.11539v1 )

ライセンス: CC BY 4.0
Alexander Nikitin and Samuel Kaski(参考訳) human-in-the-loop machine learningは、人工知能(ai)において、専門家からデータポイントのラベルを導き出すために広く使われている。 これは、専門家の意思決定プロセスの詳細をすべて単純化する。 この作業では、専門家が意思決定を説明する決定ルールをさらに作成することができます。ルールは不完全であると予想されますが、追加情報を提供します。 特に、ルールは新しいディストリビューションに拡張できるため、ドメイン適応など、トレーニングとテストのディストリビューションが異なる場合のパフォーマンスを大幅に改善することができます。 提案手法を生涯学習やドメイン適応問題に適用し,エキスパートシステムにおける知識獲得問題など,AIの他の分野への応用について議論する。 シミュレーションおよび実ユーザ研究において、決定規則適用はアルゴリズムのドメイン適応を改善し、専門家の知識をAIモデルに広めるのに役立つことを示す。

Human-in-the-loop machine learning is widely used in artificial intelligence (AI) to elicit labels for data points from experts or to provide feedback on how close the predicted results are to the target. This simplifies away all the details of the decision-making process of the expert. In this work, we allow the experts to additionally produce decision rules describing their decision-making; the rules are expected to be imperfect but to give additional information. In particular, the rules can extend to new distributions, and hence enable significantly improving performance for cases where the training and testing distributions differ, such as in domain adaptation. We apply the proposed method to lifelong learning and domain adaptation problems and discuss applications in other branches of AI, such as knowledge acquisition problems in expert systems. In simulated and real-user studies, we show that decision rule elicitation improves domain adaptation of the algorithm and helps to propagate expert's knowledge to the AI model.
翻訳日:2021-02-25 00:07:48 公開日:2021-02-23
# (参考訳) 再帰分割に基づく因果構造学習の高速化 [全文訳有]

Accelerating Recursive Partition-Based Causal Structure Learning ( http://arxiv.org/abs/2102.11545v1 )

ライセンス: CC BY 4.0
Md. Musfiqur Rahman, Ayman Rasheed, Md. Mosaddek Khan, Mohammad Ali Javidian, Pooyan Jamshidi and Md. Mamun-Or-Rashid(参考訳) 観測データからの因果構造発見は、医療意思決定支援システム、広告キャンペーン、自動運転車などの自律システムの因果的理解に不可欠である。 これは、それらの現実世界のアプリケーションに関連するよく知られた因果決定と予測問題を解決するために不可欠です。 近年、より小さなサブプロブレムで条件独立試験(CI)を用いて良好な結果が得られるため、再帰因果探索アルゴリズムが研究コミュニティの間で特に注目を集めている。 しかし、これらのアルゴリズムはそれぞれ、発見されたグラフの望ましくない因果関係を取り除くために改良関数を必要とする。 特に、問題サイズの増加に伴い、改良関数の計算コスト(CIテストの数)はアルゴリズムを実際にデプロイするのにコストがかかる。 本稿では,少数のCIテストで望ましくない関係を見つけることができる汎用因果構造改良戦略を提案し,大規模かつ複雑な問題のアルゴリズムを高速化する。 理論的にアルゴリズムの正確性を証明する。 次に,合成および実データ集合における解の質と完了時間の観点から,最先端アルゴリズムに対する性能を実証的に評価する。

Causal structure discovery from observational data is fundamental to the causal understanding of autonomous systems such as medical decision support systems, advertising campaigns and self-driving cars. This is essential to solve well-known causal decision making and prediction problems associated with those real-world applications. Recently, recursive causal discovery algorithms have gained particular attention among the research community due to their ability to provide good results by using Conditional Independent (CI) tests in smaller sub-problems. However, each of such algorithms needs a refinement function to remove undesired causal relations of the discovered graphs. Notably, with the increase of the problem size, the computation cost (i.e., the number of CI-tests) of the refinement function makes an algorithm expensive to deploy in practice. This paper proposes a generic causal structure refinement strategy that can locate the undesired relations with a small number of CI-tests, thus speeding up the algorithm for large and complex problems. We theoretically prove the correctness of our algorithm. We then empirically evaluate its performance against the state-of-the-art algorithms in terms of solution quality and completion time in synthetic and real datasets.
翻訳日:2021-02-24 23:55:30 公開日:2021-02-23
# (参考訳) アクティベーション正則化と仮想補間によるデータ自由反転蒸留の促進 [全文訳有]

Enhancing Data-Free Adversarial Distillation with Activation Regularization and Virtual Interpolation ( http://arxiv.org/abs/2102.11638v1 )

ライセンス: CC BY 4.0
Xiaoyang Qu, Jianzong Wang, Jing Xiao(参考訳) 知識蒸留(英: knowledge distillation)とは、知識を大きな学習モデルや学習モデルのアンサンブルから小さなモデルに移す技術を指す。 この方法はオリジナルのトレーニングセットへのアクセスに依存するが、必ずしも利用できるとは限らない。 可能な解決策は、教師モデルの知識を学生モデルに転送するために生成ネットワークをデプロイするデータフリーの逆蒸留フレームワークです。 しかし、データフリーの対比蒸留では、データ生成効率は低い。 データ生成効率を向上させるために、アクティベーションレギュレータと仮想補間法を追加します。 アクティベーション規則化により、生徒は、アクティベーション境界と決定境界に近い教師の予測を一致させることができる。 仮想補間法は、決定境界の間の仮想サンプルとラベルを生成することができる。 実験では、最新のデータフリー蒸留法を超えるアプローチが示されています。 学生モデルはCIFAR-10で95.42%、CIFAR-100で77.05%の精度が得られる。 CIFAR-100の最先端データフリー手法よりも精度が13.8%高い。

Knowledge distillation refers to a technique of transferring the knowledge from a large learned model or an ensemble of learned models to a small model. This method relies on access to the original training set, which might not always be available. A possible solution is a data-free adversarial distillation framework, which deploys a generative network to transfer the teacher model's knowledge to the student model. However, the data generation efficiency is low in the data-free adversarial distillation. We add an activation regularizer and a virtual interpolation method to improve the data generation efficiency. The activation regularizer enables the students to match the teacher's predictions close to activation boundaries and decision boundaries. The virtual interpolation method can generate virtual samples and labels in-between decision boundaries. Our experiments show that our approach surpasses state-of-the-art data-free distillation methods. The student model can achieve 95.42% accuracy on CIFAR-10 and 77.05% accuracy on CIFAR-100 without any original training data. Our model's accuracy is 13.8% higher than the state-of-the-art data-free method on CIFAR-100.
翻訳日:2021-02-24 23:35:00 公開日:2021-02-23
# (参考訳) CAC: 分類のためのクラスタリングベースのフレームワーク

CAC: A Clustering Based Framework for Classification ( http://arxiv.org/abs/2102.11872v1 )

ライセンス: CC BY 4.0
Shivin Srivastava, Siddharth Bhatia, Lingxiao Huang, Lim Jun Heng, Kenji Kawaguchi, Vaibhav Rajan(参考訳) 不均質なサブポピュレーションを含むデータでは、分類性能は分類器にクラスタ構造に関する知識を組み込むことで恩恵を受ける。 このようなクラスタリングと分類を組み合わせた従来の方法は、分類器固有のものであり、汎用的あるいは独立的にクラスタリングと分類器のトレーニングを実行するものではない。 クラスタで訓練された分類器のパフォーマンスを改善するためにクラスタリングを実行する方法の問題は、いくつかの実世界のアプリケーションでその重要性にもかかわらず、以前の文献でわずかな注目を集めています。 本稿では,クラスタリングが正確な分類器の獲得にどのように役立つのかを理論的に分析する。 下位のサブポピュレーション毎に分類器によってデータセットをトレーニングするのに適したクラスタを見つけるために、分類認識クラスタリング(cac)と呼ばれる、シンプルで効率的で汎用的なフレームワークを設計した。 本実験は,クラスタリングと分類を併用した従来の手法よりもCACの有効性を示すものである。

In data containing heterogeneous subpopulations, classification performance benefits from incorporating the knowledge of cluster structure in the classifier. Previous methods for such combined clustering and classification either are classifier-specific and not generic or independently perform clustering and classifier training, which may not form clusters that can potentially benefit classifier performance. The question of how to perform clustering to improve the performance of classifiers trained on the clusters has received scant attention in previous literature despite its importance in several real-world applications. In this paper, we theoretically analyze when and how clustering may help in obtaining accurate classifiers. We design a simple, efficient, and generic framework called Classification Aware Clustering (CAC), to find clusters that are well suited for being used as training datasets by classifiers for each underlying subpopulation. Our experiments on synthetic and real benchmark datasets demonstrate the efficacy of CAC over previous methods for combined clustering and classification.
翻訳日:2021-02-24 23:25:23 公開日:2021-02-23
# (参考訳) ダブルロバストなオフポリティ・アクター批判:収束性と最適性

Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality ( http://arxiv.org/abs/2102.11866v1 )

ライセンス: CC BY 4.0
Tengyu Xu, Zhuoran Yang, Zhaoran Wang, Yingbin Liang(参考訳) オフ・ポリシー強化学習アルゴリズムの設計は、望ましいイテレーション更新は、しばしばオン・ポリシー分布に対する期待を伴うため、一般的に非常に難しい課題である。 以前のオフポリシーアクタークリティカル(AC)アルゴリズムは、収束を安定化させるために分布ミスマッチを調整するために密度比を使用する新しい批評家を導入しましたが、密度比と値関数の両方の推定誤差による高バイアスを導入する可能性があるコストで。 本稿では,2つの頑健なオフポリチックAC(DR-Off-PAC)を,学習ニュアンス関数を利用して推定誤差を低減できる割引MDP用に開発する。 さらに、DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しており、2つのタイムスケールまたはネストループ構造を採用する以前のアルゴリズムよりもサンプル効率が高い。 有限時間収束速度を調べ, dr-off-pac のサンプル複雑性を特徴付け, $\epsilon$-accurate optimal policy を得る。 また,dr-off-pacの全体収束は近似関数の表現力のみに依存する近似誤差と二重に頑健であることを示した。 我々の知識を最大限に活用するため,本研究では,単一の時間スケールオフポリシックacアルゴリズムのサンプル複雑性解析を初めて確立する。

Designing off-policy reinforcement learning algorithms is typically a very challenging task, because a desirable iteration update often involves an expectation over an on-policy distribution. Prior off-policy actor-critic (AC) algorithms have introduced a new critic that uses the density ratio for adjusting the distribution mismatch in order to stabilize the convergence, but at the cost of potentially introducing high biases due to the estimation errors of both the density ratio and value function. In this paper, we develop a doubly robust off-policy AC (DR-Off-PAC) for discounted MDP, which can take advantage of learned nuisance functions to reduce estimation errors. Moreover, DR-Off-PAC adopts a single timescale structure, in which both actor and critics are updated simultaneously with constant stepsize, and is thus more sample efficient than prior algorithms that adopt either two timescale or nested-loop structure. We study the finite-time convergence rate and characterize the sample complexity for DR-Off-PAC to attain an $\epsilon$-accurate optimal policy. We also show that the overall convergence of DR-Off-PAC is doubly robust to the approximation errors that depend only on the expressive power of approximation functions. To the best of our knowledge, our study establishes the first overall sample complexity analysis for a single time-scale off-policy AC algorithm.
翻訳日:2021-02-24 23:24:34 公開日:2021-02-23
# (参考訳) imagenetを4gpu時間で検索するニューラルアーキテクチャ:理論的にインスパイアされた視点 [全文訳有]

Neural Architecture Search on ImageNet in Four GPU Hours: A Theoretically Inspired Perspective ( http://arxiv.org/abs/2102.11535v1 )

ライセンス: CC BY 4.0
Wuyang Chen, Xinyu Gong, Zhangyang Wang(参考訳) ニューラルネットワークの発見を自動化するため、NAS(Neural Architecture Search)が爆発的に研究されている。 現在の作業では,スーパーネットや集中的なアーキテクチャ評価のトレーニングが必要となるため,リソースの消費の増大や,トレーニングの停止や近似による検索バイアスがしばしば発生する。 トレーニングを伴わずに最高のニューラルネットワークアーキテクチャを選択し、検索コストを大幅に削減できますか? トレーニングフリーニューラルアーキテクチャサーチ(TE-NAS)と呼ばれる新しいフレームワークを提案することで、肯定的な答えを提供します。 TE-NASは、ニューラルネットワークカーネル(NTK)のスペクトルと入力空間内の線形領域の数を分析することによってアーキテクチャをランク付けする。 どちらも近年のディープネットワークの進歩に動機付けられており、トレーニングやラベルなしで計算することができる。 1) この2つの測定はニューラルネットワークのトレーサビリティと表現性を示し, (2) ネットワークのテスト精度と強く相関することを示した。 さらに,検索時のトレーサビリティと表現性とのトレードオフをより柔軟かつ優れたものにするために,プルーニングベースのnas機構を設計する。 NAS-Bench-201 と DARTS の検索空間では、TE-NAS は高品質な検索を完了するが、CIFAR-10 では 1080Ti と ImageNet では 0.5 と 4 の GPU 時間しかかからない。 私たちの研究は、深層ネットワークの理論的な知見と実際のnasアプリケーションにおける実用的な影響を橋渡しする試みを刺激することを期待しています。 コードはhttps://github.com/V ITA-Group/TENAS.comで入手できる。

Neural Architecture Search (NAS) has been explosively studied to automate the discovery of top-performer neural networks. Current works require heavy training of supernet or intensive architecture evaluations, thus suffering from heavy resource consumption and often incurring search bias due to truncated training or approximations. Can we select the best neural architectures without involving any training and eliminate a drastic portion of the search cost? We provide an affirmative answer, by proposing a novel framework called training-free neural architecture search (TE-NAS). TE-NAS ranks architectures by analyzing the spectrum of the neural tangent kernel (NTK) and the number of linear regions in the input space. Both are motivated by recent theory advances in deep networks and can be computed without any training and any label. We show that: (1) these two measurements imply the trainability and expressivity of a neural network; (2) they strongly correlate with the network's test accuracy. Further on, we design a pruning-based NAS mechanism to achieve a more flexible and superior trade-off between the trainability and expressivity during the search. In NAS-Bench-201 and DARTS search spaces, TE-NAS completes high-quality search but only costs 0.5 and 4 GPU hours with one 1080Ti on CIFAR-10 and ImageNet, respectively. We hope our work inspires more attempts in bridging the theoretical findings of deep networks and practical impacts in real NAS applications. Code is available at: https://github.com/V ITA-Group/TENAS.
翻訳日:2021-02-24 23:15:13 公開日:2021-02-23
# (参考訳) リニアトランスは超高速な軽量メモリシステム [全文訳有]

Linear Transformers Are Secretly Fast Weight Memory Systems ( http://arxiv.org/abs/2102.11174v2 )

ライセンス: CC BY 4.0
Imanol Schlag, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 線形化自己保持機構とファストウェイト記憶の90年代前半の形式的等価性を示す。 この観察から,近年のリニア化ソフトマックスアテンションのメモリ容量制限を推算する。 有限メモリでは、高速重量メモリモデルの望ましい動作は、メモリの内容を制御し、動的にそれと相互作用することです。 高速重みに関する以前の研究に触発されて、このような振る舞いをもたらす代替ルールに更新ルールを置き換えることを提案する。 また,注意を線形化し,単純さと有効性をバランスさせる新しいカーネル関数を提案する。 本手法の利点を実証するために, 標準機械翻訳および言語モデリングタスクとともに, 合成検索問題に関する実験を行う。

We show the formal equivalence of linearised self-attention mechanisms and fast weight memories from the early '90s. From this observation we infer a memory capacity limitation of recent linearised softmax attention variants. With finite memory, a desirable behaviour of fast weight memory models is to manipulate the contents of memory and dynamically interact with it. Inspired by previous work on fast weights, we propose to replace the update rule with an alternative rule yielding such behaviour. We also propose a new kernel function to linearise attention, balancing simplicity and effectiveness. We conduct experiments on synthetic retrieval problems as well as standard machine translation and language modelling tasks which demonstrate the benefits of our methods.
翻訳日:2021-02-24 22:39:56 公開日:2021-02-23
# (参考訳) 歌声音声認識における音源特徴の活用 [全文訳有]

The Use of Voice Source Features for Sung Speech Recognition ( http://arxiv.org/abs/2102.10376v2 )

ライセンス: CC BY 4.0
Gerardo Roa Dabike, Jon Barker(参考訳) 本稿では, 発声音源の特徴(ピッチ, シャッター, ジッタなど)が, 自動発声音声認識の性能を向上させることができるかどうかを問う。 まず, 歌唱音声コーパス (nus-48e) を用いて, ピッチ範囲, 音節長, ビブラート, ジッター, シマーなど, 歌唱音声の特徴の違いを示す。 次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行い,アート音響モデルの状況と,各種音源パラメータを用いた従来の特徴の強化を行った。 実験は、DSing1 (15.1時間)、DSing3 (44.7時間)、DSing30 (149.1時間)の3つの標準訓練セットで実施されている。 発声度と組み合わせることで、DSing1のトレーニングではWERが38.1%から36.7%に大幅に減少するが、より多彩なDSing3とDSing30のトレーニングでは統計的に有意ではない。 音声品質特性は認識性能を改善しなかったが、音声/無声音素対の区別の改善に寄与することが分析によって示唆された。

In this paper, we ask whether vocal source features (pitch, shimmer, jitter, etc) can improve the performance of automatic sung speech recognition, arguing that conclusions previously drawn from spoken speech studies may not be valid in the sung speech domain. We first use a parallel singing/speaking corpus (NUS-48E) to illustrate differences in sung vs spoken voicing characteristics including pitch range, syllables duration, vibrato, jitter and shimmer. We then use this analysis to inform speech recognition experiments on the sung speech DSing corpus, using a state of the art acoustic model and augmenting conventional features with various voice source parameters. Experiments are run with three standard (increasingly large) training sets, DSing1 (15.1 hours), DSing3 (44.7 hours) and DSing30 (149.1 hours). Pitch combined with degree of voicing produces a significant decrease in WER from 38.1% to 36.7% when training with DSing1 however smaller decreases in WER observed when training with the larger more varied DSing3 and DSing30 sets were not seen to be statistically significant. Voicing quality characteristics did not improve recognition performance although analysis suggests that they do contribute to an improved discrimination between voiced/unvoiced phoneme pairs.
翻訳日:2021-02-24 22:13:19 公開日:2021-02-23
# (参考訳) WaNet -- 受け入れ難いワープベースのバックドア攻撃 [全文訳有]

WaNet -- Imperceptible Warping-based Backdoor Attack ( http://arxiv.org/abs/2102.10369v2 )

ライセンス: CC BY 4.0
Anh Nguyen, Anh Tran(参考訳) ディープラーニングの繁栄と事前訓練されたネットワークの使用の広範な実践により、バックドア攻撃は近年多くの研究の関心を引くセキュリティの脅威となっています。 サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。 しかし、既存のバックドア攻撃はすべてノイズの摂動トリガーに基づいており、人間に顕著です。 本稿では,ワーピングに基づくトリガーの使用を提案する。 提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。 このようなモデルをマシンディフェンダーによって検出不能にするために, ``noise mode" と呼ばれる新しいトレーニングモードを提案する。 訓練されたネットワークは、MNIST、CIFAR-10、GTSRB、CelebAといった標準分類データセットの最先端の防衛手法を攻撃および回避することに成功している。 行動分析により,我々のバックドアはネットワーク検査に透過的であり,この新たな攻撃機構の効率性がさらに証明された。

With the thriving of deep learning and the widespread practice of using pre-trained networks, backdoor attacks have become an increasing security threat drawing many research interests in recent years. A third-party model can be poisoned in training to work well in normal conditions but behave maliciously when a trigger pattern appears. However, the existing backdoor attacks are all built on noise perturbation triggers, making them noticeable to humans. In this paper, we instead propose using warping-based triggers. The proposed backdoor outperforms the previous methods in a human inspection test by a wide margin, proving its stealthiness. To make such models undetectable by machine defenders, we propose a novel training mode, called the ``noise mode. The trained networks successfully attack and bypass the state-of-the-art defense methods on standard classification datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. Behavior analyses show that our backdoors are transparent to network inspection, further proving this novel attack mechanism's efficiency.
翻訳日:2021-02-24 22:01:20 公開日:2021-02-23
# HardCoRe-NAS - Hard Constrained diffeRentiable Neural Architecture Search

HardCoRe-NAS: Hard Constrained diffeRentiable Neural Architecture Search ( http://arxiv.org/abs/2102.11646v1 )

ライセンス: Link先を確認
Niv Nayman, Yonathan Aflalo, Asaf Noy, Lihi Zelnik-Manor(参考訳) ニューラルネットワークの現実的な使用には、レイテンシ、エネルギー、メモリなどに関する複数の制約に従う必要があります。 適合するネットワークを見つけるための一般的なアプローチは、制約付きニューラルネットワーク検索(nas)である。 したがって、結果のネットワークはリソース制約に厳密に従わないため、その正確性は損なわれる。 本研究では,期待されるリソース要件の正確な定式化と,検索全体にわたるハード制約を満たすスケーラブルな検索手法に基づく,ハード制約付きdiffeRentiable NAS(HardCoRe-NAS)を導入することで,この問題を解決する。 実験の結果,HardCoRe-NASはNAS法を超越して最先端のアーキテクチャを生成する一方で,チューニングを必要とせず,厳密な資源制約を満たすことがわかった。

Realistic use of neural networks often requires adhering to multiple constraints on latency, energy and memory among others. A popular approach to find fitting networks is through constrained Neural Architecture Search (NAS), however, previous methods enforce the constraint only softly. Therefore, the resulting networks do not exactly adhere to the resource constraint and their accuracy is harmed. In this work we resolve this by introducing Hard Constrained diffeRentiable NAS (HardCoRe-NAS), that is based on an accurate formulation of the expected resource requirement and a scalable search method that satisfies the hard constraint throughout the search. Our experiments show that HardCoRe-NAS generates state-of-the-art architectures, surpassing other NAS methods, while strictly satisfying the hard resource constraints without any tuning required.
翻訳日:2021-02-24 14:13:17 公開日:2021-02-23
# モデルベースドメイン一般化

Model-Based Domain Generalization ( http://arxiv.org/abs/2102.11436v1 )

ライセンス: Link先を確認
Alexander Robey and George J. Pappas and Hamed Hassani(参考訳) 我々は、予測者が関連するトレーニングドメインのファミリーから引き出されたデータに基づいて訓練され、明確で見えないテストドメインでテストされるドメイン一般化の問題を検討する。 この設定には様々なアプローチが提案されているが、最近、既存のアルゴリズムがトレーニング領域よりも経験的リスク最小化(ERM)を一貫して上回ることはないことが示されている。 そこで本論文では,モデルベース領域一般化という領域一般化問題に対する新しいアプローチを提案する。 このアプローチでは、まずトレーニングドメインからのラベルなしデータを使用して、トレーニングドメインから他のドメインにデータをマッピングするマルチモーダルドメイン変換モデルを学びます。 次に,制約付き最適化に基づくドメイン一般化の定式化を提案し,基礎となるドメイン変換モデルの下での分散シフトに対して,トレーニングされた予測器が不変であることを強制する。 最後に,この制約付き最適化問題を効率的に解くための新しいアルゴリズムフレームワークを提案する。 実験では、このアプローチが、WILDS、PACS、ImageNetなど、多くのよく知られ、挑戦的なデータセットでERMとドメイン一般化アルゴリズムの両方よりも優れていることを示しています。 特に、我々のアルゴリズムは、現在提案されているWILDSベンチマークの最新の手法を最大20パーセントのポイントで破った。

We consider the problem of domain generalization, in which a predictor is trained on data drawn from a family of related training domains and tested on a distinct and unseen test domain. While a variety of approaches have been proposed for this setting, it was recently shown that no existing algorithm can consistently outperform empirical risk minimization (ERM) over the training domains. To this end, in this paper we propose a novel approach for the domain generalization problem called Model-Based Domain Generalization. In our approach, we first use unlabeled data from the training domains to learn multi-modal domain transformation models that map data from one training domain to any other domain. Next, we propose a constrained optimization-based formulation for domain generalization which enforces that a trained predictor be invariant to distributional shifts under the underlying domain transformation model. Finally, we propose a novel algorithmic framework for efficiently solving this constrained optimization problem. In our experiments, we show that this approach outperforms both ERM and domain generalization algorithms on numerous well-known, challenging datasets, including WILDS, PACS, and ImageNet. In particular, our algorithms beat the current state-of-the-art methods on the very-recently-propos ed WILDS benchmark by up to 20 percentage points.
翻訳日:2021-02-24 14:12:59 公開日:2021-02-23
# 一般サムゲームにおけるstackelberg equilibriaのサンプル効率学習

Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games ( http://arxiv.org/abs/2102.11494v1 )

ライセンス: Link先を確認
Yu Bai, Chi Jin, Huan Wang, Caiming Xiong(参考訳) 経済学や政策作成のような現実世界の応用は、しばしば2つのユニークな特徴を持つマルチエージェントゲームを解くことを伴う:(1)エージェントは本質的に非対称であり、リーダーとフォロワに分割される。 この分野での既存の結果の大部分は対称解の概念(例えば)に焦点を当てている。 ナッシュ平衡)またはゼロサムゲーム。 Nash平衡の非対称なアナログであるStackelberg平衡をサンプルから効率的に学習する方法は、依然として非常にオープンです。 本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。 有限標本を用いて,スタックルバーグ平衡の正確な値と推定値との基本的なギャップを同定する。 次に、上述したギャップに最適な値を持つStackelberg平衡のサンプル効率学習の正の結果を確立する。 サンプルの複雑さは上界と下界の一致と密接な関係にあることを示す。 最後に、学習結果を、フォロワーがマルコフ決定プロセス(MDP)でプレーする設定と、リーダーとフォロワーが同時に行動する設定に拡張します。

Real world applications such as economics and policy making often involve solving multi-agent games with two unique features: (1) The agents are inherently asymmetric and partitioned into leaders and followers; (2) The agents have different reward functions, thus the game is general-sum. The majority of existing results in this field focuses on either symmetric solution concepts (e.g. Nash equilibrium) or zero-sum games. It remains vastly open how to learn the Stackelberg equilibrium -- an asymmetric analog of the Nash equilibrium -- in general-sum games efficiently from samples. This paper initiates the theoretical study of sample-efficient learning of the Stackelberg equilibrium in two-player turn-based general-sum games. We identify a fundamental gap between the exact value of the Stackelberg equilibrium and its estimated version using finite samples, which can not be closed information-theoreti cally regardless of the algorithm. We then establish a positive result on sample-efficient learning of Stackelberg equilibrium with value optimal up to the gap identified above. We show that our sample complexity is tight with matching upper and lower bounds. Finally, we extend our learning results to the setting where the follower plays in a Markov Decision Process (MDP), and the setting where the leader and the follower act simultaneously.
翻訳日:2021-02-24 14:12:41 公開日:2021-02-23
# 敵対防衛における適応攻撃の自動発見

Automated Discovery of Adaptive Attacks on Adversarial Defenses ( http://arxiv.org/abs/2102.11860v1 )

ライセンス: Link先を確認
Chengyuan Yao, Pavol Bielik, Petar Tsankov, Martin Vechev(参考訳) 敵の防御に対する信頼性の高い評価は難しい課題であり、現在、防御の内側の働きを悪用する攻撃を手作業で行う専門家や、固定された攻撃のアンサンブルに基づくアプローチに限定されている。 私たちの重要な観察は、カスタム攻撃は、関連する攻撃パラメータの微調整、ネットワーク変換、カスタムロス機能などの再利用可能なビルディングブロックのセットで構成されているということです。 この観察に基づいて,再利用可能なビルディングブロック上の探索空間を定義し,適切な組み合わせを探索することで,未知の防御を持つモデルに対する効果的な攻撃を自動的に発見する拡張性フレームワークを提案する。 敵防衛の信頼性評価ツールであるAutoAttackは, 攻撃が強く, 追加の敵防御例(10例)が3.0%-50.8%, 典型的には2倍の速さで, 類似の敵防御効果(13例)が認められた。

Reliable evaluation of adversarial defenses is a challenging task, currently limited to an expert who manually crafts attacks that exploit the defense's inner workings, or to approaches based on ensemble of fixed attacks, none of which may be effective for the specific defense at hand. Our key observation is that custom attacks are composed from a set of reusable building blocks, such as fine-tuning relevant attack parameters, network transformations, and custom loss functions. Based on this observation, we present an extensible framework that defines a search space over these reusable building blocks and automatically discovers an effective attack on a given model with an unknown defense by searching over suitable combinations of these blocks. We evaluated our framework on 23 adversarial defenses and showed it outperforms AutoAttack, the current state-of-the-art tool for reliable evaluation of adversarial defenses: our discovered attacks are either stronger, producing 3.0%-50.8% additional adversarial examples (10 cases), or are typically 2x faster while enjoying similar adversarial robustness (13 cases).
翻訳日:2021-02-24 14:12:01 公開日:2021-02-23
# 画像キャプション生成のためのCNNアーキテクチャの比較評価

Comparative evaluation of CNN architectures for Image Caption Generation ( http://arxiv.org/abs/2102.11506v1 )

ライセンス: Link先を確認
Sulabh Katiyar, Samir Kumar Borgohain(参考訳) 近年のディープラーニングの進歩に伴い、画像キャプション生成はここ数年で大きな進歩を遂げています。 ほとんどの方法は、画像特徴の形で視覚情報を抽出するために転送学習を使用し、事前訓練された畳み込みニューラルネットワークモデルと、キャプション生成モジュールを使用して視覚情報を変換して出力文を生成する。 異なる手法が異なる畳み込みニューラルネットワークアーキテクチャを使用しており、私たちの知る限り、視覚情報を抽出するための異なる畳み込みニューラルネットワークアーキテクチャの相対的有効性を比較する体系的な研究は存在しない。 本研究では,ニューラル画像キャプション生成モデル(nic)とソフトアテンションフレームワーク(soft-attention framework)の2つの一般的な画像キャプション生成フレームワークを用いて,17種類の畳み込みニューラルネットワークを評価した。 我々は、畳み込みニューラルネットワークのモデルの複雑さをパラメータ数で測定し、オブジェクト認識タスクにおけるモデルの精度は、必ずしも画像キャプション生成タスクの機能抽出に対する効果と相関するとは限らないことを観察する。

Aided by recent advances in Deep Learning, Image Caption Generation has seen tremendous progress over the last few years. Most methods use transfer learning to extract visual information, in the form of image features, with the help of pre-trained Convolutional Neural Network models followed by transformation of the visual information using a Caption Generator module to generate the output sentences. Different methods have used different Convolutional Neural Network Architectures and, to the best of our knowledge, there is no systematic study which compares the relative efficacy of different Convolutional Neural Network architectures for extracting the visual information. In this work, we have evaluated 17 different Convolutional Neural Networks on two popular Image Caption Generation frameworks: the first based on Neural Image Caption (NIC) generation model and the second based on Soft-Attention framework. We observe that model complexity of Convolutional Neural Network, as measured by number of parameters, and the accuracy of the model on Object Recognition task does not necessarily co-relate with its efficacy on feature extraction for Image Caption Generation task.
翻訳日:2021-02-24 14:11:41 公開日:2021-02-23
# SeqNet:シーケンスベースの階層的場所認識のための学習記述子

SeqNet: Learning Descriptors for Sequence-based Hierarchical Place Recognition ( http://arxiv.org/abs/2102.11603v1 )

ライセンス: Link先を確認
Sourav Garg and Michael Milford(参考訳) 視覚的場所認識(VPR)は、カメラから環境の参照マップに格納された画像に現在の視覚画像をマッチングするタスクである。 初期のvbrシステムは単純な直接画像法や手作りの視覚機能を使用していたが、近年の研究では、より強力な視覚特徴の学習と、何らかのシーケンシャルマッチング/フィルタまたは階層マッチングプロセスによるパフォーマンス向上に重点が置かれている。 いずれの場合も、最初の1枚の画像ベースのシステムの性能は完璧とは程遠いため、シーケンスマッチングや(階層的なシステムの場合)リファインメントの段階に大きなプレッシャーがかかる。 本論文では,単一画像学習ディスクリプタを用いた選択的連続スコア集計を可能にする,短時間学習型シーケンシャルディスクリプタを用いた高性能初期一致仮説生成器を作成する新しいハイブリッドシステムを提案する。 シーケンシャルディスクリプタは、seqnetと呼ばれるテンポラリ畳み込みネットワークを使用して生成され、1次元畳み込みを使用して短い画像シーケンスをエンコードし、参照データセットから対応するテンポラリディスクリプタとマッチングし、場所マッチ仮説の順序リストを提供する。 次に,各パイプラインから短縮された単一画像学習記述子を用いて選択的に逐次スコアアグリゲーションを行い,全体の位置マッチング仮説を生成する。 難解なベンチマークデータセットに関する包括的実験により、同一量のシーケンシャル情報を用いた最新の最先端手法よりも優れた手法が示された。 ソースコードと補足資料はhttps://github.com/o ravus/seqnetにある。

Visual Place Recognition (VPR) is the task of matching current visual imagery from a camera to images stored in a reference map of the environment. While initial VPR systems used simple direct image methods or hand-crafted visual features, recent work has focused on learning more powerful visual features and further improving performance through either some form of sequential matcher / filter or a hierarchical matching process. In both cases the performance of the initial single-image based system is still far from perfect, putting significant pressure on the sequence matching or (in the case of hierarchical systems) pose refinement stages. In this paper we present a novel hybrid system that creates a high performance initial match hypothesis generator using short learnt sequential descriptors, which enable selective control sequential score aggregation using single image learnt descriptors. Sequential descriptors are generated using a temporal convolutional network dubbed SeqNet, encoding short image sequences using 1-D convolutions, which are then matched against the corresponding temporal descriptors from the reference dataset to provide an ordered list of place match hypotheses. We then perform selective sequential score aggregation using shortlisted single image learnt descriptors from a separate pipeline to produce an overall place match hypothesis. Comprehensive experiments on challenging benchmark datasets demonstrate the proposed method outperforming recent state-of-the-art methods using the same amount of sequential information. Source code and supplementary material can be found at https://github.com/o ravus/seqNet.
翻訳日:2021-02-24 14:11:22 公開日:2021-02-23
# 一般化ゼロショット学習における新機能生成のためのマルチ知識融合

Multi-Knowledge Fusion for New Feature Generation in Generalized Zero-Shot Learning ( http://arxiv.org/abs/2102.11566v1 )

ライセンス: Link先を確認
Hongxin Xiang, Cheng Xie, Ting Zeng, Yun Yang(参考訳) 意味的不整合とドメインシフトの問題から、既存の最先端手法のほとんどはゼロショット学習(ZSL)の満足な結果を得ることができない。 これらの問題を緩和するために,複数知識からより汎用的な特徴を学習するための新しい生成型zsl法を提案する。 提案するMKFNet(Multi-Knowled ge Fusion Network)は,複数の知識領域から視覚的特徴を適応的に融合させることで,より関連性の高い意味的特徴を意味-視覚的埋め込みのために訓練し,より汎用的な視覚的特徴を生成する。 適応的遺伝的戦略を持つ新しい特徴生成器(NFG)は,一方において意味情報を豊かにするために用いられ,他方では,MKFNetが生成する視覚的特徴の交叉と見えない視覚的特徴の交叉を大幅に改善する。 実験により,従来のZSL,一般化ZSL,ゼロショット検索など,ZSLタスクの多数のベンチマークにおいて,既存の最先端手法と比較して,本手法の方が優れた性能が得られることを示す。

Suffering from the semantic insufficiency and domain-shift problems, most of existing state-of-the-art methods fail to achieve satisfactory results for Zero-Shot Learning (ZSL). In order to alleviate these problems, we propose a novel generative ZSL method to learn more generalized features from multi-knowledge with continuously generated new semantics in semantic-to-visual embedding. In our approach, the proposed Multi-Knowledge Fusion Network (MKFNet) takes different semantic features from multi-knowledge as input, which enables more relevant semantic features to be trained for semantic-to-visual embedding, and finally generates more generalized visual features by adaptively fusing visual features from different knowledge domain. The proposed New Feature Generator (NFG) with adaptive genetic strategy is used to enrich semantic information on the one hand, and on the other hand it greatly improves the intersection of visual feature generated by MKFNet and unseen visual faetures. Empirically, we show that our approach can achieve significantly better performance compared to existing state-of-the-art methods on a large number of benchmarks for several ZSL tasks, including traditional ZSL, generalized ZSL and zero-shot retrieval.
翻訳日:2021-02-24 14:10:29 公開日:2021-02-23
# オブジェクトカウントのみをラベルとして用いるWeakly-supervised Multi-class Object Localization

Weakly-supervised multi-class object localization using only object counts as labels ( http://arxiv.org/abs/2102.11743v1 )

ライセンス: Link先を確認
Kyle Mills and Isaac Tamblyn(参考訳) 画像内のオブジェクトのインスタンスをローカライズするための、広範なディープニューラルネットワークの使用例を示す。 EDNNは当然、基底真理カウント値のみをラベルとして、マルチクラスカウントを正確に行うことができる。 概念情報、オブジェクトアノテーション、またはピクセル分割情報を提供せずに、ニューラルネットワークは画像内のアイテムの独自の概念表現を定式化することができます。 既存のオブジェクトのカウントのみをラベル付けした画像を使用することで、広範囲のディープニューラルネットワークの構造を利用して、視野内のオブジェクトのローカライズを行うことができる。 訓練されたEDNNは、訓練された画像よりもはるかに大きい画像のオブジェクトをカウントするために使用できることを実証します。 そこで本研究では,MNISTの数値計算データ5点と3次元レンダリングゴムアヒルのデータセット2点を,新たな7つのデータセットとして導入した。 これらのデータセットの大部分では、EDNNはオブジェクトのカウントで99%以上のテストセット精度を実現します。

We demonstrate the use of an extensive deep neural network to localize instances of objects in images. The EDNN is naturally able to accurately perform multi-class counting using only ground truth count values as labels. Without providing any conceptual information, object annotations, or pixel segmentation information, the neural network is able to formulate its own conceptual representation of the items in the image. Using images labelled with only the counts of the objects present,the structure of the extensive deep neural network can be exploited to perform localization of the objects within the visual field. We demonstrate that a trained EDNN can be used to count objects in images much larger than those on which it was trained. In order to demonstrate our technique, we introduce seven new data sets: five progressively harder MNIST digit-counting data sets, and two datasets of 3d-rendered rubber ducks in various situations. On most of these datasets, the EDNN achieves greater than 99% test set accuracy in counting objects.
翻訳日:2021-02-24 14:10:05 公開日:2021-02-23
# MUSBO: 展開制約強化学習のためのモデルベース不確かさ正規化およびサンプル効率的なバッチ最適化

MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch Optimization for Deployment Constrained Reinforcement Learning ( http://arxiv.org/abs/2102.11448v1 )

ライセンス: Link先を確認
DiJia Su, Jason D. Lee, John M. Mulvey, H. Vincent Poor(参考訳) 医療、金融、ロボティクス、レコメンデーションシステムといった現代の多くのアプリケーションでは、データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非実用的かのいずれかである。 我々は、純粋なオフライン強化学習(RL)と純粋なオンラインRLの間に、データサンプリングのためのポリシーデプロイメントの数を制限する、配置制約付きRLという設定について検討する。 この課題を解決するために,モデルベース不確実性正規化とサンプル効率バッチ最適化(MUSBO)と呼ばれる新しいアルゴリズム学習フレームワークを提案する。 本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。 各オフライントレーニングセッションでは、収集したデータ内の不確実性量を定量化し、ポリシー更新をブートストラップします。 高いサポート領域(低い不確実性)では、積極的な更新をすることで政策を奨励します。 低サポート領域(高い不確実性)では、ポリシーが分散領域にブートストラップすると、推定の不確かさの定量化によってそれを下げます。 実験結果から,MUSBOは配置制約付きRL設定における最先端性能を実現することが示された。

In many contemporary applications such as healthcare, finance, robotics, and recommendation systems, continuous deployment of new policies for data collection and online learning is either cost ineffective or impractical. We consider a setting that lies between pure offline reinforcement learning (RL) and pure online RL called deployment constrained RL in which the number of policy deployments for data sampling is limited. To solve this challenging task, we propose a new algorithmic learning framework called Model-based Uncertainty regularized and Sample Efficient Batch Optimization (MUSBO). Our framework discovers novel and high quality samples for each deployment to enable efficient data collection. During each offline training session, we bootstrap the policy update by quantifying the amount of uncertainty within our collected data. In the high support region (low uncertainty), we encourage our policy by taking an aggressive update. In the low support region (high uncertainty) when the policy bootstraps into the out-of-distribution region, we downweight it by our estimated uncertainty quantification. Experimental results show that MUSBO achieves state-of-the-art performance in the deployment constrained RL setting.
翻訳日:2021-02-24 14:09:07 公開日:2021-02-23
# シーケンスモデリングのためのモデル-アテンティブアンサンブル学習

Model-Attentive Ensemble Learning for Sequence Modeling ( http://arxiv.org/abs/2102.11500v1 )

ライセンス: Link先を確認
Victor D. Bourgin, Ioana Bica, Mihaela van der Schaar(参考訳) 医用時系列データセットには、予測タスクを難しくするユニークな特徴がある。 特に、患者の軌跡には、一般に時間的条件シフトと呼ばれる、入出力関係の縦方向の変動がしばしば含まれます。 このような時間変化分布に適応可能なシーケンスモデルの設計は、依然として一般的な問題である。 そこで本研究では,シーケンスモデリングのためのモデル指向アンサンブル学習(maes)を提案する。 MAESは、異なるシーケンスダイナミクスの専門家を専門とし、予測を適応的に重み付けるために、注目ベースのゲーティングメカニズムを利用する時系列の専門家の混合物です。 MAESが時系列シフトを受けるデータセットの人気シーケンスモデルを大幅に上回ることを示す。

Medical time-series datasets have unique characteristics that make prediction tasks challenging. Most notably, patient trajectories often contain longitudinal variations in their input-output relationships, generally referred to as temporal conditional shift. Designing sequence models capable of adapting to such time-varying distributions remains a prevailing problem. To address this we present Model-Attentive Ensemble learning for Sequence modeling (MAES). MAES is a mixture of time-series experts which leverages an attention-based gating mechanism to specialize the experts on different sequence dynamics and adaptively weight their predictions. We demonstrate that MAES significantly out-performs popular sequence models on datasets subject to temporal shift.
翻訳日:2021-02-24 14:08:46 公開日:2021-02-23
# GAIT-propで学習をスケールアップ

Scaling up learning with GAIT-prop ( http://arxiv.org/abs/2102.11598v1 )

ライセンス: Link先を確認
Sander Dalm, Nasir Ahmad, Luca Ambrogioni, Marcel van Gerven(参考訳) backpropagation of error (bp) は広く使われ、非常に成功した学習アルゴリズムである。 しかし、エラーグラデーションの伝播における非局所情報への依存は、脳内で学習する可能性は低いと思われます。 過去10年間で、より生物学的に有理な計算がbpの近似に使用できるかどうかの判断に焦点が当てられた多くの研究が行われている。 この研究は、局所的な学習アルゴリズムであるGradient Adjusted Incremental Target Propagation (GAIT-prop)に基づいており、最近、BPを生物学的に証明可能な方法で近似することが示されている。 本手法は, 局所的, 層単位の重み更新ターゲットを構築し, 信頼性の高い信用代入を可能にする。 しかし、ディープネットワークでは、GAIT-propによって計算された局所的な重量更新は、BPから多くの理由で逸脱することがある。 ここでは、このようなエラーの原因を克服するためのメソッドを提供し、テストする。 特に、局所計算誤差を適応的に再スケールし、CIFAR-10データセットに適用すると、GAIT-propアルゴリズムの性能と安定性が著しく向上することを示す。

Backpropagation of error (BP) is a widely used and highly successful learning algorithm. However, its reliance on non-local information in propagating error gradients makes it seem an unlikely candidate for learning in the brain. In the last decade, a number of investigations have been carried out focused upon determining whether alternative more biologically plausible computations can be used to approximate BP. This work builds on such a local learning algorithm - Gradient Adjusted Incremental Target Propagation (GAIT-prop) - which has recently been shown to approximate BP in a manner which appears biologically plausible. This method constructs local, layer-wise weight update targets in order to enable plausible credit assignment. However, in deep networks, the local weight updates computed by GAIT-prop can deviate from BP for a number of reasons. Here, we provide and test methods to overcome such sources of error. In particular, we adaptively rescale the locally-computed errors and show that this significantly increases the performance and stability of the GAIT-prop algorithm when applied to the CIFAR-10 dataset.
翻訳日:2021-02-24 14:08:36 公開日:2021-02-23
# 回転機械の教師なし故障検出と診断のための説明可能な人工知能アプローチ

An Explainable Artificial Intelligence Approach for Unsupervised Fault Detection and Diagnosis in Rotating Machinery ( http://arxiv.org/abs/2102.11848v1 )

ライセンス: Link先を確認
Lucas Costa Brito, Gian Antonio Susto, Jorge Nei Brito, Marcus Antonio Viana Duarte(参考訳) 回転機械の監視は、今日の生産プロセスにおいて重要な課題である。 現在、いくつかの機械学習とディープラーニングベースのモジュールは、故障の検出と診断において優れた結果を達成しています。 それでも、ユーザの採用と普及をさらに増やすためには、ユーザと人間の専門家に、モジュールによる説明と洞察を提供する必要がある。 もう1つの問題は、ほとんどの場合、教師付きモデルの使用を不可能にするラベル付き履歴データが利用できないことである。 そこで, 回転機械の故障検出と診断のための新しい手法を提案する。 この手法は,特徴抽出,障害検出,障害診断の3つの部分からなる。 第1部では、時間領域と周波数領域の振動特性を抽出します。 次に、異常検出において、異常検出アルゴリズムに基づいて教師なしの方法で障害の有無を検証する。 方法論のモジュール化により、異なるアルゴリズムを実装できる。 最後に、故障診断では、ブラックボックスモデルを解釈する技術であるShapley Additive Explanations(SHAP)が使用される。 モデル説明性によって得られた特徴重要度ランキングにより、故障診断を行う。 非教師なし分類と根本原因分析の2つの診断ツールが提案されている。 提案手法の有効性は, 回転機械の機械故障が異なる3つのデータセットに示される。 この研究はまた、機械学習の説明可能性に使用されるモデルの比較も示している:SHAPとローカル深さベースのアイソレーションフォレスト(LocalDIFFI)の機能重要度。 最後に、回転機械におけるいくつかの最先端異常検出アルゴリズムの分析を含む。

The monitoring of rotating machinery is an essential task in today's production processes. Currently, several machine learning and deep learning-based modules have achieved excellent results in fault detection and diagnosis. Nevertheless, to further increase user adoption and diffusion of such technologies, users and human experts must be provided with explanations and insights by the modules. Another issue is related, in most cases, with the unavailability of labeled historical data that makes the use of supervised models unfeasible. Therefore, a new approach for fault detection and diagnosis in rotating machinery is here proposed. The methodology consists of three parts: feature extraction, fault detection and fault diagnosis. In the first part, the vibration features in the time and frequency domains are extracted. Secondly, in the fault detection, the presence of fault is verified in an unsupervised manner based on anomaly detection algorithms. The modularity of the methodology allows different algorithms to be implemented. Finally, in fault diagnosis, Shapley Additive Explanations (SHAP), a technique to interpret black-box models, is used. Through the feature importance ranking obtained by the model explainability, the fault diagnosis is performed. Two tools for diagnosis are proposed, namely: unsupervised classification and root cause analysis. The effectiveness of the proposed approach is shown on three datasets containing different mechanical faults in rotating machinery. The study also presents a comparison between models used in machine learning explainability: SHAP and Local Depth-based Feature Importance for the Isolation Forest (Local- DIFFI). Lastly, an analysis of several state-of-art anomaly detection algorithms in rotating machinery is included.
翻訳日:2021-02-24 14:08:18 公開日:2021-02-23
# ユニタリ重みを持つ深層畳み込みニューラルネットワーク

Deep Convolutional Neural Networks with Unitary Weights ( http://arxiv.org/abs/2102.11855v1 )

ライセンス: Link先を確認
Hao-Yuan Chang, Kang L. Wang (University of California, Los Angeles)(参考訳) 正規化は、ディープニューラルネットワークにおける爆発的および消滅的な勾配問題を修正することを目的としているが、データセット統計に依存するため、速度や精度の欠点がある。 本研究は,内在的に安定な神経系を構築するためのリー群から導かれるユニタリシナプス重みに基づく新しい手法の包括的研究である。 ここでは,ユニタリ畳み込みニューラルネットワークが,競合予測精度を維持しつつ推論速度を最大32%高速化することを示す。 正方形シナプス重みに制限された先行技術とは異なり、ユニタリネットワークを任意の大きさと次元の重みに拡張する。

While normalizations aim to fix the exploding and vanishing gradient problem in deep neural networks, they have drawbacks in speed or accuracy because of their dependency on the data set statistics. This work is a comprehensive study of a novel method based on unitary synaptic weights derived from Lie Group to construct intrinsically stable neural systems. Here we show that unitary convolutional neural networks deliver up to 32% faster inference speeds while maintaining competitive prediction accuracy. Unlike prior arts restricted to square synaptic weights, we expand the unitary networks to weights of any size and dimension.
翻訳日:2021-02-24 14:08:01 公開日:2021-02-23
# 事前学習型言語モデルを用いたログデータのロバストと転送可能な異常検出

Robust and Transferable Anomaly Detection in Log Data using Pre-Trained Language Models ( http://arxiv.org/abs/2102.11570v1 )

ライセンス: Link先を確認
Harold Ott, Jasmin Bogatinovski, Alexander Acker, Sasho Nedelkoski, Odej Kao(参考訳) クラウドのような大規模コンピュータシステムにおける異常や障害は、情報を伝える、計算し、保存する多くのユーザに影響を与える。 したがって, 信頼性, セキュリティ, 安全操作, 損失軽減のためには, 時間的かつ正確な異常検出が必要である。 近年,ソフトウェア産業の進化は,(1)ソフトウェアアップグレードに伴うソフトウェア進化に対処すること,(2)興味あるシステムからのデータが入手できないコールドスタート問題の解決など,取り組まなければならない問題のいくつかを解決している。 本稿では,システム情報の主要なトラブルシューティング源として,ログデータの異常検出のためのフレームワークを提案する。 そのために、事前訓練された汎用言語モデルを用いてログメッセージの意味を保存し、それらをログベクトル埋め込みにマッピングする。 重要なアイデアは、ログのこれらの表現は堅牢であり、ログの変更に不変ではないため、異常検出モデルのより良い一般化をもたらすということです。 BERT、GPT-2、XLなどの数値ログ表現を得るために、異なる言語モデルを評価するクラウドデータセット上でいくつかの実験を行います。 セマンティクスの変化をシミュレートするために、ログメッセージを徐々に変更することでロバスト性を評価する。 その結果,提案手法は高い性能と頑健性を実現し,今後の研究の可能性を開くことができた。

Anomalies or failures in large computer systems, such as the cloud, have an impact on a large number of users that communicate, compute, and store information. Therefore, timely and accurate anomaly detection is necessary for reliability, security, safe operation, and mitigation of losses in these increasingly important systems. Recently, the evolution of the software industry opens up several problems that need to be tackled including (1) addressing the software evolution due software upgrades, and (2) solving the cold-start problem, where data from the system of interest is not available. In this paper, we propose a framework for anomaly detection in log data, as a major troubleshooting source of system information. To that end, we utilize pre-trained general-purpose language models to preserve the semantics of log messages and map them into log vector embeddings. The key idea is that these representations for the logs are robust and less invariant to changes in the logs, and therefore, result in a better generalization of the anomaly detection models. We perform several experiments on a cloud dataset evaluating different language models for obtaining numerical log representations such as BERT, GPT-2, and XL. The robustness is evaluated by gradually altering log messages, to simulate a change in semantics. Our results show that the proposed approach achieves high performance and robustness, which opens up possibilities for future research in this direction.
翻訳日:2021-02-24 14:07:50 公開日:2021-02-23
# 適切な誘導性ビアーゼを付加した決定論的ニューラルネットワークによるてんかんとアラート性不確かさの把握

Deterministic Neural Networks with Appropriate Inductive Biases Capture Epistemic and Aleatoric Uncertainty ( http://arxiv.org/abs/2102.11582v1 )

ライセンス: Link先を確認
Jishnu Mukhoti, Andreas Kirsch, Joost van Amersfoort, Philip H.S. Torr, Yarin Gal(参考訳) 本研究では, 最小変化のソフトマックスニューラルネットが, ディープアンサンブルやより複雑なシングルフォワードパス不確実性アプローチの不確実性予測に匹敵することを示した。 ソフトマックスニューラルネットは、OoDポイントが任意に外挿され、特徴的崩壊に苦しむため、確実にてんかん不確実性を捉えることができない。 この結果、OoD点に対する任意のソフトマックスのエントロピーは、高いエントロピー、低い、あるいはその中間にあるあらゆるものを持つことができる。 そこで本研究では, 適切な誘導バイアスにより, 最大精度で訓練したソフトマックスニューラルネットワークが, 特徴空間密度を通じて, 不確実性を確実に捉えていることを示す。 この密度はガウス判別解析を用いて得られるが、不確実性を解くことはできない。 我々は、この密度とソフトマックスエントロピーを組み合わせることが必要であることを示しています。 活発な学習のために CIFAR-10 vs SVHNでSOTA ~0.98 AUROCを得るアクティブラーニングとOoD検出における骨粗さの質を検討する。

We show that a single softmax neural net with minimal changes can beat the uncertainty predictions of Deep Ensembles and other more complex single-forward-pass uncertainty approaches. Softmax neural nets cannot capture epistemic uncertainty reliably because for OoD points they extrapolate arbitrarily and suffer from feature collapse. This results in arbitrary softmax entropies for OoD points which can have high entropy, low, or anything in between. We study why, and show that with the right inductive biases, softmax neural nets trained with maximum likelihood reliably capture epistemic uncertainty through the feature-space density. This density is obtained using Gaussian Discriminant Analysis, but it cannot disentangle uncertainties. We show that it is necessary to combine this density with the softmax entropy to disentangle aleatoric and epistemic uncertainty -- crucial e.g. for active learning. We examine the quality of epistemic uncertainty on active learning and OoD detection, where we obtain SOTA ~0.98 AUROC on CIFAR-10 vs SVHN.
翻訳日:2021-02-24 14:07:09 公開日:2021-02-23
# ASAM(Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks)

ASAM: Adaptive Sharpness-Aware Minimization for Scale-Invariant Learning of Deep Neural Networks ( http://arxiv.org/abs/2102.11600v1 )

ライセンス: Link先を確認
Jungmin Kwon, Jeongseop Kim, Hyunseo Park and In Kwon Choi(参考訳) 近年,一般化ギャップの有効な尺度として,損失面の鋭さを動機とする学習アルゴリズムが最先端のパフォーマンスを示している。 それでも、固定半径の剛性領域で定義されるシャープネスは、損失が影響を受けないパラメータ再スケーリングに対する感度の欠点があり、シャープネスと一般化ギャップの接続が弱まる。 本稿では,スケール不変である適応シャープネスの概念を導入し,対応する一般化境界を提案する。 本稿では,適応的シャープネス認識最小化(ASAM)という新たな学習手法を提案する。 各種ベンチマークデータセットの実験結果から,ASAMはモデル一般化性能の大幅な向上に寄与することが示された。

Recently, learning algorithms motivated from sharpness of loss surface as an effective measure of generalization gap have shown state-of-the-art performances. Nevertheless, sharpness defined in a rigid region with a fixed radius, has a drawback in sensitivity to parameter re-scaling which leaves the loss unaffected, leading to weakening of the connection between sharpness and generalization gap. In this paper, we introduce the concept of adaptive sharpness which is scale-invariant and propose the corresponding generalization bound. We suggest a novel learning method, adaptive sharpness-aware minimization (ASAM), utilizing the proposed generalization bound. Experimental results in various benchmark datasets show that ASAM contributes to significant improvement of model generalization performance.
翻訳日:2021-02-24 14:06:47 公開日:2021-02-23
# 自動車ルーティング問題に対するDeep Policy Dynamic Programming

Deep Policy Dynamic Programming for Vehicle Routing Problems ( http://arxiv.org/abs/2102.11756v1 )

ライセンス: Link先を確認
Wouter Kool, Herke van Hoof, Joaquim Gromicho and Max Welling(参考訳) ルーティング問題は、多くの実用的な応用を伴う組合せ問題の一種である。 近年,このような問題に対する近似解ヒューリスティックスを学ぶために,エンドツーエンドのディープラーニング手法が提案されている。 対照的に、古典的動的プログラミング (DP) アルゴリズムは最適解を見つけることができるが、問題のサイズに悪影響を及ぼす。 学習したニューラルヒューリスティックの強みとDPアルゴリズムの強みを組み合わせることを目的としたDeep Policy Dynamic Programming(DPDP)を提案する。 DPDPは、例の解からエッジを予測するために訓練されたディープニューラルネットワークから派生したポリシーを使用して、DP状態空間を優先し、制限する。 我々は、旅行セールスマン問題(TSP)と車両ルーティング問題(VRP)の枠組みを評価し、ニューラルネットワークが(制限された)DPアルゴリズムの性能を改善し、LKHのような強力な代替品と競合し、TSPやVRPを100ノードで解くための他の「神経的アプローチ」よりも優れていることを示す。

Routing problems are a class of combinatorial problems with many practical applications. Recently, end-to-end deep learning methods have been proposed to learn approximate solution heuristics for such problems. In contrast, classical dynamic programming (DP) algorithms can find optimal solutions, but scale badly with the problem size. We propose Deep Policy Dynamic Programming (DPDP), which aims to combine the strengths of learned neural heuristics with those of DP algorithms. DPDP prioritizes and restricts the DP state space using a policy derived from a deep neural network, which is trained to predict edges from example solutions. We evaluate our framework on the travelling salesman problem (TSP) and the vehicle routing problem (VRP) and show that the neural policy improves the performance of (restricted) DP algorithms, making them competitive to strong alternatives such as LKH, while also outperforming other `neural approaches' for solving TSPs and VRPs with 100 nodes.
翻訳日:2021-02-24 14:06:33 公開日:2021-02-23
# 最大確率で訓練されたEBMは、自己逆転損失で訓練されたジェネレータモデルである

EBMs Trained with Maximum Likelihood are Generator Models Trained with a Self-adverserial Loss ( http://arxiv.org/abs/2102.11757v1 )

ライセンス: Link先を確認
Zhisheng Xiao, Qing Yan, Yali Amit(参考訳) 最大確率推定は、エネルギーベースモデル(EBM)の訓練に広く用いられている。 トレーニングには、通常難易度の高い非正規分布のサンプルが必要であり、実際にはランゲビンダイナミクスなどのMCMCアルゴリズムによって取得されます。 しかし、高次元空間におけるMCMCの収束は非常に遅いため、モデルから近似サンプルを抽出できると仮定した最大極大トレーニングの現在の理解は問題となる。 本稿では、Langevinダイナミクスを関連する勾配降下ODEの決定論的解に置き換えることで、このトレーニング手順を理解することを試みる。 そうすることで、ダイナミクスによって誘導される密度(ダイナミクスが反転可能であれば)を研究し、ダイナミクスをジェネレータモデルとして扱うことでGANと接続し、初期値を潜在変数として扱い、その勾配を通じて発電機を決定する全く同じエネルギーによって定義される批評家を最適化するように損失します。 したがって、用語 - 自己逆転損失。 本研究では, 騒音の再導入は, 動作の質的変化を招き得ず, ジェネレータの品質を低下させるだけであることを示す。 そこで, EBMトレーニングは, 最大確率推定よりも, 事実上自己反逆的処置であることを示す。

Maximum likelihood estimation is widely used in training Energy-based models (EBMs). Training requires samples from an unnormalized distribution, which is usually intractable, and in practice, these are obtained by MCMC algorithms such as Langevin dynamics. However, since MCMC in high-dimensional space converges extremely slowly, the current understanding of maximum likelihood training, which assumes approximate samples from the model can be drawn, is problematic. In this paper, we try to understand this training procedure by replacing Langevin dynamics with deterministic solutions of the associated gradient descent ODE. Doing so allows us to study the density induced by the dynamics (if the dynamics are invertible), and connect with GANs by treating the dynamics as generator models, the initial values as latent variables and the loss as optimizing a critic defined by the very same energy that determines the generator through its gradient. Hence the term - self-adversarial loss. We show that reintroducing the noise in the dynamics does not lead to a qualitative change in the behavior, and merely reduces the quality of the generator. We thus show that EBM training is effectively a self-adversarial procedure rather than maximum likelihood estimation.
翻訳日:2021-02-24 14:06:15 公開日:2021-02-23
# Greedy Multi-step Off-Policy Reinforcement Learning

Greedy Multi-step Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2102.11717v1 )

ライセンス: Link先を確認
Yuhui Wang, Pengcheng He, Xiaoyang Tan(参考訳) 多段階オフポリシー強化学習は大きな成功を収めました。 しかし、既存のマルチステップ法は通常ブートストラップのステップに固定前処理を課すが、オフポリシー法は特定の望ましくない影響に苦しむ追加の修正を必要とする。 そこで本論文では, ブートストラップ値の最大値を段階的に勾配的に取得する, 新たなブートストラップ法を提案する。 1)データの品質と学習値関数に基づいてブートストラップステップを柔軟に調整することができ、2)任意の行動方針のデータを、その品質や「オフポリシ性」に関係なく、追加修正することなく、安全かつ堅牢に活用することができる。 関連演算子の理論特性を分析し、従来のベルマン最適演算子よりも速い比率で、グローバルな最適値関数に収束できることを示します。 さらに、この新しい演算子に基づいて、Greedy Multi-Step Q Learning(およびGreedy Multi-Step DQN)という新しいモデルフリーRLアルゴリズムを導出する。 実験の結果,提案手法は信頼性が高く,実装が容易で,一連の標準ベンチマークデータセット上での最先端のパフォーマンスを実現していることがわかった。

Multi-step off-policy reinforcement learning has achieved great success. However, existing multi-step methods usually impose a fixed prior on the bootstrap steps, while the off-policy methods often require additional correction, suffering from certain undesired effects. In this paper, we propose a novel bootstrapping method, which greedily takes the maximum value among the bootstrapping values with varying steps. The new method has two desired properties:1) it can flexibly adjust the bootstrap step based on the quality of the data and the learned value function; 2) it can safely and robustly utilize data from arbitrary behavior policy without additional correction, whatever its quality or "off-policyness". We analyze the theoretical properties of the related operator, showing that it is able to converge to the global optimal value function, with a ratio faster than the traditional Bellman Optimality Operator. Furthermore, based on this new operator, we derive new model-free RL algorithms named Greedy Multi-Step Q Learning (and Greedy Multi-step DQN). Experiments reveal that the proposed methods are reliable, easy to implement, and achieve state-of-the-art performance on a series of standard benchmark datasets.
翻訳日:2021-02-24 14:05:39 公開日:2021-02-23
# ハードノックの学派: 計算予算を固定したポンマーマンのカリキュラム分析

School of hard knocks: Curriculum analysis for Pommerman with a fixed computational budget ( http://arxiv.org/abs/2102.11762v1 )

ライセンス: Link先を確認
Omkar Shelke, Hardik Meisheri, Harshad Khadilkar(参考訳) Pommermanは、部分的な可観測性、通信の制限またはなし、報酬のスパースと遅延、および制限された計算時間制限の点で困難な特性を持つハイブリッド協調/逆マルチエージェント環境です。 これにより、強化学習(RL)アプローチの難しい環境になる。 本稿では,定型的基本方針(ノイズの多い専門家政策を模倣する訓練)から始まる,制約付き10,000試合の計算予算で,堅牢で有望な政策を学習するためのカリキュラムの開発に焦点をあてる。 基本方針から始まる全てのRLアルゴリズムは、同じ報酬関数を持つバニラ近似-ポリチ最適化(PPO)を使用し、トレーニングの唯一の違いは、対立するポリシーの混合と順序である。 より単純な相手とのトレーニングを開始し、徐々に相手の難易度を増すと、学習の迅速化が期待され、利用可能なすべての相手ポリシーが最初から導入されるベースラインと比較して、より堅牢なポリシーが導かれる。 我々は、この仮説を検証し、制約された計算予算の中で、事実上「ハードノックの学派で学ぶ」こと、すなわち、ほぼ最初から利用可能な全ての反対の政策に対して、より良いことを示します。 また、アンモのベース環境特性や爆破強度がエージェント性能に及ぼす影響を研究するアブレーション研究も実施しています。

Pommerman is a hybrid cooperative/adversar ial multi-agent environment, with challenging characteristics in terms of partial observability, limited or no communication, sparse and delayed rewards, and restrictive computational time limits. This makes it a challenging environment for reinforcement learning (RL) approaches. In this paper, we focus on developing a curriculum for learning a robust and promising policy in a constrained computational budget of 100,000 games, starting from a fixed base policy (which is itself trained to imitate a noisy expert policy). All RL algorithms starting from the base policy use vanilla proximal-policy optimization (PPO) with the same reward function, and the only difference between their training is the mix and sequence of opponent policies. One expects that beginning training with simpler opponents and then gradually increasing the opponent difficulty will facilitate faster learning, leading to more robust policies compared against a baseline where all available opponent policies are introduced from the start. We test this hypothesis and show that within constrained computational budgets, it is in fact better to "learn in the school of hard knocks", i.e., against all available opponent policies nearly from the start. We also include ablation studies where we study the effect of modifying the base environment properties of ammo and bomb blast strength on the agent performance.
翻訳日:2021-02-24 14:05:16 公開日:2021-02-23
# リレーショナルデータマトリックスにおける双子数に対する適合性試験

Goodness-of-fit Test on the Number of Biclusters in Relational Data Matrix ( http://arxiv.org/abs/2102.11658v1 )

ライセンス: Link先を確認
Chihiro Watanabe, Taiji Suzuki(参考訳) Biclusteringは与えられた観察されたマトリックスの均質なサブマトリックスを検出する問題であり、リレーショナルデータ分析の効果的なツールであることが示されています。 行列の基盤となる二クラスター構造を推定するための多くの研究があるが、観測された行列の適切な数の二クラスターを決定できるものは少ない。 近年,正規グリッド型バイクラスタ構造において,遅延型バイクラスタ構造を行列クラスタリングで表現できると仮定した,バイクラスタ数に関する統計的テストが提案されている。 しかし、潜在二クラスター構造がそのような正規格子の仮定を満たしていない場合、以前のテストでは、ヌル仮説が受け入れられるにはあまりにも多くの二クラスター(すなわち、より細かい二クラスター構造)が必要である。 本稿では,正規格子の仮定を必要としないビクラスタ数に関する新しい統計テストを提案し,ヌルおよびオルタナティブのいずれにおいても,提案した検定統計量の漸近的挙動を導出する。 提案手法を考案するために, 一貫性のある部分行列局在化アルゴリズム, すなわち, 正しい二クラスター構造を出力する確率を 1 に収束させる。 本手法を合成および実用的な関係データ行列に適用することにより,提案手法の有効性を示す。

Biclustering is a problem to detect homogeneous submatrices in a given observed matrix, and it has been shown to be an effective tool for relational data analysis. Although there have been many studies for estimating the underlying bicluster structure of a matrix, few have enabled us to determine the appropriate number of biclusters in an observed matrix. Recently, a statistical test on the number of biclusters has been proposed for a regular-grid bicluster structure, where we assume that the latent bicluster structure can be represented by row-column clustering. However, when the latent bicluster structure does not satisfy such regular-grid assumption, the previous test requires too many biclusters (i.e., finer bicluster structure) for the null hypothesis to be accepted, which is not desirable in terms of interpreting the accepted bicluster structure. In this paper, we propose a new statistical test on the number of biclusters that does not require the regular-grid assumption, and derive the asymptotic behavior of the proposed test statistic in both null and alternative cases. To develop the proposed test, we construct a consistent submatrix localization algorithm, that is, the probability that it outputs the correct bicluster structure converges to one. We show the effectiveness of the proposed method by applying it to both synthetic and practical relational data matrices.
翻訳日:2021-02-24 14:04:39 公開日:2021-02-23
# 高次元ガウス混合体を分類する:カーネル法が失敗しニューラルネットワークが成功する場所

Classifying high-dimensional Gaussian mixtures: Where kernel methods fail and neural networks succeed ( http://arxiv.org/abs/2102.11742v1 )

ライセンス: Link先を確認
Maria Refinetti, Sebastian Goldt, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 最近の一連の理論研究は、特定の初期化を伴うニューラルネットワークのダイナミクスがカーネル法によってうまく獲得されていることを示した。 並行実験により、カーネルメソッドがいくつかの画像分類タスクでニューラルネットワークの性能に近づくことが証明された。 これらの結果は、ニューラルネットワークがより表現力があるにもかかわらず、カーネルがうまく学習できるかどうかという疑問を提起する。 ここでは,数個の隠れニューロンしか持たない2層ニューラルネットワーク(2LNN)が,単純なガウス混合分類タスクにおいて,カーネル学習の性能を上回ることを理論的に示す。 本研究では, サンプル数が入力次元に線形に比例する高次元限界について検討し, 2LNNの小さい場合, ランダムな特徴やカーネル手法のような遅延学習手法では, ほぼ最適性能が得られないことを示す。 この解析は、2LNNの学習ダイナミクスをトラックする閉集合方程式の導出に基づいており、これにより、信号対雑音比および他のハイパーパラメータの関数としてネットワークの無症状性能を抽出することができる。 最後に、ニューラルネットワークのオーバーパラメータが収束を早めるが、最終的なパフォーマンスは改善しないことを示す。

A recent series of theoretical works showed that the dynamics of neural networks with a certain initialisation are well-captured by kernel methods. Concurrent empirical work demonstrated that kernel methods can come close to the performance of neural networks on some image classification tasks. These results raise the question of whether neural networks only learn successfully if kernels also learn successfully, despite neural networks being more expressive. Here, we show theoretically that two-layer neural networks (2LNN) with only a few hidden neurons can beat the performance of kernel learning on a simple Gaussian mixture classification task. We study the high-dimensional limit where the number of samples is linearly proportional to the input dimension, and show that while small 2LNN achieve near-optimal performance on this task, lazy training approaches such as random features and kernel methods do not. Our analysis is based on the derivation of a closed set of equations that track the learning dynamics of the 2LNN and thus allow to extract the asymptotic performance of the network as a function of signal-to-noise ratio and other hyperparameters. We finally illustrate how over-parametrising the neural network leads to faster convergence, but does not improve its final performance.
翻訳日:2021-02-24 14:04:13 公開日:2021-02-23
# フラッシュ画像からのBRDFテクスチャの生成モデリング

Generative Modelling of BRDF Textures from Flash Images ( http://arxiv.org/abs/2102.11861v1 )

ライセンス: Link先を確認
Philipp Henzler, Valentin Deschaintre, Niloy J. Mitra, Tobias Ritschel(参考訳) 我々は,可読性,セマンティクス編集,一貫性のある補間,視覚的な外観の効率的な再現のための潜在空間を学習する。 フラッシュライト照明下で捕獲された静止天然物の写真が提供されると、ミリ秒単位で潜伏する物質コードに変換される。 2番目のステップでは、材料コードに基づいて、我々の手法はミリ秒で、BRDFモデルパラメータ(拡散アルベド、スペクトルアルベド、粗さ、正規化)の無限かつ多様な空間場を生成し、複雑なシーンや照明のレンダリングを可能にし、入力画像の外観と一致する。 技術的には、畳み込みエンコーダを用いてすべてのフラッシュ画像を潜伏空間に共同で埋め込み、これらの潜伏符号を条件に、ランダムな空間場を畳み込みニューラルネットワーク(CNN)を用いてBRDFパラメータのフィールドに変換する。 これらのBRDFパラメータは、マッチング光の下で入力の視覚特性(視覚的特徴の統計とスペクトル)に一致するように調整します。 ユーザ調査は、潜在素材空間の意味論がユーザの期待に合致していることを確認し、このアプローチを以前の作業と好意的に比較する。

We learn a latent space for easy capture, semantic editing, consistent interpolation, and efficient reproduction of visual material appearance. When users provide a photo of a stationary natural material captured under flash light illumination, it is converted in milliseconds into a latent material code. In a second step, conditioned on the material code, our method, again in milliseconds, produces an infinite and diverse spatial field of BRDF model parameters (diffuse albedo, specular albedo, roughness, normals) that allows rendering in complex scenes and illuminations, matching the appearance of the input picture. Technically, we jointly embed all flash images into a latent space using a convolutional encoder, and -- conditioned on these latent codes -- convert random spatial fields into fields of BRDF parameters using a convolutional neural network (CNN). We condition these BRDF parameters to match the visual characteristics (statistics and spectra of visual features) of the input under matching light. A user study confirms that the semantics of the latent material space agree with user expectations and compares our approach favorably to previous work.
翻訳日:2021-02-24 14:03:52 公開日:2021-02-23
# テンソルトレイン形式を用いた高次元パラボリックPDEの解法

Solving high-dimensional parabolic PDEs using the tensor train format ( http://arxiv.org/abs/2102.11830v1 )

ライセンス: Link先を確認
Lorenz Richter, Leon Sallandt, Nikolas N\"usken(参考訳) 高次元偏微分方程式(PDE)は、経済学、科学、工学において普遍的である。 しかし, 従来の格子法は次元の呪いによってフラストレーションを受ける傾向にあるため, 数値処理は重大な課題となる。 本稿では、テンソル列が放物型pdesに対して魅力的な近似フレームワークを提供していることを論じる。 逆確率微分方程式とテンソル形式における回帰型法の組み合わせは、圧縮と効率的な計算を可能にする潜在低ランク構造を活用することを約束する。 このパラダイムに従って、明示的で高速または暗黙の正確な更新を含む新しい反復スキームを開発します。 提案手法は,最先端のニューラルネットワークを用いた手法と比較して,精度と計算効率のトレードオフを良好に実現していることを示す。

High-dimensional partial differential equations (PDEs) are ubiquitous in economics, science and engineering. However, their numerical treatment poses formidable challenges since traditional grid-based methods tend to be frustrated by the curse of dimensionality. In this paper, we argue that tensor trains provide an appealing approximation framework for parabolic PDEs: the combination of reformulations in terms of backward stochastic differential equations and regression-type methods in the tensor format holds the promise of leveraging latent low-rank structures enabling both compression and efficient computation. Following this paradigm, we develop novel iterative schemes, involving either explicit and fast or implicit and accurate updates. We demonstrate in a number of examples that our methods achieve a favorable trade-off between accuracy and computational efficiency in comparison with state-of-the-art neural network based approaches.
翻訳日:2021-02-24 14:03:18 公開日:2021-02-23
# テキストリッチネットワーク上での学習による最小教師構造リッチテキスト分類

Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks ( http://arxiv.org/abs/2102.11479v1 )

ライセンス: Link先を確認
Xinyang Zhang, Chenwei Zhang, Luna Xin Dong, Jingbo Shang, Jiawei Han(参考訳) テキスト分類は、Webコンテンツ分析において不可欠なタスクです。 本稿では,Webデータと新たなカテゴリの進化を考えると,ドキュメントを効果的に分類することを目的とした最小限の教師付き設定に焦点をあて,各カテゴリに注釈を付けた2つのシード文書を配置する。 私たちは、Webから収集されたテキストはしばしば構造が豊富であることを認識します。 コーパスをテキストリッチネットワークに簡単に整理でき、文書属性、高品質なフレーズ、ノードとしてのラベル表面名、エッジとしての関連付けなど、生のテキスト文書を結合することができる。 このようなネットワークはコーパスの異種データソースの全体像を提供し、ネットワークベースの分析と深いテキストモデルトレーニングのための共同最適化を可能にします。 そこで本研究では,テキストリッチネットワークから学習し,最小限の教師付き分類のための新しいフレームワークを提案する。 具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。 各モジュールは、未ラベルの文書集合から擬似訓練ラベルを生成し、両方のモジュールは、プールされた擬似ラベルを用いて相互に強化する。 2つの実世界のデータセットでモデルをテストします。 683のカテゴリを持つ難易度の高いeコマース製品分類データセットでは,1つのカテゴリに3つのシードドキュメントしか与えられず,その精度は92%程度で,比較したすべての手法を上回っており,約50kのラベル付きドキュメントでトレーニングされた教師付きbertモデルから2%弱の精度しか得られていない。

Text categorization is an essential task in Web content analysis. Considering the ever-evolving Web data and new emerging categories, instead of the laborious supervised setting, in this paper, we focus on the minimally-supervised setting that aims to categorize documents effectively, with a couple of seed documents annotated per category. We recognize that texts collected from the Web are often structure-rich, i.e., accompanied by various metadata. One can easily organize the corpus into a text-rich network, joining raw text documents with document attributes, high-quality phrases, label surface names as nodes, and their associations as edges. Such a network provides a holistic view of the corpus' heterogeneous data sources and enables a joint optimization for network-based analysis and deep textual model training. We therefore propose a novel framework for minimally supervised categorization by learning from the text-rich network. Specifically, we jointly train two modules with different inductive biases -- a text analysis module for text understanding and a network learning module for class-discriminative , scalable network learning. Each module generates pseudo training labels from the unlabeled document set, and both modules mutually enhance each other by co-training using pooled pseudo labels. We test our model on two real-world datasets. On the challenging e-commerce product categorization dataset with 683 categories, our experiments show that given only three seed documents per category, our framework can achieve an accuracy of about 92%, significantly outperforming all compared methods; our accuracy is only less than 2% away from the supervised BERT model trained on about 50K labeled documents.
翻訳日:2021-02-24 14:02:25 公開日:2021-02-23
# 高度文脈化言語表現による認知行動療法セッションの品質自動評価

Automated Quality Assessment of Cognitive Behavioral Therapy Sessions Through Highly Contextualized Language Representations ( http://arxiv.org/abs/2102.11573v1 )

ライセンス: Link先を確認
Nikolaos Flemotomos, Victor R. Martinez, Zhuohao Chen, Torrey A. Creed, David C. Atkins, Shrikanth Narayanan(参考訳) サイコセラピーセッションの間、カウンセラーは通常、特定の次元(例えば「温かさと自信を示す」、または「コラボレーションをセットアップする試み」)に沿ってコード化される技術を採用し、セッションの評価を容易にする。 これらの構造は、伝統的に訓練された人間レーサーによって評価され、心理療法の複雑な性質を反映し、相互作用の文脈に非常に依存します。 近年の深い文脈的言語モデルの進歩は、正確なドメイン内言語表現の手段を提供し、そのような心理療法関連行動構成の堅牢な認識と評価につながることができ、品質保証と監督をサポートします。 本研究では, 認知行動療法 (Cognitive Behavioral Therapy, CBT) と呼ばれる特定のタイプの心理療法の自動行動得点のためのBERTに基づくモデルを提案する。 このモデルは高い解釈可能性を達成するためにマルチタスクで訓練される。 BERTベースの表現は、利用可能な治療メタデータでさらに拡張され、関連する非言語的コンテキストを提供し、一貫したパフォーマンス改善につながります。

During a psychotherapy session, the counselor typically adopts techniques which are codified along specific dimensions (e.g., 'displays warmth and confidence', or 'attempts to set up collaboration') to facilitate the evaluation of the session. Those constructs, traditionally scored by trained human raters, reflect the complex nature of psychotherapy and highly depend on the context of the interaction. Recent advances in deep contextualized language models offer an avenue for accurate in-domain linguistic representations which can lead to robust recognition and scoring of such psychotherapy-releva nt behavioral constructs, and support quality assurance and supervision. In this work, a BERT-based model is proposed for automatic behavioral scoring of a specific type of psychotherapy, called Cognitive Behavioral Therapy (CBT), where prior work is limited to frequency-based language features and/or short text excerpts which do not capture the unique elements involved in a spontaneous long conversational interaction. The model is trained in a multi-task manner in order to achieve higher interpretability. BERT-based representations are further augmented with available therapy metadata, providing relevant non-linguistic context and leading to consistent performance improvements.
翻訳日:2021-02-24 14:01:56 公開日:2021-02-23
# 意味表現への敵対的知識の導入によるモデルロバストネスの強化

Enhancing Model Robustness By Incorporating Adversarial Knowledge Into Semantic Representation ( http://arxiv.org/abs/2102.11584v1 )

ライセンス: Link先を確認
Jinfeng Li, Tianyu Du, Xiangyu Liu, Rong Zhang, Hui Xue, Shouling Ji(参考訳) ディープニューラルネットワーク(DNN)は、自然言語処理(NLP)のような多くの分野で大きな成功を収めていますが、悪意のある敵対的な例に対して脆弱であることも証明されています。 このような固有の脆弱性は、様々な現実世界のDNNsベースのアプリケーションを脅かしている。 モデルロバスト性を高めるために、英語のNLPドメインでいくつかの対策が提案され、良好な性能を得た。 しかし、中国語の独特な言語特性から、既存の防衛を中国領に拡張することは自明ではない。 そこで我々は,入力の意味表現に敵対的知識を組み込むことにより,中国のNLPモデルのロバスト性を高める新しいディフェンスであるAdvGraphを提案する。 Extensive experiments on two real-world tasks show that AdvGraph exhibits better performance compared with previous work: (i) effective - it significantly strengthens the model robustness even under the adaptive attacks setting without negative impact on model performance over legitimate input; (ii) generic - its key component, i.e., the representation of connotative adversarial knowledge is task-agnostic, which can be reused in any Chinese-based NLP models without retraining; and (iii) efficient - it is a light-weight defense with sub-linear computational complexity, which can guarantee the efficiency required in practical scenarios.

Despite that deep neural networks (DNNs) have achieved enormous success in many domains like natural language processing (NLP), they have also been proven to be vulnerable to maliciously generated adversarial examples. Such inherent vulnerability has threatened various real-world deployed DNNs-based applications. To strength the model robustness, several countermeasures have been proposed in the English NLP domain and obtained satisfactory performance. However, due to the unique language properties of Chinese, it is not trivial to extend existing defenses to the Chinese domain. Therefore, we propose AdvGraph, a novel defense which enhances the robustness of Chinese-based NLP models by incorporating adversarial knowledge into the semantic representation of the input. Extensive experiments on two real-world tasks show that AdvGraph exhibits better performance compared with previous work: (i) effective - it significantly strengthens the model robustness even under the adaptive attacks setting without negative impact on model performance over legitimate input; (ii) generic - its key component, i.e., the representation of connotative adversarial knowledge is task-agnostic, which can be reused in any Chinese-based NLP models without retraining; and (iii) efficient - it is a light-weight defense with sub-linear computational complexity, which can guarantee the efficiency required in practical scenarios.
翻訳日:2021-02-24 14:01:35 公開日:2021-02-23
# 確率的目標認識の優先事項としてのエージェントの推論

Inferring Agents Preferences as Priors for Probabilistic Goal Recognition ( http://arxiv.org/abs/2102.11791v1 )

ライセンス: Link先を確認
Kin Max Gusm\~ao, Ramon Fraga Pereira, and Felipe Meneguzzi(参考訳) ゴール認識への最近のアプローチは、実行コストの低い高精度を実現するために計画ランドマークを活用している。 しかし、これらのアプローチは確率論的解釈を欠いている。 さらに、ほとんどの確率的モデルでは、例えばエージェントの選好を表す事前確率に認識者がアクセスできると仮定するが、実際にはゴール認識アプローチは、単に均一な事前を仮定して、実際にその先行を実際に使用することはない。 本稿では,ランドマークに基づく目標認識を確率論的解釈で拡張し,その事前確率の推定と,観察したエージェントの繰り返し相互作用後の後方確率の計算を可能にするモデルを提案する。 本モデルでは,目標を効果的に認識できるだけでなく,エージェントの好みを表す正しい事前確率分布を推定できることを示す。

Recent approaches to goal recognition have leveraged planning landmarks to achieve high-accuracy with low runtime cost. These approaches, however, lack a probabilistic interpretation. Furthermore, while most probabilistic models to goal recognition assume that the recognizer has access to a prior probability representing, for example, an agent's preferences, virtually no goal recognition approach actually uses the prior in practice, simply assuming a uniform prior. In this paper, we provide a model to both extend landmark-based goal recognition with a probabilistic interpretation and allow the estimation of such prior probability and its usage to compute posterior probabilities after repeated interactions of observed agents. We empirically show that our model can not only recognize goals effectively but also successfully infer the correct prior probability distribution representing an agent's preferences.
翻訳日:2021-02-24 14:00:57 公開日:2021-02-23
# マルチモーダルMR解析のための表現障害

Representation Disentanglement for Multi-modal MR Analysis ( http://arxiv.org/abs/2102.11456v1 )

ライセンス: Link先を確認
Jiahong Ouyang, Ehsan Adeli, Kilian M Pohl, Qingyu Zhao, Greg Zaharchuk(参考訳) マルチモーダルMR画像は、脳構造を補完する情報を提供するために、神経イメージングの応用に広く利用されている。 近年の研究では、マルチモーダルディープラーニング分析は、画像から解剖学的(形状)およびモダリティ(外観)表現を明示的に切り離すことから恩恵を受けることができることが示唆されている。 本研究では,既存の戦略に挑戦し,理論上および実際上において,自然に表現の絡み合いを生じないことを示す。 この問題に対処するために,対象とモダリティ間の表現の類似性関係を規則化するマージン損失を提案する。 頑健なトレーニングを実現するため,全てのモダリティの画像を符号化する単一モデルの設計のために,修正条件の畳み込みを導入する。 最後に,下流タスクのモダリティ不変な特徴の集合として,異種解剖学的表現を結合する融合関数を提案する。 提案手法を3つのマルチモーダルニューロイメージングデータセット上で評価する。 実験により,提案手法は既存の解離戦略よりも優れた解離表現を実現できることが示された。 結果は、融合解剖学的表現は、ゼロ線量PET再建および脳腫瘍分割の下流タスクに大きな可能性を有することを示唆している。

Multi-modal MR images are widely used in neuroimaging applications to provide complementary information about the brain structures. Recent works have suggested that multi-modal deep learning analysis can benefit from explicitly disentangling anatomical (shape) and modality (appearance) representations from the images. In this work, we challenge existing strategies by showing that they do not naturally lead to representation disentanglement both in theory and in practice. To address this issue, we propose a margin loss that regularizes the similarity relationships of the representations across subjects and modalities. To enable a robust training, we further introduce a modified conditional convolution to design a single model for encoding images of all modalities. Lastly, we propose a fusion function to combine the disentangled anatomical representations as a set of modality-invariant features for downstream tasks. We evaluate the proposed method on three multi-modal neuroimaging datasets. Experiments show that our proposed method can achieve superior disentangled representations compared to existing disentanglement strategies. Results also indicate that the fused anatomical representation has great potential in the downstream task of zero-dose PET reconstruction and brain tumor segmentation.
翻訳日:2021-02-24 14:00:30 公開日:2021-02-23
# FaceController: 野生の顔のコントロール可能な属性編集

FaceController: Controllable Attribute Editing for Face in the Wild ( http://arxiv.org/abs/2102.11464v1 )

ライセンス: Link先を確認
Zhiliang Xu, Xiyu Yu, Zhibin Hong, Zhen Zhu, Junyu Han, Jingtuo Liu, Errui Ding, Xiang Bai(参考訳) 顔属性編集は、1つまたは複数の望ましい顔属性が操作され、他の詳細が保存される顔を生成することを目的としている。 高価なリバースマッピングプロセスを持つGAN反転のような以前の作品とは異なり、高忠実度操作された顔を生成するための単純なフィードフォワードネットワークを提案します。 本手法では,既存かつ容易に把握可能な事前情報を利用することで,野生の多様な顔属性の制御,転送,編集を行うことができる。 提案手法は, 顔の交換, 顔の照明, メークアップの転送など, 様々な用途に適用できる。 本手法では,3Dプリミティブを用いてアイデンティティ,表現,ポーズ,イルミネーションを分離し,地域別スタイルコードを用いてテクスチャとカラーを分離する。 すべての情報は、アイデンティティスタイルの正規化モジュールによって逆学習に埋め込まれます。 各属性から独立して情報を抽出するジェネレータを強化するために, 絡み合い損失を提案する。 総合的定量的および定性評価が行われている。 一つのフレームワークにおいて,本手法は様々な顔アプリケーションにおいて最適な,あるいは競争的なスコアを得る。

Face attribute editing aims to generate faces with one or multiple desired face attributes manipulated while other details are preserved. Unlike prior works such as GAN inversion, which has an expensive reverse mapping process, we propose a simple feed-forward network to generate high-fidelity manipulated faces. By simply employing some existing and easy-obtainable prior information, our method can control, transfer, and edit diverse attributes of faces in the wild. The proposed method can consequently be applied to various applications such as face swapping, face relighting, and makeup transfer. In our method, we decouple identity, expression, pose, and illumination using 3D priors; separate texture and colors by using region-wise style codes. All the information is embedded into adversarial learning by our identity-style normalization module. Disentanglement losses are proposed to enhance the generator to extract information independently from each attribute. Comprehensive quantitative and qualitative evaluations have been conducted. In a single framework, our method achieves the best or competitive scores on a variety of face applications.
翻訳日:2021-02-24 14:00:12 公開日:2021-02-23
# アクティブクロスドメイン自己ローカリゼーションのためのドメイン不変NBVプランナー

Domain-invariant NBV Planner for Active Cross-domain Self-localization ( http://arxiv.org/abs/2102.11530v1 )

ライセンス: Link先を確認
Kanji Tanaka(参考訳) ポールのようなランドマークは、ドメイン(季節、時間帯、天気など)をまたいだ視覚ロボットの自己局在化のためのドメイン不変視覚キューとして注目されている。 しかし、ポールのようなランドマークを用いた自己局所化は、多くの視点がポールのようなランドマークビューを提供しないため、パッシブオブザーバには不適切である。 この問題を緩和するために、アクティブオブザーバを検討し、データ収集と再トレーニングの高価なタスクを必要とせずに、異なるドメイン(すなわちメンテナンスフリー)で一貫したパフォーマンスを実現する新しい「ドメイン不変」next-invariant next-best-view(nbv)プランナーを探求する。 提案手法では,新しいマルチエンコーダ深部畳み込みニューラルネットワークを用いて,モデルのない深部強化学習に基づくドメイン不変NBVプランナの唯一の入力として,ドメイン不変極状ランドマークを検出する。 さらに,スパース不変のランドマークと濃密な識別的ランドマークを用いたアクティブな自己ローカライゼーションシステムを開発した。 実験では,効率的なランドマーク検出と識別的自己局所化の両方において提案手法が有効であることを示す。

Pole-like landmark has received increasing attention as a domain-invariant visual cue for visual robot self-localization across domains (e.g., seasons, times of day, weathers). However, self-localization using pole-like landmarks can be ill-posed for a passive observer, as many viewpoints may not provide any pole-like landmark view. To alleviate this problem, we consider an active observer and explore a novel "domain-invariant&quo t; next-best-view (NBV) planner that attains consistent performance over different domains (i.e., maintenance-free), without requiring the expensive task of training data collection and retraining. In our approach, a novel multi-encoder deep convolutional neural network enables to detect domain invariant pole-like landmarks, which are then used as the sole input to a model-free deep reinforcement learning -based domain-invariant NBV planner. Further, we develop a practical system for active self-localization using sparse invariant landmarks and dense discriminative landmarks. In experiments, we demonstrate that the proposed method is effective both in efficient landmark detection and in discriminative self-localization.
翻訳日:2021-02-24 13:59:57 公開日:2021-02-23
# 画像空間を超えた逆例検出

Adversarial Examples Detection beyond Image Space ( http://arxiv.org/abs/2102.11586v1 )

ライセンス: Link先を確認
Kejiang Chen, Yuefeng Chen, Hang Zhou, Chuan Qin, Xiaofeng Mao, Weiming Zhang, Nenghai Yu(参考訳) 深層ニューラルネットワークは、人間の知覚できない摂動を画像に加えることで生じる敵の例に弱いことが証明されている。 これらの敵の例を守るため,様々な検出手法が提案されている。 しかし、それらのほとんどは、非常にわずかな摂動を伴う逆転例の検出に不十分である。 これらの逆の例を調べることで、摂動と予測信頼の間にはコンプライアンスが存在することが分かり、予測信頼の面から少数の摂動攻撃を検出するための指針となる。 低周波攻撃と大周波攻撃の両方を検出するために,画像ストリームが画素アーティファクトに焦点を合わせ,グラデーションストリームが信頼性アーティファクトに対応する2ストリームアーキテクチャにより,画像空間を超えた手法を提案する。 実験の結果,提案手法は既存手法よりも優れており,全能攻撃の防御にも有効であることがわかった。

Deep neural networks have been proved that they are vulnerable to adversarial examples, which are generated by adding human-imperceptible perturbations to images. To defend these adversarial examples, various detection based methods have been proposed. However, most of them perform poorly on detecting adversarial examples with extremely slight perturbations. By exploring these adversarial examples, we find that there exists compliance between perturbations and prediction confidence, which guides us to detect few-perturbation attacks from the aspect of prediction confidence. To detect both few-perturbation attacks and large-perturbation attacks, we propose a method beyond image space by a two-stream architecture, in which the image stream focuses on the pixel artifacts and the gradient stream copes with the confidence artifacts. The experimental results show that the proposed method outperforms the existing methods under oblivious attacks and is verified effective to defend omniscient attacks as well.
翻訳日:2021-02-24 13:59:32 公開日:2021-02-23
# 旅客安全向上のためのRGB-D鉄道プラットフォームモニタリングとシーン理解

RGB-D Railway Platform Monitoring and Scene Understanding for Enhanced Passenger Safety ( http://arxiv.org/abs/2102.11730v1 )

ライセンス: Link先を確認
Marco Wallner, Daniel Steininger, Verena Widhalm, Matthias Sch\"orghuber, Csaba Beleznai(参考訳) 交通インフラの安全クリティカルな部分における乗客移動の自動監視と分析は、関連する視覚的監視タスクである。 視覚表現学習と空間センシングの最近の進歩は、3次元空間コンテキスト内で人間や物体を検出し追跡する新たな可能性を開いた。 本稿では,ステレオ深度と歩行者検出により自動的に校正される地上平面上の人間を検知し追跡する,様々な処理パイプラインの柔軟な解析手法と徹底的な評価を提案する。 我々は,RGB/Depth-based detection と Tracking modalities のセット内で複数の組み合わせを検討する。 We exploit the modular concept of Meshroom [2] and demonstrate its use as a generic vision processing pipeline and scalable evaluation framework。 さらに,自動rgb-d監視における研究活動を支援するアノテーション付きオープンrgb-d鉄道プラットフォームデータセットを提案する。 本稿では,データセット上の各種アルゴリズムの組み合わせに対する複数の対象検出と追跡について定量的な結果を示す。 その結果,奥行きに基づく空間情報と学習表現の組み合わせにより,検出精度と追跡精度が大幅に向上した。 示されるように、これらの強化は特に、学習された表現で捉えられない咬合や物体が存在する状況において顕著に発音される。

Automated monitoring and analysis of passenger movement in safety-critical parts of transport infrastructures represent a relevant visual surveillance task. Recent breakthroughs in visual representation learning and spatial sensing opened up new possibilities for detecting and tracking humans and objects within a 3D spatial context. This paper proposes a flexible analysis scheme and a thorough evaluation of various processing pipelines to detect and track humans on a ground plane, calibrated automatically via stereo depth and pedestrian detection. We consider multiple combinations within a set of RGB- and depth-based detection and tracking modalities. We exploit the modular concepts of Meshroom [2] and demonstrate its use as a generic vision processing pipeline and scalable evaluation framework. Furthermore, we introduce a novel open RGB-D railway platform dataset with annotations to support research activities in automated RGB-D surveillance. We present quantitative results for multiple object detection and tracking for various algorithmic combinations on our dataset. Results indicate that the combined use of depth-based spatial information and learned representations yields substantially enhanced detection and tracking accuracies. As demonstrated, these enhancements are especially pronounced in adverse situations when occlusions and objects not captured by learned representations are present.
翻訳日:2021-02-24 13:59:18 公開日:2021-02-23
# 分類モデルにおける自然逆例の再考

Rethinking Natural Adversarial Examples for Classification Models ( http://arxiv.org/abs/2102.11731v1 )

ライセンス: Link先を確認
Xiao Li, Jianmin Li, Ting Dai, Jie Shi, Jun Zhu, Xiaolin Hu(参考訳) 近年,意図的な修正を伴わない実世界の例の多くは機械学習モデルを騙しうることが判明し,このような例を「自然対逆例」と呼ぶ。 ImageNet-Aは、自然対比例の有名なデータセットです。 このデータセットを解析することにより、大きな、散らばった、あるいは異常な背景が、このデータセットのイメージの分類が難しい重要な理由である、という仮説を立てた。 オブジェクト検出技術を用いたImageNet-A例の背景影響を低減して仮説を検証した。 実験により,様々な分類モデルを用いた物体検出モデルは,その分類モデルよりも精度が高かった。 分類モデル efficientnet-b7に基づく検出モデルは、imagenetでトレーニングされた以前の最先端の分類モデルを上回る53.95%のtop-1精度を達成した。 次に、ImageNet-Aからイメージ内のオブジェクトを手動でトリミングし、ImageNet-A-Plusという新しいデータセットを作成しました。 新しいデータセットの人間のテストでは、深層学習に基づく分類器は依然として人間と比較してかなり貧弱であったことが示された。 したがって、新しいデータセットは、背景外乱を考慮せずに、オブジェクトの内部分散に対する分類モデルのロバスト性を調べるために使用できる。

Recently, it was found that many real-world examples without intentional modifications can fool machine learning models, and such examples are called "natural adversarial examples". ImageNet-A is a famous dataset of natural adversarial examples. By analyzing this dataset, we hypothesized that large, cluttered and/or unusual background is an important reason why the images in this dataset are difficult to be classified. We validated the hypothesis by reducing the background influence in ImageNet-A examples with object detection techniques. Experiments showed that the object detection models with various classification models as backbones obtained much higher accuracy than their corresponding classification models. A detection model based on the classification model EfficientNet-B7 achieved a top-1 accuracy of 53.95%, surpassing previous state-of-the-art classification models trained on ImageNet, suggesting that accurate localization information can significantly boost the performance of classification models on ImageNet-A. We then manually cropped the objects in images from ImageNet-A and created a new dataset, named ImageNet-A-Plus. A human test on the new dataset showed that the deep learning-based classifiers still performed quite poorly compared with humans. Therefore, the new dataset can be used to study the robustness of classification models to the internal variance of objects without considering the background disturbance.
翻訳日:2021-02-24 13:59:01 公開日:2021-02-23
# 動的神経衣料品

Dynamic Neural Garments ( http://arxiv.org/abs/2102.11811v1 )

ライセンス: Link先を確認
Meng Zhang, Duygu Ceylan, Tuanfeng Wang, Niloy J. Mitra(参考訳) より広いデジタル人間の努力の重要なタスクは、デジタルアバター上の現実的な衣服の作成であり、アバターの動き下での衣服のダイナミクスの豊かさと同様に、静的フレームの特徴的な折り畳みパターンとしわの形態の両方である。 既存のモデリング、シミュレーション、レンダリングのワークフローは、実際の衣服の背後にある物理を忠実に再現するが、面倒であり、キャラクターの動き、カメラアングル、衣服のリサイズの変更の下で、ほとんどのワークフローを繰り返す必要がある。 データ駆動のソリューションは存在するが、静的なシナリオにフォーカスするか、タイトな衣服のダイナミクスのみを扱う。 テスト時に、身体の関節運動を利用して、リアルな動的衣服画像シーケンスを直接生成するソリューションを提示します。 具体的には, アバターの標的関節運動シーケンスを考慮し, 目立たない視点から, 実用的な動的衣服の外観を協調的にシミュレートし, レンダリングするダイナミックニューラルウェアを提案する。 技術的には、私たちのソリューションは粗い衣服のプロキシシーケンスを生成し、このテンプレートに添付された深い動的特徴を学び、神経的に特徴をレンダリングして、折り目、しわ、シルエットなどの外観変化を生成します。 我々は、見えない動きと見えないカメラビューの両方に一般化挙動を示す。 さらに、ネットワークを微調整して、新しい体型や背景画像を採用することもできる。 また,既存のニューラルレンダリング法と画像シーケンス変換法との比較を行い,定量的な改善を報告した。

A vital task of the wider digital human effort is the creation of realistic garments on digital avatars, both in the form of characteristic fold patterns and wrinkles in static frames as well as richness of garment dynamics under avatars' motion. Existing workflow of modeling, simulation, and rendering closely replicates the physics behind real garments, but is tedious and requires repeating most of the workflow under changes to characters' motion, camera angle, or garment resizing. Although data-driven solutions exist, they either focus on static scenarios or only handle dynamics of tight garments. We present a solution that, at test time, takes in body joint motion to directly produce realistic dynamic garment image sequences. Specifically, given the target joint motion sequence of an avatar, we propose dynamic neural garments to jointly simulate and render plausible dynamic garment appearance from an unseen viewpoint. Technically, our solution generates a coarse garment proxy sequence, learns deep dynamic features attached to this template, and neurally renders the features to produce appearance changes such as folds, wrinkles, and silhouettes. We demonstrate generalization behavior to both unseen motion and unseen camera views. Further, our network can be fine-tuned to adopt to new body shape and/or background images. We also provide comparisons against existing neural rendering and image sequence translation approaches, and report clear quantitative improvements.
翻訳日:2021-02-24 13:58:34 公開日:2021-02-23
# 非拘束歴史文書のページレイアウト解析システム

Page Layout Analysis System for Unconstrained Historic Documents ( http://arxiv.org/abs/2102.11838v1 )

ライセンス: Link先を確認
Old\v{r}ich Kodym, Michal Hradi\v{s}(参考訳) 自動転写には歴史文書からテキスト領域と個々のテキスト行を抽出する必要がある。 モデル出力に線高とテキストブロック境界予測を追加することで,CNNベースのテキストベースライン検出システムの拡張を提案し,より包括的なレイアウト情報を抽出する。 また,複数のテキスト指向性を持つ文書の処理には,画素単位のテキスト指向予測が利用できることを示した。 提案手法は, cBAD ベースライン検出データセット上で有効であることを示す。 また、新たに導入したPEROレイアウトデータセットのベンチマークも公開しています。

Extraction of text regions and individual text lines from historic documents is necessary for automatic transcription. We propose extending a CNN-based text baseline detection system by adding line height and text block boundary predictions to the model output, allowing the system to extract more comprehensive layout information. We also show that pixel-wise text orientation prediction can be used for processing documents with multiple text orientations. We demonstrate that the proposed method performs well on the cBAD baseline detection dataset. Additionally, we benchmark the method on newly introduced PERO layout dataset which we also make public.
翻訳日:2021-02-24 13:58:07 公開日:2021-02-23
# STEP:全Pixelのセグメンテーションと追跡

STEP: Segmenting and Tracking Every Pixel ( http://arxiv.org/abs/2102.11859v1 )

ライセンス: Link先を確認
Mark Weber, Jun Xie, Maxwell Collins, Yukun Zhu, Paul Voigtlaender, Hartwig Adam, Bradley Green, Andreas Geiger, Bastian Leibe, Daniel Cremers, Aljosa Osep, Laura Leal-Taixe, Liang-Chieh Chen(参考訳) 本稿では,ビデオ中のすべての画素に意味クラスを割り当て,識別性を追跡するタスクであるvideo panoptic segmentationについて述べる。 センサデータの連続的な解釈を必要とする設定において、この重要な問題を研究するために、新しい評価指標として、KITTI-STEPとMOTChallenge-STEPの2つのデータセットを含むSegmenting and Tracking Every Pixel (STEP)を提案する。 私たちの仕事は、空間領域と時間領域の両方で密な解釈を必要とする現実世界の設定で、このタスクをターゲットとする最初のものです。 このタスクの根拠は困難で高価であるため、既存のデータセットは合成的に構築されるか、短いビデオクリップ内でわずかなアノテートされるだけです。 対照的に、私たちのデータセットには長いビデオシーケンスがあり、チャレンジングな例と、長期のピクセル精度のセグメンテーションとトラッキングのためのテストベッドを提供します。 性能測定のために, このタスクのセマンティックとトラッキングの側面を公平にバランスさせ, 任意の長さのシーケンスを評価するのに適した, 新たな評価指標 Segmentation and Tracking Quality (STQ) を提案する。 データセット、メトリクス、ベースラインを一般公開します。

In this paper, we tackle video panoptic segmentation, a task that requires assigning semantic classes and track identities to all pixels in a video. To study this important problem in a setting that requires a continuous interpretation of sensory data, we present a new benchmark: Segmenting and Tracking Every Pixel (STEP), encompassing two datasets, KITTI-STEP, and MOTChallenge-STEP together with a new evaluation metric. Our work is the first that targets this task in a real-world setting that requires dense interpretation in both spatial and temporal domains. As the ground-truth for this task is difficult and expensive to obtain, existing datasets are either constructed synthetically or only sparsely annotated within short video clips. By contrast, our datasets contain long video sequences, providing challenging examples and a test-bed for studying long-term pixel-precise segmentation and tracking. For measuring the performance, we propose a novel evaluation metric Segmentation and Tracking Quality (STQ) that fairly balances semantic and tracking aspects of this task and is suitable for evaluating sequences of arbitrary length. We will make our datasets, metric, and baselines publicly available.
翻訳日:2021-02-24 13:57:59 公開日:2021-02-23
# UnsupervisedR&R:差分レンダリングによる無監視ポイントクラウド登録

UnsupervisedR&R: Unsupervised Point Cloud Registration via Differentiable Rendering ( http://arxiv.org/abs/2102.11870v1 )

ライセンス: Link先を確認
Mohamed El Banani, Luya Gao, Justin Johnson(参考訳) シーンの部分的なビューを1つの全体へアライメントすることは、環境を理解するために不可欠であり、SLAMやSfMのような多数のロボティクスタスクの重要なコンポーネントである。 近年のアプローチでは、ポーズ監視を活用して従来の手法より優れているエンドツーエンドシステムを提案する。 しかし、深度センサーを備えたカメラの普及により、監視に必要なアノテーションなしで、生のRGB-Dデータの新たなストリームが期待できます。 生RGB-Dビデオからポイントクラウド登録を学習するためのエンドツーエンドの非監視アプローチであるUnsupervisedR&Rを提案します。 重要なアイデアは、微分可能なアライメントとレンダリングを利用して、フレーム間のフォトメトリックと幾何学的一貫性を強制することだ。 屋内シーンデータセットに対するアプローチを評価し,従来の従来のアプローチを古典的・学習的ディスクリプタで上回りながら,幾何学的ポイントクラウド登録アプローチと競合していることを見出した。

Aligning partial views of a scene into a single whole is essential to understanding one's environment and is a key component of numerous robotics tasks such as SLAM and SfM. Recent approaches have proposed end-to-end systems that can outperform traditional methods by leveraging pose supervision. However, with the rising prevalence of cameras with depth sensors, we can expect a new stream of raw RGB-D data without the annotations needed for supervision. We propose UnsupervisedR&R: an end-to-end unsupervised approach to learning point cloud registration from raw RGB-D video. The key idea is to leverage differentiable alignment and rendering to enforce photometric and geometric consistency between frames. We evaluate our approach on indoor scene datasets and find that we outperform existing traditional approaches with classic and learned descriptors while being competitive with supervised geometric point cloud registration approaches.
翻訳日:2021-02-24 13:57:35 公開日:2021-02-23
# 分子特性予測に自信を割り当てる

Assigning Confidence to Molecular Property Prediction ( http://arxiv.org/abs/2102.11439v1 )

ライセンス: Link先を確認
AkshatKumar Nigam, Robert Pollice, Matthew F. D. Hurley, Riley J. Hickman, Matteo Aldeghi, Naruki Yoshikawa, Seyone Chithrananda, Vincent A. Voelz, Al\'an Aspuru-Guzik(参考訳) 導入: 計算モデリングは、特に化学、材料科学、薬物設計の分子特性を予測するために、過去数十年間で急速に進歩しています。 近年、機械学習技術は、既存のデータセットから学習し、目に見えない分子の予測を行うための強力で費用効率のよい戦略として出現している。 したがって、データ駆動技術が爆発的に増加し、重要な疑問が持ち上がる: 分子特性予測にどんな信頼が割り当てられるか、その目的にどんな技術が使えるのか? 本研究では, 薬物設計に関連する分子特性を予測するための一般的な戦略, 対応する不確実性源, 不確実性と信頼性を定量化する手法について論じる。 まず、信頼度を評価するための考察は、データセットのバイアスとサイズ、データ駆動プロパティ予測、特徴設計から始まります。 次に,分子ドッキングによる特性シミュレーションと結合親和性の自由エネルギーシミュレーションについて詳しく述べる。 最後に,これらの不確かさが生成モデルにどのように伝播するかについて検討する。 専門家の意見: 巨大な化学空間を探索するときの残酷な力の実験の禁止的な費用そしてタイミングを減らすために計算技術は最も重要です。 高スループットの仮想スクリーニングに頼ったクローズドループ医薬品設計キャンペーンが展開されるたびに、プロパティ予測モデルにおける不確実性を評価することが不可欠です。 したがって、不確実性の源を考慮すると、より詳細な実験的検証、より信頼性の高い予測、およびワークフロー全体のより現実的な期待につながります。 全体として、これは予測および設計の信頼を高め、最終的に薬剤の設計を加速します。

Introduction: Computational modeling has rapidly advanced over the last decades, especially to predict molecular properties for chemistry, material science and drug design. Recently, machine learning techniques have emerged as a powerful and cost-effective strategy to learn from existing datasets and perform predictions on unseen molecules. Accordingly, the explosive rise of data-driven techniques raises an important question: What confidence can be assigned to molecular property predictions and what techniques can be used for that purpose? Areas covered: In this work, we discuss popular strategies for predicting molecular properties relevant to drug design, their corresponding uncertainty sources and methods to quantify uncertainty and confidence. First, our considerations for assessing confidence begin with dataset bias and size, data-driven property prediction and feature design. Next, we discuss property simulation via molecular docking, and free-energy simulations of binding affinity in detail. Lastly, we investigate how these uncertainties propagate to generative models, as they are usually coupled with property predictors. Expert opinion: Computational techniques are paramount to reduce the prohibitive cost and timing of brute-force experimentation when exploring the enormous chemical space. We believe that assessing uncertainty in property prediction models is essential whenever closed-loop drug design campaigns relying on high-throughput virtual screening are deployed. Accordingly, considering sources of uncertainty leads to better-informed experimental validations, more reliable predictions and to more realistic expectations of the entire workflow. Overall, this increases confidence in the predictions and designs and, ultimately, accelerates drug design.
翻訳日:2021-02-24 13:56:19 公開日:2021-02-23
# 全員のためのデータエンジニアリング

Data Engineering for Everyone ( http://arxiv.org/abs/2102.11447v1 )

ライセンス: Link先を確認
Vijay Janapa Reddi, Greg Diamos, Pete Warden, Peter Mattson, David Kanter(参考訳) データエンジニアリングは、機械学習(ML)の中で急速に成長している分野の一つです。 MLがより一般的になるにつれて、データの食欲はより高くなる。 しかし、MLは、データエンジニアの個々のチームが簡単に作成できるよりも多くのデータを必要とします。 オープンソースソフトウェアがインフラストラクチャコードのクローズドな社内開発モデルに置き換えられたソフトウェアエンジニアリング革命のように、大規模機械学習データセットへの迅速な開発とオープンな貢献を可能にする必要性が高まっている。 この記事では、大規模なAI組織でも、オープンソースのデータセットが研究とイノベーションのためのロケット燃料であることを示す。 過去5年間にFacebook、Google、Microsoftから2000近い研究論文を分析したところ、オープンデータセットの普及と普及が示されています。 誰もが容易にアクセスできるオープンデータセットは、MLのイノベーションを加速するために不可欠だ。 しかし、そのようなオープンな資源は野生では乏しい。 では、データセットの自動生成ツールでデータセット作成を加速できたらどうでしょう?

Data engineering is one of the fastest-growing fields within machine learning (ML). As ML becomes more common, the appetite for data grows more ravenous. But ML requires more data than individual teams of data engineers can readily produce, which presents a severe challenge to ML deployment at scale. Much like the software-engineering revolution, where mass adoption of open-source software replaced the closed, in-house development model for infrastructure code, there is a growing need to enable rapid development and open contribution to massive machine learning data sets. This article shows that open-source data sets are the rocket fuel for research and innovation at even some of the largest AI organizations. Our analysis of nearly 2000 research publications from Facebook, Google and Microsoft over the past five years shows the widespread use and adoption of open data sets. Open data sets that are easily accessible to the public are vital to accelerating ML innovation for everyone. But such open resources are scarce in the wild. So, what if we are able to accelerate data-set creation via automatic data set generation tools?
翻訳日:2021-02-24 13:55:54 公開日:2021-02-23
# 時系列の早期分類はいつ意味しますか?

When is Early Classification of Time Series Meaningful? ( http://arxiv.org/abs/2102.11487v1 )

ライセンス: Link先を確認
Renjie Wu, Audrey Der, Eamonn J. Keogh(参考訳) 20年前に導入されて以来、時系列の早期分類の問題への関心が高まっています。 この問題は、古典的な時系列分類を一般化し、ターゲットパターンのプレフィックスのみを見て、十分な精度と信頼性で時系列サブシーケンスを分類できるかどうかを尋ねる。 より初期の分類は、いくつかの実践的な介入が可能なドメインにおいて、直ちに行動を起こすことができる、という考え方です。 例えば、その介入はアラームを鳴らしたり、自動車のブレーキをかけたりします。 この仕事では、私たちは驚くべき主張をします。 時系列の初期の分類に関する数十の論文があるという事実にもかかわらず、それらのいずれかが現実世界の環境で機能することは明らかではありません。 問題はアルゴリズムそのものではなく、曖昧で不特定な問題記述にある。 本質的にすべてのアルゴリズムは、たとえ結果がほぼ完全な結果が得られると示唆しても、偽陽性と偽陰性に悩まされることを確実にする問題に関して暗黙的かつ不当な仮定をする。 新たな洞察と実験でその結果を説明し、コミュニティに推奨します。

Since its introduction two decades ago, there has been increasing interest in the problem of early classification of time series. This problem generalizes classic time series classification to ask if we can classify a time series subsequence with sufficient accuracy and confidence after seeing only some prefix of a target pattern. The idea is that the earlier classification would allow us to take immediate action, in a domain in which some practical interventions are possible. For example, that intervention might be sounding an alarm or applying the brakes in an automobile. In this work, we make a surprising claim. In spite of the fact that there are dozens of papers on early classification of time series, it is not clear that any of them could ever work in a real-world setting. The problem is not with the algorithms per se but with the vague and underspecified problem description. Essentially all algorithms make implicit and unwarranted assumptions about the problem that will ensure that they will be plagued by false positives and false negatives even if their results suggested that they could obtain near-perfect results. We will explain our findings with novel insights and experiments and offer recommendations to the community.
翻訳日:2021-02-24 13:55:40 公開日:2021-02-23
# eコマースにおける制御可能で多様なテキスト生成

Controllable and Diverse Text Generation in E-commerce ( http://arxiv.org/abs/2102.11497v1 )

ライセンス: Link先を確認
Huajie Shao, Jun Wang, Haohong Lin, Xuezhou Zhang, Aston Zhang, Heng Ji, Tarek Abdelzaher(参考訳) eコマースにおいて、テキスト生成の重要な課題は、単語の多様性と正確さ(関連)の間の良いトレードオフを見つけ、生成したテキストをより自然で人間らしく見せることである。 結果の関連性を向上させるために,入力キーワードや属性を用いて対応するテキストを生成する条件付きテキスト生成装置を開発した。 しかし、以前の作業は、自動生成された文の多様性を細かく制御しません。 たとえば、より関連性の高いキーワードを優先するキーワードの順序を制御しません。 さらに、多様性と正確さのバランスを明示的に制御しない。 そこで本研究では,自動制御(すなわち, \textit{proportional, integral, and derivative (PID) controller} の変種)から借りたアルゴリズムを用いて,生成テキストの多様性と精度のトレードオフを高精度に操作する,きめ細かい制御可能な生成モデル~\textit{Apex}を提案する。 このアルゴリズムは条件付き可変オートエンコーダ(CVAE)に注入され、 \textit{Apex} は (i) 生成された文中のキーワードの順序 (入力キーワードとその順序で条件付き) と (ii) 多様性と精度のトレードオフの両方を制御することができる。 実世界データセットの評価結果から,提案手法は多様性と関連性の観点から既存の生成モデルよりも優れていることが示された。 apexは現在、中国最大のeコマースプラットフォームであるalibabaが所有するtaobaoで生産説明とアイテム推奨理由を生成するためにデプロイされている。 A/B 生産試験の結果,既存の生産記述法と比較してクリックスルー率 (CTR) は 13.17 % 向上した。 アイテムレコメンデーションの理由から、ユーザレビューとトップKアイテムレコメンデーションのそれぞれに対して、CTRを6.89倍と1.42倍に増やすことができる。

In E-commerce, a key challenge in text generation is to find a good trade-off between word diversity and accuracy (relevance) in order to make generated text appear more natural and human-like. In order to improve the relevance of generated results, conditional text generators were developed that use input keywords or attributes to produce the corresponding text. Prior work, however, do not finely control the diversity of automatically generated sentences. For example, it does not control the order of keywords to put more relevant ones first. Moreover, it does not explicitly control the balance between diversity and accuracy. To remedy these problems, we propose a fine-grained controllable generative model, called~\textit{Apex}, that uses an algorithm borrowed from automatic control (namely, a variant of the \textit{proportional, integral, and derivative (PID) controller}) to precisely manipulate the diversity/accuracy trade-off of generated text. The algorithm is injected into a Conditional Variational Autoencoder (CVAE), allowing \textit{Apex} to control both (i) the order of keywords in the generated sentences (conditioned on the input keywords and their order), and (ii) the trade-off between diversity and accuracy. Evaluation results on real-world datasets show that the proposed method outperforms existing generative models in terms of diversity and relevance. Apex is currently deployed to generate production descriptions and item recommendation reasons in Taobao owned by Alibaba, the largest E-commerce platform in China. The A/B production test results show that our method improves click-through rate (CTR) by 13.17\% compared to the existing method for production descriptions. For item recommendation reason, it is able to increase CTR by 6.89\% and 1.42\% compared to user reviews and top-K item recommendation without reviews, respectively.
翻訳日:2021-02-24 13:55:25 公開日:2021-02-23
# 簡単な学習ベンチマークから学んだこと:メタラーニング手法の評価を再考する

Lessons from Chasing Few-Shot Learning Benchmarks: Rethinking the Evaluation of Meta-Learning Methods ( http://arxiv.org/abs/2102.11503v1 )

ライセンス: Link先を確認
Amrith Setlur, Oscar Li, Virginia Smith(参考訳) 本稿ではメタラーニングのためのシンプルなベースラインを紹介する。 提案手法であるFIX-MLは,タスク間のサポートセットを固定してタスクの多様性を低減し,メタラーニング手法の性能を向上する。 しかし,この反直感的現象の理由を探る際に,メタラーニング評価の実践について,一連の疑問と懸念を提起する。 メタラーニングの2つの可能性を探る: (i) トレーニングセットを生成する同じタスク分布に一般化する手法(in-distriion) または (ii) 新たな未確認タスク分布(out-of-distriion)に一般化する手法を開発する。 注意深い分析を通じて,この2つの目標それぞれについて,(1)与えられたメタラーニング法に対してモデル選択とハイパーパラメータチューニングを行うこと,(2)異なるメタラーニング法の性能を比較すること,の2つの落とし穴があることを示す。 以上の結果から,この分野の進歩を判断するためには,メタラーニングの目標を明確に説明し,より適切な評価戦略を開発する必要があることを強調する。

In this work we introduce a simple baseline for meta-learning. Our unconventional method, FIX-ML, reduces task diversity by keeping support sets fixed across tasks, and consistently improves the performance of meta-learning methods on popular few-shot learning benchmarks. However, in exploring the reason for this counter-intuitive phenomenon, we unearth a series of questions and concerns about meta-learning evaluation practices. We explore two possible goals of meta-learning: to develop methods that generalize (i) to the same task distribution that generates the training set (in-distribution), or (ii) to new, unseen task distributions (out-of-distribution ). Through careful analyses, we show that for each of these two goals, current few-shot learning benchmarks have potential pitfalls in 1) performing model selection and hyperparameter tuning for a given meta-learning method and 2) comparing the performance of different meta-learning methods. Our results highlight that in order to reason about progress in this space, it is necessary to provide a clearer description of the goals of meta-learning, and to develop more appropriate corresponding evaluation strategies.
翻訳日:2021-02-24 13:54:51 公開日:2021-02-23
# 逆問題に対する等変ニューラルネットワーク

Equivariant neural networks for inverse problems ( http://arxiv.org/abs/2102.11504v1 )

ライセンス: Link先を確認
Elena Celledoni, Matthias J. Ehrhardt, Christian Etmann, Brynjulf Owren, Carola-Bibiane Sch\"onlieb and Ferdia Sherry(参考訳) 近年、ニューラルネットワークにおける誘導バイアス(翻訳等価性)を符号化する畳み込み層の使用は非常に実りあるアイデアであることが証明されている。 このアプローチの成功は、グループ同変畳み込みニューラルネットワークの形で、他の対称性を深層学習手法に組み込むための一連の研究を動機付けている。 この研究の多くは $\mathbf R^d$ のロト変換対称性に焦点を当てているが、他の例は $\mathbf R^d$ のスケーリング対称性と球面の回転対称性である。 本研究では, 群同変畳み込み演算を, 変分正規化アプローチに動機付けられた逆問題に対して, 自然に学習再構成法に組み込むことができることを示す。 実際、正規化函数が群対称性の下で不変であれば、対応する近位作用素は同じ群対称性に関して同値性を満たす。 この観察の結果,近位作用素を群同変畳み込みニューラルネットワークとしてモデル化する反復的手法を考案した。 提案手法ではRoto-translationally equivariant Operationを用いて低線量コンピュータ断層撮影とサブサンプル磁気共鳴画像再構成の問題に適用する。 提案手法は, 学習した再構成手法の再構築品質を改善するために, トレーニング時の計算コストを少なくするが, 試験時の追加費用を伴わないことを実証した。

In recent years the use of convolutional layers to encode an inductive bias (translational equivariance) in neural networks has proven to be a very fruitful idea. The successes of this approach have motivated a line of research into incorporating other symmetries into deep learning methods, in the form of group equivariant convolutional neural networks. Much of this work has been focused on roto-translational symmetry of $\mathbf R^d$, but other examples are the scaling symmetry of $\mathbf R^d$ and rotational symmetry of the sphere. In this work, we demonstrate that group equivariant convolutional operations can naturally be incorporated into learned reconstruction methods for inverse problems that are motivated by the variational regularisation approach. Indeed, if the regularisation functional is invariant under a group symmetry, the corresponding proximal operator will satisfy an equivariance property with respect to the same group symmetry. As a result of this observation, we design learned iterative methods in which the proximal operators are modelled as group equivariant convolutional neural networks. We use roto-translationally equivariant operations in the proposed methodology and apply it to the problems of low-dose computerised tomography reconstruction and subsampled magnetic resonance imaging reconstruction. The proposed methodology is demonstrated to improve the reconstruction quality of a learned reconstruction method with a little extra computational cost at training time but without any extra cost at test time.
翻訳日:2021-02-24 13:54:30 公開日:2021-02-23
# Mixed Policy Gradient

Mixed Policy Gradient ( http://arxiv.org/abs/2102.11513v1 )

ライセンス: Link先を確認
Yang Guan, Jingliang Duan, Shengbo Eben Li, Jie Li, Jianyu Chen, Bo Cheng(参考訳) 強化学習(RL)はシーケンシャルな意思決定において大きな可能性を秘めている。 現在、主流のRLアルゴリズムはデータ駆動であり、ポリシーを学ぶために数百万のイテレーションと多数の経験的なデータに依存している。 データ駆動型RLは漸近性能が優れているが、通常は収束速度が遅い。 比較として、モデル駆動型RLはコンバージェンス速度を改善するために微分可能な遷移モデルを用いており、政策勾配(PG)は時間によるバックプロパゲーション(BPTT)技術を用いて計算される。 しかし、そのような手法は数値不安定性、モデル誤差感度、低演算効率に悩まされ、政策の悪化につながる可能性がある。 本論文では,経験的データと遷移モデルの両方を用いてPGを構築する混合ポリシ勾配(MPG)法を提案し,最適性保証を失うことなく収束速度を高速化する。 MPGは、(1)学習したQ値関数の導関数を直接計算して得られるデータ駆動PGと、2)モデル予測リターンに基づいてBPTTを用いて計算されるモデル駆動PGの2つのタイプを含む。 統一PG誤差の上限値と予測地平線との相関関係を明らかにすることにより、データ駆動PGを0ステップモデル予測リターンとして分解する。 MPGは、データ駆動およびモデル駆動PGの重みを適応的に調整するためにルールベースの方法を採用しています。 特に、より正確なPGを得るために、データ駆動PGの重量は学習プロセスに沿って増加し、他方は減少するように設計されている。 さらに、更新イテレーション毎に必要なウォールクロック時間を短縮する非同期学習フレームワークも提案されている。 シミュレーションの結果,mpg法は,他のベースラインアルゴリズムと比較して,最高漸近性能と収束速度を達成した。

Reinforcement learning (RL) has great potential in sequential decision-making. At present, the mainstream RL algorithms are data-driven, relying on millions of iterations and a large number of empirical data to learn a policy. Although data-driven RL may have excellent asymptotic performance, it usually yields slow convergence speed. As a comparison, model-driven RL employs a differentiable transition model to improve convergence speed, in which the policy gradient (PG) is calculated by using the backpropagation through time (BPTT) technique. However, such methods suffer from numerical instability, model error sensitivity and low computing efficiency, which may lead to poor policies. In this paper, a mixed policy gradient (MPG) method is proposed, which uses both empirical data and the transition model to construct the PG, so as to accelerate the convergence speed without losing the optimality guarantee. MPG contains two types of PG: 1) data-driven PG, which is obtained by directly calculating the derivative of the learned Q-value function with respect to actions, and 2) model-driven PG, which is calculated using BPTT based on the model-predictive return. We unify them by revealing the correlation between the upper bound of the unified PG error and the predictive horizon, where the data-driven PG is regraded as 0-step model-predictive return. Relying on that, MPG employs a rule-based method to adaptively adjust the weights of data-driven and model-driven PGs. In particular, to get a more accurate PG, the weight of the data-driven PG is designed to grow along the learning process while the other to decrease. Besides, an asynchronous learning framework is proposed to reduce the wall-clock time needed for each update iteration. Simulation results show that the MPG method achieves the best asymptotic performance and convergence speed compared with other baseline algorithms.
翻訳日:2021-02-24 13:54:06 公開日:2021-02-23
# グラフ多重集合プーリングによるグラフ表現の高精度学習

Accurate Learning of Graph Representations with Graph Multiset Pooling ( http://arxiv.org/abs/2102.11533v1 )

ライセンス: Link先を確認
Jinheon Baek, Minki Kang, Sung Ju Hwang(参考訳) グラフニューラルネットワークは、グラフデータのモデリングに広く使われ、ノード分類とリンク予測タスクで印象的な結果を得た。 しかし、グラフの正確な表現を得るには、ノード表現の集合をコンパクトな形式にマッピングするプーリング関数が必要である。 すべてのノード表現に対する単純な和や平均は、すべてのノードの特徴を、そのタスクの関連性やそれらの構造的依存関係を考慮せずに、等しく考慮する。 一方,最近提案された階層型グラフプーリング手法は,ノード特徴からの情報を保護するため,Weisfeiler-Lehmanテストによって区別される2つの異なるグラフに対して,同じ表現が得られる可能性がある。 既存のグラフプーリング手法のこれらの制限に対処するために,まずグラフ構造に関する補助情報を含むマルチセット符号化問題としてグラフプーリング問題を策定し,その構造依存性に応じてノード間の相互作用をキャプチャするマルチヘッド注意ベースのグローバルプーリング層であるグラフマルチセットトランスフォーマー(GMT)を提案する。 GMT は単射性と置換不変性の両方を満たすことを示し、Weisfeiler-Lehman graph isomorphism test と同じくらい強力であることを示す。 さらに,本手法は,階層的なグラフプーリングのために,従来のノードクラスタリングアプローチに容易に拡張できる。 実験結果から,GMTはグラフ分類ベンチマークにおいて,メモリと時間効率が向上し,グラフ再構成および生成タスクにおいてさらに大きな性能向上が得られることがわかった。

Graph neural networks have been widely used on modeling graph data, achieving impressive results on node classification and link prediction tasks. Yet, obtaining an accurate representation for a graph further requires a pooling function that maps a set of node representations into a compact form. A simple sum or average over all node representations considers all node features equally without consideration of their task relevance, and any structural dependencies among them. Recently proposed hierarchical graph pooling methods, on the other hand, may yield the same representation for two different graphs that are distinguished by the Weisfeiler-Lehman test, as they suboptimally preserve information from the node features. To tackle these limitations of existing graph pooling methods, we first formulate the graph pooling problem as a multiset encoding problem with auxiliary information about the graph structure, and propose a Graph Multiset Transformer (GMT) which is a multi-head attention based global pooling layer that captures the interaction between nodes according to their structural dependencies. We show that GMT satisfies both injectiveness and permutation invariance, such that it is at most as powerful as the Weisfeiler-Lehman graph isomorphism test. Moreover, our methods can be easily extended to the previous node clustering approaches for hierarchical graph pooling. Our experimental results show that GMT significantly outperforms state-of-the-art graph pooling methods on graph classification benchmarks with high memory and time efficiency, and obtains even larger performance gain on graph reconstruction and generation tasks.
翻訳日:2021-02-24 13:53:37 公開日:2021-02-23
# 暗黒における戦略的分類

Strategic Classification in the Dark ( http://arxiv.org/abs/2102.11592v1 )

ライセンス: Link先を確認
Ganesh Ghalme, Vineet Nair, Itay Eilat, Inbal Talgam-Cohen, and Nir Rosenfeld(参考訳) 戦略分類は、分類規則とそれが支配する戦略エージェントの間の相互作用を研究する。 分類器が知られているという仮定の下で、合理的なエージェントは特徴を操作してそれに対応する。 しかし、ハイステーク分類(例えば信用スコアリング)の多くの実生活シナリオでは、分類器はエージェントに明らかにされておらず、エージェントは分類器を学習してゲームもしようとする。 本稿では,戦略分類モデルをそのようなシナリオに一般化する。 不透明度は、不透明度と透明性戦略燃焼分類器の予測誤差の差として定義し、その特性付けを行い、透明性が推奨される政策である場合には、この価格が厳密に肯定的である十分な条件を与える。 私たちの実験では、Hardt et al。 強靭な分類器は エージェントを暗く保つことで 影響を受けます

Strategic classification studies the interaction between a classification rule and the strategic agents it governs. Under the assumption that the classifier is known, rational agents respond to it by manipulating their features. However, in many real-life scenarios of high-stake classification (e.g., credit scoring), the classifier is not revealed to the agents, which leads agents to attempt to learn the classifier and game it too. In this paper we generalize the strategic classification model to such scenarios. We define the price of opacity as the difference in prediction error between opaque and transparent strategy-robust classifiers, characterize it, and give a sufficient condition for this price to be strictly positive, in which case transparency is the recommended policy. Our experiments show how Hardt et al.'s robust classifier is affected by keeping agents in the dark.
翻訳日:2021-02-24 13:53:08 公開日:2021-02-23
# ノイズ画像分類における勝利チケット

Winning Ticket in Noisy Image Classification ( http://arxiv.org/abs/2102.11628v1 )

ライセンス: Link先を確認
Taehyeon Kim, Jongwoo Ko, Jinhwan Choi, Sangwook Cho, Se-Young Yun(参考訳) 現代のディープニューラルネットワーク(DNN)は、データセットにノイズ(不正確な)クラスのラベルが含まれていると不安定になります。 損失調整、ロバスト損失関数、クリーンサンプル選択など、多くのロバストなテクニックが登場し、データセット全体を使用してこの問題を軽減する。 本稿では,ノイズの多いデータセットのクリーンなインスタンスのみを含むデータセットが,少ないデータでも元のデータセットよりも優れたオプティマ性をもたらすことを実証的に観察する。 これらの結果に基づき, 入賞券仮説を述べる: 頑健な手法にかかわらず, DNNは, オリジナル(入賞券)のクリーンなサンプルしか持たないデータセット上で訓練すると, 最高の性能に達する。 DNNのロスランドスケープと潜在機能を見て、勝ったチケットを特定するための2つのシンプルで効果的な戦略を提案します。 CIFAR-10とCIFAR-100の2つのデータ浄化手法と既存のロバスト手法を連携させて数値実験を行います。 その結果、我々のフレームワークは継続的に、そして著しくパフォーマンスを向上します。

Modern deep neural networks (DNNs) become frail when the datasets contain noisy (incorrect) class labels. Many robust techniques have emerged via loss adjustment, robust loss function, and clean sample selection to mitigate this issue using the whole dataset. Here, we empirically observe that the dataset which contains only clean instances in original noisy datasets leads to better optima than the original dataset even with fewer data. Based on these results, we state the winning ticket hypothesis: regardless of robust methods, any DNNs reach the best performance when trained on the dataset possessing only clean samples from the original (winning ticket). We propose two simple yet effective strategies to identify winning tickets by looking at the loss landscape and latent features in DNNs. We conduct numerical experiments by collaborating the two proposed methods purifying data and existing robust methods for CIFAR-10 and CIFAR-100. The results support that our framework consistently and remarkably improves performance.
翻訳日:2021-02-24 13:52:53 公開日:2021-02-23
# フィッシャー情報を用いた機械学習モデルにおけるデータリークの測定

Measuring Data Leakage in Machine-Learning Models with Fisher Information ( http://arxiv.org/abs/2102.11673v1 )

ライセンス: Link先を確認
Awni Hannun, Chuan Guo, Laurens van der Maaten(参考訳) 機械学習モデルには、トレーニングしたデータに関する情報が含まれている。 この情報はモデル自身あるいはモデルによる予測を通じてリークする。 これにより、トレーニングデータがセンシティブな属性を含む場合、情報漏洩の量を評価することが最重要となる。 本稿では,データに関するモデルのフィッシャー情報を用いて,この漏洩を定量化する手法を提案する。 差分プライバシーを保証する最悪のケースとは異なり、Fisher情報損失はデータセット内の特定の例、属性、またはサブ人口に関する漏洩を測定します。 Cram\'{e}r-Rao によるフィッシャー情報の損失を動機付け、暗黙の脅威モデルを説明します。 出力摂動一般化線形モデルに対するフィッシャー情報損失の効率的な計算法を提案する。 最後に,漁獲情報の損失を情報漏洩の有用な指標として実証的に検証する。

Machine-learning models contain information about the data they were trained on. This information leaks either through the model itself or through predictions made by the model. Consequently, when the training data contains sensitive attributes, assessing the amount of information leakage is paramount. We propose a method to quantify this leakage using the Fisher information of the model about the data. Unlike the worst-case a priori guarantees of differential privacy, Fisher information loss measures leakage with respect to specific examples, attributes, or sub-populations within the dataset. We motivate Fisher information loss through the Cram\'{e}r-Rao bound and delineate the implied threat model. We provide efficient methods to compute Fisher information loss for output-perturbed generalized linear models. Finally, we empirically validate Fisher information loss as a useful measure of information leakage.
翻訳日:2021-02-24 13:52:36 公開日:2021-02-23
# Oriole: 信頼できるディープラーニングモデルに対するプライバシー侵害

Oriole: Thwarting Privacy against Trustworthy Deep Learning Models ( http://arxiv.org/abs/2102.11502v1 )

ライセンス: Link先を確認
Liuqiao Chen, Hu Wang, Benjamin Zi Hao Zhao, Minhui Xue and Haifeng Qian(参考訳) ディープニューラルネットワークは、高精度顔認識モデルを訓練する目的で明示的な許可なしにインターネットから他人のデータをクロールすることができるように、顔認識の分野で前例のない成功を達成し、プライバシーの深刻な侵害を生み出しています。 最近、有名なシステムであるfawkes(usenix security 2020)は、このプライバシーの脅威は、オリジナルの画像の代わりにクロークされたユーザー画像をアップロードすることで、中立化できると主張した。 本稿では,データ中毒攻撃と回避攻撃の利点を組み合わせたシステムであるOrioleについて,攻撃者の顔認識モデルを,Orioleが生成したマルチクローズド画像でトレーニングすることにより,Fawkesの保護を阻止する。 これにより、攻撃モデルの顔認識精度が維持され、フェイクの弱点が明らかにされる。 実験の結果,提案するオリオール系はファウクスシステムの性能を効果的に阻害し,有望な攻撃結果を得ることができた。 本研究は,dssimの摂動予算,リークしたクリーンユーザ画像の比率,アンクローク画像毎のマルチクローク数など,オリオールシステムの性能に影響する複数の主要な要因を浮き彫りにしたものである。 また,fawkesの脆弱性を詳細に特定し,議論する。 本論文では,より堅牢なプライバシー保護深層学習モデルの設計の必要性について,セキュリティコミュニティに通知する。

Deep Neural Networks have achieved unprecedented success in the field of face recognition such that any individual can crawl the data of others from the Internet without their explicit permission for the purpose of training high-precision face recognition models, creating a serious violation of privacy. Recently, a well-known system named Fawkes (published in USENIX Security 2020) claimed this privacy threat can be neutralized by uploading cloaked user images instead of their original images. In this paper, we present Oriole, a system that combines the advantages of data poisoning attacks and evasion attacks, to thwart the protection offered by Fawkes, by training the attacker face recognition model with multi-cloaked images generated by Oriole. Consequently, the face recognition accuracy of the attack model is maintained and the weaknesses of Fawkes are revealed. Experimental results show that our proposed Oriole system is able to effectively interfere with the performance of the Fawkes system to achieve promising attacking results. Our ablation study highlights multiple principal factors that affect the performance of the Oriole system, including the DSSIM perturbation budget, the ratio of leaked clean user images, and the numbers of multi-cloaks for each uncloaked image. We also identify and discuss at length the vulnerabilities of Fawkes. We hope that the new methodology presented in this paper will inform the security community of a need to design more robust privacy-preserving deep learning models.
翻訳日:2021-02-24 13:52:05 公開日:2021-02-23
# 防食ツールとしての人工知能(AI-ACT) -トップダウンとボトムアップのアプローチの可能性と落とし穴-

Artificial Intelligence as an Anti-Corruption Tool (AI-ACT) -- Potentials and Pitfalls for Top-down and Bottom-up Approaches ( http://arxiv.org/abs/2102.11567v1 )

ライセンス: Link先を確認
Nils K\"obis, Christopher Starke, Iyad Rahwan(参考訳) 腐敗は、私たちの時代の最大の社会的課題の1つであり続けています。 人工知能(AI)に新しい希望が置かれ、偏見のない腐敗防止剤として機能します。 より利用可能な(オープンな)政府データと前例のないパフォーマンスのアルゴリズムの組み合わせにより、AIは腐敗防止の次のフロンティアとなります。 AIベースの腐敗防止ツール(AI-ACT)を用いた既存の取り組みを要約し、研究と政策を進めるための概念的枠組みを紹介します。 AIがトップダウンとボトムアップの腐敗防止アプローチのためのユニークなツールを提供する理由を概説します。 いずれのアプローチについても,ai-act が (a) 入力データ, (b) アルゴリズム設計, (c) システム実装に対して,さまざまな可能性と落とし穴をどのように提示するかを概説する。 最後に、我々は、市民の見解を考慮しながらAI-ACTを開発するために対処する必要がある重要な質問を、未来を探求し、さらに「ループの社会性」を見出します。

Corruption continues to be one of the biggest societal challenges of our time. New hope is placed in Artificial Intelligence (AI) to serve as an unbiased anti-corruption agent. Ever more available (open) government data paired with unprecedented performance of such algorithms render AI the next frontier in anti-corruption. Summarizing existing efforts to use AI-based anti-corruption tools (AI-ACT), we introduce a conceptual framework to advance research and policy. It outlines why AI presents a unique tool for top-down and bottom-up anti-corruption approaches. For both approaches, we outline in detail how AI-ACT present different potentials and pitfalls for (a) input data, (b) algorithmic design, and (c) institutional implementation. Finally, we venture a look into the future and flesh out key questions that need to be addressed to develop AI-ACT while considering citizens' views, hence putting "society in the loop".
翻訳日:2021-02-24 13:51:40 公開日:2021-02-23
# 信頼できるモデル:(エージェントベース)モデルの解釈と検証の体系的規律に向けて

Models we Can Trust: Toward a Systematic Discipline of (Agent-Based) Model Interpretation and Validation ( http://arxiv.org/abs/2102.11615v1 )

ライセンス: Link先を確認
Gabriel Istrate(参考訳) 我々は、モデルから情報を取り出す、相互作用する分野の開発を提唱する(例えば、数学)。 ゲーム理論)と計算(例えば、計算) エージェントベースモデル)。 我々は,そのような分野の発展に向けたいくつかの方向性を概説する:―(数学的・計算的な)社会科学における,形式化された事実と社会メカニズムの体系的な形式的仕様のための論理的枠組みの開発。 このようなフレームワークは、フェーズ遷移、すなわち、新たな問題に注目を集めるだろう。 パラメータ空間のいくつかの重要な値を超える様式化された事実の妥当性の劇的な変化。 このような記述は ABM の性質を記述する論理フレームワークにとって有用であると主張します。 -「同じ行動を持つ」2つのシステムの事実上関連する概念を得るために、反応系の理論(二相計算など)からのツールの適応。 -社会的行動のモデルから社会的ダイナミクスのいくつかの特徴の変動への結論の堅牢性を調べるモデル摂動の逆転理論の体系的な発展。 これには、アクティベーション順序、基礎となるソーシャルネットワーク、個々のエージェントの振る舞いが含まれる。

We advocate the development of a discipline of interacting with and extracting information from models, both mathematical (e.g. game-theoretic ones) and computational (e.g. agent-based models). We outline some directions for the development of a such a discipline: - the development of logical frameworks for the systematic formal specification of stylized facts and social mechanisms in (mathematical and computational) social science. Such frameworks would bring to attention new issues, such as phase transitions, i.e. dramatical changes in the validity of the stylized facts beyond some critical values in parameter space. We argue that such statements are useful for those logical frameworks describing properties of ABM. - the adaptation of tools from the theory of reactive systems (such as bisimulation) to obtain practically relevant notions of two systems "having the same behavior". - the systematic development of an adversarial theory of model perturbations, that investigates the robustness of conclusions derived from models of social behavior to variations in several features of the social dynamics. These may include: activation order, the underlying social network, individual agent behavior.
翻訳日:2021-02-24 13:51:21 公開日:2021-02-23
# スマートデバイスにおけるメモリ効率のよい音声認識

Memory-efficient Speech Recognition on Smart Devices ( http://arxiv.org/abs/2102.11531v1 )

ライセンス: Link先を確認
Ganesh Venkatesh, Alagappan Valliappan, Jay Mahadeokar, Yuan Shangguan, Christian Fuegen, Michael L. Seltzer, Vikas Chandra(参考訳) リカレントトランスデューサモデルは、現在および次世代のスマートデバイスにおける音声認識の有望なソリューションとして登場しました。 トランスデューサモデルは、これらのデバイスのメモリ容量の制約を軽減する合理的なメモリフットプリント内の競争力のある精度を提供します。 しかし、これらのモデルは入力時間ステップ毎にオフチップメモリからパラメータにアクセスし、デバイスのバッテリ寿命に悪影響を及ぼし、低消費電力デバイスのユーザビリティを制限する。 トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。 i) モデルのエネルギーコストは,オフチップメモリからモデルウェイトにアクセスすることで支配的であること,ii) トランスデューサモデルアーキテクチャは、オフチップメモリへのアクセス数を決定する上で重要であり,モデルサイズだけでは良いプロキシではないこと,iii) 私たちのトランスデューサモデルの最適化と新しいリカレントセルは、オフチップメモリへのアクセスを4.5倍削減し,モデルサイズを2倍小さくする。

Recurrent transducer models have emerged as a promising solution for speech recognition on the current and next generation smart devices. The transducer models provide competitive accuracy within a reasonable memory footprint alleviating the memory capacity constraints in these devices. However, these models access parameters from off-chip memory for every input time step which adversely effects device battery life and limits their usability on low-power devices. We address transducer model's memory access concerns by optimizing their model architecture and designing novel recurrent cell designs. We demonstrate that i) model's energy cost is dominated by accessing model weights from off-chip memory, ii) transducer model architecture is pivotal in determining the number of accesses to off-chip memory and just model size is not a good proxy, iii) our transducer model optimizations and novel recurrent cell reduces off-chip memory accesses by 4.5x and model size by 2x with minimal accuracy impact.
翻訳日:2021-02-24 13:51:04 公開日:2021-02-23
# 薄殻モデルにおける深部変形詳細合成

Deep Deformation Detail Synthesis for Thin Shell Models ( http://arxiv.org/abs/2102.11541v1 )

ライセンス: Link先を確認
Lan Chen, Lin Gao, Jie Yang, Shibiao Xu, Juntao Ye, Xiaopeng Zhang, Yu-Kun Lai(参考訳) 物理ベースの布アニメーションでは、高価な計算リソースと巨大な労働調整のコストで豊富な折り畳みと詳細なしわが達成されます。 データ駆動技術により、データベースによる計算を大幅に削減します。 一般的な布には当てはまらない着物を合成するために、人間のポーズに依存する方法がある。 別のタイプのメソッドは、そのような制限なしに粗いメッシュに詳細を追加する。 しかし、既存の作品は通常、大規模な変形に対応できない座標に基づく表現を使い、粗いメッシュと細かいメッシュの間の密接な頂点対応を必要とする。 さらに、これらのメソッドは詳細のみを追加するため、粗いメッシュを細いメッシュに近づける必要があり、これは不可能か、細いメッシュを生成する際に非現実的な制約を必要とする可能性がある。 これらの課題に対処するため,我々は,低解像度メッシュから詳細なメッシュへのマッピングを学ぶために,時間的かつ空間的に一貫性のある変形表現(ts-acap)とデフォームトランスフォーマネットワークを開発した。 このTS-ACAP表現は、布のアニメーションから連続した大規模変形に対する空間的および時間的整合性を保証するように設計されている。 この表現により、DeformTransformerネットワークは、まず2つのメッシュベースのエンコーダを使用して、粗い特徴と細かな特徴を抽出する。 粗い特徴を微細なものに伝達するために,フレームレベルの注意機構からなるトランスネットワークを利用して,予測の時間的コヒーレンスを確保する。 本手法は, 物理シミュレーションの10~35倍の速度で, 従来の手法よりも詳細合成能力に優れ, 高いフレームレートで, 信頼性と現実的なアニメーションを様々なデータセットで生成できることを示した。

In physics-based cloth animation, rich folds and detailed wrinkles are achieved at the cost of expensive computational resources and huge labor tuning. Data-driven techniques make efforts to reduce the computation significantly by a database. One type of methods relies on human poses to synthesize fitted garments which cannot be applied to general cloth. Another type of methods adds details to the coarse meshes without such restrictions. However, existing works usually utilize coordinate-based representations which cannot cope with large-scale deformation, and requires dense vertex correspondences between coarse and fine meshes. Moreover, as such methods only add details, they require coarse meshes to be close to fine meshes, which can be either impossible, or require unrealistic constraints when generating fine meshes. To address these challenges, we develop a temporally and spatially as-consistent-as-pos sible deformation representation (named TS-ACAP) and a DeformTransformer network to learn the mapping from low-resolution meshes to detailed ones. This TS-ACAP representation is designed to ensure both spatial and temporal consistency for sequential large-scale deformations from cloth animations. With this representation, our DeformTransformer network first utilizes two mesh-based encoders to extract the coarse and fine features, respectively. To transduct the coarse features to the fine ones, we leverage the Transformer network that consists of frame-level attention mechanisms to ensure temporal coherence of the prediction. Experimental results show that our method is able to produce reliable and realistic animations in various datasets at high frame rates: 10 ~ 35 times faster than physics-based simulation, with superior detail synthesis abilities than existing methods.
翻訳日:2021-02-24 13:49:58 公開日:2021-02-23
# 粉砕骨遠位端骨折の3次元再建システム

A System for 3D Reconstruction Of Comminuted Tibial Plafond Bone Fractures ( http://arxiv.org/abs/2102.11684v1 )

ライセンス: Link先を確認
Pengcheng Liu, Nathan Hewitt, Waseem Shadid, Andrew Willis(参考訳) 関節部位における高エネルギーの影響は、しばしば高度に断片化された骨骨折を引き起こす。 現在の治療アプローチでは、骨折を階層的骨折重症度分類に分類する方法を医師が決める必要がある。 各カテゴリは、患者に最適な予後を得るために最良の治療シナリオを提供します。 本稿では、破壊重大度の定性的評価のみに関連する欠点を特定し、これらの欠点に対処するのに役立つ新しい定量的指標を提供します。 骨折重症度の主要な指標である定量指標を半自動的に抽出するシステムを提案する。 これらには、(i)骨折表面積、すなわち、骨が壊れたときの表面積、および(ii)分散、すなわち、断片が元の解剖学的位置からどのくらい回転し、翻訳されたかが含まれます。 本稿では, CT画像から3次元骨解剖を計算的に再構成し, 難治性定性骨折の重症度が高い頸部骨折症例を中心に, それらの測定値を抽出する新しい計算ツールについて述べる。 レコンストラクションは、仮想環境で断片を識別し、抽出し、断片化するいくつかの新しいアルゴリズムを統合する単一のシステム内で達成される。 これを行うことは、これらの破壊重症度指標に客観的な定量的測定を提供します。 このような対策が利用可能になると、骨折の重症度評価のための新しいツールが提供され、骨折治療の改善につながる可能性があります。 本論文では, 6症例の骨盤骨折症例を定量的に解析し, そのシステム, 基礎アルゴリズム, 再構成結果のメトリクスについて述べる。

High energy impacts at joint locations often generate highly fragmented, or comminuted, bone fractures. Current approaches for treatment require physicians to decide how to classify the fracture within a hierarchy fracture severity categories. Each category then provides a best-practice treatment scenario to obtain the best possible prognosis for the patient. This article identifies shortcomings associated with qualitative-only evaluation of fracture severity and provides new quantitative metrics that serve to address these shortcomings. We propose a system to semi-automatically extract quantitative metrics that are major indicators of fracture severity. These include: (i) fracture surface area, i.e., how much surface area was generated when the bone broke apart, and (ii) dispersion, i.e., how far the fragments have rotated and translated from their original anatomic positions. This article describes new computational tools to extract these metrics by computationally reconstructing 3D bone anatomy from CT images with a focus on tibial plafond fracture cases where difficult qualitative fracture severity cases are more prevalent. Reconstruction is accomplished within a single system that integrates several novel algorithms that identify, extract and piece-together fractured fragments in a virtual environment. Doing so provides objective quantitative measures for these fracture severity indicators. The availability of such measures provides new tools for fracture severity assessment which may lead to improved fracture treatment. This paper describes the system, the underlying algorithms and the metrics of the reconstruction results by quantitatively analyzing six clinical tibial plafond fracture cases.
翻訳日:2021-02-24 13:49:31 公開日:2021-02-23
# ビデオ超解像のためのディープアンロールネットワーク

Deep Unrolled Network for Video Super-Resolution ( http://arxiv.org/abs/2102.11720v1 )

ライセンス: Link先を確認
Benjamin Naoto Chiche, Arnaud Woiselle, Joana Frontera-Pons and Jean-Luc Starck(参考訳) ビデオスーパーリゾリューション(VSR)は、対応する低リゾリューション(LR)バージョンから高リゾリューション(HR)画像のシーケンスを再構築することを目的としています。 伝統的に、VSR問題の解法は、画像形成や動きの仮定に関する事前知識を活用できる反復アルゴリズムに基づいている。 しかし、これらの古典的手法は自然画像から複雑な統計を取り込むのに苦労している。 さらに、VSRは最近、ディープラーニング(DL)アルゴリズムによる改善の恩恵を受けています。 これらの技術は、大量の画像から空間パターンを効率的に学習できます。 しかし、画像形成モデルに関する知識を取り入れておらず、柔軟性が制限されている。 逆問題解決のために開発された未ロール最適化アルゴリズムは、ディープラーニングアーキテクチャに事前情報を含めることができる。 これらは、主に単一の画像復元タスクで使用されてきた。 アンロールされたニューラルネットワーク構造への適応には、次のようなメリットがある。 まず、これはスーパーレゾリューションタスクのパフォーマンスを向上させる可能性がある。 これにより、ニューラルネットワークの解釈性が向上する。 最後に、単一のモデルが複数の劣化に無明快に対処できるように柔軟性を持たせる。 本稿では,未ロール最適化技術に基づく新しいvsrニューラルネットワークを提案し,その性能について述べる。

Video super-resolution (VSR) aims to reconstruct a sequence of high-resolution (HR) images from their corresponding low-resolution (LR) versions. Traditionally, solving a VSR problem has been based on iterative algorithms that can exploit prior knowledge on image formation and assumptions on the motion. However, these classical methods struggle at incorporating complex statistics from natural images. Furthermore, VSR has recently benefited from the improvement brought by deep learning (DL) algorithms. These techniques can efficiently learn spatial patterns from large collections of images. Yet, they fail to incorporate some knowledge about the image formation model, which limits their flexibility. Unrolled optimization algorithms, developed for inverse problems resolution, allow to include prior information into deep learning architectures. They have been used mainly for single image restoration tasks. Adapting an unrolled neural network structure can bring the following benefits. First, this may increase performance of the super-resolution task. Then, this gives neural networks better interpretability. Finally, this allows flexibility in learning a single model to nonblindly deal with multiple degradations. In this paper, we propose a new VSR neural network based on unrolled optimization techniques and discuss its performance.
翻訳日:2021-02-24 13:49:10 公開日:2021-02-23
# Chaos と NSGA II を用いたマクロ経済時系列の最適予測間隔

Optimal Prediction Intervals for Macroeconomic Time Series Using Chaos and NSGA II ( http://arxiv.org/abs/2102.11427v1 )

ライセンス: Link先を確認
Vangala Sarveswararao, Vadlamani Ravi and Sheik Tanveer Ul Huq(参考訳) 本稿では,二目的最適化問題として時系列における予測区間(PI)の定式化を提案し,Nondominated Sorting Genetic Algorithm (NSGA-II) の助けを借りて解決する。 また,時系列に存在するカオスを前処理としてモデル化し,時系列に存在する決定論的不確実性をモデル化することを提案した。 提案モデルは汎用的ではあるが,マクロ経済時系列予測の不確かさの定量化に用いられている。 理想のPIは可能な限り狭くし、ほとんどのデータポイントをキャプチャするべきです。 これら2つの目的に基づき, PIを2段階に生成するための両対象最適化問題を策定し, カオス理論を用いた位相空間の再構築(ステージ-1)を行い, NSGA-IIを用いた最適点予測を行い, これらの点予測をPIの取得に用いる(ステージ-2)。 また,第3段階がNSGA-IIを起動し,第2段階の点予測からPIを構成する問題を解く3段階のハイブリッドも提案した。 提案手法をマクロ経済時系列に適用した場合, 予測区間被覆率 (PICP) と予測区間平均幅 (PIAW) の両面において, 勾配Descent (GD) を用いた下層境界推定法 (LUBE) と比較し, 良好な結果を得た。 3段モデルでは2段モデルと比較してPICPが向上したが, NSGA-II2次動作の計算コストが増大し, PIAWでは同様の性能を示した。

In a first-of-its-kind study, this paper proposes the formulation of constructing prediction intervals (PIs) in a time series as a bi-objective optimization problem and solves it with the help of Nondominated Sorting Genetic Algorithm (NSGA-II). We also proposed modeling the chaos present in the time series as a preprocessor in order to model the deterministic uncertainty present in the time series. Even though the proposed models are general in purpose, they are used here for quantifying the uncertainty in macroeconomic time series forecasting. Ideal PIs should be as narrow as possible while capturing most of the data points. Based on these two objectives, we formulated a bi-objective optimization problem to generate PIs in 2-stages, wherein reconstructing the phase space using Chaos theory (stage-1) is followed by generating optimal point prediction using NSGA-II and these point predictions are in turn used to obtain PIs (stage-2). We also proposed a 3-stage hybrid, wherein the 3rd stage invokes NSGA-II too in order to solve the problem of constructing PIs from the point prediction obtained in 2nd stage. The proposed models when applied to the macroeconomic time series, yielded better results in terms of both prediction interval coverage probability (PICP) and prediction interval average width (PIAW) compared to the state-of-the-art Lower Upper Bound Estimation Method (LUBE) with Gradient Descent (GD). The 3-stage model yielded better PICP compared to the 2-stage model but showed similar performance in PIAW with added computation cost of running NSGA-II second time.
翻訳日:2021-02-24 13:48:35 公開日:2021-02-23
# 製造システムの予測的保守のための神経科学に基づくアルゴリズム

Neuroscience-Inspire d Algorithms for the Predictive Maintenance of Manufacturing Systems ( http://arxiv.org/abs/2102.11450v1 )

ライセンス: Link先を確認
Arnav V. Malawade, Nathan D. Costa, Deepan Muthirayan, Pramod P. Khargonekar, Mohammad A. Al Faruque(参考訳) 機械故障を事前に検出できれば、メンテナンスや修理をより効率的に行うことができ、生産コストを低減できる。 振動データを用いた早期故障検出のための機械学習手法が数多く提案されているが、これらの手法はしばしば電力とデータ格納性があり、ノイズに影響を受けやすく、大量のデータ前処理を必要とする。 また、トレーニングは通常、推論の前に1回だけ行われるので、機械時代の学習や適応は行わない。 そこで我々は階層型時空間メモリ(htm)を用いた予測保守のためのオンラインリアルタイム異常検出手法を提案する。 ヒトの新皮質に触発されて、htmは継続的に学習し、適応し、雑音に頑健である。 Numenta Anomaly Benchmark を用いて,本手法は実世界のベアリング故障や3Dプリンタの故障を事前に検出し,最先端のアルゴリズムよりも優れていることを示す。 このアプローチは平均スコア64.71に達し、最先端のディープラーニング(49.38)と統計的手法(61.06)を上回っている。

If machine failures can be detected preemptively, then maintenance and repairs can be performed more efficiently, reducing production costs. Many machine learning techniques for performing early failure detection using vibration data have been proposed; however, these methods are often power and data-hungry, susceptible to noise, and require large amounts of data preprocessing. Also, training is usually only performed once before inference, so they do not learn and adapt as the machine ages. Thus, we propose a method of performing online, real-time anomaly detection for predictive maintenance using Hierarchical Temporal Memory (HTM). Inspired by the human neocortex, HTMs learn and adapt continuously and are robust to noise. Using the Numenta Anomaly Benchmark, we empirically demonstrate that our approach outperforms state-of-the-art algorithms at preemptively detecting real-world cases of bearing failures and simulated 3D printer failures. Our approach achieves an average score of 64.71, surpassing state-of-the-art deep-learning (49.38) and statistical (61.06) methods.
翻訳日:2021-02-24 13:48:04 公開日:2021-02-23
# euler数値積分が凸最適化の加速と安定性に及ぼす影響の再検討

Revisiting the Role of Euler Numerical Integration on Acceleration and Stability in Convex Optimization ( http://arxiv.org/abs/2102.11537v1 )

ライセンス: Link先を確認
Peiyuan Zhang, Antonio Orvieto, Hadi Daneshmand, Thomas Hofmann, Roy Smith(参考訳) 常微分方程式(ODE)の数値積分器としての最適化手法の展望は、加速された一階最適化器を研究するための思考を誘発する現代的な枠組みを提供する。 この文献では、加速はしばしば積分器の品質(正確性、エネルギー保存、シンプレクティリティ)に関係していると考えられる。 本研究では、この接続に疑問を呈する新しい常微分方程式を提案する: このODE上の明示的および半単純(シンプレクティック)なオイラー離散化は、凸プログラミングの高速化アルゴリズムに繋がる。 半単純法は物理系の統合に望ましい特徴を多く享受するために数値解析でよく知られているが,これらの特性が必ずしも加速度に関係しないことを示す。

Viewing optimization methods as numerical integrators for ordinary differential equations (ODEs) provides a thought-provoking modern framework for studying accelerated first-order optimizers. In this literature, acceleration is often supposed to be linked to the quality of the integrator (accuracy, energy preservation, symplecticity). In this work, we propose a novel ordinary differential equation that questions this connection: both the explicit and the semi-implicit (a.k.a symplectic) Euler discretizations on this ODE lead to an accelerated algorithm for convex programming. Although semi-implicit methods are well-known in numerical analysis to enjoy many desirable features for the integration of physical systems, our findings show that these properties do not necessarily relate to acceleration.
翻訳日:2021-02-24 13:47:44 公開日:2021-02-23
# メタラーニングによるハミルトン系の物理法則の同定

Identifying Physical Law of Hamiltonian Systems via Meta-Learning ( http://arxiv.org/abs/2102.11544v1 )

ライセンス: Link先を確認
Seungjun Lee, Haesang Yang, Woojae Seong(参考訳) ハミルトン力学は、簡潔かつよく一般化された数学的表現で多くの物理過程を表現する効果的なツールである。 十分にモデル化されたハミルトニアンは、研究者が同じ物理法則によって支配される多くの関連する現象を分析し予測することを容易にする。 しかし一般に、ハミルトニアンの機能的あるいは共有的な表現の同定は非常に困難である。 それは慎重に設計された実験と長年の経験から来る研究者の洞察を必要とします。 メタラーニングアルゴリズムはハミルトン系を支配する物理法則を識別するための強力なデータ駆動型ツールであり、表現に関する数学的仮定はなく、同じ物理法則に支配される一連のシステムから観測されることを示唆する。 本手法は,様々な実験環境において,様々な物理系で評価することにより,よく訓練された学習者がハミルトニアンの共有表現を識別できることを示す。

Hamiltonian mechanics is an effective tool to represent many physical processes with concise yet well-generalized mathematical expressions. A well-modeled Hamiltonian makes it easy for researchers to analyze and forecast many related phenomena that are governed by the same physical law. However, in general, identifying a functional or shared expression of the Hamiltonian is very difficult. It requires carefully designed experiments and the researcher's insight that comes from years of experience. We propose that meta-learning algorithms can be potentially powerful data-driven tools for identifying the physical law governing Hamiltonian systems without any mathematical assumptions on the representation, but with observations from a set of systems governed by the same physical law. We show that a well meta-trained learner can identify the shared representation of the Hamiltonian by evaluating our method on several types of physical systems with various experimental settings.
翻訳日:2021-02-24 13:47:27 公開日:2021-02-23
# 無線リンクの品質を公平に分類する学習

Learning to Fairly Classify the Quality of WirelessLinks ( http://arxiv.org/abs/2102.11655v1 )

ライセンス: Link先を確認
Gregor Cerar, Halil Yetgin, Mihael Mohor\v{c}i\v{c}, Carolina Fortuna(参考訳) 機械学習(ML)は、無線ネットワークにおけるリンク品質推定器の精度向上に用いられている。 しかし、最も適したモデルのクラス、最も適したメトリクス、不均衡なデータセットのモデルパフォーマンスに関するより詳細な質問は、引き続き開かれている。 本稿では,高パフォーマンスを満たし,マイノリティクラスを公平に分類し,同時に低いトレーニングコストを発生させる木ベースリンク品質分類器を提案する。 本研究では, 選択された不均衡データセット上で, マルチレイヤパーセプトロン(MLP)の非線形モデルと, ロジスティック回帰(LR)とSVMの2つの線形モデルを比較し, 5つの異なる性能指標を用いて評価した。 Our study shows that 1) non-linear models perform slightly better than linear models in general, 2) the proposed non-linear tree-based model yields the best performance trade-off considering F1, training time and fairness, 3) single metric aggregated evaluations based only on accuracy can hide poor, unfair performance especially on minority classes, and 4) it is possible to improve the performance on minority classes, by over 40% through feature selection and by over 20% through resampling, therefore leading to fairer classification results.

Machine learning (ML) has been used to develop increasingly accurate link quality estimators for wireless networks. However, more in-depth questions regarding the most suitable class of models, most suitable metrics and model performance on imbalanced datasets remain open. In this paper, we propose a new tree-based link quality classifier that meets high performance and fairly classifies the minority class and, at the same time, incurs low training cost. We compare the tree-based model, to a multilayer perceptron (MLP) non-linear model and two linear models, namely logistic regression (LR) and SVM, on a selected imbalanced dataset and evaluate their results using five different performance metrics. Our study shows that 1) non-linear models perform slightly better than linear models in general, 2) the proposed non-linear tree-based model yields the best performance trade-off considering F1, training time and fairness, 3) single metric aggregated evaluations based only on accuracy can hide poor, unfair performance especially on minority classes, and 4) it is possible to improve the performance on minority classes, by over 40% through feature selection and by over 20% through resampling, therefore leading to fairer classification results.
翻訳日:2021-02-24 13:47:11 公開日:2021-02-23
# 量子ドットデバイスにおける状態同定のためのレイベースフレームワーク

Ray-based framework for state identification in quantum dot devices ( http://arxiv.org/abs/2102.11784v1 )

ライセンス: Link先を確認
Justyna P. Zwolak, Thomas McJunkin, Sandesh S. Kalantre, Samuel F. Neyens, E. R. MacQuarrie, Mark A. Eriksson, Jacob M. Taylor(参考訳) 静電ゲートで定義された量子ドット(QD)は、スケーラブルな量子コンピューティング実装のための主要なプラットフォームである。 しかし、量子ビット数の増加に伴い、制御パラメータ空間の複雑さも増大する。 デバイス応答の2パラメータスキャン(画像)による完全またはほぼ完全な探索に依存する従来の測定技術は、ゲートの数が増えるとすぐに非現実的になります。 本稿では,マルチ次元パラメータ空間におけるデバイス応答の1次元投影に基づく計測手法の導入により,この課題を回避することを提案する。 レイベース分類(RBC)フレームワークとして、この機械学習(ML)アプローチを使用して、QD状態の分類器を実装し、量子ビット関連パラメータ系統の自動認識を可能にする。 rbcは, 画像に基づく分類手法の実験的実装から, 82 %の精度ベンチマークを上回っており, 必要な測定点数を最大70 %削減できることを示した。 測定コストの削減は、時間を要するqd測定の大幅な増加であり、これらのデバイスのスケーラビリティへの一歩である。 また,マルチキュービットレジームにチューニングするrbcベースのオプティマイザが,ドットを制御するプランジャとバリアゲートによって定義される2次元および3次元のパラメータ空間でチューニングする際にどのように動作するかについても論じる。 この研究は、高次元パラメータ空間を持つ量子系における非伝統的な測定のためのML手法による効率的な状態同定と最適化の両立を実験的に検証する。

Quantum dots (QDs) defined with electrostatic gates are a leading platform for a scalable quantum computing implementation. However, with increasing numbers of qubits, the complexity of the control parameter space also grows. Traditional measurement techniques, relying on complete or near-complete exploration via two-parameter scans (images) of the device response, quickly become impractical with increasing numbers of gates. Here, we propose to circumvent this challenge by introducing a measurement technique relying on one-dimensional projections of the device response in the multi-dimensional parameter space. Dubbed as the ray-based classification (RBC) framework, we use this machine learning (ML) approach to implement a classifier for QD states, enabling automated recognition of qubit-relevant parameter regimes. We show that RBC surpasses the 82 % accuracy benchmark from the experimental implementation of image-based classification techniques from prior work while cutting down the number of measurement points needed by up to 70 %. The reduction in measurement cost is a significant gain for time-intensive QD measurements and is a step forward towards the scalability of these devices. We also discuss how the RBC-based optimizer, which tunes the device to a multi-qubit regime, performs when tuning in the two- and three-dimensional parameter spaces defined by plunger and barrier gates that control the dots. This work provides experimental validation of both efficient state identification and optimization with ML techniques for non-traditional measurements in quantum systems with high-dimensional parameter spaces and time-intensive measurements.
翻訳日:2021-02-24 13:46:51 公開日:2021-02-23
# SliceNStitch: スパーステンソルストリームの連続CP分解

SliceNStitch: Continuous CP Decomposition of Sparse Tensor Streams ( http://arxiv.org/abs/2102.11517v1 )

ライセンス: Link先を確認
Taehyung Kwon, Inkyu Park, Dongjin Lee, and Kijung Shin(参考訳) 時間とともに増加するトラフィックデータ(すなわち、ソース・デスティネーション・タイムスタンプの形でトリプレット)を考える。 時間モードを持つテンソル(すなわち多次元配列)は、このようなマルチスペクトルデータストリームのモデリングと解析に広く使われている。 しかし、そのようなテンソルでは、新しいエントリは周期ごとに1回だけ追加され、これはしばしば1時間、1日、あるいは1年である。 このようなテンソルの離散性は、新しいデータが到着すると即座に分析されるべきリアルタイムアプリケーションの使用を制限している。 時間的変化を伴うマルチスペクトルスパースデータをテンソルを用いて「連続的」に解析する方法 我々は,異常検出,レコメンデータシステム,株式市場予測など,多くの時間クリティカルなアプリケーションを有する連続的candecomp/parafac分解のためのスライスストッチを提案する。 SLICENSTITCHは、現在の時間に基づいて各期間の開始点を適応的に変更し、新しいデータが到着するとすぐに因子行列(CP分解の出力)を更新します。 理論的および実験的に、SLICENSTITCHは(1)「任意の時間」:現在の時間期間が終了するまで待つことなく、すぐに因子行列を更新すること、(2)高速:オンラインメソッドよりも759倍速く、(3)正確:オフラインメソッドに匹敵するフィットネス(特に72〜160%)。

Consider traffic data (i.e., triplets in the form of source-destination-t imestamp) that grow over time. Tensors (i.e., multi-dimensional arrays) with a time mode are widely used for modeling and analyzing such multi-aspect data streams. In such tensors, however, new entries are added only once per period, which is often an hour, a day, or even a year. This discreteness of tensors has limited their usage for real-time applications, where new data should be analyzed instantly as it arrives. How can we analyze time-evolving multi-aspect sparse data 'continuously' using tensors where time is'discrete'? We propose SLICENSTITCH for continuous CANDECOMP/PARAFAC (CP) decomposition, which has numerous time-critical applications, including anomaly detection, recommender systems, and stock market prediction. SLICENSTITCH changes the starting point of each period adaptively, based on the current time, and updates factor matrices (i.e., outputs of CP decomposition) instantly as new data arrives. We show, theoretically and experimentally, that SLICENSTITCH is (1) 'Any time': updating factor matrices immediately without having to wait until the current time period ends, (2) Fast: with constant-time updates up to 759x faster than online methods, and (3) Accurate: with fitness comparable (specifically, 72 ~ 160%) to offline methods.
翻訳日:2021-02-24 13:45:38 公開日:2021-02-23
# Gram Matrix 機能的相関を用いた深層学習音イベント分類器の改良

Improving Deep Learning Sound Events Classifiers using Gram Matrix Feature-wise Correlations ( http://arxiv.org/abs/2102.11771v1 )

ライセンス: Link先を確認
Antonio Joia Neto and Andre G C Pacheco and Diogo C Luvizon(参考訳) 本稿では,分布外検出のための最近の研究に触発された新しい音事象分類(SEC)手法を提案する。 本手法では,一般CNNの全てのアクティベーションを分析し,Gram Matricesを用いて特徴表現を生成する。 類似度メトリクスは、すべての可能なクラスを考慮して評価され、最終的な予測は、トレーニング中に見られる特徴に対する偏差を最小限にするクラスとして定義される。 提案手法はどのCNNにも適用可能であり,2つのデータセット上で4つの異なるアーキテクチャを実験的に評価した結果,ベースラインモデルが一貫して改善されることが示された。

In this paper, we propose a new Sound Event Classification (SEC) method which is inspired in recent works for out-of-distribution detection. In our method, we analyse all the activations of a generic CNN in order to produce feature representations using Gram Matrices. The similarity metrics are evaluated considering all possible classes, and the final prediction is defined as the class that minimizes the deviation with respect to the features seeing during training. The proposed approach can be applied to any CNN and our experimental evaluation of four different architectures on two datasets demonstrated that our method consistently improves the baseline models.
翻訳日:2021-02-24 13:45:13 公開日:2021-02-23
# 物理層設計のための連合学習

Federated Learning for Physical Layer Design ( http://arxiv.org/abs/2102.11777v1 )

ライセンス: Link先を確認
Ahmet M. Elbir and Anastasios K. Papazafeiropoulos and Symeon Chatzinotas(参考訳) 機械学習(ML)のようなモデルフリーの技術は最近、記号検出、チャネル推定、ビームフォーミングなどの物理層設計に多くの関心を集めている。 これらのML技術のほとんどは集中学習(CL)方式を採用し、パラメータサーバ(PS)でのデータセットの可用性を想定し、携帯電話などのエッジデバイスからPSへのデータの送信を要求します。 エッジで生成されたデータを活用することで、フェデレーション学習(fl)が分散学習スキームとして提案され、各デバイスがモデルパラメータを計算し、モデル集約のためにpsに送信し、データセットはエッジに保持される。 したがって、FLはCLよりも通信効率が良くプライバシーが保護され、エッジデバイスでデータが生成される無線通信シナリオに適用できる。 この記事では、物理層設計問題に対するFLベースのトレーニングの最近の進歩を説明し、通信オーバーヘッド、モデル/データ/ハードウェアの複雑さの観点からパフォーマンスを向上させるための可能なソリューションとともに関連する設計課題を特定します。

Model-free techniques, such as machine learning (ML), have recently attracted much interest for physical layer design, e.g., symbol detection, channel estimation and beamforming. Most of these ML techniques employ centralized learning (CL) schemes and assume the availability of datasets at a parameter server (PS), demanding the transmission of data from the edge devices, such as mobile phones, to the PS. Exploiting the data generated at the edge, federated learning (FL) has been proposed recently as a distributed learning scheme, in which each device computes the model parameters and sends them to the PS for model aggregation, while the datasets are kept intact at the edge. Thus, FL is more communication-effici ent and privacy-preserving than CL and applicable to the wireless communication scenarios, wherein the data are generated at the edge devices. This article discusses the recent advances in FL-based training for physical layer design problems, and identifies the related design challenges along with possible solutions to improve the performance in terms of communication overhead, model/data/hardware complexity.
翻訳日:2021-02-24 13:45:04 公開日:2021-02-23
# 中央銀行デジタル通貨(CBDC)プロジェクトのドライバーのデータ駆動分析

Data-driven analysis of central bank digital currency (CBDC) projects drivers ( http://arxiv.org/abs/2102.11807v1 )

ライセンス: Link先を確認
Toshiko Matsui and Daniel Perez(参考訳) 本論文では,CBDCPI(CBC Project Index)を指標として,各国におけるCBDC(Central Bank Digital Currencies)の進展を経済的・技術的要因が予測する範囲を,様々な機械学習手法を用いて定量化する。 私たちは、金融開発指数が私たちのモデルにとって最も重要な特徴であり、一人当たりGDPと国の人口の声と説明責任の指標が続きます。 本研究は,高度の金融開発やデジタルインフラを持つ国がCBDCプロジェクトをより発展させているという,これまでの定性的な研究と一致している。 さらに、異なる時点でCBDCPIを予測すると、堅牢な結果が得られます。

In this paper, we use a variety of machine learning methods to quantify the extent to which economic and technological factors are predictive of the progression of Central Bank Digital Currencies (CBDC) within a country, using as our measure of this progression the CBDC project index (CBDCPI). We find that a financial development index is the most important feature for our model, followed by the GDP per capita and an index of the voice and accountability of the country's population. Our results are consistent with previous qualitative research which finds that countries with a high degree of financial development or digital infrastructure have more developed CBDC projects. Further, we obtain robust results when predicting the CBDCPI at different points in time.
翻訳日:2021-02-24 13:44:45 公開日:2021-02-23
# バイアスを有する過パラメータ人工ニューラルネットワークのトレーニングにおける勾配降下の収束率

Convergence rates for gradient descent in the training of overparameterized artificial neural networks with biases ( http://arxiv.org/abs/2102.11840v1 )

ライセンス: Link先を確認
Arnulf Jentzen, Timo Kr\"oger(参考訳) 近年、人工ニューラルネットワークは、古典的なソリューションのアプローチが限界に達する多数の問題に対処するための強力なツールに発展しています。 しかし、目的関数が凸かつ非スムースであっても、よく知られたバッチ勾配降下のようなランダムに初期化された勾配降下最適化アルゴリズムが、多くの状況でトレーニング損失をゼロにできる理由はまだ不明である。 教師付き学習の分野でこの問題を解決する最も有望なアプローチの1つは、いわゆる過パラメータ化体制における勾配降下最適化の分析である。 本稿では,偏りのある過パラメータ化完全連結型人工ニューラルネットワークについて検討し,この研究分野へのさらなる貢献を提供する。 具体的には、一定数のトレーニングデータに対して、ランダムに初期化されたニューラルネットワークに適用したバッチ勾配降下最適化を用いた平均二乗誤差が、ニューラルネットワークの幅が十分大きい場合、線形収束率でゼロに収束し、学習レートが十分に小さく、トレーニング入力データが一対一独立であることを示す。

In recent years, artificial neural networks have developed into a powerful tool for dealing with a multitude of problems for which classical solution approaches reach their limits. However, it is still unclear why randomly initialized gradient descent optimization algorithms, such as the well-known batch gradient descent, are able to achieve zero training loss in many situations even though the objective function is non-convex and non-smooth. One of the most promising approaches to solving this problem in the field of supervised learning is the analysis of gradient descent optimization in the so-called overparameterized regime. In this article we provide a further contribution to this area of research by considering overparameterized fully-connected rectified artificial neural networks with biases. Specifically, we show that for a fixed number of training data the mean squared error using batch gradient descent optimization applied to such a randomly initialized artificial neural network converges to zero at a linear convergence rate as long as the width of the artificial neural network is large enough, the learning rate is small enough, and the training input data are pairwise linearly independent.
翻訳日:2021-02-24 13:44:20 公開日:2021-02-23
# スケッチモデルを用いたマルチデスティネーショントリップのモデル化

Modeling Multi-Destination Trips with Sketch-Based Model ( http://arxiv.org/abs/2102.11252v2 )

ライセンス: Link先を確認
Micha{\l} Daniluk, Barbara Rychalska, Konrad Go{\l}uchowski, Jacek D\k{a}browski(参考訳) 最近提案されたEMDE(Efficient Manifold Density Estimator)モデルは、セッションベースのレコメンデーションで最新の結果を達成します。 本研究では,Booking Data Challengeコンペティションへの適用を検討する。 この課題の目的は、数百万の匿名の宿泊予約を持つデータセットに基づいて、ユーザー旅行の次の目的地に最適なレコメンデーションを行うことである。 このコンペで2位を獲得します。 まず,都市を有向グラフとして表現し,そのベクトル表現を学習するために,Cleoraour graph Embedding法を用いる。 次に、これまで訪れた都市と旅行に関連するいくつかの特徴に基づいて、次のユーザ目的地を予測するためにEMDEを適用した。 ソースコードはhttps://github.com/S ynerise/booking-chal lenge.comで公開しています。

The recently proposed EMDE (Efficient Manifold Density Estimator) model achieves state of-the-art results in session-based recommendation. In this work we explore its application to Booking Data Challenge competition. The aim of the challenge is to make the best recommendation for the next destination of a user trip, based on dataset with millions of real anonymized accommodation reservations. We achieve 2nd place in this competition. First, we use Cleora - our graph embedding method - to represent cities as a directed graph and learn their vector representation. Next, we apply EMDE to predict the next user destination based on previously visited cities and some features associated with each trip. We release the source code at: https://github.com/S ynerise/booking-chal lenge.
翻訳日:2021-02-24 11:32:19 公開日:2021-02-23
# 画像超解像のための領域ベースディープラーニングアーキテクチャのTchebichef変換

Tchebichef Transform Domain-based Deep Learning Architecture for Image Super-resolution ( http://arxiv.org/abs/2102.10640v2 )

ライセンス: Link先を確認
Ahlad Kumar and Harsh Vardhan Singh(参考訳) 最近の新型コロナウイルスの流行は、人工知能とディープラーニングを用いた医療画像の分野に貢献する研究者を動機づけています。 ここ数年、超解像(SR)は深層学習法を用いて顕著な成果を上げてきた。 低解像度(LR)画像から対応する高分解能(HR)画像への非線形マッピングを学ぶためのディープラーニング手法の能力は、さまざまな研究分野でSRのための説得力のある結果をもたらします。 本稿では,Tchebichef変換領域における深層学習に基づく画像超解像アーキテクチャを提案する。 これは、カスタマイズされたtchebichef畳み込み層(tcl$)を通じて変換層を提案アーキテクチャに統合することで実現される。 TCLの役割は、Tchebichef基底関数を使用して、LRイメージを空間領域から直交変換ドメインに変換することである。 上記の変換の反転は、逆チェビシェフ畳み込み層 (ITCL) と呼ばれる別の層を用いて達成され、変換領域から空間領域へのLR画像の逆変換を行う。 SRのタスクにTchebichef変換ドメインを使用することは、超解像のタスクを簡素化する画像の高低周波数表現の利点を取ることが観察されています。 さらに,コビッドをベースとした医用画像の品質向上のためのトランスファーラーニング手法を導入する。 当院のアーキテクチャはcovid-19のx線およびct画像の品質を高め,臨床診断に有用な画像品質を提供する。 提案した Tchebichef transform domain super- resolution (TTDSR) アーキテクチャを用いて得られた実験結果は、訓練可能なパラメータの少ない深層学習手法と比較して、競合する結果をもたらす。

The recent outbreak of COVID-19 has motivated researchers to contribute in the area of medical imaging using artificial intelligence and deep learning. Super-resolution (SR), in the past few years, has produced remarkable results using deep learning methods. The ability of deep learning methods to learn the non-linear mapping from low-resolution (LR) images to their corresponding high-resolution (HR) images leads to compelling results for SR in diverse areas of research. In this paper, we propose a deep learning based image super-resolution architecture in Tchebichef transform domain. This is achieved by integrating a transform layer into the proposed architecture through a customized Tchebichef convolutional layer ($TCL$). The role of TCL is to convert the LR image from the spatial domain to the orthogonal transform domain using Tchebichef basis functions. The inversion of the aforementioned transformation is achieved using another layer known as the Inverse Tchebichef convolutional Layer (ITCL), which converts back the LR images from the transform domain to the spatial domain. It has been observed that using the Tchebichef transform domain for the task of SR takes the advantage of high and low-frequency representation of images that makes the task of super-resolution simplified. We, further, introduce transfer learning approach to enhance the quality of Covid based medical images. It is shown that our architecture enhances the quality of X-ray and CT images of COVID-19, providing a better image quality that helps in clinical diagnosis. Experimental results obtained using the proposed Tchebichef transform domain super-resolution (TTDSR) architecture provides competitive results when compared with most of the deep learning methods employed using a fewer number of trainable parameters.
翻訳日:2021-02-24 11:32:08 公開日:2021-02-23
# ReINTEL Challenge 2020:ベトナムのソーシャルネットワークサイトにおける信頼できるインテリジェンス識別のための転送学習モデルを公開

ReINTEL Challenge 2020: Exploiting Transfer Learning Modelsfor Reliable Intelligence Identification on Vietnamese Social Network Sites ( http://arxiv.org/abs/2102.10794v2 )

ライセンス: Link先を確認
Kim Thi-Thanh Nguyen, Kiet Van Nguyen(参考訳) 本稿ではベトナム語・音声処理2020(VLSP 2020)共有タスクのベトナム語ソーシャルネットワークサイト(ReINTEL)タスクにおける信頼性の高いインテリジェンス・インデント化を提案する。 このタスクでは、VLSP 2020は、信頼性または信頼性の低いラベルで注釈付けされた約6,000のトレーニングニュース/ポストのデータセットを提供し、テストセットはラベルなしで2,000のサンプルで構成されている。 本稿では, bert4news と PhoBERT を微調整して, ニュースが信頼できるかどうかを推定する, 異なる伝達学習モデルの実験を行う。 実験では,ReINTELのオーガナイザによるプライベートテストセットのAUCスコアが94.52%に達した。

This paper presents the system that we propose for the Reliable Intelligence Indentification on Vietnamese Social Network Sites (ReINTEL) task of the Vietnamese Language and Speech Processing 2020 (VLSP 2020) Shared Task. In this task, the VLSP 2020 provides a dataset with approximately 6,000 trainning news/posts annotated with reliable or unreliable labels, and a test set consists of 2,000 examples without labels. In this paper, we conduct experiments on different transfer learning models, which are bert4news and PhoBERT fine-tuned to predict whether the news is reliable or not. In our experiments, we achieve the AUC score of 94.52% on the private test set from ReINTEL's organizers.
翻訳日:2021-02-24 11:31:37 公開日:2021-02-23
# 部分可観測領域における不確実性最大化:認知的視点

Uncertainty Maximization in Partially Observable Domains: A Cognitive Perspective ( http://arxiv.org/abs/2102.11232v2 )

ライセンス: Link先を確認
Mirza Ramicic and Andrea Bonarini(参考訳) ますます複雑化するアプリケーション領域に直面している人工知能エージェントは、環境との相互作用から生じる圧倒的な量の情報を処理する能力でスケールアップすることができます。 しかし、このスケーリングのプロセスには、学習プロセス自体にとって必ずしも有益ではない冗長な情報のエンコードと処理のコストが伴います。 この研究は、環境の遷移状態間の因果相互作用を表現する可能性が高い特定のタイプの情報に選択的に焦点を合わせることによって、部分可観測領域で定義された学習システムの特性を利用する。 観測空間の適応マスキングは、$\textit{temporal difference displacement}$ criterion に基づいて、部分可観測マルコフ過程上で定義される時間差アルゴリズムの収束を大幅に改善した。

Faced with an ever-increasing complexity of their domains of application, artificial learning agents are now able to scale up in their ability to process an overwhelming amount of information coming from their interaction with an environment. However, this process of scaling does come with a cost of encoding and processing an increasing amount of redundant information that is not necessarily beneficial to the learning process itself. This work exploits the properties of the learning systems defined over partially observable domains by selectively focusing on the specific type of information that is more likely to express the causal interaction among the transitioning states of the environment. Adaptive masking of the observation space based on the $\textit{temporal difference displacement}$ criterion enabled a significant improvement in convergence of temporal difference algorithms defined over a partially observable Markov process.
翻訳日:2021-02-24 11:31:22 公開日:2021-02-23
# Reward Empirical Sufficiencyによる遅延リワードキャリブレーション

Delayed Rewards Calibration via Reward Empirical Sufficiency ( http://arxiv.org/abs/2102.10527v2 )

ライセンス: Link先を確認
Yixuan Liu, Hu Wang, Xiaowei Wang, Xiaoyue Sun, Liuyue Jiang and Minhui Xue(参考訳) 遅延報酬の適切なクレジット割り当ては、強化学習の基本的な課題です。 この問題に対処するために,分類の観点から着想を得た遅延報酬校正パラダイムを提案する。 我々は、よく表現された状態ベクトルは、同一または同等の必須情報を含むので互いに類似性を持つと仮定する。 この目的のために,我々は,分布内の状態ベクトルがエージェントを連続したステップで環境報酬信号に導くような経験的十分分布を定義する。 したがって、純度訓練された分類器は、その分布を取得し、校正された報酬を生成するように設計されている。 実時間抽出を追跡し,異なる報酬関数を構築することで,十分な状態抽出の正しさを検証した。 その結果,分類器は時間的,正確な校正報酬を生成することができた。 さらに、報酬はモデルのトレーニングプロセスをより効率的にすることができる。 最後に, モデルによって抽出された十分条件が, ヒトの観察と共振することを示す。

Appropriate credit assignment for delay rewards is a fundamental challenge for reinforcement learning. To tackle this problem, we introduce a delay reward calibration paradigm inspired from a classification perspective. We hypothesize that well-represented state vectors share similarities with each other since they contain the same or equivalent essential information. To this end, we define an empirical sufficient distribution, where the state vectors within the distribution will lead agents to environmental reward signals in the consequent steps. Therefore, a purify-trained classifier is designed to obtain the distribution and generate the calibrated rewards. We examine the correctness of sufficient state extraction by tracking the real-time extraction and building different reward functions in environments. The results demonstrate that the classifier could generate timely and accurate calibrated rewards. Moreover, the rewards are able to make the model training process more efficient. Finally, we identify and discuss that the sufficient states extracted by our model resonate with the observations of humans.
翻訳日:2021-02-24 11:31:08 公開日:2021-02-23
# グラフニューラルネットワークの自己教師付き学習:統一レビュー

Self-Supervised Learning of Graph Neural Networks: A Unified Review ( http://arxiv.org/abs/2102.10757v2 )

ライセンス: Link先を確認
Yaochen Xie, Zhao Xu, Zhengyang Wang, Shuiwang Ji(参考訳) 監督モードで訓練された深いモデルは、さまざまなタスクで驚くべき成功を達成しました。 ラベル付きサンプルが制限されると、大量のラベルなしサンプルを利用するための新しいパラダイムとして、自己監視学習(SSL)が出現しています。 SSLは自然言語と画像学習タスクで有望なパフォーマンスを達成した。 近年,グラフニューラルネットワーク(GNN)を用いたグラフデータにその成功を拡大する傾向にある。 本調査では,SSLを用いたGNNのトレーニング方法を統一的に検討する。 具体的には、SSLメソッドをコントラストおよび予測モデルに分類する。 いずれのカテゴリでも、メソッドの統一フレームワークと、これらのメソッドがフレームワークの下にある各コンポーネントでどのように異なるかを提供します。 GNNsのためのSSLメソッドの統一された処理は、さまざまな方法の類似性と相違に光を当て、新しい方法とアルゴリズムを開発するための段階を設定します。 また、異なるSSL設定と各設定で使用される対応するデータセットを要約します。 手法開発と経験的比較を容易にするため,共通ベースライン手法,データセット,評価指標の実装を含む,GNNにおけるSSLの標準化テストベッドを開発した。

Deep models trained in supervised mode have achieved remarkable success on a variety of tasks. When labeled samples are limited, self-supervised learning (SSL) is emerging as a new paradigm for making use of large amounts of unlabeled samples. SSL has achieved promising performance on natural language and image learning tasks. Recently, there is a trend to extend such success to graph data using graph neural networks (GNNs). In this survey, we provide a unified review of different ways of training GNNs using SSL. Specifically, we categorize SSL methods into contrastive and predictive models. In either category, we provide a unified framework for methods as well as how these methods differ in each component under the framework. Our unified treatment of SSL methods for GNNs sheds light on the similarities and differences of various methods, setting the stage for developing new methods and algorithms. We also summarize different SSL settings and the corresponding datasets used in each setting. To facilitate methodological development and empirical comparison, we develop a standardized testbed for SSL in GNNs, including implementations of common baseline methods, datasets, and evaluation metrics.
翻訳日:2021-02-24 11:30:55 公開日:2021-02-23
# 深層強化学習の高速化:人間プレイヤーからの衝突回避学習

Accelerated Sim-to-Real Deep Reinforcement Learning: Learning Collision Avoidance from Human Player ( http://arxiv.org/abs/2102.10711v2 )

ライセンス: Link先を確認
Hanlin Niu, Ze Ji, Farshad Arvin, Barry Lennox, Hujun Yin, and Joaquin Carrasco(参考訳) 本稿では,センサレベルのマップレス衝突回避アルゴリズムを提案する。このアルゴリズムは,センサデータを線形および角速度にマッピングし,地図のない未知環境をナビゲートする移動ロボットである。 ロボットが人間体験データと自己探索データの両方から学習できるように,効率的な学習戦略を提案する。 ゲームフォーマットシミュレーションフレームワークは、人間が移動ロボットを目標に遠隔操作できるように設計され、報酬関数を用いて人間のアクションもスコアされる。 人間のプレイヤーデータと自己再生データは、優先された体験再生アルゴリズムを用いてサンプリングされる。 提案手法と学習戦略は,シミュレーション環境である \textit{environment 1} とシミュレーション廊下環境である \textit{environment 2} の2つの異なる実験構成で評価し,その性能について検討した。 提案手法は,環境1および環境2の20\%において,標準的Deep Deterministic Policy Gradient (DDPG)法が要求するトレーニングステップの16\%のみを用いて,同じレベルの報酬を得ていることを示した。 20回のランダムミッションの評価において,提案手法はガゼボの2つの環境において,訓練時間の2~h未満と2.5~h未満で衝突することはなかった。 また、DDPGよりもスムーズな軌道も生成した。 提案手法は実環境における実ロボットにも実装され,性能評価を行った。 シミュレーションソフトウェアを用いてトレーニングしたモデルは,さらに微調整することなく実世界のシナリオに直接適用可能であることを確認でき,DDPGよりも高い堅牢性を示すことができる。 https://youtu.be/Bmw xevgsdGc https://github.com/h anlinniu/turtlebot3_ ddpg_collision_avoid ance

This paper presents a sensor-level mapless collision avoidance algorithm for use in mobile robots that map raw sensor data to linear and angular velocities and navigate in an unknown environment without a map. An efficient training strategy is proposed to allow a robot to learn from both human experience data and self-exploratory data. A game format simulation framework is designed to allow the human player to tele-operate the mobile robot to a goal and human action is also scored using the reward function. Both human player data and self-playing data are sampled using prioritized experience replay algorithm. The proposed algorithm and training strategy have been evaluated in two different experimental configurations: \textit{Environment 1}, a simulated cluttered environment, and \textit{Environment 2}, a simulated corridor environment, to investigate the performance. It was demonstrated that the proposed method achieved the same level of reward using only 16\% of the training steps required by the standard Deep Deterministic Policy Gradient (DDPG) method in Environment 1 and 20\% of that in Environment 2. In the evaluation of 20 random missions, the proposed method achieved no collision in less than 2~h and 2.5~h of training time in the two Gazebo environments respectively. The method also generated smoother trajectories than DDPG. The proposed method has also been implemented on a real robot in the real-world environment for performance evaluation. We can confirm that the trained model with the simulation software can be directly applied into the real-world scenario without further fine-tuning, further demonstrating its higher robustness than DDPG. The video and code are available: https://youtu.be/Bmw xevgsdGc https://github.com/h anlinniu/turtlebot3_ ddpg_collision_avoid ance
翻訳日:2021-02-24 11:30:37 公開日:2021-02-23
# Kuka LBR iiwaロボットを用いた3Dビジョン誘導ピックアンドプレイス

3D Vision-guided Pick-and-Place Using Kuka LBR iiwa Robot ( http://arxiv.org/abs/2102.10710v2 )

ライセンス: Link先を確認
Hanlin Niu, Ze Ji, Zihang Zhu, Hujun Yin, and Joaquin Carrasco(参考訳) 本論文では,3Dカメラを搭載したロボットアームを用いた視覚誘導ピック・アンド・プレースタスク制御システムの開発について述べる。 主なステップには、カメラの本質的および外部的なキャリブレーション、手目キャリブレーション、初期オブジェクトポーズ登録、オブジェクトポーズアライメントアルゴリズム、ピック&プレース実行が含まれます。 提案システムにより,ロボットは新しいオブジェクトを登録する時間に制限のあるオブジェクトを選択・配置することができ,開発したソフトウェアを新たなオブジェクトシナリオに迅速に適用することができる。 この統合システムは、kuka iiwaとrobotiq gripper(2本の指グリッパーと3本の指グリッパー)と3dカメラ(intel realsense d415カメラ、intel realsense d435カメラ、microsoft kinect v2)のハードウェアの組み合わせでテストされた。 システム全体は、他のロボットアーム、グリッパー、および3dカメラの組み合わせのためにも変更できる。

This paper presents the development of a control system for vision-guided pick-and-place tasks using a robot arm equipped with a 3D camera. The main steps include camera intrinsic and extrinsic calibration, hand-eye calibration, initial object pose registration, objects pose alignment algorithm, and pick-and-place execution. The proposed system allows the robot be able to to pick and place object with limited times of registering a new object and the developed software can be applied for new object scenario quickly. The integrated system was tested using the hardware combination of kuka iiwa, Robotiq grippers (two finger gripper and three finger gripper) and 3D cameras (Intel realsense D415 camera, Intel realsense D435 camera, Microsoft Kinect V2). The whole system can also be modified for the combination of other robotic arm, gripper and 3D camera.
翻訳日:2021-02-24 11:30:07 公開日:2021-02-23