このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210224となっている論文です。

PDF登録状況(公開日: 20210224)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) boosted fair mollifierを用いたバイアス軽減のためのデータ前処理 [全文訳有]

Data Preprocessing to Mitigate Bias with Boosted Fair Mollifiers ( http://arxiv.org/abs/2012.00188v2 )

ライセンス: CC BY 4.0
Alexander Soen, Hisham Husain, Richard Nock(参考訳) 最近の論文celis et al.において。 (2020)は、データ分布自体を補正する公平性に対する新しいアプローチを導入した。 このアプローチは計算上魅力的だが、ターゲット分布に関する近似保証は、データベースの集計統計に(典型的には限られた)多くの制約に依存する必要があるため、かなりゆるやかになる可能性がある。 筆者らは、最近プライバシーに導入された数学的オブジェクト -- 分布のモラファイヤ -- と、機械学習への一般的なアプローチ -- を利用して、celisらと同じ系統でアプローチする。 しかし、特に、正確さとより細かい保証の点で、より優れた保証を含む、同じ障害がない。 このアプローチは指数族の十分な統計学を学ぶことを伴う。 トレーニングデータが表式である場合、十分な統計量は、解釈可能性が(非)フェアネスの原因の手がかりとなる決定木によって定義できる。 シミュレーションおよび実世界のデータに対する結果の品質を示す実験。

In a recent paper, Celis et al. (2020) introduced a new approach to fairness that corrects the data distribution itself. The approach is computationally appealing, but its approximation guarantees with respect to the target distribution can be quite loose as they need to rely on a (typically limited) number of constraints on data-based aggregated statistics; also resulting in a fairness guarantee which can be data dependent. Our paper makes use of a mathematical object recently introduced in privacy -- mollifiers of distributions -- and a popular approach to machine learning -- boosting -- to get an approach in the same lineage as Celis et al. but without the same impediments, including in particular, better guarantees in terms of accuracy and finer guarantees in terms of fairness. The approach involves learning the sufficient statistics of an exponential family. When the training data is tabular, the sufficient statistics can be defined by decision trees whose interpretability can provide clues on the source of (un)fairness. Experiments display the quality of the results for simulated and real-world data.
翻訳日:2021-06-01 09:43:48 公開日:2021-02-24
# オンラインアクティブセミ教師付き学習のためのメッセージパッシング適応共鳴理論

Message Passing Adaptive Resonance Theory for Online Active Semi-supervised Learning ( http://arxiv.org/abs/2012.01227v2 )

ライセンス: Link先を確認
Taehyeong Kim, Injune Hwang, Hyundo Lee, Hyunseo Kim, Won-Seok Choi, Joseph J. Lim, Byoung-Tak Zhang(参考訳) アクティブラーニングはラベル付きデータから最も有益なサンプルのみを繰り返しクエリすることにより、ラベル付けの労力とトレーニング時間を短縮するために広く使われている。 ストレージやプライバシの問題によってデータが無期限に保存できない実世界の問題では、新しいデータサンプルが観察されると、クエリの選択とモデル更新を行う必要がある。 これらの課題に対処するために,様々なオンラインアクティブラーニング手法が研究されてきたが,代表的なクエリサンプルの選択やモデルの効率的な更新は困難である。 本研究では,オンラインアクティブセミ教師付き学習のためのメッセージパッシング適応共振理論(mpart)を提案する。 提案モデルは,入力データの分布とトポロジをオンラインで学習する。 その後、ラベルのないデータのクラスを推論し、トポロジカルグラフ上のノード間のメッセージパッシングを通じて情報および代表的なサンプルを選択する。 MPARTは、ストリームベースの選択的サンプリングシナリオにおいて、有効なサンプルをオンザフライでクエリし、ラベル付きデータとラベルなしデータの両方を使用して、分類モデルを継続的に改善する。 我々は,mpartがオンラインアクティブ学習環境における競争モデルを大幅に上回ることを示すため,クエリ選択戦略と頻度を比較検討した。

Active learning is widely used to reduce labeling effort and training time by repeatedly querying only the most beneficial samples from unlabeled data. In real-world problems where data cannot be stored indefinitely due to limited storage or privacy issues, the query selection and the model update should be performed as soon as a new data sample is observed. Various online active learning methods have been studied to deal with these challenges; however, there are difficulties in selecting representative query samples and updating the model efficiently. In this study, we propose Message Passing Adaptive Resonance Theory (MPART) for online active semi-supervised learning. The proposed model learns the distribution and topology of the input data online. It then infers the class of unlabeled data and selects informative and representative samples through message passing between nodes on the topological graph. MPART queries the beneficial samples on-the-fly in stream-based selective sampling scenarios, and continuously improve the classification model using both labeled and unlabeled data. We evaluate our model with comparable query selection strategies and frequencies, showing that MPART significantly outperforms the competitive models in online active learning environments.
翻訳日:2021-05-25 04:12:23 公開日:2021-02-24
# (参考訳) Ditto: パーソナライゼーションによる公正でロバストなフェデレーション学習

Ditto: Fair and Robust Federated Learning Through Personalization ( http://arxiv.org/abs/2012.04221v2 )

ライセンス: CC BY 4.0
Tian Li, Shengyuan Hu, Ahmad Beirami, Virginia Smith(参考訳) 公正性と堅牢性は、連合学習システムにとって重要な関心事である。 本研究では,データに対するロバスト性を特定し,デバイス間の性能の均一性として測定されたモデル中毒攻撃と公平性が,統計的に異質なネットワークにおいて競合する制約であることを示す。 これらの制約に対処するために、パーソナライズされたフェデレーション学習のためのシンプルで一般的なフレームワークであるDittoを採用し、拡張性のある解法を開発した。 理論的には,線形問題のクラスにおいて,公平性とロバスト性を同時に達成するためのディットーの能力を分析する。 経験的に、一連のフェデレーションデータセットを通して、dittoは最近のパーソナライズ方法に比べて競争力のあるパフォーマンスを達成できるだけでなく、最先端のフェアベースラインやロバストベースラインと比較して、より正確で堅牢で公平なモデルを可能にする。

Fairness and robustness are two important concerns for federated learning systems. In this work, we identify that robustness to data and model poisoning attacks and fairness, measured as the uniformity of performance across devices, are competing constraints in statistically heterogeneous networks. To address these constraints, we propose employing a simple, general framework for personalized federated learning, Ditto, and develop a scalable solver for it. Theoretically, we analyze the ability of Ditto to achieve fairness and robustness simultaneously on a class of linear problems. Empirically, across a suite of federated datasets, we show that Ditto not only achieves competitive performance relative to recent personalization methods, but also enables more accurate, robust, and fair models relative to state-of-the-art fair or robust baselines.
翻訳日:2021-05-17 10:00:35 公開日:2021-02-24
# 校正誤差推定におけるバイアス軽減

Mitigating Bias in Calibration Error Estimation ( http://arxiv.org/abs/2012.08668v2 )

ライセンス: Link先を確認
Rebecca Roelofs, Nicholas Cain, Jonathon Shlens, Michael C. Mozer(参考訳) 信頼できる機械学習システムを構築するには、信頼性のレベルを正確に理解する必要がある。 キャリブレーションはモデルの信頼性の精度を計測し、キャリブレーションのほとんどの研究はキャリブレーション誤差の試算値であるECE_binを改善する技術に焦点を当てている。 本研究では,モデル誤校正の性質,評価データセットのサイズ,ビン数に応じて,ECE_binが真の校正誤差を体系的に過大評価または過大評価できることを示すシミュレーションフレームワークを提案する。 批判的に言えば、ECE_binは完全な校正モデルに対して強いバイアスを受けている。 本稿では,キャリブレーション関数のモノトニック性を維持しつつ,ビン数を可能な限り大きく選択した簡易なキャリブレーション誤差指標ece_sweepを提案する。 CIFAR-10, CIFAR-100, ImageNetのニューラルネットワーク信頼性スコアに適合する分布の測定値を評価すると, ECE_sweepはキャリブレーション誤差のバイアスの少ない推定器を生成し, 類似したデータセットでトレーニングされたモデルのキャリブレーションを評価したい研究者なら誰でも利用すべきである。

Building reliable machine learning systems requires that we correctly understand their level of confidence. Calibration measures the degree of accuracy in a model's confidence and most research in calibration focuses on techniques to improve an empirical estimate of calibration error, ECE_bin. We introduce a simulation framework that allows us to empirically show that ECE_bin can systematically underestimate or overestimate the true calibration error depending on the nature of model miscalibration, the size of the evaluation data set, and the number of bins. Critically, we find that ECE_bin is more strongly biased for perfectly calibrated models. We propose a simple alternative calibration error metric, ECE_sweep, in which the number of bins is chosen to be as large as possible while preserving monotonicity in the calibration function. Evaluating our measure on distributions fit to neural network confidence scores on CIFAR-10, CIFAR-100, and ImageNet, we show that ECE_sweep produces a less biased estimator of calibration error and therefore should be used by any researcher wishing to evaluate the calibration of models trained on similar datasets.
翻訳日:2021-05-07 05:41:36 公開日:2021-02-24
# xai4wind:風力発電機の運転・保守における意思決定支援のためのマルチモーダルナレッジグラフデータベース

XAI4Wind: A Multimodal Knowledge Graph Database for Explainable Decision Support in Operations & Maintenance of Wind Turbines ( http://arxiv.org/abs/2012.10489v2 )

ライセンス: Link先を確認
Joyjit Chatterjee, Nina Dethlefs(参考訳) コンディションベースの監視(CBM)は、信号処理や振動解析から、SCADA(Supervisory Control & Acquisition)データを用いた人工知能(AI)モデルまで、タービンの運用上の不整合や故障の監視に広く利用されている。 しかし、既存の研究では、特にCBM技術が予測した障害に対応する適切な保守行動報告を推奨することで、O&M(O&M)における説明可能な意思決定支援を促進するための具体的な基盤を提示していない。 知識グラフデータベース(KG)は、ドメイン固有の情報の集合をモデル化し、医療や金融などの領域における現実的な意思決定支援において本質的な役割を担っているが、風力産業において非常に注目されている。 XAI4Windは,実世界の運転タービンにおける説明可能な意思決定支援のためのマルチモーダル知識グラフであり,対話型クエリと推論によるO&M計画に向けたKGのいくつかのユースケースを実証し,グラフデータ科学アルゴリズムを用いた新たな洞察を提供する。 提案したKGは、SCADAパラメータやアラームなどのマルチモーダルな知識と、自然言語のメンテナンスアクション、イメージなどを組み合わせたものだ。 異常予測のための説明可能なAIモデルとKGを統合することにより, タービンサブコンポーネントの動作不整合を予測するために, 効果的に人間知能なO&M戦略を提供できることを示す。 これにより、従来のブラックボックスaiモデルの信頼性と信頼性が向上する。 我々はKGを公に公開し、風力産業における自律的な意思決定支援のためのビルディンググラウンドとして利用できるようにする。

Condition-based monitoring (CBM) has been widely utilised in the wind industry for monitoring operational inconsistencies and failures in turbines, with techniques ranging from signal processing and vibration analysis to artificial intelligence (AI) models using Supervisory Control & Acquisition (SCADA) data. However, existing studies do not present a concrete basis to facilitate explainable decision support in operations and maintenance (O&M), particularly for automated decision support through recommendation of appropriate maintenance action reports corresponding to failures predicted by CBM techniques. Knowledge graph databases (KGs) model a collection of domain-specific information and have played an intrinsic role for real-world decision support in domains such as healthcare and finance, but have seen very limited attention in the wind industry. We propose XAI4Wind, a multimodal knowledge graph for explainable decision support in real-world operational turbines and demonstrate through experiments several use-cases of the proposed KG towards O&M planning through interactive query and reasoning and providing novel insights using graph data science algorithms. The proposed KG combines multimodal knowledge like SCADA parameters and alarms with natural language maintenance actions, images etc. By integrating our KG with an Explainable AI model for anomaly prediction, we show that it can provide effective human-intelligible O&M strategies for predicted operational inconsistencies in various turbine sub-components. This can help instil better trust and confidence in conventionally black-box AI models. We make our KG publicly available and envisage that it can serve as the building ground for providing autonomous decision support in the wind industry.
翻訳日:2021-05-01 18:16:11 公開日:2021-02-24
# fair for all: 分類のためのベストエフォートフェアネス保証

Fair for All: Best-effort Fairness Guarantees for Classification ( http://arxiv.org/abs/2012.10216v4 )

ライセンス: Link先を確認
Anilesh K. Krishnaswamy, Zhihao Jiang, Kangning Wang, Yu Cheng, and Kamesh Munagala(参考訳) 群に基づくフェアネスの概念(例えば \emph{parity} や \emph{equalized odds} )に対する標準的なアプローチは、既知のグループ(人種、性別など)におけるパフォーマンスの絶対測度を等化しようとする。 その結果、本質的に分類が難しいグループは、他のグループのパフォーマンスを抑えることができ、予期せぬグループに対する保証は提供されない。 代わりに、クラス $\mathcal{g}$ における各グループ $g$ は、$g$ における最高の分類器のパフォーマンスと関係しているという公平性の概念を提案する。 特に、(a)$\mathcal{G}$はデータ内のすべての可能な群(部分集合)で構成され、(b)$\mathcal{G}$はより合理化されている。 最初の設定は、完全に未知である群に似ており、任意の可能なグループに対して$g$ を保証する {\sc pf} (proportional fairness) 分類器を考案し、データセット内の$g$ の相対的なサイズでスケールされた$g$ の最適分類器のそれと比例する精度を保証します。 すべての可能な群を含むため、それらのいくつかは関連付けるには複雑すぎる可能性があるため、ここでの最悪の理論的保証はより小さな部分集合に対して比例的に弱くなる必要がある。 2つ目の設定では、$g$の任意の$g \in \mathcal{G}$に対して精度を求める {\sc BeFair} (Best-effort Fair)フレームワークを考案する。 このような保証を目指して非凸問題が発生し、$\mathcal{g}$ が線形仮説の集合であるときにこの困難を回避するための新しい手法を設計する。 実世界のデータセット上でアルゴリズムをテストし、その性能に関する興味深い比較知見を示す。

Standard approaches to group-based notions of fairness, such as \emph{parity} and \emph{equalized odds}, try to equalize absolute measures of performance across known groups (based on race, gender, etc.). Consequently, a group that is inherently harder to classify may hold back the performance on other groups; and no guarantees can be provided for unforeseen groups. Instead, we propose a fairness notion whose guarantee, on each group $g$ in a class $\mathcal{G}$, is relative to the performance of the best classifier on $g$. We apply this notion to broad classes of groups, in particular, where (a) $\mathcal{G}$ consists of all possible groups (subsets) in the data, and (b) $\mathcal{G}$ is more streamlined. For the first setting, which is akin to groups being completely unknown, we devise the {\sc PF} (Proportional Fairness) classifier, which guarantees, on any possible group $g$, an accuracy that is proportional to that of the optimal classifier for $g$, scaled by the relative size of $g$ in the data set. Due to including all possible groups, some of which could be too complex to be relevant, the worst-case theoretical guarantees here have to be proportionally weaker for smaller subsets. For the second setting, we devise the {\sc BeFair} (Best-effort Fair) framework which seeks an accuracy, on every $g \in \mathcal{G}$, which approximates that of the optimal classifier on $g$, independent of the size of $g$. Aiming for such a guarantee results in a non-convex problem, and we design novel techniques to get around this difficulty when $\mathcal{G}$ is the set of linear hypotheses. We test our algorithms on real-world data sets, and present interesting comparative insights on their performance.
翻訳日:2021-05-01 18:00:10 公開日:2021-02-24
# (参考訳) 小さな事前学習モデルを任意に大規模TSPインスタンスに一般化する [全文訳有]

Generalize a Small Pre-trained Model to Arbitrarily Large TSP Instances ( http://arxiv.org/abs/2012.10658v2 )

ライセンス: CC BY 4.0
Zhang-Hua Fu, Kai-Bin Qiu, Hongyuan Zha(参考訳) 旅行セールスマン問題 (TSP) では,既存の教師付き学習に基づくアルゴリズムは,一般化能力の欠如に重きをなしている。 この欠点を克服するために、グラフサンプリング、グラフ変換、ヒートマップの融合といった一連の手法に基づいて、任意の大きさのTSPインスタンスのヒートマップを反復的に構築することのできる小規模モデルを(教師付き方式で)訓練しようとする。 さらに、熱マップを強化学習アプローチ(モンテカルロ木探索)に投入し、高品質な解の探索を指導する。 多数のインスタンス(最大10,000の頂点を持つ)に基づく実験結果は、この新しいアプローチが既存の機械学習ベースのTSPアルゴリズムよりも明らかに優れており、トレーニングされたモデルの一般化能力が大幅に向上していることを示している。

For the traveling salesman problem (TSP), the existing supervised learning based algorithms suffer seriously from the lack of generalization ability. To overcome this drawback, this paper tries to train (in supervised manner) a small-scale model, which could be repetitively used to build heat maps for TSP instances of arbitrarily large size, based on a series of techniques such as graph sampling, graph converting and heat maps merging. Furthermore, the heat maps are fed into a reinforcement learning approach (Monte Carlo tree search), to guide the search of high-quality solutions. Experimental results based on a large number of instances (with up to 10,000 vertices) show that, this new approach clearly outperforms the existing machine learning based TSP algorithms, and significantly improves the generalization ability of the trained model.
翻訳日:2021-05-01 15:48:01 公開日:2021-02-24
# 収縮前処理による構成スパースガウス過程の学習

Learning Compositional Sparse Gaussian Processes with a Shrinkage Prior ( http://arxiv.org/abs/2012.11339v2 )

ライセンス: Link先を確認
Anh Tong, Toan Tran, Hung Bui, Jaesik Choi(参考訳) カーネル関数の適切なセットを選択することは、各カーネル構造が異なるモデル複雑さとデータ適合性を持つため、ガウス過程(GP)モデルを学習する上で重要な問題である。 近年, 自動カーネル合成法は, 正確な予測だけでなく, 検索による解釈性も向上している。 しかし,既存の手法ではカーネル合成学習が遅い。 大規模データに対処するため,合成カーネル内の個々の加法的カーネルに関連付けられた点群から構築した,GPのスパース近似後進MultiSVGPを提案する。 この近似は経験的観察から合成カーネルを学習するのに適していることを示す。 また,従来のsparse gpと比較して誤差境界を理論的に正当化する。 探索に基づくアプローチとは対照的に,Horseshoe を用いたカーネル選択におけるスパーシリティを扱うことにより,カーネル構成を学習するための新しい確率論的アルゴリズムを提案する。 本モデルは,計算時間を大幅に削減した時系列特性をキャプチャし,実世界のデータセット上での競合回帰性能を発揮できることを実証する。

Choosing a proper set of kernel functions is an important problem in learning Gaussian Process (GP) models since each kernel structure has different model complexity and data fitness. Recently, automatic kernel composition methods provide not only accurate prediction but also attractive interpretability through search-based methods. However, existing methods suffer from slow kernel composition learning. To tackle large-scaled data, we propose a new sparse approximate posterior for GPs, MultiSVGP, constructed from groups of inducing points associated with individual additive kernels in compositional kernels. We demonstrate that this approximation provides a better fit to learn compositional kernels given empirical observations. We also provide theoretically justification on error bound when compared to the traditional sparse GP. In contrast to the search-based approach, we present a novel probabilistic algorithm to learn a kernel composition by handling the sparsity in the kernel selection with Horseshoe prior. We demonstrate that our model can capture characteristics of time series with significant reductions in computational time and have competitive regression performance on real-world data sets.
翻訳日:2021-04-27 06:44:51 公開日:2021-02-24
# 生成逆数ネットワークを用いた長期連続多型生成プロファイルの生成

Generating Long-term Continuous Multi-type Generation Profiles using Generative Adversarial Network ( http://arxiv.org/abs/2012.13344v2 )

ライセンス: Link先を確認
Ming Dong, Kaigui Xie, Wenyuan Li(参考訳) 今日、新しい技術の採用により、電力系統のダイナミクスが大幅に向上している。 ほとんどのユーティリティ企業が、ピークや平均値などの離散的なパワーレベルに基づいて実行する従来の長期計画研究は、システムのダイナミクスを反映することができず、しばしばシステムの信頼性の欠陥を正確に予測できない。 その結果、時系列に基づく長期計画研究を実現するためには、8760時間プロファイルなどの長期的連続プロファイルが必要である。 しかし、操作研究に使用される短期プロファイルとは異なり、歴史的時間変化特性と将来の期待するパワーマグニチュードの両方を反映できる長期連続プロファイルの生成は非常に困難である。 平均プロファイルのような現在の手法には大きな欠点がある。 本稿では,この課題を解決するために,gan (generative adversarial networks) を用いた複数世代のプロファイル生成手法を提案する。 異なる時間レベルの時間変化特性を捉えるために,多段階プロファイル合成法を提案する。 単一型 GAN と修正型 Conditional GAN システムの両方が開発されている。 ユニークなプロファイル評価指標が提案されている。 提案手法は, 公開データセットに基づいて評価し, 長期連続マルチタイプ生成プロファイルを生成するための優れた性能とアプリケーション価値を示した。

Today, the adoption of new technologies has increased power system dynamics significantly. Traditional long-term planning studies that most utility companies perform based on discrete power levels such as peak or average values cannot reflect system dynamics and often fail to accurately predict system reliability deficiencies. As a result, long-term future continuous profiles such as the 8760 hourly profiles are required to enable time-series based long-term planning studies. However, unlike short-term profiles used for operation studies, generating long-term continuous profiles that can reflect both historical time-varying characteristics and future expected power magnitude is very challenging. Current methods such as average profiling have major drawbacks. To solve this challenge, this paper proposes a completely novel approach to generate such profiles for multiple generation types using Generative Adversarial Networks (GAN). A multi-level profile synthesis process is proposed to capture time-varying characteristics at different time levels. Both Single-type GAN and a modified Conditional GAN systems are developed. Unique profile evaluation metrics are proposed. The proposed approach was evaluated based on a public dataset and demonstrated great performance and application value for generating long-term continuous multi-type generation profiles.
翻訳日:2021-04-26 07:14:14 公開日:2021-02-24
# (参考訳) GraphBreak:ネットワークコミュニティベースの規制医学、遺伝子共発現、リンク不均衡分析、機能アノテーションなどのためのツール [全文訳有]

GraphBreak: Tool for Network Community based Regulatory Medicine, Gene co-expression, Linkage Disequilibrium analysis, functional annotation and more ( http://arxiv.org/abs/2103.06145v1 )

ライセンス: CC BY 4.0
Abhishek Narain Singh(参考訳) グラフネットワーク科学は、特に、個々の機能的役割に対する個々のエンティティの理解が複雑で時間がかかるビッグデータの観点から、ますます普及しています。 遺伝子が一組の遺伝子変異体によって制御されている場合、その遺伝子セットは共通のまたは関連する機能目的のために採用される可能性が高い。 ネットワークのネットワークからコミュニティをグループ化し、抽出することは、システムの複雑さを理解するために重要となり、解離および機能的関連のための遺伝子を優先順位付けする。 一度に1つずつエンティティを研究する場合、ワークロードは減少する。 そこで本研究では,遺伝子共発現,タンパク質相互作用,制御ネットワークなど,コミュニティ検出アプリケーションのための一連のツールであるgraphbreakを提案する。 graphbreakは、入力データが遺伝子共発現ネットワーク、タンパク質-タンパク質相互作用ネットワーク、シグナル伝達経路、代謝ネットワークなど、必要なフォーマットで供給された場合、他の研究のためにデプロイすることができる。 graph-breakは、検出されたコミュニティの疾患関連に関する下流分析において、重要なユースケースを示した。 コミュニティ検出と分析のすべての独立したステップがアルゴリズムのステップバイステップサブパートであれば、GraphBreakはコミュニティベースの機能的特徴付けのための新しいアルゴリズムと見なすことができる。 この目的のために、様々なアルゴリズムの実装モジュールを単一のスクリプトに組み合わせることで、GraphBreakの新規性を示している。 他の類似のツールと比較して、GraphBreakでは、そのメンバー遺伝子を過剰に表現して、病気と統計的に関連づけるコミュニティをよりよく検出できるため、薬物配置や薬物再配置に優先順位付けできる遺伝子をターゲットにしている。

Graph network science is becoming increasingly popular, notably in big-data perspective where understanding individual entities for individual functional roles is complex and time consuming. It is likely when a set of genes are regulated by a set of genetic variants, the genes set is recruited for a common or related functional purpose. Grouping and extracting communities from network of associations becomes critical to understand system complexity, thus prioritizing genes for dis-ease and functional associations. Workload is reduced when studying entities one at a time. For this, we present GraphBreak, a suite of tools for community detection application, such as for gene co-expression, protein interaction, regulation network, etc.Although developed for use case of eQTLs regulatory genomic net-work community study -- results shown with our analysis with sample eQTL data. Graphbreak can be deployed for other studies if input data has been fed in requisite format, including but not limited to gene co-expression networks, protein-protein interaction network, signaling pathway and metabolic network. Graph-Break showed critical use case value in its downstream analysis for disease association of communities detected. If all independent steps of community detection and analysis are a step-by-step sub-part of the algorithm, GraphBreak can be considered a new algorithm for community based functional characterization. Combination of various algorithmic implementation modules into a single script for this purpose illustrates GraphBreak novelty. Compared to other similar tools, with GraphBreak we can better detect communities with over-representation of its member genes for statistical association with diseases, therefore target genes which can be prioritized for drug-positioning or drug-re-positioning as the case be.
翻訳日:2021-04-05 08:51:47 公開日:2021-02-24
# 限定データを用いた表現型表現のための一般化・転送可能な患者言語表現

Generalized and Transferable Patient Language Representation for Phenotyping with Limited Data ( http://arxiv.org/abs/2103.00482v1 )

ライセンス: Link先を確認
Yuqi Si, Elmer V Bernstam, Kirk Roberts(参考訳) 伝達学習による表現学習のパラダイムは、臨床自然言語処理を大幅に強化する可能性がある。 本稿では,医療言語から一般化した患者表現を学習するためのマルチタスク事前学習と微調整手法を提案する。 モデルはまず、異なるが関連する高頻度表現型で事前訓練され、下流ターゲットタスクでさらに微調整される。 当社の主な貢献は、このテクニックが低プレバレンス表現型に与える影響に焦点をあてています。 本研究は,38例の循環器疾患,23例の呼吸器疾患,17例の生殖器疾患を含む,低頻度の表現型に関するマルチタスク事前訓練モデルの表現性を検証する。 マルチタスク事前学習は学習効率を向上し,表現型の大部分で一貫して高い性能を達成する。 最も重要なのは、マルチタスク事前学習は、ほぼ常に最高のパフォーマンスモデルであるか、最も優れたパフォーマンスモデルに近いパフォーマンスを実現していることです。 これらの結果から,このマルチタスク・トランスファー学習アーキテクチャは,多くの表現型に対して汎用的かつ伝達可能な患者言語表現を開発するための堅牢なアプローチである,という結論に至った。

The paradigm of representation learning through transfer learning has the potential to greatly enhance clinical natural language processing. In this work, we propose a multi-task pre-training and fine-tuning approach for learning generalized and transferable patient representations from medical language. The model is first pre-trained with different but related high-prevalence phenotypes and further fine-tuned on downstream target tasks. Our main contribution focuses on the impact this technique can have on low-prevalence phenotypes, a challenging task due to the dearth of data. We validate the representation from pre-training, and fine-tune the multi-task pre-trained models on low-prevalence phenotypes including 38 circulatory diseases, 23 respiratory diseases, and 17 genitourinary diseases. We find multi-task pre-training increases learning efficiency and achieves consistently high performance across the majority of phenotypes. Most important, the multi-task pre-training is almost always either the best-performing model or performs tolerably close to the best-performing model, a property we refer to as robust. All these results lead us to conclude that this multi-task transfer learning architecture is a robust approach for developing generalized and transferable patient language representations for numerous phenotypes.
翻訳日:2021-04-05 00:51:56 公開日:2021-02-24
# 深層学習による蛍光顕微鏡による細胞自動計測

Automatic Cell Counting in Flourescent Microscopy Using Deep Learning ( http://arxiv.org/abs/2103.01141v1 )

ライセンス: Link先を確認
R. Morelli, L. Clissa, M. Dalla, M. Luppi, L. Rinaldi, A. Zoccoli(参考訳) 蛍光顕微鏡で細胞を数えるのは退屈で時間を要する作業で、研究者は異なる実験条件が興味のある生物学的構造に与える影響を評価する必要がある。 このようなオブジェクトは一般に識別が容易であるが、手動で細胞に注釈を付けるプロセスは、オペレーターが境界のケースを解釈することによる任意性を受けることがある。 本稿では,完全畳み込みネットワークをバイナリセグメンテーション方式で活用し,関心対象のローカライズを行う機械学習手法を提案する。 カウントは検出されたアイテムの数として取得される。 具体的には、残留ユニットと拡張ボトルネックを利用して視野を拡大するUNetのようなアーキテクチャを採用する。 さらに,重み付きマップを用いて,セル境界の誤差を過密化とともにペナルティ化する。 これらの変更により、よりコンテキストが提供され、ピクセル単位での分類において、モデルは関連する機能に集中せざるを得なくなる。 その結果、特に塊状細胞、アーティファクト、および共役生物構造の存在下でのモデル性能が向上する。 ドメインエキスパートによる結果の後方評価は、モデルが関心のある細胞を正しく検出することを確認する。 このモデルは、誤った予測でさえ、演算子の解釈の限界内に収まるような人間レベルの能力を示す。 この定性評価は、定量測定値によって${F_1}$スコア0.87と相関する。 解釈の難しさにも拘わらず、平均値と中央値の絶対誤差が0.8と1のそれぞれで証明されるように、結果はカウントタスクにも満足できる。

Counting cells in fluorescent microscopy is a tedious, time-consuming task that researchers have to accomplish to assess the effects of different experimental conditions on biological structures of interest. Although such objects are generally easy to identify, the process of manually annotating cells is sometimes subject to arbitrariness due to the operator's interpretation of the borderline cases. We propose a Machine Learning approach that exploits a fully-convolutional network in a binary segmentation fashion to localize the objects of interest. Counts are then retrieved as the number of detected items. Specifically, we adopt a UNet-like architecture leveraging residual units and an extended bottleneck for enlarging the field-of-view. In addition, we make use of weighted maps that penalize the errors on cells boundaries increasingly with overcrowding. These changes provide more context and force the model to focus on relevant features during pixel-wise classification. As a result, the model performance is enhanced, especially in presence of clumping cells, artifacts and confounding biological structures. Posterior assessment of the results with domain experts confirms that the model detects cells of interest correctly. The model demonstrates a human-level ability inasmuch even erroneous predictions seem to fall within the limits of operator interpretation. This qualitative assessment is also corroborated by quantitative metrics as an ${F_1}$ score of 0.87. Despite some difficulties in interpretation, results are also satisfactory with respect to the counting task, as testified by mean and median absolute error of, respectively, 0.8 and 1.
翻訳日:2021-04-05 00:51:25 公開日:2021-02-24
# Deep Deterministic Policy GradientとCooperative Adaptive Cruise Controlに基づくハイブリッドカー追従戦略

Hybrid Car-Following Strategy based on Deep Deterministic Policy Gradient and Cooperative Adaptive Cruise Control ( http://arxiv.org/abs/2103.03796v1 )

ライセンス: Link先を確認
Ruidong Yan, Rui Jiang, Bin Jia, Diange Yang, and Jin Huang(参考訳) DDPG(Deep Deterministic Policy gradient)に基づく自動車追従戦略は、複雑な環境を探索する能力によって微分方程式モデルの制約を突破することができる。 しかし、DDPGの車追従性能は、通常、不合理な報酬関数設計、訓練不足、サンプリング効率の低下によって劣化する。 このような問題を解決するために、DDPGと協調適応クルーズ制御(CACC)に基づくハイブリッドカー追従戦略を提案する。 まず、各フレームでCACCとDDPGを同時に計算するマルコフ決定プロセスとして、車両追従処理をモデル化する。 現在の状態になると、それぞれCACCとDDPGから2つの作用が得られる。 そして、ハイブリッド戦略の出力として、より大きな報酬を提供するものに対応する最適なアクションを選択する。 一方、加速度の変化率を所望値よりも小さくするようにルールが設計されている。 したがって,提案手法はcaccによる車追従の基本性能を保証するだけでなく,ddpgによる複雑な環境への探索の利点を最大限に活用する。 最後に, シミュレーションの結果, 提案手法の車追従性能は, DDPG や CACC と比較して, 全状態空間で大幅に向上した。

Deep deterministic policy gradient (DDPG) based car-following strategy can break through the constraints of the differential equation model due to the ability of exploration on complex environments. However, the car-following performance of DDPG is usually degraded by unreasonable reward function design, insufficient training and low sampling efficiency. In order to solve this kind of problem, a hybrid car-following strategy based on DDPG and cooperative adaptive cruise control (CACC) is proposed. Firstly, the car-following process is modeled as markov decision process to calculate CACC and DDPG simultaneously at each frame. Given a current state, two actions are obtained from CACC and DDPG, respectively. Then an optimal action, corresponding to the one offering a larger reward, is chosen as the output of the hybrid strategy. Meanwhile, a rule is designed to ensure that the change rate of acceleration is smaller than the desired value. Therefore, the proposed strategy not only guarantees the basic performance of car-following through CACC, but also makes full use of the advantages of exploration on complex environments via DDPG. Finally, simulation results show that the car-following performance of proposed strategy is improved significantly as compared with that of DDPG and CACC in the whole state space.
翻訳日:2021-04-05 00:50:46 公開日:2021-02-24
# 効率的なレコメンデーションシステムにおける埋め込みのための意味的制約付きメモリ割り当て(SCMA)

Semantically Constrained Memory Allocation (SCMA) for Embedding in Efficient Recommendation Systems ( http://arxiv.org/abs/2103.06124v1 )

ライセンス: Link先を確認
Aditya Desai, Yanzhou Pan, Kuangyuan Sun, Li Chou, Anshumali Shrivastava(参考訳) ディープラーニングに基づくモデルは、レコメンデーションシステムにおける最先端のパフォーマンスを達成するために利用される。 これらのモデルの鍵となる課題は、数百万のカテゴリクラスやトークンを扱うことです。 標準的なアプローチは、各トークンのエンドツーエンド、濃密な潜在表現、あるいは埋め込みを学ぶことである。 結果として生じる埋め込みは、トークンの数で爆発する大量のメモリを必要とする。 これらのモデルによるトレーニングと推論は、ストレージとメモリ帯域幅のボトルネックを生み出し、実際にデプロイされると、かなりのコンピューティングとエネルギー消費につながる。 そこで本研究では,組込みの予算下での \textit{Memory Allocation} の問題と,セマンティック情報の重複に比例してメモリを共有するメモリ共有埋め込みの新たな定式化を提案する。 提案方式は,lma(locality sensitive hashing based memory allocation)を用いた実用的かつ効率的なランダム化ソリューションである。 性能を維持しながらメモリフットプリントの大幅な削減を示す。 特に、我々のlma組込みは、メモリフットプリントが16$\times$削減された標準組込みと同等の性能を達成しています。 さらに、LMAは、CriteoとAvazuデータセットの標準DLRMモデルよりも、異なるメモリレシエーション間で0.003 AUCの平均的な改善を実現している。

Deep learning-based models are utilized to achieve state-of-the-art performance for recommendation systems. A key challenge for these models is to work with millions of categorical classes or tokens. The standard approach is to learn end-to-end, dense latent representations or embeddings for each token. The resulting embeddings require large amounts of memory that blow up with the number of tokens. Training and inference with these models create storage, and memory bandwidth bottlenecks leading to significant computing and energy consumption when deployed in practice. To this end, we present the problem of \textit{Memory Allocation} under budget for embeddings and propose a novel formulation of memory shared embedding, where memory is shared in proportion to the overlap in semantic information. Our formulation admits a practical and efficient randomized solution with Locality sensitive hashing based Memory Allocation (LMA). We demonstrate a significant reduction in the memory footprint while maintaining performance. In particular, our LMA embeddings achieve the same performance compared to standard embeddings with a 16$\times$ reduction in memory footprint. Moreover, LMA achieves an average improvement of over 0.003 AUC across different memory regimes than standard DLRM models on Criteo and Avazu datasets
翻訳日:2021-04-05 00:50:26 公開日:2021-02-24
# 気候予測可能性研究のツールとしての貯留層計算

Reservoir Computing as a Tool for Climate Predictability Studies ( http://arxiv.org/abs/2103.06206v1 )

ライセンス: Link先を確認
B. T. Nadiga(参考訳) 縮小次数力学モデルは、実際の気候システムや代理気候モデルを扱うかどうかに関わらず、気候の予測可能性を理解する上で中心的な役割を果たす。 この文脈では、線形-逆モデリング(LIM)アプローチは、完全なシステムの動的コンポーネント間のいくつかの重要な相互作用をキャプチャすることで、完全なシステムの予測可能性に関する洞察を提供するのに有用であることが証明されている。 カオスダイナミクスを持つシステムに適した学習形式であるリザーバコンピューティング(rc)は、limアプローチの予測スキルを向上させる代替非線形アプローチを提供することを実証する。 我々は,北大西洋における海面温度の予測を,一般的な地球系モデルであるコミュニティ・アース・システム・モデル(Community-Earth-Sys tem-Model)の先進的制御シミュレーションで行う例において,学習データが豊富であり,データに制限がある場合にも,新しいRCベースのアプローチと従来のLIMアプローチのパフォーマンスを比較することができる。 RCアプローチの予測スキルは、広範囲な条件 -- 保持されるEOF係数の多さ、制限されたデータ構造への拡張など -- に対して改善されている。 この機械学習技術は、気候予測可能性の研究に有効かもしれない。 気候エミュレータの開発の可能性 - 基準軌道の追跡に失敗した後、引力器のシステムの進化を継続する能力 - はロレンツ-63システムで実証されているが、RCアプローチのさらなる発展は、より現実的な予測可能性研究において新しいアプローチの活用を可能にすることを示唆している。

Reduced-order dynamical models play a central role in developing our understanding of predictability of climate irrespective of whether we are dealing with the actual climate system or surrogate climate-models. In this context, the Linear-Inverse-Model ing (LIM) approach, by capturing a few essential interactions between dynamical components of the full system, has proven valuable in providing insights into predictability of the full system. We demonstrate that Reservoir Computing (RC), a form of learning suitable for systems with chaotic dynamics, provides an alternative nonlinear approach that improves on the predictive skill of the LIM approach. We do this in the example setting of predicting sea-surface-temperat ure in the North Atlantic in the pre-industrial control simulation of a popular earth system model, the Community-Earth-Syst em-Model so that we can compare the performance of the new RC based approach with the traditional LIM approach both when learning data is plentiful and when such data is more limited. The improved predictive skill of the RC approach over a wide range of conditions -- larger number of retained EOF coefficients, extending well into the limited data regime, etc. -- suggests that this machine-learning technique may have a use in climate predictability studies. While the possibility of developing a climate emulator -- the ability to continue the evolution of the system on the attractor long after failing to be able to track the reference trajectory -- is demonstrated in the Lorenz-63 system, it is suggested that further development of the RC approach may permit such uses of the new approach in more realistic predictability studies.
翻訳日:2021-04-05 00:49:23 公開日:2021-02-24
# 中国語テキスト分類のためのRoBERTa-wwm-ext Fine-Tuning

RoBERTa-wwm-ext Fine-Tuning for Chinese Text Classification ( http://arxiv.org/abs/2103.00492v1 )

ライセンス: Link先を確認
Zhuo Xu(参考訳) 変換器 (BERT) による双方向エンコーダ表現は,様々な自然言語処理タスク [Devlin et al., 2019] のパフォーマンスを劇的に向上させる,有望な方法である。 一方で、近年の様々なニューラルネットワークによる進歩は、自然言語処理の分野でニューラルネットワークの有効性も証明している。 このプロジェクトでは,RoBERTa-wwm-ext [Cui et al., 2019]プレトレイン言語モデルを採用し,中国語テキスト分類のための微調整を行った。 モデルは、法行動の記述と違法行為の記述を含む2つの分類に分類することができた。 論文では4つの異なるモデルも提案されている。 これらのモデルでは、RoBERTa-wwm-extasの埋め込み層を使用し、異なるニューラルネットワークへの埋め込みをフィードする。 これらのモデルを提案する動機は単純です。 複雑な出力層アーキテクチャを導入することで、モデル全体のパフォーマンスが向上する可能性がある。 これらのモデルは全て中国の公判記録から得られたデータセットで訓練され、異なるモデルのパフォーマンスを比較した結果、精度とトレーニング効率の点で、pro-posedモデルのパフォーマンスがオリジナルのroberta-wwm-extモデルに勝てなかったことが判明した。

Bidirectional Encoder Representations from Transformers (BERT) have shown to be a promising way to dramatically improve the performance across various Natural Language Processing tasks [Devlin et al., 2019]. Meanwhile, progress made over the past few years by various Neural Net-work has also proved the effectiveness of Neural Network in the field of Natural Language Processing. In this project, RoBERTa-wwm-ext [Cui et al., 2019] pre-train language model was adopted and fine-tuned for Chinese text classification. The models were able to classify Chinese texts into two categories, containing descriptions of legal behavior and descriptions of illegal behavior. Four different models are also proposed in the paper. Those models will use RoBERTa-wwm-extas their embedding layer and feed the embedding into different neural networks. The motivation be-hind proposing these models is straightforward. By introducing complex output layer architecture, the overall performance of the models could be improved. All the models were trained on a data set derived from Chinese public court records, and the performance of different models were compared.The experiment shows that the performance of pro-posed models failed to beat the original RoBERTa-wwm-ext model in terms of accuracy and training efficiency.
翻訳日:2021-04-05 00:48:39 公開日:2021-02-24
# 遺伝的アルゴリズムによる二成分染色体のメモリ最適化データ構造

A Memory Optimized Data Structure for Binary Chromosomes in Genetic Algorithm ( http://arxiv.org/abs/2103.04751v1 )

ライセンス: Link先を確認
Avijit Basak(参考訳) 本稿では,遺伝アルゴリズムにおけるバイナリ染色体の実装のためのメモリ最適化メタデータに基づくデータ構造を提案する。 gaでは問題領域によって異なる種類の遺伝子型が使用される。 このうちバイナリジェノタイプは、表現的および計算的単純さから非列挙符号化において最も一般的なものである。 本稿では,メモリ最適化によるバイナリジェノタイプの実装手法を提案する。 このアプローチは、メモリ使用率とアレルの保持能力を向上させる。 同じことを証明する数学的証明が提供されている。

This paper presents a memory-optimized metadata-based data structure for implementation of binary chromosome in Genetic Algorithm. In GA different types of genotypes are used depending on the problem domain. Among these, binary genotype is the most popular one for non-enumerated encoding owing to its representational and computational simplicity. This paper proposes a memory-optimized implementation approach of binary genotype. The approach improves the memory utilization as well as capacity of retaining alleles. Mathematical proof has been provided to establish the same.
翻訳日:2021-04-05 00:47:17 公開日:2021-02-24
# 磁気共鳴画像モダリティに基づく統合失調症の診断のための人工知能技術の概要:方法,課題,今後の課題

An Overview on Artificial Intelligence Techniques for Diagnosis of Schizophrenia Based on Magnetic Resonance Imaging Modalities: Methods, Challenges, and Future Works ( http://arxiv.org/abs/2103.03081v1 )

ライセンス: Link先を確認
Delaram Sadeghi, Afshin Shoeibi, Navid Ghassemi, Parisa Moridian, Ali Khadem, Roohallah Alizadehsani, Mohammad Teshnehlab, J. Manuel Gorriz, Saeid Nahavandi(参考訳) 統合失調症 (Schizophrenia, SZ) は、青年期後期または成人期に発症する精神疾患である。 これにより、患者の寿命は15年短縮される。 異常な行動、感情の知覚、社会的関係、現実の知覚はその最も重要な症状である。 過去の研究では、脳の海馬の側頭葉と前葉がSZの影響を受けていることが判明した。 また、この疾患により脳脊髄液(csf)の量の増加と白灰白質および灰白質の量の減少が観察できる。 磁気共鳴イメージング(MRI)は、空間分解能が高いSZ障害における構造的・機能的脳の異常を探索するために用いられる一般的な神経イメージング技術である。 様々な人工知能(AI)技術は、SZの正確な診断を得るために高度な画像/信号処理手法を用いている。 本稿では,MRIモダリティを用いたSZ自動診断に関する研究の概要を概説する。 本稿では,SZ自動検出の開発における主な成果,課題,今後の課題について述べる。

Schizophrenia (SZ) is a mental disorder that typically emerges in late adolescence or early adulthood. It reduces the life expectancy of patients by 15 years. Abnormal behavior, perception of emotions, social relationships, and reality perception are among its most significant symptoms. Past studies have revealed the temporal and anterior lobes of hippocampus regions of brain get affected by SZ. Also, increased volume of cerebrospinal fluid (CSF) and decreased volume of white and gray matter can be observed due to this disease. The magnetic resonance imaging (MRI) is the popular neuroimaging technique used to explore structural/functiona l brain abnormalities in SZ disorder owing to its high spatial resolution. Various artificial intelligence (AI) techniques have been employed with advanced image/signal processing methods to obtain accurate diagnosis of SZ. This paper presents a comprehensive overview of studies conducted on automated diagnosis of SZ using MRI modalities. Main findings, various challenges, and future works in developing the automated SZ detection are described in this paper.
翻訳日:2021-04-05 00:46:59 公開日:2021-02-24
# サブスペースに基づくパレートトレーシングによる帯域帯域帯域共有の最適化

Optimizing Unlicensed Band Spectrum Sharing With Subspace-Based Pareto Tracing ( http://arxiv.org/abs/2102.09047v2 )

ライセンス: Link先を確認
Zachary J. Grey and Susanna Mosleh and Jacob D. Rezac and Yao Ma and Jason B. Coder and Andrew M. Dienstfrey(参考訳) 今後および展開される無線ネットワークのデータスループットの継続的な要求を満たすため、Long-Term Evolution License-Assisted Access (LTE-LAA)のような新しい無線技術は、共有および非ライセンスのバンドで動作している。 しかし、LAAネットワークは既存のIEEE 802.11 Wi-Fiシステムと共存しなければならない。 複数のLAAリンクとWi-Fiリンクが無許可帯域を共有する共存シナリオを考える。 我々は,これらのネットワークの鍵性能指標(kpi)を最大化し,次元縮小とマルチクリテリア最適化により,この共存性を改善することを目的とする。 これらのKPIは、中間アクセス制御プロトコルと物理層パラメータの関数としてのネットワークスループットである。 我々は,kpiを最大化するパラメータの線形結合の少ない最適化基準において,活性部分空間を近似して低次元構造を同定し,共存行動の探索分析を行う。 スループットのアクティブな部分空間を近似した低次元部分空間を並列化することにより,マルチクレーター最適化を実現する。 低次元部分空間近似は、混合活性座標上の凸KPIを可視化し、ほぼ最適解のパレート跡を解析する。

To meet the ever-growing demands of data throughput for forthcoming and deployed wireless networks, new wireless technologies like Long-Term Evolution License-Assisted Access (LTE-LAA) operate in shared and unlicensed bands. However, the LAA network must co-exist with incumbent IEEE 802.11 Wi-Fi systems. We consider a coexistence scenario where multiple LAA and Wi-Fi links share an unlicensed band. We aim to improve this coexistence by maximizing the key performance indicators (KPIs) of these networks simultaneously via dimension reduction and multi-criteria optimization. These KPIs are network throughputs as a function of medium access control protocols and physical layer parameters. We perform an exploratory analysis of coexistence behavior by approximating active subspaces to identify low-dimensional structure in the optimization criteria, i.e., few linear combinations of parameters for simultaneously maximizing KPIs. We leverage an aggregate low-dimensional subspace parametrized by approximated active subspaces of throughputs to facilitate multi-criteria optimization. The low-dimensional subspace approximations inform visualizations revealing convex KPIs over mixed active coordinates leading to an analytic Pareto trace of near-optimal solutions.
翻訳日:2021-04-05 00:30:24 公開日:2021-02-24
# サーバレスアーキテクチャによる分散ダブル機械学習

Distributed Double Machine Learning with a Serverless Architecture ( http://arxiv.org/abs/2101.04025v2 )

ライセンス: Link先を確認
Malte S. Kurz(参考訳) 本稿では、ダブル機械学習のためのサーバレスクラウドコンピューティングについて検討する。 繰り返しのクロスフィッティングに基づいており、サーバーレスコンピューティングで実現可能な高いレベルの並列性を利用するのに、ダブル機械学習は特に適しています。 クラウドのメンテナンスを必要とせずに、オンデマンドで素早く見積もることができる。 サーバレスコンピューティングプラットフォームAWS Lambdaで、二重機械学習モデルの推定を行うための、Python実装のプロトタイプである‘texttt{DoubleML-Serverless}’を提供し、見積もり時間とコストを分析するケーススタディでその実用性を実証する。

This paper explores serverless cloud computing for double machine learning. Being based on repeated cross-fitting, double machine learning is particularly well suited to exploit the high level of parallelism achievable with serverless computing. It allows to get fast on-demand estimations without additional cloud maintenance effort. We provide a prototype Python implementation \texttt{DoubleML-Serverless} for the estimation of double machine learning models with the serverless computing platform AWS Lambda and demonstrate its utility with a case study analyzing estimation times and costs.
翻訳日:2021-04-04 14:45:36 公開日:2021-02-24
# (参考訳) Unlearnable Examples: 個人情報を公開不能にする [全文訳有]

Unlearnable Examples: Making Personal Data Unexploitable ( http://arxiv.org/abs/2101.04898v2 )

ライセンス: CC BY-SA 4.0
Hanxun Huang, Xingjun Ma, Sarah Monazam Erfani, James Bailey, Yisen Wang(参考訳) インターネット上の「無料」データの量は、ディープラーニングの現在の成功の鍵となっている。 しかし、商用モデルのトレーニングのための個人情報の不正利用に関するプライバシー上の懸念も生じている。 したがって、不正なデータ利用を防止する方法を開発することが重要である。 この論文は、次のような疑問を提起する: \emph{can to be unlearnable for deep learning models? 本稿では,訓練例を学習不能にできる「emph{error-minimizing}」ノイズについて述べる。 誤り最小化ノイズは、0に近いトレーニング例の1つ以上のエラーを減らすために意図的に生成され、モデルがこれらの例から学ぶべき"何もない"と信じ込ませる可能性がある。 ノイズは人間の目では知覚できないよう制限されており、通常のデータユーティリティには影響しない。 サンプル・ワイド・クラスともに誤り最小化雑音の有効性を実証的に検証する。 また,顔認識を事例として,広範囲な実験環境と実用性において,その柔軟性を実証する。 私たちの研究は、個人データをディープラーニングモデルに展開不能にするための重要な第一歩を確立します。

The volume of "free" data on the internet has been key to the current success of deep learning. However, it also raises privacy concerns about the unauthorized exploitation of personal data for training commercial models. It is thus crucial to develop methods to prevent unauthorized data exploitation. This paper raises the question: \emph{can data be made unlearnable for deep learning models?} We present a type of \emph{error-minimizing} noise that can indeed make training examples unlearnable. Error-minimizing noise is intentionally generated to reduce the error of one or more of the training example(s) close to zero, which can trick the model into believing there is "nothing" to learn from these example(s). The noise is restricted to be imperceptible to human eyes, and thus does not affect normal data utility. We empirically verify the effectiveness of error-minimizing noise in both sample-wise and class-wise forms. We also demonstrate its flexibility under extensive experimental settings and practicability in a case study of face recognition. Our work establishes an important first step towards making personal data unexploitable to deep learning models.
翻訳日:2021-04-03 20:39:57 公開日:2021-02-24
# 教師付き機械学習による逆コンパイラによる型情報の改善

Improving type information inferred by decompilers with supervised machine learning ( http://arxiv.org/abs/2101.08116v2 )

ライセンス: Link先を確認
Javier Escalada (1), Ted Scully (2), Francisco Ortin (1 and 2) ((1) University of Oviedo, (2) Cork Institute of Technology)(参考訳) ソフトウェアリバースエンジニアリングでは、逆コンパイルはバイナリファイルからソースコードを復元するプロセスである。 逆コンパイラは、ソースコードが入手できないソフトウェアを理解したり分析したりする際に使われる。 既存の逆コンパイラは一般的にバイナリと同じ動作のソースコードを取得するが、そのソースコードは解釈が困難であり、プログラマが書いた元のコードと確実に異なる。 大規模なコードベースを使用して、既存の逆コンパイラを改善するための教師付き機械学習モデルを構築することができる。 本稿では,関数によって返されるハイレベルな型を,既存の逆コンパイラよりもはるかに高い精度で推論可能な,異なる分類モデルを構築する。 我々はCのソースコードを自動で実装し、対応する高レベル構造とバイナリパターンの関連付けを可能にする。 データセットは、実際のオープンソースアプリケーションのコレクションと膨大な数の合成プログラムで作成されます。 本システムでは関数戻り型を79.1%のF1値で予測できるのに対して,最適な逆コンパイラでは30%のF1値が得られる。 さらに、既存のデコンパイラの実装で追加できるように、分類器が使用するバイナリパターンを文書化します。

In software reverse engineering, decompilation is the process of recovering source code from binary files. Decompilers are used when it is necessary to understand or analyze software for which the source code is not available. Although existing decompilers commonly obtain source code with the same behavior as the binaries, that source code is usually hard to interpret and certainly differs from the original code written by the programmer. Massive codebases could be used to build supervised machine learning models aimed at improving existing decompilers. In this article, we build different classification models capable of inferring the high-level type returned by functions, with significantly higher accuracy than existing decompilers. We automatically instrument C source code to allow the association of binary patterns with their corresponding high-level constructs. A dataset is created with a collection of real open-source applications plus a huge number of synthetic programs. Our system is able to predict function return types with a 79.1% F1-measure, whereas the best decompiler obtains a 30% F1-measure. Moreover, we document the binary patterns used by our classifier to allow their addition in the implementation of existing decompilers.
翻訳日:2021-03-22 11:08:31 公開日:2021-02-24
# 自信ある機械読解に向けて

Towards Confident Machine Reading Comprehension ( http://arxiv.org/abs/2101.07942v2 )

ライセンス: Link先を確認
Rishav Chakravarti, Avirup Sil(参考訳) Reading Comprehension (RC)タスクのための学術的ベンチマークは、抽出的質問応答における人間のパフォーマンスとのギャップを埋めるState-of-the-Artモデルでかなり進歩している。 SQuAD 2.0やNQといったデータセットも、質問がテキストに答えがないことを予測するためのモデルを必要とする補助タスクを導入している。 しかし,本番環境では,答え抽出と"解答可能性"検出の両方において,基礎となるrcモデルの性能に対する信頼性評価を行うことも必要である。 予測後信頼度推定モデルを提案し,これをMr.C(Mr.C)と呼ぶ。 信頼度)は、曲線(auc)の下の領域で測定された最大4ポイントの改善によって、不正な予測を控えるシステムの能力を改善するために訓練することができる。 Mr.Cは、基盤となるRCモデルの勾配を利用する新しいホワイトボックス機能の恩恵を受けることができる。 性能予測は、ドメインシフト(squad 2.0でrcモデルをトレーニングし、nqで評価する)において特に重要であり、mr.cはaucを改善させるだけでなく、従来の応答性予測(f1では5点改善で測定)も行う。

There has been considerable progress on academic benchmarks for the Reading Comprehension (RC) task with State-of-the-Art models closing the gap with human performance on extractive question answering. Datasets such as SQuAD 2.0 & NQ have also introduced an auxiliary task requiring models to predict when a question has no answer in the text. However, in production settings, it is also necessary to provide confidence estimates for the performance of the underlying RC model at both answer extraction and "answerability" detection. We propose a novel post-prediction confidence estimation model, which we call Mr.C (short for Mr. Confident), that can be trained to improve a system's ability to refrain from making incorrect predictions with improvements of up to 4 points as measured by Area Under the Curve (AUC) scores. Mr.C can benefit from a novel white-box feature that leverages the underlying RC model's gradients. Performance prediction is particularly important in cases of domain shift (as measured by training RC models on SQUAD 2.0 and evaluating on NQ), where Mr.C not only improves AUC, but also traditional answerability prediction (as measured by a 5 point improvement in F1).
翻訳日:2021-03-22 01:29:29 公開日:2021-02-24
# BSUV-Net 2.0:ビデオに依存しないバックグラウンドサブトラクションのための時空間データ拡張

BSUV-Net 2.0: Spatio-Temporal Data Augmentations for Video-Agnostic Supervised Background Subtraction ( http://arxiv.org/abs/2101.09585v2 )

ライセンス: Link先を確認
M. Ozan Tezcan, Prakash Ishwar, Janusz Konrad(参考訳) バックグラウンドサブトラクション(BGS)は多くのアプリケーションの主要なコンポーネントである基本的なビデオ処理タスクである。 ディープラーニングに基づく教師付きアルゴリズムは、BGSにおいて非常に優れたパーフォランスを達成するが、これらのアルゴリズムのほとんどは、特定のビデオまたはビデオのグループに最適化されている。 近年,この問題に対処し,ビデオ非依存型BGSアルゴリズムを提案する論文がいくつかある。 しかし、これらのアルゴリズムで使用されるデータ拡張のほとんどは空間領域に限定されており、ビデオデータで自然に発生する時間的変動を考慮しない。 本研究では、時空間データ拡張を導入し、主要なビデオ非依存BGSアルゴリズムであるBSUV-Netに適用する。 また、CDNet-2014データセットのクロスバリデーショントレーニングと評価戦略を導入し、様々なビデオ非依存のBGSアルゴリズムの性能を公平かつ容易に比較できるようにする。 提案したBSUV-Net 2.0を用いてトレーニングした新しいモデルは、CDNet-2014の未確認ビデオで評価された最先端のアルゴリズムを大幅に上回っている。 また,CDNet-2014ビデオのみをトレーニングし,LASIESTAデータセット上での性能を評価することにより,BSUV-Net 2.0のクロスデータセット一般化能力を評価する。 全体として、BSUV-Net 2.0は、CDNet-2014とLASIESTAデータセットの見えないビデオに対する最先端メソッドよりも、Fスコアが約5%改善されている。 さらに、我々はFast BSUV-Net 2.0と呼ぶリアルタイムモデルを開発し、その性能は最先端技術に近い。

Background subtraction (BGS) is a fundamental video processing task which is a key component of many applications. Deep learning-based supervised algorithms achieve very good perforamnce in BGS, however, most of these algorithms are optimized for either a specific video or a group of videos, and their performance decreases dramatically when applied to unseen videos. Recently, several papers addressed this problem and proposed video-agnostic supervised BGS algorithms. However, nearly all of the data augmentations used in these algorithms are limited to the spatial domain and do not account for temporal variations that naturally occur in video data. In this work, we introduce spatio-temporal data augmentations and apply them to one of the leading video-agnostic BGS algorithms, BSUV-Net. We also introduce a new cross-validation training and evaluation strategy for the CDNet-2014 dataset that makes it possible to fairly and easily compare the performance of various video-agnostic supervised BGS algorithms. Our new model trained using the proposed data augmentations, named BSUV-Net 2.0, significantly outperforms state-of-the-art algorithms evaluated on unseen videos of CDNet-2014. We also evaluate the cross-dataset generalization capacity of BSUV-Net 2.0 by training it solely on CDNet-2014 videos and evaluating its performance on LASIESTA dataset. Overall, BSUV-Net 2.0 provides a ~5% improvement in the F-score over state-of-the-art methods on unseen videos of CDNet-2014 and LASIESTA datasets. Furthermore, we develop a real-time variant of our model, that we call Fast BSUV-Net 2.0, whose performance is close to the state of the art.
翻訳日:2021-03-19 10:44:16 公開日:2021-02-24
# (参考訳) 連合学習におけるプライバシー漏洩の定量的指標 [全文訳有]

A Quantitative Metric for Privacy Leakage in Federated Learning ( http://arxiv.org/abs/2102.13472v1 )

ライセンス: CC BY 4.0
Yong Liu, Xinghua Zhu, Jianzong Wang, Jing Xiao(参考訳) フェデレーション学習システムでは、パラメータ勾配は参加者と中央変調器の間で共有され、元のデータは保護されたソースドメインを離れることはない。 しかし、勾配自体は元のデータの正確な推測に十分な情報を持っているかもしれない。 パラメータ勾配を中央サーバに報告することで、クライアントデータセットは敵からの推論攻撃にさらされる。 本稿では,クライアントの相互情報に基づく定量的メトリクスを提案し,その勾配における情報漏洩の可能性を評価する。 相互情報は、ここ数年、機械学習とデータマイニングのコミュニティで注目を集めています。 しかし,既存の相互情報推定手法では高次元変数を扱えない。 本稿では,高次元勾配とバッチ入力データとの相互情報を近似する新しい手法を提案する。 実験の結果,提案手法は,連合学習における情報漏洩の程度を確実に反映することがわかった。 また,提案した指標を用いて,リスクレベルの影響要因を検討する。 情報漏洩のリスクは、タスクモデルの状態だけでなく、固有のデータ分布に関連していることが証明されています。

In the federated learning system, parameter gradients are shared among participants and the central modulator, while the original data never leave their protected source domain. However, the gradient itself might carry enough information for precise inference of the original data. By reporting their parameter gradients to the central server, client datasets are exposed to inference attacks from adversaries. In this paper, we propose a quantitative metric based on mutual information for clients to evaluate the potential risk of information leakage in their gradients. Mutual information has received increasing attention in the machine learning and data mining community over the past few years. However, existing mutual information estimation methods cannot handle high-dimensional variables. In this paper, we propose a novel method to approximate the mutual information between the high-dimensional gradients and batched input data. Experimental results show that the proposed metric reliably reflect the extent of information leakage in federated learning. In addition, using the proposed metric, we investigate the influential factors of risk level. It is proven that, the risk of information leakage is related to the status of the task model, as well as the inherent data distribution.
翻訳日:2021-03-01 16:04:08 公開日:2021-02-24
# 強化学習における伝達行動発見の原理としての被覆

Coverage as a Principle for Discovering Transferable Behavior in Reinforcement Learning ( http://arxiv.org/abs/2102.13515v1 )

ライセンス: Link先を確認
V\'ictor Campos, Pablo Sprechmann, Steven Hansen, Andre Barreto, Steven Kapturowski, Alex Vitvitskyi, Adri\`a Puigdom\`enech Badia, Charles Blundell(参考訳) 知識を自律的に獲得し、新しいタスクを効率的に解決するためのエージェントを設計することは強化学習の重要な課題であり、教師なし学習はタスク非依存の知識を自律的に獲得するための有用なパラダイムを提供する。 教師なし設定では、教師なし事前トレーニングによって発見された表現は、下流タスクに転送するときに重要な利点を提供する。 強化学習問題の性質を考えると、表現だけでは挑戦的領域における効率的な伝達には不十分であり、行動を通じて知識を伝達する方法を探求する。 事前訓練されたポリシーの動作は、手作業のタスク(探索)の解決や、問題の解決(探索)に有用なデータ収集に利用することができる。 我々は、カバー範囲を最大化するために事前訓練されたポリシーは、両方の戦略に有用な行動をもたらすと論じている。 エクスプロイトと探索の両方にこれらのポリシーを使用する場合、エージェントはより良い解決策を発見する。 最大の利益は一般的に、事前訓練されたポリシーの振る舞いが下流のタスクとミスアライメントされるような設定を含む、構造化された探索を必要とするドメインで観察される。

Designing agents that acquire knowledge autonomously and use it to solve new tasks efficiently is an important challenge in reinforcement learning, and unsupervised learning provides a useful paradigm for autonomous acquisition of task-agnostic knowledge. In supervised settings, representations discovered through unsupervised pre-training offer important benefits when transferred to downstream tasks. Given the nature of the reinforcement learning problem, we argue that representation alone is not enough for efficient transfer in challenging domains and explore how to transfer knowledge through behavior. The behavior of pre-trained policies may be used for solving the task at hand (exploitation), as well as for collecting useful data to solve the problem (exploration). We argue that policies pre-trained to maximize coverage will produce behavior that is useful for both strategies. When using these policies for both exploitation and exploration, our agents discover better solutions. The largest gains are generally observed in domains requiring structured exploration, including settings where the behavior of the pre-trained policies is misaligned with the downstream task.
翻訳日:2021-03-01 14:07:52 公開日:2021-02-24
# InterSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 cough, COVID-19 Speech, Escalation & Primates

The INTERSPEECH 2021 Computational Paralinguistics Challenge: COVID-19 Cough, COVID-19 Speech, Escalation & Primates ( http://arxiv.org/abs/2102.13468v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller, Anton Batliner, Christian Bergler, Cecilia Mascolo, Jing Han, Iulia Lefter, Heysem Kaya, Shahin Amiriparian, Alice Baird, Lukas Stappen, Sandra Ottl, Maurice Gerczuk, Panagiotis Tzirakis, Chlo\"e Brown, Jagmohan Chauhan, Andreas Grammenos, Apinan Hasthanasombat, Dimitris Spathis, Tong Xia, Pietro Cicuta, Leon J. M. Rothkrantz, Joeri Zwerts, Jelle Treep, Casper Kaandorp(参考訳) The INTERSPEECH 2021 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the COVID-19 Cough and COVID-19 Speech Sub-Challenges, a binary classification on COVID-19 infection has to be made based on coughing sounds and speech; in the Escalation SubChallenge, a three-way assessment of the level of escalation in a dialogue is featured; and in the Primates Sub-Challenge, four species vs background need to be classified. 我々は、AuDeepツールキットを用いた深層教師なし表現学習や、Deep Spectrumツールキットを用いた事前学習CNNからの深部特徴抽出に加えて、Deep-to-endシーケンシャルモデリングと部分言語解析を加えたサブチャンジ、ベースライン特徴抽出および分類器について述べる。

The INTERSPEECH 2021 Computational Paralinguistics Challenge addresses four different problems for the first time in a research competition under well-defined conditions: In the COVID-19 Cough and COVID-19 Speech Sub-Challenges, a binary classification on COVID-19 infection has to be made based on coughing sounds and speech; in the Escalation SubChallenge, a three-way assessment of the level of escalation in a dialogue is featured; and in the Primates Sub-Challenge, four species vs background need to be classified. We describe the Sub-Challenges, baseline feature extraction, and classifiers based on the 'usual' COMPARE and BoAW features as well as deep unsupervised representation learning using the AuDeep toolkit, and deep feature extraction from pre-trained CNNs using the Deep Spectrum toolkit; in addition, we add deep end-to-end sequential modelling, and partially linguistic analysis.
翻訳日:2021-03-01 13:59:57 公開日:2021-02-24
# ウェアラブルバンドによる睡眠時無呼吸と呼吸異常の検出と酸素飽和

Sleep Apnea and Respiratory Anomaly Detection from a Wearable Band and Oxygen Saturation ( http://arxiv.org/abs/2102.13473v1 )

ライセンス: Link先を確認
Wolfgang Ganglberger, Abigail A. Bucklin, Ryan A. Tesh, Madalena Da Silva Cardoso, Haoqi Sun, Michael J. Leone, Luis Paixao, Ezhil Panneerselvam, Elissa M. Ye, B. Taylor Thompson, Oluwaseun Akeju, David Kuller, Robert J. Thomas, M. Brandon Westover(参考訳) 目的:睡眠関連呼吸異常は通常ポリソムノグラフィを用いて検出される。 シンプルで使いやすいデバイスから睡眠時無呼吸を自動的に検出するより便利な方法のための一般的な医学とクリティカルケアの必要性があります。 本研究の目的は,spo2信号やポリソムノグラフィと比較して,異常呼吸を自動検出し,ahiをウェアラブル呼吸装置で推定することである。 方法: クロスバリデーション方式でモデルを訓練・評価するために, 同時記録ポリソムノグラフィ (PSG) とウェアラブル呼吸活動データを用いた。 時間領域と複雑性の特徴を抽出し、重要な特徴を同定し、イベントを検出してAHIを予測するためにランダムな森林モデルを用いた。 4つのモデルが訓練された:1つは呼吸機能のみを使用し、1つはSpO2(%)信号のみから、もう1つは呼吸機能とSpO2(%)機能を使用する2つの追加モデルであり、もう1つは2つの信号間の30秒のタイムラグを可能にする。 その結果,0.94,0.86,0.82の受信機特性曲線,0.48,0.32,0.51の精密リコール曲線の領域,呼吸のみのSpO2,呼吸のみのモデル,およびSpO2のみの領域が得られた。 専門家ラベルと予測AHIの相関は0.96, 0.78, 0.93であった。 結論: SpO2の有無にかかわらず, ウェアラブル呼吸活動信号はAHIを正確に予測した。 大規模なデータセットと厳密なテスト設計を考えると、私たちのモデルでは、自宅やクリティカルケアなど、さまざまな環境で呼吸を評価することが一般化できると思います。

Objective: Sleep related respiratory abnormalities are typically detected using polysomnography. There is a need in general medicine and critical care for a more convenient method to automatically detect sleep apnea from a simple, easy-to-wear device. The objective is to automatically detect abnormal respiration and estimate the Apnea-Hypopnea-Index (AHI) with a wearable respiratory device, compared to an SpO2 signal or polysomnography using a large (n = 412) dataset serving as ground truth. Methods: Simultaneously recorded polysomnographic (PSG) and wearable respiratory effort data were used to train and evaluate models in a cross-validation fashion. Time domain and complexity features were extracted, important features were identified, and a random forest model employed to detect events and predict AHI. Four models were trained: one each using the respiratory features only, a feature from the SpO2 (%)-signal only, and two additional models that use the respiratory features and the SpO2 (%)-feature, one allowing a time lag of 30 seconds between the two signals. Results: Event-based classification resulted in areas under the receiver operating characteristic curves of 0.94, 0.86, 0.82, and areas under the precision-recall curves of 0.48, 0.32, 0.51 for the models using respiration and SpO2, respiration-only, and SpO2-only respectively. Correlation between expert-labelled and predicted AHI was 0.96, 0.78, and 0.93, respectively. Conclusions: A wearable respiratory effort signal with or without SpO2 predicted AHI accurately. Given the large dataset and rigorous testing design, we expect our models are generalizable to evaluating respiration in a variety of environments, such as at home and in critical care.
翻訳日:2021-03-01 13:42:38 公開日:2021-02-24
# コンパイラの最適化をより効果的にする学習

Learning to Make Compiler Optimizations More Effective ( http://arxiv.org/abs/2102.13514v1 )

ライセンス: Link先を確認
Rahim Mammadli, Marija Selakovic, Felix Wolf, Michael Pradel(参考訳) ループは何度もボディを実行するため、コンパイラ開発者は最適化に重点を置いている。 それでも、非常に多様なソースコードとハードウェアの観点から見ると、コンパイラは依然として最適なターゲットコードの生成に苦労している。 それらの組み合わせを含む可能なループ最適化の数は、問題をさらに悪化させます。 今日のコンパイラは、ハードコードされたヒューリスティックを使用して、いつ、いつ、どの最適化を適用するかを決定する。 多くの場合、これは非常に不安定な振る舞いをもたらし、コンパイラの最適化の成功はループの正確な書き方に依存する。 本稿では,ループの書き方が効率的なコンパイルコードにつながるかを予測することで,コンパイラの不安定性の問題に対処したlooplearnerを提案する。 そのために、ニューラルネットワークを訓練して、コンパイラがより効率的なコードを生成するのに役立つループの意味的に不変なソースレベルの変換を見つける。 我々のモデルは、生のソースコードから有用な特徴を抽出し、与えられた変換が得られそうなスピードアップを予測する。 各種性能関連ベンチマークから1,895ループのLoopLearnerを評価した。 我々のモデルがコンパイル前に最も望ましいと考える変換を適用すると、平均速度は1.14倍になる。 トップ3の変換を試すと、平均スピードアップは1.29倍になる。 利用可能なすべてのコード変換を徹底的な検索と比較すると、looplearnerは数桁の時間で最も有益な変換を特定するのに役立ちます。

Because loops execute their body many times, compiler developers place much emphasis on their optimization. Nevertheless, in view of highly diverse source code and hardware, compilers still struggle to produce optimal target code. The sheer number of possible loop optimizations, including their combinations, exacerbates the problem further. Today's compilers use hard-coded heuristics to decide when, whether, and which of a limited set of optimizations to apply. Often, this leads to highly unstable behavior, making the success of compiler optimizations dependent on the precise way a loop has been written. This paper presents LoopLearner, which addresses the problem of compiler instability by predicting which way of writing a loop will lead to efficient compiled code. To this end, we train a neural network to find semantically invariant source-level transformations for loops that help the compiler generate more efficient code. Our model learns to extract useful features from the raw source code and predicts the speedup that a given transformation is likely to yield. We evaluate LoopLearner with 1,895 loops from various performance-relevant benchmarks. Applying the transformations that our model deems most favorable prior to compilation yields an average speedup of 1.14x. When trying the top-3 suggested transformations, the average speedup even increases to 1.29x. Comparing the approach with an exhaustive search through all available code transformations shows that LoopLearner helps to identify the most beneficial transformations in several orders of magnitude less time.
翻訳日:2021-03-01 13:42:04 公開日:2021-02-24
# (参考訳) 深層学習法によるイヌx線写真における骨高原角度の自動検出 [全文訳有]

Auto-Detection of Tibial Plateau Angle in Canine Radiographs Using a Deep Learning Approach ( http://arxiv.org/abs/2102.12544v1 )

ライセンス: CC BY 4.0
Masuda Akter Tonima, F M Anim Hossain, Austin DeHart and Youmin Zhang(参考訳) 顎関節の問題は、犬のライムネスの主な原因であり、さまざまな形態の病気や怪我の重要なマーカーとなる可能性があります。 既知のTibial Plateau Angle(TPA)は、原因の診断時間を短縮するのに役立つ。 本論文では,アートオブジェクト検出アルゴリズムYOLOの現状とその変種を用いて,関節,その中心体,その他の関心領域を同定し,複数の線軸を描画し,最終的にTPAを算出する。 調査された方法は、画像の80%の通常の範囲内のTPAを正常に予測します。

Stifle joint issues are a major cause of lameness in dogs and it can be a significant marker for various forms of diseases or injuries. A known Tibial Plateau Angle (TPA) helps in the reduction of the diagnosis time of the cause. With the state of the art object detection algorithm YOLO, and its variants, this paper delves into identifying joints, their centroids and other regions of interest to draw multiple line axes and finally calculating the TPA. The methods investigated predicts successfully the TPA within the normal range for 80 percent of the images.
翻訳日:2021-02-27 10:24:43 公開日:2021-02-24
# (参考訳) 開閉集合認識のための深部コンパクト多面体円錐分類器 [全文訳有]

Deep Compact Polyhedral Conic Classifier for Open and Closed Set Recognition ( http://arxiv.org/abs/2102.12570v1 )

ライセンス: CC BY 4.0
Hakan Cevikalp, Bedirhan Uzun, Okan K\"op\"ukl\"u, Gurkan Ozturk(参考訳) 本稿では,多面体コニック分類関数を用いてクラス間分離を最大化し,クラス内変動を最小化する,新しいディープニューラルネットワーク分類器を提案する。 提案手法は,クラス間分離を最大化するマージン最大化が可能なロス項と,クラス受け入れ領域のコンパクト性を制御するロス項とを有する。 提案手法は多面体円錐関数幾何を用いた素晴らしく幾何学的解釈を有する。 閉開集合認識や異常検出など,様々な視覚的分類問題に対して,提案手法を検証した。 実験の結果,提案手法は他の最先端手法よりも優れており,特にオープンセット認識型問題に対して,他のテスト手法よりも優れた選択法であることがわかった。

In this paper, we propose a new deep neural network classifier that simultaneously maximizes the inter-class separation and minimizes the intra-class variation by using the polyhedral conic classification function. The proposed method has one loss term that allows the margin maximization to maximize the inter-class separation and another loss term that controls the compactness of the class acceptance regions. Our proposed method has a nice geometric interpretation using polyhedral conic function geometry. We tested the proposed method on various visual classification problems including closed/open set recognition and anomaly detection. The experimental results show that the proposed method typically outperforms other state-of-the art methods, and becomes a better choice compared to other tested methods especially for open set recognition type problems.
翻訳日:2021-02-27 09:01:26 公開日:2021-02-24
# (参考訳) リンク予測に基づくグラフニューラルネットワークのベンチマーク [全文訳有]

Benchmarking Graph Neural Networks on Link Prediction ( http://arxiv.org/abs/2102.12557v1 )

ライセンス: CC0 1.0
Xing Wang, Alexander Vinel(参考訳) 本稿では,既存のグラフニューラルネットワーク(gnn)モデルを,異なるデータセット上でリンク予測のためにベンチマークする。 特に、グラフ畳み込みネットワーク(GCN)、グラフSAGE、グラフ注意ネットワーク(GAT)、変分グラフ自動エンコーダ(VGAE)は、リンク予測タスク専用に実装され、詳細な分析が行われ、いくつかの異なる論文の結果が複製され、より公正で体系的な比較が提供されます。 実験により,これらのGNNアーキテクチャは,リンク予測タスクの様々なベンチマークでも同様に動作することを示す。

In this paper, we benchmark several existing graph neural network (GNN) models on different datasets for link predictions. In particular, the graph convolutional network (GCN), GraphSAGE, graph attention network (GAT) as well as variational graph auto-encoder (VGAE) are implemented dedicated to link prediction tasks, in-depth analysis are performed, and results from several different papers are replicated, also a more fair and systematic comparison are provided. Our experiments show these GNN architectures perform similarly on various benchmarks for link prediction tasks.
翻訳日:2021-02-27 08:02:52 公開日:2021-02-24
# (参考訳) 深層ニューラルネットワークの効率的な分布検出のためのスケッチ曲率 [全文訳有]

Sketching Curvature for Efficient Out-of-Distribution Detection for Deep Neural Networks ( http://arxiv.org/abs/2102.12567v1 )

ライセンス: CC BY 4.0
Apoorva Sharma and Navid Azizan and Marco Pavone(参考訳) リアルタイム意思決定システムの認識パイプライン内にディープニューラルネットワーク(DNN)を安全にデプロイするためには、トレーニング外分散(OoD)入力を効率的かつ正確に検出できるセーフガードが必要である。 近年のDNNの局所的な曲率を利用してててんかん不確かさを判断する手法として,DNNにタスク関連性のあるてんかん不確かさ推定を組み込むアーキテクチャ非依存フレームワークであるSCOD(Sketching Curvature of OoD Detection)を提案する。 トレーニングされたモデルとそのトレーニングデータから、SCODはマトリクススケッチのツールを使用して、トレーニングデータ上の予測に最も影響を与える重量空間の方向を特徴付けるフィッシャー情報行列の低ランク近似を正確に計算する。 オンライン上では、これらの方向に対して直交する摂動量を測定することで、新しいテスト入力での予測を変更できる不確実性を推定する。 我々は、回帰から分類まで様々なタスクにおいて、様々なアーキテクチャの事前訓練されたネットワークにSCODを適用する。 SCODは,既存のベースラインと比較して計算負担の少ないOoD検出性能の同等あるいは優れたOoD検出性能を達成できることを実証する。

In order to safely deploy Deep Neural Networks (DNNs) within the perception pipelines of real-time decision making systems, there is a need for safeguards that can detect out-of-training-dist ribution (OoD) inputs both efficiently and accurately. Building on recent work leveraging the local curvature of DNNs to reason about epistemic uncertainty, we propose Sketching Curvature of OoD Detection (SCOD), an architecture-agnosti c framework for equipping any trained DNN with a task-relevant epistemic uncertainty estimate. Offline, given a trained model and its training data, SCOD employs tools from matrix sketching to tractably compute a low-rank approximation of the Fisher information matrix, which characterizes which directions in the weight space are most influential on the predictions over the training data. Online, we estimate uncertainty by measuring how much perturbations orthogonal to these directions can alter predictions at a new test input. We apply SCOD to pre-trained networks of varying architectures on several tasks, ranging from regression to classification. We demonstrate that SCOD achieves comparable or better OoD detection performance with lower computational burden relative to existing baselines.
翻訳日:2021-02-27 07:55:27 公開日:2021-02-24
# (参考訳) 部分隠れマルコフ連鎖線形自己回帰モデル:推論と予測 [全文訳有]

Partially Hidden Markov Chain Linear Autoregressive model: inference and forecasting ( http://arxiv.org/abs/2102.12584v1 )

ライセンス: CC BY 4.0
Fatoumata Dama and Christine Sinoquet(参考訳) 体制の変化にともなう時系列は、エコノメトリー、金融、気象学といった領域に多くの関心を集めている。 離散的に評価されたレシエーションでは、人気のあるHidden Markov Chain (HMC) のようなモデルでは、状態過程が常に未知の時系列を記述する。 時々、アノテーション機能のおかげで、時系列は最初にラベル付けされる。 このように、モデルの別のカテゴリは、すべての時間ステップで観察されるレギュレーションを扱う。 i) このような時系列に関連する状態プロセスは、部分的に隠れマルコフ連鎖 (PHMC) によってモデル化される; (ii) 線形自己回帰(LAR)モデルは、各レシエーション内で時系列のダイナミクスを駆動する。 PHMC-LARモデル学習に特化した期待最大化(EM)アルゴリズムの変種について述べる。 本研究では,存在時の観測状態を考慮した隠れ状態推定手法と予測関数を提案する。 推定と予測の性能を評価し、シミュレーションデータを用いて新しいモデルのEM収束時間を分析します。 部分的に観察された状態を用いてEM収束時間を短縮する利点を示す。 信頼できないラベルを持つ完全なラベル付きスキームもEMを高速化する。 これはPHMC-LARモデル選択を強化する有望な見通しを提供する。 また,大規模なトレーニングデータセットと適度なラベル誤り率を考慮した場合,推論タスクにおけるエラーラベリングに対するphmc-larのロバスト性も指摘する。 最後に、エラー率の全範囲にわたって、予測タスクのエラーラベリングに対する驚くべき堅牢性を強調します。

Time series subject to change in regime have attracted much interest in domains such as econometry, finance or meteorology. For discrete-valued regimes, some models such as the popular Hidden Markov Chain (HMC) describe time series whose state process is unknown at all time-steps. Sometimes, time series are firstly labelled thanks to some annotation function. Thus, another category of models handles the case with regimes observed at all time-steps. We present a novel model which addresses the intermediate case: (i) state processes associated to such time series are modelled by Partially Hidden Markov Chains (PHMCs); (ii) a linear autoregressive (LAR) model drives the dynamics of the time series, within each regime. We describe a variant of the expection maximization (EM) algorithm devoted to PHMC-LAR model learning. We propose a hidden state inference procedure and a forecasting function that take into account the observed states when existing. We assess inference and prediction performances, and analyze EM convergence times for the new model, using simulated data. We show the benefits of using partially observed states to decrease EM convergence times. A fully labelled scheme with unreliable labels also speeds up EM. This offers promising prospects to enhance PHMC-LAR model selection. We also point out the robustness of PHMC-LAR to labelling errors in inference task, when large training datasets and moderate labelling error rates are considered. Finally, we highlight the remarkable robustness to error labelling in the prediction task, over the whole range of error rates.
翻訳日:2021-02-27 07:06:50 公開日:2021-02-24
# (参考訳) 一般化ブースト森林

Generalised Boosted Forests ( http://arxiv.org/abs/2102.12561v1 )

ライセンス: CC BY 4.0
Indrayudh Ghosal, Giles Hooker(参考訳) 本稿では、非ガウス応答をモデル化するためのランダム森林の促進に関する最近の研究を拡張した。 指数族 $\mathbb{E}[Y|X] = g^{-1}(f(X))$ を考えると、私たちの目標は$f$の見積もりを得ることです。 リンク空間におけるMLE型推定から始まり、それから一般化された残余を定義する。 これらの残差とそれに対応する重みをベースとなるランダムフォレストに適合させ、これを繰り返してブーストランダムフォレストを得る。 これら3つの見積もりの合計を \textit{Generalized Boosted Forest} と呼ぶ。 我々は、ランダムな森林ステップの両方がテストセットのログ類似度を減少させることをシミュレーションおよび実データで示す。 また, 分散推定器も提供し, 計算コストは元の推定値と同じである。 実世界のデータとシミュレーションに関する実証実験は、この手法がバイアスを効果的に低減し、信頼区間のカバレッジが共変量分布の大部分で保守的であることを示した。

This paper extends recent work on boosting random forests to model non-Gaussian responses. Given an exponential family $\mathbb{E}[Y|X] = g^{-1}(f(X))$ our goal is to obtain an estimate for $f$. We start with an MLE-type estimate in the link space and then define generalised residuals from it. We use these residuals and some corresponding weights to fit a base random forest and then repeat the same to obtain a boost random forest. We call the sum of these three estimators a \textit{generalised boosted forest}. We show with simulated and real data that both the random forest steps reduces test-set log-likelihood, which we treat as our primary metric. We also provide a variance estimator, which we can obtain with the same computational cost as the original estimate itself. Empirical experiments on real-world data and simulations demonstrate that the methods can effectively reduce bias, and that confidence interval coverage is conservative in the bulk of the covariate distribution.
翻訳日:2021-02-27 02:04:07 公開日:2021-02-24
# (参考訳) スペイン語の法医学的話者識別のためのトリプルト損失に基づく埋め込み [全文訳有]

Triplet loss based embeddings for forensic speaker identification in Spanish ( http://arxiv.org/abs/2102.12564v1 )

ライセンス: CC BY 4.0
Emmanuel Maqueda, Javier Alvarez-Jimenez, Carlos Mena, Ivan Meza(参考訳) デジタル技術の出現により、犯罪や法的紛争には、話者の身元が疑われる何らかの形の音声記録が含まれることがより一般的です[1]。 このような状況に直面して、音声記録が特定の人物に属する程度を定量化することで、法医学的話者識別の分野が問題に光を当てることを模索している。 本研究では,3重項損失を用いてCNNを訓練した音声埋め込み手法について検討する。 特に、我々は広く研究されていないスペイン語に焦点を当てています。 音声スペクトログラムのサンプルから埋め込みを抽出し、それらのスペクトルのいくつかの構成を探索し、最後に埋め込み品質を定量化する。 また、主に男性スピーカーで構成されているデータ設定の制限も示しています。 最後に,3重項損失が,法医学的話者識別のための音声埋め込みの優れた代替手段であることを示す。

With the advent of digital technology, it is more common that committed crimes or legal disputes involve some form of speech recording where the identity of a speaker is questioned [1]. In face of this situation, the field of forensic speaker identification has been looking to shed light on the problem by quantifying how much a speech recording belongs to a particular person in relation to a population. In this work, we explore the use of speech embeddings obtained by training a CNN using the triplet loss. In particular, we focus on the Spanish language which has not been extensively studies. We propose extracting the embeddings from speech spectrograms samples, then explore several configurations of such spectrograms, and finally, quantify the embeddings quality. We also show some limitations of our data setting which is predominantly composed by male speakers. At the end, we propose two approaches to calculate the Likelihood Radio given out speech embeddings and we show that triplet loss is a good alternative to create speech embeddings for forensic speaker identification.
翻訳日:2021-02-27 01:47:09 公開日:2021-02-24
# (参考訳) 効率的な量子計算のためのエンタングルメント診断 [全文訳有]

Entanglement Diagnostics for Efficient Quantum Computation ( http://arxiv.org/abs/2102.12534v1 )

ライセンス: CC BY 4.0
Joonho Kim, Yaron Oz(参考訳) ランダムに初期化された変分量子回路における情報拡散対策を検討し、効率的な量子/古典的ハイブリッド計算のための絡み合い診断を構築する。 ランダム回路の密度行列のrenyiエントロピーに従い、回路層数を2つの異なる領域に分割し、それらの間に遷移ゾーンを設ける。 k-局所ハミルトニアンのコスト関数にエンコードされる最適化問題を解くための高性能領域を同定した。 我々は、最も近い横フィールドイジングモデル、長距離横フィールドイジングモデル、サハデフ-イェ-キタエフモデルという3つの例を考察する。 最適化過程の定性差と定量的差を解析することにより、最適化性能と相関性の高い堅牢な診断が絡み合っていることを実証します。 異なる回路アーキテクチャにおけるエンタングルメント診断の利点と、エンタングルメント構造を維持しながらパラメータ空間次元を変更することの影響について検討する。

We consider information spreading measures in randomly initialized variational quantum circuits and construct entanglement diagnostics for efficient quantum/classical hybrid computations. Following the Renyi entropies of the random circuit's reduced density matrix, we divide the number of circuit layers into two separate regions with a transitioning zone between them. We identify the high-performance region for solving optimization problems encoded in the cost function of k-local Hamiltonians. We consider three example Hamiltonians, i.e., the nearest-neighbor transverse-field Ising model, the long-range transverse-field Ising model and the Sachdev-Ye-Kitaev model. By analyzing the qualitative and quantitative differences in the respective optimization processes, we demonstrate that the entanglement measures are robust diagnostics that are highly correlated with the optimization performance. We study the advantage of entanglement diagnostics for different circuit architectures and the impact of changing the parameter space dimensionality while maintaining its entanglement structure.
翻訳日:2021-02-27 01:35:50 公開日:2021-02-24
# (参考訳) 逐次学習に基づくIaaS構成

Sequential Learning-based IaaS Composition ( http://arxiv.org/abs/2102.12598v1 )

ライセンス: CC BY 4.0
Sajib Mistry, Sheik Mohammad Mostakim Fattah, and Athman Bouguettaya(参考訳) プロバイダの長期サービス規定に関する定性的な好みに応じて、消費者要求の最適なセットを選択する新しいIaaS構成フレームワークを提案する。 意思決定変数は時間条件選好ネットワーク(tempcp-net)に含まれ、短期消費者と長期消費者の両方の質的選好を表す。 リクエストの集合のグローバルな選好ランキングは、 \textit{k}-d tree indexing based temporal similarity measure approach を用いて計算される。 グローバルな選好ランキングを最大化する3次元Q-ラーニング手法を提案する。 構成における要求の受け入れや拒否に要求の長さを適用する、オンポリシーに基づく逐次選択学習手法を設計する。 提案手法は,アグロメレーティブクラスタリング手法を用いて,時系列最適化の歴史的経験や政策を再利用する。 実験結果は、提案されたフレームワークの実現可能性を証明する。

We propose a novel IaaS composition framework that selects an optimal set of consumer requests according to the provider's qualitative preferences on long-term service provisions. Decision variables are included in the temporal conditional preference networks (TempCP-net) to represent qualitative preferences for both short-term and long-term consumers. The global preference ranking of a set of requests is computed using a \textit{k}-d tree indexing based temporal similarity measure approach. We propose an extended three-dimensional Q-learning approach to maximize the global preference ranking. We design the on-policy based sequential selection learning approach that applies the length of request to accept or reject requests in a composition. The proposed on-policy based learning method reuses historical experiences or policies of sequential optimization using an agglomerative clustering approach. Experimental results prove the feasibility of the proposed framework.
翻訳日:2021-02-27 01:05:08 公開日:2021-02-24
# (参考訳) 分散環境における高速双方向圧縮のための中央保存モデル

Preserved central model for faster bidirectional compression in distributed settings ( http://arxiv.org/abs/2102.12528v1 )

ライセンス: CC BY 4.0
Constantin Philippenko and Aymeric Dieuleveut(参考訳) 我々は,分散学習問題における通信制約に中央サーバで対処する新しい手法を開発した。 本研究では,双方向圧縮を行い,(ローカルワーカーから中央サーバへの)アップリンクのみを用いたアルゴリズムと同じ収束率を達成する新しいアルゴリズムを提案し,解析する。 この改善を実現するために,ダウンリンク圧縮が局所モデルにのみ影響を与えるアルゴリズムであるmcmを設計し,グローバルモデルを保存した。 その結果、以前の作品とは対照的に、ローカルサーバのグラデーションは乱れモデルで計算されます。 その結果、収束証明はより困難であり、この摂動の正確な制御を必要とする。 これを保証するため、mcmはモデル圧縮とメモリ機構を組み合わせる。 この分析は、例えば新しいドアを開く。 労働者依存型ランダム化モデルと部分参加の導入。

We develop a new approach to tackle communication constraints in a distributed learning problem with a central server. We propose and analyze a new algorithm that performs bidirectional compression and achieves the same convergence rate as algorithms using only uplink (from the local workers to the central server) compression. To obtain this improvement, we design MCM, an algorithm such that the downlink compression only impacts local models, while the global model is preserved. As a result, and contrary to previous works, the gradients on local servers are computed on perturbed models. Consequently, convergence proofs are more challenging and require a precise control of this perturbation. To ensure it, MCM additionally combines model compression with a memory mechanism. This analysis opens new doors, e.g. incorporating worker dependent randomized-models and partial participation.
翻訳日:2021-02-27 00:47:21 公開日:2021-02-24
# (参考訳) 確率的実演による最大度制約推論 [全文訳有]

Maximum Likelihood Constraint Inference from Stochastic Demonstrations ( http://arxiv.org/abs/2102.12554v1 )

ライセンス: CC BY 4.0
David L. McPherson, Kaylene C. Stocking, S. Shankar Sastry(参考訳) 専門家が危険な動的システムを操作すると、実証された軌道と制御に理想的な制約情報が暗黙に含まれる。 システムのダイナミクスとタスクの目的を考えると、これらのデモンストレーションの可能性を計算でき、最大可能性の制約を特定できる。 事前の制約推論は主に決定論的モデルに焦点が当てられている。 しかし確率モデルは、実際の関心のシステムでしばしば見られる不確実性とリスク許容性を捉えることができる。 本稿では,最大因果エントロピー確率を用いて,確率的応用に対する最大極限制約推定を拡張する。 さらに,統合されたベルマンバックアップにおける制約可能性とリスク耐性を計算し,計算複雑性を増大させることなく確率系に一般化するアルゴリズムを提案する。

When an expert operates a perilous dynamic system, ideal constraint information is tacitly contained in their demonstrated trajectories and controls. The likelihood of these demonstrations can be computed, given the system dynamics and task objective, and the maximum likelihood constraints can be identified. Prior constraint inference work has focused mainly on deterministic models. Stochastic models, however, can capture the uncertainty and risk tolerance that are often present in real systems of interest. This paper extends maximum likelihood constraint inference to stochastic applications by using maximum causal entropy likelihoods. Furthermore, we propose an efficient algorithm that computes constraint likelihood and risk tolerance in a unified Bellman backup, allowing us to generalize to stochastic systems without increasing computational complexity.
翻訳日:2021-02-27 00:46:24 公開日:2021-02-24
# (参考訳) FERMI:指数R'enyi相互情報による公正な経験的リスク最小化 [全文訳有]

FERMI: Fair Empirical Risk Minimization via Exponential R\'enyi Mutual Information ( http://arxiv.org/abs/2102.12586v1 )

ライセンス: CC BY 4.0
Andrew Lowy, Rakesh Pavan, Sina Baharlouei, Meisam Razaviyayn, Ahmad Beirami(参考訳) 本稿では,公平性侵害の新しい概念である指数 R'enyi Mutual Information (ERMI) を提案する。 ERMIは、既存の公正性違反の概念に対する上限保証を提供するという意味で、強い公正性違反概念であることを示す。 FERMIと呼ばれるERMI正規化フレームワークを通じて、公正な経験的リスク最小化を提案します。 既存の処理フェアネスアルゴリズムのほとんどが決定論的であるのに対し、フェルミを解くための証明可能な収束保証を備えた最初の確率的最適化手法を提供する。 我々の確率的アルゴリズムは、実験的に示すように、大規模な問題に適応できる。 さらに、最適な収束率でFERMIを解くためのバッチ(決定論的)アルゴリズムを提供します。 どちらのアルゴリズムも、複数の(非バイナリ)敏感属性と非バイナリターゲットの問題に適用可能です。 広範な実験により、FERMIは、最先端のベースラインと比較して、さまざまな問題セットアップにおける公正性違反とテスト精度の最も有利なトレードオフを達成することが示されています。

In this paper, we propose a new notion of fairness violation, called Exponential R\'enyi Mutual Information (ERMI). We show that ERMI is a strong fairness violation notion in the sense that it provides upper bound guarantees on existing notions of fairness violation. We then propose the Fair Empirical Risk Minimization via ERMI regularization framework, called FERMI. Whereas most existing in-processing fairness algorithms are deterministic, we provide the first stochastic optimization method with a provable convergence guarantee for solving FERMI. Our stochastic algorithm is amenable to large-scale problems, as we demonstrate experimentally. In addition, we provide a batch (deterministic) algorithm for solving FERMI with the optimal rate of convergence. Both of our algorithms are applicable to problems with multiple (non-binary) sensitive attributes and non-binary targets. Extensive experiments show that FERMI achieves the most favorable tradeoffs between fairness violation and test accuracy across various problem setups compared with state-of-the-art baselines.
翻訳日:2021-02-27 00:35:04 公開日:2021-02-24
# (参考訳) psiphi-learning:後継機能と逆時間差学習を用いた強化学習 [全文訳有]

PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning ( http://arxiv.org/abs/2102.12560v1 )

ライセンス: CC BY 4.0
Angelos Filos, Clare Lyle, Yarin Gal, Sergey Levine, Natasha Jaques, Gregory Farquhar(参考訳) 我々は、RLエージェントが他のエージェントと同一環境との相互作用から追加データにアクセス可能な設定である、非逆デモによる強化学習(RL)について研究する。 しかし、これらのエージェントの報酬や目標にはアクセスできず、その目的や専門知識のレベルは大きく異なる可能性がある。 これらの仮定は、自動運転などのマルチエージェント設定で一般的です。 このデータを効果的に利用するために、後継機能のフレームワークに目を向ける。 これにより、共有機能と環境のダイナミクスをエージェント固有の報酬やポリシーから切り離すことができます。 本論文では,エージェント毎の後継機能と選好ベクトルに加えて,純粋に報酬ラベルのないデモンストレーションから共有状態の特徴を学習する,マルチタスクの逆強化学習(IRL)アルゴリズムである \emph{inverse temporal difference learning} (ITD)を提案する。 さらに,オンライン環境インタラクションからの学習とitdをシームレスに統合する方法を示し,実演による強化学習のための新しいアルゴリズムである$\psi \phi$-learning(' ;sci-fi'と発音する)を提示する。 我々は, rl, irl, 模倣, および少数ショット転送を改善する方法として$\psi \phi$-learningの有効性を実証的に示し, ゼロショットトランスファーにおける性能の最悪のケース境界を導出する。

We study reinforcement learning (RL) with no-reward demonstrations, a setting in which an RL agent has access to additional data from the interaction of other agents with the same environment. However, it has no access to the rewards or goals of these agents, and their objectives and levels of expertise may vary widely. These assumptions are common in multi-agent settings, such as autonomous driving. To effectively use this data, we turn to the framework of successor features. This allows us to disentangle shared features and dynamics of the environment from agent-specific rewards and policies. We propose a multi-task inverse reinforcement learning (IRL) algorithm, called \emph{inverse temporal difference learning} (ITD), that learns shared state features, alongside per-agent successor features and preference vectors, purely from demonstrations without reward labels. We further show how to seamlessly integrate ITD with learning from online environment interactions, arriving at a novel algorithm for reinforcement learning with demonstrations, called $\Psi \Phi$-learning (pronounced `Sci-Fi'). We provide empirical evidence for the effectiveness of $\Psi \Phi$-learning as a method for improving RL, IRL, imitation, and few-shot transfer, and derive worst-case bounds for its performance in zero-shot transfer to new tasks.
翻訳日:2021-02-26 16:50:09 公開日:2021-02-24
# (参考訳) Directional Bias Amplification [全文訳有]

Directional Bias Amplification ( http://arxiv.org/abs/2102.12594v1 )

ライセンス: CC BY 4.0
Angelina Wang and Olga Russakovsky(参考訳) 機械学習システムにおけるバイアスの軽減には、社会構造から大規模データ、社会に影響を及ぼす訓練されたモデルまで、バイアス伝播経路の理解を深める必要があります。 本研究では,学習中のデータに含まれるバイアスを増幅するモデルの傾向を,バイアス増幅という,問題の1つの側面に焦点をあてる。 バイアス増幅を測定するためのメトリックは、Zhao et alによるセミナル作品に導入されました。 (2017) しかし、この指標は、様々な種類のバイアス増幅を混在させ、保護されたクラスの様々なベースレートを考慮していないなど、多くの欠点に悩まされている。 我々は、バイアス増幅を測定するための新しい分離されたメトリクス、$\text{BiasAmp}_{\rightarrow}$(Directional Bias Amplification)を紹介し、分析する。 このメトリクスの技術的な仮定と規範的な意味の両方を徹底的に分析し、議論します。 我々は,敏感な属性の予測に注意を払い,モデル間の公平さのゆらぎによる信頼区間の使用を奨励し,この測定結果の限界を議論することによって,その測定について提案する。 本稿では, 偏差増幅の技術的測定を疑問視し, 包含したいものに関する規範的考えに導かれる。

Mitigating bias in machine learning systems requires refining our understanding of bias propagation pathways: from societal structures to large-scale data to trained models to impact on society. In this work, we focus on one aspect of the problem, namely bias amplification: the tendency of models to amplify the biases present in the data they are trained on. A metric for measuring bias amplification was introduced in the seminal work by Zhao et al. (2017); however, as we demonstrate, this metric suffers from a number of shortcomings including conflating different types of bias amplification and failing to account for varying base rates of protected classes. We introduce and analyze a new, decoupled metric for measuring bias amplification, $\text{BiasAmp}_{\rightarrow}$ (Directional Bias Amplification). We thoroughly analyze and discuss both the technical assumptions and the normative implications of this metric. We provide suggestions about its measurement by cautioning against predicting sensitive attributes, encouraging the use of confidence intervals due to fluctuations in the fairness of models across runs, and discussing the limitations of what this metric captures. Throughout this paper, we work to provide an interrogative look at the technical measurement of bias amplification, guided by our normative ideas of what we want it to encompass.
翻訳日:2021-02-26 15:58:40 公開日:2021-02-24
# AniGAN: 教師なしアニメ顔生成のためのスタイルガイド付きジェネレータネットワーク

AniGAN: Style-Guided Generative Adversarial Networks for Unsupervised Anime Face Generation ( http://arxiv.org/abs/2102.12593v1 )

ライセンス: Link先を確認
Bing Li, Yuanlue Zhu, Yitong Wang, Chia-Wen Lin, Bernard Ghanem, Linlin Shen(参考訳) 本論文では,ポートレート・フォトフェイスをアニメ化するための新しい枠組みを提案する。 私たちの目標は、特定の参照アニメフェイスとスタイル一貫性のあるアニメフェイスを合成することです。 しかし、一般的な翻訳課題と異なり、アニメの表情が複雑なため、このようなアニメの翻訳は困難である。 既存の方法は、しばしば参照アニメフェイスのスタイルを転送したり、生成された顔の局所的な形状に顕著なアーティファクトや歪みを導入することに失敗する。 高品質なアニメを合成する新しいganベースの翻訳器ani-ganを提案する。 具体的には,カラー/テクチュアスタイルを同時転送し,参照アニメフェイスのスタイルに基づいて局所的な顔形状をアニメライクに変換し,ソースフォトフェイスのグローバル構造を保ちながら,新たなジェネレータアーキテクチャを提案する。 本稿では,ドメイン固有分布とドメイン共有分布の両方を学習し,視覚的に心地よいアニメ表現を生成し,効果的にアーティファクトを緩和するダブルブランチ判別器を提案する。 本手法の最先端手法に対する優位性を質的かつ定量的に実証した。

In this paper, we propose a novel framework to translate a portrait photo-face into an anime appearance. Our aim is to synthesize anime-faces which are style-consistent with a given reference anime-face. However, unlike typical translation tasks, such anime-face translation is challenging due to complex variations of appearances among anime-faces. Existing methods often fail to transfer the styles of reference anime-faces, or introduce noticeable artifacts/distortion s in the local shapes of their generated faces. We propose Ani- GAN, a novel GAN-based translator that synthesizes highquality anime-faces. Specifically, a new generator architecture is proposed to simultaneously transfer color/texture styles and transform local facial shapes into anime-like counterparts based on the style of a reference anime-face, while preserving the global structure of the source photoface. We propose a double-branch discriminator to learn both domain-specific distributions and domain-shared distributions, helping generate visually pleasing anime-faces and effectively mitigate artifacts. Extensive experiments qualitatively and quantitatively demonstrate the superiority of our method over state-of-the-art methods.
翻訳日:2021-02-26 14:03:43 公開日:2021-02-24
# 分布外検出の統計的理論

A statistical theory of out-of-distribution detection ( http://arxiv.org/abs/2102.12959v1 )

ライセンス: Link先を確認
Xi Wang, Laurence Aitchison(参考訳) 本稿では、データキュレーションへの接続を利用して、配当外データ(OOD)を検出するための原則的アプローチを提案する。 データキュレーションでは、データセットから曖昧または分類が難しい入力ポイントを除外し、これらの除外ポイントは定義OODです。 したがって,ベイズニューラルネットワーク(aitchison 2020)における寒冷後効果を説明するために最初に開発されたデータキュレーションの原理的生成モデルを用いて,ood点の確率を求めることができる。 このモデルにより,予測不確実性が高い場合のOOD確率が向上し,分布内およびOOD点上での最大類似度を併用して訓練することができる。 このアプローチは、OODポイントの確率を示さない過去の手法に優れた性能を与え、従って最大化を用いてトレーニングすることができない。

We introduce a principled approach to detecting out-of-distribution (OOD) data by exploiting a connection to data curation. In data curation, we exclude ambiguous or difficult-to-classif y input points from the dataset, and these excluded points are by definition OOD. We can therefore obtain the likelihood for OOD points by using a principled generative model of data-curation initially developed to explain the cold-posterior effect in Bayesian neural networks (Aitchison 2020). This model gives higher OOD probabilities when predictive uncertainty is higher and can be trained using maximum-likelihood jointly over the in-distribution and OOD points. This approach gives superior performance to past methods that did not provide a probability for OOD points, and therefore could not be trained using maximum-likelihood.
翻訳日:2021-02-26 13:59:45 公開日:2021-02-24
# Robust SleepNets

Robust SleepNets ( http://arxiv.org/abs/2102.12555v1 )

ライセンス: Link先を確認
Yigit Alparslan and Edward Kim(参考訳) 最先端の畳み込みニューラルネットワークは、顔認識やオブジェクト分類などの機械学習タスクに優れているが、逆襲がある場合、著しく苦しむ。 機械学習モデルがデプロイされるマシンクリティカルシステムは、堅牢なモデルを使用して、現実世界の幅広い変数と、敵の攻撃を使用する悪意のあるアクターを扱うことが重要である。 本研究では,運転者の脱着や運転者の眠気にかかわる事故を防止するために,視線閉鎖性検出について検討した。 具体的には、このアプリケーションドメインにおける敵攻撃に焦点をあてるが、他の多くのドメインにその方法論を適用することができることを強調する。 目の閉鎖度を検出するための2つのモデル:目の画像の最初のモデルと顔の画像の2番目のモデル。 我々は,予測グラディエント Descent,Fast Gradient Sign,DeepFool メソッドでモデルに逆襲し,逆襲成功率を報告する。 また,トレーニングデータ拡張の効果についても検討した。 最後に, 摂動画像上で同じモデルを逆さまに訓練し, これらの攻撃に対する防御の成功率を報告する。 本研究は、運転者の顔画像を撮影して、眠気のため目を閉じた場合に警告することで、自動車事故を防止するための研究の実施を期待する。

State-of-the-art convolutional neural networks excel in machine learning tasks such as face recognition, and object classification but suffer significantly when adversarial attacks are present. It is crucial that machine critical systems, where machine learning models are deployed, utilize robust models to handle a wide range of variability in the real world and malicious actors that may use adversarial attacks. In this study, we investigate eye closedness detection to prevent vehicle accidents related to driver disengagements and driver drowsiness. Specifically, we focus on adversarial attacks in this application domain, but emphasize that the methodology can be applied to many other domains. We develop two models to detect eye closedness: first model on eye images and a second model on face images. We adversarially attack the models with Projected Gradient Descent, Fast Gradient Sign and DeepFool methods and report adversarial success rate. We also study the effect of training data augmentation. Finally, we adversarially train the same models on perturbed images and report the success rate for the defense against these attacks. We hope our study sets up the work to prevent potential vehicle accidents by capturing drivers' face images and alerting them in case driver's eyes are closed due to drowsiness.
翻訳日:2021-02-26 13:58:25 公開日:2021-02-24
# CycleGANによる合成欠陥画像を用いた鉄道異常検出モデル

Railway Anomaly detection model using synthetic defect images generated by CycleGAN ( http://arxiv.org/abs/2102.12595v1 )

ライセンス: Link先を確認
Takuro Hoshi, Yohei Baba and Gaurang Gavai(参考訳) 機械学習にはトレーニングデータが不可欠だが, 欠陥機器を積極的に置き換えることによって, 欠陥機器の適切な画像収集が困難になっている。 それでも、公共交通機関の安全かつ不安定な運用には、積極的な代替が不可欠である。 本研究では,実画像の代わりにCycleGANを用いて欠陥機器の人工画像を生成するモデルを開発した。 これらの生成画像をトレーニングデータとして採用することにより,実際の画像と区別できないこと,欠陥検出モデルの精度向上に重要な役割を果たすことを検証した。

Although training data is essential for machine learning, railway companies are facing difficulties in gathering adequate images of defective equipment due to their proactive replacement of would be defective equipment. Nevertheless, proactive replacement is indispensable for safe and undisturbed operation of public transport. In this research, we have developed a model using CycleGAN to generate artificial images of defective equipment instead of real images. By adopting these generated images as training data, we verified that these images are indistinguishable from real images and they play a vital role in enhancing the accuracy of the defect detection models.
翻訳日:2021-02-26 13:58:02 公開日:2021-02-24
# 協調強化学習のための創発的離散メッセージコミュニケーションの学習

Learning Emergent Discrete Message Communication for Cooperative Reinforcement Learning ( http://arxiv.org/abs/2102.12550v1 )

ライセンス: Link先を確認
Sheng Li, Yutai Zhou, Ross Allen, Mykel J. Kochenderfer(参考訳) コミュニケーションは、エージェントがマルチエージェント強化学習(MARL)で協力的に作業できるようにする重要な要素です。 以前のほとんどの仕事は、高い表現能力が解釈可能性の犠牲になる連続的なメッセージ通信を使っている。 エージェントが様々なドメインから独自の個別メッセージ通信プロトコルを学習できるようにすることにより、人間設計者や他のエージェントの解釈可能性を高めることができ、本論文では、人間の言語に類似した個別メッセージを生成し、自己注意に基づく放送・リステン機構によるコミュニケーションを実現する方法を提案する。 我々は,離散メッセージ通信は連続メッセージ通信に匹敵する性能を持つが,語彙サイズははるかに小さいことを示し,さらに,対話的にエージェントに離散メッセージを送ることができる手法を提案する。

Communication is a important factor that enables agents work cooperatively in multi-agent reinforcement learning (MARL). Most previous work uses continuous message communication whose high representational capacity comes at the expense of interpretability. Allowing agents to learn their own discrete message communication protocol emerged from a variety of domains can increase the interpretability for human designers and other agents.This paper proposes a method to generate discrete messages analogous to human languages, and achieve communication by a broadcast-and-listen mechanism based on self-attention. We show that discrete message communication has performance comparable to continuous message communication but with much a much smaller vocabulary size.Furthermore, we propose an approach that allows humans to interactively send discrete messages to agents.
翻訳日:2021-02-26 13:57:29 公開日:2021-02-24
# Logical Options Framework

The Logical Options Framework ( http://arxiv.org/abs/2102.12571v1 )

ライセンス: Link先を確認
Brandon Araki, Xiao Li, Kiran Vodrahalli, Jonathan DeCastro, Micah J. Fry, Daniela Rus(参考訳) 複雑なルールやタスクを持つ環境で構成可能なポリシーを学ぶことは難しい問題です。 満足し、最適で、構成可能なポリシーを学ぶ「ロジカルオプションフレームワーク(LOF)」と呼ばれる階層的強化学習フレームワークを紹介します。 LOFはタスクをオートマトンとして表現し、学習と計画に統合することで、タスクを満たすポリシーを効率的に学習する。 我々は、LOFが満足のいく最適なポリシーを学習する条件を提供し、証明する。 最後に、LOFの学習ポリシーがどのように構成され、目に見えないタスクを10~50のトレーニングステップで満たせるかを示す。 3Dピック&プレイス環境を含む離散および連続ドメインの4つのタスクでLOFを評価します。

Learning composable policies for environments with complex rules and tasks is a challenging problem. We introduce a hierarchical reinforcement learning framework called the Logical Options Framework (LOF) that learns policies that are satisfying, optimal, and composable. LOF efficiently learns policies that satisfy tasks by representing the task as an automaton and integrating it into learning and planning. We provide and prove conditions under which LOF will learn satisfying, optimal policies. And lastly, we show how LOF's learned policies can be composed to satisfy unseen tasks with only 10-50 retraining steps. We evaluate LOF on four tasks in discrete and continuous domains, including a 3D pick-and-place environment.
翻訳日:2021-02-26 13:57:16 公開日:2021-02-24
# 時間論理を用いた連続運動計画のためのモジュラー深層強化学習

Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic ( http://arxiv.org/abs/2102.12855v1 )

ライセンス: Link先を確認
Mingyu Cai, Mohammadhosein Hasanbeig, Shaoping Xiao, Alessandro Abate and Zhen Kan(参考訳) 本稿では,マルコフ決定過程(mdp)をモデルとした自律力学系の連続状態と動作空間上の遷移確率の未知な動き計画について検討する。 線形時間論理 (LTL) は無限の地平線上の高レベルなタスクを指定するのに使われ、いくつかの受け入れ集合を持つ極限決定論的一般化 B\"uchi automaton (LDGBA) に変換できる。 この新機能は、LDGBAとMDPの間の組み込み製品MDP(EP-MDP)を、オートマトンの未訪問受入セットを記録し、受入条件の満足を促進するために同期追跡フロンティア関数を組み込むことによって設計することである。 モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引方式は、EP-MDP状態に依存し、スパース報酬の問題を克服することができる。 厳密な分析により、期待値の値引きを最適化するrlメソッドは満足度確率を最大化する最適なポリシーを見つけることが保証される。 モジュラーディープ決定性ポリシー勾配(DDPG)は、連続状態やアクション空間上のポリシーを生成するために開発される。 フレームワークの性能は,OpenAIのジム環境を通じて評価される。

This paper investigates the motion planning of autonomous dynamical systems modeled by Markov decision processes (MDP) with unknown transition probabilities over continuous state and action spaces. Linear temporal logic (LTL) is used to specify high-level tasks over infinite horizon, which can be converted into a limit deterministic generalized B\"uchi automaton (LDGBA) with several accepting sets. The novelty is to design an embedded product MDP (EP-MDP) between the LDGBA and the MDP by incorporating a synchronous tracking-frontier function to record unvisited accepting sets of the automaton, and to facilitate the satisfaction of the accepting conditions. The proposed LDGBA-based reward shaping and discounting schemes for the model-free reinforcement learning (RL) only depend on the EP-MDP states and can overcome the issues of sparse rewards. Rigorous analysis shows that any RL method that optimizes the expected discounted return is guaranteed to find an optimal policy whose traces maximize the satisfaction probability. A modular deep deterministic policy gradient (DDPG) is then developed to generate such policies over continuous state and action spaces. The performance of our framework is evaluated via an array of OpenAI gym environments.
翻訳日:2021-02-26 13:57:05 公開日:2021-02-24
# マルチエージェント強化学習のためのメタポリシー勾配付クレジット割り当て

Credit Assignment with Meta-Policy Gradient for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2102.12957v1 )

ライセンス: Link先を確認
Jianzhun Shao, Hongchang Zhang, Yuhang Jiang, Shuncheng He, Xiangyang Ji(参考訳) 多エージェント強化学習のための分散実行〜(CTDE)パラダイムを用いた集中訓練において,逆分解は重要な問題である。 そこで本研究では,Q値を個別のクレジットに分解するために,すべてのエージェントと関連する環境の状態をフル活用するグローバル情報を活用するために,メタポリシーグラディエント~(MNMPG)を用いた総合メタラーニングネットワークを提案する。 グローバル階層学習のための励振信号は、ユーティリティネットワークを介して「更新の実施」前後のエピソード報酬差から導出される。 本手法は,単調混合ネットワークを用いたCTDE法に一般的に適用できる。 StarCraft IIマイクロマネジメントベンチマークの実験では、単純なユーティリティネットワークだけで、5つの超硬シナリオのうち4つで現在の最先端のMARLアルゴリズムより優れていることが示されている。 ロールベースのユーティリティネットワークと組み合わせることで、パフォーマンスをさらに向上できます。

Reward decomposition is a critical problem in centralized training with decentralized execution~(CTDE) paradigm for multi-agent reinforcement learning. To take full advantage of global information, which exploits the states from all agents and the related environment for decomposing Q values into individual credits, we propose a general meta-learning-based Mixing Network with Meta Policy Gradient~(MNMPG) framework to distill the global hierarchy for delicate reward decomposition. The excitation signal for learning global hierarchy is deduced from the episode reward difference between before and after "exercise updates" through the utility network. Our method is generally applicable to the CTDE method using a monotonic mixing network. Experiments on the StarCraft II micromanagement benchmark demonstrate that our method just with a simple utility network is able to outperform the current state-of-the-art MARL algorithms on 4 of 5 super hard scenarios. Better performance can be further achieved when combined with a role-based utility network.
翻訳日:2021-02-26 13:56:43 公開日:2021-02-24
# 人工知能を取り巻く言語に関する大規模自動研究

A Large-Scale, Automated Study of Language Surrounding Artificial Intelligence ( http://arxiv.org/abs/2102.12516v1 )

ライセンス: Link先を確認
Autumn Toney(参考訳) 本研究は,2011年から2019年にかけてのニュース記事や学術出版物の中で,人工知能(AI)と機械学習(ML)の大規模な分析を行う。 AI/MLとの共同発生言語のシフトを自動的に識別し、これらの単語関連の強さを定量化する単語関連測定を実施します。 我々の結果は、AI/MLに関する認識と定義の進化を強調し、新たなアプリケーション領域、モデル、システム(ブロックチェーンやサイバーセキュリティなど)を検出する。 近年の小規模の手動研究では、一般大衆、政策立案者コミュニティ、研究者コミュニティにおけるAI/MLの議論が検討されているが、そのスケーラビリティと寿命は限られている。 提案手法は,ai/mlに対する一般認識と主観的専門家の議論に新たな視点を与え,先行研究の説明力を大きく超える。

This work presents a large-scale analysis of artificial intelligence (AI) and machine learning (ML) references within news articles and scientific publications between 2011 and 2019. We implement word association measurements that automatically identify shifts in language co-occurring with AI/ML and quantify the strength of these word associations. Our results highlight the evolution of perceptions and definitions around AI/ML and detect emerging application areas, models, and systems (e.g., blockchain and cybersecurity). Recent small-scale, manual studies have explored AI/ML discourse within the general public, the policymaker community, and researcher community, but are limited in their scalability and longevity. Our methods provide new views into public perceptions and subject-area expert discussions of AI/ML and greatly exceed the explanative power of prior work.
翻訳日:2021-02-26 13:52:17 公開日:2021-02-24
# 解剖学的ランドマークの相対位置を用いた気胸肺の変形推定のためのカーネルモデル

Kernel-based framework to estimate deformations of pneumothorax lung using relative position of anatomical landmarks ( http://arxiv.org/abs/2102.12505v1 )

ライセンス: Link先を確認
Utako Yamamoto, Megumi Nakao, Masayuki Ohzeki, Junko Tokuno, Toyofumi Fengshi Chen-Yoshikawa, and Tetsuya Matsuda(参考訳) 胸腔鏡下胸腔鏡下手術における結節切除術の成功は,術前計画時のCT像と術中における肺の拡張による肺の膨脹による肺変形の正確な評価に大きく依存する。 手術中の気胸状態の肺は正常な肺から大きく変化しており、機械的モデルの構築が困難である。 本研究の目的は, いくつかの部分的観測から, 減圧肺の3次元表面の変形推定法を開発することである。 主に変形した肺の変形を推定するために, カーネル回帰に基づく溶液を導入した。 術前ctと術中解剖学的位置から得られた3次元表面メッシュの部分的変形を,いくつかのランドマークを用いて捉えた。 メッシュモデル全体の頂点毎の変形はランドマークから相対的な位置として推定された。 ランドマークは肺の外側の輪郭の解剖学的位置に置かれた。 この方法は、生きたビーグル犬の左肺の9つのデータセットに適用された。 肺の造影CT像が得られた。 提案手法では,頂点の局所位置誤差2.74mm,ハウスドルフ距離6.11mm,ダイス類似係数0.94を達成した。 また,本手法では,少人数の訓練症例と観察領域から肺の変形を推定することができた。 本研究は肺の気胸変形に関するデータ駆動モデリングに寄与する。

In video-assisted thoracoscopic surgeries, successful procedures of nodule resection are highly dependent on the precise estimation of lung deformation between the inflated lung in the computed tomography (CT) images during preoperative planning and the deflated lung in the treatment views during surgery. Lungs in the pneumothorax state during surgery have a large volume change from normal lungs, making it difficult to build a mechanical model. The purpose of this study is to develop a deformation estimation method of the 3D surface of a deflated lung from a few partial observations. To estimate deformations for a largely deformed lung, a kernel regression-based solution was introduced. The proposed method used a few landmarks to capture the partial deformation between the 3D surface mesh obtained from preoperative CT and the intraoperative anatomical positions. The deformation for each vertex of the entire mesh model was estimated per-vertex as a relative position from the landmarks. The landmarks were placed in the anatomical position of the lung's outer contour. The method was applied on nine datasets of the left lungs of live Beagle dogs. Contrast-enhanced CT images of the lungs were acquired. The proposed method achieved a local positional error of vertices of 2.74 mm, Hausdorff distance of 6.11 mm, and Dice similarity coefficient of 0.94. Moreover, the proposed method could estimate lung deformations from a small number of training cases and a small observation area. This study contributes to the data-driven modeling of pneumothorax deformation of the lung.
翻訳日:2021-02-26 13:51:22 公開日:2021-02-24
# wikipediaの参考文献:編集者の視点

References in Wikipedia: The Editors' Perspective ( http://arxiv.org/abs/2102.12511v1 )

ライセンス: Link先を確認
Lucie-Aim\'ee Kaffee, Hady Elsahar(参考訳) 参照はwikipediaの重要な部分である。 wikipediaの各文を参照する必要がある。 本稿では,編集者の視点から,新しいウィキペディア記事の参考資料の作成と収集について考察する。 新しい記事を作成する際のエディタのワークフローをマッピングし、レファレンスの選択方法を強調します。

References are an essential part of Wikipedia. Each statement in Wikipedia should be referenced. In this paper, we explore the creation and collection of references for new Wikipedia articles from an editors' perspective. We map out the workflow of editors when creating a new article, emphasising how they select references.
翻訳日:2021-02-26 13:44:54 公開日:2021-02-24
# 自動放射線治療計画のための確率的特徴抽出、線量統計予測および線量模倣

Probabilistic feature extraction, dose statistic prediction and dose mimicking for automated radiation therapy treatment planning ( http://arxiv.org/abs/2102.12569v1 )

ライセンス: Link先を確認
Tianfang Zhang and Rasmus Bokrantz and Jimmy Olsson(参考訳) 目的: 線量関連量の予測的不確かさを定量化し, 放射線治療計画における線量模倣問題においてその情報を活用する汎用的枠組みを提案する。 方法:特徴抽出、線量の統計的な予測および線量の模倣を含む3段階のパイプラインが、採用されます。 特に、これらの特徴は畳み込み変分オートエンコーダによって生成され、予め定義された線量統計の集合の多変量予測分布を推定する、以前に開発された非パラメトリックベイズ統計手法の入力として使用される。 特別に開発された目的関数を用いて、生成した分布に基づいて線量模倣問題を構築し、提供可能な治療計画を作成する。 結果: 前立腺癌患者94名の回顧的治療計画のデータセットを用いて数値実験を行った。 変分オートエンコーダによって抽出された特徴は、線量統計学的予測問題に相当する幾何学的情報を取り込み、推定された予測分布は妥当であり、ベンチマーク法を上回っており、納入可能な計画が臨床指標とよく一致することを示す。 結論: 線量関連量の予測を不確実性推定を含むように拡張し, 線量模倣問題においてそのような確率的情報を活用できることを示す。 提案したパイプラインの処理計画は、確率的モデリングに基づく自動計画に対する全体論的アプローチの利点を反映して、元の計画とよく似ている。

Purpose: We propose a general framework for quantifying predictive uncertainties of dose-related quantities and leveraging this information in a dose mimicking problem in the context of automated radiation therapy treatment planning. Methods: A three-step pipeline, comprising feature extraction, dose statistic prediction and dose mimicking, is employed. In particular, the features are produced by a convolutional variational autoencoder and used as inputs in a previously developed nonparametric Bayesian statistical method, estimating the multivariate predictive distribution of a collection of predefined dose statistics. Specially developed objective functions are then used to construct a dose mimicking problem based on the produced distributions, creating deliverable treatment plans. Results: The numerical experiments are performed using a dataset of 94 retrospective treatment plans of prostate cancer patients. We show that the features extracted by the variational autoencoder captures geometric information of substantial relevance to the dose statistic prediction problem, that the estimated predictive distributions are reasonable and outperforms a benchmark method, and that the deliverable plans agree well with their clinical counterparts. Conclusions: We demonstrate that prediction of dose-related quantities may be extended to include uncertainty estimation and that such probabilistic information may be leveraged in a dose mimicking problem. The treatment plans produced by the proposed pipeline resemble their original counterparts well, illustrating the merits of a holistic approach to automated planning based on probabilistic modeling.
翻訳日:2021-02-26 13:44:28 公開日:2021-02-24
# 安全継続課題強化学習に向けて

Towards Safe Continuing Task Reinforcement Learning ( http://arxiv.org/abs/2102.12585v1 )

ライセンス: Link先を確認
Miguel Calvo-Fullana, Luiz F. O. Chamon, Santiago Paternain(参考訳) 安全は物理システムにおけるコントローラ設計の重要な特徴である。 制御ポリシーを設計する際、ロバストコントローラや制御障壁関数など、自律性のこの側面を保証するいくつかのアプローチが提案されている。 しかし、これらのソリューションは設計者が利用可能なシステムのモデルに強く依存している。 並列開発として、強化学習はモデルに依存しない制御ソリューションを提供するが、一般に、安全に必要な理論的保証は欠如している。 近年の進歩は、厳密な条件下では強化学習を通じて制御ポリシーを学習でき、これらの要件を最適化問題の制約として適用することで安全性を保証できることを示している。 しかし、学習の安全性から安全に学ぶためには、2つのハードルを克服する必要がある: (i) システムを再初期化することなく、ポリシーを学ばなければならない; (ii) システムのロールアウトはそれ自体で安全である必要がある。 本稿では,再起動を必要とせず,継続するタスク設定で動作可能なアルゴリズムを提案する。 本手法は,安全な探索を通じて安全な政策を学習する上で,提案手法の能力を示す数値例で評価する。

Safety is a critical feature of controller design for physical systems. When designing control policies, several approaches to guarantee this aspect of autonomy have been proposed, such as robust controllers or control barrier functions. However, these solutions strongly rely on the model of the system being available to the designer. As a parallel development, reinforcement learning provides model-agnostic control solutions but in general, it lacks the theoretical guarantees required for safety. Recent advances show that under mild conditions, control policies can be learned via reinforcement learning, which can be guaranteed to be safe by imposing these requirements as constraints of an optimization problem. However, to transfer from learning safety to learning safely, there are two hurdles that need to be overcome: (i) it has to be possible to learn the policy without having to re-initialize the system; and (ii) the rollouts of the system need to be in themselves safe. In this paper, we tackle the first issue, proposing an algorithm capable of operating in the continuing task setting without the need of restarts. We evaluate our approach in a numerical example, which shows the capabilities of the proposed approach in learning safe policies via safe exploration.
翻訳日:2021-02-26 13:42:40 公開日:2021-02-24
# 高速なオンライン議論のための動的ソーシャルメディアモニタリング

Dynamic Social Media Monitoring for Fast-Evolving Online Discussions ( http://arxiv.org/abs/2102.12596v1 )

ライセンス: Link先を確認
Maya Srikanth, Anqi Liu, Nicholas Adams-Cohen, Jian Cao, R. Michael Alvarez, Anima Anandkumar(参考訳) 急速に発展するオンライン議論の追跡と収集は、ソーシャルメディアの利用と人々の公共生活におけるその役割を研究するための膨大なデータを提供する。 しかし,静的なキーワードセットを用いたソーシャルメディアデータの収集は,動的会話の監視やトピックの高速な変更の必要性の増大を満足させるには至らなかった。 高速なオンライン議論における関連情報のカバレッジを最大化するための動的キーワード検索手法を提案する。 単語埋め込みモデルを用いてキーワードと予測モデル間の意味関係を表現し、将来の時系列を予測する。 また、キーワード更新の各ラウンドで意思決定プロセスを支援するビジュアルユーザーインターフェイスを実装します。 これにより、人間支援追跡と全自動データ収集の両方が可能になります。 2017年の過去の#metooデータを用いたシミュレーションでは、人間支援追跡手法は従来の静的ベースライン法を大きく上回り、従来の静的モニターよりも37.1%高いf-1スコアでトップトレンドキーワードを追跡している。 我々は,最近の就任式に関するダイナミックな会話を取り上げ,動的データ収集システムをテストするために,現代のケーススタディを実施している。 我々のケーススタディでは、プロセスの有効性を反映し、将来の展開における潜在的な課題も指摘しています。

Tracking and collecting fast-evolving online discussions provides vast data for studying social media usage and its role in people's public lives. However, collecting social media data using a static set of keywords fails to satisfy the growing need to monitor dynamic conversations and to study fast-changing topics. We propose a dynamic keyword search method to maximize the coverage of relevant information in fast-evolving online discussions. The method uses word embedding models to represent the semantic relations between keywords and predictive models to forecast the future time series. We also implement a visual user interface to aid in the decision-making process in each round of keyword updates. This allows for both human-assisted tracking and fully-automated data collection. In simulations using historical #MeToo data in 2017, our human-assisted tracking method outperforms the traditional static baseline method significantly, with 37.1% higher F-1 score than traditional static monitors in tracking the top trending keywords. We conduct a contemporary case study to cover dynamic conversations about the recent Presidential Inauguration and to test the dynamic data collection system. Our case studies reflect the effectiveness of our process and also points to the potential challenges in future deployment.
翻訳日:2021-02-26 13:42:21 公開日:2021-02-24
# 移動体位置情報を用いた避難進化パターンの構築と決定 : ハリケーンイルマを事例として

Constructing Evacuation Evolution Patterns and Decisions Using Mobile Device Location Data: A Case Study of Hurricane Irma ( http://arxiv.org/abs/2102.12600v1 )

ライセンス: Link先を確認
Aref Darzi, Vanessa Frias-Martinez, Sepehr Ghader, Hannah Younes, Lei Zhang(参考訳) ハリケーン避難時の個人の行動を理解することは、自然災害に備えたい地域、州、政府機関にとって最重要事項である。 人為的な意思決定手順や災害データ不足に関わる複雑さが、ハリケーン避難研究を困難にしている主な理由である。 本稿では,大規模な携帯電話位置情報サービス(LBS)データを用いて,ハリケーンイルマの上陸時の避難パターンを構築した。 提案したフレームワークを1100億以上の携帯電話の位置情報に利用することで、フロリダ州に住んでいた807,623人のスマートフォンユーザーの避難判断を捉えることができた。 ユーザの避難判断,出発・再入国日分布,目的地選択を検討した。 これらの決定に加えて,避難順序と低層住宅地が個人の避難判断に与える影響を実証的に検討した。 本分析の結果,強制避難区域に住む住民の57.92%が住居を避難し,この割合は避難命令のない地域に住む住民の32.98%と33.68%であった。 さらに, 避難意思決定のモデル化において, 個人の移動行動の重要性を明らかにした。 個人毎の移動回数や個人の位置軌跡がカバーする空間領域などの過去の移動行動情報は,我々の選択モデルにおいて著しく推定され,モデル全体の精度が著しく向上した。

Understanding individuals' behavior during hurricane evacuation is of paramount importance for local, state, and government agencies hoping to be prepared for natural disasters. Complexities involved with human decision-making procedures and lack of data for such disasters are the main reasons that make hurricane evacuation studies challenging. In this paper, we utilized a large mobile phone Location-Based Services (LBS) data to construct the evacuation pattern during the landfall of Hurricane Irma. By employing our proposed framework on more than 11 billion mobile phone location sightings, we were able to capture the evacuation decision of 807,623 smartphone users who were living within the state of Florida. We studied users' evacuation decisions, departure and reentry date distribution, and destination choice. In addition to these decisions, we empirically examined the influence of evacuation order and low-lying residential areas on individuals' evacuation decisions. Our analysis revealed that 57.92% of people living in mandatory evacuation zones evacuated their residences while this ratio was 32.98% and 33.68% for people living in areas with no evacuation order and voluntary evacuation order, respectively. Moreover, our analysis revealed the importance of the individuals' mobility behavior in modeling the evacuation decision choice. Historical mobility behavior information such as number of trips taken by each individual and the spatial area covered by individuals' location trajectory estimated significant in our choice model and improve the overall accuracy of the model significantly.
翻訳日:2021-02-26 13:42:02 公開日:2021-02-24
# 深層組織における高スペクトル光音響コントラストを実現する深層学習型電気ノイズ除去法

Deep learning based electrical noise removal enables high spectral optoacoustic contrast in deep tissue ( http://arxiv.org/abs/2102.12960v1 )

ライセンス: Link先を確認
Christoph Dehner, Ivan Olefir, Kaushik Basak Chowdhury, Dominik J\"ustel, Vasilis Ntziachristos(参考訳) マルチスペクトル光音響トモグラフィ(MSOT)における画像コントラストは、取得した光音響信号の電気ノイズと干渉により著しく低減できる。 信号処理技術は、単純なモデルに依存し、信号と雑音の複雑な特性を捉えることができないため、電気ノイズの影響を取り除くには不十分であることが証明されている。 さらに、リアルタイムイメージングアプリケーションには適さない時間を要する処理ステップもしばしば含まれる。 本研究では,画像再構成に先立って光音響信号から電気ノイズを分離するための識別的深層学習(DL)手法を開発し,実演する。 提案するDLアルゴリズムは2つの重要な特徴に基づいている。 まず、オプトアコースティックシンドグラム全体を入力として使用し、ノイズと信号の両方の時空間相関を学習します。 第二に、実験的に得られた純粋雑音と合成光音響信号の大規模なデータセットに基づいてトレーニングを行う。 人工的なデータとファントムと人間の乳房の光音響画像の電気的ノイズを正確に除去する訓練を受けたモデルの能力を検証する。 形態的およびスペクトル的視音響的画像は血管造影率19%に達し,in vivoで取得した画像では2cm以上の深さで局所的スペクトルコントラストが得られた。 提案手法を臨床用マルチスペクトル光音響トモグラフィに適用し, 実時間操作に適しているか検討した。

Image contrast in multispectral optoacoustic tomography (MSOT) can be severely reduced by electrical noise and interference in the acquired optoacoustic signals. Signal processing techniques have proven insufficient to remove the effects of electrical noise because they typically rely on simplified models and fail to capture complex characteristics of signal and noise. Moreover, they often involve time-consuming processing steps that are unsuited for real-time imaging applications. In this work, we develop and demonstrate a discriminative deep learning (DL) approach to separate electrical noise from optoacoustic signals prior to image reconstruction. The proposed DL algorithm is based on two key features. First, it learns spatiotemporal correlations in both noise and signal by using the entire optoacoustic sinogram as input. Second, it employs training based on a large dataset of experimentally acquired pure noise and synthetic optoacoustic signals. We validated the ability of the trained model to accurately remove electrical noise on synthetic data and on optoacoustic images of a phantom and the human breast. We demonstrate significant enhancements of morphological and spectral optoacoustic images reaching 19% higher blood vessel contrast and localized spectral contrast at depths of more than 2 cm for images acquired in vivo. We discuss how the proposed denoising framework is applicable to clinical multispectral optoacoustic tomography and suitable for real-time operation.
翻訳日:2021-02-26 13:40:27 公開日:2021-02-24
# 好きなものを使って ネストしたサンプルを

Nested sampling with any prior you like ( http://arxiv.org/abs/2102.12478v1 )

ライセンス: Link先を確認
Justin Alsing and Will Handley(参考訳) ネストサンプリングは、パラメータ推論のための複雑な後続分布のサンプリングとモデル比較のための限界確率の計算の両方において、天文学やその他の分野でベイズ解析を行うための重要なツールである。 ネストされたサンプリングを実際に使用する技術的障害の1つは、ユニットハイパーキューブからターゲットの事前密度への双射変換の形で事前分布が提供されるという要件である。 多くのアプリケーション(特に実験の後部を他の実験の前部として使用する場合)では、そのような変換は簡単には利用できない。 本報告では, 所望の事前密度から標本に訓練されたパラメトリック・バイジェクタが, 均一な基底密度から目標事前への変換を汎用的に構築する手法を提供し, 任意の事前密度下でのネストサンプリングの実用化を可能にすることを示す。 宇宙論の例を多数挙げて, トレーニングされたビジェクターとネストサンプリングの併用を実演する。

Nested sampling is an important tool for conducting Bayesian analysis in Astronomy and other fields, both for sampling complicated posterior distributions for parameter inference, and for computing marginal likelihoods for model comparison. One technical obstacle to using nested sampling in practice is the requirement that prior distributions be provided in the form of bijective transformations from the unit hyper-cube to the target prior density. For many applications - particularly when using the posterior from one experiment as the prior for another - such a transformation is not readily available. In this letter we show that parametric bijectors trained on samples from a desired prior density provide a general-purpose method for constructing transformations from the uniform base density to a target prior, enabling the practical use of nested sampling under arbitrary priors. We demonstrate the use of trained bijectors in conjunction with nested sampling on a number of examples from cosmology.
翻訳日:2021-02-26 13:38:27 公開日:2021-02-24
# 半教師付き深層学習とMRIによる脳の不均一性:アルツハイマー病の次元的表現

Disentangling brain heterogeneity via semi-supervised deep-learning and MRI: dimensional representations of Alzheimer's Disease ( http://arxiv.org/abs/2102.12582v1 )

ライセンス: Link先を確認
Zhijian Yang, Ilya M. Nasrallah, Haochang Shou, Junhao Wen, Jimit Doshi, Mohamad Habes, Guray Erus, Ahmed Abdulkadir, Susan M. Resnick, David Wolk, Christos Davatzikos(参考訳) 脳疾患の多様性は正確な診断・予後の課題である。 Smile-GAN (SeMI-supervised cLustEring-Generativ e Adversarial Network) は、神経解剖学的不均一性を解読し、制御に対するイメージングシグネチャを介して疾患サブタイプの同定を可能にする、新しい半監視ディープクラスタリング手法である。 MRI(2つの研究、2,832人の参加者、8,146回のスキャン)に適用した場合、Smile-GANは4つの神経変性パターン(P1、正常解剖学、最高認知能力、P2、軽度/拡散性萎縮症、P3、局所性側頭萎縮症、比較的大きな記憶障害、P4、進行性神経変性)を同定した。 さらに縦断データに適用すると、p1$\rightarrow$p2$\r ightarrow$p4 と p1$\rightarrow$p3$\r ightarrow$p4 の2つの異なる進行経路が明らかになった。 これらのパターンのベースライン発現は、将来の神経変性経路と速度を予測した。 パターン発現はアミロイド/tauと比較して臨床進展予測に優れたが相補的な効果を示した。 これらのディープラーニング由来バイオマーカーは、精密診断とターゲット臨床試験採用の約束を提供します。

Heterogeneity of brain diseases is a challenge for precision diagnosis/prognosis. We describe and validate Smile-GAN (SeMI-supervised cLustEring-Generativ e Adversarial Network), a novel semi-supervised deep-clustering method, which dissects neuroanatomical heterogeneity, enabling identification of disease subtypes via their imaging signatures relative to controls. When applied to MRIs (2 studies; 2,832 participants; 8,146 scans) including cognitively normal individuals and those with cognitive impairment and dementia, Smile-GAN identified 4 neurodegenerative patterns/axes: P1, normal anatomy and highest cognitive performance; P2, mild/diffuse atrophy and more prominent executive dysfunction; P3, focal medial temporal atrophy and relatively greater memory impairment; P4, advanced neurodegeneration. Further application to longitudinal data revealed two distinct progression pathways: P1$\rightarrow$P2$\r ightarrow$P4 and P1$\rightarrow$P3$\r ightarrow$P4. Baseline expression of these patterns predicted the pathway and rate of future neurodegeneration. Pattern expression offered better yet complementary performance in predicting clinical progression, compared to amyloid/tau. These deep-learning derived biomarkers offer promise for precision diagnostics and targeted clinical trial recruitment.
翻訳日:2021-02-26 13:37:11 公開日:2021-02-24
# (参考訳) メモリニューラルネットワークを用いた時空間ルックアヘッド軌道予測 [全文訳有]

Spatio-Temporal Look-Ahead Trajectory Prediction using Memory Neural Network ( http://arxiv.org/abs/2102.12070v1 )

ライセンス: CC BY 4.0
Nishanth Rao and Suresh Sundaram(参考訳) 未知環境における車両軌道の予測は、本質的に解決が困難で難しい問題である。 このような車両の挙動は、周囲の交通、道路条件、および環境に存在するローグ参加者の影響を強く受けている。 さらに、歩行者、信号機、停止標識などの存在は、さまざまな交通エージェントの行動を推測することがはるかに困難になります。 本論文では,記憶神経ネットワークと呼ばれる新しい繰り返しニューラルネットワークを用いて,時空間的視線軌道予測の問題を解くことを試みる。 メモリニューロンネットワーク(MNN)は、過去の位置と未来のトラフィックエージェントの位置との間の入力と出力の関係を捉えようとする。 提案手法は計算量が少なく,LSTMやGRUを用いた他のディープラーニングモデルと比較すると,単純なアーキテクチャである。 その後、NGSIMデータセットで評価され、その性能をいくつかの最先端アルゴリズムと比較する。 さらに、パフォーマンスはCARLAシミュレータから生成されたカスタム合成データセットでも評価されます。 提案手法は,既存の最先端アルゴリズムに勝るものと考えられる。 最後に、モデルはCARLAシミュレータと統合され、リアルタイムのトラフィックシナリオでその堅牢性をテストします。

Prognostication of vehicle trajectories in unknown environments is intrinsically a challenging and difficult problem to solve. The behavior of such vehicles is highly influenced by surrounding traffic, road conditions, and rogue participants present in the environment. Moreover, the presence of pedestrians, traffic lights, stop signs, etc., makes it much harder to infer the behavior of various traffic agents. This paper attempts to solve the problem of Spatio-temporal look-ahead trajectory prediction using a novel recurrent neural network called the Memory Neuron Network. The Memory Neuron Network (MNN) attempts to capture the input-output relationship between the past positions and the future positions of the traffic agents. The proposed model is computationally less intensive and has a simple architecture as compared to other deep learning models that utilize LSTMs and GRUs. It is then evaluated on the publicly available NGSIM dataset and its performance is compared with several state-of-art algorithms. Additionally, the performance is also evaluated on a custom synthetic dataset generated from the CARLA simulator. It is seen that the proposed model outperforms the existing state-of-art algorithms. Finally, the model is integrated with the CARLA simulator to test its robustness in real-time traffic scenarios.
翻訳日:2021-02-26 11:34:04 公開日:2021-02-24
# (参考訳) IaaSプロバイダのためのCP-Netに基づく定性構成手法 [全文訳有]

A CP-Net based Qualitative Composition Approach for an IaaS Provider ( http://arxiv.org/abs/2102.12221v1 )

ライセンス: CC BY 4.0
Sheik Mohammad Mostakim Fattah, Athman Bouguettaya, and Sajib Mistry(参考訳) IaaSプロバイダに最適な消費者セットを定性的に選択するための新しいCP-Netベースの構成アプローチを提案する。 IaaSプロバイダと消費者の定性的な設定はCP-Netを使ってキャプチャされる。 定性組成のセマンティックコングルエンス特性を用いたCP-Net構成性モデルを提案する。 提案手法は, 対象者の検索スペースを効果的に削減する, ヒューリスティックおよびヒューリスティックな消費者選択手法である。 実験結果は、提案された組成アプローチの実現可能性を証明する。

We propose a novel CP-Net based composition approach to qualitatively select an optimal set of consumers for an IaaS provider. The IaaS provider's and consumers' qualitative preferences are captured using CP-Nets. We propose a CP-Net composability model using the semantic congruence property of a qualitative composition. A greedy-based and a heuristic-based consumer selection approaches are proposed that effectively reduce the search space of candidate consumers in the composition. Experimental results prove the feasibility of the proposed composition approach.
翻訳日:2021-02-26 11:15:33 公開日:2021-02-24
# (参考訳) GDR-Net:単眼6Dオブジェクトポース推定のためのジオメトリ誘導直接回帰ネットワーク [全文訳有]

GDR-Net: Geometry-Guided Direct Regression Network for Monocular 6D Object Pose Estimation ( http://arxiv.org/abs/2102.12145v1 )

ライセンス: CC BY 4.0
Gu Wang, Fabian Manhardt, Federico Tombari, Xiangyang Ji(参考訳) 単一のRGB画像からの6次元ポーズ推定はコンピュータビジョンの基本課題である。 現在のトップパフォーマンスのディープラーニングベースの手法は、まず画像平面とオブジェクト座標系の座標間の2D-3D対応を確立し、次にP$n$P/RANSACアルゴリズムの変種を適用するという間接戦略に依存している。 しかし、この2段階のパイプラインはエンドツーエンドのトレーニングができないため、異なるポーズを必要とする多くのタスクに使用するのは難しい。 一方,直接回帰に基づく手法は,現在,幾何学的手法に劣っている。 本研究では,直接法と間接法の両方について詳細な調査を行い,高密度な対応に基づく中間幾何表現から6次元ポーズをエンドツーエンドに学習する簡易かつ効果的な幾何誘導型直接回帰ネットワーク(GDR-Net)を提案する。 広範な実験により, LM, LM-O, YCB-Vデータセットにおいて, 本手法が最先端の手法を著しく上回っていることが示された。 コードはhttps://git.io/GDR-N etで入手できる。

6D pose estimation from a single RGB image is a fundamental task in computer vision. The current top-performing deep learning-based methods rely on an indirect strategy, i.e., first establishing 2D-3D correspondences between the coordinates in the image plane and object coordinate system, and then applying a variant of the P$n$P/RANSAC algorithm. However, this two-stage pipeline is not end-to-end trainable, thus is hard to be employed for many tasks requiring differentiable poses. On the other hand, methods based on direct regression are currently inferior to geometry-based methods. In this work, we perform an in-depth investigation on both direct and indirect methods, and propose a simple yet effective Geometry-guided Direct Regression Network (GDR-Net) to learn the 6D pose in an end-to-end manner from dense correspondence-based intermediate geometric representations. Extensive experiments show that our approach remarkably outperforms state-of-the-art methods on LM, LM-O and YCB-V datasets. The code will be available at https://git.io/GDR-N et.
翻訳日:2021-02-26 11:02:19 公開日:2021-02-24
# (参考訳) DeepCervix - ハイブリッド深層核融合技術を用いた頸部細胞の分類のためのディープラーニングベースのフレームワーク [全文訳有]

DeepCervix: A Deep Learning-based Framework for the Classification of Cervical Cells Using Hybrid Deep Feature Fusion Techniques ( http://arxiv.org/abs/2102.12191v1 )

ライセンス: CC BY 4.0
Md Mamunur Rahaman, Chen Li, Yudong Yao, Frank Kulwa, Xiangchen Wu, Xiaoyan Li, Qian Wang(参考訳) 女性の中で最も多い致死性癌の1つである頸部がんは、定期的な検診によって早期の先天性病変を検出して治療することで予防することができる。 papスメアテストは子宮頸癌早期発見のスクリーニング手法として広く行われているが,この手技は人為的エラーによる偽陽性率が高い。 手動スクリーニングの実践を改善するために,機械学習(ML)とディープラーニング(DL)に基づくコンピュータ支援診断(CAD)システムについて,頚部乳頭細胞を分類するために広く研究されている。 既存の研究のほとんどは、良好な分類結果を得るために、予め設定された画像を必要とするが、正確な頚椎細胞分割は、細胞クラスタリングのために困難である。 いくつかの研究は手作りの特徴に依存しており、分類段階の最適性を保証できない。 さらに、dlは、頚部細胞データセットに広く見られる不均一なデータ分布が存在する場合に、多クラス分類タスクの性能が低下する。 この研究は、dlに基づくハイブリッド型deep feature fusion(hdff)技術であるdeepcervixを用いて、頚椎細胞を正確に分類することで、これらの制限に対処している。 提案手法では, DLモデルを用いてより潜在的な情報を捕捉し, 分類性能を向上する。 提案したHDFF法は,公開中のSIPAKMEDデータセット上で試験を行い,ベースDLモデルとLF法との比較を行った。 sipakmedデータセットでは,2クラス,3クラス,5クラスの分類で99.85%,99.38%,99.14% の精度が得られた。 さらに,herlevデータセット上でテストを行い,バイナリクラスでは98.32%,7クラス分類では90.32%の精度を実現する。

Cervical cancer, one of the most common fatal cancers among women, can be prevented by regular screening to detect any precancerous lesions at early stages and treat them. Pap smear test is a widely performed screening technique for early detection of cervical cancer, whereas this manual screening method suffers from high false-positive results because of human errors. To improve the manual screening practice, machine learning (ML) and deep learning (DL) based computer-aided diagnostic (CAD) systems have been investigated widely to classify cervical pap cells. Most of the existing researches require pre-segmented images to obtain good classification results, whereas accurate cervical cell segmentation is challenging because of cell clustering. Some studies rely on handcrafted features, which cannot guarantee the classification stage's optimality. Moreover, DL provides poor performance for a multiclass classification task when there is an uneven distribution of data, which is prevalent in the cervical cell dataset. This investigation has addressed those limitations by proposing DeepCervix, a hybrid deep feature fusion (HDFF) technique based on DL to classify the cervical cells accurately. Our proposed method uses various DL models to capture more potential information to enhance classification performance. Our proposed HDFF method is tested on the publicly available SIPAKMED dataset and compared the performance with base DL models and the LF method. For the SIPAKMED dataset, we have obtained the state-of-the-art classification accuracy of 99.85%, 99.38%, and 99.14% for 2-class, 3-class, and 5-class classification. Moreover, our method is tested on the Herlev dataset and achieves an accuracy of 98.32% for binary class and 90.32% for 7-class classification.
翻訳日:2021-02-26 10:42:13 公開日:2021-02-24
# (参考訳) unsupervised disentangled spatio-spectral deep priorsを用いたハイパースペクトル分極 [全文訳有]

Hyperspectral Denoising Using Unsupervised Disentangled Spatio-Spectral Deep Priors ( http://arxiv.org/abs/2102.12310v1 )

ライセンス: CC BY 4.0
Yu-Chun Miao, Xi-Le Zhao, Xiao Fu, Jian-Li Wang, and Yu-Bang Zheng(参考訳) 画像のノイズ除去は、しばしば正確な事前情報によって強化されます。 近年、データ駆動ニューラルネットワークは、rgb自然画像のノイズ化に有望な性能を示している。 従来の手作りのプリミティブ(例えばスパーシティと全変動)と比較すると、"ディーププリミティブ"は多くのトレーニングサンプルを使って学習され、複雑な画像生成プロセスを正確にモデル化することができる。 しかし、トレーニングデータがないため、ハイパースペクトル画像(HSI)では、データ駆動の事前取得が困難である。 修正は、いわゆるunsupervised deep image prior(dip)を使用することである。 教師なしのDIPフレームワークでは、適切なニューラルネットワーク構造が特定の種類の画像の合理的な先行性であり、トレーニングデータなしでネットワーク重みを学習できることを仮説および実証的に実証している。 それにもかかわらず、最も効果的な非監視DIP構造は、HSIの代わりに自然画像のために提案された。 教師なしDIPベースのHSI復調性能は、ネットワーク構造設計とネットワーク複雑性という2つの深刻な課題によって制限されている。 この研究は、hsisの古典的な時空間スペクトル分解に基づく教師なしのディップフレームワークである。 いわゆるHSIの線形混合モデルを用いて、2種類の監視されていないDIP、すなわちU-Netライクネットワークとフルコネクテッドネットワークを用いて、HSIに含まれる豊富なマップとエンドメンバーをモデル化する。 このように、自然画像の非監視DIP構造を実証的に検証することで、HSIのノイズ除去に容易に組み込むことができる。 さらに、分解はネットワークの複雑さを大幅に削減します。 定式化デノイジング問題に対処するために, 効率的な交互最適化アルゴリズムを提案する。 提案手法の有効性を示すために,半現実および実データ実験を行った。

Image denoising is often empowered by accurate prior information. In recent years, data-driven neural network priors have shown promising performance for RGB natural image denoising. Compared to classic handcrafted priors (e.g., sparsity and total variation), the "deep priors" are learned using a large number of training samples -- which can accurately model the complex image generating process. However, data-driven priors are hard to acquire for hyperspectral images (HSIs) due to the lack of training data. A remedy is to use the so-called unsupervised deep image prior (DIP). Under the unsupervised DIP framework, it is hypothesized and empirically demonstrated that proper neural network structures are reasonable priors of certain types of images, and the network weights can be learned without training data. Nonetheless, the most effective unsupervised DIP structures were proposed for natural images instead of HSIs. The performance of unsupervised DIP-based HSI denoising is limited by a couple of serious challenges, namely, network structure design and network complexity. This work puts forth an unsupervised DIP framework that is based on the classic spatio-spectral decomposition of HSIs. Utilizing the so-called linear mixture model of HSIs, two types of unsupervised DIPs, i.e., U-Net-like network and fully-connected networks, are employed to model the abundance maps and endmembers contained in the HSIs, respectively. This way, empirically validated unsupervised DIP structures for natural images can be easily incorporated for HSI denoising. Besides, the decomposition also substantially reduces network complexity. An efficient alternating optimization algorithm is proposed to handle the formulated denoising problem. Semi-real and real data experiments are employed to showcase the effectiveness of the proposed approach.
翻訳日:2021-02-26 10:19:40 公開日:2021-02-24
# (参考訳) GEM:Glare or Gloom, I can see you -- End-to-End Multimodal Object Detector [全文訳有]

GEM: Glare or Gloom, I Can Still See You -- End-to-End Multimodal Object Detector ( http://arxiv.org/abs/2102.12319v1 )

ライセンス: CC BY 4.0
Osama Mazhar, Jens Kober and Robert Babuska(参考訳) ビジョンタスク用に設計されたディープニューラルネットワークは、トレーニングデータでカバーされていない環境条件に直面すると、しばしば失敗する。 多センサ構成のための効率的な融合戦略は、異なるセンサストリームからの冗長性を利用して検出アルゴリズムの堅牢性を高めることができる。 本稿では,厳しい照明条件下での2次元物体検出のためのセンサ対応マルチモーダル融合戦略を提案する。 本ネットワークは,センサ特性を事前に知ることなく,スカラーウェイトやマスクの形で各センサモードの測定信頼性を推定する。 得られた重みは抽出した特徴写像に割り当てられ、その後融合され、オブジェクト検出のためにトランストランスエンコーダデコーダネットワークに渡される。 これは、非対称なセンサー故障の場合に重要であり、悲劇的な結果を防ぐ。 広範な実験を通じて,提案手法がflir-thermalデータセットの既存の最先端手法を上回り,25.2%までマップを改良したことを示す。 また、RGB-Dマルチモーダル検出タスクのための新しい"r-blended"ハイブリッド深度モダリティも提案する。 提案手法ではSUNRGB-Dデータセットにも有望な結果が得られた。

Deep neural networks designed for vision tasks are often prone to failure when they encounter environmental conditions not covered by the training data. Efficient fusion strategies for multi-sensor configurations can enhance the robustness of the detection algorithms by exploiting redundancy from different sensor streams. In this paper, we propose sensor-aware multi-modal fusion strategies for 2D object detection in harsh-lighting conditions. Our network learns to estimate the measurement reliability of each sensor modality in the form of scalar weights and masks, without prior knowledge of the sensor characteristics. The obtained weights are assigned to the extracted feature maps which are subsequently fused and passed to the transformer encoder-decoder network for object detection. This is critical in the case of asymmetric sensor failures and to prevent any tragic consequences. Through extensive experimentation, we show that the proposed strategies out-perform the existing state-of-the-art methods on the FLIR-Thermal dataset, improving the mAP up-to 25.2%. We also propose a new "r-blended" hybrid depth modality for RGB-D multi-modal detection tasks. Our proposed method also obtained promising results on the SUNRGB-D dataset.
翻訳日:2021-02-26 09:51:19 公開日:2021-02-24
# (参考訳) 4d panoptic lidarセグメンテーション [全文訳有]

4D Panoptic LiDAR Segmentation ( http://arxiv.org/abs/2102.12472v1 )

ライセンス: CC BY 4.0
Mehmet Ayg\"un, Aljo\v{s}a O\v{s}ep, Mark Weber, Maxim Maximov, Cyrill Stachniss, Jens Behley, Laura Leal-Taix\'e(参考訳) 時間的セマンティックなシーン理解は、自動運転車や動的環境で動作するロボットにとって重要である。 本稿では,意味クラスと時間的に一貫性のあるインスタンスIDを3Dポイントのシーケンスに割り当てる4DパノプティカルLiDARセグメンテーションを提案する。 この目的のために,アプローチと点中心評価指標を提案する。 4次元時空間領域における確率分布としてオブジェクトインスタンスをモデル化しながら,各点の意味クラスを決定する。 複数点の雲を並列に処理し、点間関係を解消し、時間的データアソシエーションの必要性を効果的に軽減する。 マルチオブジェクト追跡のベンチマークの最近の進歩に触発されて,タスクのセマンティックおよびポイント・ツー・インスタンス・アソシエーションの側面を分離する新たな評価指標を提案する。 本研究は,時間的ライダーパノプティクスの今後の展開に向けた道路整備を目標としている。

Temporal semantic scene understanding is critical for self-driving cars or robots operating in dynamic environments. In this paper, we propose 4D panoptic LiDAR segmentation to assign a semantic class and a temporally-consisten t instance ID to a sequence of 3D points. To this end, we present an approach and a point-centric evaluation metric. Our approach determines a semantic class for every point while modeling object instances as probability distributions in the 4D spatio-temporal domain. We process multiple point clouds in parallel and resolve point-to-instance associations, effectively alleviating the need for explicit temporal data association. Inspired by recent advances in benchmarking of multi-object tracking, we propose to adopt a new evaluation metric that separates the semantic and point-to-instance association aspects of the task. With this work, we aim at paving the road for future developments of temporal LiDAR panoptic perception.
翻訳日:2021-02-26 09:38:55 公開日:2021-02-24
# (参考訳) グラフニューラルネットワークのハイパーパラメータ最適化のための木構造変異を用いた遺伝的アルゴリズム [全文訳有]

A Genetic Algorithm with Tree-structured Mutation for Hyperparameter Optimisation of Graph Neural Networks ( http://arxiv.org/abs/2102.11995v1 )

ライセンス: CC BY 4.0
Yingfang Yuan, Wenjun Wang, Wei Pang(参考訳) 近年、グラファイトニューラルネットワーク(GNN)は、グラフ関連の問題を処理する優れた能力を持っているため、注目を集めています。 実際には、ハイパーパラメータ最適化(HPO)は、GNNが満足な結果を得るためには重要ですが、異なるハイパーパラメータ設定の評価には多くのGNNを過剰に訓練する必要があるため、このプロセスは高価です。 有望なハイパーパラメータを効率的に特定することを目的としたHPOの多くのアプローチが提案されている。 特に、HPOの遺伝的アルゴリズム(GA)が研究されており、GNNをブラックボックスモデルとして扱い、ハイパーパラメータのセットで出力のみを観察することができる。 しかし、GNNモデルは非常に高度であり、GNN上でのハイパーパラメータの評価は高価であるため、GAは検索の探索と利用のバランスを保ち、限られた計算資源に対して最適化をより効果的にするために高度な技術を必要とする。 そこで我々は,この問題を緩和するため,GAのツリー構造変異戦略を提案した。 一方,我々は,木構造という概念に余地を与えている最近のhpoの成果をレビューし,将来,これらのhpo手法をさらに改善できることを願っている。

In recent years, graph neural networks (GNNs) have gained increasing attention, as they possess excellent capability of processing graph-related problems. In practice, hyperparameter optimisation (HPO) is critical for GNNs to achieve satisfactory results, but this process is costly because the evaluations of different hyperparameter settings require excessively training many GNNs. Many approaches have been proposed for HPO which aims to identify promising hyperparameters efficiently. In particular, genetic algorithm (GA) for HPO has been explored, which treats GNNs as a black-box model, of which only the outputs can be observed given a set of hyperparameters. However, because GNN models are extremely sophisticated and the evaluations of hyperparameters on GNNs are expensive, GA requires advanced techniques to balance the exploration and exploitation of the search and make the optimisation more effective given limited computational resources. Therefore, we proposed a tree-structured mutation strategy for GA to alleviate this issue. Meanwhile, we reviewed the recent HPO works which gives the room to the idea of tree-structure to develop, and we hope our approach can further improve these HPO methods in the future.
翻訳日:2021-02-26 08:40:37 公開日:2021-02-24
# (参考訳) エッジデバイスへのディープニューラルネットワーク展開のための高効率低レイテンシダイナミックライセンシング [全文訳有]

Efficient Low-Latency Dynamic Licensing for Deep Neural Network Deployment on Edge Devices ( http://arxiv.org/abs/2102.12165v1 )

ライセンス: CC BY-SA 4.0
Toan Pham Van, Ngoc N. Tran, Hoang Pham Minh, Tam Nguyen Minh anh Thanh Ta Minh(参考訳) 人工知能、特にディープラーニングの分野での急速な発展に伴い、ディープニューラルネットワークアプリケーションは現実的にますます人気が高まっています。 主流のユーザーからの重い負荷に耐えることができるように、展開技術は研究から生産にニューラルネットワークモデルをもたらすために不可欠です。 実運用環境にニューラルネットワークモデルをデプロイするための2つの一般的なコンピューティングトポロジには、クラウドコンピューティングとエッジコンピューティングがある。 近年の通信技術の進歩とともに、モバイルデバイスの数が大幅に増加し、エッジコンピューティングは徐々に避けられない傾向になっています。 本稿では,エッジデバイス上でのディープニューラルネットワークのデプロイと処理を,クラウドとのシナジーとデータベースのアクセス制御機構を利用して解決するアーキテクチャを提案する。 このアーキテクチャを採用することで、デバイスの低遅延dnnモデル更新が可能になる。 同時に、1つのモデルをデプロイするだけで、モデルの重みにアクセス許可を設定することで、その異なるバージョンを簡単に作成できます。 この方法は、商用アプリケーションに有利な動的モデルライセンスを可能にする。

Along with the rapid development in the field of artificial intelligence, especially deep learning, deep neural network applications are becoming more and more popular in reality. To be able to withstand the heavy load from mainstream users, deployment techniques are essential in bringing neural network models from research to production. Among the two popular computing topologies for deploying neural network models in production are cloud-computing and edge-computing. Recent advances in communication technologies, along with the great increase in the number of mobile devices, has made edge-computing gradually become an inevitable trend. In this paper, we propose an architecture to solve deploying and processing deep neural networks on edge-devices by leveraging their synergy with the cloud and the access-control mechanisms of the database. Adopting this architecture allows low-latency DNN model updates on devices. At the same time, with only one model deployed, we can easily make different versions of it by setting access permissions on the model weights. This method allows for dynamic model licensing, which benefits commercial applications.
翻訳日:2021-02-26 08:22:00 公開日:2021-02-24
# (参考訳) 連合学習法によるppgからの連続血圧の推定 [全文訳有]

Estimation of Continuous Blood Pressure from PPG via a Federated Learning Approach ( http://arxiv.org/abs/2102.12245v1 )

ライセンス: CC BY 4.0
Eoin Brophy, Maarten De Vos, Geraldine Boylan, Tomas Ward(参考訳) 虚血性心疾患は毎年最も死亡率が高い疾患である。 これは、影響を受けた人々の生活だけでなく、公共の医療システムにも大きな負担をかけます。 健康や不健康な心臓医師の力学を理解するために、心電図(ECG)と血圧計(BP)が一般的である。 これらの方法は、特に連続動脈血圧(abp)を読み取る際に非常に侵襲的であり、非常にコストがかかることはない。 機械学習手法を用いて,単一光光電容積(ppg)センサのみからappを推定することのできるフレームワークの開発を試みた。 分散モデルとデータソースにまたがるフレームワークをトレーニングし、低コストのウェアラブルで実装可能な大規模な分散協調学習実験を模倣します。 我々の時系列時系列生成逆数ネットワーク(T2TGAN)は、2.54 mmHgの平均誤差と23.7 mmHgの標準偏差でPSG信号から高品質な連続ABPを生成することができる。 私たちの知る限りでは、このフレームワークは、フェデレーション学習方法論を使用する入力PPG信号から連続的なABP生成が可能なGANの最初の例です。

Ischemic heart disease is the highest cause of mortality globally each year. This not only puts a massive strain on the lives of those affected but also on the public healthcare systems. To understand the dynamics of the healthy and unhealthy heart doctors commonly use electrocardiogram (ECG) and blood pressure (BP) readings. These methods are often quite invasive, in particular when continuous arterial blood pressure (ABP) readings are taken and not to mention very costly. Using machine learning methods we seek to develop a framework that is capable of inferring ABP from a single optical photoplethysmogram (PPG) sensor alone. We train our framework across distributed models and data sources to mimic a large-scale distributed collaborative learning experiment that could be implemented across low-cost wearables. Our time series-to-time series generative adversarial network (T2TGAN) is capable of high-quality continuous ABP generation from a PPG signal with a mean error of 2.54 mmHg and a standard deviation of 23.7 mmHg when estimating mean arterial pressure on a previously unseen, noisy, independent dataset. To our knowledge, this framework is the first example of a GAN capable of continuous ABP generation from an input PPG signal that also uses a federated learning methodology.
翻訳日:2021-02-26 08:13:20 公開日:2021-02-24
# (参考訳) ヘシアンのための学習型スケッチ [全文訳有]

Learning-Augmented Sketches for Hessians ( http://arxiv.org/abs/2102.12317v1 )

ライセンス: CC BY 4.0
Yi Li, Honghao Lin, David P. Woodruff(参考訳) スケッチは、典型的にランダムに選択される線形結合によって行列を圧縮する次元還元技術である。 一連の作業では、ヘシアンが2階の方法で各イテレーションを高速化する方法が示されているが、そのようなスケッチは通常、手元の行列のみに依存しており、多くのケースでは入力行列にさえ従わない。 代わりに、入力行列の特定の分布に最適化されたスケッチ行列の分布を学ぶことができる。 我々は、最適化手順の異なるイテレーションのための潜在的に異なるスケッチを学習するセカンドオーダーメソッドの文脈でヘッシアンのための学習スケッチを設計する方法を示す。 学習したスケッチを「学習しない」スケッチと比較し、LASSO、SVM、および核ノルム制約による行列推定を含む重要な問題に対する近似精度を向上させることを実証的に示す。 私たちのスキームのいくつかは、未発見のスキームよりもパフォーマンスが良いことが証明できます。 さらに,大きなレバレッジスコアを持つ行を予測するためのオラクルを仮定して,高い行列の列空間のスケッチ次元が小さくなることを示す。

Sketching is a dimensionality reduction technique where one compresses a matrix by linear combinations that are typically chosen at random. A line of work has shown how to sketch the Hessian to speed up each iteration in a second order method, but such sketches usually depend only on the matrix at hand, and in a number of cases are even oblivious to the input matrix. One could instead hope to learn a distribution on sketching matrices that is optimized for the specific distribution of input matrices. We show how to design learned sketches for the Hessian in the context of second order methods, where we learn potentially different sketches for the different iterations of an optimization procedure. We show empirically that learned sketches, compared with their "non-learned" counterparts, improve the approximation accuracy for important problems, including LASSO, SVM, and matrix estimation with nuclear norm constraints. Several of our schemes can be proven to perform no worse than their unlearned counterparts. Additionally, we show that a smaller sketching dimension of the column space of a tall matrix is possible, assuming an oracle for predicting rows which have a large leverage score.
翻訳日:2021-02-26 07:58:59 公開日:2021-02-24
# (参考訳) 動的グラフニューラルネットワークの事前学習 [全文訳有]

Pre-Training on Dynamic Graph Neural Networks ( http://arxiv.org/abs/2102.12380v1 )

ライセンス: CC BY 4.0
Jiajun Zhang, Kejia Chen, Yunyun Wang(参考訳) グラフニューラルネットワークモデルの事前トレーニングは、大規模ネットワークや同一タイプのネットワークの一般的な特徴を自己教師型手法で学習することができるため、ノードラベルが欠落した場合でもモデルが動作することができる。 しかし、既存の事前学習手法はネットワークの進化を考慮に入れない。 本稿では、動的グラフ生成タスクを用いて、グラフの構造、意味論、進化の特徴を同時に学習する動的グラフニューラルネットワーク(pt-dgnn)の事前学習手法を提案する。 本手法は,1)動的部分グラフサンプリング,2)動的属性グラフ生成タスクによる事前学習の2段階を含む。 3つのリアルな動的ネットワークデータセットの比較実験により,提案手法はリンク予測微調整タスクにおいて最適な結果が得られることを示した。

The pre-training on the graph neural network model can learn the general features of large-scale networks or networks of the same type by self-supervised methods, which allows the model to work even when node labels are missing. However, the existing pre-training methods do not take network evolution into consideration. This paper proposes a pre-training method on dynamic graph neural networks (PT-DGNN), which uses dynamic attributed graph generation tasks to simultaneously learn the structure, semantics, and evolution features of the graph. The method includes two steps: 1) dynamic sub-graph sampling, and 2) pre-training with dynamic attributed graph generation task. Comparative experiments on three realistic dynamic network datasets show that the proposed method achieves the best results on the link prediction fine-tuning task.
翻訳日:2021-02-26 07:09:11 公開日:2021-02-24
# (参考訳) ベトナムのポピュラー音楽の歌声分類のための深層学習手法 [全文訳有]

Deep Learning Approach for Singer Voice Classification of Vietnamese Popular Music ( http://arxiv.org/abs/2102.12111v1 )

ライセンス: CC BY-SA 4.0
Toan Pham Van, Ngoc N. Tran, and Ta Minh Thanh(参考訳) 歌声分類はデジタル時代において重要な課題である。 今日の膨大な数の曲では、歌手を特定することは、音楽情報検索、音楽プロパティインデックス作成などに非常に役立ちます。 本稿では,ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。 音声セグメント検出と歌声分離を前処理ステップとして利用しています。 これらのステップの目的は、混合音から歌手の声を抽出することです。 歌手分類器を構築するために,Mel frequency Cepstral Coefficientを用いたニューラルネットワークアーキテクチャを,そのボーカルから抽出された入力機能として提案する。 本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。 5倍の階層化クロスバリデーションで92.84%の精度を達成し、同じデータセット上の他の方法と比較して最高の結果が得られます。

Singer voice classification is a meaningful task in the digital era. With a huge number of songs today, identifying a singer is very helpful for music information retrieval, music properties indexing, and so on. In this paper, we propose a new method to identify the singer's name based on analysis of Vietnamese popular music. We employ the use of vocal segment detection and singing voice separation as the pre-processing steps. The purpose of these steps is to extract the singer's voice from the mixture sound. In order to build a singer classifier, we propose a neural network architecture working with Mel Frequency Cepstral Coefficient as extracted input features from said vocal. To verify the accuracy of our methods, we evaluate on a dataset of 300 Vietnamese songs from 18 famous singers. We achieve an accuracy of 92.84% with 5-fold stratified cross-validation, the best result compared to other methods on the same data set.
翻訳日:2021-02-26 06:55:53 公開日:2021-02-24
# (参考訳) 量子位相空間における機械学習によるガウスボソンサンプリングと多粒子イベント最適化 [全文訳有]

Gaussian boson sampling and multi-particle event optimization by machine learning in the quantum phase space ( http://arxiv.org/abs/2102.12142v1 )

ライセンス: CC BY 4.0
Claudio Conti(参考訳) 量子位相空間における多体ガウス状態の特性関数を表現するためにニューラルネットワークを用いる。 引き戻し機構により、複雑な多粒子過程をシミュレートできる線形層として、ユニタリ演算子による変換をモデル化する。 我々は,ランダム干渉計における非古典的光伝播に階層型ニューラルネットワークを用い,自動微分によるボソンパターン確率を計算する。 また,gaussian bosonサンプリングにおける多粒子イベントをニューラルネットワーク重みの適切な設計とトレーニングによって最適化できることを実証する。 この結果は、量子技術のための新しいソースと複雑な回路の作成に潜在的に有用である。

We use neural networks to represent the characteristic function of many-body Gaussian states in the quantum phase space. By a pullback mechanism, we model transformations due to unitary operators as linear layers that can be cascaded to simulate complex multi-particle processes. We use the layered neural networks for non-classical light propagation in random interferometers, and compute boson pattern probabilities by automatic differentiation. We also demonstrate that multi-particle events in Gaussian boson sampling can be optimized by a proper design and training of the neural network weights. The results are potentially useful to the creation of new sources and complex circuits for quantum technologies.
翻訳日:2021-02-26 06:45:51 公開日:2021-02-24
# (参考訳) 視聴覚話者ローカリゼーションのためのデータ融合:動的ストリーム重みを空間領域に拡張する [全文訳有]

Data Fusion for Audiovisual Speaker Localization: Extending Dynamic Stream Weights to the Spatial Domain ( http://arxiv.org/abs/2102.11588v2 )

ライセンス: CC BY 4.0
Julio Wissing, Benedikt Boenninghoff, Dorothea Kolossa, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Tomohiro Nakatani, Shoko Araki, Christopher Schymura(参考訳) 複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。 どちらのアプリケーションも、例えばビームフォーミングやユニークな話者IDの割り当てなど、既知の話者位置の恩恵を受ける。 近年,視覚データを付加した音響信号を用いた手法がいくつか提案されている。 しかし、例えば照明条件の悪さや背景ノイズの存在などにより、特定の空間領域において音響的・視覚的モダリティが損なわれることがある。 本稿では,個別の動的ストリーム重み付けを局所化空間内の特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。 この融合は、時間と位置に依存した信頼性に基づいて、個々のオーディオとビデオトラッカーの予測を組み合わせるニューラルネットワークを介して達成される。 オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。

Estimating the positions of multiple speakers can be helpful for tasks like automatic speech recognition or speaker diarization. Both applications benefit from a known speaker position when, for instance, applying beamforming or assigning unique speaker identities. Recently, several approaches utilizing acoustic signals augmented with visual data have been proposed for this task. However, both the acoustic and the visual modality may be corrupted in specific spatial regions, for instance due to poor lighting conditions or to the presence of background noise. This paper proposes a novel audiovisual data fusion framework for speaker localization by assigning individual dynamic stream weights to specific regions in the localization space. This fusion is achieved via a neural network, which combines the predictions of individual audio and video trackers based on their time- and location-dependent reliability. A performance evaluation using audiovisual recordings yields promising results, with the proposed fusion approach outperforming all baseline models.
翻訳日:2021-02-26 06:31:26 公開日:2021-02-24
# (参考訳) ただのモーメント:パラメータ的高次元非凸問題におけるモーメントに基づく加速法の解析的研究 [全文訳有]

Just a Momentum: Analytical Study of Momentum-Based Acceleration Methods in Paradigmatic High-Dimensional Non-Convex Problem ( http://arxiv.org/abs/2102.11755v2 )

ライセンス: CC BY 4.0
Stefano Sarao Mannelli and Pierfrancesco Urbani(参考訳) 損失関数を最適化する場合、バニラ勾配法ではなく運動量に基づく加速法を用いるのが一般的である。 任意の損失関数に広く適用されているにもかかわらず、それらの挙動は一般には非凸であり、高次元の風景は理解されていない。 本研究では,動的平均場理論を用いて,原型的非凸モデルである行列テンソルモデルにおいて,これらの手法の平均挙動を解析的に記述した。 重球運動量やネステロフ加速を含むいくつかのアルゴリズムの挙動を記述する閉集合方程式を導出する。 さらに、エネルギー的景観の底部に向かってリラックスする巨大粒子の数学的に等価な物理系の進化を特徴づける。 正しいマッピングの下では、2つのダイナミクスは等価であり、大きな質量を持つと重いボールのダイナミクスの有効時間ステップが増大し、速度が上がることに気付く。

When optimizing over loss functions it is common practice to use momentum-based accelerated methods rather than vanilla gradient-based method. Despite widely applied to arbitrary loss function, their behaviour in generically non-convex, high dimensional landscapes is poorly understood. In this work we used dynamical mean field theory techniques to describe analytically the average behaviour of these methods in a prototypical non-convex model: the (spiked) matrix-tensor model. We derive a closed set of equations that describe the behaviours of several algorithms including heavy-ball momentum and Nesterov acceleration. Additionally we characterize the evolution of a mathematically equivalent physical system of massive particles relaxing toward the bottom of an energetic landscape. Under the correct mapping the two dynamics are equivalent and it can be noticed that having a large mass increases the effective time step of the heavy ball dynamics leading to a speed up.
翻訳日:2021-02-26 06:19:17 公開日:2021-02-24
# (参考訳) 微分可能な論理機械 [全文訳有]

Differentiable Logic Machines ( http://arxiv.org/abs/2102.11529v2 )

ライセンス: CC BY 4.0
Matthieu Zimmer and Xuening Feng and Claire Glanois and Zhaohui Jiang and Jianyi Zhang and Paul Weng and Hao Jianye and Li Dong and Liu Wulong(参考訳) より一般的なAIシステムを構築するためには、推論、学習、意思決定の統合が重要です。 この方向への一歩として、帰納論理プログラミング(ILP)と深部強化学習(RL)の両問題を解くことができる新しいニューラル論理アーキテクチャを提案する。 我々のアーキテクチャは、規則の代わりに述語に重みを割り当てることで、一階述語論理プログラムの制限的かつ表現的連続空間を定義する。 したがって、完全に微分可能であり、勾配降下で効率的に訓練することができる。 さらに,アクター批判アルゴリズムを用いた深いRL設定において,新しい効率的な批評家アーキテクチャを提案する。 ilp問題とrl問題の両方における最先端手法と比較して,本提案は,完全な解釈可能なソリューションを提供しながら,特にテストフェーズにおいて,より優れたスケーリングを実現する。

The integration of reasoning, learning, and decision-making is key to build more general AI systems. As a step in this direction, we propose a novel neural-logic architecture that can solve both inductive logic programming (ILP) and deep reinforcement learning (RL) problems. Our architecture defines a restricted but expressive continuous space of first-order logic programs by assigning weights to predicates instead of rules. Therefore, it is fully differentiable and can be efficiently trained with gradient descent. Besides, in the deep RL setting with actor-critic algorithms, we propose a novel efficient critic architecture. Compared to state-of-the-art methods on both ILP and RL problems, our proposition achieves excellent performance, while being able to provide a fully interpretable solution and scaling much better, especially during the testing phase.
翻訳日:2021-02-26 04:48:43 公開日:2021-02-24
# (参考訳) 生成的アルキメデス・コピュラス [全文訳有]

Generative Archimedean Copulas ( http://arxiv.org/abs/2102.11351v2 )

ライセンス: CC BY 4.0
Yuting Ng, Ali Hasan, Khalil Elkhalil, Vahid Tarokh(参考訳) 多次元累積分布関数(CDF)をコーミュラ形式で学習するための新しい生成モデリング手法を提案する。 具体的には、アルキメデスおよび階層的アルキメデスコプラと呼ばれるコプラの特定のクラスを検討し、その同義表現と異なる尾の依存性をモデル化する能力のために人気がある。 我々は、それらの表現を、生成ニューラルネットワークからの潜入ランダム変数のLaplace変換との混合モデルとして考える。 この代替表現は、特に高次元でのサンプリングと計算効率を容易にできる。 さらに、モデルパラメータを最適化する複数の方法を説明します。 最後に,従来の手法と比較して,多次元CDFの学習における提案手法の有効性と計算効率を実証する実験結果を示す。

We propose a new generative modeling technique for learning multidimensional cumulative distribution functions (CDFs) in the form of copulas. Specifically, we consider certain classes of copulas known as Archimedean and hierarchical Archimedean copulas, popular for their parsimonious representation and ability to model different tail dependencies. We consider their representation as mixture models with Laplace transforms of latent random variables from generative neural networks. This alternative representation allows for easy sampling and computational efficiencies especially in high dimensions. We additionally describe multiple methods for optimizing the model parameters. Finally, we present empirical results that demonstrate the efficacy of our proposed method in learning multidimensional CDFs and its computational efficiency compared to existing methods.
翻訳日:2021-02-26 03:57:50 公開日:2021-02-24
# (参考訳) 大規模最適化のためのマルチスペース進化探索 [全文訳有]

Multi-Space Evolutionary Search for Large-Scale Optimization ( http://arxiv.org/abs/2102.11693v2 )

ライセンス: CC BY 4.0
Liang Feng, Qingxia Shang, Yaqing Hou, Kay Chen Tan and Yew-Soon Ong(参考訳) 近年,多くの決定変数を含む最適化問題を解くために用いられる進化的アルゴリズムを改善するために,進化的探索のために与えられた問題の解空間を単純化する試みが数多く行われている。 文献では、既存のアプローチは一般に分解に基づく方法と次元還元に基づく方法に分類される。 前者は大規模な問題をいくつかの小さなサブ問題に分解し、後者は元の高次元解空間を低次元空間に変換する。 しかし、与えられた大規模最適化問題は必ずしも分解可能であるとは限りませんし、元の問題の大域的最適化が低次元問題空間で維持されることを保証することも困難です。 そこで本稿では,大規模最適化問題に対する既存の進化的探索法を強化するために,多空間進化探索という新しい探索パラダイムを提案する。 1つの検索空間で進化的探索を行う既存のアプローチとは対照的に、提案されたパラダイムは、与えられた問題から派生した複数の解空間の探索を行うように設計されている。 提案したパラダイムは、問題の分解性や決定変数の間に特定の関係が存在するなど、関心の大規模最適化問題に関する仮定をしない。 提案手法の有効性を検証するため,cec2013の大規模ベンチマーク問題を用いて4つの最先端アルゴリズムとの比較を行った。

In recent years, to improve the evolutionary algorithms used to solve optimization problems involving a large number of decision variables, many attempts have been made to simplify the problem solution space of a given problem for the evolutionary search. In the literature, the existing approaches can generally be categorized as decomposition-based methods and dimension-reduction- based methods. The former decomposes a large-scale problem into several smaller subproblems, while the latter transforms the original high-dimensional solution space into a low-dimensional space. However, it is worth noting that a given large-scale optimization problem may not always be decomposable, and it is also difficult to guarantee that the global optimum of the original problem is preserved in the reduced low-dimensional problem space. This paper thus proposes a new search paradigm, namely the multi-space evolutionary search, to enhance the existing evolutionary search methods for solving large-scale optimization problems. In contrast to existing approaches that perform an evolutionary search in a single search space, the proposed paradigm is designed to conduct a search in multiple solution spaces that are derived from the given problem, each possessing a unique landscape. The proposed paradigm makes no assumptions about the large-scale optimization problem of interest, such as that the problem is decomposable or that a certain relationship exists among the decision variables. To verify the efficacy of the proposed paradigm, comprehensive empirical studies in comparison to four state-of-the-art algorithms were conducted using the CEC2013 large-scale benchmark problems.
翻訳日:2021-02-26 03:35:39 公開日:2021-02-24
# (参考訳) Teach Me to Explain: A Review of Datasets for Explainable NLP [全文訳有]

Teach Me to Explain: A Review of Datasets for Explainable NLP ( http://arxiv.org/abs/2102.12060v1 )

ライセンス: CC BY 4.0
Sarah Wiegreffe and Ana Marasovi\'c(参考訳) 説明可能なNLP(ExNLP)は、人間の注釈付き説明の収集にますます注力しています。 これらの説明は、予測タスクのパフォーマンスを改善するためのデータ拡張、モデルに予測を説明するための説明を訓練するための損失信号、モデル生成された説明の品質を評価する手段として、下流の3つの方法で使用される。 本稿では,3つの主要な説明クラス(highlights,free-tex t,structured)を特定し,各型に注釈を付けて文献を整理し,これまでに学んだことを指摘し,将来的にはexnlpデータセットの収集を推奨する。

Explainable NLP (ExNLP) has increasingly focused on collecting human-annotated explanations. These explanations are used downstream in three ways: as data augmentation to improve performance on a predictive task, as a loss signal to train models to produce explanations for their predictions, and as a means to evaluate the quality of model-generated explanations. In this review, we identify three predominant classes of explanations (highlights, free-text, and structured), organize the literature on annotating each type, point to what has been learned to date, and give recommendations for collecting ExNLP datasets in the future.
翻訳日:2021-02-26 03:18:47 公開日:2021-02-24
# (参考訳) PADA(Prompt-based Autoregressive approach for Adaptation to Unseen Domains) [全文訳有]

PADA: A Prompt-based Autoregressive Approach for Adaptation to Unseen Domains ( http://arxiv.org/abs/2102.12206v1 )

ライセンス: CC BY 4.0
Eyal Ben-David, Nadav Oved, Roi Reichart(参考訳) 自然言語処理アルゴリズムは最近驚くべき進歩を遂げましたが、アウト・オブ・ディストリビューションの例に適用した場合はまだ苦労しています。 本論文では、この領域適応問題の非常に困難で以前は未解決のバージョンを取り上げる。 私たちのセットアップでは、アルゴリズムは複数のソースドメインでトレーニングされ、トレーニング時に未知の未認識ドメインの例に適用されます。 特に、ラベル付きまたはラベルなしの例や、ターゲットドメインに関するその他の知識は、トレーニング時にアルゴリズムで利用できる。 本稿では,T5 モデルに基づく Prompt-based Autoregressive Domain Adaptation アルゴリズムを提案する。 テストの例を考えると、PADAはまずユニークなプロンプトを生成し、このプロンプトで条件付きで、NLPタスクに関してサンプルをラベル付けします。 プロンプトは、各ソースドメインを特徴付ける事前定義されたドメイン関連機能(DRF)からなる制限のない長さのシーケンスです。 直感的には、プロンプトはテストの例をソースドメインにまたがる意味空間にマッピングするユニークなシグネチャである。 合計10のマルチソース適応シナリオにおいて、Rumour DetectionとMulti-Genre Natural Language Inference(MNLI)という2つのタスクの実験において、PADAは最先端のアプローチと強力なベースラインを強く上回る。

Natural Language Processing algorithms have made incredible progress recently, but they still struggle when applied to out-of-distribution examples. In this paper, we address a very challenging and previously underexplored version of this domain adaptation problem. In our setup an algorithm is trained on several source domains, and then applied to examples from an unseen domain that is unknown at training time. Particularly, no examples, labeled or unlabeled, or any other knowledge about the target domain are available to the algorithm at training time. We present PADA: A Prompt-based Autoregressive Domain Adaptation algorithm, based on the T5 model. Given a test example, PADA first generates a unique prompt and then, conditioned on this prompt, labels the example with respect to the NLP task. The prompt is a sequence of unrestricted length, consisting of pre-defined Domain Related Features (DRFs) that characterize each of the source domains. Intuitively, the prompt is a unique signature that maps the test example to the semantic space spanned by the source domains. In experiments with two tasks: Rumour Detection and Multi-Genre Natural Language Inference (MNLI), for a total of 10 multi-source adaptation scenarios, PADA strongly outperforms state-of-the-art approaches and additional strong baselines.
翻訳日:2021-02-26 02:34:48 公開日:2021-02-24
# (参考訳) 引数マイニングのためのマルチタスク注意残差ネットワーク [全文訳有]

Multi-Task Attentive Residual Networks for Argument Mining ( http://arxiv.org/abs/2102.12227v1 )

ライセンス: CC BY 4.0
Andrea Galassi, Marco Lippi, Paolo Torroni(参考訳) 我々は、議論マイニングおよび特にリンク予測に残存ネットワークと神経的注意の使用を検討する。 提案する手法は文書構造や議論構造を仮定しない。 本稿では,注目度,マルチタスク学習,アンサンブルを利用した残差アーキテクチャを提案する。 我々は、ユーザ生成コメントからなる挑戦的なデータセットと、科学出版物からなる他の2つのデータセットで評価する。 ユーザー生成コンテンツデータセットでは、私たちのモデルはドメイン知識に依存する最先端のメソッドを上回っています。 科学文献データセットでは、BERTベースのアプローチで得られる結果に匹敵する結果が得られるが、モデルサイズははるかに小さい。

We explore the use of residual networks and neural attention for argument mining and in particular link prediction. The method we propose makes no assumptions on document or argument structure. We propose a residual architecture that exploits attention, multi-task learning, and makes use of ensemble. We evaluate it on a challenging data set consisting of user-generated comments, as well as on two other datasets consisting of scientific publications. On the user-generated content dataset, our model outperforms state-of-the-art methods that rely on domain knowledge. On the scientific literature datasets it achieves results comparable to those yielded by BERT-based approaches but with a much smaller model size.
翻訳日:2021-02-26 02:11:05 公開日:2021-02-24
# (参考訳) マルチタスクFew-Shot Learningの画像拡張:農業ドメイン利用事例 [全文訳有]

Image Augmentation for Multitask Few-Shot Learning: Agricultural Domain Use-Case ( http://arxiv.org/abs/2102.12295v1 )

ライセンス: CC BY 4.0
Sergey Nesteruk, Dmitrii Shadrin, Mariia Pukalchik(参考訳) 大規模データセットの可用性は、特にコンピュータビジョンにおけるディープラーニングの急速な拡張を触媒している。 同時に、多くの領域において、十分な量のトレーニングデータが不足しており、コンピュータビジョン技術の実践的応用の障害となる可能性がある。 本稿では,植物フェノミクスドメインの例に基づいて,小規模で不均衡なデータセットに挑戦する。 本研究では,オブジェクト検出,意味セグメンテーション,インスタンスセグメンテーション,オブジェクトカウント,画像デノージング,分類などのタスクのためのデータを提供しながら,トレーニングサンプル数を大幅に拡大できる画像拡張フレームワークを提案する。 本手法は,少数のトレーニングサンプルが利用可能であれば,モデル性能が向上することを示す。 実験では,シロイヌナズナとニコチアナ・タバカムの画像データセットを用いた意味セグメンテーションタスクにdeeplabv3モデルを用いた。 その結果, 基本画像強調法と比較して, モデル性能が9%向上した。

Large datasets' availability is catalyzing a rapid expansion of deep learning in general and computer vision in particular. At the same time, in many domains, a sufficient amount of training data is lacking, which may become an obstacle to the practical application of computer vision techniques. This paper challenges small and imbalanced datasets based on the example of a plant phenomics domain. We introduce an image augmentation framework, which enables us to extremely enlarge the number of training samples while providing the data for such tasks as object detection, semantic segmentation, instance segmentation, object counting, image denoising, and classification. We prove that our augmentation method increases model performance when only a few training samples are available. In our experiment, we use the DeepLabV3 model on semantic segmentation tasks with Arabidopsis and Nicotiana tabacum image dataset. The obtained result shows a 9% relative increase in model performance compared to the basic image augmentation techniques.
翻訳日:2021-02-26 01:29:39 公開日:2021-02-24
# (参考訳) ユニバーサル言語モデルから下流タスクへ:RoBERTaに基づくベトナムのヘイトスピーチ検出の改善 [全文訳有]

From Universal Language Model to Downstream Task: Improving RoBERTa-Based Vietnamese Hate Speech Detection ( http://arxiv.org/abs/2102.12162v1 )

ライセンス: CC BY-SA 4.0
Quang Huu Pham, Viet Anh Nguyen, Linh Bao Doan, Ngoc N. Tran and Ta Minh Thanh(参考訳) 自然言語処理は人工知能の急速に成長する分野である。 2017年にGoogleによってTransformerが導入された以来、BERT、GPT、ELMoなどの多数の言語モデルがこのアーキテクチャに触発されました。 これらのモデルは巨大なデータセットでトレーニングされ、自然言語理解の最先端の結果を得た。 しかし、下流のタスクのためのはるかに小さなデータセットで事前に訓練された言語モデルを微調整するには、トレーニングデータの欠如や不均衡なデータなどのデータセットの問題を軽減するために慎重に設計されたパイプラインが必要です。 本稿では,汎用RoBERTa言語モデルを特定のテキスト分類タスクであるベトナム語Hate Speech Detectionに適応させるパイプラインを提案する。 まず,マスキング言語モデルタスクでモデルを再トレーニングすることで,データセット上でphobertをチューニングした上で,そのエンコーダをテキスト分類に使用しました。 新たな特徴表現を学習しながら,事前学習した重みを保存するために,層凍結,ブロックワイド学習率,ラベル平滑化といった異なる訓練手法を更に活用する。 実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。

Natural language processing is a fast-growing field of artificial intelligence. Since the Transformer was introduced by Google in 2017, a large number of language models such as BERT, GPT, and ELMo have been inspired by this architecture. These models were trained on huge datasets and achieved state-of-the-art results on natural language understanding. However, fine-tuning a pre-trained language model on much smaller datasets for downstream tasks requires a carefully-designed pipeline to mitigate problems of the datasets such as lack of training data and imbalanced data. In this paper, we propose a pipeline to adapt the general-purpose RoBERTa language model to a specific text classification task: Vietnamese Hate Speech Detection. We first tune the PhoBERT on our dataset by re-training the model on the Masked Language Model task; then, we employ its encoder for text classification. In order to preserve pre-trained weights while learning new feature representations, we further utilize different training techniques: layer freezing, block-wise learning rate, and label smoothing. Our experiments proved that our proposed pipeline boosts the performance significantly, achieving a new state-of-the-art on Vietnamese Hate Speech Detection campaign with 0.7221 F1 score.
翻訳日:2021-02-26 01:18:38 公開日:2021-02-24
# (参考訳) モデルベース強化学習におけるオフ・ポリシトレーニングとオン・ポリシトレーニングの組み合わせ [全文訳有]

Combining Off and On-Policy Training in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2102.12194v1 )

ライセンス: CC BY 4.0
Alexandre Borges and Arlindo Oliveira(参考訳) ディープラーニングとモンテカルロ木探索(MCTS)の組み合わせは,ボードゲームやビデオゲームなど,さまざまな領域で有効であることが示されている。 AlphaGoは複雑なボードゲームを学ぶ能力において大きな進歩を示しており、AlphaGo ZeroやAlphaZeroといった大きな進歩が急速に続いた。 最近、MuZeroは、環境のモデルを直接学習することによってAtariゲームとボードゲームの両方をマスターできることを実証しました。 ツリー検索中、アルゴリズムはいくつかの可能な動きを探索してゲームをシミュレートし、最も有望な軌道に対応するアクションを選択します。 トレーニングにおいて、これらのシミュレーションゲームは、どの軌道もトレーニングの例として直接使用しないため、限定的に使用される。 シミュレーションゲームからのすべてのトラジェクトリが有用ではないと仮定しても、何千もの潜在的に有用なトラジェクトリが破棄されている。 これらの軌道からの情報を使用することで、より高速なトレーニングデータが得られるようになり、より高速な収束とサンプル効率が向上する。 最近の研究は、シミュレーションゲームのデータを使用するalphazeroのオフポリシー値ターゲットを導入した。 本研究では,muzeroのシミュレーションゲームから得られたデータを用いて,オフポリシーターゲットを得る手法を提案する。 これらのオフポリシーターゲットとムゼロで既に使用されているオンポリシーターゲットをいくつかの方法で組み合わせ、異なる特性を持つ3つの環境におけるこれらのターゲットとその組み合わせの影響を研究します。 適切な組み合わせで使用すると、これらの目標がトレーニングプロセスを高速化し、MuZeroが得たものよりも早く収束し、より高い報酬をもたらすことが示される。

The combination of deep learning and Monte Carlo Tree Search (MCTS) has shown to be effective in various domains, such as board and video games. AlphaGo represented a significant step forward in our ability to learn complex board games, and it was rapidly followed by significant advances, such as AlphaGo Zero and AlphaZero. Recently, MuZero demonstrated that it is possible to master both Atari games and board games by directly learning a model of the environment, which is then used with MCTS to decide what move to play in each position. During tree search, the algorithm simulates games by exploring several possible moves and then picks the action that corresponds to the most promising trajectory. When training, limited use is made of these simulated games since none of their trajectories are directly used as training examples. Even if we consider that not all trajectories from simulated games are useful, there are thousands of potentially useful trajectories that are discarded. Using information from these trajectories would provide more training data, more quickly, leading to faster convergence and higher sample efficiency. Recent work introduced an off-policy value target for AlphaZero that uses data from simulated games. In this work, we propose a way to obtain off-policy targets using data from simulated games in MuZero. We combine these off-policy targets with the on-policy targets already used in MuZero in several ways, and study the impact of these targets and their combinations in three environments with distinct characteristics. When used in the right combinations, our results show that these targets speed up the training process and lead to faster convergence and higher rewards than the ones obtained by MuZero.
翻訳日:2021-02-26 00:14:00 公開日:2021-02-24
# (参考訳) Wasserstein Barycenters の生成に関する学習 [全文訳有]

Learning to Generate Wasserstein Barycenters ( http://arxiv.org/abs/2102.12178v1 )

ライセンス: CC BY 4.0
Julien Lacombe, Julie Digne, Nicolas Courty, Nicolas Bonneel(参考訳) 最適輸送は数値的に解くのが難しいことで知られており、現在のアプローチはしばしば、機械学習で遭遇したような非常に大規模なアプリケーションに対して難解なままである。 wasserstein barycenters -- 最適な輸送感覚で与えられた入力測度間の測度を求める問題 -- は、最適な輸送距離を含む最適化問題を解決する必要があるため、さらに計算的に要求される。 深層畳み込みニューラルネットワークをトレーニングすることにより、GPUにおける最先端のアプローチよりもワッサースタインバリセンタの計算速度が60倍向上し、512\times512$の正規グリッド上でミリ秒の計算時間が得られる。 我々のネットワークは、ワッサーシュタイン・バリセンタの対の測度に基づいて訓練されており、ワッサースタイン・バリセンタを2つ以上の測度で見つけるという問題によく当てはまる。 スケッチのバリセンタを計算し、複数の画像間で色を転送する手法の効率性を示す。

Optimal transport is a notoriously difficult problem to solve numerically, with current approaches often remaining intractable for very large scale applications such as those encountered in machine learning. Wasserstein barycenters -- the problem of finding measures in-between given input measures in the optimal transport sense -- is even more computationally demanding as it requires to solve an optimization problem involving optimal transport distances. By training a deep convolutional neural network, we improve by a factor of 60 the computational speed of Wasserstein barycenters over the fastest state-of-the-art approach on the GPU, resulting in milliseconds computational times on $512\times512$ regular grids. We show that our network, trained on Wasserstein barycenters of pairs of measures, generalizes well to the problem of finding Wasserstein barycenters of more than two measures. We demonstrate the efficiency of our approach for computing barycenters of sketches and transferring colors between multiple images.
翻訳日:2021-02-25 23:51:33 公開日:2021-02-24
# (参考訳) set-valued classification -- 統一フレームワークによる概要 [全文訳有]

Set-valued classification -- overview via a unified framework ( http://arxiv.org/abs/2102.12318v1 )

ライセンス: CC BY 4.0
Evgenii Chzhen, Christophe Denis, Mohamed Hebiri, Titouan Lorieul(参考訳) マルチクラス分類問題は、最も人気があり、よく研究された統計フレームワークの1つです。 現代のマルチクラスデータセットは極めてあいまいであり、単一出力の予測では十分な性能が得られない。 予測者がラベル候補のセットを予測できるようにすることで、セット値分類は、この曖昧さに対処する自然な方法を提供する。 集合値分類のいくつかの定式化は文献で利用可能であり、それぞれ異なる予測戦略をもたらす。 本調査は,統一的統計的枠組みを用いた人気製剤の見直しを目的とする。 提案するフレームワークは,従来検討されていた新たな定式化と,各定式化の基本的なトレードオフの理解を可能にする。 無限サンプルの最適集合値分類戦略を提供し,データ駆動アルゴリズムを構築するための一般的なプラグイン原理を考察する。 この展示は、理論的および実践的な貢献の例とポインタによって支持されている。 最後に,これらのアプローチを実世界のデータセットで比較した実験を行い,一般的な実践ガイドラインを提供する。

Multi-class classification problem is among the most popular and well-studied statistical frameworks. Modern multi-class datasets can be extremely ambiguous and single-output predictions fail to deliver satisfactory performance. By allowing predictors to predict a set of label candidates, set-valued classification offers a natural way to deal with this ambiguity. Several formulations of set-valued classification are available in the literature and each of them leads to different prediction strategies. The present survey aims to review popular formulations using a unified statistical framework. The proposed framework encompasses previously considered and leads to new formulations as well as it allows to understand underlying trade-offs of each formulation. We provide infinite sample optimal set-valued classification strategies and review a general plug-in principle to construct data-driven algorithms. The exposition is supported by examples and pointers to both theoretical and practical contributions. Finally, we provide experiments on real-world datasets comparing these approaches in practice and providing general practical guidelines.
翻訳日:2021-02-25 23:30:28 公開日:2021-02-24
# (参考訳) ゼロショットテキスト・画像生成 [全文訳有]

Zero-Shot Text-to-Image Generation ( http://arxiv.org/abs/2102.12092v1 )

ライセンス: CC BY 4.0
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, Ilya Sutskever(参考訳) テキストからイメージへの生成は、伝統的に、固定データセット上のトレーニングのためのより良いモデリング仮定を見つけることに集中してきた。 これらの仮定は、複雑なアーキテクチャ、補助損失、訓練中に提供されるオブジェクト部分ラベルやセグメンテーションマスクなどのサイド情報を含むかもしれない。 本稿では,テキストと画像トークンを単一のデータストリームとして自動回帰モデル化するトランスフォーマーに基づく,このタスクのための簡単なアプローチについて述べる。 十分なデータとスケールで、ゼロショットで評価した場合、従来のドメイン固有モデルと競合するアプローチです。

Text-to-image generation has traditionally focused on finding better modeling assumptions for training on a fixed dataset. These assumptions might involve complex architectures, auxiliary losses, or side information such as object part labels or segmentation masks supplied during training. We describe a simple approach for this task based on a transformer that autoregressively models the text and image tokens as a single stream of data. With sufficient data and scale, our approach is competitive with previous domain-specific models when evaluated in a zero-shot fashion.
翻訳日:2021-02-25 22:52:06 公開日:2021-02-24
# (参考訳) U-Netコンテキスト融合モジュールによる効率的なパームラインセグメンテーション [全文訳有]

Efficient Palm-Line Segmentation with U-Net Context Fusion Module ( http://arxiv.org/abs/2102.12127v1 )

ライセンス: CC BY-SA 4.0
Toan Pham Van, Son Trung Nguyen, Linh Bao Doan, Ngoc N. Tran and Ta Minh Thanh(参考訳) 世界中の多くの文化は、パーム読書は人の将来の生活を予測するのに使えると信じている。 手のひらのライン、手の形、または指先の位置のような手の特徴を使用します。 しかし、手のひら線検出の研究はまだ少なく、その多くは伝統的な画像処理技術を適用している。 ほとんどの現実世界のシナリオでは、イメージは通常よく条件が整っていないため、これらのメソッドはパフォーマンスが著しく低下します。 本稿では,人の手の画像から原則的手のひら線を抽出するアルゴリズムを提案する。 本手法は,ディープラーニングネットワーク(DNN)を適用して性能向上を図る。 この問題のもうひとつの課題は、トレーニングデータの欠如だ。 この問題に対処するため、一からデータセットを手作りしました。 このデータセットから、利用可能なメソッドのパフォーマンスを我々のものと比べる。 さらに, unetセグメンテーションニューラルネットワークアーキテクチャと注意機構の知識に基づいて, パームラインを検出するための高効率なアーキテクチャを提案する。 セグメンテーション精度の向上を目的とした最も重要なコンテキスト機能をキャプチャするためのContext Fusion Moduleを提案しました。 実験結果は、最高F1スコアが99.42%、mIoUが0.584である他の方法よりも優れていることを示している。

Many cultures around the world believe that palm reading can be used to predict the future life of a person. Palmistry uses features of the hand such as palm lines, hand shape, or fingertip position. However, the research on palm-line detection is still scarce, many of them applied traditional image processing techniques. In most real-world scenarios, images usually are not in well-conditioned, causing these methods to severely under-perform. In this paper, we propose an algorithm to extract principle palm lines from an image of a person's hand. Our method applies deep learning networks (DNNs) to improve performance. Another challenge of this problem is the lack of training data. To deal with this issue, we handcrafted a dataset from scratch. From this dataset, we compare the performance of readily available methods with ours. Furthermore, based on the UNet segmentation neural network architecture and the knowledge of attention mechanism, we propose a highly efficient architecture to detect palm-lines. We proposed the Context Fusion Module to capture the most important context feature, which aims to improve segmentation accuracy. The experimental results show that it outperforms the other methods with the highest F1 Score about 99.42% and mIoU is 0.584 for the same dataset.
翻訳日:2021-02-25 22:26:43 公開日:2021-02-24
# (参考訳) 教師付き学習による生成型adversarial networkの潜在空間の解釈 [全文訳有]

Interpreting the Latent Space of Generative Adversarial Networks using Supervised Learning ( http://arxiv.org/abs/2102.12139v1 )

ライセンス: CC BY-SA 4.0
Toan Pham Van, Tam Minh Nguyen, Ngoc N. Tran, Hoai Viet Nguyen, Linh Bao Doan, Huy Quang Dao and Thanh Ta Minh(参考訳) GAN(Generative Adversarial Networks)の発展により、近年、GANの潜在空間の理解と操作に関する洞察の探求は、その幅広い用途のためにますます注目を集めています。 この課題に関するほとんどの研究は教師なし学習に焦点を合わせており、トレーニングの困難と結果の制限を招いているが、我々の研究は、ganの隠れた空間についてより詳しく知るために人間の事前知識をエンコードする別の方向に向かっている。 この教師付き方式により、生成した画像の正確な操作により、有望な結果が得られる。 私たちのモデルはタスク固有の問題にもっと適していますが、実装の容易さ、正確性、堅牢性、および画像操作のためのよりリッチなプロパティセット(他のアプローチと比較して)の許容度が、現在の多くのアプリケーションの結果を高めることを望んでいます。

With great progress in the development of Generative Adversarial Networks (GANs), in recent years, the quest for insights in understanding and manipulating the latent space of GAN has gained more and more attention due to its wide range of applications. While most of the researches on this task have focused on unsupervised learning method, which induces difficulties in training and limitation in results, our work approaches another direction, encoding human's prior knowledge to discover more about the hidden space of GAN. With this supervised manner, we produce promising results, demonstrated by accurate manipulation of generated images. Even though our model is more suitable for task-specific problems, we hope that its ease in implementation, preciseness, robustness, and the allowance of richer set of properties (compared to other approaches) for image manipulation can enhance the result of many current applications.
翻訳日:2021-02-25 22:15:02 公開日:2021-02-24
# (参考訳) PixSet : フルウェーブフォームLiDARデータセットを用いた3次元コンピュータビジョンのポイントクラウドを越える機会 [全文訳有]

PixSet : An Opportunity for 3D Computer Vision to Go Beyond Point Clouds With a Full-Waveform LiDAR Dataset ( http://arxiv.org/abs/2102.12010v1 )

ライセンス: CC BY 4.0
Jean-Luc D\'eziel, Pierre Merriaux, Francis Tremblay, Dave Lessard, Dominique Plourde, Julien Stanguennec, Pierre Goulet and Pierre Olivier(参考訳) Leddar PixSetは、自動運転研究開発のための新しい公開データセット(dataset.leddartech. com)である。 このデータセットの重要な新機能の1つは、固体フラッシュLiDARであるLeddar Pixellセンサーからのフル波形データの存在です。 フルウェーブフォームデータは、空中アプリケーションにおける知覚アルゴリズムの性能を向上させることが示されているが、自動運転のような地上アプリケーションでは、まだ実証されていない。 PixSetデータセットには、さまざまなセンサー(カメラ、LiDAR、レーダー、IMUなど)を使用して、高密度都市部で記録された97のシーケンスから約29kフレームが含まれています。 各フレームは手動で3dバウンディングボックスでアノテートされている。

Leddar PixSet is a new publicly available dataset (dataset.leddartech. com) for autonomous driving research and development. One key novelty of this dataset is the presence of full-waveform data from the Leddar Pixell sensor, a solid-state flash LiDAR. Full-waveform data has been shown to improve the performance of perception algorithms in airborne applications but is yet to be demonstrated for terrestrial applications such as autonomous driving. The PixSet dataset contains approximately 29k frames from 97 sequences recorded in high-density urban areas, using a set of various sensors (cameras, LiDARs, radar, IMU, etc.) Each frame has been manually annotated with 3D bounding boxes.
翻訳日:2021-02-25 22:06:05 公開日:2021-02-24
# (参考訳) 強化学習におけるアクション検索の簡略化のためのモーションプリミティブのアノテーション [全文訳有]

Annotating Motion Primitives for Simplifying Action Search in Reinforcement Learning ( http://arxiv.org/abs/2102.12017v1 )

ライセンス: CC BY 4.0
Isaac J. Sledge and Darshan W. Bryner and Jose C. Principe(参考訳) 大規模環境での強化学習は、特定の状況において起こりうる多くの行動のために困難である。 動作プリミティブは,動作プリミティブであり,動作プリミティブは状態系列を横断する事前特定動作のシーケンスである。 この研究の副産物として、モーションプリミティブの動作とアクションがラベル付けされている場合、探索をさらに加速することができることを発見した。 モーションプリミティブは、当初そのような詳細を欠いている可能性があるため、基礎となる動きや動作を自動的に注釈する理論的に視点非感受性で速度非感受性の手段を提案する。 これを微分幾何学的時空間キネマティクスディスクリプタで行い、2つの運動配列における実体が時間とともにどのように変化するかを分析します。 この記述子を重み付きnearest-neighbor分類器と組み合わせて、限られたトレーニング例を使用してプリミティブをラベル付けします。 私たちの実験では、人間の行動由来プリミティブに対する高い動きと行動のアノテーションレートを1つのトレーニングサンプルで達成します。 また, 精度の高いラベル付き軌道を用いた強化学習が, 標準的な強化学習技術よりも高速な性能向上を実現することを示す。 これは、モーションプリミティブが以前のドメイン知識をエンコードし、トレーニング中にその知識を再発見する必要があるためです。 また、エージェントはラベルを利用して、タスクの目的を促さないアクションクラスを体系的に無視できるため、アクションスペースは減少する。

Reinforcement learning in large-scale environments is challenging due to the many possible actions that can be taken in specific situations. We have previously developed a means of constraining, and hence speeding up, the search process through the use of motion primitives; motion primitives are sequences of pre-specified actions taken across a state series. As a byproduct of this work, we have found that if the motion primitives' motions and actions are labeled, then the search can be sped up further. Since motion primitives may initially lack such details, we propose a theoretically viewpoint-insensitiv e and speed-insensitive means of automatically annotating the underlying motions and actions. We do this through a differential-geometr ic, spatio-temporal kinematics descriptor, which analyzes how the poses of entities in two motion sequences change over time. We use this descriptor in conjunction with a weighted-nearest-nei ghbor classifier to label the primitives using a limited set of training examples. In our experiments, we achieve high motion and action annotation rates for human-action-derived primitives with as few as one training sample. We also demonstrate that reinforcement learning using accurately labeled trajectories leads to high-performing policies more quickly than standard reinforcement learning techniques. This is partly because motion primitives encode prior domain knowledge and preempt the need to re-discover that knowledge during training. It is also because agents can leverage the labels to systematically ignore action classes that do not facilitate task objectives, thereby reducing the action space.
翻訳日:2021-02-25 21:56:36 公開日:2021-02-24
# (参考訳) 展望:人工生命と人工知能の目的的失敗 [全文訳有]

Perspective: Purposeful Failure in Artificial Life and Artificial Intelligence ( http://arxiv.org/abs/2102.12076v1 )

ライセンス: CC BY 4.0
Lana Sinapayen(参考訳) 複雑なシステムは失敗する。 私は、失敗は生物と生物学的知性を特徴づける青写真であり、進化シミュレーションの複雑さを増大させる制御メカニズムであり、古典的なフィットネス最適化に代わるものだと論じます。 人工生命と人工知能の生物学的成功を模倣することは誤解を招く可能性があります。失敗を模倣することは、人工システムにおける生命の理解と模倣への道を提供します。

Complex systems fail. I argue that failures can be a blueprint characterizing living organisms and biological intelligence, a control mechanism to increase complexity in evolutionary simulations, and an alternative to classical fitness optimization. Imitating biological successes in Artificial Life and Artificial Intelligence can be misleading; imitating failures offers a path towards understanding and emulating life it in artificial systems.
翻訳日:2021-02-25 20:17:02 公開日:2021-02-24
# (参考訳) ガウス過程に基づくスパース時間経過データの類似性尺度 [全文訳有]

Similarity measure for sparse time course data based on Gaussian processes ( http://arxiv.org/abs/2102.12342v1 )

ライセンス: CC BY 4.0
Zijing Liu, Mauricio Barahona(参考訳) ガウス過程 (gp) の対数類似度比という形で, 希薄にサンプリングされた時間経過データに対する類似度尺度を提案する。 提案されたGP類似性はベイズ因子と類似しており、例えば遺伝子転写学のような様々な生物学的設定で見られるようなスパース時系列におけるノイズに対する強靭性を提供する。 GP測定は、GPのノイズ分散が信号のノイズ分散と比較して無視可能である場合、ユークリッド距離と同等であることを示す。 合成データと実データの両方に関する数値実験では,2つの距離ベースのクラスタリング手法と併用することでGP類似度が向上した。

We propose a similarity measure for sparsely sampled time course data in the form of a log-likelihood ratio of Gaussian processes (GP). The proposed GP similarity is similar to a Bayes factor and provides enhanced robustness to noise in sparse time series, such as those found in various biological settings, e.g., gene transcriptomics. We show that the GP measure is equivalent to the Euclidean distance when the noise variance in the GP is negligible compared to the noise variance of the signal. Our numerical experiments on both synthetic and real data show improved performance of the GP similarity when used in conjunction with two distance-based clustering methods.
翻訳日:2021-02-25 20:08:30 公開日:2021-02-24
# (参考訳) FFTを用いた不均質成分の差分プライバシー保証

Computing Differential Privacy Guarantees for Heterogeneous Compositions Using FFT ( http://arxiv.org/abs/2102.12412v1 )

ライセンス: CC BY 4.0
Antti Koskela and Antti Honkela(参考訳) 最近提案されたFast Fourier Transform (FFT)ベースの会計士は、(\varepsilon,\delta) $-differential privacy guarantees for the privacy loss distribution formalismを用いて、均質なメカニズムの合成に適用した場合に、R'enyi accountantsのような一般的な方法よりも厳密な境界を与えることを示した。 このアプローチは、R\'enyi 会計士では解析できない特定の離散機構にも適用できる。 本稿では,このアプローチを不均一な機構の構成にも拡張する。 所望の精度が得られるようにアルゴリズムのパラメータを選択することができる完全誤差解析を行う。 この解析により、MurtaghとVadhan(2018)が与えたエラーと類似し、わずかにきつく締まるエラーの観点から、計算の複雑さにも限界を与えています。 また、プリコンピューティングとメモリ使用量の増加のコストでPlancherel定理を使用して厳しいプライバシー保証の評価をスピードアップする方法も示します。

The recently proposed Fast Fourier Transform (FFT)-based accountant for evaluating $(\varepsilon,\delta )$-differential privacy guarantees using the privacy loss distribution formalism has been shown to give tighter bounds than commonly used methods such as R\'enyi accountants when applied to compositions of homogeneous mechanisms. This approach is also applicable to certain discrete mechanisms that cannot be analysed with R\'enyi accountants. In this paper, we extend this approach to compositions of heterogeneous mechanisms. We carry out a full error analysis that allows choosing the parameters of the algorithm such that a desired accuracy is obtained. Using our analysis, we also give a bound for the computational complexity in terms of the error which is analogous to and slightly tightens the one given by Murtagh and Vadhan (2018). We also show how to speed up the evaluation of tight privacy guarantees using the Plancherel theorem at the cost of increased pre-computation and memory usage.
翻訳日:2021-02-25 19:35:02 公開日:2021-02-24
# (参考訳) 凍結電子トモグラフィにおける多分子構造分類のための能動学習 [全文訳有]

Active Learning to Classify Macromolecular Structures in situ for Less Supervision in Cryo-Electron Tomography ( http://arxiv.org/abs/2102.12040v1 )

ライセンス: CC BY 4.0
Xuefeng Du, Haohan Wang, Zhenxi Zhu, Xiangrui Zeng, Yi-Wei Chang, Jing Zhang, Eric Xing, Min Xu(参考訳) Motivation: Cryo-Electron Tomography (cryo-ET)は、単一細胞におけるマクロ分子の構造と空間構造を可視化する3Dバイオイメージングツールで、生命科学に広く応用されている。 しかし,cryo-etで捕獲された高分子の組織的構造認識と回復は,高い構造的複雑さと撮像限界のため困難である。 深層学習に基づくサブモトグラム分類は、このようなタスクに重要な役割を果たしている。 しかし、教師付きアプローチとして、彼らのパフォーマンスは、大規模なトレーニングデータセットに十分な、そして精巧なアノテーションに依存している。 結果: この大きなラベリング負担を軽減するため,我々は,大きなラベルのないサブトモグラムプールからラベル付けのためのサブトモグラムをクエリするハイブリッドアクティブラーニング(hal)フレームワークを提案した。 第一に、HALは不確実サンプリングを採用し、最も不確実な予測を持つサブトモグラムを選択する。 さらに、そのような戦略によるサンプリングバイアスを軽減するために、あるサブトモグラムがラベル付けされているかラベル付けされていないかを判別するために判別器を導入し、次に、ラベル付けされる確率の高いサブトモグラムを問合せする。 さらにhalは、クエリ集合の多様性を向上させるためにサブセットサンプリング戦略を導入し、クエリされたバッチ間で情報の重なりが減少し、アルゴリズム効率が向上する。 シミュレーションデータと実データの両方を用いたサブトモグラム分類タスクの実験により,ラベル付きサブトモグラムの30%未満を用いて,比較試験性能(平均3%の精度低下)を達成できることが示され,限られたラベル付きリソースでサブトモグラム分類タスクに非常に有望な結果が得られた。

Motivation: Cryo-Electron Tomography (cryo-ET) is a 3D bioimaging tool that visualizes the structural and spatial organization of macromolecules at a near-native state in single cells, which has broad applications in life science. However, the systematic structural recognition and recovery of macromolecules captured by cryo-ET are difficult due to high structural complexity and imaging limits. Deep learning based subtomogram classification have played critical roles for such tasks. As supervised approaches, however, their performance relies on sufficient and laborious annotation on a large training dataset. Results: To alleviate this major labeling burden, we proposed a Hybrid Active Learning (HAL) framework for querying subtomograms for labelling from a large unlabeled subtomogram pool. Firstly, HAL adopts uncertainty sampling to select the subtomograms that have the most uncertain predictions. Moreover, to mitigate the sampling bias caused by such strategy, a discriminator is introduced to judge if a certain subtomogram is labeled or unlabeled and subsequently the model queries the subtomogram that have higher probabilities to be unlabeled. Additionally, HAL introduces a subset sampling strategy to improve the diversity of the query set, so that the information overlap is decreased between the queried batches and the algorithmic efficiency is improved. Our experiments on subtomogram classification tasks using both simulated and real data demonstrate that we can achieve comparable testing performance (on average only 3% accuracy drop) by using less than 30% of the labeled subtomograms, which shows a very promising result for subtomogram classification task with limited labeling resources.
翻訳日:2021-02-25 19:34:01 公開日:2021-02-24
# (参考訳) ダイバート操作を考慮した安全な着陸地点選択のための深層補強学習 [全文訳有]

Deep Reinforcement Learning for Safe Landing Site Selection with Concurrent Consideration of Divert Maneuvers ( http://arxiv.org/abs/2102.12432v1 )

ライセンス: CC BY 4.0
Keidai Iiyama, Kento Tomita, Bhavi A. Jagatia, Tatsuwaki Nakagawa and Koki Ho(参考訳) 本研究は、安全な着陸場所を特定し、機内転位操作を計画するための新しい統合フレームワークを提案する。 ランディングゾーン選択のための最先端アルゴリズムは、斜面や粗さなどの地形特性を利用して、ランディングポイントの安全性と優先順位を判断する。 しかし、将来さらなる観測と分岐の機会がある場合、これらのアルゴリズムは、降下経路全体を考慮して、選択された着陸地点をターゲットにする決定自体の安全性を評価することができない。 そこで本研究では,着陸地点選定戦略と目標着陸地点への誘導・制御戦略を並行して最適化する強化学習フレームワークを提案する。 訓練されたエージェントは、地形の特徴、将来の観測の質、およびシステムレベルで安全かつ効率的な着陸軌道を達成するための制御を明確に考慮して着陸地点を評価し、選択することができた。 提案手法は、目標着地地点を効果的に更新し、降下時のフィードバック制御ゲインを付与することにより、初期目標着地地点周辺の80$_%$を危険にさらす高度に困難な着地地点において94.8ドル$%の着陸に成功した。

This research proposes a new integrated framework for identifying safe landing locations and planning in-flight divert maneuvers. The state-of-the-art algorithms for landing zone selection utilize local terrain features such as slopes and roughness to judge the safety and priority of the landing point. However, when there are additional chances of observation and diverting in the future, these algorithms are not able to evaluate the safety of the decision itself to target the selected landing point considering the overall descent trajectory. In response to this challenge, we propose a reinforcement learning framework that optimizes a landing site selection strategy concurrently with a guidance and control strategy to the target landing site. The trained agent could evaluate and select landing sites with explicit consideration of the terrain features, quality of future observations, and control to achieve a safe and efficient landing trajectory at a system-level. The proposed framework was able to achieve 94.8 $\%$ of successful landing in highly challenging landing sites where over 80$\%$ of the area around the initial target lading point is hazardous, by effectively updating the target landing site and feedback control gain during descent.
翻訳日:2021-02-25 19:15:33 公開日:2021-02-24
# (参考訳) Hopeful_Men@LT-EDI-E ACL2021: Indic TransliterationとTransformersを用いた希望の音声検出 [全文訳有]

Hopeful_Men@LT-EDI-E ACL2021: Hope Speech Detection Using Indic Transliteration and Transformers ( http://arxiv.org/abs/2102.12082v1 )

ライセンス: CC BY 4.0
Ishan Sanjeev Upadhyay, Nikhil E, Anshul Wadhawan, Radhika Mamidi(参考訳) 本論文では,HopeEDIデータセットにおける希望の発話検出に用いたアプローチについて述べる。 私たちは2つのアプローチを実験した。 第1のアプローチでは,ロジスティック回帰,ランダムフォレスト,SVM,LSTMモデルを用いた分類器の学習にコンテキスト埋め込みを用い,第2のアプローチでは,出力層を追加して事前学習したトランスフォーマーモデル (BERT, ALBERT, RoBERTa, IndicBERT) を微調整して得られた11モデルの多数投票アンサンブルを用いた。 第2のアプローチは、英語、タミル語、マラヤラム語よりも優れていることが分かりました。 我々の解は、それぞれ英語、マラヤラム、タミルの重み付きF1スコア0.93、0.75、0.49を得た。 私たちのソリューションは英語で第1位、マラヤラムで第8位、タミルで第11位でした。

This paper aims to describe the approach we used to detect hope speech in the HopeEDI dataset. We experimented with two approaches. In the first approach, we used contextual embeddings to train classifiers using logistic regression, random forest, SVM, and LSTM based models.The second approach involved using a majority voting ensemble of 11 models which were obtained by fine-tuning pre-trained transformer models (BERT, ALBERT, RoBERTa, IndicBERT) after adding an output layer. We found that the second approach was superior for English, Tamil and Malayalam. Our solution got a weighted F1 score of 0.93, 0.75 and 0.49 for English,Malayalam and Tamil respectively. Our solution ranked first in English, eighth in Malayalam and eleventh in Tamil.
翻訳日:2021-02-25 18:50:44 公開日:2021-02-24
# (参考訳) Telugu技術ドメイン同定のためのマルチチャネルLSTM-CNN [全文訳有]

Multichannel LSTM-CNN for Telugu Technical Domain Identification ( http://arxiv.org/abs/2102.12179v1 )

ライセンス: CC BY 4.0
Sunil Gundapu, Radhika Mamidi(参考訳) テキスト情報の瞬時成長に伴い、テキストデータからドメイン指向情報を取得することは、情報検索や自然言語処理において幅広い応用を有する。 テーマキーワードは、テキストの圧縮表現を与える。 通常、ドメイン識別は機械翻訳、テキスト要約、質問回答、情報抽出、および感情分析において重要な役割を果たします。 本論文では,Telugu技術領域同定のためのマルチチャネルLSTM-CNN手法を提案する。 このアーキテクチャはICON共有タスクTechDOfication 2020(タスクh)のコンテキストで使用され、私たちのシステムはテストデータセットでF1スコアの69.9%、バリデーションセットで90.01%を得ました。

With the instantaneous growth of text information, retrieving domain-oriented information from the text data has a broad range of applications in Information Retrieval and Natural language Processing. Thematic keywords give a compressed representation of the text. Usually, Domain Identification plays a significant role in Machine Translation, Text Summarization, Question Answering, Information Extraction, and Sentiment Analysis. In this paper, we proposed the Multichannel LSTM-CNN methodology for Technical Domain Identification for Telugu. This architecture was used and evaluated in the context of the ICON shared task TechDOfication 2020 (task h), and our system got 69.9% of the F1 score on the test dataset and 90.01% on the validation set.
翻訳日:2021-02-25 18:42:50 公開日:2021-02-24
# (参考訳) 単語埋め込み学習のための軌跡に基づくメタラーニング [全文訳有]

Trajectory-Based Meta-Learning for Out-Of-Vocabulary Word Embedding Learning ( http://arxiv.org/abs/2102.12266v1 )

ライセンス: CC BY 4.0
Gordon Buck, Andreas Vlachos(参考訳) 単語埋め込み学習方法は、その埋め込みを正確に学ぶために単語の多数の発生を必要とします。 しかし、トレーニングコーパスに現れない語彙外単語(OOV)は、下流の小さなデータに頻繁に現れる。 最近の研究は、oov埋め込み学習を数発回帰問題として定式化し、メタラーニングが結果を改善することを実証した。 しかし、モデルに依存しないメタラーニング(MAML)アルゴリズムは、パラメータ更新に多数の勾配ステップを使用する場合、不安定であることが知られ、さらに悪化する。 本稿では,学習過程の軌跡全体を始点と終点に留まらず活用し,これら2つの問題を解消するメタラーニングアルゴリズムであるleapの利用を提案する。 OOV埋め込み学習データセットのベンチマーク実験および外部評価において、LeapはMAMLよりも相補的、あるいは優れた性能を発揮する。 我々は、OOVの埋め込みを学習する上で最も有益であるコンテキストについて検討し、採用するメタ学習よりもコンテキストの選択が重要であることを提案する。

Word embedding learning methods require a large number of occurrences of a word to accurately learn its embedding. However, out-of-vocabulary (OOV) words which do not appear in the training corpus emerge frequently in the smaller downstream data. Recent work formulated OOV embedding learning as a few-shot regression problem and demonstrated that meta-learning can improve results obtained. However, the algorithm used, model-agnostic meta-learning (MAML) is known to be unstable and perform worse when a large number of gradient steps are used for parameter updates. In this work, we propose the use of Leap, a meta-learning algorithm which leverages the entire trajectory of the learning process instead of just the beginning and the end points, and thus ameliorates these two issues. In our experiments on a benchmark OOV embedding learning dataset and in an extrinsic evaluation, Leap performs comparably or better than MAML. We go on to examine which contexts are most beneficial to learn an OOV embedding from, and propose that the choice of contexts may matter more than the meta-learning employed.
翻訳日:2021-02-25 18:38:06 公開日:2021-02-24
# (参考訳) Webを創る [全文訳有]

Creolizing the Web ( http://arxiv.org/abs/2102.12382v1 )

ライセンス: CC BY 4.0
Abhinav Tamaskar, Roy Rinberg, Sunandan Chakraborty, Bud Mishra(参考訳) 言語の進化は、仮説と信頼できない主張と矛盾する激しい議論の対象となっている。 本稿では,信号ゲーム,動的集団力学,機械学習,代数トポロジーから,言語進化の社会学的モデルにおける進化パターンを検出する手法を提案する。 我々は,個人間のコミュニケーションに基づく言語の一般化進化モデルに対する厳密な基礎を提供する最小主義モデルを開発した。 また,言語表現の安定性から時間的コミュニケーションによる言語収束,対話的環境における言語ドリフトなど,このモデルの理論的保証についても論じる。 さらに,実世界データセット上での実証結果とその解釈を行い,コミュニティの意見を識別し,コミュニティ間の信頼性の高いコミュニケーションに障害を与える。

The evolution of language has been a hotly debated subject with contradicting hypotheses and unreliable claims. Drawing from signalling games, dynamic population mechanics, machine learning and algebraic topology, we present a method for detecting evolutionary patterns in a sociological model of language evolution. We develop a minimalistic model that provides a rigorous base for any generalized evolutionary model for language based on communication between individuals. We also discuss theoretical guarantees of this model, ranging from stability of language representations to fast convergence of language by temporal communication and language drift in an interactive setting. Further we present empirical results and their interpretations on a real world dataset from \rdt to identify communities and echo chambers for opinions, thus placing obstructions to reliable communication among communities.
翻訳日:2021-02-25 18:19:21 公開日:2021-02-24
# (参考訳) Pyramid Vision Transformer: 畳み込みのない密度予測のための汎用バックボーン [全文訳有]

Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions ( http://arxiv.org/abs/2102.12122v1 )

ライセンス: CC BY 4.0
Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao(参考訳) 畳み込みニューラルネットワーク(CNN)をコンピュータビジョンにおいて大きな成功を収める一方で、畳み込みのない多くの密集した予測タスクに有用な単純なバックボーンネットワークを探索する。 近年提案されている画像分類用トランスフォーマーモデル(例えばvit)とは異なり、様々な密集した予測タスクへのトランスフォーマーの移植の難しさを克服するピラミッドビジョントランスフォーマー(pvt)を提案する。 PVTは先行技術と比較していくつかの利点がある。 1)通常、低解像度の出力と高い計算およびメモリコストを有するViTとは異なり、PVTは、高密度の予測のために重要である高出力の解像度を達成するために画像の高密度分割で訓練することができるだけでなく、大規模な特徴マップの計算を減らすために進歩的な縮小ピラミッドを使用する。 2) PVTはCNNとTransformerの両方の利点を継承し、CNNのバックボーンを置き換えるだけで、畳み込みのない様々なビジョンタスクで統一されたバックボーンになります。 3)幅広い実験を行ってpvtを検証することで,オブジェクト検出やセマンティクス,インスタンスセグメンテーションなど,多くのダウンストリームタスクのパフォーマンスが向上することを示す。 例えば、同等のパラメータ数で、RetinaNet+PVTはCOCOデータセット上で40.4 APを達成し、RetinNet+ResNet50(36.3 AP)を4.1絶対APで上回る。 PVTがピクセルレベルの予測の代替的および有用なバックボーンとなり、将来の研究を促進することを期待しています。 コードはhttps://github.com/w hai362/PVTで入手できます。

Although using convolutional neural networks (CNNs) as backbones achieves great successes in computer vision, this work investigates a simple backbone network useful for many dense prediction tasks without convolutions. Unlike the recently-proposed Transformer model (e.g., ViT) that is specially designed for image classification, we propose Pyramid Vision Transformer~(PVT), which overcomes the difficulties of porting Transformer to various dense prediction tasks. PVT has several merits compared to prior arts. (1) Different from ViT that typically has low-resolution outputs and high computational and memory cost, PVT can be not only trained on dense partitions of the image to achieve high output resolution, which is important for dense predictions but also using a progressive shrinking pyramid to reduce computations of large feature maps. (2) PVT inherits the advantages from both CNN and Transformer, making it a unified backbone in various vision tasks without convolutions by simply replacing CNN backbones. (3) We validate PVT by conducting extensive experiments, showing that it boosts the performance of many downstream tasks, e.g., object detection, semantic, and instance segmentation. For example, with a comparable number of parameters, RetinaNet+PVT achieves 40.4 AP on the COCO dataset, surpassing RetinNet+ResNet50 (36.3 AP) by 4.1 absolute AP. We hope PVT could serve as an alternative and useful backbone for pixel-level predictions and facilitate future researches. Code is available at https://github.com/w hai362/PVT.
翻訳日:2021-02-25 17:55:26 公開日:2021-02-24
# (参考訳) マルチスケールトポロジネットワークの高効率化と高精度化 [全文訳有]

Efficient and Accurate Multi-scale Topological Network for Single Image Dehazing ( http://arxiv.org/abs/2102.12135v1 )

ライセンス: CC BY 4.0
Qiaosi Yi, Juncheng Li, Faming Fang, Aiwen Jiang, Guixu Zhang(参考訳) 単一画像デハジングは、ここ数年で大きな注目を集めてきた、不適切な問題である。 近年,畳み込みニューラルネットワークは画像デハジングにおいて大きな成功を収めている。 しかし、これらの複雑なモデルがハッジ画像から正確な詳細を復元することは依然として困難である。 本稿では,入力画像自体の特徴抽出と利用に注意を払います。 そこで本稿では,マルチスケール・トポロジカル・ネットワーク(MSTN)を提案する。 一方,MFFM (Multi-scale Feature Fusion Module) とAFSM (Adaptive Feature Selection Module) を設計し,様々なスケールで特徴の選択と融合を実現し,プログレッシブな画像デハジングを実現する。 このトポロジカルネットワークは、ネットワークが豊富な画像機能だけでなく、強いフォールトトレランスと堅牢性を引き出すことを可能にする多数の検索パスを提供します。 さらに、ASFMとMFFMは、異なるスケール表現を融合する際に重要な特徴を適応的に選択し、干渉情報を無視することができる。 最先端の手法と比較し, 本手法の優位性を示すために, 広範な実験を行った。

Single image dehazing is a challenging ill-posed problem that has drawn significant attention in the last few years. Recently, convolutional neural networks have achieved great success in image dehazing. However, it is still difficult for these increasingly complex models to recover accurate details from the hazy image. In this paper, we pay attention to the feature extraction and utilization of the input image itself. To achieve this, we propose a Multi-scale Topological Network (MSTN) to fully explore the features at different scales. Meanwhile, we design a Multi-scale Feature Fusion Module (MFFM) and an Adaptive Feature Selection Module (AFSM) to achieve the selection and fusion of features at different scales, so as to achieve progressive image dehazing. This topological network provides a large number of search paths that enable the network to extract abundant image features as well as strong fault tolerance and robustness. In addition, ASFM and MFFM can adaptively select important features and ignore interference information when fusing different scale representations. Extensive experiments are conducted to demonstrate the superiority of our method compared with state-of-the-art methods.
翻訳日:2021-02-25 17:15:58 公開日:2021-02-24
# (参考訳) 視覚パターン検出による教師なし意味発見 [全文訳有]

Unsupervised semantic discovery through visual patterns detection ( http://arxiv.org/abs/2102.12213v1 )

ライセンス: CC BY 4.0
Francesco Pelosin, Andrea Gasparetto, Andrea Albarelli, Andrea Torsello(参考訳) 意味的パターンを発見するための新しい高速完全監視手法を提案する。 我々のアルゴリズムは、階層的に視覚カテゴリーを見つけ、以前の手法が失敗するセグメンテーションマスクを生成することができる。 画像中の視覚的パターンをモデル化することで、「セマンティックレベル」の概念を導入し、測度とともに概念的なフレームワークと将来の比較のための専用のベンチマークデータセットを考案する。 我々のアルゴリズムは2つのフェーズで構成されている。 フィルタリングフェーズは、アキュムレータ空間によって意味的ホットポストを選択し、スーパーピクセルベースでホットスポットの意味特性を伝播するクラスタリングフェーズである。 定性的かつ定量的な検証を行い、ノイズに対する堅牢性や意味的一貫性の観点から最適な結果を得る。 コードとデータセットも公開しました。

We propose a new fast fully unsupervised method to discover semantic patterns. Our algorithm is able to hierarchically find visual categories and produce a segmentation mask where previous methods fail. Through the modeling of what is a visual pattern in an image, we introduce the notion of "semantic levels" and devise a conceptual framework along with measures and a dedicated benchmark dataset for future comparisons. Our algorithm is composed by two phases. A filtering phase, which selects semantical hotsposts by means of an accumulator space, then a clustering phase which propagates the semantic properties of the hotspots on a superpixels basis. We provide both qualitative and quantitative experimental validation, achieving optimal results in terms of robustness to noise and semantic consistency. We also made code and dataset publicly available.
翻訳日:2021-02-25 16:51:42 公開日:2021-02-24
# (参考訳) 胃バイパス術における手術相とステップの同時認識のためのマルチタスク時間畳み込みネットワーク [全文訳有]

Multi-Task Temporal Convolutional Networks for Joint Recognition of Surgical Phases and Steps in Gastric Bypass Procedures ( http://arxiv.org/abs/2102.12218v1 )

ライセンス: CC BY-SA 4.0
Sanat Ramesh, Diego Dall'Alba, Cristians Gonzalez, Tong Yu, Pietro Mascagni, Didier Mutter, Jacques Marescaux, Paolo Fiorini, Nicolas Padoy(参考訳) 目的: ロボット支援手術におけるコンピュータ支援介入と自律機能支援の高度化には,手術活動の自動分割と分類が不可欠である。 以前の作品では、フェーズのような粗い活動やジェスチャーのようなきめ細かい活動の認識に焦点が当てられていた。 この研究は、ビデオから2つの相補的な粒度(フェーズとステップ)を直接認識することを目的とする。 方法:腹腔鏡下胃バイパス術の2つの関連外科的活動、段階およびステップを紹介します。 本稿では,マルチタスク畳み込みニューラルネットワーク (mtms-tcn) とマルチタスク畳み込みニューラルネットワーク (cnn) を併用し, 相とステップを共同で予測し, それらの相補性を生かして, 手順の実行を評価する。 提案手法を40の手術手順(Bypass40)からなる大規模ビデオデータセット上で評価する。 結果:Bypass40データセット上での位相およびステップ認識のためのいくつかのベースラインモデルによる実験結果を示す。 MTMS-TCN法は, 単一タスク法と比較して, 精度, 精度, 再現率ともに1-2%向上した。 さらに,ステップ認識において,MTMS-TCNはLSTMモデルに比べて精度,精度,リコールにおいて3~6%の優れた性能を達成している。 結論:本研究では,多レベルアノテーションを用いたバイパス40胃バイパスデータセットの単タスクモデルと比較し,手術活動認識のためのマルチタスクマルチステージ時間畳み込みネットワークを提案する。 提案手法は,各活動の総合的認識を改善する上で,位相とステップの協調モデリングが有効であることを示す。

Purpose: Automatic segmentation and classification of surgical activity is crucial for providing advanced support in computer-assisted interventions and autonomous functionalities in robot-assisted surgeries. Prior works have focused on recognizing either coarse activities, such as phases, or fine-grained activities, such as gestures. This work aims at jointly recognizing two complementary levels of granularity directly from videos, namely phases and steps. Method: We introduce two correlated surgical activities, phases and steps, for the laparoscopic gastric bypass procedure. We propose a Multi-task Multi-Stage Temporal Convolutional Network (MTMS-TCN) along with a multi-task Convolutional Neural Network (CNN) training setup to jointly predict the phases and steps and benefit from their complementarity to better evaluate the execution of the procedure. We evaluate the proposed method on a large video dataset consisting of 40 surgical procedures (Bypass40). Results: We present experimental results from several baseline models for both phase and step recognition on the Bypass40 dataset. The proposed MTMS-TCN method outperforms in both phase and step recognition by 1-2% in accuracy, precision and recall, compared to single-task methods. Furthermore, for step recognition, MTMS-TCN achieves a superior performance of 3-6% compared to LSTM based models in accuracy, precision, and recall. Conclusion: In this work, we present a multi-task multi-stage temporal convolutional network for surgical activity recognition, which shows improved results compared to single-task models on the Bypass40 gastric bypass dataset with multi-level annotations. The proposed method shows that the joint modeling of phases and steps is beneficial to improve the overall recognition of each type of activity.
翻訳日:2021-02-25 16:43:35 公開日:2021-02-24
# (参考訳) 物体検出のための局所蒸留法 [全文訳有]

Localization Distillation for Object Detection ( http://arxiv.org/abs/2102.12252v1 )

ライセンス: CC BY 4.0
Zhaohui Zheng and Rongguang Ye and Ping Wang and Jun Wang and Dongwei Ren and Wangmeng Zuo(参考訳) 知識蒸留(KD)は、深層学習分野におけるコンパクトモデル学習の強力な能力を示しているが、それでも物体検出のための局所化情報の蒸留に限られている。 既存のkd手法は主に教師モデルと学生モデルの深い特徴を模倣することに焦点を当てているが、これは特定のモデルアーキテクチャによって制限されるだけでなく、局所的曖昧さを蒸留することができない。 本稿ではまず,物体検出のためのローカライゼーション蒸留(LD)を提案する。 特に、バウンディングボックスの一般的なローカリゼーション表現を採用することで、LDを標準KDとして定式化することができます。 このldは非常に柔軟であり, 教師モデルと学生モデルの任意のアーキテクチャに対する, 蒸留局在曖昧性に適用できる。 さらに,教師モデルそのものを蒸留するセルフLDが,最先端のパフォーマンスをさらに向上させることが興味深い。 第二に、教師モデルと生徒モデルの間に可能なギャップを埋めるための教師アシスタント(TA)戦略を提案し、選択された教師モデルが最適でない場合でも蒸留の有効性を保証することができる。 ベンチマークデータセットPASCAL VOCおよびMS COCOでは、LDは学生検出器のパフォーマンスを一貫して改善し、最先端の検出器を特に高めることができます。 ソースコードとトレーニング済みモデルは、https://github.com/H ikariTju/LDで公開されています。

Knowledge distillation (KD) has witnessed its powerful ability in learning compact models in deep learning field, but it is still limited in distilling localization information for object detection. Existing KD methods for object detection mainly focus on mimicking deep features between teacher model and student model, which not only is restricted by specific model architectures, but also cannot distill localization ambiguity. In this paper, we first propose localization distillation (LD) for object detection. In particular, our LD can be formulated as standard KD by adopting the general localization representation of bounding box. Our LD is very flexible, and is applicable to distill localization ambiguity for arbitrary architecture of teacher model and student model. Moreover, it is interesting to find that Self-LD, i.e., distilling teacher model itself, can further boost state-of-the-art performance. Second, we suggest a teacher assistant (TA) strategy to fill the possible gap between teacher model and student model, by which the distillation effectiveness can be guaranteed even the selected teacher model is not optimal. On benchmark datasets PASCAL VOC and MS COCO, our LD can consistently improve the performance for student detectors, and also boosts state-of-the-art detectors notably. Our source code and trained models are publicly available at https://github.com/H ikariTJU/LD
翻訳日:2021-02-25 16:31:42 公開日:2021-02-24
# (参考訳) CLIPを用いたビデオ検索のためのStraightforwardフレームワーク [全文訳有]

A Straightforward Framework For Video Retrieval Using CLIP ( http://arxiv.org/abs/2102.12443v1 )

ライセンス: CC BY 4.0
Jes\'us Andr\'es Portillo-Quintero, Jos\'e Carlos Ortiz-Bayliss, Hugo Terashima-Mar\'in(参考訳) ビデオ検索は、テキストクエリがビデオとマッチする、あるいはその逆を行う、難しいタスクである。 このような問題に対処する既存のアプローチのほとんどは、ユーザによるアノテーションに依存しています。 単純だが、このアプローチは実際には必ずしも実現可能ではない。 本稿では,このアノテーションを必要とせず,映像表現を得るための言語画像モデルである clip の応用について検討する。 このモデルは、画像とテキストを比較できる共通空間を学ぶために明示的に訓練された。 本論文では,MSR-VTT および MSVD ベンチマークを用いて,その適用範囲をビデオに拡張した。

Video Retrieval is a challenging task where a text query is matched to a video or vice versa. Most of the existing approaches for addressing such a problem rely on annotations made by the users. Although simple, this approach is not always feasible in practice. In this work, we explore the application of the language-image model, CLIP, to obtain video representations without the need for said annotations. This model was explicitly trained to learn a common space where images and text can be compared. Using various techniques described in this document, we extended its application to videos, obtaining state-of-the-art results on the MSR-VTT and MSVD benchmarks.
翻訳日:2021-02-25 15:56:19 公開日:2021-02-24
# (参考訳) 生成型adversarial networkにおける自己診断gan:未表示サンプルの診断 [全文訳有]

Self-Diagnosing GAN: Diagnosing Underrepresented Samples in Generative Adversarial Networks ( http://arxiv.org/abs/2102.12033v1 )

ライセンス: CC BY 4.0
Jinhee Lee, Haeri Kim, Youngkyu Hong, Hye Won Chung(参考訳) 現実的なサンプルの作成で驚くべき性能にもかかわらず、GAN(Generative Adversarial Networks)はしばしばデータマニホールドの低密度領域の近くで低品質のサンプルを生成します。 近年, 学習後の低品質サンプルの拒絶や, 学習前の経験的データ分布の事前処理などにより, 生成サンプルの品質向上を図る技術が開発されているが, 多様性の低減が図られている。 品質と多様性の両立を保証するため,GANのトレーニングにおいて,未表示サンプルを診断・強調するための簡易かつ効果的な手法を提案する。 主なアイデアは、各データインスタンスにおけるデータ分布とモデル分布との間の不一致の統計を使用することである。 本研究では, 下表の試料が平均差が高いか, ばらつきが高いかの観察から, GANのトレーニング中に強調する手法を提案する。 実験の結果,提案手法は各種データセットのGAN性能を向上し,特に小特徴量で生成したサンプルの品質向上に有効であることがわかった。

Despite remarkable performance in producing realistic samples, Generative Adversarial Networks (GANs) often produce low-quality samples near low-density regions of the data manifold. Recently, many techniques have been developed to improve the quality of generated samples, either by rejecting low-quality samples after training or by pre-processing the empirical data distribution before training, but at the cost of reduced diversity. To guarantee both the quality and the diversity, we propose a simple yet effective method to diagnose and emphasize underrepresented samples during training of a GAN. The main idea is to use the statistics of the discrepancy between the data distribution and the model distribution at each data instance. Based on the observation that the underrepresented samples have a high average discrepancy or high variability in discrepancy, we propose a method to emphasize those samples during training of a GAN. Our experimental results demonstrate that the proposed method improves GAN performance on various datasets, and it is especially effective in improving the quality of generated samples with minor features.
翻訳日:2021-02-25 15:34:19 公開日:2021-02-24
# (参考訳) DNN2LR:クレジットスコアリングの自動機能クロス [全文訳有]

DNN2LR: Automatic Feature Crossing for Credit Scoring ( http://arxiv.org/abs/2102.12036v1 )

ライセンス: CC BY 4.0
Qiang Liu, Zhaocheng Liu, Haoli Zhang, Yuntian Chen, Jun Zhu(参考訳) クレジットスコアリングは、金融機関がクレジットローンを承認するか拒否するかを決めるための機械学習の大きな応用である。 信頼性のためには、信用スコアモデルが正確かつグローバルに解釈可能である必要がある。 単純な分類器、例えばロジスティック回帰(LR)はホワイトボックスモデルであるが、機能間の複雑な非線形相互作用をモデル化するほど強力ではない。 幸いなことに、自動機能横断は、重い手作業による機能エンジニアリングなしに、単純な分類器をより正確にするクロス機能を見つけるための有望な方法です。 しかし、クレジットスコアは通常ユーザーの異なる側面に基づいており、データはたいてい数百の機能フィールドを含んでいる。 これにより、既存の自動機能横断方式はクレジットスコアリングには適さない。 この研究では、特定の特徴のDeep Neural Networks(DNN)の局所的な部分的解釈が、通常、異なるサンプルでは矛盾しており、これは隠れた層における特徴相互作用によって引き起こされる。 したがって、DNNで機能間相互作用を見つけるための自動機能横断法を設計し、LRのクロス機能として使うことができる。 DNN2LRと呼ばれる信用スコアリング予測のための新しい特徴の交差方法が提案されたDNNにおける解釈の不整合の定義を与える。 明らかに、DNN2LRによって生成されたクロス機能を備えたLRモデルである最終モデルは、ホワイトボックスモデルである。 実世界のクレジットスコアアプリケーションから、パブリックデータセットとビジネスデータセットの両方で広範な実験が行われた。 実験的には、DNN2LRはDNNモデルといくつかの機能横断法を上回ることができる。 さらに,最新の機能横断手法であるAutoCrossと比較して,DNN2LRは,多数の機能フィールドを持つデータセット上で,機能横断の速度を約10~40倍に向上させることができる。

Credit scoring is a major application of machine learning for financial institutions to decide whether to approve or reject a credit loan. For sake of reliability, it is necessary for credit scoring models to be both accurate and globally interpretable. Simple classifiers, e.g., Logistic Regression (LR), are white-box models, but not powerful enough to model complex nonlinear interactions among features. Fortunately, automatic feature crossing is a promising way to find cross features to make simple classifiers to be more accurate without heavy handcrafted feature engineering. However, credit scoring is usually based on different aspects of users, and the data usually contains hundreds of feature fields. This makes existing automatic feature crossing methods not efficient for credit scoring. In this work, we find local piece-wise interpretations in Deep Neural Networks (DNNs) of a specific feature are usually inconsistent in different samples, which is caused by feature interactions in the hidden layers. Accordingly, we can design an automatic feature crossing method to find feature interactions in DNN, and use them as cross features in LR. We give definition of the interpretation inconsistency in DNN, based on which a novel feature crossing method for credit scoring prediction called DNN2LR is proposed. Apparently, the final model, i.e., a LR model empowered with cross features, generated by DNN2LR is a white-box model. Extensive experiments have been conducted on both public and business datasets from real-world credit scoring applications. Experimental shows that, DNN2LR can outperform the DNN model, as well as several feature crossing methods. Moreover, comparing with the state-of-the-art feature crossing methods, i.e., AutoCross, DNN2LR can accelerate the speed for feature crossing by about 10 to 40 times on datasets with large numbers of feature fields.
翻訳日:2021-02-25 15:04:12 公開日:2021-02-24
# (参考訳) 連続平均共分散帯域

Continuous Mean-Covariance Bandits ( http://arxiv.org/abs/2102.12090v1 )

ライセンス: CC BY 4.0
Yihan Du, Siwei Wang, Zhixuan Fang, Longbo Huang(参考訳) 既存のリスクアウェアマルチアームバンディットモデルは、一般的に分散などの個別オプションのリスク対策に焦点を当てている。 その結果、関連する選択肢を持つ重要なオンライン意思決定問題に直接適用することはできない。 本稿では,オプション相関を考慮した新しい連続平均共分散バンドイット(cmcb)モデルを提案する。 具体的には、CMCBでは、特定のオプションで重みベクトルを順次選択し、決定に応じてランダムなフィードバックを観察する学習者がいます。 エージェントの目的は、オプションの共分散で測定された報酬とリスクの間の最良のトレードオフを達成することです。 実際に重要な報奨観測シナリオを捉えるために,3つのフィードバック設定,すなわち,全情報,半帯域,全帯域フィードバックを検討する。 対数的因子を伴わない)最適後悔を伴う新しいアルゴリズムを提案し、その最適性を検証するために一致した下界を提供する。 また,提案手法の有効性を実証する実験を行った。 我々の知る限りでは、リスク対応の帯域におけるオプション相関を考慮し、任意の共分散構造が学習性能に与える影響を明確に評価する最初の研究である。

Existing risk-aware multi-armed bandit models typically focus on risk measures of individual options such as variance. As a result, they cannot be directly applied to important real-world online decision making problems with correlated options. In this paper, we propose a novel Continuous Mean-Covariance Bandit (CMCB) model to explicitly take into account option correlation. Specifically, in CMCB, there is a learner who sequentially chooses weight vectors on given options and observes random feedback according to the decisions. The agent's objective is to achieve the best trade-off between reward and risk, measured with option covariance. To capture important reward observation scenarios in practice, we consider three feedback settings, i.e., full-information, semi-bandit and full-bandit feedback. We propose novel algorithms with the optimal regrets (within logarithmic factors), and provide matching lower bounds to validate their optimalities. Our experimental results also demonstrate the superiority of the proposed algorithms. To the best of our knowledge, this is the first work that considers option correlation in risk-aware bandits and explicitly quantifies how arbitrary covariance structures impact the learning performance.
翻訳日:2021-02-25 14:42:24 公開日:2021-02-24
# (参考訳) Bottleneck Reward関数を用いた組合せ純粋探索と一般Reward関数への拡張

Combinatorial Pure Exploration with Bottleneck Reward Function and its Extension to General Reward Functions ( http://arxiv.org/abs/2102.12094v1 )

ライセンス: CC BY 4.0
Yihan Du, Yuko Kuroki, Wei Chen(参考訳) 本稿では,固定信頼度と固定予算設定の下で,ボトルネック報酬関数(CPE-B)を用いた組合せ純粋探索問題について検討する。 CPE-Bでは、一定の組合せ制約に従ったベースアームのセットとベースアーム(スーパーアーム)のサブセットを与えられた場合、学習者はベースアームを順次(サンプル)演奏し、そのランダムな結果を観察し、スーパーアームに含まれるベースアームの最小期待値として定義されたボトルネック値を最大化する最適なスーパーアームを見つけることを目的とする。 CPE-Bは、通信ネットワークにおけるネットワークルーティングのような様々な実践シナリオをキャプチャするが、その多くは線形報酬関数を仮定しているため、既存のCPEアルゴリズムでは解決できない。 CPE-Bの場合、固定信頼度と固定予算度の両方のアルゴリズムを提示し、固定信頼度設定のサンプル複雑性を低くすることで、我々のアルゴリズムが幅広いインスタンスの下位境界(対数係数)と一致することを示唆する。 さらに、CPE-Bを一般報酬関数(CPE-G)に拡張し、非自明なサンプル複雑性を持つ一般非線形報酬関数に対する最初の固定信頼アルゴリズムを提案する。 提案したアルゴリズムがベースラインよりも経験的優位性を示すため, 上位$k, path, matching インスタンスに関する実験結果を得た。

In this paper, we study the Combinatorial Pure Exploration problem with the bottleneck reward function (CPE-B) under the fixed-confidence and fixed-budget settings. In CPE-B, given a set of base arms and a collection of subsets of base arms (super arms) following certain combinatorial constraint, a learner sequentially plays (samples) a base arm and observes its random outcome, with the objective of finding the optimal super arm that maximizes its bottleneck value, defined as the minimum expected value among the base arms contained in the super arm. CPE-B captures a variety of practical scenarios such as network routing in communication networks, but it cannot be solved by the existing CPE algorithms since most of them assumed linear reward functions. For CPE-B, we present both fixed-confidence and fixed-budget algorithms, and provide the sample complexity lower bound for the fixed-confidence setting, which implies that our algorithms match the lower bound (within a logarithmic factor) for a broad family of instances. In addition, we extend CPE-B to general reward functions (CPE-G) and propose the first fixed-confidence algorithm for general non-linear reward functions with non-trivial sample complexity. Our experimental results on the top-$k$, path and matching instances demonstrate the empirical superiority of our proposed algorithms over the baselines.
翻訳日:2021-02-25 14:41:30 公開日:2021-02-24
# (参考訳) HiPaR:階層型パターン支援回帰 [全文訳有]

HiPaR: Hierarchical Pattern-aided Regression ( http://arxiv.org/abs/2102.12370v1 )

ライセンス: CC BY 4.0
Luis Gal\'arraga and Olivier Pelgrin and Alexandre Termier(参考訳) カテゴリ属性と数値属性の両方を含む表データに対する新しいパターン支援回帰法であるHiPaRを紹介します。 HiPaRは、$p \Rightarrow y = f(X)$という形式のハイブリッドルールをマイニングする。$p$はデータ領域の特性付けであり、$f(X)$は興味ある$y$の変数上の線形回帰モデルである。 HiPaRはパターンマイニング技術を利用して、ターゲット変数が局所線形モデルによって正確に説明できるデータの領域を特定する。 この手法の斬新性は、領域の空間を探索するための列挙的アプローチと、探索を導く効率的なヒューリスティックの組み合わせにある。 このような戦略は、データセット全体を説明できる少数の精度と可読性のハイブリッドルールを選択する際に、より柔軟性を提供します。 実験が示すように、hipalは既存のパターンベースの回帰法よりも少ないルールをマイニングしながら、最先端の予測性能を実現しています。

We introduce HiPaR, a novel pattern-aided regression method for tabular data containing both categorical and numerical attributes. HiPaR mines hybrid rules of the form $p \Rightarrow y = f(X)$ where $p$ is the characterization of a data region and $f(X)$ is a linear regression model on a variable of interest $y$. HiPaR relies on pattern mining techniques to identify regions of the data where the target variable can be accurately explained via local linear models. The novelty of the method lies in the combination of an enumerative approach to explore the space of regions and efficient heuristics that guide the search. Such a strategy provides more flexibility when selecting a small set of jointly accurate and human-readable hybrid rules that explain the entire dataset. As our experiments shows, HiPaR mines fewer rules than existing pattern-based regression methods while still attaining state-of-the-art prediction performance.
翻訳日:2021-02-25 14:40:20 公開日:2021-02-24
# SeqNet:シーケンスベースの階層的場所認識のための学習記述子

SeqNet: Learning Descriptors for Sequence-based Hierarchical Place Recognition ( http://arxiv.org/abs/2102.11603v2 )

ライセンス: Link先を確認
Sourav Garg and Michael Milford(参考訳) 視覚的場所認識(VPR)は、カメラから環境の参照マップに格納された画像に現在の視覚画像をマッチングするタスクである。 初期のvbrシステムは単純な直接画像法や手作りの視覚機能を使用していたが、近年の研究では、より強力な視覚特徴の学習と、何らかのシーケンシャルマッチング/フィルタまたは階層マッチングプロセスによるパフォーマンス向上に重点が置かれている。 いずれの場合も、最初の1枚の画像ベースのシステムの性能は完璧とは程遠いため、シーケンスマッチングや(階層的なシステムの場合)リファインメントの段階に大きなプレッシャーがかかる。 本論文では,単一画像学習ディスクリプタを用いた選択的連続スコア集計を可能にする,短時間学習型シーケンシャルディスクリプタを用いた高性能初期一致仮説生成器を作成する新しいハイブリッドシステムを提案する。 シーケンシャルディスクリプタは、seqnetと呼ばれるテンポラリ畳み込みネットワークを使用して生成され、1次元畳み込みを使用して短い画像シーケンスをエンコードし、参照データセットから対応するテンポラリディスクリプタとマッチングし、場所マッチ仮説の順序リストを提供する。 次に,各パイプラインから短縮された単一画像学習記述子を用いて選択的に逐次スコアアグリゲーションを行い,全体の位置マッチング仮説を生成する。 難解なベンチマークデータセットに関する包括的実験により、同一量のシーケンシャル情報を用いた最新の最先端手法よりも優れた手法が示された。 ソースコードと補足資料はhttps://github.com/o ravus/seqnetにある。

Visual Place Recognition (VPR) is the task of matching current visual imagery from a camera to images stored in a reference map of the environment. While initial VPR systems used simple direct image methods or hand-crafted visual features, recent work has focused on learning more powerful visual features and further improving performance through either some form of sequential matcher / filter or a hierarchical matching process. In both cases the performance of the initial single-image based system is still far from perfect, putting significant pressure on the sequence matching or (in the case of hierarchical systems) pose refinement stages. In this paper we present a novel hybrid system that creates a high performance initial match hypothesis generator using short learnt sequential descriptors, which enable selective control sequential score aggregation using single image learnt descriptors. Sequential descriptors are generated using a temporal convolutional network dubbed SeqNet, encoding short image sequences using 1-D convolutions, which are then matched against the corresponding temporal descriptors from the reference dataset to provide an ordered list of place match hypotheses. We then perform selective sequential score aggregation using shortlisted single image learnt descriptors from a separate pipeline to produce an overall place match hypothesis. Comprehensive experiments on challenging benchmark datasets demonstrate the proposed method outperforming recent state-of-the-art methods using the same amount of sequential information. Source code and supplementary material can be found at https://github.com/o ravus/seqNet.
翻訳日:2021-02-25 13:49:17 公開日:2021-02-24
# DeepThermal: オフライン強化学習を用いた火力発電ユニットの燃焼最適化

DeepThermal: Combustion Optimization for Thermal Power Generating Units Using Offline Reinforcement Learning ( http://arxiv.org/abs/2102.11492v2 )

ライセンス: Link先を確認
Xianyuan Zhan, Haoran Xu, Yue Zhang, Yusen Huo, Xiangyu Zhu, Honglei Yin, Yu Zheng(参考訳) 火力発電は世界の電力供給において主要な役割を担っている。 世界中で大量の石炭を消費し、深刻な大気汚染を引き起こす。 熱発電ユニット(TPGU)の燃焼効率を最適化することは、エネルギー産業において非常に困難かつ重要な課題である。 我々はtpgusの燃焼制御戦略を最適化する新しいデータ駆動型aiシステム、deepthermalを開発した。 MOREと呼ばれる新しいモデルベースのオフライン強化学習(RL)フレームワークは、TPGUの履歴操作データを活用して、純粋にオフライントレーニングを通じて非常に複雑な制約付きMarkov決定プロセス問題を解決する。 MOREは、長期的な報酬(燃焼効率の向上と汚染物質の排出削減)の同時改善と運用リスク(安全制約満足)のコントロールを目指しています。 DeepThermalでは、まずオフラインデータセットからデータ駆動の燃焼プロセスシミュレーターを学びます。 MOREのRLエージェントは、新しい制限探索スキームを介して、実際の履歴データと慎重にフィルタリングおよび処理されたシミュレーションデータを組み合わせて訓練されます。 DeepThermalは中国の4大石炭火力発電所に配備されている。 実世界の実験では、DeepThermalがTPGUの燃焼効率を効果的に改善することを示しています。 また,標準オフラインrlベンチマークにおける最先端アルゴリズムとの比較により,より優れた性能を示す。 著者の最高の知識のために、DeepThermalはオフラインRLアプローチを使用して現実世界の複雑なミッションクリティカルな制御タスクを解決するために使用された最初のAIアプリケーションです。

Thermal power generation plays a dominant role in the world's electricity supply. It consumes large amounts of coal worldwide, and causes serious air pollution. Optimizing the combustion efficiency of a thermal power generating unit (TPGU) is a highly challenging and critical task in the energy industry. We develop a new data-driven AI system, namely DeepThermal, to optimize the combustion control strategy for TPGUs. At its core, is a new model-based offline reinforcement learning (RL) framework, called MORE, which leverages logged historical operational data of a TPGU to solve a highly complex constrained Markov decision process problem via purely offline training. MORE aims at simultaneously improving the long-term reward (increase combustion efficiency and reduce pollutant emission) and controlling operational risks (safety constraints satisfaction). In DeepThermal, we first learn a data-driven combustion process simulator from the offline dataset. The RL agent of MORE is then trained by combining real historical data as well as carefully filtered and processed simulation data through a novel restrictive exploration scheme. DeepThermal has been successfully deployed in four large coal-fired thermal power plants in China. Real-world experiments show that DeepThermal effectively improves the combustion efficiency of a TPGU. We also report and demonstrate the superior performance of MORE by comparing with the state-of-the-art algorithms on the standard offline RL benchmarks. To the best knowledge of the authors, DeepThermal is the first AI application that has been used to solve real-world complex mission-critical control tasks using the offline RL approach.
翻訳日:2021-02-25 13:48:50 公開日:2021-02-24
# ハードノックの学派: 計算予算を固定したポンマーマンのカリキュラム分析

School of hard knocks: Curriculum analysis for Pommerman with a fixed computational budget ( http://arxiv.org/abs/2102.11762v2 )

ライセンス: Link先を確認
Omkar Shelke, Hardik Meisheri, Harshad Khadilkar(参考訳) Pommermanは、部分的な可観測性、通信の制限またはなし、報酬のスパースと遅延、および制限された計算時間制限の点で困難な特性を持つハイブリッド協調/逆マルチエージェント環境です。 これにより、強化学習(RL)アプローチの難しい環境になる。 本稿では,定型的基本方針(ノイズの多い専門家政策を模倣する訓練)から始まる,制約付き10,000試合の計算予算で,堅牢で有望な政策を学習するためのカリキュラムの開発に焦点をあてる。 基本方針から始まる全てのRLアルゴリズムは、同じ報酬関数を持つバニラ近似-ポリチ最適化(PPO)を使用し、トレーニングの唯一の違いは、対立するポリシーの混合と順序である。 より単純な相手とのトレーニングを開始し、徐々に相手の難易度を増すと、学習の迅速化が期待され、利用可能なすべての相手ポリシーが最初から導入されるベースラインと比較して、より堅牢なポリシーが導かれる。 我々は、この仮説を検証し、制約された計算予算の中で、事実上「ハードノックの学派で学ぶ」こと、すなわち、ほぼ最初から利用可能な全ての反対の政策に対して、より良いことを示します。 また、アンモのベース環境特性や爆破強度がエージェント性能に及ぼす影響を研究するアブレーション研究も実施しています。

Pommerman is a hybrid cooperative/adversar ial multi-agent environment, with challenging characteristics in terms of partial observability, limited or no communication, sparse and delayed rewards, and restrictive computational time limits. This makes it a challenging environment for reinforcement learning (RL) approaches. In this paper, we focus on developing a curriculum for learning a robust and promising policy in a constrained computational budget of 100,000 games, starting from a fixed base policy (which is itself trained to imitate a noisy expert policy). All RL algorithms starting from the base policy use vanilla proximal-policy optimization (PPO) with the same reward function, and the only difference between their training is the mix and sequence of opponent policies. One expects that beginning training with simpler opponents and then gradually increasing the opponent difficulty will facilitate faster learning, leading to more robust policies compared against a baseline where all available opponent policies are introduced from the start. We test this hypothesis and show that within constrained computational budgets, it is in fact better to "learn in the school of hard knocks", i.e., against all available opponent policies nearly from the start. We also include ablation studies where we study the effect of modifying the base environment properties of ammo and bomb blast strength on the agent performance.
翻訳日:2021-02-25 13:48:27 公開日:2021-02-24
# ReINTEL Challenge 2020:ベトナムのソーシャルネットワークサイトにおける信頼できるインテリジェンス識別のための転送学習モデルを公開

ReINTEL Challenge 2020: Exploiting Transfer Learning Models for Reliable Intelligence Identification on Vietnamese Social Network Sites ( http://arxiv.org/abs/2102.10794v3 )

ライセンス: Link先を確認
Kim Thi-Thanh Nguyen, Kiet Van Nguyen(参考訳) 本稿ではベトナム語・音声処理2020(VLSP 2020)共有タスクのベトナム語ソーシャルネットワークサイト(ReINTEL)タスクにおける信頼性の高いインテリジェンス・インデント化を提案する。 このタスクでは、VLSP 2020は、信頼性または信頼性の低いラベルで注釈付けされた約6,000のトレーニングニュース/ポストのデータセットを提供し、テストセットはラベルなしで2,000のサンプルで構成されている。 本稿では, bert4news と PhoBERT を微調整して, ニュースが信頼できるかどうかを推定する, 異なる伝達学習モデルの実験を行う。 実験では,ReINTELのオーガナイザによるプライベートテストセットのAUCスコアが94.52%に達した。

This paper presents the system that we propose for the Reliable Intelligence Indentification on Vietnamese Social Network Sites (ReINTEL) task of the Vietnamese Language and Speech Processing 2020 (VLSP 2020) Shared Task. In this task, the VLSP 2020 provides a dataset with approximately 6,000 trainning news/posts annotated with reliable or unreliable labels, and a test set consists of 2,000 examples without labels. In this paper, we conduct experiments on different transfer learning models, which are bert4news and PhoBERT fine-tuned to predict whether the news is reliable or not. In our experiments, we achieve the AUC score of 94.52% on the private test set from ReINTEL's organizers.
翻訳日:2021-02-25 13:48:03 公開日:2021-02-24
# WaNet -- 受け入れ難いワープベースのバックドア攻撃

WaNet -- Imperceptible Warping-based Backdoor Attack ( http://arxiv.org/abs/2102.10369v3 )

ライセンス: Link先を確認
Anh Nguyen, Anh Tran(参考訳) ディープラーニングの繁栄と事前訓練されたネットワークの使用の広範な実践により、バックドア攻撃は近年多くの研究の関心を引くセキュリティの脅威となっています。 サードパーティーのモデルは、通常の状況でうまく機能するようにトレーニング中に毒を盛るが、トリガーパターンが現れると悪質に振る舞う。 しかし、既存のバックドア攻撃はすべてノイズの摂動トリガーに基づいており、人間に顕著です。 本稿では,ワーピングに基づくトリガーの使用を提案する。 提案したバックドアは、人間の検査試験における従来の方法よりも広いマージンで優れており、そのステルス性を証明している。 このようなモデルをマシンディフェンダーによって検出不能にするために, ``noise mode" と呼ばれる新しいトレーニングモードを提案する。 訓練されたネットワークは、MNIST、CIFAR-10、GTSRB、CelebAといった標準分類データセットの最先端の防衛手法を攻撃および回避することに成功している。 行動分析により,我々のバックドアはネットワーク検査に透過的であり,この新たな攻撃機構の効率性がさらに証明された。

With the thriving of deep learning and the widespread practice of using pre-trained networks, backdoor attacks have become an increasing security threat drawing many research interests in recent years. A third-party model can be poisoned in training to work well in normal conditions but behave maliciously when a trigger pattern appears. However, the existing backdoor attacks are all built on noise perturbation triggers, making them noticeable to humans. In this paper, we instead propose using warping-based triggers. The proposed backdoor outperforms the previous methods in a human inspection test by a wide margin, proving its stealthiness. To make such models undetectable by machine defenders, we propose a novel training mode, called the ``noise mode. The trained networks successfully attack and bypass the state-of-the-art defense methods on standard classification datasets, including MNIST, CIFAR-10, GTSRB, and CelebA. Behavior analyses show that our backdoors are transparent to network inspection, further proving this novel attack mechanism's efficiency.
翻訳日:2021-02-25 13:47:34 公開日:2021-02-24
# 無線リンクの品質を公平に分類する学習

Learning to Fairly Classify the Quality of Wireless Links ( http://arxiv.org/abs/2102.11655v2 )

ライセンス: Link先を確認
Gregor Cerar, Halil Yetgin, Mihael Mohor\v{c}i\v{c}, Carolina Fortuna(参考訳) 機械学習(ML)は、無線ネットワークにおけるリンク品質推定器の精度向上に用いられている。 しかし、最も適したモデルのクラス、最も適したメトリクス、不均衡なデータセットのモデルパフォーマンスに関するより詳細な質問は、引き続き開かれている。 本稿では,高パフォーマンスを満たし,マイノリティクラスを公平に分類し,同時に低いトレーニングコストを発生させる木ベースリンク品質分類器を提案する。 本研究では, 選択された不均衡データセット上で, マルチレイヤパーセプトロン(MLP)の非線形モデルと, ロジスティック回帰(LR)とSVMの2つの線形モデルを比較し, 5つの異なる性能指標を用いて評価した。 Our study shows that 1) non-linear models perform slightly better than linear models in general, 2) the proposed non-linear tree-based model yields the best performance trade-off considering F1, training time and fairness, 3) single metric aggregated evaluations based only on accuracy can hide poor, unfair performance especially on minority classes, and 4) it is possible to improve the performance on minority classes, by over 40% through feature selection and by over 20% through resampling, therefore leading to fairer classification results.

Machine learning (ML) has been used to develop increasingly accurate link quality estimators for wireless networks. However, more in-depth questions regarding the most suitable class of models, most suitable metrics and model performance on imbalanced datasets remain open. In this paper, we propose a new tree-based link quality classifier that meets high performance and fairly classifies the minority class and, at the same time, incurs low training cost. We compare the tree-based model, to a multilayer perceptron (MLP) non-linear model and two linear models, namely logistic regression (LR) and SVM, on a selected imbalanced dataset and evaluate their results using five different performance metrics. Our study shows that 1) non-linear models perform slightly better than linear models in general, 2) the proposed non-linear tree-based model yields the best performance trade-off considering F1, training time and fairness, 3) single metric aggregated evaluations based only on accuracy can hide poor, unfair performance especially on minority classes, and 4) it is possible to improve the performance on minority classes, by over 40% through feature selection and by over 20% through resampling, therefore leading to fairer classification results.
翻訳日:2021-02-25 13:47:15 公開日:2021-02-24
# 非一様摂動を伴う対向ロバスト性

Adversarial Robustness with Non-uniform Perturbations ( http://arxiv.org/abs/2102.12002v1 )

ライセンス: Link先を確認
Ecenaz Erdemir, Jeffrey Bickford, Luca Melis and Sergul Aydore(参考訳) 機械学習モデルのロバスト性は、現実の敵がニューラルネットワークベースの検出器の回避に特化しているセキュリティ関連のアプリケーションに不可欠である。 先行研究は主に、非知覚性の要件を維持するために、機能間で小さな均一なノルムバウンドの摂動で敵対的な例を作ることに重点を置いている。 このようなアプローチは画像に有効であるが、均一な摂動は、マルウェア、金融、ソーシャルネットワークなどの領域における現実的な敵の例にはならない。 これらのタイプのアプリケーションでは、通常、機能には意味のある依存関係があります。 提案手法の鍵となる考え方は,これらの特徴依存性を逆訓練中に適切に表現できる非一様摂動を可能にすることである。 特徴と特徴そのものの重要性の相関性から,経験的データ分布の特徴を用いて提案する。 マルウェア分類,信用リスク予測,スパム検出のための実験データセットを用いて,本手法が実世界攻撃に対してより堅牢であることを示す。 我々のアプローチは、非一様摂動が現実的な対角的例をより正確に表現する他の領域に適応することができる。

Robustness of machine learning models is critical for security related applications, where real-world adversaries are uniquely focused on evading neural network based detectors. Prior work mainly focus on crafting adversarial examples with small uniform norm-bounded perturbations across features to maintain the requirement of imperceptibility. Although such approaches are valid for images, uniform perturbations do not result in realistic adversarial examples in domains such as malware, finance, and social networks. For these types of applications, features typically have some semantically meaningful dependencies. The key idea of our proposed approach is to enable non-uniform perturbations that can adequately represent these feature dependencies during adversarial training. We propose using characteristics of the empirical data distribution, both on correlations between the features and the importance of the features themselves. Using experimental datasets for malware classification, credit risk prediction, and spam detection, we show that our approach is more robust to real-world attacks. Our approach can be adapted to other domains where non-uniform perturbations more accurately represent realistic adversarial examples.
翻訳日:2021-02-25 13:46:55 公開日:2021-02-24
# AGENT: コア心理学的推論のベンチマーク

AGENT: A Benchmark for Core Psychological Reasoning ( http://arxiv.org/abs/2102.12321v1 )

ライセンス: Link先を確認
Tianmin Shu, Abhishek Bhandwaldar, Chuang Gan, Kevin A. Smith, Shari Liu, Dan Gutfreund, Elizabeth Spelke, Joshua B. Tenenbaum, Tomer D. Ullman(参考訳) マシンエージェントが現実世界の環境で人間とうまく対話するためには、人間の精神生活を理解する必要がある。 直感的な心理学は、観察可能な行動を駆動する隠された精神的な変数を推論する能力は、人間に自然に来る:前動詞の幼児でさえ、エージェントを物体から区別することができ、エージェントが与えられた制約の目標を達成するために効率的に行動することを期待する。 他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。 直感心理学の認知発達研究から着想を得て, 主観的直感心理学の重要な概念を探索する4つのシナリオ(ゴール選好, 行動効率, 未観測制約, コスト-リワードトレードオフ)を中心に構成された, 手続き的に生成された3Dアニメーションの大規模なデータセットであるエージェント(Action, Goal, efficiency, coNstraint, uTility)を提示する。 エージェントを人間格付けで検証し,一般化を強調する評価プロトコルを提案し,ベイズ逆計画に基づく2つの強力なベースラインとマインドニューラルネットワークの理論を比較した。 以上より,人間レベルでのコア直感的心理学の設計テストに合格するためには,エージェントの計画方法,ユーティリティ計算とオブジェクトと物理学のコア知識を組み合わせること,モデルが組み込んだ表現をしなければならないことが示唆された。

For machine agents to successfully interact with humans in real-world settings, they will need to develop an understanding of human mental life. Intuitive psychology, the ability to reason about hidden mental variables that drive observable actions, comes naturally to people: even pre-verbal infants can tell agents from objects, expecting agents to act efficiently to achieve goals given constraints. Despite recent interest in machine agents that reason about other agents, it is not clear if such agents learn or hold the core psychology principles that drive human reasoning. Inspired by cognitive development studies on intuitive psychology, we present a benchmark consisting of a large dataset of procedurally generated 3D animations, AGENT (Action, Goal, Efficiency, coNstraint, uTility), structured around four scenarios (goal preferences, action efficiency, unobserved constraints, and cost-reward trade-offs) that probe key concepts of core intuitive psychology. We validate AGENT with human-ratings, propose an evaluation protocol emphasizing generalization, and compare two strong baselines built on Bayesian inverse planning and a Theory of Mind neural network. Our results suggest that to pass the designed tests of core intuitive psychology at human levels, a model must acquire or have built-in representations of how agents plan, combining utility computations and core knowledge of objects and physics.
翻訳日:2021-02-25 13:46:37 公開日:2021-02-24
# 深部生成モデルにおける推論による画像補完

Image Completion via Inference in Deep Generative Models ( http://arxiv.org/abs/2102.12037v1 )

ライセンス: Link先を確認
William Harvey, Saeid Naderiparizi, Frank Wood(参考訳) 画像生成モデルにおける償却推論の観点から画像完成を検討する。 非自明な解像度でフォトリアリスティックな自然画像を生成することが示されているアート変分オートエンコーダアーキテクチャの最近の状況を活用する。 このようなモデルでの償却推論を通じて、画像の大半が欠落している場合でも、多様な現実的な画像補完を生成するニューラルネットワークアーティファクトを訓練することができる。 CIFAR-10およびFFHQ-256データセットの先行技術と比較して、優れたサンプル品質と多様性を示します。 ベイズ最適実験設計(bayesian optimal experimental design)を用いて、胸部病理検出のための小さな視野x線の最も有益なシーケンスを選択する。

We consider image completion from the perspective of amortized inference in an image generative model. We leverage recent state of the art variational auto-encoder architectures that have been shown to produce photo-realistic natural images at non-trivial resolutions. Through amortized inference in such a model we can train neural artifacts that produce diverse, realistic image completions even when the vast majority of an image is missing. We demonstrate superior sample quality and diversity compared to prior art on the CIFAR-10 and FFHQ-256 datasets. We conclude by describing and demonstrating an application that requires an in-painting model with the capabilities ours exhibits: the use of Bayesian optimal experimental design to select the most informative sequence of small field of view x-rays for chest pathology detection.
翻訳日:2021-02-25 13:45:52 公開日:2021-02-24
# 『Train one, Classify one, Teach one』 -- 外科的段階認識のためのクロスサージリートランスファーラーニング

"Train one, Classify one, Teach one" -- Cross-surgery transfer learning for surgical step recognition ( http://arxiv.org/abs/2102.12308v1 )

ライセンス: Link先を確認
Daniel Neimark, Omri Bar, Maya Zohar, Gregory D. Hager, Dotan Asselmann(参考訳) 以前の研究では、ビデオから外科的ワークフローステップを自動的に認識する機械学習の機能を示した。 しかし、これらの研究は単一のタイプの手順のみに焦点を当てた。 本研究では、胆嚢摘出術、右血球摘出術、スリーブ胃切除術、虫垂切除術の4つの異なる腹腔鏡下手術における外科的ステップ認識を初めて解析する。 手術訓練がハルステッド法に基づいている伝統的な見習いモデルに触発されて、手術知能領域における「1つ見て、やって、1つを教える」アプローチを「1つを訓練し、1つを分類し、1つを教える」と仮定する。 機械学習では、このアプローチは転校学習と呼ばれることが多い。 異なる腹腔鏡的手順におけるトランスファーラーニングの影響を分析するために、さまざまな時系列アーキテクチャを探索し、各ターゲットドメインにおけるそれらのパフォーマンスを調べます。 外科的ステップ認識の伝達学習に最適化されたアーキテクチャであるTSAN(Time-Series Adaptation Network)を導入し、シーケンスソーティングタスクにおける自己教師型学習を用いて、TSANを事前トレーニングする方法を示す。 このような事前トレーニングにより、tsanはターゲットプロシージャから少数のラベル付きサンプルから新しい腹腔鏡下手術型のワークフローステップを学習できる。 腹腔鏡下胆嚢摘出術を他の3種類の術式に移行した場合に90%以上の精度が得られた。

Prior work demonstrated the ability of machine learning to automatically recognize surgical workflow steps from videos. However, these studies focused on only a single type of procedure. In this work, we analyze, for the first time, surgical step recognition on four different laparoscopic surgeries: Cholecystectomy, Right Hemicolectomy, Sleeve Gastrectomy, and Appendectomy. Inspired by the traditional apprenticeship model, in which surgical training is based on the Halstedian method, we paraphrase the "see one, do one, teach one" approach for the surgical intelligence domain as "train one, classify one, teach one". In machine learning, this approach is often referred to as transfer learning. To analyze the impact of transfer learning across different laparoscopic procedures, we explore various time-series architectures and examine their performance on each target domain. We introduce a new architecture, the Time-Series Adaptation Network (TSAN), an architecture optimized for transfer learning of surgical step recognition, and we show how TSAN can be pre-trained using self-supervised learning on a Sequence Sorting task. Such pre-training enables TSAN to learn workflow steps of a new laparoscopic procedure type from only a small number of labeled samples from the target procedure. Our proposed architecture leads to better performance compared to other possible architectures, reaching over 90% accuracy when transferring from laparoscopic Cholecystectomy to the other three procedure types.
翻訳日:2021-02-25 13:45:41 公開日:2021-02-24
# SocialNLP EmotionGIF 2020チャレンジの概要:ソーシャルメディア上の反応GIFカテゴリを予測する

SocialNLP EmotionGIF 2020 Challenge Overview: Predicting Reaction GIF Categories on Social Media ( http://arxiv.org/abs/2102.12073v1 )

ライセンス: Link先を確認
Boaz Shmueli, Lun-Wei Ku, Soumya Ray(参考訳) 第8回自然言語処理社会NLP(International Workshop on Natural Language Processing for Social Media)において,ACL 2020と共同で開催されているEmotionGIF2020 Challengeの概要を紹介する。 課題は、オンラインテキストに対する感情的な反応を予測することであり、emotiongifデータセットを含み、リアクションカテゴリにツイートがラベル付けされた。 新しいデータセットには、リアクションgif付きで40万ツイートが含まれている。 2020年の特別な状況のために、コンペティションの2ラウンドが行われました。 このタスクには合計84チームが登録した。 これらのうち、25チームが第1ラウンドで評価フェーズへの応募を成功裏に提出し、13チームが第2ラウンドで成功しました。 トップ参加者のうち、5つのチームがテクニカルレポートを発表し、コードを共有した。 Recall@Kメトリックを使用した勝利チームのトップスコアは62.47%だった。

We present an overview of the EmotionGIF2020 Challenge, held at the 8th International Workshop on Natural Language Processing for Social Media (SocialNLP), in conjunction with ACL 2020. The challenge required predicting affective reactions to online texts, and included the EmotionGIF dataset, with tweets labeled for the reaction categories. The novel dataset included 40K tweets with their reaction GIFs. Due to the special circumstances of year 2020, two rounds of the competition were conducted. A total of 84 teams registered for the task. Of these, 25 teams success-fully submitted entries to the evaluation phase in the first round, while 13 teams participated successfully in the second round. Of the top participants, five teams presented a technical report and shared their code. The top score of the winning team using the Recall@K metric was 62.47%.
翻訳日:2021-02-25 13:45:02 公開日:2021-02-24
# NLRG - SemEval-2021 Task 5: Toxic Spans Detection Usingeraging BERT-based Token Classification and Span Prediction Techniques

NLRG at SemEval-2021 Task 5: Toxic Spans Detection Leveraging BERT-based Token Classification and Span Prediction Techniques ( http://arxiv.org/abs/2102.12254v1 )

ライセンス: Link先を確認
Gunjan Chhablani, Yash Bhartia, Abheesht Sharma, Harshit Pandey, Shan Suthaharan(参考訳) 近年,テキストの毒性検出はNLPタスクとして人気がある。 SemEval-2021 Task-5 Toxic Spans Detectionでは、パス内の毒性スパンの検出に焦点を当てています。 多くの最先端のスパン検出手法は様々な手法を用いており、それぞれがトークン分類やスパン予測手法に大きく分類できる。 本稿では,これら2つのアプローチの単純バージョンと,そのタスクにおけるパフォーマンスについて検討する。 具体的には、両方のアプローチにBERTベースのモデル -- BERT、RoBERTa、SpanBERTを使用します。 また、これらのアプローチを組み合わせて修正し、Toxic Spans予測を改善します。 そこで本研究では,Multi-Span,Span+Token,LSTM-CRFの4つのハイブリッド手法と,ユニオン/インターセクションを用いた予測オフセットの組み合わせについて検討する。 さらに, 詳細なアブレーション解析を行い, 観察結果を分析した。 SpanBERT Span PredictorとRoBERTa Token Classifier予測の組み合わせである私たちの最高の提出は、テストセットで0.6753のF1スコアを達成します。 我々のF1ベストスコアは、トップ3のRoBERTa Token分類チェックポイントから予測オフセットの交点における0.6895である。 これらのアプローチは、共有ベースラインモデルであるRNNSLとSpaCy NERよりも平均で3%パフォーマンスを向上させます。

Toxicity detection of text has been a popular NLP task in the recent years. In SemEval-2021 Task-5 Toxic Spans Detection, the focus is on detecting toxic spans within passages. Most state-of-the-art span detection approaches employ various techniques, each of which can be broadly classified into Token Classification or Span Prediction approaches. In our paper, we explore simple versions of both of these approaches and their performance on the task. Specifically, we use BERT-based models -- BERT, RoBERTa, and SpanBERT for both approaches. We also combine these approaches and modify them to bring improvements for Toxic Spans prediction. To this end, we investigate results on four hybrid approaches -- Multi-Span, Span+Token, LSTM-CRF, and a combination of predicted offsets using union/intersection. Additionally, we perform a thorough ablative analysis and analyze our observed results. Our best submission -- a combination of SpanBERT Span Predictor and RoBERTa Token Classifier predictions -- achieves an F1 score of 0.6753 on the test set. Our best post-eval F1 score is 0.6895 on intersection of predicted offsets from top-3 RoBERTa Token Classification checkpoints. These approaches improve the performance by 3% on average than those of the shared baseline models -- RNNSL and SpaCy NER.
翻訳日:2021-02-25 13:44:49 公開日:2021-02-24
# LRG at SemEval-2021 Task 4: Improving Reading Comprehension with Abstract Words using Augmentation, Linguistic Features and Voting (英語)

LRG at SemEval-2021 Task 4: Improving Reading Comprehension with Abstract Words using Augmentation, Linguistic Features and Voting ( http://arxiv.org/abs/2102.12255v1 )

ライセンス: Link先を確認
Abheesht Sharma, Harshit Pandey, Gunjan Chhablani, Yash Bhartia, Tirtharaj Dash(参考訳) 本稿では,SemEval-2021 Task-4: Reading Comprehension of Abstract Meaningについて述べる。 フィリングインザブランクタイプの質問と対応するコンテキストを考えると、タスクは5つのオプションのリストから最も適した単語を予測することです。 このタスクには3つのサブタスクがある: インセプティビリティ(subtask-i)、非特異性(subtask-ii)、交点(subtask-iii)。 マスク付き言語モデリング(MLM)タスクで事前訓練されたトランスフォーマーベースのモデルのエンコーダを使用して、Fill-in-the-Blank(Fi tB)モデルを構築します。 さらに,非受容性をモデル化するために,特定の言語的特徴を定義し,非特異性をモデル化するために,語彙データベースが提供するハイパーネムや偽名からの情報を活用する。 特に、非特異性については、拡張技術や他の統計手法を試す。 また、BERTの入力長制限などに対処するために、Chunk Voting や Max Context といった変種も提案しています。 さらに,アブレーション研究を徹底的に行い,集積勾配を用いていくつかの試料について予測を行った。 私達の最もよい提出物はそれぞれsubtask-Iおよびsubtask-IIのテスト セットで75.31%および77.84%の正確さを達成します。 サブタスクIIIでは、65.64%と62.27%の精度を達成している。

In this article, we present our methodologies for SemEval-2021 Task-4: Reading Comprehension of Abstract Meaning. Given a fill-in-the-blank-ty pe question and a corresponding context, the task is to predict the most suitable word from a list of 5 options. There are three sub-tasks within this task: Imperceptibility (subtask-I), Non-Specificity (subtask-II), and Intersection (subtask-III). We use encoders of transformers-based models pre-trained on the masked language modelling (MLM) task to build our Fill-in-the-blank (FitB) models. Moreover, to model imperceptibility, we define certain linguistic features, and to model non-specificity, we leverage information from hypernyms and hyponyms provided by a lexical database. Specifically, for non-specificity, we try out augmentation techniques, and other statistical techniques. We also propose variants, namely Chunk Voting and Max Context, to take care of input length restrictions for BERT, etc. Additionally, we perform a thorough ablation study, and use Integrated Gradients to explain our predictions on a few samples. Our best submissions achieve accuracies of 75.31% and 77.84%, on the test sets for subtask-I and subtask-II, respectively. For subtask-III, we achieve accuracies of 65.64% and 62.27%.
翻訳日:2021-02-25 13:44:25 公開日:2021-02-24
# ドイツの事前学習言語モデルを用いた germeval17 の再評価

Re-Evaluating GermEval17 Using German Pre-Trained Language Models ( http://arxiv.org/abs/2102.12330v1 )

ライセンス: Link先を確認
M. A{\ss}enmacher, A. Corvonato, C. Heumann(参考訳) 非英語事前学習言語モデルの評価に(Super-)GLUE(Wang et al., 2018, 2019)のような一般的なベンチマークデータセット(コレクション)が欠如していることは、現在の英語中心のNLP-Researchの深刻な欠点である。 英語に関する研究の大部分が集中しており、英語から他の言語に結論を移す際の不確実性を無視している。 germeval17ワークショップの4つのタスクにおいて,現在hughingface transformersライブラリで利用可能なドイツ語および多言語bertベースのモデルの性能評価を行った。 私たちは、これらをプレBERTアーキテクチャ(Wojatzki et al., 2017; Schmitt et al., 2018; Attia et al., 2018)とELMoベースのアーキテクチャ(Biesialska et al., 2020)とBERTベースのアプローチ(Guhr et al., 2020)と比較します。 観察された改善は、英語の類似したタスクや類似したモデル(BERT対BERTベース)に関連するもので、観察された改善がドイツ語や他の関連言語に転送可能であるかどうかについての仮の結論を導き出す。

The lack of a commonly used benchmark data set (collection) such as (Super-)GLUE (Wang et al., 2018, 2019) for the evaluation of non-English pre-trained language models is a severe shortcoming of current English-centric NLP-research. It concentrates a large part of the research on English, neglecting the uncertainty when transferring conclusions found for the English language to other languages. We evaluate the performance of the German and multilingual BERT-based models currently available via the huggingface transformers library on the four tasks of the GermEval17 workshop. We compare them to pre-BERT architectures (Wojatzki et al., 2017; Schmitt et al., 2018; Attia et al., 2018) as well as to an ELMo-based architecture (Biesialska et al., 2020) and a BERT-based approach (Guhr et al., 2020). The observed improvements are put in relation to those for similar tasks and similar models (pre-BERT vs. BERT-based) for the English language in order to draw tentative conclusions about whether the observed improvements are transferable to German or potentially other related languages.
翻訳日:2021-02-25 13:43:59 公開日:2021-02-24
# 注意が素早く繰り返される: 計算量を減らしたトレーニング言語モデル

When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute ( http://arxiv.org/abs/2102.12459v1 )

ライセンス: Link先を確認
Tao Lei(参考訳) 計算時間とコストが要求されるため,大規模言語モデルのトレーニングがますます困難になっている。 本研究では、最先端のモデリング能力とトレーニング効率を発揮できるオプションの組み込み型リカレントユニットであるSRU++について紹介する。 enwik8 や Wiki-103 などの標準言語モデリングベンチマークでは、上位性能の Transformer モデルと比較して、トレーニング時間とコストを2.5x-10倍削減しつつ、より複雑なビット・パー・キャラクタ(bpc)が得られる。 我々の結果は、注意が必要なすべてではなく、他のシーケンシャルなモデリングモジュールと相補的であることを再確認する。 さらに、ほとんど注意を払わない高速反復は、主要なモデルアーキテクチャである。

Large language models have become increasingly difficult to train because of the required computation time and cost. In this work, we present SRU++, a recurrent unit with optional built-in attention that exhibits state-of-the-art modeling capacity and training efficiency. On standard language modeling benchmarks such as enwik8 and Wiki-103 datasets, our model obtains better perplexity and bits-per-character (bpc) while using 2.5x-10x less training time and cost compared to top-performing Transformer models. Our results reaffirm that attention is not all we need and can be complementary to other sequential modeling modules. Moreover, fast recurrence with little attention can be a leading model architecture.
翻訳日:2021-02-25 13:43:31 公開日:2021-02-24
# 時間窓を有する動的容量車両ルーティングのための強化学習を用いた高速近似解法

Fast Approximate Solutions using Reinforcement Learning for Dynamic Capacitated Vehicle Routing with Time Windows ( http://arxiv.org/abs/2102.12088v1 )

ライセンス: Link先を確認
Nazneen N Sultana, Vinita Baniwal, Ansuma Basumatary, Piyush Mittal, Supratim Ghosh, Harshad Khadilkar(参考訳) 本稿では,時間 Windows と Dynamic Routing (CVRP-TWDR) の一般的なクラスに対する並列化,高速,近似的な学習ベースソリューションを開発した。 艦隊内の車両を分散エージェントとして考えると、強化学習(RL)ベースの適応は動的環境におけるリアルタイムルート形成の鍵となると仮定する。 この手法により、各エージェント(車両)は、各顧客に役立つ価値を独立して評価することができ、生成された値に基づいて割り当てを確定するために集中アロケーションヒューリスティックを使用します。 本手法により得られた解は, 正確な定式化や最先端のメタヒューリスティックスよりもはるかに高速であり, 解品質の面では適度に最適であることを示す。 静的ケース(顧客の要求と時間ウィンドウが事前に分かっている場合)と動的ケース(顧客が実行中にいつでも‘ポップアップ’できる場合)の両方の実験について説明する。 大規模な分散テストデータに基づく単一トレーニングモデルによる結果は、提案されたアプローチのスケーラビリティと柔軟性を示しています。

This paper develops an inherently parallelised, fast, approximate learning-based solution to the generic class of Capacitated Vehicle Routing with Time Windows and Dynamic Routing (CVRP-TWDR). Considering vehicles in a fleet as decentralised agents, we postulate that using reinforcement learning (RL) based adaptation is a key enabler for real-time route formation in a dynamic environment. The methodology allows each agent (vehicle) to independently evaluate the value of serving each customer, and uses a centralised allocation heuristic to finalise the allocations based on the generated values. We show that the solutions produced by this method on standard datasets are significantly faster than exact formulations and state-of-the-art meta-heuristics, while being reasonably close to optimal in terms of solution quality. We describe experiments in both the static case (when all customer demands and time windows are known in advance) as well as the dynamic case (where customers can `pop up' at any time during execution). The results with a single trained model on large, out-of-distribution test data demonstrate the scalability and flexibility of the proposed approach.
翻訳日:2021-02-25 13:43:15 公開日:2021-02-24
# ポストホック不確かさ校正における表現力増強のためのパラメータ化温度スケーリング

Parameterized Temperature Scaling for Boosting the Expressive Power in Post-Hoc Uncertainty Calibration ( http://arxiv.org/abs/2102.12182v1 )

ライセンス: Link先を確認
Christian Tomani, Daniel Cremers, Florian Buettner(参考訳) 不確実性校正の問題に対処し,新しい校正法であるパラメトリズド温度スケーリング(pts)を導入する。 標準的なディープニューラルネットワークは、典型的には未調整の予測を出力し、ポストホックキャリブレーション法を用いてキャリブレーションされた信頼性スコアに変換できる。 本研究は, 精度保存型ポストホックキャリブレータの性能が本質的な表現力によって制限されることを実証する。 ニューラルネットワークによってパラメータ化された予測特異的温度を計算し、温度スケーリングを一般化する。 当社の新しい精度保存手法が,多数のモデルアーキテクチャやデータセット,メトリクスにおいて,既存のアルゴリズムを一貫して上回っていることを示す。

We address the problem of uncertainty calibration and introduce a novel calibration method, Parametrized Temperature Scaling (PTS). Standard deep neural networks typically yield uncalibrated predictions, which can be transformed into calibrated confidence scores using post-hoc calibration methods. In this contribution, we demonstrate that the performance of accuracy-preserving state-of-the-art post-hoc calibrators is limited by their intrinsic expressive power. We generalize temperature scaling by computing prediction-specific temperatures, parameterized by a neural network. We show with extensive experiments that our novel accuracy-preserving approach consistently outperforms existing algorithms across a large number of model architectures, datasets and metrics.
翻訳日:2021-02-25 13:42:54 公開日:2021-02-24
# AutoAI-TS:AutoAI for Time Series Forecasting

AutoAI-TS: AutoAI for Time Series Forecasting ( http://arxiv.org/abs/2102.12347v1 )

ライセンス: Link先を確認
Syed Yousaf Shah, Dhaval Patel, Long Vu, Xuan-Hong Dang, Bei Chen, Peter Kirchner, Horst Samulowitz, David Wood, Gregory Bramble, Wesley M. Gifford, Giridhar Ganapavarapu, Roman Vaculin and Petros Zerfos(参考訳) 従来の統計モデルや機械学習モデル,最近ではディープラーニングなど,数多くの時系列予測モデルが文献で提案されている。 しかし、与えられたデータでうまく機能する優れたパラメータ値とともに適切なモデルを選択することは依然として難しい。 与えられたデータセットに対して、ユーザに適切なモデルセットを自動的に提供することで、さまざまなモデルで試行錯誤アプローチを使用することによる、パラメータ最適化に伴う時間と労力の削減が可能になる。 提案するAutoAI for Time Series Forecasting(AutoAI-T S)は,任意のデータセットのモデルクラスの中で,最適な予測モデルを効率的にトレーニングし,最適化し,選択するためのゼロ設定(zero-conf)システムを提供する。 AutoAI-TSはフレキシブルな0-conf設計で、ユーザのためのデータ準備、モデル生成、パラメータ最適化、トレーニング、モデル選択をすべて自動的に実行し、使用可能なトレーニングモデルを提供する。 任意のデータに対してautoai-tsは、従来の統計モデル、機械学習(ml)モデル、統計-mlハイブリッドモデル、ディープラーニングモデルなど、さまざまなモデルを使用して予測パイプラインを作成する。 そして、提案されているt-daubメカニズムを使ってパイプラインを評価しランク付けし、最適なパイプラインを選択する。 本稿では,AutoAI-TSの技術的側面と,さまざまなユースケースを対象としたさまざまな実世界のデータセットの広範なベンチマークについて詳述する。 ベンチマークの結果、ユーザによる手動設定のないautoai-tsは、既存の最先端の時系列予測ツールキットを平均上回るパイプラインを自動的にトレーニングし、選択する。

A large number of time series forecasting models including traditional statistical models, machine learning models and more recently deep learning have been proposed in the literature. However, choosing the right model along with good parameter values that performs well on a given data is still challenging. Automatically providing a good set of models to users for a given dataset saves both time and effort from using trial-and-error approaches with a wide variety of available models along with parameter optimization. We present AutoAI for Time Series Forecasting (AutoAI-TS) that provides users with a zero configuration (zero-conf ) system to efficiently train, optimize and choose best forecasting model among various classes of models for the given dataset. With its flexible zero-conf design, AutoAI-TS automatically performs all the data preparation, model creation, parameter optimization, training and model selection for users and provides a trained model that is ready to use. For given data, AutoAI-TS utilizes a wide variety of models including classical statistical models, Machine Learning (ML) models, statistical-ML hybrid models and deep learning models along with various transformations to create forecasting pipelines. It then evaluates and ranks pipelines using the proposed T-Daub mechanism to choose the best pipeline. The paper describe in detail all the technical aspects of AutoAI-TS along with extensive benchmarking on a variety of real world data sets for various use-cases. Benchmark results show that AutoAI-TS, with no manual configuration from the user, automatically trains and selects pipelines that on average outperform existing state-of-the-art time series forecasting toolkits.
翻訳日:2021-02-25 13:42:44 公開日:2021-02-24
# 変分オートエンコーダの潜時空間における品質多様性によるゲームレベルの生成とブレンディング

Generating and Blending Game Levels via Quality-Diversity in the Latent Space of a Variational Autoencoder ( http://arxiv.org/abs/2102.12463v1 )

ライセンス: Link先を確認
Anurag Sarkar, Seth Cooper(参考訳) 最近のいくつかの作品は、既存のゲームスタイルのレベルと異なるゲーム間のブレンドレベルの両方を生成するために変分オートエンコーダ(vaes)の使用を実証している。 さらに、qdアルゴリズムは、進化を用いて検索空間を探索し、多様性と品質の両方に焦点を合わせ、多様なゲームコンテンツを生成するためにも人気がある。 これら2つのアプローチの利点を享受するために,vaesアルゴリズムとqdアルゴリズムを組み合わせたレベル生成とゲームブレンド手法を提案する。 具体的には,ゲームレベルでVAEをトレーニングし,学習したVAEの潜在空間を探索空間としてMAP-Elites QDアルゴリズムを実行する。 潜在空間は、私たちが生成し、ブレンドしたいレベルを持つゲームの特性を捉え、MAP-Elitesはこの潜在空間を探索し、プレイ可能性のような特定の目的を最適化する様々なレベルのレベルを見つける。 5つの異なるプラットフォームゲームと3つのゲームにまたがるブレンドドメインのモデルを用いてこの手法をテストした。 以上の結果から, MAP-ElitesをVAEと併用することにより, 各ゲームに対してだけでなく, ブレンド領域に対して, ブレンド空間のゲーム固有の領域を照らしながら, 多様なプレイ可能なレベルを生成できることが示唆された。

Several recent works have demonstrated the use of variational autoencoders (VAEs) for both generating levels in the style of existing games as well as blending levels across different games. Additionally, quality-diversity (QD) algorithms have also become popular for generating varied game content by using evolution to explore a search space while focusing on both variety and quality. In order to reap the benefits of both these approaches, we present a level generation and game blending approach that combines the use of VAEs and QD algorithms. Specifically, we train VAEs on game levels and then run the MAP-Elites QD algorithm using the learned latent space of the VAE as the search space. The latent space captures the properties of the games whose levels we want to generate and blend, while MAP-Elites searches this latent space to find a diverse set of levels optimizing a given objective such as playability. We test our method using models for 5 different platformer games as well as a blended domain spanning 3 of these games. Our results show that using MAP-Elites in conjunction with VAEs enables the generation of a diverse set of playable levels not just for each individual game but also for the blended domain while illuminating game-specific regions of the blended latent space.
翻訳日:2021-02-25 13:42:15 公開日:2021-02-24
# deep kernel learningの約束と落とし穴

The Promises and Pitfalls of Deep Kernel Learning ( http://arxiv.org/abs/2102.12108v1 )

ライセンス: Link先を確認
Sebastian W. Ober, Carl E. Rasmussen, Mark van der Wilk(参考訳) 深いカーネル学習と関連する技術は、ニューラルネットワークの表現力とガウス過程の信頼性の高い不確実性推定を組み合わせることを約束します。 これらのモデルの重要な側面の1つは、それらが限界確率を用いて最適化されたガウス過程モデルとして扱われるため、過度な適合から保護されるという期待である。 しかし, 単純な玩具の例では, オーバーフィッティングを含む病理学的挙動を同定する。 この病理学を探求し、その起源を説明し、実際のデータセットに適用する方法について考察する。 UCIデータセット、CIFAR-10、UTKFaceデータセットの慎重な実験を通じて、モデルが"何らかのベイズ的"である過度にパラメータ化されたディープカーネル学習の過度な適合が、ベイズ的でない場合よりも悪い場合があることがわかった。 しかし、深層カーネル学習の完全なベイズ処理は、このオーバーフィットを是正し、標準的なニューラルネットワークとガウスプロセスよりも望ましいパフォーマンス改善を得ることができることがわかります。

Deep kernel learning and related techniques promise to combine the representational power of neural networks with the reliable uncertainty estimates of Gaussian processes. One crucial aspect of these models is an expectation that, because they are treated as Gaussian process models optimized using the marginal likelihood, they are protected from overfitting. However, we identify pathological behavior, including overfitting, on a simple toy example. We explore this pathology, explaining its origins and considering how it applies to real datasets. Through careful experimentation on UCI datasets, CIFAR-10, and the UTKFace dataset, we find that the overfitting from overparameterized deep kernel learning, in which the model is "somewhat Bayesian", can in certain scenarios be worse than that from not being Bayesian at all. However, we find that a fully Bayesian treatment of deep kernel learning can rectify this overfitting and obtain the desired performance improvements over standard neural networks and Gaussian processes.
翻訳日:2021-02-25 13:41:40 公開日:2021-02-24
# 幾何勾配解析によるニューラルネットワークの信頼できない予測の同定

Identifying Untrustworthy Predictions in Neural Networks by Geometric Gradient Analysis ( http://arxiv.org/abs/2102.12196v1 )

ライセンス: Link先を確認
Leo Schwinn and An Nguyen and Ren\'e Raab and Leon Bungert and Daniel Tenbrinck and Dario Zanca and Martin Burger and Bjoern Eskofier(参考訳) アウト・オブ・ディストリビューション(OOD)データや逆の例など、信頼できない予測に対するディープニューラルネットワークの感受性は、安全クリティカルなアプリケーションでの使用を未だに防止している。 ほとんどの既存の方法は、敵の攻撃の堅牢な識別を達成するために与えられたモデルの再訓練を必要とするか、または配布外サンプル検出のみに限定されます。 本研究では,与えられたモデルを再学習することなく,信頼できない予測の同定を改善するため,幾何勾配解析(GGA)を提案する。 GGAは、それぞれの入力の精度マップに基づいて、ニューラルネットワークの損失ランドスケープの幾何学を解析する。 提案手法を動機付けるために,勾配の幾何学的性質と損失関数の局所的最小値との理論的関係を提供する。 さらに,提案手法は,最先端のアダプティブアタックを含むOODデータと敵対アタックの検出における先行アプローチを上回っていることを実証した。

The susceptibility of deep neural networks to untrustworthy predictions, including out-of-distribution (OOD) data and adversarial examples, still prevent their widespread use in safety-critical applications. Most existing methods either require a re-training of a given model to achieve robust identification of adversarial attacks or are limited to out-of-distribution sample detection only. In this work, we propose a geometric gradient analysis (GGA) to improve the identification of untrustworthy predictions without retraining of a given model. GGA analyzes the geometry of the loss landscape of neural networks based on the saliency maps of their respective input. To motivate the proposed approach, we provide theoretical connections between gradients' geometrical properties and local minima of the loss function. Furthermore, we demonstrate that the proposed method outperforms prior approaches in detecting OOD data and adversarial attacks, including state-of-the-art and adaptive attacks.
翻訳日:2021-02-25 13:41:22 公開日:2021-02-24
# 境界重ノルムを有する多チャンネル線形畳み込みネットワークの誘導バイアス

Inductive Bias of Multi-Channel Linear Convolutional Networks with Bounded Weight Norm ( http://arxiv.org/abs/2102.12238v1 )

ライセンス: Link先を確認
Meena Jagadeesan, Ilya Razenshteyn, Suriya Gunasekar(参考訳) 線形畳み込みネットワークにおける重みの$\ell_2$ノルムを制御することによって生じる誘導バイアスの関数空間特性を検討する。 線形関数の実現に必要な重みの最小ノルムによって与えられる関数空間における誘導正規化の観点でこれを見る。 c$ 出力チャネルとカーネルサイズ $k$ を持つ2つの層線形畳み込みネットワークに対して、以下のように示す: (a) ネットワークへの入力が1つのチャネルを持つ場合、任意の$k$ に対する誘導正規化子は、$c$ の出力チャネルの数とは無関係な半定値プログラム (sdp) によって与えられるノルムである。 MNISTのバイナリ分類タスクにより、これらの結果をさらに検証する。 (b)対照的に、マルチチャネル入力を持つネットワークでは、行列値線型関数を単純に実現するために複数の出力チャネルが必要であるため、帰納バイアスは$c$に依存する。 さらに、十分に大きな$c$ に対して、誘導正規化子 $k=1$ と $k=d$ はそれぞれフーリエ係数の核ノルムであり、どちらもスパース構造を促進する $\ell_{2,1}$ 群スパースノルムである。

We study the function space characterization of the inductive bias resulting from controlling the $\ell_2$ norm of the weights in linear convolutional networks. We view this in terms of an induced regularizer in the function space given by the minimum norm of weights required to realize a linear function. For two layer linear convolutional networks with $C$ output channels and kernel size $K$, we show the following: (a) If the inputs to the network have a single channel, the induced regularizer for any $K$ is a norm given by a semidefinite program (SDP) that is independent of the number of output channels $C$. We further validate these results through a binary classification task on MNIST. (b) In contrast, for networks with multi-channel inputs, multiple output channels can be necessary to merely realize all matrix-valued linear functions and thus the inductive bias does depend on $C$. Further, for sufficiently large $C$, the induced regularizer for $K=1$ and $K=D$ are the nuclear norm and the $\ell_{2,1}$ group-sparse norm, respectively, of the Fourier coefficients -- both of which promote sparse structures.
翻訳日:2021-02-25 13:41:05 公開日:2021-02-24
# two-way kernel matrix puncturing: 資源効率の高いpcaとスペクトルクラスタリングに向けて

Two-way kernel matrix puncturing: towards resource-efficient PCA and spectral clustering ( http://arxiv.org/abs/2102.12293v1 )

ライセンス: Link先を確認
Romain Couillet and Florent Chatelain and Nicolas Le Bihan(参考訳) 本稿では,スペクトルクラスタリングと主成分分析のための基本コスト削減手法を提案する。 この方法は、データ行列$X\in\mathbb{C}^{p\times n}$(または$\mathbb{R}^{p\times n}$)とその対応するカーネル(Gram)行列$K$ through Bernoulli masks:$S\in\{0,1\}^{p\times n}$ for $X$ and $B\in\{0,1\}^{n\times n}$ for $K$からなる。 結果として得られる「二方向切断」カーネルは、$K=\frac{1}{p}[(X \odot S)^{\sf H} (X \odot S)] \odot B$ によって与えられる。 ガウス混合モデルから引き出された独立列からなる$X$に対して、$n,p\to\infty$ with $p/n\to c_0\in(0,\infty)$,$K $のスペクトル挙動(固有値分布の制限)とその孤立固有値と固有ベクトルは、完全に抽出可能であり、反直観現象の連続を示す。 我々は、GAN生成画像データベースにおいて、データを劇的に切り離すことが可能であることを実証し、実証し、実証し、事実上一定の(PCAのクラスタリング)パフォーマンスのために、おそらく巨大な計算およびストレージの利益を提供する。 この予備的な研究は、基本機械学習モデルにおける計算コストとストレージコストの大規模な観点から、再考への道を開く。

The article introduces an elementary cost and storage reduction method for spectral clustering and principal component analysis. The method consists in randomly "puncturing" both the data matrix $X\in\mathbb{C}^{p\times n}$ (or $\mathbb{R}^{p\times n}$) and its corresponding kernel (Gram) matrix $K$ through Bernoulli masks: $S\in\{0,1\}^{p\times n}$ for $X$ and $B\in\{0,1\}^{n\times n}$ for $K$. The resulting "two-way punctured" kernel is thus given by $K=\frac{1}{p}[(X \odot S)^{\sf H} (X \odot S)] \odot B$. We demonstrate that, for $X$ composed of independent columns drawn from a Gaussian mixture model, as $n,p\to\infty$ with $p/n\to c_0\in(0,\infty)$, the spectral behavior of $K$ -- its limiting eigenvalue distribution, as well as its isolated eigenvalues and eigenvectors -- is fully tractable and exhibits a series of counter-intuitive phenomena. We notably prove, and empirically confirm on GAN-generated image databases, that it is possible to drastically puncture the data, thereby providing possibly huge computational and storage gains, for a virtually constant (clustering of PCA) performance. This preliminary study opens as such the path towards rethinking, from a large dimensional standpoint, computational and storage costs in elementary machine learning models.
翻訳日:2021-02-25 13:40:39 公開日:2021-02-24
# 非線形不変リスク最小化:因果的アプローチ

Nonlinear Invariant Risk Minimization: A Causal Approach ( http://arxiv.org/abs/2102.12353v1 )

ライセンス: Link先を確認
Chaochao Lu, Yuhuai Wu, Jo\'se Miguel Hern\'andez-Lobato, Bernhard Sch\"olkopf(参考訳) スプリアス相関のため、機械学習システムは、トレーニング時に使用するものと分布が異なる環境に一般化できないことが多い。 これに対処する以前の作業は、明示的にも暗黙的にも、ターゲットと不変因果関係を持つデータ表現を見つけようとした。 これは、多種多様なトレーニング環境を活用して、スプリアス機能の効果を低減し、不変な予測器を構築することによって行われる。 しかし、これらのメソッドは、データ表現と分類器の両方が線形モデルクラスから来る場合にのみ、一般化を保証する。 非線形設定(非線形表現と非線形分類器)における分布外(OOD)一般化を可能にする学習パラダイムであるInvariant Causal Representation Learning (ICRL)を提案する。 データ表現の優先度は、ターゲットと環境のコンディショニング時に決定されます。 これに基づいて、データ表現の識別可能性を非常に単純な変換まで示す。 また, 対象の直接的原因を完全発見できることを証明し, 非線形設定における一般化保証を得ることができた。 合成データと実世界のデータセットの両方に関する広範な実験は、我々のアプローチが様々なベースラインメソッドを大きく上回っていることを示している。 最後に、結論議論では、上記の仮定をさらに検討し、Agnostic Hypothesisと呼ばれる一般的な見解を提案します:入力と結果の両方に影響を与える隠された因果要因のセットがあります。 Agnostic Hypothesisは、表現学習の観点から機械学習の統一的なビューを提供することができる。 さらに重要なのは、機械学習におけるOOD一般化の保証を可能にする鍵となる、隠れた因果要因を特定するための一般論を探求する新しい方向を刺激することである。

Due to spurious correlations, machine learning systems often fail to generalize to environments whose distributions differ from the ones used at training time. Prior work addressing this, either explicitly or implicitly, attempted to find a data representation that has an invariant causal relationship with the target. This is done by leveraging a diverse set of training environments to reduce the effect of spurious features and build an invariant predictor. However, these methods have generalization guarantees only when both data representation and classifiers come from a linear model class. We propose Invariant Causal Representation Learning (ICRL), a learning paradigm that enables out-of-distribution (OOD) generalization in the nonlinear setting (i.e., nonlinear representations and nonlinear classifiers). It builds upon a practical and general assumption: the prior over the data representation factorizes when conditioning on the target and the environment. Based on this, we show identifiability of the data representation up to very simple transformations. We also prove that all direct causes of the target can be fully discovered, which further enables us to obtain generalization guarantees in the nonlinear setting. Extensive experiments on both synthetic and real-world datasets show that our approach significantly outperforms a variety of baseline methods. Finally, in the concluding discussion, we further explore the aforementioned assumption and propose a general view, called the Agnostic Hypothesis: there exist a set of hidden causal factors affecting both inputs and outcomes. The Agnostic Hypothesis can provide a unifying view of machine learning in terms of representation learning. More importantly, it can inspire a new direction to explore the general theory for identifying hidden causal factors, which is key to enabling the OOD generalization guarantees in machine learning.
翻訳日:2021-02-25 13:40:00 公開日:2021-02-24
# 非凸行列因子化のための平板最小値への雑音勾配のDescent Converges

Noisy Gradient Descent Converges to Flat Minima for Nonconvex Matrix Factorization ( http://arxiv.org/abs/2102.12430v1 )

ライセンス: Link先を確認
Tianyi Liu, Yan Li, Song Wei, Enlu Zhou and Tuo Zhao(参考訳) 多数の経験的証拠は、非凸最適化問題におけるノイズの重要性を裏付けている。 しかし、このような経験的観測の背後にある理論はほとんど不明である。 本稿では、回転とスケーリングの不変性により無限に多くの大域的ミニマを持つ非凸長方形行列因子分解問題について考察する。 したがって、勾配降下(GD)は初期化に応じて任意の最適に収束することができる。 対照的に、任意の初期化を持つ摂動形式のGDが、入射雑音によって一意に決定される大域的最適度に収束することを示す。 その結果、ノイズは特定のオプティマに対して暗黙のバイアスを課す。 我々の理論を支持するための数値実験が提供されている。

Numerous empirical evidences have corroborated the importance of noise in nonconvex optimization problems. The theory behind such empirical observations, however, is still largely unknown. This paper studies this fundamental problem through investigating the nonconvex rectangular matrix factorization problem, which has infinitely many global minima due to rotation and scaling invariance. Hence, gradient descent (GD) can converge to any optimum, depending on the initialization. In contrast, we show that a perturbed form of GD with an arbitrary initialization converges to a global optimum that is uniquely determined by the injected noise. Our result implies that the noise imposes implicit bias towards certain optima. Numerical experiments are provided to support our theory.
翻訳日:2021-02-25 13:39:32 公開日:2021-02-24
# 確率微分方程式(SDE)を用いたSGDモデリングの妥当性について

On the Validity of Modeling SGD with Stochastic Differential Equations (SDEs) ( http://arxiv.org/abs/2102.12470v1 )

ライセンス: Link先を確認
Zhiyuan Li, Sadhika Malladi, Sanjeev Arora(参考訳) 有限学習率(LR)は、無限小LRとは対照的に、実生活深層ネットのよい一般化には重要であると一般に認識されている。 ほとんど試みられた説明は、イオ確率微分方程式 (SDE) を用いて有限LR SGD を近似することを提案する。 しかし、この近似の正式な正当化(例:Li et al., 2019a)は、小さなLRを持つSGDにのみ適用される。 近似の実験的検証は計算上不可能である。 本論文は, (a) 従来使用されている伊東SDE近似に確実に収束する効率的なシミュレーションアルゴリズムSVAG。 (b) このシミュレーションを用いた実験は、以前に提案されたSDE近似が一般的なディープネットの訓練および一般化特性を有意義に捉えることができることを実証する。 (c)SDE近似が保持すべき証明可能かつ実証可能な必要条件であり、その最も有名な意味である線形スケーリング規則(Smith et al., 2020, Goyal et al., 2017)。 分析はまた、SDE近似が失敗する理由に関する厳密な洞察を与える。

It is generally recognized that finite learning rate (LR), in contrast to infinitesimal LR, is important for good generalization in real-life deep nets. Most attempted explanations propose approximating finite-LR SGD with Ito Stochastic Differential Equations (SDEs). But formal justification for this approximation (e.g., (Li et al., 2019a)) only applies to SGD with tiny LR. Experimental verification of the approximation appears computationally infeasible. The current paper clarifies the picture with the following contributions: (a) An efficient simulation algorithm SVAG that provably converges to the conventionally used Ito SDE approximation. (b) Experiments using this simulation to demonstrate that the previously proposed SDE approximation can meaningfully capture the training and generalization properties of common deep nets. (c) A provable and empirically testable necessary condition for the SDE approximation to hold and also its most famous implication, the linear scaling rule (Smith et al., 2020; Goyal et al., 2017). The analysis also gives rigorous insight into why the SDE approximation may fail.
翻訳日:2021-02-25 13:39:23 公開日:2021-02-24
# アクティブ画像強調法における解釈可能性法の影響について

On the Impact of Interpretability Methods in Active Image Augmentation Method ( http://arxiv.org/abs/2102.12354v1 )

ライセンス: Link先を確認
Flavio Santos, Cleber Zanchettin, Leonardo Matos, and Paulo Novais(参考訳) ロバストネスは機械学習モデルにおいて重要な制約である。 わずかに異なるデータでトレーニングやテストを行う場合、アルゴリズムの性能は低下してはならない。 ディープニューラルネットワークモデルは、コンピュータビジョンの幅広い応用において素晴らしい結果をもたらす。 それでも、ノイズや領域閉塞の存在下では、トレーニングで処理されたデータでも不正確なパフォーマンスを示すモデルもあります。 さらに、いくつかの実験では、深層学習モデルでは、入力情報の誤った部分を使って推論を行うことがある。 Activate Image Augmentation(ADA)は、トレーニングデータを強化し、説明された問題に対処するための堅牢性を向上させるために解釈可能性方法を使用する拡張方法です。 ADAは興味深い結果を示したが、オリジナルのバージョンはU-NetモデルのトレーニングにVanilla Backpropagationの解釈性のみを使用した。 本研究では、ADAに対する解釈可能性手法の影響に関する広範な実験的分析を提案する。 Vanilla Backpropagation, Guided Backpropagation, GradCam, Guided GradCam, InputXGradientの5つの解釈可能性手法を使用している。 実験の結果,すべての手法が訓練終了時に同様の性能を発揮することがわかったが,ADAとGradCamを組み合わせると,U-Netモデルは驚くほどの高速収束を示した。

Robustness is a significant constraint in machine learning models. The performance of the algorithms must not deteriorate when training and testing with slightly different data. Deep neural network models achieve awe-inspiring results in a wide range of applications of computer vision. Still, in the presence of noise or region occlusion, some models exhibit inaccurate performance even with data handled in training. Besides, some experiments suggest deep learning models sometimes use incorrect parts of the input information to perform inference. Activate Image Augmentation (ADA) is an augmentation method that uses interpretability methods to augment the training data and improve its robustness to face the described problems. Although ADA presented interesting results, its original version only used the Vanilla Backpropagation interpretability to train the U-Net model. In this work, we propose an extensive experimental analysis of the interpretability method's impact on ADA. We use five interpretability methods: Vanilla Backpropagation, Guided Backpropagation, GradCam, Guided GradCam, and InputXGradient. The results show that all methods achieve similar performance at the ending of training, but when combining ADA with GradCam, the U-Net model presented an impressive fast convergence.
翻訳日:2021-02-25 13:39:03 公開日:2021-02-24
# 協調競争環境における合理性その他の配慮のバランス

Balancing Rational and Other-Regarding Preferences in Cooperative-Competit ive Environments ( http://arxiv.org/abs/2102.12307v1 )

ライセンス: Link先を確認
Dmitry Ivanov, Vladimir Egorov, Aleksei Shpilman(参考訳) 最近の強化学習研究は、混合環境における協調行動と競争行動の相互作用を広く探求している。 エージェントが共通の目標を目指す協調環境とは異なり、混合環境は利己的で社会的利益の衝突で悪名高い。 結果として、純粋合理的なエージェントはしばしば協力の達成と維持に苦労する。 協調行動を促す一般的なアプローチは、他のエージェントの幸福に基づいて追加の報酬を割り当てることである。 しかし、このアプローチは、パフォーマンスを妨げる可能性のあるマルチエージェントクレジット割り当ての問題に苦しんでいます。 この問題はqmixやcomaといった最先端アルゴリズムと協調して効率的に解決される。 それでも、混合環境に適用した場合、これらのアルゴリズムは報酬の不正な割り当てをもたらす可能性がある。 個人と社会的インセンティブのバランスをとるアルゴリズムの拡張であるBAROCCOを提案します。 BAROCCOの背後にあるメカニズムは、各エージェントの決定に共同で影響する2つの異なるが織り交ぜられたコンポーネントを訓練することです。 メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。 本研究では,既存の手法の利点を実験的に検証し,BAROCCOの行動的側面を2つの混合マルチエージェント設定で検討する。

Recent reinforcement learning studies extensively explore the interplay between cooperative and competitive behaviour in mixed environments. Unlike cooperative environments where agents strive towards a common goal, mixed environments are notorious for the conflicts of selfish and social interests. As a consequence, purely rational agents often struggle to achieve and maintain cooperation. A prevalent approach to induce cooperative behaviour is to assign additional rewards based on other agents' well-being. However, this approach suffers from the issue of multi-agent credit assignment, which can hinder performance. This issue is efficiently alleviated in cooperative setting with such state-of-the-art algorithms as QMIX and COMA. Still, when applied to mixed environments, these algorithms may result in unfair allocation of rewards. We propose BAROCCO, an extension of these algorithms capable to balance individual and social incentives. The mechanism behind BAROCCO is to train two distinct but interwoven components that jointly affect each agent's decisions. Our meta-algorithm is compatible with both Q-learning and Actor-Critic frameworks. We experimentally confirm the advantages over the existing methods and explore the behavioural aspects of BAROCCO in two mixed multi-agent setups.
翻訳日:2021-02-25 13:38:32 公開日:2021-02-24
# 記憶に基づくPOMDPの深部強化学習

Memory-based Deep Reinforcement Learning for POMDP ( http://arxiv.org/abs/2102.12344v1 )

ライセンス: Link先を確認
Lingheng Meng, Rob Gorbet, Dana Kuli\'c(参考訳) 深層強化学習(DRL)の有望な特徴は、機能工学に頼ることなく、エンドツーエンドで最適な政策を学ぶ能力である。 しかし、ほとんどのアプローチは完全可観測状態空間、すなわち状態空間を仮定する。 完全に可観測マルコフ決定プロセス(MDP)。 実世界のロボット工学では、センサの容量制限やセンサノイズといったセンサの問題や、観測設計が完了したかどうかに関する知識の欠如などにより、この仮定は実践的ではない。 これらのシナリオは部分的オブザーバブルMDP(POMDP)につながり、特別な治療が必要です。 本稿では,TD3にメモリコンポーネントを導入して,長期記憶に基づくツイン遅延ディープ決定性ポリシグラデーショングラデーション(LSTM-TD3)を提案し,MDPとPOMDPの両方における他のDRLアルゴリズムとの比較を行った。 以上の結果から,POMDPに対処する上でのメモリコンポーネントの利点が示唆された。

A promising characteristic of Deep Reinforcement Learning (DRL) is its capability to learn optimal policy in an end-to-end manner without relying on feature engineering. However, most approaches assume a fully observable state space, i.e. fully observable Markov Decision Process (MDP). In real-world robotics, this assumption is unpractical, because of the sensor issues such as sensors' capacity limitation and sensor noise, and the lack of knowledge about if the observation design is complete or not. These scenarios lead to Partially Observable MDP (POMDP) and need special treatment. In this paper, we propose Long-Short-Term-Memo ry-based Twin Delayed Deep Deterministic Policy Gradient (LSTM-TD3) by introducing a memory component to TD3, and compare its performance with other DRL algorithms in both MDPs and POMDPs. Our results demonstrate the significant advantages of the memory component in addressing POMDPs, including the ability to handle missing and noisy observation data.
翻訳日:2021-02-25 13:38:17 公開日:2021-02-24
# 回帰における精度差の理解と緩和

Understanding and Mitigating Accuracy Disparity in Regression ( http://arxiv.org/abs/2102.12013v1 )

ライセンス: Link先を確認
Jianfeng Chi, Yuan Tian, Geoffrey J. Gordon, Han Zhao(参考訳) 大規模予測システムの大規模展開により、顔認識、刑事司法などの分野において、異なる階層のサブグループ間での予測精度の格差は、そのような格差の源泉とアルゴリズムによる介入の緩和を根底から理解するよう求められている。 本稿では回帰における精度格差問題について検討する。 まず,誤差分解定理を提案し,境界ラベル分布間の距離と条件表現間の距離との精度差を分解し,その精度差が実際に現れる理由を説明する。 この誤差分解と統計距離の分布アライメントの一般的な考え方に動機づけられ、この不一致を低減し、提案する対象関数のゲーム理論的オプティマを分析するアルゴリズムを提案する。 理論的な知見を裏付けるために、5つのベンチマークデータセットの実験も行います。 実験結果から,提案アルゴリズムは回帰モデルの予測力を維持しつつ,精度格差を効果的に軽減できることが示唆された。

With the widespread deployment of large-scale prediction systems in high-stakes domains, e.g., face recognition, criminal justice, etc., disparity on prediction accuracy between different demographic subgroups has called for fundamental understanding on the source of such disparity and algorithmic intervention to mitigate it. In this paper, we study the accuracy disparity problem in regression. To begin with, we first propose an error decomposition theorem, which decomposes the accuracy disparity into the distance between marginal label distributions and the distance between conditional representations, to help explain why such accuracy disparity appears in practice. Motivated by this error decomposition and the general idea of distribution alignment with statistical distances, we then propose an algorithm to reduce this disparity, and analyze its game-theoretic optima of the proposed objective functions. To corroborate our theoretical findings, we also conduct experiments on five benchmark datasets. The experimental results suggest that our proposed algorithms can effectively mitigate accuracy disparity while maintaining the predictive power of the regression models.
翻訳日:2021-02-25 13:37:59 公開日:2021-02-24
# 経験的リスク最小化の最小誤差について

On the Minimal Error of Empirical Risk Minimization ( http://arxiv.org/abs/2102.12066v1 )

ライセンス: Link先を確認
Gil Kur, Alexander Rakhlin(参考訳) 本研究では,経験的リスク最小化(ERM)手順の回帰作業における最小誤差について,ランダムおよび固定設計設定の両方で検討する。 私たちの鋭い下限は、データを生成するモデルの単純さに適応する可能性(あるいは不可能)に光を当てています。 固定設計では、エラーはクラス全体のグローバルな複雑さによって制御されていることを示す。 対照的に、ランダム設計では、ERMは回帰関数の周りの局所的な近傍がクラス自体とほぼ同じ複雑である場合にのみ、より単純なモデルに適応することができる。 我々は、Donskerクラスと非Donskerクラスの両方に対して、ERMの性能に鋭く低い境界を提供する。 また, 過パラメータモデルの補間に関する最近の研究のレンズを通して, 結果について考察する。

We study the minimal error of the Empirical Risk Minimization (ERM) procedure in the task of regression, both in the random and the fixed design settings. Our sharp lower bounds shed light on the possibility (or impossibility) of adapting to simplicity of the model generating the data. In the fixed design setting, we show that the error is governed by the global complexity of the entire class. In contrast, in random design, ERM may only adapt to simpler models if the local neighborhoods around the regression function are nearly as complex as the class itself, a somewhat counter-intuitive conclusion. We provide sharp lower bounds for performance of ERM for both Donsker and non-Donsker classes. We also discuss our results through the lens of recent studies on interpolation in overparameterized models.
翻訳日:2021-02-25 13:37:41 公開日:2021-02-24
# 偏差を伴わずに分類する

Classification with abstention but without disparities ( http://arxiv.org/abs/2102.12258v1 )

ライセンス: Link先を確認
Nicolas Schreuder and Evgenii Chzhen(参考訳) 近年、人間の意思決定者をプロセスに組み込むことができるため、禁忌の分類が注目を集めています。 しかし、吸収は潜在的に格差を増幅し、差別予測につながる可能性がある。 この研究の目的は、異なる影響を回避しつつ予測を棄却できる汎用的な分類アルゴリズムを構築することである。 この問題を公平性および逸脱制約の下でリスク最小化として形式化し、最適な分類器の形式を導出する。 この結果に基づいて,未ラベルのサンプルのみを用いて,市販のスコアベース分類を変更可能な後処理分類アルゴリズムを提案する。 提案したアルゴリズムに対して,有限サンプルリスク,公平性,および留意保証を確立する。 特に,ラベルなしデータの数が十分ある限り,初期分類器から独立してフェアネスと回避制約が達成できることが示されている。 リスク保証は、初期分類器の品質の観点から確立されます。 我々の後処理方式は,効率的な実装を可能にする疎線形プログラムに還元される。 最後に, リスクフェアネストレードオフを回避できる中程度の禁忌率を示す手法を実証的に検証した。

Classification with abstention has gained a lot of attention in recent years as it allows to incorporate human decision-makers in the process. Yet, abstention can potentially amplify disparities and lead to discriminatory predictions. The goal of this work is to build a general purpose classification algorithm, which is able to abstain from prediction, while avoiding disparate impact. We formalize this problem as risk minimization under fairness and abstention constraints for which we derive the form of the optimal classifier. Building on this result, we propose a post-processing classification algorithm, which is able to modify any off-the-shelf score-based classifier using only unlabeled sample. We establish finite sample risk, fairness, and abstention guarantees for the proposed algorithm. In particular, it is shown that fairness and abstention constraints can be achieved independently from the initial classifier as long as sufficiently many unlabeled data is available. The risk guarantee is established in terms of the quality of the initial classifier. Our post-processing scheme reduces to a sparse linear program allowing for an efficient implementation, which we provide. Finally, we validate our method empirically showing that moderate abstention rates allow to bypass the risk-fairness trade-off.
翻訳日:2021-02-25 13:37:20 公開日:2021-02-24
# サンプリングと推定のための密度スケッチ

Density Sketches for Sampling and Estimation ( http://arxiv.org/abs/2102.12301v1 )

ライセンス: Link先を確認
Aditya Desai, Benjamin Coleman, Anshumali Shrivastava(参考訳) データ配信の簡潔なオンライン要約である密度スケッチ(DS)を紹介します。 DSはポイント・ワイズ確率密度を正確に推定できる。 興味深いことに、DSは基礎となるデータ分布から目に見えない新しいデータをサンプリングする機能も提供します。 したがって、一般的なジェネレーションモデルと同様に、DSは、ほぼすべての機械学習パイプラインのリアルタイムデータを、元のデータと同じ分布から引き出された合成サンプルに簡潔に置き換えることができます。 しかし、統計的な保証を持たない生成モデルとは異なり、dsは理論的に漸近的に収束する密度関数の一貫した推定子となる。 密度スケッチは多くの魅力的な特性を持ち、大規模分散アプリケーションに最適である。 DS構築はオンラインアルゴリズムである。 スケッチは付加的であり、2つのスケッチの合計は結合されたデータのスケッチである。 これらの特性により、データは分散ソースから収集され、密度スケッチに圧縮され、スケッチ形式で効率よく中央サーバに送信され、統合され、アプリケーションモデリングのための合成データベースに再サンプリングされる。 したがって、密度スケッチはデータの保存、通信、配布の方法に革命をもたらす可能性がある。

We introduce Density sketches (DS): a succinct online summary of the data distribution. DS can accurately estimate point wise probability density. Interestingly, DS also provides a capability to sample unseen novel data from the underlying data distribution. Thus, analogous to popular generative models, DS allows us to succinctly replace the real-data in almost all machine learning pipelines with synthetic examples drawn from the same distribution as the original data. However, unlike generative models, which do not have any statistical guarantees, DS leads to theoretically sound asymptotically converging consistent estimators of the underlying density function. Density sketches also have many appealing properties making them ideal for large-scale distributed applications. DS construction is an online algorithm. The sketches are additive, i.e., the sum of two sketches is the sketch of the combined data. These properties allow data to be collected from distributed sources, compressed into a density sketch, efficiently transmitted in the sketch form to a central server, merged, and re-sampled into a synthetic database for modeling applications. Thus, density sketches can potentially revolutionize how we store, communicate, and distribute data.
翻訳日:2021-02-25 13:37:05 公開日:2021-02-24
# モバイルヘルスデータにおける自己追跡人工物の可能性を考慮した月経周期長生成予測モデル

A generative, predictive model for menstrual cycle lengths that accounts for potential self-tracking artifacts in mobile health data ( http://arxiv.org/abs/2102.12439v1 )

ライセンス: Link先を確認
Kathy Li and I\~nigo Urteaga and Amanda Shea and Virginia J. Vitzthum and Chris H. Wiggins and No\'emie Elhadad(参考訳) 月経トラッカーなどのモバイルヘルス(mHealth)アプリは、統計モデリングに活用できるセルフトラッキング健康観察の豊富なソースを提供します。 しかし、こうしたデータストリームは、ユーザーがアプリに固執しているため、信頼性が低いと悪名高い。 したがって、機械学習モデルがスキップされた自己追跡のような自己追跡アーティファクトを考慮することが重要です。 本要約では,ユーザが周期を追うのを忘れた可能性を明確に説明し,予め追跡した周期長に基づいて,次の周期長を予測するための階層的生成モデルを提案し,評価する。 1) 自己追跡アーチファクトを明示的に計算することにより, スキッピングの可能性が増加するにつれて, 予測精度が向上する。2) 生成モデルとして, 与えられたサイクルが進化するにつれて, 予測をオンラインで更新できる, 3) 階層的な性質により, 個体群レベルの情報を取り込むことなく, 個人のサイクル長履歴のモデル化が可能となる。 5000個の半月板の実際のmHealthサイクル長データを用いて実験した結果,ニューラルネットワークと要約統計に基づくベースラインに対する最先端性能が得られた。

Mobile health (mHealth) apps such as menstrual trackers provide a rich source of self-tracked health observations that can be leveraged for statistical modeling. However, such data streams are notoriously unreliable since they hinge on user adherence to the app. Thus, it is crucial for machine learning models to account for self-tracking artifacts like skipped self-tracking. In this abstract, we propose and evaluate a hierarchical, generative model for predicting next cycle length based on previously tracked cycle lengths that accounts explicitly for the possibility of users forgetting to track their period. Our model offers several advantages: 1) accounting explicitly for self-tracking artifacts yields better prediction accuracy as likelihood of skipping increases; 2) as a generative model, predictions can be updated online as a given cycle evolves; and 3) its hierarchical nature enables modeling of an individual's cycle length history while incorporating population-level information. Our experiments using real mHealth cycle length data from 5,000 menstruators show that our method yields state-of-the-art performance against neural network-based and summary statistic-based baselines.
翻訳日:2021-02-25 13:36:51 公開日:2021-02-24
# プライベートガウスプロセス帯域最適化のためのノンレグレレットアルゴリズム

No-Regret Algorithms for Private Gaussian Process Bandit Optimization ( http://arxiv.org/abs/2102.12467v1 )

ライセンス: Link先を確認
Abhimanyu Dubey(参考訳) データ駆動意思決定の広範な普及により、プライバシー保護アルゴリズムの設計に対する最近の関心が高まりました。 本稿では,プライバシー保護統計のレンズからのガウス過程(GP)の広帯域最適化のユビキタスな問題を検討する。 本稿では,一様カーネル近似器とランダムな摂動を組み合わせた微分プライベートGPバンディット最適化法を提案し,微分プライベート(DP)ガウスプロセスバンディットアルゴリズムを作成するための汎用フレームワークを提供する。 2つの特定のDP設定 - 結合と局所微分プライバシー - に対して、計算効率が良く、一般的な定常カーネル関数には不可避な、効率的な二次フーリエ特徴近似器に基づくアルゴリズムを提供する。 当社のアルゴリズムは、最適化手順を通じて差分プライバシーを維持し、予測のためのサンプルパスに明示的に依存せず、パラメータも簡単にリリースできます。

The widespread proliferation of data-driven decision-making has ushered in a recent interest in the design of privacy-preserving algorithms. In this paper, we consider the ubiquitous problem of gaussian process (GP) bandit optimization from the lens of privacy-preserving statistics. We propose a solution for differentially private GP bandit optimization that combines a uniform kernel approximator with random perturbations, providing a generic framework to create differentially-priva te (DP) Gaussian process bandit algorithms. For two specific DP settings - joint and local differential privacy, we provide algorithms based on efficient quadrature Fourier feature approximators, that are computationally efficient and provably no-regret for popular stationary kernel functions. Our algorithms maintain differential privacy throughout the optimization procedure and critically do not rely explicitly on the sample path for prediction, making the parameters straightforward to release as well.
翻訳日:2021-02-25 13:36:31 公開日:2021-02-24
# Multi-Slice Low-Rank Tensor Decomposition based Multi-Atlas Segmentation: Automatic Pathological Liver CT Segmentationへの応用

Multi-Slice Low-Rank Tensor Decomposition Based Multi-Atlas Segmentation: Application to Automatic Pathological Liver CT Segmentation ( http://arxiv.org/abs/2102.12056v1 )

ライセンス: Link先を確認
Changfa Shi, Min Xian, Xiancheng Zhou, Haotian Wang, Heng-Da Cheng(参考訳) 腹部CT像からの肝分画は,肝癌のコンピュータ診断と手術計画に必須のステップである。 しかし,既存の肝セグメンテーション法の精度と堅牢性は臨床応用の要件を満たしていない。 特に肝組織が主な病理組織を含む一般的な臨床例では,現在のセグメンテーション法は成績不良である。 本論文では、CT画像の正確かつ堅牢な病理学的肝分割を実現する低ランクテンソル分解(LRTD)ベースのマルチアトラス分割(MAS)フレームワークを提案する。 まず,3次元医用画像に埋め込まれた低ランク構造を復元するマルチスライスLRTD方式を提案する。 複数の連続画像スライスからなる小さな画像セグメントでLRTDを実行します。 そこで本研究では,LRTDベースのアトラス構築法を用いて腫瘍のない肝アトラスを作製し,腫瘍の存在による肝セグメンテーションの性能低下を緩和する。 最後に,各検査画像に対する患者固有の肝アトラスを導出し,高精度なペアワイズ画像登録とラベル伝播を実現するためのlrtdベースのmasアルゴリズムを提案する。 病理肝症例の3つの公開データベースに対する大規模な実験により,提案手法の有効性が検証された。 定性的および定量的な結果は、主要な病理学が存在する場合、提案手法は最先端の手法よりも正確で堅牢であることを示している。

Liver segmentation from abdominal CT images is an essential step for liver cancer computer-aided diagnosis and surgical planning. However, both the accuracy and robustness of existing liver segmentation methods cannot meet the requirements of clinical applications. In particular, for the common clinical cases where the liver tissue contains major pathology, current segmentation methods show poor performance. In this paper, we propose a novel low-rank tensor decomposition (LRTD) based multi-atlas segmentation (MAS) framework that achieves accurate and robust pathological liver segmentation of CT images. Firstly, we propose a multi-slice LRTD scheme to recover the underlying low-rank structure embedded in 3D medical images. It performs the LRTD on small image segments consisting of multiple consecutive image slices. Then, we present an LRTD-based atlas construction method to generate tumor-free liver atlases that mitigates the performance degradation of liver segmentation due to the presence of tumors. Finally, we introduce an LRTD-based MAS algorithm to derive patient-specific liver atlases for each test image, and to achieve accurate pairwise image registration and label propagation. Extensive experiments on three public databases of pathological liver cases validate the effectiveness of the proposed method. Both qualitative and quantitative results demonstrate that, in the presence of major pathology, the proposed method is more accurate and robust than state-of-the-art methods.
翻訳日:2021-02-25 13:36:14 公開日:2021-02-24
# 時系列予測のためのディープビデオ予測

Deep Video Prediction for Time Series Forecasting ( http://arxiv.org/abs/2102.12061v1 )

ライセンス: Link先を確認
Zhen Zeng, Tucker Balch, Manuela Veloso(参考訳) 時系列予測は、多くの分野で意思決定に不可欠です。 本研究は、複数の潜在的に相互作用する金融資産間の価格変動を予測する課題に対処する。 この問題に対する解決策は、政府、銀行、投資家にとって明らかに重要である。 自動回帰統合移動平均(ARIMA)のような統計的手法がこれらの問題に広く適用されている。 本稿では,複数の金融資産の経済時系列予測を,ビデオ予測による新しい手法でアプローチすることを提案する。 複数の潜在的に相互作用する金融資産の過去の価格を考えると、将来的な価格の進化を予測することを目指している。 各時点の価格のスナップショットをベクトルとして扱う代わりに、これらの価格を画像として空間的に2Dに配置し、CNNの力を利用してこれらの金融資産の潜在的表現を学習する。 したがって、これらの価格の歴史は一連の画像となり、私たちの目標は将来の画像を予測するようになります。 将来像を予測するための最新鋭の映像予測手法を構築します。 我々の実験は、米国株式市場で取引された9つの金融資産の価格変動の予測タスクを含む。 提案手法は, 経済時系列予測問題におけるcnnの電力利用の利点を実証するために, 有馬, 預言者, および提案手法の変動などのベースラインを上回っている。

Time series forecasting is essential for decision making in many domains. In this work, we address the challenge of predicting prices evolution among multiple potentially interacting financial assets. A solution to this problem has obvious importance for governments, banks, and investors. Statistical methods such as Auto Regressive Integrated Moving Average (ARIMA) are widely applied to these problems. In this paper, we propose to approach economic time series forecasting of multiple financial assets in a novel way via video prediction. Given past prices of multiple potentially interacting financial assets, we aim to predict the prices evolution in the future. Instead of treating the snapshot of prices at each time point as a vector, we spatially layout these prices in 2D as an image, such that we can harness the power of CNNs in learning a latent representation for these financial assets. Thus, the history of these prices becomes a sequence of images, and our goal becomes predicting future images. We build on a state-of-the-art video prediction method for forecasting future images. Our experiments involve the prediction task of the price evolution of nine financial assets traded in U.S. stock markets. The proposed method outperforms baselines including ARIMA, Prophet, and variations of the proposed method, demonstrating the benefits of harnessing the power of CNNs in the problem of economic time series forecasting.
翻訳日:2021-02-25 13:35:51 公開日:2021-02-24
# クルド詩の自動計量分類

Automatic Meter Classification of Kurdish Poems ( http://arxiv.org/abs/2102.12109v1 )

ライセンス: Link先を確認
Aso Mahmudi, Hadi Veisi(参考訳) クルド文学の古典的なテキストのほとんどは詩です。 詩のメーターを知ることは、正しい読み方、意味の理解を深め、曖昧さを避けるのに役立つ。 本論文では,中央クルド語における詩メーターの自動分類法について述べる。 クルド詩のメートル法体系は、量的、音節的、自由詩の3つのクラスに分けられる。 母音の長さは音韻ではないため、音節の重みとメーターの識別には不確実性がある。 提案手法は可能な全ての状況を生成し、入力詩のすべての行とクルド詩の一般的なメーターパターンを考慮し、入力詩の最も可能性の高いメータータイプとパターンを識別する。 vejinbooks kurdishコーパスによるデータセットの評価により、メートル法の精度97.3%、パターン識別の精度96.2%が得られた。

Most of the classic texts in Kurdish literature are poems. Knowing the meter of the poems is helpful for correct reading, a better understanding of the meaning, and avoidance of ambiguity. This paper presents a rule-based method for automatic classification of the poem meter for the Central Kurdish language. The metrical system of Kurdish poetry is divided into three classes of quantitative, syllabic, and free verses. As the vowel length is not phonemic in the language, there are uncertainties in syllable weight and meter identification. The proposed method generates all the possible situations and then, by considering all lines of the input poem and the common meter patterns of Kurdish poetry, identifies the most probable meter type and pattern of the input poem. Evaluation of the method on a dataset from VejinBooks Kurdish corpus resulted in 97.3% of precision in meter type and 96.2% of precision in pattern identification.
翻訳日:2021-02-25 13:35:02 公開日:2021-02-24
# OneStop QAMaker: テキストから質問応答ペアを抽出するワンストップアプローチ

OneStop QAMaker: Extract Question-Answer Pairs from Text in a One-Stop Approach ( http://arxiv.org/abs/2102.12128v1 )

ライセンス: Link先を確認
Shaobo Cui, Xintong Bao, Xinxing Zu, Yangyang Guo, Zhongzhou Zhao, Ji Zhang, Haiqing Chen(参考訳) 大規模質問応答(QA)ペアは、機械読解や質問応答といった研究領域の進展に不可欠である。 QAのペアを文書から構築するには、質問する方法と対応する答えを決定する必要があります。 既存のQAペア生成メソッドは通常、パイプラインアプローチに従います。 すなわち、まず最も可能性の高い回答スパンを選択し、その後に回答固有の質問を生成する。 しかし、このパイプラインアプローチは、質問生成と回答抽出の間の接続を無視しているため、ドキュメントから最も適切なQAペアをマイニングすることは望ましくありません。 しかしながら、人間のアノテータに対しては、QAペア全体を考慮し、質問と回答の互換性を考慮する。 このようなモチベーションにインスパイアされたOneStopは、従来のパイプラインアプローチではなく、文書からQAペアをワンストップで生成するモデルを提案する。 具体的には、質問とその回答スパンを同時に抽出し、質問生成と回答抽出のプロセスが相互に影響を及ぼす。 さらにOneStopは、複雑なQA生成タスクを解決するために1つのモデルのみを必要とするため、産業シナリオでトレーニングやデプロイを行うのがはるかに効率的です。 我々は,SQuAD,NewsQA,DuRead erの3つの大規模機械読解データセットについて総合的な実験を行った。 実験結果から, 生成した質問の質, 生成した質問応答対の品質, モデル効率について, ベースラインをはるかに上回る結果が得られた。

Large-scale question-answer (QA) pairs are critical for advancing research areas like machine reading comprehension and question answering. To construct QA pairs from documents requires determining how to ask a question and what is the corresponding answer. Existing methods for QA pair generation usually follow a pipeline approach. Namely, they first choose the most likely candidate answer span and then generate the answer-specific question. This pipeline approach, however, is undesired in mining the most appropriate QA pairs from documents since it ignores the connection between question generation and answer extraction, which may lead to incompatible QA pair generation, i.e., the selected answer span is inappropriate for question generation. However, for human annotators, we take the whole QA pair into account and consider the compatibility between question and answer. Inspired by such motivation, instead of the conventional pipeline approach, we propose a model named OneStop generate QA pairs from documents in a one-stop approach. Specifically, questions and their corresponding answer span is extracted simultaneously and the process of question generation and answer extraction mutually affect each other. Additionally, OneStop is much more efficient to be trained and deployed in industrial scenarios since it involves only one model to solve the complex QA generation task. We conduct comprehensive experiments on three large-scale machine reading comprehension datasets: SQuAD, NewsQA, and DuReader. The experimental results demonstrate that our OneStop model outperforms the baselines significantly regarding the quality of generated questions, quality of generated question-answer pairs, and model efficiency.
翻訳日:2021-02-25 13:34:47 公開日:2021-02-24
# ベトナム語と中国語の構文情報を用いたパート・オブ・スパイチタギングの強化

Augmenting Part-of-speech Tagging with Syntactic Information for Vietnamese and Chinese ( http://arxiv.org/abs/2102.12136v1 )

ライセンス: Link先を確認
Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 単語セグメンテーションと音声タグ付けはベトナムの自然言語処理における下流タスクの2つの重要な予備段階である。 実際には、単語のセグメンテーションや音声タグ付けを行う際に、単語を左から右に処理するだけでなく、フレーズ境界も考慮する傾向があります。 本稿では,ベトナム語の単語セグメンテーションを改善するために,簡易な選挙区パーサを用いてベトナム語をタグ付けする手法を提案する。 単語分割と音声タグ付けのためのニューラルモデルは,音節ベースのCRF補間器のアーキテクチャを持つ。 構文解析の複雑さを軽減するため、すべての構成ラベルをフレーズを示す単一のラベルに置き換える。 このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。 ベトナム語と中国語には同様の言語現象があるため、提案されたモデルとその拡張バージョンをベトナムの3つのベンチマークデータセットと中国の6つのベンチマークデータセットで評価しました。 実験の結果,提案モデルが両言語の従来作品よりも高い性能を発揮できることが示された。

Word segmentation and part-of-speech tagging are two critical preliminary steps for downstream tasks in Vietnamese natural language processing. In reality, people tend to consider also the phrase boundary when performing word segmentation and part of speech tagging rather than solely process word by word from left to right. In this paper, we implement this idea to improve word segmentation and part of speech tagging the Vietnamese language by employing a simplified constituency parser. Our neural model for joint word segmentation and part-of-speech tagging has the architecture of the syllable-based CRF constituency parser. To reduce the complexity of parsing, we replace all constituent labels with a single label indicating for phrases. This model can be augmented with predicted word boundary and part-of-speech tags by other tools. Because Vietnamese and Chinese have some similar linguistic phenomena, we evaluated the proposed model and its augmented versions on three Vietnamese benchmark datasets and six Chinese benchmark datasets. Our experimental results show that the proposed model achieves higher performances than previous works for both languages.
翻訳日:2021-02-25 13:34:21 公開日:2021-02-24
# Code-Mixed Social Media Text (Hinglish) の感性分析

Sentiment Analysis of Code-Mixed Social Media Text (Hinglish) ( http://arxiv.org/abs/2102.12149v1 )

ライセンス: Link先を確認
Gaurav Singh(参考訳) 本稿では,Hinglishで書かれたソーシャルメディア(Twitter)コード混在テキストの感情分析に応用したさまざまな手法について考察する。 感情分析の実行に関わるさまざまなステージは、データ統合、データクリーニング、データ変換、モデリングであった。 各種データクリーニング手法を適用し,5回の反復でデータクリーニングを行い,各反復後に実験結果を報告する。 データはcount vectorizer、hot vectorizer、tf-idf vectorizer、doc2vec、word2vec、fasttext embeddedsを使って変換された。 モデルは、SVM、KNN、Decision Trees、Random Forests、Naive Bayes、Logistic Regression、およびアンサンブル投票分類器など、さまざまな機械学習アルゴリズムを使用して作成された。 データは、セメバル2020コンペティションウェブサイトのTask:9にリストされたCodalabコンペティションウェブサイトのタスクから取得された。 作成したモデルはF1スコア(マクロ)を用いて評価した。 69.07の最良のF1スコアは、アンサンブル投票分類器を用いて達成された。

This paper discusses the results obtained for different techniques applied for performing the sentiment analysis of social media (Twitter) code-mixed text written in Hinglish. The various stages involved in performing the sentiment analysis were data consolidation, data cleaning, data transformation and modelling. Various data cleaning techniques were applied, data was cleaned in five iterations and the results of experiments conducted were noted after each iteration. Data was transformed using count vectorizer, one hot vectorizer, tf-idf vectorizer, doc2vec, word2vec and fasttext embeddings. The models were created using various machine learning algorithms such as SVM, KNN, Decision Trees, Random Forests, Naive Bayes, Logistic Regression, and ensemble voting classifiers. The data was obtained from a task on Codalab competition website which was listed as Task:9 on the Semeval-2020 competition website. The models created were evaluated using the F1-score (macro). The best F1-score of 69.07 was achieved using ensemble voting classifier.
翻訳日:2021-02-25 13:34:05 公開日:2021-02-24
# コード切り換えデータのタスク固有事前学習と言語間伝達

Task-Specific Pre-Training and Cross Lingual Transfer for Code-Switched Data ( http://arxiv.org/abs/2102.12407v1 )

ライセンス: Link先を確認
Akshat Gupta, Sai Krishna Rallabandi, Alan Black(参考訳) タスク固有の事前トレーニングと言語間転送の活用は、コード切り換えデータを扱う最も一般的な方法の2つだ。 本稿では,感情分析の課題における両者の効果を比較することを目的とする。 私たちは2つのDravidian Code-Switched言語 - Tamil-EngishとMalayalam-Englishと4つの異なるBERTベースのモデルで作業しています。 本稿では,タスク固有の事前学習と言語間伝達の効果を比較し,タスク固有の事前学習がゼロショットと教師付きパフォーマンスに優れた結果をもたらすことを見出し,多言語bertモデルから言語間伝達を活用した性能と比較した。

Using task-specific pre-training and leveraging cross-lingual transfer are two of the most popular ways to handle code-switched data. In this paper, we aim to compare the effects of both for the task of sentiment analysis. We work with two Dravidian Code-Switched languages - Tamil-Engish and Malayalam-English and four different BERT based models. We compare the effects of task-specific pre-training and cross-lingual transfer and find that task-specific pre-training results in superior zero-shot and supervised performance when compared to performance achieved by leveraging cross-lingual transfer from multilingual BERT models.
翻訳日:2021-02-25 13:33:46 公開日:2021-02-24
# Probing Classifiers:Promises , Shortcomings, and Alternatives

Probing Classifiers: Promises, Shortcomings, and Alternatives ( http://arxiv.org/abs/2102.12452v1 )

ライセンス: Link先を確認
Yonatan Belinkov(参考訳) 探索型分類器は自然言語処理のディープニューラルネットワークモデルを解釈・解析するための重要な手法の1つである。 基本的な考え方は単純で、分類器はモデルの表現から言語特性を予測するために訓練され、様々なモデルや特性を調べるために使われてきた。 しかし、近年の研究では、このアプローチの様々な方法論的弱点が示されている。 この記事では、Probing Classifiersフレームワークを批判的にレビューし、欠点、改善、代替アプローチを強調します。

Probing classifiers have emerged as one of the prominent methodologies for interpreting and analyzing deep neural network models of natural language processing. The basic idea is simple -- a classifier is trained to predict some linguistic property from a model's representations -- and has been used to examine a wide variety of models and properties. However, recent studies have demonstrated various methodological weaknesses of this approach. This article critically reviews the probing classifiers framework, highlighting shortcomings, improvements, and alternative approaches.
翻訳日:2021-02-25 13:33:27 公開日:2021-02-24
# Julia を用いた手書き数字の特徴と認識

Characterization and recognition of handwritten digits using Julia ( http://arxiv.org/abs/2102.11994v1 )

ライセンス: Link先を確認
M. A. Jishan, M. S. Alam, Afrida Islam, I. R. Mazumder, K. R. Mahmud and A. K. Al Azad(参考訳) 自動画像認識と数字認識は、画像処理とパターン認識において計算的に困難なタスクであり、手書き桁の識別に画像の構文的および意味的重要性を適切に評価する必要がある。 画像とパターンの認識は,安全性フレームワーク,臨床フレームワーク,ディバージョンなど,さまざまな種類の応用が変化していることから,研究分野の推進力のひとつとして認識されている。本研究は,mnistdatasetの桁を認識可能なハイブリッドニューラルネットワークモデルを実装し,顕著な結果を得た。 提案したニューラルモデルネットワークは、画像から特徴を抽出し、層内の特徴を層ごとに認識することができる。 拡張するには、提案されたモデルがどのように各層で動作し、どのように出力を生成できるかなどを認識することがニューラルネットワークにとって非常に重要です。 また、mnistデータセットのオートエンコーディングシステムと変分オートエンコーディングシステムを認識することもできる。 本研究は,上述の問題点とそれに対する説明,及びこの現象を克服する方法について検討する。

Automatic image and digit recognition is a computationally challenging task for image processing and pattern recognition, requiring an adequate appreciation of the syntactic and semantic importance of the image for the identification ofthe handwritten digits. Image and Pattern Recognition has been identified as one of the driving forces in the research areas because of its shifting of different types of applications, such as safety frameworks, clinical frameworks, diversion, and so on.In this study, for recognition, we implemented a hybrid neural network model that is capable of recognizing the digit of MNISTdataset and achieved a remarkable result. The proposed neural model network can extract features from the image and recognize the features in the layer by layer. To expand, it is so important for the neural network to recognize how the proposed modelcan work in each layer, how it can generate output, and so on. Besides, it also can recognize the auto-encoding system and the variational auto-encoding system of the MNIST dataset. This study will explore those issues that are discussed above, and the explanation for them, and how this phenomenon can be overcome.
翻訳日:2021-02-25 13:32:48 公開日:2021-02-24
# マルチカメラシステムの相対的ポース回復について

On Relative Pose Recovery for Multi-Camera Systems ( http://arxiv.org/abs/2102.11996v1 )

ライセンス: Link先を確認
Ji Zhao, Banglei Guan(参考訳) 相対的なポーズ推定には点対応(PC)とアフィン対応(AC)が広く使用される。 ACは2つのビューにまたがるPCと、このPCの周りの小さなパッチ間のアフィン変換からなる。 以前の研究は、一般に1つのACが相対的なポーズ推定に3つの独立した制約を与えることを示した。 マルチカメラシステムでは、一般相対ポーズ推定のためのACベースの最小解法がまだ存在しない。 この問題に対処するため,複数の最小解法からなるマルチカメラシステムにおいて,2つのACから相対ポーズ推定を行うための完全解法を提案する。 この解法におけるソルバ生成は,cayley または quaternion parameterization for rotation and hidden variable technique に基づいている。 このソルバー生成法は、PCからの相対ポーズ推定にも自然に適用され、マルチカメラシステムのための新しい6点法となる。 回転角および/または焦点長の未知の相対的なポーズ推定を含むいくつかの拡張がなされている。 広範な実験は、提案されたACベースのソルバーとPCベースのソルバーが、合成および実世界のデータセットで効果的かつ効率的であることを実証する。

The point correspondence (PC) and affine correspondence (AC) are widely used for relative pose estimation. An AC consists of a PC across two views and an affine transformation between the small patches around this PC. Previous work demonstrates that one AC generally provides three independent constraints for relative pose estimation. For multi-camera systems, there is still not any AC-based minimal solver for general relative pose estimation. To deal with this problem, we propose a complete solution to relative pose estimation from two ACs for multi-camera systems, consisting of a series of minimal solvers. The solver generation in our solution is based on Cayley or quaternion parameterization for rotation and hidden variable technique to eliminate translation. This solver generation method is also naturally applied to relative pose estimation from PCs, resulting in a new six-point method for multi-camera systems. A few extensions are made, including relative pose estimation with known rotation angle and/or with unknown focal lengths. Extensive experiments demonstrate that the proposed AC-based solvers and PC-based solvers are effective and efficient on synthetic and real-world datasets.
翻訳日:2021-02-25 13:32:31 公開日:2021-02-24
# PRIN/SPRIN:Point-wis e Rotation Invariant Featuresの抽出について

PRIN/SPRIN: On Extracting Point-wise Rotation Invariant Features ( http://arxiv.org/abs/2102.12093v1 )

ライセンス: Link先を確認
Yang You, Yujing Lou, Ruoxi Shi, Qi Liu, Yu-Wing Tai, Lizhuang Ma, Weiming Wang, Cewu Lu(参考訳) ポーズ先のないポイントクラウド分析は、ポイントクラウドの向きがよく分かっていないため、実際のアプリケーションでは非常に難しい。 本稿では,点群解析における回転不変特徴抽出に着目した,新しい点集合学習フレームワークPRIN(Point-wise Rotation Invariant Network)を提案する。 球面空間の歪み点分布を扱うために,密度認識適応サンプリングを用いて球面信号を構築する。 球面ボクセル畳み込みと点再サンプリングは各点の回転不変特徴を抽出するために提案される。 さらに、PRINをスパースポイントクラウド上で直接動作するSPRINと呼ばれるスパースバージョンに拡張します。 PRINとSPRINの両方は、オブジェクトの分類、部分分割、3D機能マッチング、ラベルアライメントまで、タスクに適用できます。 その結果、ランダムに回転した点群を持つデータセットでは、SPRINはデータ拡張なしで最先端の方法よりも優れたパフォーマンスを発揮します。 また,本手法により達成されたポイントワイド回転不変性の完全な理論的証明と解析を行う。 私たちのコードはhttps://github.com/q q456cvb/SPRINで利用可能です。

Point cloud analysis without pose priors is very challenging in real applications, as the orientations of point clouds are often unknown. In this paper, we propose a brand new point-set learning framework PRIN, namely, Point-wise Rotation Invariant Network, focusing on rotation invariant feature extraction in point clouds analysis. We construct spherical signals by Density Aware Adaptive Sampling to deal with distorted point distributions in spherical space. Spherical Voxel Convolution and Point Re-sampling are proposed to extract rotation invariant features for each point. In addition, we extend PRIN to a sparse version called SPRIN, which directly operates on sparse point clouds. Both PRIN and SPRIN can be applied to tasks ranging from object classification, part segmentation, to 3D feature matching and label alignment. Results show that, on the dataset with randomly rotated point clouds, SPRIN demonstrates better performance than state-of-the-art methods without any data augmentation. We also provide thorough theoretical proof and analysis for point-wise rotation invariance achieved by our methods. Our code is available on https://github.com/q q456cvb/SPRIN.
翻訳日:2021-02-25 13:32:16 公開日:2021-02-24
# 交互ブーストによるセマンティックセグメンテーションと画像デノイジングの相乗効果

Synergy Between Semantic Segmentation and Image Denoising via Alternate Boosting ( http://arxiv.org/abs/2102.12095v1 )

ライセンス: Link先を確認
Shunxin Xu, Ke Sun, Dong Liu, Zhiwei Xiong, Zheng-Jun Zha(参考訳) 画像セマンティクスセグメンテーションの能力は、セグメンテーションに先立ってノイズの多い入力画像によって低下する可能性がある。 深層学習の進展に伴い、画像のノイズ除去とセマンティックセグメンテーションの両方が大幅に開発されました。 したがって、全体論的深層モデルを用いることで、それらの間の相乗効果に関心を持つ。 我々は,ノイズによるセグメンテーション精度の低下に対処するだけでなく,画素別意味情報によってデノージング能力が向上することを示す。 次に,分節化と分節化を交互に行うブースティングネットワークを提案する。 提案するネットワークは,複数のセグメンテーションとデノナイジングブロック(SDB)で構成され,それぞれがセマンティックマップを推定し,デノナイジングを正規化するためにマップを使用する。 実験の結果,デノイド画像の品質が大幅に向上し,セグメンテーション精度がクリーン画像に近いことを示した。 私たちのコードとモデルは公開されます。

The capability of image semantic segmentation may be deteriorated due to noisy input image, where image denoising prior to segmentation helps. Both image denoising and semantic segmentation have been developed significantly with the advance of deep learning. Thus, we are interested in the synergy between them by using a holistic deep model. We observe that not only denoising helps combat the drop of segmentation accuracy due to noise, but also pixel-wise semantic information boosts the capability of denoising. We then propose a boosting network to perform denoising and segmentation alternately. The proposed network is composed of multiple segmentation and denoising blocks (SDBs), each of which estimates semantic map then uses the map to regularize denoising. Experimental results show that the denoised image quality is improved substantially and the segmentation accuracy is improved to close to that of clean images. Our code and models will be made publicly available.
翻訳日:2021-02-25 13:31:59 公開日:2021-02-24
# PFRL:6次元ポース推定のためのポースフリー強化学習

PFRL: Pose-Free Reinforcement Learning for 6D Pose Estimation ( http://arxiv.org/abs/2102.12096v1 )

ライセンス: Link先を確認
Jianzhun Shao, Yuhang Jiang, Gu Wang, Zhigang Li, Xiangyang Ji(参考訳) 単一のRGB画像からの6Dポーズ推定は、コンピュータビジョンにおいて困難で重要な課題である。 現在の主流のディープモデルメソッドは、2Dイメージに現実世界の地上トラス6Dオブジェクトポーズをアノテートし、そのコレクションはかなり面倒で高価で、多くの場合は利用できません。 本研究では,6Dアノテーションの負担を解消するため,マルコフ決定プロセスとして6Dポーズの改良を策定し,効率的かつ効果的なポリシトレーニングのための繊細な報酬定義と複合強化最適化法を用いて,弱監督6Dポーズ情報として2D画像アノテーションのみを用いた強化学習手法を提案する。 LINEMOD と T-LESS データセットの実験により,実世界の6D ポーズラベルを使わずに,我々の Pose-Free アプローチが最先端のパフォーマンスを達成できることが実証された。

6D pose estimation from a single RGB image is a challenging and vital task in computer vision. The current mainstream deep model methods resort to 2D images annotated with real-world ground-truth 6D object poses, whose collection is fairly cumbersome and expensive, even unavailable in many cases. In this work, to get rid of the burden of 6D annotations, we formulate the 6D pose refinement as a Markov Decision Process and impose on the reinforcement learning approach with only 2D image annotations as weakly-supervised 6D pose information, via a delicate reward definition and a composite reinforced optimization method for efficient and effective policy training. Experiments on LINEMOD and T-LESS datasets demonstrate that our Pose-Free approach is able to achieve state-of-the-art performance compared with the methods without using real-world ground-truth 6D pose labels.
翻訳日:2021-02-25 13:31:41 公開日:2021-02-24
# アンチスプーフィングのための自己ドメイン適応

Self-Domain Adaptation for Face Anti-Spoofing ( http://arxiv.org/abs/2102.12129v1 )

ライセンス: Link先を確認
Jingjing Wang, Jingyi Zhang, Ying Bian, Youyi Cai, Chunmao Wang, Shiliang Pu(参考訳) 現在の対スプーフィング法は、データセット内テストで有望な結果を達成するが、見えない攻撃に対する一般化が不十分である。 既存の研究の多くは、この問題に対処するためにドメイン適応(DA)またはドメイン一般化(DG)技術を採用している。 しかし、DAメソッドの利用を制限するトレーニング中、ターゲットドメインはしばしば不明である。 DGメソッドは、ターゲットデータを見ることなく、ドメイン不変の特徴を学習することでこれを克服することができる。 しかし、ターゲットデータの情報を利用するのに失敗します。 本稿では,推論時にラベルなしのテストドメインデータを活用するための自己ドメイン適応フレームワークを提案する。 具体的には、テストドメインにモデルを適用するためにドメインアダプタが設計されます。 より優れたアダプタを学習するために、トレーニングステップで複数のソースドメインのデータを用いてメタラーニングに基づくアダプタ学習アルゴリズムを提案する。 テスト時には、提案した教師なしアダプタ損失に応じて、テスト領域データのみを使用してアダプタを更新し、パフォーマンスをさらに向上する。 4つの公開データセットに関する広範な実験は、提案された方法の有効性を検証する。

Although current face anti-spoofing methods achieve promising results under intra-dataset testing, they suffer from poor generalization to unseen attacks. Most existing works adopt domain adaptation (DA) or domain generalization (DG) techniques to address this problem. However, the target domain is often unknown during training which limits the utilization of DA methods. DG methods can conquer this by learning domain invariant features without seeing any target data. However, they fail in utilizing the information of target data. In this paper, we propose a self-domain adaptation framework to leverage the unlabeled test domain data at inference. Specifically, a domain adaptor is designed to adapt the model for test domain. In order to learn a better adaptor, a meta-learning based adaptor learning algorithm is proposed using the data of multiple source domains at the training step. At test time, the adaptor is updated using only the test domain data according to the proposed unsupervised adaptor loss to further improve the performance. Extensive experiments on four public datasets validate the effectiveness of the proposed method.
翻訳日:2021-02-25 13:31:24 公開日:2021-02-24
# SFANet:可視赤外人物再識別のためのスペクトラム認識機能拡張ネットワーク

SFANet: A Spectrum-aware Feature Augmentation Network for Visible-Infrared Person Re-Identification ( http://arxiv.org/abs/2102.12137v1 )

ライセンス: Link先を確認
Haojie Liu, Shun Ma, Daoxun Xia, and Shaozi Li(参考訳) 可視赤外人物再同定(vi-reid)は、可視画像と赤外線画像間の大きなモダリティ変動のため、困難なマッチング問題である。 既存のアプローチは通常、ピクセルレベルのバリエーションを無視して、特徴レベルの制約だけでモダリティギャップを橋渡しする。 スタイル一貫性のある画像を生成するためにganを用いる方法もあるが、構造情報を破壊し、かなりのレベルのノイズを発生させる。 本稿では,これらの課題を明示的に考慮し,クロスモダリティマッチング問題に対するsfanetという,新しいスペクトル認識型特徴表現ネットワークを定式化する。 具体的には、機能学習のためのRGBイメージを完全に置き換えるために、グレースケールスペクトル画像の採用を進めます。 grayscale-spectrumの画像から学ぶと、このモデルはモダリティの不一致を減らし、異なるモダリティにまたがる内部構造関係を検知し、色の変化に頑健になる。 特徴量レベルでは,特徴の空間構造情報を保存する特定のおよび共有可能な畳み込みブロックの数のバランスをとることにより,従来の2ストリームネットワークを改善する。 さらに、提案ネットワークに双方向の三重制約トッププッシュランキング損失(BTTR)が埋め込まれ、識別性が向上し、マッチング精度がさらに向上します。 また,バッチ正規化IDを組み込んだ効果的なデュアルリニアを導入し,識別固有情報をモデル化し,BTTRの損失を最大安定化させる。 SYSU-MM01およびRegDBデータセットでは、提案されたフレームワークが無意味に貢献し、非常に競争力のあるVI-ReIDパフォーマンスを達成することを実証するために広範な実験を行った。

Visible-Infrared person re-identification (VI-ReID) is a challenging matching problem due to large modality varitions between visible and infrared images. Existing approaches usually bridge the modality gap with only feature-level constraints, ignoring pixel-level variations. Some methods employ GAN to generate style-consistent images, but it destroys the structure information and incurs a considerable level of noise. In this paper, we explicitly consider these challenges and formulate a novel spectrum-aware feature augementation network named SFANet for cross-modality matching problem. Specifically, we put forward to employ grayscale-spectrum images to fully replace RGB images for feature learning. Learning with the grayscale-spectrum images, our model can apparently reduce modality discrepancy and detect inner structure relations across the different modalities, making it robust to color variations. In feature-level, we improve the conventional two-stream network through balancing the number of specific and sharable convolutional blocks, which preserve the spatial structure information of features. Additionally, a bi-directional tri-constrained top-push ranking loss (BTTR) is embedded in the proposed network to improve the discriminability, which efficiently further boosts the matching accuracy. Meanwhile, we further introduce an effective dual-linear with batch normalization ID embedding method to model the identity-specific information and assits BTTR loss in magnitude stabilizing. On SYSU-MM01 and RegDB datasets, we conducted extensively experiments to demonstrate that our proposed framework contributes indispensably and achieves a very competitive VI-ReID performance.
翻訳日:2021-02-25 13:31:10 公開日:2021-02-24
# 環境微生物画像解析のための新しいペアワイズ深層学習機能

A New Pairwise Deep Learning Feature For Environmental Microorganism Image Analysis ( http://arxiv.org/abs/2102.12147v1 )

ライセンス: Link先を確認
Frank Kulwa, Chen Li, Jinghua Zhang, Kimiaki Shirahama, Sergey Kosov, Xin Zhao, Hongzan Sun, Tao Jiang, Marcin Grzegorzek(参考訳) 環境微生物は、環境汚染に対する高効率で無害で低コストな解決策を提供する。 環境汚染物質の衛生、モニタリング、分解に使用されます。 しかし、これは適切な微生物の適切な同定に依存する。 高速、低コスト、一貫性、識別精度を高めるために、新しいペアワイズ深層学習機能を提案し、微生物を分析します。 ペアワイズ深層学習機能技術は、手作りと深層学習の機能を組み合わせたものである。 本手法では,関心点を中心にしたパッチから深層学習特徴を抽出することで,shiとtomasiの関心点を活用する。 そして、近傍の興味点間の中間空間特性を持つポテンシャル特徴の数を増やすために、ドローネー三角定理と直線幾何学定理を用いて、近傍の深層学習特徴をペアリングする。 対特徴のポテンシャルは、SVM、k-NN、ランダムフォレスト分類器を用いたEMの分類に基づいて正当化される。 このペアワイズの特徴は、99.17%、91.34%、91.32%、91.48%、99.56%の顕著な結果を得ており、これは約5.95%、62.40%、62.37%、61.84%、精度3.23%、F1スコア、リコール、精度、特異性である。

Environmental microorganism (EM) offers a high-efficient, harmless, and low-cost solution to environmental pollution. They are used in sanitation, monitoring, and decomposition of environmental pollutants. However, this depends on the proper identification of suitable microorganisms. In order to fasten, low the cost, increase consistency and accuracy of identification, we propose the novel pairwise deep learning features to analyze microorganisms. The pairwise deep learning features technique combines the capability of handcrafted and deep learning features. In this technique we, leverage the Shi and Tomasi interest points by extracting deep learning features from patches which are centered at interest points locations. Then, to increase the number of potential features that have intermediate spatial characteristics between nearby interest points, we use Delaunay triangulation theorem and straight-line geometric theorem to pair the nearby deep learning features. The potential of pairwise features is justified on the classification of EMs using SVMs, k-NN, and Random Forest classifier. The pairwise features obtain outstanding results of 99.17%, 91.34%, 91.32%, 91.48%, and 99.56%, which are the increase of about 5.95%, 62.40%, 62.37%, 61.84%, and 3.23% in accuracy, F1-score, recall, precision, and specificity respectively, compared to non-paired deep learning features.
翻訳日:2021-02-25 13:30:41 公開日:2021-02-24
# 頭や尾を見るべきですか? 少ない物体検出のためのデュアルアウェアネスアテンション

Should I Look at the Head or the Tail? Dual-awareness Attention for Few-Shot Object Detection ( http://arxiv.org/abs/2102.12152v1 )

ライセンス: Link先を確認
Tung-I Chen, Yueh-Cheng Liu, Hung-Ting Su, Yu-Cheng Chang, Yu-Hsiang Lin, Jia-Fong Yeh, Winston H. Hsu(参考訳) 最近の進歩は、数ショット分類(FSC)のパフォーマンスを大幅に向上させたが、現代の学習システムでは、数ショットオブジェクト検出(FSOD)は依然として困難である。 既存のFSODシステムはFSCのアプローチに従い、空間的不整合の問題と情報絡みのリスクを無視し、パフォーマンスを低下させる。 そこで本研究では,サポート画像とクエリ画像間の空間的相互関係を両立する,新しいDual-Awareness-Atten tion (DAnA)を提案する。 生成されたクエリ位置認識サポート機能は、空間的不整合に堅牢であり、検出ネットワークを正確に導くために使用されます。 我々のDAnAコンポーネントは、既存のさまざまなオブジェクト検出ネットワークに適用可能であり、クエリで条件付けられた特定のセマンティクスに注意を払ってFSOD性能を向上させる。 実験結果は、DAnAがCOCOベンチマークで(48%および125%比較的)オブジェクト検出性能を大幅に向上させることを示しています。 danaを導入することで、従来のオブジェクト検出モデルであるfaster-rcnnとretinanetが最先端のパフォーマンスに到達した。

While recent progress has significantly boosted few-shot classification (FSC) performance, few-shot object detection (FSOD) remains challenging for modern learning systems. Existing FSOD systems follow FSC approaches, neglect the problem of spatial misalignment and the risk of information entanglement, and result in low performance. Observing this, we propose a novel Dual-Awareness-Atten tion (DAnA), which captures the pairwise spatial relationship cross the support and query images. The generated query-position-aware support features are robust to spatial misalignment and used to guide the detection network precisely. Our DAnA component is adaptable to various existing object detection networks and boosts FSOD performance by paying attention to specific semantics conditioned on the query. Experimental results demonstrate that DAnA significantly boosts (48% and 125% relatively) object detection performance on the COCO benchmark. By equipping DAnA, conventional object detection models, Faster-RCNN and RetinaNet, which are not designed explicitly for few-shot learning, reach state-of-the-art performance.
翻訳日:2021-02-25 13:30:15 公開日:2021-02-24
# 顔行動単位認識のための興味とグラフ学習の多レベル適応領域

Multi-Level Adaptive Region of Interest and Graph Learning for Facial Action Unit Recognition ( http://arxiv.org/abs/2102.12154v1 )

ライセンス: Link先を確認
Jingwei Yan, Boyuan Jiang, Jingjing Wang, Qiang Li, Chunmao Wang, Shiliang Pu(参考訳) 顔行動単位(AU)認識タスクでは、地域特徴学習とAU関係モデリングは、探索する価値のある2つの効果的な側面である。 しかし,地域特徴の限られた表現能力は,関係モデルがAU関係知識を組み込むのを困難にしている。 本稿では,この問題に対処するためのマルチレベル適応型ROIとグラフ学習(MARGL)フレームワークを提案する。 具体的には、事前定義されたAU領域の位置とサイズを自動的に調整する適応ROI学習モジュールを設計する。 一方、AU間の関係に加えて、レベルワイズな特徴が表現の異なる側面に焦点を当てているため、バックボーンネットワークの複数のレベルにわたる地域的特徴間の強い関連性が存在する。 レベル内AU関係とレベル間AU地域関連を同時に組み込むために、マルチレベルAU関係グラフを構築し、各レベルのAU地域特性をさらに強化するためにグラフ畳み込みを行います。 BP4D と DISFA の実験では,提案した MARGL が従来の最先端手法よりも優れていたことが示されている。

In facial action unit (AU) recognition tasks, regional feature learning and AU relation modeling are two effective aspects which are worth exploring. However, the limited representation capacity of regional features makes it difficult for relation models to embed AU relationship knowledge. In this paper, we propose a novel multi-level adaptive ROI and graph learning (MARGL) framework to tackle this problem. Specifically, an adaptive ROI learning module is designed to automatically adjust the location and size of the predefined AU regions. Meanwhile, besides relationship between AUs, there exists strong relevance between regional features across multiple levels of the backbone network as level-wise features focus on different aspects of representation. In order to incorporate the intra-level AU relation and inter-level AU regional relevance simultaneously, a multi-level AU relation graph is constructed and graph convolution is performed to further enhance AU regional features of each level. Experiments on BP4D and DISFA demonstrate the proposed MARGL significantly outperforms the previous state-of-the-art methods.
翻訳日:2021-02-25 13:29:53 公開日:2021-02-24
# ネットワークがインターネットをサーフィンできるように

Enabling the Network to Surf the Internet ( http://arxiv.org/abs/2102.12205v1 )

ライセンス: Link先を確認
Zhuoling Li, Haohan Wang, Tymoteusz Swistek, Weixin Chen, Yuanzheng Li, Haoqian Wang(参考訳) 限られたデータとラベルのため、わずかなショット学習は難しい。 既存のアルゴリズムは通常、モデルにターゲットドメインと知識を共有する大量の注釈付きデータで事前学習することでこの問題を解決する。 それにもかかわらず、大量の均質データサンプルは必ずしも入手できない。 そこで本研究では,モデルがインターネットを閲覧できる仕組みを構築し,手作業でデータを収集・注釈付けすることができることを示唆した。 オンラインデータは事実上無制限であり、生成し続けるので、モデルが常に最新の知識をインターネットから得ることができる。 さらに,学習表現の一般化能力は,自己指導型学習において重要であることも確認した。 その重要性を示すために, ナイーブかつ効率的な正規化戦略を提案する。 その結果、この戦略はモデルの精度を大幅に高める(最大で20.46%)。 miniImageNet, tieredImageNet, Omniglotの実験により, 提案フレームワークの優位性を実証した。 その結果,提案手法は従来の教師なしの手法よりも大きなマージン(10%以上)を越え,教師なしの手法に匹敵する性能を得た。

Few-shot learning is challenging due to the limited data and labels. Existing algorithms usually resolve this problem by pre-training the model with a considerable amount of annotated data which shares knowledge with the target domain. Nevertheless, large quantities of homogenous data samples are not always available. To tackle this issue, we develop a framework that enables the model to surf the Internet, which implies that the model can collect and annotate data without manual effort. Since the online data is virtually limitless and continues to be generated, the model can thus be empowered to constantly obtain up-to-date knowledge from the Internet. Additionally, we observe that the generalization ability of the learned representation is crucial for self-supervised learning. To present its importance, a naive yet efficient normalization strategy is proposed. Consequentially, this strategy boosts the accuracy of the model significantly (20.46% at most). We demonstrate the superiority of the proposed framework with experiments on miniImageNet, tieredImageNet and Omniglot. The results indicate that our method has surpassed previous unsupervised counterparts by a large margin (more than 10%) and obtained performance comparable with the supervised ones.
翻訳日:2021-02-25 13:29:35 公開日:2021-02-24
# 空中画像における物体検出:大規模ベンチマークと課題

Object Detection in Aerial Images: A Large-Scale Benchmark and Challenges ( http://arxiv.org/abs/2102.12219v1 )

ライセンス: Link先を確認
Jian Ding, Nan Xue, Gui-Song Xia, Xiang Bai, Wen Yang, Micheal Ying Yang, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, Liangpei Zhang(参考訳) 過去10年間で、空中画像の鳥の目視によって引き起こされる物体のスケールと向きの大規模な変化により、物体検出は自然画像において顕著な進歩を遂げてきたが、空中画像では行われなかった。 さらに重要なのは、大規模なベンチマークの欠如は、空中画像(ODAI)における物体検出の開発の大きな障害になります。 本稿では,DOTA(Aerial Image)におけるObject deTectionの大規模データセットとODAIの総合ベースラインについて述べる。 提案するDOTAデータセットは,11,268個の空中画像から収集した18カテゴリのオブジェクト指向ボックスアノテーションの1,793,658個のオブジェクトインスタンスを含む。 この大規模で注釈付きデータセットに基づいて、70以上の構成を持つ10以上の最先端アルゴリズムをカバーするベースラインを構築し、各モデルの速度と精度を評価した。 さらに、ODAIのための一様コードライブラリを提供し、異なるアルゴリズムをテストおよび評価するためのウェブサイトを構築します。 DOTAで実施された以前の課題は、世界中で1300以上のチームを引き寄せている。 大規模なDOTAデータセット、広範なベースライン、コードライブラリ、課題は、堅牢なアルゴリズムの設計と空中画像における物体検出の問題の再現可能な研究を促進することができると考えています。

In the past decade, object detection has achieved significant progress in natural images but not in aerial images, due to the massive variations in the scale and orientation of objects caused by the bird's-eye view of aerial images. More importantly, the lack of large-scale benchmarks becomes a major obstacle to the development of object detection in aerial images (ODAI). In this paper, we present a large-scale Dataset of Object deTection in Aerial images (DOTA) and comprehensive baselines for ODAI. The proposed DOTA dataset contains 1,793,658 object instances of 18 categories of oriented-bounding-bo x annotations collected from 11,268 aerial images. Based on this large-scale and well-annotated dataset, we build baselines covering 10 state-of-the-art algorithms with over 70 configurations, where the speed and accuracy performances of each model have been evaluated. Furthermore, we provide a uniform code library for ODAI and build a website for testing and evaluating different algorithms. Previous challenges run on DOTA have attracted more than 1300 teams worldwide. We believe that the expanded large-scale DOTA dataset, the extensive baselines, the code library and the challenges can facilitate the designs of robust algorithms and reproducible research on the problem of object detection in aerial images.
翻訳日:2021-02-25 13:29:20 公開日:2021-02-24
# ヒトScanpath予測の現状と課題

State-of-the-Art in Human Scanpath Prediction ( http://arxiv.org/abs/2102.12239v1 )

ライセンス: Link先を確認
Matthias K\"ummerer, Matthias Bethge(参考訳) 近年、画像を見る際に人間が行う固定のスキャンパスを予測するモデルが急増しています。 しかし、この分野は予測力に関してそれらのモデルの原則的な比較を欠いている。 過去、モデルは通常、モデルから生成されたスキャンパスと人間のスキャンパスを比較することに基づいて評価されています。 ここでは,前回のスキャンパス履歴に基づいて,スキャンパス内の各固定をどの程度正確に予測するかに基づいてモデルを評価する。 これにより、モデル評価は、下層スキャンパス生成と考えられる生物学的プロセスと密接に整合し、直感的かつ解釈可能な方法でAUCやNSSなどの確立されたサリエンシーメトリクスを適用することができます。 MIT1003, MIT300, CAT2000, CAT200のデータセット上でのスキャンパス予測の多くの既存のモデルを評価し、人間のスキャンパス予測技術の現状を初めて詳細に説明します。 また, モデルベンチマーク手法により, より詳細な分析が可能となり, モデルが人間の行動を予測できない場所や時期に関する興味深い知見が得られた。 MIT/Tuebingen Saliency Benchmarkは、ここで詳述したスキャンパスモデルの評価を実装し、研究者が確立されたベンチマークデータセットMIT300とCAT2000でモデルを評価できるようにする。

The last years have seen a surge in models predicting the scanpaths of fixations made by humans when viewing images. However, the field is lacking a principled comparison of those models with respect to their predictive power. In the past, models have usually been evaluated based on comparing human scanpaths to scanpaths generated from the model. Here, instead we evaluate models based on how well they predict each fixation in a scanpath given the previous scanpath history. This makes model evaluation closely aligned with the biological processes thought to underly scanpath generation and allows to apply established saliency metrics like AUC and NSS in an intuitive and interpretable way. We evaluate many existing models of scanpath prediction on the datasets MIT1003, MIT300, CAT2000 train and CAT200 test, for the first time giving a detailed picture of the current state of the art of human scanpath prediction. We also show that the discussed method of model benchmarking allows for more detailed analyses leading to interesting insights about where and when models fail to predict human behaviour. The MIT/Tuebingen Saliency Benchmark will implement the evaluation of scanpath models as detailed here, allowing researchers to score their models on the established benchmark datasets MIT300 and CAT2000.
翻訳日:2021-02-25 13:28:59 公開日:2021-02-24
# 禁止アイテム認識モデルの改良

An Enhanced Prohibited Items Recognition Model ( http://arxiv.org/abs/2102.12256v1 )

ライセンス: Link先を確認
Tianze Rong, Hongxiang Cai, Yichao Xiong(参考訳) 本研究では,x線画像による禁止項目認識を促進させる新しいモデリング手法を提案する。 禁止項目とX線画像の特性を分析した。 いくつかの項目のスケールが小さすぎて認識できないため、モデルのパフォーマンスを損なうことが分かりました。 次に,データ拡張を行い,禁止項目認識の分野を適応させるためにモデルを変更した。 Convolutional Block Attention Module(CBAM)とRescoringメカニズムがモデルに組み込まれている。 その結果,SIXray10では89.9%,mAPは74.8%であった。

We proposed a new modeling method to promote the performance of prohibited items recognition via X-ray image. We analyzed the characteristics of prohibited items and X-ray images. We found the fact that the scales of some items are too small to be recognized which encumber the model performance. Then we adopted a set of data augmentation and modified the model to adapt the field of prohibited items recognition. The Convolutional Block Attention Module(CBAM) and rescoring mechanism has been assembled into the model. By the modification, our model achieved a mAP of 89.9% on SIXray10, mAP of 74.8%.
翻訳日:2021-02-25 13:28:41 公開日:2021-02-24
# ゲームとゲーム間の完全畳み込みポリシー値ネットワークの転送

Transfer of Fully Convolutional Policy-Value Networks Between Games and Game Variants ( http://arxiv.org/abs/2102.12375v1 )

ライセンス: Link先を確認
Dennis J.N.J. Soemers, Vegard Mella, Eric Piette, Matthew Stephenson, Cameron Browne, Olivier Teytaud(参考訳) 本稿では,alphazeroライクな自己プレイトレーニングセットアップにおける完全畳み込みアーキテクチャを用いて,ボードゲームと異なるゲーム間の転送を容易にする。 ludii汎用ゲームシステムの状態におけるチャネルの共有セマンティクスとアクション表現に基づいて、これらのアーキテクチャのトレーニングされたパラメータを転送する方法を検討する。 Ludiiの大規模なゲームライブラリとゲームバリエーションを使用して、幅広い転送学習評価、ゼロショット転送実験、および追加の微調整時間の実験に使用します。

In this paper, we use fully convolutional architectures in AlphaZero-like self-play training setups to facilitate transfer between variants of board games as well as distinct games. We explore how to transfer trained parameters of these architectures based on shared semantics of channels in the state and action representations of the Ludii general game system. We use Ludii's large library of games and game variants for extensive transfer learning evaluations, in zero-shot transfer experiments as well as experiments with additional fine-tuning time.
翻訳日:2021-02-25 13:28:12 公開日:2021-02-24
# 長期クレジット割り当てのための合成リターン

Synthetic Returns for Long-Term Credit Assignment ( http://arxiv.org/abs/2102.12425v1 )

ライセンス: Link先を確認
David Raposo, Sam Ritter, Adam Santoro, Greg Wayne, Theophane Weber, Matt Botvinick, Hado van Hasselt, Francis Song(参考訳) 強化学習の初期段階から、時間とともに行動にクレジットを割り当てるワークホースメソッドは、時間的差分学習(TD)であり、それはクレジットの後方のステップバイタイムステップを伝播させる。 このアプローチは、アクションと報酬の間の遅延が長く、無関係なイベントが長期のリターンにばらつきをもたらす場合に発生する。 そこで我々は,エージェントが国家と遠い将来の報酬の関連を任意に学習し,その間の信用を直接伝達する状態連想学習を提案する。 本研究では,過去状態の現在の報酬に対する貢献をモデル化するために,SAラーニングを用いる。 このモデルでは、各州の遠い未来への貢献を予測できます。これは「合成リターン」と呼ばれる量です。 TD学習は、これらの合成戻り値(SR)を最大化する選択アクションに適用できる。 TD学習だけで失敗するタスクの範囲でSRを用いたエージェントの増強の有効性を実証する。 学習されたSRは解釈可能であることを示し、重要なアクションが実行された後に発生する状態をスパイクする。 最後に、IMPALAベースのSRエージェントがAtari Skiingを解決したことを示します。Atari Skiingは、長い報酬遅延を持ち、ディープRLエージェントにとって大きなハードルとなりました。

Since the earliest days of reinforcement learning, the workhorse method for assigning credit to actions over time has been temporal-difference (TD) learning, which propagates credit backward timestep-by-timestep . This approach suffers when delays between actions and rewards are long and when intervening unrelated events contribute variance to long-term returns. We propose state-associative (SA) learning, where the agent learns associations between states and arbitrarily distant future rewards, then propagates credit directly between the two. In this work, we use SA-learning to model the contribution of past states to the current reward. With this model we can predict each state's contribution to the far future, a quantity we call "synthetic returns". TD-learning can then be applied to select actions that maximize these synthetic returns (SRs). We demonstrate the effectiveness of augmenting agents with SRs across a range of tasks on which TD-learning alone fails. We show that the learned SRs are interpretable: they spike for states that occur after critical actions are taken. Finally, we show that our IMPALA-based SR agent solves Atari Skiing -- a game with a lengthy reward delay that posed a major hurdle to deep-RL agents -- 25 times faster than the published state-of-the-art.
翻訳日:2021-02-25 13:28:02 公開日:2021-02-24
# 強化学習のための情報指向リワード学習

Information Directed Reward Learning for Reinforcement Learning ( http://arxiv.org/abs/2102.12466v1 )

ライセンス: Link先を確認
David Lindner and Matteo Turchetta and Sebastian Tschiatschek and Kamil Ciosek and Andreas Krause(参考訳) 多くの強化学習(RL)アプリケーションでは、報酬の指定は困難です。 本稿では,例えば,個々の状態を評価したり,トラジェクタよりもバイナリを優先したりできる専門家に問い合わせることで,エージェントが報酬に関する情報を得ることができるrl設定を考える。 このような高額なフィードバックから、標準的なRLアルゴリズムが可能な限り少数の専門家クエリで高い期待のリターンを達成することができるような報酬関数のモデルを学ぶことを目指している。 そこで本研究では, 報酬関数のベイズモデルを用いた情報指向報酬学習(IDRL)を提案し, 潜在的に最適な政策間のリターン差についての情報利得を最大化するクエリを選定する。 特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。 さらに、報酬近似誤差の低減から報酬モデルによるポリシーの改善に焦点を移すことで、クエリーを大幅に少なくして、同様のパフォーマンスまたはより良いパフォーマンスを実現します。 我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。

For many reinforcement learning (RL) applications, specifying a reward is difficult. In this paper, we consider an RL setting where the agent can obtain information about the reward only by querying an expert that can, for example, evaluate individual states or provide binary preferences over trajectories. From such expensive feedback, we aim to learn a model of the reward function that allows standard RL algorithms to achieve high expected return with as few expert queries as possible. For this purpose, we propose Information Directed Reward Learning (IDRL), which uses a Bayesian model of the reward function and selects queries that maximize the information gain about the difference in return between potentially optimal policies. In contrast to prior active reward learning methods designed for specific types of queries, IDRL naturally accommodates different query types. Moreover, by shifting the focus from reducing the reward approximation error to improving the policy induced by the reward model, it achieves similar or better performance with significantly fewer queries. We support our findings with extensive evaluations in multiple environments and with different types of queries.
翻訳日:2021-02-25 13:27:41 公開日:2021-02-24
# モーション生成へのシフト意識の学習

Learning to Shift Attention for Motion Generation ( http://arxiv.org/abs/2102.12141v1 )

ライセンス: Link先を確認
You Zhou and Jianfeng Gao and Tamim Asfour(参考訳) ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。 以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。 もう1つの難題は、作業スペース全体をカバーすることができない少数のデモンストレーションである。 この問題を解決するためには,外挿能力を有する運動生成モデルが必要である。 以前の作業では、タスククエリをローカルフレームとして制限し、ローカルフレームで表現を学ぶ。 両方の問題を解決するモデルを提案する。 複数のモードに対して,実数値非容積保存(realnvp)変換に基づく密度推定法を用いて,運動軌跡の局所的潜在表現を学習することを提案する。 外挿能力を向上させるために、タスク実行中にロボットの注意を1つのローカルフレームから別のフレームにシフトすることを提案する。 実験では、衝突することなく2つのdockerを接続するために軌道を生成する必要がある以前の作業でも、ドッキングの問題も考慮している。 タスクの複雑さを高め,提案手法が他の手法よりも優れていることを示す。 さらに,実際のロボット実験におけるアプローチを評価する。

One challenge of motion generation using robot learning from demonstration techniques is that human demonstrations follow a distribution with multiple modes for one task query. Previous approaches fail to capture all modes or tend to average modes of the demonstrations and thus generate invalid trajectories. The other difficulty is the small number of demonstrations that cannot cover the entire working space. To overcome this problem, a motion generation model with extrapolation ability is needed. Previous works restrict task queries as local frames and learn representations in local frames. We propose a model to solve both problems. For multiple modes, we suggest to learn local latent representations of motion trajectories with a density estimation method based on real-valued non-volume preserving (RealNVP) transformations that provides a set of powerful, stably invertible, and learnable transformations. To improve the extrapolation ability, we propose to shift the attention of the robot from one local frame to another during the task execution. In experiments, we consider the docking problem used also in previous works where a trajectory has to be generated to connect two dockers without collision. We increase complexity of the task and show that the proposed method outperforms other approaches. In addition, we evaluate the approach in real robot experiments.
翻訳日:2021-02-25 13:27:23 公開日:2021-02-24
# CoreDiag: 制約セットの冗長性を排除する

CoreDiag: Eliminating Redundancy in Constraint Sets ( http://arxiv.org/abs/2102.12151v1 )

ライセンス: Link先を確認
Alexander Felfernig and Christoph Zehentner and Paul Blazek(参考訳) コンフィグレーションシステム、レコメンデータシステム、スケジューリングシステムといった制約ベースの環境は、異なる意思決定シナリオでユーザをサポートする。 これらの環境は、ユーザの興味のあるソリューションを決定するための知識ベースを利用する。 このような知識ベースの開発とメンテナンスは非常に時間がかかり、エラーが発生しやすいタスクです。 ユーザはしばしば現実世界を反映しない制約を指定する。 例えば、冗長な制約が指定され、ソリューションを計算する努力と、知識ベースの開発とメンテナンスに関連する努力の両方が増加する。 本稿では,最小限のコア(最小限の非冗長制約集合)の決定に利用できる新しいアルゴリズムCoreDiagを提案する。 このアルゴリズムは、冗長性の度合いが高い分散知識工学シナリオにおいて特に有用である。 本手法の適用可能性を示すために, 商業的構成知識ベースを用いた実証的研究を実施した。

Constraint-based environments such as configuration systems, recommender systems, and scheduling systems support users in different decision making scenarios. These environments exploit a knowledge base for determining solutions of interest for the user. The development and maintenance of such knowledge bases is an extremely time-consuming and error-prone task. Users often specify constraints which do not reflect the real-world. For example, redundant constraints are specified which often increase both, the effort for calculating a solution and efforts related to knowledge base development and maintenance. In this paper we present a new algorithm (CoreDiag) which can be exploited for the determination of minimal cores (minimal non-redundant constraint sets). The algorithm is especially useful for distributed knowledge engineering scenarios where the degree of redundancy can become high. In order to show the applicability of our approach, we present an empirical study conducted with commercial configuration knowledge bases.
翻訳日:2021-02-25 13:27:06 公開日:2021-02-24
# WeeVis勧告環境における直接診断と修復技術の概要

An Overview of Direct Diagnosis and Repair Techniques in the WeeVis Recommendation Environment ( http://arxiv.org/abs/2102.12327v1 )

ライセンス: Link先を確認
Alexander Felfernig and Stefan Reiterer and Martin Stettinger and Michael Jeran(参考訳) 制約ベースのレコメンダーは、ユーザーの希望やニーズに合ったアイテム(製品)の識別をサポートします。 代表的な分野は金融サービスと電子機器である。 本稿では,コンフリクト検出が不要なディペンデント・アンド・コンカレント(直接)診断アルゴリズムを,制約ベースのレコメンデーションシナリオでどのように活用できるかを示す。 この文脈では、MediaWikiベースの推奨環境WeeVisの概要を提供します。

Constraint-based recommenders support users in the identification of items (products) fitting their wishes and needs. Example domains are financial services and electronic equipment. In this paper we show how divide-and-conquer based (direct) diagnosis algorithms (no conflict detection is needed) can be exploited in constraint-based recommendation scenarios. In this context, we provide an overview of the MediaWiki-based recommendation environment WeeVis.
翻訳日:2021-02-25 13:26:55 公開日:2021-02-24
# グループレコメンデーションシステムのための説明設計

Designing Explanations for Group Recommender Systems ( http://arxiv.org/abs/2102.12413v1 )

ライセンス: Link先を確認
A. Felfernig and N. Tintarev and T.N.T. Trang and M. Stettinger(参考訳) 様々な理由でレコメンデーションシステムで説明が用いられる。 ユーザは(高品質な)意思決定をより迅速に行うことをサポートする必要があります。 レコメンダーシステムの開発者は、特定のアイテムを購入するようにユーザーに説得したいです。 ユーザーは、レコメンダシステムがどのように機能し、なぜ特定のアイテムが推奨されたのかをよりよく理解する必要がある。 ユーザーはまた、アイテムドメインのより詳細な理解を開発するべきです。 したがって、レコメンデーションの透明性を高めたり、レコメンデーションシステムに対するユーザの信頼を高めるなど、特定の \emph{goals} を達成するために説明がデザインされる。 本稿では,レコメンデーションシステムにおける説明に関する既存の研究の概要を述べるとともに,グループレコメンデーションのシナリオに関する側面を具体的に論じる。 この文脈では,選好アグリゲーション戦略に基づいて決定されるレコメンデーションの説明と視覚化の異なる方法を提案する。

Explanations are used in recommender systems for various reasons. Users have to be supported in making (high-quality) decisions more quickly. Developers of recommender systems want to convince users to purchase specific items. Users should better understand how the recommender system works and why a specific item has been recommended. Users should also develop a more in-depth understanding of the item domain. Consequently, explanations are designed in order to achieve specific \emph{goals} such as increasing the transparency of a recommendation or increasing a user's trust in the recommender system. In this paper, we provide an overview of existing research related to explanations in recommender systems, and specifically discuss aspects relevant to group recommendation scenarios. In this context, we present different ways of explaining and visualizing recommendations determined on the basis of preference aggregation strategies.
翻訳日:2021-02-25 13:26:48 公開日:2021-02-24
# 一般化ナッシュゲームにおける逆最適化によるコスト関数の学習

Using Inverse Optimization to Learn Cost Functions in Generalized Nash Games ( http://arxiv.org/abs/2102.12415v1 )

ライセンス: Link先を確認
Stephanie Allen and John P. Dickerson and Steven A. Gabriel(参考訳) Ratliffらによって実証された。 (2014)では,マルチプレイヤーナッシュゲームにおけるプレイヤーの目的関数パラメータの復元に逆最適化を用いることができる。 これらのゲームは、プレイヤーが客観的機能において互いに影響を及ぼすことのできる複数のプレイヤーの最適化問題を含む。 一般化されたナッシュ平衡問題(GNEPs)では、プレイヤーの可能なアクションのセットは、ゲーム内の他のプレイヤーが行った行動によっても影響されます。 このような影響の1つの例は、rosen (1965)、harker (1991)、facchinei et alによって参照されるジョイント/"結合"制約の形式である。 (2007年) 実現可能領域の制約に他のプレイヤーの変数が関与する。 Ratliff et al.のフレームワークを拡張します。 (2014)共同制約のあるGNEPのクラスのための逆最適化ソリューションを見つける。 得られた定式化は、道路網上の模擬マルチプレイヤー輸送問題に適用される。 また、拡張フレームワークのランタイムに関するこの輸送問題と、シミュレーション実験におけるソリューションの特異性と非特異性に関する理論的結果も提示する。 私たちのモデルは、元のパラメータ化と同じフローパターンを生成するパラメータ化を回復し、これは複数のネットワーク、プレイヤーの知覚コストに関するさまざまな仮定、および制限容量設定および関連するプレーヤーの数に当てはまります。 プロジェクトのコードはhttps://github.com/s allen7/io_gnep.com/で確認できる。

As demonstrated by Ratliff et al. (2014), inverse optimization can be used to recover the objective function parameters of players in multi-player Nash games. These games involve the optimization problems of multiple players in which the players can affect each other in their objective functions. In generalized Nash equilibrium problems (GNEPs), a player's set of feasible actions is also impacted by the actions taken by other players in the game; see Facchinei and Kanzow (2010) for more background on this problem. One example of such impact comes in the form of joint/"coupled" constraints as referenced by Rosen (1965), Harker (1991), and Facchinei et al. (2007) which involve other players' variables in the constraints of the feasible region. We extend the framework of Ratliff et al. (2014) to find inverse optimization solutions for the class of GNEPs with joint constraints. The resulting formulation is then applied to a simulated multi-player transportation problem on a road network. Also, we provide some theoretical results related to this transportation problem regarding runtime of the extended framework as well as uniqueness and non-uniqueness of solutions to our simulation experiments. We see that our model recovers parameterizations that produce the same flow patterns as the original parameterizations and that this holds true across multiple networks, different assumptions regarding players' perceived costs, and the majority of restrictive capacity settings and the associated numbers of players. Code for the project can be found at: https://github.com/s allen7/IO_GNEP.
翻訳日:2021-02-25 13:26:37 公開日:2021-02-24
# 騒音)慣性測定による膝の重み付きコーンビームCTの剛性および非剛性運動補償

Rigid and non-rigid motion compensation in weight-bearing cone-beam CT of the knee using (noisy) inertial measurements ( http://arxiv.org/abs/2102.12418v1 )

ライセンス: Link先を確認
Jennifer Maier, Marlies Nitschke, Jang-Hwan Choi, Garry Gold, Rebecca Fahrig, Bjoern M. Eskofier, Andreas Maier(参考訳) 不随意の主題運動は膝の重量に耐えるコーン ビームCTの人工物の主要な源です。 臨床診断のための画像品質を得るためには,運動を補正する必要がある。 動作推定には慣性計測装置(IMU)を脚に装着することを提案する。 光追跡システムで記録された実動作を用いてシミュレーション研究を行う。 IMUに基づく3つの補正手法,すなわち剛性運動補正,非剛性2次元投影変形,非剛性3次元動的再構成を評価した。 本稿では,システム幾何に基づく初期化プロセスを提案する。 In a IMU noise Simulation, we investigated the application of the proposed method in real applications。 すべての提案されたIMUベースのアプローチは、少なくとも最先端のマーカーベースのアプローチと同じくらい正しい動きを補正します。 構造類似度指数と運動自由量と運動補正量との2乗誤差は, 補正されていない場合と比較してそれぞれ24~35%, 78~85%向上した。 ノイズ分析は、市販のIMUのノイズレベルを10^5$の係数で改善する必要があることを示しています。 本研究は,本手法の実現可能性を確認し,実アプリケーションに必要な改善を定義する。

Involuntary subject motion is the main source of artifacts in weight-bearing cone-beam CT of the knee. To achieve image quality for clinical diagnosis, the motion needs to be compensated. We propose to use inertial measurement units (IMUs) attached to the leg for motion estimation. We perform a simulation study using real motion recorded with an optical tracking system. Three IMU-based correction approaches are evaluated, namely rigid motion correction, non-rigid 2D projection deformation and non-rigid 3D dynamic reconstruction. We present an initialization process based on the system geometry. With an IMU noise simulation, we investigate the applicability of the proposed methods in real applications. All proposed IMU-based approaches correct motion at least as good as a state-of-the-art marker-based approach. The structural similarity index and the root mean squared error between motion-free and motion corrected volumes are improved by 24-35% and 78-85%, respectively, compared with the uncorrected case. The noise analysis shows that the noise levels of commercially available IMUs need to be improved by a factor of $10^5$ which is currently only achieved by specialized hardware not robust enough for the application. The presented study confirms the feasibility of this novel approach and defines improvements necessary for a real application.
翻訳日:2021-02-25 13:25:55 公開日:2021-02-24
# Eコマース機械学習におけるプロダクト埋め込みの理論的理解

Theoretical Understandings of Product Embedding for E-commerce Machine Learning ( http://arxiv.org/abs/2102.12029v1 )

ライセンス: Link先を確認
Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan(参考訳) 製品埋め込みはここ数年で大きく研究され、eコマースにおける幅広い機械学習アプリケーションの基礎となっている。 製品埋め込みの実証的な成功にもかかわらず、どのように、なぜそれらが理論的な観点から働くのかは、ほとんど分かっていない。 自然言語処理(NLP)によるアナログな結果はしばしば、eコマース環境に転送できないドメイン固有のプロパティに依存し、下流のタスクは埋め込みの異なる側面にフォーカスすることが多い。 我々は,製品埋め込みのeコマース指向の視点を捉え,表現学習と学習理論の両面から完全に理論的視点を明らかにする。 私たちは、広く採用されているスキップグラムネガティブサンプリングアルゴリズムとそのバリエーションによって訓練された製品埋め込みが、重要な製品関連測定に関する十分な寸法減少であることを証明します。 下流機械学習タスクにおける一般化性能は、埋め込みと製品関連度尺度とのアライメントによって制御される。 理論的発見に続いて,製品埋め込みに関する理論的洞察を支援する探索実験を行う。

Product embeddings have been heavily investigated in the past few years, serving as the cornerstone for a broad range of machine learning applications in e-commerce. Despite the empirical success of product embeddings, little is known on how and why they work from the theoretical standpoint. Analogous results from the natural language processing (NLP) often rely on domain-specific properties that are not transferable to the e-commerce setting, and the downstream tasks often focus on different aspects of the embeddings. We take an e-commerce-oriented view of the product embeddings and reveal a complete theoretical view from both the representation learning and the learning theory perspective. We prove that product embeddings trained by the widely-adopted skip-gram negative sampling algorithm and its variants are sufficient dimension reduction regarding a critical product relatedness measure. The generalization performance in the downstream machine learning task is controlled by the alignment between the embeddings and the product relatedness measure. Following the theoretical discoveries, we conduct exploratory experiments that supports our theoretical insights for the product embeddings.
翻訳日:2021-02-25 13:24:50 公開日:2021-02-24
# FIXAR: 量子化学習と適応並列性を備えた固定点深層強化学習プラットフォーム

FIXAR: A Fixed-Point Deep Reinforcement Learning Platform with Quantization-Aware Training and Adaptive Parallelism ( http://arxiv.org/abs/2102.12103v1 )

ライセンス: Link先を確認
Je Yang, Seongmin Hong, Joo-Young Kim(参考訳) 本稿では,固定点データ型と演算ユニットを,sw/hw共同設計手法を用いて初めて使用する,fixarと呼ばれる深層強化学習プラットフォームを提案する。 32ビットの固定点データから始めると、Quantization-Aware Training (QAT)はアクティベーションの範囲に基づいてデータ精度を削減し、報酬の劣化を最小限に抑えるために再トレーニングを行う。 fixarは、高スループット推論とトレーニングのための層内並列性とバッチ内並列性の両方をサポートする構成可能な処理要素で構成される適応配列処理コアを提案する。 最後に、FIXARはXilinx U50で実装され、25293.3秒(IPS)のトレーニングスループットと2638.0のIPS/Wアクセラレータ効率を達成した。

In this paper, we present a deep reinforcement learning platform named FIXAR which employs fixed-point data types and arithmetic units for the first time using a SW/HW co-design approach. Starting from 32-bit fixed-point data, Quantization-Aware Training (QAT) reduces its data precision based on the range of activations and performs retraining to minimize the reward degradation. FIXAR proposes the adaptive array processing core composed of configurable processing elements to support both intra-layer parallelism and intra-batch parallelism for high-throughput inference and training. Finally, FIXAR was implemented on Xilinx U50 and achieves 25293.3 inferences per second (IPS) training throughput and 2638.0 IPS/W accelerator efficiency, which is 2.7 times faster and 15.4 times more energy efficient than those of the CPU-GPU platform without any accuracy degradation.
翻訳日:2021-02-25 13:24:35 公開日:2021-02-24
# ロバストニューラルネットワーク最適化のための乗算重み付け

Multiplicative Reweighting for Robust Neural Network Optimization ( http://arxiv.org/abs/2102.12192v1 )

ライセンス: Link先を確認
Noga Bar, Tomer Koren, Raja Giryes(参考訳) ディープニューラルネットワークは、その強力なパフォーマンスのために広く普及している。 しかし、列車の時間帯にノイズのあるラベルや、推論中の逆の例がある場合、パフォーマンスが低下する。 近年,多元的重み付け(MW)更新が中程度の敵の腐敗に対して堅牢であることを示す専門家のアドバイスによる学習の設定に着想を得て,ニューラルネットワーク最適化における例の再重み付けにMWを用いることを提案する。 勾配降下を用いた場合の手法の収束性を確立し、その利点を2つの簡単な例で示す。 CIFAR-10, CIFAR-100, Clothing1Mのラベルノイズの存在下で, MWはネットワークの精度を向上し, 敵攻撃に対する堅牢性が向上することを示した。

Deep neural networks are widespread due to their powerful performance. Yet, they suffer from degraded performance in the presence of noisy labels at train time or adversarial examples during inference. Inspired by the setting of learning with expert advice, where multiplicative weights (MW) updates were recently shown to be robust to moderate adversarial corruptions, we propose to use MW for reweighting examples during neural networks optimization. We establish the convergence of our method when used with gradient descent and demonstrate its advantage in two simple examples. We then validate empirically our findings by showing that MW improves network's accuracy in the presence of label noise on CIFAR-10, CIFAR-100 and Clothing1M, and that it leads to better robustness to adversarial attacks.
翻訳日:2021-02-25 13:24:16 公開日:2021-02-24
# アーベルニューラルネットワーク

Abelian Neural Networks ( http://arxiv.org/abs/2102.12232v1 )

ライセンス: Link先を確認
Kenshin Abe and Takanori Maehara and Issei Sato(参考訳) 代数的要求を満たす二元演算をモデル化する問題について検討する。 まず、アベリア群演算のためのニューラルネットワークアーキテクチャを構築し、普遍近似特性を導出する。 次に、連想対称多項式の特性を用いて、アベリア半群演算に拡張する。 どちらのモデルも、可逆ニューラルネットワークの解析的可逆性を利用する。 いずれの場合も、二項演算を繰り返すことによって、代数構造のおかげで多重集合入力の関数を表現できる。 当然、我々のマルチセットアーキテクチャは、既存の手法では得られていない大きさの一般化能力を持っている。 さらに,単語類似タスクにおいて,アベリア群演算自体のモデル化が有用であることを示す。 固定単語埋め込み上でモデルをトレーニングし、元のWord2vecと別のナイーブな学習方法よりも優れた性能を示す。

We study the problem of modeling a binary operation that satisfies some algebraic requirements. We first construct a neural network architecture for Abelian group operations and derive a universal approximation property. Then, we extend it to Abelian semigroup operations using the characterization of associative symmetric polynomials. Both models take advantage of the analytic invertibility of invertible neural networks. For each case, by repeating the binary operations, we can represent a function for multiset input thanks to the algebraic structure. Naturally, our multiset architecture has size-generalization ability, which has not been obtained in existing methods. Further, we present modeling the Abelian group operation itself is useful in a word analogy task. We train our models over fixed word embeddings and demonstrate improved performance over the original word2vec and another naive learning method.
翻訳日:2021-02-25 13:24:00 公開日:2021-02-24
# Graphfool:Graph Embedding上のターゲットラベル逆アタック

Graphfool: Targeted Label Adversarial Attack on Graph Embedding ( http://arxiv.org/abs/2102.12284v1 )

ライセンス: Link先を確認
Jinyin Chen, Xiang Lin, Dunjie Zhang, Wenrong Jiang, Guohan Huang, Hui Xiong, and Yun Xiang(参考訳) 深層学習はグラフ解析に有効である。 リンク予測、ノード分類、コミュニティ検出、グラフ分類など、多くの関連分野で広く適用されています。 グラフの頂点や辺の低次元表現を学習するグラフ埋め込みは通常、埋め込みベクトルを導出するために深いモデルを用いる。 しかし、これらのモデルは脆弱です。 ディープモデルに基づくグラフ埋め込み手法は、逆例を用いて容易に攻撃できると考えます。 そこで本稿では,グラフ埋め込みに対する新たなラベル対逆攻撃であるGraphfoolを提案する。 グラフ畳み込みネットワーク(gcn)で境界情報と勾配情報を分類することで、グラフ埋め込みメソッドを攻撃するための逆グラフを生成することができる。 具体的には、次のステップを実行する: 1)、まず、異なるクラスの分類境界を推定する。 2) 最小摂動行列を計算し, 対象の分類境界に従って攻撃された頂点を誤分類する。 3)、私達は妨害のマトリックスの最大絶対値に従って隣接のマトリックスを変更します。 このプロセスは反復的に実装される。 私たちの知る限りでは、これは最初の標的ラベル攻撃技術です。 実世界のグラフネットワークの実験は、Graphfoolが最先端技術よりも優れたパフォーマンスを得られることを示した。 第2のアルゴリズムと比較して、graphfoolは攻撃成功率の平均11.44%の改善を達成できる。

Deep learning is effective in graph analysis. It is widely applied in many related areas, such as link prediction, node classification, community detection, and graph classification etc. Graph embedding, which learns low-dimensional representations for vertices or edges in the graph, usually employs deep models to derive the embedding vector. However, these models are vulnerable. We envision that graph embedding methods based on deep models can be easily attacked using adversarial examples. Thus, in this paper, we propose Graphfool, a novel targeted label adversarial attack on graph embedding. It can generate adversarial graph to attack graph embedding methods via classifying boundary and gradient information in graph convolutional network (GCN). Specifically, we perform the following steps: 1),We first estimate the classification boundaries of different classes. 2), We calculate the minimal perturbation matrix to misclassify the attacked vertex according to the target classification boundary. 3), We modify the adjacency matrix according to the maximal absolute value of the disturbance matrix. This process is implemented iteratively. To the best of our knowledge, this is the first targeted label attack technique. The experiments on real-world graph networks demonstrate that Graphfool can derive better performance than state-of-art techniques. Compared with the second best algorithm, Graphfool can achieve an average improvement of 11.44% in attack success rate.
翻訳日:2021-02-25 13:23:50 公開日:2021-02-24
# MAPFAST: 短経路埋め込みを用いたマルチエージェントパス探索のためのディープアルゴリズムセレクタ

MAPFAST: A Deep Algorithm Selector for Multi Agent Path Finding using Shortest Path Embeddings ( http://arxiv.org/abs/2102.12461v1 )

ライセンス: Link先を確認
Jingyao Ren, Vikraman Sathiyanarayanan, Eric Ewing, Baskin Senbaslar and Nora Ayanian(参考訳) マルチエージェントパス探索(mapf)問題を最適に解くことは、メイクスパンと全到着時間の最小化の両方においてnpハードであることが知られている。 MAPF問題を解決するために多くのアルゴリズムが開発されているが、すべてのタイプの問題でうまく機能する最適なMAPFアルゴリズムは存在せず、どのアルゴリズムを使用するための標準ガイドラインも存在しない。 本研究では, mapf問題インスタンスを取り込んで, アルゴリズムのポートフォリオから最も高速なアルゴリズムを選択しようとする, ディープ畳み込みネットワークmapfast (multi-agent path find algorithm selector) を開発した。 モデルに与えられたインスタンス埋め込みに単一エージェント最短パスを含めることと、分類損失に加えて補足損失関数を利用することで、モデルのパフォーマンスを向上させます。 我々はMAPFインスタンスの大規模かつ多種多様なデータセット上でモデルを評価し、そのポートフォリオにおける個々のアルゴリズムと最先端のMAPFアルゴリズムセレクタよりも優れていることを示す。 また,mapfアルゴリズムの強みと弱みをより深く理解し,他の研究者がアルゴリズム設計において異なるヒューリスティックスを活用するのを助けるために,データセット内のアルゴリズム挙動の解析も行う。

Solving the Multi-Agent Path Finding (MAPF) problem optimally is known to be NP-Hard for both make-span and total arrival time minimization. While many algorithms have been developed to solve MAPF problems, there is no dominating optimal MAPF algorithm that works well in all types of problems and no standard guidelines for when to use which algorithm. In this work, we develop the deep convolutional network MAPFAST (Multi-Agent Path Finding Algorithm SelecTor), which takes a MAPF problem instance and attempts to select the fastest algorithm to use from a portfolio of algorithms. We improve the performance of our model by including single-agent shortest paths in the instance embedding given to our model and by utilizing supplemental loss functions in addition to a classification loss. We evaluate our model on a large and diverse dataset of MAPF instances, showing that it outperforms all individual algorithms in its portfolio as well as the state-of-the-art optimal MAPF algorithm selector. We also provide an analysis of algorithm behavior in our dataset to gain a deeper understanding of optimal MAPF algorithms' strengths and weaknesses to help other researchers leverage different heuristics in algorithm designs.
翻訳日:2021-02-25 13:23:32 公開日:2021-02-24
# オンライン変動ベイズ回帰法

Sparse online variational Bayesian regression ( http://arxiv.org/abs/2102.12261v1 )

ライセンス: Link先を確認
Kody J. H. Law and Vitaly Zankin(参考訳) この研究では、ばらつきベイズ推論は、完全ベイズアプローチに代わる安価でスケーラブルな代替として、スパーシティー推進優先の文脈で検討する。 特に、一般化逆ガウス混合分布を持つ正規分布のスケール混合から考慮される優先度は生じる。 これには[56]で導入されたベイズ式LASSOに代わる安価でスケーラブルな代替品として、変分ベイズ式LASSOが含まれる。 また、より親しみを強く促進する前科も含んでいる。 線形モデルの場合、この方法は決定論的最小二乗問題の反復解のみを必要とする。 さらに、$n\rightarrow \infty$ data points と p unknown covariates に対して、計算で o(p$^3$) とメモリで o(p$^2$) のコストで正確にオンラインに実装することができる。 大きな p の場合、近似は計算とメモリの両方において o(p) のコストの有望な結果が得られる。 ハイパーパラメータチューニングの戦略も検討されている。 この方法は実データやシミュレーションデータに対して実装される。 変分ベイズ型LASSOの変分選択と不確実性定量化の観点での性能は,その手法で抽出可能な問題に対してベイズ式LASSOに匹敵するものであり,コストのごく一部であることを示す。 本手法は,n = p = 131,073を数分で処理し,n = 10$^5$,p = 10$^6$を一晩で処理する。

This work considers variational Bayesian inference as an inexpensive and scalable alternative to a fully Bayesian approach in the context of sparsity-promoting priors. In particular, the priors considered arise from scale mixtures of Normal distributions with a generalized inverse Gaussian mixing distribution. This includes the variational Bayesian LASSO as an inexpensive and scalable alternative to the Bayesian LASSO introduced in [56]. It also includes priors which more strongly promote sparsity. For linear models the method requires only the iterative solution of deterministic least squares problems. Furthermore, for $n\rightarrow \infty$ data points and p unknown covariates the method can be implemented exactly online with a cost of O(p$^3$) in computation and O(p$^2$) in memory. For large p an approximation is able to achieve promising results for a cost of O(p) in both computation and memory. Strategies for hyper-parameter tuning are also considered. The method is implemented for real and simulated data. It is shown that the performance in terms of variable selection and uncertainty quantification of the variational Bayesian LASSO can be comparable to the Bayesian LASSO for problems which are tractable with that method, and for a fraction of the cost. The present method comfortably handles n = p = 131,073 on a laptop in minutes, and n = 10$^5$, p = 10$^6$ overnight.
翻訳日:2021-02-25 13:22:16 公開日:2021-02-24
# ニューラルネットワークによる最適マルチグリッドスムースラーの学習

Learning optimal multigrid smoothers via neural networks ( http://arxiv.org/abs/2102.12071v1 )

ライセンス: Link先を確認
Ru Huang, Ruipeng Li, Yuanzhe Xi(参考訳) マルチグリッド法は、機械学習アプリケーションから部分微分方程式(PDE)とグラフラプラシアンから生じる線形システムを解くための最も効率的な技術の1つです。 マルチグリッドの重要なコンポーネントの1つは、各グリッドレベルの高周波エラーを減らすことを目的としたスムージングです。 しかし、最適な平滑化アルゴリズムを見つけることは問題に依存し、多くの問題に課題を課す可能性があります。 本稿では,畳み込みニューラルネットワーク(cnns)を用いて,演算子ステンシルから最適化スムーサを学習するための効率的な適応フレームワークを提案する。 CNNは、多重グリッド収束理論から導かれる教師付き損失関数に基づいて、与えられた種類のPDEから小規模の問題を訓練し、同じ種類のPDEの大規模問題に適用することができる。 異方性回転ラプラシアン問題に対する数値解は, 従来の手作り緩和法と比較して収束率と解時間の向上を示した。

Multigrid methods are one of the most efficient techniques for solving linear systems arising from Partial Differential Equations (PDEs) and graph Laplacians from machine learning applications. One of the key components of multigrid is smoothing, which aims at reducing high-frequency errors on each grid level. However, finding optimal smoothing algorithms is problem-dependent and can impose challenges for many problems. In this paper, we propose an efficient adaptive framework for learning optimized smoothers from operator stencils in the form of convolutional neural networks (CNNs). The CNNs are trained on small-scale problems from a given type of PDEs based on a supervised loss function derived from multigrid convergence theories, and can be applied to large-scale problems of the same class of PDEs. Numerical results on anisotropic rotated Laplacian problems demonstrate improved convergence rates and solution time compared with classical hand-crafted relaxation methods.
翻訳日:2021-02-25 13:21:28 公開日:2021-02-24
# 高効率プライベートローカルランダム化器のロスレス圧縮

Lossless Compression of Efficient Private Local Randomizers ( http://arxiv.org/abs/2102.12099v1 )

ライセンス: Link先を確認
Vitaly Feldman and Kunal Talwar(参考訳) Locally Differentially Private (LDP) Reportsは、フェデレーション設定における統計と機械学習の収集に一般的に使用されます。 多くの場合、最もよく知られたldpアルゴリズムは、クライアントデバイスからサーバへ(大きなドメイン上でヒストグラムを構築する場合や高次元モデルを学ぶ場合など)、非常に大きなメッセージを送らなければなりません。 これにより、LDPアルゴリズムの通信コストの削減に大きく貢献しています。 同時に、ldpレポートはランダム化によってユーザーのデータに関する情報が比較的少ないことが知られている。 いくつかのスキームは、この事実を利用してLDPアルゴリズムの低コミュニケーションバージョンを設計することが知られているが、これら全てはユーティリティーの大幅な損失を犠牲にしている。 ここでは,標準的な暗号仮定の下で,プライバシとユーティリティの保証を損なうことなく,すべての効率的なldpアルゴリズムを圧縮する一般的なアプローチを示す。 この結果の実際的な意味は、典型的なアプリケーションでは、メッセージはサーバの疑似randomジェネレータシードのサイズに圧縮できるということです。 より一般に、LDPランダム化器の特性と、LDPランダム化器を圧縮するのに十分である擬似ランダム生成器のパワーを関連付ける。 本稿では,周波数推定問題と高次元平均推定問題に対する低コミュニケーションアルゴリズムを導出する。 当社のアルゴリズムは、これらのよく研究された問題に対する既存の低通信LDPアルゴリズムよりもシンプルで正確です。

Locally Differentially Private (LDP) Reports are commonly used for collection of statistics and machine learning in the federated setting. In many cases the best known LDP algorithms require sending prohibitively large messages from the client device to the server (such as when constructing histograms over large domain or learning a high-dimensional model). This has led to significant efforts on reducing the communication cost of LDP algorithms. At the same time LDP reports are known to have relatively little information about the user's data due to randomization. Several schemes are known that exploit this fact to design low-communication versions of LDP algorithm but all of them do so at the expense of a significant loss in utility. Here we demonstrate a general approach that, under standard cryptographic assumptions, compresses every efficient LDP algorithm with negligible loss in privacy and utility guarantees. The practical implication of our result is that in typical applications the message can be compressed to the size of the server's pseudo-random generator seed. More generally, we relate the properties of an LDP randomizer to the power of a pseudo-random generator that suffices for compressing the LDP randomizer. From this general approach we derive low-communication algorithms for the problems of frequency estimation and high-dimensional mean estimation. Our algorithms are simpler and more accurate than existing low-communication LDP algorithms for these well-studied problems.
翻訳日:2021-02-25 13:21:14 公開日:2021-02-24
# 心拍異常検出のための自動特徴抽出

Automatic Feature Extraction for Heartbeat Anomaly Detection ( http://arxiv.org/abs/2102.12289v1 )

ライセンス: Link先を確認
Robert-George Colt and Csongor-Huba V\'arady and Riccardo Volpi and Luigi Malag\`o(参考訳) 医療における異常検出の応用を目的とした、生音声の心拍音の自動抽出に着目する。 1D非因果的畳み込みエンコーダと、最大平均差分法(MMD)を用いて変分推論に基づいて修正された目的を訓練したWaveNetデコーダによる自動エンコーダを用いて特徴を学習する。 さらに,gaussian chaingraphic modelを用いた潜在分布をモデル化し,符号化信号を特徴付ける時間相関を捉える。 教師なしの方法でオートエンコーダを訓練した後、SVMを訓練して異常を予測し、学習した潜在表現の重要性を検証した。 PASCAL Classification Heart Sounds Challengeで提案した課題に対する手法の評価を行い,本研究の結果と比較した。

We focus on automatic feature extraction for raw audio heartbeat sounds, aimed at anomaly detection applications in healthcare. We learn features with the help of an autoencoder composed by a 1D non-causal convolutional encoder and a WaveNet decoder trained with a modified objective based on variational inference, employing the Maximum Mean Discrepancy (MMD). Moreover we model the latent distribution using a Gaussian chain graphical model to capture temporal correlations which characterize the encoded signals. After training the autoencoder on the reconstruction task in a unsupervised manner, we test the significance of the learned latent representations by training an SVM to predict anomalies. We evaluate the methods on a problem proposed by the PASCAL Classifying Heart Sounds Challenge and we compare with results in the literature.
翻訳日:2021-02-25 13:20:55 公開日:2021-02-24
# 対話型会話エージェントへのジェスチャ生成モデル統合のためのフレームワーク

A Framework for Integrating Gesture Generation Models into Interactive Conversational Agents ( http://arxiv.org/abs/2102.12302v1 )

ライセンス: Link先を確認
Rajmund Nagy, Taras Kucherenko, Birger Moell, Andr\'e Pereira, Hedvig Kjellstr\"om and Ulysses Bernardet(参考訳) Embodied conversational agent (ECA) は、自然かつ効率的なユーザとの対話において、非言語行動の恩恵を受ける。 発話に伴う手と腕の動きは、非言語行動の不可欠な部分である。 ジェスチャー生成モデルは数十年前から開発されており、ルールベースから始まり、主にデータ駆動メソッドで終わる。 これまで,ユーザとのリアルタイムインタラクションにおいて,最近のジェスチャー生成手法は評価されていない。 本稿では,現代のジェスチャ生成モデルの評価を容易にする概念実証フレームワークを提案する。 1)対話型エージェント,2)チャットボットバックエンド,3)ジェスチャーシステム,の3つのコンポーネントを含む拡張可能なオープンソースフレームワークを実演する。 各コンポーネントを置き換えることができ、異なる通信モダリティ、チャットボットバックエンド、あるいは異なるエージェント外観とのリアルタイムインタラクションにおける異なるジェスチャーモデルの効果を調査するためのフレームワークが提案される。 コードとビデオはプロジェクトページhttps://nagyrajmund. github.io/project/ge sturebotで見ることができる。

Embodied conversational agents (ECAs) benefit from non-verbal behavior for natural and efficient interaction with users. Gesticulation - hand and arm movements accompanying speech - is an essential part of non-verbal behavior. Gesture generation models have been developed for several decades: starting with rule-based and ending with mainly data-driven methods. To date, recent end-to-end gesture generation methods have not been evaluated in a real-time interaction with users. We present a proof-of-concept framework, which is intended to facilitate evaluation of modern gesture generation models in interaction. We demonstrate an extensible open-source framework that contains three components: 1) a 3D interactive agent; 2) a chatbot backend; 3) a gesticulating system. Each component can be replaced, making the proposed framework applicable for investigating the effect of different gesturing models in real-time interactions with different communication modalities, chatbot backends, or different agent appearances. The code and video are available at the project page https://nagyrajmund. github.io/project/ge sturebot.
翻訳日:2021-02-25 13:20:39 公開日:2021-02-24
# 力学系に対する現代クープマン理論

Modern Koopman Theory for Dynamical Systems ( http://arxiv.org/abs/2102.12086v1 )

ライセンス: Link先を確認
Steven L. Brunton, Marko Budi\v{s}i\'c, Eurika Kaiser, J. Nathan Kutz(参考訳) 力学系の分野は、現代のコンピューティングとデータサイエンスから生まれる数学的なツールとアルゴリズムによって変化しています。 第一原理の導出と漸近的還元は、演算子理論または確率的フレームワークでモデルを定式化するデータ駆動アプローチへの道を与えている。 クープマンスペクトル理論は、過去10年間に支配的な視点として出現し、非線形力学は、システムのすべての可能な測定関数の空間に作用する無限次元線形作用素の観点で表される。 この非線形力学の線形表現は、線形系向けに開発された標準教科書法を用いて非線形システムの予測、推定、制御を可能にする大きな可能性を秘めている。 しかし、有限次元座標系とダイナミクスがほぼ直線的に現れる埋め込みを得ることは、依然として中心的なオープンな課題である。 クープマン解析の成功は主に3つの主要な要因による: 1) 力学系の古典幾何学的アプローチと結びつく厳密な理論が存在し、2) アプローチは測定の観点で定式化され、ビッグデータと機械学習技術を活用するのに理想的であり、3) 動的モード分解(DMD)のような単純で強力な数値アルゴリズムが開発され、拡張され、クープマン理論が現実の応用に応用されるように縮小された。 本稿では,現代クープマン作用素論の概要を概説し,近年の理論的・アルゴリズム的発展を概説し,これらの手法を多種多様な応用で強調する。 また、機械学習の急速に成長している分野における重要な進歩と課題について論じ、将来の発展を促進し、力学系の理論的展望を著しく変えている。

The field of dynamical systems is being transformed by the mathematical tools and algorithms emerging from modern computing and data science. First-principles derivations and asymptotic reductions are giving way to data-driven approaches that formulate models in operator theoretic or probabilistic frameworks. Koopman spectral theory has emerged as a dominant perspective over the past decade, in which nonlinear dynamics are represented in terms of an infinite-dimensional linear operator acting on the space of all possible measurement functions of the system. This linear representation of nonlinear dynamics has tremendous potential to enable the prediction, estimation, and control of nonlinear systems with standard textbook methods developed for linear systems. However, obtaining finite-dimensional coordinate systems and embeddings in which the dynamics appear approximately linear remains a central open challenge. The success of Koopman analysis is due primarily to three key factors: 1) there exists rigorous theory connecting it to classical geometric approaches for dynamical systems, 2) the approach is formulated in terms of measurements, making it ideal for leveraging big-data and machine learning techniques, and 3) simple, yet powerful numerical algorithms, such as the dynamic mode decomposition (DMD), have been developed and extended to reduce Koopman theory to practice in real-world applications. In this review, we provide an overview of modern Koopman operator theory, describing recent theoretical and algorithmic developments and highlighting these methods with a diverse range of applications. We also discuss key advances and challenges in the rapidly growing field of machine learning that are likely to drive future developments and significantly transform the theoretical landscape of dynamical systems.
翻訳日:2021-02-25 13:20:24 公開日:2021-02-24
# 無線によるフェデレーションエッジ学習:コンバージェンスと電力伝達の最適トレードオフ

Wirelessly Powered Federated Edge Learning: Optimal Tradeoffs Between Convergence and Power Transfer ( http://arxiv.org/abs/2102.12357v1 )

ライセンス: Link先を確認
Qunsong Zeng, Yuqing Du, Kaibin Huang(参考訳) Federated Edge Learning(FEEL)は、エッジデバイスで分散的に人工知能(AI)モデルをトレーニングし、データのプライバシーを維持しながらデータを活用するための広く採用されているフレームワークです。 エネルギー制約のあるデバイスにおけるパワーハングリー学習タスクの実行は、FEELの実装に直面する重要な課題である。 この課題に取り組むために、無線電力伝送(WPT)を用いた電源装置のソリューションを提案します。 結果として生じるワイヤレス電源FEEL(WP-FEEL)システムの展開ガイドラインを導出するために、本研究では、モデル収束と電源の設定の間のトレードオフを、2つのシナリオで導出することを目指しています。1) 電源ビーコン(専用充電ステーション)の送信電力と密度、または2) サーバーの送信電力(アクセスポイント)。 提案された解析フレームワークの開発は、分散確率勾配推定の精度をWPT設定、通信とWPTリンクの両方におけるランダム性、およびデバイスの計算能力と関連している。 さらに、装置の局所計算(ミニバッチサイズとプロセッサクロック周波数)を最適化し、収穫エネルギーを効率よく勾配推定に利用する。 結果として得られた学習-wptトレードオフは、転送エネルギーおよび装置の計算エネルギー効率に関するモデルコンバージェンス率の単純なスケーリング則を明らかにする。 その結果、WPTプロビジョニングに関する有用なガイドラインを提供し、学習パフォーマンスの保証を提供します。 実際のデータセットを使って実験結果と相関する。

Federated edge learning (FEEL) is a widely adopted framework for training an artificial intelligence (AI) model distributively at edge devices to leverage their data while preserving their data privacy. The execution of a power-hungry learning task at energy-constrained devices is a key challenge confronting the implementation of FEEL. To tackle the challenge, we propose the solution of powering devices using wireless power transfer (WPT). To derive guidelines on deploying the resultant wirelessly powered FEEL (WP-FEEL) system, this work aims at the derivation of the tradeoff between the model convergence and the settings of power sources in two scenarios: 1) the transmission power and density of power-beacons (dedicated charging stations) if they are deployed, or otherwise 2) the transmission power of a server (access-point). The development of the proposed analytical framework relates the accuracy of distributed stochastic gradient estimation to the WPT settings, the randomness in both communication and WPT links, and devices' computation capacities. Furthermore, the local-computation at devices (i.e., mini-batch size and processor clock frequency) is optimized to efficiently use the harvested energy for gradient estimation. The resultant learning-WPT tradeoffs reveal the simple scaling laws of the model-convergence rate with respect to the transferred energy as well as the devices' computational energy efficiencies. The results provide useful guidelines on WPT provisioning to provide a guaranteer on learning performance. They are corroborated by experimental results using a real dataset.
翻訳日:2021-02-25 13:19:55 公開日:2021-02-24