このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211104となっている論文です。

PDF登録状況(公開日: 20211104)

TitleAuthorsAbstract論文公表日・翻訳日
# L ukasiewicz 論理のドクサスティック拡張

Doxastic Extensions of \L ukasiewicz Logic ( http://arxiv.org/abs/2111.08564v1 )

ライセンス: Link先を確認
Doratossadat Dastgheib, Hadi Farahani(参考訳) ファジィ論理の2つの新しいドキサスティック拡張を提案し,それらの意味論はファジィ原子命題とファジィアクセシビリティ関係の両方を持つクリプケベースである。 これらの拡張のクラスは非形式的信念演算子を備えており、他のクラスは懐疑的信念の新しい概念に基づいている。 我々は,泥だらけ児問題のファジィ版と,統一信念と懐疑的信念を用いたCPAセキュリティ実験をモデル化した。 さらに,これら2つの信念拡張に対して,健全性と完全性を証明する。

We propose two new doxastic extensions of fuzzy \L ukasiewicz logic in which their semantics are Kripke-based with both fuzzy atomic propositions and fuzzy accessibility relations. A class of these extensions is equipped with uninformed belief operator, and the other class is based on a new notion of skeptical belief. We model a fuzzy version of muddy children problem and a CPA-security experiment using uniformed belief and skeptical belief, respectively. Moreover, we prove soundness and completeness for both of these belief extensions.
翻訳日:2021-11-21 14:51:27 公開日:2021-11-04
# 部分的観測による希少事象のモデル支援深層学習

Model-assisted deep learning of rare extreme events from partial observations ( http://arxiv.org/abs/2111.04857v1 )

ライセンス: Link先を確認
Anna Asch and Ethan Brady and Hugo Gallardo and John Hood and Bryan Chu and Mohammad Farazmand(参考訳) 深層ニューラルネットワークを用いたまれな極端事象の予測では、長期観測でも極端事象は少ないため、いわゆる「小さなデータ問題」に遭遇する。 そこで本研究では,極端事象からの適切なサンプルを用いて,数値シミュレーションからトレーニングデータを取得するモデル支援フレームワークについて検討する。 しかし、訓練されたネットワークが実際に適用可能であることを保証するため、トレーニングは完全なシミュレーションデータ上で行われず、実際に測定できる観測可能な量の小さなサブセットのみを使用する。 本稿では,3種類の動的システム(Rossler attractor, FitzHugh--Nagumoモデル, 乱流流)と3種類の深部ニューラルネットワークアーキテクチャ(フィードフォワード, 長期記憶, 貯水池計算)におけるモデル支援フレームワークの実現可能性について検討する。 いずれの場合においても, 予測精度, 雑音に対するロバスト性, 繰り返し訓練時の再現性, 入力データの種類に対する感度について検討した。 特に、長期の短期記憶ネットワークはノイズに対して最も頑健であり、ハイパーパラメータの微調整を最小にしながら、比較的正確な予測を可能にする。

To predict rare extreme events using deep neural networks, one encounters the so-called small data problem because even long-term observations often contain few extreme events. Here, we investigate a model-assisted framework where the training data is obtained from numerical simulations, as opposed to observations, with adequate samples from extreme events. However, to ensure the trained networks are applicable in practice, the training is not performed on the full simulation data; instead we only use a small subset of observable quantities which can be measured in practice. We investigate the feasibility of this model-assisted framework on three different dynamical systems (Rossler attractor, FitzHugh--Nagumo model, and a turbulent fluid flow) and three different deep neural network architectures (feedforward, long short-term memory, and reservoir computing). In each case, we study the prediction accuracy, robustness to noise, reproducibility under repeated training, and sensitivity to the type of input data. In particular, we find long short-term memory networks to be most robust to noise and to yield relatively accurate predictions, while requiring minimal fine-tuning of the hyperparameters.
翻訳日:2021-11-14 15:27:46 公開日:2021-11-04
# 低次元ネットワーク埋め込みアルゴリズムを用いたコミュニティ検出

Community detection using low-dimensional network embedding algorithms ( http://arxiv.org/abs/2111.05267v1 )

ライセンス: Link先を確認
Aman Barot and Shankar Bhamidi and Souvik Dhara(参考訳) 病気の拡大のためのコンタクトネットワークや、地政学に影響を及ぼすソーシャルネットワークなど、重要な分野における大規模ネットワークの関連性が高まっているため、非常に大規模なネットワークにスケーラブルで、数百万のノードを含む機械学習ツールを研究する必要がある。 このようなスケーラブルなアルゴリズムの1つの主要なクラスは、ネットワーク表現学習またはネットワーク埋め込みとして知られている。 これらのアルゴリズムは、まず複数のランダムウォークを実行し、観察されたランダムウォークセグメント内の各ノードの共起数を使用して、いくつかのユークリッド空間上のノードの低次元表現を得ることにより、ネットワーク機能(例えば、ノード)の表現を学習しようとする。 本研究の目的は,DeepWalk と node2vec の2つの主要なアルゴリズムの性能を厳格に把握することである。 グラフのスパーシティによっては、観察された共起ウィンドウが基礎となるコミュニティの割り当てをほぼ正確にリカバリできるように、必要なランダムウォークセグメントの長さを見出すことができる。 一定の共起ウィンドウがあれば、単純なランダムウォークを用いたディープウォークと比較して、非バックトラック確率の低いランダムウォークを用いたnode2vecは、多くのスパルサーネットワークで成功する。 さらに、疎度パラメータが低い場合、これらのアルゴリズムがほぼ正確なリカバリに成功しないことを示す。 この分析には、独立した関心を持つ低ランク構造を持つランダムネットワークのパスカウントのための一般的なツールの開発が必要である。

With the increasing relevance of large networks in important areas such as the study of contact networks for spread of disease, or social networks for their impact on geopolitics, it has become necessary to study machine learning tools that are scalable to very large networks, often containing millions of nodes. One major class of such scalable algorithms is known as network representation learning or network embedding. These algorithms try to learn representations of network functionals (e.g.~nodes) by first running multiple random walks and then using the number of co-occurrences of each pair of nodes in observed random walk segments to obtain a low-dimensional representation of nodes on some Euclidean space. The aim of this paper is to rigorously understand the performance of two major algorithms, DeepWalk and node2vec, in recovering communities for canonical network models with ground truth communities. Depending on the sparsity of the graph, we find the length of the random walk segments required such that the corresponding observed co-occurrence window is able to perform almost exact recovery of the underlying community assignments. We prove that, given some fixed co-occurrence window, node2vec using random walks with a low non-backtracking probability can succeed for much sparser networks compared to DeepWalk using simple random walks. Moreover, if the sparsity parameter is low, we provide evidence that these algorithms might not succeed in almost exact recovery. The analysis requires developing general tools for path counting on random networks having an underlying low-rank structure, which are of independent interest.
翻訳日:2021-11-14 15:12:36 公開日:2021-11-04
# (参考訳) 深部ニューラルネットワークを用いたウェポンエンゲージメントゾーン最大発射距離推定 [全文訳有]

Weapon Engagement Zone Maximum Launch Range Estimation Using a Deep Neural Network ( http://arxiv.org/abs/2111.04474v1 )

ライセンス: CC BY 4.0
Joao P. A. Dantas, Andre N. Costa, Diego Geraldo, Marcos R. O. A. Maximo and Takashi Yoneyama(参考訳) 本研究では,Weapon Engagement Zone (WEZ) の最大発射範囲の推定にDeep Neural Network (DNN) を用いることを検討した。 WEZは、パイロットが使用可能なミサイルが特定の目標、すなわち敵がショットに対して脆弱な航空機を取り囲む仮説上の領域にうまく関与する確率が高い空域を特定することを可能にする。 可変条件下での5万回の模擬発射によるミサイルのWEZ判定手法を提案する。 これらのシミュレーションはDNNの訓練に使用され、航空機が異なる発射条件でWEZを予測でき、判定係数は0.99である。 これは、非分散モデル、すなわち、以前に行われていないWEZの全方向を一度に考慮しているため、先行研究に関する別の手順を提供する。 さらに,提案手法はシミュレーション実行を少なくし,より高速なモデルトレーニングを実現する実験的な設計を用いる。

This work investigates the use of a Deep Neural Network (DNN) to perform an estimation of the Weapon Engagement Zone (WEZ) maximum launch range. The WEZ allows the pilot to identify an airspace in which the available missile has a more significant probability of successfully engaging a particular target, i.e., a hypothetical area surrounding an aircraft in which an adversary is vulnerable to a shot. We propose an approach to determine the WEZ of a given missile using 50,000 simulated launches in variate conditions. These simulations are used to train a DNN that can predict the WEZ when the aircraft finds itself on different firing conditions, with a coefficient of determination of 0.99. It provides another procedure concerning preceding research since it employs a non-discretized model, i.e., it considers all directions of the WEZ at once, which has not been done previously. Additionally, the proposed method uses an experimental design that allows for fewer simulation runs, providing faster model training.
翻訳日:2021-11-11 08:24:43 公開日:2021-11-04
# グラフ畳み込みネットワークによるピアアセスメントの改善

Improving Peer Assessment with Graph Convolutional Networks ( http://arxiv.org/abs/2111.04466v1 )

ライセンス: Link先を確認
Alireza A. Namanloo, Julie Thorpe, Amirali Salehi-Abari(参考訳) ピアアセスメントシステムは、大規模な(オンライン)クラスにおけるピアグレーディング、カンファレンスにおけるピアレビュー、ピアアート評価など、多くのソーシャルおよびマルチエージェント設定で登場している。 しかし、ピアアセスメントは専門家の評価ほど正確ではないため、これらのシステムは信頼できない。 ピアアセスメントシステムの信頼性は、ピアのアセスメント能力、その戦略評価行動、ピアアセスメント設定(例えば、ピアアセスメントグループワークまたは他人の個人ワーク)といった様々な要因に影響される。 本稿では,ピアアセスメントを,さまざまなピアアセスメント設定を表現し,関心や戦略的行動の衝突を捉えるマルチリレーショナル重み付けネットワークとしてモデル化する。 ピアアセスメントネットワークモデルを活用したグラフ畳み込みネットワークを導入し、評価パターンやユーザの振る舞いを学習し、専門家の評価をより正確に予測する。 実データと合成データに関する広範な実験により,提案手法の有効性が示され,既存のピアアセスメント手法を上回っている。

Peer assessment systems are emerging in many social and multi-agent settings, such as peer grading in large (online) classes, peer review in conferences, peer art evaluation, etc. However, peer assessments might not be as accurate as expert evaluations, thus rendering these systems unreliable. The reliability of peer assessment systems is influenced by various factors such as assessment ability of peers, their strategic assessment behaviors, and the peer assessment setup (e.g., peer evaluating group work or individual work of others). In this work, we first model peer assessment as multi-relational weighted networks that can express a variety of peer assessment setups, plus capture conflicts of interest and strategic behaviors. Leveraging our peer assessment network model, we introduce a graph convolutional network which can learn assessment patterns and user behaviors to more accurately predict expert evaluations. Our extensive experiments on real and synthetic datasets demonstrate the efficacy of our proposed approach, which outperforms existing peer assessment methods.
翻訳日:2021-11-09 16:42:43 公開日:2021-11-04
# 文脈の10の概念的次元

Ten Conceptual Dimensions of Context ( http://arxiv.org/abs/2111.04472v1 )

ライセンス: Link先を確認
Hashai Papneja(参考訳) 本稿では,コンピューティング文献に見られる「コンテキスト」という用語の様々な概念化の合成を試みる。 コンテキストの10つの概念的次元 - 場所、ユーザ、タスク、システムの特徴、物理的、社会的、組織的、文化的環境、時間的側面、歴史的情報。 コンテキストの10次元は、コンテキストの概念を包括的に把握し、コンテキストやコンテキスト情報が人間システムや人間とAIの相互作用に与える影響をより体系的に調べることを可能にする。

This paper attempts to synthesize various conceptualizations of the term "context" as found in computing literature. Ten conceptual dimensions of context thus emerge -- location; user, task, and system characteristics; physical, social, organizational, and cultural environments; time-related aspects, and historical information. Together, the ten dimensions of context provide a comprehensive view of the notion of context, and allow for a more systematic examination of the influence of context and contextual information on human-system or human-AI interactions.
翻訳日:2021-11-09 16:41:46 公開日:2021-11-04
# 制約学習を用いた混合整数最適化

Mixed-Integer Optimization with Constraint Learning ( http://arxiv.org/abs/2111.04469v1 )

ライセンス: Link先を確認
Donato Maragno, Holly Wiberg, Dimitris Bertsimas, S. Ilker Birbil, Dick den Hertog, Adejuyigbe Fajemisin(参考訳) 学習制約を伴う混合整数最適化のための幅広い方法論基盤を確立する。 本稿では,機械学習を用いたデータから制約や目標を直接学習し,学習したモデルを最適化定式化に組み込む,データ駆動意思決定のためのエンドツーエンドパイプラインを提案する。 線形モデル,決定木,アンサンブル,多層パーセプトロンなど,多くの機械学習手法の混合整数最適化表現性を利用する。 複数の手法の考察により、決定、文脈変数、結果の間の様々な基礎的な関係を捉えることができる。 また,観測の凸包を用いて決定信頼領域を特徴付け,信頼性の高い推薦を保証し,補間を避ける。 この表現を列生成とクラスタリングにより効率的に組み込む。 ドメイン駆動の制約と客観的用語を組み合わせることで、組込みモデルと信頼領域は処方薬生成のための混合整数最適化問題を定義する。 我々はこのフレームワークを実践者向けにpythonパッケージ(opticl)として実装する。 本手法は化学療法最適化とWorld Food Programme計画の両方において実証する。 ケーススタディでは、高品質な処方薬の生成におけるフレームワークのメリット、信頼領域に付加される価値、複数の機械学習手法の導入、複数の学習制約の導入などが示されている。

We establish a broad methodological foundation for mixed-integer optimization with learned constraints. We propose an end-to-end pipeline for data-driven decision making in which constraints and objectives are directly learned from data using machine learning, and the trained models are embedded in an optimization formulation. We exploit the mixed-integer optimization-represe ntability of many machine learning methods, including linear models, decision trees, ensembles, and multi-layer perceptrons. The consideration of multiple methods allows us to capture various underlying relationships between decisions, contextual variables, and outcomes. We also characterize a decision trust region using the convex hull of the observations, to ensure credible recommendations and avoid extrapolation. We efficiently incorporate this representation using column generation and clustering. In combination with domain-driven constraints and objective terms, the embedded models and trust region define a mixed-integer optimization problem for prescription generation. We implement this framework as a Python package (OptiCL) for practitioners. We demonstrate the method in both chemotherapy optimization and World Food Programme planning. The case studies illustrate the benefit of the framework in generating high-quality prescriptions, the value added by the trust region, the incorporation of multiple machine learning methods, and the inclusion of multiple learned constraints.
翻訳日:2021-11-09 15:34:20 公開日:2021-11-04
# 変圧器による航空需要予測

Flight Demand Forecasting with Transformers ( http://arxiv.org/abs/2111.04471v1 )

ライセンス: Link先を確認
Liya Wang, Amy Mykityshyn, Craig Johnson, Jillian Cheng(参考訳) トランスフォーマーは自然言語処理(NLP)分野においてデファクトスタンダードになっている。 コンピュータビジョンやその他の分野でも勢いを増している。 トランスフォーマーは、人工知能(AI)モデルが入力の特定の部分に動的に集中できるので、より効果的に推論できる。 変圧器の成功に触発された我々は,複数の地平線における戦略的出発需要を予測するために,この手法を採用した。 この研究はmitreが開発したモバイルアプリケーションであるpaper(英語版)をサポートしており、多忙な期間に出発遅延の可能性をよりよく認識できるように、一般航空(ga)の運航者への出発需要を予測する。 パサーが以前設計した規則に基づく予測手法を含む実演では、出発需要の予測精度は改善の余地があることを示した。 本研究は,データソースの改善とロバスト予測アルゴリズムの2つの重要な側面から予測精度の向上を目指している。 入力には、ASPM(Aviation System Performance Metrics)とSWIM(System Wide Information Management)という2つのデータソースを活用しました。 その後,5つの空港でtft(temporal fusion transformer)を用いた予測モデルを訓練した。 ケーススタディでは、TFTは従来の予測方法よりも大きなマージンで優れた性能を示し、様々な空港でより良い予測を行い、より良い解釈性が得られる。

Transformers have become the de-facto standard in the natural language processing (NLP) field. They have also gained momentum in computer vision and other domains. Transformers can enable artificial intelligence (AI) models to dynamically focus on certain parts of their input and thus reason more effectively. Inspired by the success of transformers, we adopted this technique to predict strategic flight departure demand in multiple horizons. This work was conducted in support of a MITRE-developed mobile application, Pacer, which displays predicted departure demand to general aviation (GA) flight operators so they can have better situation awareness of the potential for departure delays during busy periods. Field demonstrations involving Pacer's previously designed rule-based prediction method showed that the prediction accuracy of departure demand still has room for improvement. This research strives to improve prediction accuracy from two key aspects: better data sources and robust forecasting algorithms. We leveraged two data sources, Aviation System Performance Metrics (ASPM) and System Wide Information Management (SWIM), as our input. We then trained forecasting models with temporal fusion transformer (TFT) for five different airports. Case studies show that TFTs can perform better than traditional forecasting methods by large margins, and they can result in better prediction across diverse airports and with better interpretability.
翻訳日:2021-11-09 15:04:00 公開日:2021-11-04
# 新しいルール発見法による有意な体重増加の誘導要因の同定

Identifying the Leading Factors of Significant Weight Gains Using a New Rule Discovery Method ( http://arxiv.org/abs/2111.04475v1 )

ライセンス: Link先を確認
Mina Samizadeh, Jessica C Jones-Smith, Bethany Sheridan, Rahmatollah Beheshti(参考訳) 肥満と肥満は依然として主要な公衆衛生上の関心事であり、将来の体重増加のリスクを増大させる個別のパターンを特定することは肥満と関連する多くのサブシークエンス病の予防に重要な役割を担っている。 そこで本研究では,本研究では,実際の解釈可能性を提供し,精度(頻繁な正確性)と識別パターンのサポート(多数のサンプルの適用)を同時に最適化する手法を提案する。 具体的には、x-> y の所望の規則を生成するために確立された部分群発見法を拡張し、y の最良の予測因子として機能する x 側からトップ特徴を抽出できることを示し、肥満問題において、x は、非常に大規模かつ多地点の ehr データから抽出された特徴を参照し、y は有意な重量増加を示す。 本手法を用いて, 性別, 年齢, 人種, 保険型, 近隣型, 所得水準によって決定される22階層間のパターンの違いと不等式を比較した。 広範囲にわたる実験を通じて,将来の危険重量増加の予測因子について,新たな補完的な知見が得られた。

Overweight and obesity remain a major global public health concern and identifying the individualized patterns that increase the risk of future weight gains has a crucial role in preventing obesity and numerous sub-sequent diseases associated with obesity. In this work, we use a rule discovery method to study this problem, by presenting an approach that offers genuine interpretability and concurrently optimizes the accuracy(being correct often) and support (applying to many samples) of the identified patterns. Specifically, we extend an established subgroup-discovery method to generate the desired rules of type X -> Y and show how top features can be extracted from the X side, functioning as the best predictors of Y. In our obesity problem, X refers to the extracted features from very large and multi-site EHR data, and Y indicates significant weight gains. Using our method, we also extensively compare the differences and inequities in patterns across 22 strata determined by the individual's gender, age, race, insurance type, neighborhood type, and income level. Through extensive series of experiments, we show new and complementary findings regarding the predictors of future dangerous weight gains.
翻訳日:2021-11-09 15:03:39 公開日:2021-11-04
# トランスを用いたマルチエアポート遅延予測

Multi-Airport Delay Prediction with Transformers ( http://arxiv.org/abs/2111.04494v1 )

ライセンス: Link先を確認
Liya Wang, Alex Tien, Jason Chou(参考訳) 空港性能予測を合理的なルックアヘッド時間で行うことは困難な課題であり、様々な先行研究によって試みられている。 交通、需要、天気、交通管理のアクションは、あらゆる予測モデルにとって重要な入力である。 本稿では,複数の空港の出発・到着遅延を同時に予測するために,TFT(Temporal Fusion Transformer)に基づく新しい手法を提案する。 このアプローチは、予測時に既知の入力の複雑な時間的ダイナミクスをキャプチャし、選択された遅延メトリックを今後4時間以内に予測することができる。 気象入力を扱う際に、高次元気象データをより低次元の表現に符号化し、TFTの訓練をより効率的に効果的に行うための自己教師付き学習(SSL)モデルを開発した。 最初の結果は、TFTに基づく遅延予測モデルが、テストデータセット上のより小さな予測誤差によって測定された満足な性能を達成することを示す。 さらに、モデル出力の解釈可能性解析により、遅延予測の重要な入力要因を特定する。 提案手法は,航空交通管理者や意思決定者が遅延緩和に関する交通管理行動についての洞察を得るのに有効であり,一度運用すれば,性能劣化予測のための十分なリードタイムが提供される。

Airport performance prediction with a reasonable look-ahead time is a challenging task and has been attempted by various prior research. Traffic, demand, weather, and traffic management actions are all critical inputs to any prediction model. In this paper, a novel approach based on Temporal Fusion Transformer (TFT) was proposed to predict departure and arrival delays simultaneously for multiple airports at once. This approach can capture complex temporal dynamics of the inputs known at the time of prediction and then forecast selected delay metrics up to four hours into the future. When dealing with weather inputs, a self-supervised learning (SSL) model was developed to encode high-dimensional weather data into a much lower-dimensional representation to make the training of TFT more efficiently and effectively. The initial results show that the TFT-based delay prediction model achieves satisfactory performance measured by smaller prediction errors on a testing dataset. In addition, the interpretability analysis of the model outputs identifies the important input factors for delay prediction. The proposed approach is expected to help air traffic managers or decision makers gain insights about traffic management actions on delay mitigation and once operationalized, provide enough lead time to plan for predicted performance degradation.
翻訳日:2021-11-09 15:03:19 公開日:2021-11-04
# (参考訳) PDBL : Plug-and-Play Pyramidal Deep-Broad Learningによる組織分類の改善 [全文訳有]

PDBL: Improving Histopathological Tissue Classification with Plug-and-Play Pyramidal Deep-Broad Learning ( http://arxiv.org/abs/2111.03063v1 )

ライセンス: CC BY 4.0
Jiatai Lin, Guoqiang Han, Xipeng Pan, Hao Chen, Danyi Li, Xiping Jia, Zhenwei Shi, Zhizhen Wang, Yanfen Cui, Haiming Li, Changhong Liang, Li Liang, Zaiyi Liu, Chu Han(参考訳) 病理組織分類は病理組織学研究の基本的な課題である。 組織の種類を正確に区別することは、がんの診断や予後などの下流研究の利点である。 既存の研究は主にコンピュータビジョンの一般的な分類バックボーンを活用し、病理組織組織分類を実現している。 本稿では,学習負荷を伴わずに分類性能をさらに向上させるために,Praamidal Deep-Broad Learning (PDBL) という超軽量なプラグイン・アンド・プレイ・モジュールを提案する。 病理学者が異なる拡大度で病理スライドを観察する方法を模倣し、入力画像に対する画像ピラミッドを構築し、ピラミッド的文脈情報を得る。 ピラミッド内の各レベルについて,提案したディープブロードブロック(DBブロック)を用いて,マルチスケールのディープブロード特徴を抽出する。 PDBLを3つの一般的な分類バックボーン(ShuffLeNetV2,Effici entNetb0,ResNet50)に実装し,提案したモジュールの有効性と効率を2つのデータセット上で評価した。 実験結果から,提案するpdblは,任意のcnnバックボーンの組織レベルの分類性能,特にトレーニングサンプルのごく一部(10%未満)が与えられた場合の軽量モデルにおいて着実に向上し,計算時間とアノテーションの労力を大幅に削減できることを示した。

Histopathological tissue classification is a fundamental task in pathomics cancer research. Precisely differentiating different tissue types is a benefit for the downstream researches, like cancer diagnosis, prognosis and etc. Existing works mostly leverage the popular classification backbones in computer vision to achieve histopathological tissue classification. In this paper, we proposed a super lightweight plug-and-play module, named Pyramidal Deep-Broad Learning (PDBL), for any well-trained classification backbone to further improve the classification performance without a re-training burden. We mimic how pathologists observe pathology slides in different magnifications and construct an image pyramid for the input image in order to obtain the pyramidal contextual information. For each level in the pyramid, we extract the multi-scale deep-broad features by our proposed Deep-Broad block (DB-block). We equipped PDBL in three popular classification backbones, ShuffLeNetV2, EfficientNetb0, and ResNet50 to evaluate the effectiveness and efficiency of our proposed module on two datasets (Kather Multiclass Dataset and the LC25000 Dataset). Experimental results demonstrate the proposed PDBL can steadily improve the tissue-level classification performance for any CNN backbones, especially for the lightweight models when given a small among of training samples (less than 10%), which greatly saves the computational time and annotation efforts.
翻訳日:2021-11-09 05:27:13 公開日:2021-11-04
# (参考訳) 画像と自由テキストラジオグラフィーレポートの相互比較による一般化ラジオグラフィ表現学習 [全文訳有]

Generalized Radiograph Representation Learning via Cross-supervision between Images and Free-text Radiology Reports ( http://arxiv.org/abs/2111.03452v1 )

ライセンス: CC BY 4.0
Hong-Yu Zhou, Xiaoyu Chen, Yinghao Zhang, Ruibang Luo, Liansheng Wang, Yizhou Yu(参考訳) 事前学習は、深層学習に支えられたラジオグラフィ解析における最近の成功の基礎を成している。 ソースドメイン上で大規模な完全教師付きあるいは自己教師型学習を行うことで、転送可能な画像表現を学習する。 しかし、教師付き事前学習には複雑で労働集約的な2段階の人間支援アノテーションプロセスが必要である。 これらの問題に対処するために,我々は,ラジオグラフに付随する放射線学的レポートからフリーテキストレポートを取得するrefers (free-text reports for supervision) というクロス監督手法を提案する。 提案手法は視覚トランスフォーマーを用い, 患者研究における複数視点からの共同表現を学習する。 参照は、非常に限られた監督下で4つの有名なx線データセット上の転送学習と自己教師付き学習を上回っている。 さらに、REFERSは、人手による構造化ラベルを持つラジオグラフィーのソースドメインに基づく手法を超越している。 したがって、REFERSは標準的な事前学習手法を置き換える可能性がある。

Pre-training lays the foundation for recent successes in radiograph analysis supported by deep learning. It learns transferable image representations by conducting large-scale fully-supervised or self-supervised learning on a source domain. However, supervised pre-training requires a complex and labor intensive two-stage human-assisted annotation process while self-supervised learning cannot compete with the supervised paradigm. To tackle these issues, we propose a cross-supervised methodology named REviewing FreE-text Reports for Supervision (REFERS), which acquires free supervision signals from original radiology reports accompanying the radiographs. The proposed approach employs a vision transformer and is designed to learn joint representations from multiple views within every patient study. REFERS outperforms its transfer learning and self-supervised learning counterparts on 4 well-known X-ray datasets under extremely limited supervision. Moreover, REFERS even surpasses methods based on a source domain of radiographs with human-assisted structured labels. Thus REFERS has the potential to replace canonical pre-training methodologies.
翻訳日:2021-11-09 05:03:53 公開日:2021-11-04
# (参考訳) ハイパースペクトルイメージングによる複合繊維材料の非破壊検査 : eu h2020繊維プロジェクトの評価研究 [全文訳有]

Nondestructive Testing of Composite Fibre Materials with Hyperspectral Imaging : Evaluative Studies in the EU H2020 FibreEUse Project ( http://arxiv.org/abs/2111.03443v1 )

ライセンス: CC BY 4.0
Yijun Yan, Jinchang Ren, Huan Zhao, James F.C. Windmill, Winifred Ijomah, Jesper de Wit, and Justus von Freeden(参考訳) 空間情報とともに広い周波数域からスペクトルデータを取得することで、ハイパースペクトルイメージング(HSI)は温度、湿度、化学組成の微妙な違いを検出することができる。 したがって、HSIは、セキュリティと防衛のためのリモートセンシング、植生と作物のモニタリングのための精密農業、食品/飲料、医薬品の品質管理など、様々な応用に成功している。 しかし, 炭素繊維強化ポリマー (cfrp) のコンディションモニタリングおよび損傷検出においては, 既存の非破壊試験 (ndt) 技術は材料組成ではなく, 構造の物理的完全性に関する情報の提供に重点を置いているため, hsiの使用は比較的非接触領域である。 この目的のために、HSIはこの課題に取り組むためのユニークな方法を提供することができる。 本稿では、近赤外HSIカメラを用いて、CFRP製品の非破壊検査にHSIを応用し、EU H2020 FibreEUseプロジェクトを背景として紹介する。 接着剤残基検出,表面損傷検出,Cobotによる自動検査など,3つのケーススタディに関する技術的課題と解決策を詳述する。 実験により,CFRPのNDTにおけるHSIとそれに関連する視覚技術の可能性,特に工業生産環境を満たす可能性について明らかにした。

Through capturing spectral data from a wide frequency range along with the spatial information, hyperspectral imaging (HSI) can detect minor differences in terms of temperature, moisture and chemical composition. Therefore, HSI has been successfully applied in various applications, including remote sensing for security and defense, precision agriculture for vegetation and crop monitoring, food/drink, and pharmaceuticals quality control. However, for condition monitoring and damage detection in carbon fibre reinforced polymer (CFRP), the use of HSI is a relatively untouched area, as existing non-destructive testing (NDT) techniques focus mainly on delivering information about physical integrity of structures but not on material composition. To this end, HSI can provide a unique way to tackle this challenge. In this paper, with the use of a near-infrared HSI camera, applications of HSI for the non-destructive inspection of CFRP products are introduced, taking the EU H2020 FibreEUse project as the background. Technical challenges and solutions on three case studies are presented in detail, including adhesive residues detection, surface damage detection and Cobot based automated inspection. Experimental results have fully demonstrated the great potential of HSI and related vision techniques for NDT of CFRP, especially the potential to satisfy the industrial manufacturing environment.
翻訳日:2021-11-09 04:52:42 公開日:2021-11-04
# (参考訳) ボクセルによる画像からの複数物体の3次元検出と再構成 [全文訳有]

Voxel-based 3D Detection and Reconstruction of Multiple Objects from a Single Image ( http://arxiv.org/abs/2111.03098v1 )

ライセンス: CC BY 4.0
Feng Liu, Xiaoming Liu(参考訳) 単一の2d画像から複数の物体の3d位置と形状を推測することは、コンピュータビジョンの長年の目的である。 既存の作品の多くは、これらの3dプロパティの1つを予測するか、1つのオブジェクトの双方を解決することに集中している。 1つの根本的な課題は、3D検出と再構成に適した画像の効果的な表現を学ぶ方法である。 本研究では,3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した入力画像から3次元ボクセル特徴の正規格子を学習することを提案する。 この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。 さらに, 粗度ボキセル化や局所的PCA-SDF形状表現など, より詳細な再現が可能で, 従来手法よりも1桁高速な推論が可能となる, 効率的な粗度・微細化モジュールを考案した。 3次元検出と再構成の両方を補完的に行うことにより,3次元ボクセルの特徴を幾何学的・文脈的に保存し,両方の作業に役立てることが可能となり,本手法の有効性は,単一のオブジェクトと複数のオブジェクトシナリオにおける3次元検出と再構築を通じて実証される。

Inferring 3D locations and shapes of multiple objects from a single 2D image is a long-standing objective of computer vision. Most of the existing works either predict one of these 3D properties or focus on solving both for a single object. One fundamental challenge lies in how to learn an effective representation of the image that is well-suited for 3D detection and reconstruction. In this work, we propose to learn a regular grid of 3D voxel features from the input image which is aligned with 3D scene space via a 3D feature lifting operator. Based on the 3D voxel features, our novel CenterNet-3D detection head formulates the 3D detection as keypoint detection in the 3D space. Moreover, we devise an efficient coarse-to-fine reconstruction module, including coarse-level voxelization and a novel local PCA-SDF shape representation, which enables fine detail reconstruction and one order of magnitude faster inference than prior methods. With complementary supervision from both 3D detection and reconstruction, one enables the 3D voxel features to be geometry and context preserving, benefiting both tasks.The effectiveness of our approach is demonstrated through 3D detection and reconstruction in single object and multiple object scenarios.
翻訳日:2021-11-09 04:38:04 公開日:2021-11-04
# (参考訳) ニューラルシーケンスモデルはどのように一般化するか? アウトオブディストリビューション予測のための地域とグローバルコンテキストの手がかり [全文訳有]

How Do Neural Sequence Models Generalize? Local and Global Context Cues for Out-of-Distribution Prediction ( http://arxiv.org/abs/2111.03108v1 )

ライセンス: CC BY-SA 4.0
Anthony Bau and Jacob Andreas(参考訳) ニューラルネットワークモデルが予期せぬトークンに遭遇した後、その振る舞いを予測できるだろうか? RNNとトランスフォーマー言語モデルは,分布外文脈における構造的,一貫した一般化を示す。 次単語予測における一般化の理想的な2つのモデルの導入から始める: 一般化が観測された最後の単語と一致した局所コンテキストモデルと、一般化が入力のグローバル構造と一致したグローバルコンテキストモデルである。 英語、フィンランド語、マンダリン語、ランダム正規言語の実験では、これらの2つの一般化の形式の間にニューラルネットワークモデルが補間されていることを実証する:それらの予測は局所的および大域的予測分布の対数線形結合によって近似される。 入力トークンに適用されるノイズはグローバルな一般化を促進するが、歴史表現のノイズは局所的な一般化を促進する。 最後に,特定の特徴相関構造を持つ対数線形モデルにおいて観測された補間挙動が期待できることを示すことによって,これらの結果の予備的理論的説明を行う。 これらの結果は、2つの一般的な正規化スキームの有効性を説明し、シーケンスモデルの一般化の側面を理解し制御できることを示す。

After a neural sequence model encounters an unexpected token, can its behavior be predicted? We show that RNN and transformer language models exhibit structured, consistent generalization in out-of-distribution contexts. We begin by introducing two idealized models of generalization in next-word prediction: a local context model in which generalization is consistent with the last word observed, and a global context model in which generalization is consistent with the global structure of the input. In experiments in English, Finnish, Mandarin, and random regular languages, we demonstrate that neural language models interpolate between these two forms of generalization: their predictions are well-approximated by a log-linear combination of local and global predictive distributions. We then show that, in some languages, noise mediates the two forms of generalization: noise applied to input tokens encourages global generalization, while noise in history representations encourages local generalization. Finally, we offer a preliminary theoretical explanation of these results by proving that the observed interpolation behavior is expected in log-linear models with a particular feature correlation structure. These results help explain the effectiveness of two popular regularization schemes and show that aspects of sequence model generalization can be understood and controlled.
翻訳日:2021-11-09 04:20:42 公開日:2021-11-04
# (参考訳) デコンボリューションによる一方向スクランブルを用いたクラウド上のセキュア機械学習 [全文訳有]

Secure Machine Learning in the Cloud Using One Way Scrambling by Deconvolution ( http://arxiv.org/abs/2111.03125v1 )

ライセンス: CC BY 4.0
Yiftach Savransky, Roni Mateless, Gilad Katz(参考訳) クラウドベースの機械学習サービス(cmls)は、大量のデータで事前トレーニングされた高度なモデルを活用することができる。 しかし、これらのサービスを使用する主な欠点は、送信されたデータをプライベートかつセキュアに保つことの難しさである。 非対称暗号化は、データをクラウドで復号化する必要があるが、準同型暗号化は、しばしば遅すぎて実装が困難である。 計算オーバーヘッドのごく一部で準同型暗号の利点を提供するデコンボリューションベースのスクランブルフレームワークowsd(deconvolution by deconvolution)を提案する。 複数の画像データセットの広範な評価は、cmlsの出力ベクトルが十分に大きい場合にowsdがほぼ完全な分類性能を達成する能力を示す。 さらに、我々のアプローチの堅牢性に関する実証分析を提供する。

Cloud-based machine learning services (CMLS) enable organizations to take advantage of advanced models that are pre-trained on large quantities of data. The main shortcoming of using these services, however, is the difficulty of keeping the transmitted data private and secure. Asymmetric encryption requires the data to be decrypted in the cloud, while Homomorphic encryption is often too slow and difficult to implement. We propose One Way Scrambling by Deconvolution (OWSD), a deconvolution-based scrambling framework that offers the advantages of Homomorphic encryption at a fraction of the computational overhead. Extensive evaluation on multiple image datasets demonstrates OWSD's ability to achieve near-perfect classification performance when the output vector of the CMLS is sufficiently large. Additionally, we provide empirical analysis of the robustness of our approach.
翻訳日:2021-11-09 04:03:12 公開日:2021-11-04
# (参考訳) 火災セグメンテーションの分類に関する留意事項 [全文訳有]

Attention on Classification for Fire Segmentation ( http://arxiv.org/abs/2111.03129v1 )

ライセンス: CC BY 4.0
Milad Niknejad, Alexandre Bernardino(参考訳) 映像やビデオにおける火災の検出と位置決めは,火災の対処に重要である。 セマンティックセグメンテーション法は、画像中の火のついたピクセルの位置を示すために用いられるが、それらの予測は局所化されており、画像ラベルに暗黙的な画像中の火の存在のグローバルな情報を考えることができないことが多い。 本稿では, 画像中の火の連成分類とセグメンテーションのための畳み込みニューラルネットワーク(CNN)を提案し, 火のセグメンテーションの性能を向上させる。 画素間の長距離依存性を捉えるために,空間的自己追尾機構と,その分類確率を注意重みとして用いる新たなチャネルアテンションモジュールを用いる。 ネットワークはセグメンテーションと分類の両方のために共同で訓練されており、シングルタスク画像セグメンテーション法の性能改善と、ファイアセグメンテーションのために提案された以前の手法が提案されている。

Detection and localization of fire in images and videos are important in tackling fire incidents. Although semantic segmentation methods can be used to indicate the location of pixels with fire in the images, their predictions are localized, and they often fail to consider global information of the existence of fire in the image which is implicit in the image labels. We propose a Convolutional Neural Network (CNN) for joint classification and segmentation of fire in images which improves the performance of the fire segmentation. We use a spatial self-attention mechanism to capture long-range dependency between pixels, and a new channel attention module which uses the classification probability as an attention weight. The network is jointly trained for both segmentation and classification, leading to improvement in the performance of the single-task image segmentation methods, and the previous methods proposed for fire segmentation.
翻訳日:2021-11-09 03:51:45 公開日:2021-11-04
# (参考訳) StyleCLIPDraw:テキスト-描画合成における内容とスタイルの結合 [全文訳有]

StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis ( http://arxiv.org/abs/2111.03133v1 )

ライセンス: CC BY 4.0
Peter Schaldenbrand, Zhixuan Liu and Jean Oh(参考訳) 機械学習を用いたテキスト記述に適合した画像の生成は、CLIP画像テキストエンコーダモデルのような技術のリリースによって大幅に改善されているが、現在の手法では生成する画像のスタイルの芸術的制御が欠如している。 そこで我々は,CLIPDrawテキスト合成モデルにスタイル損失を加えたStyleCLIPDrawを導入し,テキストによるコンテンツ制御に加えて,合成図面の芸術的制御を可能にする。 生成した画像上でデカップリングされたスタイル転送を行うことはテクスチャのみに影響を及ぼすが,本提案手法はテクスチャと形状の両方のスタイルをキャプチャし,描画のスタイルが描画プロセス自体と結合していることを示す。 さらなる結果とコードはhttps://github.com/p schaldenbrand/StyleC LIPDrawで公開されています。

Generating images that fit a given text description using machine learning has improved greatly with the release of technologies such as the CLIP image-text encoder model; however, current methods lack artistic control of the style of image to be generated. We introduce StyleCLIPDraw which adds a style loss to the CLIPDraw text-to-drawing synthesis model to allow artistic control of the synthesized drawings in addition to control of the content via text. Whereas performing decoupled style transfer on a generated image only affects the texture, our proposed coupled approach is able to capture a style in both texture and shape, suggesting that the style of the drawing is coupled with the drawing process itself. More results and our code are available at https://github.com/p schaldenbrand/StyleC LIPDraw
翻訳日:2021-11-09 03:40:49 公開日:2021-11-04
# (参考訳) インタラクティブアートのためのディバースリアルライナーの生成 [全文訳有]

Generating Diverse Realistic Laughter for Interactive Art ( http://arxiv.org/abs/2111.03146v1 )

ライセンス: CC BY 4.0
M. Mehdi Afsar, Eric Park, \'Etienne Paquette, Gauthier Gidel, Kory W. Mathewson, Eilif Muller(参考訳) われわれは,新型コロナウイルスの危機や,それに伴う孤独感が,笑いの歓迎のメロディを通じて再び現れるようにするためのインタラクティブアートプロジェクトを提案し,高度な笑い合成アプローチを通じて構築し,探求する。 しかしながら、高品質な聴覚合成における人間の感情反応の多様性の無条件発生は、芸術的場面におけるこれらのアプローチの適用に重要な意味を持つオープンな問題である。 我々は,GANを用いたヒトの笑いの多様性を再現するアプローチであるLaughGANterを開発した。 様々な笑いサンプルのデータセットで訓練されると、hryganterは多様な高品質な笑いサンプルを生成し、感情分析に適した潜在空間と、潜伏混合/補間や感情伝達のような新しい芸術的応用を学ぶ。

We propose an interactive art project to make those rendered invisible by the COVID-19 crisis and its concomitant solitude reappear through the welcome melody of laughter, and connections created and explored through advanced laughter synthesis approaches. However, the unconditional generation of the diversity of human emotional responses in high-quality auditory synthesis remains an open problem, with important implications for the application of these approaches in artistic settings. We developed LaughGANter, an approach to reproduce the diversity of human laughter using generative adversarial networks (GANs). When trained on a dataset of diverse laughter samples, LaughGANter generates diverse, high quality laughter samples, and learns a latent space suitable for emotional analysis and novel artistic applications such as latent mixing/interpolation and emotional transfer.
翻訳日:2021-11-09 03:37:40 公開日:2021-11-04
# (参考訳) ランダムの専門家より賢いか? 置換可能な信号のロバスト集約 [全文訳有]

Are You Smarter Than a Random Expert? The Robust Aggregation of Substitutable Signals ( http://arxiv.org/abs/2111.03153v1 )

ライセンス: CC BY 4.0
Eric Neyman and Tim Roughgarden(参考訳) 専門家の予測を集約する問題は、機械学習、経済学、気候科学、国家安全保障など、幅広い分野に広がっている。 それにもかかわらず、この問題の理論的理解はかなり浅い。 本稿では,幅広い情報構造から専門家の知識を逆選択する文脈において,予測集約の研究を開始する。 一般論では、非自明な性能保証を達成することは不可能であるが、専門家の情報構造上「emph{projective substitutes}」と呼ばれる条件下で行うことは可能であることを示す。 射影置換条件は情報代用の概念であり、専門家の信号を学ぶための限界リターンは減少している。 予測的代替条件下では, 専門家の予測平均は, ランダムな専門家を信頼する戦略により大幅に改善されることを示す。 次に、アグリゲータが事前にアクセス可能な、より寛容な設定を検討します。 我々は,専門家の予測を平均化し,その平均を一定の要因で前者から遠ざけることにより,アグリゲータの性能保証が,前者を知ることなく実現可能であることを示す。 本研究は,過激化に関する過去の実証研究に理論的根拠を与え,過激化の適切な量について指導するのに役立つ。

The problem of aggregating expert forecasts is ubiquitous in fields as wide-ranging as machine learning, economics, climate science, and national security. Despite this, our theoretical understanding of this question is fairly shallow. This paper initiates the study of forecast aggregation in a context where experts' knowledge is chosen adversarially from a broad class of information structures. While in full generality it is impossible to achieve a nontrivial performance guarantee, we show that doing so is possible under a condition on the experts' information structure that we call \emph{projective substitutes}. The projective substitutes condition is a notion of informational substitutes: that there are diminishing marginal returns to learning the experts' signals. We show that under the projective substitutes condition, taking the average of the experts' forecasts improves substantially upon the strategy of trusting a random expert. We then consider a more permissive setting, in which the aggregator has access to the prior. We show that by averaging the experts' forecasts and then \emph{extremizing} the average by moving it away from the prior by a constant factor, the aggregator's performance guarantee is substantially better than is possible without knowledge of the prior. Our results give a theoretical grounding to past empirical research on extremization and help give guidance on the appropriate amount to extremize.
翻訳日:2021-11-09 03:31:33 公開日:2021-11-04
# (参考訳) 検閲ハイパーグラフにおけるコミュニティ検出 [全文訳有]

Community detection in censored hypergraph ( http://arxiv.org/abs/2111.03179v1 )

ライセンス: CC BY 4.0
Mingao Yuan, Bin Zhao, Xiaofeng Zhao(参考訳) コミュニティ検出とは、ネットワークのノード(グラフまたはハイパーグラフ)をグループにクラスタ化する問題を指す。 様々なアルゴリズムがコミュニティ検出に利用でき、これらの手法は無検閲ネットワークに適用できる。 実際には、ネットワークは、検閲された(または欠落した)値を持ち、検閲された値は、ネットワークの構造特性に無視できない効果を持つ。 本稿では,情報理論の観点から,検閲付き$m$-uniformハイパーグラフのコミュニティ検出について検討する。 コミュニティ構造の正確な回復のための情報理論しきい値を導出する。 さらに,コミュニティ構造をしきい値まで正確に復元する多項式時間アルゴリズムを提案する。 提案アルゴリズムはスペクトルアルゴリズムと改良ステップからなる。 また、改良のない単一のスペクトルアルゴリズムが閾値を達成できるかどうかも興味深い。 この目的のために,半定値緩和アルゴリズムを探索し,その性能解析を行う。

Community detection refers to the problem of clustering the nodes of a network (either graph or hypergrah) into groups. Various algorithms are available for community detection and all these methods apply to uncensored networks. In practice, a network may has censored (or missing) values and it is shown that censored values have non-negligible effect on the structural properties of a network. In this paper, we study community detection in censored $m$-uniform hypergraph from information-theoreti c point of view. We derive the information-theoreti c threshold for exact recovery of the community structure. Besides, we propose a polynomial-time algorithm to exactly recover the community structure up to the threshold. The proposed algorithm consists of a spectral algorithm plus a refinement step. It is also interesting to study whether a single spectral algorithm without refinement achieves the threshold. To this end, we also explore the semi-definite relaxation algorithm and analyze its performance.
翻訳日:2021-11-09 02:33:13 公開日:2021-11-04
# (参考訳) MIRACLE: ミスデータメカニズムの学習による因果認識型インプット [全文訳有]

MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms ( http://arxiv.org/abs/2111.03187v1 )

ライセンス: CC BY 4.0
Trent Kyono, Yao Zhang, Alexis Bellot, Mihaela van der Schaar(参考訳) データの欠如は、機械学習の実践において重要な問題である。 インプテーション法がデータの因果構造を保存すべきという前提から始め、基礎となるインプテーション法が基礎となるデータ生成機構と因果的に整合することを推奨する正規化スキームを開発する。 我々の提案は因果認識型計算アルゴリズム (MIRACLE) である。 MIRACLEは、欠落発生機構を同時にモデル化し、データの因果構造に整合するように促すことにより、ベースラインの計算を反復的に洗練する。 我々は、MIRACLEが3つの欠落シナリオ(ランダム、完全にランダム、ランダムではない)すべてにわたって、様々なベンチマークメソッドに対して一貫して命令を改善可能であることを示すために、合成および様々な公開データセットに関する広範な実験を行った。

Missing data is an important problem in machine learning practice. Starting from the premise that imputation methods should preserve the causal structure of the data, we develop a regularization scheme that encourages any baseline imputation method to be causally consistent with the underlying data generating mechanism. Our proposal is a causally-aware imputation algorithm (MIRACLE). MIRACLE iteratively refines the imputation of a baseline by simultaneously modeling the missingness generating mechanism, encouraging imputation to be consistent with the causal structure of the data. We conduct extensive experiments on synthetic and a variety of publicly available datasets to show that MIRACLE is able to consistently improve imputation over a variety of benchmark methods across all three missingness scenarios: at random, completely at random, and not at random.
翻訳日:2021-11-09 02:10:42 公開日:2021-11-04
# (参考訳) 値関数空間:ロングホリゾン推論のためのスキル中心状態抽象化 [全文訳有]

Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon Reasoning ( http://arxiv.org/abs/2111.03189v1 )

ライセンス: CC BY 4.0
Dhruv Shah, Peng Xu, Yao Lu, Ted Xiao, Alexander Toshev, Sergey Levine, Brian Ichter(参考訳) 強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。 しかし、長期的タスクでは、これらの手法の性能は水平線とともに劣化し、しばしば推論と下層技術の構築を必要としている。 階層的な強化学習は、アクション抽象化として低レベルのスキルのバンクを提供することによって、これを実現することを目的としています。 階層は空間状態も抽象化することでさらに改善することができる。 適切な状態抽象化は、利用可能な低レベルのポリシーの能力に依存するべきであると仮定する。 本稿では,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法を提案する。 これらの値関数はシーンの余裕を捉え、タスクに関連する情報をコンパクトに抽象化し、邪魔者をしっかりと無視する表現を形成する。 迷路解法とロボット操作タスクの実証評価により,本手法は長水平性能を向上し,代替のモデルフリーやモデルベース手法よりもゼロショットの一般化が可能であることを実証した。

Reinforcement learning can train policies that effectively perform complex tasks. However for long-horizon tasks, the performance of these methods degrades with horizon, often necessitating reasoning over and composing lower-level skills. Hierarchical reinforcement learning aims to enable this by providing a bank of low-level skills as action abstractions. Hierarchies can further improve on this by abstracting the space states as well. We posit that a suitable state abstraction should depend on the capabilities of the available lower-level policies. We propose Value Function Spaces: a simple approach that produces such a representation by using the value functions corresponding to each lower-level skill. These value functions capture the affordances of the scene, thus forming a representation that compactly abstracts task relevant information and robustly ignores distractors. Empirical evaluations for maze-solving and robotic manipulation tasks demonstrate that our approach improves long-horizon performance and enables better zero-shot generalization than alternative model-free and model-based methods.
翻訳日:2021-11-09 01:48:07 公開日:2021-11-04
# (参考訳) Dual-Space Long-Range Dependencies による多値物体検出 [全文訳有]

Addressing Multiple Salient Object Detection via Dual-Space Long-Range Dependencies ( http://arxiv.org/abs/2111.03195v1 )

ライセンス: CC BY 4.0
Bowen Deng, Andrew P. French, Michael P. Pound(参考訳) 正常なオブジェクト検出は多くの下流タスクで重要な役割を果たす。 しかし、様々なスケールと多くのサルエントオブジェクトを持つ複雑な現実世界のシーンは依然として課題となっている。 本稿では,複雑なシーンにまたがる複数のサルエント物体を検出する問題に直接対処する。 本研究では,空間空間とチャネル空間の両方に非局所的特徴情報を組み込んだネットワークアーキテクチャを提案する。 従来のボトムアップおよび非ローカル機能は機能融合ゲート内のエッジ機能と組み合わされ、デコーダ内の突出したオブジェクト予測を段階的に洗練する。 提案手法は,複雑なシナリオであっても,複数のサルエント領域を正確に特定できることを示す。 複数のサルエントオブジェクト問題に対するアプローチの有効性を示すために、複数のサルエントオブジェクトのみを含む新しいデータセットをキュレートした。 提案手法は,前処理や後処理を伴わない5つの広く使用されているデータセットに対して,最先端の結果を示す。 我々は、マルチオブジェクトデータセットにおける競合技術に対するさらなるパフォーマンス改善を得る。 データセットとソースコードは、 https://github.com/E ricDengbowen/DSLRDNe t.comで評価できる。

Salient object detection plays an important role in many downstream tasks. However, complex real-world scenes with varying scales and numbers of salient objects still pose a challenge. In this paper, we directly address the problem of detecting multiple salient objects across complex scenes. We propose a network architecture incorporating non-local feature information in both the spatial and channel spaces, capturing the long-range dependencies between separate objects. Traditional bottom-up and non-local features are combined with edge features within a feature fusion gate that progressively refines the salient object prediction in the decoder. We show that our approach accurately locates multiple salient regions even in complex scenarios. To demonstrate the efficacy of our approach to the multiple salient objects problem, we curate a new dataset containing only multiple salient objects. Our experiments demonstrate the proposed method presents state-of-the-art results on five widely used datasets without any pre-processing and post-processing. We obtain a further performance improvement against competing techniques on our multi-objects dataset. The dataset and source code are avaliable at: https://github.com/E ricDengbowen/DSLRDNe t.
翻訳日:2021-11-09 01:26:24 公開日:2021-11-04
# (参考訳) ソフトウェア工学データセットにおける単独感情検出ツールのアンサンブルの有効性に関する実証的研究

An Empirical Study of the Effectiveness of an Ensemble of Stand-alone Sentiment Detection Tools for Software Engineering Datasets ( http://arxiv.org/abs/2111.03196v1 )

ライセンス: CC BY 4.0
Gias Uddin, Yann-Gael Gueheneuc, Foutse Khomh, Chanchal K Roy(参考訳) ソフトウェアエンジニアリング(SE)における感覚分析は、多様な開発活動の分析とサポートを約束している。 本研究は, スタンドアローンSE型感情検知器の極性ラベルを組み合わせることで, アンサンブルエンジン開発の可能性を検討するための実証実験の結果を報告する。 私たちの研究には2つの段階がある。 第1フェーズでは、Linらが最近発表した2つの論文から、SE固有の感情検出ツールを5つ選択する。 [31,32] は単独の感情検出器で陰性を最初に報告し,その後,se特異的感情検出器 pome [31] を改良した。 現在利用可能なSEの6つのセンチメントベンチマークから17,581ユニット(文/文書)の調査結果を報告する。 既存のツールは85~95%のケース、つまり1つが間違っていますが、もう1つが正しいケースで相互補完可能であることが分かりました。 しかし、投票ベースのツールの大多数は感情検出の精度を向上させることに失敗している。 極性ラベルと単語の袋を特徴として組み合わせ,教師付きツールであるseniseadを開発した。 Sentiseadは個々のツールのパフォーマンス(F1スコア)を4%(Senti4SD [5]以上)から100%(POME [31]以上)改善します。 第2フェーズでは,事前学習型トランスフォーマーモデル(PTM)を用いて,Sentiseadインフラストラクチャの比較と改善を行う。 我々は,RoBERTaを用いたSentiseadインフラストラクチャが,Linらによる5つのスタンドアロンルールベースおよび浅層学習SE固有のツールのアンサンブルであることを確認した。 6つのデータセットで最高のF1スコアが0.805、スタンドアローンのRoBERTaが0.801のF1スコアを示している。

Sentiment analysis in software engineering (SE) has shown promise to analyze and support diverse development activities. We report the results of an empirical study that we conducted to determine the feasibility of developing an ensemble engine by combining the polarity labels of stand-alone SE-specific sentiment detectors. Our study has two phases. In the first phase, we pick five SE-specific sentiment detection tools from two recently published papers by Lin et al. [31, 32], who first reported negative results with standalone sentiment detectors and then proposed an improved SE-specific sentiment detector, POME [31]. We report the study results on 17,581 units (sentences/documents ) coming from six currently available sentiment benchmarks for SE. We find that the existing tools can be complementary to each other in 85-95% of the cases, i.e., one is wrong, but another is right. However, a majority voting-based ensemble of those tools fails to improve the accuracy of sentiment detection. We develop Sentisead, a supervised tool by combining the polarity labels and bag of words as features. Sentisead improves the performance (F1-score) of the individual tools by 4% (over Senti4SD [5]) - 100% (over POME [31]). In a second phase, we compare and improve Sentisead infrastructure using Pre-trained Transformer Models (PTMs). We find that a Sentisead infrastructure with RoBERTa as the ensemble of the five stand-alone rule-based and shallow learning SE-specific tools from Lin et al. [31, 32] offers the best F1-score of 0.805 across the six datasets, while a stand-alone RoBERTa shows an F1-score of 0.801.
翻訳日:2021-11-09 01:12:36 公開日:2021-11-04
# (参考訳) 海面温度予測のための物理誘導生成逆ネットワーク [全文訳有]

Physics-Guided Generative Adversarial Networks for Sea Subsurface Temperature Prediction ( http://arxiv.org/abs/2111.03064v1 )

ライセンス: CC BY 4.0
Yuxin Meng, Eric Rigall, Xueen Chen, Feng Gao, Junyu Dong, Sheng Chen(参考訳) 海面温度は、水生生物の必須成分であり、海面での動力学と熱伝達であり、地球温暖化と気候変動の影響を受けている。 既存の研究は一般に物理ベースの数値モデルまたはデータに基づくモデルに基づいている。 物理モデリングと機械学習は、伝統的に海面温度予測の2つの非関連分野として考えられており、科学的パラダイム(物理駆動とデータ駆動)は全く異なる。 しかし、両手法は互いに相補的だと信じている。 物理モデリング手法は観測条件を超えて外挿を行う可能性を提供し、一方、データ駆動方式はデータへの適応に柔軟であり、予期せぬパターンを検出することができる。 両方のアプローチの組み合わせは非常に魅力的で、潜在的なパフォーマンス改善を提供する。 本稿では,gan(generative adversarial network)と海面温度予測のための数値モデルを組み合わせた新しい枠組みを提案する。 まず, GANモデルを用いて, 数値モデルを用いて表面温度と対象地表面温度との簡易な物理を学習する。 そして、観測データを用いてガンモデルパラメータを校正し、より良い予測を得る。 提案手法は,南シナ海での日中海面温度を予測して評価する。 大規模な実験により提案手法の有効性が実証された。

Sea subsurface temperature, an essential component of aquatic wildlife, underwater dynamics and heat transfer with the sea surface, is affected by global warming in climate change. Existing research is commonly based on either physics-based numerical models or data based models. Physical modeling and machine learning are traditionally considered as two unrelated fields for the sea subsurface temperature prediction task, with very different scientific paradigms (physics-driven and data-driven). However, we believe both methods are complementary to each other. Physical modeling methods can offer the potential for extrapolation beyond observational conditions, while data-driven methods are flexible in adapting to data and are capable of detecting unexpected patterns. The combination of both approaches is very attractive and offers potential performance improvement. In this paper, we propose a novel framework based on generative adversarial network (GAN) combined with numerical model to predict sea subsurface temperature. First, a GAN-based model is used to learn the simplified physics between the surface temperature and the target subsurface temperature in numerical model. Then, observation data are used to calibrate the GAN-based model parameters to obtain better prediction. We evaluate the proposed framework by predicting daily sea subsurface temperature in the South China sea. Extensive experiments demonstrate the effectiveness of the proposed framework compared to existing state-of-the-art methods.
翻訳日:2021-11-09 01:11:25 公開日:2021-11-04
# バイナリパーセプトロン: 効率的なアルゴリズムは希少な連結クラスタにおける解を見つけることができる

Binary perceptron: efficient algorithms can find solutions in a rare well-connected cluster ( http://arxiv.org/abs/2111.03084v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Shuangping Li, Allan Sly(参考訳) 最近、対称二項パーセプトロンのほとんど全ての解が低制約密度でも孤立していることが示され、典型的な解を見つけることは難しいことが示唆された。 対照的に、いくつかのアルゴリズムは、低密度の解を見つけることに経験的に成功している。 この現象は、単純な学習アルゴリズムによってアクセス可能な解の非支配的かつ密結合領域の存在によって、数値的に正当化されている。 本稿では、対称および非対称二元パーセプトロンの両方に対して、正式にそのような現象を確立する。 低制約密度(高パラメータのパーセプトロンと同値)では、ほぼ最大径の解の非支配的な連結クラスターが存在し、効率的なマルチスケールの多数決アルゴリズムはそのようなクラスターの解を高い確率で見つけることができ、特にパーキンス-xu '21によって生じるオープン問題に落ち着くことができる。 さらに、臨界しきい値に近づくと、対称パーセプトロンや追加の仮定の下で非対称パーセプトロンに対して線形な直径のクラスターが存在することが示される。

It was recently shown that almost all solutions in the symmetric binary perceptron are isolated, even at low constraint densities, suggesting that finding typical solutions is hard. In contrast, some algorithms have been shown empirically to succeed in finding solutions at low density. This phenomenon has been justified numerically by the existence of subdominant and dense connected regions of solutions, which are accessible by simple learning algorithms. In this paper, we establish formally such a phenomenon for both the symmetric and asymmetric binary perceptrons. We show that at low constraint density (equivalently for overparametrized perceptrons), there exists indeed a subdominant connected cluster of solutions with almost maximal diameter, and that an efficient multiscale majority algorithm can find solutions in such a cluster with high probability, settling in particular an open problem posed by Perkins-Xu '21. In addition, even close to the critical threshold, we show that there exist clusters of linear diameter for the symmetric perceptron, as well as for the asymmetric perceptron under additional assumptions.
翻訳日:2021-11-08 16:14:20 公開日:2021-11-04
# 私の家 - 私のルール - グラフニューラルネットワークによる選好学習

My House, My Rules: Learning Tidying Preferences with Graph Neural Networks ( http://arxiv.org/abs/2111.03112v1 )

ライセンス: Link先を確認
Ivan Kapelyukh and Edward Johns(参考訳) 家計オブジェクトを配置するロボットは、本質的に主観的でモデル化が難しいユーザの好みに応じて行うべきである。 本稿では,グラフニューラルネットワーク層を用いた新しい変分オートエンコーダアーキテクチャである neatnet を提案する。 任意のオブジェクトセットが与えられた場合、このベクトルを使用して、そのユーザの空間的嗜好に合わせて調整された配列を生成し、新しいオブジェクトへの一般化に使用される単語埋め込みを生成する。 提案手法は,75人のユーザから再配置のサンプルを収集し,様々な再配置シナリオにおいて,常に巧妙かつパーソナライズされたアレンジを生成できることを実証的に示す。

Robots that arrange household objects should do so according to the user's preferences, which are inherently subjective and difficult to model. We present NeatNet: a novel Variational Autoencoder architecture using Graph Neural Network layers, which can extract a low-dimensional latent preference vector from a user by observing how they arrange scenes. Given any set of objects, this vector can then be used to generate an arrangement which is tailored to that user's spatial preferences, with word embeddings used for generalisation to new objects. We develop a tidying simulator to gather rearrangement examples from 75 users, and demonstrate empirically that our method consistently produces neat and personalised arrangements across a variety of rearrangement scenarios.
翻訳日:2021-11-08 16:13:37 公開日:2021-11-04
# BCI性能向上のための機能接続アンサンブル法(FUCONE)

Functional connectivity ensemble method to enhance BCI performance (FUCONE) ( http://arxiv.org/abs/2111.03122v1 )

ライセンス: Link先を確認
Marie-Constance Corsi, Sylvain Chevallier, Fabrizio De Vico Fallani and Florian Yger(参考訳) 機能的接続は、脳の振動活動を研究するための重要なアプローチであり、脳の活動分析に主に応用される神経相互作用の基礎となるダイナミクスに関する重要な洞察を提供する。 脳-コンピュータインタフェースにおける情報幾何学の進歩を基盤として,機能的接続推定器と共分散型パイプラインを組み合わせて,運動画像などの精神状態の分類を行う新しい枠組みを提案する。 リーマン分類器は各推定器に対して訓練され、アンサンブル分類器は各特徴空間における決定を組み合わせる。 機能接続推定器の徹底的な評価を行い、FUCONEと呼ばれる最高の実行パイプラインを異なる条件とデータセットで評価する。 FUCONEは、メタデータ分析を使用してデータセットを集約し、すべての最先端メソッドよりも大幅にパフォーマンスが向上した。 性能向上は,特徴空間の多様性向上にほぼ影響し,サブジェクト間およびイントラサブジェクト変動に対するアンサンブル分類器のロバスト性を高める。

Functional connectivity is a key approach to investigate oscillatory activities of the brain that provides important insights on the underlying dynamic of neuronal interactions and that is mostly applied for brain activity analysis. Building on the advances in information geometry for brain-computer interface, we propose a novel framework that combines functional connectivity estimators and covariance-based pipelines to classify mental states, such as motor imagery. A Riemannian classifier is trained for each estimator and an ensemble classifier combines the decisions in each feature space. A thorough assessment of the functional connectivity estimators is provided and the best performing pipeline, called FUCONE, is evaluated on different conditions and datasets. Using a meta-analysis to aggregate results across datasets, FUCONE performed significantly better than all state-of-the-art methods. The performance gain is mostly imputable to the improved diversity of the feature spaces, increasing the robustness of the ensemble classifier with respect to the inter- and intra-subject variability.
翻訳日:2021-11-08 16:13:22 公開日:2021-11-04
# 説明可能なk-means。 欲をそそるな もっと大きな木を植えろ!

Explainable k-means. Don't be greedy, plant bigger trees! ( http://arxiv.org/abs/2111.03193v1 )

ライセンス: Link先を確認
Konstantin Makarychev, Liren Shan(参考訳) 説明可能な$k$-meansクラスタリングのための新しい双基準 $\tilde{O}(\log^2 k)$の競合アルゴリズムを提供する。 説明可能な$k$-meansは、最近Dasgupta、Frost、Moshkovitz、Rashtchian(ICML 2020)によって導入された。 これは、容易に解釈され、(threshold)決定木またはダイアグラムによって記述される。 説明可能な$k$-meansクラスタリングのコストは、クラスタのコストの合計と等しい。 ランダム化されたbi-criteriaアルゴリズムは、データセットを$(1+\delta)k$クラスタに分割するしきい値決定ツリーを構築します(ここで$\delta\in (0,1)$はアルゴリズムのパラメータです)。 このクラスタリングのコストは、最大$\tilde{O}(1/\delta \cdot \log^2 k)$である。 この境界はほぼ最適であることを示す。

We provide a new bi-criteria $\tilde{O}(\log^2 k)$ competitive algorithm for explainable $k$-means clustering. Explainable $k$-means was recently introduced by Dasgupta, Frost, Moshkovitz, and Rashtchian (ICML 2020). It is described by an easy to interpret and understand (threshold) decision tree or diagram. The cost of the explainable $k$-means clustering equals to the sum of costs of its clusters; and the cost of each cluster equals the sum of squared distances from the points in the cluster to the center of that cluster. Our randomized bi-criteria algorithm constructs a threshold decision tree that partitions the data set into $(1+\delta)k$ clusters (where $\delta\in (0,1)$ is a parameter of the algorithm). The cost of this clustering is at most $\tilde{O}(1/\delta \cdot \log^2 k)$ times the cost of the optimal unconstrained $k$-means clustering. We show that this bound is almost optimal.
翻訳日:2021-11-08 16:13:03 公開日:2021-11-04
# 深部強化学習による複雑な流れにおけるフライミミングフライアの制御

Control of a fly-mimicking flyer in complex flow using deep reinforcement learning ( http://arxiv.org/abs/2111.03454v1 )

ライセンス: Link先を確認
Seungpyo Hong, Sejin Kim, Donghyun You(参考訳) 複雑な流れにおけるフライスケールフレキシブル翼フライア制御のための計算流体構造力学(CFD-CSD)と深部強化学習(deep-RL)の統合フレームワークを開発した。 複素流れにおけるフライヤーの動力学は非定常で非線形であるため、モデリングは困難である。 したがって、ダイナミクスをモデル化する従来の制御方法論は、そのような複雑なダイナミクスを規制するには不十分である。 そこで本研究では, 流体と構造に関する支配方程式全体を解いた統合的枠組みを提案し, フライアの制御方針を立案した。 深部RLが制御ポリシをうまく学習するには、ダイナミックスの正確かつ十分なデータが必要である。 しかし、より正確なデータの方がコストが高いため、複雑な力学上のデータの品質と量の両方を満たすことは極めて困難である。 本研究では,ジレンマに対処する2つの戦略を提案する。 正確なデータを得るために、CFD-CSDを用いて力学を正確に予測する。 豊富なデータを得るために、得られたデータを動的に保存しながら、様々な状況で複製する新しいデータ再生方法が考案される。 これらのデータを用いて, 各種流れ条件における制御ポリシを学習し, 複雑な流れ場におけるフライア制御において, 学習ポリシは顕著な性能を示した。

An integrated framework of computational fluid-structural dynamics (CFD-CSD) and deep reinforcement learning (deep-RL) is developed for control of a fly-scale flexible-winged flyer in complex flow. Dynamics of the flyer in complex flow is highly unsteady and nonlinear, which makes modeling the dynamics challenging. Thus, conventional control methodologies, where the dynamics is modeled, are insufficient for regulating such complicated dynamics. Therefore, in the present study, the integrated framework, in which the whole governing equations for fluid and structure are solved, is proposed to generate a control policy for the flyer. For the deep-RL to successfully learn the control policy, accurate and ample data of the dynamics are required. However, satisfying both the quality and quantity of the data on the intricate dynamics is extremely difficult since, in general, more accurate data are more costly. In the present study, two strategies are proposed to deal with the dilemma. To obtain accurate data, the CFD-CSD is adopted for precisely predicting the dynamics. To gain ample data, a novel data reproduction method is devised, where the obtained data are replicated for various situations while conserving the dynamics. With those data, the framework learns the control policy in various flow conditions and the learned policy is shown to have remarkable performance in controlling the flyer in complex flow fields.
翻訳日:2021-11-08 16:11:06 公開日:2021-11-04
# コントラスト表現学習のための正規化最適輸送によるハード負サンプリング

Hard Negative Sampling via Regularized Optimal Transport for Contrastive Representation Learning ( http://arxiv.org/abs/2111.03169v1 )

ライセンス: Link先を確認
Ruijie Jiang, Prakash Ishwar, Shuchin Aeron(参考訳) 本研究では,教師なしコントラスト表現学習のためのハード負サンプリング分布の設計問題について検討する。 我々は、すべての結合(正と負のサンプル間の結合分布)における最大(Worst-case)のコントラスト学習損失を最小限に抑える表現を求める新しいmin-maxフレームワークを解析し、結果のmin-max最適表現が退化することを証明する。 これは結合にさらなる正規化制約を組み込むための最初の理論的正当化を与える。 最適輸送理論のレンズを通してmin-max問題を再解釈し、正則化輸送カップリングを用いて負の例の硬度を制御する。 最近提案された最先端の正負サンプリング分布は、結合のエントロピー正則化に対応する特別な場合であることを示す。

We study the problem of designing hard negative sampling distributions for unsupervised contrastive representation learning. We analyze a novel min-max framework that seeks a representation which minimizes the maximum (worst-case) generalized contrastive learning loss over all couplings (joint distributions between positive and negative samples subject to marginal constraints) and prove that the resulting min-max optimum representation will be degenerate. This provides the first theoretical justification for incorporating additional regularization constraints on the couplings. We re-interpret the min-max problem through the lens of Optimal Transport theory and utilize regularized transport couplings to control the degree of hardness of negative examples. We demonstrate that the state-of-the-art hard negative sampling distributions that were recently proposed are a special case corresponding to entropic regularization of the coupling.
翻訳日:2021-11-08 16:07:29 公開日:2021-11-04
# LW-GCN:軽量FPGAベースのグラフ畳み込みネットワーク加速器

LW-GCN: A Lightweight FPGA-based Graph Convolutional Network Accelerator ( http://arxiv.org/abs/2111.03184v1 )

ライセンス: Link先を確認
Zhuofu Tao, Chen Wu, Yuan Liang, and Lei He(参考訳) グラフ畳み込みネットワーク(GCN)は、非ユークリッドグラフデータを効率的に処理するために導入された。 しかし、GCNは計算とメモリアクセスにおいて大量の不規則を引き起こし、従来のニューラルネットワークアクセラレーターの効率的な使用を妨げている。 さらに、既存の専用GCNアクセラレータは高いメモリボリュームを必要としており、リソース制限されたエッジデバイスに実装することは困難である。 本稿では,GCN推論における計算およびメモリアクセスの不規則性に対処するために,ソフトウェアハードウェアを共設計した軽量FPGAベースのアクセラレータであるLW-GCNを提案する。 LW-GCNは主要なGCN演算をスパースセンス行列乗算(SDMM)と密度行列乗算(DMM)に分解する。 本稿では,PE間の負荷バランスとデータハザード防止のための新しい圧縮形式を提案する。 さらに、データ量子化とワークロードタイリングを適用し、リソース制限ハードウェア上の一様アーキテクチャに、GCN推論のSDMMとDMMの両方をマッピングする。 3つの一般的なデータセットを持つXilinx Kintex-7 FPGA上でGCNとGraphSAGEの評価を行う。 既存のCPU、GPU、最先端FPGAベースのアクセラレータと比較して、LW-GCNはレイテンシを最大60倍、12倍、および1.7倍に削減し、電力効率を最大912倍に向上させる。 511xと3.87xであった。 さらに、NVIDIAの最新のエッジGPU Jetson Xavier NXと比較して、LW-GCNはそれぞれ32xと84xのスピードアップと省エネを実現している。

Graph convolutional networks (GCNs) have been introduced to effectively process non-euclidean graph data. However, GCNs incur large amounts of irregularity in computation and memory access, which prevents efficient use of traditional neural network accelerators. Moreover, existing dedicated GCN accelerators demand high memory volumes and are difficult to implement onto resource limited edge devices. In this work, we propose LW-GCN, a lightweight FPGA-based accelerator with a software-hardware co-designed process to tackle irregularity in computation and memory access in GCN inference. LW-GCN decomposes the main GCN operations into sparse-dense matrix multiplication (SDMM) and dense matrix multiplication (DMM). We propose a novel compression format to balance workload across PEs and prevent data hazards. Moreover, we apply data quantization and workload tiling, and map both SDMM and DMM of GCN inference onto a uniform architecture on resource limited hardware. Evaluation on GCN and GraphSAGE are performed on Xilinx Kintex-7 FPGA with three popular datasets. Compared to existing CPU, GPU, and state-of-the-art FPGA-based accelerator, LW-GCN reduces latency by up to 60x, 12x and 1.7x and increases power efficiency by up to 912x., 511x and 3.87x, respectively. Furthermore, compared with NVIDIA's latest edge GPU Jetson Xavier NX, LW-GCN achieves speedup and energy savings of 32x and 84x, respectively.
翻訳日:2021-11-08 16:07:14 公開日:2021-11-04
# 睡眠ステージ分類への機械学習の適用

Application of Machine Learning to Sleep Stage Classification ( http://arxiv.org/abs/2111.03085v1 )

ライセンス: Link先を確認
Andrew Smith, Hardik Anand, Snezana Milosavljevic, Katherine M. Rentschler, Ana Pocivavsek, Homayoun Valafar(参考訳) 睡眠研究は、睡眠喪失と精神病理に寄与するメカニズムの解明に関連する表現型を再カプセル化するために不可欠である。 多くの場合、調査員はポリソムノグラフィを時間を要する自警状態に手動で分類するが、これには広範な訓練が必要である。 多くの研究が複数のEEGチャネルをベースとした自動警戒状態分類器の開発に成功しているのに対し,我々は単一皮質脳波(EEG)に基づいて警戒状態を確実に予測し,小型動物をワイヤでコンピュータプログラムに繋ぐ欠点を最小限に抑えることを目的としている。 脳波、筋電図(EMG)、活動の約427時間は、合計571時間のうちドメインの専門家によってラベル付けされた。 本稿では,10秒のエポックを3つの離散クラス(パラドックス,スローウェーブ,ウェイク)の1つに分類する,さまざまな機械学習手法の性能を評価する。 我々の調査には、決定木、ランダムフォレスト、ナイーブベイズ分類器、ロジスティック回帰分類器、ニューラルネットワークが含まれる。 これらの手法は、約74%から約96%の精度を達成した。 特に、ランダムフォレストとANNは、それぞれ95.78%と93.31%という顕著な精度を達成した。 ここでは,1つの脳波と1つのEMG読解に基づく警戒状態を自動的,正確に,確実に分類する各種機械学習分類器の可能性を示す。

Sleep studies are imperative to recapitulate phenotypes associated with sleep loss and uncover mechanisms contributing to psychopathology. Most often, investigators manually classify the polysomnography into vigilance states, which is time-consuming, requires extensive training, and is prone to inter-scorer variability. While many works have successfully developed automated vigilance state classifiers based on multiple EEG channels, we aim to produce an automated and open-access classifier that can reliably predict vigilance state based on a single cortical electroencephalogram (EEG) from rodents to minimize the disadvantages that accompany tethering small animals via wires to computer programs. Approximately 427 hours of continuously monitored EEG, electromyogram (EMG), and activity were labeled by a domain expert out of 571 hours of total data. Here we evaluate the performance of various machine learning techniques on classifying 10-second epochs into one of three discrete classes: paradoxical, slow-wave, or wake. Our investigations include Decision Trees, Random Forests, Naive Bayes Classifiers, Logistic Regression Classifiers, and Artificial Neural Networks. These methodologies have achieved accuracies ranging from approximately 74% to approximately 96%. Most notably, the Random Forest and the ANN achieved remarkable accuracies of 95.78% and 93.31%, respectively. Here we have shown the potential of various machine learning classifiers to automatically, accurately, and reliably classify vigilance states based on a single EEG reading and a single EMG reading.
翻訳日:2021-11-08 15:50:03 公開日:2021-11-04
# ベイズニューラルネットワークの無限時間水平安全性

Infinite Time Horizon Safety of Bayesian Neural Networks ( http://arxiv.org/abs/2111.03165v1 )

ライセンス: Link先を確認
Mathias Lechner, {\DJ}or{\dj}e \v{Z}ikeli\'c, Krishnendu Chatterjee, Thomas A. Henzinger(参考訳) ベイズニューラルネットワーク(BNN)は、ニューラルネットワークの重みに分布を置き、データの不確実性とネットワークの予測をモデル化する。 ベイジアンニューラルネットワークポリシーを無限時間水平系のフィードバックループで実行する場合の安全性検証の問題点を考察する。 無限時間地平線設定には適用できない既存のサンプリングベースアプローチと比較して、無限時間地平線安全証明書として機能する別個の決定論的ニューラルネットワークを訓練する。 特に,認証ネットワークは,BNNの重み付きサポートのサブセットよりもシステムの安全性を保証していることを示す。 提案手法は,まず安全な重み集合を計算し,次にBNNの重み後部を変更して,この集合外のサンプルを拒絶する。 さらに,政策の訓練中,安全でない軌道を避けるために,安全探索強化学習環境へのアプローチをいかに拡張するかを示す。 我々は,非ルクセンブルクの安全仕様を含む一連の強化学習ベンチマークに対するアプローチを評価する。

Bayesian neural networks (BNNs) place distributions over the weights of a neural network to model uncertainty in the data and the network's prediction. We consider the problem of verifying safety when running a Bayesian neural network policy in a feedback loop with infinite time horizon systems. Compared to the existing sampling-based approaches, which are inapplicable to the infinite time horizon setting, we train a separate deterministic neural network that serves as an infinite time horizon safety certificate. In particular, we show that the certificate network guarantees the safety of the system over a subset of the BNN weight posterior's support. Our method first computes a safe weight set and then alters the BNN's weight posterior to reject samples outside this set. Moreover, we show how to extend our approach to a safe-exploration reinforcement learning setting, in order to avoid unsafe trajectories during the training of the policy. We evaluate our approach on a series of reinforcement learning benchmarks, including non-Lyapunovian safety specifications.
翻訳日:2021-11-08 15:49:37 公開日:2021-11-04
# ExClus: 低次元データ表現による説明可能なクラスタリング

ExClus: Explainable Clustering on Low-dimensional Data Representations ( http://arxiv.org/abs/2111.03168v1 )

ライセンス: Link先を確認
Xander Vankwikelberge, Bo Kang, Edith Heiter, Jefrey Lijffijt(参考訳) 次元の減少とクラスタリング技術は複雑なデータセットの分析に頻繁に使用されるが、それらの結果は容易に解釈できないことが多い。 本研究では,データを二次元空間に投影する場合など,軸が直接解釈できない散乱プロット上での明らかなクラスター構造を解釈する上でのユーザ支援について検討する。 具体的には,元々の高次元空間に説明があり,低次元射影においてクラスタリングが一貫性を持つような,解釈可能なクラスタリングを自動計算する新しい手法を提案する。 情報理論を用いることで、複雑さと提供される情報量の間の調整可能なバランスを提供する。 本研究では,この問題の計算量について検討し,効率的で可変で欲望のある最適化アルゴリズムに到達するための解の探索空間の制約を導入する。 このアルゴリズムはさらにExClusと呼ばれるインタラクティブなツールで実装されている。 複数のデータセットの実験では、ExClusが情報的で分かりやすいパターンを提供し、アルゴリズムが効率的で、チューニング性とスケーラビリティを考慮して改善の余地があることが強調されている。

Dimensionality reduction and clustering techniques are frequently used to analyze complex data sets, but their results are often not easy to interpret. We consider how to support users in interpreting apparent cluster structure on scatter plots where the axes are not directly interpretable, such as when the data is projected onto a two-dimensional space using a dimensionality-reduc tion method. Specifically, we propose a new method to compute an interpretable clustering automatically, where the explanation is in the original high-dimensional space and the clustering is coherent in the low-dimensional projection. It provides a tunable balance between the complexity and the amount of information provided, through the use of information theory. We study the computational complexity of this problem and introduce restrictions on the search space of solutions to arrive at an efficient, tunable, greedy optimization algorithm. This algorithm is furthermore implemented in an interactive tool called ExClus. Experiments on several data sets highlight that ExClus can provide informative and easy-to-understand patterns, and they expose where the algorithm is efficient and where there is room for improvement considering tunability and scalability.
翻訳日:2021-11-08 15:49:19 公開日:2021-11-04
# 足場セット

Scaffolding Sets ( http://arxiv.org/abs/2111.03135v1 )

ライセンス: Link先を確認
Maya Burhanpurkar, Zhun Deng, Cynthia Dwork, Linjun Zhang(参考訳) 予測者は人口の個々のインスタンスを$[0,1]$という間隔にマップする。 集団の部分集合の $\mathcal c$ のコレクションに対して、予測器は$\mathcal c$ の中で各集合上で同時に校正される場合、$\mathcal c$ に関して多重連結される。 足場集合の構成についての研究を開始し、$\mathcal S$に対して多重校正を行う性質を持つ集合の小さなコレクション$\mathcal S$は、予測器の校正ではなく正当性を保証する。 我々のアプローチは、ニューラルネットワークの中間層が高度に構造化され有用なデータ表現を学ぶという民間の知恵に着想を得ている。

Predictors map individual instances in a population to the interval $[0,1]$. For a collection $\mathcal C$ of subsets of a population, a predictor is multi-calibrated with respect to $\mathcal C$ if it is simultaneously calibrated on each set in $\mathcal C$. We initiate the study of the construction of scaffolding sets, a small collection $\mathcal S$ of sets with the property that multi-calibration with respect to $\mathcal S$ ensures correctness, and not just calibration, of the predictor. Our approach is inspired by the folk wisdom that the intermediate layers of a neural net learn a highly structured and useful data representation.
翻訳日:2021-11-08 15:13:34 公開日:2021-11-04
# Big-Step-Little-Step :複数スケール対象に対する効率的な勾配法

Big-Step-Little-Step : Efficient Gradient Methods for Objectives with Multiple Scales ( http://arxiv.org/abs/2111.03137v1 )

ライセンス: Link先を確認
Jonathan Kelner, Annie Marsden, Vatsal Sharan, Aaron Sidford, Gregory Valiant, Honglin Yuan(参考訳) 最適化問題の幅広いクラスを効率的に解くための新しい勾配ベース手法を提案する。 未知の非相互作用的滑らかで強い凸関数の和として暗黙的に分解可能な関数 $f : \mathbb{R}^d \rightarrow \mathbb{R}$ の最小化の問題を考えるとともに、成分の条件数の平方根の積としてスケールする勾配評価(対数因子まで)でこの問題を解決する方法を提案する。 この複雑性境界(ほぼ最適であることが証明されている)は、条件数$f$の平方根として成長する加速勾配法よりも指数関数的に改善することができる。 さらに, このマルチスケール最適化問題の確率的, 二次的変種を効率的に解く手法を提案する。 この方法では、$f$の分解を学習する代わりに、標準的なメソッドのクリーンな再帰的な"Big-Step-Little-Step "インターリービングを適用する。 結果のアルゴリズムは$\tilde{\mathcal{O}}(d m)$ space を使い、数値的に安定であり、条件数を超えた凸最適化の複雑さをより詳細に理解するための扉を開く。

We provide new gradient-based methods for efficiently solving a broad class of ill-conditioned optimization problems. We consider the problem of minimizing a function $f : \mathbb{R}^d \rightarrow \mathbb{R}$ which is implicitly decomposable as the sum of $m$ unknown non-interacting smooth, strongly convex functions and provide a method which solves this problem with a number of gradient evaluations that scales (up to logarithmic factors) as the product of the square-root of the condition numbers of the components. This complexity bound (which we prove is nearly optimal) can improve almost exponentially on that of accelerated gradient methods, which grow as the square root of the condition number of $f$. Additionally, we provide efficient methods for solving stochastic, quadratic variants of this multiscale optimization problem. Rather than learn the decomposition of $f$ (which would be prohibitively expensive), our methods apply a clean recursive "Big-Step-Little-Step " interleaving of standard methods. The resulting algorithms use $\tilde{\mathcal{O}}(d m)$ space, are numerically stable, and open the door to a more fine-grained understanding of the complexity of convex optimization beyond condition number.
翻訳日:2021-11-08 15:13:20 公開日:2021-11-04
# 多項式ネットワークのガウス過程への収束速度

Rate of Convergence of Polynomial Networks to Gaussian Processes ( http://arxiv.org/abs/2111.03175v1 )

ライセンス: Link先を確認
Adam Klukowski(参考訳) ランダムな重みを持つ一層ニューラルネットワークについて検討する。 無限に多くのニューロンの限界において、それらはガウス過程に単純化されることはよく知られている。 多項式活性化を持つネットワークの場合、2-ワッサーシュタイン計量におけるこの収束の速度は$O(n^{-\frac{1}{2}})$であり、$n$は隠されたニューロンの数である。 この率は漸近的に鋭いと思う。 他のアクティベーションの既知の収束率を、reluのn$とerfの対数係数までの逆二乗根のパワーローに改善する。 非等方性設定における球面高調波、スタイン核、最適輸送の相互作用について検討する。

We examine one-hidden-layer neural networks with random weights. It is well-known that in the limit of infinitely many neurons they simplify to Gaussian processes. For networks with a polynomial activation, we demonstrate that the rate of this convergence in 2-Wasserstein metric is $O(n^{-\frac{1}{2}})$, where $n$ is the number of hidden neurons. We suspect this rate is asymptotically sharp. We improve the known convergence rate for other activations, to power-law in $n$ for ReLU and inverse-square-root up to logarithmic factors for erf. We explore the interplay between spherical harmonics, Stein kernels and optimal transport in the non-isotropic setting.
翻訳日:2021-11-08 15:12:56 公開日:2021-11-04
# 単純階層モデルに対する不定形変分推論

Amortized Variational Inference for Simple Hierarchical Models ( http://arxiv.org/abs/2111.03144v1 )

ライセンス: Link先を確認
Abhinav Agrawal, Justin Domke(参考訳) 局所潜伏変数の数がデータセットでスケールするため、階層モデルにおける変分推論によるサブサンプリングを使用するのは難しい。 したがって、階層モデルにおける推論は、大規模な課題である。 後部に対応する構造を持つ変分族を用いるのがよいが、局所分布の多さのため、最適化は依然として遅い。 そこで本稿では,共有パラメータがすべての局所分布を同時に表現する手法を提案する。 このアプローチは、与えられたジョイント分布(例えば、フルランクガウス分布)を使用するのと同様に正確であるが、数桁大きいデータセットで実現可能である。 また、構造化変分分布を使うよりも劇的に高速である。

It is difficult to use subsampling with variational inference in hierarchical models since the number of local latent variables scales with the dataset. Thus, inference in hierarchical models remains a challenge at large scale. It is helpful to use a variational family with structure matching the posterior, but optimization is still slow due to the huge number of local distributions. Instead, this paper suggests an amortized approach where shared parameters simultaneously represent all local distributions. This approach is similarly accurate as using a given joint distribution (e.g., a full-rank Gaussian) but is feasible on datasets that are several orders of magnitude larger. It is also dramatically faster than using a structured variational distribution.
翻訳日:2021-11-08 14:45:41 公開日:2021-11-04
# GraN-GAN: 生成共振器ネットワークのための最適勾配正規化

GraN-GAN: Piecewise Gradient Normalization for Generative Adversarial Networks ( http://arxiv.org/abs/2111.03162v1 )

ライセンス: Link先を確認
Vineeth S. Bhaskara, Tristan Aumentado-Armstrong, Allan Jepson, Alex Levinshtein(参考訳) 現代のGAN(Generative Adversarial Network)は、ReLUやLeakyReLUなど、識別器(または批評家)において、断片的に線形なアクティベーション機能を利用する。 このようなモデルは、各ピースが入力空間のサブセットを処理し、各サブセットごとの勾配が区分的に定数である、区分的な線形写像を学習する。 このような差別化(あるいは批判)関数のクラスの下では、入力空間におけるK-Lipschitz制約を断片的に保証する新しい入力依存正規化法であるグラディエント正規化(GraN)を提案する。 スペクトル正規化とは対照的に、GraNは個々のネットワーク層での処理を制限せず、勾配のペナルティとは異なり、ほぼ至る所でピースワイズ・リプシッツの制約を厳格に強制する。 実験により、複数のデータセット(CIFAR-10/100、STL-10、LSUN寝室、CelebAを含む)、GAN損失関数、メトリクス)における画像生成性能の改善を実証した。 さらに、いくつかの標準GANにおいて、しばしば修正されないリプシッツ定数Kの変化を解析し、大きな性能向上を達成するだけでなく、Kとトレーニングダイナミクス、特に低次損失プラトーにおいて、一般的なAdamオプティマイザとの接続も見つける。

Modern generative adversarial networks (GANs) predominantly use piecewise linear activation functions in discriminators (or critics), including ReLU and LeakyReLU. Such models learn piecewise linear mappings, where each piece handles a subset of the input space, and the gradients per subset are piecewise constant. Under such a class of discriminator (or critic) functions, we present Gradient Normalization (GraN), a novel input-dependent normalization method, which guarantees a piecewise K-Lipschitz constraint in the input space. In contrast to spectral normalization, GraN does not constrain processing at the individual network layers, and, unlike gradient penalties, strictly enforces a piecewise Lipschitz constraint almost everywhere. Empirically, we demonstrate improved image generation performance across multiple datasets (incl. CIFAR-10/100, STL-10, LSUN bedrooms, and CelebA), GAN loss functions, and metrics. Further, we analyze altering the often untuned Lipschitz constant K in several standard GANs, not only attaining significant performance gains, but also finding connections between K and training dynamics, particularly in low-gradient loss plateaus, with the common Adam optimizer.
翻訳日:2021-11-08 14:23:00 公開日:2021-11-04
# ランダム力学系の確率予測のための生成逆ネットワーク

Generative Adversarial Network for Probabilistic Forecast of Random Dynamical System ( http://arxiv.org/abs/2111.03126v1 )

ライセンス: Link先を確認
Kyongmin Yeo, Zan Li, Wesley M. Gifford(参考訳) 本研究では,確率力学系のデータ駆動型シミュレーションのための深層学習モデルを提案する。 深層学習モデルは、時間行進構造を学習することを目的とした反復ニューラルネットワークと、ランダムな力学系の確率分布から学習およびサンプリングを行う生成逆ネットワークとから構成される。 生成的敵ネットワークは複雑な確率分布をモデル化するための強力なツールを提供するが、訓練は適切な正規化なしで失敗することが多い。 本稿では,逐次推論問題に対する一貫性条件に基づく生成型逆ネットワークの正規化戦略を提案する。 第一に、最大平均差分法(MMD)は確率過程の条件分布と限界分布の整合性を強制するために用いられる。 そして、MDDまたは複数の識別器を用いて、マルチステップ予測の限界分布を正規化する。 複雑なノイズ構造を持つ3つの確率過程を用いて,提案モデルの挙動を考察した。

We present a deep learning model for data-driven simulations of random dynamical systems without a distributional assumption. The deep learning model consists of a recurrent neural network, which aims to learn the time marching structure, and a generative adversarial network to learn and sample from the probability distribution of the random dynamical system. Although generative adversarial networks provide a powerful tool to model a complex probability distribution, the training often fails without a proper regularization. Here, we propose a regularization strategy for a generative adversarial network based on consistency conditions for the sequential inference problems. First, the maximum mean discrepancy (MMD) is used to enforce the consistency between conditional and marginal distributions of a stochastic process. Then, the marginal distributions of the multiple-step predictions are regularized by using MMD or from multiple discriminators. The behavior of the proposed model is studied by using three stochastic processes with complex noise structures.
翻訳日:2021-11-08 14:22:34 公開日:2021-11-04
# 時空間グラフ畳み込みネットワークを用いた行動再構成のための骨格分割フレームワーク

Skeleton-Split Framework using Spatial Temporal Graph Convolutional Networks for Action Recogntion ( http://arxiv.org/abs/2111.03106v1 )

ライセンス: Link先を確認
Motasem Alsawadi and Miguel Rio(参考訳) インターネットにアップロードされたビデオや関連コンテンツの量は劇的に増加している。 したがって、膨大な量のデータを分析するための効率的なアルゴリズムの必要性は、大きな研究の関心を集めている。 人体の動きに基づく行動認識システムは,映像内容を正確に解釈することが実証された。 本研究は,st-gcnモデルを用いた日常生活活動の認識を目標とし,空間構成分割,全距離分割,接続分割,インデックス分割の4つの異なる分割戦略の比較を行った。 この目的を達成するため,HMDB-51データセット上にST-GCNフレームワークを実装した。 接続分割分割手法を用いて,48.88 %トップ1の精度を実現した。 実験により,本提案手法は,ST-GCNフレームワークを用いたUCF-101データセットにおいて,最先端のアプローチよりも高い精度を達成できたことを示す。 最後に、インデックス分割分割戦略を用いて、73.25 % top-1の精度を達成する。

There has been a dramatic increase in the volume of videos and their related content uploaded to the internet. Accordingly, the need for efficient algorithms to analyse this vast amount of data has attracted significant research interest. An action recognition system based upon human body motions has been proven to interpret videos contents accurately. This work aims to recognize activities of daily living using the ST-GCN model, providing a comparison between four different partitioning strategies: spatial configuration partitioning, full distance split, connection split, and index split. To achieve this aim, we present the first implementation of the ST-GCN framework upon the HMDB-51 dataset. We have achieved 48.88 % top-1 accuracy by using the connection split partitioning approach. Through experimental simulation, we show that our proposals have achieved the highest accuracy performance on the UCF-101 dataset using the ST-GCN framework than the state-of-the-art approach. Finally, accuracy of 73.25 % top-1 is achieved by using the index split partitioning strategy.
翻訳日:2021-11-08 14:22:03 公開日:2021-11-04
# EditGAN: 高精度セマンティック画像編集

EditGAN: High-Precision Semantic Image Editing ( http://arxiv.org/abs/2111.03186v1 )

ライセンス: Link先を確認
Huan Ling, Karsten Kreis, Daiqing Li, Seung Wook Kim, Antonio Torralba, Sanja Fidler(参考訳) generative adversarial networks (gans) は最近、画像編集に応用されている。 しかし、ほとんどのGANベースの画像編集手法は、訓練用にセマンティックセグメンテーションアノテーションを持つ大規模なデータセットを必要とすることが多く、高いレベルの制御しか提供しない。 本稿では,高品質で高精度なセマンティックな画像編集のための新しい手法であるEditGANを提案する。 EditGANは、画像とセマンティックセグメンテーションを共同でモデル化するGANフレームワーク上に構築されている。 具体的には、画像をGAN潜在空間に埋め込んで、セグメント化編集に従って条件付き潜在コード最適化を行い、画像も効果的に修正する。 最適化を行うために,編集を実現する潜在空間に編集ベクトルを求める。 このフレームワークは任意の数の編集ベクトルを学習し、対話的な速度で他の画像に直接適用することができる。 本研究では,前例のない精細度と自由度で画像の操作が可能であり,同時に,複数の編集を組み合わせることも可能であり,editganのトレーニングデータ以上の編集を行うことが可能であることを実験的に示す。 さまざまな画像タイプでEditGANを実演し、標準的な編集ベンチマークタスクで過去の編集方法よりも定量的に優れていることを示す。

Generative adversarial networks (GANs) have recently found applications in image editing. However, most GAN based image editing methods often require large scale datasets with semantic segmentation annotations for training, only provide high level control, or merely interpolate between different images. Here, we propose EditGAN, a novel method for high quality, high precision semantic image editing, allowing users to edit images by modifying their highly detailed part segmentation masks, e.g., drawing a new mask for the headlight of a car. EditGAN builds on a GAN framework that jointly models images and their semantic segmentations, requiring only a handful of labeled examples, making it a scalable tool for editing. Specifically, we embed an image into the GAN latent space and perform conditional latent code optimization according to the segmentation edit, which effectively also modifies the image. To amortize optimization, we find editing vectors in latent space that realize the edits. The framework allows us to learn an arbitrary number of editing vectors, which can then be directly applied on other images at interactive rates. We experimentally show that EditGAN can manipulate images with an unprecedented level of detail and freedom, while preserving full image quality.We can also easily combine multiple edits and perform plausible edits beyond EditGAN training data. We demonstrate EditGAN on a wide variety of image types and quantitatively outperform several previous editing methods on standard editing benchmark tasks.
翻訳日:2021-11-08 14:20:40 公開日:2021-11-04
# 後継機能型ニューラルエピソード制御

Successor Feature Neural Episodic Control ( http://arxiv.org/abs/2111.03110v1 )

ライセンス: Link先を確認
David Emukpere, Xavier Alameda-Pineda and Chris Reinke(参考訳) 強化学習の長年の目標は、高速学習と人間や動物に似た柔軟なスキルの移譲を示すインテリジェントエージェントを構築することである。 本稿では,これらの目標に取り組むための2つのフレームワークの統合について検討する。 エピソディック制御は、エージェントの体験のインスタンスベースメモリモデルであるエピソディックメモリに依存する認知的にインスパイアされたアプローチである。 一方、後継機能と一般化されたポリシー改善(SF&GPI)は、異なる報酬関数を持つ後続のタスクに対して効率的に再利用可能なタスクのポリシーを学習するためのメタおよび転送学習フレームワークである。 これら2つのテクニックは、サンプル効率を大幅に改善し、以前に学習されたポリシーのエレガントな再利用を実現した。 そこで本研究では,両手法の組み合わせを単一の強化学習フレームワークで概説し,その利点を実証的に示す。

A longstanding goal in reinforcement learning is to build intelligent agents that show fast learning and a flexible transfer of skills akin to humans and animals. This paper investigates the integration of two frameworks for tackling those goals: episodic control and successor features. Episodic control is a cognitively inspired approach relying on episodic memory, an instance-based memory model of an agent's experiences. Meanwhile, successor features and generalized policy improvement (SF&GPI) is a meta and transfer learning framework allowing to learn policies for tasks that can be efficiently reused for later tasks which have a different reward function. Individually, these two techniques have shown impressive results in vastly improving sample efficiency and the elegant reuse of previously learned policies. Thus, we outline a combination of both approaches in a single reinforcement learning framework and empirically illustrate its benefits.
翻訳日:2021-11-08 14:18:54 公開日:2021-11-04
# COP解法における目的境界の予測機械学習

Predictive Machine Learning of Objective Boundaries for Solving COPs ( http://arxiv.org/abs/2111.03160v1 )

ライセンス: Link先を確認
Helge Spieker, Arnaud Gotlieb(参考訳) 制約最適化問題(COP)の解法は,コスト関数の厳密な境界を与える境界推定によって劇的に単純化することができる。 監視された機械学習(ML)モデルに、既知の境界とCOPの特徴を抽出したデータを与えることで、新しいCOPインスタンスの境界を推定するようにモデルをトレーニングすることができる。 本稿ではまず,問題インスタンスから学習する制約プログラミング(CP)のためのMLに関する既存の知識体系の概要を紹介する。 第2に,cpソルバをサポートするツールとして適用する境界推定フレームワークを提案する。 本枠組みでは, 境界推定に適したMLモデルについて検討, 評価し, 最適解を見つけるための解法を避けるために, 実現不可能な推定を避ける対策を提示する。 第3に,異なるCPソルバを用いた7つのCOP実験を行った。 以上の結果から,これらのCOPに対してほぼ最適境界を学習できることが示唆された。 これらの推定境界は、対象のドメインサイズを60-88%削減し、探索の早い段階でほぼ最適解を見つけるのに役立つ。

Solving Constraint Optimization Problems (COPs) can be dramatically simplified by boundary estimation, that is, providing tight boundaries of cost functions. By feeding a supervised Machine Learning (ML) model with data composed of known boundaries and extracted features of COPs, it is possible to train the model to estimate boundaries of a new COP instance. In this paper, we first give an overview of the existing body of knowledge on ML for Constraint Programming (CP) which learns from problem instances. Second, we introduce a boundary estimation framework that is applied as a tool to support a CP solver. Within this framework, different ML models are discussed and evaluated regarding their suitability for boundary estimation, and countermeasures to avoid unfeasible estimations that avoid the solver to find an optimal solution are shown. Third, we present an experimental study with distinct CP solvers on seven COPs. Our results show that near-optimal boundaries can be learned for these COPs with only little overhead. These estimated boundaries reduce the objective domain size by 60-88% and can help the solver to find near-optimal solutions early during search.
翻訳日:2021-11-08 14:18:39 公開日:2021-11-04
# 事例帰属法による知識グラフ埋め込みの逆攻撃

Adversarial Attacks on Knowledge Graph Embeddings via Instance Attribution Methods ( http://arxiv.org/abs/2111.03120v1 )

ライセンス: Link先を確認
Peru Bhardwaj, John Kelleher, Luca Costabello and Declan O'Sullivan(参考訳) KGE(Knowledge Graph Embeddings)が広く使用されているにもかかわらず、彼らの意図した動作を妨害する可能性のあるセキュリティ脆弱性についてはほとんど知られていない。 リンク予測のためのKGEモデルに対するデータ中毒攻撃について検討する。 これらの攻撃は、トレーニング時に敵対的な追加や削除を行い、テスト時にモデル障害を引き起こす。 そこで本研究では,ニューラルモデルのテストインスタンスにおける予測に最も影響を及ぼすトレーニングインスタンスを識別する,解釈可能な機械学習から,モデル非依存なインスタンス帰属法を提案する。 我々はこれらの影響力のある三重項を敵の削除として利用する。 さらに,各三重項の2つの実体のうちの1つを置換し,逆加法を生成するヒューリスティックな手法を提案する。 実験の結果,提案手法はKGEモデルに対する最先端データ中毒攻撃よりも優れており,ベースラインの最大62%の攻撃によるMRR劣化が向上していることがわかった。

Despite the widespread use of Knowledge Graph Embeddings (KGE), little is known about the security vulnerabilities that might disrupt their intended behaviour. We study data poisoning attacks against KGE models for link prediction. These attacks craft adversarial additions or deletions at training time to cause model failure at test time. To select adversarial deletions, we propose to use the model-agnostic instance attribution methods from Interpretable Machine Learning, which identify the training instances that are most influential to a neural model's predictions on test instances. We use these influential triples as adversarial deletions. We further propose a heuristic method to replace one of the two entities in each influential triple to generate adversarial additions. Our experiments show that the proposed strategies outperform the state-of-art data poisoning attacks on KGE models and improve the MRR degradation due to the attacks by up to 62% over the baselines.
翻訳日:2021-11-08 14:01:09 公開日:2021-11-04
# 木組によるエネルギー応用のための多目的制約最適化

Multi-Objective Constrained Optimization for Energy Applications via Tree Ensembles ( http://arxiv.org/abs/2111.03140v1 )

ライセンス: Link先を確認
Alexander Thebelt, Calvin Tsay, Robert M. Lee, Nathan Sudermann-Merx, David Walz, Tom Tranter and Ruth Misener(参考訳) エネルギーシステムの最適化問題は、強非線形システムの振舞いと複数の競合する目的、例えば、経済的利益と環境影響によって複雑である。 さらに、多数の入力変数と異なる変数タイプ、例えば連続型と分類型は、現実世界のアプリケーションに一般的に存在する課題である。 提案された最適解は、物理的性質や安全クリティカルな運転条件に関連する明示的な入力制約に従う必要がある。 本稿では,木アンサンブルを用いた新しいデータ駆動型手法を提案し,システム力学が複雑すぎる不均一な変数空間を持つブラックボックス問題に対する制約付き多目的最適化を提案する。 総合ベンチマークと関連するエネルギー応用からなる広範囲なケーススタディにおいて,提案手法の競合性能とサンプリング効率を他の最先端ツールと比較し,評価予算の少ない実世界のアプリケーションにとって有用なオールインワンソリューションとなることを示す。

Energy systems optimization problems are complex due to strongly non-linear system behavior and multiple competing objectives, e.g. economic gain vs. environmental impact. Moreover, a large number of input variables and different variable types, e.g. continuous and categorical, are challenges commonly present in real-world applications. In some cases, proposed optimal solutions need to obey explicit input constraints related to physical properties or safety-critical operating conditions. This paper proposes a novel data-driven strategy using tree ensembles for constrained multi-objective optimization of black-box problems with heterogeneous variable spaces for which underlying system dynamics are either too complex to model or unknown. In an extensive case study comprised of synthetic benchmarks and relevant energy applications we demonstrate the competitive performance and sampling efficiency of the proposed algorithm compared to other state-of-the-art tools, making it a useful all-in-one solution for real-world applications with limited evaluation budgets.
翻訳日:2021-11-08 14:00:53 公開日:2021-11-04
# (参考訳) リアルタイム無線送信の認可:動的認証セットへの適応と情報検索 [全文訳有]

Real-time Wireless Transmitter Authorization: Adapting to Dynamic Authorized Sets with Information Retrieval ( http://arxiv.org/abs/2111.02584v1 )

ライセンス: CC BY 4.0
Samurdhi Karunaratne, Samer Hanna, Danijela Cabric(参考訳) IoT(Internet of Things)が成長を続けるにつれ、無線IoTデバイスに依存するシステムのセキュリティが重要になっている。 この目的のために、ディープラーニングベースの受動的物理層送信認可システムが最近導入されており、そのようなデバイスの限られた計算量と電力予算に対応している。 これらのシステムは、固定された送信機セットで訓練および試験を行う際に、優れた異常検出精度を提供することが示されている。 しかし、実際の運用では、認可された送信機のセットが変わると、送信機の追加と削除が必要となる可能性がある。 このような場合、基盤となるディープラーニングモデルをトレーニングすることは、しばしば時間を要するプロセスであるため、システムは長時間のダウンタイムを経験する可能性がある。 本稿では,特徴ベクトルをRF指紋として活用することにより,特徴ベクトルを局所性評価ハッシュ(LSH)を用いてデータベースにインデックス化する訓練を簡略化できることを最初に実証する。 次に、データベース上で近接する近傍探索を行い、深層学習モデルの精度と一致する送信機認証を行い、100倍以上の高速な再学習を可能にすることを示す。 さらに,特徴ベクトル上での次元性低減手法を用いて,従来のディープラーニングシステムへのアプローチにより,手法の認可遅延を低減できることを示す。

As the Internet of Things (IoT) continues to grow, ensuring the security of systems that rely on wireless IoT devices has become critically important. Deep learning-based passive physical layer transmitter authorization systems have been introduced recently for this purpose, as they accommodate the limited computational and power budget of such devices. These systems have been shown to offer excellent outlier detection accuracies when trained and tested on a fixed authorized transmitter set. However in a real-life deployment, a need may arise for transmitters to be added and removed as the authorized set of transmitters changes. In such cases, the system could experience long down-times, as retraining the underlying deep learning model is often a time-consuming process. In this paper, we draw inspiration from information retrieval to address this problem: by utilizing feature vectors as RF fingerprints, we first demonstrate that training could be simplified to indexing those feature vectors into a database using locality sensitive hashing (LSH). Then we show that approximate nearest neighbor search could be performed on the database to perform transmitter authorization that matches the accuracy of deep learning models, while allowing for more than 100x faster retraining. Furthermore, dimensionality reduction techniques are used on the feature vectors to show that the authorization latency of our technique could be reduced to approach that of traditional deep learning-based systems.
翻訳日:2021-11-06 01:52:11 公開日:2021-11-04
# (参考訳) 自己肯定的非ラベル学習による建物被害マッピング [全文訳有]

Building Damage Mapping with Self-PositiveUnlabel ed Learning ( http://arxiv.org/abs/2111.02586v1 )

ライセンス: CC BY 4.0
Junshi Xia, Naoto Yokoya, Bruno Adriano(参考訳) 人道的組織は、災害に対応するために、迅速かつ信頼性の高いデータを持っていなければならない。 深層学習のアプローチは,災害直後の被害状況(トレーニングデータ)の実態データ収集が難しいため,現実の災害においては実現が困難である。 本研究は,ごく限られたラベル付きデータと大量のラベル付きデータを用いて,損傷評価の構築にうまく適用することで,近年の自己ペース陽性無ラベル学習(pu)の実現を実証した。 2011年東北地方地震、2018年パウル地震、2018年ハリケーン・マイケル号から収集したさまざまなデータセットを用いて、教師付きベースラインと従来のPU学習と比較した。 ラベル付き損傷サンプルの一部のみを利用することで、自己PU技術で訓練されたモデルが教師付き学習と同等のパフォーマンスを達成できることを示す。

Humanitarian organizations must have fast and reliable data to respond to disasters. Deep learning approaches are difficult to implement in real-world disasters because it might be challenging to collect ground truth data of the damage situation (training data) soon after the event. The implementation of recent self-paced positive-unlabeled learning (PU) is demonstrated in this work by successfully applying to building damage assessment with very limited labeled data and a large amount of unlabeled data. Self-PU learning is compared with the supervised baselines and traditional PU learning using different datasets collected from the 2011 Tohoku earthquake, the 2018 Palu tsunami, and the 2018 Hurricane Michael. By utilizing only a portion of labeled damaged samples, we show how models trained with self-PU techniques may achieve comparable performance as supervised learning.
翻訳日:2021-11-06 01:39:30 公開日:2021-11-04
# (参考訳) テキスト埋入のコンフォーマル予測と部分音声予測 [全文訳有]

Conformal prediction for text infilling and part-of-speech prediction ( http://arxiv.org/abs/2111.02592v1 )

ライセンス: CC BY 4.0
Neil Dey, Jing Ding, Jack Ferrell, Carolina Kapper, Maxwell Lovig, Emiliano Planchon, and Jonathan P Williams(参考訳) 現代の機械学習アルゴリズムは、非常に正確なポイント予測を提供することができるが、統計的信頼性に関する疑問は残る。 従来の機械学習法とは異なり、共形予測アルゴリズムは与えられた意味レベルに対応する信頼セット(すなわち集合値予測)を返す。 さらに、これらの信頼セットは、タイプ1のエラー確率に対する有限サンプル制御を保証するという意味で有効であり、実践者は許容されるエラー率を選択することができる。 本稿では,テキスト入力タスクに対する帰納的共形予測(ICP)アルゴリズムと自然言語データに対する部分音声予測(POS)アルゴリズムを提案する。 我々は、POSタグ付けのための変換器(BERT)と双方向長短期メモリ(BiLSTM)アルゴリズムと、テキストを埋め込むための共形予測強化BERTアルゴリズムを新たに構築する。 57,000以上の文を含むBrown Corpusを用いて,シミュレーションにおけるアルゴリズムの性能を分析した。 その結果, icpアルゴリズムは実世界のアプリケーションに適用できるほど小さく, 有効な集合値予測を生成できることがわかった。 また,提案するセット値予測が機械生成音声の書き起こしを改善できる実データ例を提案する。

Modern machine learning algorithms are capable of providing remarkably accurate point-predictions; however, questions remain about their statistical reliability. Unlike conventional machine learning methods, conformal prediction algorithms return confidence sets (i.e., set-valued predictions) that correspond to a given significance level. Moreover, these confidence sets are valid in the sense that they guarantee finite sample control over type 1 error probabilities, allowing the practitioner to choose an acceptable error rate. In our paper, we propose inductive conformal prediction (ICP) algorithms for the tasks of text infilling and part-of-speech (POS) prediction for natural language data. We construct new conformal prediction-enhanced bidirectional encoder representations from transformers (BERT) and bidirectional long short-term memory (BiLSTM) algorithms for POS tagging and a new conformal prediction-enhanced BERT algorithm for text infilling. We analyze the performance of the algorithms in simulations using the Brown Corpus, which contains over 57,000 sentences. Our results demonstrate that the ICP algorithms are able to produce valid set-valued predictions that are small enough to be applicable in real-world applications. We also provide a real data example for how our proposed set-valued predictions can improve machine generated audio transcriptions.
翻訳日:2021-11-06 01:32:08 公開日:2021-11-04
# (参考訳) ヒト皮膚線維芽細胞トランスクリプトームデータを用いた加齢関連遺伝子同定のための情報理論フレームワーク [全文訳有]

An Information-Theoreti c Framework for Identifying Age-Related Genes Using Human Dermal Fibroblast Transcriptome Data ( http://arxiv.org/abs/2111.02595v1 )

ライセンス: CC BY 4.0
Salman Mohamadi, Donald Adjeroh(参考訳) 年齢関連遺伝子の研究は、老化のメカニズムの理解の向上、平均寿命の増大、年齢予測、その他の医療応用など、複数の目的において非常に重要である。 本研究は,27,142の遺伝子セットから始まり,ヒト皮膚線維芽細胞遺伝子発現データに教師なしおよび半教師なし学習技術を適用し,老化に関連する遺伝子を同定するための情報理論的枠組みを開発した。 まず,教師なし学習を応用し,情報理論的な手法を応用し,トランスクリプトームデータ中の遺伝子発現値を効果的に表現するための重要な特徴を同定する。 特定された機能を使用して、データをクラスタリングします。 最後に,老化に関連する可能性のある新規遺伝子を同定するために,異なる距離尺度を用いて半教師付き学習をクラスタに適用する。 教師なし手法と半教師なし手法の両方のパフォーマンス評価は,フレームワークの有効性を示す。

Investigation of age-related genes is of great importance for multiple purposes, for instance, improving our understanding of the mechanism of ageing, increasing life expectancy, age prediction, and other healthcare applications. In his work, starting with a set of 27,142 genes, we develop an information-theoreti c framework for identifying genes that are associated with aging by applying unsupervised and semi-supervised learning techniques on human dermal fibroblast gene expression data. First, we use unsupervised learning and apply information-theoreti c measures to identify key features for effective representation of gene expression values in the transcriptome data. Using the identified features, we perform clustering on the data. Finally, we apply semi-supervised learning on the clusters using different distance measures to identify novel genes that are potentially associated with aging. Performance assessment for both unsupervised and semi-supervised methods show the effectiveness of the framework.
翻訳日:2021-11-06 01:11:59 公開日:2021-11-04
# (参考訳) ヒルベルト空間の不正確なデータからの最適回復:正規化, しかしパラメータは? [全文訳有]

Optimal Recovery from Inaccurate Data in Hilbert Spaces: Regularize, but what of the Parameter? ( http://arxiv.org/abs/2111.02601v1 )

ライセンス: CC BY 4.0
Simon Foucart and Chunyang Liao(参考訳) 最適回復においては、学習すべき関数に関する明示的なモデル仮定に結びついた最悪の視点を採用することにより、観測データから関数を学習するタスクを決定的に取り組む。 ヒルベルト空間の枠組みにおいて、本論文は近似可能性に基づくモデル仮定を考える。 また、$\ell_2$で有界な加法誤差によってモデル化された観測上の不正確さも含んでいる。 初期の研究は、正規化がこの状況で最適であるが、望まれるハイパーパラメータを完全に識別しないアルゴリズムを提供することを示した。 この記事では、ローカルシナリオとグローバルシナリオのギャップを埋めます。 チェビシェフ中心の決定に相当する局所的なシナリオでは、ベックとエルダーの半定的なレシピはより直接的なアプローチによって補完され、観測関数が正則な表現子を持つことが証明される。 上記のアプローチでは、所望のパラメータは標準手法で解くことができる方程式の解である。 線形アルゴリズムが支配される大域的シナリオでは、Micchelliらの研究から導かれるパラメータは半定値プログラムの副産物として見出される。 さらに、直交正規表現子を持つ観測関数の場合、任意の正規化パラメータが最適であることが確立されている。

In Optimal Recovery, the task of learning a function from observational data is tackled deterministically by adopting a worst-case perspective tied to an explicit model assumption made on the functions to be learned. Working in the framework of Hilbert spaces, this article considers a model assumption based on approximability. It also incorporates observational inaccuracies modeled via additive errors bounded in $\ell_2$. Earlier works have demonstrated that regularization provide algorithms that are optimal in this situation, but did not fully identify the desired hyperparameter. This article fills the gap in both a local scenario and a global scenario. In the local scenario, which amounts to the determination of Chebyshev centers, the semidefinite recipe of Beck and Eldar (legitimately valid in the complex setting only) is complemented by a more direct approach, with the proviso that the observational functionals have orthonormal representers. In the said approach, the desired parameter is the solution to an equation that can be resolved via standard methods. In the global scenario, where linear algorithms rule, the parameter elusive in the works of Micchelli et al. is found as the byproduct of a semidefinite program. Additionally and quite surprisingly, in case of observational functionals with orthonormal representers, it is established that any regularization parameter is optimal.
翻訳日:2021-11-06 00:57:17 公開日:2021-11-04
# (参考訳) 建築被害評価のための説明可能なAIの設計をインフォームするヒューマン説明手法の特徴付け [全文訳有]

Characterizing Human Explanation Strategies to Inform the Design of Explainable AI for Building Damage Assessment ( http://arxiv.org/abs/2111.02626v1 )

ライセンス: CC BY 4.0
Donghoon Shin, Sachin Grover, Kenneth Holstein, Adam Perer(参考訳) 説明可能なAI(XAI)は、衛星画像からの損傷検出タスクなど、高精度な視覚検出タスクのための人間とAIのコラボレーションをサポートする有望な手段である。 しかし、既存のxai技術の多くは、説明のために人間のタスク固有のニーズを理解していない。 そこで我々は,損傷検出タスクにおいてXAI人間がどのような形で必要とするかを理解するための第一歩を踏み出した。 衛星画像による建物損傷の重大度評価において,利用者の自己評価の仕方を理解するため,クラウドソーシングによる研究を行った。 60人のクラウドワーカーによる調査を通じて、人間の視覚的損傷評価を説明する6つの主要な戦略が明らかになった。 本稿では,このような視覚的検出コンテキストのためのXAI手法の設計における本研究の意義と今後の研究の機会について論じる。

Explainable AI (XAI) is a promising means of supporting human-AI collaborations for high-stakes visual detection tasks, such as damage detection tasks from satellite imageries, as fully-automated approaches are unlikely to be perfectly safe and reliable. However, most existing XAI techniques are not informed by the understandings of task-specific needs of humans for explanations. Thus, we took a first step toward understanding what forms of XAI humans require in damage detection tasks. We conducted an online crowdsourced study to understand how people explain their own assessments, when evaluating the severity of building damage based on satellite imagery. Through the study with 60 crowdworkers, we surfaced six major strategies that humans utilize to explain their visual damage assessments. We present implications of our findings for the design of XAI methods for such visual detection contexts, and discuss opportunities for future research.
翻訳日:2021-11-06 00:11:16 公開日:2021-11-04
# (参考訳) ディープニューラルネットワークによる高次元ハミルトン系の解法 [全文訳有]

A control method for solving high-dimensional Hamiltonian systems through deep neural networks ( http://arxiv.org/abs/2111.02636v1 )

ライセンス: CC BY 4.0
Shaolin Ji, Shige Peng, Ying Peng, Xichuan Zhang(参考訳) 本稿では,境界条件を持つ高次元確率ハミルトン系の解法に主眼を置き,確率制御の観点から新しい方法を提案する。 まず,ハミルトニアン系の近似解を得るために,ハミルトニアン制御系がまさに解決すべき問題であるような,対応する確率的最適制御問題を導入し,制御問題の異なる場合に適した2つの異なるアルゴリズムを開発し,ディープニューラルネットワークによる確率的制御を近似する。 数値的な結果から,従来fbsdの解法から開発された深層fbsde法と比較すると,新しいアルゴリズムはより高速に収束する。

In this paper, we mainly focus on solving high-dimensional stochastic Hamiltonian systems with boundary condition, and propose a novel method from the view of the stochastic control. In order to obtain the approximated solution of the Hamiltonian system, we first introduce a corresponding stochastic optimal control problem such that the Hamiltonian system of control problem is exactly what we need to solve, then develop two different algorithms suitable for different cases of the control problem and approximate the stochastic control via deep neural networks. From the numerical results, comparing with the Deep FBSDE method which was developed previously from the view of solving FBSDEs, the novel algorithms converge faster, which means that they require fewer training steps, and demonstrate more stable convergences for different Hamiltonian systems.
翻訳日:2021-11-06 00:05:29 公開日:2021-11-04
# (参考訳) lspe($\lambda$)に縛られた濃度 [全文訳有]

A Concentration Bound for LSPE($\lambda$) ( http://arxiv.org/abs/2111.02644v1 )

ライセンス: CC BY 4.0
Vivek S. Borkar, Siddharth Chandak, Harsh Dolhare(参考訳) 政策評価のための一般的なLSPE($\lambda$)アルゴリズムは、ある時点から高い確率性能を保証する濃度境界を導出するために再検討される。

The popular LSPE($\lambda$) algorithm for policy evaluation is revisited to derive a concentration bound that gives high probability performance guarantees from some time on.
翻訳日:2021-11-05 23:39:17 公開日:2021-11-04
# (参考訳) 時間的融合に基づくメタリスケールセマンティクスセグメンテーションによる隠し荷物の脅威検出 [全文訳有]

Temporal Fusion Based Mutli-scale Semantic Segmentation for Detecting Concealed Baggage Threats ( http://arxiv.org/abs/2111.02651v1 )

ライセンス: CC BY 4.0
Muhammed Shafay and Taimur Hassan and Ernesto Damiani and Naoufel Werghi(参考訳) 荷物の違法品や脅し品の検出は、近年のセキュリティ上の最大の懸念事項である。 経験豊富なセキュリティ担当者でさえ、手動検出は時間のかかるストレスを伴う作業である。 多くの学者は、荷物のx線スキャンから疑わしいデータや反則データを検出するための自動化フレームワークを開発した。 しかし,我々の知る限り,肉眼でもほとんど見えない,隠蔽・隠蔽された物体を効果的に映し出すために,時間的手荷物X線画像を利用する枠組みは存在しない。 そこで本稿では, 連続スキャンを入力として用い, 疑わしい, 疑わしい, 疑わしい内容の特徴表現を生成するため, コントラバンドデータのより正確な抽出を行うための, 時間融合駆動型マルチスケール残留型エンコーダデコーダを提案する。 提案手法は、極端に隠蔽されたコントラバンドデータを示す時空間リンクグレースケールX線スキャンを含む唯一のデータセットであるGDXrayデータセットを用いて、徹底的に検証されている。 提案するフレームワークは,GDXrayデータセット上で,さまざまなメトリクスで競合する。

Detection of illegal and threatening items in baggage is one of the utmost security concern nowadays. Even for experienced security personnel, manual detection is a time-consuming and stressful task. Many academics have created automated frameworks for detecting suspicious and contraband data from X-ray scans of luggage. However, to our knowledge, no framework exists that utilizes temporal baggage X-ray imagery to effectively screen highly concealed and occluded objects which are barely visible even to the naked eye. To address this, we present a novel temporal fusion driven multi-scale residual fashioned encoder-decoder that takes series of consecutive scans as input and fuses them to generate distinct feature representations of the suspicious and non-suspicious baggage content, leading towards a more accurate extraction of the contraband data. The proposed methodology has been thoroughly tested using the publicly accessible GDXray dataset, which is the only dataset containing temporally linked grayscale X-ray scans showcasing extremely concealed contraband data. The proposed framework outperforms its competitors on the GDXray dataset on various metrics.
翻訳日:2021-11-05 22:58:51 公開日:2021-11-04
# (参考訳) 感覚運動経験の結果として感覚減衰が発達する

Sensory attenuation develops as a result of sensorimotor experience ( http://arxiv.org/abs/2111.02666v1 )

ライセンス: CC BY 4.0
Hayato Idei, Wataru Ohata, Yuichi Yamashita, Tetsuya Ogata and Jun Tani(参考訳) 脳は自発性外分泌に対する反応を弱める(例えば、私たち自身をくすぐることはできない)。 この現象は感覚減衰と呼ばれ、自然に可能か、学習によって得られるのか? 後者の可能性を探るために,知覚(プロセプティブとエクスセプティブ)とアソシエーション,エグゼクティブ領域からなるニューラルネットワークモデルを開発した。 ネットワークによって制御されるシミュレーションロボットは、自己生成または外部生成のエクセプティブフィードバックで運動パターンを取得することを学習した。 学習の早い段階では, 自己生産環境と外部生産条件の両方において, 知覚・関連領域での反応を最初に増加させたが, 徐々に, 自己生産条件のみにおいて, 感覚領域の反応を弱めていった。 ロボットは、実行領域の神経状態を切り替えることで、状況に応じて感覚領域の応答を切り替え(減衰または増幅)する能力を自発的に獲得する。 これはネットワーク内の感覚情報フローの積極的な制御が学習を通じて自己組織化されたことを示唆している。 また,感覚情報流の変化は統合失調症や自閉症スペクトラム障害に類似したいくつかの特徴を誘発した。 本研究は、知覚現象と精神疾患を基盤とする神経機構の新しい視点を提供する。

The brain attenuates its responses to self-produced exteroceptions (e.g., we cannot tickle ourselves). Is this phenomenon, called sensory attenuation, enabled innately, or is it acquired through learning? To explore the latter possibility, we created a neural network model consisting of sensory (proprioceptive and exteroceptive), association, and executive areas. A simulated robot controlled by the network learned to acquire motor patterns with self-produced or externally produced exteroceptive feedback. We found that the robot first increased responses in sensory and association areas for both self-produced and externally produced conditions in the early stage of learning, but then, gradually it attenuated responses in sensory areas only for self-produced conditions. The robot spontaneously acquired a capacity to switch (attenuate or amplify) responses in sensory areas depending on the conditions by switching the neural state of the executive area. This suggests that proactive control of sensory-information flow inside the network was self-organized through learning. We also found that innate alterations in the modulation of sensory-information flow induced some characteristics analogous to schizophrenia and autism spectrum disorder. This study provides a novel perspective on neural mechanisms underlying perceptual phenomena and psychiatric disorders.
翻訳日:2021-11-05 22:39:49 公開日:2021-11-04
# (参考訳) GraphSearchNet: セマンティックコード検索のためのグローバル依存関係のキャプチャによるGNNの強化 [全文訳有]

GraphSearchNet: Enhancing GNNs via Capturing Global Dependency for Semantic Code Search ( http://arxiv.org/abs/2111.02671v1 )

ライセンス: CC0 1.0
Shangqing Liu, Xiaofei Xie, Lei Ma, Jingkai Siow, Yang Liu(参考訳) コード検索は、自然言語クエリに基づいて関連するコードフラグメントを検索して、ソフトウェア生産性と品質を改善することを目的としている。 しかし、ソースコードとクエリ間のセマンティックなギャップのため、自動的なコード検索は困難である。 既存のアプローチの多くは、テキストの背後にある構造情報が十分に考慮されていない埋め込みのためのシーケンシャルな情報を考える。 本稿では,新しいニューラルネットワークフレームワークgraphsearchnetを設計し,ソースコードとクエリの両方の豊富な意味を共同学習することにより,効果的かつ正確なソースコード検索を実現する。 具体的には、双方向GGNNを用いてソースコードとクエリを2つのグラフにエンコードし、そのグラフの局所構造情報をキャプチャする。 さらに,BiGGNNが見逃したグローバル依存を補うために,効果的なマルチヘッドアテンションを活用することで,BiGGNNを強化する。 JavaとPythonのデータセットに関する広範な実験は、GraphSearchNetが現在の最先端の作業よりも大きなマージンで優れていることを示している。

Code search aims to retrieve the relevant code fragments based on a natural language query to improve the software productivity and quality. However, automatic code search is challenging due to the semantic gap between the source code and the query. Most existing approaches mainly consider the sequential information for embedding, where the structure information behind the text is not fully considered. In this paper, we design a novel neural network framework, named GraphSearchNet, to enable an effective and accurate source code search by jointly learning rich semantics of both source code and queries. Specifically, we propose to encode both source code and queries into two graphs with Bidirectional GGNN to capture the local structure information of the graphs. Furthermore, we enhance BiGGNN by utilizing the effective multi-head attention to supplement the global dependency that BiGGNN missed. The extensive experiments on both Java and Python datasets illustrate that GraphSearchNet outperforms current state-of-the-art works by a significant margin.
翻訳日:2021-11-05 22:38:45 公開日:2021-11-04
# (参考訳) 拡張カルマンフィルタによる凸損失と正規化関数を用いたニューラルネットワークのリカレントトレーニング [全文訳有]

Recurrent Neural Network Training with Convex Loss and Regularization Functions by Extended Kalman Filtering ( http://arxiv.org/abs/2111.02673v1 )

ライセンス: CC BY 4.0
Alberto Bemporad(参考訳) データ駆動型非線形、おそらく適応型、モデルベース制御設計のためのリカレントニューラルネットワークのトレーニングに拡張カルマンフィルタを用いることを検討する。 本手法は,ネットワークパラメータ上の任意の凸損失関数や正規化項に適用可能であることを示す。 本研究では,非線形システム同定ベンチマークや線形システムの2値出力のトレーニングにおいて,確率勾配勾配よりも優れた学習方法を示す。 また,データ駆動非線形モデル予測制御におけるアルゴリズムの利用と,オフセットフリートラッキングのための外乱モデルとの関係についても検討した。

We investigate the use of extended Kalman filtering to train recurrent neural networks for data-driven nonlinear, possibly adaptive, model-based control design. We show that the approach can be applied to rather arbitrary convex loss functions and regularization terms on the network parameters. We show that the learning method outperforms stochastic gradient descent in a nonlinear system identification benchmark and in training a linear system with binary outputs. We also explore the use of the algorithm in data-driven nonlinear model predictive control and its relation with disturbance models for offset-free tracking.
翻訳日:2021-11-05 22:25:02 公開日:2021-11-04
# (参考訳) 音声変換による低リソース環境におけるASR改善 [全文訳有]

Voice Conversion Can Improve ASR in Very Low-Resource Settings ( http://arxiv.org/abs/2111.02674v1 )

ライセンス: CC BY-SA 4.0
Matthew Baas and Herman Kamper(参考訳) 音声変換(VC)は,低リソース言語における音声認識システムを改善するために,限られた訓練データを拡張するために提案されている。 しかし最近まで、計算速度などの実践的な問題は、この目的のためにVCの使用を制限してきた。 さらに、データ拡張のために、ある優れたリソース言語で訓練されたvcモデルが、他の低リソース言語からの音声に適用できるかどうかはまだ不明である。 本研究では,低リソース音声認識を改善するために,vcシステムが言語交互に使用できるかどうかを評価する。 具体的には、近年のいくつかの手法を組み合わせて、実用的なVCシステムを英語で設計し、訓練し、このシステムを用いて、低リソース言語における音声認識モデルの訓練を行う。 認識可能な量の拡張データを使用すると,4つの低リソース言語すべてにおいて音声認識性能が向上することがわかった。

Voice conversion (VC) has been proposed to improve speech recognition systems in low-resource languages by using it to augment limited training data. But until recently, practical issues such as compute speed have limited the use of VC for this purpose. Moreover, it is still unclear whether a VC model trained on one well-resourced language can be applied to speech from another low-resource language for the purpose of data augmentation. In this work we assess whether a VC system can be used cross-lingually to improve low-resource speech recognition. Concretely, we combine several recent techniques to design and train a practical VC system in English, and then use this system to augment data for training a speech recognition model in several low-resource languages. We find that when using a sensible amount of augmented data, speech recognition performance is improved in all four low-resource languages considered.
翻訳日:2021-11-05 22:02:55 公開日:2021-11-04
# (参考訳) mixsiam:自己教師付き表現学習への混合ベースアプローチ [全文訳有]

MixSiam: A Mixture-based Approach to Self-supervised Representation Learning ( http://arxiv.org/abs/2111.02679v1 )

ライセンス: CC BY 4.0
Xiaoyang Guo, Tianhao Zhao, Yutian Lin, Bo Du(参考訳) 近年,ラベルのないデータから視覚表現を学習する過程が著しく進展している。 中心となる考え方は、バックボーンをインスタンスの異なる拡張に不変にトレーニングすることだ。 ほとんどの方法は2つの拡張データ間の特徴の類似性を最大化するだけであるが、さらにより困難なトレーニングサンプルを生成し、これらのハードサンプルの識別表現を予測し続けるようモデルに強制する。 本稿では,従来のシャムネットワークを用いた混合型アプローチであるmixsiamを提案する。 一方、インスタンスの2つの拡張画像をバックボーンに入力し、2つの特徴を要素単位で最大にすることで識別表現を得る。 一方,これらの画像の混合を入力とし,モデル予測が識別表現に近いものになることを期待する。 このようにして、モデルはインスタンスのより多くの変種データサンプルにアクセスし、それらの不変な判別表現を予測し続けることができる。 したがって、学習モデルは従来の対比学習法よりも頑健である。 大規模データセットに関する広範な実験は、mixsiamがベースラインを着実に改善し、最先端の手法で競争力のある結果を得ることを示している。 私たちのコードはまもなくリリースされます。

Recently contrastive learning has shown significant progress in learning visual representations from unlabeled data. The core idea is training the backbone to be invariant to different augmentations of an instance. While most methods only maximize the feature similarity between two augmented data, we further generate more challenging training samples and force the model to keep predicting discriminative representation on these hard samples. In this paper, we propose MixSiam, a mixture-based approach upon the traditional siamese network. On the one hand, we input two augmented images of an instance to the backbone and obtain the discriminative representation by performing an element-wise maximum of two features. On the other hand, we take the mixture of these augmented images as input, and expect the model prediction to be close to the discriminative representation. In this way, the model could access more variant data samples of an instance and keep predicting invariant discriminative representations for them. Thus the learned model is more robust compared to previous contrastive learning methods. Extensive experiments on large-scale datasets show that MixSiam steadily improves the baseline and achieves competitive results with state-of-the-art methods. Our code will be released soon.
翻訳日:2021-11-05 21:50:41 公開日:2021-11-04
# (参考訳) timematch:時間シフト推定による教師なしクロスリージョン適応 [全文訳有]

TimeMatch: Unsupervised Cross-Region Adaptation by Temporal Shift Estimation ( http://arxiv.org/abs/2111.02682v1 )

ライセンス: CC BY 4.0
Joachim Nyborg, Charlotte Pelletier, S\'ebastien Lef\`evre, Ira Assent(参考訳) 近年,作物表現学の複雑な時間パターンを捉えるディープラーニングモデルが開発され,衛星画像時系列(sits)の作物分類が大幅に進歩している。 しかし、トレーニング領域と空間的に異なるターゲット領域に適用した場合、これらのモデルは、作物の表現学の時間的変化により、ターゲットラベルなしではうまく動作しない。 この教師なしのクロスリージョン適応設定に対処するために、既存のメソッドは、時間シフト自体ではなく、ターゲットの監督なしでドメイン不変な特徴を学習する。 その結果、これらの技術はSITSに限られた利益をもたらすだけである。 本稿では、時間シフトを直接考慮したSITSのための新しい教師なしドメイン適応手法であるTimeMatchを提案する。 TimeMatchは2つのコンポーネントから構成される。 1)未ラベル対象領域の時間的シフトをソーストレーニングモデルで推定する時間的シフト推定 2)時間シフト推定と半教師付き学習を組み合わせた時間マッチング学習は,分類器をラベルなしの目標領域に適応させる。 また,欧州の4つの異なる地域を対象とするクロスリージョン適応のためのオープンアクセスデータセットも導入する。 このデータセットにおいて、TimeMatchは5つの異なる適応シナリオに対してF1スコアで競合するすべてのメソッドを11%上回り、クロスリージョン適応のための新しい最先端の設定を行う。

The recent developments of deep learning models that capture the complex temporal patterns of crop phenology have greatly advanced crop classification of Satellite Image Time Series (SITS). However, when applied to target regions spatially different from the training region, these models perform poorly without any target labels due to the temporal shift of crop phenology between regions. To address this unsupervised cross-region adaptation setting, existing methods learn domain-invariant features without any target supervision, but not the temporal shift itself. As a consequence, these techniques provide only limited benefits for SITS. In this paper, we propose TimeMatch, a new unsupervised domain adaptation method for SITS that directly accounts for the temporal shift. TimeMatch consists of two components: 1) temporal shift estimation, which estimates the temporal shift of the unlabeled target region with a source-trained model, and 2) TimeMatch learning, which combines temporal shift estimation with semi-supervised learning to adapt a classifier to an unlabeled target region. We also introduce an open-access dataset for cross-region adaptation with SITS from four different regions in Europe. On this dataset, we demonstrate that TimeMatch outperforms all competing methods by 11% in F1-score across five different adaptation scenarios, setting a new state-of-the-art for cross-region adaptation.
翻訳日:2021-11-05 21:37:49 公開日:2021-11-04
# (参考訳) CoreLM: Coreference-Aware Language Model Fine-Tuning [全文訳有]

CoreLM: Coreference-aware Language Model Fine-Tuning ( http://arxiv.org/abs/2111.02687v1 )

ライセンス: CC BY 4.0
Nikolaos Stylianou, Ioannis Vlahavas(参考訳) 言語モデルは、最新の自然言語処理(NLP)タスクの基盤となっている。 Transformersアーキテクチャの導入は、多くのNLPタスクにおいて言語モデリングを非常に効果的にすることに大きく貢献し、この分野に大きな進歩をもたらした。 しかし、Transformerには大きな計算コストが伴い、入力長に対して2次的に成長する。 長いテキストを理解するには、多くのコンテキストが必要です。 本稿では,現在の事前学習された言語モデルのアーキテクチャを拡張し,明示的なエンティティ情報を取り込むための微調整フレームワークcorelmを提案する。 エンティティ表現を導入することで、モデルのコンテキスト空間外で利用可能な情報が得られるようになり、計算コストのごく一部でよりよい言語モデルが得られる。 提案手法はGPT2を用いて実装し,本モデルとオリジナルモデルを比較した。 提案モデルでは, GPT2 と比較した場合, GUMBY と LAMBDADA のデータセットのパープレキシティが低くなる。 また,LAMBADAと児童書評定におけるモデルの性能を,モデル生成のコア参照アノテーションの使用の有無にかかわらず比較した。

Language Models are the underpin of all modern Natural Language Processing (NLP) tasks. The introduction of the Transformers architecture has contributed significantly into making Language Modeling very effective across many NLP task, leading to significant advancements in the field. However, Transformers come with a big computational cost, which grows quadratically with respect to the input length. This presents a challenge as to understand long texts requires a lot of context. In this paper, we propose a Fine-Tuning framework, named CoreLM, that extends the architecture of current Pretrained Language Models so that they incorporate explicit entity information. By introducing entity representations, we make available information outside the contextual space of the model, which results in a better Language Model for a fraction of the computational cost. We implement our approach using GPT2 and compare the fine-tuned model to the original. Our proposed model achieves a lower Perplexity in GUMBY and LAMBDADA datasets when compared to GPT2 and a fine-tuned version of GPT2 without any changes. We also compare the models' performance in terms of Accuracy in LAMBADA and Children's Book Test, with and without the use of model-created coreference annotations.
翻訳日:2021-11-05 21:09:07 公開日:2021-11-04
# (参考訳) ニューラルネットワークを用いた遺伝子発現データからの年齢推定 [全文訳有]

Human Age Estimation from Gene Expression Data using Artificial Neural Networks ( http://arxiv.org/abs/2111.02692v1 )

ライセンス: CC BY 4.0
Salman Mohamadi, Gianfranco.Doretto, Nasser M. Nasrabadi, Donald A. Adjeroh(参考訳) ゲノムバイオマーカーによる老化のシグネチャの研究は、老化のメカニズムを理解し、年齢を正確に予測するモデルを開発するのに一役買うことができる。 以前の研究では、正確な年齢予測を目的とした遺伝子発現とdnaメチル化データを用いた。 本稿では,ヒト皮膚線維芽細胞遺伝子発現データから情報を得たヒト年齢推定のための新しい枠組みを提案する。 まず、新しい空間表現と、遺伝子発現データに対するデータ拡張アプローチを提案する。 次に、年齢を予測するために、ニューラルネットワークのアーキテクチャを設計し、アンサンブル分類アプローチとして、この新しいオリジナルデータと拡張データの表現に適用する。 実験結果は,dnaメチル化法と遺伝子発現データを用いた最先端年齢推定法よりも,提案フレームワークが優れていることを示唆する。

The study of signatures of aging in terms of genomic biomarkers can be uniquely helpful in understanding the mechanisms of aging and developing models to accurately predict the age. Prior studies have employed gene expression and DNA methylation data aiming at accurate prediction of age. In this line, we propose a new framework for human age estimation using information from human dermal fibroblast gene expression data. First, we propose a new spatial representation as well as a data augmentation approach for gene expression data. Next in order to predict the age, we design an architecture of neural network and apply it to this new representation of the original and augmented data, as an ensemble classification approach. Our experimental results suggest the superiority of the proposed framework over state-of-the-art age estimation methods using DNA methylation and gene expression data.
翻訳日:2021-11-05 20:56:00 公開日:2021-11-04
# (参考訳) Smart Monitored AMに向けて: 配向勾配のヒストグラムと物理ベースレンダリングエンジンを用いた層内3次元印刷画像異常検出 [全文訳有]

Towards Smart Monitored AM: Open Source in-Situ Layer-wise 3D Printing Image Anomaly Detection Using Histograms of Oriented Gradients and a Physics-Based Rendering Engine ( http://arxiv.org/abs/2111.02703v1 )

ライセンス: CC BY-SA 4.0
Aliaksei Petsiuk, Joshua M. Pearce(参考訳) 本研究では,静止単眼カメラからの印刷層の画像と,物理レンダリングエンジンblenderで生成する理想過程のgコードベースの参照画像を比較することで,3次元印刷異常を検出するオープンソース手法を提案する。 局所画像領域の向き勾配(HOG)のヒストグラムの類似性を解析することにより,視差の認識を実現した。 この技術は, 印刷部品の配向, 色調, 照明, その他のパラメータに最適に適合するために, 作業環境の予備的なモデリングを必要とする。 アルゴリズムの出力は、印刷された参照層と合成参照層との間のミスマッチのレベルである。 12種類の類似度と距離測定を行い, 6種類の代表故障画像と制御誤差のない印刷画像の3次元印刷誤差の検出の有効性を比較した。 結果は、Kendall tau, Jaccard, Sorensenの類似性が最も感度が高いが、Pearson r, Spearman rho, cosine, Diceの類似性がより信頼性の高い結果をもたらすことを示している。 このオープンソース手法により、プログラムは発生の初期段階で重大なエラーに気付き、オペレータによるさらなる調査のために製造プロセスを一時停止するか、将来のai制御による自動エラー修正を行うことができる。 本手法の実装はトレーニングのための予備データを必要としないため,同じ幾何学形状の付加的又は減算的製造によって部品の大量生産を行うことで,最も効率がよい。 オープンソース手法は、複雑な原料や他の困難な製造環境を利用した添加物製造のためのスマート分散リサイクルを可能にする有望な手段であると結論付けることができる。

This study presents an open source method for detecting 3D printing anomalies by comparing images of printed layers from a stationary monocular camera with G-code-based reference images of an ideal process generated with Blender, a physics rendering engine. Recognition of visual deviations was accomplished by analyzing the similarity of histograms of oriented gradients (HOG) of local image areas. The developed technique requires preliminary modeling of the working environment to achieve the best match for orientation, color rendering, lighting, and other parameters of the printed part. The output of the algorithm is a level of mismatch between printed and synthetic reference layers. Twelve similarity and distance measures were implemented and compared for their effectiveness at detecting 3D printing errors on six different representative failure types and their control error-free print images. The results show that although Kendall tau, Jaccard, and Sorensen similarities are the most sensitive, Pearson r, Spearman rho, cosine, and Dice similarities produce the more reliable results. This open source method allows the program to notice critical errors in the early stages of their occurrence and either pause manufacturing processes for further investigation by an operator or in the future AI-controlled automatic error correction. The implementation of this novel method does not require preliminary data for training, and the greatest efficiency can be achieved with the mass production of parts by either additive or subtractive manufacturing of the same geometric shape. It can be concluded this open source method is a promising means of enabling smart distributed recycling for additive manufacturing using complex feedstocks as well as other challenging manufacturing environments.
翻訳日:2021-11-05 20:43:37 公開日:2021-11-04
# (参考訳) サドルポイント問題に対する準ニュートン法

Quasi-Newton Methods for Saddle Point Problems ( http://arxiv.org/abs/2111.02708v1 )

ライセンス: CC BY 4.0
Chengchang Liu, Luo Luo(参考訳) 本稿では, 強凸強凸サドルポイント問題(spp)を解くための準ニュートン法について述べる。 そこで我々は,spp に対する greedy broyden family update の変種を提案する。これは,${\mathcal o}\big(\big(1-\frac{1}{n\kappa^2}\big)^{k(k-1)/2}\big)$,$n$ が問題の次元であり,$\kappa$ が条件数であり、$k$ が反復数であるような局所超線形収束率を持つ。 提案アルゴリズムの設計と解析は、凸最適化における古典的な準ニュートン法とは異なる不定値ヘッセン行列の二乗推定に基づいている。 また、BFGS型とSR1型のアップデートを持つブロイデン族アルゴリズムを2種類提案し、より高速な局所収束速度を$\mathcal O\big(\big(1-\frac{1}{n}\big)^{k(k-1)/2}\big)$とする。

This paper studies quasi-Newton methods for solving strongly-convex-stro ngly-concave saddle point problems (SPP). We propose a variant of general greedy Broyden family update for SPP, which has explicit local superlinear convergence rate of ${\mathcal O}\big(\big(1-\frac{1}{n\kappa^2}\big)^{k(k-1)/2}\big)$, where $n$ is dimensions of the problem, $\kappa$ is the condition number and $k$ is the number of iterations. The design and analysis of proposed algorithm are based on estimating the square of indefinite Hessian matrix, which is different from classical quasi-Newton methods in convex optimization. We also present two specific Broyden family algorithms with BFGS-type and SR1-type updates, which enjoy the faster local convergence rate of $\mathcal O\big(\big(1-\frac{1}{n}\big)^{k(k-1)/2}\big)$.
翻訳日:2021-11-05 20:25:56 公開日:2021-11-04
# (参考訳) 胸部X線写真と生理学的データを用いた動的マルチモーダル表現 [全文訳有]

Towards dynamic multi-modal phenotyping using chest radiographs and physiological data ( http://arxiv.org/abs/2111.02710v1 )

ライセンス: CC BY 4.0
Nasir Hayat, Krzysztof J. Geras, Farah E. Shamout(参考訳) 医療領域は、イメージングや生理学的データなどの異種データモダリティによって特徴づけられる。 実際には、さまざまな医療データが臨床医の意思決定を支援する。 しかし、現在の最先端のディープラーニングモデルのほとんどは、単一のモダリティを慎重にキュレートしたデータに依存している。 本稿では,モーダリティのみに頼るのではなく,モーダリティ固有のデータ表現を学習し,補助的な特徴を統合するための動的トレーニング手法を提案する。 MIMIC-CXRデータセットのMIMIC-IV, 胸部X線写真を用いた患者表現タスクの予備実験の結果, 提案手法は, 生理的データ(0.740 AUROC)のみを用いた以前の研究におけるベンチマーク手法と比較して, 受信操作特性曲線 (AUROC) (0.764 AUROC) の下で最も高い面積を達成できた。 心臓性不整脈、伝導障害、心不全を含む定期的な急性エピソードを有する5つの再発または慢性疾患のセットでは、AUROCは0.747から0.798に改善される。 これは表現型タスクで胸部イメージングモダリティを活用する利点を示し、医学的応用におけるマルチモーダル学習の可能性を強調している。

The healthcare domain is characterized by heterogeneous data modalities, such as imaging and physiological data. In practice, the variety of medical data assists clinicians in decision-making. However, most of the current state-of-the-art deep learning models solely rely upon carefully curated data of a single modality. In this paper, we propose a dynamic training approach to learn modality-specific data representations and to integrate auxiliary features, instead of solely relying on a single modality. Our preliminary experiments results for a patient phenotyping task using physiological data in MIMIC-IV & chest radiographs in the MIMIC- CXR dataset show that our proposed approach achieves the highest area under the receiver operating characteristic curve (AUROC) (0.764 AUROC) compared to the performance of the benchmark method in previous work, which only used physiological data (0.740 AUROC). For a set of five recurring or chronic diseases with periodic acute episodes, including cardiac dysrhythmia, conduction disorders, and congestive heart failure, the AUROC improves from 0.747 to 0.798. This illustrates the benefit of leveraging the chest imaging modality in the phenotyping task and highlights the potential of multi-modal learning in medical applications.
翻訳日:2021-11-05 20:24:50 公開日:2021-11-04
# (参考訳) 深層ネットワークを用いた実環境における表情認識 [全文訳有]

Facial Emotion Recognition using Deep Residual Networks in Real-World Environments ( http://arxiv.org/abs/2111.02717v1 )

ライセンス: CC BY 4.0
Panagiotis Tzirakis, D\'enes Boros, Elnar Hajiyev, Bj\"orn W. Schuller(参考訳) 視覚手がかりを用いた感情自動認識は,人間と機械の完全なインタラクションに向けた重要な課題である。 応用は、教育システムや人間のコンピュータインタラクションで見ることができる。 その方向に向かう重要なステップは、顔の特徴抽出です。 本稿では,realeyes社が提供する多彩かつ大規模に収集された映像データセットを用いた顔特徴抽出モデルを提案する。 データセットは100万のラベル付きフレームと2,616万のサブジェクトで構成されている。 感情認識領域において時間情報は重要であるため、LSTM細胞を用いてデータの時間的ダイナミクスを捉える。 顔への影響をモデル化するための事前学習モデルの有用性を示すため、RECOLAデータベースを使用し、現在の最先端のアプローチと比較する。 本モデルは,一致相関係数の観点で,最良の結果を与える。

Automatic affect recognition using visual cues is an important task towards a complete interaction between humans and machines. Applications can be found in tutoring systems and human computer interaction. A critical step towards that direction is facial feature extraction. In this paper, we propose a facial feature extractor model trained on an in-the-wild and massively collected video dataset provided by the RealEyes company. The dataset consists of a million labelled frames and 2,616 thousand subjects. As temporal information is important to the emotion recognition domain, we utilise LSTM cells to capture the temporal dynamics in the data. To show the favourable properties of our pre-trained model on modelling facial affect, we use the RECOLA database, and compare with the current state-of-the-art approach. Our model provides the best results in terms of concordance correlation coefficient.
翻訳日:2021-11-05 20:17:48 公開日:2021-11-04
# (参考訳) 毎日の火災危険予報のための深層学習手法 [全文訳有]

Deep Learning Methods for Daily Wildfire Danger Forecasting ( http://arxiv.org/abs/2111.02736v1 )

ライセンス: CC BY 4.0
Ioannis Prapas, Spyros Kondylatos, Ioannis Papoutsis, Gustau Camps-Valls, Michele Ronco, Miguel-\'Angel Fern\'andez-Torres, Maria Piles Guillem, Nuno Carvalhais(参考訳) 森林火災の予測は、災害リスクの低減と環境持続可能性にとって最も重要なものである。 我々は,過去10年間の地球観測データを用いて,機械学習タスクとして日々の火災危険予測にアプローチし,次の火災危険を予測する。 そこで我々は,オープンアクセス型データキューブを収集,処理,調和し,気象条件,衛星由来製品,地形特徴,人間活動に関連する変数など,火災の発生と拡散に共変する一連の共変種を特徴とする。 本研究では,空間的,時空間的,時空間的,時空間的といったさまざまなディープラーニングモデルを実装し,それらをランダムフォレスト(RF)ベースラインと比較する。 空間的・時間的文脈がRFを超えるのに十分であるのに対して、時空間的文脈を利用するConvLSTMは、受信側動作特性0.926の試験領域で最適であることがわかった。 我々のDLベースの概念実証は、既存の運用ソリューションよりもはるかに高い空間分解能で全国規模の日常火災危険マップを提供する。

Wildfire forecasting is of paramount importance for disaster risk reduction and environmental sustainability. We approach daily fire danger prediction as a machine learning task, using historical Earth observation data from the last decade to predict next-day's fire danger. To that end, we collect, pre-process and harmonize an open-access datacube, featuring a set of covariates that jointly affect the fire occurrence and spread, such as weather conditions, satellite-derived products, topography features and variables related to human activity. We implement a variety of Deep Learning (DL) models to capture the spatial, temporal or spatio-temporal context and compare them against a Random Forest (RF) baseline. We find that either spatial or temporal context is enough to surpass the RF, while a ConvLSTM that exploits the spatio-temporal context performs best with a test Area Under the Receiver Operating Characteristic of 0.926. Our DL-based proof-of-concept provides national-scale daily fire danger maps at a much higher spatial resolution than existing operational solutions.
翻訳日:2021-11-05 20:09:14 公開日:2021-11-04
# (参考訳) 新規性尺度としての表現編集距離

Representation Edit Distance as a Measure of Novelty ( http://arxiv.org/abs/2111.02770v1 )

ライセンス: CC BY 4.0
Joshua Alspector(参考訳) ノベルティへの適応は、不慣れな状況に直面する既存のスキルを変えて強化する学習と見なされる。 本稿では,エージェントのメンタルモデルにおけるスキルプログラムのセットで使用される効果的な表現(表現編集距離または赤)の編集量は,新規性への適応が困難であることを示す。 赤は、前ノベルティと後ノベルティのスキルプログラムを比較したビット文字列の情報内容の変化に対する直感的な近似である。 また、難易度を予測するためにREDを使う際の表記例をいくつか提示する。

Adaptation to novelty is viewed as learning to change and augment existing skills to confront unfamiliar situations. In this paper, we propose that the amount of editing of an effective representation (the Representation Edit Distance or RED) used in a set of skill programs in an agent's mental model is a measure of difficulty for adaptation to novelty. The RED is an intuitive approximation to the change in information content in bit strings measured by comparing pre-novelty and post-novelty skill programs. We also present some notional examples of how to use RED for predicting difficulty.
翻訳日:2021-11-05 20:01:09 公開日:2021-11-04
# (参考訳) 運用フレームワークにおける機械学習モデルによる洪水予測

Flood forecasting with machine learning models in an operational framework ( http://arxiv.org/abs/2111.02780v1 )

ライセンス: CC BY 4.0
Sella Nevo (1), Efrat Morin (2), Adi Gerzi Rosenthal (1), Asher Metzger (1), Chen Barshai (1), Dana Weitzner (1), Dafi Voloshin (1), Frederik Kratzert (1), Gal Elidan (1,2), Gideon Dror (1), Gregory Begelman (1), Grey Nearing (1), Guy Shalev (1), Hila Noga (1), Ira Shavitt (1), Liora Yuklea (1), Moriah Royz (1), Niv Giladi (1), Nofar Peled Levi (1), Ofir Reich (1), Oren Gilon (1), Ronnie Maor (1), Shahar Timnat (1), Tal Shechter (1), Vladimir Anisimov (1), Yotam Gigi (1), Yuval Levin (1), Zach Moshe (1), Zvika Ben-Haim (1), Avinatan Hassidim (1) and Yossi Matias (1) ((1) Google Research, Tel-Aviv, Israel, (2) Hebrew University of Jerusalem, Jerusalem, Israel)(参考訳) googleによる運用洪水予報システム(operational flood forecasting system)は、測定された大きな河川での河川洪水に焦点をあてて、機関や大衆に正確なリアルタイム洪水警報を提供するために開発された。 2018年に運用が開始され、以降地理的に拡張されている。 この予測システムは、データ検証、ステージ予測、浸水モデル、警報分布の4つのサブシステムから構成される。 機械学習は2つのサブシステムで使用される。 ステージ予測はLong Short-Term Memory(LSTM)ネットワークとLinearモデルでモデル化される。 浸水はしきい値モデルと多様体モデルで計算され、前者は浸水範囲を計算し、後者は浸水範囲と深さの両方を計算する。 Manifoldモデルは、初めて提示されたモデルで、洪水浸水の水理モデルに代わる機械学習の代替を提供する。 過去のデータに基づいて評価すると、すべてのモデルが運用に十分な高性能なメトリクスを達成できる。 lstmは線形モデルよりも高いスキルを示したが、しきい値モデルと多様体モデルも同様の性能指標を計算した。 2021年のモンスーンシーズンの間、洪水警報システムはインドとバングラデシュで運用され、総面積は287,000 km2で、350万人以上が居住していた。 1億人以上の洪水警報が被災者、関係当局、緊急機関に送られた。 システムに関する現在および将来の作業には、追加の洪水発生地へのカバレッジの拡張、モデリング能力と精度の改善が含まれる。

The operational flood forecasting system by Google was developed to provide accurate real-time flood warnings to agencies and the public, with a focus on riverine floods in large, gauged rivers. It became operational in 2018 and has since expanded geographically. This forecasting system consists of four subsystems: data validation, stage forecasting, inundation modeling, and alert distribution. Machine learning is used for two of the subsystems. Stage forecasting is modeled with the Long Short-Term Memory (LSTM) networks and the Linear models. Flood inundation is computed with the Thresholding and the Manifold models, where the former computes inundation extent and the latter computes both inundation extent and depth. The Manifold model, presented here for the first time, provides a machine-learning alternative to hydraulic modeling of flood inundation. When evaluated on historical data, all models achieve sufficiently high-performance metrics for operational use. The LSTM showed higher skills than the Linear model, while the Thresholding and Manifold models achieved similar performance metrics for modeling inundation extent. During the 2021 monsoon season, the flood warning system was operational in India and Bangladesh, covering flood-prone regions around rivers with a total area of 287,000 km2, home to more than 350M people. More than 100M flood alerts were sent to affected populations, to relevant authorities, and to emergency organizations. Current and future work on the system includes extending coverage to additional flood-prone locations, as well as improving modeling capabilities and accuracy.
翻訳日:2021-11-05 19:59:59 公開日:2021-11-04
# (参考訳) ネットワーク侵入検出のための連合学習に基づくサイバー脅威情報共有方式 [全文訳有]

A Cyber Threat Intelligence Sharing Scheme based on Federated Learning for Network Intrusion Detection ( http://arxiv.org/abs/2111.02791v1 )

ライセンス: CC BY 4.0
Mohanad Sarhan, Siamak Layeghy, Nour Moustafa, Marius Portmann(参考訳) ネットワーク攻撃の検出における機械学習(ML)の使用は、単一の組織で設計および評価を行う際に有効である。 しかし,複数の情報源から得られた異種ネットワークデータを用いてMLに基づく検出システムを設計することは極めて困難である。 これは主に、プライバシー上の懸念と、データセットの普遍的なフォーマットがないためである。 本稿では,これらの問題に対処するための協調学習手法を提案する。 提案されたフレームワークにより、複数の組織が堅牢なmlベースのネットワーク侵入検出システムの設計、トレーニング、評価に協力することができる。 脅威インテリジェンススキームは、ネットワークデータトラフィックを共通のフォーマットで利用することで、データソース間で意味のあるパターンを抽出する、という2つの重要な側面を利用する。 第二に、組織間で機密情報を共有する必要性を避けるための連合学習機構の採用。 その結果、各組織は、内部でデータのプライバシーを維持しながら、他の組織のサイバー脅威インテリジェンスから恩恵を受けます。 モデルは局所的に訓練され、更新された重量のみが、連合平均化プロセスの残りの参加者と共有される。 このフレームワークは、NF-UNSW-NB15-v2とNF-BoT-IoT-v2として知られるNetFlowフォーマットで2つのキーデータセットを用いて設計、評価されている。 評価プロセスでは、ローカルデータサンプルを他の組織と共有する集中トレーニング方法と、脅威情報を共有しない局所トレーニング方法の2つの一般的なシナリオが検討されている。 提案手法は,局所的なデータ交換を必要とせず,複数の組織から発生した良性および侵入的トラフィックを効果的に分類するユニバーサルmlモデルを設計し,その効率と有効性を示す。

The uses of Machine Learning (ML) in detection of network attacks have been effective when designed and evaluated in a single organisation. However, it has been very challenging to design an ML-based detection system by utilising heterogeneous network data samples originating from several sources. This is mainly due to privacy concerns and the lack of a universal format of datasets. In this paper, we propose a collaborative federated learning scheme to address these issues. The proposed framework allows multiple organisations to join forces in the design, training, and evaluation of a robust ML-based network intrusion detection system. The threat intelligence scheme utilises two critical aspects for its application; the availability of network data traffic in a common format to allow for the extraction of meaningful patterns across data sources. Secondly, the adoption of a federated learning mechanism to avoid the necessity of sharing sensitive users' information between organisations. As a result, each organisation benefits from other organisations cyber threat intelligence while maintaining the privacy of its data internally. The model is trained locally and only the updated weights are shared with the remaining participants in the federated averaging process. The framework has been designed and evaluated in this paper by using two key datasets in a NetFlow format known as NF-UNSW-NB15-v2 and NF-BoT-IoT-v2. Two other common scenarios are considered in the evaluation process; a centralised training method where the local data samples are shared with other organisations and a localised training method where no threat intelligence is shared. The results demonstrate the efficiency and effectiveness of the proposed framework by designing a universal ML model effectively classifying benign and intrusive traffic originating from multiple organisations without the need for local data exchange.
翻訳日:2021-11-05 19:58:48 公開日:2021-11-04
# (参考訳) WaveFake:オーディオディープフェイク検出のためのデータセット [全文訳有]

WaveFake: A Data Set to Facilitate Audio Deepfake Detection ( http://arxiv.org/abs/2111.02813v1 )

ライセンス: CC BY-SA 4.0
Joel Frank, Lea Sch\"onherr(参考訳) 深層生成モデリングは社会に大きな害をもたらす可能性がある。 この脅威を認識して、いわゆる「ディープフェイク」を検出する研究の規模が現れた。 この研究は画像領域に焦点をあてることが多いが、生成した音声信号の研究は無視されている。 本稿では,このギャップを狭めるための3つの重要な貢献を行う。 まず,音声信号の解析に用いられる共通信号処理技術について,研究者に紹介する。 第2に,5つの異なるネットワークアーキテクチャから9つのサンプルセットを収集し,2つの言語にまたがる新しいデータセットを提案する。 最後に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。

Deep generative modeling has the potential to cause significant harm to society. Recognizing this threat, a magnitude of research into detecting so-called "Deepfakes" has emerged. This research most often focuses on the image domain, while studies exploring generated audio signals have, so-far, been neglected. In this paper we make three key contributions to narrow this gap. First, we provide researchers with an introduction to common signal processing techniques used for analyzing audio signals. Second, we present a novel data set, for which we collected nine sample sets from five different network architectures, spanning two languages. Finally, we supply practitioners with two baseline models, adopted from the signal processing community, to facilitate further research in this area.
翻訳日:2021-11-05 19:40:49 公開日:2021-11-04
# (参考訳) 衝突車両を用いた深部強化学習型交通信号制御システムへの攻撃 [全文訳有]

Attacking Deep Reinforcement Learning-Based Traffic Signal Control Systems with Colluding Vehicles ( http://arxiv.org/abs/2111.02845v1 )

ライセンス: CC BY 4.0
Ao Qu, Yihong Tang, Wei Ma(参考訳) モノのインターネット(IoT)と人工知能(AI)の急速な進歩は、スマートシティ向けの適応交通信号制御システム(ATCS)の開発を触媒にしている。 特に、深層強化学習(DRL)法は最先端の性能を生み出し、実用的な応用に大きな可能性を秘めている。 既存のDRLベースのATCSでは、制御信号が近くの車両から交通状況情報を収集し、その収集情報に基づいて最適な動作(例えば、スイッチングフェーズ)を決定することができる。 DRLは、車両が真の情報を信号に送信していることを完全に「信頼」しており、ATCSは偽情報による敵攻撃に脆弱である。 そこで本論文では, 車両群が, 全走行時間を節約するために, DRLをベースとしたATCSにファリシファイド情報を協調的に送信する, 新たなタスクを初めて定式化する。 提案課題を解決するために,道路状況エンコーダ,車両インタプリタ,通信機構で構成される汎用的で効果的な車両処理フレームワークであるColrusionVehを開発した。 我々は,既存のDRLをベースとしたATCS攻撃手法を用いて,衝突車両の総走行時間を適切な回数の学習時間で大幅に短縮し,衝突車両の数が増加すると衝突効果が低下することを示した。 さらに、DRLベースのATCSの実際の展開に関する洞察と提案が提供される。 この研究結果は、ATCSの信頼性と堅牢性を改善し、スマートモビリティシステムを保護するのに役立つだろう。

The rapid advancements of Internet of Things (IoT) and artificial intelligence (AI) have catalyzed the development of adaptive traffic signal control systems (ATCS) for smart cities. In particular, deep reinforcement learning (DRL) methods produce the state-of-the-art performance and have great potentials for practical applications. In the existing DRL-based ATCS, the controlled signals collect traffic state information from nearby vehicles, and then optimal actions (e.g., switching phases) can be determined based on the collected information. The DRL models fully "trust" that vehicles are sending the true information to the signals, making the ATCS vulnerable to adversarial attacks with falsified information. In view of this, this paper first time formulates a novel task in which a group of vehicles can cooperatively send falsified information to "cheat" DRL-based ATCS in order to save their total travel time. To solve the proposed task, we develop CollusionVeh, a generic and effective vehicle-colluding framework composed of a road situation encoder, a vehicle interpreter, and a communication mechanism. We employ our method to attack established DRL-based ATCS and demonstrate that the total travel time for the colluding vehicles can be significantly reduced with a reasonable number of learning episodes, and the colluding effect will decrease if the number of colluding vehicles increases. Additionally, insights and suggestions for the real-world deployment of DRL-based ATCS are provided. The research outcomes could help improve the reliability and robustness of the ATCS and better protect the smart mobility systems.
翻訳日:2021-11-05 19:16:25 公開日:2021-11-04
# (参考訳) 大規模多種多様な組合せ最適化:espnファンタジーフットボール選手の取引 [全文訳有]

Large Scale Diverse Combinatorial Optimization: ESPN Fantasy Football Player Trades ( http://arxiv.org/abs/2111.02859v1 )

ライセンス: CC BY 4.0
Aaron Baughman, Daniel Bohm, Micah Forster, Eduardo Morales, Jeff Powell, Shaun McPartlin, Raja Hebbar, Kavitha Yogaraj(参考訳) 熟練したファンタジーフットボールのマネージャーでさえ、シーズン半ばのロスターたちに失望することがある。 チームマネージャは、チームが最高のアクティブプレイヤーを始めても、スコアの天井が低いことをすぐに発見できます。 新たな多種多様な組み合わせ最適化システムは、取引の公平さのバランスをとるために、補完的なチーム間での高ボリュームかつ独特な取引を提案する。 量子サポートベクトル分類器(qsvc-pi)、累積局所効果(qsvc-ale)を持つ量子サポートベクトル分類器(qsvc-ale)、置換重要度(vqc-pi)を持つ変分量子回路(vqc-pi)、置換重要度(hqnn-pi)を持つハイブリッド量子ニューラルネットワーク(hqnn-pi)、極端な勾配強調分類器(xgb)、主題エキスパート(sme)ルール。 各選手の評価はリーグルール、ロースター、選択に基づいてパーソナライズされる。 プレイヤーを交換するコストは、位置の深さ、スロット数、位置の重要性など、チームのロースターに関係している。 チームが強みと弱みを相殺できるように、チームはコサインの相違点に基づいて取引のためにペアを組む。 knapsack 0-1アルゴリズムは各チームのアウトゴープレイヤを計算する。 ポストプロセッサは分析モデルとディープラーニングモデルを適用し、各取引に関する6つの客観的指標を測定します。 2020年と2021年のNFLでは、IBMとESPNの24人の専門家が、フットボールエラー分析ツール(FEAT)の10セッションを通じて、貿易品質を評価した。 我々のシステムは高品質取引の76.9%から始まり、高品質取引の97.3%で2021年シーズンに展開した。 取引量を増やすために、量子、古典、ルールベースのコンピューティングは、100%取引のユニークさを持っています。 私たちはqiskitの量子シミュレータを作業中に使用しています。

Even skilled fantasy football managers can be disappointed by their mid-season rosters as some players inevitably fall short of draft day expectations. Team managers can quickly discover that their team has a low score ceiling even if they start their best active players. A novel and diverse combinatorial optimization system proposes high volume and unique player trades between complementary teams to balance trade fairness. Several algorithms create the valuation of each fantasy football player with an ensemble of computing models: Quantum Support Vector Classifier with Permutation Importance (QSVC-PI), Quantum Support Vector Classifier with Accumulated Local Effects (QSVC-ALE), Variational Quantum Circuit with Permutation Importance (VQC-PI), Hybrid Quantum Neural Network with Permutation Importance (HQNN-PI), eXtreme Gradient Boosting Classifier (XGB), and Subject Matter Expert (SME) rules. The valuation of each player is personalized based on league rules, roster, and selections. The cost of trading away a player is related to a team's roster, such as the depth at a position, slot count, and position importance. Teams are paired together for trading based on a cosine dissimilarity score so that teams can offset their strengths and weaknesses. A knapsack 0-1 algorithm computes outgoing players for each team. Postprocessors apply analytics and deep learning models to measure 6 different objective measures about each trade. Over the 2020 and 2021 National Football League (NFL) seasons, a group of 24 experts from IBM and ESPN evaluated trade quality through 10 Football Error Analysis Tool (FEAT) sessions. Our system started with 76.9% of high-quality trades and was deployed for the 2021 season with 97.3% of high-quality trades. To increase trade quantity, our quantum, classical, and rules-based computing have 100% trade uniqueness. We use Qiskit's quantum simulators throughout our work.
翻訳日:2021-11-05 19:03:16 公開日:2021-11-04
# (参考訳) 対称性対応オートエンコーダ:s-PCAとs-nlPCA [全文訳有]

Symmetry-Aware Autoencoders: s-PCA and s-nlPCA ( http://arxiv.org/abs/2111.02893v1 )

ライセンス: CC BY 4.0
Simon Kneer, Taraneh Sayadi, Denis Sipp, Peter Schmid, Georgios Rigas(参考訳) 非線形主成分分析 (nlPCA) は, 線形主成分解析 (PCA) と比較して圧縮速度が大きいことから, 自動エンコーダによる非線形主成分解析 (nlPCA) が注目されている。 これらのモデル還元法は、対称性の存在によってグローバルに不変なサンプルを示すデータセットに適用すると、潜在空間の次元が増大する。 本研究では, 空間変換器ネットワークとシームズネットワークを用いて, 連続対称性と離散対称性をそれぞれ考慮した, オートエンコーダに機械学習を組み込む手法を提案する。 空間変圧器ネットワークは、不変サンプルが周期方向に整列するように、連続変換または回転の最適シフトを検出する。 同様に、シームズネットワークは離散シフトと反射の下で不変であるサンプルを分解する。 したがって、提案する対称性認識オートエンコーダは、基礎となる物理系のダイナミクスを規定する所定の入力変換に不変である。 この埋め込みは、対称対応PCA (s-PCA) と対称対応nlPCA (s-nlPCA) の2つの非線形還元法に応用できる。 提案手法は,バーガーズ方程式,ステップディフューザによる流れのシミュレーション,コルモゴロフ流の3つの流体流動問題に適用し,連続対称性のみを示す場合,離散対称性のみを示す場合,あるいは両者の組み合わせを示す。

Nonlinear principal component analysis (nlPCA) via autoencoders has attracted attention in the dynamical systems community due to its larger compression rate when compared to linear principal component analysis (PCA). These model reduction methods experience an increase in the dimensionality of the latent space when applied to datasets that exhibit globally invariant samples due to the presence of symmetries. In this study, we introduce a novel machine learning embedding in the autoencoder, which uses spatial transformer networks and Siamese networks to account for continuous and discrete symmetries, respectively. The spatial transformer network discovers the optimal shift for the continuous translation or rotation so that invariant samples are aligned in the periodic directions. Similarly, the Siamese networks collapse samples that are invariant under discrete shifts and reflections. Thus, the proposed symmetry-aware autoencoder is invariant to predetermined input transformations dictating the dynamics of the underlying physical system. This embedding can be employed with both linear and nonlinear reduction methods, which we term symmetry-aware PCA (s-PCA) and symmetry-aware nlPCA (s-nlPCA). We apply the proposed framework to 3 fluid flow problems: Burgers' equation, the simulation of the flow through a step diffuser and the Kolmogorov flow to showcase the capabilities for cases exhibiting only continuous symmetries, only discrete symmetries or a combination of both.
翻訳日:2021-11-05 18:47:27 公開日:2021-11-04
# (参考訳) 薬局側効果, 組合せシナジー, 薬物と薬物の相互作用予測のための関係深層学習の統一的視点 [全文訳有]

A Unified View of Relational Deep Learning for Polypharmacy Side Effect, Combination Synergy, and Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2111.02916v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki and Stephen Bonner and Andriy Nikolov and Michael Ughetto and Sebastian Nilsson and Eliseo Papa(参考訳) 近年,多薬品副作用の同定,薬物・薬物相互作用予測,併用療法設計の課題を解決しようとする機械学習モデルが数多く提案されている。 本稿では,これらの課題に対処可能な関係機械学習モデルの統一的理論的考察を示す。 基本的な定義を提供し、既存のモデルアーキテクチャを比較し、パフォーマンスメトリクス、データセット、評価プロトコルについて議論します。 さらに,本領域における可能性の高いアプリケーションと今後の重要な研究方向性を強調した。

In recent years, numerous machine learning models which attempt to solve polypharmacy side effect identification, drug-drug interaction prediction and combination therapy design tasks have been proposed. Here, we present a unified theoretical view of relational machine learning models which can address these tasks. We provide fundamental definitions, compare existing model architectures and discuss performance metrics, datasets and evaluation protocols. In addition, we emphasize possible high impact applications and important future research directions in this domain.
翻訳日:2021-11-05 18:20:37 公開日:2021-11-04
# (参考訳) 多モード時系列データによる非線形力学系の同定 [全文訳有]

Identifying nonlinear dynamical systems from multi-modal time series data ( http://arxiv.org/abs/2111.02922v1 )

ライセンス: CC BY 4.0
Philine Lou Bommer, Daniel Kramer, Carlo Tombolini, Georgia Koppe and Daniel Durstewitz(参考訳) 物理学、生物学、医学において経験的に観察された時系列は、科学的な関心の対象である力学系(ds)によって一般的に生成される。 完全にデータ駆動で教師なしの方法で、この潜伏するDSを再構築するための機械学習手法の収集への関心が高まっている。 科学の多くの分野において、典型的な神経科学実験における電気生理学的および行動的時系列など、多くのデータモダリティからの時系列観測を同時にサンプリングすることは一般的である。 しかしながら、DSを再構築するための現在の機械学習ツールは、通常、1つのデータモダリティだけに焦点を当てる。 本稿では,非線形DS識別とクロスモーダル予測を目的としたマルチモーダルデータ統合のための汎用フレームワークを提案する。 このフレームワークは、非線形DSの一般近似として動的に解釈可能なリカレントニューラルネットワークに基づいており、一般化線形モデルのクラスからのモジュラリティ特異的デコーダモデルのセットと結合している。 予測最大化とモデルトレーニングのための変分推論アルゴリズムの両方を改良して比較する。 非線形DSベンチマークにおいて、我々のアルゴリズムは、他のチャネルを活用することで、1つのデータチャネル内のノイズや欠落した情報を効率的に補償できることを示し、アルゴリズムが異なるデータドメインを基礎となるダイナミクスにリンクする方法を実験的な神経科学データで示す。

Empirically observed time series in physics, biology, or medicine, are commonly generated by some underlying dynamical system (DS) which is the target of scientific interest. There is an increasing interest to harvest machine learning methods to reconstruct this latent DS in a completely data-driven, unsupervised way. In many areas of science it is common to sample time series observations from many data modalities simultaneously, e.g. electrophysiological and behavioral time series in a typical neuroscience experiment. However, current machine learning tools for reconstructing DSs usually focus on just one data modality. Here we propose a general framework for multi-modal data integration for the purpose of nonlinear DS identification and cross-modal prediction. This framework is based on dynamically interpretable recurrent neural networks as general approximators of nonlinear DSs, coupled to sets of modality-specific decoder models from the class of generalized linear models. Both an expectation-maximiza tion and a variational inference algorithm for model training are advanced and compared. We show on nonlinear DS benchmarks that our algorithms can efficiently compensate for too noisy or missing information in one data channel by exploiting other channels, and demonstrate on experimental neuroscience data how the algorithm learns to link different data domains to the underlying dynamics
翻訳日:2021-11-05 18:02:07 公開日:2021-11-04
# (参考訳) 隠れ媒介者による近位因果推論:フロントドアと関連する調停問題 [全文訳有]

Proximal Causal Inference with Hidden Mediators: Front-Door and Related Mediation Problems ( http://arxiv.org/abs/2111.02927v1 )

ライセンス: CC BY 4.0
AmirEmad Ghassami, Ilya Shpitser, Eric Tchetgen Tchetgen(参考訳) 近因果推論は、最近、プロキシが利用できる隠れた共同創設者の存在下で観察データから因果関係を識別するフレームワークとして提案されている。 本稿では,不運なことに直接観察されないメディエータの集合に因果効果の同定が引き起こされるような設定への近因果アプローチを拡張するが,隠蔽メディエータのプロキシを測定する。 具体的には i) プロキシが利用可能な隠された仲介者を許可するために、古典的な玄関結果を拡張する新しい隠された玄関基準 (II) 因果媒介分析を拡張して, 観察対象のメディエーターが隠蔽されている環境では, 直接的および間接的因果効果を識別するが, 後者のエラープロキシが利用可能である。 私たちは (i)および (II) メディアエーターとしての室内基準とメディエーション分析の実践的適用に向けた重要なステップは、ほとんど常にエラーを起こしやすいため、実際に期待できるのは、我々の測定が仲介機構の最高のプロキシであるということである。 最後に,特定の因果効果の同定は,課題のある場面においても可能であることを示す。 (i)および (二)共存する。

Proximal causal inference was recently proposed as a framework to identify causal effects from observational data in the presence of hidden confounders for which proxies are available. In this paper, we extend the proximal causal approach to settings where identification of causal effects hinges upon a set of mediators which unfortunately are not directly observed, however proxies of the hidden mediators are measured. Specifically, we establish (i) a new hidden front-door criterion which extends the classical front-door result to allow for hidden mediators for which proxies are available; (ii) We extend causal mediation analysis to identify direct and indirect causal effects under unconfoundedness conditions in a setting where the mediator in view is hidden, but error prone proxies of the latter are available. We view (i) and (ii) as important steps towards the practical application of front-door criteria and mediation analysis as mediators are almost always error prone and thus, the most one can hope for in practice is that our measurements are at best proxies of mediating mechanisms. Finally, we show that identification of certain causal effects remains possible even in settings where challenges in (i) and (ii) might co-exist.
翻訳日:2021-11-05 17:31:34 公開日:2021-11-04
# (参考訳) 非線形ゴシップを用いた分散最適化のための有限時間合意学習 [全文訳有]

Finite-Time Consensus Learning for Decentralized Optimization with Nonlinear Gossiping ( http://arxiv.org/abs/2111.02949v1 )

ライセンス: CC BY 4.0
Junya Chen, Sijia Wang, Lawrence Carin, Chenyang Tao(参考訳) 分散学習は、機械学習をスケールアップし、データプライバシの増大に対処するための重要なツールになっている。 ネットワークトポロジにはロバストだが、分散学習スキームは、パフォーマンス面での競争力の低い集中型スキームほど人気は得られていない。 本研究では,分散学習作業者間の同期性の欠如を問題として,経験的・理論的に,作業者間の収束率が同期レベルに結び付いていることを示す。 このようなモチベーションを生かした非線形ゴシップ(NGO)に基づく新たな分散学習フレームワークを提案する。 我々は、その収束を慎重に分析し、ディープニューラルネットワークのような現代の分散最適化アプリケーションにその利点を論じる。 通信遅延とランダム化チャットが学習に与える影響を解析することにより,非同期およびランダム化通信に対応する実用的な変種を導出することができる。 提案の有効性を検証するために,広範なテストを通じてngoを競合ソリューションと比較し,その結果を奨励する。

Distributed learning has become an integral tool for scaling up machine learning and addressing the growing need for data privacy. Although more robust to the network topology, decentralized learning schemes have not gained the same level of popularity as their centralized counterparts for being less competitive performance-wise. In this work, we attribute this issue to the lack of synchronization among decentralized learning workers, showing both empirically and theoretically that the convergence rate is tied to the synchronization level among the workers. Such motivated, we present a novel decentralized learning framework based on nonlinear gossiping (NGO), that enjoys an appealing finite-time consensus property to achieve better synchronization. We provide a careful analysis of its convergence and discuss its merits for modern distributed optimization applications, such as deep neural networks. Our analysis on how communication delay and randomized chats affect learning further enables the derivation of practical variants that accommodate asynchronous and randomized communications. To validate the effectiveness of our proposal, we benchmark NGO against competing solutions through an extensive set of tests, with encouraging results reported.
翻訳日:2021-11-05 17:03:59 公開日:2021-11-04
# (参考訳) mt3:マルチタスクのマルチトラック音楽書き起こし [全文訳有]

MT3: Multi-Task Multitrack Music Transcription ( http://arxiv.org/abs/2111.03017v1 )

ライセンス: CC BY 4.0
Josh Gardner, Ian Simon, Ethan Manilow, Curtis Hawthorne, Jesse Engel(参考訳) 生音声から音符を推定するAMT(Automatic Music Transcription)は,音楽理解の核となる課題である。 単一の話者の単語に焦点を絞った自動音声認識(ASR)とは異なり、ATTは音高やタイミング情報を保存しながら、複数の楽器を同時に書き起こさなければならないことが多い。 さらに、多くのAMTデータセットは「低リソース」であり、専門家のミュージシャンでさえ音楽の書き起こしが難しく、時間を要すると考えている。 したがって、以前の作業はタスク固有のアーキテクチャに重点を置いており、各タスクの個々のインスツルメントに合わせたものである。 本研究では,低リソース自然言語処理(NLP)のためのシーケンス・ツー・シーケンス・トランスファー学習(Sequence-to-Sequenc e Transfer Learning)の有望な結果から,汎用トランスフォーマーモデルがマルチタスクATTを実行できることを示す。 この統一的な学習フレームワークは、様々なデータセットで高品質な書き起こし結果を達成し、低リソースの楽器(ギターなど)のパフォーマンスを劇的に向上させながら、豊富な楽器(ピアノなど)の強いパフォーマンスを維持している。 最後に、ATTの範囲を広げることで、より一貫性のある評価指標とより良いデータセットアライメントの必要性を明らかにし、マルチタスクATTの新しい方向性の強力なベースラインを提供する。

Automatic Music Transcription (AMT), inferring musical notes from raw audio, is a challenging task at the core of music understanding. Unlike Automatic Speech Recognition (ASR), which typically focuses on the words of a single speaker, AMT often requires transcribing multiple instruments simultaneously, all while preserving fine-scale pitch and timing information. Further, many AMT datasets are "low-resource", as even expert musicians find music transcription difficult and time-consuming. Thus, prior work has focused on task-specific architectures, tailored to the individual instruments of each task. In this work, motivated by the promising results of sequence-to-sequence transfer learning for low-resource Natural Language Processing (NLP), we demonstrate that a general-purpose Transformer model can perform multi-task AMT, jointly transcribing arbitrary combinations of musical instruments across several transcription datasets. We show this unified training framework achieves high-quality transcription results across a range of datasets, dramatically improving performance for low-resource instruments (such as guitar), while preserving strong performance for abundant instruments (such as piano). Finally, by expanding the scope of AMT, we expose the need for more consistent evaluation metrics and better dataset alignment, and provide a strong baseline for this new direction of multi-task AMT.
翻訳日:2021-11-05 16:38:56 公開日:2021-11-04
# 量子近似最適化のグラフニューラルネットワーク初期化

Graph neural network initialisation of quantum approximate optimisation ( http://arxiv.org/abs/2111.03016v1 )

ライセンス: Link先を確認
Nishant Jain, Brian Coyle, Elham Kashefi, Niraj Kumar(参考訳) 近似組合せ最適化は、量子コンピュータ、特に短期的には最も有望な応用分野の1つとして現れてきた。 本研究では,量子近似最適化アルゴリズム (QAOA) に着目し,最大カッツ問題の解法を提案する。 具体的には、QAOAにおける2つの問題、初期パラメータの選択方法、そして次に最適な解を見つけるためにパラメータをトレーニングする方法に対処する。 前者に対しては,QAOAパラメータの初期化ルーチンとしてグラフニューラルネットワーク(GNN)を提案する。 我々は、グラフインスタンスだけでなく、他のウォームスタート技術では利用できないグラフサイズの増加にもGNNアプローチが一般化されていることを示す。 QAOAをトレーニングするために、MaxCut問題に対するいくつかのオプティマイザをテストする。 これらには、文献で提案されている量子認識/認識オプティマイザや、強化やメタラーニングといった機械学習技術も含まれている。 これらの初期化と最適化ツールキットの導入により、QAOAをエンドツーエンドの差別化可能なパイプラインとしてトレーニングする方法を実証する。

Approximate combinatorial optimisation has emerged as one of the most promising application areas for quantum computers, particularly those in the near term. In this work, we focus on the quantum approximate optimisation algorithm (QAOA) for solving the Max-Cut problem. Specifically, we address two problems in the QAOA, how to select initial parameters, and how to subsequently train the parameters to find an optimal solution. For the former, we propose graph neural networks (GNNs) as an initialisation routine for the QAOA parameters, adding to the literature on warm-starting techniques. We show the GNN approach generalises across not only graph instances, but also to increasing graph sizes, a feature not available to other warm-starting techniques. For training the QAOA, we test several optimisers for the MaxCut problem. These include quantum aware/agnostic optimisers proposed in literature and we also incorporate machine learning techniques such as reinforcement and meta-learning. With the incorporation of these initialisation and optimisation toolkits, we demonstrate how the QAOA can be trained as an end-to-end differentiable pipeline.
翻訳日:2021-11-05 16:17:29 公開日:2021-11-04
# パンデミック初期のcovid-19流行動態における監禁政策の効果

Efficacy the of Confinement Policies on the COVID-19 Spread Dynamics in the Early Period of the Pandemic ( http://arxiv.org/abs/2111.03020v1 )

ライセンス: Link先を確認
Mehedi Hassan, Md Enamul Haque, Mehmet Engin Tozal(参考訳) 本研究では,パンデミック初期のcovid-19流行パターンを捉えるために,時系列データを用いたクラスタリング手法を提案する。 我々は、異なる地理的な場所に基づいて、異なる国でcovid-19の初期段階と後段階に基づいて、拡散ダイナミクスを分析する。 さらに,封じ込め政策と,それが拡散に与える影響についても検討した。 留置方針の実施は、異なる国で異なる結果を示すことが判明した。 特に、人口密度の高い地域では、社会的距離調整措置に従わないため、ロックダウンは効果が低下する。 一部の国では、テストや接触追跡、社会的意識の欠如が、人々を自己隔離や社会的距離の維持から救っている。 不健康な生活条件の大規模な労働キャンプは、外国の労働力による高いコミュニティの伝達にも役立っている。 政府の政策に対する不信感と偽ニュースは、発展途上国と未開発国の両方で広まった。 大規模な社会集会は、ほとんどどこでも急速な流行を引き起こす重要な役割を担っている。 一部の国では厳格で広く採用されている監禁政策を実践して拡散を抑えることができたが、社会の分散と厳格な試験能力の助けを借りて拡大を包含した国もあった。 感染拡大を封じ込めるためには、パンデミックの初期段階の迅速かつ迅速な対応が必要であるが、必ずしも十分ではない。

In this study, we propose a clustering-based approach on time-series data to capture COVID-19 spread patterns in the early period of the pandemic. We analyze the spread dynamics based on the early and post stages of COVID-19 for different countries based on different geographical locations. Furthermore, we investigate the confinement policies and the effect they made on the spread. We found that implementations of the same confinement policies exhibit different results in different countries. Specifically, lockdowns become less effective in densely populated regions, because of the reluctance to comply with social distancing measures. Lack of testing, contact tracing, and social awareness in some countries forestall people from self-isolation and maintaining social distance. Large labor camps with unhealthy living conditions also aid in high community transmissions in countries depending on foreign labor. Distrust in government policies and fake news instigate the spread in both developed and under-developed countries. Large social gatherings play a vital role in causing rapid outbreaks almost everywhere. While some countries were able to contain the spread by implementing strict and widely adopted confinement policies, some others contained the spread with the help of social distancing measures and rigorous testing capacity. An early and rapid response at the beginning of the pandemic is necessary to contain the spread, yet it is not always sufficient.
翻訳日:2021-11-05 16:17:13 公開日:2021-11-04
# ヘテロフィアを持つ解釈可能なグラフ生成モデル

An Interpretable Graph Generative Model with Heterophily ( http://arxiv.org/abs/2111.03030v1 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya, Ryan A. Rossi, Anup Rao, Tung Mai, Nedim Lipka, Zhao Song, and Cameron Musco(参考訳) グラフの多くのモデルは、エッジ非依存のドット製品モデルのフレームワークに該当する。 これらのモデルは、すべてのノード間で存在するエッジの確率を出力し、2つのノード間のリンクの確率は、ノードに関連するベクトルのドット積とともに増加する。 近年の研究では、これらのモデルは実世界のグラフ、特に異質な構造においてキー構造をキャプチャできないことが示されている。 エッジに依存しないグラフ生成モデルを提案する。 a) ヘテロフィリーを捉えるのに十分な表現 b) リンク予測をコミュニティの観点で解釈できる非負の埋め込みを生成し、 c) クロスエントロピー損失に対する勾配勾配のグラフを効果的に最適化する。 理論的な結果から,本モデルの表現性は,最大次数で線形な多数のクラスタを用いてグラフを正確に再構成する能力と,データ内の異種性および同質性の両方をキャプチャする能力を示す。 さらに,本実験では,マルチラベルクラスタリングやリンク予測など,様々な重要なアプリケーションタスクに対して,モデルの有効性を示す。

Many models for graphs fall under the framework of edge-independent dot product models. These models output the probabilities of edges existing between all pairs of nodes, and the probability of a link between two nodes increases with the dot product of vectors associated with the nodes. Recent work has shown that these models are unable to capture key structures in real-world graphs, particularly heterophilous structures, wherein links occur between dissimilar nodes. We propose the first edge-independent graph generative model that is a) expressive enough to capture heterophily, b) produces nonnegative embeddings, which allow link predictions to be interpreted in terms of communities, and c) optimizes effectively on real-world graphs with gradient descent on a cross-entropy loss. Our theoretical results demonstrate the expressiveness of our model in its ability to exactly reconstruct a graph using a number of clusters that is linear in the maximum degree, along with its ability to capture both heterophily and homophily in the data. Further, our experiments demonstrate the effectiveness of our model for a variety of important application tasks such as multi-label clustering and link prediction.
翻訳日:2021-11-05 16:16:54 公開日:2021-11-04
# Coresets入門:近似平均

Introduction to Coresets: Approximated Mean ( http://arxiv.org/abs/2111.03046v1 )

ライセンス: Link先を確認
Alaa Maalouf and Ibrahim Jubran and Dan Feldman(参考訳) 集合 $P$ in ${\mathbb{R}}^d$ の平均的なクエリに対する \emph{strong coreset} は小さな重み付き部分集合 $C\subseteq P$ であり、任意の中心 (point) $x\in {\mathbb{R}}^d$ への平方距離の和を確実に近似する。 emph{weak coreset} は小さな重み付き部分集合 $c$ が $p$ であり、その平均は $p$ の平均に近い。 p$の平均の計算は線形時間で容易に計算できるが、そのコアセットは制約の厳しいバージョンを解決するために使用することができ、$k$-meansクラスタリングのためのcoresetsのような一般化の中心である。 本稿では, 平均コアセット構築手法のほとんどを調査し, ステップバイステップの証明を含む古典的, 近代的な結果の提供と説明のための統一分析手法を提案する。 特に民話と散在する関連資料を収集し,その一部は他の場所では公式には述べられていない。 この調査を通じて、この分野において非常に広くかつ重要な技術、削減、アルゴリズムのセットを提示し、説明し、証明する。 しかし、(比較的単純な)平均問題で使用する場合、そのようなテクニックは理解しやすくなっている。 この調査は、新しい研究者がこの分野に慣れていないことをガイドし、単純だが基本的な問題を通じてコアセットの非常に基本的な基礎を紹介するのに役立つかもしれない。 この領域の専門家は、統一分析フローと既存の結果の比較テーブルを評価できるかもしれない。 最後に、実践者やソフトウェアエンジニアを奨励し、支援するために、提示されたすべてのアルゴリズムに完全なオープンソースコードを提供します。

A \emph{strong coreset} for the mean queries of a set $P$ in ${\mathbb{R}}^d$ is a small weighted subset $C\subseteq P$, which provably approximates its sum of squared distances to any center (point) $x\in {\mathbb{R}}^d$. A \emph{weak coreset} is (also) a small weighted subset $C$ of $P$, whose mean approximates the mean of $P$. While computing the mean of $P$ can be easily computed in linear time, its coreset can be used to solve harder constrained version, and is in the heart of generalizations such as coresets for $k$-means clustering. In this paper, we survey most of the mean coreset construction techniques, and suggest a unified analysis methodology for providing and explaining classical and modern results including step-by-step proofs. In particular, we collected folklore and scattered related results, some of which are not formally stated elsewhere. Throughout this survey, we present, explain, and prove a set of techniques, reductions, and algorithms very widespread and crucial in this field. However, when put to use in the (relatively simple) mean problem, such techniques are much simpler to grasp. The survey may help guide new researchers unfamiliar with the field, and introduce them to the very basic foundations of coresets, through a simple, yet fundamental, problem. Experts in this area might appreciate the unified analysis flow, and the comparison table for existing results. Finally, to encourage and help practitioners and software engineers, we provide full open source code for all presented algorithms.
翻訳日:2021-11-05 16:16:38 公開日:2021-11-04
# COVID-19肺炎の鑑別診断のための半自動超音波画像解析システム

A semi-automatic ultrasound image analysis system for the grading diagnosis of COVID-19 pneumonia ( http://arxiv.org/abs/2111.02676v1 )

ライセンス: Link先を確認
Yuanyuan Wang, Yao Zhang, Qiong He, Hongen Liao and Jianwen Luo(参考訳) 本報告では, 肺炎患者の肺病変を定量的に評価し, 重篤な症例と重篤な症例を鑑別するために, 肺超音波像の像パターンを定量的に評価する半自動システムを提案する。 具体的には、胸膜の厚み(TPL)と粗さ(RPL)と、B線の(AWBL)と音響係数(ACBL)とで蓄積された4つのパラメータを各LUS画像から抽出する。 対象は中等度患者13名,重度患者7名,重度患者7名である。 また重症患者は重症患者、重症患者は軽症、中等症患者は非軽症である。 異なるグループのバイオマーカーを比較する。 各バイオマーカーと全てのバイオマーカーを入力とする分類器をそれぞれ重篤な症例と非敗血症の2次診断に利用する。 分類器は、比較したすべての方法(受信動作特性曲線=0.93、感度=0.93、特異性=0.85)の中で最高の分類性能を達成する。 提案する画像解析システムは、covid-19肺炎患者の採点と予後評価に応用できる可能性がある。

This paper proposes a semi-automatic system based on quantitative characterization of the specific image patterns in lung ultrasound (LUS) images, in order to assess the lung conditions of patients with COVID-19 pneumonia, as well as to differentiate between the severe / and no-severe cases. Specifically, four parameters are extracted from each LUS image, namely the thickness (TPL) and roughness (RPL) of the pleural line, and the accumulated with (AWBL) and acoustic coefficient (ACBL) of B lines. 27 patients are enrolled in this study, which are grouped into 13 moderate patients, 7 severe patients and 7 critical patients. Furthermore, the severe and critical patients are regarded as the severe cases, and the moderate patients are regarded as the non-severe cases. Biomarkers among different groups are compared. Each single biomarker and a classifier with all the biomarkers as input are utilized for the binary diagnosis of severe case and non-severe case, respectively. The classifier achieves the best classification performance among all the compared methods (area under the receiver operating characteristics curve = 0.93, sensitivity = 0.93, specificity = 0.85). The proposed image analysis system could be potentially applied to the grading and prognosis evaluation of patients with COVID-19 pneumonia.
翻訳日:2021-11-05 16:16:06 公開日:2021-11-04
# inqss:マルチタスク学習ネットワークを用いた音声理解性評価モデル

InQSS: a speech intelligibility assessment model using a multi-task learning network ( http://arxiv.org/abs/2111.02585v1 )

ライセンス: Link先を確認
Yu-Wen Chen, Yu Tsao(参考訳) 音声の可聴性評価モデルは、研究者が音声処理モデルを評価し改善するために必要なツールである。 本研究では,スペクトルおよび散乱係数を入力特徴として用いた音声インテリジェンス評価モデルであるInQSSを提案する。 さらに、InQSSはマルチタスク学習ネットワークを使用し、品質スコアは音声のインテリジェンス評価のトレーニングをガイドすることができる。 結果として得られたモデルは、理解度スコアだけでなく、音声の品質スコアも予測できる。 実験結果から, 散乱係数と品質スコアは知性に有益であることが確認された。 さらに,清潔でうるさく,強化された音声の品質と知性スコアを記録する中国語音声データセットtmhint-qiをリリースした。

Speech intelligibility assessment models are essential tools for researchers to evaluate and improve speech processing models. In this study, we propose InQSS, a speech intelligibility assessment model that uses both spectrogram and scattering coefficients as input features. In addition, InQSS uses a multi-task learning network in which quality scores can guide the training of the speech intelligibility assessment. The resulting model can predict not only the intelligibility scores but also the quality scores of a speech. The experimental results confirm that the scattering coefficients and quality scores are informative for intelligibility. Moreover, we released TMHINT-QI, which is a Chinese speech dataset that records the quality and intelligibility scores of clean, noisy, and enhanced speech.
翻訳日:2021-11-05 16:15:20 公開日:2021-11-04
# (参考訳) 不完全な楽器変数による因果推論 [全文訳有]

Causal inference with imperfect instrumental variables ( http://arxiv.org/abs/2111.03029v1 )

ライセンス: CC BY 4.0
Nikolai Miklin, Mariami Gachechiladze, George Moreno, Rafael Chaves(参考訳) 機器変数は介入がなくても原因と効果の関係の定量化を可能にする。 これを達成するには、多くの因果関係の仮定を満たさなければならないが、その中で最も重要なのは独立性の仮定であり、楽器とあらゆる因果関係は独立でなければならない。 しかし、もしこの独立条件が満たされなければ、まだ不完全なインストゥルメンタル変数で作業できるのだろうか? 不完全な楽器は、シナリオ内の相関のセットを制限する機器の不平等の違反によって、自分自身を示すことができる。 本稿では,そのような機器の不等式違反と,それらの説明に必要な測定依存性の最小値との定量的関係を確立する。 その結果,機器シナリオにおける緩和測定依存性仮定の存在下で有効な適応的不等式が得られた。 これにより、バイナリ結果を持つ機器シナリオに対する平均因果効果に対する既存のおよび新しい下位境界の適応が可能となる。 最後に、量子力学の文脈における我々の発見について議論する。

Instrumental variables allow for quantification of cause and effect relationships even in the absence of interventions. To achieve this, a number of causal assumptions must be met, the most important of which is the independence assumption, which states that the instrument and any confounding factor must be independent. However, if this independence condition is not met, can we still work with imperfect instrumental variables? Imperfect instruments can manifest themselves by violations of the instrumental inequalities that constrain the set of correlations in the scenario. In this paper, we establish a quantitative relationship between such violations of instrumental inequalities and the minimal amount of measurement dependence required to explain them. As a result, we provide adapted inequalities that are valid in the presence of a relaxed measurement dependence assumption in the instrumental scenario. This allows for the adaptation of existing and new lower bounds on the average causal effect for instrumental scenarios with binary outcomes. Finally, we discuss our findings in the context of quantum mechanics.
翻訳日:2021-11-05 16:12:36 公開日:2021-11-04
# 拡張抽象版:捜索救助用uavのためのcnnに基づく人間検出システム

Extended Abstract Version: CNN-based Human Detection System for UAVs in Search and Rescue ( http://arxiv.org/abs/2111.02870v1 )

ライセンス: Link先を確認
Nikite Mesvan(参考訳) 本稿では,畳み込みニューラルネットワークとQuadcopterハードウェアプラットフォームを用いて,人間の探索と検出を行う手法を提案する。 Raspberry Pi Bに事前訓練されたCNNモデルを適用し、Quadcopterの底部に1台のカメラを設置する。 クアッドコプターは加速度計ジャイロセンサーと超音波センサーを使って制御のバランスをとる。 しかし、これらのセンサは、モータの振動などの駆動力によって生じるノイズを受けやすいため、ノイズ処理を行うことができる。 実験により、システムは3 fpsの処理速度でraspberry pi bでうまく動作することを証明した。

This paper proposes an approach for the task of searching and detecting human using a convolutional neural network and a Quadcopter hardware platform. A pre-trained CNN model is applied to a Raspberry Pi B and a single camera is equipped at the bottom of the Quadcopter. The Quadcopter uses accelerometer-gyrosc ope sensor and ultrasonic sensor for balancing control. However, these sensors are susceptible to noise caused by the driving forces such as the vibration of the motors, thus, noise processing is implemented. Experiments proved that the system works well on the Raspberry Pi B with a processing speed of 3 fps.
翻訳日:2021-11-05 15:48:47 公開日:2021-11-04
# RT-RCG: 心臓内心電図からの有効リアルタイム心電図再構成に向けたニューラルネットワークと加速器探索

RT-RCG: Neural Network and Accelerator Search Towards Effective and Real-time ECG Reconstruction from Intracardiac Electrograms ( http://arxiv.org/abs/2111.02569v1 )

ライセンス: Link先を確認
Yongan Zhang, Anton Banta, Yonggan Fu, Mathews M. John, Allison Post, Mehdi Razavi, Joseph Cavallaro, Behnaam Aazhang, Yingyan Lin(参考訳) ペースメーカーによって提供される信号(すなわち心内電図(egm))と医師が異常なリズムを診断するために使用する信号(すなわち12誘導心電図(ecg))のギャップが存在する。 したがって,前者は遠隔感染しても正確な診断を行うには不十分であり,適度な介入は行わない。 このギャップを埋めて、不規則かつ頻繁な心室リズムに対する即時応答におけるリアルタイム臨界介入に向けたヒューリスティックな一歩を踏み出すために、1)効率的なディープニューラルネットワーク(DNN)構造を自動検索し、(2)対応する加速器を対応付けるRT-RCGと呼ばれる新しいフレームワークを提案する。 具体的には、EGM信号からのECG再構成に適した新しいDNN検索空間を提案し、大きくて離散的な加速器設計空間を効率的にナビゲートし、最適化された加速器を生成する。 RT-RCGの有効性は,様々な条件下での大規模な実験とアブレーション研究で一貫して検証されている。 我々の知る限りでは、RT-RCGは初めてニューラルネットワークサーチ(NAS)を活用して、再構築の有効性と効率の両方に同時に取り組む。

There exists a gap in terms of the signals provided by pacemakers (i.e., intracardiac electrogram (EGM)) and the signals doctors use (i.e., 12-lead electrocardiogram (ECG)) to diagnose abnormal rhythms. Therefore, the former, even if remotely transmitted, are not sufficient for doctors to provide a precise diagnosis, let alone make a timely intervention. To close this gap and make a heuristic step towards real-time critical intervention in instant response to irregular and infrequent ventricular rhythms, we propose a new framework dubbed RT-RCG to automatically search for (1) efficient Deep Neural Network (DNN) structures and then (2)corresponding accelerators, to enable Real-Time and high-quality Reconstruction of ECG signals from EGM signals. Specifically, RT-RCG proposes a new DNN search space tailored for ECG reconstruction from EGM signals, and incorporates a differentiable acceleration search (DAS) engine to efficiently navigate over the large and discrete accelerator design space to generate optimized accelerators. Extensive experiments and ablation studies under various settings consistently validate the effectiveness of our RT-RCG. To the best of our knowledge, RT-RCG is the first to leverage neural architecture search (NAS) to simultaneously tackle both reconstruction efficacy and efficiency.
翻訳日:2021-11-05 15:48:20 公開日:2021-11-04
# ビンピッキングにおける把持品質とロボット到達性を考慮した学習吸引把持性

Learning suction graspability considering grasp quality and robot reachability for bin-picking ( http://arxiv.org/abs/2111.02571v1 )

ライセンス: Link先を確認
Ping Jiang, Junji Oaki, Yoshiyuki Ishihara, Junichiro Ooga, Haifeng Han, Atsushi Sugahara, Seiji Tokura, Haruna Eto, Kazuma Komoda, and Akihito Ogawa(参考訳) 深層学習は、しっかりとした把握を推測するために広く用いられている。 人間のラベル付きRGB-Dデータセットは最初、把握構成の学習に使用されたが、この種の大規模なデータセットの作成は高価である。 この問題を解決するため、物理シミュレータによって画像が生成され、合成画像に注釈をつけるためのグリップ品質評価指標として物理的にインスパイアされたモデル(吸引真空カップとオブジェクトの接触モデルなど)が使用された。 しかし、この種の接触モデルは複雑であり、実世界のパフォーマンスを保証するために実験によるパラメータ識別が必要である。 また、従来の研究では、ロボットの衝突や物理的制約により、高い把持品質の把持構成が目標に到達できない場合など、マニピュレータの到達可能性も考慮されていない。 本研究では,直感的な幾何学的解析に基づく把握品質評価指標を提案する。 我々はさらに到達可能性評価指標を取り入れている。 そこで本研究では,提案手法を用いた合成画像の評価基準を用いて,吸引把握性u-net++ (sg-u-net++) と呼ばれる自動エンコーダデコーダを訓練する。 実験結果から,直感的な把握品質評価基準は,物理的に着想を得た指標と競合することがわかった。 到達性を学ぶことは、明らかに到達不可能な候補を取り除き、運動計画計算時間を短縮するのに役立つ。 システム全体のピッキング速度は560 PPH (pieces per hour) である。

Deep learning has been widely used for inferring robust grasps. Although human-labeled RGB-D datasets were initially used to learn grasp configurations, preparation of this kind of large dataset is expensive. To address this problem, images were generated by a physical simulator, and a physically inspired model (e.g., a contact model between a suction vacuum cup and object) was used as a grasp quality evaluation metric to annotate the synthesized images. However, this kind of contact model is complicated and requires parameter identification by experiments to ensure real world performance. In addition, previous studies have not considered manipulator reachability such as when a grasp configuration with high grasp quality is unable to reach the target due to collisions or the physical limitations of the robot. In this study, we propose an intuitive geometric analytic-based grasp quality evaluation metric. We further incorporate a reachability evaluation metric. We annotate the pixel-wise grasp quality and reachability by the proposed evaluation metric on synthesized images in a simulator to train an auto-encoder--decode r called suction graspability U-Net++ (SG-U-Net++). Experiment results show that our intuitive grasp quality evaluation metric is competitive with a physically-inspired metric. Learning the reachability helps to reduce motion planning computation time by removing obviously unreachable candidates. The system achieves an overall picking speed of 560 PPH (pieces per hour).
翻訳日:2021-11-05 15:47:53 公開日:2021-11-04
# MLの安全対策の有効性に関する論理的考察

Logically Sound Arguments for the Effectiveness of ML Safety Measures ( http://arxiv.org/abs/2111.02649v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Tobias Schuster, Simon Burton(参考訳) 本稿では,機械学習機能の安全性に関する議論において,十分な厳格性を達成するための課題について検討する。 dnnベースの2dバウンディングボックス検出アルゴリズムの既知の弱点を考慮し,安全目標と関連付けることで,歩行者位置推定の精度を向上させる。 シャープ化は、標準の非最大圧縮後の保守的なポストプロセッサの導入を対策として導く。 次に,議論の健全性を示すための形式的証明義務に翻訳されるポストプロセッサの有効性を議論するための半形式保証ケースを提案する。 定理証明を適用することで、不足するクレームや数学的概念を導入する必要性だけでなく、半形式的議論で使われるデンプスター・シェーファーの規則の限界も明らかになる。

We investigate the issues of achieving sufficient rigor in the arguments for the safety of machine learning functions. By considering the known weaknesses of DNN-based 2D bounding box detection algorithms, we sharpen the metric of imprecise pedestrian localization by associating it with the safety goal. The sharpening leads to introducing a conservative post-processor after the standard non-max-suppression as a counter-measure. We then propose a semi-formal assurance case for arguing the effectiveness of the post-processor, which is further translated into formal proof obligations for demonstrating the soundness of the arguments. Applying theorem proving not only discovers the need to introduce missing claims and mathematical concepts but also reveals the limitation of Dempster-Shafer' ;s rules used in semi-formal argumentation.
翻訳日:2021-11-05 15:45:27 公開日:2021-11-04
# 個人化フェデレーション学習のためのパラメータ化知識伝達

Parameterized Knowledge Transfer for Personalized Federated Learning ( http://arxiv.org/abs/2111.02862v1 )

ライセンス: Link先を確認
Jie Zhang, Song Guo, Xiaosong Ma, Haozhao Wang, Wencao Xu, Feijie Wu(参考訳) 近年,個人化フェデレーション学習(pFL)は,顧客間の統計的不均一性を扱う可能性に注目が集まっている。 しかし、最先端のpFLメソッドはサーバ側のモデルパラメータアグリゲーションに依存しており、すべてのモデルが同じ構造とサイズを持つ必要があるため、より異質なシナリオに対するアプリケーションを制限することができる。 このようなモデル制約に対処するために,ヘテロジニアスモデル設定の可能性を活用し,異なるクライアントに対してパーソナライズされたモデルを採用するための新しいトレーニングフレームワークを提案する。 具体的には、各クライアントがサーバ側でパーソナライズされたソフト予測を維持でき、他のクライアントのローカルトレーニングをガイドできる、パーソナライズされたグループ知識伝達トレーニングアルゴリズムKT-pFLに、元のpFLの集約手順を定式化する。 kt-pflは、知識係数行列を用いて、各クライアントのパーソナライズされたソフト予測を全てのローカルソフト予測の線形結合により更新する。 さらに、各クライアントの個人化学習への貢献を定量化するために、知識係数行列をパラメータ化してモデルと同時に訓練することができる。 知識係数行列とモデルパラメータは、勾配降下方法に従って各ラウンドで代替的に更新される。 各種データセット(EMNIST, Fashion\_MNIST, CIFAR-10)の総合的な実験は、異なる設定(異種モデルとデータ分布)の下で行われる。 提案したフレームワークは,パラメータ化グループ知識伝達によるパーソナライズされたモデルトレーニングを実現し,最先端のアルゴリズムと比較した性能向上を実現した最初のフェデレーション学習パラダイムである。

In recent years, personalized federated learning (pFL) has attracted increasing attention for its potential in dealing with statistical heterogeneity among clients. However, the state-of-the-art pFL methods rely on model parameters aggregation at the server side, which require all models to have the same structure and size, and thus limits the application for more heterogeneous scenarios. To deal with such model constraints, we exploit the potentials of heterogeneous model settings and propose a novel training framework to employ personalized models for different clients. Specifically, we formulate the aggregation procedure in original pFL into a personalized group knowledge transfer training algorithm, namely, KT-pFL, which enables each client to maintain a personalized soft prediction at the server side to guide the others' local training. KT-pFL updates the personalized soft prediction of each client by a linear combination of all local soft predictions using a knowledge coefficient matrix, which can adaptively reinforce the collaboration among clients who own similar data distribution. Furthermore, to quantify the contributions of each client to others' personalized training, the knowledge coefficient matrix is parameterized so that it can be trained simultaneously with the models. The knowledge coefficient matrix and the model parameters are alternatively updated in each round following the gradient descent way. Extensive experiments on various datasets (EMNIST, Fashion\_MNIST, CIFAR-10) are conducted under different settings (heterogeneous models and data distributions). It is demonstrated that the proposed framework is the first federated learning paradigm that realizes personalized model training via parameterized group knowledge transfer while achieving significant performance gain comparing with state-of-the-art algorithms.
翻訳日:2021-11-05 15:44:52 公開日:2021-11-04
# OpenFWI: 機械学習に基づくフルウェーブフォームインバージョンのためのベンチマーク地震データセット

OpenFWI: Benchmark Seismic Datasets for Machine Learning-Based Full Waveform Inversion ( http://arxiv.org/abs/2111.02926v1 )

ライセンス: Link先を確認
Chengyuan Deng, Yinan Feng, Shihang Feng, Peng Jin, Xitong Zhang, Qili Zeng, Youzuo Lin(参考訳) 本稿では,地震波全波形インバージョン(fwi)のための大規模オープンソースベンチマークデータセットであるopenfwiを提案する。 OpenFWIは、多種多様で厳密で再現可能な機械学習ベースのFWI研究を促進する、地球科学と機械学習コミュニティの第一種である。 OpenFWIには、複数のスケールのデータセットが含まれ、さまざまなドメインを包含し、さまざまなレベルのモデルの複雑さをカバーする。 データセットとともに、完全畳み込み深層学習モデルを用いて、各データセットに関する実証的研究を行う。 OpenFWIは注意深くメンテナンスされており、新しいデータと実験結果と共に定期的に更新される。 OpenFWIをさらに改善するためのコミュニティからのインプットに感謝します。 現在のバージョンでは、OpenFWIで7つのデータセットを公開しています。 すべてのデータセットと関連する情報は、https://openfwi.gith ub.io/のwebサイトからアクセスできます。

We present OpenFWI, a collection of large-scale open-source benchmark datasets for seismic full waveform inversion (FWI). OpenFWI is the first-of-its-kind in the geoscience and machine learning community to facilitate diversified, rigorous, and reproducible research on machine learning-based FWI. OpenFWI includes datasets of multiple scales, encompasses diverse domains, and covers various levels of model complexity. Along with the dataset, we also perform an empirical study on each dataset with a fully-convolutional deep learning model. OpenFWI has been meticulously maintained and will be regularly updated with new data and experimental results. We appreciate the inputs from the community to help us further improve OpenFWI. At the current version, we publish seven datasets in OpenFWI, of which one is specified for 3D FWI and the rest are for 2D scenarios. All datasets and related information can be accessed through our website at https://openfwi.gith ub.io/.
翻訳日:2021-11-05 15:44:03 公開日:2021-11-04
# 深層強化学習を用いたロボットレバー操作における因果関係と限界値

Causal versus Marginal Shapley Values for Robotic Lever Manipulation Controlled using Deep Reinforcement Learning ( http://arxiv.org/abs/2111.02936v1 )

ライセンス: Link先を確認
Sindre Benjamin Remman, Inga Str\"umke and Anastasios M. Lekkas(参考訳) 本研究では,ロボットシステムの説明生成における因果関係に関するドメイン知識を含む効果について検討する。 この目的のために,ロボットマニピュレータを用いたレバー制御作業において,深部強化学習を用いて訓練した深部ニューラルネットワークにおいて,一般的なKernelSHAPと最近の因果SHAPの2つの手法を比較した。 kernelshapの最大の欠点は、その説明がモデルの出力に対する特徴の直接的な効果のみを表しており、他の特徴に影響を与えることによって、機能が出力に与える間接的な影響を考慮していないことである。 Causal SHAP は KernelSHAP のサンプリング手順を変更するために部分的な因果順序付けを使用している。 この部分因果順序付けは特徴間の因果関係を定義し,レバー制御タスクに関するドメイン知識を用いてこれを指定する。 間接的な効果を考慮し、いくつかのドメイン知識を取り入れることで、人間の直感によく一致する説明ができることを示す。 これは、かなりの因果関係がある現実世界のロボット工学のタスクに特に好都合であり、さらに、必要なドメイン知識がしばしば手軽に利用可能である。

We investigate the effect of including domain knowledge about a robotic system's causal relations when generating explanations. To this end, we compare two methods from explainable artificial intelligence, the popular KernelSHAP and the recent causal SHAP, on a deep neural network trained using deep reinforcement learning on the task of controlling a lever using a robotic manipulator. A primary disadvantage of KernelSHAP is that its explanations represent only the features' direct effects on a model's output, not considering the indirect effects a feature can have on the output by affecting other features. Causal SHAP uses a partial causal ordering to alter KernelSHAP's sampling procedure to incorporate these indirect effects. This partial causal ordering defines the causal relations between the features, and we specify this using domain knowledge about the lever control task. We show that enabling an explanation method to account for indirect effects and incorporating some domain knowledge can lead to explanations that better agree with human intuition. This is especially favorable for a real-world robotics task, where there is considerable causality at play, and in addition, the required domain knowledge is often handily available.
翻訳日:2021-11-05 15:43:40 公開日:2021-11-04
# (参考訳) オブジェクト検出を混合トレーニングでブートストラップする [全文訳有]

Bootstrap Your Object Detector via Mixed Training ( http://arxiv.org/abs/2111.03056v1 )

ライセンス: CC BY 4.0
Mengde Xu, Zheng Zhang, Fangyun Wei, Yutong Lin, Yue Cao, Stephen Lin, Han Hu, Xiang Bai(参考訳) オブジェクト検出のための新しいトレーニングパラダイムであるMixTrainingを導入し、既存の検出器の性能を無償で向上する。 MixTrainingは、トレーニングに有害な特定のトレーニングサンプルの強い強化を除き、異なる強度の強化を活用することで、データ拡張を強化する。 さらに、これらのエラーを補償できる擬似ボックスを組み込むことで、人間のアノテーションにおけるローカライズノイズやラベルの欠如に対処する。 これらのMixTraining機能はどちらも、検出器のブートストラップによって可能であり、強力な拡張トレーニングの難しさを予測したり、ニューラルネットワークの堅牢さとラベル付けエラーによる信頼性の高い疑似ボックスを生成するために使用できる。 MixTrainingはCOCOデータセット上のさまざまな検出器間で一貫した改善をもたらす。 特に、ResNet-50 \cite{he2016deep} バックボーンによる Faster R-CNN \cite{ren2015faster} のパフォーマンスは41.7 mAP から 44.0 mAP に改善され、Swin-Small \cite{liu2021swin} バックボーンによる Cascade-RCNN \cite{cai2018cascade} の精度は50.9 mAP から52.8 mAP に向上した。 コードとモデルは、 \url{https://github.com/M endelXu/MixTraining}で公開される。

We introduce MixTraining, a new training paradigm for object detection that can improve the performance of existing detectors for free. MixTraining enhances data augmentation by utilizing augmentations of different strengths while excluding the strong augmentations of certain training samples that may be detrimental to training. In addition, it addresses localization noise and missing labels in human annotations by incorporating pseudo boxes that can compensate for these errors. Both of these MixTraining capabilities are made possible through bootstrapping on the detector, which can be used to predict the difficulty of training on a strong augmentation, as well as to generate reliable pseudo boxes thanks to the robustness of neural networks to labeling error. MixTraining is found to bring consistent improvements across various detectors on the COCO dataset. In particular, the performance of Faster R-CNN \cite{ren2015faster} with a ResNet-50 \cite{he2016deep} backbone is improved from 41.7 mAP to 44.0 mAP, and the accuracy of Cascade-RCNN \cite{cai2018cascade} with a Swin-Small \cite{liu2021swin} backbone is raised from 50.9 mAP to 52.8 mAP. The code and models will be made publicly available at \url{https://github.com/M endelXu/MixTraining}.
翻訳日:2021-11-05 15:41:54 公開日:2021-11-04
# 順序コントラスト事前学習による時間不可逆性の改善

Leveraging Time Irreversibility with Order-Contrastive Pre-training ( http://arxiv.org/abs/2111.02599v1 )

ライセンス: Link先を確認
Monica Agrawal, Hunter Lang, Michael Offin, Lior Gazit, David Sontag(参考訳) 医療のようなラベルの少ない高次元ドメインは、現代の機械学習技術に挑戦している。 ラベル付きデータの欠如による難しさを克服するため,縦型データを用いた自己教師付き事前学習のための「順序コントラスト」手法を提案する。 時間セグメントのペアをサンプリングし、その半数の順序を切り替え、与えられたペアが正しい順序にあるかどうかを予測するためにモデルを訓練する。 直感的には、注文タスクはモデルが最小の時間反転可能な特徴(例えば、慢性疾患の進行を示す特徴)に従うことを可能にする。 同じ機能は、しばしば下流の関心のあるタスクに役立ちます。 これを定量化するため,我々は,順序整合事前学習で学習した表現の下流誤差に対する有限サンプル保証を証明した。 人工的および縦断的な医療環境では、教師付き学習やその他の自己監督型事前訓練ベースラインよりも、小規模データ体制における秩序コントラスト事前訓練の有効性を実証する。 この結果から,特定の分布クラスや下流タスクのために設計された事前学習手法が,自己指導型学習の性能を向上させることが示唆された。

Label-scarce, high-dimensional domains such as healthcare present a challenge for modern machine learning techniques. To overcome the difficulties posed by a lack of labeled data, we explore an "order-contrastive&qu ot; method for self-supervised pre-training on longitudinal data. We sample pairs of time segments, switch the order for half of them, and train a model to predict whether a given pair is in the correct order. Intuitively, the ordering task allows the model to attend to the least time-reversible features (for example, features that indicate progression of a chronic disease). The same features are often useful for downstream tasks of interest. To quantify this, we study a simple theoretical setting where we prove a finite-sample guarantee for the downstream error of a representation learned with order-contrastive pre-training. Empirically, in synthetic and longitudinal healthcare settings, we demonstrate the effectiveness of order-contrastive pre-training in the small-data regime over supervised learning and other self-supervised pre-training baselines. Our results indicate that pre-training methods designed for particular classes of distributions and downstream tasks can improve the performance of self-supervised learning.
翻訳日:2021-11-05 15:30:12 公開日:2021-11-04
# パーソナライズされた連合学習アルゴリズム:異常検出への応用

A Personalized Federated Learning Algorithm: an Application in Anomaly Detection ( http://arxiv.org/abs/2111.02627v1 )

ライセンス: Link先を確認
Ali Anaissi and Basem Suleiman(参考訳) フェデレートラーニング(FL)は、データプライバシと中央機械学習モデルによって中断される送信問題を克服するために、分散ラーニングモデル構造を使用する有望な方法として最近登場した。 FLでは、異なるデバイスやセンサーから収集されたデータセットを使用して、各学習を集中型モデル(サーバ)と共有するローカルモデル(クライアント)をトレーニングする。 しかし、この分散学習アプローチは、ローカルクライアントで使用されるデータは、非IID(独立および独立分散)で統計的に多様であり、中央モデルの学習精度を低下させるため、ユニークな学習課題を示す。 本稿では,各クライアントで得られたモデルをパーソナライズするために,学習アルゴリズムを付加した重み付け通信とアグリゲーションの制御を目的とした,新しいパーソナライズされた条件付きフェダブグ(pc-fedavg)を提案することで,この問題を克服する。 2つのデータセットについて実験的検証を行った結果,pc-fedavg は他の最先端手法よりも高い精度で汎用クライアントモデルを構築した。

Federated Learning (FL) has recently emerged as a promising method that employs a distributed learning model structure to overcome data privacy and transmission issues paused by central machine learning models. In FL, datasets collected from different devices or sensors are used to train local models (clients) each of which shares its learning with a centralized model (server). However, this distributed learning approach presents unique learning challenges as the data used at local clients can be non-IID (Independent and Identically Distributed) and statistically diverse which decrease learning accuracy in the central model. In this paper, we overcome this problem by proposing a novel Personalized Conditional FedAvg (PC-FedAvg) which aims to control weights communication and aggregation augmented with a tailored learning algorithm to personalize the resulting models at each client. Our experimental validation on two datasets showed that our PC-FedAvg precisely constructed generalized clients' models and thus achieved higher accuracy compared to other state-of-the-art methods.
翻訳日:2021-11-05 15:29:52 公開日:2021-11-04
# 最適確率勾配を有する高速並列テンソル分解法 -構造的損傷同定への応用-

A Fast Parallel Tensor Decomposition with Optimal Stochastic Gradient Descent: an Application in Structural Damage Identification ( http://arxiv.org/abs/2111.02632v1 )

ライセンス: Link先を確認
Ali Anaissi, Basem Suleiman and Seid Miad Zandavi(参考訳) 構造健康モニタリング(SHM)は、構造に付随する複数のネットワークセンサーを通して継続的にデータを収集することで、構造体の行動を理解することを促進する経済的なアプローチを提供する。 このデータは、構造物の健全性を把握し、その維持についてタイムリーかつ経済的決定を行うために利用される。 生成されたscmセンシングデータは非定常であり、バッチ/オフライン学習と標準2方向行列解析がこれらすべての相関関係をキャプチャできないような相関多方向形式に存在する。 この意味で、オンラインテンソルデータ解析は、テンソル $\mathcal{X} \in \mathbb{R} ^{I_1 \times \dots \times I_N} $ に格納された高次データセットの基盤構造をキャプチャするための必須ツールとなっている。 CANDECOMP/PARAFAC (CP)分解は、N がテンソルの順序を表すような N の荷重行列 A(1), . . , A(N) により、近似 X に対して広く研究され、応用されている。 テンソル $\mathcal{X} \in \mathbb{R} ^{I_1 \times \dots \times I_N} $ の CANDECOMP/PARAFAC (CP) 分解を並列化する新しいアルゴリズム FP-CPD を提案する。 本手法は,学習過程の並列化を可能にする確率勾配降下法(SGD)アルゴリズムに基づいており,一ステップで$\mathcal{X}^{t+1}$を更新するので,オンライン環境では非常に有用である。 我々のSGDアルゴリズムは、NesterovのAccelerated Gradient(NAG)と摂動法を用いて、収束を加速し保証する。 実験室ベースおよび実生活構造データセットを用いた実験結果は、高速収束と優れたスケーラビリティを示す。

Structural Health Monitoring (SHM) provides an economic approach which aims to enhance understanding the behavior of structures by continuously collects data through multiple networked sensors attached to the structure. This data is then utilized to gain insight into the health of a structure and make timely and economic decisions about its maintenance. The generated SHM sensing data is non-stationary and exists in a correlated multi-way form which makes the batch/off-line learning and standard two-way matrix analysis unable to capture all of these correlations and relationships. In this sense, the online tensor data analysis has become an essential tool for capturing underlying structures in higher-order datasets stored in a tensor $\mathcal{X} \in \mathbb{R} ^{I_1 \times \dots \times I_N} $. The CANDECOMP/PARAFAC (CP) decomposition has been extensively studied and applied to approximate X by N loading matrices A(1), . . . ,A(N) where N represents the order of the tensor. We propose a novel algorithm, FP-CPD, to parallelize the CANDECOMP/PARAFAC (CP) decomposition of a tensor $\mathcal{X} \in \mathbb{R} ^{I_1 \times \dots \times I_N} $. Our approach is based on stochastic gradient descent (SGD) algorithm which allows us to parallelize the learning process and it is very useful in online setting since it updates $\mathcal{X}^{t+1}$ in one single step. Our SGD algorithm is augmented with Nesterov's Accelerated Gradient (NAG) and perturbation methods to accelerate and guarantee convergence. The experimental results using laboratory-based and real-life structural datasets indicate fast convergence and good scalability.
翻訳日:2021-11-05 15:29:31 公開日:2021-11-04
# 非パラメトリック回帰によるラベルランキング

Label Ranking through Nonparametric Regression ( http://arxiv.org/abs/2111.02749v1 )

ライセンス: Link先を確認
Dimitris Fotakis, Alkis Kalavasis and Eleni Psaroudaki(参考訳) ラベルランク付け (lr) は、有限のラベルセット上で特徴をランクにマップする仮説を学ぶ問題に対応する。 我々は、LRに対して非パラメトリック回帰アプローチを採用し、この基本的な実用的な問題に対する理論的性能保証を得る。 雑音のない非パラメトリック回帰設定においてラベルランク付けのための生成モデルを導入し、両方のケースで学習アルゴリズムのサンプル複雑性境界を提供する。 ノイズレス環境では、LR問題をフルランクで研究し、高次元状態における決定木とランダム森林を用いた計算効率の良いアルゴリズムを提供する。 雑音環境下では,不完全かつ部分的なランキングを持つlrのより一般的なケースを統計的観点から検討し,多クラス分類の1対1アプローチを用いてサンプル複雑性境界を求める。 最後に, 入力回帰ノイズが観測結果に与える影響を理解するため, 実験による理論的貢献を補完する。

Label Ranking (LR) corresponds to the problem of learning a hypothesis that maps features to rankings over a finite set of labels. We adopt a nonparametric regression approach to LR and obtain theoretical performance guarantees for this fundamental practical problem. We introduce a generative model for Label Ranking, in noiseless and noisy nonparametric regression settings, and provide sample complexity bounds for learning algorithms in both cases. In the noiseless setting, we study the LR problem with full rankings and provide computationally efficient algorithms using decision trees and random forests in the high-dimensional regime. In the noisy setting, we consider the more general cases of LR with incomplete and partial rankings from a statistical viewpoint and obtain sample complexity bounds using the One-Versus-One approach of multiclass classification. Finally, we complement our theoretical contributions with experiments, aiming to understand how the input regression noise affects the observed output.
翻訳日:2021-11-05 15:28:52 公開日:2021-11-04
# rlds:強化学習でデータセットを生成、共有、使用するためのエコシステム

RLDS: an Ecosystem to Generate, Share and Use Datasets in Reinforcement Learning ( http://arxiv.org/abs/2111.02767v1 )

ライセンス: Link先を確認
Sabela Ramos, Sertan Girgin, L\'eonard Hussenot, Damien Vincent, Hanna Yakubovich, Daniel Toyama, Anita Gergely, Piotr Stanczyk, Raphael Marinier, Jeremiah Harmsen, Olivier Pietquin, Nikola Momchev(参考訳) RLDS(Reinforcement Learning Datasets)は,Reinforcement Learning (RL), Learning from Demonstrations, Offline RL, Imitation Learningなどを含む逐次的意思決定(Sequential Decision Making, SDM)のコンテキストにおいて,データの記録,再生,操作,注釈,共有を行うエコシステムである。 RLDSは、既存の研究の再現性と、新しいデータセットを簡単に生成できるだけでなく、新しい研究を加速する。 データセットの標準でロスレスなフォーマットを提供することで、より幅広いタスクで新しいアルゴリズムをすばやくテストすることができる。 RLDSエコシステムは、大量のデータセットにさまざまなデータ処理パイプラインを適用する際に、情報を失うことなくデータセットを簡単に共有し、基盤となる元のフォーマットに依存しないようにする。 さらにRLDSは、合成エージェントまたは人間によって生成されたデータを集めるツールや、収集されたデータの検査と操作を行うツールを提供する。 最終的にtfdsとの統合は、研究コミュニティとrlデータセットの共有を促進する。

We introduce RLDS (Reinforcement Learning Datasets), an ecosystem for recording, replaying, manipulating, annotating and sharing data in the context of Sequential Decision Making (SDM) including Reinforcement Learning (RL), Learning from Demonstrations, Offline RL or Imitation Learning. RLDS enables not only reproducibility of existing research and easy generation of new datasets, but also accelerates novel research. By providing a standard and lossless format of datasets it enables to quickly test new algorithms on a wider range of tasks. The RLDS ecosystem makes it easy to share datasets without any loss of information and to be agnostic to the underlying original format when applying various data processing pipelines to large collections of datasets. Besides, RLDS provides tools for collecting data generated by either synthetic agents or humans, as well as for inspecting and manipulating the collected data. Ultimately, integration with TFDS facilitates the sharing of RL datasets with the research community.
翻訳日:2021-11-05 15:28:38 公開日:2021-11-04
# LassoBench: Lasso用の高次元ハイパーパラメータ最適化ベンチマークスイート

LassoBench: A High-Dimensional Hyperparameter Optimization Benchmark Suite for Lasso ( http://arxiv.org/abs/2111.02790v1 )

ライセンス: Link先を確認
Kenan \v{S}ehi\'c, Alexandre Gramfort, Joseph Salmon and Luigi Nardi(参考訳) 重み付きラッソ回帰は統計的な保証を訴えているが、数千のハイパーパラメータで記述される複雑な探索空間のため、通常は避けられる。 一方,ブラックボックス関数に対する高次元hpo法の最近の進歩は,高次元応用を効率的に最適化できることを示す。 この初期の成功にもかかわらず、高次元のhpoアプローチは、科学的および工学的応用にその影響を制限する、適度な次元の合成問題に適用される。 この制限に対処するため、我々はlassoのコミュニティで重要なオープンリサーチトピックに合わせた新しいベンチマークスイートであるlassobenchを提案する。 LassoBenchは、よく制御された合成セットアップ(サンプル数、SNR、周囲および有効次元、および複数の忠実度)と実世界のデータセットの両方のベンチマークで構成されており、HPOアルゴリズムの多くのフレーバーを高次元設定に改善および拡張することができる。 我々は5つの最先端HPO手法と3つのベースラインを評価し、ベイジアン最適化は、特にスパースレグレッションによく使われる手法よりも、非常に高次元でこれらのフレームワークの限界を強調しながら改善できることを実証した。 ベイズ最適化は、ラッソのベースラインを60、100、300、1000次元の問題をそれぞれ45.7%、19.2%、19.7%、および15.5%改善した。

Even though Weighted Lasso regression has appealing statistical guarantees, it is typically avoided due to its complex search space described with thousands of hyperparameters. On the other hand, the latest progress with high-dimensional HPO methods for black-box functions demonstrates that high-dimensional applications can indeed be efficiently optimized. Despite this initial success, the high-dimensional HPO approaches are typically applied to synthetic problems with a moderate number of dimensions which limits its impact in scientific and engineering applications. To address this limitation, we propose LassoBench, a new benchmark suite tailored for an important open research topic in the Lasso community that is Weighted Lasso regression. LassoBench consists of benchmarks on both well-controlled synthetic setups (number of samples, SNR, ambient and effective dimensionalities, and multiple fidelities) and real-world datasets, which enable the use of many flavors of HPO algorithms to be improved and extended to the high-dimensional setting. We evaluate 5 state-of-the-art HPO methods and 3 baselines, and demonstrate that Bayesian optimization, in particular, can improve over the methods commonly used for sparse regression while highlighting limitations of these frameworks in very high-dimensions. Remarkably, Bayesian optimization improve the Lasso baselines on 60, 100, 300, and 1000 dimensional problems by 45.7%, 19.2%, 19.7% and 15.5%, respectively.
翻訳日:2021-11-05 15:28:19 公開日:2021-11-04
# 教師なし機械学習を用いたホスピタリティにおけるデータ駆動市場セグメンテーション

Data-Driven Market Segmentation in Hospitality Using Unsupervised Machine Learning ( http://arxiv.org/abs/2111.02848v1 )

ライセンス: Link先を確認
Rik van Leeuwen and Ger Koole(参考訳) ホスピタリティの中では、マーケティング部門はセグメンテーションを使用して、パーソナライズされたマーケティングを保証するように調整された戦略を作成する。 本研究は,広範な機能セットに基づいて,階層的クラスタリングによるゲストプロファイルのセグメント化によるデータ駆動アプローチを提供する。 業界は、データ主導の意思決定を行い、最終的に利益を上げるために、マーケティング部門の適応性に寄与する理解可能な成果を必要とします。 マーケティング部門は、教師なし機械学習アルゴリズムを導くビジネス質問を指定した。 ゲストの特徴は時間とともに変化するため、ゲストがあるセグメントから別のセグメントに遷移する可能性はある。 この研究の目的は、生データからアクション可能な洞察へのプロセスのステップを提供することであり、ホスピタリティ企業がアルゴリズム的アプローチを採用するためのガイドラインとなる。

Within hospitality, marketing departments use segmentation to create tailored strategies to ensure personalized marketing. This study provides a data-driven approach by segmenting guest profiles via hierarchical clustering, based on an extensive set of features. The industry requires understandable outcomes that contribute to adaptability for marketing departments to make data-driven decisions and ultimately driving profit. A marketing department specified a business question that guides the unsupervised machine learning algorithm. Features of guests change over time; therefore, there is a probability that guests transition from one segment to another. The purpose of the study is to provide steps in the process from raw data to actionable insights, which serve as a guideline for how hospitality companies can adopt an algorithmic approach.
翻訳日:2021-11-05 15:27:41 公開日:2021-11-04
# モデルフリーリスク感応強化学習

Model-Free Risk-Sensitive Reinforcement Learning ( http://arxiv.org/abs/2111.02907v1 )

ライセンス: Link先を確認
Gr\'egoire Del\'etang, Jordi Grau-Moya, Markus Kunesch, Tim Genewein, Rob Brekelmans, Shane Legg, Pedro A. Ortega(参考訳) リスクに敏感でモデルフリーの強化学習アルゴリズムを得るため,td学習を拡張した。 この拡張はRescorla-Wagner則の修正と見なすことができ、これは(Sigmoidal)刺激はTD目標を過度に見積もるか過小評価するものである。 その結果、未知の平均と分散を持つガウス分布によって生成されたi.i.d.サンプルから自由エネルギーを推定する確率近似則が得られる。 ガウス自由エネルギーは平均と分散に等価に敏感であることが知られているので、学習規則はリスクに敏感な意思決定に応用できる。

We extend temporal-difference (TD) learning in order to obtain risk-sensitive, model-free reinforcement learning algorithms. This extension can be regarded as modification of the Rescorla-Wagner rule, where the (sigmoidal) stimulus is taken to be either the event of over- or underestimating the TD target. As a result, one obtains a stochastic approximation rule for estimating the free energy from i.i.d. samples generated by a Gaussian distribution with unknown mean and variance. Since the Gaussian free energy is known to be a certainty-equivalent sensitive to the mean and the variance, the learning rule has applications in risk-sensitive decision-making.
翻訳日:2021-11-05 15:26:55 公開日:2021-11-04
# マルチタスク政策最適化におけるデフォルトポリシーの理解に向けて

Towards an Understanding of Default Policies in Multitask Policy Optimization ( http://arxiv.org/abs/2111.02994v1 )

ライセンス: Link先を確認
Ted Moskovitz, Michael Arbel, Jack Parker-Holder, Aldo Pacchiano(参考訳) 近年の深層強化学習の成功の多くは、複数の領域にわたる強力なパフォーマンスを持つ正規化ポリシ最適化(RPO)アルゴリズムによって推進されている。 この方法では、エージェントは累積報酬を最大にするために訓練され、ある参照やデフォルトポリシーから行動の偏差を罰する。 実証的な成功に加えて、自然勾配、信頼領域、変分的アプローチに結びつく単一のタスクに適用されるRPO法を理解するための強力な理論的基盤が存在する。 しかしながら、フィールドがより一般的な有能なエージェントのトレーニングにシフトするにつれて、ますます重要なドメインであるマルチタスク設定において、デフォルトポリシーの望ましいプロパティに関する形式的な理解は限られている。 ここでは、デフォルトポリシーの品質と最適化の効果を正式にリンクすることで、このギャップを埋める第一歩を踏み出します。 これらの結果を用いて,性能保証の強いマルチタスク学習のためのrpoアルゴリズムを導出する。

Much of the recent success of deep reinforcement learning has been driven by regularized policy optimization (RPO) algorithms, with strong performance across multiple domains. In this family of methods, agents are trained to maximize cumulative reward while penalizing deviation in behavior from some reference, or default policy. In addition to empirical success, there is a strong theoretical foundation for understanding RPO methods applied to single tasks, with connections to natural gradient, trust region, and variational approaches. However, there is limited formal understanding of desirable properties for default policies in the multitask setting, an increasingly important domain as the field shifts towards training more generally capable agents. Here, we take a first step towards filling this gap by formally linking the quality of the default policy to its effect on optimization. Using these results, we then derive a principled RPO algorithm for multitask learning with strong performance guarantees.
翻訳日:2021-11-05 15:26:43 公開日:2021-11-04
# 状態分布ミスマッチ下におけるソフトマックスオフポリシックアクター批判のグローバル最適性と有限サンプル解析

Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch ( http://arxiv.org/abs/2111.02997v1 )

ライセンス: Link先を確認
Shangtong Zhang, Remi Tachet, Romain Laroche(参考訳) 本稿では,行動方針の状態分布と対象政策のずれを正すために,密度比を用いずに表舞台におけるオフ・ポリティカル・アクター・レビュー・アルゴリズムの大域的最適性と収束率を定式化する。 我々の研究は、ポリシー勾配法の最適性に関する既存の研究を超えており、既存の研究はポリシーパラメータの更新にポリシー勾配を正確に使用し、近似的かつ確率的な更新ステップを使用する。 私たちの更新ステップは、状態の分散を補正するために密度比を使用しないため、勾配更新ではありません。 私たちの更新は、真の価値関数の代わりに学習した批評家を使うため、ほぼ近似しています。 私たちの更新は、各ステップで現在の状態アクションペアのみのアップデートが行われます。 さらに,既存の研究からいくつかの制約的な仮定を取り除いた。 我々の研究の中心は、時間的不均一なマルコフ連鎖上の時間的不均一な更新演算子を用いた一般確率近似アルゴリズムの有限サンプル解析である。

In this paper, we establish the global optimality and convergence rate of an off-policy actor critic algorithm in the tabular setting without using density ratio to correct the discrepancy between the state distribution of the behavior policy and that of the target policy. Our work goes beyond existing works on the optimality of policy gradient methods in that existing works use the exact policy gradient for updating the policy parameters while we use an approximate and stochastic update step. Our update step is not a gradient update because we do not use a density ratio to correct the state distribution, which aligns well with what practitioners do. Our update is approximate because we use a learned critic instead of the true value function. Our update is stochastic because at each step the update is done for only the current state action pair. Moreover, we remove several restrictive assumptions from existing works in our analysis. Central to our work is the finite sample analysis of a generic stochastic approximation algorithm with time-inhomogeneous update operators on time-inhomogeneous Markov chains, based on its uniform contraction properties.
翻訳日:2021-11-05 15:26:25 公開日:2021-11-04
# 機械学習フェアネスのためのモデリング技術:サーベイ

Modeling Techniques for Machine Learning Fairness: A Survey ( http://arxiv.org/abs/2111.03015v1 )

ライセンス: Link先を確認
Mingyang Wan, Daochen Zha, Ninghao Liu, Na Zou(参考訳) 機械学習モデルは、高度なアプリケーションで普及しつつある。 パフォーマンス面での明確な利点にもかかわらず、モデルは少数派グループに対する偏見を示し、意思決定プロセスにおける公平性の問題を引き起こし、個人や社会に深刻なネガティブな影響をもたらす可能性がある。 近年,機械学習モデルのバイアスを軽減するため,様々な手法が開発されている。 その中でも、インプロセッシング手法はコミュニティから注目を集めており、モデル設計中にフェアネスを直接考慮し、本質的に公平なモデルを誘導し、アウトプットや表現におけるフェアネスの問題を基本的に緩和している。 本稿では,プロセス内バイアス緩和技術の現状について概説する。 モデルでフェアネスが達成される場所に基づいて、それらを明示的かつ暗黙的なメソッドに分類し、前者はトレーニング目標にフェアネスメトリクスを直接組み込んでおり、後者は潜在表現学習の洗練に重点を置いている。 最後に,このコミュニティにおける今後の探索を動機づける研究課題の議論から,調査を締めくくる。

Machine learning models are becoming pervasive in high-stakes applications. Despite their clear benefits in terms of performance, the models could show bias against minority groups and result in fairness issues in a decision-making process, leading to severe negative impacts on the individuals and the society. In recent years, various techniques have been developed to mitigate the bias for machine learning models. Among them, in-processing methods have drawn increasing attention from the community, where fairness is directly taken into consideration during model design to induce intrinsically fair models and fundamentally mitigate fairness issues in outputs and representations. In this survey, we review the current progress of in-processing bias mitigation techniques. Based on where the fairness is achieved in the model, we categorize them into explicit and implicit methods, where the former directly incorporates fairness metrics in training objectives, and the latter focuses on refining latent representation learning. Finally, we conclude the survey with a discussion of the research challenges in this community to motivate future exploration.
翻訳日:2021-11-05 15:26:09 公開日:2021-11-04
# コアセット学習への統一的アプローチ

A Unified Approach to Coreset Learning ( http://arxiv.org/abs/2111.03044v1 )

ライセンス: Link先を確認
Alaa Maalouf and Gilad Eini and Ben Mussay and Dan Feldman and Margarita Osadchy(参考訳) 与えられたデータセットと損失関数のコアセットは、通常、与えられたクエリセットからのクエリ毎にこの損失を近似する小さな重み付き集合である。 coresetsは多くのアプリケーションで非常に有用であることが示されている。 しかし、コアセットの構築は問題依存的な方法で行われ、特定のクエリの族に対するコアセットの設計と正しさを証明するのに何年もかかる可能性がある。 これは実用用途でのcoresetの使用を制限する可能性がある。 さらに、小さなコアセットは多くの問題に対して確実に存在しない。 これらの制約に対処するため,コアセット構築のための汎用学習アルゴリズムを提案する。 提案手法は,コアセットの新しい定義を提供する。これは標準定義の自然な緩和であり,クエリ上での元のデータの損失を近似することを目的としている。 これにより、学習パラダイムを使用して、与えられた入力セットの小さなコアセットを、トレーニングされたクエリセットを使用して、与えられた損失関数に対して計算することができる。 提案手法の形式的保証を導出する。 深層ネットワークと古典的機械学習の問題を実験的に評価した結果、我々の学習したコアセットは、(実際には悲観的すぎるかもしれない)既存の理論的な保証アルゴリズムと同等あるいはそれ以上の結果をもたらすことがわかった。 さらに、ディープ・ネットワーク・プルーニング(deep network pruning)に適用したアプローチは、完全なディープ・ネットワークのための最初のコアセット、すなわち、すべてのネットワークを一度に圧縮する。

Coreset of a given dataset and loss function is usually a small weighed set that approximates this loss for every query from a given set of queries. Coresets have shown to be very useful in many applications. However, coresets construction is done in a problem dependent manner and it could take years to design and prove the correctness of a coreset for a specific family of queries. This could limit coresets use in practical applications. Moreover, small coresets provably do not exist for many problems. To address these limitations, we propose a generic, learning-based algorithm for construction of coresets. Our approach offers a new definition of coreset, which is a natural relaxation of the standard definition and aims at approximating the \emph{average} loss of the original data over the queries. This allows us to use a learning paradigm to compute a small coreset of a given set of inputs with respect to a given loss function using a training set of queries. We derive formal guarantees for the proposed approach. Experimental evaluation on deep networks and classic machine learning problems show that our learned coresets yield comparable or even better results than the existing algorithms with worst-case theoretical guarantees (that may be too pessimistic in practice). Furthermore, our approach applied to deep network pruning provides the first coreset for a full deep network, i.e., compresses all the network at once, and not layer by layer or similar divide-and-conquer methods.
翻訳日:2021-11-05 15:25:52 公開日:2021-11-04
# デジタル時代のWhistleblower保護は、なぜ「匿名」が不十分なのか。 倫理的ジレンマの学際的見解に向けて

Whistleblower protection in the digital age -- why 'anonymous' is not enough. Towards an interdisciplinary view of ethical dilemmas ( http://arxiv.org/abs/2111.02825v1 )

ライセンス: Link先を確認
Bettina Berendt and Stefan Schiffner(参考訳) テクノロジーが社会論争の長い伝統を持つアプリケーションやプロセスに入ると、多面的な新しい倫理的、法的問題が発生する。 本稿では,民主主義とビジネスに大きな影響を及ぼす活動であるwhiblowingのプロセスに焦点をあてる。 コンピュータサイエンスは、歴史上初めて、真に匿名のコミュニケーションを提供することができる。 我々は、説明責任、公正性、データ保護の価値と権利、計算的に提供可能な匿名性の機会と制限、内部告発支援のアウトソーシングの結果の可能性、関連する法律の解釈と利用の課題について、これを考察する。 これらの疑問に対処するために、口笛と匿名の口笛を3つの柱の上に置き、「口笛を吹く保護とインセンティブの三角形」を形成し、形式的かつ技術的な意味で匿名性、法律による口笛を吹く保護、組織的および政治的誤り文化を形成する必要があると結論付けている。

When technology enters applications and processes with a long tradition of controversial societal debate, multi-faceted new ethical and legal questions arise. This paper focusses on the process of whistleblowing, an activity with large impacts on democracy and business. Computer science can, for the first time in history, provide for truly anonymous communication. We investigate this in relation to the values and rights of accountability, fairness and data protection, focusing on opportunities and limitations of the anonymity that can be provided computationally; possible consequences of outsourcing whistleblowing support; and challenges for the interpretation and use of some relevant laws. We conclude that to address these questions, whistleblowing and anonymous whistleblowing must rest on three pillars, forming a 'triangle of whistleblowing protection and incentivisation' ; that combines anonymity in a formal and technical sense; whistleblower protection through laws; and organisational and political error culture.
翻訳日:2021-11-05 15:24:06 公開日:2021-11-04
# 量子接核

Quantum tangent kernel ( http://arxiv.org/abs/2111.02951v1 )

ライセンス: Link先を確認
Norihito Shirai, Kenji Kubo, Kosuke Mitarai, Keisuke Fujii(参考訳) 量子カーネル法は量子機械学習の重要なアプローチの1つであり、最適化を必要としない利点があり、理論的に単純である。 これらの特性により、いくつかの実験的実証と潜在的な優位性に関する議論がこれまでに展開されている。 しかし、古典的な機械学習の場合と同様に、全ての量子機械学習モデルをカーネルの方法と見なすことはできない。 本研究では,深いパラメータ化量子回路を用いた量子機械学習モデルを探索し,従来の量子カーネル法を超越することを目指す。 この場合、表現力と性能が向上することが期待され、トレーニングプロセスは不毛高原の問題によりボトルネックとなる可能性がある。 しかし、十分に深い量子回路のパラメータはトレーニング中に初期値から大きく移動しないため、パラメータに対する一階の拡張が可能となる。 この振る舞いは古典文学における神経接核と似ており、そのような深い変動量子機械学習は別の創発的な核である量子接核によって記述することができる。 数値シミュレーションにより,提案した量子タンジェントカーネルは,アンザッツ生成データセットの従来の量子カーネル法よりも優れていることが示された。 この研究は、従来の量子カーネル法を超えて新しい方向性を提供し、深いパラメータ化量子回路を用いた量子機械学習のポテンシャルを探究する。

Quantum kernel method is one of the key approaches to quantum machine learning, which has the advantages that it does not require optimization and has theoretical simplicity. By virtue of these properties, several experimental demonstrations and discussions of the potential advantages have been developed so far. However, as is the case in classical machine learning, not all quantum machine learning models could be regarded as kernel methods. In this work, we explore a quantum machine learning model with a deep parameterized quantum circuit and aim to go beyond the conventional quantum kernel method. In this case, the representation power and performance are expected to be enhanced, while the training process might be a bottleneck because of the barren plateaus issue. However, we find that parameters of a deep enough quantum circuit do not move much from its initial values during training, allowing first-order expansion with respect to the parameters. This behavior is similar to the neural tangent kernel in the classical literatures, and such a deep variational quantum machine learning can be described by another emergent kernel, quantum tangent kernel. Numerical simulations show that the proposed quantum tangent kernel outperforms the conventional quantum kernel method for an ansatz-generated dataset. This work provides a new direction beyond the conventional quantum kernel method and explores potential power of quantum machine learning with deep parameterized quantum circuits.
翻訳日:2021-11-05 15:23:46 公開日:2021-11-04
# 機能学習とエンドツーエンド学習による航空交通制御のための音声認識

Speech recognition for air traffic control via feature learning and end-to-end training ( http://arxiv.org/abs/2111.02654v1 )

ライセンス: Link先を確認
Peng Fan, Dongyue Guo, Yi Lin, Bo Yang, Jianwei Zhang(参考訳) 本研究では,特徴学習に基づく新しい自動音声認識(ASR)システムと,航空交通制御(ATC)システムのためのエンドツーエンドの訓練手順を提案する。 提案モデルは,機能学習ブロック,リカレントニューラルネットワーク(rnn),コネクショニスト時間分類損失を統合し,エンドツーエンドのasrモデルを構築する。 ATC音声の複雑な環境に面した学習ブロックは、音響モデルのための生波形から情報的特徴を抽出するように設計されている。 SincNetと1Dの畳み込みブロックの両方を用いて生波形を処理し、その出力は時間モデリングのためにRNN層に結合される。 生波形から表現を学習する能力により、提案したモデルは完全なエンドツーエンド、すなわち波形からテキストへ最適化することができる。 最後に、ATC領域における多言語課題は、中国語と英語の文字の組み合わせ語彙を構築することにより、ASRタスクを達成すると考えられる。 提案手法は多言語実世界コーパス (ATCSpeech) で検証され, 実験により, 提案手法が他のベースラインよりも優れ, 6.9 % の文字誤り率が得られることを示した。

In this work, we propose a new automatic speech recognition (ASR) system based on feature learning and an end-to-end training procedure for air traffic control (ATC) systems. The proposed model integrates the feature learning block, recurrent neural network (RNN), and connectionist temporal classification loss to build an end-to-end ASR model. Facing the complex environments of ATC speech, instead of the handcrafted features, a learning block is designed to extract informative features from raw waveforms for acoustic modeling. Both the SincNet and 1D convolution blocks are applied to process the raw waveforms, whose outputs are concatenated to the RNN layers for the temporal modeling. Thanks to the ability to learn representations from raw waveforms, the proposed model can be optimized in a complete end-to-end manner, i.e., from waveform to text. Finally, the multilingual issue in the ATC domain is also considered to achieve the ASR task by constructing a combined vocabulary of Chinese characters and English letters. The proposed approach is validated on a multilingual real-world corpus (ATCSpeech), and the experimental results demonstrate that the proposed approach outperforms other baselines, achieving a 6.9\% character error rate.
翻訳日:2021-11-05 15:23:27 公開日:2021-11-04
# 音声認識・話者検証・音声言語理解のための微調整Wav2vec 2.0/HuBERTベンチマーク

A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding ( http://arxiv.org/abs/2111.02735v1 )

ライセンス: Link先を確認
Yingzhi Wang, Abdelmoumene Boumadane and Abdelwahab Heba(参考訳) wav2vec 2.0 や HuBERT のような自己教師型音声表現は、自動音声認識(ASR)において革命的な進歩を遂げている。 しかし、自己教師型モデルは、ASR以外のタスクで性能が向上することが完全に証明されていない。 本研究では,3つの非ASR音声タスク(音声感情認識,話者検証,音声言語理解)に対して,wav2vec 2.0 と HuBERT による部分的微調整と全微調整を行う。 また、事前訓練されたモデルとASRファインチューニングを併用して比較する。 単純なダウンストリームフレームワークでは、IEMOCAPでの音声感情認識では79.58%、VoxCeleb1での話者検証では2.36%、SLURPでのスロットフィリングでは87.51%、SLURPでのスロットフィリングでは75.32%の精度に達し、これら3つのベンチマークでは新たな最先端が設定され、微調整されたwav2vec 2.0とHuBERTモデルの方が韻律、音声、意味表現をよりよく学習できることが証明された。

Self-supervised speech representations such as wav2vec 2.0 and HuBERT are making revolutionary progress in Automatic Speech Recognition (ASR). However, self-supervised models have not been totally proved to produce better performance on tasks other than ASR. In this work, we explore partial fine-tuning and entire fine-tuning on wav2vec 2.0 and HuBERT pre-trained models for three non-ASR speech tasks : Speech Emotion Recognition, Speaker Verification and Spoken Language Understanding. We also compare pre-trained models with/without ASR fine-tuning. With simple down-stream frameworks, the best scores reach 79.58% weighted accuracy for Speech Emotion Recognition on IEMOCAP, 2.36% equal error rate for Speaker Verification on VoxCeleb1, 87.51% accuracy for Intent Classification and 75.32% F1 for Slot Filling on SLURP, thus setting a new state-of-the-art for these three benchmarks, proving that fine-tuned wav2vec 2.0 and HuBERT models can better learn prosodic, voice-print and semantic representations.
翻訳日:2021-11-05 15:23:04 公開日:2021-11-04
# (参考訳) 遠距離空戦における交戦判定支援 [全文訳有]

Engagement Decision Support for Beyond Visual Range Air Combat ( http://arxiv.org/abs/2111.03059v1 )

ライセンス: CC BY 4.0
Joao P. A. Dantas, Andre N. Costa, Diego Geraldo, Marcos R. O. A. Maximo and Takashi Yoneyama(参考訳) 本研究は,防空対空(dca)任務において,bvr(beyond visual range)空戦のための交戦判定支援ツールを提供することを目的としている。 BVR空戦において、戦闘決定とは、パイロットが攻撃的姿勢を仮定し、対応する操作を実行することによって目標に到達した瞬間を選択することを指す。 この決定をモデル化するために、ブラジル空軍の航空宇宙シミュレーション環境(ポルトガル語:\textit{Ambiente de Simula\c{c}\~ao Aeroespacial - ASA})を使用し、それぞれ12分間、合計で10,316回の観測を行った。 本研究は,全試料をDCA指数(DCA index)と呼ばれる操作指標で分析し,対象物質の専門家の経験から,この種のミッションの成功度を考察した。 この測定基準は、同じチームと反対チームの航空機の距離、戦闘航空パトロールのポイント、使用するミサイルの数を考慮に入れている。 エンゲージメント開始直前のエンゲージメント状況と、エンゲージメント全体におけるdcaインデックスの平均を定義することで、新たなエンゲージメントの品質を決定するための教師付き学習モデルを作成します。 XGBoostライブラリで動作する決定木に基づくアルゴリズムは、決定係数が0.8に近いDCAインデックスを予測するための回帰モデルと、BVRパイロットにパラメータを付与して関与するか否かを決定するRoot Mean Square Error 0.05を提供する。 そこで,シミュレーションにより得られたデータを用いて,BVR空戦のための機械学習に基づく意思決定支援システムの構築に寄与する。

This work aims to provide an engagement decision support tool for Beyond Visual Range (BVR) air combat in the context of Defensive Counter Air (DCA) missions. In BVR air combat, engagement decision refers to the choice of the moment the pilot engages a target by assuming an offensive stance and executing corresponding maneuvers. To model this decision, we use the Brazilian Air Force's Aerospace Simulation Environment (\textit{Ambiente de Simula\c{c}\~ao Aeroespacial - ASA} in Portuguese), which generated 3,729 constructive simulations lasting 12 minutes each and a total of 10,316 engagements. We analyzed all samples by an operational metric called the DCA index, which represents, based on the experience of subject matter experts, the degree of success in this type of mission. This metric considers the distances of the aircraft of the same team and the opposite team, the point of Combat Air Patrol, and the number of missiles used. By defining the engagement status right before it starts and the average of the DCA index throughout the engagement, we create a supervised learning model to determine the quality of a new engagement. An algorithm based on decision trees, working with the XGBoost library, provides a regression model to predict the DCA index with a coefficient of determination close to 0.8 and a Root Mean Square Error of 0.05 that can furnish parameters to the BVR pilot to decide whether or not to engage. Thus, using data obtained through simulations, this work contributes by building a decision support system based on machine learning for BVR air combat.
翻訳日:2021-11-05 15:20:03 公開日:2021-11-04
# OCR後補正のための語彙的半教師付き学習

Lexically Aware Semi-Supervised Learning for OCR Post-Correction ( http://arxiv.org/abs/2111.02622v1 )

ライセンス: Link先を確認
Shruti Rijhwani, Daisy Rosenblum, Antonios Anastasopoulos, Graham Neubig(参考訳) 世界中の多くの言語における既存の言語データの多くは、非digitized bookやドキュメントに閉じ込められている。 光文字認識(OCR)は、デジタル化されたテキストを生成するのに利用でき、以前の研究は、汎用OCRシステムの結果を改善するニューラルネットワーク後補正法の利点を実証してきた。 しかし、これらの手法は手作業による補正後データに依存しており、デジタル化が必要な非注釈の原画像に比べて比較的少ない。 本稿では,これらの生画像を用いて,特に自己学習によって,モデルが自己出力で反復的に訓練される手法を用いて,パフォーマンスを向上させるための半教師あり学習手法を提案する。 さらに,認識された語彙の一貫性を強制するために,重み付き有限状態オートマトン(wfsa)を用いて実装し,認識されたテキストから構築したカウントベース言語モデルを用いて,神経後修正モデルを強化する語彙認識復号法を提案する。 4つの絶滅危惧言語における結果から,提案手法の有用性が示され,相対誤差が15~29%に低下した。 データとコードはhttps://shrutirij.gi thub.io/ocr-el/で入手できる。

Much of the existing linguistic data in many languages of the world is locked away in non-digitized books and documents. Optical character recognition (OCR) can be used to produce digitized text, and previous work has demonstrated the utility of neural post-correction methods that improve the results of general-purpose OCR systems on recognition of less-well-resourced languages. However, these methods rely on manually curated post-correction data, which are relatively scarce compared to the non-annotated raw images that need to be digitized. In this paper, we present a semi-supervised learning method that makes it possible to utilize these raw images to improve performance, specifically through the use of self-training, a technique where a model is iteratively trained on its own outputs. In addition, to enforce consistency in the recognized vocabulary, we introduce a lexically-aware decoding method that augments the neural post-correction model with a count-based language model constructed from the recognized texts, implemented using weighted finite-state automata (WFSA) for efficient and effective decoding. Results on four endangered languages demonstrate the utility of the proposed method, with relative error reductions of 15-29%, where we find the combination of self-training and lexically-aware decoding essential for achieving consistent improvements. Data and code are available at https://shrutirij.gi thub.io/ocr-el/.
翻訳日:2021-11-05 15:04:53 公開日:2021-11-04
# 文脈認識型プロンプト学習による応答生成

Response Generation with Context-Aware Prompt Learning ( http://arxiv.org/abs/2111.02643v1 )

ライセンス: Link先を確認
Xiaodong Gu, Kang Min Yoo, Sang-Woo Lee(参考訳) プレトレーニング言語モデル(PLM)は、ニューラルダイアログモデリングにおいて大きな飛躍を遂げた。 PLMは大規模テキストコーパスで事前訓練されるが、通常、特定のドメイン知識と対話スタイルを持つ少ない対話データに基づいて微調整される。 しかし、事前学習された大規模モデルで事前知識を十分に活用しながら、言語モデルを調整することは依然として課題である。 本稿では,対話生成問題を素早い学習課題とする,事前学習型対話モデリングのための新しいアプローチを提案する。 限られた対話データを微調整する代わりに、我々のアプローチであるDialogPromptは、対話コンテキストに最適化された連続的なプロンプト埋め込みを学習する。 モデルにプロンプト埋め込みをよりよく活用するよう促すため、プロンプトエンコーダは入力対話コンテキストで条件付けするように設計されている。 一般的な会話データセットの実験では、我々のアプローチは微調整ベースラインと汎用的なプロンプト学習法よりも大幅に優れていた。 さらに,人間の評価は,応答生成品質に関して,ダイアログプロンプトの優越性を強く支持する。

Pre-trained language models (PLM) have marked a huge leap in neural dialogue modeling. While PLMs are pre-trained on large-scale text corpora, they are usually fine-tuned on scarce dialogue data with specific domain knowledge and dialogue styles. However, tailoring the language models while fully utilizing prior knowledge in large pre-trained models remains a challenge. In this paper, we present a novel approach for pre-trained dialogue modeling that casts the dialogue generation problem as a prompt-learning task. Instead of fine-tuning on limited dialogue data, our approach, DialogPrompt, learns continuous prompt embeddings optimized for dialogue contexts, which appropriately elicit knowledge from the large pre-trained model. To encourage the model to better utilize the prompt embeddings, the prompt encoders are designed to be conditioned on the input dialogue context. Experiments on popular conversation datasets show that our approach significantly outperforms the fine-tuning baseline and the generic prompt-learning methods. Furthermore, human evaluations strongly support the superiority of DialogPrompt in regard to response generation quality.
翻訳日:2021-11-05 15:04:30 公開日:2021-11-04
# 医薬質問応答システム, meqa

Medicines Question Answering System, MeQA ( http://arxiv.org/abs/2111.02760v1 )

ライセンス: Link先を確認
Jes\'us Santamar\'ia(参考訳) 本稿では,スペインの医薬品・健康製品庁(AEMPS)が作成する「MeQA(Medicines Question Answering)」と呼ばれる,人体用医薬品に関する質問に答えることのできるスペイン語初のシステムについて述べる。 医療支援を提供するオンラインサービスは、新型コロナウイルス(covid-19)による現在のパンデミックの影響で、急速に拡大している。 例えば、doctoralia、savia、saludonnetなどのウェブサイトでは、患者やユーザが医師や専門家に質問を送信し、24時間以内で回答を受け取るための、doctor answersタイプのコンサルテーションを提供している。 受け取った質問の多くは、人間の使用のための医薬品に関連しており、ほとんどはリーフレットを通して答えることができる。 したがって、このような質問に自動的に答えられるMeQAのようなシステムは、これらのウェブサイトの負担を軽減することができ、そのような患者にとって非常に有用である。

In this paper we present the first system in Spanish capable of answering questions about medicines for human use, called MeQA (Medicines Question Answering), a project created by the Spanish Agency for Medicines and Health Products (AEMPS, for its acronym in Spanish). Online services that offer medical help have proliferated considerably, mainly due to the current pandemic situation due to COVID-19. For example, websites such as Doctoralia, Savia, or SaludOnNet, offer Doctor Answers type consultations, in which patients or users can send questions to doctors and specialists, and receive an answer in less than 24 hours. Many of the questions received are related to medicines for human use, and most can be answered through the leaflets. Therefore, a system such as MeQA capable of answering these types of questions automatically could alleviate the burden on these websites, and it would be of great use to such patients.
翻訳日:2021-11-05 15:04:11 公開日:2021-11-04
# Ludii汎用ゲームシステムのための最適プレイアウト実装

Optimised Playout Implementations for the Ludii General Game System ( http://arxiv.org/abs/2111.02839v1 )

ライセンス: Link先を確認
Dennis J. N. J. Soemers and \'Eric Piette and Matthew Stephenson and Cameron Browne(参考訳) 本稿では,モンテカルロ木探索のようなゲームプレイングアルゴリズムでよく用いられる3種類のプレイアウトの実装について述べる。 最適化された実装はそれぞれのルールに基づいて特定のゲームのセットにのみ適用できる。 ludii general game systemは、最適化された実装が適用可能かどうかに関わらず、ゲームの一般的なゲーム記述言語の記述に基づいて自動的に推論することができる。 実証的な評価は、標準実装よりも大きなスピードアップを示し、プレイアウトを5.8倍の速度で実行した結果中央値は、最適化された実装の1つが適用可能なludiiの145の異なるゲームである。

This paper describes three different optimised implementations of playouts, as commonly used by game-playing algorithms such as Monte-Carlo Tree Search. Each of the optimised implementations is applicable only to specific sets of games, based on their rules. The Ludii general game system can automatically infer, based on a game's description in its general game description language, whether any optimised implementations are applicable. An empirical evaluation demonstrates major speedups over a standard implementation, with a median result of running playouts 5.08 times as fast, over 145 different games in Ludii for which one of the optimised implementations is applicable.
翻訳日:2021-11-05 15:03:55 公開日:2021-11-04
# ビッグデータテスト技術:分類学、挑戦、そして今後のトレンド

Big Data Testing Techniques: Taxonomy, Challenges and Future Trends ( http://arxiv.org/abs/2111.02853v1 )

ライセンス: Link先を確認
Iram Arshad, Saeed Hamood Alsamhi(参考訳) ビッグデータは、大量のデータを分析して意思決定のサポートを提供することで、多くの産業領域を改革している。 ビッグデータテストは、データのパフォーマンスと品質を維持しながら、ビッグデータシステムがスムーズでエラーのない動作を確実にすることを目的としている。 しかし、データの多様性と複雑さのため、ビッグデータのテストは困難である。 多くの研究がビッグデータテストを扱うが、テスト技術や課題に対処するための包括的なレビューはまだ公開されていない。 そこで我々は,2010年から2021年までのビッグデータテスト手法を体系的に検討してきた。 本稿では,各処理フェーズで使用される技術に注目して,テストデータの処理について述べる。 さらに,課題と今後の方向性についても論じる。 その結果,ビッグデータに関連する特定の問題を解決するために,多彩な機能的,非機能的,複合的(機能的,非機能的)テスト技術が用いられていることがわかった。 同時に、MapReduceバリデーションフェーズでは、テストの課題の大部分が直面しています。 さらに、組合せテスト技術は他の手法(ランダムテスト、突然変異テスト、入力空間分割、等価テスト)と組み合わせて、ビッグデータテストで直面する様々な機能的障害を解決する最も応用された手法の1つである。

Big Data is reforming many industrial domains by providing decision support through analyzing large volumes of data. Big Data testing aims to ensure that Big Data systems run smoothly and error-free while maintaining the performance and quality of data. However, because of the diversity and complexity of data, testing Big Data is challenging. Though numerous researches deal with Big Data testing, a comprehensive review to address testing techniques and challenges is not conflate yet. Therefore, we have conducted a systematic review of the Big Data testing techniques period (2010 - 2021). This paper discusses the processing of testing data by highlighting the techniques used in every processing phase. Furthermore, we discuss the challenges and future directions. Our finding shows that diverse functional, non-functional and combined (functional and non-functional) testing techniques have been used to solve specific problems related to Big Data. At the same time, most of the testing challenges have been faced during the MapReduce validation phase. In addition, the combinatorial testing technique is one of the most applied techniques in combination with other techniques (i.e., random testing, mutation testing, input space partitioning and equivalence testing) to solve various functional faults challenges faced during Big Data testing.
翻訳日:2021-11-05 15:03:42 公開日:2021-11-04
# ネットワークを想像し

Imagine Networks ( http://arxiv.org/abs/2111.03048v1 )

ライセンス: Link先を確認
Seokjun Kim, Jaeeun Jang, Hyeoncheol Kim(参考訳) 本稿では,グラフツリーニューラルネットワークを用いて自己をシミュレートできるImagine Networkを提案する。 グラフツリーニューラルネットワークモデルのうち、関連性、推論、メモリネットワークが学習され、識別器と強化学習モデルを組み合わせてネットワークが生成される。 このモデルは、環境で生成されたさまざまなデータセットやデータサンプルを学習し、新しいデータサンプルを生成することができる。

In this paper, we introduce an Imagine Network that can simulate itself through graph tree neural networks. Among the graph tree neural networks models, association, deduction, and memory networks are learned, and a network is created by combining the discriminator and reinforcement learning models. This model can learn various datasets or data samples generated in environments and generate new data samples.
翻訳日:2021-11-05 15:03:24 公開日:2021-11-04
# lvisチャレンジトラック技術報告 第1回:大語彙インスタンスセグメンテーションにおける分散バランスと境界細分化

LVIS Challenge Track Technical Report 1st Place Solution: Distribution Balanced and Boundary Refinement for Large Vocabulary Instance Segmentation ( http://arxiv.org/abs/2111.02668v1 )

ライセンス: Link先を確認
WeiFu Fu, CongChong Nie, Ting Sun, Jun Liu, TianLiang Zhang, Yong Liu(参考訳) 本報告では,LVIS Challenge 2021のFuXi-Fresherチームの技術的詳細を紹介する。 本手法では, 長テール分布とマスクと境界のセグメンテーション品質という2つの側面に着目した。 先進的なHTCインスタンスセグメンテーションアルゴリズムに基づいて、CBNetv2にインスパイアされた複合接続を介してトランスフォーマーバックボーン(Swin-L)を接続し、ベースライン結果を強化する。 ロングテール分布の問題を緩和するため,データセットバランスと損失関数バラックモジュールを含む分散バランス手法を設計した。 さらに,マスクスコアリングアルゴリズムと精細マスクアルゴリズムを組み合わせたMask and Boundary Refinement法を用いて,セグメンテーションの品質を向上する。 また,早期停止法とEMA法を併用することで,大幅な改善が期待できる。 最後に,LVISチャレンジ2021のvalセットにおいて,マルチスケールテストと画像毎の検出対象数上限の増大により,45.4%以上の境界APを達成した。 LVIS Challenge 2021のテストデータでは、第1位、第48.1%のAPを達成した。 APr 47.5%はAPf 48.0%に非常に閉じている。

This report introduces the technical details of the team FuXi-Fresher for LVIS Challenge 2021. Our method focuses on the problem in following two aspects: the long-tail distribution and the segmentation quality of mask and boundary. Based on the advanced HTC instance segmentation algorithm, we connect transformer backbone(Swin-L) through composite connections inspired by CBNetv2 to enhance the baseline results. To alleviate the problem of long-tail distribution, we design a Distribution Balanced method which includes dataset balanced and loss function balaced modules. Further, we use a Mask and Boundary Refinement method composed with mask scoring and refine-mask algorithms to improve the segmentation quality. In addition, we are pleasantly surprised to find that early stopping combined with EMA method can achieve a great improvement. Finally, by using multi-scale testing and increasing the upper limit of the number of objects detected per image, we achieved more than 45.4% boundary AP on the val set of LVIS Challenge 2021. On the test data of LVIS Challenge 2021, we rank 1st and achieve 48.1% AP. Notably, our APr 47.5% is very closed to the APf 48.0%.
翻訳日:2021-11-05 15:01:16 公開日:2021-11-04
# ラベルなしデータ駆動スパース表現ベース分類による安定かつコンパクトな顔認識

Stable and Compact Face Recognition via Unlabeled Data Driven Sparse Representation-Based Classification ( http://arxiv.org/abs/2111.02847v1 )

ライセンス: Link先を確認
Xiaohui Yang, Zheng Wang, Huan Wu, Licheng Jiao, Yiming Xu, Haolin Chen(参考訳) スパース表現に基づく分類(SRC)は、単純な線形回帰問題として認識問題をキャストすることで多くの注目を集めている。 しかし、SRC法は分類ごとに十分なラベル付きサンプル、ラベルなしサンプルの使用不足、表現の不安定性に制限されている。 これらの問題に取り組むために, ラベルなしデータ駆動逆射影擬似フルスペース表現に基づく分類モデルを提案する。 提案モデルは,ラベル付きサンプル数とラベル付きサンプルとラベル付きサンプルの比率不均衡に適合する,すべての利用可能なデータの隠れた意味情報と本質的構造情報を抽出することを目的としている。 モデル解くためにガウス・シーデルとヤコビアンADMMの混合アルゴリズムが導入された。 モデルの収束、表現能力、安定性を解析する。 3つの公開データセットの実験により,提案したLR-S-PFSRCモデルは,特にサンプルの比例不均衡に対して安定した結果が得られることが示された。

Sparse representation-based classification (SRC) has attracted much attention by casting the recognition problem as simple linear regression problem. SRC methods, however, still is limited to enough labeled samples per category, insufficient use of unlabeled samples, and instability of representation. For tackling these problems, an unlabeled data driven inverse projection pseudo-full-space representation-based classification model is proposed with low-rank sparse constraints. The proposed model aims to mine the hidden semantic information and intrinsic structure information of all available data, which is suitable for few labeled samples and proportion imbalance between labeled samples and unlabeled samples problems in frontal face recognition. The mixed Gauss-Seidel and Jacobian ADMM algorithm is introduced to solve the model. The convergence, representation capability and stability of the model are analyzed. Experiments on three public datasets show that the proposed LR-S-PFSRC model achieves stable results, especially for proportion imbalance of samples.
翻訳日:2021-11-05 15:00:52 公開日:2021-11-04
# 野生における単一画像のpanoptic 3d解析に向けて

Towards Panoptic 3D Parsing for Single Image in the Wild ( http://arxiv.org/abs/2111.03039v1 )

ライセンス: Link先を確認
Sainan Liu, Vincent Nguyen, Yuan Gao, Subarna Tripathi, Zhuowen Tu(参考訳) 単一画像の全体的理解と3D再構成はコンピュータビジョンにおける中心的な課題である。 本稿では,一つのrgb画像から室内および屋外シーンに対して,全体像分割,物体検出,インスタンス分割,深度推定,オブジェクトインスタンス3次元再構成を行う統合システムを提案する。 我々は,3次元再構成を伴うパンオプティカルセグメンテーション("suff"セグメンテーションと"things"検出/セグメンテーション)を行うシステムpanoptic 3dパースを命名する。 アノテーションの完全なセットが存在しない段階的なシステムを設計する。 さらに、アノテーションの完全なセットで合成データセットでトレーニングされたエンドツーエンドパイプラインも提示する。 屋内(3D-FRONT)と屋外(COCOとCityscapes)の両方の場面で結果を示す。 提案するパン光学3D解析フレームワークは,コンピュータビジョンにおいて有望な方向性を示す。 自律運転、マッピング、ロボット工学、デザイン、コンピュータグラフィックス、ロボット工学、人間とコンピュータの相互作用、拡張現実など、様々な応用に適用することができる。

Performing single image holistic understanding and 3D reconstruction is a central task in computer vision. This paper presents an integrated system that performs holistic image segmentation, object detection, instance segmentation, depth estimation, and object instance 3D reconstruction for indoor and outdoor scenes from a single RGB image. We name our system panoptic 3D parsing in which panoptic segmentation ("stuff" segmentation and "things" detection/segmentati on) with 3D reconstruction is performed. We design a stage-wise system where a complete set of annotations is absent. Additionally, we present an end-to-end pipeline trained on a synthetic dataset with a full set of annotations. We show results on both indoor (3D-FRONT) and outdoor (COCO and Cityscapes) scenes. Our proposed panoptic 3D parsing framework points to a promising direction in computer vision. It can be applied to various applications, including autonomous driving, mapping, robotics, design, computer graphics, robotics, human-computer interaction, and augmented reality.
翻訳日:2021-11-05 15:00:34 公開日:2021-11-04
# 機械生成テキストの教師なしと分布検出

Unsupervised and Distributional Detection of Machine-Generated Text ( http://arxiv.org/abs/2111.02878v1 )

ライセンス: Link先を確認
Matthias Gall\'e, Jos Rozen, Germ\'an Kruszewski, Hady Elsahar(参考訳) 自然言語生成モデルのパワーは、テキストが人間かマシンオーサリングされているかを検出する自動手法への関心の高まりを引き起こしている。 これまでの問題は、標準的な教師付き方法でフレーム化されており、注釈付きデータで分類器を訓練し、与えられた1つの新しい文書の出所を予測する。 本稿では,この問題を教師なしかつ分散的な方法で構成する: 大量の無注釈文書の集合にアクセスできると仮定し,その大部分を機械で生成する。 そこで本研究では,人間に比べて機械生成テキストに過度に現れる高次n-gramの繰り返しを利用した,機械生成文書の検出手法を提案する。 この弱い信号は、擬似ラベル付き文書を使用して分類器のアンサンブルを訓練する自己学習設定の出発点である。 この信号を利用して不審な文書を正確にランク付けできることを示す実験を行った。 5000の精度はトップkサンプリング戦略では90%以上、使用した最大のモデル(GPT2-large)では80%以上である。 モデルのサイズが大きくなると減少が小さくなり、その結果が他の現在および将来の大きな言語モデルに当てはまる可能性がある。

The power of natural language generation models has provoked a flurry of interest in automatic methods to detect if a piece of text is human or machine-authored. The problem so far has been framed in a standard supervised way and consists in training a classifier on annotated data to predict the origin of one given new document. In this paper, we frame the problem in an unsupervised and distributional way: we assume that we have access to a large collection of unannotated documents, a big fraction of which is machine-generated. We propose a method to detect those machine-generated documents leveraging repeated higher-order n-grams, which we show over-appear in machine-generated text as compared to human ones. That weak signal is the starting point of a self-training setting where pseudo-labelled documents are used to train an ensemble of classifiers. Our experiments show that leveraging that signal allows us to rank suspicious documents accurately. Precision at 5000 is over 90% for top-k sampling strategies, and over 80% for nucleus sampling for the largest model we used (GPT2-large). The drop with increased size of model is small, which could indicate that the results hold for other current and future large language models.
翻訳日:2021-11-05 15:00:16 公開日:2021-11-04
# (参考訳) X線ポラリメトリーへの深層アンサンブルアプローチ [全文訳有]

A deep ensemble approach to X-ray polarimetry ( http://arxiv.org/abs/2111.03047v1 )

ライセンス: CC BY-SA 4.0
A.L.Peirson and R.W.Romani(参考訳) x線ポラリメトリーは、nasaのイメージングx線ポラリメトリーエクスプローラー (ixpe) の打ち上げにより、まもなく高エネルギー宇宙の新しい窓を開く。 ポラリメーターは現在、線形推定器を使用し、個々のイベント品質を考慮しないトラック再構成アルゴリズムによって制限されている。 画像偏光計によるX線テレスコープ観測の感度を最大化するための最新の深層学習法を提案し, IXPE上を飛来するガス画素検出器(GPD)に着目した。 モンテカルロ・イベント・シミュレーションで学習した深層アサンブルによる予測の重み付き最大確率の組み合わせを用いる。 トラック再構成アルゴリズムにおいて、偏波信号-雑音比(SNR)を最大化する最適事象重み付けを導出し、適用する。 典型的なパワーロー源スペクトルに対して,本手法は技術の現状を改善し,所定のSNRに必要な露光時間を約40%削減する。

X-ray polarimetry will soon open a new window on the high energy universe with the launch of NASA's Imaging X-ray Polarimetry Explorer (IXPE). Polarimeters are currently limited by their track reconstruction algorithms, which typically use linear estimators and do not consider individual event quality. We present a modern deep learning method for maximizing the sensitivity of X-ray telescopic observations with imaging polarimeters, with a focus on the gas pixel detectors (GPDs) to be flown on IXPE. We use a weighted maximum likelihood combination of predictions from a deep ensemble of ResNets, trained on Monte Carlo event simulations. We derive and apply the optimal event weighting for maximizing the polarization signal-to-noise ratio (SNR) in track reconstruction algorithms. For typical power-law source spectra, our method improves on the current state of the art, providing a ~40% decrease in required exposure times for a given SNR.
翻訳日:2021-11-05 14:57:34 公開日:2021-11-04
# b-pref: 好みに基づく強化学習のベンチマーク

B-Pref: Benchmarking Preference-Based Reinforcement Learning ( http://arxiv.org/abs/2111.03026v1 )

ライセンス: Link先を確認
Kimin Lee, Laura Smith, Anca Dragan, Pieter Abbeel(参考訳) 強化学習(rl)は、適切な行動にインセンティブを与える報酬機能にアクセスする必要があるが、複雑なタスクを特定するのが難しいことで悪名高い。 選好ベースのrlは、教師の選好を事前に定義された報酬なしで使用する学習ポリシーを提供する。 しかし、一般的に採用されているベンチマークが欠如しているため、嗜好ベースのRLの進捗を定量化することは困難である。 本稿では、嗜好に基づくRLに特化して設計されたベンチマークであるB-Prefを紹介する。 このようなベンチマークの鍵となる課題は、候補アルゴリズムをすばやく評価する能力を提供することである。 同時に、人間の入力を基底的真理報酬関数の完全な選好を与えるようにシミュレートすることは現実的ではない。 b-prefは教師に幅広い不合理性をシミュレートすることでこれを緩和し、パフォーマンスだけでなく、これらの潜在的な不合理性に対する堅牢性も指標として提案している。 本稿では,最先端の選好型rlアルゴリズムのための情報クエリの選択など,アルゴリズム設計の選択を分析することにより,b-prefの有用性を示す。 我々は、B-Prefがより体系的に嗜好に基づくRLを研究するための共通の出発点になることを期待している。 ソースコードはhttps://github.com/r ll-research/b-prefで入手できる。

Reinforcement learning (RL) requires access to a reward function that incentivizes the right behavior, but these are notoriously hard to specify for complex tasks. Preference-based RL provides an alternative: learning policies using a teacher's preferences without pre-defined rewards, thus overcoming concerns associated with reward engineering. However, it is difficult to quantify the progress in preference-based RL due to the lack of a commonly adopted benchmark. In this paper, we introduce B-Pref: a benchmark specially designed for preference-based RL. A key challenge with such a benchmark is providing the ability to evaluate candidate algorithms quickly, which makes relying on real human input for evaluation prohibitive. At the same time, simulating human input as giving perfect preferences for the ground truth reward function is unrealistic. B-Pref alleviates this by simulating teachers with a wide array of irrationalities, and proposes metrics not solely for performance but also for robustness to these potential irrationalities. We showcase the utility of B-Pref by using it to analyze algorithmic design choices, such as selecting informative queries, for state-of-the-art preference-based RL algorithms. We hope that B-Pref can serve as a common starting point to study preference-based RL more systematically. Source code is available at https://github.com/r ll-research/B-Pref.
翻訳日:2021-11-05 14:47:30 公開日:2021-11-04
# 一般のハンド・オブジェクト・リオリエンテーションシステム

A System for General In-Hand Object Re-Orientation ( http://arxiv.org/abs/2111.03043v1 )

ライセンス: Link先を確認
Tao Chen, Jie Xu, Pulkit Agrawal(参考訳) 指と物体の接触状態の頻繁な変化と高次元のアクティベーション空間のため,ロボット工学では物体の方向転換が課題となっている。 我々は、手が上向きと下向きの両方でオブジェクトを並べ替えることを学ぶことができるシンプルなモデルフリーフレームワークを提案する。 どちらの場合も2000以上の幾何学的に異なる物体を並べ替える能力を示す。 学習したポリシーは、新しいオブジェクトに対して強いゼロショット転送性能を示す。 これらの政策が実世界で容易に利用可能な観察を蒸留することで実世界の運用に適応できることの証拠を提供する。 学習したポリシーのビデオは以下の通りである。

In-hand object reorientation has been a challenging problem in robotics due to high dimensional actuation space and the frequent change in contact state between the fingers and the objects. We present a simple model-free framework that can learn to reorient objects with both the hand facing upwards and downwards. We demonstrate the capability of reorienting over 2000 geometrically different objects in both cases. The learned policies show strong zero-shot transfer performance on new objects. We provide evidence that these policies are amenable to real-world operation by distilling them to use observations easily available in the real world. The videos of the learned policies are available at: https://taochenshh.g ithub.io/projects/in -hand-reorientation.
翻訳日:2021-11-05 14:47:08 公開日:2021-11-04
# リーマン加速度による近位外化フレームワークとその意味

A Riemannian Accelerated Proximal Extragradient Framework and its Implications ( http://arxiv.org/abs/2111.02763v1 )

ライセンス: Link先を確認
Jikai Jin and Suvrit Sra(参考訳) リーマン最適化における加速勾配法の研究は、最近顕著な進歩を目撃している。 しかし、ユークリッド集合とは対照的に、加速度の体系的な理解はリーマン集合にはまだ欠けている。 我々は、加速ユークリッド法を得るための強力なフレームワークである \citet{monteiro2013accelera ted} の \emph{Accelerated Hybrid Proximal Extragradient} (A-HPE) 法を再検討する。 その後、A-HPEのリーマン版を提案する。 リーマン A-HPE の解析の基礎はユークリッド A-HPE に対する洞察の集合であり、リーマン幾何学による歪みの注意深く制御と組み合わせる。 我々は、いくつかのリーマン加速勾配法を、我々のフレームワークの具体例として記述する。

The study of accelerated gradient methods in Riemannian optimization has recently witnessed notable progress. However, in contrast with the Euclidean setting, a systematic understanding of acceleration is still lacking in the Riemannian setting. We revisit the \emph{Accelerated Hybrid Proximal Extragradient} (A-HPE) method of \citet{monteiro2013accelera ted}, a powerful framework for obtaining accelerated Euclidean methods. Subsequently, we propose a Riemannian version of A-HPE. The basis of our analysis of Riemannian A-HPE is a set of insights into Euclidean A-HPE, which we combine with a careful control of distortion caused by Riemannian geometry. We describe a number of Riemannian accelerated gradient methods as concrete instances of our framework.
翻訳日:2021-11-05 14:44:43 公開日:2021-11-04
# FEAFA+: 顔表情解析と3次元顔アニメーションのための拡張された注釈付きデータセット

FEAFA+: An Extended Well-Annotated Dataset for Facial Expression Analysis and 3D Facial Animation ( http://arxiv.org/abs/2111.02751v1 )

ライセンス: Link先を確認
Wei Gan, Jian Xue, Ke Lu, Yanfu Yan, Pengcheng Gao, Jiayi Lyu(参考訳) 顔行動単位(AU)強度情報を含む既存の顔行動符号化システムベースのデータセットのほぼ全てが、A-Eレベルを使用して階層的に強度値に注釈を付ける。 しかし、表情は連続的に変化し、ある状態から別の状態へとスムーズに変化する。 したがって、表情伝達や表情アニメーションの分野において、表情の変化全体を表現するために、局所的な表情ausの強度値を後退させることがより効果的である。 feafaの拡張とrelabeled disfaデータベースはhttps://www.iiplab.n et/feafa+/で利用可能である。 拡張FAFA (FEAFA+) には、FEAFA と DISFA から150の動画シーケンスが含まれており、合計230,184フレームが式定量ツールを用いて24個の再定義AUの浮動小数点強度値に手動で注釈付けされている。 また, 提案した部分集合と自発部分集合の粗い数値結果もリストアップし, AU強度回帰タスクのベースライン比較を行う。

Nearly all existing Facial Action Coding System-based datasets that include facial action unit (AU) intensity information annotate the intensity values hierarchically using A--E levels. However, facial expressions change continuously and shift smoothly from one state to another. Therefore, it is more effective to regress the intensity value of local facial AUs to represent whole facial expression changes, particularly in the fields of expression transfer and facial animation. We introduce an extension of FEAFA in combination with the relabeled DISFA database, which is available at https://www.iiplab.n et/feafa+/ now. Extended FEAFA (FEAFA+) includes 150 video sequences from FEAFA and DISFA, with a total of 230,184 frames being manually annotated on floating-point intensity value of 24 redefined AUs using the Expression Quantitative Tool. We also list crude numerical results for posed and spontaneous subsets and provide a baseline comparison for the AU intensity regression task.
翻訳日:2021-11-05 14:44:26 公開日:2021-11-04
# 脳セグメンテーションCNNにおけるMRI物理の役割 : 獲得不均一性の実現と指導的不確実性

The role of MRI physics in brain segmentation CNNs: achieving acquisition invariance and instructive uncertainties ( http://arxiv.org/abs/2111.02771v1 )

ライセンス: Link先を確認
Pedro Borges, Richard Shaw, Thomas Varsavsky, Kerstin Klaser, David Thomas, Ivana Drobnjak, Sebastien Ourselin and M Jorge Cardoso(参考訳) 異なる場所から発生したデータを適切に処理し、組み合わせることが神経イメージングにおいて重要であるが、サイト、シーケンス、取得パラメータ依存バイアスのため困難である。 したがって、異なるコントラストの画像に対して堅牢であるだけでなく、不確実性の定量化によって、目に見えないものに対してうまく一般化できるアルゴリズムを設計することが重要である。 本稿では,拡張時間MRシミュレーションと均質なバッチ特徴階層化を用いた物理インフォームド・不確実性を考慮したセグメンテーションネットワークの有効性を示す。 提案手法は, 分布外配列のサンプルを正確に外挿し, キャリブレーションされた体積境界を提供する。 本研究では,不確実性に基づくボリューム検証による変動係数の大幅な改善を示す。

Being able to adequately process and combine data arising from different sites is crucial in neuroimaging, but is difficult, owing to site, sequence and acquisition-paramete r dependent biases. It is important therefore to design algorithms that are not only robust to images of differing contrasts, but also be able to generalise well to unseen ones, with a quantifiable measure of uncertainty. In this paper we demonstrate the efficacy of a physics-informed, uncertainty-aware, segmentation network that employs augmentation-time MR simulations and homogeneous batch feature stratification to achieve acquisition invariance. We show that the proposed approach also accurately extrapolates to out-of-distribution sequence samples, providing well calibrated volumetric bounds on these. We demonstrate a significant improvement in terms of coefficients of variation, backed by uncertainty based volumetric validation.
翻訳日:2021-11-05 14:44:06 公開日:2021-11-04
# (参考訳) Adversarial GLUE: 言語モデルのロバストネス評価のためのマルチタスクベンチマーク [全文訳有]

Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models ( http://arxiv.org/abs/2111.02840v1 )

ライセンス: CC BY 4.0
Boxin Wang, Chejian Xu, Shuohang Wang, Zhe Gan, Yu Cheng, Jianfeng Gao, Ahmed Hassan Awadallah, Bo Li(参考訳) 大規模な事前学習型言語モデルは、人間のパフォーマンスを超えながら、幅広い自然言語理解(NLU)タスクで大きな成功を収めている。 しかし、近年の研究により、これらのモデルの頑健性は、注意深く構築されたテキスト対逆例によって挑戦できることが明らかとなった。 モデルロバスト性を評価するために、いくつかの個別データセットが提案されているが、原則的で包括的なベンチマークはまだ欠落している。 本稿では,様々な種類の敵攻撃下での現代の大規模言語モデルの脆弱性を定量的かつ徹底的に調査し,評価するマルチタスク・ベンチマークであるAdvGLUEを提案する。 特に,14のテクスト的敵対的攻撃手法をタスクを結合してadvglueを構築し,さらに人間が信頼できるアノテーションを検証した。 我々の発見は次のように要約される。 (i)既存の敵攻撃アルゴリズムのほとんどは、無効または曖昧な敵の例を生成する傾向があり、その約90%は、本来の意味的意味を変えるか、人間の注釈を誤解させるものである。 そこで我々は,高品質なベンチマークをキュレートするために,慎重にフィルタリング処理を行う。 (ii)テストした言語モデルとロバストなトレーニングメソッドはすべて、AdvGLUEではパフォーマンスが悪く、スコアは良識の精度よりもはるかに遅れています。 我々の研究は、よりステルス的でセマンティックな新しい敵攻撃と、高度な敵攻撃に対する新しい堅牢な言語モデルの開発を動機付けることを願っている。 advglueはhttps://adversarialg lue.github.ioで入手できる。

Large-scale pre-trained language models have achieved tremendous success across a wide range of natural language understanding (NLU) tasks, even surpassing human performance. However, recent studies reveal that the robustness of these models can be challenged by carefully crafted textual adversarial examples. While several individual datasets have been proposed to evaluate model robustness, a principled and comprehensive benchmark is still missing. In this paper, we present Adversarial GLUE (AdvGLUE), a new multi-task benchmark to quantitatively and thoroughly explore and evaluate the vulnerabilities of modern large-scale language models under various types of adversarial attacks. In particular, we systematically apply 14 textual adversarial attack methods to GLUE tasks to construct AdvGLUE, which is further validated by humans for reliable annotations. Our findings are summarized as follows. (i) Most existing adversarial attack algorithms are prone to generating invalid or ambiguous adversarial examples, with around 90% of them either changing the original semantic meanings or misleading human annotators as well. Therefore, we perform a careful filtering process to curate a high-quality benchmark. (ii) All the language models and robust training methods we tested perform poorly on AdvGLUE, with scores lagging far behind the benign accuracy. We hope our work will motivate the development of new adversarial attacks that are more stealthy and semantic-preserving, as well as new robust language models against sophisticated adversarial attacks. AdvGLUE is available at https://adversarialg lue.github.io.
翻訳日:2021-11-05 14:41:31 公開日:2021-11-04
# (参考訳) 統計的依存性のある特徴適応による予備情報を用いたテスト

Testing using Privileged Information by Adapting Features with Statistical Dependence ( http://arxiv.org/abs/2111.02865v1 )

ライセンス: CC BY 4.0
Kwang In Kim and James Tompkin(参考訳) 不完全な予測器が与えられた場合、予測関数の知識を必要とせずに、テスト時に追加機能を利用して予測を改善する。 このシナリオは、トレーニングラベルやデータがプロプライエタリである、制限されている、あるいは利用できない、あるいはトレーニング自体が違法に高価である場合に発生する。 基礎となる完全予測器に強い統計的依存を示す場合, 付加的な特徴が有用であると仮定する。 次に, 初期雑音予測器と追加特徴量との統計的依存性を, 実験的に推定し, 強化する。 一例として,本手法が実世界の視覚属性ランキングの改善につながることを示す。 プロジェクトWebページ: http://www.jamestomp kin.com/tupi

Given an imperfect predictor, we exploit additional features at test time to improve the predictions made, without retraining and without knowledge of the prediction function. This scenario arises if training labels or data are proprietary, restricted, or no longer available, or if training itself is prohibitively expensive. We assume that the additional features are useful if they exhibit strong statistical dependence to the underlying perfect predictor. Then, we empirically estimate and strengthen the statistical dependence between the initial noisy predictor and the additional features via manifold denoising. As an example, we show that this approach leads to improvement in real-world visual attribute ranking. Project webpage: http://www.jamestomp kin.com/tupi
翻訳日:2021-11-05 14:13:36 公開日:2021-11-04
# (参考訳) ファンタジーフットボール言語理解のための深層人工知能 [全文訳有]

Deep Artificial Intelligence for Fantasy Football Language Understanding ( http://arxiv.org/abs/2111.02874v1 )

ライセンス: CC BY 4.0
Aaron Baughman, Micah Forester, Jeff Powell, Eduardo Morales, Shaun McPartlin, Daniel Bohm(参考訳) ファンタジースポーツは、ファンがお気に入りのアスリートのチームを管理し、友人と競うことを可能にする。 ファンタジー・プラットフォームは、スポーツ選手の実際の統計成績をファンタジーのスコアと一致させ、2018年から2019年にかけてESPN Fantasy Footballプラットフォームで440億のプレイヤー・カードビューで月間9100万のプレイヤーに着実に人気を増している。 並行して、スポーツメディアコミュニティは、ファンタジースポーツの文脈内外に存在するニュースストーリー、ブログ、フォーラム投稿、ツイート、ビデオ、ポッドキャスト、オピニオンピースを制作している。 しかし、人間のファンタジーフットボール選手は平均3.9の情報源しか分析できない。 我々はespnファンタジーフットボールチームを管理するための機械学習パイプラインの結果について論じる。 10万以上のニュースソースと230万の記事、ビデオ、ポッドキャストに適用される訓練された統計エンティティ検出器とDocument2vectorモデルを使用することで、システムは自然言語を100%、キーワードテスト精度80%で理解することができる。 ディープラーニングフィードフォワードニューラルネットワークは、プレイヤーがバスト、ブーム、隠れた怪我でプレイしたり、累積的な72%の精度で意味のあるタッチをプレイしたりといったプレイヤーの分類を提供する。 最後に、複数の回帰アンサンブルがディープラーニング出力とespn投影データを使用して、2018年のトップ500以上のファンタジーフットボール選手それぞれにポイントプロジェクションを提供する。 点投影は6.78点のRMSEを維持した。 スコアスプレッドを可視化するために、24組の集合からベスト適合確率密度関数を選択する。 プロダクトのローンチから6週間以内に、総ユーザー数は4.6年以上の累積的な時間をAIの洞察に費やした。 私たちのモデルのトレーニングデータは、webhose、espn statistics、rotowire injury reportsによる2015年から2016年までのwebアーカイブによって提供されました。 テストセットとして2017年のファンタジーフットボールデータを使用しました。

Fantasy sports allow fans to manage a team of their favorite athletes and compete with friends. The fantasy platform aligns the real-world statistical performance of athletes to fantasy scoring and has steadily risen in popularity to an estimated 9.1 million players per month with 4.4 billion player card views on the ESPN Fantasy Football platform from 2018-2019. In parallel, the sports media community produces news stories, blogs, forum posts, tweets, videos, podcasts and opinion pieces that are both within and outside the context of fantasy sports. However, human fantasy football players can only analyze an average of 3.9 sources of information. Our work discusses the results of a machine learning pipeline to manage an ESPN Fantasy Football team. The use of trained statistical entity detectors and document2vector models applied to over 100,000 news sources and 2.3 million articles, videos and podcasts each day enables the system to comprehend natural language with an analogy test accuracy of 100% and keyword test accuracy of 80%. Deep learning feedforward neural networks provide player classifications such as if a player will be a bust, boom, play with a hidden injury or play meaningful touches with a cumulative 72% accuracy. Finally, a multiple regression ensemble uses the deep learning output and ESPN projection data to provide a point projection for each of the top 500+ fantasy football players in 2018. The point projection maintained a RMSE of 6.78 points. The best fit probability density function from a set of 24 is selected to visualize score spreads. Within the first 6 weeks of the product launch, the total number of users spent a cumulative time of over 4.6 years viewing our AI insights. The training data for our models was provided by a 2015 to 2016 web archive from Webhose, ESPN statistics, and Rotowire injury reports. We used 2017 fantasy football data as a test set.
翻訳日:2021-11-05 14:12:46 公開日:2021-11-04
# (参考訳) ホルダー境界を持つ変分推論 [全文訳有]

Variational Inference with Holder Bounds ( http://arxiv.org/abs/2111.02947v1 )

ライセンス: CC BY 4.0
Junya Chen, Danni Lu, Zidi Xiu, Ke Bai, Lawrence Carin, Chenyang Tao(参考訳) 最近の熱力学統合技術の導入により、変動推論(VI)の理解と改善のための新しいフレームワークが提供された。 本研究では, 熱力学的変動目標(TVO)を慎重に分析し, 既存の変動目標間のギャップを埋め, 新たな洞察を取り入れて, 現場を前進させる。 特に,TVOが重要重み付きVI,Renyi-VI,MCMC-VIの3つの重要な変分スキームを自然に接続する方法を明らかにする。 理論と実践の相違を説明するために,熱力学曲線の病理幾何学がTVOに悪影響を及ぼすことを示す。 幾何平均から重み付きホルダー平均への積分経路を一般化することにより,tvoの理論を拡張し,viを改善する新たな機会を見いだす。 これは、熱力学的曲線を平坦化し、正確な辺の対数様相の1段階近似を達成することを約束するホルダー境界と呼ばれる新しい vi 目標を動機付ける。 数値推定器の選択に関する総合的な議論を提供する。 当社の主張を支持するために,合成データと実世界のデータセットの両方について,強い実証的証拠を提示します。

The recent introduction of thermodynamic integration techniques has provided a new framework for understanding and improving variational inference (VI). In this work, we present a careful analysis of the thermodynamic variational objective (TVO), bridging the gap between existing variational objectives and shedding new insights to advance the field. In particular, we elucidate how the TVO naturally connects the three key variational schemes, namely the importance-weighted VI, Renyi-VI, and MCMC-VI, which subsumes most VI objectives employed in practice. To explain the performance gap between theory and practice, we reveal how the pathological geometry of thermodynamic curves negatively affects TVO. By generalizing the integration path from the geometric mean to the weighted Holder mean, we extend the theory of TVO and identify new opportunities for improving VI. This motivates our new VI objectives, named the Holder bounds, which flatten the thermodynamic curves and promise to achieve a one-step approximation of the exact marginal log-likelihood. A comprehensive discussion on the choices of numerical estimators is provided. We present strong empirical evidence on both synthetic and real-world datasets to support our claims.
翻訳日:2021-11-05 14:03:04 公開日:2021-11-04
# (参考訳) MLオンボードを用いた極端事象の教師なし変化検出 [全文訳有]

Unsupervised Change Detection of Extreme Events Using ML On-Board ( http://arxiv.org/abs/2111.02995v1 )

ライセンス: CC BY 4.0
V\'it R\r{u}\v{z}i\v{c}ka, Anna Vaughan, Daniele De Martini, James Fulton, Valentina Salvatelli, Chris Bridges, Gonzalo Mateo-Garcia, Valentina Zantedeschi(参考訳) 本稿では,変分自動エンコーダ(VAE)に基づく衛星データの変更検出のための軽量で教師なしのアプローチであるRaVAEnを紹介する。 災害管理などの応用は、衛星観測の迅速化から大きな恩恵を受ける。 伝統的に、すべてのデータが地上局に転送された後、地上でデータ解析が行われる。 したがって、ダウンリンク能力の制限はダウンストリームアプリケーションに影響を与える。 対照的に、RaVAEnはサンプルデータを衛星上で直接処理し、フラグはダウンリンクを優先し、応答時間を短縮する。 我々は,RaVAEnが画素単位のベースラインを上回っていることを実証した,一連の破滅的な事象からなるデータセット上で,本システムの有効性を検証した。 最後に,資源限定ハードウェアを用いた計算およびメモリ制限の評価を行った。

In this paper, we introduce RaVAEn, a lightweight, unsupervised approach for change detection in satellite data based on Variational Auto-Encoders (VAEs) with the specific purpose of on-board deployment. Applications such as disaster management enormously benefit from the rapid availability of satellite observations. Traditionally, data analysis is performed on the ground after all data is transferred - downlinked - to a ground station. Constraint on the downlink capabilities therefore affects any downstream application. In contrast, RaVAEn pre-processes the sampled data directly on the satellite and flags changed areas to prioritise for downlink, shortening the response time. We verified the efficacy of our system on a dataset composed of time series of catastrophic events - which we plan to release alongside this publication - demonstrating that RaVAEn outperforms pixel-wise baselines. Finally we tested our approach on resource-limited hardware for assessing computational and memory limitations.
翻訳日:2021-11-05 13:27:15 公開日:2021-11-04
# 異なるセンサを用いたニューラルネットワークが類似した特徴を創出する

When Neural Networks Using Different Sensors Create Similar Features ( http://arxiv.org/abs/2111.02732v1 )

ライセンス: Link先を確認
Hugues Moreau (CEA-LETI, LIRIS), Andr\'ea Vassilev (CEA-LETI), Liming Chen (LIRIS, ECL)(参考訳) マルチモーダルな問題は、自律運転、ロボットによる把持、シーン理解など、現実世界で広く見られる。 . 我々は、類似性のよく開発された分析から、異なるセンサーからニューラルネットワークを訓練し、これらのセンサーから抽出された特徴が類似した情報を持っている問題の一例を提供する。 より正確には、各センサについて、他のセンサと最も相関する最終層からの特徴の線形結合が、分類層の分類成分に対応していることを示す。

Multimodal problems are omnipresent in the real world: autonomous driving, robotic grasping, scene understanding, etc... We draw from the well-developed analysis of similarity to provide an example of a problem where neural networks are trained from different sensors, and where the features extracted from these sensors still carry similar information. More precisely, we demonstrate that for each sensor, the linear combination of the features from the last layer that correlates the most with other sensors corresponds to the classification components of the classification layer.
翻訳日:2021-11-05 13:19:34 公開日:2021-11-04
# 弱教師付きモーメント検索のためのマルチスケール2次元表現学習

Multi-scale 2D Representation Learning for weakly-supervised moment retrieval ( http://arxiv.org/abs/2111.02741v1 )

ライセンス: Link先を確認
Ding Li, Rui Wu, Yongqiang Tang, Zhizhong Zhang and Wensheng Zhang(参考訳) ビデオモーメント検索は、与えられた言語クエリに最も関連するモーメントを検索することを目的としている。 しかし、このコミュニティの既存のほとんどのメソッドは時間境界アノテーションを必要とすることが多い。 したがって、粗いビデオレベルラベルのみを用いて、弱い教師付き手法が最近提案されている。 有効性にも拘わらず、これらの手法は通常モーメント候補を個別に処理するが、時間スケールの異なる候補間の自然な時間依存性は無視される。 そこで本研究では,弱教師付き映像モーメント検索のためのマルチスケール2次元表現学習手法を提案する。 具体的には,まず時間スケール毎に2次元マップを構築し,候補間の時間依存性を捉える。 この図の2次元は、これらの候補の開始点と終了点を示している。 次に,学習可能な畳み込みニューラルネットワークを用いて,各スケールマップからトップK候補を選択する。 新たに設計されたモーメント評価モジュールを用いて,選択した候補のアライメントスコアを得る。 最終的に、キャプションと言語クエリの類似性は、候補のセレクタをさらに訓練するための監督として提供される。 Charades-STA と ActivityNet Captions の2つのベンチマークデータセットによる実験により,我々の手法が最先端の結果に対して優れた性能を発揮することが示された。

Video moment retrieval aims to search the moment most relevant to a given language query. However, most existing methods in this community often require temporal boundary annotations which are expensive and time-consuming to label. Hence weakly supervised methods have been put forward recently by only using coarse video-level label. Despite effectiveness, these methods usually process moment candidates independently, while ignoring a critical issue that the natural temporal dependencies between candidates in different temporal scales. To cope with this issue, we propose a Multi-scale 2D Representation Learning method for weakly supervised video moment retrieval. Specifically, we first construct a two-dimensional map for each temporal scale to capture the temporal dependencies between candidates. Two dimensions in this map indicate the start and end time points of these candidates. Then, we select top-K candidates from each scale-varied map with a learnable convolutional neural network. With a newly designed Moments Evaluation Module, we obtain the alignment scores of the selected candidates. At last, the similarity between captions and language query is served as supervision for further training the candidates' selector. Experiments on two benchmark datasets Charades-STA and ActivityNet Captions demonstrate that our approach achieves superior performance to state-of-the-art results.
翻訳日:2021-11-05 13:19:27 公開日:2021-11-04
# マルチディープメトリック学習と不確実性誘導型エピソディックメモリリプレイによるオンライン連続学習 - iccv 2021ワークショップ ssladトラック3a 連続オブジェクト分類のための3位解

Online Continual Learning via Multiple Deep Metric Learning and Uncertainty-guided Episodic Memory Replay -- 3rd Place Solution for ICCV 2021 Workshop SSLAD Track 3A Continual Object Classification ( http://arxiv.org/abs/2111.02757v1 )

ライセンス: Link先を確認
Muhammad Rifki Kurniawan, Xing Wei, Yihong Gong(参考訳) オンラインの連続学習は、機械学習において非常に難しいタスクである。 オンライン連続学習の非定常性は、ニューラルネットワークにおける破滅的な忘れをもたらす可能性がある。 特に、soda10mデータセットを用いた自動運転のためのオンライン連続学習は、連続分布シフトを伴う超ロングテール分布において余分な問題を示す。 そこで本研究では,ソフトラベル蒸留と並行して,コントラスト学習と教師付きコントラスト学習を併用した,複数の深層メトリック表現学習を提案する。 さらに, クラス不均衡および難易度サンプルの高感度なペナル化のために, 修正されたクラスバランス型焦点損失を利用した。 また,リハーサルのための不確実性指標の指導のもとにサンプルを保存し,オンラインおよび定期記憶更新を行う。 提案手法は,平均平均クラス精度(AMCA)64.01%,テストセット64.53%のAMCAでかなりの一般化を実現する。

Online continual learning in the wild is a very difficult task in machine learning. Non-stationarity in online continual learning potentially brings about catastrophic forgetting in neural networks. Specifically, online continual learning for autonomous driving with SODA10M dataset exhibits extra problems on extremely long-tailed distribution with continuous distribution shift. To address these problems, we propose multiple deep metric representation learning via both contrastive and supervised contrastive learning alongside soft labels distillation to improve model generalization. Moreover, we exploit modified class-balanced focal loss for sensitive penalization in class imbalanced and hard-easy samples. We also store some samples under guidance of uncertainty metric for rehearsal and perform online and periodical memory updates. Our proposed method achieves considerable generalization with average mean class accuracy (AMCA) 64.01% on validation and 64.53% AMCA on test set.
翻訳日:2021-11-05 13:19:08 公開日:2021-11-04
# 自然言語質問のSPARQLクエリへの変換における語彙単語のアウトの影響の低減

Reducing the impact of out of vocabulary words in the translation of natural language questions into SPARQL queries ( http://arxiv.org/abs/2111.03000v1 )

ライセンス: Link先を確認
Manuel A. Borroto Santana, Francesco Ricca, Bernardo Cuteri(参考訳) 公開知識ベースで利用可能な大量の情報にアクセスするのは、SPARQLクエリ言語に精通していないユーザにとって、複雑になるかも知れません。 SPARQLにおける自然言語による質問の自動翻訳は、この問題を克服する可能性がある。 既存のニューラルネットワーク翻訳システムは、トレーニングセットの語彙(oov)外にある単語を認識するのに非常に効果的だが、容易に失敗する。 これは大きなオントロジーをクエリしながら深刻な問題です。 本稿では、自然言語質問からSPARQLクエリへの自動翻訳を行うために、名前付きエンティティリンク、名前付きエンティティ認識、ニューラルネットワーク翻訳を組み合わせる。 提案手法は,DBpedia上の質問回答データセットであるMonument,QALD-9,LC-Q uAD v1で実験を行うことにより,既存のアプローチよりもOOV語の方が効果的でレジリエントであることを示す。

Accessing the large volumes of information available in public knowledge bases might be complicated for those users unfamiliar with the SPARQL query language. Automatic translation of questions posed in natural language in SPARQL has the potential of overcoming this problem. Existing systems based on neural-machine translation are very effective but easily fail in recognizing words that are Out Of the Vocabulary (OOV) of the training set. This is a serious issue while querying large ontologies. In this paper, we combine Named Entity Linking, Named Entity Recognition, and Neural Machine Translation to perform automatic translation of natural language questions into SPARQL queries. We demonstrate empirically that our approach is more effective and resilient to OOV words than existing approaches by running the experiments on Monument, QALD-9, and LC-QuAD v1, which are well-known datasets for Question Answering over DBpedia.
翻訳日:2021-11-05 13:17:10 公開日:2021-11-04
# (参考訳) scanflow: マシンラーニングワークフロー管理、監視、デバッグのためのマルチグラフフレームワーク [全文訳有]

Scanflow: A multi-graph framework for Machine Learning workflow management, supervision, and debugging ( http://arxiv.org/abs/2111.03003v1 )

ライセンス: CC BY 4.0
Gusseppe Bravo-Rocca, Peini Liu, Jordi Guitart, Ajay Dholakia, David Ellison, Jeffrey Falkanger, Miroslav Hodak(参考訳) 機械学習(ml)は単なるトレーニングモデルではなく、ワークフロー全体を考慮する必要がある。 デプロイが完了すると、予期しない状況におけるその妥当性と堅牢性を保証するため、MLモデルを監視、監視、デバッグしなければなりません。 mlでのデバッグは、自明なコンテキストではなく、モデルの弱点を識別(および対処)することを目的としている。 分類のバイアス、モデル崩壊、敵対的攻撃など、さまざまなタイプのモデルの弱点を特定するために、いくつかのテクニックが提案されているが、協調的でモジュール化された、ポータブルで反復的な方法で作業できる汎用フレームワークはなく、さらに重要なことに、人間と機械の両方のテクニックを可能にするのに十分な柔軟性がある。 本稿では,エンドツーエンドのワークフロー管理,監視,デバッグを支援するコンテナ化指向グラフフレームワークを提案する。 このフレームワークは、コンテナ内のMLワークフローの定義とデプロイ、メタデータの追跡、本番環境での振る舞いの確認、学習された知識と人為的な知識の使用によるモデルの改善を可能にする。 本研究では,従来の分布の潜伏空間から遠いサンプルを識別し,人間の介入を求め,モデルを再訓練するか,あるいはフィルタでラップして推定時に破損したデータのノイズを除去する,という2つのハイブリッドシステムを統合することで,これらの能力を実証する。 これらのシステムは,MNIST-C,CIFAR-10-C, FashionMNIST-Cのデータセット上でテストし,人間の関与によって有望な精度が得られることを示す。

Machine Learning (ML) is more than just training models, the whole workflow must be considered. Once deployed, a ML model needs to be watched and constantly supervised and debugged to guarantee its validity and robustness in unexpected situations. Debugging in ML aims to identify (and address) the model weaknesses in not trivial contexts. Several techniques have been proposed to identify different types of model weaknesses, such as bias in classification, model decay, adversarial attacks, etc., yet there is not a generic framework that allows them to work in a collaborative, modular, portable, iterative way and, more importantly, flexible enough to allow both human- and machine-driven techniques. In this paper, we propose a novel containerized directed graph framework to support and accelerate end-to-end ML workflow management, supervision, and debugging. The framework allows defining and deploying ML workflows in containers, tracking their metadata, checking their behavior in production, and improving the models by using both learned and human-provided knowledge. We demonstrate these capabilities by integrating in the framework two hybrid systems to detect data drift distribution which identify the samples that are far from the latent space of the original distribution, ask for human intervention, and whether retrain the model or wrap it with a filter to remove the noise of corrupted data at inference time. We test these systems on MNIST-C, CIFAR-10-C, and FashionMNIST-C datasets, obtaining promising accuracy results with the help of human involvement.
翻訳日:2021-11-05 13:16:00 公開日:2021-11-04
# 幾何学的マルチタスク学習によるデクサラスマニピュレーションの一般化

Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task Learning ( http://arxiv.org/abs/2111.03062v1 )

ライセンス: Link先を確認
Wenlong Huang, Igor Mordatch, Pieter Abbeel, Deepak Pathak(参考訳) 人間の日常的なタスクである任意の物体の有害な操作は、自律ロボットシステムにとって大きな課題である。 強化学習を用いたデータ駆動アプローチは、単一のオブジェクトを制御する行動を発見する専門的なポリシーを開発することができるが、しばしば目に見えないものへの一般化が不十分である。 本研究では,既存の強化学習アルゴリズムで学習したポリシーが,マルチタスク学習とよく理解されたオブジェクト表現を組み合わせた場合,実際に一般化可能であることを示す。 一つのジェネラリストポリシーが100以上の実世界オブジェクトを手作業で操作し、目に見えない形状や大きさの新しいオブジェクトに一般化できることを示す。 興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、トレーニングとテストオブジェクトの保持の両方に関する単一目的の専門家ポリシーよりも優れています。 https://huangwl18.gi thub.io/geometry-dex

Dexterous manipulation of arbitrary objects, a fundamental daily task for humans, has been a grand challenge for autonomous robotic systems. Although data-driven approaches using reinforcement learning can develop specialist policies that discover behaviors to control a single object, they often exhibit poor generalization to unseen ones. In this work, we show that policies learned by existing reinforcement learning algorithms can in fact be generalist when combined with multi-task learning and a well-chosen object representation. We show that a single generalist policy can perform in-hand manipulation of over 100 geometrically-divers e real-world objects and generalize to new objects with unseen shape or size. Interestingly, we find that multi-task learning with object point cloud representations not only generalizes better but even outperforms the single-object specialist policies on both training as well as held-out test objects. Video results at https://huangwl18.gi thub.io/geometry-dex
翻訳日:2021-11-05 12:40:50 公開日:2021-11-04
# 意味認知、帰納的一般化、言語モデルについて

On Semantic Cognition, Inductive Generalization, and Language Models ( http://arxiv.org/abs/2111.02603v1 )

ライセンス: Link先を確認
Kanishka Misra(参考訳) 私の博士研究は、認知科学の基礎となる概念やカテゴリの研究から洞察を得て、自然言語(言語モデルまたはLMと呼ばれる)を予測するためにのみ訓練されたニューラルネットワークモデルにおける意味的知識を理解することに焦点を当てています。 そこで,本研究では,人間による背景知識の活用,帰納的跳躍,概念とその特性に関する新たな情報からの一般化,といった現象に着想を得た枠組みを提案する。 帰納的推論(inductive reasoning)を研究する実験から,人為的推論文学における現象を用いたLMにおける意味的帰納的一般化の分析,暗黙的推論や創発的特徴認識などのタスクにおける帰納的行動の調査,学習された概念表現空間への帰納的ダイナミクスの解析と関連性について考察する。

My doctoral research focuses on understanding semantic knowledge in neural network models trained solely to predict natural language (referred to as language models, or LMs), by drawing on insights from the study of concepts and categories grounded in cognitive science. I propose a framework inspired by 'inductive reasoning,' a phenomenon that sheds light on how humans utilize background knowledge to make inductive leaps and generalize from new pieces of information about concepts and their properties. Drawing from experiments that study inductive reasoning, I propose to analyze semantic inductive generalization in LMs using phenomena observed in human-induction literature, investigate inductive behavior on tasks such as implicit reasoning and emergent feature recognition, and analyze and relate induction dynamics to the learned conceptual representation space.
翻訳日:2021-11-05 12:40:33 公開日:2021-11-04
# 高速符号化言語表現のための変換器からのテキストオートエンコーダ

A text autoencoder from transformer for fast encoding language representation ( http://arxiv.org/abs/2111.02844v1 )

ライセンス: Link先を確認
Tan Huang(参考訳) 近年、BERTは自然言語処理タスクにおいて明らかな利点と大きな可能性を示している。 しかし、BERTのトレーニングと適用には文脈言語表現の計算に時間とリソースが要るため、その普遍性と適用性が妨げられる。 このボトルネックを克服するために,注目層におけるウィンドウマスキング機構を用いた双方向言語モデルを提案する。 この作業は、BERTのようにランダムマスキングなしでコンテキスト言語表現を計算し、BERTのような深い双方向アーキテクチャを維持する。 同じ文表現を計算するために,O(n^2$) を用いた他の変圧器モデルと比較して O(n) の複雑性が低いことを示す。 さらにその優位性を示すために,提案手法の組込みを用いてcpu環境における文脈言語表現の計算を行い,sms分類の観点からロジスティック回帰法の方が精度が高いことを示す。 さらに,提案手法は意味的類似性タスクにおいて高い性能を実現する。

In recent years BERT shows apparent advantages and great potential in natural language processing tasks. However, both training and applying BERT requires intensive time and resources for computing contextual language representations, which hinders its universality and applicability. To overcome this bottleneck, we propose a deep bidirectional language model by using window masking mechanism at attention layer. This work computes contextual language representations without random masking as does in BERT and maintains the deep bidirectional architecture like BERT. To compute the same sentence representation, our method shows O(n) complexity less compared to other transformer-based models with O($n^2$). To further demonstrate its superiority, computing context language representations on CPU environments is conducted, by using the embeddings from the proposed method, logistic regression shows much higher accuracy in terms of SMS classification. Moverover, the proposed method also achieves significant higher performance in semantic similarity tasks.
翻訳日:2021-11-05 12:40:19 公開日:2021-11-04
# TC-YOLOモデルを用いた非構造環境下での茶の菊検出

Tea Chrysanthemum Detection under Unstructured Environments Using the TC-YOLO Model ( http://arxiv.org/abs/2111.02724v1 )

ライセンス: Link先を確認
Chao Qi (1), Junfeng Gao (2), Simon Pearson (2), Helen Harman (2), Kunjie Chen (1), Lei Shu (1) ((1) Nanjing Agricultural University, (2) University of Lincoln)(参考訳) 開花期における茶菊の検出は、選択的な菊収穫ロボット開発の鍵となる要素の一つである。 しかし, 照明, 閉塞, 物体スケールの違いから, 未構造化環境下での開花菊の検出は困難である。 そこで本研究では,茶菊検出(TC-YOLO)のためのYOLOに基づく,高度に融合した軽量なディープラーニングアーキテクチャを提案する。 まず、バックボーンコンポーネントとネックコンポーネントでは、CSPDenseNet(Cross-St age partially Dense Network)をメインネットワークとして使用し、勾配フローをガイドするためにカスタム機能融合モジュールを埋め込む。 最終ヘッドコンポーネントにおいて、再帰的特徴ピラミッド(rfp)の多スケール融合再フロー構造とアトース空間ピラミッドプール(aspp)モジュールとキャビティ畳み込みを組み合わせることにより、検出タスクを実現する。 結果は300のフィールドイメージでテストされ、NVIDIA Tesla P100 GPU環境下で、各画像(416×416)の推論速度が47.23 FPSであれば、TC-YOLOは、私たちの茶菊データセットの平均精度(AP)が92.49%に達することを示した。 さらに、この手法 (13.6M) は単一のモバイルGPU上に展開することができ、将来は選択的菊収穫ロボットの認識システムとしてさらに発展させることができる。

Tea chrysanthemum detection at its flowering stage is one of the key components for selective chrysanthemum harvesting robot development. However, it is a challenge to detect flowering chrysanthemums under unstructured field environments given the variations on illumination, occlusion and object scale. In this context, we propose a highly fused and lightweight deep learning architecture based on YOLO for tea chrysanthemum detection (TC-YOLO). First, in the backbone component and neck component, the method uses the Cross-Stage Partially Dense Network (CSPDenseNet) as the main network, and embeds custom feature fusion modules to guide the gradient flow. In the final head component, the method combines the recursive feature pyramid (RFP) multiscale fusion reflow structure and the Atrous Spatial Pyramid Pool (ASPP) module with cavity convolution to achieve the detection task. The resulting model was tested on 300 field images, showing that under the NVIDIA Tesla P100 GPU environment, if the inference speed is 47.23 FPS for each image (416 * 416), TC-YOLO can achieve the average precision (AP) of 92.49% on our own tea chrysanthemum dataset. In addition, this method (13.6M) can be deployed on a single mobile GPU, and it could be further developed as a perception system for a selective chrysanthemum harvesting robot in the future.
翻訳日:2021-11-05 12:39:44 公開日:2021-11-04
# CLUES: 自然言語理解におけるわずかなショット学習評価

CLUES: Few-Shot Learning Evaluation in Natural Language Understanding ( http://arxiv.org/abs/2111.02570v1 )

ライセンス: Link先を確認
Subhabrata Mukherjee, Xiaodong Liu, Guoqing Zheng, Saghar Hosseini, Hao Cheng, Greg Yang, Christopher Meek, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) 自然言語理解(NLU)の最近の進歩は、一部はGLUE、SuperGLUE、SQuADなどのベンチマークによって推進されている。 実際、多くのNLUモデルはこれらのベンチマークで多くのタスクにおいて「人間レベル」のパフォーマンスと一致または超えた。 しかし、これらのベンチマークのほとんどは、モデルがトレーニングのために比較的大量のラベル付きデータにアクセスできるようにする。 このように、モデルは強い性能を達成するために人間が要求するよりもはるかに多くのデータを提供する。 これはnluモデルのマイナショット学習のパフォーマンス向上に焦点を当てた一連の作業の動機となっている。 しかし、nluの標準化された評価ベンチマークが欠如しており、異なる論文で実験的な設定が異なる。 この一連の作業を加速するために、nluモデルの数少ない学習能力を評価するためのベンチマークであるcucumbers(constraine d language understanding evaluation standard)を紹介します。 近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。 また,いくつかのショット設定において,代替モデルファミリと適応手法の違いを示す。 最後に,真の数発学習性能を評価するための実験的な設定を設計する際の原則と選択について論じ,数発学習評価に対する統一的なアプローチを提案する。 少数の例で新しいタスクに一般化できるNLUモデルの研究を奨励することを目的としている。 CLUESのコードとデータはhttps://github.com/m icrosoft/CLUESで公開されている。

Most recent progress in natural language understanding (NLU) has been driven, in part, by benchmarks such as GLUE, SuperGLUE, SQuAD, etc. In fact, many NLU models have now matched or exceeded "human-level" performance on many tasks in these benchmarks. Most of these benchmarks, however, give models access to relatively large amounts of labeled data for training. As such, the models are provided far more data than required by humans to achieve strong performance. That has motivated a line of work that focuses on improving few-shot learning performance of NLU models. However, there is a lack of standardized evaluation benchmarks for few-shot NLU resulting in different experimental settings in different papers. To help accelerate this line of work, we introduce CLUES (Constrained Language Understanding Evaluation Standard), a benchmark for evaluating the few-shot learning capabilities of NLU models. We demonstrate that while recent models reach human performance when they have access to large amounts of labeled data, there is a huge gap in performance in the few-shot setting for most tasks. We also demonstrate differences between alternative model families and adaptation techniques in the few shot setting. Finally, we discuss several principles and choices in designing the experimental settings for evaluating the true few-shot learning performance and suggest a unified standardized approach to few-shot learning evaluation. We aim to encourage research on NLU models that can generalize to new tasks with a small number of examples. Code and data for CLUES are available at https://github.com/m icrosoft/CLUES.
翻訳日:2021-11-05 12:39:21 公開日:2021-11-04
# 多言語タスク指向対話における文脈意味解析

Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues ( http://arxiv.org/abs/2111.02574v1 )

ライセンス: Link先を確認
Mehrad Moradshahi, Victoria Tsai, Giovanni Campagna, Monica S. Lam(参考訳) タスク指向対話システムのロバストな状態追跡は現在、いくつかの人気のある言語に制限されている。 本稿では,ある言語に大規模な対話データセットをセットすれば,機械翻訳を用いて,他の言語に対する効果的な意味解析を自動生成できることを示す。 本稿では,スロット値の忠実な変換を保証し,以前のベンチマークで用いられたコストのかかる人間の監督を解消するために,対話データセットの自動翻訳をアライメントで提案する。 また,形式的スロットと値,最後のエージェントとユーザの発話のみをエンコードする,新しい文脈意味構文解析モデルを提案する。 簡潔な表現は,実際の精度を損なうことなく,翻訳誤りの複合効果を低下させることを示す。 いくつかの対話状態追跡ベンチマークに対するアプローチを評価する。 RiSAWOZ、CrossWOZ-EN、MultiWOZ-ZHデータセットでは、共同目標の精度が11%、17%、20%、0.3%向上している。 誤ったアノテーションを示す3つのデータセットの総合的誤り解析を行い、モデルの品質を不明瞭に判断する。 最後に、翻訳手法を用いて作成した英語とドイツ語のデータセットを提示する。 これらのデータセットでは、高い人間のアノテーションに頼ることなく、高精度な多言語対話データセットが可能であることを示す。

Robust state tracking for task-oriented dialogue systems currently remains restricted to a few popular languages. This paper shows that given a large-scale dialogue data set in one language, we can automatically produce an effective semantic parser for other languages using machine translation. We propose automatic translation of dialogue datasets with alignment to ensure faithful translation of slot values and eliminate costly human supervision used in previous benchmarks. We also propose a new contextual semantic parsing model, which encodes the formal slots and values, and only the last agent and user utterances. We show that the succinct representation reduces the compounding effect of translation errors, without harming the accuracy in practice. We evaluate our approach on several dialogue state tracking benchmarks. On RiSAWOZ, CrossWOZ, CrossWOZ-EN, and MultiWOZ-ZH datasets we improve the state of the art by 11%, 17%, 20%, and 0.3% in joint goal accuracy. We present a comprehensive error analysis for all three datasets showing erroneous annotations can obscure judgments on the quality of the model. Finally, we present RiSAWOZ English and German datasets, created using our translation methodology. On these datasets, accuracy is within 11% of the original showing that high-accuracy multilingual dialogue datasets are possible without relying on expensive human annotations.
翻訳日:2021-11-05 12:39:00 公開日:2021-11-04
# 連続音響チャネルを用いたマルチエージェント通信による会話・聞き取り学習に向けて

Towards Learning to Speak and Hear Through Multi-Agent Communication over a Continuous Acoustic Channel ( http://arxiv.org/abs/2111.02827v1 )

ライセンス: Link先を確認
Kevin Eloff, Arnu Pretorius, Okko R\"as\"anen, Herman A. Engelbrecht, Herman Kamper(参考訳) エージェント間の創発的コミュニケーションを研究する効果的な手段として,マルチエージェント強化学習が用いられているが,既存の研究はほとんど個別のシンボルによるコミュニケーションに焦点を当てている。 人間のコミュニケーションは、しばしば連続した音響チャンネル上で(そして出現する)行われ、人間の幼児は、介護者との連続的なシグナルを通じて、大部分が言語を習得する。 私たちは、強化学習を通じて訓練された継続的なコミュニケーションチャネルを持つエージェント間の緊急言語を観察できますか? もしそうなら、チャネル特性が新興言語に与える影響はどのようなものか? 我々は,これらの質問の初期調査を行う手段として,環境と学習の方法論を提案する。 我々は、"スピーカー"エージェントが概念を"リスナー"に伝達する必要がある単純なメッセージング環境を使用する。 Speakerは、シンボルを連続的な波形にマッピングするボコーダを備えており、これは損失のある連続チャネルに渡され、リスナーは連続的な信号を概念にマッピングする必要がある。 深層Q-ラーニングを用いて,学習言語表現に基本構成性が現れることを示す。 未知の概念の組み合わせを伝達する場合、通信チャネルではノイズが不可欠であることが分かる。 そして,「聴く」あるいは「話す」英語に先立つ介護者を導入することで,創発的なコミュニケーションを基礎にすることができることを示す。 最後に,深層強化学習とマルチエージェントシステムを組み合わせた今後の作業の出発点として,言語学習と創発における継続的なシグナリングに関する疑問を考察する。

While multi-agent reinforcement learning has been used as an effective means to study emergent communication between agents, existing work has focused almost exclusively on communication with discrete symbols. Human communication often takes place (and emerged) over a continuous acoustic channel; human infants acquire language in large part through continuous signalling with their caregivers. We therefore ask: Are we able to observe emergent language between agents with a continuous communication channel trained through reinforcement learning? And if so, what is the impact of channel characteristics on the emerging language? We propose an environment and training methodology to serve as a means to carry out an initial exploration of these questions. We use a simple messaging environment where a "speaker" agent needs to convey a concept to a "listener". The Speaker is equipped with a vocoder that maps symbols to a continuous waveform, this is passed over a lossy continuous channel, and the Listener needs to map the continuous signal to the concept. Using deep Q-learning, we show that basic compositionality emerges in the learned language representations. We find that noise is essential in the communication channel when conveying unseen concept combinations. And we show that we can ground the emergent communication by introducing a caregiver predisposed to "hearing" or "speaking" English. Finally, we describe how our platform serves as a starting point for future work that uses a combination of deep reinforcement learning and multi-agent systems to study our questions of continuous signalling in language learning and emergence.
翻訳日:2021-11-05 12:38:40 公開日:2021-11-04
# Ex$2$MCMC:Exploratio n Exploitationによるサンプリング

Ex$^2$MCMC: Sampling through Exploration Exploitation ( http://arxiv.org/abs/2111.02702v1 )

ライセンス: Link先を確認
Evgeny Lagutin, Daniil Selikhanovych, Achille Thin, Sergey Samsonov, Alexey Naumov, Denis Belomestny, Maxim Panov, Eric Moulines(参考訳) 複数のグローバルな提案と局所的な動きを組み合わせた探索・探索型マルコフ連鎖モンテカルロアルゴリズム(\operatorname{Ex^2MCMC}$)を開発した。 提案手法は並列化可能であり,計算効率が高い。 v$-uniform geometric ergodicity of $\operatorname{ex^2mcmc}$ を現実の条件下で証明し、複数の大域的な動きによってもたらされる改善を示す混合率の明示的な境界を計算する。 以上より,$\operatorname{Ex^2MCMC}$は,従属するグローバルな移動を提案する新しいアプローチを通じて,利用(局所移動)と探索(グローバル移動)の微調整を可能にすることを示す。 最後に、正規化フローを用いて大域移動の分布を学習する適応型スキーム、$\operatorname{FlEx^2MCMC}$を開発する。 我々は、多くの古典的なサンプリングベンチマークにおいて、$\operatorname{ex^2mcmc}$とその適応バージョンの有効性を示す。 また,これらのアルゴリズムがエネルギーベースモデルとしてganのサンプリング品質を向上させることを示した。

We develop an Explore-Exploit Markov chain Monte Carlo algorithm ($\operatorname{Ex^2MCMC}$) that combines multiple global proposals and local moves. The proposed method is massively parallelizable and extremely computationally efficient. We prove $V$-uniform geometric ergodicity of $\operatorname{Ex^2MCMC}$ under realistic conditions and compute explicit bounds on the mixing rate showing the improvement brought by the multiple global moves. We show that $\operatorname{Ex^2MCMC}$ allows fine-tuning of exploitation (local moves) and exploration (global moves) via a novel approach to proposing dependent global moves. Finally, we develop an adaptive scheme, $\operatorname{FlEx^2MCMC}$, that learns the distribution of global moves using normalizing flows. We illustrate the efficiency of $\operatorname{Ex^2MCMC}$ and its adaptive versions on many classical sampling benchmarks. We also show that these algorithms improve the quality of sampling GANs as energy-based models.
翻訳日:2021-11-05 12:37:00 公開日:2021-11-04
# 異常外乱を考慮したPCAとスパース回帰の一貫性推定

Consistent Estimation for PCA and Sparse Regression with Oblivious Outliers ( http://arxiv.org/abs/2111.02966v1 )

ライセンス: Link先を確認
Tommaso d'Orsi, Chih-Hung Liu, Rajai Nasser, Gleb Novikov, David Steurer, Stefan Tiegel(参考訳) 計算可能で一貫性のある推定器を効率的に設計する機械を開発し,観測数の増加に伴ってゼロに近づいた推定誤差を達成する。 具体例としてスパース回帰と主成分分析(PCA)の2つの問題を考察する。 スパース回帰では、最適なサンプルサイズ $n\gtrsim (k\log d)/\alpha^2$ と最適なエラーレート $o(\sqrt{(k\log d)/(n\cdot \alpha^2)})$n$ が観測数、$d$ が次元数、$k$ がパラメータベクトルのスパース性であり、標本数における不連続の分数を逆多項化できる。 この研究以前には、(非球面)ガウスの設計行列に対してさえ、inliers $\alpha$ の分数が $o(1/\log \log n)$ であるとき、推定子は一貫性がないことが知られていた。 弱い設計仮定の下で保持された結果と、そのような一般的なノイズの存在は、d'orsiらによって非常に最近、密集した設定(つまり一般線形回帰)でのみ示されてきた。 [dns21] pcaの文脈では、パラメータ行列(通常行列完全化で使われる)上の広いスパイクネス仮定の下で最適誤差保証を達成する。 以前の研究は、イリヤに対応する測定ノイズが$n$(例えば1/n^2$)で多項式的に小さいという仮定の下でのみ、非自明な保証を得ることができた。 推定器を考案するために、フッカー損失を$\ell_1$ノルムや核ノルムのような非滑らかな正則化器と装備し、損失関数を解析するための新しい方法としてd'Orsi et al.のアプローチ(dNS21)を拡張する。 我々の機械は、幅広い推定問題に容易に適用できるように見える。

We develop machinery to design efficiently computable and consistent estimators, achieving estimation error approaching zero as the number of observations grows, when facing an oblivious adversary that may corrupt responses in all but an $\alpha$ fraction of the samples. As concrete examples, we investigate two problems: sparse regression and principal component analysis (PCA). For sparse regression, we achieve consistency for optimal sample size $n\gtrsim (k\log d)/\alpha^2$ and optimal error rate $O(\sqrt{(k\log d)/(n\cdot \alpha^2)})$ where $n$ is the number of observations, $d$ is the number of dimensions and $k$ is the sparsity of the parameter vector, allowing the fraction of inliers to be inverse-polynomial in the number of samples. Prior to this work, no estimator was known to be consistent when the fraction of inliers $\alpha$ is $o(1/\log \log n)$, even for (non-spherical) Gaussian design matrices. Results holding under weak design assumptions and in the presence of such general noise have only been shown in dense setting (i.e., general linear regression) very recently by d'Orsi et al. [dNS21]. In the context of PCA, we attain optimal error guarantees under broad spikiness assumptions on the parameter matrix (usually used in matrix completion). Previous works could obtain non-trivial guarantees only under the assumptions that the measurement noise corresponding to the inliers is polynomially small in $n$ (e.g., Gaussian with variance $1/n^2$). To devise our estimators, we equip the Huber loss with non-smooth regularizers such as the $\ell_1$ norm or the nuclear norm, and extend d'Orsi et al.'s approach [dNS21] in a novel way to analyze the loss function. Our machinery appears to be easily applicable to a wide range of estimation problems.
翻訳日:2021-11-05 12:36:44 公開日:2021-11-04
# (参考訳) 構成エネルギー概念の教師なし学習 [全文訳有]

Unsupervised Learning of Compositional Energy Concepts ( http://arxiv.org/abs/2111.03042v1 )

ライセンス: CC BY 4.0
Yilun Du, Shuang Li, Yash Sharma, Joshua B. Tenenbaum, Igor Mordatch(参考訳) 人間は、以前の経験から抽出された概念を利用して、シーンを迅速に理解することができる。 このような概念は多様であり、天気や照明などの世界的なシーン記述子や、特定のオブジェクトの色や大きさといったローカルなシーン記述子が含まれる。 これまでのところ、概念の教師なし発見は、グローバルなシーンレベルか、ローカルなオブジェクトレベルの変動要素をモデル化することに集中しているが、両方ではない。 本研究では,概念を別個のエネルギー関数として定義・表現するCOMETを提案する。 COMETは入力画像を再コンパイルすることでエネルギー関数を発見し, 追加の監督なしに独立した要因を捕捉する。 COMETのサンプル生成は、基礎となるエネルギー関数の最適化プロセスとして定式化され、置換され合成された概念で画像を生成することができる。 最後に、COMETで発見された視覚概念を一般化し、異なるデータセットで訓練されたCOMETの別インスタンスによって発見された他の概念と同様に、画像の個別のモダリティ間の概念を構成することができる。 コードとデータは、https://energy-based -model.github.io/com et/で入手できる。

Humans are able to rapidly understand scenes by utilizing concepts extracted from prior experience. Such concepts are diverse, and include global scene descriptors, such as the weather or lighting, as well as local scene descriptors, such as the color or size of a particular object. So far, unsupervised discovery of concepts has focused on either modeling the global scene-level or the local object-level factors of variation, but not both. In this work, we propose COMET, which discovers and represents concepts as separate energy functions, enabling us to represent both global concepts as well as objects under a unified framework. COMET discovers energy functions through recomposing the input image, which we find captures independent factors without additional supervision. Sample generation in COMET is formulated as an optimization process on underlying energy functions, enabling us to generate images with permuted and composed concepts. Finally, discovered visual concepts in COMET generalize well, enabling us to compose concepts between separate modalities of images as well as with other concepts discovered by a separate instance of COMET trained on a different dataset. Code and data available at https://energy-based -model.github.io/com et/.
翻訳日:2021-11-05 12:33:15 公開日:2021-11-04
# テキストフィールド付きタブラリデータのためのマルチモーダルオートMLのベンチマーク

Benchmarking Multimodal AutoML for Tabular Data with Text Fields ( http://arxiv.org/abs/2111.02705v1 )

ライセンス: Link先を確認
Xingjian Shi, Jonas Mueller, Nick Erickson, Mu Li, Alexander J. Smola(参考訳) 我々は、数値・分類列だけでなく、1つ以上のテキストフィールドを含むデータテーブルに対する教師付き自動学習システムの利用を検討する。 ここでは、18のマルチモーダルデータテーブルを組み立て、それぞれがテキストフィールドを含み、実際のビジネスアプリケーションに由来する。 公開ベンチマークによって、研究者は数値、カテゴリ、テキスト機能で教師あり学習の方法を総合的に評価することができる。 To ensure that any single modeling strategy which performs well over all 18 datasets will serve as a practical foundation for multimodal text/tabular AutoML, the diverse datasets in our benchmark vary greatly in: sample size, problem types (a mix of classification and regression tasks), number of features (with the number of text columns ranging from 1 to 28 between datasets), as well as how the predictive signal is decomposed between text vs. numeric/categorical features (and predictive interactions thereof). このベンチマークでは,NLPを用いてテキストをデファチュアライズする標準的な2段階アプローチなど,このようなデータをモデル化するためのさまざまな簡単なパイプラインを評価する。 ベンチマークでベストを尽くした完全に自動化された方法論(さまざまなツリーモデルを備えたマルチモーダルトランスフォーマーのスタックアンサンブル)もまた、KaggleのMercuri Price Suggestion Challengeで2つのMachineHack予測コンテストと2位(2380チーム中)で、生のテキスト/タブラルデータに適合する1位にランクインしています。

We consider the use of automated supervised learning systems for data tables that not only contain numeric/categorical columns, but one or more text fields as well. Here we assemble 18 multimodal data tables that each contain some text fields and stem from a real business application. Our publicly-available benchmark enables researchers to comprehensively evaluate their own methods for supervised learning with numeric, categorical, and text features. To ensure that any single modeling strategy which performs well over all 18 datasets will serve as a practical foundation for multimodal text/tabular AutoML, the diverse datasets in our benchmark vary greatly in: sample size, problem types (a mix of classification and regression tasks), number of features (with the number of text columns ranging from 1 to 28 between datasets), as well as how the predictive signal is decomposed between text vs. numeric/categorical features (and predictive interactions thereof). Over this benchmark, we evaluate various straightforward pipelines to model such data, including standard two-stage approaches where NLP is used to featurize the text such that AutoML for tabular data can then be applied. Compared with human data science teams, the fully automated methodology that performed best on our benchmark (stack ensembling a multimodal Transformer with various tree models) also manages to rank 1st place when fit to the raw text/tabular data in two MachineHack prediction competitions and 2nd place (out of 2380 teams) in Kaggle's Mercari Price Suggestion Challenge.
翻訳日:2021-11-05 12:14:06 公開日:2021-11-04
# ベイズ最適化によるグラフ分類の逆攻撃

Adversarial Attacks on Graph Classification via Bayesian Optimisation ( http://arxiv.org/abs/2111.02842v1 )

ライセンス: Link先を確認
Xingchen Wan, Henry Kenlay, Binxin Ru, Arno Blaas, Michael A. Osborne, Xiaowen Dong(参考訳) グラフニューラルネットワークは、幅広いグラフベースの学習タスクに有効な一般的なモデルのクラスであり、敵の攻撃に弱いことが示されている。 文献の大部分はノードレベルの分類タスクにおいてこのような脆弱性に焦点を当てているが、グラフレベルの分類に対する敵意的な攻撃を分析することにはほとんど努力していない。 数少ない既存手法では、被害者モデルの内部情報へのアクセスや、急激な数のクエリなど、非現実的な設定を必要とすることが多い。 グラフ分類モデルに対するベイズ最適化に基づく新たな攻撃法を提案する。 提案手法はブラックボックスであり,クエリ効率が高く,摂動に対する対処法である。 提案手法の有効性と柔軟性を,様々なグラフ特性,制約,攻撃モードを含む広範囲なグラフ分類タスクで実証的に検証した。 最後に,生成されたサンプルの背後にある共通解釈可能なパターンを分析し,グラフ分類モデルの逆ロバスト性にさらなる光を当てる。

Graph neural networks, a popular class of models effective in a wide range of graph-based learning tasks, have been shown to be vulnerable to adversarial attacks. While the majority of the literature focuses on such vulnerability in node-level classification tasks, little effort has been dedicated to analysing adversarial attacks on graph-level classification, an important problem with numerous real-life applications such as biochemistry and social network analysis. The few existing methods often require unrealistic setups, such as access to internal information of the victim models, or an impractically-large number of queries. We present a novel Bayesian optimisation-based attack method for graph classification models. Our method is black-box, query-efficient and parsimonious with respect to the perturbation applied. We empirically validate the effectiveness and flexibility of the proposed method on a wide range of graph classification tasks involving varying graph properties, constraints and modes of attack. Finally, we analyse common interpretable patterns behind the adversarial samples produced, which may shed further light on the adversarial robustness of graph classification models.
翻訳日:2021-11-05 12:13:40 公開日:2021-11-04
# qimera: 合成境界支援サンプルを用いたデータフリー量子化

Qimera: Data-free Quantization with Synthetic Boundary Supporting Samples ( http://arxiv.org/abs/2111.02625v1 )

ライセンス: Link先を確認
Kanghyun Choi, Deokki Hong, Noseong Park, Youngsok Kim, Jinho Lee(参考訳) モデル量子化はディープニューラルネットワークを圧縮するための有望な方法として知られている。 しかし、モデル量子化は通常、セキュリティとプライバシに関する現実のシナリオでは実現不可能な、完全精度モデルの精度を維持するために、元のトレーニングデータにアクセスする必要がある。 元のデータにアクセスせずに量子化を行う一般的なアプローチは、バッチ正規化統計や逆学習に基づいて合成されたサンプルを使用することである。 しかし、このような手法の欠点は、主に合成サンプルの多様性を達成するために発生器に入力されるランダムノイズに依存することである。 これは多くの場合、特に決定境界に関して、元のデータの分布を捉えるには不十分である。 そこで我々は,合成境界支持試料を生成するために重ね合わせの潜伏埋め込みを用いたQimeraを提案する。 重畳埋め込みは, 元の分布をよりよく反映するため, 追加の異方性マッピング層を用い, 全精度モデルから情報を抽出することを提案する。 実験結果から,Qimeraはデータフリー量子化における各種設定に対して,最先端の性能を実現することが示された。 コードはhttps://github.com/i amkanghyunchoi/qimer aで入手できる。

Model quantization is known as a promising method to compress deep neural networks, especially for inferences on lightweight mobile or edge devices. However, model quantization usually requires access to the original training data to maintain the accuracy of the full-precision models, which is often infeasible in real-world scenarios for security and privacy issues. A popular approach to perform quantization without access to the original data is to use synthetically generated samples, based on batch-normalization statistics or adversarial learning. However, the drawback of such approaches is that they primarily rely on random noise input to the generator to attain diversity of the synthetic samples. We find that this is often insufficient to capture the distribution of the original data, especially around the decision boundaries. To this end, we propose Qimera, a method that uses superposed latent embeddings to generate synthetic boundary supporting samples. For the superposed embeddings to better reflect the original distribution, we also propose using an additional disentanglement mapping layer and extracting information from the full-precision model. The experimental results show that Qimera achieves state-of-the-art performances for various settings on data-free quantization. Code is available at https://github.com/i amkanghyunchoi/qimer a.
翻訳日:2021-11-05 12:12:33 公開日:2021-11-04
# (参考訳) 局所シナプス塑性によるイベントベース時空間特徴記述子学習:コンピュータビジョンの生物学的現実的視点 [全文訳有]

Learning Event-based Spatio-Temporal Feature Descriptors via Local Synaptic Plasticity: A Biologically-realist ic Perspective of Computer Vision ( http://arxiv.org/abs/2111.00791v2 )

ライセンス: CC BY 4.0
Ali Safa, Hichem Sahli, Andr\'e Bourdoux, Ilja Ocket, Francky Catthoor, Georges Gielen(参考訳) 視覚野で経験的に観察されるように,スパイクタイミング依存塑性学習(STDP)を用いたスパイク皮質アンサンブルを最適化した理論を提案する。 提案手法を用いて,N-MNIST,CIFAR10-DVS ,IBM DVS128ジェスチャデータセットでそれぞれ評価するイベントベースカメラのための,完全接続型,畳み込み型,アクションベースの機能記述器のクラスを構築した。 CIFAR10-DVSでは,従来のイベントベースの特徴記述子 (+8%) と比較して, 精度が向上した。 最新のSTDPシステムに比べて精度が大幅に向上した(N-MNISTでは+10%、IBM DVS128 Gestureでは+7.74%)。 ニューロモルフィックエッジデバイスにおける超低消費電力学習に加えて、私たちの研究は、生物学的に現実的で最適化に基づく皮質視覚の理論への道を開くのに役立ちます。

We present an optimization-based theory describing spiking cortical ensembles equipped with Spike-Timing-Depende nt Plasticity (STDP) learning, as empirically observed in the visual cortex. Using our methods, we build a class of fully-connected, convolutional and action-based feature descriptors for event-based camera that we respectively assess on N-MNIST, challenging CIFAR10-DVS and on the IBM DVS128 gesture dataset. We report significant accuracy improvements compared to conventional state-of-the-art event-based feature descriptors (+8% on CIFAR10-DVS). We report large improvements in accuracy compared to state-of-the-art STDP-based systems (+10% on N-MNIST, +7.74% on IBM DVS128 Gesture). In addition to ultra-low-power learning in neuromorphic edge devices, our work helps paving the way towards a biologically-realist ic, optimization-based theory of cortical vision.
翻訳日:2021-11-05 11:40:30 公開日:2021-11-04
# (参考訳) 文字列からデータサイエンスへ - 文字列の自動処理のための実践的フレームワーク [全文訳有]

From Strings to Data Science: a Practical Framework for Automated String Handling ( http://arxiv.org/abs/2111.01868v2 )

ライセンス: CC BY 4.0
John W. van Lith and Joaquin Vanschoren(参考訳) 多くの機械学習ライブラリは、モデルの意図した動作のために、文字列機能を数値表現に変換する必要がある。 カテゴリ文字列機能は、様々なデータ(例えば、zipコード、名前、結婚状態)を表現でき、自動で前処理するのは非常に難しい。 本稿では,ベストプラクティス,ドメイン知識,新しい技術に基づく枠組みを提案する。 異なるタイプの文字列の特徴を自動的に識別し、それに従って処理し、数値表現にエンコードする。 また、オープンソースのPython実装で、表形式のデータセットで分類文字列を自動的に前処理し、幅広いデータセットで有望な結果を示す。

Many machine learning libraries require that string features be converted to a numerical representation for the models to work as intended. Categorical string features can represent a wide variety of data (e.g., zip codes, names, marital status), and are notoriously difficult to preprocess automatically. In this paper, we propose a framework to do so based on best practices, domain knowledge, and novel techniques. It automatically identifies different types of string features, processes them accordingly, and encodes them into numerical representations. We also provide an open source Python implementation to automatically preprocess categorical string data in tabular datasets and demonstrate promising results on a wide range of datasets.
翻訳日:2021-11-05 11:21:53 公開日:2021-11-04
# (参考訳) 半監督学習によるフェアネス達成は可能か? [全文訳有]

Can We Achieve Fairness Using Semi-Supervised Learning? ( http://arxiv.org/abs/2111.02038v2 )

ライセンス: CC BY-SA 4.0
Joymallya Chakraborty, Huy Tu, Suvodeep Majumder, Tim Menzies(参考訳) 機械学習モデルにおける倫理的バイアスは、ソフトウェアエンジニアリングコミュニティにおいて問題となっている。 以前のソフトウェアエンジニアリングのほとんどは、モデルに修正するよりも、モデルの倫理バイアスを見つけることに集中していた。 バイアスを見つけた後、次のステップは緩和です。 以前の研究者は、主に公正性を達成するために教師付きアプローチを使おうとした。 しかし、現実の世界では、信頼できる基礎的真理を持つデータを得ることは困難であり、基盤的真理は人間のバイアスを含む可能性がある。 半教師あり学習(semi-supervised learning)は、ラベル付きデータを段階的に使用して、残りのデータに対する擬似ラベルを生成する機械学習テクニックである(そして、そのデータはすべてモデルトレーニングに使用される)。 本研究では, 4つの一般的な半教師付き手法を疑似ラベルとして適用し, 公平な分類モデルを構築した。 当社のフレームワークであるFair-SSLは,ラベル付きデータのごく少量(10%)を入力として,ラベルなしデータの擬似ラベルを生成する。 次に,fse 2021でchakrabortyらによって提案されたクラスと保護属性に基づくトレーニングデータのバランスをとるために,新たなデータポイントを合成的に生成する。 最後に、分類モデルはバランスのとれた擬似ラベルデータに基づいて訓練され、テストデータに基づいて検証される。 10のデータセットと3人の学習者で実験した結果、Fair-SSLは3つの最先端バイアス軽減アルゴリズムと同じようなパフォーマンスを実現していることがわかった。 とはいえ、Fair-SSLの明確な利点は、ラベル付きトレーニングデータの10%しか必要としないことだ。 私たちの知る限りでは、SE MLモデルにおける倫理的バイアスに対抗するために半教師付きテクニックが使用されるのは、これが初めてです。

Ethical bias in machine learning models has become a matter of concern in the software engineering community. Most of the prior software engineering works concentrated on finding ethical bias in models rather than fixing it. After finding bias, the next step is mitigation. Prior researchers mainly tried to use supervised approaches to achieve fairness. However, in the real world, getting data with trustworthy ground truth is challenging and also ground truth can contain human bias. Semi-supervised learning is a machine learning technique where, incrementally, labeled data is used to generate pseudo-labels for the rest of the data (and then all that data is used for model training). In this work, we apply four popular semi-supervised techniques as pseudo-labelers to create fair classification models. Our framework, Fair-SSL, takes a very small amount (10%) of labeled data as input and generates pseudo-labels for the unlabeled data. We then synthetically generate new data points to balance the training data based on class and protected attribute as proposed by Chakraborty et al. in FSE 2021. Finally, the classification model is trained on the balanced pseudo-labeled data and validated on test data. After experimenting on ten datasets and three learners, we find that Fair-SSL achieves similar performance as three state-of-the-art bias mitigation algorithms. That said, the clear advantage of Fair-SSL is that it requires only 10% of the labeled training data. To the best of our knowledge, this is the first SE work where semi-supervised techniques are used to fight against ethical bias in SE ML models.
翻訳日:2021-11-05 11:09:47 公開日:2021-11-04
# (参考訳) BERT-DRE:自然言語文マッチングのための深部再帰エンコーダを用いたBERT [全文訳有]

BERT-DRE: BERT with Deep Recursive Encoder for Natural Language Sentence Matching ( http://arxiv.org/abs/2111.02188v2 )

ライセンス: CC BY 4.0
Ehsan Tavan, Ali Rahmati, Maryam Najafi, Saeed Bibak, Zahed Rahmati(参考訳) 本稿では,深層再帰エンコーダ(BERT-DRE)をBERTに付加することにより,自然言語文マッチング(NLSM)のためのディープニューラルネットワークを提案する。 モデル動作の解析から,BERTはテキストの複雑さをフルに捉えていないことが分かるので,BERT上に深層再帰エンコーダを適用する。 残コネクションを持つ3つのBi-LSTM層を用いて再帰エンコーダを設計し、このエンコーダの上にアテンションモジュールを用いる。 最終ベクトルを得るには、平均および最大プーリングからなるプーリング層を用いる。 我々は、SNLI、FarsTail、MultiNLI、SciTailの4つのベンチマークと、新しいペルシアの宗教的質問データセットでモデルを実験した。 本稿では,NLSMタスクにおけるBERT結果の改善に焦点を当てる。 この場合、BERT-DREとBERTの比較を行い、BERT-DREがBERTより優れていることを示す。 BERTアルゴリズムは89.70%の精度を達成し、BERT-DREアーキテクチャは90.29%まで改善された。

This paper presents a deep neural architecture, for Natural Language Sentence Matching (NLSM) by adding a deep recursive encoder to BERT so called BERT with Deep Recursive Encoder (BERT-DRE). Our analysis of model behavior shows that BERT still does not capture the full complexity of text, so a deep recursive encoder is applied on top of BERT. Three Bi-LSTM layers with residual connection are used to design a recursive encoder and an attention module is used on top of this encoder. To obtain the final vector, a pooling layer consisting of average and maximum pooling is used. We experiment our model on four benchmarks, SNLI, FarsTail, MultiNLI, SciTail, and a novel Persian religious questions dataset. This paper focuses on improving the BERT results in the NLSM task. In this regard, comparisons between BERT-DRE and BERT are conducted, and it is shown that in all cases, BERT-DRE outperforms BERT. The BERT algorithm on the religious dataset achieved an accuracy of 89.70%, and BERT-DRE architectures improved to 90.29% using the same dataset.
翻訳日:2021-11-05 10:47:41 公開日:2021-11-04
# ディープラーニングを用いたツイートの因果関係の同定--2017-2021年の糖尿病関連ツイートを事例として

Identifying causal associations in tweets using deep learning: Use case on diabetes-related tweets from 2017-2021 ( http://arxiv.org/abs/2111.01225v3 )

ライセンス: Link先を確認
Adrian Ahne, Vivek Khetan, Xavier Tannier, Md Imbessat Hassan Rizvi, Thomas Czernichow, Francisco Orchard, Charline Bour, Andrew Fano, Guy Fagherazzi(参考訳) 目的: 糖尿病関連ツイートにおける明示的・暗黙的な因果関係を抽出し, 因果性の観点から, 糖尿病オンラインコミュニティ内で共有されている意見, 感情, 観察をよりよく理解するためのツールを提供する。 資料と方法:2017年4月から2021年1月の間に、3000万以上の英語の糖尿病関連ツイートが収集された。 ディープラーニングと自然言語処理は、個人的および感情的なコンテンツのツイートに焦点を当てるために適用された。 cause-effect-tweetデータセットが手動でラベル付けされ、トレーニングに使用される 1) 因果関係を含む因果関係文を検出するための微調整Bertweetモデル 2) BERTをベースとしたCRFモデルを用いて, 因果関係を抽出した。 原因と影響は半教師付きアプローチでクラスター化され、インタラクティブな因果効果ネットワークで可視化された。 結果: 不均衡データセットでは68%のリコールで因果文が検出された。 BERTをベースとしたCRFモデルは68%のマクロリコールで原因効果検出のための細調整BERTモデルより優れていた。 これにより96,676件の大義関連判決が下された。 ディアベテス」は中央クラスタとして同定され、「死」と「インスリン」が続く。 インスリン価格関連原因は、しばしば「死」と関連づけられた。 結論: 因果文を検出し, 明示的, 暗黙的, 単語的および多語的原因とそれに対応する効果を, BERTベースのアーキテクチャを活用し, 原因効果ネットワークとして可視化した糖尿病関連ツイートで表す新しい手法を開発した。 実生活における因果関係を抽出し,ソーシャルメディアデータから報告した患者報告の結果は,糖尿病研究において有用な補完的情報源となる。

Objective: Leveraging machine learning methods, we aim to extract both explicit and implicit cause-effect associations in patient-reported, diabetes-related tweets and provide a tool to better understand opinion, feelings and observations shared within the diabetes online community from a causality perspective. Materials and Methods: More than 30 million diabetes-related tweets in English were collected between April 2017 and January 2021. Deep learning and natural language processing methods were applied to focus on tweets with personal and emotional content. A cause-effect-tweet dataset was manually labeled and used to train 1) a fine-tuned Bertweet model to detect causal sentences containing a causal association 2) a CRF model with BERT based features to extract possible cause-effect associations. Causes and effects were clustered in a semi-supervised approach and visualised in an interactive cause-effect-network . Results: Causal sentences were detected with a recall of 68% in an imbalanced dataset. A CRF model with BERT based features outperformed a fine-tuned BERT model for cause-effect detection with a macro recall of 68%. This led to 96,676 sentences with cause-effect associations. "Diabetes" was identified as the central cluster followed by "Death" and "Insulin". Insulin pricing related causes were frequently associated with "Death". Conclusions: A novel methodology was developed to detect causal sentences and identify both explicit and implicit, single and multi-word cause and corresponding effect as expressed in diabetes-related tweets leveraging BERT-based architectures and visualised as cause-effect-network . Extracting causal associations on real-life, patient reported outcomes in social media data provides a useful complementary source of information in diabetes research.
翻訳日:2021-11-05 10:32:46 公開日:2021-11-04
# RMNA:ルールマイニングを用いた近隣アグリゲーションに基づく知識グラフ表現学習モデル

RMNA: A Neighbor Aggregation-Based Knowledge Graph Representation Learning Model Using Rule Mining ( http://arxiv.org/abs/2111.00658v2 )

ライセンス: Link先を確認
Ling Chen, Jun Cui, Xing Tang, Chaodu Song, Yuntao Qian, Yansheng Li, and Yongjun Zhang(参考訳) 最先端の伝統的な表現学習(TRL)モデルは知識グラフの完成度において競争性能を示すが、実体の埋め込みの間にパラメータ共有はなく、実体間の接続が弱い。 そこで,隣接集約型表現学習(narl)モデルを提案する。 しかし、既存のNARLモデルは、複数のホップ隣人の情報を無視したり、階層的な隣人の集約によって、複数のホップ隣人の完全性を破壊したりする。 本稿では,ルールマイニングアルゴリズムを用いてホルンルールを取得しフィルタするRMNAというNARLモデルを提案する。また,選択されたホルンルールを用いて,貴重なマルチホップ隣人をワンホップ隣人に変換するので,これらのワンホップ隣人を集約することで,有意義なマルチホップ隣人の情報を完全に活用することができる。 実験では,RMNAと最先端TRLモデル,NARLモデルを比較した。 その結果,RMNAは競争力のある性能を示した。

Although the state-of-the-art traditional representation learning (TRL) models show competitive performance on knowledge graph completion, there is no parameter sharing between the embeddings of entities, and the connections between entities are weak. Therefore, neighbor aggregation-based representation learning (NARL) models are proposed, which encode the information in the neighbors of an entity into its embeddings. However, existing NARL models either only utilize one-hop neighbors, ignoring the information in multi-hop neighbors, or utilize multi-hop neighbors by hierarchical neighbor aggregation, destroying the completeness of multi-hop neighbors. In this paper, we propose a NARL model named RMNA, which obtains and filters horn rules through a rule mining algorithm, and uses selected horn rules to transform valuable multi-hop neighbors into one-hop neighbors, therefore, the information in valuable multi-hop neighbors can be completely utilized by aggregating these one-hop neighbors. In experiments, we compare RMNA with the state-of-the-art TRL models and NARL models. The results show that RMNA has a competitive performance.
翻訳日:2021-11-05 10:32:18 公開日:2021-11-04
# ウェアラブルカメラと多モード融合による人間軌道予測

Egocentric Human Trajectory Forecasting with a Wearable Camera and Multi-Modal Fusion ( http://arxiv.org/abs/2111.00993v2 )

ライセンス: Link先を確認
Jianing Qiu, Lipeng Chen, Xiao Gu, Frank P.-W. Lo, Ya-Yen Tsai, Jiankai Sun, Jiaqi Liu and Benny Lo(参考訳) 本稿では,密集空間における自我中心型カメラ装着者(自我者)の軌跡予測の問題に対処する。 現実世界を歩き回るさまざまなカメラの装着者のデータから得られた軌道予測能力は、視覚障害者のナビゲーション支援や、移動ロボットにおける人間のナビゲーション行動のシミュレーション、人間とロボットのインタラクションの改善に移すことができる。 この目的のために、カメラを装着した混雑した空間を航行する人々の実際の軌跡を含む、新しいエゴセントリックな人間の軌道予測データセットを構築し、豊かな文脈データを抽出した。 我々は,カメラ装着者の過去の軌跡,近所の人々の過去の軌跡,シーンの意味やシーンの深さなどの環境を予測するために,3つの異なるモダリティを抽出し,活用する。 複数のモードを融合する新しいカスケードクロスアテンション機構を組み込んだトランスフォーマベースのエンコーダ・デコーダニューラルネットワークモデルは、カメラ装着者の将来の軌道を予測するために設計されている。 実験により,エゴセントリックな人軌道予測において,本モデルが最先端の手法より優れていることが示された。

In this paper, we address the problem of forecasting the trajectory of an egocentric camera wearer (ego-person) in crowded spaces. The trajectory forecasting ability learned from the data of different camera wearers walking around in the real world can be transferred to assist visually impaired people in navigation, as well as to instill human navigation behaviours in mobile robots, enabling better human-robot interactions. To this end, a novel egocentric human trajectory forecasting dataset was constructed, containing real trajectories of people navigating in crowded spaces wearing a camera, as well as extracted rich contextual data. We extract and utilize three different modalities to forecast the trajectory of the camera wearer, i.e., his/her past trajectory, the past trajectories of nearby people, and the environment such as the scene semantics or the depth of the scene. A Transformer-based encoder-decoder neural network model, integrated with a novel cascaded cross-attention mechanism that fuses multiple modalities, has been designed to predict the future trajectory of the camera wearer. Extensive experiments have been conducted, and the results have shown that our model outperforms the state-of-the-art methods in egocentric human trajectory forecasting.
翻訳日:2021-11-05 10:31:58 公開日:2021-11-04
# 単純言語横断的意見マイニングの事例研究と質的分析

A Case Study and Qualitative Analysis of Simple Cross-Lingual Opinion Mining ( http://arxiv.org/abs/2111.02259v2 )

ライセンス: Link先を確認
Gerhard Hagerer, Wing Sheung Leung, Qiaoxi Liu, Hannah Danner, Georg Groh(参考訳) ソーシャルメディアからのユーザ生成コンテンツは多くの言語で作られており、異なる文化や地域にわたってあるドメインから議論されたテーマを比較することは技術的に困難である。 これは、市場調査のようなグローバル化した世界のドメインに関係しており、2つの国と市場の人々が製品に対して異なる要件を持つ可能性がある。 本稿では,自然言語理解のための事前学習された最先端ニューラルネットワークに基づいて,複数の言語を同時にカバー可能な感情分析を用いた単一トピックモデルの構築方法を提案する。 その実現可能性を示すために,本モデルは新聞記事や特定のドメイン,すなわち有機食品および関連する消費行動のユーザコメントに適用する。 テーマは言語間で一致している。 また,安定的かつドメイン関連性の高い話題の比率が高いこと,トピックとそれぞれのテキスト内容の有意義な関係,ソーシャルメディア文書の解釈可能な表現が得られる。 マーケティングは、世界中の異なる市場地域から特定の顧客の興味に対処するための使いやすい手段を提供するので、当社の手法の恩恵を受ける可能性がある。 再現性のために、我々は研究のコード、データ、結果を提供する。

User-generated content from social media is produced in many languages, making it technically challenging to compare the discussed themes from one domain across different cultures and regions. It is relevant for domains in a globalized world, such as market research, where people from two nations and markets might have different requirements for a product. We propose a simple, modern, and effective method for building a single topic model with sentiment analysis capable of covering multiple languages simultanteously, based on a pre-trained state-of-the-art deep neural network for natural language understanding. To demonstrate its feasibility, we apply the model to newspaper articles and user comments of a specific domain, i.e., organic food products and related consumption behavior. The themes match across languages. Additionally, we obtain an high proportion of stable and domain-relevant topics, a meaningful relation between topics and their respective textual contents, and an interpretable representation for social media documents. Marketing can potentially benefit from our method, since it provides an easy-to-use means of addressing specific customer interests from different market regions around the globe. For reproducibility, we provide the code, data, and results of our study.
翻訳日:2021-11-05 10:31:35 公開日:2021-11-04
# PDE-READ:ディープラーニングを用いた人間可読部分微分方程式探索

PDE-READ: Human-readable Partial Differential Equation Discovery using Deep Learning ( http://arxiv.org/abs/2111.00998v2 )

ライセンス: Link先を確認
Robert Stephany, Christopher Earls(参考訳) PDE発見は、複雑な物理系の予測モデルを明らかにすることを約束するが、測定がまばらでノイズの多い場合には困難である。 本稿では,2つの有理ニューラルネットワークと原理的スパース回帰アルゴリズムを用いて,システムの応答を支配する隠れたダイナミクスを同定する新しい手法を提案する。 第1のネットワークはシステム応答関数を、第2のネットワークはシステムの進化を駆動する隠れPDEを学習する。 次に,パラメータフリーなスパース回帰アルゴリズムを用いて,隠れたPDEの可読な形式を第2ネットワークから抽出する。 我々はPDE-READと呼ばれるオープンソースライブラリにアプローチを実装した。 提案手法は, 熱, バーガース, コルテヴェーグ・ド・ブリーズ方程式を顕著な整合性で同定する。 提案手法は空間と雑音の両方に対して前例のない頑健であり,実世界の観測データに適用可能であることを示す。

PDE discovery shows promise for uncovering predictive models for complex physical systems but has difficulty when measurements are sparse and noisy. We introduce a new approach for PDE discovery that uses two Rational Neural Networks and a principled sparse regression algorithm to identify the hidden dynamics that govern a system's response. The first network learns the system response function, while the second learns a hidden PDE which drives the system's evolution. We then use a parameter-free sparse regression algorithm to extract a human-readable form of the hidden PDE from the second network. We implement our approach in an open-source library called PDE-READ. Our approach successfully identifies the Heat, Burgers, and Korteweg-De Vries equations with remarkable consistency. We demonstrate that our approach is unprecedentedly robust to both sparsity and noise and is, therefore, applicable to real-world observational data.
翻訳日:2021-11-05 10:31:16 公開日:2021-11-04
# 監視学習におけるてんかん(モデル)不確実性に関する調査研究:最近の進歩と応用

A Survey on Epistemic (Model) Uncertainty in Supervised Learning: Recent Advances and Applications ( http://arxiv.org/abs/2111.01968v2 )

ライセンス: Link先を確認
Xinlei Zhou and Han Liu and Farhad Pourpanah and Tieyong Zeng and Xizhao Wang(参考訳) 教師付き学習モデルの不確かさの定量化は、より信頼できる予測を行う上で重要な役割を果たす。 通常、モデルに関する知識不足が原因で生じるてんかんの不確実性は、より多くのデータを収集したり、学習モデルを精査することで軽減することができる。 ここ数年、学者は、ベイズとアンサンブルの2つのカテゴリに大まかに分類できる多くの疫学的不確実性処理技術を提案してきた。 本稿では,過去5年間の教師あり学習における疫学不確実性学習手法の総合的なレビューを行う。 このようにして、我々はまず、認識の不確実性をバイアスと分散項に分解する。 そして, その代表モデルとともに, エピステマティック不確実性学習技術の階層的分類を導入する。 さらに,コンピュータビジョン (cv) や自然言語処理 (nlp) などの応用例を提示するとともに,研究ギャップと今後の研究方向性について考察した。

Quantifying the uncertainty of supervised learning models plays an important role in making more reliable predictions. Epistemic uncertainty, which usually is due to insufficient knowledge about the model, can be reduced by collecting more data or refining the learning models. Over the last few years, scholars have proposed many epistemic uncertainty handling techniques which can be roughly grouped into two categories, i.e., Bayesian and ensemble. This paper provides a comprehensive review of epistemic uncertainty learning techniques in supervised learning over the last five years. As such, we, first, decompose the epistemic uncertainty into bias and variance terms. Then, a hierarchical categorization of epistemic uncertainty learning techniques along with their representative models is introduced. In addition, several applications such as computer vision (CV) and natural language processing (NLP) are presented, followed by a discussion on research gaps and possible future research directions.
翻訳日:2021-11-05 10:31:02 公開日:2021-11-04