このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220131となっている論文です。

PDF登録状況(公開日: 20220131)

TitleAuthorsAbstract論文公表日・翻訳日
# 画像デブラリングに関する調査研究

A Survey on Image Deblurring ( http://arxiv.org/abs/2202.07456v1 )

ライセンス: Link先を確認
ChuMiao Li(参考訳) 社会生活の質の向上と日々の仕事の本当のニーズにより、画像はますます私たちの周りにあります。 カメラの揺れや人間の動きなどによる画像のぼやけが、画質に影響を与える鍵となっている。 画像のぼやけを取り除き、鮮明な画像を復元する方法は、コンピュータビジョンの分野で徐々に重要な研究方向になりつつある。 半世紀以上にわたる断続的な努力の後、科学者や技術労働者の大多数は、画像の劣化で実りある進歩を遂げた。 本稿では,画像デブラリングの研究を概観し,より古典的な画像デブラリング手法について紹介する。 本稿では,従来の画像デブロアリング法と深度表現型画像デブロアリング法を概観し,対応する技術手法を包括的に分類し紹介する。 このレビューは、画像劣化の分野の研究者へのガイダンスを提供すると同時に、その後の研究と研究を促進する。

With the improvement of social life quality and the real needs of daily work, images are more and more all around us. Image blurring due to camera shake, human movement, etc. has become the key to affecting image quality. How to remove image blur and restore clear image has gradually become an important research direction in the field of computer vision. After more than half a century of unremitting efforts, the majority of scientific and technological workers have made fruitful progress in image deblurring. This article reviews the work of image deblurring and specifically introduces more classic image deblurring methods, which is helpful to understand current research and look forward to future trends. This article reviews the traditional image deblurring methods and depth-represented image deblurring methods, and comprehensively classifies and introduces the corresponding technical methods. This review can provide some guidance for researchers in the field of image deblurring, and at the same time facilitate their subsequent study and research.
翻訳日:2022-02-20 16:29:50 公開日:2022-01-31
# (参考訳) レートコーディングか直接符号化か:精度、ロバスト、エネルギー効率の良いスパイクニューラルネットワークでどちらが優れているか? [全文訳有]

Rate Coding or Direct Coding: Which One is Better for Accurate, Robust, and Energy-efficient Spiking Neural Networks? ( http://arxiv.org/abs/2202.03133v1 )

ライセンス: CC BY 4.0
Youngeun Kim, Hyoungseob Park, Abhishek Moitra, Abhiroop Bhattacharjee, Yeshwanth Venkatesha, Priyadarshini Panda(参考訳) 最近のスパイキングニューラルネットワーク(SNN)は画像分類タスクに重点を置いているため、画像を時間的バイナリスパイクに変換するための様々なコーディング技術が提案されている。 これらのうち、レート符号化と直接符号化は、大規模データセット上での最先端性能を示すため、実用的なSNNシステムを構築するための候補として期待されている。 使用するにもかかわらず、この2つのコーディング方式を公平に比較することにはほとんど注意が払わない。 本稿では,この2つの符号化を,正確性,逆ロバスト性,エネルギー効率という3つの観点から包括的に解析する。 まず、2つのコーディング手法の性能を様々なアーキテクチャとデータセットと比較する。 次に,2つの攻撃手法における符号化手法のロバスト性を測定する。 最後に,デジタルハードウェアプラットフォームにおける2つの符号化方式のエネルギー効率を比較する。 その結果、直接符号化は特に少数の時間ステップにおいて精度が向上することがわかった。 対照的に、レートコーディングは、非微分可能スパイク生成プロセスによる敵攻撃に対してより堅牢性を示す。 レート符号化は、第1層にマルチビット精度を必要とする直接符号化よりも高いエネルギー効率をもたらす。 本研究は2つのコーディングの特徴を考察し,sns構築における重要な設計上の考察である。 コードはhttps://github.com/I ntelligent-Computing -Lab-Yale/Rate-vs-Di rectで公開されている。

Recent Spiking Neural Networks (SNNs) works focus on an image classification task, therefore various coding techniques have been proposed to convert an image into temporal binary spikes. Among them, rate coding and direct coding are regarded as prospective candidates for building a practical SNN system as they show state-of-the-art performance on large-scale datasets. Despite their usage, there is little attention to comparing these two coding schemes in a fair manner. In this paper, we conduct a comprehensive analysis of the two codings from three perspectives: accuracy, adversarial robustness, and energy-efficiency. First, we compare the performance of two coding techniques with various architectures and datasets. Then, we measure the robustness of the coding techniques on two adversarial attack methods. Finally, we compare the energy-efficiency of two coding schemes on a digital hardware platform. Our results show that direct coding can achieve better accuracy especially for a small number of timesteps. In contrast, rate coding shows better robustness to adversarial attacks owing to the non-differentiable spike generation process. Rate coding also yields higher energy-efficiency than direct coding which requires multi-bit precision for the first layer. Our study explores the characteristics of two codings, which is an important design consideration for building SNNs. The code is made available at https://github.com/I ntelligent-Computing -Lab-Yale/Rate-vs-Di rect.
翻訳日:2022-02-14 00:39:18 公開日:2022-01-31
# 株価予測のための機械学習モデルの比較研究

Comparative Study of Machine Learning Models for Stock Price Prediction ( http://arxiv.org/abs/2202.03156v1 )

ライセンス: Link先を確認
Ogulcan E. Orsel, Sasha S. Yamada(参考訳) 本研究では,機械学習を過去の株価に応用し,今後の価格予測を行う。 これを実現するために,時系列データの処理に適した再帰的アプローチを用いる。 特に,線形カルマンフィルタと異なる長短短期記憶(lstm)アーキテクチャを,過去10年間の株価(1/1/20111/1/2021)に対して適用する。 予測値の誤差を各在庫の履歴値と比較することにより,これらのモデルの結果を定量化する。 私たちが調査したアルゴリズムのうち、単純な線形カルマンフィルタは、低ボラティリティ(例えばMicrosoft)を持つ株の次の日の値を予測することができる。 しかし、高ボラティリティ株(例えばTesla)の場合、より複雑なLSTMアルゴリズムはカルマンフィルタを著しく上回る。 以上の結果から,異なるタイプの株を分類し,各株に対してLSTMを訓練できることがわかった。 この方法は、目標リターン率のポートフォリオ生成を自動化するために使用できる。

In this work, we apply machine learning techniques to historical stock prices to forecast future prices. To achieve this, we use recursive approaches that are appropriate for handling time series data. In particular, we apply a linear Kalman filter and different varieties of long short-term memory (LSTM) architectures to historical stock prices over a 10-year range (1/1/2011 - 1/1/2021). We quantify the results of these models by computing the error of the predicted values versus the historical values of each stock. We find that of the algorithms we investigated, a simple linear Kalman filter can predict the next-day value of stocks with low-volatility (e.g., Microsoft) surprisingly well. However, in the case of high-volatility stocks (e.g., Tesla) the more complex LSTM algorithms significantly outperform the Kalman filter. Our results show that we can classify different types of stocks and then train an LSTM for each stock type. This method could be used to automate portfolio generation for a target return rate.
翻訳日:2022-02-13 14:26:58 公開日:2022-01-31
# (参考訳) 等価トレーニングデータセット構築のための適応サンプリング戦略 [全文訳有]

Adaptive Sampling Strategies to Construct Equitable Training Datasets ( http://arxiv.org/abs/2202.01327v1 )

ライセンス: CC BY 4.0
William Cai, Ro Encarnacion, Bobbie Chern, Sam Corbett-Davies, Miranda Bogen, Stevie Bergman, Sharad Goel(参考訳) コンピュータビジョンから自然言語処理まで幅広い分野において、機械学習のモデルは非常に異なることが示されており、伝統的に保存されていないグループのメンバーにとってパフォーマンスが悪くなることが多い。 これらのパフォーマンスギャップに寄与する要因の1つは、モデルがトレーニングしたデータの表現不足である。 しかし、特定のアプリケーションでどのように代表性を運用するかはしばしば不明である。 本稿では,等価なトレーニングデータセットを作成する問題を定式化し,この問題に対処するための統計的枠組みを提案する。 モデルビルダーは、異なるサブグループからトレーニングデータを収集するために、固定データ収集予算を割り当てる方法を決定する必要がある。 次に、制約付き最適化問題としてデータセット作成をフレーム化し、グループ固有の学習率とサンプルあたりのコストに基づいてグループ固有のパフォーマンス指標の関数を最大化する。 この柔軟なアプローチには、モデルビルダーや他の利害関係者の好みや、学習タスクの統計的性質が含まれる。 データ収集決定が逐次行われると、ある条件下では、学習率の事前知識がなくても、この最適化問題を効率的に解けることを示す。 このアプローチを説明するために、我々は合成ゲノムデータ(非表現的データ収集に悩まされることが多いアプリケーション領域)のポリジェニックリスクスコアのシミュレーション研究を行う。 適応的サンプリング戦略は、等比例サンプリングを含む複数の一般的なデータ収集ヒューリスティックスより優れており、等価モデルを構築するための戦略的データセット設計の価値を示す。

In domains ranging from computer vision to natural language processing, machine learning models have been shown to exhibit stark disparities, often performing worse for members of traditionally underserved groups. One factor contributing to these performance gaps is a lack of representation in the data the models are trained on. It is often unclear, however, how to operationalize representativeness in specific applications. Here we formalize the problem of creating equitable training datasets, and propose a statistical framework for addressing this problem. We consider a setting where a model builder must decide how to allocate a fixed data collection budget to gather training data from different subgroups. We then frame dataset creation as a constrained optimization problem, in which one maximizes a function of group-specific performance metrics based on (estimated) group-specific learning rates and costs per sample. This flexible approach incorporates preferences of model-builders and other stakeholders, as well as the statistical properties of the learning task. When data collection decisions are made sequentially, we show that under certain conditions this optimization problem can be efficiently solved even without prior knowledge of the learning rates. To illustrate our approach, we conduct a simulation study of polygenic risk scores on synthetic genomic data -- an application domain that often suffers from non-representative data collection. We find that our adaptive sampling strategy outperforms several common data collection heuristics, including equal and proportional sampling, demonstrating the value of strategic dataset design for building equitable models.
翻訳日:2022-02-05 06:18:32 公開日:2022-01-31
# (参考訳) インドにおける太陽エネルギー配置のための人工知能データセット [全文訳有]

An Artificial Intelligence Dataset for Solar Energy Locations in India ( http://arxiv.org/abs/2202.01340v1 )

ライセンス: CC BY 4.0
Anthony Ortiz, Dhaval Negandhi, Sagar R Mysorekar, Joseph Kiesecker, Shivaprakash K Nagaraju, Caleb Robinson, Priyal Bhatia, Aditi Khurana, Jane Wang, Felipe Oviedo, Juan Lavista Ferres(参考訳) 再生可能エネルギー源、特に太陽光発電の急速な発展は、気候変動の緩和に不可欠である。 その結果、インドは2030年までに300ギガワットの太陽エネルギーを投入するという野心的な目標を掲げた。 これらの再生可能エネルギーを目標とする大きなフットプリントを考えると、環境や社会的価値に対する土地利用紛争の可能性が高い。 太陽エネルギーの開発を迅速化するためには、土地利用プランナーはPVインフラの最新の正確な地理空間情報にアクセスする必要がある。 最近の研究の大半は、リソース適合性の予測と、かなりのサンプリングバイアスや、プロジェクトが許可されたときと位置情報が利用可能になったときの間の時間的遅れがあるthruクラウドソーシングを開発したデータベースのいずれかを使っている。 本稿では,インド全土の実用規模のソーラープロジェクトを地図化するための空間的明示的な機械学習モデルを開発することで,この問題に対処する。 これらのアウトプットを用いて、インド全体での太陽フットプリントの累積測定を行い、紛争を引き起こす可能性のある土地被覆タイプに関連する土地変更の程度を定量化した。 解析の結果,インドにおける太陽開発は,自然生態系の保全と農業的価値を有する土地被覆型で構築された。 したがって、平均精度92\%のこの方法では、ソーラープロジェクトの土地適合性を促進する要因の特定が可能であり、グリーンエネルギーシステムのグローバルな脱炭に関するトレードオフを評価する研究に広く関心が集まる。 同様に、我々のモデルは、再生可能エネルギー配置目標のリモートセンシングと長期監視の実現可能性を高める。

Rapid development of renewable energy sources, particularly solar photovoltaics, is critical to mitigate climate change. As a result, India has set ambitious goals to install 300 gigawatts of solar energy capacity by 2030. Given the large footprint projected to meet these renewable energy targets the potential for land use conflicts over environmental and social values is high. To expedite development of solar energy, land use planners will need access to up-to-date and accurate geo-spatial information of PV infrastructure. The majority of recent studies use either predictions of resource suitability or databases that are either developed thru crowdsourcing that often have significant sampling biases or have time lags between when projects are permitted and when location data becomes available. Here, we address this shortcoming by developing a spatially explicit machine learning model to map utility-scale solar projects across India. Using these outputs, we provide a cumulative measure of the solar footprint across India and quantified the degree of land modification associated with land cover types that may cause conflicts. Our analysis indicates that over 74\% of solar development In India was built on landcover types that have natural ecosystem preservation, and agricultural values. Thus, with a mean accuracy of 92\% this method permits the identification of the factors driving land suitability for solar projects and will be of widespread interest for studies seeking to assess trade-offs associated with the global decarbonization of green-energy systems. In the same way, our model increases the feasibility of remote sensing and long-term monitoring of renewable energy deployment targets.
翻訳日:2022-02-05 05:53:21 公開日:2022-01-31
# (参考訳) BERTに基づく言語モデルを用いた災害ツイート分類 [全文訳有]

Disaster Tweets Classification using BERT-Based Language Model ( http://arxiv.org/abs/2202.00795v1 )

ライセンス: CC BY 4.0
Anh Duc Le(参考訳) ソーシャルネットワークサービスは、緊急時には重要なコミュニケーションチャネルになっている。 本研究の目的は、人間や地域が危険にさらされているかどうかを調べることができる機械学習言語モデルの構築である。 スマートフォンのユビキタス化により、人々はリアルタイムで観察している緊急事態を知らせることができる。 このため、twitter(災害救助団体やニュース代理店)をプログラム的に監視することに関心を持つ機関が増えている。 ソーシャルネットワークの投稿に基づいて、災害が発生したことを理解して認識できる言語モデルを設計することは、時間とともにますます必要になるでしょう。

Social networking services have became an important communication channel in time of emergency. The aim of this study is to create a machine learning language model that is able to investigate if a person or area was in danger or not. The ubiquitousness of smartphones enables people to announce an emergency they are observing in real-time. Because of this, more agencies are interested in programmatically monitoring Twitter (i.e. disaster relief organizations and news agencies). Design a language model that is able to understand and acknowledge when a disaster is happening based on the social network posts will become more and more necessary over time.
翻訳日:2022-02-04 03:59:11 公開日:2022-01-31
# AntidoteRT: ニューラルネットワーク上でのポゾン攻撃のリアルタイム検出と補正

AntidoteRT: Run-time Detection and Correction of Poison Attacks on Neural Networks ( http://arxiv.org/abs/2202.01179v1 )

ライセンス: Link先を確認
Muhammad Usman, Youcheng Sun, Divya Gopinath, Corina S. Pasareanu(参考訳) 本研究では,画像分類ネットワークに対するバックドア中毒攻撃について検討し,攻撃者が訓練データのサブセットにトリガを挿入することで,テスト時にそのトリガがターゲットクラスを予測するようにした。 %) 攻撃を検知する手法は文献にいくつか提案されているが, 攻撃に対して防御する手法はごくわずかであり, 通常はネットワークの再トレーニングが必要であり, 実際には必ずしも不可能である。 そこで本研究では,ネットワークから抽出されたニューロンパターンに基づいて,既知のラベルを持つ清潔で有毒なテスト試料を簡易に検出・補正する手法を提案する。 誤分類されたサンプルに基づいて構築されたパターンは、新しい有毒な入力のランタイム検出に使用される。 そこで本研究では,検出した有毒画像のトリガを識別するために差分解析を用いた入力補正手法を提案し,中性色にリセットする。 我々の検出と修正は、オフラインモデルレベルの防御に焦点を当てた既存の作業と対照的に、実行時および入力レベルで実行される。 我々は,MNIST, CIFAR-10, GTSRBなどの一般的なベンチマークにおいて,NeuralCleanseやSTRIPなどの既存の防御性能を,人気のあるBadNets攻撃やより複雑なDFST攻撃に対して上回ることを示す。

We study backdoor poisoning attacks against image classification networks, whereby an attacker inserts a trigger into a subset of the training data, in such a way that at test time, this trigger causes the classifier to predict some target class. %There are several techniques proposed in the literature that aim to detect the attack but only a few also propose to defend against it, and they typically involve retraining the network which is not always possible in practice. We propose lightweight automated detection and correction techniques against poisoning attacks, which are based on neuron patterns mined from the network using a small set of clean and poisoned test samples with known labels. The patterns built based on the mis-classified samples are used for run-time detection of new poisoned inputs. For correction, we propose an input correction technique that uses a differential analysis to identify the trigger in the detected poisoned images, which is then reset to a neutral color. Our detection and correction are performed at run-time and input level, which is in contrast to most existing work that is focused on offline model-level defenses. We demonstrate that our technique outperforms existing defenses such as NeuralCleanse and STRIP on popular benchmarks such as MNIST, CIFAR-10, and GTSRB against the popular BadNets attack and the more complex DFST attack.
翻訳日:2022-02-03 14:49:56 公開日:2022-01-31
# (参考訳) ECG時系列分類のための類似学習に基づくFew Shot Learning [全文訳有]

Similarity Learning based Few Shot Learning for ECG Time Series Classification ( http://arxiv.org/abs/2202.00612v1 )

ライセンス: CC BY 4.0
Priyanka Gupta, Sathvik Bhaskarpandit, Manik Gupta(参考訳) ディープラーニングモデルを使用して、IoT(Internet of Things)デバイスから生成された時系列データを分類するには、大量のラベル付きデータが必要である。 しかし、IoTデバイスで利用可能なリソースが制限されているため、大規模なデータセットを使用したトレーニングに適応することが難しい場合が多い。 本稿では,シームズ畳み込みニューラルネットワークを用いたECG不整脈分類のための類似学習に基づくFew Shot Learningを提案する。 わずかなラベル付き例から新しいクラスを特定することで、データの不足を解消するショットラーニングはほとんどない。 ほとんどショットラーニングは、まず、関連する比較的大きなデータベース上でモデルを事前訓練することに依存し、次に学習を使用して、クラス毎に利用可能な少数のサンプルにさらなる適応を行う。 本実験では,ECG時系列データ分類におけるK(クラス毎のインスタンス数)の性能評価を行った。 5ショット学習の精度は92.25%で,さらにkの増大とともにわずかに向上する。また,動的時間ウォーピング(dtw),ユークリッド距離(ed),深層学習モデル(lstm-fcn)といった他の確立された類似性学習手法と同等のデータ量を持つ長期記憶完全畳み込みネットワーク(lstm-fcn)との比較を行い,本手法が限られたデータセットサイズでそれらの性能を上回ることを結論づけた。 K=5では, ED, DTW, LSTM-FCN, SCNNの57%, 54%, 33%, 92%であった。

Using deep learning models to classify time series data generated from the Internet of Things (IoT) devices requires a large amount of labeled data. However, due to constrained resources available in IoT devices, it is often difficult to accommodate training using large data sets. This paper proposes and demonstrates a Similarity Learning-based Few Shot Learning for ECG arrhythmia classification using Siamese Convolutional Neural Networks. Few shot learning resolves the data scarcity issue by identifying novel classes from very few labeled examples. Few Shot Learning relies first on pretraining the model on a related relatively large database, and then the learning is used for further adaptation towards few examples available per class. Our experiments evaluate the performance accuracy with respect to K (number of instances per class) for ECG time series data classification. The accuracy with 5- shot learning is 92.25% which marginally improves with further increase in K. We also compare the performance of our method against other well-established similarity learning techniques such as Dynamic Time Warping (DTW), Euclidean Distance (ED), and a deep learning model - Long Short Term Memory Fully Convolutional Network (LSTM-FCN) with the same amount of data and conclude that our method outperforms them for a limited dataset size. For K=5, the accuracies obtained are 57%, 54%, 33%, and 92% approximately for ED, DTW, LSTM-FCN, and SCNN, respectively.
翻訳日:2022-02-03 08:00:20 公開日:2022-01-31
# (参考訳) GENEOnet: Group Equivariant Non-Expansive Operatorsに基づいた新しい機械学習パラダイム。 タンパク質ポケット検出への応用 [全文訳有]

GENEOnet: A new machine learning paradigm based on Group Equivariant Non-Expansive Operators. An application to protein pocket detection ( http://arxiv.org/abs/2202.00451v1 )

ライセンス: CC BY 4.0
Giovanni Bocchi, Patrizio Frosini, Alessandra Micheletti, Alessandro Pedretti, Carmen Gratteri, Filippo Lunghini, Andrea Rosario Beccari, Carmine Talarico(参考訳) 今日では、説明可能な機械学習技術の開発に注目が集まっている。 ここでは,情報処理オブザーバの増大する数学的理論の産物とみなすことができる群同変非拡張演算子に基づく新しい計算パラダイムを紹介する。 このアプローチは、異なる状況に適応できるため、知識注入や情報工学、関連する機能の選択、少数のパラメータ、より高い透明性など、ニューラルネットワークのような他の一般的なツールよりも多くのメリットがある可能性がある。 我々は、リガンドをホストできるタンパク質の表面のポケットを検出するという、薬物設計の重要な問題に対して、私たちの方法、GENEOnetを試すことを選択しました。 実験結果から,本手法は比較的小さなトレーニングセットでも有効であることが確認された。また,他の最先端手法と比較した結果,GENEOnetの精度は良好か同等であることがわかった。

Nowadays there is a big spotlight cast on the development of techniques of explainable machine learning. Here we introduce a new computational paradigm based on Group Equivariant Non-Expansive Operators, that can be regarded as the product of a rising mathematical theory of information-processi ng observers. This approach, that can be adjusted to different situations, may have many advantages over other common tools, like Neural Networks, such as: knowledge injection and information engineering, selection of relevant features, small number of parameters and higher transparency. We chose to test our method, called GENEOnet, on a key problem in drug design: detecting pockets on the surface of proteins that can host ligands. Experimental results confirmed that our method works well even with a quite small training set, providing thus a great computational advantage, while the final comparison with other state-of-the-art methods shows that GENEOnet provides better or comparable results in terms of accuracy.
翻訳日:2022-02-03 07:46:20 公開日:2022-01-31
# (参考訳) ニューラルフェイス再現のためのgan潜伏空間における方向の探索 [全文訳有]

Finding Directions in GAN's Latent Space for Neural Face Reenactment ( http://arxiv.org/abs/2202.00046v1 )

ライセンス: CC BY 4.0
Stella Bounareli, Vasileios Argyriou, Georgios Tzimiropoulos(参考訳) 本稿では,対象面の顔面姿勢(3d頭部方向および表情)をソース面に移すことを目標とする顔・頭部の再現について述べる。 従来の手法では、アイデンティティのための埋め込みネットワークの学習と、かなり難しい作業であることが証明され、生成された画像の品質が低下する。 我々は、高品質な顔画像を生成することができる(微調整)訓練済みのGANを使用することで、そのようなネットワークのトレーニングを回避し、異なるアプローチをとる。 GANは弱い制御性によって特徴付けられるため、我々のアプローチの核となるのは、潜伏したGAN空間のどの方向が顔のポーズや表情の変化を制御しているのかを見つける方法である。 本稿では,3次元形状モデルを用いて,顔のポーズやアイデンティティ,表情などに対する不整合な方向を抽出する簡単なパイプラインを提案する。 さらに,GAN潜在空間に実画像を埋め込むことで,実世界の顔の再現に有効であることを示す。 提案手法は, 単一音源画像(ワンショット)の使用や, 対人再現など, いくつかの特性を特徴とする。 定性的かつ定量的な結果から,VoxCeleb1および2の標準ベンチマークに対して,最先端の手法で得られたものよりも高い品質の再現顔を生成する場合が多い。

This paper is on face/head reenactment where the goal is to transfer the facial pose (3D head orientation and expression) of a target face to a source face. Previous methods focus on learning embedding networks for identity and pose disentanglement which proves to be a rather hard task, degrading the quality of the generated images. We take a different approach, bypassing the training of such networks, by using (fine-tuned) pre-trained GANs which have been shown capable of producing high-quality facial images. Because GANs are characterized by weak controllability, the core of our approach is a method to discover which directions in latent GAN space are responsible for controlling facial pose and expression variations. We present a simple pipeline to learn such directions with the aid of a 3D shape model which, by construction, already captures disentangled directions for facial pose, identity and expression. Moreover, we show that by embedding real images in the GAN latent space, our method can be successfully used for the reenactment of real-world faces. Our method features several favorable properties including using a single source image (one-shot) and enabling cross-person reenactment. Our qualitative and quantitative results show that our approach often produces reenacted faces of significantly higher quality than those produced by state-of-the-art methods for the standard benchmarks of VoxCeleb1 & 2.
翻訳日:2022-02-03 07:27:21 公開日:2022-01-31
# (参考訳) 複数ラベルデータストリームに対する入射概念ドリフト検出 [全文訳有]

Implicit Concept Drift Detection for Multi-label Data Streams ( http://arxiv.org/abs/2202.00070v1 )

ライセンス: CC BY 4.0
Ege Berkay Gulcan and Fazli Can(参考訳) 多くの現実世界のアプリケーションは、急速に変化するデータに対応するアルゴリズムの必要性から、マルチラベルデータストリームを採用している。 概念ドリフトとしても知られるデータ分布の変化は、既存の分類モデルの有効性を急速に損なう。 そこで本研究では,マルチラベルデータストリームのためのデータ内のラベル依存を用いた,暗黙的(教師なし)概念ドリフト検出器であるラベル依存ドリフト検出器 (ld3) を提案する。 本研究では,データ融合アルゴリズムを利用したラベル影響ランキング法を用いて,ラベル間の動的時間的依存関係を利用して概念ドリフトを検出する。 LD3はマルチラベル分類問題領域における最初の教師なし概念ドリフト検出アルゴリズムである。 本研究では,12のデータセットとベースライン分類器を用いて,問題領域に適応する14の一般的な概念ドリフト検出アルゴリズムと比較し,LD3を広範囲に評価する。 その結果、LD3は実世界のデータストリームと合成データストリームの両方で比較して、19.8\%から68.6\%の予測性能を提供することがわかった。

Many real-world applications adopt multi-label data streams as the need for algorithms to deal with rapidly changing data increases. Changes in data distribution, also known as concept drift, cause the existing classification models to rapidly lose their effectiveness. To assist the classifiers, we propose a novel algorithm called Label Dependency Drift Detector (LD3), an implicit (unsupervised) concept drift detector using label dependencies within the data for multi-label data streams. Our study exploits the dynamic temporal dependencies between labels using a label influence ranking method, which leverages a data fusion algorithm and uses the produced ranking to detect concept drift. LD3 is the first unsupervised concept drift detection algorithm in the multi-label classification problem area. In this study, we perform an extensive evaluation of LD3 by comparing it with 14 prevalent supervised concept drift detection algorithms that we adapt to the problem area using 12 datasets and a baseline classifier. The results show that LD3 provides between 19.8\% and 68.6\% better predictive performance than comparable detectors on both real-world and synthetic data streams.
翻訳日:2022-02-03 07:12:40 公開日:2022-01-31
# (参考訳) ダブル・アタッチ・イテレーションによるオフ・ポリシー政策勾配の最適推定

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration ( http://arxiv.org/abs/2202.00076v1 )

ライセンス: CC BY 4.0
Chengzhuo Ni, Ruiqi Zhang, Xiang Ji, Xuezhou Zhang, Mengdi Wang(参考訳) 政策勾配(PG)推定は、ターゲットポリシーをサンプリングすることが許されず、未知の行動ポリシーによって生成されたデータセットのみにアクセスできない場合に課題となる。 従来の非政治PG推定法は、しばしば大きなバイアスまたは指数関数的に大きなばらつきに悩まされる。 本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。 FPGは、ベルマン完全値関数クラスへのアクセスを前提として、任意のポリシーパラメータ化を扱うことができる。 線形値関数近似の場合、特徴空間で測定した分布ミスマッチの量によって制御される、ポリシー勾配推定誤差の有限個の上限を厳密に設定する。 また, FPG推定誤差の漸近正規度を高精度な共分散特性で証明し, 一致したクレーマー・ラオ下界に対して統計的に最適であることを示した。 実験では,softmax tabular と relu policy network を用いて,政策勾配推定と政策最適化の両方における fpg の性能評価を行った。 その結果, FPGは, 重要サンプリング法と分散低減法により, 既存の非政治的PG推定法よりも有意に優れていた。

Policy gradient (PG) estimation becomes a challenge when we are not allowed to sample with the target policy but only have access to a dataset generated by some unknown behavior policy. Conventional methods for off-policy PG estimation often suffer from either significant bias or exponentially large variance. In this paper, we propose the double Fitted PG estimation (FPG) algorithm. FPG can work with an arbitrary policy parameterization, assuming access to a Bellman-complete value function class. In the case of linear value function approximation, we provide a tight finite-sample upper bound on policy gradient estimation error, that is governed by the amount of distribution mismatch measured in feature space. We also establish the asymptotic normality of FPG estimation error with a precise covariance characterization, which is further shown to be statistically optimal with a matching Cramer-Rao lower bound. Empirically, we evaluate the performance of FPG on both policy gradient estimation and policy optimization, using either softmax tabular or ReLU policy networks. Under various metrics, our results show that FPG significantly outperforms existing off-policy PG estimation methods based on importance sampling and variance reduction techniques.
翻訳日:2022-02-03 06:51:49 公開日:2022-01-31
# (参考訳) 変分推論を用いた多孔質金属の故障箇所予測のためのヘテロエンコーダアーキテクチャ

A heteroencoder architecture for prediction of failure locations in porous metals using variational inference ( http://arxiv.org/abs/2202.00078v1 )

ライセンス: CC BY 4.0
Wyatt Bridgman, Xiaoxuan Zhang, Greg Teichert, Mohammad Khalil, Krishna Garikipati, Reese Jones(参考訳) 本研究では, エンコーダ・デコーダ畳み込みニューラルネットワークを用いて, 初期ポロシティのみに基づく多孔質金属張力試験片の故障箇所の予測を行う。 私たちがモデル化するプロセスは複雑で、初期ヴォイド核化から飽和、最終的には失敗まで進行します。 故障箇所の予測の目的は、標本中のほとんどの材料が故障しないため、クラス不均衡の極端なケースを示す。 この課題に応えて、データと損失に基づく正規化手法の有効性を開発し、実証する。 ボイドの特定の構成に対する障害位置の感度はかなり高いため、変動推論を用いてニューラルネットワークの予測に不確実性を提供する。 決定論的およびベイズ的畳み込みニューラルネットワークを理論的レベルで接続し、変動推論がトレーニングと予測をどのように正規化するかを説明する。 得られた予測分散は、任意の標本において最も失敗しやすい位置のランク付けに有効であることを示す。

In this work we employ an encoder-decoder convolutional neural network to predict the failure locations of porous metal tension specimens based only on their initial porosities. The process we model is complex, with a progression from initial void nucleation, to saturation, and ultimately failure. The objective of predicting failure locations presents an extreme case of class imbalance since most of the material in the specimens do not fail. In response to this challenge, we develop and demonstrate the effectiveness of data- and loss-based regularization methods. Since there is considerable sensitivity of the failure location to the particular configuration of voids, we also use variational inference to provide uncertainties for the neural network predictions. We connect the deterministic and Bayesian convolutional neural networks at a theoretical level to explain how variational inference regularizes the training and predictions. We demonstrate that the resulting predicted variances are effective in ranking the locations that are most likely to fail in any given specimen.
翻訳日:2022-02-03 06:46:49 公開日:2022-01-31
# (参考訳) PPOで比率を下げる必要もないかもしれない [全文訳有]

You May Not Need Ratio Clipping in PPO ( http://arxiv.org/abs/2202.00079v1 )

ライセンス: CC BY 4.0
Mingfei Sun, Vitaly Kurin, Guoqing Liu, Sam Devlin, Tao Qin, Katja Hofmann, Shimon Whiteson(参考訳) Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで繰り返し実行することでポリシーを学習する。 比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。 比クリッピングはオリジナルのサロゲートの目標を悲観的に推定し、強力な性能に不可欠であることが示されている。 本稿では,この比クリッピングは,効果的に比率を拘束できない可能性があるため,良い選択肢ではない可能性があることを示す。 代わりに、元のサロゲート目的を複数のエポックに対して直接最適化することができる。鍵となるのは、各イテレーションにおいて最適化エポックを早期に停止する適切な条件を見つけることである。 我々の理論的分析は、最適化の時期を決定する方法に光を当て、得られたアルゴリズムを早期停止ポリシー最適化(espo)と呼ぶ。 ESPO と PPO を比較し,ESPO が PPO を著しく上回ることを示す。 さらに,多くの作業者による分散トレーニングへのespoのスケールアップが容易であり,パフォーマンスも向上することを示す。

Proximal Policy Optimization (PPO) methods learn a policy by iteratively performing multiple mini-batch optimization epochs of a surrogate objective with one set of sampled data. Ratio clipping PPO is a popular variant that clips the probability ratios between the target policy and the policy used to collect samples. Ratio clipping yields a pessimistic estimate of the original surrogate objective, and has been shown to be crucial for strong performance. We show in this paper that such ratio clipping may not be a good option as it can fail to effectively bound the ratios. Instead, one can directly optimize the original surrogate objective for multiple epochs; the key is to find a proper condition to early stop the optimization epoch in each iteration. Our theoretical analysis sheds light on how to determine when to stop the optimization epoch, and call the resulting algorithm Early Stopping Policy Optimization (ESPO). We compare ESPO with PPO across many continuous control tasks and show that ESPO significantly outperforms PPO. Furthermore, we show that ESPO can be easily scaled up to distributed training with many workers, delivering strong performance as well.
翻訳日:2022-02-03 06:45:45 公開日:2022-01-31
# (参考訳) 分布ベルマン方程式の解について [全文訳有]

On solutions of the distributional Bellman equation ( http://arxiv.org/abs/2202.00081v1 )

ライセンス: CC BY 4.0
Julian Gerstenberg, Ralph Neininger, Denis Spiegel(参考訳) 分布強化学習では、期待されたリターンだけでなく、ポリシーの完全なリターン分布も考慮する。 固定ポリシーの戻り分布は、関連する分布のベルマン作用素の固定点として与えられる。 本稿では,一般分布ベルマン作用素を考察し,その不動点の存在と一意性およびテール特性について考察する。 我々は、戻り分布の存在と特異性について必要かつ十分な条件を与え、正規変動の場合を特定する。 分布のベルマン方程式を、$\textbf{X} =_d \textbf{A}\textbf{X} + \textbf{B}$, where $\textbf{X}$ and $\textbf{B}$ are $d$-dimensional random vectors, $\textbf{A}$ a random $d\times d$ matrix and $(\textbf{X}$ and $(\textbf{A},\textbf{B}$)$という形の分布方程式にリンクする。 分布ベルマン作用素の任意の不動点は、そのような多変量分布方程式に対する解の辺則のベクトルとして得られる。 これにより、そのような方程式の一般理論は分布強化学習設定に適用できる。

In distributional reinforcement learning not only expected returns but the complete return distributions of a policy is taken into account. The return distribution for a fixed policy is given as the fixed point of an associated distributional Bellman operator. In this note we consider general distributional Bellman operators and study existence and uniqueness of its fixed points as well as their tail properties. We give necessary and sufficient conditions for existence and uniqueness of return distributions and identify cases of regular variation. We link distributional Bellman equations to multivariate distributional equations of the form $\textbf{X} =_d \textbf{A}\textbf{X} + \textbf{B}$, where $\textbf{X}$ and $\textbf{B}$ are $d$-dimensional random vectors, $\textbf{A}$ a random $d\times d$ matrix and $\textbf{X}$ and $(\textbf{A},\textbf{B})$ are independent. We show that any fixed-point of a distributional Bellman operator can be obtained as the vector of marginal laws of a solution to such a multivariate distributional equation. This makes the general theory of such equations applicable to the distributional reinforcement learning setting.
翻訳日:2022-02-03 06:19:01 公開日:2022-01-31
# (参考訳) 分散PPOのための非定常条件下での単調改善保証 [全文訳有]

Monotonic Improvement Guarantees under Non-stationarity for Decentralized PPO ( http://arxiv.org/abs/2202.00082v1 )

ライセンス: CC BY 4.0
Mingfei Sun, Sam Devlin, Katja Hofmann, Shimon Whiteson(参考訳) 我々は,移動力学が定常的でない場合でも維持される協調型マルチエージェント強化学習(MARL)において,分散政策を最適化するための新しい単調改善保証を提案する。 この新たな分析は、MARL(Independent Proximal Policy Optimization、IPPO)とMAPPO(Multi-Agent PPO、MAPPO)の2つの最近のアクター批判手法の強い性能に関する理論的理解を提供する。 独立比が引き起こす非定常性にもかかわらず、信頼領域がすべての分散政策に制約を課す結果、単調な改善保証が依然として発生していることを示す。 また,この信頼領域の制約は,訓練中のエージェント数に基づいて独立比を制限し,近位比クリッピングの理論的基礎を提供することによって,原則的に効果的に実施できることを示す。 さらに,IPPOとMAPPOに最適化されたサロゲート目的は,批評家が一定点に収束した場合に本質的に等価であることを示す。 最後に,我々は,ippoとmappoの強力な性能は,集中型トレーニングにおけるクリッピングによる信頼領域制約の実施による直接的な結果であり,この実施のためのハイパーパラメータのよい値は,理論解析によって予測されたエージェント数に非常に敏感である,という仮説を実証的に支持する。

We present a new monotonic improvement guarantee for optimizing decentralized policies in cooperative Multi-Agent Reinforcement Learning (MARL), which holds even when the transition dynamics are non-stationary. This new analysis provides a theoretical understanding of the strong performance of two recent actor-critic methods for MARL, i.e., Independent Proximal Policy Optimization (IPPO) and Multi-Agent PPO (MAPPO), which both rely on independent ratios, i.e., computing probability ratios separately for each agent's policy. We show that, despite the non-stationarity that independent ratios cause, a monotonic improvement guarantee still arises as a result of enforcing the trust region constraint over all decentralized policies. We also show this trust region constraint can be effectively enforced in a principled way by bounding independent ratios based on the number of agents in training, providing a theoretical foundation for proximal ratio clipping. Moreover, we show that the surrogate objectives optimized in IPPO and MAPPO are essentially equivalent when their critics converge to a fixed point. Finally, our empirical results support the hypothesis that the strong performance of IPPO and MAPPO is a direct result of enforcing such a trust region constraint via clipping in centralized training, and the good values of the hyperparameters for this enforcement are highly sensitive to the number of agents, as predicted by our theoretical analysis.
翻訳日:2022-02-03 05:53:59 公開日:2022-01-31
# (参考訳) ホロスティックきめ細かいGGSの特徴:検出から不均衡分類へ [全文訳有]

Holistic Fine-grained GGS Characterization: From Detection to Unbalanced Classification ( http://arxiv.org/abs/2202.00087v1 )

ライセンス: CC BY 4.0
Yuzhe Lu, Haichun Yang, Zuhayr Asad, Zheyu Zhu, Tianyuan Yao, Jiachen Xu, Agnes B. Fogo, and Yuankai Huo(参考訳) 近年,IgA腎症,老化,末期腎疾患におけるグローバル糸球体硬化症の診断と予後について検討している。 しかしながら、複数のGGSサブタイプ(例えば、可溶化、固化、消滅する糸球体硬化症)の詳細な定量分析は、典型的にはリソースの広範囲な手作業である。 このような分析のためにこのギャップを埋めるために開発された自動手法はほとんどない。 本稿では,全スライド画像からGGS(検出と分類の両方)を完全自動で定量化するための全体的パイプラインを提案する。 さらに,GGSのサブタイプの詳細な分類を行う。 本研究は,非バランスな分類と検出と分類の統合という技術的課題に対処しながら,粒度GGSのキャラクタリゼーションを微粒化するためのオープンソースの定量的解析ツールをリリースする。

Recent studies have demonstrated the diagnostic and prognostic values of global glomerulosclerosis (GGS) in IgA nephropathy, aging, and end-stage renal disease. However, the fine-grained quantitative analysis of multiple GGS subtypes (e.g., obsolescent, solidified, and disappearing glomerulosclerosis) is typically a resource extensive manual process. Very few automatic methods, if any, have been developed to bridge this gap for such analytics. In this paper, we present a holistic pipeline to quantify GGS (with both detection and classification) from a whole slide image in a fully automatic manner. In addition, we conduct the fine-grained classification for the sub-types of GGS. Our study releases the open-source quantitative analytical tool for fine-grained GGS characterization while tackling the technical challenges in unbalanced classification and integrating detection and classification.
翻訳日:2022-02-03 05:05:32 公開日:2022-01-31
# (参考訳) 不均一データを用いた強化学習:推定と推論

Reinforcement Learning with Heterogeneous Data: Estimation and Inference ( http://arxiv.org/abs/2202.00088v1 )

ライセンス: CC BY 4.0
Elynn Y. Chen, Rui Song, Michael I. Jordan(参考訳) 強化学習(rl)は、医療、教育、ビジネス、その他の分野における幅広い問題において、意思決定のためのデータ駆動サポートを提供することを約束する。 古典的なRL法は、全リターンの平均に焦点をあて、したがって、一般に大規模なデータセットを過小評価する異種集団の設定において誤解を招く結果をもたらす可能性がある。 人口の不均一性に関する逐次的決定問題に対処するために,K-ヘテロ・マルコフ決定過程(K-ヘテロ・MDP)を導入する。 本稿では、ある政策の価値を推定するための自己クラスタ化政策評価(ACPE)と、ある政策クラスにおける最適な政策を推定するための自己クラスタ化政策イテレーション(ACPI)を提案する。 自動クラスタリングアルゴリズムは,Q関数と各サブポピュレーションに対する最適ポリシーを推定しながら,同種サブポピュレーションを自動的に検出,同定することができる。 我々は、ACPEとACPIで得られた推定値に対して収束率を確立し、信頼区間を構築する。 理論的な知見を裏付けるシミュレーションを行い,MIMIC-III標準データセットの実証的研究を行った。 後者の分析は, 価値の不均一性の証拠を示し, 新手法の利点を裏付けるものである。

Reinforcement Learning (RL) has the promise of providing data-driven support for decision-making in a wide range of problems in healthcare, education, business, and other domains. Classical RL methods focus on the mean of the total return and, thus, may provide misleading results in the setting of the heterogeneous populations that commonly underlie large-scale datasets. We introduce the K-Heterogeneous Markov Decision Process (K-Hetero MDP) to address sequential decision problems with population heterogeneity. We propose the Auto-Clustered Policy Evaluation (ACPE) for estimating the value of a given policy, and the Auto-Clustered Policy Iteration (ACPI) for estimating the optimal policy in a given policy class. Our auto-clustered algorithms can automatically detect and identify homogeneous sub-populations, while estimating the Q function and the optimal policy for each sub-population. We establish convergence rates and construct confidence intervals for the estimators obtained by the ACPE and ACPI. We present simulations to support our theoretical findings, and we conduct an empirical study on the standard MIMIC-III dataset. The latter analysis shows evidence of value heterogeneity and confirms the advantages of our new method.
翻訳日:2022-02-03 04:47:18 公開日:2022-01-31
# (参考訳) 都市交通ネットワークにおける動的起源決定行列の推定 [全文訳有]

Dynamic Origin-Destination Matrix Estimation in Urban Traffic Networks ( http://arxiv.org/abs/2202.00099v1 )

ライセンス: CC BY 4.0
Nicklas Sindlev Andersen, Marco Chiarandini, Kristian Debrabant(参考訳) 交通ネットワークの道路を横断する車両のカウンタを考えると,利用者が生み出す移動の回数で表現した交通需要を再構築することを目的としている。 問題を二段階最適化問題としてモデル化する。 内部レベルでは、暫定的な旅行需要を前提として、動的トラフィック割り当て問題を解決し、利用者の出身地と目的地間のルーティングを決定する。 外層部では,交通ネットワーク内のセンサによって測定された車両数と内層部で発生したコンカウンタの差を最小限に抑えることを目的として,旅行数とその出発点および目的地の調整を行う。 交通シミュレータSUMOにより実装されたメソスコピックモデルを用いた動的交通割当問題を解く。 したがって、外部問題は、コストのかかる計算であるシミュレーションの結果によって決定されるブラックボックス目的関数を最小限に抑える最適化問題となる。 本研究では, 外層問題に対する異なるアプローチを, 勾配ベースと微分フリーのアプローチに分類した。 勾配に基づくアプローチの中で, 同時摂動確率近似(SPSA)アルゴリズムを用いた代入行列ベースアプローチと代入行列フリーアプローチについて検討する。 デリバティブフリー手法の1つとして,最適化問題における対象関数として使用できるシミュレータのモデルを学ぶために,機械学習アルゴリズムを研究した。 これらのアプローチを人工ネットワーク上で計算的に比較する。 勾配に基づくアプローチは、アーカイブされたソリューションの品質と計算要求の観点で最善を尽くし、一方、機械学習のアプローチで得られた結果は、現在はあまり満足できないが、将来の研究の興味深い道筋を提供する。

Given the counters of vehicles that traverse the roads of a traffic network, we aim at reconstructing the travel demand that generated them expressed in terms of the number of origin-destination trips made by users. We model the problem as a bi-level optimization problem. In the inner level, given a tentative travel demand, we solve a dynamic traffic assignment problem to decide the routing of the users between their origins and destinations. In the outer level, we adjust the number of trips and their origins and destinations, aiming at minimizing the discrepancy between the consequent counters generated in the inner level and the given vehicle counts measured by sensors in the traffic network. We solve the dynamic traffic assignment problem employing a mesoscopic model implemented by the traffic simulator SUMO. Thus, the outer problem becomes an optimization problem that minimizes a black-box objective function determined by the results of the simulation, which is a costly computation. We study different approaches to the outer level problem categorized as gradient-based and derivative-free approaches. Among the gradient-based approaches, we study an assignment matrix-based approach and an assignment matrix-free approach that uses the Simultaneous Perturbation Stochastic Approximation (SPSA) algorithm. Among the derivative-free approaches, we study machine learning algorithms to learn a model of the simulator that can then be used as a surrogated objective function in the optimization problem. We compare these approaches computationally on an artificial network. The gradient-based approaches perform the best in terms of archived solution quality and computational requirements, while the results obtained by the machine learning approach are currently less satisfactory but provide an interesting avenue of future research.
翻訳日:2022-02-03 04:45:59 公開日:2022-01-31
# (参考訳) 協調型マルチエージェントシステムの一般化 [全文訳有]

Generalization in Cooperative Multi-Agent Systems ( http://arxiv.org/abs/2202.00104v1 )

ライセンス: CC BY 4.0
Anuj Mahajan, Mikayel Samvelyan, Tarun Gupta, Benjamin Ellis, Mingfei Sun, Tim Rockt\"aschel, Shimon Whiteson(参考訳) 集団知性は、いくつかの生物種が共有する基本的な特性である。 これにより、地球上に存在する多様な環境条件で育つことができるのです。 antコロニーの単純な組織から人間のグループの複雑なシステムまで、集団知性は複雑な生存タスクを解決するために不可欠である。 一般に観察されるように、このような自然系は構造の変化に対して柔軟である。 具体的には、システム内で能力やエージェントの総数が変化すると高い一般化度を示す。 我々はこの現象を組合せ一般化(cg)と呼ぶ。 CGは、幅広いアプリケーションにまたがる実用性とデプロイ性を向上させることができるため、自律システムにとって非常に望ましい特徴である。 cgの特定の側面を扱う最近の研究は複雑な領域で印象的な結果を示しているが、新しい状況に一般化する際のパフォーマンス保証は提供していない。 本研究では,協調型マルチエージェントシステム(MAS)におけるCGの理論的基盤に光を当てる。 具体的には,masに対する後継的特徴の一般化と見なすことができるエージェント能力に対する基礎となるダイナミクスの線形依存の下での一般化境界について検討する。 次に結果をまずlipschitzに拡張し、その後、報酬をチーム能力に任意に依存させます。 最後に,多エージェント強化学習の枠組みを用いた各種領域の実証分析により,CGの確保に向けた多エージェントアルゴリズムの重要なデシラタが浮かび上がっている。

Collective intelligence is a fundamental trait shared by several species of living organisms. It has allowed them to thrive in the diverse environmental conditions that exist on our planet. From simple organisations in an ant colony to complex systems in human groups, collective intelligence is vital for solving complex survival tasks. As is commonly observed, such natural systems are flexible to changes in their structure. Specifically, they exhibit a high degree of generalization when the abilities or the total number of agents changes within a system. We term this phenomenon as Combinatorial Generalization (CG). CG is a highly desirable trait for autonomous systems as it can increase their utility and deployability across a wide range of applications. While recent works addressing specific aspects of CG have shown impressive results on complex domains, they provide no performance guarantees when generalizing towards novel situations. In this work, we shed light on the theoretical underpinnings of CG for cooperative multi-agent systems (MAS). Specifically, we study generalization bounds under a linear dependence of the underlying dynamics on the agent capabilities, which can be seen as a generalization of Successor Features to MAS. We then extend the results first for Lipschitz and then arbitrary dependence of rewards on team capabilities. Finally, empirical analysis on various domains using the framework of multi-agent reinforcement learning highlights important desiderata for multi-agent algorithms towards ensuring CG.
翻訳日:2022-02-03 04:17:08 公開日:2022-01-31
# (参考訳) 深層ニューラルネットワークの導入 [全文訳有]

Imbedding Deep Neural Networks ( http://arxiv.org/abs/2202.00113v1 )

ライセンス: CC BY 4.0
Andrew Corbett and Dmitry Kangin(参考訳) ニューラルネットワークのような連続深度ニューラルネットワークは、非線形ベクトル値最適制御問題の観点から、残留ニューラルネットワークの理解を再構築している。 一般的な解決策は、随伴感度法を用いて前向きのパス最適化問題を再現することである。 本稿では,ネットワークの「深度」を基本変数として説明し,その問題を前方向き初期値問題に還元する手法を提案する。 この新しい手法は, ランニングと終端損失の両面において, 非線型ベクトル値の最適制御問題に適用可能な一般解を証明できる「不変な埋め込み」の原理に基づいている。 私たちの新しいアーキテクチャは、ネットワークの深さのプロペラティティを理論的に、そして説明できないほど検査するための具体的ツールを提供します。 それらはまた、組込み残留ニューラルネットワークのクラスに匹敵する、Neural ODEの個別実装のリソースを構成する。 一連の実験を通じて,教師付き学習と時系列予測のための提案アーキテクチャの競合性能を示す。

Continuous depth neural networks, such as Neural ODEs, have refashioned the understanding of residual neural networks in terms of non-linear vector-valued optimal control problems. The common solution is to use the adjoint sensitivity method to replicate a forward-backward pass optimisation problem. We propose a new approach which explicates the network's `depth' as a fundamental variable, thus reducing the problem to a system of forward-facing initial value problems. This new method is based on the principle of `Invariant Imbedding' for which we prove a general solution, applicable to all non-linear, vector-valued optimal control problems with both running and terminal loss. Our new architectures provide a tangible tool for inspecting the theoretical--and to a great extent unexplained--propert ies of network depth. They also constitute a resource of discrete implementations of Neural ODEs comparable to classes of imbedded residual neural networks. Through a series of experiments, we show the competitive performance of the proposed architectures for supervised learning and time series prediction.
翻訳日:2022-02-03 03:36:29 公開日:2022-01-31
# (参考訳) qald-9-plus:dbpediaとwikidataによる質問応答のための多言語データセット [全文訳有]

QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia and Wikidata Translated by Native Speakers ( http://arxiv.org/abs/2202.00120v1 )

ライセンス: CC BY 4.0
Aleksandr Perevalov, Dennis Diefenbach, Ricardo Usbeck, Andreas Both(参考訳) 異なるユーザグループ(すなわちアクセシビリティ)に対して同じ経験を持つ能力は、Webベースのシステムの最も重要な特徴の1つである。 自然言語インタフェースを通じてセマンティックWebデータへのアクセスを提供する知識グラフ質問回答システム(KGQA)も同様である。 KGQAシステムのアクセシビリティの多言語的側面に関する研究課題に従いながら、現在進行中の課題をいくつか挙げた。 そのうちの1つは、多言語KGQAベンチマークの欠如である。 本研究では、QALD-9の高品質な質問の翻訳をネイティブスピーカーが提供する8言語に導入し、QALD-9のSPARQLクエリをDBpediaからWikidataに転送することで、データセットのユーザビリティと妥当性が強く向上する。 言語アルメニア語、ウクライナ語、リトアニア語、バシュキル語、ベラルーシ語の5つの言語のうち、最高の知識は、これまでkgqaの研究コミュニティでは考えられなかった。 後者の2言語はユネスコによって「絶滅危惧種」とみなされている。 拡張データセットをQALD-9プラスと呼び、オンラインhttps://github.com/P erevalov/qald_9_plus を利用可能にした。

The ability to have the same experience for different user groups (i.e., accessibility) is one of the most important characteristics of Web-based systems. The same is true for Knowledge Graph Question Answering (KGQA) systems that provide the access to Semantic Web data via natural language interface. While following our research agenda on the multilingual aspect of accessibility of KGQA systems, we identified several ongoing challenges. One of them is the lack of multilingual KGQA benchmarks. In this work, we extend one of the most popular KGQA benchmarks - QALD-9 by introducing high-quality questions' translations to 8 languages provided by native speakers, and transferring the SPARQL queries of QALD-9 from DBpedia to Wikidata, s.t., the usability and relevance of the dataset is strongly increased. Five of the languages - Armenian, Ukrainian, Lithuanian, Bashkir and Belarusian - to our best knowledge were never considered in KGQA research community before. The latter two of the languages are considered as "endangered" by UNESCO. We call the extended dataset QALD-9-plus and made it available online https://github.com/P erevalov/qald_9_plus .
翻訳日:2022-02-03 03:05:35 公開日:2022-01-31
# (参考訳) IoTスペクトルセンサにおけるサイバーアタック検出のための対敵フェデレーション学習モデルのロバスト性の検討 [全文訳有]

Studying the Robustness of Anti-adversarial Federated Learning Models Detecting Cyberattacks in IoT Spectrum Sensors ( http://arxiv.org/abs/2202.00137v1 )

ライセンス: CC BY 4.0
Pedro Miguel S\'anchez S\'anchez, Alberto Huertas Celdr\'an, Timo Schenk, Adrian Lars Benjamin Iten, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez, and Burkhard Stiller(参考訳) デバイスフィンガープリントと機械学習(ML/DL)が組み合わさって、リソース制約スペクトルセンサによって管理されるデータを対象としたサイバー攻撃を検出する際に、有望な性能を報告している。 しかし、モデルのトレーニングに必要なデータ量とそのようなシナリオのプライバシー上の懸念は、集中型ML/DLベースのアプローチの適用性を制限している。 フェデレーション学習(FL)は、フェデレーションとプライバシ保護モデルを作成することで、これらの制限に対処する。 しかし、FLは悪意のある参加者に対して脆弱であり、スペクトルセンサに対するスペクトルセンシングデータファルシフィケーション(SSDF)攻撃を検出するフェデレーションモデルに対する敵攻撃の影響は研究されていない。 この課題に対処するために、この研究の最初の貢献は、FLに適した新しいデータセットを作成し、異なるSSDF攻撃に影響を受けるリソース制約されたスペクトルセンサーの挙動(CPU、メモリ、ファイルシステムなど)をモデル化することである。 第2の貢献は、フェデレーションモデルのロバスト性を分析して比較する実験のプールである。 一 スペクトルセンサの3つの系統 二 SSDF攻撃八件 三 教師なし(異常検出)及び監督付き(二分分類)連合モデルを扱う四つのシナリオ 四 悪意のある参加者の33%がデータ及びモデル中毒攻撃を実施し、及び 五 モデルロバスト性を高めるための反敵機構として作用する4つの凝集関数

Device fingerprinting combined with Machine and Deep Learning (ML/DL) report promising performance when detecting cyberattacks targeting data managed by resource-constrained spectrum sensors. However, the amount of data needed to train models and the privacy concerns of such scenarios limit the applicability of centralized ML/DL-based approaches. Federated learning (FL) addresses these limitations by creating federated and privacy-preserving models. However, FL is vulnerable to malicious participants, and the impact of adversarial attacks on federated models detecting spectrum sensing data falsification (SSDF) attacks on spectrum sensors has not been studied. To address this challenge, the first contribution of this work is the creation of a novel dataset suitable for FL and modeling the behavior (usage of CPU, memory, or file system, among others) of resource-constrained spectrum sensors affected by different SSDF attacks. The second contribution is a pool of experiments analyzing and comparing the robustness of federated models according to i) three families of spectrum sensors, ii) eight SSDF attacks, iii) four scenarios dealing with unsupervised (anomaly detection) and supervised (binary classification) federated models, iv) up to 33% of malicious participants implementing data and model poisoning attacks, and v) four aggregation functions acting as anti-adversarial mechanisms to increase the models robustness.
翻訳日:2022-02-03 02:53:52 公開日:2022-01-31
# (参考訳) Exponentated Gradient Updates を用いたステップサイズ適応 [全文訳有]

Step-size Adaptation Using Exponentiated Gradient Updates ( http://arxiv.org/abs/2202.00145v1 )

ライセンス: CC BY 4.0
Ehsan Amid, Rohan Anil, Christopher Fifty, Manfred K. Warmuth(参考訳) AdamやAdaGradといったオプティマイザは、大規模なニューラルネットワークのトレーニングに成功しています。 しかし、これらの手法の性能は、注意深く調整された学習率のスケジュールに依存する。 多くの大規模アプリケーションにおいて、ステップサイズの適応的チューニング法により最適化器を増強することで、性能が大幅に向上することを示す。 より正確には、アップデートのためのグローバルなステップサイズスケールと、各座標のゲインファクタを維持しています。 我々は、平均勾配と現在の勾配ベクトルのアライメントに基づいて、グローバルスケールを調整する。 同様のアプローチは、ローカル利得係数を更新するために使われる。 このタイプのステップサイズのスケールチューニングは、グラデーション降下更新で以前実施されたものだ。 本稿では、ステップサイズスケールとゲイン変数を指数化勾配更新で更新する。 実験では,特別に調整された学習率スケジュールを使わずに,標準モデルで説得力のある精度が得られることを示す。 また,トレーニング中のデータの分布変化に迅速に適応する手法の有効性を示す。

Optimizers like Adam and AdaGrad have been very successful in training large-scale neural networks. Yet, the performance of these methods is heavily dependent on a carefully tuned learning rate schedule. We show that in many large-scale applications, augmenting a given optimizer with an adaptive tuning method of the step-size greatly improves the performance. More precisely, we maintain a global step-size scale for the update as well as a gain factor for each coordinate. We adjust the global scale based on the alignment of the average gradient and the current gradient vectors. A similar approach is used for updating the local gain factors. This type of step-size scale tuning has been done before with gradient descent updates. In this paper, we update the step-size scale and the gain variables with exponentiated gradient updates instead. Experimentally, we show that our approach can achieve compelling accuracy on standard models without using any specially tuned learning rate schedule. We also show the effectiveness of our approach for quickly adapting to distribution shifts in the data during training.
翻訳日:2022-02-03 02:35:02 公開日:2022-01-31
# (参考訳) パーソナライズされたメールプロモーションレコメンデーションのためのコンテキストバンディットとしてのdeep vs. wideとdeep learnersの評価 [全文訳有]

Evaluating Deep Vs. Wide & Deep Learners As Contextual Bandits For Personalized Email Promo Recommendations ( http://arxiv.org/abs/2202.00146v1 )

ライセンス: CC BY 4.0
Aleksey A. Kocherzhenko, Nirmal Sobha Kartha, Tengfei Li, Hsin-Yi (Jenny) Shih, Marco Mandic, Mike Fuller, Arshak Navruzyan(参考訳) パーソナライゼーションにより、企業は過去のインタラクションから顧客の好みを学習し、より関連するコンテンツで個々の顧客をターゲットにすることができる。 我々は,複数の選択肢の中から,顧客に対して最適なプロモーションオファーを予測できるという課題を,コンテキストバンディット問題として検討する。 顧客および/またはキャンペーンの識別情報は、最適なオファー予測を改善する未知の顧客/キャンプの特徴を推測するために使用できる。 合成メールプロモデータセットを用いて、同様の予測精度を示す。 (a)広い部分への入力として識別情報(又は他の分類的特徴)を取り込む広義の深層ネットワーク (b)入力にカテゴリの特徴の埋め込みを含む深層のみのニューラルネットワーク。 カテゴリー的特徴を含む精度の向上は、各カテゴリの未知の数値的特徴の変動に依存する。 また,モンテカルロ・ドロップアウト層をモデルモデルと深部モデルで近似し,高信頼境界あるいはトンプソンサンプリングを用いた選択オプションがモデル性能をわずかに向上することを示した。

Personalization enables businesses to learn customer preferences from past interactions and thus to target individual customers with more relevant content. We consider the problem of predicting the optimal promotional offer for a given customer out of several options as a contextual bandit problem. Identifying information for the customer and/or the campaign can be used to deduce unknown customer/campaign features that improve optimal offer prediction. Using a generated synthetic email promo dataset, we demonstrate similar prediction accuracies for (a) a wide and deep network that takes identifying information (or other categorical features) as input to the wide part and (b) a deep-only neural network that includes embeddings of categorical features in the input. Improvements in accuracy from including categorical features depends on the variability of the unknown numerical features for each category. We also show that selecting options using upper confidence bound or Thompson sampling, approximated via Monte Carlo dropout layers in the wide and deep models, slightly improves model performance.
翻訳日:2022-02-03 02:04:15 公開日:2022-01-31
# AVTPnet:自動車イーサネットにおけるAVTP異常検出のための畳み込みオートエンコーダ

AVTPnet: Convolutional Autoencoder for AVTP anomaly detection in Automotive Ethernet Networks ( http://arxiv.org/abs/2202.00045v1 )

ライセンス: Link先を確認
Natasha Alkhatib, Maria Mushtaq, Hadi Ghauch, Jean-Luc Danger(参考訳) ネットワーク侵入検知システムは、車載ネットワークを多様なサイバー攻撃から守るための効率的なツールとしてよく考えられている。 しかし、サイバー攻撃は常に進化しているため、シグネチャベースの侵入検知システムはもはや採用されていない。 別の解決策は、ネットワークトラフィックにおける未知の攻撃パターンを検出する上で重要な役割を果たすディープラーニングベースの侵入検知システム(IDS)の展開である。 我々の知る限り、自動車のイーサネットに基づく車内ネットワーク上の異常を異常に基づくアプローチで検出する以前の研究は行われていない。 そこで本研究では,近年の車載ネットワークであるAutomotive Ethernetで実装されているアプリケーション層プロトコルであるAudio Video Transport Protocol (AVTP)上で,異常のオフライン検出のための畳み込みオートエンコーダ(CAE)を提案する。 CAEは、非対称なCNN構造を持つエンコーダとデコーダで構成される。 そのため,AVTPパケットのスライディングウィンドウの復元誤差を計測することにより,メディアストリームの重大な中断につながる可能性のあるAVTPパケットストリームの異常を検出する。 提案手法は、最近発表された"Automotive Ethernet Intrusion Dataset"に基づいて評価され、機械学習における従来の異常検出や署名に基づくモデルと比較される。 数値計算の結果,提案手法は他の手法よりも優れ,未知の車内侵入を0.94精度で予測できることがわかった。 さらに,本モデルでは,異なるAVTP攻撃タイプに対する誤報や誤検出率の低いモデルである。

Network Intrusion Detection Systems are well considered as efficient tools for securing in-vehicle networks against diverse cyberattacks. However, since cyberattack are always evolving, signature-based intrusion detection systems are no longer adopted. An alternative solution can be the deployment of deep learning based intrusion detection system (IDS) which play an important role in detecting unknown attack patterns in network traffic. To our knowledge, no previous research work has been done to detect anomalies on automotive ethernet based in-vehicle networks using anomaly based approaches. Hence, in this paper, we propose a convolutional autoencoder (CAE) for offline detection of anomalies on the Audio Video Transport Protocol (AVTP), an application layer protocol implemented in the recent in-vehicle network Automotive Ethernet. The CAE consists of an encoder and a decoder with CNN structures that are asymmetrical. Anomalies in AVTP packet stream, which may lead to critical interruption of media streams, are therefore detected by measuring the reconstruction error of each sliding window of AVTP packets. Our proposed approach is evaluated on the recently published "Automotive Ethernet Intrusion Dataset", and is also compared with other state-of-the art traditional anomaly detection and signature based models in machine learning. The numerical results show that our proposed model outperfoms the other methods and excel at predicting unknown in-vehicle intrusions, with 0.94 accuracy. Moreover, our model has a low level of false alarm and miss detection rates for different AVTP attack types.
翻訳日:2022-02-02 16:03:18 公開日:2022-01-31
# p値のキャリブレーションによる全人口からの亜集団の分別と校正

Calibration of P-values for calibration and for deviation of a subpopulation from the full population ( http://arxiv.org/abs/2202.00100v1 )

ライセンス: Link先を確認
Mark Tygert(参考訳) 著者の最近の研究論文 "cumulative lack of a subpopulation from the full population" と "a graphical method of cumulative difference between two subpopulations" (どちらも2021年にspringerが公開したオープンアクセスの"journal of big data"の巻8で発表) では、公式な意義テストの校正なしにグラフィカルな方法と要約統計を提案している。 概略指標と手法は確率的予測の校正を計測でき、それに基づいて共変量やスコアを制御しながら、サブポピュレーションと全人口の反応の差を評価することができる。 これらの論文は、スカラー要約統計に基づいて重要度テストを構成するが、テストの達成された重要度(P値とも呼ばれる)の校正方法のみをスケッチしている。 本稿では,p値の校正方法を詳細に述べるため,数十年にわたる作業のレビューと合成を行う。 本稿では,その正確性を保証する厳密な数学的証明とともに,適切に校正されたp値を評価するための計算効率が高く,実装が容易な数値手法を提案し,オープンソースソフトウェアと数値例を用いてその方法を説明し,検証する。

The author's recent research papers, "Cumulative deviation of a subpopulation from the full population" and "A graphical method of cumulative differences between two subpopulations" (both published in volume 8 of Springer's open-access "Journal of Big Data" during 2021), propose graphical methods and summary statistics, without extensively calibrating formal significance tests. The summary metrics and methods can measure the calibration of probabilistic predictions and can assess differences in responses between a subpopulation and the full population while controlling for a covariate or score via conditioning on it. These recently published papers construct significance tests based on the scalar summary statistics, but only sketch how to calibrate the attained significance levels (also known as "P-values") for the tests. The present article reviews and synthesizes work spanning many decades in order to detail how to calibrate the P-values. The present paper presents computationally efficient, easily implemented numerical methods for evaluating properly calibrated P-values, together with rigorous mathematical proofs guaranteeing their accuracy, and illustrates and validates the methods with open-source software and numerical examples.
翻訳日:2022-02-02 16:02:52 公開日:2022-01-31
# 確率力学のニューラル固有分解による連続予測

Continuous Forecasting via Neural Eigen Decomposition of Stochastic Dynamics ( http://arxiv.org/abs/2202.00117v1 )

ライセンス: Link先を確認
Stav Belogolovsky, Ido Greenberg, Danny Eitan and Shie Mannor(参考訳) ヘパリン治療患者の血液凝固制御の現実的な問題に触発され、確率微分方程式(SDE)を用いて、未知の潜伏空間、未知の非線形ダイナミクス、不規則なスパース観察を含む、新しい一連の予測問題を定式化する。 ニューラル固有sde (nesde) アルゴリズムを, スパース観測と適応ダイナミクスを用いた逐次予測に導入する。 nesdeは、スパース観測による効率的な頻繁な予測を可能にするために、固有分解をダイナミクスモデルに適用する。 さらに、nesdeは適応ダイナミクスモデルのための学習メカニズムを使用しており、シーケンス間およびシーケンス内におけるダイナミクスの変化を処理する。 合成問題と実世界のデータの両方に対するNESDEの精度と有効性を示す。 特に我々の知識を最大限に活用するため、ミソ-ivデータセットでヘパリン投与後の血液凝固予測を患者に適応させた最初の例である。 最後に,血液凝固制御のためのアルゴリズムの実験を行うための,予測モデルに基づくシミュレーション体育環境を公開する。

Motivated by a real-world problem of blood coagulation control in Heparin-treated patients, we use Stochastic Differential Equations (SDEs) to formulate a new class of sequential prediction problems -- with an unknown latent space, unknown non-linear dynamics, and irregular sparse observations. We introduce the Neural Eigen-SDE (NESDE) algorithm for sequential prediction with sparse observations and adaptive dynamics. NESDE applies eigen-decomposition to the dynamics model to allow efficient frequent predictions given sparse observations. In addition, NESDE uses a learning mechanism for adaptive dynamics model, which handles changes in the dynamics both between sequences and within sequences. We demonstrate the accuracy and efficacy of NESDE for both synthetic problems and real-world data. In particular, to the best of our knowledge, we are the first to provide a patient-adapted prediction for blood coagulation following Heparin dosing in the MIMIC-IV dataset. Finally, we publish a simulated gym environment based on our prediction model, for experimentation in algorithms for blood coagulation control.
翻訳日:2022-02-02 16:02:25 公開日:2022-01-31
# 確率ブロックモデルに対する差分私的コミュニティ検出

Differentially Private Community Detection for Stochastic Block Models ( http://arxiv.org/abs/2202.00636v1 )

ライセンス: Link先を確認
Mohamed Seif, Dung Nguyen, Anil Vullikanti, Ravi Tandon(参考訳) グラフ上のコミュニティ検出の目標は、ユーザ間の接続性(グラフの隣接行列で表される)によって、ユーザの基礎となるラベル/属性(例えば、政治的関連)を回復することである。 確率ブロックモデル (SBM) からグラフを生成する際に, コミュニティ検出の基本的な限界を理解するための重要な進歩があった。 具体的には、SBMに対して、コミュニティ内およびコミュニティ間接続確率を表す$p$と$q$の関数として、鋭い情報理論の限界と効率的なアルゴリズムが得られた。 本稿では,頂点間の個々の接続(エッジ)のプライバシを保ちながら,コミュニティ検出問題について検討する。 我々は、$(\epsilon, \delta)$-edge differential privacy (dp)の概念に着目し、$(p, q)$, dp budget $(\epsilon, \delta)$, and computational efficiency for exact recovery of the community labels という基本的なトレードオフを理解しようとしている。 この目的のために,我々は3種類の異なる個人的コミュニティ・リカバリメカニズムについて,関連する情報理論上のトレードオフを提示・分析する。 a) 安定性に基づく機構 b) サンプリングに基づく機構,及び c) グラフ摂動機構 主な発見は、安定性とサンプリングに基づくメカニズムによって、$(p,q)$とプライバシ予算$(\epsilon, \delta)$の間の優れたトレードオフがもたらされるということです。 一方、複雑さの低いグラフ摂動機構では、正確なリカバリのために、プライバシー予算$\epsilon$を$\Omega(\log(n))$にスケールする必要がある。 私たちの知る限りでは、これはコミュニティ検出の基本的な限界に対するプライバシー制約の影響を研究する最初の研究である。

The goal of community detection over graphs is to recover underlying labels/attributes of users (e.g., political affiliation) given the connectivity between users (represented by adjacency matrix of a graph). There has been significant recent progress on understanding the fundamental limits of community detection when the graph is generated from a stochastic block model (SBM). Specifically, sharp information theoretic limits and efficient algorithms have been obtained for SBMs as a function of $p$ and $q$, which represent the intra-community and inter-community connection probabilities. In this paper, we study the community detection problem while preserving the privacy of the individual connections (edges) between the vertices. Focusing on the notion of $(\epsilon, \delta)$-edge differential privacy (DP), we seek to understand the fundamental tradeoffs between $(p, q)$, DP budget $(\epsilon, \delta)$, and computational efficiency for exact recovery of the community labels. To this end, we present and analyze the associated information-theoreti c tradeoffs for three broad classes of differentially private community recovery mechanisms: a) stability based mechanism; b) sampling based mechanisms; and c) graph perturbation mechanisms. Our main findings are that stability and sampling based mechanisms lead to a superior tradeoff between $(p,q)$ and the privacy budget $(\epsilon, \delta)$; however this comes at the expense of higher computational complexity. On the other hand, albeit low complexity, graph perturbation mechanisms require the privacy budget $\epsilon$ to scale as $\Omega(\log(n))$ for exact recovery. To the best of our knowledge, this is the first work to study the impact of privacy constraints on the fundamental limits for community detection.
翻訳日:2022-02-02 16:00:04 公開日:2022-01-31
# 正常圧水頭症患者の高速自動心室容積測定のためのaiによるe-diagnosis

AI-based Medical e-Diagnosis for Fast and Automatic Ventricular Volume Measurement in the Patients with Normal Pressure Hydrocephalus ( http://arxiv.org/abs/2202.00650v1 )

ライセンス: Link先を確認
Xi Zhou, Qinghao Ye, Xiaolin Yang, Jiakuan Chen, Haiqin Ma, Jun Xia, Javier Del Ser, Guang Yang(参考訳) 正常圧水頭症 (NPH) 患者のCTおよびMRI画像から, 機械学習を用いて, 心室容積の効率的かつ正確な自動測定を実現するために, マルチモーダル, 高性能自動心室分割法を確立することを目的とする。 まず,143名のNPH患者の頭部CT像とMRI像を抽出した。 第2に,心室容積 (VV) と頭蓋内容積 (ICV) を手動でラベル付けした。 そして,機械学習を用いて特徴を抽出し,自動心室分割モデルを構築する。 最後に,モデルの信頼性を検証し,vvおよびicvの自動測定を行った。 CT画像のDice類似係数(DSC)、ICC(ICC)、ピアソン相関(Pearson correlation)、Bland-Altman分析(Bland-Altman analysis)はそれぞれ0.95, 0.99, 0.99, 4.2$\pm$2.6であった。 ICVは0.96、0.99、0.99、および6.0$\pm$3.8であった。 全プロセスは3.4$\pm$0.3秒かかる。 MRI画像では, DSC, ICC, Pearson 相関, Bland-Altman による VV 自動区分けの結果は0.94, 0.99, 0.99, 2.0$\pm$0.6 であった。 icvの結果は0.93, 0.99, 0.99, 7.9$\pm$3.8であった。 プロセス全体は1.9$\pm$0.1秒であった。 我々は,NPH患者の心室容積の効率的かつ正確な自動計測を実現するために,多変量自動心室分画法を確立した。 これにより、臨床医はNPH患者の心室の状況を迅速かつ正確に理解することができる。

Based on CT and MRI images acquired from normal pressure hydrocephalus (NPH) patients, using machine learning methods, we aim to establish a multi-modal and high-performance automatic ventricle segmentation method to achieve efficient and accurate automatic measurement of the ventricular volume. First, we extract the brain CT and MRI images of 143 definite NPH patients. Second, we manually label the ventricular volume (VV) and intracranial volume (ICV). Then, we use machine learning method to extract features and establish automatic ventricle segmentation model. Finally, we verify the reliability of the model and achieved automatic measurement of VV and ICV. In CT images, the Dice similarity coefficient (DSC), Intraclass Correlation Coefficient (ICC), Pearson correlation, and Bland-Altman analysis of the automatic and manual segmentation result of the VV were 0.95, 0.99, 0.99, and 4.2$\pm$2.6 respectively. The results of ICV were 0.96, 0.99, 0.99, and 6.0$\pm$3.8 respectively. The whole process takes 3.4$\pm$0.3 seconds. In MRI images, the DSC, ICC, Pearson correlation, and Bland-Altman analysis of the automatic and manual segmentation result of the VV were 0.94, 0.99, 0.99, and 2.0$\pm$0.6 respectively. The results of ICV were 0.93, 0.99, 0.99, and 7.9$\pm$3.8 respectively. The whole process took 1.9$\pm$0.1 seconds. We have established a multi-modal and high-performance automatic ventricle segmentation method to achieve efficient and accurate automatic measurement of the ventricular volume of NPH patients. This can help clinicians quickly and accurately understand the situation of NPH patient's ventricles.
翻訳日:2022-02-02 15:39:29 公開日:2022-01-31
# 収束保証付き線形二次レギュレータを解く単一時間スケールアクタ臨界法

Single Time-scale Actor-critic Method to Solve the Linear Quadratic Regulator with Convergence Guarantees ( http://arxiv.org/abs/2202.00048v1 )

ライセンス: Link先を確認
Mo Zhou, Jianfeng Lu(参考訳) 本稿では,線形2次レギュレータ(LQR)問題を解くために,単一の時間スケールアクタ批判アルゴリズムを提案する。 批評家には最小二乗時間差法(LSTD)を適用し、アクターには自然政策勾配法を用いる。 サンプル複雑性を持つ収束の証明として、$\mo(\ve^{-1} \log(\ve^{-1})^2) を与える。 証明の方法は、一般的な単一時間スケールの双レベル最適化問題に適用できる。 また,収束に関する理論結果を数値的に検証した。

We propose a single time-scale actor-critic algorithm to solve the linear quadratic regulator (LQR) problem. A least squares temporal difference (LSTD) method is applied to the critic and a natural policy gradient method is used for the actor. We give a proof of convergence with sample complexity $\mO(\ve^{-1} \log(\ve^{-1})^2)$. The method in the proof is applicable to general single time-scale bilevel optimization problem. We also numerically validate our theoretical results on the convergence.
翻訳日:2022-02-02 15:36:31 公開日:2022-01-31
# SnAKe: パスワイズ探索によるベイズ最適化

SnAKe: Bayesian Optimization with Pathwise Exploration ( http://arxiv.org/abs/2202.00060v1 )

ライセンス: Link先を確認
Jose Pablo Folch, Shiqiang Zhang, Robert M Lee, Behrang Shafei, David Walz, Calvin Tsay, Mark van der Wilk, Ruth Misener(参考訳) ベイズ最適化は高価なブラックボックス関数を最適化するための非常に効果的なツールである。 液滴マイクロ流体反応器を用いた反応化学の開発とキャラクタリゼーションに着想を得て, 繰り返し間で大きな入力変化を行う際に, 機能評価に要する費用が大幅に増加するような新しい設定を考える。 さらに、我々は非同期に作業していると仮定する。つまり、以前の実験の評価を終える前に、新しいクエリを決定する必要がある。 本稿では,この問題を調査し,将来の問合せを考慮し,入力コストを最小化する最適化パスをプリエンプティブに構築することで解決する「適応接続サンプルによるベイズ最適化」(snake)を提案する。 コンバージェンス特性について検討し,従来のベイズ最適化アルゴリズムと同様に,入力コストを大幅に削減しつつ,同期と非同期の両方で後悔を達成できることを実証的に示す。

Bayesian Optimization is a very effective tool for optimizing expensive black-box functions. Inspired by applications developing and characterizing reaction chemistry using droplet microfluidic reactors, we consider a novel setting where the expense of evaluating the function can increase significantly when making large input changes between iterations. We further assume we are working asynchronously, meaning we have to decide on new queries before we finish evaluating previous experiments. This paper investigates the problem and introduces 'Sequential Bayesian Optimization via Adaptive Connecting Samples' (SnAKe), which provides a solution by considering future queries and preemptively building optimization paths that minimize input costs. We investigate some convergence properties and empirically show that the algorithm is able to achieve regret similar to classical Bayesian Optimization algorithms in both the synchronous and asynchronous settings, while reducing the input costs significantly.
翻訳日:2022-02-02 15:36:23 公開日:2022-01-31
# 近似法とスケール自由度によるAdamWの理解

Understanding AdamW through Proximal Methods and Scale-Freeness ( http://arxiv.org/abs/2202.00089v1 )

ライセンス: Link先を確認
Zhenxun Zhuang, Mingrui Liu, Ashok Cutkosky, Francesco Orabona(参考訳) adamはハイパーパラメータのチューニングが少なく、顕著なパフォーマンスのため、ディープニューラルネットワークのトレーニングに広く採用されている。 一般化を改善するために、アダムは典型的には正方形の$\ell_2$正則化器(Adam-$\ell_2$)で使われる。 しかし、Adam-$\ell_2$の更新ルールから正規化器の勾配を分離するAdamWにより、さらに優れたパフォーマンスが得られる。 しかし、AdamWの利点についての完全な説明がまだ欠けている。 本稿では,最適化と経験的視点の両方からこの問題に取り組む。 まず,Adam-$\ell_2$のように勾配情報のみを利用するのではなく,正規化器の閉形式近位写像を利用する近位勾配法の近似としてAdamWを再解釈する方法を示す。 次に、AdamW と近位者による「スケールフリーネス」の特性について考察する:それらの更新は勾配のコンポーネントワイズ再スケーリングに不変である。 我々は,AdamWがAdam-$\ell_2$に対する優位性を示す問題と,ネットワークの勾配が複数のスケールを示すことを期待する程度との相関性を示す幅広いディープラーニング実験の実証的証拠を提供し,AdamWの利点はスケールレス更新による可能性があるという仮説を動機付けている。

Adam has been widely adopted for training deep neural networks due to less hyperparameter tuning and remarkable performance. To improve generalization, Adam is typically used in tandem with a squared $\ell_2$ regularizer (referred to as Adam-$\ell_2$). However, even better performance can be obtained with AdamW, which decouples the gradient of the regularizer from the update rule of Adam-$\ell_2$. Yet, we are still lacking a complete explanation of the advantages of AdamW. In this paper, we tackle this question from both an optimization and an empirical point of view. First, we show how to re-interpret AdamW as an approximation of a proximal gradient method, which takes advantage of the closed-form proximal mapping of the regularizer instead of only utilizing its gradient information as in Adam-$\ell_2$. Next, we consider the property of "scale-freeness" enjoyed by AdamW and by its proximal counterpart: their updates are invariant to component-wise rescaling of the gradients. We provide empirical evidence across a wide range of deep learning experiments showing a correlation between the problems in which AdamW exhibits an advantage over Adam-$\ell_2$ and the degree to which we expect the gradients of the network to exhibit multiple scales, thus motivating the hypothesis that the advantage of AdamW could be due to the scale-free updates.
翻訳日:2022-02-02 15:36:08 公開日:2022-01-31
# 限定ラベルデータを用いた音声表現学習のための自己教師付きグラフ

Self-supervised Graphs for Audio Representation Learning with Limited Labeled Data ( http://arxiv.org/abs/2202.00097v1 )

ライセンス: Link先を確認
Amir Shirian, Krishna Somandepalli, Tanaya Guha(参考訳) 高品質な手動アノテーションを備えた大規模データベースは、オーディオドメインでは不十分である。 そこで我々は,高度に制限されたラベル付きデータから音声表現を学ぶための自己教師付きグラフアプローチを検討する。 それぞれの音声サンプルをグラフノードとして考慮し,効率的な音声表現を学習可能な,新たな自己監督タスクを備えたサブグラフベースのフレームワークを提案する。 トレーニング中は、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることで、サブグラフを構築する。 推論中、グラフ構築のオーバーヘッドを軽減するためにランダムエッジを使用します。 我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。 我々の半教師付きモデルは、完全教師付きモデルと同等あるいは同等に機能し、いくつかの競争力のある既存モデルより優れている。 私たちのモデルはコンパクト(240kパラメータ)で、異なる種類の信号ノイズにロバストな一般化オーディオ表現を生成できる。

Large scale databases with high-quality manual annotations are scarce in audio domain. We thus explore a self-supervised graph approach to learning audio representations from highly limited labelled data. Considering each audio sample as a graph node, we propose a subgraph-based framework with novel self-supervision tasks that can learn effective audio representations. During training, subgraphs are constructed by sampling the entire pool of available training data to exploit the relationship between the labelled and unlabeled audio samples. During inference, we use random edges to alleviate the overhead of graph construction. We evaluate our model on three benchmark audio databases, and two tasks: acoustic event detection and speech emotion recognition. Our semi-supervised model performs better or on par with fully supervised models and outperforms several competitive existing models. Our model is compact (240k parameters), and can produce generalized audio representations that are robust to different types of signal noise.
翻訳日:2022-02-02 15:35:40 公開日:2022-01-31
# 条件付き可逆ニューラルネットワークを用いた外惑星のキャラクタリゼーション

Exoplanet Characterization using Conditional Invertible Neural Networks ( http://arxiv.org/abs/2202.00027v1 )

ライセンス: Link先を確認
Jonas Haldemann, Victor Ksoll, Daniel Walter, Yann Alibert, Ralf S. Klessen, Willy Benz, Ullrich Koethe, Lynton Ardizzone, Carsten Rother(参考訳) 太陽系外惑星の内部のキャラクタリゼーションは逆問題であり、解けるためにはベイズ推論のような統計的方法を必要とする。 現在の手法では、マルコフ・チェイン・モンテカルロ(MCMC)サンプリングを用いて、与えられた外惑星の惑星構造パラメータの後方確率を推定している。 これらの方法は、多くの惑星構造モデルの計算を必要とするため、時間がかかる。 太陽系外惑星を特徴付ける際の推論過程を高速化するために,条件付き可逆ニューラルネットワーク(cINN)を用いて内部構造パラメータの後方確率を計算することを提案する。 cINNは、逆問題の解法に優れた特殊なタイプのニューラルネットワークである。 我々は、FrEIAを用いてcINNを構築し、内部構造パラメータと観測可能な特徴(惑星質量、惑星半径、ホスト星の構成)の間の逆マッピングを復元するために、5.6\cdot 10^6$の内部構造モデルのデータベースで訓練した。 cINN法はMetropolis-Hastings MCMCと比較した。 そこで, MCMC法とcINNを併用し, 太陽系外惑星K2-111bのキャラクタリゼーションを繰り返した。 両方の方法から推定される内部構造パラメータの後方確率は、太陽系外惑星の水分量に最も大きな差が見られるため、非常によく似ている。 したがって、cINNは標準的な時間的サンプリング手法の代替となる可能性がある。 実際、cINNを使用することで、MCMC法よりもはるかに高速な太陽系外惑星の組成推定が可能になるが、cINNを訓練するためには内部構造の大規模なデータベースの計算が必要である。 このデータベースは一度しか計算されないため、同じcINNを用いて10個以上の太陽系外惑星を特徴付ける場合、cINNの使用はMCMCよりも効率的であることがわかった。

The characterization of an exoplanet's interior is an inverse problem, which requires statistical methods such as Bayesian inference in order to be solved. Current methods employ Markov Chain Monte Carlo (MCMC) sampling to infer the posterior probability of planetary structure parameters for a given exoplanet. These methods are time consuming since they require the calculation of a large number of planetary structure models. To speed up the inference process when characterizing an exoplanet, we propose to use conditional invertible neural networks (cINNs) to calculate the posterior probability of the internal structure parameters. cINNs are a special type of neural network which excel in solving inverse problems. We constructed a cINN using FrEIA, which was then trained on a database of $5.6\cdot 10^6$ internal structure models to recover the inverse mapping between internal structure parameters and observable features (i.e., planetary mass, planetary radius and composition of the host star). The cINN method was compared to a Metropolis-Hastings MCMC. For that we repeated the characterization of the exoplanet K2-111 b, using both the MCMC method and the trained cINN. We show that the inferred posterior probability of the internal structure parameters from both methods are very similar, with the biggest differences seen in the exoplanet's water content. Thus cINNs are a possible alternative to the standard time-consuming sampling methods. Indeed, using cINNs allows for orders of magnitude faster inference of an exoplanet's composition than what is possible using an MCMC method, however, it still requires the computation of a large database of internal structures to train the cINN. Since this database is only computed once, we found that using a cINN is more efficient than an MCMC, when more than 10 exoplanets are characterized using the same cINN.
翻訳日:2022-02-02 15:28:00 公開日:2022-01-31
# ヨーング・スター・デトランディング・トランジット・エクソプラネット・リカバリ(YOUNGSTER) II: 自己組織マップを用いたTESSデータの分野1-13における若い恒星変動の探索

YOUNG Star detrending for Transiting Exoplanet Recovery (YOUNGSTER) II: Using Self-Organising Maps to explore young star variability in Sectors 1-13 of TESS data ( http://arxiv.org/abs/2202.00031v1 )

ライセンス: Link先を確認
Matthew P. Battley, David J. Armstrong, Don Pollacco(参考訳) 若い太陽系外惑星とそれに対応する主星は、惑星の進化と惑星と星の相互作用の時間スケールを制限する興味深い実験室である。 しかし、若い恒星は通常、より古い恒星よりも活発であるため、より若い太陽系外惑星を発見するために、若い恒星の多様性に関する幅広い知識が必要である。 ここで、コホネン自己組織マップ(soms)は、トランジット系太陽系外惑星調査衛星(tess)からの観測初年度に存在する若い恒星変動を探索するために使用され、将来、若い恒星を標的に分解する価値のある知識である。 この手法は、若い黄道のバイナリーのシグナルと、恒星の変動性から潜在的に通過する天体のシグナルを分離するのに特に有効であることが判明した。 自己組織マップの事前学習が既知の可変性クラスに与える影響はテストされたが,tessによる有意なトレーニングがなければ難しいことが判明した。 また、SOMは、TESSデータにおける残余体系の直感的で情報的な概要を提供し、フォトメトリックデータセットにおけるトラブル系統を特徴づける重要な新しい方法を提供する。 本報告は、より広い若い惑星の回復を改善するために、機械学習による若い星の分類と対象の退化のアプローチを用いて、より広い範囲のYUNGSTERプログラムの第1段階を示す。

Young exoplanets and their corresponding host stars are fascinating laboratories for constraining the timescale of planetary evolution and planet-star interactions. However, because young stars are typically much more active than the older population, in order to discover more young exoplanets, greater knowledge of the wide array of young star variability is needed. Here Kohonen Self Organising Maps (SOMs) are used to explore young star variability present in the first year of observations from the Transiting Exoplanet Survey Satellite (TESS), with such knowledge valuable to perform targeted detrending of young stars in the future. This technique was found to be particularly effective at separating the signals of young eclipsing binaries and potential transiting objects from stellar variability, a list of which are provided in this paper. The effect of pre-training the Self-Organising Maps on known variability classes was tested, but found to be challenging without a significant training set from TESS. SOMs were also found to provide an intuitive and informative overview of leftover systematics in the TESS data, providing an important new way to characterise troublesome systematics in photometric data-sets. This paper represents the first stage of the wider YOUNGSTER program, which will use a machine-learning-bas ed approach to classification and targeted detrending of young stars in order to improve the recovery of smaller young exoplanets.
翻訳日:2022-02-02 15:27:28 公開日:2022-01-31
# JULIA: Tensor Completion の多重線形・非線形同定

JULIA: Joint Multi-linear and Nonlinear Identification for Tensor Completion ( http://arxiv.org/abs/2202.00071v1 )

ライセンス: Link先を確認
Cheng Qian, Kejun Huang, Lucas Glass, Rakshith S. Srinivasa, and Jimeng Sun(参考訳) テンソル補完は、部分的に観測されたテンソルから欠落したエントリを暗示することを目的としている。 既存のテンソル補完法は、しばしば潜在成分間の多重線型または非線形関係を仮定する。 しかし、実世界のテンソルはより複雑なパターンを持ち、多重線型関係と非線形関係は共存する。 このような場合、既存の手法ではデータ構造を記述するには不十分である。 本稿では,大規模テンソル完成のためのJULIA(Joint mUlti-linear and nonLinear IdentificAtion)フレームワークを提案する。 JULIAは、既存の方法に対していくつかの利点がある多重線型および非線形テンソル完備化モデルを統合する。 1) フレキシブルモデルの選択,すなわち,マルチリニア成分と非線形成分の組み合わせとしてその値を割り当てることでテンソルに適合する。 2) 既存の非線形テンソル補完法と適合する。 3) よく設計された交互最適化アプローチに基づく効率的な訓練。 6つの実大規模テンソルの実験は、JULIAが既存のテンソル完備化アルゴリズムよりも優れていることを示した。 さらに、JULIAは非線形テンソル補完法のクラスの性能を向上させることができる。 その結果, 大規模テンソル完成シナリオでは, JULIA を用いたベースライン法はルート平均二乗誤差を最大55%低減し, 計算複雑性を67%削減できることがわかった。

Tensor completion aims at imputing missing entries from a partially observed tensor. Existing tensor completion methods often assume either multi-linear or nonlinear relationships between latent components. However, real-world tensors have much more complex patterns where both multi-linear and nonlinear relationships may coexist. In such cases, the existing methods are insufficient to describe the data structure. This paper proposes a Joint mUlti-linear and nonLinear IdentificAtion (JULIA) framework for large-scale tensor completion. JULIA unifies the multi-linear and nonlinear tensor completion models with several advantages over the existing methods: 1) Flexible model selection, i.e., it fits a tensor by assigning its values as a combination of multi-linear and nonlinear components; 2) Compatible with existing nonlinear tensor completion methods; 3) Efficient training based on a well-designed alternating optimization approach. Experiments on six real large-scale tensors demonstrate that JULIA outperforms many existing tensor completion algorithms. Furthermore, JULIA can improve the performance of a class of nonlinear tensor completion methods. The results show that in some large-scale tensor completion scenarios, baseline methods with JULIA are able to obtain up to 55% lower root mean-squared-error and save 67% computational complexity.
翻訳日:2022-02-02 14:51:11 公開日:2022-01-31
# 高速かつ正確なビデオ圧縮補正のためのビットストリームメタデータの活用

Leveraging Bitstream Metadata for Fast and Accurate Video Compression Correction ( http://arxiv.org/abs/2202.00011v1 )

ライセンス: Link先を確認
Max Ehrlich, Jon Barker, Namitha Padmanabhan, Larry Davis, Andrew Tao, Bryan Catanzaro, Abhinav Shrivastava(参考訳) ビデオ圧縮は、ソーシャルメディアからビデオ会議まで、現代のインターネットを支える技術の中心的な特徴である。 ビデオ圧縮は成熟を続けているが、多くの、特に極端な圧縮設定では、品質の低下は目立たない。 これらの極端な設定は、帯域制限や不安定な接続による効率的な動画伝送に重要な応用をもたらす。 本研究では,ビデオビットストリームに埋め込まれた構造と動作情報を活用する圧縮ビデオに詳細を復元する深層学習アーキテクチャを開発した。 その結果,従来の圧縮補正法と比較して復元精度が向上し,高スループットを実現しつつ,近年のディープラーニングビデオ圧縮法と比較した場合の競合性が示された。

Video compression is a central feature of the modern internet powering technologies from social media to video conferencing. While video compression continues to mature, for many, and particularly for extreme, compression settings, quality loss is still noticeable. These extreme settings nevertheless have important applications to the efficient transmission of videos over bandwidth constrained or otherwise unstable connections. In this work, we develop a deep learning architecture capable of restoring detail to compressed videos which leverages the underlying structure and motion information embedded in the video bitstream. We show that this improves restoration accuracy compared to prior compression correction methods and is competitive when compared with recent deep-learning-based video compression methods on rate-distortion while achieving higher throughput.
翻訳日:2022-02-02 14:50:22 公開日:2022-01-31
# AutoGeoLabel: 地理空間機械学習のためのラベル自動生成

AutoGeoLabel: Automated Label Generation for Geospatial Machine Learning ( http://arxiv.org/abs/2202.00067v1 )

ライセンス: Link先を確認
Conrad M Albrecht, Fernando Marianno, Levente J Klein(参考訳) 教師あり学習の重要な課題は、人間のラベル付きデータの入手である。 リモートセンシングデータのためのラベルの自動生成のためのビッグデータ処理パイプラインを評価する。 これは、例えばLiDAR測定などの調査から抽出されたラスタ化統計特徴に基づいている。 ラスタ化統計層の単純な組み合わせを用いて, 0.9 以下の確率で複数のクラスを生成できることを実証した。 概念実証として,大規模地理データプラットフォームであるIBM PAIRSを用いて,複数の土地被覆クラスを持つ都市部において,そのようなラベルを動的に生成する。 本提案手法はプラットフォームに依存しない汎用手法であり,土地利用分類や物体検出のためのオーバーヘッド画像の機械学習を可能にするために,他の衛星モダリティのラベルを生成することができる。

A key challenge of supervised learning is the availability of human-labeled data. We evaluate a big data processing pipeline to auto-generate labels for remote sensing data. It is based on rasterized statistical features extracted from surveys such as e.g. LiDAR measurements. Using simple combinations of the rasterized statistical layers, it is demonstrated that multiple classes can be generated at accuracies of ~0.9. As proof of concept, we utilize the big geo-data platform IBM PAIRS to dynamically generate such labels in dense urban areas with multiple land cover classes. The general method proposed here is platform independent, and it can be adapted to generate labels for other satellite modalities in order to enable machine learning on overhead imagery for land use classification and object detection.
翻訳日:2022-02-02 14:50:10 公開日:2022-01-31
# センサベースロボット制御とポリシー学習の基本性能限界

Fundamental Performance Limits for Sensor-Based Robot Control and Policy Learning ( http://arxiv.org/abs/2202.00129v1 )

ライセンス: Link先を確認
Anirudha Majumdar and Vincent Pacelli(参考訳) 我々のゴールは、ロボットのセンサーが課すタスクの基本的な性能限界を確立するための理論とアルゴリズムを開発することである。 これを実現するために、センサによって提供されるタスク関連情報の量をキャプチャする量を定義する。 情報理論から一般化されたファノ不等式の新しいバージョンを用いて,一段階の意思決定タスクに対して,この量が達成可能な最高の期待報酬の上限となることを実証する。 次に、動的プログラミングアプローチにより、この境界をマルチステップ問題に拡張します。 結果境界を数値計算するアルゴリズムを提示し,その手法を3つの例に示す。 i) 部分的に観測可能なマルコフ決定過程に関する文献からの溶岩問題 二 自由落下物体を捕獲するロボットに対応する連続状態及び観測空間のある例 (iii)非ガウス雑音の深さセンサによる障害物回避 我々は,これらの問題に対して,上界と達成可能な下界(具体的制御ポリシの合成や学習)を比較して,達成可能な性能の強い限界を確立するためのアプローチの能力を実証する。

Our goal is to develop theory and algorithms for establishing fundamental limits on performance for a given task imposed by a robot's sensors. In order to achieve this, we define a quantity that captures the amount of task-relevant information provided by a sensor. Using a novel version of the generalized Fano inequality from information theory, we demonstrate that this quantity provides an upper bound on the highest achievable expected reward for one-step decision making tasks. We then extend this bound to multi-step problems via a dynamic programming approach. We present algorithms for numerically computing the resulting bounds, and demonstrate our approach on three examples: (i) the lava problem from the literature on partially observable Markov decision processes, (ii) an example with continuous state and observation spaces corresponding to a robot catching a freely-falling object, and (iii) obstacle avoidance using a depth sensor with non-Gaussian noise. We demonstrate the ability of our approach to establish strong limits on achievable performance for these problems by comparing our upper bounds with achievable lower bounds (computed by synthesizing or learning concrete control policies).
翻訳日:2022-02-02 14:47:01 公開日:2022-01-31
# トランスフォーマからの双方向エンコーダ表現を用いた社会的行動の学習

Learning affective meanings that derives the social behavior using Bidirectional Encoder Representations from Transformers ( http://arxiv.org/abs/2202.00065v1 )

ライセンス: Link先を確認
Moeen Mostafavi, Michael D. Porter, Dawn T. Robinson(参考訳) プロセスの結果を予測するには、システムを動的にモデル化し、状態を観察する必要がある。 社会的行動の文脈において、感情はシステムの状態を特徴づける。 affect control theory (act) は潜在的な相互作用を示すために感情を用いる。 ACTは3次元の感情辞書に基づく文化と行動の生成理論である。 伝統的に、感情は社会的行動を説明するために回帰モデルに入力される調査データを用いて定量化される。 調査で使用されるレキシコンは禁止費用のために制限されている。 本稿では,変換器(BERT)モデルを用いた微調整双方向エンコーダ表現を用いて,これらのサーベイを代替する手法を提案する。 このモデルは、感情的意味を推定し、感情的語彙を拡張し、より多くの振る舞いを説明できるように、最先端の精度を達成する。

Predicting the outcome of a process requires modeling the system dynamic and observing the states. In the context of social behaviors, sentiments characterize the states of the system. Affect Control Theory (ACT) uses sentiments to manifest potential interaction. ACT is a generative theory of culture and behavior based on a three-dimensional sentiment lexicon. Traditionally, the sentiments are quantified using survey data which is fed into a regression model to explain social behavior. The lexicons used in the survey are limited due to prohibitive cost. This paper uses a fine-tuned Bidirectional Encoder Representations from Transformers (BERT) model to develop a replacement for these surveys. This model achieves state-of-the-art accuracy in estimating affective meanings, expanding the affective lexicon, and allowing more behaviors to be explained.
翻訳日:2022-02-02 14:46:46 公開日:2022-01-31
# Deep-Disaster:ビジュアルデータを用いた教師なし災害検出と位置推定

Deep-Disaster: Unsupervised Disaster Detection and Localization Using Visual Data ( http://arxiv.org/abs/2202.00050v1 )

ライセンス: Link先を確認
Soroor Shekarizadeh, Razieh Rastgoo, Saif Al-Kuwari, Mohammad Sabokrou(参考訳) ソーシャルメディアは、災害時や災害後の人道支援活動を支援する重要な情報共有に重要な役割を果たしている。 しかし,災害初期におけるソーシャルメディア画像の高速解析を実現する効率的な手法の開発は,適切なデータセットの欠如や,このタスクの複雑さが主な原因で,いまだに未解決の問題である。 また, 監視手法は, 新たな災害事故に対して十分に一般化できない。 本稿では,知識蒸留(KD)手法の成功に触発されて,ソーシャルメディア画像の損傷を検出・局所化するための教師なしディープニューラルネットワークを提案する。 提案するkdアーキテクチャは,事前学習した教師と小学生ネットワークで構成された機能ベースの蒸留アプローチであり,両ネットワークともジェネレータと判別器を含む同様のganアーキテクチャを有する。 学生ネットワークは、入力サンプルの訓練において教師の行動をエミュレートするように訓練され、それには損傷した領域を含まない画像が含まれる。 したがって、生徒ネットワークは、無被害データの分布のみを学習し、教師ネットワークによる被害とは異なる行動をとる。 損傷を検出するために,2つのネットワークが生成する特徴の差異を,損傷の確率を示すスコア関数を用いて評価する。 提案手法は, 被害地域, 特に新しい災害タイプの検出と位置決定において, 最先端の手法よりも優れていることを確認した。

Social media plays a significant role in sharing essential information, which helps humanitarian organizations in rescue operations during and after disaster incidents. However, developing an efficient method that can provide rapid analysis of social media images in the early hours of disasters is still largely an open problem, mainly due to the lack of suitable datasets and the sheer complexity of this task. In addition, supervised methods can not generalize well to novel disaster incidents. In this paper, inspired by the success of Knowledge Distillation (KD) methods, we propose an unsupervised deep neural network to detect and localize damages in social media images. Our proposed KD architecture is a feature-based distillation approach that comprises a pre-trained teacher and a smaller student network, with both networks having similar GAN architecture containing a generator and a discriminator. The student network is trained to emulate the behavior of the teacher on training input samples, which, in turn, contain images that do not include any damaged regions. Therefore, the student network only learns the distribution of no damage data and would have different behavior from the teacher network-facing damages. To detect damage, we utilize the difference between features generated by two networks using a defined score function that demonstrates the probability of damages occurring. Our experimental results on the benchmark dataset confirm that our approach outperforms state-of-the-art methods in detecting and localizing the damaged areas, especially for novel disaster types.
翻訳日:2022-02-02 14:44:58 公開日:2022-01-31
# 路面監視ビデオを用いた半教師あり水深同定とマッピング

Semi-supervised Identification and Mapping of Surface Water Extent using Street-level Monitoring Videos ( http://arxiv.org/abs/2202.00096v1 )

ライセンス: Link先を確認
Ruo-Qian Wang, Yangmin Ding(参考訳) 都市洪水は、生命の喪失と経済的な被害を引き起こすため、一般的で破壊的な危険となっている。 地域規模での都市洪水のモニタリングと理解は、複雑な都市景観、複雑な水理過程、高品質で解像度の高いデータがないために難しい課題である。 監視カメラのような新しいスマートシティ技術は、データ問題に対処する前例のない機会を提供する。 しかし, 従来のセグメンテーション手法では, 各種の天候, 背景, 照明の影響下での水分蓄積の境界が曖昧であり, 映像監視データの斜め角度や画像歪みがジオリファレンスやオブジェクトベース計測を妨げているため, 従来のセグメンテーション手法では土地表面の水分蓄積を推定することは信頼できない。 本稿では,斜め監視カメラの映像から表面水深認識を行うための,新しい半教師付きセグメンテーション方式を提案する。 半教師付きセグメンテーションアルゴリズムは水の境界を決定するのに適し, 局所排水過程の仮想定量化のために, 監視ビデオの画素のジオレファレンスにモノプロイト法を適用した。 この相関と機構に基づく解析は, 局所排水水理の理解を深める上で, 提案手法の意義を示すものである。 この研究のワークフローと手法は、他の街路面や地表面のプロセスを研究する大きな可能性を秘めている。

Urban flooding is becoming a common and devastating hazard to cause life loss and economic damage. Monitoring and understanding urban flooding in the local scale is a challenging task due to the complicated urban landscape, intricate hydraulic process, and the lack of high-quality and resolution data. The emerging smart city technology such as monitoring cameras provides an unprecedented opportunity to address the data issue. However, estimating the water accumulation on the land surface based on the monitoring footage is unreliable using the traditional segmentation technique because the boundary of the water accumulation, under the influence of varying weather, background, and illumination, is usually too fuzzy to identify, and the oblique angle and image distortion in the video monitoring data prevents georeferencing and object-based measurements. This paper presents a novel semi-supervised segmentation scheme for surface water extent recognition from the footage of an oblique monitoring camera. The semi-supervised segmentation algorithm was found suitable to determine the water boundary and the monoplotting method was successfully applied to georeference the pixels of the monitoring video for the virtual quantification of the local drainage process. The correlation and mechanism-based analysis demonstrates the value of the proposed method in advancing the understanding of local drainage hydraulics. The workflow and created methods in this study has a great potential to study other street-level and earth surface processes.
翻訳日:2022-02-02 14:44:34 公開日:2022-01-31
# 合成データを用いた物体検出訓練における実世界のデータ量削減

Reducing the Amount of Real World Data for Object Detector Training with Synthetic Data ( http://arxiv.org/abs/2202.00632v1 )

ライセンス: Link先を確認
Sven Burdorf, Karoline Plum, Daniel Hasenklever(参考訳) 多くの研究が、現実世界の応用のための合成データを用いたニューラルネットワークのトレーニングを調査している。 本研究の目的は,合成データと実世界のデータの混合データセットを用いて,実世界のデータの保存量を定量化することである。 簡単な電力法則によりトレーニング例数と検出性能の関係をモデル化することにより,検出性能を犠牲にすることなく,実世界のデータの必要性を最大70%削減できることがわかった。 オブジェクト検出ネットワークのトレーニングは、実世界のデータセットに表示されないクラスで混合データセットを豊かにすることで、特に強化される。 その結果, 実世界のデータ比が5%から20%の混合データセットは, 検出性能を低下させることなく, 実世界のデータの必要性を最大に抑えることができた。

A number of studies have investigated the training of neural networks with synthetic data for applications in the real world. The aim of this study is to quantify how much real world data can be saved when using a mixed dataset of synthetic and real world data. By modeling the relationship between the number of training examples and detection performance by a simple power law, we find that the need for real world data can be reduced by up to 70% without sacrificing detection performance. The training of object detection networks is especially enhanced by enriching the mixed dataset with classes underrepresented in the real world dataset. The results indicate that mixed datasets with real world data ratios between 5% and 20% reduce the need for real world data the most without reducing the detection performance.
翻訳日:2022-02-02 14:41:29 公開日:2022-01-31
# 異種性認知症患者における解釈可能な臨床サブタイプ同定

Identifying Interpretable Clinical Subtypes withinHeterogeneous Dementia Clinic Population ( http://arxiv.org/abs/2202.00009v1 )

ライセンス: Link先を確認
Sayantan Kumar(参考訳) 認知症は非常に異質な神経変性疾患である。 脳病理の差異は、患者の臨床プレゼンテーションや進行過程に大きな変化をもたらし、個々の進行予測の必要性が増す。 認知症進行リスクの異なるサブタイプについて, 臨床認知症評価 (CDR) を用いた認知症クリニック集団のクラスタ分析を行った。 CDR成分の分布は、同定されたサブタイプの認知特性に関する妥当性と解釈性を提供する。

Dementia is a highly heterogeneous neurodegenerative disorder. Differences in brain pathologies lead to significant variations in the clinical presentation and progression course of patients, increasing the need for individual progression predictions. Unsupervised cluster analysis on a dementia clinic population using the Clinical Dementia Rating (CDR) component scores uncovered subtypes with different risk of dementia progression. The distribution of the CDR components provide validation and interpretability regarding the cognitive characteristics of the identified subtypes.
翻訳日:2022-02-02 14:40:52 公開日:2022-01-31
# 制約付き無限水平平均逆マルコフ決定過程の学習

Learning Infinite-Horizon Average-Reward Markov Decision Processes with Constraints ( http://arxiv.org/abs/2202.00150v1 )

ライセンス: Link先を確認
Liyu Chen, Rahul Jain, Haipeng Luo(参考訳) 本研究では,無限水平平均逆マルコフ決定過程(MDP)のコスト制約による最小化について検討する。 まず、アクション値推定器とボーナス項を慎重に設計したポリシー最適化アルゴリズムを設計し、エルゴードmdpの場合、このアルゴリズムは$\widetilde{o}(\sqrt{t})$ regret and constant constraints violationを保証し、$t$は時間ステップの総数であることを示した。 これは(Singh et al., 2020)のアルゴリズムよりも厳密に改善され、その後悔と制約違反はともに$\widetilde{O}(T^{2/3})$である。 次に、弱通信型MDPの最も一般的なクラスについて考察する。 有限ホライズン近似により、このアルゴリズムを計算的に非効率にするために、$\widetilde{O}(T^{2/3})$後悔と制約違反を伴う別のアルゴリズムを開発し、さらに$\widetilde{O}(T^{2/3})$に改善することができる。 私たちが知る限り、これらのアルゴリズムは、コスト制約でMDPを弱めに通信するための最初の証明可能なアルゴリズムです。

We study regret minimization for infinite-horizon average-reward Markov Decision Processes (MDPs) under cost constraints. We start by designing a policy optimization algorithm with carefully designed action-value estimator and bonus term, and show that for ergodic MDPs, our algorithm ensures $\widetilde{O}(\sqrt{T})$ regret and constant constraint violation, where $T$ is the total number of time steps. This strictly improves over the algorithm of (Singh et al., 2020), whose regret and constraint violation are both $\widetilde{O}(T^{2/3})$. Next, we consider the most general class of weakly communicating MDPs. Through a finite-horizon approximation, we develop another algorithm with $\widetilde{O}(T^{2/3})$ regret and constraint violation, which can be further improved to $\widetilde{O}(\sqrt{T})$ via a simple modification, albeit making the algorithm computationally inefficient. As far as we know, these are the first set of provable algorithms for weakly communicating MDPs with cost constraints.
翻訳日:2022-02-02 14:39:11 公開日:2022-01-31
# ニューラルネットワークの比較のための非畳み込み表現類似性

Deconfounded Representation Similarity for Comparison of Neural Networks ( http://arxiv.org/abs/2202.00095v1 )

ライセンス: Link先を確認
Tianyu Cui, Yogesh Kumar, Pekka Marttinen, Samuel Kaski(参考訳) 表現類似度分析(RSA)や中心核アライメント(CKA)といった類似度メトリクスは、ニューラルネットワーク間のレイヤワイド表現を比較するために用いられてきた。 しかし、これらの指標は入力空間におけるデータ項目の集団構造によって構築され、完全にランダムなニューラルネットワークと、転送学習における矛盾したドメイン関係の急激な類似性をもたらす。 直感的な相似性尺度の不変性を保ちながら,共創者に対して共変量調整を施すための,単純で汎用的な修正を導入する。 類似度メトリクスを分離することで、意味的に類似したニューラルネットワークの検出の解像度が向上することを示す。 さらに、実世界のアプリケーションでは、デコンウンディングは転送学習におけるドメイン類似性との表現類似性の整合性を改善し、分布外精度との相関性を高める。

Similarity metrics such as representational similarity analysis (RSA) and centered kernel alignment (CKA) have been used to compare layer-wise representations between neural networks. However, these metrics are confounded by the population structure of data items in the input space, leading to spuriously high similarity for even completely random neural networks and inconsistent domain relations in transfer learning. We introduce a simple and generally applicable fix to adjust for the confounder with covariate adjustment regression, which retains the intuitive invariance properties of the original similarity measures. We show that deconfounding the similarity metrics increases the resolution of detecting semantically similar neural networks. Moreover, in real-world applications, deconfounding improves the consistency of representation similarities with domain similarities in transfer learning, and increases correlation with out-of-distribution accuracy.
翻訳日:2022-02-02 13:58:59 公開日:2022-01-31
# MEGA: 協調発電機代替ネットワークによるモデルステアリング

MEGA: Model Stealing via Collaborative Generator-Substitute Networks ( http://arxiv.org/abs/2202.00008v1 )

ライセンス: Link先を確認
Chi Hong, Jiyue Huang and Lydia Y. Chen(参考訳) ディープラーニングモデルは、ユーザにサービスを提供するために、ますます多くデプロイされている。 敵は、これらの価値あるモデルの知識を、ターゲットに配置されたモデルの推論結果に従って訓練する。 近年のデータフリーモデルステイティングメソッドは、実際のクエリ例を使わずにターゲットモデルの知識を抽出するのに有効であるが、クラス確率やロジットなど、豊富な推論情報を蓄積している。 しかし、これらは全て競合するジェネレータ-置換型ネットワークに基づいており、それゆえトレーニングの不安定さに遭遇する。本稿では、協調生成-置換型ネットワークに基づく、合成クエリ例のラベル予測を実現するためのターゲットモデルのみを必要とする、フレームワークを盗むデータフリーモデルmegaを提案する。 我々の手法の核心は、2つの協調モデルからなる最適化を盗むモデルである (i)合成クエリー例とその推定ラベルを通して対象モデルを模倣する代替モデル (ii)各クエリ例に対する置換モデルの信頼度が最大となるような画像を合成する生成器。 weproposeは、新しい座標降下訓練手順を実行し、その収束を解析する。 また、3つのデータセットのトレーニング済み代用モデルとそのブラックボックス攻撃に対する適用性を実証的に評価した。 以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い。

Deep machine learning models are increasingly deployedin the wild for providing services to users. Adversaries maysteal the knowledge of these valuable models by trainingsubstitute models according to the inference results of thetargeted deployed models. Recent data-free model stealingmethods are shown effective to extract the knowledge of thetarget model without using real query examples, but they as-sume rich inference information, e.g., class probabilities andlogits. However, they are all based on competing generator-substitute networks and hence encounter training instability.In this paper we propose a data-free model stealing frame-work,MEGA, which is based on collaborative generator-substitute networks and only requires the target model toprovide label prediction for synthetic query examples. Thecore of our method is a model stealing optimization con-sisting of two collaborative models (i) the substitute modelwhich imitates the target model through the synthetic queryexamples and their inferred labels and (ii) the generatorwhich synthesizes images such that the confidence of thesubstitute model over each query example is maximized. Wepropose a novel coordinate descent training procedure andanalyze its convergence. We also empirically evaluate thetrained substitute model on three datasets and its applicationon black-box adversarial attacks. Our results show that theaccuracy of our trained substitute model and the adversarialattack success rate over it can be up to 33% and 40% higherthan state-of-the-art data-free black-box attacks.
翻訳日:2022-02-02 13:52:11 公開日:2022-01-31
# 常識因果性の推論のための因果推論原理

Causal Inference Principles for Reasoning about Commonsense Causality ( http://arxiv.org/abs/2202.00436v1 )

ライセンス: Link先を確認
Jiayao Zhang, Hongming Zhang, Dan Roth, Weijie J. Su(参考訳) コモンセンス因果推論(Commonsense causality reasoning, CCR)は、平均的な人によって妥当と見なされる自然言語記述における妥当な原因と影響を特定することを目的としている。 学術的、実践的な関心は大きいが、この問題は、よく考えられた理論的な枠組みの欠如によってまだ影を潜められている。 古典的因果原理に触発されて、我々はCCRの中心的な問題を明確にし、観察研究における人間と自然言語の類似性を引き合いに出し、CCRを潜在的アウトカムフレームワークに適用する。 本稿では,時間的信号のインシデント・インシデント・インシデント・インシデント・インシデントとして活用し,確率的スコアに類似した時間的固有値を用いたコンバウンディング・エフェクトのバランスをとる,Reason O(A)bout Commonsense K(C)ausality に対する新しいフレームワーク ROCK を提案する。 ROCKの実装はモジュラでゼロショットであり、さまざまなデータセットで優れたCCR機能を示している。

Commonsense causality reasoning (CCR) aims at identifying plausible causes and effects in natural language descriptions that are deemed reasonable by an average person. Although being of great academic and practical interest, this problem is still shadowed by the lack of a well-posed theoretical framework; existing work usually relies on deep language models wholeheartedly, and is potentially susceptible to confounding co-occurrences. Motivated by classical causal principles, we articulate the central question of CCR and draw parallels between human subjects in observational studies and natural languages to adopt CCR to the potential-outcomes framework, which is the first such attempt for commonsense tasks. We propose a novel framework, ROCK, to Reason O(A)bout Commonsense K(C)ausality, which utilizes temporal signals as incidental supervision, and balances confounding effects using temporal propensities that are analogous to propensity scores. The ROCK implementation is modular and zero-shot, and demonstrates good CCR capabilities on various datasets.
翻訳日:2022-02-02 13:36:03 公開日:2022-01-31
# 問合せによるブラックボックス深層学習モデルに対するスパース攻撃

Query Efficient Decision Based Sparse Attacks Against Black-Box Deep Learning Models ( http://arxiv.org/abs/2202.00091v1 )

ライセンス: Link先を確認
Viet Quoc Vo, Ehsan Abbasnejad, Damith C. Ranasinghe(参考訳) 最善の努力にもかかわらず、ディープラーニングモデルは入力に適用される小さな逆さまの摂動にも非常に弱いままです。 機械学習モデルの出力のみから情報を抽出し、ブラックボックスモデルに敵対的な摂動を発生させる能力は、自律車や機械学習モデルがサービスとして公開するMLaaSのような現実のシステムに対する現実的な脅威である。 特に興味深いのは、スパース攻撃である。 ブラックボックスモデルにおけるスパース攻撃の実現は、機械学習モデルが私たちが信じているよりも脆弱であることを示している。 これらの攻撃は、l_0標準条件で測定された摂動画素の数を最小限に抑え、決定(予測ラベル)のみをモデルクエリに返却することで、モデルを誤解させる。 しかし、このような攻撃はNPハード最適化の問題につながる。 本研究では,畳み込み型ディープニューラルネットワークと視覚トランスフォーマの両方に対して,問題に対する進化に基づくアルゴリズムスパーセボを開発した。 特に、視覚変換器は、決定に基づく攻撃条件下ではまだ調査されていない。 SparseEvoは、未ターゲットとターゲットの両方の攻撃に対して、最先端のスパース攻撃よりもはるかに少ないモデルクエリを必要とする。 攻撃アルゴリズムは概念的には単純ではあるが、ImageNetのような標準的なコンピュータビジョンタスクにおける最先端の勾配ベースのホワイトボックス攻撃に対して、限られたクエリ予算で競合する。 重要なことは、クエリ効率のよいSparseEvoと、一般的には意思決定ベースの攻撃は、デプロイされたシステムの安全性に関する新たな疑問を提起し、機械学習モデルの堅牢性を研究し、理解するための新たな方向性を示す。

Despite our best efforts, deep learning models remain highly vulnerable to even tiny adversarial perturbations applied to the inputs. The ability to extract information from solely the output of a machine learning model to craft adversarial perturbations to black-box models is a practical threat against real-world systems, such as autonomous cars or machine learning models exposed as a service (MLaaS). Of particular interest are sparse attacks. The realization of sparse attacks in black-box models demonstrates that machine learning models are more vulnerable than we believe. Because these attacks aim to minimize the number of perturbed pixels measured by l_0 norm-required to mislead a model by solely observing the decision (the predicted label) returned to a model query; the so-called decision-based attack setting. But, such an attack leads to an NP-hard optimization problem. We develop an evolution-based algorithm-SparseEvo- for the problem and evaluate against both convolutional deep neural networks and vision transformers. Notably, vision transformers are yet to be investigated under a decision-based attack setting. SparseEvo requires significantly fewer model queries than the state-of-the-art sparse attack Pointwise for both untargeted and targeted attacks. The attack algorithm, although conceptually simple, is also competitive with only a limited query budget against the state-of-the-art gradient-based whitebox attacks in standard computer vision tasks such as ImageNet. Importantly, the query efficient SparseEvo, along with decision-based attacks, in general, raise new questions regarding the safety of deployed systems and poses new directions to study and understand the robustness of machine learning models.
翻訳日:2022-02-02 13:34:58 公開日:2022-01-31
# 顔ランドマークとニューラルネットワークを用いたリアルタイム表情認識

Real-Time Facial Expression Recognition using Facial Landmarks and Neural Networks ( http://arxiv.org/abs/2202.00102v1 )

ライセンス: Link先を確認
Mohammad Amin Haghpanah, Ehsan Saeedizade, Mehdi Tale Masouleh, Ahmad Kalhor(参考訳) 本稿では,人間の顔の静的画像に基づいて,特徴抽出,7種類の感情の分類,表情認識をリアルタイムに行う軽量アルゴリズムを提案する。 この場合、前処理アルゴリズムに基づいて、MLP(Multi-Layer Perceptron)ニューラルネットワークをトレーニングする。 まず、人間の顔を分類するために、入力画像にいくつかの前処理を適用し、顔のローカライズとカットを行う。 次のステップでは、顔のランドマークを検出するライブラリを使用し、各顔のランドマークを検出する。 そして、人間の顔を上面と下面に分割し、各部分から所望の特徴を抽出する。 提案モデルでは,幾何学的特徴型とテクスチャ的特徴型の両方を考慮する。 特徴抽出フェーズの後、特徴の正規化されたベクトルを生成する。 これらの特徴ベクトルを用いて3層mlpを訓練すると、テストセットの精度は96%になる。

This paper presents a lightweight algorithm for feature extraction, classification of seven different emotions, and facial expression recognition in a real-time manner based on static images of the human face. In this regard, a Multi-Layer Perceptron (MLP) neural network is trained based on the foregoing algorithm. In order to classify human faces, first, some pre-processing is applied to the input image, which can localize and cut out faces from it. In the next step, a facial landmark detection library is used, which can detect the landmarks of each face. Then, the human face is split into upper and lower faces, which enables the extraction of the desired features from each part. In the proposed model, both geometric and texture-based feature types are taken into account. After the feature extraction phase, a normalized vector of features is created. A 3-layer MLP is trained using these feature vectors, leading to 96% accuracy on the test set.
翻訳日:2022-02-02 13:34:34 公開日:2022-01-31
# レートゆがみ最大化による公平表現の学習

Learning Fair Representations via Rate-Distortion Maximization ( http://arxiv.org/abs/2202.00035v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Snigdha Chaturvedi(参考訳) 機械学習モデルによって学習されるテキスト表現は、しばしばユーザの望ましくない人口統計情報をエンコードする。 これらの表現に基づく予測モデルは、バイアスのある決定をもたらすような情報に依存することができる。 本稿では,同じ保護属性クラスに属するインスタンスの表現を,レート・ディストリビューション関数を用いて無関係にすることで,人口統計情報を除去する新しいデバイアス手法であるfairness-aware rate maximization(farm)を提案する。 FaRMは、対象とするタスクの有無に関わらず、表現をデバイアスすることができる。 FaRMはまた、複数の保護属性に関する情報を同時に削除するために適応することもできる。 実験的な評価により、FaRMは複数のデータセット上で最先端のパフォーマンスを達成し、学習された表現は非線形探索ネットワークによる攻撃に対する保護属性情報を著しくリークすることがわかった。

Text representations learned by machine learning models often encode undesirable demographic information of the user. Predictive models based on these representations can rely on such information resulting in biased decisions. We present a novel debiasing technique Fairness-aware Rate Maximization (FaRM), that removes demographic information by making representations of instances belonging to the same protected attribute class uncorrelated using the rate-distortion function. FaRM is able to debias representations with or without a target task at hand. FaRM can also be adapted to simultaneously remove information about multiple protected attributes. Empirical evaluations show that FaRM achieves state-of-the-art performance on several datasets, and learned representations leak significantly less protected attribute information against an attack by a non-linear probing network.
翻訳日:2022-02-02 13:32:20 公開日:2022-01-31
# ブロックMDPにおける効率的な強化学習:モデルなし表現学習アプローチ

Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach ( http://arxiv.org/abs/2202.00063v1 )

ライセンス: Link先を確認
Xuezhou Zhang, Yuda Song, Masatoshi Uehara, Mengdi Wang, Wen Sun, Alekh Agarwal(参考訳) 本稿では,ブロック構造を持つマルコフ決定過程(すなわちブロックmdps)における効率的な強化学習のためのアルゴリズムであるbriee(block-structur ed representation learning with interleaved explore exploit)を提案する。 ブライは潜伏状態の発見、探索、搾取を共に行い、潜在的に無限の観測空間の大きさに依存することなく、潜伏状態、作用、時間軸の数を多項式的にスケーリングするサンプル複雑性を用いて、最適に近い方針を証明できる。 実験により、BRIEEは最先端のBlock MDPアルゴリズムであるHOMERや他の実験的なRLベースラインよりも、深層探査を必要とするリッチ・オブザーバの組み合わせロック問題に挑戦する上で、より効率的であることが示されている。

We present BRIEE (Block-structured Representation learning with Interleaved Explore Exploit), an algorithm for efficient reinforcement learning in Markov Decision Processes with block-structured dynamics (i.e., Block MDPs), where rich observations are generated from a set of unknown latent states. BRIEE interleaves latent states discovery, exploration, and exploitation together, and can provably learn a near-optimal policy with sample complexity scaling polynomially in the number of latent states, actions, and the time horizon, with no dependence on the size of the potentially infinite observation space. Empirically, we show that BRIEE is more sample efficient than the state-of-art Block MDP algorithm HOMER and other empirical RL baselines on challenging rich-observation combination lock problems that require deep exploration.
翻訳日:2022-02-02 13:29:55 公開日:2022-01-31
# SUGAR: リソース対応グラフ分割による効率的なサブグラフレベルトレーニング

SUGAR: Efficient Subgraph-level Training via Resource-aware Graph Partitioning ( http://arxiv.org/abs/2202.00075v1 )

ライセンス: Link先を確認
Zihui Xue, Yuedong Yang, Mengtian Yang, Radu Marculescu(参考訳) グラフニューラルネットワーク(GNN)は、レコメンダシステム、薬物発見、オブジェクト認識など、さまざまなグラフベースのアプリケーションにおいて大きな可能性を実証している。 それでも、エッジコンピューティングとIoT(Internet of Things)アプリケーションに多くのメリットがあるにもかかわらず、リソース効率のよいGNN学習は、まれに検討されるトピックである。 この状況を改善するために,資源対応グラフパーティショニング(SUGAR)による効率的なサブグラフレベルのトレーニングを提案する。 SUGARは最初、初期グラフを不整合部分グラフの集合に分割し、次に部分グラフレベルで局所的な訓練を行う。 理論解析を行い,5つのグラフベンチマークについて広範な実験を行い,実効性を検証する。 その結果、sugarは最大33倍のランタイムスピードアップと3.8倍のメモリ削減を達成できることがわかった。 我々はSUGARが資源効率のよいGNNメソッドを開発するための新たな研究の方向を開くと信じている。

Graph Neural Networks (GNNs) have demonstrated a great potential in a variety of graph-based applications, such as recommender systems, drug discovery, and object recognition. Nevertheless, resource-efficient GNN learning is a rarely explored topic despite its many benefits for edge computing and Internet of Things (IoT) applications. To improve this state of affairs, this work proposes efficient subgraph-level training via resource-aware graph partitioning (SUGAR). SUGAR first partitions the initial graph into a set of disjoint subgraphs and then performs local training at the subgraph-level. We provide a theoretical analysis and conduct extensive experiments on five graph benchmarks to verify its efficacy in practice. Our results show that SUGAR can achieve up to 33 times runtime speedup and 3.8 times memory reduction on large-scale graphs. We believe SUGAR opens a new research direction towards developing GNN methods that are resource-efficient, hence suitable for IoT deployment.
翻訳日:2022-02-02 13:29:39 公開日:2022-01-31
# 機械学習と人工知能におけるサブモジュラリティ

Submodularity In Machine Learning and Artificial Intelligence ( http://arxiv.org/abs/2202.00132v1 )

ライセンス: Link先を確認
Jeff Bilmes(参考訳) 本書では,サブモジュラリティとスーパーモジュラリティとその特性について,緩やかに検討する。 我々は多くの部分モジュラー定義、いくつかの部分モジュラー関数とその一般化の完全な記述、例えば離散制約、最大化、最小化、その他の操作のための基本的なアルゴリズムに関する議論、連続部分モジュラー拡張の概要、そしていくつかの歴史的応用を提供する。 そして、サブモジュラリティが機械学習と人工知能にどのように役立つかに目を向ける。 これには要約が含まれており、スケッチ、コアセット、nlpにおける抽出的および抽象的要約、データの蒸留と凝縮、データサブセットの選択と特徴選択の差異の完全な説明を提供する。 本稿では,機械学習に有用なサブモジュラー関数の作成方法について,ヒューリスティックな手作業や学習,あるいはサブモジュラー機能やその側面を大まかに学習する方法や,コアセットプロデューサとしてサブモジュラー関数を使用することの利点について論じる。 本稿では,サブモジュラー組合せ情報関数と,サブモジュラリティがクラスタリング,データ分割,並列機械学習,アクティブ・セミ教師付き学習,確率モデリング,構造化ノルム・損失関数にどのように役立つかについて議論する。

In this manuscript, we offer a gentle review of submodularity and supermodularity and their properties. We offer a plethora of submodular definitions; a full description of a number of example submodular functions and their generalizations; example discrete constraints; a discussion of basic algorithms for maximization, minimization, and other operations; a brief overview of continuous submodular extensions; and some historical applications. We then turn to how submodularity is useful in machine learning and artificial intelligence. This includes summarization, and we offer a complete account of the differences between and commonalities amongst sketching, coresets, extractive and abstractive summarization in NLP, data distillation and condensation, and data subset selection and feature selection. We discuss a variety of ways to produce a submodular function useful for machine learning, including heuristic hand-crafting, learning or approximately learning a submodular function or aspects thereof, and some advantages of the use of a submodular function as a coreset producer. We discuss submodular combinatorial information functions, and how submodularity is useful for clustering, data partitioning, parallel machine learning, active and semi-supervised learning, probabilistic modeling, and structured norms and loss functions.
翻訳日:2022-02-02 13:29:21 公開日:2022-01-31
# (参考訳) ブラックボックス予測のためのフェアラッピング

Fair Wrapping for Black-box Predictions ( http://arxiv.org/abs/2201.12947v1 )

ライセンス: CC BY 4.0
Alexander Soen, Ibrahim Alabdulmohsin, Sanmi Koyejo, Yishay Mansour, Nyalleng Moorosi, Richard Nock, Ke Sun, Lexing Xie(参考訳) 我々は,そのバイアスを低減するために,ブラックボックス分類器を後処理(ラップ)する新しい手法群を紹介する。 提案手法は,予測のツイストを補正し,不公平性をツイストとして扱う不適切な損失関数の最近の解析に基づいている。 後処理では、予測を修飾するラッパー関数を {\alpha}-treeとして定義する。 我々は2つの一般的なブースティングアルゴリズムを学習する。 我々の修正は,{\alpha}-trees の構成,一般化,解釈可能性,kl の変形予測と元の予測の相違という点で魅力的な性質を持っている。 我々は,リスクの条件値,機会の平等,統計パリティの3つのフェアネス概念における我々の手法の使用を実証し,利用可能なデータセットについて実験を行った。

We introduce a new family of techniques to post-process ("wrap") a black-box classifier in order to reduce its bias. Our technique builds on the recent analysis of improper loss functions whose optimisation can correct any twist in prediction, unfairness being treated as a twist. In the post-processing, we learn a wrapper function which we define as an {\alpha}-tree, which modifies the prediction. We provide two generic boosting algorithms to learn {\alpha}-trees. We show that our modification has appealing properties in terms of composition of{\alpha}-trees, generalization, interpretability, and KL divergence between modified and original predictions. We exemplify the use of our technique in three fairness notions: conditional value at risk, equality of opportunity, and statistical parity; and provide experiments on several readily available datasets.
翻訳日:2022-02-02 02:30:23 公開日:2022-01-31
# (参考訳) 計算可能な製品によるネットワークプログラミング [全文訳有]

Network Programming via Computable Products ( http://arxiv.org/abs/2201.12950v1 )

ライセンス: CC BY 4.0
Dennis Volpano(参考訳) User Plane Function (UPF)は、3GPP 5Gコアネットワークでネットワークサービスを提供することを目的としている。 これらのサービスは、証明可能なプロパティで安価にオンデマンドで実装する必要がある。 既存のネットワークデータプレーンプログラミング言語は、そのタスクには依存しない。 UPFに新しいソフトウェアパラダイムが提示される。 システムの各コンポーネントを拡張有限状態マシンとしてモデル化し、その製品を検証するという、並列リアクティブシステムのモデルチェックから着想を得たものだ。 このような製品がUPFの1つの例に対してどのように計算され、その状態不変性を推測できるかを示し、それによって、製品を別々に検証する必要がなくなる。 コードは製品から生成することができ、UPFが処理しなければならないネットワークトラフィックの確率分布に最適なように、オンザフライで再生される。

The User Plane Function (UPF) aims to provide network services in the 3GPP 5G core network. These services need to be implemented on demand inexpensively with provable properties. Existing network dataplane programming languages are not up to the task. A new software paradigm is presented for the UPF. It is inspired by model checking a concurrent reactive system where conceptually each component of the system is modeled as an extended finite-state machine and their product is verified. We show how such a product can be computed for one example of a UPF and how its state invariants can be inferred, thereby eliminating the need to formally verify the product separately. Code can be generated from the product and regenerated on the fly to remain optimal for the probability distribution of network traffic the UPF must process.
翻訳日:2022-02-02 02:29:07 公開日:2022-01-31
# (参考訳) プラグインインバージョン:データ拡張を伴う視覚のモデル非依存インバージョン [全文訳有]

Plug-In Inversion: Model-Agnostic Inversion for Vision with Data Augmentations ( http://arxiv.org/abs/2201.12961v1 )

ライセンス: CC BY 4.0
Amin Ghiasi, Hamid Kazemi, Steven Reich, Chen Zhu, Micah Goldblum, Tom Goldstein(参考訳) モデルインバージョンのための既存の技術は、十分な画像を生成するために各ネットワークで個別に調整されなければならない全変動や特徴正規化のような、チューン・トゥ・チューン・レギュラライザに依存する。 本稿では,単純な拡張セットに依存し,過度なハイパーパラメータチューニングを必要としないPlug-In Inversionを提案する。 提案手法では,入力次元やアーキテクチャに関わらず,様々な画像分類モデルの逆変換に,同じ拡張ハイパーパラメータの集合を用いることができる。 我々は、ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより、我々のアプローチの実践性を説明する。

Existing techniques for model inversion typically rely on hard-to-tune regularizers, such as total variation or feature regularization, which must be individually calibrated for each network in order to produce adequate images. In this work, we introduce Plug-In Inversion, which relies on a simple set of augmentations and does not require excessive hyper-parameter tuning. Under our proposed augmentation-based scheme, the same set of augmentation hyper-parameters can be used for inverting a wide range of image classification models, regardless of input dimensions or the architecture. We illustrate the practicality of our approach by inverting Vision Transformers (ViTs) and Multi-Layer Perceptrons (MLPs) trained on the ImageNet dataset, tasks which to the best of our knowledge have not been successfully accomplished by any previous works.
翻訳日:2022-02-02 02:10:52 公開日:2022-01-31
# (参考訳) カーネル密度ポリトープを用いた分布外検出 [全文訳有]

Out-of-distribution Detection Using Kernel Density Polytopes ( http://arxiv.org/abs/2201.13001v1 )

ライセンス: CC BY 4.0
Jayanta Dey, Ashwin De Silva, Will LeVine, Jong Shin, Haoyin Xu, Ali Geisa, Tiffany Chu, Leyla Isik, Joshua T. Vogelstein(参考訳) 合理的な機械学習(ml)モデルは、提供されたトレーニングサンプル(in-distribution region)間で効率的に補間するだけでなく、過剰に信頼されることなく外挿的または外注的(ood)領域にアプローチすべきである。 人間の被験者に対する実験は、前述の人間の知性も正当化します。 多くの最先端アルゴリズムは、OOD領域におけるMLモデルの過信問題を解決しようと試みている。 しかし、そのような場合、彼らはしばしばモデルの流通性能を損なう。 我々の重要な洞察は、MLモデルが特徴空間をポリトープに分割し、それらのポリトープ上で定数(ランダムフォレスト)またはアフィン(ReLUネットワーク)関数を学ぶことである。 これにより、トレーニングデータ境界に存在し無限大にまで広がるポリトープのood過剰信頼問題に繋がる。 この問題を解決するために,MLモデルを用いて学習した多面体上のガウスカーネルに適合するカーネル密度法を提案する。 具体的には、ランダムな森林と深層ネットワークに基づくカーネル密度ネットワーク(KDF)とカーネル密度ネットワーク(KDN)の2種類のカーネル密度ポリトープを紹介する。 KDFとKDNの両方がOOD領域のクラスに対して均一な信頼性を達成し,各親モデルと比較した場合の分布精度は良好であった。

Any reasonable machine learning (ML) model should not only interpolate efficiently in between the training samples provided (in-distribution region), but also approach the extrapolative or out-of-distribution (OOD) region without being overconfident. Our experiment on human subjects justifies the aforementioned properties for human intelligence as well. Many state-of-the-art algorithms have tried to fix the overconfidence problem of ML models in the OOD region. However, in doing so, they have often impaired the in-distribution performance of the model. Our key insight is that ML models partition the feature space into polytopes and learn constant (random forests) or affine (ReLU networks) functions over those polytopes. This leads to the OOD overconfidence problem for the polytopes which lie in the training data boundary and extend to infinity. To resolve this issue, we propose kernel density methods that fit Gaussian kernel over the polytopes, which are learned using ML models. Specifically, we introduce two variants of kernel density polytopes: Kernel Density Forest (KDF) and Kernel Density Network (KDN) based on random forests and deep networks, respectively. Studies on various simulation settings show that both KDF and KDN achieve uniform confidence over the classes in the OOD region while maintaining good in-distribution accuracy compared to that of their respective parent models.
翻訳日:2022-02-02 01:50:33 公開日:2022-01-31
# (参考訳) GANの品質対策のロバスト性について [全文訳有]

On the Robustness of Quality Measures for GANs ( http://arxiv.org/abs/2201.13019v1 )

ライセンス: CC BY 4.0
Motasem Alfarra, Juan C. P\'erez, Anna Fr\"uhst\"uck, Philip H. S. Torr, Peter Wonka, Bernard Ghanem(参考訳) 本研究は, インセプションスコア (IS) やFr'echet Inception Distance (FID) などの生成モデルの品質指標の堅牢性を評価する。 様々な敵攻撃に対する深層モデルの脆弱性に類似して、このような指標は加法画素摂動によっても操作可能であることを示す。 実験の結果,高得点で知覚品質の低い画像の分布を生成できることが示唆された。 逆に、現実世界のイメージに追加されるとスコアが劣化する小さな知覚できない摂動を最適化することができる。 さらに、アートネットワークであるStyleGANv2の状態を含む、生成モデル自体に評価を拡張した。 潜在空間における加法的摂動に対する生成モデルとFIDの両方の脆弱性を示す。 最後に、インセプションモデルを頑健に訓練されたインセプションに置き換えることで、FIDを堅牢化することができることを示す。 広範な実験により,ロバスト化メトリックの有効性を検証することにより,操作に対するロバスト性が示された。

This work evaluates the robustness of quality measures of generative models such as Inception Score (IS) and Fr\'echet Inception Distance (FID). Analogous to the vulnerability of deep models against a variety of adversarial attacks, we show that such metrics can also be manipulated by additive pixel perturbations. Our experiments indicate that one can generate a distribution of images with very high scores but low perceptual quality. Conversely, one can optimize for small imperceptible perturbations that, when added to real world images, deteriorate their scores. Furthermore, we extend our evaluation to generative models themselves, including the state of the art network StyleGANv2. We show the vulnerability of both the generative model and the FID against additive perturbations in the latent space. Finally, we show that the FID can be robustified by directly replacing the Inception model by a robustly trained Inception. We validate the effectiveness of the robustified metric through extensive experiments, which show that it is more robust against manipulation.
翻訳日:2022-02-02 01:35:39 公開日:2022-01-31
# (参考訳) グラフ逆コントラスト学習によるロバスト表現の学習 [全文訳有]

Learning Robust Representation through Graph Adversarial Contrastive Learning ( http://arxiv.org/abs/2201.13025v1 )

ライセンス: CC BY 4.0
Jiayan Guo, Shangyang Li, Yue Zhao, Yan Zhang(参考訳) 既存の研究では、グラフニューラルネットワーク(GNN)によって生成されたノード表現が、隣接する行列やノードの特徴の目立たない摂動のような敵攻撃に弱いことが示されている。 したがって、グラフニューラルネットワークで堅牢な表現を学ぶことが不可欠である。 グラフ表現学習のロバスト性を改善するために,グラフ自己教師型学習に敵対的拡張を導入することにより,グラフ適応型コントラスト学習フレームワーク(GraphACL)を提案する。 この枠組みでは、摂動グラフの局所的表現と大域的表現の相互情報を最大化し、その逆グラフを教師なしあるいは教師なしのいずれかのアプローチで生成することができる。 Information Bottleneck Principle に基づいて,本手法がより厳密な境界が得られることを理論的に証明し,グラフ表現学習の堅牢性を向上させる。 実験により,ノード分類ベンチマークにおいて,グラフACLが従来の教師付き手法と同等の精度を達成できることを実証した。

Existing studies show that node representations generated by graph neural networks (GNNs) are vulnerable to adversarial attacks, such as unnoticeable perturbations of adjacent matrix and node features. Thus, it is requisite to learn robust representations in graph neural networks. To improve the robustness of graph representation learning, we propose a novel Graph Adversarial Contrastive Learning framework (GraphACL) by introducing adversarial augmentations into graph self-supervised learning. In this framework, we maximize the mutual information between local and global representations of a perturbed graph and its adversarial augmentations, where the adversarial graphs can be generated in either supervised or unsupervised approaches. Based on the Information Bottleneck Principle, we theoretically prove that our method could obtain a much tighter bound, thus improving the robustness of graph representation learning. Empirically, we evaluate several methods on a range of node classification benchmarks and the results demonstrate GraphACL could achieve comparable accuracy over previous supervised methods.
翻訳日:2022-02-02 01:18:49 公開日:2022-01-31
# (参考訳) BOAT:バイラテラルローカルアテンション・ビジョン・トランス [全文訳有]

BOAT: Bilateral Local Attention Vision Transformer ( http://arxiv.org/abs/2201.13027v1 )

ライセンス: CC BY 4.0
Tan Yu, Gangming Zhao, Ping Li, Yizhou Yu(参考訳) ビジョントランスフォーマーは多くのコンピュータビジョンタスクで優れたパフォーマンスを達成した。 ViTやDeiTといった初期のビジョントランスフォーマーは、パッチの数が多ければ計算コストがかかるグローバルな自己アテンションを採用している。 効率を向上させるため、最近のビジョントランスフォーマは、ローカルウィンドウ内でセルフアテンションが計算されるローカル自己アテンション機構を採用する。 ウィンドウベースのローカルなセルフアテンションは効率を著しく向上させるが、画像プレーンの遠方にあるが類似したパッチ間の関係を捉えることができない。 本稿では,画像空間の局所的注意の限界を克服するために,特徴空間におけるパッチの局所性をさらに活用する。 パッチを複数のクラスタにグループ化し、各クラスタ内で自己注意が計算されます。 このような機能空間のローカルな注意は、異なるローカルウィンドウ間のパッチ間の接続を効果的にキャプチャするが、それでも関連がある。 本稿では,特徴空間の局所的注意と画像空間の局所的注意とを融合した両眼的視線変換器(BOAT)を提案する。 BOATをSwinモデルとCSWinモデルの両方に統合し、いくつかのベンチマークデータセットで広範な実験を行い、BOAT-CSWinモデルは既存の最先端CNNモデルやビジョントランスフォーマーよりも明確に、一貫して優れていることを示した。

Vision Transformers achieved outstanding performance in many computer vision tasks. Early Vision Transformers such as ViT and DeiT adopt global self-attention, which is computationally expensive when the number of patches is large. To improve efficiency, recent Vision Transformers adopt local self-attention mechanisms, where self-attention is computed within local windows. Despite the fact that window-based local self-attention significantly boosts efficiency, it fails to capture the relationships between distant but similar patches in the image plane. To overcome this limitation of image-space local attention, in this paper, we further exploit the locality of patches in the feature space. We group the patches into multiple clusters using their features, and self-attention is computed within every cluster. Such feature-space local attention effectively captures the connections between patches across different local windows but still relevant. We propose a Bilateral lOcal Attention vision Transformer (BOAT), which integrates feature-space local attention with image-space local attention. We further integrate BOAT with both Swin and CSWin models, and extensive experiments on several benchmark datasets demonstrate that our BOAT-CSWin model clearly and consistently outperforms existing state-of-the-art CNN models and vision Transformers.
翻訳日:2022-02-02 01:06:12 公開日:2022-01-31
# (参考訳) 乳癌患者の心毒性に対するがん治療の予測 [全文訳有]

Predicting Cancer Treatments Induced Cardiotoxicity of Breast Cancer Patients ( http://arxiv.org/abs/2201.13036v1 )

ライセンス: CC BY 4.0
Sicheng Zhou, Rui Zhang, Anne Blaes, Chetan Shenoy, Gyorgy Simon(参考訳) 乳癌治療(化学療法、標的治療、放射線療法)によって引き起こされる心毒性は、乳癌患者にとって重要な問題である。 異なる治療を受けた乳癌患者の心毒性リスクはいまだ不明である。 EHRデータを用いた乳癌患者の心毒性予測モデルの開発と評価を行った。 CHF、CAD、CM、MIを予測するAUCスコアはそれぞれ0.846、0.857、0.858、0.804である。 心血管健康の基準値の差を調整した結果、化学療法や標的治療を受けた患者は、放射線治療を受けた患者よりも心毒性のリスクが高いことが判明した。 乳がん治療群間での心臓の健康状態の相違により、これらの治療の心毒性効果の解釈には注意が必要である。

Cardiotoxicity induced by the breast cancer treatments (i.e., chemotherapy, targeted therapy and radiation therapy) is a significant problem for breast cancer patients. The cardiotoxicity risk for breast cancer patients receiving different treatments remains unclear. We developed and evaluated risk predictive models for cardiotoxicity in breast cancer patients using EHR data. The AUC scores to predict the CHF, CAD, CM and MI are 0.846, 0.857, 0.858 and 0.804 respectively. After adjusting for baseline differences in cardiovascular health, patients who received chemotherapy or targeted therapy appeared to have higher risk of cardiotoxicity than patients who received radiation therapy. Due to differences in baseline cardiac health across the different breast cancer treatment groups, caution is recommended in interpreting the cardiotoxic effect of these treatments.
翻訳日:2022-02-02 00:46:05 公開日:2022-01-31
# (参考訳) NeuralTailor: 衣服の3次元点雲からパターン構造を再構築する [全文訳有]

NeuralTailor: Reconstructing Sewing Pattern Structures from 3D Point Clouds of Garments ( http://arxiv.org/abs/2201.13063v1 )

ライセンス: CC BY 4.0
Maria Korosteleva, Sung-Hee Lee(参考訳) socialvr、パフォーマンスキャプチャー、バーチャルトライオンといった分野は、しばしば仮想世界で本物の衣服を忠実に再現する必要性に直面している。 重要な課題の1つは、織物の性質、物理的力、体との接触による変形による内在的な衣服形状のゆがみである。 本研究は,本質的な衣服形状推定を容易にするために,現実的でコンパクトな衣服記述子である衣服縫製パターンを提案する。 もうひとつの大きな課題は、ドメイン内の形状と設計の多様性です。 ディープ・ラーニングの3D衣服における最も一般的なアプローチは、個々の衣服や衣服の特殊なモデルを構築することである。 多様な衣料品デザインの統一モデルを構築することは、新しい衣料タイプへの一般化の利点があり、したがって個々のデザインモデルよりも大きなデザイン領域をカバーすることができる。 そこで本研究では,可変濃度のセットレグレッションのためのポイントレベルの注意に基づく新しいアーキテクチャであるneuraltailorを導入し,3d point could衣料モデルから2d衣料パターンを再構築するタスクに適用する。 実験の結果,NeuralTailorは縫製パターンの再構築に成功し,トレーニング中に見つからないパターントポロジを持つ衣服に一般化した。

The fields of SocialVR, performance capture, and virtual try-on are often faced with a need to faithfully reproduce real garments in the virtual world. One critical task is the disentanglement of the intrinsic garment shape from deformations due to fabric properties, physical forces, and contact with the body. We propose to use a garment sewing pattern, a realistic and compact garment descriptor, to facilitate the intrinsic garment shape estimation. Another major challenge is a high diversity of shapes and designs in the domain. The most common approach for Deep Learning on 3D garments is to build specialized models for individual garments or garment types. We argue that building a unified model for various garment designs has the benefit of generalization to novel garment types, hence covering a larger design domain than individual models would. We introduce NeuralTailor, a novel architecture based on point-level attention for set regression with variable cardinality, and apply it to the task of reconstructing 2D garment sewing patterns from the 3D point could garment models. Our experiments show that NeuralTailor successfully reconstructs sewing patterns and generalizes to garment types with pattern topologies unseen during training.
翻訳日:2022-02-02 00:37:55 公開日:2022-01-31
# (参考訳) 単一オブジェクト追跡:メソッド,データセット,評価メトリクスの調査 [全文訳有]

Single Object Tracking: A Survey of Methods, Datasets, and Evaluation Metrics ( http://arxiv.org/abs/2201.13066v1 )

ライセンス: CC BY 4.0
Zahra Soleimanitaleb, Mohammad Ali Keyvanrad(参考訳) オブジェクト追跡は、交通監視、ロボティクス、自動運転車の追跡など、多くの一般的な応用があるコンピュータビジョンにおける最重要課題の1つである。 その後、様々な研究が試みられてきたが、この領域における閉塞、照明の変化、高速運動など様々な課題が続いている。 本稿では,次に掲げる対象の異なる戦略を検証し,以下の戦略を,特徴に基づく,区分に基づく,推定に基づく,学習に基づく4つの基本的なカテゴリに分類した総合的な分類を示す。 本論文の最も中心となるのは学習戦略であり, 生成戦略, 識別戦略, 強化学習の3つのカテゴリに分類される。 差別的ショーのサブカテゴリの1つはディープラーニングである。 ハイパフォーマンス以来、ディープラーニングは遅かれ早かれ非常に検討されている。 最後に、最も一般的に使用される異なるデータセットと評価方法が導入される。

Object tracking is one of the foremost assignments in computer vision that has numerous commonsense applications such as traffic monitoring, robotics, autonomous vehicle tracking, and so on. Different researches have been tried later a long time, but since of diverse challenges such as occlusion, illumination variations, fast motion, etc. researches in this area continues. In this paper, different strategies of the following objects are inspected and a comprehensive classification is displayed that classified the following strategies into four fundamental categories of feature-based, segmentation-based, estimation-based, and learning-based methods that each of which has its claim sub-categories. The most center of this paper is on learning-based strategies, which are classified into three categories of generative strategies, discriminative strategies, and reinforcement learning. One of the sub-categories of the discriminative show is deep learning. Since of high-performance, deep learning has as of late been exceptionally much consider. Finally, the different datasets and the evaluation methods that are most commonly used will be introduced.
翻訳日:2022-02-02 00:10:07 公開日:2022-01-31
# (参考訳) 相互に理解可能な言語は翻訳しやすいか? [全文訳有]

Are Mutually Intelligible Languages Easier to Translate? ( http://arxiv.org/abs/2201.13072v1 )

ライセンス: CC BY 4.0
Avital Friedland, Jonathan Zeltser, Omer Levy(参考訳) 2つの言語は、母国語を使いながら、母国語話者が互いにコミュニケーションできる場合、相互に理解可能であると考えられている。 人間が言語ペアを相互に認識できるという事実は、それらの間の翻訳モデルを学ぶ能力にどのように影響しますか? ニューラル・マシーン翻訳モデルの学習に必要なデータの量は、言語間の相互理解に反するものであると仮定する。 ロマンス言語群における実験により、モデルの学習曲線の下の領域と、人間の話者の研究によって得られた相互理解可能性スコアとの間には、確かに強い相関関係があることが示されている。

Two languages are considered mutually intelligible if their native speakers can communicate with each other, while using their own mother tongue. How does the fact that humans perceive a language pair as mutually intelligible affect the ability to learn a translation model between them? We hypothesize that the amount of data needed to train a neural ma-chine translation model is anti-proportional to the languages' mutual intelligibility. Experiments on the Romance language group reveal that there is indeed strong correlation between the area under a model's learning curve and mutual intelligibility scores obtained by studying human speakers.
翻訳日:2022-02-01 23:51:21 公開日:2022-01-31
# (参考訳) 高精度漏れ検出のための噴流騒音特性評価 [全文訳有]

Jet noise characterization for advanced pipeline leak detection ( http://arxiv.org/abs/2201.13079v1 )

ライセンス: CC BY 4.0
Riccardo Angelo Giro, Giancarlo Bernasconi, Giuseppe Giunta, Simone Cesari(参考訳) パイプライン輸送システムにおける漏れの検知は、その資産の完全性、損失の低減、環境リスクの防止を追求する事業者にとって深刻な懸念事項である。 加圧パイプライン内に穴が生じると、対応する流体漏れは乱流と特異な音響ノイズによって特徴づけられ、その特性は穴自体の大きさにも依存する。 本研究は、管から出る流体によって発生し、内部にハイドロフォンによって記録された音響ノイズ(圧力過渡音)を利用するか、導管の外殻に沿って伝播する対応する振動(加速信号など)を考慮することにより、漏出孔の存在と大きさの両方を検出できることを示す。 この目的のために、燃料タンク領域の16 ID接続パイプライン上に複数のキャリブレーションノズルを用いて、複数の音響ノイズ発生実験を行った。 漏れの有無を制御し, 圧力と振動信号を用いて穴の大きさを推定するために, 検出と分類の手順が提案されている。

The detection of leaks in pipeline transportation systems is a matter of serious concern for operators, who pursue the integrity of their assets, the reduction of losses and the prevention of environmental hazards. Whenever a hole occurs in a pressurized pipeline, the corresponding fluid leakage is characterized by a turbulent flow and a peculiar acoustic noise, whose characteristics depend also on the size of the hole itself. This study shows that both the presence and the size of such a leaking hole can be successfully detected, by exploiting the acoustic noise (pressure transients) generated by the fluid exiting the pipe and recorded internally by hydrophones, or by considering the corresponding vibrations (e.g., acceleration signals) propagating along the external shell of the conduit. To this purpose, several experimental campaigns of acoustic noise generation have been performed using multiple calibrated nozzles on a 16 ID connection pipeline in a fuel tanks area. Detection and classification procedures are proposed to control the presence of leakages and to estimate the size of the hole, using pressure and vibration signals.
翻訳日:2022-02-01 23:46:13 公開日:2022-01-31
# (参考訳) SPDY: スピードアップ保証による正確なプルーニング [全文訳有]

SPDY: Accurate Pruning with Speedup Guarantees ( http://arxiv.org/abs/2201.13096v1 )

ライセンス: CC BY 4.0
Elias Frantar and Dan Alistarh(参考訳) 近年、ディープニューラルネットワーク(DNN)の効率性に焦点が当てられていることで、モデルの圧縮アプローチに大きな研究が生まれている。 同時に、プルーニングによって得られた非構造化スパースモデルを効率的に実行するための高速な計算支援がある。 しかし、既存のプルーニング手法のほとんどは、推論時間に最適化するのではなく、モデルのサイズなど、残りの重みの数を最小にするだけである。 SPDYは,所定のシステム上で所望の推論速度アップを達成し,精度損失を最小限に抑えながら,層幅の空間的目標を自動的に決定する新しい圧縮手法である。 SPDYは2つの新しい手法で構成されている: 1つは、与えられたレイヤワイド感度スコアのセットを仮定して、高速化制約されたレイヤワイド圧縮問題を解決する効率的な動的プログラミングアルゴリズムである。 一般的なビジョンと言語モデルにわたる実験では、SPDYはワンショットおよび段階的なプルーニングシナリオの両方において、既存の戦略と比較して高い精度を回復しながら、スピードアップを保証し、既存のプルーニングアプローチと互換性があることが示されている。 また、非常に少ないデータでプルーニングを行うという最近提案されたタスクにアプローチを拡張し、GPUをサポートする2:4のスパーシティパターンにプルーニングする際に最もよく知られた精度回復を実現する。

The recent focus on the efficiency of deep neural networks (DNNs) has led to significant work on model compression approaches, of which weight pruning is one of the most popular. At the same time, there is rapidly-growing computational support for efficiently executing the unstructured-sparse models obtained via pruning. Yet, most existing pruning methods minimize just the number of remaining weights, i.e. the size of the model, rather than optimizing for inference time. We address this gap by introducing SPDY, a new compression method which automatically determines layer-wise sparsity targets achieving a desired inference speedup on a given system, while minimizing accuracy loss. SPDY is composed of two new techniques: the first is an efficient dynamic programming algorithm for solving the speedup-constrained layer-wise compression problem assuming a set of given layer-wise sensitivity scores; the second is a local search procedure for determining accurate layer-wise sensitivity scores. Experiments across popular vision and language models show that SPDY guarantees speedups while recovering higher accuracy relative to existing strategies, both for one-shot and gradual pruning scenarios, and is compatible with most existing pruning approaches. We also extend our approach to the recently-proposed task of pruning with very little data, where we achieve the best known accuracy recovery when pruning to the GPU-supported 2:4 sparsity pattern.
翻訳日:2022-02-01 23:39:52 公開日:2022-01-31
# (参考訳) 自己指導型学習のための対人マスキング [全文訳有]

Adversarial Masking for Self-Supervised Learning ( http://arxiv.org/abs/2201.13100v1 )

ライセンス: CC BY 4.0
Yuge Shi and N. Siddharth and Philip H.S. Torr and Adam R. Kosiorek(参考訳) 本稿では,マスク機能と画像エンコーダを同時に学習する自己教師付き学習のためのマスク画像モデル(mim)フレームワークであるadiosを提案する。 画像エンコーダは、元の表現とマスクされた画像との距離を最小化するように訓練される。 マスキング関数は逆に、この距離を最大化することを目的としている。 ADIOSは、ImageNet100とSTL10の分類、CIFAR10/100、Flowers102とiNaturalistでのトランスファーラーニング、背景課題(Xiao et al., 2021)に基づいて評価された堅牢性など、さまざまなタスクとデータセットに関する最先端の自己教師付き学習(SSL)メソッドを一貫して改善している。 MAE、BEiT、iBOTのような現代のMIMモデルとは異なり、ADIOSはビジョントランスフォーマーのイメージパッチトークン化の構成に依存しておらず、畳み込みバックボーンで実装することができる。 さらに、ADIOSが学習したマスクは、一般的なMIMモデルで使用されるマスク方式よりもSSLメソッドの表現学習を改善するのに効果的であることを示す。

We propose ADIOS, a masked image model (MIM) framework for self-supervised learning, which simultaneously learns a masking function and an image encoder using an adversarial objective. The image encoder is trained to minimise the distance between representations of the original and that of a masked image. The masking function, conversely, aims at maximising this distance. ADIOS consistently improves on state-of-the-art self-supervised learning (SSL) methods on a variety of tasks and datasets -- including classification on ImageNet100 and STL10, transfer learning on CIFAR10/100, Flowers102 and iNaturalist, as well as robustness evaluated on the backgrounds challenge (Xiao et al., 2021) -- while generating semantically meaningful masks. Unlike modern MIM models such as MAE, BEiT and iBOT, ADIOS does not rely on the image-patch tokenisation construction of Vision Transformers, and can be implemented with convolutional backbones. We further demonstrate that the masks learned by ADIOS are more effective in improving representation learning of SSL methods than masking schemes used in popular MIM models.
翻訳日:2022-02-01 23:11:29 公開日:2022-01-31
# (参考訳) セグメンテーションの計算複雑性 [全文訳有]

Computational Complexity of Segmentation ( http://arxiv.org/abs/2201.13106v1 )

ライセンス: CC BY 4.0
Federico Adolfi (Ernst-Str\"ungmann Institute for Neuroscience, Frankfurt, Germany, University of Bristol, Bristol, UK), Todd Wareham (Department of Computer Science, Memorial University of Newfoundland, Canada), Iris van Rooij (Donders Institute for Brain, Cognition, and Behaviour, Radboud University, The Netherlands)(参考訳) 計算可能性は、生物と人工知能のフレーミングとモデリングを導く幅広い関心事である。 認知システムの能力の仕様は、しばしば、探索空間とサブ計算の複雑さに関する未検討の直観的な仮定によって形成される。 しかし、誤った直観は、そのような初期の概念化を、後で経験的な疑問が関係しているように見えることを誤解させるかもしれない。 ここでは、領域間の容量の説明に必須な役割を果たす、広く仮定されたサブ計算であるセグメンテーションの計算レベルのモデリングと複雑性解析を、これらの仮定を正式に評価することがいかに重要であるかを示すケーススタディとして取り上げます。 直観に逆らう可能性のある硬さと探索空間の大きさに関する2つの結果セットを数学的に証明し、その影響をサブキャパシティに関する既存の見解に当てはめる。

Computational feasibility is a widespread concern that guides the framing and modeling of biological and artificial intelligence. The specification of cognitive system capacities is often shaped by unexamined intuitive assumptions about the search space and complexity of a subcomputation. However, a mistaken intuition might make such initial conceptualizations misleading for what empirical questions appear relevant later on. We undertake here computational-level modeling and complexity analyses of segmentation - a widely hypothesized subcomputation that plays a requisite role in explanations of capacities across domains - as a case study to show how crucial it is to formally assess these assumptions. We mathematically prove two sets of results regarding hardness and search space size that may run counter to intuition, and position their implications with respect to existing views on the subcapacity.
翻訳日:2022-02-01 22:49:26 公開日:2022-01-31
# (参考訳) マトロイドによる脱落ロバスト部分モジュラー最大化 [全文訳有]

Deletion Robust Submodular Maximization over Matroids ( http://arxiv.org/abs/2201.13128v1 )

ライセンス: CC BY 4.0
Paul D\"utting, Federico Fusco, Silvio Lattanzi, Ashkan Norouzi-Fard, Morteza Zadimoghaddam(参考訳) 単調部分モジュラ関数の最大化は機械学習の基本的な課題である。 本稿では,古典的なマトロイド制約の下で,問題の削除ロバストなバージョンについて検討する。 ここでの目標は、敵がいくつかの要素を削除した後でも、高い値独立セットを含むデータセットの小さなサイズのサマリを抽出することである。 我々は,空間複雑性がマトロイドのランク $k$ と削除された要素の $d$ に依存する定数近似アルゴリズムを提案する。 集中的な設定では、要約サイズ$O(k + \frac{d \log k}{\varepsilon^2})$の$(3.582+O(\varepsilon))$-近似アルゴリズムを示す。 ストリーミング設定では、サマリサイズとメモリが$O(k + \frac{d \log k}{\varepsilon^2})$で$(5.582+O(\varepsilon))$-app roximationアルゴリズムを提供します。 我々は,実世界のデータセットに対するアルゴリズムの有効性を示す詳細な実験分析を行い,理論結果を補完する。

Maximizing a monotone submodular function is a fundamental task in machine learning. In this paper, we study the deletion robust version of the problem under the classic matroids constraint. Here the goal is to extract a small size summary of the dataset that contains a high value independent set even after an adversary deleted some elements. We present constant-factor approximation algorithms, whose space complexity depends on the rank $k$ of the matroid and the number $d$ of deleted elements. In the centralized setting we present a $(3.582+O(\varepsilon))$-app roximation algorithm with summary size $O(k + \frac{d \log k}{\varepsilon^2})$. In the streaming setting we provide a $(5.582+O(\varepsilon))$-app roximation algorithm with summary size and memory $O(k + \frac{d \log k}{\varepsilon^2})$. We complement our theoretical results with an in-depth experimental analysis showing the effectiveness of our algorithms on real-world datasets.
翻訳日:2022-02-01 22:35:46 公開日:2022-01-31
# (参考訳) ランキングモデルの混合の識別可能性について

On the identifiability of mixtures of ranking models ( http://arxiv.org/abs/2201.13132v1 )

ライセンス: CC BY 4.0
Xiaomin Zhang, Xucheng Zhang, Po-Ling Loh and Yingyu Liang(参考訳) ランキングモデルの混合は、ランキング問題の標準的なツールである。 しかし、パラメータ識別可能性に関する根本的な問題でさえ完全には理解されておらず、ブラッドリー・テリー・ルーシ (BTL) 成分の混合モデルの識別性は未解決のままである。 本研究では,2成分からなるランキングモデル (plackett-luce, multinomial logistic model with slates of size 3, btl) が汎用的に同定可能であることを示す。 代数幾何学を用いた多項式系の一般族における解数を検証するためのフレームワークを提供し,それらの混合ランキングモデルに適用する。 このフレームワークは他の学習モデルにも広く適用でき、独立した関心を持つこともある。

Mixtures of ranking models are standard tools for ranking problems. However, even the fundamental question of parameter identifiability is not fully understood: the identifiability of a mixture model with two Bradley-Terry-Luce (BTL) components has remained open. In this work, we show that popular mixtures of ranking models with two components (Plackett-Luce, multinomial logistic model with slates of size 3, or BTL) are generically identifiable, i.e., the ground-truth parameters can be identified except when they are from a pathological subset of measure zero. We provide a framework for verifying the number of solutions in a general family of polynomial systems using algebraic geometry, and apply it to these mixtures of ranking models. The framework can be applied more broadly to other learning models and may be of independent interest.
翻訳日:2022-02-01 22:03:17 公開日:2022-01-31
# (参考訳) Leela Zero Score: スコアベースのAlphaGo Zeroの研究 [全文訳有]

Leela Zero Score: a Study of a Score-based AlphaGo Zero ( http://arxiv.org/abs/2201.13176v1 )

ライセンス: CC BY 4.0
Luca Pasqualini and Maurizio Parton and Francesco Morandin and Gianluca Amato and Rosa Gini and Carlo Metta(参考訳) AlphaGo、AlphaGo Zero、およびそれらのデリバティブは、高い精度で勝敗結果を予測できるため、超人的な強度でプレイすることができる。 しかし、ゲームとしての囲碁は最終スコア差で決定され、最終ポジションではAlphaGoが準最適動作を行う。 例えば、"最高の"動きを学習したり、最初のhandicapでプレイしようとすると、これは問題になります。 さらに、「完璧なゲーム」すなわちミニマックス解の理論的な探求がある。 成功している強化学習エージェントを訓練して、勝利率ではなくスコア差を予測することは可能か? 文献に「これはうまくいかない」という民間伝承を支持するための実証的あるいは理論的証拠は見つからない。 本稿では, "does not work" 文をサポートするソフトウェアである leela zero score を提案する。 Leela Zero ScoreはLeela Zeroと呼ばれるオープンソースのソリューションに基づいて設計されており、9x9ボードでトレーニングされ、勝利率ではなくスコア差を予測する。 我々は、トレーニングが合理的なプレーヤを生み出すことを見出し、そのスタイルをアマチュアの強いプレーヤに対して分析し、結果が近づくといくつかのミスが発生しやすいことを発見した。 9x9基板で動作するAlphaGo ZeroライクなソフトウェアであるSAIと比較して、Leela Zero ScoreのトレーニングがSAIよりも弱いプレイヤーに早めに収束していることが分かる。

AlphaGo, AlphaGo Zero, and all of their derivatives can play with superhuman strength because they are able to predict the win-lose outcome with great accuracy. However, Go as a game is decided by a final score difference, and in final positions AlphaGo plays suboptimal moves: this is not surprising, since AlphaGo is completely unaware of the final score difference, all winning final positions being equivalent from the winrate perspective. This can be an issue, for instance when trying to learn the "best" move or to play with an initial handicap. Moreover, there is the theoretical quest of the "perfect game", that is, the minimax solution. Thus, a natural question arises: is it possible to train a successful Reinforcement Learning agent to predict score differences instead of winrates? No empirical or theoretical evidence can be found in the literature to support the folklore statement that "this does not work". In this paper we present Leela Zero Score, a software designed to support or disprove the "does not work" statement. Leela Zero Score is designed on the open-source solution known as Leela Zero, and is trained on a 9x9 board to predict score differences instead of winrates. We find that the training produces a rational player, and we analyze its style against a strong amateur human player, to find that it is prone to some mistakes when the outcome is close. We compare its strength against SAI, an AlphaGo Zero-like software working on the 9x9 board, and find that the training of Leela Zero Score has reached a premature convergence to a player weaker than SAI.
翻訳日:2022-02-01 22:02:11 公開日:2022-01-31
# (参考訳) 制約機械系のハミルトニアンの学習 [全文訳有]

Learning Hamiltonians of constrained mechanical systems ( http://arxiv.org/abs/2201.13254v1 )

ライセンス: CC BY 4.0
Elena Celledoni, Andrea Leone, Davide Murari, Brynjulf Owren(参考訳) 近年,ニューラルネットワークを用いた物理システムのモデリングと計算への関心が高まっている。 ハミルトン系は古典力学におけるエレガントでコンパクトな形式論であり、力学は1つのスカラー函数、ハミルトニアンによって完全に決定される。 解の軌道はしばしば線型ベクトル空間の部分多様体上で進化するために制限される。 本研究では,制約のある機械系のハミルトニアン関数を,その解のサンプルデータ情報から精度良く近似する新しい手法を提案する。 我々は,明示的なリー群積分器と他の古典的スキームを用いて,学習戦略における制約の保存の重要性に注目した。

Recently, there has been an increasing interest in modelling and computation of physical systems with neural networks. Hamiltonian systems are an elegant and compact formalism in classical mechanics, where the dynamics is fully determined by one scalar function, the Hamiltonian. The solution trajectories are often constrained to evolve on a submanifold of a linear vector space. In this work, we propose new approaches for the accurate approximation of the Hamiltonian function of constrained mechanical systems given sample data information of their solutions. We focus on the importance of the preservation of the constraints in the learning strategy by using both explicit Lie group integrators and other classical schemes.
翻訳日:2022-02-01 21:54:13 公開日:2022-01-31
# (参考訳) 非凸正則化による収束プラグ・アンド・プレイ最適化のための近位デノイザー [全文訳有]

Proximal denoiser for convergent plug-and-play optimization with nonconvex regularization ( http://arxiv.org/abs/2201.13256v1 )

ライセンス: CC BY 4.0
Samuel Hurault, Arthur Leclaire, Nicolas Papadakis(参考訳) プラグ・アンド・プレイ(pnp)法は、近位演算子を分母演算に置き換えることで、反復的近位アルゴリズムによって逆問題を解く。 深層ニューラルネットワークデノイザを用いた場合、これらの手法は画像復元問題に対する最先端の視覚性能を示す。 しかし、理論収束解析はまだ不完全である。 既存の収束結果の多くは非拡張的デノイザー(非実数的)を考慮し、その解析を逆問題におけるデータ忠実性項の強い凸化に限定する。 近年、ディープニューラルネットワークによってパラメータ化される機能上の勾配降下ステップとしてデノイザを訓練する手法が提案されている。 このようなデノイザを用いることで、半量子分割(PnP-HQS)反復アルゴリズムのPnPバージョンが収束することを保証する。 本稿では,この勾配分解器が別のスカラー関数の近位作用素と実際に対応可能であることを示す。 この結果から, PnP-PGD (Proximal Gradient Descent) と PnP-ADMM (Alternating Direction Method of Multipliers) の収束結果を得るために, 非凸設定における近位アルゴリズムの収束理論を利用する。 PnP-PGD と PnP-ADMM が収束し, 目標定常点が明示的関数であることを示す。 これらの収束結果はデブラリング, 超解像, インパインティングの数値実験により確認される。

Plug-and-Play (PnP) methods solve ill-posed inverse problems through iterative proximal algorithms by replacing a proximal operator by a denoising operation. When applied with deep neural network denoisers, these methods have shown state-of-the-art visual performance for image restoration problems. However, their theoretical convergence analysis is still incomplete. Most of the existing convergence results consider nonexpansive denoisers, which is non-realistic, or limit their analysis to strongly convex data-fidelity terms in the inverse problem to solve. Recently, it was proposed to train the denoiser as a gradient descent step on a functional parameterized by a deep neural network. Using such a denoiser guarantees the convergence of the PnP version of the Half-Quadratic-Split ting (PnP-HQS) iterative algorithm. In this paper, we show that this gradient denoiser can actually correspond to the proximal operator of another scalar function. Given this new result, we exploit the convergence theory of proximal algorithms in the nonconvex setting to obtain convergence results for PnP-PGD (Proximal Gradient Descent) and PnP-ADMM (Alternating Direction Method of Multipliers). When built on top of a smooth gradient denoiser, we show that PnP-PGD and PnP-ADMM are convergent and target stationary points of an explicit functional. These convergence results are confirmed with numerical experiments on deblurring, super-resolution and inpainting.
翻訳日:2022-02-01 21:38:28 公開日:2022-01-31
# (参考訳) LinSyn: 任意ニューラルネットワーク活性化関数のためのタイトリニア境界の合成 [全文訳有]

LinSyn: Synthesizing Tight Linear Bounds for Arbitrary Neural Network Activation Functions ( http://arxiv.org/abs/2201.13351v1 )

ライセンス: CC BY 4.0
Brandon Paulsen and Chao Wang(参考訳) ニューラルネットワークの堅牢性を検証する最もスケーラブルなアプローチは、ネットワークの活性化関数の線形下限と上限の計算に依存する。 現在のアプローチは、線形境界は専門家によって手作りされなければならず、特にネットワークのアーキテクチャがLSTMや最近人気になったSwishアクティベーションのような乗算を用いて操作を構成する場合、サブ最適である。 専門家への依存は、アクティベーション関数の最先端開発における堅牢性証明の適用を妨げ、さらに、厳密性保証の欠如は、特定のモデルに対する誤った不安感を与える可能性がある。 我々の知る限りでは、任意の n-次元活性化関数に対する厳密な線形境界を自動的に計算する問題を最初に検討する。 我々は任意の活性化関数に対して厳密な境界を達成する最初のアプローチであるLinSynを提案し、アクティベーション関数自体の数学的定義のみを活用する。 提案手法は, 強最適化された分枝結合SMTソルバdRealを用いて, 強弱で通常健全な境界を合成し, 音質を検証(必要であれば境界を調整)する。 我々の手法は, SMTソルバに依存するが, 実例では実行時が合理的であることを示し, 現状と比較すると, 最終出力境界が2~5倍厳密で, 信頼性が4倍以上であることが多い。

The most scalable approaches to certifying neural network robustness depend on computing sound linear lower and upper bounds for the network's activation functions. Current approaches are limited in that the linear bounds must be handcrafted by an expert, and can be sub-optimal, especially when the network's architecture composes operations using, for example, multiplication such as in LSTMs and the recently popular Swish activation. The dependence on an expert prevents the application of robustness certification to developments in the state-of-the-art of activation functions, and furthermore the lack of tightness guarantees may give a false sense of insecurity about a particular model. To the best of our knowledge, we are the first to consider the problem of automatically computing tight linear bounds for arbitrary n-dimensional activation functions. We propose LinSyn, the first approach that achieves tight bounds for any arbitrary activation function, while only leveraging the mathematical definition of the activation function itself. Our approach leverages an efficient heuristic approach to synthesize bounds that are tight and usually sound, and then verifies the soundness (and adjusts the bounds if necessary) using the highly optimized branch-and-bound SMT solver, dReal. Even though our approach depends on an SMT solver, we show that the runtime is reasonable in practice, and, compared with state of the art, our approach often achieves 2-5X tighter final output bounds and more than quadruple certified robustness.
翻訳日:2022-02-01 21:07:42 公開日:2022-01-31
# (参考訳) 非対称クロスポイント要素を用いたニューラルネットワークトレーニング [全文訳有]

Neural Network Training with Asymmetric Crosspoint Elements ( http://arxiv.org/abs/2201.13377v1 )

ライセンス: CC BY 4.0
Murat Onen, Tayfun Gokmen, Teodor K. Todorov, Tomasz Nowicki, Jesus A. del Alamo, John Rozen, Wilfried Haensch, Seyoung Kim(参考訳) プログラム可能な非揮発性抵抗体からなるアナログクロスバーアレイは、ディープニューラルネットワークトレーニングの加速について激しい調査が行われている。 しかし, 実用的抵抗器のユビキタスな非対称コンダクタンス変調は, 従来のアルゴリズムで訓練されたネットワークの分類性能を著しく低下させる。 ここでは、Stochastic Hamiltonian Descentという代替の完全並列トレーニングアルゴリズムを記述し、実験的に示す。 従来、誤差関数勾配の方向に重みをチューニングするのではなく、ネットワークパラメータをプログラムし、デバイス非対称性の効果を組み込んだシステムの総エネルギー(ハミルトニアン)を効果的に最小化する。 我々は、デバイス非対称性が従来のトレーニングアルゴリズムと根本的に相容れない理由と、新しいアプローチがそれを有用な機能として利用する方法について、批判的な直観を与える。 本技術により,アナログ深層学習アクセラレータの即時実現が可能となった。

Analog crossbar arrays comprising programmable nonvolatile resistors are under intense investigation for acceleration of deep neural network training. However, the ubiquitous asymmetric conductance modulation of practical resistive devices critically degrades the classification performance of networks trained with conventional algorithms. Here, we describe and experimentally demonstrate an alternative fully-parallel training algorithm: Stochastic Hamiltonian Descent. Instead of conventionally tuning weights in the direction of the error function gradient, this method programs the network parameters to successfully minimize the total energy (Hamiltonian) of the system that incorporates the effects of device asymmetry. We provide critical intuition on why device asymmetry is fundamentally incompatible with conventional training algorithms and how the new approach exploits it as a useful feature instead. Our technique enables immediate realization of analog deep learning accelerators based on readily available device technologies.
翻訳日:2022-02-01 20:47:35 公開日:2022-01-31
# (参考訳) ディープラーニングマクロ経済

Deep Learning Macroeconomics ( http://arxiv.org/abs/2201.13380v1 )

ライセンス: CC BY 4.0
Rafael R. S. Guimaraes(参考訳) 限られたデータセットと複雑な非線形関係は、マクロ経済問題に計量学を適用する際に生じるであろう課題の一つである。 本研究では,前者における伝達学習のアプローチとして深層学習を提案し,後者の場合における変数間の関係をマッピングする。 マクロ経済学者は、ベイズ的文脈で事前分布を仮定する際、すでに移動学習を適用しているが、他のモデルで観測された結果に基づいて信号制限とパラメータの校正を伴う構造的VARを推定し、いくつかの例を挙げると、応用マクロ経済学におけるより体系的な移動学習戦略の進歩は、我々が導入している革新である。 提案する戦略を実証的に検討し、トランスファー学習の一種である異種関連ドメインのデータが、事業サイクルデート委員会がない場合の事業サイクルフェーズの特定に役立ち、経済ベースのアウトプットギャップを迅速に見積もることを示す。 次に、深層学習法は、より抽象的な表現を得るために複数の非線形変換の合成によって形成される学習表現であるので、高周波数変数からの低周波マッピングにディープラーニングを適用する。 その結果,マクロ経済問題に適用した深層学習モデルの適合性が示された。 まず、モデルはアメリカのビジネスサイクルを正しく分類することを学びました。 そして、トランスファーラーニングを適用することで、ブラジルとヨーロッパのアウトオブサンプルデータのビジネスサイクルを特定できた。 同じラインに沿って、モデルは米国のデータに基づいて出力ギャップを見積もることを学び、ブラジルのデータに直面すると良いパフォーマンスを得た。 さらに,高頻度データからの低周波変数を関連時系列で補間・分配・外挿するためには,深層学習が十分であった。

Limited datasets and complex nonlinear relationships are among the challenges that may emerge when applying econometrics to macroeconomic problems. This research proposes deep learning as an approach to transfer learning in the former case and to map relationships between variables in the latter case. Although macroeconomists already apply transfer learning when assuming a given a priori distribution in a Bayesian context, estimating a structural VAR with signal restriction and calibrating parameters based on results observed in other models, to name a few examples, advance in a more systematic transfer learning strategy in applied macroeconomics is the innovation we are introducing. We explore the proposed strategy empirically, showing that data from different but related domains, a type of transfer learning, helps identify the business cycle phases when there is no business cycle dating committee and to quick estimate a economic-based output gap. Next, since deep learning methods are a way of learning representations, those that are formed by the composition of multiple non-linear transformations, to yield more abstract representations, we apply deep learning for mapping low-frequency from high-frequency variables. The results obtained show the suitability of deep learning models applied to macroeconomic problems. First, models learned to classify United States business cycles correctly. Then, applying transfer learning, they were able to identify the business cycles of out-of-sample Brazilian and European data. Along the same lines, the models learned to estimate the output gap based on the U.S. data and obtained good performance when faced with Brazilian data. Additionally, deep learning proved adequate for mapping low-frequency variables from high-frequency data to interpolate, distribute, and extrapolate time series by related series.
翻訳日:2022-02-01 20:30:10 公開日:2022-01-31
# (参考訳) 人間とエージェントの協調における温かみと能力 [全文訳有]

Warmth and competence in human-agent cooperation ( http://arxiv.org/abs/2201.13448v1 )

ライセンス: CC BY 4.0
Kevin R. McKee, Xuechunzi Bai, Susan T. Fiske(参考訳) 人間との相互作用と協力は人工知能(AI)研究の構想をまとめている。 近年の研究では、深層強化学習で訓練されたAIエージェントが人間と協調できることが示されている。 これらの研究は、主にタスクのパフォーマンス、信頼度レベルの潜在的な変動、異なるエージェントが獲得する主観的嗜好といった「目的」指標を通して人間との互換性を評価する。 人間とエージェントの協調で主観的嗜好を形作る要因をより深く理解するために,2人の社会的ジレンマであるコインで深層強化学習エージェントを訓練する。 我々は,人間-エージェント連携研究の参加者を募集し,遭遇するエージェントの印象を測定した。 参加者の暖かさと能力に対する認識は、客観的なパフォーマンス指標以上の異なるエージェントに対する指定された好みを予測する。 社会科学と生物学の研究からインスピレーションを得て、次に、好みを明らかにするための新しい「パートナー選択」フレームワークを実装した: エージェントとエピソードをプレイした後、参加者は次のラウンドを同じエージェントでプレイするか、単独でプレイするかを尋ねられる。 特定の好みと同様に、社会的知覚は客観的なパフォーマンスよりも、参加者の明らかな好みを予測するのが良い。 これらの結果から,社会認識と主観的嗜好の測定を日常的に研究に取り入れることを推奨する。

Interaction and cooperation with humans are overarching aspirations of artificial intelligence (AI) research. Recent studies demonstrate that AI agents trained with deep reinforcement learning are capable of collaborating with humans. These studies primarily evaluate human compatibility through "objective" metrics such as task performance, obscuring potential variation in the levels of trust and subjective preference that different agents garner. To better understand the factors shaping subjective preferences in human-agent cooperation, we train deep reinforcement learning agents in Coins, a two-player social dilemma. We recruit participants for a human-agent cooperation study and measure their impressions of the agents they encounter. Participants' perceptions of warmth and competence predict their stated preferences for different agents, above and beyond objective performance metrics. Drawing inspiration from social science and biology research, we subsequently implement a new "partner choice" framework to elicit revealed preferences: after playing an episode with an agent, participants are asked whether they would like to play the next round with the same agent or to play alone. As with stated preferences, social perception better predicts participants' revealed preferences than does objective performance. Given these results, we recommend human-agent interaction researchers routinely incorporate the measurement of social perception and subjective preferences into their studies.
翻訳日:2022-02-01 20:28:46 公開日:2022-01-31
# 厳密な鋳物加工制約を有するフォトニックデバイスの逆設計

Inverse design of photonic devices with strict foundry fabrication constraints ( http://arxiv.org/abs/2201.12965v1 )

ライセンス: Link先を確認
Martin F. Schubert, Alfred K. C. Cheung, Ian A. D. Williamson, Aleksandra Spyra, David H. Alexander(参考訳) 市販半導体ファインダリーに必要な最小幅と間隔の制約を含む、厳密な長さの制約を設計が満たすことを保証し、ナノフォトニックデバイスを逆設計する新しい手法を提案する。 この手法は、厳密な長さスケール制約によりトポロジー最適化の問題から、制約のない確率的勾配最適化問題へと変換するために機械学習からいくつかの概念を採用している。 具体的には, 実現可能な設計のための条件付き生成器を導入し, 潜在設計への勾配のバックプロパゲーションのためのストレートスルー推定器を採用する。 本稿では,本手法の性能と信頼性を,いくつかの共通統合フォトニックコンポーネントの設計により実証する。

We introduce a new method for inverse design of nanophotonic devices which guarantees that designs satisfy strict length scale constraints -- including minimum width and spacing constraints required by commercial semiconductor foundries. The method adopts several concepts from machine learning to transform the problem of topology optimization with strict length scale constraints to an unconstrained stochastic gradient optimization problem. Specifically, we introduce a conditional generator for feasible designs and adopt a straight-through estimator for backpropagation of gradients to a latent design. We demonstrate the performance and reliability of our method by designing several common integrated photonic components.
翻訳日:2022-02-01 19:58:31 公開日:2022-01-31
# 圧縮非同期勾配降下のための軽量射影微分符号

Lightweight Projective Derivative Codes for Compressed Asynchronous Gradient Descent ( http://arxiv.org/abs/2201.12990v1 )

ライセンス: Link先を確認
Pedro Soto, Ilia Ilmer, Haibin Guan, Jun Li(参考訳) 符号化分散計算は、ストラグラーやその他の故障を緩和するために、大規模なデータセットで勾配降下を行うための一般的な方法となっている。 本稿では,コードワードに含まれる情報を最大化し,コードワード間の情報を最小化することにより,部分微分自体を符号化する新しいアルゴリズムを提案する。 このコーディング理論の適用性は、ノイズが許容可能であり、場合によっては、勾配降下に基づく学習アルゴリズムにおいて有用である、という最適化研究における観測事実の幾何学的帰結である。 これは、ワーカからすべてのデータを復元することに焦点を当てた分散コード計算に関する従来の作業とは対照的である。 2つめの貢献は、コーディングスキームの低ウェイトな性質は、コードが反復的に復号化できるため、非同期の勾配更新を可能にすることである。 方向微分は常に方向ベクトルの線形関数であり、ディープニューラルネットワークのような一般的な機械学習フレームワークに線形符号化技術を適用することができるため、このフレームワークは堅牢である。

Coded distributed computation has become common practice for performing gradient descent on large datasets to mitigate stragglers and other faults. This paper proposes a novel algorithm that encodes the partial derivatives themselves and furthermore optimizes the codes by performing lossy compression on the derivative codewords by maximizing the information contained in the codewords while minimizing the information between the codewords. The utility of this application of coding theory is a geometrical consequence of the observed fact in optimization research that noise is tolerable, sometimes even helpful, in gradient descent based learning algorithms since it helps avoid overfitting and local minima. This stands in contrast with much current conventional work on distributed coded computation which focuses on recovering all of the data from the workers. A second further contribution is that the low-weight nature of the coding scheme allows for asynchronous gradient updates since the code can be iteratively decoded; i.e., a worker's task can immediately be updated into the larger gradient. The directional derivative is always a linear function of the direction vectors; thus, our framework is robust since it can apply linear coding techniques to general machine learning frameworks such as deep neural networks.
翻訳日:2022-02-01 19:58:21 公開日:2022-01-31
# 深層学習におけるパワーロースペクトルについて:タンパク質科学への橋渡し

On the Power-Law Spectrum in Deep Learning: A Bridge to Protein Science ( http://arxiv.org/abs/2201.13011v1 )

ライセンス: Link先を確認
Zeke Xie, Qian-Yuan Tang, Yunfeng Cai, Mingming Sun, and Ping Li(参考訳) ヘッセン語が最適化、一般化、さらにはディープラーニングの堅牢性に重要であることはよく知られている。 近年の研究では、深層学習におけるヘッセンスペクトルが、少数の大きな固有値と多数のほぼゼロの固有値からなる2成分構造を持つことが実証されている。 しかし、ヘッセンスペクトルの背後にある理論的メカニズムはいまだに欠如している。 我々は、よく訓練されたディープニューラルネットワークのヘッセンスペクトルが単純なパワー-ロー分布を示すことを理論的、実証的に初めて証明した。 本研究は,(1)低次元かつロバストな学習空間へ導くこと,(2)低複雑さの解をもたらす変動自由エネルギーを暗黙的にペナルティ化すること,などである。 我々はさらに、パワーロースペクトルフレームワークを、深層学習の複数の新しい振る舞いを示す強力なツールとして利用した。 興味深いことに、パワーロースペクトルは、深層学習とタンパク質科学の間の新しい橋渡しを示すタンパク質においても重要であることが知られている。

It is well-known that the Hessian matters to optimization, generalization, and even robustness of deep learning. Recent works empirically discovered that the Hessian spectrum in deep learning has a two-component structure that consists of a small number of large eigenvalues and a large number of nearly-zero eigenvalues. However, the theoretical mechanism behind the Hessian spectrum is still absent or under-explored. We are the first to theoretically and empirically demonstrate that the Hessian spectrums of well-trained deep neural networks exhibit simple power-law distributions. Our work further reveals how the power-law spectrum essentially matters to deep learning: (1) it leads to low-dimensional and robust learning space, and (2) it implicitly penalizes the variational free energy, which results in low-complexity solutions. We further used the power-law spectral framework as a powerful tool to demonstrate multiple novel behaviors of deep learning. Interestingly, the power-law spectrum is also known to be important in protein, which indicates a novel bridge between deep learning and protein science.
翻訳日:2022-02-01 19:58:00 公開日:2022-01-31
# インターリービング最適化による位相保存次元低減

Topology-Preserving Dimensionality Reduction via Interleaving Optimization ( http://arxiv.org/abs/2201.13012v1 )

ライセンス: Link先を確認
Bradley J. Nelson and Yuan Luo(参考訳) 次元削減技術はデータ前処理や可視化のための強力なツールであり、埋め込みのトポロジ的正しさに関する保証はほとんどない。 ビエトリス・リップス濾過の持続的ホモロジー間のインターリービング距離は、埋め込みや元のデータセットのクラスタや穴のような位相的特徴が対応しているスケールを特定するために用いられる。 本稿では, インターリーブ距離の最小化を求める最適化を次元削減アルゴリズムに組み込む方法を示し, 最適線形射影探索におけるその利用を明示する。 データ可視化におけるこのフレームワークの有用性を実証する。

Dimensionality reduction techniques are powerful tools for data preprocessing and visualization which typically come with few guarantees concerning the topological correctness of an embedding. The interleaving distance between the persistent homology of Vietoris-Rips filtrations can be used to identify a scale at which topological features such as clusters or holes in an embedding and original data set are in correspondence. We show how optimization seeking to minimize the interleaving distance can be incorporated into dimensionality reduction algorithms, and explicitly demonstrate its use in finding an optimal linear projection. We demonstrate the utility of this framework to data visualization.
翻訳日:2022-02-01 19:57:42 公開日:2022-01-31
# マトリックス角根の低ランク更新

Low-Rank Updates of Matrix Square Roots ( http://arxiv.org/abs/2201.13156v1 )

ライセンス: Link先を確認
Shany Shumeli, Petros Drineas, Haim Avron(参考訳) 共分散行列がスパース行列と低階摂動の構造を持つモデルは、機械学習アプリケーションにおいてユビキタスである。 学習アルゴリズムはそのような構造を利用するのが望ましいことが多く、立方体時間と二次記憶を必要とするコストのかかる行列計算を避けることができる。 これはしばしば、シャーマン・モリソン・ウッドベリーの公式を通した行列反転のような構造を維持する操作によって達成される。 本稿では,行列平方根および逆平方根演算について考察する。 行列に対する低階摂動が与えられたとき、(逆)平方根に対する低階近似補正が存在すると論じる。 我々は、真の補正の固有値に縛られる幾何学的減衰を確立することで、そうする。 次に、補正の枠組みは代数的リカッティ方程式の解を持ち、その方程式に対する低ランク解がどのように計算できるかを議論する。 代数的リカティ方程式を近似解く際に生じる近似誤差を解析し、スペクトルとフロベニウスノルムの前方および後方誤差境界を与える。 最後に,本アルゴリズムのいくつかの応用について述べるとともに,数値実験でその有用性を実証する。

Models in which the covariance matrix has the structure of a sparse matrix plus a low rank perturbation are ubiquitous in machine learning applications. It is often desirable for learning algorithms to take advantage of such structures, avoiding costly matrix computations that often require cubic time and quadratic storage. This is often accomplished by performing operations that maintain such structures, e.g. matrix inversion via the Sherman-Morrison-Woo dbury formula. In this paper we consider the matrix square root and inverse square root operations. Given a low rank perturbation to a matrix, we argue that a low-rank approximate correction to the (inverse) square root exists. We do so by establishing a geometric decay bound on the true correction's eigenvalues. We then proceed to frame the correction has the solution of an algebraic Ricatti equation, and discuss how a low-rank solution to that equation can be computed. We analyze the approximation error incurred when approximately solving the algebraic Ricatti equation, providing spectral and Frobenius norm forward and backward error bounds. Finally, we describe several applications of our algorithms, and demonstrate their utility in numerical experiments.
翻訳日:2022-02-01 19:57:31 公開日:2022-01-31
# 顕微鏡シミュレーションの時空間観測による粗大分岐図の構成-擬似機械学習アプローチ

Constructing coarse-scale bifurcation diagrams from spatio-temporal observations of microscopic simulations: A parsimonious machine learning approach ( http://arxiv.org/abs/2201.13323v1 )

ライセンス: Link先を確認
Evangelos Galaris, Gianluca Fabiani, Ioannis Gallos, Ioannis Kevrekidis, Constantinos Siettos(参考訳) 機械学習を用いた顕微鏡シミュレータによる時空間データから粗粒度分岐図を作成するための3層計算手法を提案する。 第1段階では、多様体学習と特に散逸拡散写像を用いて、創発的ダイナミクスが発展する多様体の固有次元とそれらの多様体のパラメトリゼーションの特徴選択を同定する。 第2のステップでは、選択した特徴に基づいて、フィードフォワードニューラルネットワーク(FNN)とランダム投影ネットワーク(RPNN)という2つの機械学習スキームを用いて、有効偏微分方程式(PDE)の右辺を学習する。 最後に、学習したブラックボックスPDEモデルに基づいて、対応する分岐図を構築し、数値分岐理論アルゴリズムを利用する。 そこで本研究では,Lattice-Boltzman (LBM) 数値シミュレーションにより生成した1D FitzHugh-Nagumo PDEの1パラメータ分岐図を構築する手法を実装した。

We address a three-tier computational approach for the construction of coarse-grained bifurcation diagrams from spatio-temporal data produced by microscopic simulators using machine learning. In the first step, we exploit manifold learning and in particular parsimonious Diffusion Maps to identify the intrinsic dimension of the manifolds where the emergent dynamics evolve and feature selection for the parametrization of these manifolds. In the second step, based on the selected features we learn the right-hand-side of the effective partial differential equations (PDEs) using two machine learning schemes, namely Feed-forward Neural Networks (FNNs) and Random Projection Networks (RPNNs). Finally, based on the learned black-box PDE model, we construct the corresponding bifurcation diagram, thus exploiting numerical bifurcation theory algorithms. For our illustrations, we implemented the proposed method to construct the one-parameter bifurcation diagram of the 1D FitzHugh-Nagumo PDEs from data generated by Lattice-Boltzman (LBM) numerical simulations.
翻訳日:2022-02-01 19:56:16 公開日:2022-01-31
# 強化学習に基づく制御のための参照追跡と外乱排除問題における定常誤差補償

Steady-State Error Compensation in Reference Tracking and Disturbance Rejection Problems for Reinforcement Learning-Based Control ( http://arxiv.org/abs/2201.13331v1 )

ライセンス: Link先を確認
Daniel Weber, Maximilian Schenke and Oliver Wallscheid(参考訳) 強化学習(Reinforcement Learning, RL)は、自動制御アプリケーションにおける将来的なトピックである。 古典的な制御アプローチでは、事前のシステム知識を必要とするが、RLのようなデータ駆動制御アプローチは、モデルフリーのコントローラ設計手順を許容し、植物構造やパラメータが変化するシステムの創発的なテクニックをレンダリングする。 複雑なシステムに対する過渡的な制御挙動はRLによって十分に扱えることが、すでに様々な応用で示されているが、制御ポリシ近似や有限トレーニング時間の使用から生じる、非消滅定常制御誤差の課題は残っている。 モデル予測制御におけるデルタインプットの定式化にインスパイアされた統合フィードバックを模倣したアクタクリティカルなRLコントローラのための統合アクション状態拡張(IASA)が導入された。 この拡張は専門家の知識を必要とせず、アプローチモデルを無償にしておく。 その結果、RLコントローラは、定常制御偏差をより効果的に抑制する方法を学ぶ。 電気エネルギー工学領域からの2つの模範的な応用は、参照追跡と外乱拒否の両方のために開発された方法の利点を検証している。 DDPG(Deep Deterministic Policy gradient)の標準設定と比較すると、提案されたIASA拡張により、検討された検証シナリオ内での定常状態エラーを最大52$\%削減することができる。

Reinforcement learning (RL) is a promising, upcoming topic in automatic control applications. Where classical control approaches require a priori system knowledge, data-driven control approaches like RL allow a model-free controller design procedure, rendering them emergent techniques for systems with changing plant structures and varying parameters. While it was already shown in various applications that the transient control behavior for complex systems can be sufficiently handled by RL, the challenge of non-vanishing steady-state control errors remains, which arises from the usage of control policy approximations and finite training times. To overcome this issue, an integral action state augmentation (IASA) for actor-critic-based RL controllers is introduced that mimics an integrating feedback, which is inspired by the delta-input formulation within model predictive control. This augmentation does not require any expert knowledge, leaving the approach model free. As a result, the RL controller learns how to suppress steady-state control deviations much more effectively. Two exemplary applications from the domain of electrical energy engineering validate the benefit of the developed method both for reference tracking and disturbance rejection. In comparison to a standard deep deterministic policy gradient (DDPG) setup, the suggested IASA extension allows to reduce the steady-state error by up to 52 $\%$ within the considered validation scenarios.
翻訳日:2022-02-01 19:55:59 公開日:2022-01-31
# 機能的回帰混合を用いたデュアルエネルギーCTスキャンにおけるスペクトル画像クラスタリング

Spectral image clustering on dual-energy CT scans using functional regression mixtures ( http://arxiv.org/abs/2201.13398v1 )

ライセンス: Link先を確認
Segolene Brivet, Faicel Chamroukhi, Mark Coates, Reza Forghani, and Peter Savadjiev(参考訳) dual-energy ct tomography (dect) は従来のctスキャンでは材料のキャラクタリゼーションができない高度なctスキャン技術である。 これにより、各3次元画像ボクセルにおけるエネルギー減衰曲線の再構成が可能となり、異なる有効な走査エネルギー準位で様々な画像減衰を表現できる。 本稿では,新しい関数型データ解析(fda)手法を開発し,dect崩壊曲線の解析に適用する。 より具体的には、混合重みに空間的コンテキストを統合する機能的混合モデルを構築し、エネルギー減衰曲線上に混合成分密度を機能的観測として構築する。 モデルパラメータの最大推定のための専用予測最大化(EM)アルゴリズムを開発することにより、教師なしクラスタリングアルゴリズムを設計する。 我々の知る限り、DECTが提供する完全なスペクトル情報を活用するために、統計的なFDAツールとモデルベースのクラスタリングを適用する最初の記事です。 頭頸部癌91例を対象にDECTスキャンを行った。 放射線科医が手作業で追跡した腫瘍輪郭と,いくつかのベースラインアルゴリズムとの比較を行った。 頭頸部腫瘍の悪性度を判定し,腫瘍周囲の組織反応の潜在的重要性を考慮し,頭頸部癌におけるDECTデータに基づく臨床成績予測のための下流機械学習応用に価値を付加する可能性が示唆された。

Dual-energy computed tomography (DECT) is an advanced CT scanning technique enabling material characterization not possible with conventional CT scans. It allows the reconstruction of energy decay curves at each 3D image voxel, representing varying image attenuation at different effective scanning energy levels. In this paper, we develop novel functional data analysis (FDA) techniques and adapt them to the analysis of DECT decay curves. More specifically, we construct functional mixture models that integrate spatial context in mixture weights, with mixture component densities being constructed upon the energy decay curves as functional observations. We design unsupervised clustering algorithms by developing dedicated expectation maximization (EM) algorithms for the maximum likelihood estimation of the model parameters. To our knowledge, this is the first article to adapt statistical FDA tools and model-based clustering to take advantage of the full spectral information provided by DECT. We evaluate our methods on 91 head and neck cancer DECT scans. We compare our unsupervised clustering results to tumor contours traced manually by radiologists, as well as to several baseline algorithms. Given the inter-rater variability even among experts at delineating head and neck tumors, and given the potential importance of tissue reactions surrounding the tumor itself, our proposed methodology has the potential to add value in downstream machine learning applications for clinical outcome prediction based on DECT data in head and neck cancer.
翻訳日:2022-02-01 19:55:36 公開日:2022-01-31
# メトリックハイパートランスフォーマーはユニバーサル適応マップである

Metric Hypertransformers are Universal Adapted Maps ( http://arxiv.org/abs/2201.13094v1 )

ライセンス: Link先を確認
Beatrice Acciaio, Anastasis Kratsios, Gudmund Pammer(参考訳) 我々は、任意の適応写像 $F:\mathscr{X}^{\mathbb{Z}}\rightarrow \mathscr{Y}^{\mathbb{Z}}$を近似可能な複雑性で近似できる計量ハイパートランスフォーマー (MHTs) と呼ばれる幾何学的深層学習モデルの普遍クラスを導入し、$\mathscr{X}\subseteq \mathbb{R}^d$と$\mathscr{Y}$は任意の適切な距離空間であり、$\mathscr{X}^{\mathbb{Z}}$ (resp) は任意の適合写像を近似することができる。 $\mathscr{Y}^{\mathbb{Z}}$) は $\mathscr{X}$ (resp) 上のすべての離散時間パスをキャプチャする。 $\mathscr{Y}$)。 適当な空間 $\mathscr{Y}$ には、様々な(適応)ワッサーシュタイン空間、シューダー基底を持つすべての Fr\'{e}chet 空間、情報幾何学から生じる様々なリーマン多様体が含まれる。 静的な場合でさえ、$f:\mathscr{X}\rightarrow \mathscr{Y}$ は H\"{o}lder map であり、我々の結果は、そのような $\mathscr{X}$ と $\mathscr{Y}$ に適合する最初の(定性的な)普遍近似定理を提供する。 我々の普遍近似定理は定量的であり、それらは$f$の正則性、活性化関数の選択、計量エントロピーと$\mathscr{x}$の直径、そして近似が実行されるコンパクトな経路の集合の正則性に依存する。 私たちの指導例は数学の金融から来ています。 特に、ここで導入されたMHTモデルは、SDEへのソリューション、任意に長いメモリを持つ多くのプロセス、シーケンシャルデータをフォワードレート曲線のシーケンスにマッピングする関数など、幅広い確率過程のカーネルを近似することができる。

We introduce a universal class of geometric deep learning models, called metric hypertransformers (MHTs), capable of approximating any adapted map $F:\mathscr{X}^{\mathbb{Z}}\rightarrow \mathscr{Y}^{\mathbb{Z}}$ with approximable complexity, where $\mathscr{X}\subseteq \mathbb{R}^d$ and $\mathscr{Y}$ is any suitable metric space, and $\mathscr{X}^{\mathbb{Z}}$ (resp. $\mathscr{Y}^{\mathbb{Z}}$) capture all discrete-time paths on $\mathscr{X}$ (resp. $\mathscr{Y}$). Suitable spaces $\mathscr{Y}$ include various (adapted) Wasserstein spaces, all Fr\'{e}chet spaces admitting a Schauder basis, and a variety of Riemannian manifolds arising from information geometry. Even in the static case, where $f:\mathscr{X}\rightarrow \mathscr{Y}$ is a H\"{o}lder map, our results provide the first (quantitative) universal approximation theorem compatible with any such $\mathscr{X}$ and $\mathscr{Y}$. Our universal approximation theorems are quantitative, and they depend on the regularity of $F$, the choice of activation function, the metric entropy and diameter of $\mathscr{X}$, and on the regularity of the compact set of paths whereon the approximation is performed. Our guiding examples originate from mathematical finance. Notably, the MHT models introduced here are able to approximate a broad range of stochastic processes' kernels, including solutions to SDEs, many processes with arbitrarily long memory, and functions mapping sequential data to sequences of forward rate curves.
翻訳日:2022-02-01 19:55:12 公開日:2022-01-31
# (参考訳) 適応サンプリングによるL-SVRGとL-Katyusha [全文訳有]

L-SVRG and L-Katyusha with Adaptive Sampling ( http://arxiv.org/abs/2201.13387v1 )

ライセンス: CC BY 4.0
Boxin Zhao, Boxiang Lyu, Mladen Kolar(参考訳) L-SVRGやL-Katyusha [12]のような確率勾配に基づく最適化手法は機械学習モデルの学習に広く用いられている。 L-SVRGとL-Katyushaの理論的および実証的な性能は、非均一分布 [17] から観測をサンプリングすることによって改善することができる。 しかし、望ましいサンプリング分布を設計するために、Qian et al。 モデルパラメータの次元が高い場合,[17]は, 計算的に求めることができる滑らかさ定数の事前知識に依存している。 本稿では,L-SVRG と L-Katyusha に対する適応型サンプリング手法を提案する。 サンプリング分布が反復的に変化するとき,L-SVRGとL-Katyushaの収束保証を凸目的に対して証明する。 これらの結果は,事前情報がなくても適応的サンプリング戦略が一致し,場合によってはqianなどのサンプリングスキームの性能を超越することを示した。 [17]. 広範シミュレーションは実データに基づくサンプリング手法の本理論と実用性を支持する。

Stochastic gradient-based optimization methods, such as L-SVRG and its accelerated variant L-Katyusha [12], are widely used to train machine learning models. Theoretical and empirical performance of L-SVRG and L-Katyusha can be improved by sampling the observations from a non-uniform distribution [17]. However, to design a desired sampling distribution, Qian et al.[17] rely on prior knowledge of smoothness constants that can be computationally intractable to obtain in practice when the dimension of the model parameter is high. We propose an adaptive sampling strategy for L-SVRG and L-Katyusha that learns the sampling distribution with little computational overhead, while allowing it to change with iterates, and at the same time does not require any prior knowledge on the problem parameters. We prove convergence guarantees for L-SVRG and L-Katyusha for convex objectives when the sampling distribution changes with iterates. These results show that even without prior information, the proposed adaptive sampling strategy matches, and in some cases even surpasses, the performance of the sampling scheme in Qian et al.[17]. Extensive simulations support our theory and the practical utility of the proposed sampling scheme on real data.
翻訳日:2022-02-01 19:52:55 公開日:2022-01-31
# 帰納行列の完全性:悪質な局所的最小化と高速アルゴリズム

Inductive Matrix Completion: No Bad Local Minima and a Fast Algorithm ( http://arxiv.org/abs/2201.13052v1 )

ライセンス: Link先を確認
Pini Zilber and Boaz Nadler(参考訳) 帰納行列補完(inductive matrix completion, imc)問題は、少数の観測されたエントリから低ランク行列を回収し、その行と列部分空間に関する事前知識を取り入れることである。 本稿では,IMC問題への3つの貢献について述べる。 i) 適切な条件下では、IMC最適化のランドスケープは、悪い局所最小値を持たないことを証明する。 (ii)未知行列の階数を推定するための理論的な保証を伴う単純なスキームを導出する。 (iii) imc問題を解決するための単純なガウスニュートン法であるgnimcを提案し,そのランタイムを分析し,それに対する回復保証を導出する。 GNIMCの保証は、二次収束率、必要な項目の少なさ、エラーに対する安定性、低ランクからの偏差など、他の方法よりもいくつかの面でシャープである。 実験的に、ランダムに一様に観察されたエントリに対して、GNIMCは、基礎となる行列をいくつかの競合する手法よりもかなり高速に回復する。

The inductive matrix completion (IMC) problem is to recover a low rank matrix from few observed entries while incorporating prior knowledge about its row and column subspaces. In this work, we make three contributions to the IMC problem: (i) we prove that under suitable conditions, the IMC optimization landscape has no bad local minima; (ii) we derive a simple scheme with theoretical guarantees to estimate the rank of the unknown matrix; and (iii) we propose GNIMC, a simple Gauss-Newton based method to solve the IMC problem, analyze its runtime and derive recovery guarantees for it. The guarantees for GNIMC are sharper in several aspects than those available for other methods, including a quadratic convergence rate, fewer required observed entries and stability to errors or deviations from low-rank. Empirically, given entries observed uniformly at random, GNIMC recovers the underlying matrix substantially faster than several competing methods.
翻訳日:2022-02-01 18:23:29 公開日:2022-01-31
# ハダマール行列の回復のための等変ニューラルネットワーク

Equivariant neural networks for recovery of Hadamard matrices ( http://arxiv.org/abs/2201.13157v1 )

ライセンス: Link先を確認
Augusto Peres, Eduardo Dias, Lu\'is Sarmento, Hugo Penedones(参考訳) 本稿では,行列の列と行の置換に等価なメッセージパッシングニューラルネットワークアーキテクチャを提案する。 我々は,多層パーセプトロン(mlps),畳み込みニューラルネットワーク(cnns),トランスフォーマー(transformers)といった従来のアーキテクチャに対するアドバンテージを,アダマール行列の削除されたエントリの集合を復元する組合せ最適化タスクで示す。 これは幾何学的深層学習の原理の基本的な数学への強力な応用であり、機械学習技術を用いたハダマール予想のさらなる洞察への足がかりである。

We propose a message passing neural network architecture designed to be equivariant to column and row permutations of a matrix. We illustrate its advantages over traditional architectures like multi-layer perceptrons (MLPs), convolutional neural networks (CNNs) and even Transformers, on the combinatorial optimization task of recovering a set of deleted entries of a Hadamard matrix. We argue that this is a powerful application of the principles of Geometric Deep Learning to fundamental mathematics, and a potential stepping stone toward more insights on the Hadamard conjecture using Machine Learning techniques.
翻訳日:2022-02-01 18:23:10 公開日:2022-01-31
# spaghetti: 部分認識生成による暗黙的な形状の編集

SPAGHETTI: Editing Implicit Shapes Through Part Aware Generation ( http://arxiv.org/abs/2201.13168v1 )

ライセンス: Link先を確認
Amir Hertz, Or Perel, Raja Giryes, Olga Sorkine-Hornung and Daniel Cohen-Or(参考訳) 学習に基づくテクニックの魅力的な表現として、ニューラル暗黙のフィールドが急速に現れている。 しかし,3次元形状モデリングや編集に採用することは困難である。 我々は,$\mathbf{E}$diting $\mathbf{I}$mplicit $\mathbf{S}$hapes $\mathbf{T}$hrough $\mathbf{P}$art $\mathbf{A}$ware $\mathbf{G}$enera$\mathbf{T}$ionをSPAGHETTIと略して置換する手法を紹介する。 当社のアーキテクチャでは,形状セグメントを変換,補間,結合することにより,明示的な部分監督を必要とせずに暗黙的な形状を操作できる。 SPAGHETTIは、形状部分表現を外生幾何学的および内生幾何学的情報に切り離す。 この特徴は、部分レベル制御を備えた生成フレームワークを可能にする。 SPAGHETTIのモデリング機能はインタラクティブなグラフィカルインタフェースを用いて実証され、ユーザーはニューラルな暗黙の形状を直接編集することができる。

Neural implicit fields are quickly emerging as an attractive representation for learning based techniques. However, adopting them for 3D shape modeling and editing is challenging. We introduce a method for $\mathbf{E}$diting $\mathbf{I}$mplicit $\mathbf{S}$hapes $\mathbf{T}$hrough $\mathbf{P}$art $\mathbf{A}$ware $\mathbf{G}$enera$\mathbf{T}$ion, permuted in short as SPAGHETTI. Our architecture allows for manipulation of implicit shapes by means of transforming, interpolating and combining shape segments together, without requiring explicit part supervision. SPAGHETTI disentangles shape part representation into extrinsic and intrinsic geometric information. This characteristic enables a generative framework with part-level control. The modeling capabilities of SPAGHETTI are demonstrated using an interactive graphical interface, where users can directly edit neural implicit shapes.
翻訳日:2022-02-01 18:22:58 公開日:2022-01-31
# 少量のラウンドを持つ高速分散k-mean

Fast Distributed k-Means with a Small Number of Rounds ( http://arxiv.org/abs/2201.13217v1 )

ライセンス: Link先を確認
Tom Hess, Ron Visbord, Sivan Sabato(参考訳) 本稿では,k-meansクラスタリングのための新しいアルゴリズムを提案する。このアルゴリズムでは,複数のマシンに分散し,コーディネータがこれらのマシンと通信して出力クラスタリングを計算する。 本アルゴリズムは,コーディネータの計算能力にのみ依存するコスト近似係数と多数の通信ラウンドを保証する。 さらにこのアルゴリズムには,通信ラウンドを可能な限り少なくすることができる,ストップ機構が組み込まれている。 理論的にも経験的にも、多くの自然の場合、実際には1-4ラウンドで十分であることを示す。 一般的なk-means||アルゴリズムと比較して、我々の手法はより大きいコーディネータ容量を利用してより少ないラウンドを得ることができる。 実験の結果,提案アルゴリズムにより得られたk平均コストは,後者のラウンド数が多い場合でも,k平均|のコストよりも高いことがわかった。 さらに,本手法の機械走行時間はk-means|よりもかなり小さい。 アルゴリズムと実験を実行するコードは、https://github.com/s elotape/distributed_ k_meansで入手できる。

We propose a new algorithm for k-means clustering in a distributed setting, where the data is distributed across many machines, and a coordinator communicates with these machines to calculate the output clustering. Our algorithm guarantees a cost approximation factor and a number of communication rounds that depend only on the computational capacity of the coordinator. Moreover, the algorithm includes a built-in stopping mechanism, which allows it to use fewer communication rounds whenever possible. We show both theoretically and empirically that in many natural cases, indeed 1-4 rounds suffice. In comparison with the popular k-means|| algorithm, our approach allows exploiting a larger coordinator capacity to obtain a smaller number of rounds. Our experiments show that the k-means cost obtained by the proposed algorithm is usually better than the cost obtained by k-means||, even when the latter is allowed a larger number of rounds. Moreover, the machine running time in our approach is considerably smaller than that of k-means||. Code for running the algorithm and experiments is available at https://github.com/s elotape/distributed_ k_means.
翻訳日:2022-02-01 18:22:32 公開日:2022-01-31
# ZXダイアグラムの微分と積分

Differentiating and Integrating ZX Diagrams ( http://arxiv.org/abs/2201.13250v1 )

ライセンス: Link先を確認
Quanlong Wang, Richie Yeung(参考訳) ZX計算は、幅広い応用が成功した量子技術にとって有用なツールであることが証明されている。 これらの応用のほとんどは代数的性質を持つ。 しかし、分化と統合を含む他のタスクは、現在のzx技術では到達できないままである。 ここでは、ZX-計算の枠組み内での微分と積分を実現することにより、ZXを解析的視点に高める。 量子機械学習の文脈で適用することで,ZX計算の新しい解析フレームワークを明確に説明する。

ZX-calculus has proved to be a useful tool for quantum technology with a wide range of successful applications. Most of these applications are of an algebraic nature. However, other tasks that involve differentiation and integration remain unreachable with current ZX techniques. Here we elevate ZX to an analytical perspective by realising differentiation and integration entirely within the framework of ZX-calculus. We explicitly illustrate the new analytic framework of ZX-calculus by applying it in context of quantum machine learning.
翻訳日:2022-02-01 18:21:16 公開日:2022-01-31
# カノニカルリプシッツ機構による個人別トップk選択

Differentially Private Top-k Selection via Canonical Lipschitz Mechanism ( http://arxiv.org/abs/2201.13376v1 )

ライセンス: Link先を確認
Michael Shekelyan and Grigorios Loukides(参考訳) ディファレンシャルプライバシ(dp)の下で上位$k$の得点項目を選択することは、多くのアプリケーションで基本的なタスクである。 この研究は3つの新しい結果をもたらす。 第一に、指数的なメカニズムであるpermute-and-flip と report-noisy-max と、その一発の変種は、ノイズ分布に対する強制リプシッツ特性を介して単一のDP耐性を持つ付加的なノイズ機構であるlipschitz のメカニズムに統合される。 第二に、この新しい一般化されたメカニズムは正準損失関数と組み合わせて正準リプシッツ機構を得ることができ、これは$O(dk+d \log d)$時間で$d$アイテムからk-サブセットを直接選択できる。 canonical loss関数は、サブセットを最大$k$になるように変更しなければならないユーザ数によって、サブセットを評価する。 第3に,サブセット選択に対するこの構成自由アプローチは,逐次合成による1対1の選択と比較して,$\Omega(\log k)$因子による実用性保証を改善する。

Selecting the top-$k$ highest scoring items under differential privacy (DP) is a fundamental task with many applications. This work presents three new results. First, the exponential mechanism, permute-and-flip and report-noisy-max, as well as their oneshot variants, are unified into the Lipschitz mechanism, an additive noise mechanism with a single DP-proof via a mandated Lipschitz property for the noise distribution. Second, this new generalized mechanism is paired with a canonical loss function to obtain the canonical Lipschitz mechanism, which can directly select k-subsets out of $d$ items in $O(dk+d \log d)$ time. The canonical loss function assesses subsets by how many users must change for the subset to become top-$k$. Third, this composition-free approach to subset selection improves utility guarantees by an $\Omega(\log k)$ factor compared to one-by-one selection via sequential composition, and our experiments on synthetic and real-world data indicate substantial utility improvements.
翻訳日:2022-02-01 18:20:55 公開日:2022-01-31
# 注意増強畳み込みを用いた極端降水予測

Extreme precipitation forecasting using attention augmented convolutions ( http://arxiv.org/abs/2201.13408v1 )

ライセンス: Link先を確認
Weichen Huang(参考訳) 極端な降雨は世界中に波及し、何十億ドルもの損害をもたらし、コミュニティ、生態系、経済を根絶させた。 正確な極端な降水予測は、このような極端なイベントの準備と災害リスク管理により多くの時間を費やすことができる。 本稿では,海面圧力と帯状風速の連続による短期的極端降水予測(12時間予報まで)に焦点を当てた。 既存の機械学習アプローチは有望な結果を示しているが、関連するモデルと気候の不確実性は信頼性を低下させる可能性がある。 そこで本研究では,注意スコアと従来の畳み込みとを体系的に組み合わせ,特徴データを強化し,結果の期待誤差を低減させる,極端な降水予測のための自己着水強化畳み込み機構を提案する。 提案するネットワークアーキテクチャは、複数の層にまたがる未入力情報フローの利点を得るために、ハイウェイニューラルネットワーク層とさらに融合している。 実験の結果,従来の畳み込みモデルよりも12%優れていた。 提案手法は, 極端な変化の物理的原因を把握し, 将来の予測の不確実性を低下させるツールとして, 機械学習を向上する。

Extreme precipitation wreaks havoc throughout the world, causing billions of dollars in damage and uprooting communities, ecosystems, and economies. Accurate extreme precipitation prediction allows more time for preparation and disaster risk management for such extreme events. In this paper, we focus on short-term extreme precipitation forecasting (up to a 12-hour ahead-of-time prediction) from a sequence of sea level pressure and zonal wind anomalies. Although existing machine learning approaches have shown promising results, the associated model and climate uncertainties may reduce their reliability. To address this issue, we propose a self-attention augmented convolution mechanism for extreme precipitation forecasting, systematically combining attention scores with traditional convolutions to enrich feature data and reduce the expected errors of the results. The proposed network architecture is further fused with a highway neural network layer to gain the benefits of unimpeded information flow across several layers. Our experimental results show that the framework outperforms classical convolutional models by 12%. The proposed method increases machine learning as a tool for gaining insights into the physical causes of changing extremes, lowering uncertainty in future forecasts.
翻訳日:2022-02-01 18:20:30 公開日:2022-01-31
# weisfeilerとleman go:スペクトルとコンビネーションのプレカラー化

Weisfeiler and Leman Go Infinite: Spectral and Combinatorial Pre-Colorings ( http://arxiv.org/abs/2201.13410v1 )

ライセンス: Link先を確認
Or Feldman, Amit Boyarski, Shai Feldman, Dani Kogan, Avi Mendelson, Chaim Baskin(参考訳) グラフ同型テストは通常、グラフ不変量の比較を通してアプローチされる。 表現力と計算効率の良好なトレードオフを提供する2つの一般的な選択肢は、組合せ(すなわち、Weisfeiler-Leman (WL) テストによって得られる)とスペクトル不変量である。 後者の正確なパワーはまだ未解決の問題であるが、均一なプリカラー化の標準構成を用いる場合、前者は限られたパワーで定期的に批判される。 この欠点は、メッセージパッシンググラフニューラルネットワーク(mpgnns)の適用性を妨げる。 均一な事前色付けの仮定を緩和することにより,WLテストアドフィニトゥムの表現力を高めることができることを示す。 次に,バニラWLテストの表現力を向上するスペクトル特徴に基づく効率的な事前色付けを提案する。 以上の主張には、広範な合成および実データ実験が伴う。 実験を再現するコードはhttps://github.com/T PFI22/Spectral-and-C ombinatorialで公開されている。

Graph isomorphism testing is usually approached via the comparison of graph invariants. Two popular alternatives that offer a good trade-off between expressive power and computational efficiency are combinatorial (i.e., obtained via the Weisfeiler-Leman (WL) test) and spectral invariants. While the exact power of the latter is still an open question, the former is regularly criticized for its limited power, when a standard configuration of uniform pre-coloring is used. This drawback hinders the applicability of Message Passing Graph Neural Networks (MPGNNs), whose expressive power is upper bounded by the WL test. Relaxing the assumption of uniform pre-coloring, we show that one can increase the expressive power of the WL test ad infinitum. Following that, we propose an efficient pre-coloring based on spectral features that provably increase the expressive power of the vanilla WL test. The above claims are accompanied by extensive synthetic and real data experiments. The code to reproduce our experiments is available at https://github.com/T PFI22/Spectral-and-C ombinatorial
翻訳日:2022-02-01 18:20:13 公開日:2022-01-31
# (参考訳) 深層学習における対人ロバスト性:軽度ニューロンに対する攻撃 [全文訳有]

Adversarial Robustness in Deep Learning: Attacks on Fragile Neurons ( http://arxiv.org/abs/2201.12347v1 )

ライセンス: CC BY 4.0
Chandresh Pravin, Ivan Martino, Giuseppe Nicosia, Varun Ojha(参考訳) 我々は,第1畳み込み層からのnodalドロップアウトを用いて,深層学習アーキテクチャの脆弱でロバストなニューロンを同定する。 敵標的アルゴリズムを用いて、これらのニューロンをネットワーク上の敵攻撃の分布と相関する。 近年,ニューラルネットワークの相対的ロバスト性は注目され,入力画像に適用される慎重に構築された歪みに対して,ディープラーニングネットワークの固有の弱点が強調されている。 本稿では,MNISTおよびCIFAR10データセットでトレーニングされた最先端画像分類モデルの高速勾配符号法攻撃に対する堅牢性を評価する。 本手法は,敵の攻撃に最も影響を受けるネットワークの特定のニューロンを同定する。 そこで本稿では, 強靭性ニューロンの特徴を圧縮し, 脆弱性ニューロンを比例的に増幅することにより, これらの攻撃に対して脆弱性ニューロンをより堅牢にすることを提案する。

We identify fragile and robust neurons of deep learning architectures using nodal dropouts of the first convolutional layer. Using an adversarial targeting algorithm, we correlate these neurons with the distribution of adversarial attacks on the network. Adversarial robustness of neural networks has gained significant attention in recent times and highlights intrinsic weaknesses of deep learning networks against carefully constructed distortion applied to input images. In this paper, we evaluate the robustness of state-of-the-art image classification models trained on the MNIST and CIFAR10 datasets against the fast gradient sign method attack, a simple yet effective method of deceiving neural networks. Our method identifies the specific neurons of a network that are most affected by the adversarial attack being applied. We, therefore, propose to make fragile neurons more robust against these attacks by compressing features within robust neurons and amplifying the fragile neurons proportionally.
翻訳日:2022-02-01 18:17:50 公開日:2022-01-31
# 分化可能な神経放射能

Differentiable Neural Radiosity ( http://arxiv.org/abs/2201.13190v1 )

ライセンス: Link先を確認
Saeed Hadadan, Matthias Zwicker(参考訳) 本稿では,ニューラルネットワークを用いた微分レンダリング方程式の解を表現する新しい手法である微分可能なニューラルラジオシティを紹介する。 ニューラルラジオシティ技術に触発されて、微分レンダリング方程式の残差のノルムを最小化し、ネットワークを直接最適化する。 ネットワークは、シーンパラメーターに対する輝度場の連続的かつビュー非依存な勾配を出力でき、メモリと時間複雑性をパス長で一定に保ちながら、差動大域照明効果を考慮に入れることができる。 逆レンダリング問題を解決するために,我々は,シーンパラメータの限られた数に対して微分放射場を表すネットワークの事前学習したインスタンスを用いる。 実験では, 自動微分, ラジエーティブバックプロパゲーション, パスリプレイバックプロパゲーションなどの他の手法と比較して, 高速かつ高精度な収束を実現するためにこれを活用した。

We introduce Differentiable Neural Radiosity, a novel method of representing the solution of the differential rendering equation using a neural network. Inspired by neural radiosity techniques, we minimize the norm of the residual of the differential rendering equation to directly optimize our network. The network is capable of outputting continuous, view-independent gradients of the radiance field with respect to scene parameters, taking into account differential global illumination effects while keeping memory and time complexity constant in path length. To solve inverse rendering problems, we use a pre-trained instance of our network that represents the differential radiance field with respect to a limited number of scene parameters. In our experiments, we leverage this to achieve faster and more accurate convergence compared to other techniques such as Automatic Differentiation, Radiative Backpropagation, and Path Replay Backpropagation.
翻訳日:2022-02-01 17:59:22 公開日:2022-01-31
# CoTV:ディープ強化学習を用いた交通信号と連結自動運転車の協調制御

CoTV: Cooperative Control for Traffic Light Signals and Connected Autonomous Vehicles using Deep Reinforcement Learning ( http://arxiv.org/abs/2201.13143v1 )

ライセンス: Link先を確認
Jiaying Guo and Long Cheng and Shen Wang(参考訳) 旅行時間を短縮する目的は、将来のスマートトランスポートシステムの開発を支援するには不十分である。 国連持続可能な開発目標(un-sdg)に合わせるためには、燃料と排出のさらなる削減、交通安全の改善、インフラの展開とメンテナンスの容易さも考慮すべきである。 交通信号(交差点スループットを改善するために)の制御の最適化や(交通を安定させるために)車両速度の最適化に焦点を当てた既存の作業とは違い,本研究では,交通信号とコネクテッド・オートモービル(CAV)の両方を協調的に制御する,CoTVと呼ばれる多エージェント深部強化学習システムを提案する。 したがって、私たちのCOTVは、旅行時間、燃料および排出の削減の達成のバランスをとることができる。 一方、COTVは、入ってくる各道路の信号機に最も近い1つのCAVと協力することで、容易に展開できる。 これにより、トラヒックライトコントローラとCAV間のより効率的な調整が可能となり、従来収束が困難であった大規模マルチエージェントシナリオ下でのトレーニングCOTVの収束につながる。 本研究では,cotvの詳細なシステム設計を行い,様々なグリッドマップと現実都市シナリオを用いたシミュレーション実験でその効果を実証する。

The target of reducing travel time only is insufficient to support the development of future smart transportation systems. To align with the United Nations Sustainable Development Goals (UN-SDG), a further reduction of fuel and emissions, improvements of traffic safety, and the ease of infrastructure deployment and maintenance should also be considered. Different from existing work focusing on the optimization of the control in either traffic light signal (to improve the intersection throughput), or vehicle speed (to stabilize the traffic), this paper presents a multi-agent deep reinforcement learning (DRL) system called CoTV, which Cooperatively controls both Traffic light signals and connected autonomous Vehicles (CAV). Therefore, our CoTV can well balance the achievement of the reduction of travel time, fuel, and emission. In the meantime, CoTV can also be easy to deploy by cooperating with only one CAV that is the nearest to the traffic light controller on each incoming road. This enables more efficient coordination between traffic light controllers and CAV, thus leading to the convergence of training CoTV under the large-scale multi-agent scenario that is traditionally difficult to converge. We give the detailed system design of CoTV, and demonstrate its effectiveness in a simulation study using SUMO under various grid maps and realistic urban scenarios with mixed-autonomy traffic.
翻訳日:2022-02-01 17:57:23 公開日:2022-01-31
# (参考訳) DNS: 強化学習のための決定点プロセスに基づくニューラルネットワークサンプリング [全文訳有]

DNS: Determinantal Point Process Based Neural Network Sampler for Ensemble Reinforcement Learning ( http://arxiv.org/abs/2201.13357v1 )

ライセンス: CC BY 4.0
Hassam Sheikh and Kizza Frisbee and Mariano Phielipp(参考訳) ニューラルネットワークのアンサンブルの応用は、深層強化学習アルゴリズムにおける最先端の最先端のツールになりつつある。 しかし、これらの膨大なニューラルネットワークをアンサンブルでトレーニングすることは、大規模システムのトレーニングにおいて障害となる可能性のある計算コストが非常に高い。 本稿では,k-dppを用いて,トレーニングステップ毎にバックプロパゲーションを行うニューラルネットワークのサブセットをサンプリングし,トレーニング時間と計算コストを大幅に削減する,決定的ポイントプロセスに基づくニューラルネットワークサンプラーdnsを提案する。 我々は、連続制御タスクのためのREDQにDNSを統合し、MuJoCo環境で評価した。 実験の結果, DNS拡張REDQは, 平均累積報酬でベースラインREDQより優れており, FLOPSで測定した場合, 50%未満の計算でこれを実現することがわかった。

Application of ensemble of neural networks is becoming an imminent tool for advancing the state-of-the-art in deep reinforcement learning algorithms. However, training these large numbers of neural networks in the ensemble has an exceedingly high computation cost which may become a hindrance in training large-scale systems. In this paper, we propose DNS: a Determinantal Point Process based Neural Network Sampler that specifically uses k-dpp to sample a subset of neural networks for backpropagation at every training step thus significantly reducing the training time and computation cost. We integrated DNS in REDQ for continuous control tasks and evaluated on MuJoCo environments. Our experiments show that DNS augmented REDQ outperforms baseline REDQ in terms of average cumulative reward and achieves this using less than 50% computation when measured in FLOPS.
翻訳日:2022-02-01 17:53:50 公開日:2022-01-31
# 実体と関係の学習表現

Learning Representations of Entities and Relations ( http://arxiv.org/abs/2201.13073v1 )

ライセンス: Link先を確認
Ivana Bala\v{z}evi\'c(参考訳) 事実を実体の表現としてエンコードし、それらの間のバイナリ関係を知識グラフ表現モデルによって学習し、新しい事実の予測、質問応答、事実チェック、情報検索など様々なタスクに有用である。 この論文の焦点は、 (i)リンク予測課題に取り組むことを目的とした知識グラフ表現の改善 (ii)関係表現の幾何学において意味論がどのように捉えられるかという理論を考案する。 ほとんどの知識グラフは非常に不完全であり、手動で新しい情報を追加するのにコストがかかる。 この論文の最初の貢献はHypERであり、これは既存の畳み込み状態のConvEのリンク予測性能を単純化し改善し、制約付きテンソル分解の観点から数学的に説明できる畳み込みモデルである。 2つめの貢献は、比較的単純な線形モデルであるtuckerで、導入時点では、標準データセットにわたる最先端のリンク予測性能が得られた。 第3の貢献は、双曲空間に埋め込まれた最初のマルチリレーショナルグラフ表現モデル MuRP である。 MuRP は既存のモデルやユークリッドの MuRE よりも、階層的な知識グラフ関係のリンク予測に優れており、次元ははるかに少ない。 予測性能が徐々に向上する多くの知識グラフ表現モデルの開発にもかかわらず、彼らが学習する潜在構造についてはあまり知られていない。 本研究では, 単語埋め込みの幾何学的相互作用において, 類似性, 言い換え, アナロジーの意味関係がどのようにエンコードされ, 知識グラフに見られるようなより一般的な関係がそれらの表現にどのようにエンコードされるかに関する最近の理論的理解を一般化する。

Encoding facts as representations of entities and binary relationships between them, as learned by knowledge graph representation models, is useful for various tasks, including predicting new facts, question answering, fact checking and information retrieval. The focus of this thesis is on (i) improving knowledge graph representation with the aim of tackling the link prediction task; and (ii) devising a theory on how semantics can be captured in the geometry of relation representations. Most knowledge graphs are very incomplete and manually adding new information is costly, which drives the development of methods which can automatically infer missing facts. The first contribution of this thesis is HypER, a convolutional model which simplifies and improves upon the link prediction performance of the existing convolutional state-of-the-art model ConvE and can be mathematically explained in terms of constrained tensor factorisation. The second contribution is TuckER, a relatively straightforward linear model, which, at the time of its introduction, obtained state-of-the-art link prediction performance across standard datasets. The third contribution is MuRP, first multi-relational graph representation model embedded in hyperbolic space. MuRP outperforms all existing models and its Euclidean counterpart MuRE in link prediction on hierarchical knowledge graph relations whilst requiring far fewer dimensions. Despite the development of a large number of knowledge graph representation models with gradually increasing predictive performance, relatively little is known of the latent structure they learn. We generalise recent theoretical understanding of how semantic relations of similarity, paraphrase and analogy are encoded in the geometric interactions of word embeddings to how more general relations, as found in knowledge graphs, can be encoded in their representations.
翻訳日:2022-02-01 17:32:51 公開日:2022-01-31
# AdKDD'21によるプライバシ保護MLチャレンジからの教訓

Lessons from the AdKDD'21 Privacy-Preserving ML Challenge ( http://arxiv.org/abs/2201.13123v1 )

ライセンス: Link先を確認
Eustache Diemert, Romain Fabre, Alexandre Gilotte, Fei Jia, Basile Leparmentier, J\'er\'emie Mary, Zhonghua Qu, Ugo Tanielian, Hui Yang(参考訳) パフォーマンスと強力なプライバシー保証を提供するデータ共有メカニズムの設計は、オンライン広告業界にとってホットなトピックである。 すなわち、W3C の Improving Web Advertising Business Group の下で議論されている顕著な提案は、過去のディスプレイの集計された、差別化されたプライベートなレポートを通じてのみ広告信号を共有することができる。 この提案を広く研究するために、広告会社Criteoが提供したデータを使った広告科学に関する最初のワークショップであるAdKDD'21で、オープンプライバシ保護機械学習チャレンジが開催された。 本稿では,課題課題,利用可能なデータセットの構造,課題結果の報告,完全な再現性の実現について述べる。 重要な発見は、大量の集約されたデータの小さな集合が存在する場合の学習モデルは驚くほど効率的で安価であることである。 また、プライバシ予算や利用可能な特権側情報の量など、異なるパラメータに対する入賞方法の感度を観察するための追加実験も実施する。 業界には、プライベートなデータ共有のための代替設計や、アグリゲートされたデータによる学習のブレークスルーが必要だと結論付けています。

Designing data sharing mechanisms providing performance and strong privacy guarantees is a hot topic for the Online Advertising industry. Namely, a prominent proposal discussed under the Improving Web Advertising Business Group at W3C only allows sharing advertising signals through aggregated, differentially private reports of past displays. To study this proposal extensively, an open Privacy-Preserving Machine Learning Challenge took place at AdKDD'21, a premier workshop on Advertising Science with data provided by advertising company Criteo. In this paper, we describe the challenge tasks, the structure of the available datasets, report the challenge results, and enable its full reproducibility. A key finding is that learning models on large, aggregated data in the presence of a small set of unaggregated data points can be surprisingly efficient and cheap. We also run additional experiments to observe the sensitivity of winning methods to different parameters such as privacy budget or quantity of available privileged side information. We conclude that the industry needs either alternate designs for private data sharing or a breakthrough in learning with aggregated data only to keep ad relevance at a reasonable level.
翻訳日:2022-02-01 17:32:21 公開日:2022-01-31
# 確率的・敵対的MDPにおける協調的オンライン学習

Cooperative Online Learning in Stochastic and Adversarial MDPs ( http://arxiv.org/abs/2201.13170v1 )

ライセンス: Link先を確認
Tal Lancewicki and Aviv Rosenberg and Yishay Mansour(参考訳) 我々は,確率的および敵対的マルコフ決定過程(MDP)における協調的オンライン学習について検討した。 つまり、各エピソードで$m$エージェントが同時にMDPと対話し、個々の後悔を最小限に抑えるために情報を共有する。 emph{fresh} - それぞれのエージェントの軌道をサンプル化した場合、emph{non-fresh} -- すべてのエージェントによって実現が共有される(ただし、それぞれのエージェントの軌道は、そのアクションによっても影響を受ける)。 より正確には、非フレッシュランダム性では、各エピソードの開始時に全てのコストと遷移の実現が固定され、同時に同じ状態のエージェントが同じコストと次の状態を観察する。 関連するすべての設定を徹底的に分析し、モデル間の課題と相違点を強調し、ほぼ一致した後悔と上限を証明します。 我々の知る限り、我々は非フレッシュランダム性または敵対的MDPによる協調強化学習(RL)を初めて検討している。

We study cooperative online learning in stochastic and adversarial Markov decision process (MDP). That is, in each episode, $m$ agents interact with an MDP simultaneously and share information in order to minimize their individual regret. We consider environments with two types of randomness: \emph{fresh} -- where each agent's trajectory is sampled i.i.d, and \emph{non-fresh} -- where the realization is shared by all agents (but each agent's trajectory is also affected by its own actions). More precisely, with non-fresh randomness the realization of every cost and transition is fixed at the start of each episode, and agents that take the same action in the same state at the same time observe the same cost and next state. We thoroughly analyze all relevant settings, highlight the challenges and differences between the models, and prove nearly-matching regret lower and upper bounds. To our knowledge, we are the first to consider cooperative reinforcement learning (RL) with either non-fresh randomness or in adversarial MDPs.
翻訳日:2022-02-01 17:32:01 公開日:2022-01-31
# 遅延帯域フィードバックを持つ逆MDPのほぼ最適レグレット

Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback ( http://arxiv.org/abs/2201.13172v1 )

ライセンス: Link先を確認
Tiancheng Jin and Tal Lancewicki and Haipeng Luo and Yishay Mansour and Aviv Rosenberg(参考訳) 強化学習(RL)における標準的な前提は、エージェントが直ちに行動に対するフィードバックを観察することである。 しかし、実際には、フィードバックはしばしば遅延して観察される。 本稿では,未知の遷移を伴うマルコフ決定過程(mdp)におけるオンライン学習,非制限的バンディットフィードバックについて検討する。 より正確には、エピソード$k$のエージェントに対するフィードバックは、エピソード$k + d^k$の最後にのみ明らかにされる。 ここで、$k$ はエピソード数であり、$d = \sum_{k=1}^k d^k$ は総遅延であり、最もよく知られた後悔値 $(k + d)^{2/3}$ によって大幅に改善される。

The standard assumption in reinforcement learning (RL) is that agents observe feedback for their actions immediately. However, in practice feedback is often observed in delay. This paper studies online learning in episodic Markov decision process (MDP) with unknown transitions, adversarially changing costs, and unrestricted delayed bandit feedback. More precisely, the feedback for the agent in episode $k$ is revealed only in the end of episode $k + d^k$, where the delay $d^k$ can be changing over episodes and chosen by an oblivious adversary. We present the first algorithms that achieve near-optimal $\sqrt{K + D}$ regret, where $K$ is the number of episodes and $D = \sum_{k=1}^K d^k$ is the total delay, significantly improving upon the best known regret bound of $(K + D)^{2/3}$.
翻訳日:2022-02-01 17:31:41 公開日:2022-01-31
# 予測符号化による任意グラフトポロジの学習

Learning on Arbitrary Graph Topologies via Predictive Coding ( http://arxiv.org/abs/2201.13180v1 )

ライセンス: Link先を確認
Tommaso Salvatori, Luca Pinchetti, Beren Millidge, Yuhang Song, Rafal Bogacz, Thomas Lukasiewicz(参考訳) 標準的なディープラーニングにおけるバックプロパゲーション(BP)によるトレーニングは、データポイントをその予測にマッピングするフォワードパスと、この予測のエラーをネットワーク経由で伝播する後方パスの2つのステップで構成される。 このプロセスは、特定の目的関数を最小化するときに非常に効果的である。 しかし、循環的あるいは後方的接続を持つネットワーク上でのトレーニングは許可されていない。 これは脳のような能力に到達するための障害であり、新皮質の神経接続の非常に複雑な構造は、その効果に基本的な可能性がある。 本稿では,脳皮質における情報処理の理論である予測符号化(pc)が,任意のグラフトポロジ上での推論や学習にどのように役立つかを示す。 我々は,PCグラフと呼ばれるこの定式化が,特定のニューロンを刺激することで,同じネットワーク上で異なるタスクを柔軟に実行し,グラフのトポロジが最終的なパフォーマンスにどのように影響するかを実験的に示す。 結論として,訓練された単純なベースラインとbpとの比較を行った。

Training with backpropagation (BP) in standard deep learning consists of two main steps: a forward pass that maps a data point to its prediction, and a backward pass that propagates the error of this prediction back through the network. This process is highly effective when the goal is to minimize a specific objective function. However, it does not allow training on networks with cyclic or backward connections. This is an obstacle to reaching brain-like capabilities, as the highly complex heterarchical structure of the neural connections in the neocortex are potentially fundamental for its effectiveness. In this paper, we show how predictive coding (PC), a theory of information processing in the cortex, can be used to perform inference and learning on arbitrary graph topologies. We experimentally show how this formulation, called PC graphs, can be used to flexibly perform different tasks with the same network by simply stimulating specific neurons, and investigate how the topology of the graph influences the final performance. We conclude by comparing against simple baselines trained~with~BP.
翻訳日:2022-02-01 17:31:24 公開日:2022-01-31
# コンパクト性スコア:教師なし特徴選択のための高速フィルタ法

Compactness Score: A Fast Filter Method for Unsupervised Feature Selection ( http://arxiv.org/abs/2201.13194v1 )

ライセンス: Link先を確認
Peican Zhu, Xin Hou, Zhen Wang, Feiping Nie(参考訳) 特徴工学においては、特徴選択は、候補から優れた特徴を選択することが期待される重要な研究内容であると考えられる。 次元の縮小、モデル効果の改善、モデル性能の向上など、機能選択によって異なる機能を実現することができる。 情報時代の繁栄とともに、日々大量の高次元データが生成される一方で、そのようなデータをラベル付けるための多大な労力と時間を節約する必要がある。 そのため,教師なし特徴選択が大きな関心を集めているデータに対して,様々なアルゴリズムが提案されている。 多くの分類タスクにおいて、研究者は、同じクラスに属している場合、データが互いに近接しているように見えるので、局所的コンパクト性は特徴を評価する上で非常に重要であることを発見した。 本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。 効率と正確性を示すために、集中的な実験を行う複数のデータセットが選択される。 その後,クラスタリングタスクに対処し,提案手法の有効性と優位性を明らかにする。 ここで、パフォーマンスはいくつかのよく知られた評価指標で示され、効率は対応する実行時間によって反映される。 シミュレーション結果から明らかになったように,提案アルゴリズムは既存のアルゴリズムよりも正確かつ効率的であると考えられる。

For feature engineering, feature selection seems to be an important research content in which is anticipated to select "excellent" features from candidate ones. Different functions can be realized through feature selection, such as dimensionality reduction, model effect improvement, and model performance improvement. Along with the flourish of the information age, huge amounts of high-dimensional data are generated day by day, while we need to spare great efforts and time to label such data. Therefore, various algorithms are proposed to address such data, among which unsupervised feature selection has attracted tremendous interests. In many classification tasks, researchers found that data seem to be usually close to each other if they are from the same class; thus, local compactness is of great importance for the evaluation of a feature. In this manuscript, we propose a fast unsupervised feature selection method, named as, Compactness Score (CSUFS), to select desired features. To demonstrate the efficiency and accuracy, several data sets are chosen with intensive experiments being performed. Later, the effectiveness and superiority of our method are revealed through addressing clustering tasks. Here, the performance is indicated by several well-known evaluation metrics, while the efficiency is reflected by the corresponding running time. As revealed by the simulation results, our proposed algorithm seems to be more accurate and efficient compared with existing algorithms.
翻訳日:2022-02-01 17:31:05 公開日:2022-01-31
# 逆行トレーニングは非ロバスト機能によって操作できるのか?

Can Adversarial Training Be Manipulated By Non-Robust Features? ( http://arxiv.org/abs/2201.13329v1 )

ライセンス: Link先を確認
Lue Tao, Lei Feng, Hongxin Wei, Jinfeng Yi, Sheng-Jun Huang, Songcan Chen(参考訳) もともとテストタイムの敵の例に抵抗するために設計された対人訓練は、トレーニング時間アベイラビリティーアタックの緩和に有望であることが示されている。 しかし,本論文では,この防御能力に疑問を呈する。 我々は,トレーニングデータに多少の制約を加えることで,堅牢な可用性を妨げることを目的とした,安定性アタックという新たな脅威モデルを特定した。 この脅威下では、従来の防衛予算$\epsilon$を用いた敵の訓練は、トレーニングデータの非破壊的特徴が$\epsilon$-bounded 摂動によって強化された場合、単純な統計的条件でテストの堅牢性を提供するのに確実に失敗する。 さらに,安定攻撃に対する防衛予算の拡大の必要性も分析した。 最後に、包括的な実験により、ベンチマークデータセットでは安定性攻撃が有害であることを示し、堅牢性を維持するためには適応的防御が必要である。

Adversarial training, originally designed to resist test-time adversarial examples, has shown to be promising in mitigating training-time availability attacks. This defense ability, however, is challenged in this paper. We identify a novel threat model named stability attacks, which aims to hinder robust availability by slightly perturbing the training data. Under this threat, we find that adversarial training using a conventional defense budget $\epsilon$ provably fails to provide test robustness in a simple statistical setting when the non-robust features of the training data are reinforced by $\epsilon$-bounded perturbation. Further, we analyze the necessity of enlarging the defense budget to counter stability attacks. Finally, comprehensive experiments demonstrate that stability attacks are harmful on benchmark datasets, and thus the adaptive defense is necessary to maintain robustness.
翻訳日:2022-02-01 17:30:44 公開日:2022-01-31
# 非ニュートン流体熱力学問題に対する物理インフォームニューラルネットワーク : ゴムカレンダ法への応用

Physics-informed neural networks for non-Newtonian fluid thermo-mechanical problems: an application to rubber calendering process ( http://arxiv.org/abs/2201.13389v1 )

ライセンス: Link先を確認
Thi Nguyen Khoa Nguyen, Thibault Dairay, Rapha\"el Meunier, Mathilde Mougeot(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理法則をモデルに組み込む能力によって、様々な工学分野において注目を集めている。 しかし、機械分野と熱分野の結合に関する産業応用におけるピンの評価は現在も活発な研究課題である。 本研究では,ゴムカレンダ法においてよく考慮される非ニュートン流体熱力学問題に対するPINNの適用について述べる。 古典的数値離散化法では解けない逆問題や不正問題を扱う場合のPINNの有効性を実証する。 部分的なデータから隠れた物理的場を推定する問題において,センサの配置と教師なし点の分布がPINNの性能に及ぼす影響について検討した。 また,センサによる計測から未知の物理パラメータを識別するPINNの能力についても検討した。 この研究全体ではノイズ測定の効果も考慮されている。 この結果から, PINNはセンサの計測値のみを用いて未知のパラメータを推定できることがわかった。 センサの配置や教師なし点の分布がPINNの性能に大きく影響しているにもかかわらず, 境界条件が完全に定義されていない不適切な問題では, アルゴリズムが局所的な測定から隠れた物理を推測できることを示す。

Physics-Informed Neural Networks (PINNs) have gained much attention in various fields of engineering thanks to their capability of incorporating physical laws into the models. However, the assessment of PINNs in industrial applications involving coupling between mechanical and thermal fields is still an active research topic. In this work, we present an application of PINNs to a non-Newtonian fluid thermo-mechanical problem which is often considered in the rubber calendering process. We demonstrate the effectiveness of PINNs when dealing with inverse and ill-posed problems, which are impractical to be solved by classical numerical discretization methods. We study the impact of the placement of the sensors and the distribution of unsupervised points on the performance of PINNs in a problem of inferring hidden physical fields from some partial data. We also investigate the capability of PINNs to identify unknown physical parameters from the measurements captured by sensors. The effect of noisy measurements is also considered throughout this work. The results of this paper demonstrate that in the problem of identification, PINNs can successfully estimate the unknown parameters using only the measurements on the sensors. In ill-posed problems where boundary conditions are not completely defined, even though the placement of the sensors and the distribution of unsupervised points have a great impact on PINNs performance, we show that the algorithm is able to infer the hidden physics from local measurements.
翻訳日:2022-02-01 17:30:27 公開日:2022-01-31
# メタラーニングによるニューラルコラボレーティブフィルタリング帯域

Neural Collaborative Filtering Bandits via Meta Learning ( http://arxiv.org/abs/2201.13395v1 )

ライセンス: Link先を確認
{Yikun Ban, Yunzhe Qi, Tianxin Wei, Jingrui He(参考訳) 文脈的マルチアームのバンディットは、意思決定における搾取・展開のジレンマを解決する強力なツールを提供し、パーソナライズドレコメンデーションに直接的な応用を提供する。 実際、ユーザ間の協調効果は、推奨を改善する大きな可能性を秘めている。 本稿では, 報酬が非線形関数となり, 群が動的に形成される「ニューラルコラボレーティブ・フィルタリング・バンディット」を探索し, この問題を考察する。 この問題を解決するために,メタ学習に触発されたメタバン(メタバンド)を提案する。メタリーナーは,ucbベースの探索戦略とともに,動的グループを表現し,迅速に適応するように設計されている。 さらに、Meta-Ban が $\mathcal{O}(\sqrt{T \log T})$ の後悔境界を達成でき、最先端の関連作品に対して乗法係数 $\sqrt{\log T}$ を改善することができる。 最後に,メタバンが6つの強いベースラインを著しく上回ることを示す広範な実験を行った。

Contextual multi-armed bandits provide powerful tools to solve the exploitation-explora tion dilemma in decision making, with direct applications in the personalized recommendation. In fact, collaborative effects among users carry the significant potential to improve the recommendation. In this paper, we introduce and study the problem by exploring `Neural Collaborative Filtering Bandits', where the rewards can be non-linear functions and groups are formed dynamically given different specific contents. To solve this problem, inspired by meta-learning, we propose Meta-Ban (meta-bandits), where a meta-learner is designed to represent and rapidly adapt to dynamic groups, along with a UCB-based exploration strategy. Furthermore, we analyze that Meta-Ban can achieve the regret bound of $\mathcal{O}(\sqrt{T \log T})$, improving a multiplicative factor $\sqrt{\log T}$ over state-of-the-art related works. In the end, we conduct extensive experiments showing that Meta-Ban significantly outperforms six strong baselines.
翻訳日:2022-02-01 17:29:25 公開日:2022-01-31
# 自動特徴学習に基づく風力発電機の振動異常診断

Vibration Fault Diagnosis in Wind Turbines based on Automated Feature Learning ( http://arxiv.org/abs/2201.13403v1 )

ライセンス: Link先を確認
Angela Meyer(参考訳) 多数の風力タービンが振動測定システムを備えており、接近監視と発達する断層条件の早期検出を可能にしている。 振動測定は、コンポーネントの健全性を継続的に評価し、ダウンタイムの原因となる障害を防止するために分析される。 本研究はギアボックスモニタリングに焦点をあてるが,他のサブシステムにも適用できる。 現在の最先端のギアボックス故障診断アルゴリズムは、人間のアナリストが定義したフォールトシグネチャに基づいた統計的または機械学習手法に依存している。 これには複数の欠点がある。 人間のアナリストによるフォールトシグネチャの定義は、ギアボックスの構成に関する詳細な知識を必要とする時間集約的なプロセスである。 この取り組みは、新しいタービンごとに繰り返される必要があるため、特に急速に成長するポートフォリオにおいて、監視されたタービンの数が増えるほどスケールが良くない。 さらに、人間のアナリストが定義した障害シグネチャはバイアス付きかつ不正確な決定境界となり、不正確で不確実な障害診断決定につながる可能性がある。 これらの欠点を克服した振動監視型風車部品の高精度故障診断法を提案する。 提案手法は,畳み込みニューラルネットワークと孤立林に基づく障害シグネチャの自律的データ駆動学習と健康状態分類を組み合わせたものである。 2つの風車ギアボックスからの振動測定でその性能を実証する。 現状の手法とは異なり,本手法では歯車型特定診断の専門知識は必要とせず,事前に定義された周波数やスペクトル範囲に制限されず,同時に全スペクトルをモニタすることができる。

A growing number of wind turbines are equipped with vibration measurement systems to enable a close monitoring and early detection of developing fault conditions. The vibration measurements are analyzed to continuously assess the component health and prevent failures that can result in downtimes. This study focuses on gearbox monitoring but is applicable also to other subsystems. The current state-of-the-art gearbox fault diagnosis algorithms rely on statistical or machine learning methods based on fault signatures that have been defined by human analysts. This has multiple disadvantages. Defining the fault signatures by human analysts is a time-intensive process that requires highly detailed knowledge of the gearbox composition. This effort needs to be repeated for every new turbine, so it does not scale well with the increasing number of monitored turbines, especially in fast growing portfolios. Moreover, fault signatures defined by human analysts can result in biased and imprecise decision boundaries that lead to imprecise and uncertain fault diagnosis decisions. We present a novel accurate fault diagnosis method for vibration-monitored wind turbine components that overcomes these disadvantages. Our approach combines autonomous data-driven learning of fault signatures and health state classification based on convolutional neural networks and isolation forests. We demonstrate its performance with vibration measurements from two wind turbine gearboxes. Unlike the state-of-the-art methods, our approach does not require gearbox-type specific diagnosis expertise and is not restricted to predefined frequencies or spectral ranges but can monitor the full spectrum at once.
翻訳日:2022-02-01 17:29:03 公開日:2022-01-31
# (参考訳) POTATO: ExPlainable infOrmation exTrAcTion framewOrk [全文訳有]

POTATO: exPlainable infOrmation exTrAcTion framewOrk ( http://arxiv.org/abs/2201.13230v1 )

ライセンス: CC BY 4.0
\'Ad\'am Kov\'acs, Kinga G\'emes, Eszter Ikl\'odi, G\'abor Recski(参考訳) 本稿では,Human-in-the-loop(H ITL)学習のためのタスク依存および言語依存フレームワークPOTATOを提案する。 POTATOは任意の種類の有向グラフを処理し、テキストを抽象的意味表現(AMR)、普遍的依存(UD)、および4言語意味グラフにパースする。 streamlitベースのユーザーインターフェイスは、ユーザーがグラフパターンからルールシステムを構築し、グランド・真実データに基づくリアルタイム評価を提供し、解釈可能な機械学習モデルを使用してグラフの特徴をランク付けすることでルールを提案できる。 ユーザーは正規表現を使ってグラフ上のパターンも提供でき、POTATOはそのようなルールの洗練を推奨できる。 POTATOは、ドイツの法律文書やイギリスのソーシャルメディアデータに関する分類タスクを含む、ドメインや言語のプロジェクトに適用されている。 システムのすべてのコンポーネントはpythonで書かれており、pip経由でインストールでき、githubでmitライセンスでリリースされています。

We present POTATO, a task- and languageindependent framework for human-in-the-loop (HITL) learning of rule-based text classifiers using graph-based features. POTATO handles any type of directed graph and supports parsing text into Abstract Meaning Representations (AMR), Universal Dependencies (UD), and 4lang semantic graphs. A streamlit-based user interface allows users to build rule systems from graph patterns, provides real-time evaluation based on ground truth data, and suggests rules by ranking graph features using interpretable machine learning models. Users can also provide patterns over graphs using regular expressions, and POTATO can recommend refinements of such rules. POTATO is applied in projects across domains and languages, including classification tasks on German legal text and English social media data. All components of our system are written in Python, can be installed via pip, and are released under an MIT License on GitHub.
翻訳日:2022-02-01 17:25:49 公開日:2022-01-31
# バンディット問題の近似推論を伴う一般化ベイズ上限信頼度

Generalized Bayesian Upper Confidence Bound with Approximate Inference for Bandit Problems ( http://arxiv.org/abs/2201.12955v1 )

ライセンス: Link先を確認
Ziyi Huang, Henry Lam, Amirhossein Meisami, Haofeng Zhang(参考訳) 近似推論を持つベイジアン・バンディットアルゴリズムは、実際は優れた性能で広く用いられている。 しかし、そのパフォーマンスの基本的な理解に関する研究はほとんどない。 本稿では,近似推論の存在下でのバンディット問題に対して,一般化ベイジアン上信頼境界(gbucb)と呼ばれるベイジアンバンディットアルゴリズムを提案する。 理論解析により、ベルヌーイの多腕バンディットでは、対称kullback-leibler発散によって測定された推論誤差が制御可能である場合に、gbucbが$o(\sqrt{t}(\log t)^c)$ oftenist regretを達成することが示されている。 この分析は、推論誤差に関する量子シフトに対する新しい感度解析に依存している。 我々の知る限り、我々の研究は近似推論の設定において$o(T)$よりも良い最初の理論的後悔境界を提供する。 複数の近似推論設定に関する実験評価の結果,我々のgbucbはbucbとトンプソンサンプリングよりも優れていることが示された。

Bayesian bandit algorithms with approximate inference have been widely used in practice with superior performance. Yet, few studies regarding the fundamental understanding of their performances are available. In this paper, we propose a Bayesian bandit algorithm, which we call Generalized Bayesian Upper Confidence Bound (GBUCB), for bandit problems in the presence of approximate inference. Our theoretical analysis demonstrates that in Bernoulli multi-armed bandit, GBUCB can achieve $O(\sqrt{T}(\log T)^c)$ frequentist regret if the inference error measured by symmetrized Kullback-Leibler divergence is controllable. This analysis relies on a novel sensitivity analysis for quantile shifts with respect to inference errors. To our best knowledge, our work provides the first theoretical regret bound that is better than $o(T)$ in the setting of approximate inference. Our experimental evaluations on multiple approximate inference settings corroborate our theory, showing that our GBUCB is consistently superior to BUCB and Thompson sampling.
翻訳日:2022-02-01 17:09:57 公開日:2022-01-31
# 確率的注意機構による解釈可能・一般化グラフ学習

Interpretable and Generalizable Graph Learning via Stochastic Attention Mechanism ( http://arxiv.org/abs/2201.12987v1 )

ライセンス: Link先を確認
Siqi Miao, Miaoyuan Liu, Pan Li(参考訳) 解釈可能なグラフ学習は、グラフ構造化データから洞察を集めるための学習モデルに依存する多くの科学的応用を必要とする。 以前の研究は主に、トレーニング済みモデル(特にグラフニューラルネットワークモデル)の解釈にポストホックなアプローチを使うことに重点を置いていた。 彼らは、これらのモデルのよい解釈は、しばしば予測精度の犠牲になるため、本質的に解釈可能なモデルに反対している。 また、本質的解釈に広く使われる注意機構は、グラフ学習タスクにおいて忠実な解釈を提供しないことが多い。 本稿では,情報ボトルネック原理に基づく注意機構であるグラフ確率的注意(GSAT)を提案することにより,両課題に対処する。 GSATは確率的注意を利用してタスク関連グラフコンポーネントからの情報をブロックし、確率性に基づく注意を学習し、タスク関連部分グラフを選択して解釈する。 GSATは、確率的注意機構を通じて訓練済みモデルの微調整や解釈にも応用できる。 8つのデータセットの大規模な実験により、GSATはAUCの解釈で20%$\uparrow$、予測精度で5%$\uparrow$を上回ります。

Interpretable graph learning is in need as many scientific applications depend on learning models to collect insights from graph-structured data. Previous works mostly focused on using post-hoc approaches to interpret a pre-trained model (graph neural network models in particular). They argue against inherently interpretable models because good interpretation of these models is often at the cost of their prediction accuracy. And, the widely used attention mechanism for inherent interpretation often fails to provide faithful interpretation in graph learning tasks. In this work, we address both issues by proposing Graph Stochastic Attention (GSAT), an attention mechanism derived from the information bottleneck principle. GSAT leverages stochastic attention to block the information from the task-irrelevant graph components while learning stochasticity-reduce d attention to select the task-relevant subgraphs for interpretation. GSAT can also apply to fine-tuning and interpreting pre-trained models via stochastic attention mechanism. Extensive experiments on eight datasets show that GSAT outperforms the state-of-the-art methods by up to 20%$\uparrow$ in interpretation AUC and 5%$\uparrow$ in prediction accuracy.
翻訳日:2022-02-01 17:09:35 公開日:2022-01-31
# 誤った通信リンクを用いた連合学習

Federated Learning with Erroneous Communication Links ( http://arxiv.org/abs/2201.12991v1 )

ライセンス: Link先を確認
Mahyar Shirvanimoghaddam, Yifeng Gao, Aradhika Guha, Ayoob Salari(参考訳) 本稿では,コミュニケーションエラーの存在下でのフェデレーション学習(FL)問題について考察する。 デバイスと中央ノード(CN)のリンクをパケット消去チャネルでモデル化し、デバイスからのローカルパラメータをそれぞれe$と1-e$の確率でCNによって消去または正しく受信する。 通信エラーが存在する場合のFLアルゴリズムの収束を数学的に証明し、CNは一部のデバイスから更新を受け取らない場合に、過去のローカル更新を使用する。 我々は,過去のローカル更新を用いて,FLアルゴリズムが通信エラーの存在下で収束できることをシミュレーションにより示す。 また、データセットがデバイス間で均一に分散されている場合、更新のみを使用するFLアルゴリズムが、過去のローカル更新を使用するFLアルゴリズムよりも早く収束する可能性があることを示す。

In this paper, we consider the federated learning (FL) problem in the presence of communication errors. We model the link between the devices and the central node (CN) by a packet erasure channel, where the local parameters from devices are either erased or received correctly by CN with probability $e$ and $1-e$, respectively. We provide mathematical proof for the convergence of the FL algorithm in the presence of communication errors, where the CN uses past local updates when the fresh updates are not received from some devices. We show via simulations that by using the past local updates, the FL algorithm can converge in the presence of communication errors. We also show that when the dataset is uniformly distributed among devices, the FL algorithm that only uses fresh updates and discards missing updates might converge faster than the FL algorithm that uses past local updates.
翻訳日:2022-02-01 17:09:15 公開日:2022-01-31
# (参考訳) 座標勾配降下を用いたロバスト教師付き学習

Robust supervised learning with coordinate gradient descent ( http://arxiv.org/abs/2201.13372v1 )

ライセンス: CC BY 4.0
St\'ephane Ga\"iffas and Ibrahim Merad(参考訳) 本稿では,重み付きデータや重み付き行のいずれにおいても特徴とラベルを損なうことができるような線形手法による教師あり学習の問題について考察する。 偏微分のロバストな推定器を併用した学習アルゴリズムとして座標勾配降下法を提案する。 これにより、経験的リスク最小化に基づく非ロバスト学習とほぼ同一の数値的複雑性を持つ頑健な統計学習手法が導かれる。 勾配降下を伴うロバスト学習は、すべてのパラメータを更新するために勾配全体をロバストに推定する計算コストを必要とするが、座標勾配降下において単一の部分微分のロバスト推定子を使用してパラメータを即座に更新することができる。 このアイデアから導かれるアルゴリズムの一般化誤差の上限を証明し、リスクの強い凸性仮定を伴わずに最適化と統計的誤差の両方を制御する。 最後に,linlearnと呼ばれる新しいpythonライブラリにおいて,この手法の効率的な実装を提案し,本手法がロバスト性,統計性能,数値効率の新たな妥協をもたらすことを示す。

This paper considers the problem of supervised learning with linear methods when both features and labels can be corrupted, either in the form of heavy tailed data and/or corrupted rows. We introduce a combination of coordinate gradient descent as a learning algorithm together with robust estimators of the partial derivatives. This leads to robust statistical learning methods that have a numerical complexity nearly identical to non-robust ones based on empirical risk minimization. The main idea is simple: while robust learning with gradient descent requires the computational cost of robustly estimating the whole gradient to update all parameters, a parameter can be updated immediately using a robust estimator of a single partial derivative in coordinate gradient descent. We prove upper bounds on the generalization error of the algorithms derived from this idea, that control both the optimization and statistical errors with and without a strong convexity assumption of the risk. Finally, we propose an efficient implementation of this approach in a new python library called linlearn, and demonstrate through extensive numerical experiments that our approach introduces a new interesting compromise between robustness, statistical performance and numerical efficiency for this problem.
翻訳日:2022-02-01 17:08:13 公開日:2022-01-31
# 画像キャプションにおけるディープラーニングのアプローチ

Deep Learning Approaches on Image Captioning: A Review ( http://arxiv.org/abs/2201.12944v1 )

ライセンス: Link先を確認
Taraneh Ghandi and Hamidreza Pourreza and Hamidreza Mahyar(参考訳) 画像の内容を記述することを含む自動画像キャプションは、様々な研究分野における多くの応用において難しい問題である。 注目すべき例は、視覚障害者のためのアシスタントの設計である。 近年,ディープラーニングのブレークスルーにより,画像キャプション手法が大幅に進歩している。 本稿では,最近の画像キャプション手法の構造化と,その性能について,深層学習手法を中心に検討する。 また,画像キャプションにおけるオープン問題や未解決課題の議論に加えて,広く使用されているデータセットやパフォーマンス指標についても検討した。

Automatic image captioning, which involves describing the contents of an image, is a challenging problem with many applications in various research fields. One notable example is designing assistants for the visually impaired. Recently, there have been significant advances in image captioning methods owing to the breakthroughs in deep learning. This survey paper aims to provide a structured review of recent image captioning techniques, and their performance, focusing mainly on deep learning methods. We also review widely-used datasets and performance metrics, in addition to the discussions on open problems and unsolved challenges in image captioning.
翻訳日:2022-02-01 17:01:30 公開日:2022-01-31
# ニューラルネットワークにおけるフィルタリング

Filtering In Implicit Neural Networks ( http://arxiv.org/abs/2201.13013v1 )

ライセンス: Link先を確認
Yixin Zhuang(参考訳) 入射ニューラルネットワーク(INN)は、データ表現の学習に非常に効果的である。 しかし、ほとんどのIGNは、データが多くの詳細または広範囲の周波数を持つ場合、必然的に過剰なスムースなパッチや明らかなノイズのある成果物を生成し、性能が大幅に低下する。 ノイズと過密領域の両方を含む結果に適応することは、通常、スムーズな問題またはノイズの多い問題に悩まされる。 この課題を克服するために、我々は、人工物をフィルタリングしながらデータフィッティングを行うために、 \emph{filtering} モジュールを \emph{implicit Neural Network} に統合した新しいフレームワーク FINN を提案する。 フィルタリングモジュールは、ネットワークの中間結果に作用する滑らかな演算子と、入力から異なる詳細を過度に滑らか化した領域に戻す回復演算子とを有する。 提案手法は, 平滑化や騒音問題を著しく軽減する。 実画像と合成画像の両方を考慮した画像回帰作業におけるFINNの利点を実証し,最新手法と比較して定量的および定性的な結果に有意な改善が認められた。 さらに、FINNは収束速度とネットワーク安定性の両方で性能が向上する。 ソースコードはhttps://github.com/y ixin26/finn。

Implicit neural networks (INNs) are very effective for learning data representation. However, most INNs inevitably generate over-smoothed patches or obvious noisy artifacts in the results when the data has many scales of details or a wide range of frequencies, leading to significant performance reduction. Adapting the result containing both noise and over-smoothed regions usually suffers from either over smoothing or noisy issues. To overcome this challenge, we propose a new framework, coined FINN, that integrated a \emph{filtering} module to the \emph{implicit neural network} to perform data fitting while filtering artifacts. The filtering module has a smoothing operator that acts on the intermediate results of the network and a recovering operator that brings distinct details from the input back to the regions overly smoothed. The proposed method significantly alleviates over smoothing or noisy issues. We demonstrate the advantage of the FINN on the image regression task, considering both real and synthetic images, and showcases significant improvement on both quantitative and qualitative results compared to state-of-the-art methods. Moreover, FINN yields better performance in both convergence speed and network stability. Source code is available at https://github.com/y ixin26/FINN.
翻訳日:2022-02-01 17:01:22 公開日:2022-01-31
# 深部情報ネットワークを用いた3次元PET-CT画像からのリンパ腫分離

Lymphoma segmentation from 3D PET-CT images using a deep evidential network ( http://arxiv.org/abs/2201.13078v1 )

ライセンス: Link先を確認
Ling Huang, Su Ruan, Pierre Decazes, Thierry Denoeux(参考訳) dempster-shafer理論と深層学習に基づく3次元ポジトロンエミッショントモグラフィ(pet)とct画像からリンパ腫を分離する自動観察法を提案する。 アーキテクチャは、深い特徴抽出モジュールと明らかな層から構成される。 特徴抽出モジュールは、エンコーダ-デコーダフレームワークを使用して、3D入力から意味的特徴ベクトルを抽出する。 証拠層は、機能空間のプロトタイプを使用して、この場所におけるリンパ腫の有無に関する不確かさを定量化する各ボクセルの信念関数を計算する。 質量関数を計算するためのプロトタイプとの距離の異なる方法に基づいて、2つの立証層を比較する。 モデル全体のトレーニングは、Dice損失関数を最小化することで行われる。 提案したディープ特徴抽出と顕在的セグメンテーションの組み合わせは、173名の患者のデータセット上で、ベースラインのUNetモデルと他の3つの最先端モデルより優れていることを示す。

An automatic evidential segmentation method based on Dempster-Shafer theory and deep learning is proposed to segment lymphomas from three-dimensional Positron Emission Tomography (PET) and Computed Tomography (CT) images. The architecture is composed of a deep feature-extraction module and an evidential layer. The feature extraction module uses an encoder-decoder framework to extract semantic feature vectors from 3D inputs. The evidential layer then uses prototypes in the feature space to compute a belief function at each voxel quantifying the uncertainty about the presence or absence of a lymphoma at this location. Two evidential layers are compared, based on different ways of using distances to prototypes for computing mass functions. The whole model is trained end-to-end by minimizing the Dice loss function. The proposed combination of deep feature extraction and evidential segmentation is shown to outperform the baseline UNet model as well as three other state-of-the-art models on a dataset of 173 patients.
翻訳日:2022-02-01 17:00:57 公開日:2022-01-31
# マルチタスク脳年齢予測を用いた深層学習を用いた3次元脳MRIにおける教師なし異常検出

Unsupervised Anomaly Detection in 3D Brain MRI using Deep Learning with Multi-Task Brain Age Prediction ( http://arxiv.org/abs/2201.13081v1 )

ライセンス: Link先を確認
Marcel Bengs, Finn Behrendt, Max-Heinrich Laves, Julia Kr\"uger, Roland Opfer, Alexander Schlaefer(参考訳) 脳磁気共鳴画像(MRI)の病変検出は依然として難しい課題である。 MRIは通常、退屈で時間を要するプロセスであるドメインの専門家によって読み書きされる。 近年、ディープラーニングを用いた脳MRIにおける教師なし異常検出(UAD)は、早期の初期評価に有望な結果を示している。 これまでのところ、これらの手法は正常な脳解剖の視覚的外観にのみ依存している。 異常脳発生の別のバイオマーカーは、UADと組み合わせて探索されていない脳年齢と時間年齢のずれである。 年齢情報を考慮した3次元脳MRIの深層学習を提案する。 学習中の年齢情報の価値を付加的異常スコアとして分析し,いくつかのアーキテクチャ概念を体系的に研究した。 そこで本研究では,多タスク年齢予測を用いた新しい深層学習手法を提案する。 健常者1735例のT1強調MRIと,BraTs 2019データセットを用いて検討した。 AUCの92.60%でUAD性能を著しく向上させるのに対し、AUCの84.37%は年齢情報のないアプローチで改善する。

Lesion detection in brain Magnetic Resonance Images (MRIs) remains a challenging task. MRIs are typically read and interpreted by domain experts, which is a tedious and time-consuming process. Recently, unsupervised anomaly detection (UAD) in brain MRI with deep learning has shown promising results to provide a quick, initial assessment. So far, these methods only rely on the visual appearance of healthy brain anatomy for anomaly detection. Another biomarker for abnormal brain development is the deviation between the brain age and the chronological age, which is unexplored in combination with UAD. We propose deep learning for UAD in 3D brain MRI considering additional age information. We analyze the value of age information during training, as an additional anomaly score, and systematically study several architecture concepts. Based on our analysis, we propose a novel deep learning approach for UAD with multi-task age prediction. We use clinical T1-weighted MRIs of 1735 healthy subjects and the publicly available BraTs 2019 data set for our study. Our novel approach significantly improves UAD performance with an AUC of 92.60% compared to an AUC-score of 84.37% using previous approaches without age information.
翻訳日:2022-02-01 17:00:40 公開日:2022-01-31
# 群衆による顔操作検出:人間検査員の判断を偽装

Crowd-powered Face Manipulation Detection: Fusing Human Examiner Decisions ( http://arxiv.org/abs/2201.13084v1 )

ライセンス: Link先を確認
Christian Rathgeb, Robert Nichols, Mathias Ibsen, Pawel Drozdowski, Christoph Busch(参考訳) 顔のデジタル操作検出タスクにおいて,人間の検査員の判断を活用できる可能性について検討する。 この目的のために, 被験者の意思決定信頼度, 経験レベル, 意思決定に要する時間を取り入れた様々な意思決定融合手法を提案する。 実験は、顔の変形、顔の交換、再タッチなど、異なる操作技術が適用された人間の顔画像操作検出能力の心理物理学的評価に基づいている。 223人の被験者の決定は、最大7人の被験者の群衆をシミュレートするために融合された。 実験結果から,(1) 一人の被験者による適度な検出性能にもかかわらず, 判定融合により高い精度が得られること, (2) 判定信頼度を考慮に入れた重み付き融合により, 最も競争力のある検出性能が得られることがわかった。

We investigate the potential of fusing human examiner decisions for the task of digital face manipulation detection. To this end, various decision fusion methods are proposed incorporating the examiners' decision confidence, experience level, and their time to take a decision. Conducted experiments are based on a psychophysical evaluation of digital face image manipulation detection capabilities of humans in which different manipulation techniques were applied, i.e. face morphing, face swapping and retouching. The decisions of 223 participants were fused to simulate crowds of up to seven human examiners. Experimental results reveal that (1) despite the moderate detection performance achieved by single human examiners, a high accuracy can be obtained through decision fusion and (2) a weighted fusion which takes the examiners' decision confidence into account yields the most competitive detection performance.
翻訳日:2022-02-01 17:00:19 公開日:2022-01-31
# 深層ニューラルネットワークに対する非受容・マルチチャネルバックドアアタック

Imperceptible and Multi-channel Backdoor Attack against Deep Neural Networks ( http://arxiv.org/abs/2201.13164v1 )

ライセンス: Link先を確認
Mingfu Xue, Shifeng Ni, Yinghao Wu, Yushu Zhang, Jian Wang, Weiqiang Liu(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)モデルがバックドア攻撃に弱いことが示されている。 バックドアのDNNモデルは、バックドアトリガーを含むイメージが到着すると悪意ある振る舞いをする。 現在まで、既存のバックドア攻撃はシングルトリガー攻撃とシングルターゲット攻撃であり、既存のバックドア攻撃のトリガーは明らかであり、検出や検出が容易である。 本稿では,離散コサイン変換(DCT)ステガノグラフィーを用いて,ニューラルネットに対する新たな非受容・マルチチャネルバックドア攻撃を提案する。 提案手法に基づいて,N-to-Nバックドア攻撃とN-to-Oneバックドア攻撃という2種類のバックドア攻撃を実装した。 具体的には、カラー画像に対して、DCTステガノグラフィーを用いて、画像の異なるチャネルにトリガを構築する。 その結果、トリガーはステルスで自然なものになった。 提案手法に基づいて,マルチターゲットおよびマルチトリガーバックドア攻撃を実装した。 実験の結果、N-to-Nバックドア攻撃の平均攻撃成功率は、CIFAR-10データセットで93.95%、TinyImageNetデータセットで91.55%であった。 N対1攻撃の平均攻撃成功率は、CIFAR-10とTinyImageNetデータセットでそれぞれ90.22%と89.53%である。 一方,提案するバックドア攻撃は,dnnモデルの分類精度に影響を与えない。 さらに,提案した攻撃は,最先端のバックドア防御(ニューラルクリーンス)に対して堅牢であることを示す。

Recent researches demonstrate that Deep Neural Networks (DNN) models are vulnerable to backdoor attacks. The backdoored DNN model will behave maliciously when images containing backdoor triggers arrive. To date, existing backdoor attacks are single-trigger and single-target attacks, and the triggers of most existing backdoor attacks are obvious thus are easy to be detected or noticed. In this paper, we propose a novel imperceptible and multi-channel backdoor attack against Deep Neural Networks by exploiting Discrete Cosine Transform (DCT) steganography. Based on the proposed backdoor attack method, we implement two variants of backdoor attacks, i.e., N-to-N backdoor attack and N-to-One backdoor attack. Specifically, for a colored image, we utilize DCT steganography to construct the trigger on different channels of the image. As a result, the trigger is stealthy and natural. Based on the proposed method, we implement multi-target and multi-trigger backdoor attacks. Experimental results demonstrate that the average attack success rate of the N-to-N backdoor attack is 93.95% on CIFAR-10 dataset and 91.55% on TinyImageNet dataset, respectively. The average attack success rate of N-to-One attack is 90.22% and 89.53% on CIFAR-10 and TinyImageNet datasets, respectively. Meanwhile, the proposed backdoor attack does not affect the classification accuracy of the DNN model. Moreover, the proposed attack is demonstrated to be robust to the state-of-the-art backdoor defense (Neural Cleanse).
翻訳日:2022-02-01 17:00:01 公開日:2022-01-31
# 画像検索のためのスーパー機能学習

Learning Super-Features for Image Retrieval ( http://arxiv.org/abs/2201.13182v1 )

ライセンス: Link先を確認
Philippe Weinzaepfel, Thomas Lucas, Diane Larlus, Yannis Kalantidis(参考訳) ローカル機能とグローバル機能を組み合わせる手法は、最近、複数の挑戦的なディープイメージ検索ベンチマークで優れたパフォーマンスを示しているが、ローカル機能の使用は少なくとも2つの問題を提起している。 まず、これらのローカル機能は単にニューラルネットワークのローカライズされたマップアクティベーションに分解され、非常に冗長になる。 対照的に、テストは局所的な機能マッチングに基づいているため、トレーニングとテストの相違が生じます。 本稿では,我々がSuper-Featuresと呼ぶ中級機能のみに基づく,深層画像検索のための新しいアーキテクチャを提案する。 これらのスーパーフィーチャーは反復注目モジュールによって構成され、各要素が局所的で識別可能な画像パターンにフォーカスする順序セットを構成する。 トレーニングにはイメージラベルのみが必要となる。 対照的な損失は、スーパーフィーチャーのレベルで直接動作し、画像に一致するものに焦点を当てる。 第2の相補的な損失は多様性を促進する。 一般的なランドマーク検索ベンチマークの実験では、Super-featuresは同じ数の機能を使用する場合、最先端のメソッドよりも大幅に優れており、パフォーマンスに合わせたメモリフットプリントがかなり必要である。 コードとモデルは以下の通りである。

Methods that combine local and global features have recently shown excellent performance on multiple challenging deep image retrieval benchmarks, but their use of local features raises at least two issues. First, these local features simply boil down to the localized map activations of a neural network, and hence can be extremely redundant. Second, they are typically trained with a global loss that only acts on top of an aggregation of local features; by contrast, testing is based on local feature matching, which creates a discrepancy between training and testing. In this paper, we propose a novel architecture for deep image retrieval, based solely on mid-level features that we call Super-features. These Super-features are constructed by an iterative attention module and constitute an ordered set in which each element focuses on a localized and discriminant image pattern. For training, they require only image labels. A contrastive loss operates directly at the level of Super-features and focuses on those that match across images. A second complementary loss encourages diversity. Experiments on common landmark retrieval benchmarks validate that Super-features substantially outperform state-of-the-art methods when using the same number of features, and only require a significantly smaller memory footprint to match their performance. Code and models are available at: https://github.com/n aver/FIRe.
翻訳日:2022-02-01 16:59:38 公開日:2022-01-31
# 類似物体の高精度追跡のための局所的および大域的ポーズ推定

Combining Local and Global Pose Estimation for Precise Tracking of Similar Objects ( http://arxiv.org/abs/2201.13278v1 )

ライセンス: Link先を確認
Niklas Gard, Anna Hilsmann, Peter Eisert(参考訳) 本稿では,類似した非テキストオブジェクトに対するマルチオブジェクト6d検出と追跡パイプラインを提案する。 畳み込みニューラルネットワークによるオブジェクト分類と粗いポーズ推定と、局所的なポーズ補正と自動ミスマッチ検出の組み合わせは、リアルタイムarシナリオで直接適用することができる。 合成画像のみをトレーニングした新しいネットワークアーキテクチャでは、GPUメモリ使用量の削減とパフォーマンスの向上により、複数のオブジェクトの同時ポーズ推定が可能になる。 さらに、既知のオブジェクト幾何情報を明示的に活用するローカルエッジベースのリファインメントステップによって、ポーズ推定がさらに改善される。 連続運動において、局所的な精細化の唯一の使用は、幾何学的曖昧さや閉塞によるポーズミスマッチを減少させる。 トラッキングパイプライン全体を紹介し、組み合わせたアプローチのメリットを示します。 非テクスチャ類似オブジェクトの挑戦的なセットの実験は、ベースライン法と比較して品質が向上したことを示している。 最後に,建設現場における実際のAR支援アプリケーションにおいて,システムがどのように利用できるかを説明する。

In this paper, we present a multi-object 6D detection and tracking pipeline for potentially similar and non-textured objects. The combination of a convolutional neural network for object classification and rough pose estimation with a local pose refinement and an automatic mismatch detection enables direct application in real-time AR scenarios. A new network architecture, trained solely with synthetic images, allows simultaneous pose estimation of multiple objects with reduced GPU memory consumption and enhanced performance. In addition, the pose estimates are further improved by a local edge-based refinement step that explicitly exploits known object geometry information. For continuous movements, the sole use of local refinement reduces pose mismatches due to geometric ambiguities or occlusions. We showcase the entire tracking pipeline and demonstrate the benefits of the combined approach. Experiments on a challenging set of non-textured similar objects demonstrate the enhanced quality compared to the baseline method. Finally, we illustrate how the system can be used in a real AR assistance application within the field of construction.
翻訳日:2022-02-01 16:58:33 公開日:2022-01-31
# UQGAN:条件付きGANを用いた深部分類器の不確かさの統一モデル

UQGAN: A Unified Model for Uncertainty Quantification of Deep Classifiers trained via Conditional GANs ( http://arxiv.org/abs/2201.13279v1 )

ライセンス: Link先を確認
Philipp Oberdiek, Gernot A. Fink, Matthias Rottmann(参考訳) 本稿では,画像分類における深層ニューラルネットワークの不確かさを,gans(generative adversarial networks)に基づいて定量化する手法を提案する。 GANを用いたオフ・オブ・ディストリビューション(OoD)の例を生成する文献の多くは、OoD検出の評価のみに焦点を当てているが、我々は、OoD例と偽陽性(FPs)について適切な不確実性を示す分類器を学習するためのGANベースのアプローチを提案する。 GAN 生成した OoD の例を最新技術として,各クラスを条件付き GAN が生成したクラス外例で分離して保護し,これを 1-vs-all 画像分類器で補完する。 実験では,特にCIFAR10において,最先端のGAN学習に基づく分類器のOoD検出とFP検出性能を改善した。 さらに, 生成したganサンプルは, 分類器の校正誤差に大きな影響を与えず, モデル精度が著しく向上することを確認した。

We present an approach to quantifying both aleatoric and epistemic uncertainty for deep neural networks in image classification, based on generative adversarial networks (GANs). While most works in the literature that use GANs to generate out-of-distribution (OoD) examples only focus on the evaluation of OoD detection, we present a GAN based approach to learn a classifier that exhibits proper uncertainties for OoD examples as well as for false positives (FPs). Instead of shielding the entire in-distribution data with GAN generated OoD examples which is state-of-the-art, we shield each class separately with out-of-class examples generated by a conditional GAN and complement this with a one-vs-all image classifier. In our experiments, in particular on CIFAR10, we improve over the OoD detection and FP detection performance of state-of-the-art GAN-training based classifiers. Furthermore, we also find that the generated GAN examples do not significantly affect the calibration error of our classifier and result in a significant gain in model accuracy.
翻訳日:2022-02-01 16:58:20 公開日:2022-01-31
# インクリメンタルおよび弱スーパービジョンセマンティックセマンティックセグメンテーションの背景モデリング

Modeling the Background for Incremental and Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2201.13338v1 )

ライセンス: Link先を確認
Fabio Cermelli, Massimiliano Mancini, Samuel Rota Bul\'o, Elisa Ricci, Barbara Caputo(参考訳) ディープニューラルネットワークはセマンティックセグメンテーションの大きな進歩を可能にした。 しかし、最も先進的なニューラルアーキテクチャでさえも、重要な制限に苦しむ。 第一に、それらは破滅的な忘れ方に弱い、すなわち新しいクラスが利用可能になったときにモデルを漸進的に更新する必要があるときに、パフォーマンスが悪くなる。 第二に、正確なセグメンテーションマップを作成するために、大量のピクセルレベルのアノテーションに依存している。 これらの課題に対処するために,各学習ステップがすべての可能なクラスのサブセットにのみアノテーションを提供するので,背景クラスのピクセルは意味的シフトを示す。 そこで我々は,背景シフトを明示的に考慮した新しい損失項を設計することで,従来の蒸留パラダイムを再考する。 さらに,背景クラスに対するバイアス予測を防止するために,各ステップで分類器のパラメータを初期化する新しい戦略を導入する。 最後に,本手法を点線およびスクリブルに基づく弱教師付きセグメンテーションに拡張し,部分アノテーションをモデル化し,ラベルなし画素の事前生成を行うことを示した。 本研究では,Pascal-VOC,ADE20K,C ityscapesのデータセットを広範囲に評価することにより,提案手法の有効性を実証する。

Deep neural networks have enabled major progresses in semantic segmentation. However, even the most advanced neural architectures suffer from important limitations. First, they are vulnerable to catastrophic forgetting, i.e. they perform poorly when they are required to incrementally update their model as new classes are available. Second, they rely on large amount of pixel-level annotations to produce accurate segmentation maps. To tackle these issues, we introduce a novel incremental class learning approach for semantic segmentation taking into account a peculiar aspect of this task: since each training step provides annotation only for a subset of all possible classes, pixels of the background class exhibit a semantic shift. Therefore, we revisit the traditional distillation paradigm by designing novel loss terms which explicitly account for the background shift. Additionally, we introduce a novel strategy to initialize classifier's parameters at each step in order to prevent biased predictions toward the background class. Finally, we demonstrate that our approach can be extended to point- and scribble-based weakly supervised segmentation, modeling the partial annotations to create priors for unlabeled pixels. We demonstrate the effectiveness of our approach with an extensive evaluation on the Pascal-VOC, ADE20K, and Cityscapes datasets, significantly outperforming state-of-the-art methods.
翻訳日:2022-02-01 16:57:58 公開日:2022-01-31
# MHSnet:False-Positiv e Reductionによる肺結節検出のためのマルチヘッド・空間アテンションネットワーク

MHSnet: Multi-head and Spatial Attention Network with False-Positive Reduction for Pulmonary Nodules Detection ( http://arxiv.org/abs/2201.13392v1 )

ライセンス: Link先を確認
Juanyun Mai, Minghao Wang, Jiayin Zheng, Yanbo Shao, Zhaoqi Diao, Xinliang Fu, Yulong Chen, Jianyu Xiao, Jian You, Airu Yin, Yang Yang, Xiangcheng Qiu, Jingsheng Tao, Bo Wang, Hua Ji(参考訳) 肺癌の死亡率は長年癌の中で高く評価されてきた。 肺癌の早期発見は、疾患の予防、治療、死亡率の低下に重要である。 しかし, 既存の肺結節検出法では, 高感度を実現するために偽陽性候補が多すぎるため, 臨床状況では実用的ではない。 本稿では,肺がんの早期診断を支援するために,肺結節を検出するマルチヘッド検出・空間絞り・アテンションネットワーク(mhsnet)を提案する。 具体的には、まずマルチヘッド検出器と接続をスキップし、様々な大きさ、形状、型をカスタマイズし、マルチスケールの特徴を捉える。 そこで我々は,経験豊富な臨床医がCT画像の表示方法に着想を得て,ネットワークが異なる領域に集中できるように,空間的注意モジュールを実装した。 最後に, 線形回帰モデルを用いて, 最前線ネットワークに制約を伴わずに, 偽陽性提案数を削減できる軽量かつ効果的な偽陽性削減モジュールを提案する。 最先端モデルと比較した広範な実験結果では、平均froc、感度、特に偽発見率(平均frocと感度の点で2.98%と2.18%改善、5.62%と28.33%が偽発見率とスキャン当たりの候補数で低下)においてmhsnetが優れていることが示された。 偽陽性減算モジュールは、スキャン毎の平均候補数を68.11%減少させ、偽発見率を13.48%減少させる。

The mortality of lung cancer has ranked high among cancers for many years. Early detection of lung cancer is critical for disease prevention, cure, and mortality rate reduction. However, existing detection methods on pulmonary nodules introduce an excessive number of false positive proposals in order to achieve high sensitivity, which is not practical in clinical situations. In this paper, we propose the multi-head detection and spatial squeeze-and-attentio n network, MHSnet, to detect pulmonary nodules, in order to aid doctors in the early diagnosis of lung cancers. Specifically, we first introduce multi-head detectors and skip connections to customize for the variety of nodules in sizes, shapes and types and capture multi-scale features. Then, we implement a spatial attention module to enable the network to focus on different regions differently inspired by how experienced clinicians screen CT images, which results in fewer false positive proposals. Lastly, we present a lightweight but effective false positive reduction module with the Linear Regression model to cut down the number of false positive proposals, without any constraints on the front network. Extensive experimental results compared with the state-of-the-art models have shown the superiority of the MHSnet in terms of the average FROC, sensitivity and especially false discovery rate (2.98% and 2.18% improvement in terms of average FROC and sensitivity, 5.62% and 28.33% decrease in terms of false discovery rate and average candidates per scan). The false positive reduction module significantly decreases the average number of candidates generated per scan by 68.11% and the false discovery rate by 13.48%, which is promising to reduce distracted proposals for the downstream tasks based on the detection results.
翻訳日:2022-02-01 16:57:36 公開日:2022-01-31
# 3回目は魅力か? StyleGAN3による画像とビデオ編集

Third Time's the Charm? Image and Video Editing with StyleGAN3 ( http://arxiv.org/abs/2201.13433v1 )

ライセンス: Link先を確認
Yuval Alaluf, Or Patashnik, Zongze Wu, Asif Zamir, Eli Shechtman, Dani Lischinski, Daniel Cohen-Or(参考訳) StyleGANは間違いなく最も興味深く、よく研究された生成モデルの一つであり、画像生成、反転、操作において素晴らしいパフォーマンスを示している。 本稿では,最近のstylegan3アーキテクチャについて検討し,その先行アーキテクチャと比較し,そのユニークな利点と欠点について考察する。 特に、StyleGAN3は非整列データでトレーニングできるが、非整列画像を生成するのを妨げることなく、整列データをトレーニングに使用できることを示す。 次に、StyleGAN3の異なる潜伏空間のアンタングルを解析した結果、一般的に使われているW/W+空間はStyleGAN2空間よりも絡み合いが強く、より微細な編集にStyleSpaceを使うことの利点が強調された。 画像の逆転を考慮すると、既存のエンコーダベースの手法は、非整合データでトレーニングするときに苦労する。 そこで我々は、アライメントされたデータのみに基づいて訓練された符号化方式を提案する。 最後に、微調整されたStyleGAN3ジェネレータの機能を活用して、テクスチャの貼付を減らし、編集ビデオの視野を広げる新しいビデオインバージョンと編集ワークフローを提案する。

StyleGAN is arguably one of the most intriguing and well-studied generative models, demonstrating impressive performance in image generation, inversion, and manipulation. In this work, we explore the recent StyleGAN3 architecture, compare it to its predecessor, and investigate its unique advantages, as well as drawbacks. In particular, we demonstrate that while StyleGAN3 can be trained on unaligned data, one can still use aligned data for training, without hindering the ability to generate unaligned imagery. Next, our analysis of the disentanglement of the different latent spaces of StyleGAN3 indicates that the commonly used W/W+ spaces are more entangled than their StyleGAN2 counterparts, underscoring the benefits of using the StyleSpace for fine-grained editing. Considering image inversion, we observe that existing encoder-based techniques struggle when trained on unaligned data. We therefore propose an encoding scheme trained solely on aligned data, yet can still invert unaligned images. Finally, we introduce a novel video inversion and editing workflow that leverages the capabilities of a fine-tuned StyleGAN3 generator to reduce texture sticking and expand the field of view of the edited video.
翻訳日:2022-02-01 16:57:06 公開日:2022-01-31
# (参考訳) アウトラインベース生成による言語間対話データセット作成 [全文訳有]

Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation ( http://arxiv.org/abs/2201.13405v1 )

ライセンス: CC BY 4.0
Olga Majewska, Evgeniia Razumovskaia, Edoardo Maria Ponti, Ivan Vuli\'c, Anna Korhonen(参考訳) 多言語タスク指向対話(tod)は、多くの(コミュニティの)話者のサービスや情報へのアクセスを促進する。 しかしながら、モジュール化とエンドツーエンドモデリングの両方において、現在の多言語ToDのデータセットは厳しい制限に悩まされているため、この技術の可能性は完全には実現されていない。 1)スクラッチから生成された場合、通常は小規模で、多くの可能な対話フローをカバーできない。 2)翻訳に基づくToDデータセットは,対象言語における自然性や文化的特異性を欠く可能性がある。 本研究では,これらの制約に対処するために,対話のドメイン固有の抽象スキーマを自然言語のアウトラインにマッピングする,多言語ToDデータセットのための新しいアウトラインベースアノテーションプロセスを提案する。 これらは、各ターンの意図とスロットに関する指示を提供することで、対話を書く際にターゲット言語アノテータを誘導する。 このプロセスを通じて,多言語および言語間todシステムのトレーニングと評価のための,新たな大規模データセットをアノテートする。 対話データセットは,アラビア語,インドネシア語,ロシア語,キスワヒリ語という4つの多様な言語で,自然言語理解,対話状態追跡,エンドツーエンド対話モデリング,評価を可能にする。 CODと等価な翻訳ベースデータセットの質的および定量的分析は、アウトラインベースアプローチによってアンロックされたデータ品質の改善を示す。 最後に,言語間ToDのための一連の最先端システムをベンチマークし,今後の作業の基準スコアを設定し,CODが従来の翻訳ベースのToDデータセットと一般的に一致する過膨張性能を阻害することを示す。

Multilingual task-oriented dialogue (ToD) facilitates access to services and information for many (communities of) speakers. Nevertheless, the potential of this technology is not fully realised, as current datasets for multilingual ToD - both for modular and end-to-end modelling - suffer from severe limitations. 1) When created from scratch, they are usually small in scale and fail to cover many possible dialogue flows. 2) Translation-based ToD datasets might lack naturalness and cultural specificity in the target language. In this work, to tackle these limitations we propose a novel outline-based annotation process for multilingual ToD datasets, where domain-specific abstract schemata of dialogue are mapped into natural language outlines. These in turn guide the target language annotators in writing a dialogue by providing instructions about each turn's intents and slots. Through this process we annotate a new large-scale dataset for training and evaluation of multilingual and cross-lingual ToD systems. Our Cross-lingual Outline-based Dialogue dataset (termed COD) enables natural language understanding, dialogue state tracking, and end-to-end dialogue modelling and evaluation in 4 diverse languages: Arabic, Indonesian, Russian, and Kiswahili. Qualitative and quantitative analyses of COD versus an equivalent translation-based dataset demonstrate improvements in data quality, unlocked by the outline-based approach. Finally, we benchmark a series of state-of-the-art systems for cross-lingual ToD, setting reference scores for future work and demonstrating that COD prevents over-inflated performance, typically met with prior translation-based ToD datasets.
翻訳日:2022-02-01 16:54:49 公開日:2022-01-31
# 文脈表現の言語間アライメントのための制約付き密度マッチングとモデリング

Constrained Density Matching and Modeling for Cross-lingual Alignment of Contextualized Representations ( http://arxiv.org/abs/2201.13429v1 )

ライセンス: Link先を確認
Wei Zhao, Steffen Eger(参考訳) 単言語データで事前学習された多言語表現は、言語間でかなりの不平等なタスクパフォーマンスを示す。 以前の研究では、大規模な並列データの可用性を前提としたリソース集約型コンテキストアライメントによって、この課題に対処している。 本研究では,従来のアライメント手法のデータ空腹を2つの制約に分類する。 (i)データを十分に活用できないこと、及び (二)これらの技法は正しく訓練されていない。 これらの問題に対処するために,実nvpおよびgan-real-nvpと呼ばれる教師付きおよび教師なし密度ベースアプローチを導入し,多言語部分空間のアライメントを密度マッチングと密度モデリングに分解してアライメントを行う。 トレーニングプロセスの指針として,これらのアプローチを検証基準で補完する。 提案手法を含む16のアライメントを6つの言語ペア,合成データ,4つのnlpタスクで評価した。 並列データの制限のないシナリオにおいて、我々のアプローチの有効性を実証する。 第一に,20k並列データでトレーニングされた教師付きアプローチは,より大きな並列データでトレーニングされたジョイントアラングおよびインフォックスlmをほとんど上回っている。 第2に,マルチリンガル部分空間の等しさを強制する理論上の動機付けであるブートストラップ手順に教師なしアプローチを統合する際に,並列データを犠牲にすることなく除去することができる。 さらに,教師あり学習指導のための検証データに対する検証基準の利点を示す。 私たちのコードは \url{https://github.com/A IPHES/Real-NVP} で利用可能です。

Multilingual representations pre-trained with monolingual data exhibit considerably unequal task performances across languages. Previous studies address this challenge with resource-intensive contextualized alignment, which assumes the availability of large parallel data, thereby leaving under-represented language communities behind. In this work, we attribute the data hungriness of previous alignment techniques to two limitations: (i) the inability to sufficiently leverage data and (ii) these techniques are not trained properly. To address these issues, we introduce supervised and unsupervised density-based approaches named Real-NVP and GAN-Real-NVP, driven by Normalizing Flow, to perform alignment, both dissecting the alignment of multilingual subspaces into density matching and density modeling. We complement these approaches with our validation criteria in order to guide the training process. Our experiments encompass 16 alignments, including our approaches, evaluated across 6 language pairs, synthetic data and 4 NLP tasks. We demonstrate the effectiveness of our approaches in the scenarios of limited and no parallel data. First, our supervised approach trained on 20k parallel data mostly surpasses Joint-Align and InfoXLM trained on much larger parallel data. Second, parallel data can be removed without sacrificing performance when integrating our unsupervised approach in our bootstrapping procedure, which is theoretically motivated to enforce equality of multilingual subspaces. Moreover, we demonstrate the advantages of validation criteria over validation data for guiding supervised training. Our code is available at \url{https://github.com/A IPHES/Real-NVP}.
翻訳日:2022-02-01 16:26:42 公開日:2022-01-31
# (参考訳) 確率的および大域的分散低減アルゴリズムを実現する二段階最適化の枠組み

A framework for bilevel optimization that enables stochastic and global variance reduction algorithms ( http://arxiv.org/abs/2201.13409v1 )

ライセンス: CC BY 4.0
Mathieu Dagr\'eou, Pierre Ablin, Samuel Vaiter, Thomas Moreau(参考訳) 2レベル最適化は、他の関数のarg最小値を含む値関数を最小化する問題であり、機械学習の多くの領域に現れる。 サンプル数が膨大である大規模環境では,数個のサンプルしか使用しない確率的手法を開発することが重要である。 しかし、値関数の勾配を計算するには線形系を解く必要があるため、偏りのない確率的推定を導出することは困難である。 この問題を克服するために, 内部問題の解, 線形系の解, 主変数が同時に進化する, 新たな枠組みを提案する。 これらの方向は和として書かれており、偏りのない見積もりを引き出すのが簡単である。 このアプローチの単純さは、すべての変数のダイナミクスが分散低減の対象となるグローバル分散低減アルゴリズムの開発を可能にします。 我々のフレームワークにおけるSAGAアルゴリズムの適応であるSABAは$O(\frac1T)$収束率を持ち、Polyak-Lojasciewicz仮定の下で線形収束を達成することを示した。 これは、これらの特性のどちらかを検証する二段階最適化のための最初の確率的アルゴリズムである。 数値実験により本手法の有用性が検証された。

Bilevel optimization, the problem of minimizing a value function which involves the arg-minimum of another function, appears in many areas of machine learning. In a large scale setting where the number of samples is huge, it is crucial to develop stochastic methods, which only use a few samples at a time to progress. However, computing the gradient of the value function involves solving a linear system, which makes it difficult to derive unbiased stochastic estimates. To overcome this problem we introduce a novel framework, in which the solution of the inner problem, the solution of the linear system, and the main variable evolve at the same time. These directions are written as a sum, making it straightforward to derive unbiased estimates. The simplicity of our approach allows us to develop global variance reduction algorithms, where the dynamics of all variables is subject to variance reduction. We demonstrate that SABA, an adaptation of the celebrated SAGA algorithm in our framework, has $O(\frac1T)$ convergence rate, and that it achieves linear convergence under Polyak-Lojasciewicz assumption. This is the first stochastic algorithm for bilevel optimization that verifies either of these properties. Numerical experiments validate the usefulness of our method.
翻訳日:2022-02-01 16:24:39 公開日:2022-01-31
# 因果説明とxai

Causal Explanations and XAI ( http://arxiv.org/abs/2201.13169v1 )

ライセンス: Link先を確認
Sander Beckers(参考訳) 標準的な機械学習モデルは観測結果の予測に最適化されているが、アクションの結果の予測にはますます使われている。 説明可能な人工知能(xai)の重要な目標は、mlモデルの予測に関する説明を提供することで、このミスマッチを補うことである。 行動指導的説明は因果的説明であり、この話題に関する文献は因果的モデルに関する文献からの洞察を受け入れ始めている。 ここでは、十分な説明と反事実の説明の因果概念を正式に定義することで、この道をさらに踏み出す。 私は、これらの概念が既存の仕事とどのように関連(そして改善)するかを示し、異なる状況下で異なる説明がいかにアクションガイドであるかを示すことによって、彼らの妥当性をモチベーションします。 さらに、この研究は、行動指導的説明に完全に根ざした、実際の因果関係を公式に定義する最初のものである。 定義はxaiに焦点をあてたものだが、因果説明と実際の因果関係の分析は一般に適用される。 また、この研究のAIにおける公正性に対する重要性についても触れ、パス固有の反現実的公正性の概念を改善するために、実際の因果関係をどのように利用できるかを示す。

Although standard Machine Learning models are optimized for making predictions about observations, more and more they are used for making predictions about the results of actions. An important goal of Explainable Artificial Intelligence (XAI) is to compensate for this mismatch by offering explanations about the predictions of an ML-model which ensure that they are reliably action-guiding. As action-guiding explanations are causal explanations, the literature on this topic is starting to embrace insights from the literature on causal models. Here I take a step further down this path by formally defining the causal notions of sufficient explanations and counterfactual explanations. I show how these notions relate to (and improve upon) existing work, and motivate their adequacy by illustrating how different explanations are action-guiding under different circumstances. Moreover, this work is the first to offer a formal definition of actual causation that is founded entirely in action-guiding explanations. Although the definitions are motivated by a focus on XAI, the analysis of causal explanation and actual causation applies in general. I also touch upon the significance of this work for fairness in AI by showing how actual causation can be used to improve the idea of path-specific counterfactual fairness.
翻訳日:2022-02-01 16:23:34 公開日:2022-01-31
# 文字列のファジィセグメンテーション

Fuzzy Segmentations of a String ( http://arxiv.org/abs/2201.13427v1 )

ライセンス: Link先を確認
Armen Kostanyan, Arevik Harmandayan(参考訳) 本稿では,ファジィ特性の列として表現されるファジィパターンに一致する適切な長さの隣接するテキストセグメント群を見つける必要がある,データクラスタリング問題の特殊な場合について述べる。 この問題を解決するために, 十分な数の解を求めるヒューリスティックアルゴリズムが提案されている。 提案アルゴリズムの鍵となる考え方は,テキストセグメントをファジィ特性にマッピングする過程を追跡するためにプレフィックス構造を用いることである。 テキストセグメント化問題の重要なケースは、隣接するテキストセグメントが単位長を持つ場合、ファジィ文字列マッチング問題であり、したがってファジィパターンは文字のファジィ特性のシーケンスである。 この場合、ヒューリスティックセグメンテーションアルゴリズムはファジィパターンに一致する全てのテキストセグメンテーションを見つけることが証明されている。 最後に,動的プログラミング手法を用いて,ファジィパターンに基づくテキスト全体の最適セグメンテーションの問題について考察する。 キーワード:ファジィクラスタリング、ファジィ文字列マッチング、近似文字列マッチング

This article discusses a particular case of the data clustering problem, where it is necessary to find groups of adjacent text segments of the appropriate length that match a fuzzy pattern represented as a sequence of fuzzy properties. To solve this problem, a heuristic algorithm for finding a sufficiently large number of solutions is proposed. The key idea of the proposed algorithm is the use of the prefix structure to track the process of mapping text segments to fuzzy properties. An important special case of the text segmentation problem is the fuzzy string matching problem, when adjacent text segments have unit length and, accordingly, the fuzzy pattern is a sequence of fuzzy properties of text characters. It is proven that the heuristic segmentation algorithm in this case finds all text segments that match the fuzzy pattern. Finally, we consider the problem of a best segmentation of the entire text based on a fuzzy pattern, which is solved using the dynamic programming method. Keywords: fuzzy clustering, fuzzy string matching, approximate string matching
翻訳日:2022-02-01 16:23:13 公開日:2022-01-31
# grouped sequential-to-parall el trainingによるヘテロジニアスフェデレート学習

Heterogeneous Federated Learning via Grouped Sequential-to-Parall el Training ( http://arxiv.org/abs/2201.12976v1 )

ライセンス: Link先を確認
Shenglai Zeng, Zonghang Li, Hongfang Yu, Yihong He, Zenglin Xu, Dusit Niyato, Han Yu(参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシ保護のためのコラボレーション機械学習パラダイムである。 実際のFLアプリケーションでは、各データサイロのローカルデータは、ローカル使用パターンを反映する。 したがって、データ所有者(すなわちflクライアント)間でのデータ分布の多様性が存在する。 適切に扱わなければ、モデルの性能劣化につながる可能性がある。 この挑戦は異種連合学習の研究分野に影響を与えたが、現在は未開である。 本稿では,stp(dynamic sequential-to-parall el)コラボレーティブトレーニングの新たな概念を活用し,この課題に対処するため,データヘテロゲニティ・ロバストfl手法であるfegspを提案する。 FedGSP は、FL クライアントを同種群に割り当て、グループ間の全体の分布のばらつきを最小化し、各ラウンドでより多くのグループを割り当てることで並列性の度合いを高める。 また、新しいクラスタ間グルーピング(icg)アルゴリズムも組み込まれ、群割り当てを補助し、中心同値定理を用いてnp-ハードグルーピング問題を単純化し、解くことができる。 非I.d. FEMNISTデータセットで大規模な実験が行われた。 その結果、FedGSPは7つの最先端アプローチと比較して平均3.7%の精度向上を実現し、トレーニング時間と通信オーバーヘッドを90%以上削減した。

Federated learning (FL) is a rapidly growing privacy-preserving collaborative machine learning paradigm. In practical FL applications, local data from each data silo reflect local usage patterns. Therefore, there exists heterogeneity of data distributions among data owners (a.k.a. FL clients). If not handled properly, this can lead to model performance degradation. This challenge has inspired the research field of heterogeneous federated learning, which currently remains open. In this paper, we propose a data heterogeneity-robust FL approach, FedGSP, to address this challenge by leveraging on a novel concept of dynamic Sequential-to-Parall el (STP) collaborative training. FedGSP assigns FL clients to homogeneous groups to minimize the overall distribution divergence among groups, and increases the degree of parallelism by reassigning more groups in each round. It is also incorporated with a novel Inter-Cluster Grouping (ICG) algorithm to assist in group assignment, which uses the centroid equivalence theorem to simplify the NP-hard grouping problem to make it solvable. Extensive experiments have been conducted on the non-i.i.d. FEMNIST dataset. The results show that FedGSP improves the accuracy by 3.7% on average compared with seven state-of-the-art approaches, and reduces the training time and communication overhead by more than 90%.
翻訳日:2022-02-01 16:18:51 公開日:2022-01-31
# shackletonによるllvmパスシーケンスの最適化 : 線形遺伝的プログラミングフレームワーク

Optimizing LLVM Pass Sequences with Shackleton: A Linear Genetic Programming Framework ( http://arxiv.org/abs/2201.13305v1 )

ライセンス: Link先を確認
Hannah Peeler, Shuyue Stella Li, Andrew N. Sloss, Kenneth N. Reid, Yuan Yuan, Wolfgang Banzhaf(参考訳) 本稿では,進化的アルゴリズムを包含した線形遺伝的プログラミングを,様々なユースケースに適用可能な一般化フレームワークとしてシャクルトンを紹介した。 LLVM最適化パスのシーケンスを最適化する。 Shackletonを基盤とするアルゴリズムは,LLVMパスシーケンスに適用した場合に,フレームワーク固有の機能の影響を強調したものだ。 異なるハイパーパラメータ設定の分析と組み合わせて,複雑性レベルが異なる2つのソフトウェアアプリケーションに対して,シャクルトンを用いたパスシーケンスの自動最適化の結果を報告する。 最後に、私たちは現在の実装の利点と限界を振り返り、さらなる改善の道筋を示します。 これらの改善は、最適パスシーケンスの自動検出法により手作りのソリューションを超えることを目的としている。

In this paper we introduce Shackleton as a generalized framework enabling the application of linear genetic programming -- a technique under the umbrella of evolutionary algorithms -- to a variety of use cases. We also explore here a novel application for this class of methods: optimizing sequences of LLVM optimization passes. The algorithm underpinning Shackleton is discussed, with an emphasis on the effects of different features unique to the framework when applied to LLVM pass sequences. Combined with analysis of different hyperparameter settings, we report the results on automatically optimizing pass sequences using Shackleton for two software applications at differing complexity levels. Finally, we reflect on the advantages and limitations of our current implementation and lay out a path for further improvements. These improvements aim to surpass hand-crafted solutions with an automatic discovery method for an optimal pass sequence.
翻訳日:2022-02-01 16:18:07 公開日:2022-01-31
# 無限に多くの腕のバンディットを腐らせる

Rotting infinitely many-armed bandits ( http://arxiv.org/abs/2201.12975v1 )

ライセンス: Link先を確認
Jung-hun Kim, Milan Vojnovic, Se-Young Yun(参考訳) 我々は,最大ロッティングレート$\varrho=o(1)$ の任意の傾向に従って腕の平均報酬が減少する,ロッティング報酬を伴う無限多腕バンディット問題を考える。 この学習問題には$\omega(\max\{\varrho^{1/3}t,\sqrt{t}\})$の最悪の場合の後悔の上限があり、ここで$t$は地平線時間である。 多対数係数の最大値まで一致する上限$\tilde{o}(\max\{\varrho^{1/3}t,\sqrt{t}\})$は、各腕に対してucbインデックスとしきい値を使って、最大回転率$\varrho$の値を知っているアルゴリズムが、腕を引っ張り続けるか、腕を外すかを判断するアルゴリズムによって達成できることを示す。 また、適応的 UCB 指数と適応的しきい値を用いて、$\tilde{O}(\max\{\varrho^{1/3}T,T^{3/4}\})$ regret upper bound が $\varrho$ の値を知らないアルゴリズムによって達成可能であることを示す。

We consider the infinitely many-armed bandit problem with rotting rewards, where the mean reward of an arm decreases at each pull of the arm according to an arbitrary trend with maximum rotting rate $\varrho=o(1)$. We show that this learning problem has an $\Omega(\max\{\varrho^{1/3}T,\sqrt{T}\})$ worst-case regret lower bound where $T$ is the horizon time. We show that a matching upper bound $\tilde{O}(\max\{\varrho^{1/3}T,\sqrt{T}\})$, up to a poly-logarithmic factor, can be achieved by an algorithm that uses a UCB index for each arm and a threshold value to decide whether to continue pulling an arm or remove the arm from further consideration, when the algorithm knows the value of the maximum rotting rate $\varrho$. We also show that an $\tilde{O}(\max\{\varrho^{1/3}T,T^{3/4}\})$ regret upper bound can be achieved by an algorithm that does not know the value of $\varrho$, by using an adaptive UCB index along with an adaptive threshold value.
翻訳日:2022-02-01 16:17:12 公開日:2022-01-31
# 連続する繰り返しアニール流輸送モンテカルロ

Continual Repeated Annealed Flow Transport Monte Carlo ( http://arxiv.org/abs/2201.13117v1 )

ライセンス: Link先を確認
Alexander G. D. G. Matthews, Michael Arbel, Danilo J. Rezende, Arnaud Doucet(参考訳) 本稿では, 連続的なモンテカルロ (SMC) サンプリング器と正規化フローを用いた変分推論を組み合わせた連続的反復的アニール流輸送モンテカルロ (CRAFT) を提案する。 正規化フローは、遷移毎にKL分散を用いて熱処理温度間の輸送を直接訓練する。 この最適化目的自体を正規化フロー/SMC近似を用いて推定する。 我々はCRAFTが構築するAnnealed Flow Transport Monte Carlo(Arbel et al., 2021)と、Markov chain Monte Carlo(MCMC)をベースとしたStochastic Normalizing Flows(Wu et al., 2020)で改善する経験的な例をいくつか紹介する。 粒子MCMCにCRAFTを組み込むことにより,これらの学習したサンプルは,挑戦的な格子場理論の例において,驚くほど正確な結果が得られることを示す。

We propose Continual Repeated Annealed Flow Transport Monte Carlo (CRAFT), a method that combines a sequential Monte Carlo (SMC) sampler (itself a generalization of Annealed Importance Sampling) with variational inference using normalizing flows. The normalizing flows are directly trained to transport between annealing temperatures using a KL divergence for each transition. This optimization objective is itself estimated using the normalizing flow/SMC approximation. We show conceptually and using multiple empirical examples that CRAFT improves on Annealed Flow Transport Monte Carlo (Arbel et al., 2021), on which it builds and also on Markov chain Monte Carlo (MCMC) based Stochastic Normalizing Flows (Wu et al., 2020). By incorporating CRAFT within particle MCMC, we show that such learnt samplers can achieve impressively accurate results on a challenging lattice field theory example.
翻訳日:2022-02-01 16:15:44 公開日:2022-01-31
# 学習者のゆらぎ・バイアス・分散・アンサンブル:高次元凸損失の漸近性について

Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics for Convex Losses in High-Dimension ( http://arxiv.org/abs/2201.13383v1 )

ライセンス: Link先を確認
Bruno Loureiro and C\'edric Gerbelot and Maria Refinetti and Gabriele Sicuro and Florent Krzakala(参考訳) データのサンプリングからパラメータの初期化まで、ランダムネスは現代の機械学習の実践においてユビキタスである。 したがって、予測における異なるランダム性源によって引き起こされる統計的ゆらぎを理解することは、堅牢な一般化を理解するための鍵となる。 本論文では,高次元の異なる,しかし相関の深い一般線形モデルの集合における揺らぎの研究のための定量的かつ厳密な理論を開発する。 特に, 一般凸損失と高次元限界の正規化のための経験的リスク最小化器の漸近的関節分布の完全な記述について述べる。 我々の結果は、過度にパラメータ化されたニューラルネットワークの遅延状態や、カーネルのランダムな特徴近似のような、豊富な分類と回帰タスクを含む。 テスト誤差のバイアス分散分解におけるアンサンブル(またはバッグング)の緩和効果を直接研究できる一方で、統計的変動の寄与と「二重発散現象」の根元にある補間しきい値によって引き起こされる特異な役割の解消にも寄与する。

From the sampling of data to the initialisation of parameters, randomness is ubiquitous in modern Machine Learning practice. Understanding the statistical fluctuations engendered by the different sources of randomness in prediction is therefore key to understanding robust generalisation. In this manuscript we develop a quantitative and rigorous theory for the study of fluctuations in an ensemble of generalised linear models trained on different, but correlated, features in high-dimensions. In particular, we provide a complete description of the asymptotic joint distribution of the empirical risk minimiser for generic convex loss and regularisation in the high-dimensional limit. Our result encompasses a rich set of classification and regression tasks, such as the lazy regime of overparametrised neural networks, or equivalently the random features approximation of kernels. While allowing to study directly the mitigating effect of ensembling (or bagging) on the bias-variance decomposition of the test error, our analysis also helps disentangle the contribution of statistical fluctuations, and the singular role played by the interpolation threshold that are at the roots of the "double-descent" phenomenon.
翻訳日:2022-02-01 16:15:09 公開日:2022-01-31
# 線形関係ネットワークを用いた多目的強化学習

Compositional Multi-Object Reinforcement Learning with Linear Relation Networks ( http://arxiv.org/abs/2201.13388v1 )

ライセンス: Link先を確認
Davide Mambelli, Frederik Tr\"auble, Stefan Bauer, Bernhard Sch\"olkopf, Francesco Locatello(参考訳) 強化学習はここ数年で著しい進歩を遂げてきたが、マルチオブジェクト環境で頑健なオブジェクト操作タスクを解決することは依然として課題である。 本稿では,固定されたマルチオブジェクト設定で操作タスクを学習できるモデルに着目し,オブジェクト数の変化時に性能を低下させることなく,このスキルをゼロショットで推定する。 集合から特定の立方体をゴール位置に導くという一般的なタスクを考える。 従来のアプローチは、主に注意とグラフニューラルネットワークに基づくアーキテクチャを利用していたが、K^2$のスケールで入力オブジェクトの数が変化すると、そのスキルは一般化されない。 本稿では,これらの制約を克服するために,リレーショナル帰納バイアスに基づくプラグアンドプレイモジュールを提案する。 トレーニング環境でのパフォーマンスを超過するだけでなく、k$で線形にスケールする我々のアプローチでは、エージェントがゼロショットを新しいオブジェクト番号に外挿し、一般化できることを示します。

Although reinforcement learning has seen remarkable progress over the last years, solving robust dexterous object-manipulation tasks in multi-object settings remains a challenge. In this paper, we focus on models that can learn manipulation tasks in fixed multi-object settings and extrapolate this skill zero-shot without any drop in performance when the number of objects changes. We consider the generic task of bringing a specific cube out of a set to a goal position. We find that previous approaches, which primarily leverage attention and graph neural network-based architectures, do not generalize their skills when the number of input objects changes while scaling as $K^2$. We propose an alternative plug-and-play module based on relational inductive biases to overcome these limitations. Besides exceeding performances in their training environment, we show that our approach, which scales linearly in $K$, allows agents to extrapolate and generalize zero-shot to any new object number.
翻訳日:2022-02-01 16:14:49 公開日:2022-01-31
# ロジスティック損失によるハーフスペースの学習性

Agnostic Learnability of Halfspaces via Logistic Loss ( http://arxiv.org/abs/2201.13419v1 )

ライセンス: Link先を確認
Ziwei Ji, Kwangjun Ahn, Pranjal Awasthi, Satyen Kale, and Stefani Karp(参考訳) 等質半空間の非依存学習の基本問題に対するロジスティック回帰による近似保証について検討する。 以前は、例の「良い振る舞い」分布のあるクラスに対して、 Diakonikolas et al. (2020) は$\tilde{\Omega}(\textrm{OPT})$ lower bound を証明し、 Frei et al. (2021) は$\tilde{O}(\sqrt{\textrm{OPT}})$ upper bound を証明した。 本稿では,この分布上のロジスティックリスクの大域的最小化が,上限値に一致する$\omega(\sqrt{\textrm{opt}})$ミスクラス化リスクのみを達成するような,十分に整備された分布を構築することにより,このギャップを解消する(frei et al., 2021)。 他方, 分布の健全性に加えてラジアルリプシッツ性条件を課した場合, 有界半径球上のロジスティック回帰は$\tilde{o}(\textrm{opt})$ の誤分類リスクに達することを示した。 また,ラジアルリプシッツ性に拘わらず,ロジスティック損失に対する$\omega(\sqrt{\textrm{opt}})$の上限を,ヒンジ損失を伴って$\tilde{o}(\textrm{opt})$の誤分類リスクを得るための1つの追加の凸最適化ステップのコストだけで克服できることを示した。 この二段階凸最適化アルゴリズムはこの保証を得る以前の方法よりも単純であり、いずれも$o(\log(1/\textrm{opt}))$最小化問題を解く必要がある。

We investigate approximation guarantees provided by logistic regression for the fundamental problem of agnostic learning of homogeneous halfspaces. Previously, for a certain broad class of "well-behaved" distributions on the examples, Diakonikolas et al. (2020) proved an $\tilde{\Omega}(\textrm{OPT})$ lower bound, while Frei et al. (2021) proved an $\tilde{O}(\sqrt{\textrm{OPT}})$ upper bound, where $\textrm{OPT}$ denotes the best zero-one/misclassifi cation risk of a homogeneous halfspace. In this paper, we close this gap by constructing a well-behaved distribution such that the global minimizer of the logistic risk over this distribution only achieves $\Omega(\sqrt{\textrm{OPT}})$ misclassification risk, matching the upper bound in (Frei et al., 2021). On the other hand, we also show that if we impose a radial-Lipschitzness condition in addition to well-behaved-ness on the distribution, logistic regression on a ball of bounded radius reaches $\tilde{O}(\textrm{OPT})$ misclassification risk. Our techniques also show for any well-behaved distribution, regardless of radial Lipschitzness, we can overcome the $\Omega(\sqrt{\textrm{OPT}})$ lower bound for logistic loss simply at the cost of one additional convex optimization step involving the hinge loss and attain $\tilde{O}(\textrm{OPT})$ misclassification risk. This two-step convex optimization algorithm is simpler than previous methods obtaining this guarantee, all of which require solving $O(\log(1/\textrm{OPT}))$ minimization problems.
翻訳日:2022-02-01 16:14:31 公開日:2022-01-31
# BEER:通信圧縮による分散非凸最適化のための高速O(1/T)$レート

BEER: Fast $O(1/T)$ Rate for Decentralized Nonconvex Optimization with Communication Compression ( http://arxiv.org/abs/2201.13320v1 )

ライセンス: Link先を確認
Haoyu Zhao, Boyue Li, Zhize Li, Peter Richt\'arik, Yuejie Chi(参考訳) コミュニケーション効率は、マルチエージェントやフェデレーション環境での大規模分散機械学習アプリケーションのボトルネックとして広く認識されている。 通信ボトルネックに対処するために、クライアントは事前定義されたグラフトポロジー上で、少数の量子化情報(ビット)を隣人としか通信できない分散非凸最適化のための通信圧縮アルゴリズムを設計するために多くの努力がなされてきた。 かなりの努力にもかかわらず、非凸設定における最先端のアルゴリズムは、異なるクライアント間のデータの異質性を測定する$G$と、通信ラウンドの数である$O((G/T)^{2/3})$との収束速度が遅い。 本稿では,通信圧縮と勾配追跡を併用したBEERを提案し,より高速なO(1/T)$で収束することを示す。 これは、任意のデータ不均一性の下でも圧縮なしでのレートをマッチングすることで、最先端の速度を大幅に改善する。 また,本理論を裏付ける数値実験を行い,データヘテロジニアス構造におけるビールの実用的優位性を検証した。

Communication efficiency has been widely recognized as the bottleneck for large-scale decentralized machine learning applications in multi-agent or federated environments. To tackle the communication bottleneck, there have been many efforts to design communication-compre ssed algorithms for decentralized nonconvex optimization, where the clients are only allowed to communicate a small amount of quantized information (aka bits) with their neighbors over a predefined graph topology. Despite significant efforts, the state-of-the-art algorithm in the nonconvex setting still suffers from a slower rate of convergence $O((G/T)^{2/3})$ compared with their uncompressed counterpart, where $G$ measures the data heterogeneity across different clients, and $T$ is the number of communication rounds. This paper proposes BEER, which adopts communication compression with gradient tracking, and shows it converges at a faster rate of $O(1/T)$. This significantly improves over the state-of-the-art rate, by matching the rate without compression even under arbitrary data heterogeneity. Numerical experiments are also provided to corroborate our theory and confirm the practical superiority of BEER in the data heterogeneous regime.
翻訳日:2022-02-01 16:11:11 公開日:2022-01-31
# (参考訳) Trajectory Balance: GFlowNetsにおけるクレジット割り当ての改善 [全文訳有]

Trajectory Balance: Improved Credit Assignment in GFlowNets ( http://arxiv.org/abs/2201.13259v1 )

ライセンス: CC BY 4.0
Nikolay Malkin, Moksh Jain, Emmanuel Bengio, Chen Sun, Yoshua Bengio(参考訳) 生成フローネットワーク(英:generative flow network、gflownets)は、グラフや文字列のような合成オブジェクトを生成する確率的ポリシーを、アクションのシーケンスによって与えられた非正規化密度から学習する手法である。 フローマッチングや詳細なバランスなど,GFlowNetsをトレーニングするための時間差ライクな学習目的は,特に長いシーケンスの場合において,アクションシーケンス間の非効率な信用伝搬を生じやすい。 本稿では,GFlowNetsの新しい学習目標であるトラジェクトリバランスを,従来使用されていた目的に対して,より効率的な代替手段として提案する。 軌道バランス目標の任意の大域的最小化器が、対象分布から正確にサンプリングするポリシーを定義できることを示す。 4つの異なる領域の実験において、GFlowNet収束のための軌道バランス目標の利点、生成されたサンプルの多様性、長いアクションシーケンスや大きなアクション空間に対する堅牢性を実証的に実証した。

Generative Flow Networks (GFlowNets) are a method for learning a stochastic policy for generating compositional objects, such as graphs or strings, from a given unnormalized density by sequences of actions, where many possible action sequences may lead to the same object. Prior temporal difference-like learning objectives for training GFlowNets, such as flow matching and detailed balance, are prone to inefficient credit propagation across action sequences, particularly in the case of long sequences. We propose a new learning objective for GFlowNets, trajectory balance, as a more efficient alternative to previously used objectives. We prove that any global minimizer of the trajectory balance objective can define a policy that samples exactly from the target distribution. In experiments on four distinct domains, we empirically demonstrate the benefits of the trajectory balance objective for GFlowNet convergence, diversity of generated samples, and robustness to long action sequences and large action spaces.
翻訳日:2022-02-01 16:08:22 公開日:2022-01-31
# 法的文書の半監督的非負行列因子化

Guided Semi-Supervised Non-negative Matrix Factorization on Legal Documents ( http://arxiv.org/abs/2201.13324v1 )

ライセンス: Link先を確認
Pengyu Li, Christine Tseng, Yaxuan Zheng, Joyce A. Chew, Longxiu Huang, Benjamin Jarman, Deanna Needell(参考訳) 分類とトピックモデリングは、大規模なデータセットから情報を抽出する機械学習で一般的なテクニックである。 ラベルや重要な特徴などの事前情報を組み込むことによって、分類やトピックモデリングのタスクを実行する手法が開発されているが、どちらも実行可能なほとんどの手法はトピックや特徴のガイダンスを許さない。 本稿では,事前指定された文書クラスラベルとユーザ設計されたシードワードの両方の監督を取り入れて,分類とトピックモデリングを両立させる手法,GSSNMF(Guid Semi-Supervised Non- negative Matrix Factorization)を提案する。 我々は、無実の有罪判決を受けた人を解放し、司法制度を改革する非営利団体であるCalifornia Innocence Projectによって提供される法的文書に適用することで、この方法のパフォーマンスをテストする。 提案手法は,半監督非負行列因子化 (SSNMF) やガイド非負行列因子化 (Guided NMF) といった過去の手法と比較して,分類精度とトピックコヒーレンスを向上することを示した。

Classification and topic modeling are popular techniques in machine learning that extract information from large-scale datasets. By incorporating a priori information such as labels or important features, methods have been developed to perform classification and topic modeling tasks; however, most methods that can perform both do not allow for guidance of the topics or features. In this paper, we propose a method, namely Guided Semi-Supervised Non-negative Matrix Factorization (GSSNMF), that performs both classification and topic modeling by incorporating supervision from both pre-assigned document class labels and user-designed seed words. We test the performance of this method through its application to legal documents provided by the California Innocence Project, a nonprofit that works to free innocent convicted persons and reform the justice system. The results show that our proposed method improves both classification accuracy and topic coherence in comparison to past methods like Semi-Supervised Non-negative Matrix Factorization (SSNMF) and Guided Non-negative Matrix Factorization (Guided NMF).
翻訳日:2022-02-01 15:44:57 公開日:2022-01-31
# 視点における画像変換と等価性を保存する剛性

Rigidity Preserving Image Transformations and Equivariance in Perspective ( http://arxiv.org/abs/2201.13065v1 )

ライセンス: Link先を確認
Lucas Brynte, Georg B\"okman, Axel Flinth, Fredrik Kahl(参考訳) 剛性カメラ動作を実現する画像平面変換のクラスを特徴付け,これらの変換を「剛性保存」と呼ぶ。 特に、ピンホール画像の2次元翻訳は剛性保存ではない。 したがって、cnnを3次元推論タスクに使用する場合、帰納的バイアスを等分散から変換へ、等分散から剛性保存変換へ変更することが有益である。 剛性保存変換に対する等式がCNNでどのように近似できるかを考察し、6次元オブジェクトのポーズ推定と視覚的ローカライゼーションの両面での考え方を検証する。 実験的に、いくつかの競合ベースラインを改善した。

We characterize the class of image plane transformations which realize rigid camera motions and call these transformations `rigidity preserving'. In particular, 2D translations of pinhole images are not rigidity preserving. Hence, when using CNNs for 3D inference tasks, it can be beneficial to modify the inductive bias from equivariance towards translations to equivariance towards rigidity preserving transformations. We investigate how equivariance with respect to rigidity preserving transformations can be approximated in CNNs, and test our ideas on both 6D object pose estimation and visual localization. Experimentally, we improve on several competitive baselines.
翻訳日:2022-02-01 15:40:46 公開日:2022-01-31
# 自然にハッシュする学習

Learning to Hash Naturally Sorts ( http://arxiv.org/abs/2201.13322v1 )

ライセンス: Link先を確認
Yuming Shen, Jiaguo Yu, Haofeng Zhang, Philip H.S. Torr, Menghan Wang(参考訳) 局所性に敏感なハッシュ画像はリストワイドソート問題である。 そのテストメトリクス、例えば平均平均精度は、ペアワイズコードの類似性によって順序付けられたソートされた候補リストをカウントする。 しかし、ソート動作の非微分性のため、ソート結果がエンドツーエンドで深いハッシュモデルを訓練することは少ない。 トレーニングとテストの目的におけるこの矛盾は、トレーニング損失が実際の検索基準を反映しないことが多いため、準最適パフォーマンスをもたらす可能性がある。 本稿では,自然ソートハッシュ(nsh)を導入することでこの問題に取り組む。 サンプルのハッシュコードのハミング距離を分類し,それらの潜在表現を自己教師付きトレーニングのために収集する。 近年の微分可能ソート近似の進歩により、ハッシュヘッドはソータから勾配を受け取り、ハッシュエンコーダをトレーニング手順に合わせて最適化することができる。 さらに,nshが教師なしの方法で学習中にデータ意味関係をマイニングすることを可能にするコントラスト学習において,正のサンプルと負のサンプルを選択的に選択する,新しいソートされたノイズコントラスト推定(ソートデンス)損失について述べる。 提案したNSHモデルは,3つのベンチマークデータセット上で既存の教師なしハッシュ法よりも大幅に優れていることを示す。

Locality sensitive hashing pictures a list-wise sorting problem. Its testing metrics, e.g., mean-average precision, count on a sorted candidate list ordered by pair-wise code similarity. However, scarcely does one train a deep hashing model with the sorted results end-to-end because of the non-differentiable nature of the sorting operation. This inconsistency in the objectives of training and test may lead to sub-optimal performance since the training loss often fails to reflect the actual retrieval metric. In this paper, we tackle this problem by introducing Naturally-Sorted Hashing (NSH). We sort the Hamming distances of samples' hash codes and accordingly gather their latent representations for self-supervised training. Thanks to the recent advances in differentiable sorting approximations, the hash head receives gradients from the sorter so that the hash encoder can be optimized along with the training procedure. Additionally, we describe a novel Sorted Noise-Contrastive Estimation (SortedNCE) loss that selectively picks positive and negative samples for contrastive learning, which allows NSH to mine data semantic relations during training in an unsupervised manner. Our extensive experiments show the proposed NSH model significantly outperforms the existing unsupervised hashing methods on three benchmarked datasets.
翻訳日:2022-02-01 15:40:35 公開日:2022-01-31
# (参考訳) 深層学習説明法の塩分マップ評価のためのメトリクス [全文訳有]

Metrics for saliency map evaluation of deep learning explanation methods ( http://arxiv.org/abs/2201.13291v1 )

ライセンス: CC BY 4.0
Tristan Gomez, Thomas Fr\'eour, Harold Mouch\`ere(参考訳) ディープラーニングモデルのブラックボックス性により、cnnの視覚的な説明のためのソリューションが最近開発されている。 ユーザ研究のコストが高いため、これらの異なる方法を比較して評価するにはメトリクスが必要です。 本稿では,petsiuk et al. (2018) が提案した曲線(dauc)下の削除面積と曲線(iauc)上の挿入面積について批判的に解析する。 これらの指標はGrad-CAM や RISE といった一般的な手法によって生成されるサリエンシマップの忠実さを評価するために設計された。 まず,スコアのランク付けのみを考慮し,サリエンシーマップが与えた実際のサリエンシースコア値を無視したことを示す。 これは、サリエンシーマップの視覚的な外観がスコアのランキングを変更することなく著しく変化するため、これらの指標がそれ自体では不十分であることを示している。 第2に、DAUCとIAUCの計算において、モデルはトレーニング分布から外れたイメージで提示され、それが説明されるモデルの信頼性の低い振る舞いに繋がる可能性があると論じる。 まず,DAUCとIAUCの値を変更することなく,画素ランクを変更することなく,説明地図の視覚的外観を大幅に変えることができることを示す。 % DAUC と IAUC はスコアのランク付けとスコアの無視のみを考慮に入れている,と我々は主張する。 DAUC/IAUCを補完するために,2つの未研究特性である説明手法の疎度と校正を定量化する新しい指標を提案する。 最後に,本論文で検討した指標について概説し,ユーザスタディにおける評価方法について考察する。

Due to the black-box nature of deep learning models, there is a recent development of solutions for visual explanations of CNNs. Given the high cost of user studies, metrics are necessary to compare and evaluate these different methods. In this paper, we critically analyze the Deletion Area Under Curve (DAUC) and Insertion Area Under Curve (IAUC) metrics proposed by Petsiuk et al. (2018). These metrics were designed to evaluate the faithfulness of saliency maps generated by generic methods such as Grad-CAM or RISE. First, we show that the actual saliency score values given by the saliency map are ignored as only the ranking of the scores is taken into account. This shows that these metrics are insufficient by themselves, as the visual appearance of a saliency map can change significantly without the ranking of the scores being modified. Secondly, we argue that during the computation of DAUC and IAUC, the model is presented with images that are out of the training distribution which might lead to an unreliable behavior of the model being explained. %First, we show that one can drastically change the visual appearance of an explanation map without changing the pixel ranking, i.e. without changing the DAUC and IAUC values. %We argue that DAUC and IAUC only takes into account the scores ranking and ignore the score values. To complement DAUC/IAUC, we propose new metrics that quantify the sparsity and the calibration of explanation methods, two previously unstudied properties. Finally, we give general remarks about the metrics studied in this paper and discuss how to evaluate them in a user study.
翻訳日:2022-02-01 15:35:32 公開日:2022-01-31
# GSN: Spring Networkに触発されたユニバーサルグラフニューラルネットワーク

GSN: A Universal Graph Neural Network Inspired by Spring Network ( http://arxiv.org/abs/2201.12994v1 )

ライセンス: Link先を確認
Guanyu Cui, Zhewei Wei(参考訳) 相同性グラフと相同性グラフの両方で動作する汎用グラフニューラルネットワーク(gnns)の設計は近年研究の注目を集めている。 既存の異種GNN(特に空間領域で設計されたもの)には、理論的、物理的動機がない。 本稿では,同系グラフと異系グラフの両方に対応する汎用gnnモデルであるgraph spring network(gsn)を提案する。 GSNフレームワークは、様々な指標を用いてスプリングポテンシャルエネルギー最小化の観点から、既存のGNNモデルの多くを解釈し、これらのモデルが強い物理的モチベーションをもたらすことを示す。 また,gsnフレームワークが実世界のホモフィリアスおよびヘテロフィリアスデータセットにおいて優れた性能を示すために,広範な実験を行いました。

The design of universal Graph Neural Networks (GNNs) that operate on both homophilous and heterophilous graphs has received increased research attention in recent years. Existing heterophilous GNNs, particularly those designed in the spatial domain, lack a convincing theoretical or physical motivation. In this paper, we propose the Graph Spring Network (GSN), a universal GNN model that works for both homophilous and heterophilous graphs, inspired by spring networks and metric learning. We show that the GSN framework interprets many existing GNN models from the perspective of spring potential energy minimization with various metrics, which gives these models strong physical motivations. We also conduct extensive experiments to demonstrate our GSN framework's superior performance on real-world homophilous and heterophilous data sets.
翻訳日:2022-02-01 15:15:21 公開日:2022-01-31
# スーパーマスクにサインする: Keep, Hide, Invert

Signing the Supermask: Keep, Hide, Invert ( http://arxiv.org/abs/2201.13361v1 )

ライセンス: Link先を確認
Nils Koster, Oliver Grothe and Achim Rettinger(参考訳) 過去数年間のニューラルネットワークのパラメータ数の指数関数的な増加は、いくつかの分野でのパフォーマンス向上に伴うものだ。 しかし、ネットワークのサイズが大きくなったため、ハードウェア要件が増大したため、解釈が難しくなっただけでなく、実際のアプリケーションでトレーニングや使用が困難になった。 どちらの問題にも取り組み、ニューラルネットワークの初期重みを下げるか、それぞれの符号を反転させる新しいアプローチを提案する。 簡単に言えば、ネットワークは、絶対値を変更することなく、重み選択と反転によって訓練される。 提案手法は,初期重み付けにサインインすることでマスキングに関する先行研究を拡張し,抽選券仮説の結果を追従する。 この拡張と初期化手法の適応により、様々なベースラインモデルと過去のモデルの性能をいまだに一致または超えながら、最大99%のプルーニング率を達成する。 我々のアプローチには2つの大きな利点がある。 まず、最も注目すべき、署名されたスーパーマスクモデルは、与えられたタスクでうまく機能しながら、モデルの構造を劇的に単純化します。 第二に、ニューラルネットワークをその基盤に還元することで、パフォーマンスにどの重みが重要かを知ることができます。

The exponential growth in numbers of parameters of neural networks over the past years has been accompanied by an increase in performance across several fields. However, due to their sheer size, the networks not only became difficult to interpret but also problematic to train and use in real-world applications, since hardware requirements increased accordingly. Tackling both issues, we present a novel approach that either drops a neural network's initial weights or inverts their respective sign. Put simply, a network is trained by weight selection and inversion without changing their absolute values. Our contribution extends previous work on masking by additionally sign-inverting the initial weights and follows the findings of the Lottery Ticket Hypothesis. Through this extension and adaptations of initialization methods, we achieve a pruning rate of up to 99%, while still matching or exceeding the performance of various baseline and previous models. Our approach has two main advantages. First, and most notable, signed Supermask models drastically simplify a model's structure, while still performing well on given tasks. Second, by reducing the neural network to its very foundation, we gain insights into which weights matter for performance.
翻訳日:2022-02-01 15:14:02 公開日:2022-01-31
# アルゴリズムを変えないで、データを変更する:オフライン強化学習のための探索データ

Don't Change the Algorithm, Change the Data: Exploratory Data for Offline Reinforcement Learning ( http://arxiv.org/abs/2201.13425v1 )

ライセンス: Link先を確認
Denis Yarats, David Brandfonbrener, Hao Liu, Michael Laskin, Pieter Abbeel, Alessandro Lazaric, Lerrel Pinto(参考訳) ディープラーニングの最近の進歩は、大規模で多様なデータセットへのアクセスに依存している。 オフラインRLデータは通常、データの多様性を制限する特定の目標タスクを最適化するために収集されるため、オフライン強化学習(RL)では、このようなデータ駆動の進歩は明らかになっていない。 本研究ではオフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。 ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。 探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れ、あるいは一致することが分かる。 この結果から,データ生成はオフラインRLにおけるアルゴリズムの進歩と同じくらい重要であることが示唆された。

Recent progress in deep learning has relied on access to large and diverse datasets. Such data-driven progress has been less evident in offline reinforcement learning (RL), because offline RL data is usually collected to optimize specific target tasks limiting the data's diversity. In this work, we propose Exploratory data for Offline RL (ExORL), a data-centric approach to offline RL. ExORL first generates data with unsupervised reward-free exploration, then relabels this data with a downstream reward before training a policy with offline RL. We find that exploratory data allows vanilla off-policy RL algorithms, without any offline-specific modifications, to outperform or match state-of-the-art offline RL algorithms on downstream tasks. Our findings suggest that data generation is as important as algorithmic advances for offline RL and hence requires careful consideration from the community.
翻訳日:2022-02-01 15:13:42 公開日:2022-01-31
# GenMod:ランダム入力を用いたPDEのスペクトル表現のための生成的モデリング手法

GenMod: A generative modeling approach for spectral representation of PDEs with random inputs ( http://arxiv.org/abs/2201.12973v1 )

ライセンス: Link先を確認
Jacqueline Wentz and Alireza Doostan(参考訳) 本稿では,高次元PDEシステムにおけるランダムパラメータを用いた不確かさの定量化手法を提案する。 パラメトリックPDE解はしばしば多項式カオス展開に基づくスペクトル分解を用いて近似される。 我々が考える系のクラス(すなわち、限定解評価を伴う高次元)に対して、係数は回帰定式化において未決定の線形系によって与えられる。 これは、係数ベクトルのスパーシティのような追加の仮定が解を近似するために必要となることを意味する。 ここでは、係数が低次元から高次元の係数空間に写像する生成モデルの範囲に近くなると仮定するアプローチを提案する。 私たちのアプローチは、ランダムガウス行列を持つ系の圧縮センシングに生成モデルをどのように利用できるかを調べる最近の研究から着想を得たものです。 係数減衰率に関するPDE理論の結果を用いて,多項式カオス係数の規模を予測する明示的な生成モデルを構築した。 GenModと呼ばれる係数を見つけるために開発したアルゴリズムは、2つの主要なステップから構成される。 まず,直交マッチング追跡を用いて係数符号を推定する。 そして、この係数は符号調整生成モデルの範囲からスパース偏差の範囲内であると仮定する。 これにより、生成モデルの入力空間とスパースベクトルの空間を越えて、非凸最適化問題を解くことで係数を見つけることができる。 リプシッツ連続生成モデルおよびより特定の生成モデルに対して,係数減衰率境界に基づく理論的回復結果を得る。 3つの高次元問題について検討し, 生成モデルアプローチが小標本サイズでのスパース性促進手法よりも優れていることを示した。

We propose a method for quantifying uncertainty in high-dimensional PDE systems with random parameters, where the number of solution evaluations is small. Parametric PDE solutions are often approximated using a spectral decomposition based on polynomial chaos expansions. For the class of systems we consider (i.e., high dimensional with limited solution evaluations) the coefficients are given by an underdetermined linear system in a regression formulation. This implies additional assumptions, such as sparsity of the coefficient vector, are needed to approximate the solution. Here, we present an approach where we assume the coefficients are close to the range of a generative model that maps from a low to a high dimensional space of coefficients. Our approach is inspired be recent work examining how generative models can be used for compressed sensing in systems with random Gaussian measurement matrices. Using results from PDE theory on coefficient decay rates, we construct an explicit generative model that predicts the polynomial chaos coefficient magnitudes. The algorithm we developed to find the coefficients, which we call GenMod, is composed of two main steps. First, we predict the coefficient signs using Orthogonal Matching Pursuit. Then, we assume the coefficients are within a sparse deviation from the range of a sign-adjusted generative model. This allows us to find the coefficients by solving a nonconvex optimization problem, over the input space of the generative model and the space of sparse vectors. We obtain theoretical recovery results for a Lipschitz continuous generative model and for a more specific generative model, based on coefficient decay rate bounds. We examine three high-dimensional problems and show that, for all three examples, the generative model approach outperforms sparsity promoting methods at small sample sizes.
翻訳日:2022-02-01 15:09:10 公開日:2022-01-31
# nystr\"omカーネルは埋め込みを意味する

Nystr\"om Kernel Mean Embeddings ( http://arxiv.org/abs/2201.13055v1 )

ライセンス: Link先を確認
Antoine Chatalic, Nicolas Schreuder, Alessandro Rudi and Lorenzo Rosasco(参考訳) カーネル平均埋め込みは任意の空間上の確率分布をヒルベルト空間の単一点として表す強力なツールである。 しかし、そのような組み込みの計算と保存のコストは、大規模な環境での直接使用を禁止している。 我々は,データセットの小さな乱数部分集合を利用するNystr\"om法に基づく効率的な近似手法を提案する。 我々の主な結果は、この手順の近似誤差の上界である。 これは、計算コストを減らしながら標準の$n^{-1/2}$レートを得るのに十分な条件を与える。 この結果の最大平均偏差と二次則の近似への応用について検討し, 数値実験により理論的知見を明らかにした。

Kernel mean embeddings are a powerful tool to represent probability distributions over arbitrary spaces as single points in a Hilbert space. Yet, the cost of computing and storing such embeddings prohibits their direct use in large-scale settings. We propose an efficient approximation procedure based on the Nystr\"om method, which exploits a small random subset of the dataset. Our main result is an upper bound on the approximation error of this procedure. It yields sufficient conditions on the subsample size to obtain the standard $n^{-1/2}$ rate while reducing computational costs. We discuss applications of this result for the approximation of the maximum mean discrepancy and quadrature rules, and illustrate our theoretical findings with numerical experiments.
翻訳日:2022-02-01 15:08:43 公開日:2022-01-31
# 分布ロバストなチャンス制約問題に対するベイズ最適化

Bayesian Optimization for Distributionally Robust Chance-constrained Problem ( http://arxiv.org/abs/2201.13112v1 )

ライセンス: Link先を確認
Yu Inatsu, Shion Takeno, Masayuki Karasuyama, Ichiro Takeuchi(参考訳) ブラックボックス関数最適化では、制御可能な設計変数だけでなく、制御不能な確率的環境変数も考慮する必要がある。 このような場合、環境変数の不確実性を考慮して最適化問題を解決する必要がある。 一定の制約満足度確率の下で期待値を最大化する問題であるChance-Constrained (CC)問題は、環境変数の存在において事実上重要な問題の1つである。 本研究では, 環境変数の分布を正確に特定できない場合に, 分散ロバストな CC (DRCC) 問題を考察し, DRCCベイズ最適化法を提案する。 提案手法は, 有限個の試行において高い確率で任意の精度の解を求めることができ, 数値実験により提案手法の有用性を確認した。

In black-box function optimization, we need to consider not only controllable design variables but also uncontrollable stochastic environment variables. In such cases, it is necessary to solve the optimization problem by taking into account the uncertainty of the environmental variables. Chance-constrained (CC) problem, the problem of maximizing the expected value under a certain level of constraint satisfaction probability, is one of the practically important problems in the presence of environmental variables. In this study, we consider distributionally robust CC (DRCC) problem and propose a novel DRCC Bayesian optimization method for the case where the distribution of the environmental variables cannot be precisely specified. We show that the proposed method can find an arbitrary accurate solution with high probability in a finite number of trials, and confirm the usefulness of the proposed method through numerical experiments.
翻訳日:2022-02-01 15:08:33 公開日:2022-01-31
# $\alpha$-stable L\'evy雑音を用いた確率力学系抽出のためのエンドツーエンドディープラーニング手法

An end-to-end deep learning approach for extracting stochastic dynamical systems with $\alpha$-stable L\'evy noise ( http://arxiv.org/abs/2201.13114v1 )

ライセンス: Link先を確認
Cheng Fang, Yubin Lu, Ting Gao, Jinqiao Duan(参考訳) 近年,深層学習フレームワークによる動的システムのデータ駆動制御法則の抽出が,様々な分野で注目されている。 さらに、多くの研究が、決定論的力学系を確率力学系、特に非ゲージ乗法ノイズによって駆動される力学系に移す傾向がある。 しかし、ガウスの場合にうまく機能する多くのログライクなアルゴリズムは、高い誤差と低い収束問題を持つ非ガウス的シナリオに直接拡張することはできない。 本研究では、これらの課題を克服し、ランダムなペアワイズデータのみから$\alpha$-stable L\'evyノイズによって駆動される確率力学系を同定する。 1) 全値に対して$\alpha$のl\'evy誘導雑音のドリフト項と拡散項の両方を学習するディープラーニング手法の設計,(2)小さな雑音強度の制限なく複雑な乗算雑音を学習すること,(3)一般的な入力データ仮定の下で確率的システム同定のためのエンドツーエンド完全フレームワークの提案,すなわち$\alpha$-stable確率変数の提案,などである。 最後に,非局所クラマース・モヤル公式とモーメント生成関数との数値実験および比較により,本手法の有効性が確認された。

Recently, extracting data-driven governing laws of dynamical systems through deep learning frameworks has gained a lot of attention in various fields. Moreover, a growing amount of research work tends to transfer deterministic dynamical systems to stochastic dynamical systems, especially those driven by non-Gaussian multiplicative noise. However, lots of log-likelihood based algorithms that work well for Gaussian cases cannot be directly extended to non-Gaussian scenarios which could have high error and low convergence issues. In this work, we overcome some of these challenges and identify stochastic dynamical systems driven by $\alpha$-stable L\'evy noise from only random pairwise data. Our innovations include: (1) designing a deep learning approach to learn both drift and diffusion terms for L\'evy induced noise with $\alpha$ across all values, (2) learning complex multiplicative noise without restrictions on small noise intensity, (3) proposing an end-to-end complete framework for stochastic systems identification under a general input data assumption, that is, $\alpha$-stable random variable. Finally, numerical experiments and comparisons with the non-local Kramers-Moyal formulas with moment generating function confirm the effectiveness of our method.
翻訳日:2022-02-01 15:08:19 公開日:2022-01-31
# 確率非線形力学系の信頼性解析のためのDeepONetの評価

Assessment of DeepONet for reliability analysis of stochastic nonlinear dynamical systems ( http://arxiv.org/abs/2201.13145v1 )

ライセンス: Link先を確認
Shailesh Garg and Harshit Gupta and Souvik Chakraborty(参考訳) 確率的強制関数を受ける構造系の時間依存信頼度解析と不確実性定量化は、かなりの計算時間を必要とするため、困難な試みである。 確率負荷を受けるシステムの時間依存信頼性解析と不確実性定量化における最近提案されたDeepONetの有効性を検討した。 従来の機械学習やディープラーニングアルゴリズムとは異なり、DeepONetはオペレータネットワークであり、関数マッピングの関数を学ぶため、確率的強制関数から出力応答への不確実性を伝播するのに理想的である。 我々はdeeponetを用いて動的システムのサロゲートモデルを構築した。 時間依存信頼性解析と線形および非線形力学系の不確実性定量化におけるDeepONetの有効性を検討するために,玩具とベンチマークの両問題を含む複数のケーススタディが実施された。 その結果,DeepONetアーキテクチャは正確かつ効率的であることが示唆された。 さらに、deeponetはゼロショット学習能力を持つので、トレーニングされたモデルは、追加のトレーニングなしで、目に見えない新しい環境に簡単に一般化できる。

Time dependent reliability analysis and uncertainty quantification of structural system subjected to stochastic forcing function is a challenging endeavour as it necessitates considerable computational time. We investigate the efficacy of recently proposed DeepONet in solving time dependent reliability analysis and uncertainty quantification of systems subjected to stochastic loading. Unlike conventional machine learning and deep learning algorithms, DeepONet learns is a operator network and learns a function to function mapping and hence, is ideally suited to propagate the uncertainty from the stochastic forcing function to the output responses. We use DeepONet to build a surrogate model for the dynamical system under consideration. Multiple case studies, involving both toy and benchmark problems, have been conducted to examine the efficacy of DeepONet in time dependent reliability analysis and uncertainty quantification of linear and nonlinear dynamical systems. Results obtained indicate that the DeepONet architecture is accurate as well as efficient. Moreover, DeepONet posses zero shot learning capabilities and hence, a trained model easily generalizes to unseen and new environment with no further training.
翻訳日:2022-02-01 15:07:57 公開日:2022-01-31
# 不確実性を考慮した擬似ラベル選択による正ラベル学習

Positive-Unlabeled Learning with Uncertainty-aware Pseudo-label Selection ( http://arxiv.org/abs/2201.13192v1 )

ライセンス: Link先を確認
Emilio Dorigatti, Jann Goschenhofer, Benjamin Schubert, Mina Rezaei, Bernd Bischl(参考訳) Pseudo-labeling Solution for positive-unlabeled (PU) learningは、コスト感受性学習と比較して高い性能をもたらす可能性があるが、誤って推定された擬似ラベルに弱い。 本稿では,puに対するリスクと擬似ラベルデータを組み合わせたリスク推定器の理論的解析を行う。 さらに, 十分なサンプルが疑似ラベル付けされ, 許容誤差率を持つ場合, 分析により, 推定器がpuデータ単独と比較して過大リスクを低減できることを示した。 次に,深層ニューラルネットワークのアンサンブルの認識の不確実性を利用して,疑似ラベル選択における誤りを最小限に抑えるPUUPLを提案する。 提案アルゴリズムが様々なデータセット,モダリティ,学習タスクに対して有効であることを示す広範な実験で締めくくった。 これらの結果は、puuplが検証のために事前および負のサンプルを提供していない場合でも、テストエラー率を最大20%削減できることを示している。

Pseudo-labeling solutions for positive-unlabeled (PU) learning have the potential to result in higher performance compared to cost-sensitive learning but are vulnerable to incorrectly estimated pseudo-labels. In this paper, we provide a theoretical analysis of a risk estimator that combines risk on PU and pseudo-labeled data. Furthermore, we show analytically as well as experimentally that such an estimator results in lower excess risk compared to using PU data alone, provided that enough samples are pseudo-labeled with acceptable error rates. We then propose PUUPL, a novel training procedure for PU learning that leverages the epistemic uncertainty of an ensemble of deep neural networks to minimize errors in pseudo-label selection. We conclude with extensive experiments showing the effectiveness of our proposed algorithm over different datasets, modalities, and learning tasks. These show that PUUPL enables a reduction of up to 20% in test error rates even when prior and negative samples are not provided for validation, setting a new state-of-the-art for PU learning.
翻訳日:2022-02-01 15:07:40 公開日:2022-01-31
# (参考訳) 視覚的物体追跡におけるバックドア攻撃 [全文訳有]

Few-Shot Backdoor Attacks on Visual Object Tracking ( http://arxiv.org/abs/2201.13178v1 )

ライセンス: CC BY 4.0
Yiming Li, Haoxiang Zhong, Xingjun Ma, Yong Jiang, Shu-Tao Xia(参考訳) 視覚オブジェクト追跡(VOT)は、自律運転やインテリジェント監視システムといったミッションクリティカルなアプリケーションで広く採用されている。 現在、データセット、バックボーンネットワーク、トレーニングプラットフォームなどのサードパーティリソースは、高性能votモデルのトレーニングに頻繁に使用されている。 これらのリソースはある種の利便性をもたらすが、VOTモデルに新たなセキュリティ脅威も導入する。 本稿では,学習過程の調整により,隠れたバックドアをVOTモデルに容易に埋め込むことができるような脅威を明らかにする。 具体的には,2つの損失を交互に最適化する,シンプルだが効果的なバックドア攻撃(FSBA)を提案する。 1)隠れた特徴空間で定義される「emph{feature loss}」及び 2) 標準値 \emph{tracking loss} 。 fsbaによってバックドアがターゲットモデルに埋め込まれると、 \emph{trigger} が1つまたは数つのフレームにのみ現れる場合でも、モデルが特定のオブジェクトのトラックを失うように騙すことができます。 我々は,デジタルおよび物理世界の両方の環境での攻撃を調査し,最先端のVOTトラッカーの性能を著しく低下させることができることを示す。 我々はまた、我々の攻撃が潜在的防御に抵抗していることを示し、潜在的バックドア攻撃に対するVOTモデルの脆弱性を強調している。

Visual object tracking (VOT) has been widely adopted in mission-critical applications, such as autonomous driving and intelligent surveillance systems. In current practice, third-party resources such as datasets, backbone networks, and training platforms are frequently used to train high-performance VOT models. Whilst these resources bring certain convenience, they also introduce new security threats into VOT models. In this paper, we reveal such a threat where an adversary can easily implant hidden backdoors into VOT models by tempering with the training process. Specifically, we propose a simple yet effective few-shot backdoor attack (FSBA) that optimizes two losses alternately: 1) a \emph{feature loss} defined in the hidden feature space, and 2) the standard \emph{tracking loss}. We show that, once the backdoor is embedded into the target model by our FSBA, it can trick the model to lose track of specific objects even when the \emph{trigger} only appears in one or a few frames. We examine our attack in both digital and physical-world settings and show that it can significantly degrade the performance of state-of-the-art VOT trackers. We also show that our attack is resistant to potential defenses, highlighting the vulnerability of VOT models to potential backdoor attacks.
翻訳日:2022-02-01 15:06:51 公開日:2022-01-31
# 法律文書の自動構造化のためのコーパス

Corpus for Automatic Structuring of Legal Documents ( http://arxiv.org/abs/2201.13125v1 )

ライセンス: Link先を確認
Prathamesh Kalamkar and Aman Tiwari and Astha Agarwal and Saurabh Karn and Smita Gupta and Vivek Raghavan and Ashutosh Modi(参考訳) 人口の多い国では、保留中の訴訟が急増している。 法的文書の処理と整理のための技術を開発する必要がある。 本稿では,法律文書の構造化のための新しいコーパスを提案する。 特に,本論文では,トピックとコヒーレントな部分に分けられる法的判断文書のコーパスを英語で紹介する。 これらの各部分は、予め定義された修辞的役割のリストから得られるラベルでアノテートされる。 注釈付きコーパスに基づく法文書における修辞的役割を自動的に予測するベースラインモデルを開発した。 さらに,要約および法的判断予測のタスクにおける性能向上のための修辞的役割の適用について述べる。 我々は、コーパスおよびベースラインモデルコードを論文とともにリリースする。

In populous countries, pending legal cases have been growing exponentially. There is a need for developing techniques for processing and organizing legal documents. In this paper, we introduce a new corpus for structuring legal documents. In particular, we introduce a corpus of legal judgment documents in English that are segmented into topical and coherent parts. Each of these parts is annotated with a label coming from a list of pre-defined Rhetorical Roles. We develop baseline models for automatically predicting rhetorical roles in a legal document based on the annotated corpus. Further, we show the application of rhetorical roles to improve performance on the tasks of summarization and legal judgment prediction. We release the corpus and baseline model code along with the paper.
翻訳日:2022-02-01 14:43:13 公開日:2022-01-31
# byt5トランスフォーマーモデルによるダイアクリティックス・タイポスの補正

Correcting diacritics and typos with ByT5 transformer model ( http://arxiv.org/abs/2201.13242v1 )

ライセンス: Link先を確認
Lukas Stankevi\v{c}ius, Mantas Luko\v{s}evi\v{c}ius, Jurgita Kapo\v{c}i\=ut\.e-Dzikien\.e, Monika Briedien\.e, Tomas Krilavi\v{c}ius(参考訳) 生活の速さとオンラインコミュニケーション、英語とqwertyキーボードの普及により、人々はダイアクリティカルスを使用し、タイピング時にタイプミス(タイプミス)をする傾向がある。 ダイアクリティカルスペルの復元と修正は、人間と下流アルゴリズムの両方のテキストの適切な使用と曖昧化のために重要である。 しかしながら、これら2つの問題は一般的に別々に解決される。すなわち、最先端のダイアクリティカルな復元法は他のタイプを許容しない。 本研究では,新たに開発されたByT5バイトレベルのトランスモデルを用いて,両問題に一度に対処する。 ダイアクリティカルス修復とタイポス補正の同時手法により,13言語における最先端性能を実証し,α単語の精度の96%に達した。 また,12のベンチマークデータセットに対して,リトアニア語を付加したダイアクリティカルス復元を行う。 実験により,本手法は,少ないデータでトレーニングされたにもかかわらず,従来報告した結果と同等の結果(>98%)を達成できることが証明された。 また,訓練中に見ない単語のダイアクリティカルスを76%以上の精度で復元することができる。 また、より長いトレーニングでさらに改善するためのアキュラシーも示します。 これら全ては、より多くのデータ、言語、エラークラスに対して提案するメソッドの素晴らしい実世界応用可能性を示しています。

Due to the fast pace of life and online communications, the prevalence of English and the QWERTY keyboard, people tend to forgo using diacritics, make typographical errors (typos) when typing. Restoring diacritics and correcting spelling is important for proper language use and disambiguation of texts for both humans and downstream algorithms. However, both of these problems are typically addressed separately, i.e., state-of-the-art diacritics restoration methods do not tolerate other typos. In this work, we tackle both problems at once by employing newly-developed ByT5 byte-level transformer models. Our simultaneous diacritics restoration and typos correction approach demonstrates near state-of-the-art performance in 13 languages, reaching >96% of the alpha-word accuracy. We also perform diacritics restoration alone on 12 benchmark datasets with the additional one for the Lithuanian language. The experimental investigation proves that our approach is able to achieve comparable results (>98%) to previously reported despite being trained on fewer data. Our approach is also able to restore diacritics in words not seen during training with >76% accuracy. We also show the accuracies to further improve with longer training. All this shows a great real-world application potential of our suggested methods to more data, languages, and error classes.
翻訳日:2022-02-01 14:43:05 公開日:2022-01-31
# 最大濃度比推定による確率多様性の統一的視点:KL-ダイバージェンスと積分確率測定

Unified Perspective on Probability Divergence via Maximum Likelihood Density Ratio Estimation: Bridging KL-Divergence and Integral Probability Metrics ( http://arxiv.org/abs/2201.13127v1 )

ライセンス: Link先を確認
Masahiro Kato and Masaaki Imaizumi and Kentaro Minami(参考訳) 本稿では,最大最大密度比推定(DRE)の観点から,KL(Kulback-Leibler) 分割とIPM(IPMs)の統一的な視点を提供する。 kl-divergence と ipm はともに、生成的モデリングのようなアプリケーションの様々な分野で広く使われている。 しかし、これらの概念の統一的な理解はまだ未定である。 本稿では,kl-divergence と ipm はサンプリングスキームによってのみ異なる最大確率として表現できることを示すとともに,この結果を用いて ipms の統一形と緩和された推定法を導出する。 推定問題を開発するために, 階層化サンプリング方式でdreを行うために, 制約のない最大度推定器を構築した。 さらに,kl-divergence と ipms を補間する密度比メトリクス (drms) と呼ばれる新しい確率分岐法を提案する。 これらの知見に加えて、DREや生成的敵ネットワークといったDRMの応用についても紹介する。 実験では,提案手法の有効性を検証した。

This paper provides a unified perspective for the Kullback-Leibler (KL)-divergence and the integral probability metrics (IPMs) from the perspective of maximum likelihood density-ratio estimation (DRE). Both the KL-divergence and the IPMs are widely used in various fields in applications such as generative modeling. However, a unified understanding of these concepts has still been unexplored. In this paper, we show that the KL-divergence and the IPMs can be represented as maximal likelihoods differing only by sampling schemes, and use this result to derive a unified form of the IPMs and a relaxed estimation method. To develop the estimation problem, we construct an unconstrained maximum likelihood estimator to perform DRE with a stratified sampling scheme. We further propose a novel class of probability divergences, called the Density Ratio Metrics (DRMs), that interpolates the KL-divergence and the IPMs. In addition to these findings, we also introduce some applications of the DRMs, such as DRE and generative adversarial networks. In experiments, we validate the effectiveness of our proposed methods.
翻訳日:2022-02-01 14:42:08 公開日:2022-01-31
# 大きな線形層によるメモリ効率のよいバックプロパゲーション

Memory-Efficient Backpropagation through Large Linear Layers ( http://arxiv.org/abs/2201.13195v1 )

ライセンス: Link先を確認
Daniel Bershatsky, Aleksandr Mikhalev, Alexandr Katrutsa, Julia Gusak, Daniil Merkulov and Ivan Oseledets(参考訳) Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。 本研究では,線形層を介してバックプロパゲーションを行うためのメモリ削減手法を提案する。 線形層の勾配は行列の乗算によって計算されるため、ランダム化行列の乗算の手法を検討し、テスト精度を緩やかに低下させることなく、少ないメモリを必要とすることを示す。 また,ランダム化行列の乗算によって引き起こされる勾配推定のばらつきについて検討する。 このばらつきを,サンプルのバッチに基づく勾配推定から得られるばらつきと比較する。 GLUEタスク上で事前学習したRoBERTaモデルの微調整における提案手法の利点を示す。

In modern neural networks like Transformers, linear layers require significant memory to store activations during backward pass. This study proposes a memory reduction approach to perform backpropagation through linear layers. Since the gradients of linear layers are computed by matrix multiplications, we consider methods for randomized matrix multiplications and demonstrate that they require less memory with a moderate decrease of the test accuracy. Also, we investigate the variance of the gradient estimate induced by the randomized matrix multiplication. We compare this variance with the variance coming from gradient estimation based on the batch of samples. We demonstrate the benefits of the proposed method on the fine-tuning of the pre-trained RoBERTa model on GLUE tasks.
翻訳日:2022-02-01 14:41:46 公開日:2022-01-31
# NAS-Bench-Suite:NAS評価は驚くほど簡単

NAS-Bench-Suite: NAS Evaluation is (Now) Surprisingly Easy ( http://arxiv.org/abs/2201.13396v1 )

ライセンス: Link先を確認
Yash Mehta, Colin White, Arber Zela, Arjun Krishnakumar, Guri Zabergja, Shakiba Moradian, Mahmoud Safari, Kaicheng Yu, Frank Hutter(参考訳) NAS-Bench-101やNAS-Bench-201のような表型ベンチマークのリリースは、ニューラルネットワークサーチ(NAS)における科学的研究を行う際の計算オーバーヘッドを大幅に減らした。 実世界のNASアルゴリズムをチューニングするために広く採用され、使用されているが、これらのベンチマークは小さな検索空間に限られており、画像分類のみに焦点を当てている。 近年,オブジェクト検出,音声認識,自然言語処理など,幅広いタスクにまたがる検索空間を網羅するNASベンチマークがいくつか導入されている。 しかしながら、これらのNASベンチマークの実質的な違いは、研究者がほんの数個のベンチマークを使用することを制限して、広く採用されることを妨げている。 本研究では,一般的なNASアルゴリズムと25種類の検索空間とデータセットの組み合わせによる性能予測手法の詳細な解析を行い,NASベンチマークから得られた結論の多くが他のベンチマークに一般化されないことを示した。 NAS-Bench-SuiteはNASベンチマークの包括的かつ拡張可能な集合で、統一インターフェースを通じてアクセス可能であり、再現性、一般化性、迅速なNAS研究を促進することを目的としたものである。 私たちのコードはhttps://github.com/a utoml/naslibで利用可能です。

The release of tabular benchmarks, such as NAS-Bench-101 and NAS-Bench-201, has significantly lowered the computational overhead for conducting scientific research in neural architecture search (NAS). Although they have been widely adopted and used to tune real-world NAS algorithms, these benchmarks are limited to small search spaces and focus solely on image classification. Recently, several new NAS benchmarks have been introduced that cover significantly larger search spaces over a wide range of tasks, including object detection, speech recognition, and natural language processing. However, substantial differences among these NAS benchmarks have so far prevented their widespread adoption, limiting researchers to using just a few benchmarks. In this work, we present an in-depth analysis of popular NAS algorithms and performance prediction methods across 25 different combinations of search spaces and datasets, finding that many conclusions drawn from a few NAS benchmarks do not generalize to other benchmarks. To help remedy this problem, we introduce NAS-Bench-Suite, a comprehensive and extensible collection of NAS benchmarks, accessible through a unified interface, created with the aim to facilitate reproducible, generalizable, and rapid NAS research. Our code is available at https://github.com/a utoml/naslib.
翻訳日:2022-02-01 14:40:37 公開日:2022-01-31
# StRegA:小型文脈符号化変分オートエンコーダを用いた脳MRIにおける教師なし異常検出

StRegA: Unsupervised Anomaly Detection in Brain MRIs using a Compact Context-encoding Variational Autoencoder ( http://arxiv.org/abs/2201.13271v1 )

ライセンス: Link先を確認
Soumick Chatterjee, Alessandro Sciarra, Max D\"unnwald, Pavan Tummala, Shubham Kumar Agrawal, Aishwarya Jauhari, Aman Kalra, Steffen Oeltze-Jafra, Oliver Speck and Andreas N\"urnberger(参考訳) ヒト脳の解剖学的画像の専門的解釈は神経放射線学の中枢部である。 分析プロセスを支援するために、機械学習に基づくいくつかの技術が提案されている。 しかし、MLモデルは通常、脳腫瘍のセグメンテーションや分類といった特定のタスクを実行するために訓練される必要がある。 対応するトレーニングデータは、面倒な手動のアノテーションを必要とするだけでなく、人間の脳MRIに様々な異常が存在する可能性がある。 したがって、考えられる解決策は、教師なしの異常検出(UAD)システムであり、健康な被験者の不正なデータセットからデータ分布を学習し、分布サンプルの検出に応用することができる。 このような手法は、特定の病理のモデルを明示的に訓練することなく、病変や脳腫瘍などの異常を検出するために使用できる。 いくつかの変分オートエンコーダ(VAE)に基づく手法が過去に提案されている。 制御された人工的な異常はよく機能するが、多くは臨床データに異常が検出されている。 本研究は,脳MRIにおける腫瘍などの異常を検出するために,より堅牢なUADパイプライン(StRegA)を作製し,前処理と後処理を併用した「コンテキストエンコーディング(context-encoding)」VAE(ceVAE)」モデルのコンパクトバージョンを提案する。 提案するパイプラインでは,ブラッツデータセットのt2w画像の腫瘍を検知し0.642$\pm$0.101,人工的な異常を検知して0.859$\pm$0.112,最高性能のベースラインを0.522$\pm$0.135, 0.783$\pm$0.111とした。

Expert interpretation of anatomical images of the human brain is the central part of neuro-radiology. Several machine learning-based techniques have been proposed to assist in the analysis process. However, the ML models typically need to be trained to perform a specific task, e.g., brain tumour segmentation or classification. Not only do the corresponding training data require laborious manual annotations, but a wide variety of abnormalities can be present in a human brain MRI - even more than one simultaneously, which renders representation of all possible anomalies very challenging. Hence, a possible solution is an unsupervised anomaly detection (UAD) system that can learn a data distribution from an unlabelled dataset of healthy subjects and then be applied to detect out of distribution samples. Such a technique can then be used to detect anomalies - lesions or abnormalities, for example, brain tumours, without explicitly training the model for that specific pathology. Several Variational Autoencoder (VAE) based techniques have been proposed in the past for this task. Even though they perform very well on controlled artificially simulated anomalies, many of them perform poorly while detecting anomalies in clinical data. This research proposes a compact version of the "context-encoding&quo t; VAE (ceVAE) model, combined with pre and post-processing steps, creating a UAD pipeline (StRegA), which is more robust on clinical data, and shows its applicability in detecting anomalies such as tumours in brain MRIs. The proposed pipeline achieved a Dice score of 0.642$\pm$0.101 while detecting tumours in T2w images of the BraTS dataset and 0.859$\pm$0.112 while detecting artificially induced anomalies, while the best performing baseline achieved 0.522$\pm$0.135 and 0.783$\pm$0.111, respectively.
翻訳日:2022-02-01 14:39:39 公開日:2022-01-31
# (参考訳) vision checklist: 画像モデルのテスト可能なエラー解析に向けて - システム設計者がモデルの能力に疑問を呈するのに役立つ [全文訳有]

Vision Checklist: Towards Testable Error Analysis of Image Models to Help System Designers Interrogate Model Capabilities ( http://arxiv.org/abs/2201.11674v3 )

ライセンス: CC BY 4.0
Xin Du, Benedicte Legastelois, Bhargavi Ganesh, Ajitha Rajan, Hana Chockler, Vaishak Belle, Stuart Anderson, Subramanian Ramamoorthy(参考訳) 視覚トランスフォーマーなどの最近のモデルや、vggやresnetといったcnnベースのモデルの成功により、画像認識タスクに大規模な事前訓練済みモデルを使用することが増えている。 ベンチマークタスクにおけるこれらのモデルの高精度さは、自動運転や医療診断のような安全クリティカルなアプリケーションを含む、多くのドメインで実用化されている。 広く使われているにもかかわらず、画像モデルは運用環境の変化に弱いことが示され、その堅牢性に疑問が呈されている。 設計者が安全性と堅牢性を理解し、保証するために、これらのモデルの能力を体系的に特徴付け、定量化する手法が緊急に必要である。 本稿では,システム設計者がロバスト性評価に使用できるレポートを作成するために,モデルの能力を問うことを目的としたフレームワークであるvision checklistを提案する。 このフレームワークは、異なるタイプのテストサンプルを生成するために基礎となるデータに適用できる一連の摂動操作を提案する。 摂動は運用環境の潜在的な変化を反映し、厳密な量から質的な性質まで様々な特性を問う。 我々のフレームワークは、Tinyimagenet、CIFAR10、CIFAR100、Camelyon17のような複数のデータセットと、ViTやResnetのようなモデルで評価されている。 われわれのvision checklistは、モデルカードのコンセプトに組み込むことのできる、特定の評価セットを提案している。 私たちのチェックリストのようなロバストネス評価は、視覚認識モジュールの将来の安全性評価に不可欠であり、これらのシステムの認証に関わるデザイナー、デプロイ者、規制官を含む幅広い利害関係者に役立ちます。 Vision Checklistのソースコードは一般に公開されている。

Using large pre-trained models for image recognition tasks is becoming increasingly common owing to the well acknowledged success of recent models like vision transformers and other CNN-based models like VGG and Resnet. The high accuracy of these models on benchmark tasks has translated into their practical use across many domains including safety-critical applications like autonomous driving and medical diagnostics. Despite their widespread use, image models have been shown to be fragile to changes in the operating environment, bringing their robustness into question. There is an urgent need for methods that systematically characterise and quantify the capabilities of these models to help designers understand and provide guarantees about their safety and robustness. In this paper, we propose Vision Checklist, a framework aimed at interrogating the capabilities of a model in order to produce a report that can be used by a system designer for robustness evaluations. This framework proposes a set of perturbation operations that can be applied on the underlying data to generate test samples of different types. The perturbations reflect potential changes in operating environments, and interrogate various properties ranging from the strictly quantitative to more qualitative. Our framework is evaluated on multiple datasets like Tinyimagenet, CIFAR10, CIFAR100 and Camelyon17 and for models like ViT and Resnet. Our Vision Checklist proposes a specific set of evaluations that can be integrated into the previously proposed concept of a model card. Robustness evaluations like our checklist will be crucial in future safety evaluations of visual perception modules, and be useful for a wide range of stakeholders including designers, deployers, and regulators involved in the certification of these systems. Source code of Vision Checklist would be open for public use.
翻訳日:2022-02-01 13:50:00 公開日:2022-01-31
# (参考訳) Neural JPEG: 標準JPEGエンコーダデコーダを活用したエンドツーエンドの画像圧縮 [全文訳有]

Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG Encoder-Decoder ( http://arxiv.org/abs/2201.11795v2 )

ライセンス: CC BY 4.0
Ankur Mali and Alexander Ororbia and Daniel Kifer and Lee Giles(参考訳) ディープラーニングの最近の進歩は、さまざまなアプリケーションで超人的なパフォーマンスをもたらしている。 近年,これらの手法は画像圧縮作業における速度歪み性能の向上に成功している。 しかし、現在の手法では、圧縮を改善するためにデコーダエンドで追加のポストプロセッシングブロックを使用するか、ヒューリスティックスに基づくエンドツーエンド圧縮スキームを提案する。 これらの大多数では、訓練されたディープニューラルネットワーク(DNN)は標準エンコーダと互換性がなく、パーソナルコンピュータや携帯電話ではデプライが難しい。 そこで我々は,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を学習するシステムを提案し,そのアプローチをニューラルJPEGと呼ぶ。 本稿では,標準圧縮(JPEG)法を改善するために,エンコーダとデコーダの両端におけるDCT係数の分布を最適化する周波数領域事前編集法と後編集法を提案する。 さらに,このハイブリッドニューラル圧縮フレームワークにおいて,量子化テーブルを共同学習するためのスキームを設計・統合し,実験により,psnrやms-ssimといった様々な品質指標におけるjpegのレート分散性能の向上に成功し,色彩保持品質の高い視覚的に魅力的な画像を生成することを実証した。

Recent advances in deep learning have led to superhuman performance across a variety of applications. Recently, these methods have been successfully employed to improve the rate-distortion performance in the task of image compression. However, current methods either use additional post-processing blocks on the decoder end to improve compression or propose an end-to-end compression scheme based on heuristics. For the majority of these, the trained deep neural networks (DNNs) are not compatible with standard encoders and would be difficult to deply on personal computers and cellphones. In light of this, we propose a system that learns to improve the encoding performance by enhancing its internal neural representations on both the encoder and decoder ends, an approach we call Neural JPEG. We propose frequency domain pre-editing and post-editing methods to optimize the distribution of the DCT coefficients at both encoder and decoder ends in order to improve the standard compression (JPEG) method. Moreover, we design and integrate a scheme for jointly learning quantization tables within this hybrid neural compression framework.Experiment s demonstrate that our approach successfully improves the rate-distortion performance over JPEG across various quality metrics, such as PSNR and MS-SSIM, and generates visually appealing images with better color retention quality.
翻訳日:2022-02-01 13:08:37 公開日:2022-01-31
# (参考訳) 再生医療用超音波画像を用いた多孔性バイオエラストマーのコンピュータ支援認識と評価 [全文訳有]

Computer-aided Recognition and Assessment of a Porous Bioelastomer on Ultrasound Images for Regenerative Medicine Applications ( http://arxiv.org/abs/2201.11987v2 )

ライセンス: CC BY 4.0
Dun Wang, Kaixuan Guo, Yanying Zhu, Jia Sun, Aliona Dreglea, Jiao Yu(参考訳) 生分解性弾性足場は軟組織修復や組織工学の分野でますます注目を集めている。 多孔質のバイオエラストマーからなるこれらの足場は、組織の成長とそれ自身の分解をサポートする。 超音波画像に基づくコンピュータ支援分析手法を開発し, 足場の劣化性能を把握し, 破壊試験を行う必要をなくすだけでなく, 足場の劣化や組織成長を経時的に監視するためにも必要である。 多孔質バイオエラストマーの連続的かつ正確な輪郭を抽出するために、単一の伝統的な画像処理アルゴリズムを用いるのは難しい。 本稿では,生体エラストマーの輪郭検出のためのジョイントアルゴリズムと,生体エラストマーの劣化挙動を監視するテクスチャ特徴抽出法を提案する。 平均シフトクラスタリング法は、生体エラストマーおよび生体組織のクラスタリング特徴情報を得るために用いられる。 そして、大津画像2値化方法は、最適な閾値を自動的に選択してグレースケール超音波画像を2値画像に変換する。 カニーエッジ検出器は完全なバイオエラストマーの輪郭を抽出するために用いられる。 テクスチャの1次および2次統計特徴を抽出する。 提案手法は, 超音波画像中の生体エラストマーの輪郭を理想的に抽出するだけでなく, テクスチャ特性と輪郭面積の変化に基づき, インプラント部位における生体エラストマーの劣化挙動に対する貴重なフィードバックを与える。 本研究の予備的な結果から, 提案したコンピュータ支援画像処理技術は, 生体内超音波画像を用いた非侵襲的組織足場解析に有用であり, 組織足場劣化と細胞成長の進展を評価し, 足場設計の改善に役立つ可能性が示唆された。

Biodegradable elastic scaffolds have attracted more and more attention in the field of soft tissue repair and tissue engineering. These scaffolds made of porous bioelastomers support tissue ingrowth along with their own degradation. It is necessary to develop a computer-aided analyzing method based on ultrasound images to identify the degradation performance of the scaffold, not only to obviate the need to do destructive testing, but also to monitor the scaffold's degradation and tissue ingrowth over time. It is difficult using a single traditional image processing algorithm to extract continuous and accurate contour of a porous bioelastomer. This paper proposes a joint algorithm for the bioelastomer's contour detection and a texture feature extraction method for monitoring the degradation behavior of the bioelastomer. Mean-shift clustering method is used to obtain the bioelastomer's and native tissue's clustering feature information. Then the OTSU image binarization method automatically selects the optimal threshold value to convert the grayscale ultrasound image into a binary image. The Canny edge detector is used to extract the complete bioelastomer's contour. The first-order and second-order statistical features of texture are extracted. The proposed joint algorithm not only achieves the ideal extraction of the bioelastomer's contours in ultrasound images, but also gives valuable feedback of the degradation behavior of the bioelastomer at the implant site based on the changes of texture characteristics and contour area. The preliminary results of this study suggest that the proposed computer-aided image processing techniques have values and potentials in the non-invasive analysis of tissue scaffolds in vivo based on ultrasound images and may help tissue engineers evaluate the tissue scaffold's degradation and cellular ingrowth progress and improve the scaffold designs.
翻訳日:2022-02-01 12:53:39 公開日:2022-01-31
# 知覚再構成を用いた教師なし単発深度推定

Unsupervised Single-shot Depth Estimation using Perceptual Reconstruction ( http://arxiv.org/abs/2201.12170v2 )

ライセンス: Link先を確認
Christoph Angermann, Matthias Schwab, Markus Haltmeier, Christian Laubichler and Steinbj\"orn J\'onsson(参考訳) 実物体深度の実時間推定は,3次元再構成,シーン理解,機械部品の状態評価など,様々な自律システムタスクの実行に不可欠なモジュールである。 機械学習の過去10年間、コンピュータビジョンタスクへのディープラーニング手法の広範な展開は、単純なRGBモダリティから現実的な深度合成を実現するためのアプローチを生み出してきた。 これらのモデルのほとんどは、対の深度データやビデオシーケンスやステレオ画像の可用性に基づいているが、完全な教師なし設定での単視点深度合成の手法はほとんど検討されていない。 この研究は、生成ニューラルネットワークの分野における最新の進歩を示し、それらを活用して完全に教師なしの単発深度合成を行う。 RGB-to-deepthとdeep-to-RGB転送用の2つのジェネレータを実装し,Wasserstein-1距離と新しい知覚再構成項を用いて同時に最適化した。 提案手法が検証可能であることを確認するため, 工業用表面深度データと, 体深を記録するテキサス3次元顔認識データベースとSURREALデータセットを用いて, モデルを総合的に評価した。 この研究で得られた成功は、実世界のアプリケーションにおける教師なし単発深度推定の可能性を示唆している。

Real-time estimation of actual object depth is a module that is essential to performing various autonomous system tasks such as 3D reconstruction, scene understanding and condition assessment of machinery parts. During the last decade of machine learning, extensive deployment of deep learning methods to computer vision tasks has yielded approaches that succeed in achieving realistic depth synthesis out of a simple RGB modality. While most of these models are based on paired depth data or availability of video sequences and stereo images, methods for single-view depth synthesis in a fully unsupervised setting have hardly been explored. This study presents the most recent advances in the field of generative neural networks, leveraging them to perform fully unsupervised single-shot depth synthesis. Two generators for RGB-to-depth and depth-to-RGB transfer are implemented and simultaneously optimized using the Wasserstein-1 distance and a novel perceptual reconstruction term. To ensure that the proposed method is plausible, we comprehensively evaluate the models using industrial surface depth data as well as the Texas 3D Face Recognition Database and the SURREAL dataset that records body depth. The success observed in this study suggests the great potential for unsupervised single-shot depth estimation in real-world applications.
翻訳日:2022-02-01 12:41:12 公開日:2022-01-31
# fcmnet:マルチエージェントシステムにおけるチームレベルの協調のためのフルコミュニケーションメモリネット

FCMNet: Full Communication Memory Net for Team-Level Cooperation in Multi-Agent Systems ( http://arxiv.org/abs/2201.11994v2 )

ライセンス: Link先を確認
Yutong Wang and Guillaume Sartoretti(参考訳) 部分観測可能なマルチエージェントシステムにおける分散協調は、エージェント間の効果的な通信を必要とする。 この取り組みをサポートするため、本研究は、グローバルコミュニケーションが利用可能だが信頼性に欠ける可能性のある問題のクラスに焦点を当てている。 エージェントが同時に学習できる強化学習ベースのアプローチであるFCMNetを導入する。 a) 効果的なマルチホップ通信プロトコル及び b)チームレベルの意思決定を可能にする共通の分散型政策。 具体的には,エージェント間の通信メッセージとして,複数方向リカレントニューラルネットワークの隠れ状態を利用する。 単純なマルチホップトポロジーを用いて,各エージェントに,各エージェントがシーケンシャルにエンコードした情報を各時間ステップ毎に受信する能力を与え,グローバルな協調性を改善する。 FCMNetは、共有報酬を伴うStarCraft IIマイクロマネジメントタスクの挑戦的なセットと、個別報酬を伴う協調的なマルチエージェントパスフィンディングタスクを実証する。 そこで本研究では,FCMNetがStarCraft IIマイクロマネジメントタスクにおいて,最先端のコミュニケーションに基づく強化学習手法と,特定のタスクにおける価値分解手法より優れていることを示す。 さらに,ランダムなメッセージ損失や2元化メッセージ(非微分可能通信チャネル)といった現実的通信障害下でのfcmnetのロバスト性について検討し,様々な実環境下でのロボットタスクへのfmcnetの適用可能性を示す。

Decentralized cooperation in partially-observable multi-agent systems requires effective communications among agents. To support this effort, this work focuses on the class of problems where global communications are available but may be unreliable, thus precluding differentiable communication learning methods. We introduce FCMNet, a reinforcement learning based approach that allows agents to simultaneously learn a) an effective multi-hop communications protocol and b) a common, decentralized policy that enables team-level decision-making. Specifically, our proposed method utilizes the hidden states of multiple directional recurrent neural networks as communication messages among agents. Using a simple multi-hop topology, we endow each agent with the ability to receive information sequentially encoded by every other agent at each time step, leading to improved global cooperation. We demonstrate FCMNet on a challenging set of StarCraft II micromanagement tasks with shared rewards, as well as a collaborative multi-agent pathfinding task with individual rewards. There, our comparison results show that FCMNet outperforms state-of-the-art communication-based reinforcement learning methods in all StarCraft II micromanagement tasks, and value decomposition methods in certain tasks. We further investigate the robustness of FCMNet under realistic communication disturbances, such as random message loss or binarized messages (i.e., non-differentiable communication channels), to showcase FMCNet's potential applicability to robotic tasks under a variety of real-world conditions.
翻訳日:2022-02-01 12:40:51 公開日:2022-01-31
# 連続行動空間における政策鏡の隠れバイアスについて

On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces ( http://arxiv.org/abs/2201.12332v2 )

ライセンス: Link先を確認
Amrit Singh Bedi, Souradip Chakraborty, Anjaly Parayil, Brian Sadler, Pratap Tokekar, Alec Koppel(参考訳) 連続行動空間上での強化学習のためのパラメータ化政策探索に着目した。 典型的には、ポリシーに関連するスコア関数は有界であると仮定するが、ガウスのポリシーでさえ保持できない。 この問題に適切に対処するには、境界のある領域を定量化する探索許容パラメータを導入する必要がある。 このようなことは、期待される方針勾配ノルムの減衰率に現れる永続的なバイアスを生じさせ、これは作用空間の半径に逆比例する。 この隠れたバイアスを軽減するために、境界スコア関数を示すヘビーテールのポリシーパラメータ化が用いられるが、アルゴリズム更新の不安定性を引き起こす可能性がある。 そこで本研究では,重み付きパラメータ化下でのポリシー勾配アルゴリズムの収束について検討し,ミラーアセント型更新と勾配追跡を組み合わせることで安定化する手法を提案する。 我々の理論的な主な貢献は、このスキームが一定のステップとバッチサイズに収束すること、一方、以前の研究ではこれらのパラメータをそれぞれnullに縮小するか無限大に成長させる必要があることである。 実験的に、重み付きポリシーパラメータ化の下でこのスキームは、標準ベンチマークと比べて様々な設定で報酬の蓄積が改善される。

We focus on parameterized policy search for reinforcement learning over continuous action spaces. Typically, one assumes the score function associated with a policy is bounded, which fails to hold even for Gaussian policies. To properly address this issue, one must introduce an exploration tolerance parameter to quantify the region in which it is bounded. Doing so incurs a persistent bias that appears in the attenuation rate of the expected policy gradient norm, which is inversely proportional to the radius of the action space. To mitigate this hidden bias, heavy-tailed policy parameterizations may be used, which exhibit a bounded score function, but doing so can cause instability in algorithmic updates. To address these issues, in this work, we study the convergence of policy gradient algorithms under heavy-tailed parameterizations, which we propose to stabilize with a combination of mirror ascent-type updates and gradient tracking. Our main theoretical contribution is the establishment that this scheme converges with constant step and batch sizes, whereas prior works require these parameters to respectively shrink to null or grow to infinity. Experimentally, this scheme under a heavy-tailed policy parameterization yields improved reward accumulation across a variety of settings as compared with standard benchmarks.
翻訳日:2022-02-01 12:40:24 公開日:2022-01-31
# 不完全な測定から学ぶためのサンプリング定理

Sampling Theorems for Learning from Incomplete Measurements ( http://arxiv.org/abs/2201.12151v2 )

ライセンス: Link先を確認
Juli\'an Tachella, Dongdong Chen and Mike Davies(参考訳) 多くの実世界の環境では、学習に問題を引き起こす可能性のある不完全な測定データのみが利用可能である。 固定不完全測定プロセスを用いた信号モデルの教師なし学習は一般に不可能であり、測定演算子のヌルスペースには情報がない。 この制限は、複数の演算子の測定によって克服できる。 このアイデアは様々な応用でうまく適用されているが、学習条件の正確なキャラクタリゼーションはまだ不足している。 本稿では,このギャップを埋めるために,個別計測演算子$g$,オペレータあたりの計測回数$m$,モデル$k$の次元,信号の次元$n$との相互作用を示す信号モデルを学ぶための必要十分条件を提示する。 特に,各演算子が少なくとも$m>k+n/G$の測定値を得た場合,一般教師なし学習が可能であることを示す。 結果は学習アルゴリズムに依存せず,低ランク行列回復からディープニューラルネットワークまで,多岐にわたる実用的なアルゴリズムに影響を与えている。

In many real-world settings, only incomplete measurement data are available which can pose a problem for learning. Unsupervised learning of the signal model using a fixed incomplete measurement process is impossible in general, as there is no information in the nullspace of the measurement operator. This limitation can be overcome by using measurements from multiple operators. While this idea has been successfully applied in various applications, a precise characterization of the conditions for learning is still lacking. In this paper, we fill this gap by presenting necessary and sufficient conditions for learning the signal model which indicate the interplay between the number of distinct measurement operators $G$, the number of measurements per operator $m$, the dimension of the model $k$ and the dimension of the signals $n$. In particular, we show that generically unsupervised learning is possible if each operator obtains at least $m>k+n/G$ measurements. Our results are agnostic of the learning algorithm and have implications in a wide range of practical algorithms, from low-rank matrix recovery to deep neural networks.
翻訳日:2022-02-01 12:40:03 公開日:2022-01-31
# DeepSpeed と Megatron を用いた大規模生成言語モデル NLG 530B の訓練

Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model ( http://arxiv.org/abs/2201.11990v2 )

ライセンス: Link先を確認
Shaden Smith, Mostofa Patwary, Brandon Norick, Patrick LeGresley, Samyam Rajbhandari, Jared Casper, Zhun Liu, Shrimai Prabhumoye, George Zerveas, Vijay Korthikanti, Elton Zhang, Rewon Child, Reza Yazdani Aminabadi, Julie Bernauer, Xia Song, Mohammad Shoeybi, Yuxiong He, Michael Houston, Saurabh Tiwary, and Bryan Catanzaro(参考訳) 事前訓練された汎用言語モデルは、ゼロショット、少数ショット、微調整技術を用いて下流タスクに適応することで、様々な自然言語処理領域における最先端の精度を達成することができる。 その成功により、これらのモデルのサイズは急速に増加し、そのような大規模モデルのトレーニングを可能にするために高性能なハードウェア、ソフトウェア、アルゴリズム技術が必要となった。 MicrosoftとNVIDIAの共同作業の結果、我々は最大のモノリシックトランスフォーマーベースの言語モデルであるMegatron-Turing NLG 530B(MT-NLG)のトレーニングの詳細を5300億のパラメータで提示した。 本稿では,まず,このモデルをdeepspeedとmegatronを用いてトレーニングするための3次元並列化手法とともに,インフラストラクチャに焦点をあてる。 次に、トレーニングプロセス、トレーニングコーパスの設計、データキュレーション技術について詳述する。 最後に,MT-NLGによる様々な評価結果と,他の興味深い観測結果と新たな特性について考察する。 MT-NLGは、いくつかのNLPベンチマークにおいて、優れたゼロ、ワンショット、少数ショットの学習精度を実現し、新しい最先端結果を確立することを実証する。 私たちの貢献は、大規模トレーニングインフラストラクチャ、大規模言語モデル、および自然言語世代の発展に役立ちます。

Pretrained general-purpose language models can achieve state-of-the-art accuracies in various natural language processing domains by adapting to downstream tasks via zero-shot, few-shot and fine-tuning techniques. Because of their success, the size of these models has increased rapidly, requiring high-performance hardware, software, and algorithmic techniques to enable training such large models. As the result of a joint effort between Microsoft and NVIDIA, we present details on the training of the largest monolithic transformer based language model, Megatron-Turing NLG 530B (MT-NLG), with 530 billion parameters. In this paper, we first focus on the infrastructure as well as the 3D parallelism methodology used to train this model using DeepSpeed and Megatron. Next, we detail the training process, the design of our training corpus, and our data curation techniques, which we believe is a key ingredient to the success of the model. Finally, we discuss various evaluation results, as well as other interesting observations and new properties exhibited by MT-NLG. We demonstrate that MT-NLG achieves superior zero-, one-, and few-shot learning accuracies on several NLP benchmarks and establishes new state-of-the-art results. We believe that our contributions will help further the development of large-scale training infrastructures, large-scale language models, and natural language generations.
翻訳日:2022-02-01 12:39:46 公開日:2022-01-31
# コンフォメーション予測による専門家予測の改善

Provably Improving Expert Predictions with Conformal Prediction ( http://arxiv.org/abs/2201.12006v2 )

ライセンス: Link先を確認
Eleni Straitouri and Lequn Wang and Nastaran Okati and Manuel Gomez Rodriguez(参考訳) 自動意思決定支援システムは、人間の専門家がより効率的に正確にタスクを解決できるようにする。 しかし、既存のシステムは一般に専門家に、いつエージェンシーをシステムに割譲するか、いつ独自のエージェンシーを行使するかを理解する必要がある。 さらに、専門家がシステムに対する誤った信頼を育むと、パフォーマンスが悪化する可能性がある。 この作業では、上記の要件を引き上げ、設計上、専門家がいつパフォーマンスを確実に向上させるかを理解する必要のない自動意思決定支援システムを開発する。 この目的のために,マルチクラス分類タスクに着目し,各データサンプルに対してラベルのサブセットを人間エキスパートに推薦するために分類器を使用する自動決定支援システムを検討する。 まず,そのようなシステムの設計を共形予測の観点から見ることにより,ラベルの推奨部分集合が真のラベルを含む確率が,ほぼ正確にターゲット確率値に一致することを確かめる。 そこで,提案するサブセット内のラベルの予測が極めて良好であるターゲット確率値のセットを特定し,最適に近いターゲット確率値を求めるための効率的な実用的な方法を開発した。 合成データと実データを用いた実験により,本システムはより正確な予測を行うことができ,それに依存する分類器の精度にロバストであることが証明された。

Automated decision support systems promise to help human experts solve tasks more efficiently and accurately. However, existing systems typically require experts to understand when to cede agency to the system or when to exercise their own agency. Moreover, if the experts develop a misplaced trust in the system, their performance may worsen. In this work, we lift the above requirement and develop automated decision support systems that, by design, do not require experts to understand when to trust them to provably improve their performance. To this end, we focus on multiclass classification tasks and consider automated decision support systems that, for each data sample, use a classifier to recommend a subset of labels to a human expert. We first show that, by looking at the design of such systems from the perspective of conformal prediction, we can ensure that the probability that the recommended subset of labels contains the true label matches almost exactly a target probability value. Then, we identify the set of target probability values under which the human expert is provably better off predicting a label among those in the recommended subset and develop an efficient practical method to find a near-optimal target probability value. Experiments on synthetic and real data demonstrate that our system can help the experts make more accurate predictions and is robust to the accuracy of the classifier it relies on.
翻訳日:2022-02-01 12:37:07 公開日:2022-01-31
# エンドツーエンド音声認識のためのニューラルFSTクラス言語モデル

Neural-FST Class Language Model for End-to-End Speech Recognition ( http://arxiv.org/abs/2201.11867v2 )

ライセンス: Link先を確認
Antoine Bruguier, Duc Le, Rohit Prabhavalkar, Dangna Li, Zhe Liu, Bo Wang, Eun Chang, Fuchun Peng, Ozlem Kalinli, Michael L. Seltzer(参考訳) ニューラルネットワーク言語モデル(NNLM)と有限状態トランスデューサ(FST)を数学的に一貫した枠組みで組み合わせた,エンドツーエンド音声認識のためのニューラルFSTクラス言語モデル(NFCLM)を提案する。 提案手法は,汎用的な背景テキストをモデル化するバックグラウンドNNLMと,個別FSTとしてモデル化されたドメイン固有エンティティのコレクションを利用する。 それぞれの出力トークンはこれらの成分の混合によって生成され、混合重みは個別に訓練された神経決定器で推定される。 その結果,NFCLMは単語誤り率においてNNLMを15.8%上回っていることがわかった。 NFCLM は従来の NNLM や FST の浅層核融合と同等の性能を保ちながら、オーバーバイアスや12倍のコンパクトさを保ち、デバイス上での使用に適している。

We propose Neural-FST Class Language Model (NFCLM) for end-to-end speech recognition, a novel method that combines neural network language models (NNLMs) and finite state transducers (FSTs) in a mathematically consistent framework. Our method utilizes a background NNLM which models generic background text together with a collection of domain-specific entities modeled as individual FSTs. Each output token is generated by a mixture of these components; the mixture weights are estimated with a separately trained neural decider. We show that NFCLM significantly outperforms NNLM by 15.8% relative in terms of Word Error Rate. NFCLM achieves similar performance as traditional NNLM and FST shallow fusion while being less prone to overbiasing and 12 times more compact, making it more suitable for on-device usage.
翻訳日:2022-02-01 12:36:44 公開日:2022-01-31