このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211108となっている論文です。

PDF登録状況(公開日: 20211108)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ディープラーニングモデルとベクトル空間モデルによる人工知能特許を用いた人工知能技術解析 [全文訳有]

Artificial Intelligence Technology analysis using Artificial Intelligence patent through Deep Learning model and vector space model ( http://arxiv.org/abs/2111.11295v1 )

ライセンス: CC BY 4.0
Yongmin Yoo, Dongjin Lim, Kyungsun Kim(参考訳) 近年の人工知能技術の急速な発展により、現在の人工知能技術は社会の多くの部分に貢献している。 教育、環境、医療、軍事、観光、経済、政治などが社会全体に大きな影響を与えている。 例えば、教育の分野では、生徒のレベルに応じて自動的に家庭教師を割り当てる人工知能の家庭教師システムがある。 経済分野では、大量のデータを自動分析して投資法を見つけ、投資モデルを作成し、金融市場の変化を予測する定量的な投資方法が存在する。 そのため、人工知能技術は様々な分野で使われている。 したがって、人工知能技術の各分野に重要な影響を与える要因と、各分野の関係がどのように結びついているかを正確に知ることが非常に重要である。 そのため、各分野の人工知能技術を分析する必要がある。 本稿では,人工知能技術に関する特許文書を解析する。 本稿では,人工知能技術解析のための人工知能特許データセットを用いた要素内キーワード分析手法を提案する。 これは、KeyBERTという名前のディープラーニングモデルに基づく機能工学に依存し、ベクトル空間モデルを使用するモデルである。 人工知能の特許データの収集と分析に関する事例研究を行い,提案モデルが実世界問題にどのように適用できるかを示した。

Thanks to rapid development of artificial intelligence technology in recent years, the current artificial intelligence technology is contributing to many part of society. Education, environment, medical care, military, tourism, economy, politics, etc. are having a very large impact on society as a whole. For example, in the field of education, there is an artificial intelligence tutoring system that automatically assigns tutors based on student's level. In the field of economics, there are quantitative investment methods that automatically analyze large amounts of data to find investment laws to create investment models or predict changes in financial markets. As such, artificial intelligence technology is being used in various fields. So, it is very important to know exactly what factors have an important influence on each field of artificial intelligence technology and how the relationship between each field is connected. Therefore, it is necessary to analyze artificial intelligence technology in each field. In this paper, we analyze patent documents related to artificial intelligence technology. We propose a method for keyword analysis within factors using artificial intelligence patent data sets for artificial intelligence technology analysis. This is a model that relies on feature engineering based on deep learning model named KeyBERT, and using vector space model. A case study of collecting and analyzing artificial intelligence patent data was conducted to show how the proposed model can be applied to real world problems.
翻訳日:2021-11-28 20:13:58 公開日:2021-11-08
# 相互相関に基づく類似性の比較

Comparing Cross Correlation-Based Similarities ( http://arxiv.org/abs/2111.08513v1 )

ライセンス: Link先を確認
Luciano da F. Costa(参考訳) 2つの多重集合や函数の間の共通積は、その非線形性にもかかわらず、実ベクトルや函数空間の内部積と類似していると解釈できる。 他の興味深い機能に加えて、それぞれの相関関係を導出することができ、その概念的および計算的単純さに加えて、テンプレートマッチングのようなタスクで強化された結果を提供できることが証明されている。 本研究では,実数値のマルチセットjaccardと一致指標に基づくマルチセットベース相関を比較検討し,パターン認識やディープラーニングだけでなく,一般に科学的モデリングにおいても即時に影響する結果を奨励する。 予想通り, マルチセット相関法, 特に一致指数は, ノイズがあっても2次ピークが減衰する一方, より鋭く狭いピークを特徴とする顕著な性能を示した。 特に、一致指数から導かれる2つの手法は、最も鋭く、最も狭いピークと、二次ピークの強い減衰を導いた。 しかし、交叉相関は対称付加雑音に対する最も頑健性を示し、検討した手法の組み合わせを示唆した。 従来の相互相関法と同様に,マルチセット手法の性能に関する予備的な研究の後,上記の手法の研究に体系的な比較フレームワークを提案し,適用した。 一致相関の確認を含むいくつかの興味深い結果が報告され、これは2次マッチが完全に減衰する間、狭く鋭いピークの検出に関する性能の向上をもたらすものである。 また, この組み合わせ手法は, 強い付加雑音の存在下での信号に対する良好な性能を確認できた。

The common product between two multisets or functions can be understood as being analogue to the inner product in real vector or function spaces in spite of its non-linear nature. In addition to other interesting features, it also allows respective correlations to be derived which, in addition to their conceptual and computational simplicity, have been verified to be able to provide enhanced results in tasks such as template matching. The multiset-based correlations based on the real-valued multiset Jaccard and coincidence indices are compared in this work, with encouraging results which have immediate implications not only in pattern recognition and deep learning, but also in scientific modeling in general. As expected, the multiset correlation methods, and especially the coincidence index, presented remarkable performance characterized by sharper and narrower peaks while secondary peaks were attenuated, even in presence of noise. In particular, the two methods derived from the coincidence index led to the sharpest and narrowest peaks, as well as intense attenuation of the secondary peaks. The cross correlation, however, presented the best robustness to symmetric additive noise, which suggested a combination of the considered approaches. After a preliminary investigation of the performance of the multiset approaches, as well as the classic cross-correlation, a systematic comparison framework is proposed and applied for the study of the aforementioned methods. Several interesting results are reported, including the confirmation, at least for the considered type of data, of the coincidence correlation as providing enhanced performance regarding detection of narrow, sharp peaks while secondary matches are duly attenuated. The combined method also confirmed its good performance for signals in presence of intense additive noise.
翻訳日:2021-11-21 14:55:58 公開日:2021-11-08
# (参考訳) 未知および高次元条件分布の逆サンプリング [全文訳有]

Adversarial sampling of unknown and high-dimensional conditional distributions ( http://arxiv.org/abs/2111.05962v1 )

ライセンス: CC BY 4.0
Malik Hassanaly, Andrew Glaws, Karen Stengel, Ryan N. King(参考訳) 多くの工学的な問題は、実現から実現までの変数の予測や、モデル化された量の洗練された記述を必要とする。 この場合、おそらく数百万の自由度を持つ未知の高次元空間の要素をサンプリングする必要がある。 確率密度関数(PDF)から既知の形状の要素をサンプリングする手法は存在するが、分布が不明な場合にはいくつかの近似を行う必要がある。 本稿では,2つの競合するニューラルネットワークをトレーニングして,トレーニングセット分布からサンプルを効果的に生成できるネットワークを生成するGAN(Generative Adversarial Network)と呼ばれるデータ駆動型手法を用いて,サンプリング手法と基礎分布の推定を行う。 実際には、条件分布からサンプルを描くことがしばしば必要である。 条件変数が連続である場合、条件変数の特定の値に対応する1つの(もし)データポイントのみが利用可能であり、条件分布を推定するには不十分である。 本研究は,PDFの条件モーメントの事前推定を用いてこの問題に対処する。 これらのモーメントを計算するために、確率的推定と外部ニューラルネットワークという2つのアプローチが比較されるが、任意の好ましい方法が利用できる。 このアルゴリズムは、フィルタされた乱流場の非畳み込みの場合に実証される。 提案アルゴリズムのすべてのバージョンは, 対象条件分布を, 最先端手法と比較して, 試料の品質に最小限の影響で効果的にサンプリングすることを示した。 さらに、この手順は連続変数条件付き条件付きgan(cgan)によって生成されるサンプルの多様性の指標として使用できる。

Many engineering problems require the prediction of realization-to-reali zation variability or a refined description of modeled quantities. In that case, it is necessary to sample elements from unknown high-dimensional spaces with possibly millions of degrees of freedom. While there exist methods able to sample elements from probability density functions (PDF) with known shapes, several approximations need to be made when the distribution is unknown. In this paper the sampling method, as well as the inference of the underlying distribution, are both handled with a data-driven method known as generative adversarial networks (GAN), which trains two competing neural networks to produce a network that can effectively generate samples from the training set distribution. In practice, it is often necessary to draw samples from conditional distributions. When the conditional variables are continuous, only one (if any) data point corresponding to a particular value of a conditioning variable may be available, which is not sufficient to estimate the conditional distribution. This work handles this problem using an a priori estimation of the conditional moments of a PDF. Two approaches, stochastic estimation, and an external neural network are compared here for computing these moments; however, any preferred method can be used. The algorithm is demonstrated in the case of the deconvolution of a filtered turbulent flow field. It is shown that all the versions of the proposed algorithm effectively sample the target conditional distribution with minimal impact on the quality of the samples compared to state-of-the-art methods. Additionally, the procedure can be used as a metric for the diversity of samples generated by a conditional GAN (cGAN) conditioned with continuous variables.
翻訳日:2021-11-13 06:37:01 公開日:2021-11-08
# ARISE: 周期図とガウス性推定のない効率的な市場のためのアペリオディックなセミパラメトリックプロセス

ARISE: ApeRIodic SEmi-parametric Process for Efficient Markets without Periodogram and Gaussianity Assumptions ( http://arxiv.org/abs/2111.06222v1 )

ライセンス: Link先を確認
Shao-Qun Zhang, Zhi-Hua Zhou(参考訳) 効率的な市場の長期記憶の緩和と学習は、機械学習と金融経済学とシーケンシャルデータとの相互作用における根本的な問題である。 この問題が顕在化しているにもかかわらず、現在の治療はヒューリスティックな技術にほとんど制限されるか、周期図やガウス性仮説に大きく依存している。 本稿では,ARISE(Aperiodic Semi-parametric)プロセスを用いて,効率的な市場調査を行う。 ARISEプロセスは、いくつかの既知のプロセスの無限サム関数として定式化され、周期スペクトル推定を用いて鍵ハイパーパラメータを決定することにより、長期記憶、非定常、非周期スペクトルで価格データをモデル化するパワーとポテンシャルを有する。 さらに、ARISEプロセスは、周期図やガウス性仮定なしで平均二乗収束、一貫性、漸近正規性を持つことを示す。 実際に、ARISEプロセスを適用し、実世界の市場の効率性を特定する。 さらに、様々な機械学習モデルの長期記憶可能性の研究と、時系列の推測と予測のための潜在状態空間モデルの開発という2つの代替ARISEアプリケーションも提供する。 数値実験により提案手法の優位性が確認された。

Mimicking and learning the long-term memory of efficient markets is a fundamental problem in the interaction between machine learning and financial economics to sequential data. Despite the prominence of this issue, current treatments either remain largely limited to heuristic techniques or rely significantly on periodogram or Gaussianty assumptions. In this paper, we present the ApeRIodic SEmi-parametric (ARISE) process for investigating efficient markets. The ARISE process is formulated as an infinite-sum function of some known processes and employs the aperiodic spectrum estimation to determine the key hyper-parameters, thus possessing the power and potential of modeling the price data with long-term memory, non-stationarity, and aperiodic spectrum. We further theoretically show that the ARISE process has the mean-square convergence, consistency, and asymptotic normality without periodogram and Gaussianity assumptions. In practice, we apply the ARISE process to identify the efficiency of real-world markets. Besides, we also provide two alternative ARISE applications: studying the long-term memorability of various machine-learning models and developing a latent state-space model for inference and forecasting of time series. The numerical experiments confirm the superiority of our proposed approaches.
翻訳日:2021-11-12 13:49:25 公開日:2021-11-08
# 鉄道橋梁部材の振動ひずみ予測のためのlong short-term memory (lstm)ネットワークによる学習

Learning via Long Short-Term Memory (LSTM) network for predicting strains in Railway Bridge members under train induced vibration ( http://arxiv.org/abs/2111.06259v1 )

ライセンス: Link先を確認
Amartya Dutta and Kamaljyoti Nath(参考訳) 機械学習ツールを用いたブリッジヘルスモニタリングは、近年、効率的でコスト効率の良いアプローチとなっている。 本研究は,IITグワハチによる以前の研究から得られた鉄道橋梁部材のひずみを利用したものである。 これらのひずみデータは既存の橋から収集され、列車は橋を渡っていた。 LSTMは、ネットワークをトレーニングし、鉄道橋の異なる部材のひずみを予測するために使用される。 実際のフィールドデータは, 単一部材のひずみデータを用いて, 異なる部材のひずみを予測する目的で使用されているが, 基底真理値とはかなり一致している。 これは、データに多くのノイズがあったにもかかわらず、トレーニングにおけるLSTMの有効性を示し、ノイズの多いフィールドデータから予測する。 これにより、より少ない数のセンサで橋からデータを収集し、lstmネットワークを介して他のメンバーのひずみデータを予測できる可能性が開ける可能性がある。

Bridge health monitoring using machine learning tools has become an efficient and cost-effective approach in recent times. In the present study, strains in railway bridge member, available from a previous study conducted by IIT Guwahati has been utilized. These strain data were collected from an existing bridge while trains were passing over the bridge. LSTM is used to train the network and to predict strains in different members of the railway bridge. Actual field data has been used for the purpose of predicting strain in different members using strain data from a single member, yet it has been observed that they are quite agreeable to those of ground truth values. This is in spite of the fact that a lot of noise existed in the data, thus showing the efficacy of LSTM in training and predicting even from noisy field data. This may easily open up the possibility of collecting data from the bridge with a much lesser number of sensors and predicting the strain data in other members through LSTM network.
翻訳日:2021-11-12 13:28:49 公開日:2021-11-08
# 分散不変微分プライバシー

Distribution-Invaria nt Differential Privacy ( http://arxiv.org/abs/2111.05791v1 )

ライセンス: Link先を確認
Xuan Bi and Xiaotong Shen(参考訳) 差別化プライバシーは、公開データのプライバシーを保護するための金の標準になりつつある。 社会科学、データサイエンス、公衆衛生、情報技術、そしてアメリカ一年次国勢調査で広く使われている。 それにもかかわらず、差分プライバシーを保証するために、既存の手法は必然的に元のデータ分析の結論を変える可能性がある。 この現象は、プライバシー保護と統計精度のトレードオフとして知られる。 本研究では,高統計的精度と厳密な差分プライバシーを両立させる分散不変民営化(DIP)手法を開発することにより,このトレードオフを解消する。 その結果、ダウンストリーム統計や機械学習のタスクは、本質的にオリジナルのデータを使ったものと同じ結論を導き出す。 同じ厳密なプライバシー保護の下で、DIPは2つのシミュレーションと3つの実世界のベンチマークにおいて優れた統計的精度を達成する。

Differential privacy is becoming one gold standard for protecting the privacy of publicly shared data. It has been widely used in social science, data science, public health, information technology, and the U.S. decennial census. Nevertheless, to guarantee differential privacy, existing methods may unavoidably alter the conclusion of original data analysis, as privatization often changes the sample distribution. This phenomenon is known as the trade-off between privacy protection and statistical accuracy. In this work, we break this trade-off by developing a distribution-invaria nt privatization (DIP) method to reconcile both high statistical accuracy and strict differential privacy. As a result, any downstream statistical or machine learning task yields essentially the same conclusion as if one used the original data. Numerically, under the same strictness of privacy protection, DIP achieves superior statistical accuracy in two simulations and on three real-world benchmarks.
翻訳日:2021-11-11 15:21:05 公開日:2021-11-08
# (参考訳) 深層学習を用いた多モード心画像解析

Multi-Modality Cardiac Image Analysis with Deep Learning ( http://arxiv.org/abs/2111.04736v1 )

ライセンス: CC BY 4.0
Lei Li, Fuping Wu, Sihang Wang, Xiahai Zhuang(参考訳) 心臓疾患の診断と治療には, 正確な心計算, 多モード画像の解析, モデリングが重要である。 晩期gadolinium enhancement magnetic resonance imaging(lge mri)は、心筋梗塞と心房障害を可視化・定量化するための有望な技術である。 LGE MRIの低画質化と複雑な拡張パターンのため,MIと心房粗動の自動定量化は困難である。 さらに、他のLGE MRIのゴールド標準ラベルと比較すると、特に制限があるため、LGE MRIの自動分割と定量化のための新しいアルゴリズムを開発するには別の障害となる。 本章は,深層学習に基づく多モード心画像解析における現状と最近の進歩をまとめたものである。 まず,マルチシーケンス型心臓MRIを用いた心筋と病理領域の2つのベンチマーク研究を紹介する。 第2に,左心房シンチグラフィーとLGE MRIの定量化のための新しい2つの枠組みを提示した。 第3に,クロスモダリティ心筋画像分割のための教師なし領域適応法を3つ提示する。

Accurate cardiac computing, analysis and modeling from multi-modality images are important for the diagnosis and treatment of cardiac disease. Late gadolinium enhancement magnetic resonance imaging (LGE MRI) is a promising technique to visualize and quantify myocardial infarction (MI) and atrial scars. Automating quantification of MI and atrial scars can be challenging due to the low image quality and complex enhancement patterns of LGE MRI. Moreover, compared with the other sequences LGE MRIs with gold standard labels are particularly limited, which represents another obstacle for developing novel algorithms for automatic segmentation and quantification of LGE MRIs. This chapter aims to summarize the state-of-the-art and our recent advanced contributions on deep learning based multi-modality cardiac image analysis. Firstly, we introduce two benchmark works for multi-sequence cardiac MRI based myocardial and pathology segmentation. Secondly, two novel frameworks for left atrial scar segmentation and quantification from LGE MRI were presented. Thirdly, we present three unsupervised domain adaptation techniques for cross-modality cardiac image segmentation.
翻訳日:2021-11-11 03:10:40 公開日:2021-11-08
# (参考訳) ドメイン適応のための合成磁気共鳴画像:胎児脳組織分節への応用 [全文訳有]

Synthetic magnetic resonance images for domain adaptation: Application to fetal brain tissue segmentation ( http://arxiv.org/abs/2111.04737v1 )

ライセンス: CC BY-SA 4.0
Priscille de Dumast, Hamza Kebiri, Kelly Payette, Andras Jakab, H\'el\`ene Lajous, Meritxell Bach Cuadra(参考訳) 子宮の発達するヒト脳の定量的評価は神経発達の解明に不可欠である。 このように、自動化された胎児脳セグメンテーションアルゴリズムが開発されており、それにはアノテートされたデータを訓練する必要がある。 しかし、利用可能なアノテート胎児脳データセットは数と不均一性に制限されており、堅牢なセグメンテーションのためのドメイン適応戦略を妨げる。 この文脈では、胎児脳磁気共鳴取得数値ファントムであるFaBiANを用いて、胎児脳の様々な現実的な磁気共鳴画像とそのクラスラベルをシミュレートする。 そこで本研究では、7つの脳組織を分割した深層学習法のドメイン適応化に, 低コストで生成し, 目標超解像法を用いてさらに再構成できることを実証する。 全体として、特に皮質灰白質、白質、小脳、深い灰白質、脳幹において、セグメンテーションの精度が著しく向上する。

The quantitative assessment of the developing human brain in utero is crucial to fully understand neurodevelopment. Thus, automated multi-tissue fetal brain segmentation algorithms are being developed, which in turn require annotated data to be trained. However, the available annotated fetal brain datasets are limited in number and heterogeneity, hampering domain adaptation strategies for robust segmentation. In this context, we use FaBiAN, a Fetal Brain magnetic resonance Acquisition Numerical phantom, to simulate various realistic magnetic resonance images of the fetal brain along with its class labels. We demonstrate that these multiple synthetic annotated data, generated at no cost and further reconstructed using the target super-resolution technique, can be successfully used for domain adaptation of a deep learning method that segments seven brain tissues. Overall, the accuracy of the segmentation is significantly enhanced, especially in the cortical gray matter, the white matter, the cerebellum, the deep gray matter and the brain stem.
翻訳日:2021-11-11 03:09:29 公開日:2021-11-08
# (参考訳) HEROHE Challenge:免疫組織化学およびin situ hybridizationのない乳癌におけるHER2状態の評価 [全文訳有]

HEROHE Challenge: assessing HER2 status in breast cancer without immunohistochemistry or in situ hybridization ( http://arxiv.org/abs/2111.04738v1 )

ライセンス: CC BY 4.0
Eduardo Conde-Sousa, Jo\~ao Vale, Ming Feng, Kele Xu, Yin Wang, Vincenzo Della Mea, David La Barbera, Ehsan Montahaei, Mahdieh Soleymani Baghshah, Andreas Turzynski, Jacob Gildenblat, Eldad Klaiman, Yiyu Hong, Guilherme Aresta, Teresa Ara\'ujo, Paulo Aguiar, Catarina Eloy, Ant\'onio Pol\'onia(参考訳) 乳癌は女性にとって最も一般的な悪性腫瘍であり、毎年50万人以上の死者を負っている。 そのため、早期かつ正確な診断が最重要となる。 ヒトの専門知識は、乳癌の診断と正しく分類し、膜貫通タンパク質受容体HER2のような異なるバイオマーカーの発現の評価に依存する適切な治療を定義するために必要である。 この評価には、HER2状態を評価するために免疫組織化学やin situハイブリダイゼーションなどの特別な技術を含むいくつかのステップが必要である。 HEROHE Challengeは16th European Congress on Digital Pathologyの並列イベントとして、ヘマトキシリンとエオシン染色組織のみに基づくHER2状態の評価を自動化することを目的として、診断におけるステップ数と人間のバイアスを減らすことを目的として設立された。 HER2のステータスを評価する方法は、世界中で21のチームによって提示され、提案された方法のいくつかによって、最先端の技術を前進させる潜在的な視点が開かれた。

Breast cancer is the most common malignancy in women, being responsible for more than half a million deaths every year. As such, early and accurate diagnosis is of paramount importance. Human expertise is required to diagnose and correctly classify breast cancer and define appropriate therapy, which depends on the evaluation of the expression of different biomarkers such as the transmembrane protein receptor HER2. This evaluation requires several steps, including special techniques such as immunohistochemistry or in situ hybridization to assess HER2 status. With the goal of reducing the number of steps and human bias in diagnosis, the HEROHE Challenge was organized, as a parallel event of the 16th European Congress on Digital Pathology, aiming to automate the assessment of the HER2 status based only on hematoxylin and eosin stained tissue sample of invasive breast cancer. Methods to assess HER2 status were presented by 21 teams worldwide and the results achieved by some of the proposed methods open potential perspectives to advance the state-of-the-art.
翻訳日:2021-11-11 03:02:29 公開日:2021-11-08
# (参考訳) DR-VNet:Dense Residual UNetによる網膜血管セグメンテーション [全文訳有]

DR-VNet: Retinal Vessel Segmentation via Dense Residual UNet ( http://arxiv.org/abs/2111.04739v1 )

ライセンス: CC BY 4.0
Ali Karaali, Rozenn Dahyot, Donal J. Sexton(参考訳) 正確な網膜血管セグメンテーションは多くのコンピュータ支援診断システムにおいて重要な課題である。 しかし、眼の複雑な血管構造のため、まだ難しい問題である。 近年, 細管分割法が多数提案されているが, 細管の細管分割に対処するためには, さらなる研究が必要である。 そこで本研究では,残留密網ブロックと残留スクイーズと励磁ブロックの効率性を組み合わせた新しい深層学習パイプラインを提案する。 3つのデータセットに対する我々のアプローチを実験的に検証し、我々のパイプラインが、小型容器の捕獲を評価するための感度指標の現在の技術技術を上回ることを示した。

Accurate retinal vessel segmentation is an important task for many computer-aided diagnosis systems. Yet, it is still a challenging problem due to the complex vessel structures of an eye. Numerous vessel segmentation methods have been proposed recently, however more research is needed to deal with poor segmentation of thin and tiny vessels. To address this, we propose a new deep learning pipeline combining the efficiency of residual dense net blocks and, residual squeeze and excitation blocks. We validate experimentally our approach on three datasets and show that our pipeline outperforms current state of the art techniques on the sensitivity metric relevant to assess capture of small vessels.
翻訳日:2021-11-11 02:36:28 公開日:2021-11-08
# (参考訳) 損失、不協和、歪み [全文訳有]

Losses, Dissonances, and Distortions ( http://arxiv.org/abs/2111.05128v1 )

ライセンス: CC BY 4.0
Pablo Samuel Castro(参考訳) 本稿では,ピアノ演奏における音楽的不協和と視覚的歪みを生み出すメカニズムとして,単純な関数近似器の訓練中に得られた損失と勾配を利用する方法を提案する。 これらの不協和音と歪みは、可視化に影響を与えるだけでなく、芸術的な演奏にも影響を及ぼす。 このシステムは、演奏者がトレーニングプロセス自体に影響を与えるように設計され、機械学習モデルのトレーニングと即興ピアノの演奏の2つのプロセスの間に閉じたフィードバックループが作成される。

In this paper I present a study in using the losses and gradients obtained during the training of a simple function approximator as a mechanism for creating musical dissonance and visual distortion in a solo piano performance setting. These dissonances and distortions become part of an artistic performance not just by affecting the visualizations, but also by affecting the artistic musical performance. The system is designed such that the performer can in turn affect the training process itself, thereby creating a closed feedback loop between two processes: the training of a machine learning model and the performance of an improvised piano piece.
翻訳日:2021-11-11 02:17:50 公開日:2021-11-08
# (参考訳) E(2)ラジオ天文学における等価自己認識 [全文訳有]

E(2) Equivariant Self-Attention for Radio Astronomy ( http://arxiv.org/abs/2111.04742v1 )

ライセンス: CC BY 4.0
Micah Bowles, Matthew Bromley, Max Allen, Anna Scaife(参考訳) 本研究では、天文学における説明可能な電波銀河分類の問題に対処するために、グループ同変自己アテンションモデルを導入する。 循環的および二面体的等分散の様々な順序を評価し,事前の等分散を含むことにより,データに適合するエポック数が減少し,性能が向上することを示す。 自己愛を説明可能なモデルとして用いる場合の等分散の利点を強調し、同変モデルが人間の天文学者と同じ特徴を統計的に満たしていることを示す。

In this work we introduce group-equivariant self-attention models to address the problem of explainable radio galaxy classification in astronomy. We evaluate various orders of both cyclic and dihedral equivariance, and show that including equivariance as a prior both reduces the number of epochs required to fit the data and results in improved performance. We highlight the benefits of equivariance when using self-attention as an explainable model and illustrate how equivariant models statistically attend the same features in their classifications as human astronomers.
翻訳日:2021-11-11 02:12:30 公開日:2021-11-08
# (参考訳) 実現可能な学習は必要なだけ

Realizable Learning is All You Need ( http://arxiv.org/abs/2111.04746v1 )

ライセンス: CC BY 4.0
Max Hopkins, Daniel Kane, Shachar Lovett, Gaurav Mahajan(参考訳) 実現可能かつ不可知的な学習可能性の同値性は、学習理論における基本的な現象である。 PAC学習や回帰といった古典的な設定から、逆向きの堅牢性や私的学習といった最近のトレンドまで、私たちはまだ統一された理論を欠いているのは驚きです。 本研究では,実現可能かつ不可知的な学習可能性の等価性を説明する最初のモデルに依存しないフレームワークについて述べる。 これには、任意の分布仮定による学習や一般的な損失といった学習可能性の特徴が知られていないモデルや、ロバスト学習、部分学習、フェアラーニング、統計クエリーモデルなどの一般的な設定が含まれる。 より一般に、実現可能で無依存な学習の等価性は、我々が特性一般化と呼ぶより広い現象の特別な場合であると主張する: 有限仮説クラス上で満たされる学習アルゴリズム(例えば、ノイズ許容性、プライバシー、安定性)の望ましい性質は、(おそらくあるバリエーションにおいて)任意の学習可能な仮説クラスに拡張される。

The equivalence of realizable and agnostic learnability is a fundamental phenomenon in learning theory. With variants ranging from classical settings like PAC learning and regression to recent trends such as adversarially robust and private learning, it's surprising that we still lack a unified theory; traditional proofs of the equivalence tend to be disparate, and rely on strong model-specific assumptions like uniform convergence and sample compression. In this work, we give the first model-independent framework explaining the equivalence of realizable and agnostic learnability: a three-line blackbox reduction that simplifies, unifies, and extends our understanding across a wide variety of settings. This includes models with no known characterization of learnability such as learning with arbitrary distributional assumptions or general loss, as well as a host of other popular settings such as robust learning, partial learning, fair learning, and the statistical query model. More generally, we argue that the equivalence of realizable and agnostic learning is actually a special case of a broader phenomenon we call property generalization: any desirable property of a learning algorithm (e.g.\ noise tolerance, privacy, stability) that can be satisfied over finite hypothesis classes extends (possibly in some variation) to any learnable hypothesis class.
翻訳日:2021-11-11 02:04:06 公開日:2021-11-08
# (参考訳) ML-EXray:エッジ上のMLデプロイメントへの可視性 [全文訳有]

ML-EXray: Visibility into ML Deployment on the Edge ( http://arxiv.org/abs/2111.04779v1 )

ライセンス: CC BY 4.0
Hang Qiu, Ioanna Vavelidou, Jian Li, Evgenya Pergament, Pete Warden, Sandeep Chinchali, Zain Asgar, Sachin Katti(参考訳) クラウドインフラストラクチャの拡大と相まって、DNN(Deep Neural Network)は現在、クラウドでトレーニングされた場合、パフォーマンスが向上している。 研究者たちは数ヶ月かけて、モデル精度の余分なポイントを競う。 しかし、これらのモデルが実際にエッジデバイスにデプロイされている場合、非常に頻繁に、明らかな理由なしにパフォーマンスが10%以上低下する可能性がある。 重要な課題は、エッジデバイス上でのML推論実行の視認性があまりなく、エッジデプロイメントプロセスにおける潜在的な問題に対する認識がほとんどないことです。 エンドツーエンドフレームワークであるML-EXrayは、ML実行の層レベルの詳細を可視化し、開発者がクラウドからエッジへのデプロイメントの問題を分析しデバッグするのに役立つ。 多くの場合、最適でないエッジパフォーマンスの理由は、モデル自体だけでなく、データフローやデプロイメントプロセス全体にわたるすべての操作にも関係しています。 評価によると、ML-EXrayは、前処理のバグ、量子化の問題、最適化されたカーネルなどのデプロイメント問題を効果的にキャッチできる。 ML-EXrayを使用することで、エッジデプロイメントパイプラインを完全に検査するために、15行未満のコードを書く必要がある。 これらの問題を排除し、ML-EXrayはパフォーマンスを最大30%改善し、エラーが発生しやすいレイヤをピンポイントし、ユーザはカーネルの実行遅延を2桁まで最適化できる。 コードとAPIは、オープンソースの多言語インスツルメンテーションライブラリとPythonデプロイメントバリデーションライブラリとしてリリースされる。

Benefiting from expanding cloud infrastructure, deep neural networks (DNNs) today have increasingly high performance when trained in the cloud. Researchers spend months of effort competing for an extra few percentage points of model accuracy. However, when these models are actually deployed on edge devices in practice, very often, the performance can abruptly drop over 10% without obvious reasons. The key challenge is that there is not much visibility into ML inference execution on edge devices, and very little awareness of potential issues during the edge deployment process. We present ML-EXray, an end-to-end framework, which provides visibility into layer-level details of the ML execution, and helps developers analyze and debug cloud-to-edge deployment issues. More often than not, the reason for sub-optimal edge performance does not only lie in the model itself, but every operation throughout the data flow and the deployment process. Evaluations show that ML-EXray can effectively catch deployment issues, such as pre-processing bugs, quantization issues, suboptimal kernels, etc. Using ML-EXray, users need to write less than 15 lines of code to fully examine the edge deployment pipeline. Eradicating these issues, ML-EXray can correct model performance by up to 30%, pinpoint error-prone layers, and guide users to optimize kernel execution latency by two orders of magnitude. Code and APIs will be released as an open-source multi-lingual instrumentation library and a Python deployment validation library.
翻訳日:2021-11-11 02:02:59 公開日:2021-11-08
# (参考訳) カスケードノームオブジェクトによる公正クラスタリングの近似 [全文訳有]

Approximating Fair Clustering with Cascaded Norm Objectives ( http://arxiv.org/abs/2111.04804v1 )

ライセンス: CC BY 4.0
Eden Chlamt\'a\v{c}, Yury Makarychev, Ali Vakilian(参考訳) 我々は$(p,q)$-Fair Clustering問題を導入する。 この問題では、点の集合$P$と異なる重み関数の集合$W$が与えられる。 ベクトルの$\ell_q$-ノルムを最小化し、中心から$p$の点の重み付き距離の$w$の$\ell_p$-ノルムを最小化するクラスタリングを見つけたいと思っています。 これはSocially Fair $k$-Medianや$k$-Meansなどの様々なクラスタリング問題を一般化し、Densest $k$-SubgraphやMin $k$-Unionといった他の問題と密接に関連している。 凸プログラミング手法を用いて、$(p,q)$-Fair Clustering 問題を $p$ と $q$ の異なる値に対して近似する。 p\geq q$ のとき、$O(k^{(p-q)/(2pq)})$は$k^{\Omega((p-q)/(pq))} とほぼ一致する。 q\geq p$ のとき、有界な $p,q$ の入力のサイズに依存しない近似が得られ、mamaarychev と vakilian (colt 2021) による$(p, \infty)$-fairクラスタリングに対する最近の$o((\log n/(\log\log n))^{1/p}) と一致する。

We introduce the $(p,q)$-Fair Clustering problem. In this problem, we are given a set of points $P$ and a collection of different weight functions $W$. We would like to find a clustering which minimizes the $\ell_q$-norm of the vector over $W$ of the $\ell_p$-norms of the weighted distances of points in $P$ from the centers. This generalizes various clustering problems, including Socially Fair $k$-Median and $k$-Means, and is closely connected to other problems such as Densest $k$-Subgraph and Min $k$-Union. We utilize convex programming techniques to approximate the $(p,q)$-Fair Clustering problem for different values of $p$ and $q$. When $p\geq q$, we get an $O(k^{(p-q)/(2pq)})$, which nearly matches a $k^{\Omega((p-q)/(pq))}$ lower bound based on conjectured hardness of Min $k$-Union and other problems. When $q\geq p$, we get an approximation which is independent of the size of the input for bounded $p,q$, and also matches the recent $O((\log n/(\log\log n))^{1/p})$-approximation for $(p, \infty)$-Fair Clustering by Makarychev and Vakilian (COLT 2021).
翻訳日:2021-11-11 01:41:34 公開日:2021-11-08
# (参考訳) 部分依存プロットによるハイパーパラメータ最適化の解説 [全文訳有]

Explaining Hyperparameter Optimization via Partial Dependence Plots ( http://arxiv.org/abs/2111.04820v1 )

ライセンス: CC BY 4.0
Julia Moosbauer, Julia Herbinger, Giuseppe Casalicchio, Marius Lindauer, Bernd Bischl(参考訳) 自動ハイパーパラメータ最適化(HPO)は、機械学習モデルにおけるピークパフォーマンスを得るために実践者を支援する。 しかしながら、最終的なモデルパフォーマンスに対する異なるハイパーパラメータの影響に関する貴重な洞察がしばしば欠如している。 この説明責任の欠如は、自動化HPOプロセスとその結果の信頼性と理解を困難にしている。 我々は,解釈可能な機械学習(IML)を用いて,ベイズ最適化(BO)を用いたHPOで得られた実験データから洞察を得ることを提案する。 BOは、潜在的に高性能な構成を持つ有望な領域に焦点を当て、サンプリングバイアスを引き起こす傾向にある。 したがって、部分依存プロット(PDP)のような多くのIML技術は、偏りのある解釈を生成するリスクを負う。 BOサロゲートモデルの後方不確実性を利用して、推定信頼帯域を持つPDPの変種を導入する。 我々は,高パラメータ空間を分割し,より信頼性が高く信頼性の高いPDPを関連するサブリージョンで得ることを提案する。 本研究では,サブリージョンにおけるPDPの品質向上に関する定量的証拠を提供する。

Automated hyperparameter optimization (HPO) can support practitioners to obtain peak performance in machine learning models. However, there is often a lack of valuable insights into the effects of different hyperparameters on the final model performance. This lack of explainability makes it difficult to trust and understand the automated HPO process and its results. We suggest using interpretable machine learning (IML) to gain insights from the experimental data obtained during HPO with Bayesian optimization (BO). BO tends to focus on promising regions with potential high-performance configurations and thus induces a sampling bias. Hence, many IML techniques, such as the partial dependence plot (PDP), carry the risk of generating biased interpretations. By leveraging the posterior uncertainty of the BO surrogate model, we introduce a variant of the PDP with estimated confidence bands. We propose to partition the hyperparameter space to obtain more confident and reliable PDPs in relevant sub-regions. In an experimental study, we provide quantitative evidence for the increased quality of the PDPs within sub-regions.
翻訳日:2021-11-11 01:09:38 公開日:2021-11-08
# (参考訳) massformer: グラフトランスフォーマによるタンデム質量スペクトル予測 [全文訳有]

MassFormer: Tandem Mass Spectrum Prediction with Graph Transformers ( http://arxiv.org/abs/2111.04824v1 )

ライセンス: CC BY 4.0
Adamo Young, Bo Wang, Hannes R\"ost(参考訳) 質量分析は小さな分子の研究において重要なツールであり、代謝学、薬物発見、環境化学において重要な役割を果たしている。 タンデム質量スペクトルは、分子に関する重要な構造情報を提供し、その同定に役立つ断片化パターンをキャプチャする。 実践者は、未知のスペクトルと既知の化合物をマッチングするために、しばしばスペクトルライブラリの検索に依存する。 しかし,このような検索手法は,参照実験データの利用により制限される。 本研究では,グラフ変換器を用いてタンデム質量スペクトルを正確に予測できることを示す。 我々のモデルMassFormerは、スペクトル予測のための競合するディープラーニングアプローチよりも優れており、予測を説明するための解釈可能な注意機構を含んでいる。 本モデルは,合成分子識別タスクにおける参照ライブラリのカバレッジ向上に有効であることを示す。 定量的解析と視覚検査により, 衝突エネルギーが生成スペクトルに与える影響について, 先行知識を回復することを確認した。 2つの独立したMSデータセットから異なる種類の質量スペクトルのモデルを評価し,その性能が一般化したことを示す。 コードはgithub.com/roestlab/ massformerで入手できる。

Mass spectrometry is a key tool in the study of small molecules, playing an important role in metabolomics, drug discovery, and environmental chemistry. Tandem mass spectra capture fragmentation patterns that provide key structural information about a molecule and help with its identification. Practitioners often rely on spectral library searches to match unknown spectra with known compounds. However, such search-based methods are limited by availability of reference experimental data. In this work we show that graph transformers can be used to accurately predict tandem mass spectra. Our model, MassFormer, outperforms competing deep learning approaches for spectrum prediction, and includes an interpretable attention mechanism to help explain predictions. We demonstrate that our model can be used to improve reference library coverage on a synthetic molecule identification task. Through quantitative analysis and visual inspection, we verify that our model recovers prior knowledge about the effect of collision energy on the generated spectrum. We evaluate our model on different types of mass spectra from two independent MS datasets and show that its performance generalizes. Code available at github.com/Roestlab/ massformer.
翻訳日:2021-11-11 00:46:18 公開日:2021-11-08
# (参考訳) 生成する3dオブジェクトの挑発的2次元ビューの進化 [全文訳有]

Evolving Evocative 2D Views of Generated 3D Objects ( http://arxiv.org/abs/2111.04839v1 )

ライセンス: CC BY 4.0
Eric Chu(参考訳) 本稿では,画像ネットとクリップベースモデルを用いて,異なる視野角で3次元モデルと2次元レンダリングを共同で生成する手法を提案する。 以上の結果から, ターゲットキャプションを誘発し, 視覚的にアピールするようなレンダリングにより, アナモルフィックオブジェクトを生成できることが示唆された。

We present a method for jointly generating 3D models of objects and 2D renders at different viewing angles, with the process guided by ImageNet and CLIP -based models. Our results indicate that it can generate anamorphic objects, with renders that both evoke the target caption and look visually appealing.
翻訳日:2021-11-11 00:20:09 公開日:2021-11-08
# (参考訳) dueling RL: Trajectory Preferencesを用いた強化学習

Dueling RL: Reinforcement Learning with Trajectory Preferences ( http://arxiv.org/abs/2111.04850v1 )

ライセンス: CC BY 4.0
Aldo Pacchiano, Aadirupa Saha, Jonathan Lee(参考訳) 従来の強化学習とは異なり、エージェントは、絶対的な報酬ではなく、軌道ペア上の1ビット (0/1) の選好だけでフィードバックを受ける。 従来のrlフレームワークの成功は、基本となるエージェント・リワードモデルに依存しているが、システム設計者が適切な報酬関数と非自明なタスクをいかに正確に表現できるかに依存する。 我々のフレームワークの目新しいところは、手書きの数値報酬モデルを必要としない好みに基づく軌道フィードバックから学ぶ能力である。 本稿では,PbRL問題に非マルコフ的報酬を伴う形式的枠組みを定め,次元$d$の一般化線形モデルにより軌道の選好を符号化する。 遷移モデルが知られていると仮定すると、$\tilde {\mathcal{O}}\left( SH d \log (T / \delta) \sqrt{T} \right)$ のほぼ最適な後悔保証を持つアルゴリズムを提案する。 さらに、上記のアルゴリズムを未知遷移ダイナミクスの場合には拡張し、ほぼ最適の後悔を保証したアルゴリズム$\widetilde{\mathcal{o}}((\sqrt{d} + h^2 + |\mathcal{s}|)\sqrt{dt} +\sqrt{|\mathcal{s}||\mathcal{a}|th} )$を提供する。 我々の知る限りでは、我々の研究は軌道選好を伴う選好に基づくrl問題に対して厳密な後悔を与える最初の1つです。

We consider the problem of preference based reinforcement learning (PbRL), where, unlike traditional reinforcement learning, an agent receives feedback only in terms of a 1 bit (0/1) preference over a trajectory pair instead of absolute rewards for them. The success of the traditional RL framework crucially relies on the underlying agent-reward model, which, however, depends on how accurately a system designer can express an appropriate reward function and often a non-trivial task. The main novelty of our framework is the ability to learn from preference-based trajectory feedback that eliminates the need to hand-craft numeric reward models. This paper sets up a formal framework for the PbRL problem with non-markovian rewards, where the trajectory preferences are encoded by a generalized linear model of dimension $d$. Assuming the transition model is known, we then propose an algorithm with almost optimal regret guarantee of $\tilde {\mathcal{O}}\left( SH d \log (T / \delta) \sqrt{T} \right)$. We further, extend the above algorithm to the case of unknown transition dynamics, and provide an algorithm with near optimal regret guarantee $\widetilde{\mathcal{O}}((\sqrt{d} + H^2 + |\mathcal{S}|)\sqrt{dT} +\sqrt{|\mathcal{S}||\mathcal{A}|TH} )$. To the best of our knowledge, our work is one of the first to give tight regret guarantees for preference based RL problems with trajectory preferences.
翻訳日:2021-11-11 00:17:13 公開日:2021-11-08
# (参考訳) ユーザ中心設計(VI):インテリジェントヒューマン・コンピュータインタラクションのためのヒューマンファクターアプローチ [全文訳有]

User Centered Design (VI): Human Factors Approaches for Intelligent Human-Computer Interaction ( http://arxiv.org/abs/2111.04880v1 )

ライセンス: CC BY 4.0
Wei Xu(参考訳) 本稿では,「ユーザ中心設計」の設計思想から,知的ヒューマン・コンピュータインタラクション(iHCI)のヒューマンファクタ特性を分析し,「ユーザ指向iHCI」の概念を提案する。 さらに、共同認知システム、状況認識、知的エージェントの理論に基づくiHCIのための新しいヒューマンファクターフレームワークを提案する。 新しいコンセプトとフレームワークの助けを借りて、自動運転車の共同走行と将来の研究課題のレイアウトのエコシステムにおけるヒューマンファクターの問題を分析する。 最後に,iHCIにおける2つの重要な研究領域(ユーザ意図認識,ヒューマン・コンピュータ・コラボレーション)を分析し,今後のヒューマンファクター研究の焦点を指摘する。

Starting from the design philosophy of "user-centered design", this paper analyzes the human factors characteristics of intelligent human-computer interaction (iHCI) and proposes a concept of "user-oriented iHCI". It further proposes a new human factors framework for iHCI based on the theories of joint cognitive systems, situation awareness, and intelligent agents. With the help of the new concept and framework, the paper analyzes the human factors issues in the ecosystem of autonomous vehicle co-driving and layouts future research agenda. Finally, the paper analyzes the two important research areas in iHCI (i.e., user intention recognition, human-computer collaboration) and points out the focus of human factors research in the future.
翻訳日:2021-11-11 00:15:25 公開日:2021-11-08
# 光音響CTのための深層学習適応加速法

Deep Learning Adapted Acceleration for Limited-view Photoacoustic Computed Tomography ( http://arxiv.org/abs/2111.05194v1 )

ライセンス: Link先を確認
Hengrong Lan, Jiali Gong, and Fei Gao(参考訳) 光音響イメージング(PAI)は、組織から発生する超音波信号を光励起で検出する非侵襲的な画像モダリティである。 光音響ct(pact)は非集光大面積光を用いて、pa信号検出のための超音波トランスデューサアレイでターゲットを照らしている。 限定ビュー問題は、幾何学的条件の制限により、PACTの低画質の画像を引き起こす可能性がある。 モデルに基づく手法は、正規化の異なるこの問題を解決するために用いられる。 本稿では,限定ビューPAデータの高速かつ高品質な再構成を実現するために,数学的変動モデルと深層学習を組み合わせたモデルベース手法を提案する。 ディープニューラルネットワークは、勾配降下手順におけるデータ一貫性の勾配更新期間のステップを適応するように設計されており、数回のイテレーションで高品質なpa画像を得ることができる。 すべてのパラメータと事前は、オフラインのトレーニング段階で自動的に学習される。 実験では,この手法が他の手法よりも半視野(180度)シミュレーションと実データで優れていることを示す。 異なるモデルベース手法の比較により,提案手法は同一の反復(3回)ステップで優れた性能(SSIMは0.05以上)を示す。 さらに、異なる手法の一般化を検証するために、目に見えないデータを用いる。 最後に,本手法はより優れた結果(in vivoでは0.94値のSSIM)を得られ,高いロバスト性および高速な再構成が得られた。

Photoacoustic imaging (PAI) is a non-invasive imaging modality that detects the ultrasound signal generated from tissue with light excitation. Photoacoustic computed tomography (PACT) uses unfocused large-area light to illuminate the target with ultrasound transducer array for PA signal detection. Limited-view issue could cause a low-quality image in PACT due to the limitation of geometric condition. The model-based method is used to resolve this problem, which contains different regularization. To adapt fast and high-quality reconstruction of limited-view PA data, in this paper, a model-based method that combines the mathematical variational model with deep learning is proposed to speed up and regularize the unrolled procedure of reconstruction. A deep neural network is designed to adapt the step of the gradient updated term of data consistency in the gradient descent procedure, which can obtain a high-quality PA image only with a few iterations. Note that all parameters and priors are automatically learned during the offline training stage. In experiments, we show that this method outperforms the other methods with half-view (180 degrees) simulation and real data. The comparison of different model-based methods show that our proposed scheme has superior performances (over 0.05 for SSIM) with same iteration (3 times) steps. Furthermore, an unseen data is used to validate the generalization of different methods. Finally, we find that our method obtains superior results (0.94 value of SSIM for in vivo) with a high robustness and accelerated reconstruction.
翻訳日:2021-11-10 16:04:09 公開日:2021-11-08
# 砂の粒の中の世界:弦の真空縮退を凝縮する

The World in a Grain of Sand: Condensing the String Vacuum Degeneracy ( http://arxiv.org/abs/2111.04761v1 )

ライセンス: Link先を確認
Yang-Hui He, Shailesh Lal, M. Zaid Zaz(参考訳) 本稿では,コンパクト化シナリオ間の相似性の効率的な尺度を求めることにより,弦景観の真空縮退問題に対する新しいアプローチを提案する。 約100万のカラビ・ヤウ多様体のクラスを具体例として用いて、少数ショット機械学習とシームズニューラルネットワークのパラダイムはR(3)の点として表現し、2つの多様体間の類似度スコアはR(3)の代表間のユークリッド距離である。 これらの方法を用いることで、数百点以上のデータポイントでトレーニングすることで、極めて稀な多様体の探索空間を元のデータの1%以内に圧縮することができる。 また、これらの手法が真空代表に対する「典型」の特徴付けにどのように応用されるかを示す。

We propose a novel approach toward the vacuum degeneracy problem of the string landscape, by finding an efficient measure of similarity amongst compactification scenarios. Using a class of some one million Calabi-Yau manifolds as concrete examples, the paradigm of few-shot machine-learning and Siamese Neural Networks represents them as points in R(3) where the similarity score between two manifolds is the Euclidean distance between their R(3) representatives. Using these methods, we can compress the search space for exceedingly rare manifolds to within one percent of the original data by training on only a few hundred data points. We also demonstrate how these methods may be applied to characterize `typicality' for vacuum representatives.
翻訳日:2021-11-10 16:01:26 公開日:2021-11-08
# TACCLを用いた異種ネットワークのための集合通信アルゴリズムの合成

Synthesizing Collective Communication Algorithms for Heterogeneous Networks with TACCL ( http://arxiv.org/abs/2111.04867v1 )

ライセンス: Link先を確認
Aashaka Shah, Vijay Chidambaram, Meghan Cowan, Saeed Maleki, Madan Musuvathi, Todd Mytkowicz, Jacob Nelson, Olli Saarikivi, Rachee Singh(参考訳) 大規模なMLモデルとデータセットは、分散モデルのトレーニングにマルチGPUシステムを使用する必要がある。 マルチGPUシステムが提供するパワーを活用するためには、GPU間通信のボトルネックを取り除くことが重要である。 本研究では,大規模マルチGPUシステムのための集合通信プリミティブのためのシンセサイザーであるTACCLを提案する。 TACCLは、プロファイルトポロジと入力サイズを合成問題にエンコードし、最適化された通信アルゴリズムを生成する。 TACCLは標準的なNVIDIA Collective Communication Library(NCCL)上に構築されており、最小限の変更でPyTorchのようなフレームワークでのGPU通信の代替となる。 tacclは、allgather、alltoall、allreduceなどの通信プリミティブのためのアルゴリズムを生成し、ncclよりも最大3\times$高速である。 TACCLのアルゴリズムを使用することで、エキスパートモデルの内部混合のエンドツーエンドのトレーニングを17.%$で高速化する。 TACCLは最適化問題を部品に分解し、マルチGPUトポロジの対称性を活用することにより、3分以内で80-GPUの集合を合成する。

Large ML models and datasets have necessitated the use of multi-GPU systems for distributed model training. To harness the power offered by multi-GPU systems, it is critical to eliminate bottlenecks in inter-GPU communication - a problem made challenging by the heterogeneous nature of interconnects. In this work, we present TACCL, a synthesizer for collective communication primitives for large-scale multi-GPU systems. TACCL encodes a profiled topology and input size into a synthesis problem to generate optimized communication algorithms. TACCL is built on top of the standard NVIDIA Collective Communication Library (NCCL), allowing it to be a drop-in replacement for GPU communication in frameworks like PyTorch with minimal changes. TACCL generates algorithms for communication primitives like Allgather, Alltoall, and Allreduce that are up to $3\times$ faster than NCCL. Using TACCL's algorithms speeds up the end-to-end training of an internal mixture of experts model by $17\%$. By decomposing the optimization problem into parts and leveraging the symmetry in multi-GPU topologies, TACCL synthesizes collectives for up to 80-GPUs in less than 3 minutes, at least two orders of magnitude faster than other synthesis-based state-of-the-art collective communication libraries.
翻訳日:2021-11-10 16:01:11 公開日:2021-11-08
# papaya: 実践的でプライベートでスケーラブルな連合学習

Papaya: Practical, Private, and Scalable Federated Learning ( http://arxiv.org/abs/2111.04877v1 )

ライセンス: Link先を確認
Dzmitry Huba, John Nguyen, Kshitiz Malik, Ruiyu Zhu, Mike Rabbat, Ashkan Yousefpour, Carole-Jean Wu, Hongyuan Zhan, Pavel Ustinov, Harish Srinivas, Kaikai Wang, Anthony Shoumikhin, Jesik Min, Mani Malek(参考訳) クロスデバイスフェデレーション学習(FL)は分散学習パラダイムであり、従来の分散学習と区別するいくつかの課題、各デバイスにおけるシステム特性の多様性、中央サーバとのコーディネートを行う数百万のクライアントがある。 文献で説明されているほとんどのFLシステムは同期であり、個々のクライアントからモデル更新を同期で集約します。 同期FLのスケーリングは、大規模バッチトレーニングに類似したトレーニング速度のリターンを減少させるために、並列でトレーニングするクライアントの数を増やすため、難しい。 さらに、ストラグラーは同期FLトレーニングを妨げる。 本稿では,実運用型非同期flシステムの設計について概説する。 私たちの仕事は、上記の問題に取り組み、システム設計の課題とその解決策のいくつかをスケッチし、何百万ものクライアント向けの製品flシステムの構築から生まれた原則に触れます。 1億台近いデバイスでトレーニングを行う場合,非同期flは同期flよりも高速に収束することを示す。 特に高並行性設定では、非同期FLは同期FLよりも5倍速く、通信オーバーヘッドが8倍近く少ない。

Cross-device Federated Learning (FL) is a distributed learning paradigm with several challenges that differentiate it from traditional distributed learning, variability in the system characteristics on each device, and millions of clients coordinating with a central server being primary ones. Most FL systems described in the literature are synchronous - they perform a synchronized aggregation of model updates from individual clients. Scaling synchronous FL is challenging since increasing the number of clients training in parallel leads to diminishing returns in training speed, analogous to large-batch training. Moreover, stragglers hinder synchronous FL training. In this work, we outline a production asynchronous FL system design. Our work tackles the aforementioned issues, sketches of some of the system design challenges and their solutions, and touches upon principles that emerged from building a production FL system for millions of clients. Empirically, we demonstrate that asynchronous FL converges faster than synchronous FL when training across nearly one hundred million devices. In particular, in high concurrency settings, asynchronous FL is 5x faster and has nearly 8x less communication overhead than synchronous FL.
翻訳日:2021-11-10 16:00:51 公開日:2021-11-08
# ノイズラベル顕微鏡画像における多発性骨髄腫プラズマ細胞のセグメンテーション

Segmentation of Multiple Myeloma Plasma Cells in Microscopy Images with Noisy Labels ( http://arxiv.org/abs/2111.05125v1 )

ライセンス: Link先を確認
\'Alvaro Garc\'ia Faura, Dejan \v{S}tepec, Toma\v{z} Martin\v{c}i\v{c}, Danijel Sko\v{c}aj(参考訳) がんの早期診断に向けた重要な要素は、コンピュータ支援ツールの開発である。 本稿では,SegPC-2021コンペティションで獲得した複数の骨髄腫細胞を顕微鏡画像で分割する手法を提案する。 競合データセットで使用されるラベルは半自動生成され、ノイズが提示された。 これに対応するため、重画像拡張処理を行い、いくつかのモデルからの予測をカスタムアンサンブル戦略を用いて組み合わせた。 最先端の特徴抽出器とインスタンスセグメンテーションアーキテクチャが用いられ、segpc-2021の最終テストセットの平均交点オーバー結合は 0.9389 となった。

A key component towards an improved and fast cancer diagnosis is the development of computer-assisted tools. In this article, we present the solution that won the SegPC-2021 competition for the segmentation of multiple myeloma plasma cells in microscopy images. The labels used in the competition dataset were generated semi-automatically and presented noise. To deal with it, a heavy image augmentation procedure was carried out and predictions from several models were combined using a custom ensemble strategy. State-of-the-art feature extractors and instance segmentation architectures were used, resulting in a mean Intersection-over-Un ion of 0.9389 on the SegPC-2021 final test set.
翻訳日:2021-11-10 15:57:18 公開日:2021-11-08
# 深層学習による胚分極の無染色検出

Stain-free Detection of Embryo Polarization using Deep Learning ( http://arxiv.org/abs/2111.05315v1 )

ライセンス: Link先を確認
Cheng Shen, Adiyant Lamba, Meng Zhu, Ray Zhang, Changhuei Yang and Magdalena Zernicka Goetz(参考訳) 哺乳動物胚の発達段階における分極は、その発達期を長期化する上で重要であり、ヒト胚の可能性を評価するのに有用である。 しかし、極性の追跡には侵入的な蛍光染色が必要であり、in vitroの受精クリニックでは不可能である。 ここでは,マウス胚の非定常時間ラプス映像から偏光を検出するために人工知能が用いられていることを報告する。 細胞偏光の蛍光マーカーの画像を並べて, 8細胞ステージの胚から明るい視野のフィルムフレームのデータセットを作成した。 次に, 偏光発生前後に, 明るい視野のフレームが胚を示したかどうかをアンサンブル学習モデルを用いて検出した。 その結果, 偏光検出の精度は85%であり, 同じデータで訓練したボランティア(精度61%)よりも有意に優れていた。 我々の自己学習モデルは、分極に先立つ圧縮の既知のキューとして、細胞間の角度に焦点を合わせていることがわかった。 3次元のタイムラプス画像データを2次元に圧縮することで,深層学習におけるデータ管理の容易なサイズに縮小することができる。 本報告では, 臨床的に不可避な蛍光染色を回避し, 胚発生の重要な発達特性を検出する方法について述べる。

Polarization of the mammalian embryo at the right developmental time is critical for its development to term and would be valuable in assessing the potential of human embryos. However, tracking polarization requires invasive fluorescence staining, impermissible in the in vitro fertilization clinic. Here, we report the use of artificial intelligence to detect polarization from unstained time-lapse movies of mouse embryos. We assembled a dataset of bright-field movie frames from 8-cell-stage embryos, side-by-side with corresponding images of fluorescent markers of cell polarization. We then used an ensemble learning model to detect whether any bright-field frame showed an embryo before or after onset of polarization. Our resulting model has an accuracy of 85% for detecting polarization, significantly outperforming human volunteers trained on the same data (61% accuracy). We discovered that our self-learning model focuses upon the angle between cells as one known cue for compaction, which precedes polarization, but it outperforms the use of this cue alone. By compressing three-dimensional time-lapsed image data into two-dimensions, we are able to reduce data to an easily manageable size for deep learning processing. In conclusion, we describe a method for detecting a key developmental feature of embryo development that avoids clinically impermissible fluorescence staining.
翻訳日:2021-11-10 15:56:38 公開日:2021-11-08
# 形状認識ネットワークによる内視鏡下粘膜解離のリアルタイム検出

Real-time landmark detection for precise endoscopic submucosal dissection via shape-aware relation network ( http://arxiv.org/abs/2111.04733v1 )

ライセンス: Link先を確認
Jiacheng Wang, Yueming Jin, Shuntian Cai, Hongzhi Xu, Pheng-Ann Heng, Jing Qin, Liansheng Wang(参考訳) 内視鏡下粘膜郭清術(ESD)における高精度かつリアルタイムなランドマーク検出のための新しい形状認識ネットワークを提案する。 この仕事は臨床的に非常に重要であるが、複雑な手術環境における出血、照明反射、動きのぼやけのために極めて困難である。 対象物間の幾何学的関係を無視したり,複雑なアグリゲーションスキームを用いて関係を捉える既存手法と比較して,ランドマーク間の空間的関係を最大限に活用して,実時間性能を維持しながら良好な精度を達成できる。 まず,ランドマーク間の空間的関係の事前知識を直感的に表現できる関係キーポイント・ヒートマップを自動的に生成するアルゴリズムを考案する。 次に,事前知識を段階的に訓練プロセスに組み込むための相補的正則化スキームを2つ開発した。 1つのスキームはマルチタスク学習による画素レベルの正規化を導入し、もう1つのスキームは、新たに設計されたグループ化された一貫性評価器を利用してグローバルレベルの正規化を統合する。 どちらのスキームもトレーニングのモデルには有益であり、推論で簡単にアンロードしてリアルタイム検出を実現することができる。 食道癌に対する大規模なESD手術データセットを構築し,提案法の有効性を検証した。 広範な実験結果から,本手法は精度と効率の面で最先端手法よりも優れており,検出精度が向上した。 ESDクリニカル・プラクティスにおける2つの下流応用の成果は,我々の方法の大きな可能性をさらに裏付けるものである。

We propose a novel shape-aware relation network for accurate and real-time landmark detection in endoscopic submucosal dissection (ESD) surgery. This task is of great clinical significance but extremely challenging due to bleeding, lighting reflection, and motion blur in the complicated surgical environment. Compared with existing solutions, which either neglect geometric relationships among targeting objects or capture the relationships by using complicated aggregation schemes, the proposed network is capable of achieving satisfactory accuracy while maintaining real-time performance by taking full advantage of the spatial relations among landmarks. We first devise an algorithm to automatically generate relation keypoint heatmaps, which are able to intuitively represent the prior knowledge of spatial relations among landmarks without using any extra manual annotation efforts. We then develop two complementary regularization schemes to progressively incorporate the prior knowledge into the training process. While one scheme introduces pixel-level regularization by multi-task learning, the other integrates global-level regularization by harnessing a newly designed grouped consistency evaluator, which adds relation constraints to the proposed network in an adversarial manner. Both schemes are beneficial to the model in training, and can be readily unloaded in inference to achieve real-time detection. We establish a large in-house dataset of ESD surgery for esophageal cancer to validate the effectiveness of our proposed method. Extensive experimental results demonstrate that our approach outperforms state-of-the-art methods in terms of accuracy and efficiency, achieving better detection results faster. Promising results on two downstream applications further corroborate the great potential of our method in ESD clinical practice.
翻訳日:2021-11-10 15:34:41 公開日:2021-11-08
# MRモードを欠いた脳腫瘍切除のための特徴強調生成と多モード融合に基づくディープニューラルネットワーク

Feature-enhanced Generation and Multi-modality Fusion based Deep Neural Network for Brain Tumor Segmentation with Missing MR Modalities ( http://arxiv.org/abs/2111.04735v1 )

ライセンス: Link先を確認
Tongxue Zhou, St\'ephane Canu, Pierre Vera and Su Ruan(参考訳) mri(multimodal magnetic resonance imaging)は、脳腫瘍の正確な分割に必要である。 主な問題は、すべてのMRIが常に臨床検査で利用できるわけではないことである。 本研究は, 同一患者のMRモダリティ間に強い相関関係があることから, 1つ以上のモダリティが欠如している場合に, 新たな脳腫瘍セグメンテーションネットワークを提案する。 提案ネットワークは,機能強化ジェネレータ,相関制約ブロック,セグメンテーションネットワークの3つのサブネットワークで構成されている。 利用可能なモダリティを利用して、欠落したモダリティを表す3次元特徴強調画像を生成する。 相関制約ブロックは、モダリティ間の多元相関を利用して、ジェネレータが利用可能なモダリティとコヒーレントな相関を持つ特徴強調モダリティを合成するように制約することができる。 セグメンテーションネットワークは、最終的な脳腫瘍セグメンテーションを達成するためのマルチエンコーダベースのU-Netである。 提案手法はBraTS 2018データセットで評価される。 以上の結果より,全腫瘍,腫瘍コア,造影腫瘍に対して平均82.9,74.9,59.1のdiceスコアを,すべての状況で達成し,最善の方法である3.5%,17%,18.2%を上回った。

Using multimodal Magnetic Resonance Imaging (MRI) is necessary for accurate brain tumor segmentation. The main problem is that not all types of MRIs are always available in clinical exams. Based on the fact that there is a strong correlation between MR modalities of the same patient, in this work, we propose a novel brain tumor segmentation network in the case of missing one or more modalities. The proposed network consists of three sub-networks: a feature-enhanced generator, a correlation constraint block and a segmentation network. The feature-enhanced generator utilizes the available modalities to generate 3D feature-enhanced image representing the missing modality. The correlation constraint block can exploit the multi-source correlation between the modalities and also constrain the generator to synthesize a feature-enhanced modality which must have a coherent correlation with the available modalities. The segmentation network is a multi-encoder based U-Net to achieve the final brain tumor segmentation. The proposed method is evaluated on BraTS 2018 dataset. Experimental results demonstrate the effectiveness of the proposed method which achieves the average Dice Score of 82.9, 74.9 and 59.1 on whole tumor, tumor core and enhancing tumor, respectively across all the situations, and outperforms the best method by 3.5%, 17% and 18.2%.
翻訳日:2021-11-10 15:34:13 公開日:2021-11-08
# LiMoSeg:リアルタイムバードアイビューベースのLiDARモーションセグメンテーション

LiMoSeg: Real-time Bird's Eye View based LiDAR Motion Segmentation ( http://arxiv.org/abs/2111.04875v1 )

ライセンス: Link先を確認
Sambit Mohapatra, Mona Hodaei, Senthil Yogamani, Stefan Milz, Patrick Maeder, Heinrich Gotzig, Martin Simon, Hazem Rashed(参考訳) 移動物体の検出とセグメンテーションは、自動運転パイプラインにおいて不可欠なタスクである。 車両の周囲の静的および移動成分の検出と分離は、特に経路計画および局所化タスクにおいて重要である。 本稿では,光検出・ラング(LiDAR)データの動作セグメント化のための新しいリアルタイムアーキテクチャを提案する。 2D Bird's Eye View (BEV) 表現における2つの連続したLiDARデータのスキャンを用いて、静的または移動的なピクセルワイド分類を行う。 さらに,静的オブジェクトと移動オブジェクト間の重要なクラス不均衡を低減するために,新しいデータ拡張手法を提案する。 静的車両を切断・貼付することで移動物体を人工的に合成する。 一般的な自動車組み込みプラットフォームであるNvidia Jetson Xavierでは,低レイテンシの8ミリ秒を実証した。 我々の知る限りでは、これはLiDAR BEV空間でモーションセグメンテーションを直接実行する最初の作品である。 課題であるSemanticKITTIデータセットの定量的結果を提供し、https://youtu.be/2aJ -cL8b0LIで定性的な結果を提供する。

Moving object detection and segmentation is an essential task in the Autonomous Driving pipeline. Detecting and isolating static and moving components of a vehicle's surroundings are particularly crucial in path planning and localization tasks. This paper proposes a novel real-time architecture for motion segmentation of Light Detection and Ranging (LiDAR) data. We use two successive scans of LiDAR data in 2D Bird's Eye View (BEV) representation to perform pixel-wise classification as static or moving. Furthermore, we propose a novel data augmentation technique to reduce the significant class imbalance between static and moving objects. We achieve this by artificially synthesizing moving objects by cutting and pasting static vehicles. We demonstrate a low latency of 8 ms on a commonly used automotive embedded platform, namely Nvidia Jetson Xavier. To the best of our knowledge, this is the first work directly performing motion segmentation in LiDAR BEV space. We provide quantitative results on the challenging SemanticKITTI dataset, and qualitative results are provided in https://youtu.be/2aJ -cL8b0LI.
翻訳日:2021-11-10 15:33:47 公開日:2021-11-08
# 高固有ベクトル中心性ノード同定のための教師なし学習--グラフニューラルネットワークアプローチ

Unsupervised Learning for Identifying High Eigenvector Centrality Nodes: A Graph Neural Network Approach ( http://arxiv.org/abs/2111.05264v1 )

ライセンス: Link先を確認
Appan Rakaraddi, Mahardhika Pratama(参考訳) Eigenvector Centrality (EC) を計算する既存の手法は、ECを低時間で決定するには十分に頑丈でない傾向にあり、大規模なネットワークではうまくスケーリングできないため、事実上信頼性が低く計算コストがかかる。 したがって、低計算時間でスケーラブルな方法を開発することは本質的に重要である。 そこで本研究では,固有ベクトル中心度の高いノード同定のための深層学習モデルを提案する。 上位ノードを教師付き学習手法で識別する作業は,これまでいくつか行われてきたが,実世界の場合,グラフにはラベルが付けられておらず,教師付き学習手法の展開は危険となり,その使用は現実的ではない。 そこで我々はCUL(Centrality with Unsupervised Learning)法を考案し,ネットワーク内の相対ECスコアを教師なしで学習する。 そこで我々は,ノードをそれぞれのECスコアにマッピングするEncoder-Decoderベースのフレームワークを開発した。 様々な合成および実世界のネットワークで大規模な実験が行われた。 過去の研究と類似したec推定のためのベースライン教師付き手法とculを比較した。 極小数のトレーニングデータセットをトレーニングしても、CULは教師付きノードよりも上位のノードを特定する場合に、比較的高い精度のスコアを提供する。 また、CULは従来のEC計算のベースライン法よりもはるかに高速で、ランタイムが小さいことを示す。 コードはhttps://github.com/c odexhammer/culで入手できる。

The existing methods to calculate the Eigenvector Centrality(EC) tend to not be robust enough for determination of EC in low time complexity or not well-scalable for large networks, hence rendering them practically unreliable/ computationally expensive. So, it is of the essence to develop a method that is scalable in low computational time. Hence, we propose a deep learning model for the identification of nodes with high Eigenvector Centrality. There have been a few previous works in identifying the high ranked nodes with supervised learning methods, but in real-world cases, the graphs are not labelled and hence deployment of supervised learning methods becomes a hazard and its usage becomes impractical. So, we devise CUL(Centrality with Unsupervised Learning) method to learn the relative EC scores in a network in an unsupervised manner. To achieve this, we develop an Encoder-Decoder based framework that maps the nodes to their respective estimated EC scores. Extensive experiments were conducted on different synthetic and real-world networks. We compared CUL against a baseline supervised method for EC estimation similar to some of the past works. It was observed that even with training on a minuscule number of training datasets, CUL delivers a relatively better accuracy score when identifying the higher ranked nodes than its supervised counterpart. We also show that CUL is much faster and has a smaller runtime than the conventional baseline method for EC computation. The code is available at https://github.com/c odexhammer/CUL.
翻訳日:2021-11-10 15:12:18 公開日:2021-11-08
# 鏡視下皮膚病変検出のための教師なしアプローチ

Unsupervised Approaches for Out-Of-Distribution Dermoscopic Lesion Detection ( http://arxiv.org/abs/2111.04807v1 )

ライセンス: Link先を確認
Max Torop, Sandesh Ghimire, Wenqian Liu, Dana H. Brooks, Octavia Camps, Milind Rajadhyaksha, Jennifer Dy, Kivanc Kose(参考訳) 複雑な医療データに対するood(unsupervised out-of-distribution) 手法の有効性を示す作品は限られている。 そこで本研究では,非教師付きOOD検出アルゴリズムSimCLR-LOFの予備的知見と,医用画像に応用した最近のSSDの現状について述べる。 SimCLR-LOFは、SimCLRを使って意味のある機能を学び、テストサンプルがOODであるかどうかを評価するためにLOFを使用する。 マルチソースISIC(International Skin Imaging Collaboration) 2019データセットについて検討し、SSDと競合する結果と、同じデータに適用された最近の教師付きアプローチを比較した。

There are limited works showing the efficacy of unsupervised Out-of-Distribution (OOD) methods on complex medical data. Here, we present preliminary findings of our unsupervised OOD detection algorithm, SimCLR-LOF, as well as a recent state of the art approach (SSD), applied on medical images. SimCLR-LOF learns semantically meaningful features using SimCLR and uses LOF for scoring if a test sample is OOD. We evaluated on the multi-source International Skin Imaging Collaboration (ISIC) 2019 dataset, and show results that are competitive with SSD as well as with recent supervised approaches applied on the same data.
翻訳日:2021-11-10 15:09:37 公開日:2021-11-08
# 機械学習と物理を組み合わせる: 複数のダークソリトンを追跡し分類するフレームワーク

Combining Machine Learning with Physics: A Framework for Tracking and Sorting Multiple Dark Solitons ( http://arxiv.org/abs/2111.04881v1 )

ライセンス: Link先を確認
Shangjie Guo, Sophia M. Koh, Amilson R. Fritsch, I. B. Spielman, and Justyna P. Zwolak(参考訳) 超低温原子実験では、データはしばしば、システムの準備と測定に使用される技術に固有の情報損失を被る画像の形で現れる。 これは、ボース=アインシュタイン凝縮(BEC)における励起間の相互作用など、興味のある過程が複雑である場合に特に問題となる。 本稿では,機械学習モデルと物理に基づく従来の分析モデルを組み合わせて,BECの画像中の複数のソリトニック励起を同定・追跡するフレームワークについて述べる。 MLに基づく物体検出器を用いてソリトニック励起を検出し、ソリトニック励起を物理的に動機付けられたサブカテゴリに分類する物理インフォームド分類器を開発する。 最後に,特定の特徴がキンクソリトンである可能性を定量化する品質指標を導入する。 このフレームワークのトレーニング済みの実装であるsoldetは、オープンソースpythonパッケージとして公開されています。 SolDetは、適切なユーザが提供するデータセットでトレーニングされた場合、コールド原子画像の特徴識別に広く適用できる。

In ultracold atom experiments, data often comes in the form of images which suffer information loss inherent in the techniques used to prepare and measure the system. This is particularly problematic when the processes of interest are complicated, such as interactions among excitations in Bose-Einstein condensates (BECs). In this paper, we describe a framework combining machine learning (ML) models with physics-based traditional analyses to identify and track multiple solitonic excitations in images of BECs. We use an ML-based object detector to locate the solitonic excitations and develop a physics-informed classifier to sort solitonic excitations into physically motivated sub-categories. Lastly, we introduce a quality metric quantifying the likelihood that a specific feature is a kink soliton. Our trained implementation of this framework -- SolDet -- is publicly available as an open-source python package. SolDet is broadly applicable to feature identification in cold atom images when trained on a suitable user-provided dataset.
翻訳日:2021-11-10 15:09:10 公開日:2021-11-08
# 映像からの多言語音声-視覚学習

Cascaded Multilingual Audio-Visual Learning from Videos ( http://arxiv.org/abs/2111.04823v1 )

ライセンス: Link先を確認
Andrew Rouditchenko, Angie Boggust, David Harwath, Samuel Thomas, Hilde Kuehne, Brian Chen, Rameswar Panda, Rogerio Feris, Brian Kingsbury, Michael Picheny, James Glass(参考訳) 本稿では,指導ビデオから学習する自己教師型音声視覚モデルについて検討する。 以前の研究によると、これらのモデルは、大規模なビデオデータセットでトレーニングした後、音声と音声を視覚コンテンツに関連付けることができるが、それらは英語のビデオでのみ訓練され、評価されている。 多言語音声・視覚表現を学習するために,英語ビデオで訓練されたモデルを活用し,日本語ビデオなど他の言語における音声・視覚データに適用するカスケード手法を提案する。 本手法では,日本語ビデオのみの学習に比べて検索性能が10倍近く向上することを示す。 また,日本語とヒンディー語の音声キャプションに英語ビデオで訓練されたモデルを適用し,最新性能を得た。

In this paper, we explore self-supervised audio-visual models that learn from instructional videos. Prior work has shown that these models can relate spoken words and sounds to visual content after training on a large-scale dataset of videos, but they were only trained and evaluated on videos in English. To learn multilingual audio-visual representations, we propose a cascaded approach that leverages a model trained on English videos and applies it to audio-visual data in other languages, such as Japanese videos. With our cascaded approach, we show an improvement in retrieval performance of nearly 10x compared to training on the Japanese videos solely. We also apply the model trained on English videos to Japanese and Hindi spoken captions of images, achieving state-of-the-art performance.
翻訳日:2021-11-10 15:08:28 公開日:2021-11-08
# フラストラム核融合:擬似LiDARとLiDAR核融合による3次元検出

Frustum Fusion: Pseudo-LiDAR and LiDAR Fusion for 3D Detection ( http://arxiv.org/abs/2111.04780v1 )

ライセンス: Link先を確認
Farzin Negahbani, Onur Berk T\"ore, Fatma G\"uney and Baris Akgun(参考訳) ほとんどの自動運転車はLiDARセンサーとステレオカメラを備えている。 前者は非常に正確だが、スパースデータを生成するのに対し、後者は密度が高く、テクスチャや色情報が多いが、堅牢な3d表現を抽出するのが難しい。 本稿では,立体対から得られる高精度な点雲と,密度の低い点雲を結合する新しいデータ融合アルゴリズムを提案する。 我々は,このアルゴリズムを様々な3次元オブジェクト検出手法に統合するフレームワークを開発した。 rgb画像からの2d検出から始まり、フラスタムとその交点を計算し、ステレオ画像から擬似ライダーデータを作成し、lidarデータが密集した擬似ライダー点で不足している交差点領域の一部を埋める。 我々は複数の3次元物体検出法を訓練し、核融合戦略が検出器の性能を継続的に改善することを示す。

Most autonomous vehicles are equipped with LiDAR sensors and stereo cameras. The former is very accurate but generates sparse data, whereas the latter is dense, has rich texture and color information but difficult to extract robust 3D representations from. In this paper, we propose a novel data fusion algorithm to combine accurate point clouds with dense but less accurate point clouds obtained from stereo pairs. We develop a framework to integrate this algorithm into various 3D object detection methods. Our framework starts with 2D detections from both of the RGB images, calculates frustums and their intersection, creates Pseudo-LiDAR data from the stereo images, and fills in the parts of the intersection region where the LiDAR data is lacking with the dense Pseudo-LiDAR points. We train multiple 3D object detection methods and show that our fusion strategy consistently improves the performance of detectors.
翻訳日:2021-11-10 15:06:12 公開日:2021-11-08
# 推論SIR-GN:スケーラブルグラフ表現学習

Inferential SIR-GN: Scalable Graph Representation Learning ( http://arxiv.org/abs/2111.04826v1 )

ライセンス: Link先を確認
Janet Layne and Edoardo Serra(参考訳) グラフ表現学習手法は、ネットワーク内のノードの数値ベクトル表現を生成し、標準機械学習モデルでの使用を可能にする。 これらの手法は、グラフで類似するノードが表現空間で互いに近くにあるような関係情報を保存することを目的としている。 類似性は主に接続性または構造的役割という2つの概念の1つに基づいている。 ノード構造の役割が重要であるタスクでは、接続ベースのメソッドは性能が劣る。 最近の研究は、数百万から数十億のノードとエッジの巨大なグラフへの学習方法のスケーラビリティにフォーカスし始めている。 多くの教師なしノード表現学習アルゴリズムは、大きなグラフへのスケーリングができず、見えないノードに対してノード表現を生成することができない。 本研究では,ランダムグラフ上で事前学習されたモデルであるInferential SIR-GNを提案し,ノード表現を高速に計算する。 提案手法は,ノードの構造的役割情報をキャプチャし,ノードとグラフの分類タスクにおいて,未知のネットワーク上で優れた性能を示すことを実証する。 さらに、Inferential SIR-GNのスケーラビリティは、大規模グラフに対する現在の最速のアプローチに匹敵する。

Graph representation learning methods generate numerical vector representations for the nodes in a network, thereby enabling their use in standard machine learning models. These methods aim to preserve relational information, such that nodes that are similar in the graph are found close to one another in the representation space. Similarity can be based largely on one of two notions: connectivity or structural role. In tasks where node structural role is important, connectivity based methods show poor performance. Recent work has begun to focus on scalability of learning methods to massive graphs of millions to billions of nodes and edges. Many unsupervised node representation learning algorithms are incapable of scaling to large graphs, and are unable to generate node representations for unseen nodes. In this work, we propose Inferential SIR-GN, a model which is pre-trained on random graphs, then computes node representations rapidly, including for very large networks. We demonstrate that the model is able to capture node's structural role information, and show excellent performance at node and graph classification tasks, on unseen networks. Additionally, we observe the scalability of Inferential SIR-GN is comparable to the fastest current approaches for massive graphs.
翻訳日:2021-11-10 15:03:07 公開日:2021-11-08
# ポリシー学習における安全な最適設計

Safe Optimal Design with Applications in Policy Learning ( http://arxiv.org/abs/2111.04835v1 )

ライセンス: Link先を確認
Ruihao Zhu and Branislav Kveton(参考訳) オンライン実験と非政治学習の実践的なニーズに支えられ、安全な最適設計の問題を研究し、ベースライン生産ポリシーで競争的な報酬を達成しつつ、効率的に探索するデータロギングポリシーを開発する。 まず、おそらく意外なことに、安全であるにもかかわらず、生産方針と均一な探査を混ぜる一般的な方法は、情報の獲得を最大化するための準最適であることを示す。 次に,アクションの期待報酬に関する情報が得られない場合に対して,安全な最適ログポリシーを提案する。 我々は,この設計を側面情報を考慮して改善するとともに,線形報酬モデルを用いて2つのアプローチを多数のアクションに拡張する。 オフ・ポリティカル・ラーニングにおけるエラーにデータロギングポリシーがどのように影響するかを分析する。 最後に,広範な実験を行い,設計のメリットを実証的に検証した。

Motivated by practical needs in online experimentation and off-policy learning, we study the problem of safe optimal design, where we develop a data logging policy that efficiently explores while achieving competitive rewards with a baseline production policy. We first show, perhaps surprisingly, that a common practice of mixing the production policy with uniform exploration, despite being safe, is sub-optimal in maximizing information gain. Then we propose a safe optimal logging policy for the case when no side information about the actions' expected rewards is available. We improve upon this design by considering side information and also extend both approaches to a large number of actions with a linear reward model. We analyze how our data logging policies impact errors in off-policy learning. Finally, we empirically validate the benefit of our designs by conducting extensive experiments.
翻訳日:2021-11-10 15:02:49 公開日:2021-11-08
# コールドブリュー:不完全または欠損した近傍のグラフノード表現

Cold Brew: Distilling Graph Node Representations with Incomplete or Missing Neighborhoods ( http://arxiv.org/abs/2111.04840v1 )

ライセンス: Link先を確認
Wenqing Zheng, Edward W Huang, Nikhil Rao, Sumeet Katariya, Zhangyang Wang and Karthik Subbian(参考訳) グラフニューラルネットワーク(GNN)は、ノード分類、回帰、レコメンデーションタスクにおける技術パフォーマンスの状態を達成している。 高品質でリッチな接続構造が利用できる場合、GNNはうまく機能する。 しかし、ノードの次数がパワーロー分布を持つ多くの実世界グラフでは、多くのノードがより少ない、またはノイズの多い接続を持つため、この要件は満たされない。 この状況の極端な場合、ノードにはStrict Cold Start (SCS) シナリオと呼ばれる隣人がまったく存在しない可能性がある。 これにより、予測モデルはノードの入力機能に完全に依存することになります。 本研究では,scsと隣接環境のノイズに対応するコールドブリューについて,蒸留法を用いてポイントワイズや他のグラフモデルと比較検討する。 本稿では,SCS問題を解くための誘導型GNNの有効性と,SCSの一般化に最適なアーキテクチャを選択するための指標であるFCR(Feature-Contribu tion ratio)を紹介する。 FCRはグラフデータセットの様々なコンポーネントのコントリビューションを阻害し、いくつかの公開ベンチマークとプロプライエタリなeコマースデータセットにおいてCold Brewの優れたパフォーマンスを示す。 私たちのアプローチのソースコードは、https://github.com/a mazon-research/gnn-t ail-generalizationで入手できます。

Graph Neural Networks (GNNs) have achieved state of the art performance in node classification, regression, and recommendation tasks. GNNs work well when high-quality and rich connectivity structure is available. However, this requirement is not satisfied in many real world graphs where the node degrees have power-law distributions as many nodes have either fewer or noisy connections. The extreme case of this situation is a node may have no neighbors at all, called Strict Cold Start (SCS) scenario. This forces the prediction models to rely completely on the node's input features. We propose Cold Brew to address the SCS and noisy neighbor setting compared to pointwise and other graph-based models via a distillation approach. We introduce feature-contribution ratio (FCR), a metric to study the viability of using inductive GNNs to solve the SCS problem and to select the best architecture for SCS generalization. We experimentally show FCR disentangles the contributions of various components of graph datasets and demonstrate the superior performance of Cold Brew on several public benchmarks and proprietary e-commerce datasets. The source code for our approach is available at: https://github.com/a mazon-research/gnn-t ail-generalization.
翻訳日:2021-11-10 15:02:35 公開日:2021-11-08
# 形式的手法による強化学習アルゴリズムの安全性の評価

On Assessing The Safety of Reinforcement Learning algorithms Using Formal Methods ( http://arxiv.org/abs/2111.04865v1 )

ライセンス: Link先を確認
Paulina Stevia, Nouwou Mindom, Amin Nikanjam, Foutse Khomh, and John Mullins(参考訳) 自動運転車、健康、航空といった安全クリティカルなシステム分野における強化学習の採用の増加は、安全性の確保の必要性を高めている。 adversarial training、adversarial detection、ロバスト学習といった既存の安全メカニズムは、エージェントがデプロイされるすべての障害に常に適応するとは限らない。 これらの混乱には、行動がエージェントによって予測不可能であり、実際にその学習に有害である移動敵が含まれる。 クリティカルシステムの安全性を確保するには、乱れた環境で進化するエージェントの振る舞いを形式的に保証する手法も必要となる。 したがって,エージェントが直面する学習課題に適応した新しいソリューションを提案する必要がある。 本稿ではまず,移動相手を提示することで,エージェントの方針に欠陥を示す敵エージェントを生成する。 第2に,報酬シェーピングと修正されたq学習アルゴリズムを防御機構として使用し,敵の摂動に対してエージェントの方針を改善する。 最後に、両方のメカニズムの有効性を評価するために確率論的モデル検査を用いる。 我々は,一つのエージェントが非学習と学習の敵と向き合うような離散的なグリッドワールドで実験を行った。 以上の結果から,エージェントと敵の衝突回数の減少が示唆された。 確率的モデルチェックは、敵環境におけるエージェントの安全性に関する低い確率的境界を提供する。

The increasing adoption of Reinforcement Learning in safety-critical systems domains such as autonomous vehicles, health, and aviation raises the need for ensuring their safety. Existing safety mechanisms such as adversarial training, adversarial detection, and robust learning are not always adapted to all disturbances in which the agent is deployed. Those disturbances include moving adversaries whose behavior can be unpredictable by the agent, and as a matter of fact harmful to its learning. Ensuring the safety of critical systems also requires methods that give formal guarantees on the behaviour of the agent evolving in a perturbed environment. It is therefore necessary to propose new solutions adapted to the learning challenges faced by the agent. In this paper, first we generate adversarial agents that exhibit flaws in the agent's policy by presenting moving adversaries. Secondly, We use reward shaping and a modified Q-learning algorithm as defense mechanisms to improve the agent's policy when facing adversarial perturbations. Finally, probabilistic model checking is employed to evaluate the effectiveness of both mechanisms. We have conducted experiments on a discrete grid world with a single agent facing non-learning and learning adversaries. Our results show a diminution in the number of collisions between the agent and the adversaries. Probabilistic model checking provides lower and upper probabilistic bounds regarding the agent's safety in the adversarial environment.
翻訳日:2021-11-10 15:02:15 公開日:2021-11-08
# ハイノイズ状態におけるデータ駆動型支配方程式発見ツールキット

A toolkit for data-driven discovery of governing equations in high-noise regimes ( http://arxiv.org/abs/2111.04870v1 )

ライセンス: Link先を確認
Charles B. Delahunt and J. Nathan Kutz(参考訳) 時系列データから高雑音の極限における支配方程式の探索について考察する。 開発したアルゴリズムは,非線形力学(SINDy)フレームワークのスパース同定におけるノイズの消音効果を回避する手法の広範なツールキットを記述する。 システムx' = f(x) から取得したノイズデータに焦点を当てた2つの主要な貢献を提供する。 まず, 高雑音環境での使用のために, シンディ回帰法の拡張を批判的に有効化する広範なツールキットを提案し, 過完全ライブラリから関数を段階的に引き起こし, 導出 x' に回帰するスパース方程式の組を生成する。 これらの革新は、高ノイズの時系列データ(例えば300%追加ノイズ)からスパース制御方程式や係数を抽出することができる。 例えば、Lorenzシステムにおける正しいスパースライブラリを発見し、中央値推定誤差は1% - 3%(50%ノイズ)、6% - 8%(100%ノイズ)、23% - 25%(300%ノイズ)と等しい。 ツールキットの有効モジュールは1つのメソッドにまとめられるが、個々のモジュールは他の方程式探索法(SINDyか?)に戦術的に適用でき、高ノイズデータの結果を改善することができる。 次に,x' = f(x) に基づく任意のモデル探索手法に適用可能な手法を提案する。 現在、この不合理さは発見モデルの精度を曖昧にし、発見方法の有効性を損なう可能性がある。 本稿では,関数間の線形依存性を用いて,検出されたモデルを真のモデルに最も近い等価な形式に変換し,検出されたモデルの精度をより正確に評価する手法について述べる。

We consider the data-driven discovery of governing equations from time-series data in the limit of high noise. The algorithms developed describe an extensive toolkit of methods for circumventing the deleterious effects of noise in the context of the sparse identification of nonlinear dynamics (SINDy) framework. We offer two primary contributions, both focused on noisy data acquired from a system x' = f(x). First, we propose, for use in high-noise settings, an extensive toolkit of critically enabling extensions for the SINDy regression method, to progressively cull functionals from an over-complete library and yield a set of sparse equations that regress to the derivate x'. These innovations can extract sparse governing equations and coefficients from high-noise time-series data (e.g. 300% added noise). For example, it discovers the correct sparse libraries in the Lorenz system, with median coefficient estimate errors equal to 1% - 3% (for 50% noise), 6% - 8% (for 100% noise); and 23% - 25% (for 300% noise). The enabling modules in the toolkit are combined into a single method, but the individual modules can be tactically applied in other equation discovery methods (SINDy or not) to improve results on high-noise data. Second, we propose a technique, applicable to any model discovery method based on x' = f(x), to assess the accuracy of a discovered model in the context of non-unique solutions due to noisy data. Currently, this non-uniqueness can obscure a discovered model's accuracy and thus a discovery method's effectiveness. We describe a technique that uses linear dependencies among functionals to transform a discovered model into an equivalent form that is closest to the true model, enabling more accurate assessment of a discovered model's accuracy.
翻訳日:2021-11-10 15:01:58 公開日:2021-11-08
# 低次元埋め込みによる最適輸送の効率的な推定

Efficient estimates of optimal transport via low-dimensional embeddings ( http://arxiv.org/abs/2111.04838v1 )

ライセンス: Link先を確認
Patric M. Fulop, Vincent Danos(参考訳) 近年,確率分布を比較する手段として,最適輸送距離(OT)が機械学習において広く用いられている。 これらは、データが高次元にある場合の計算に費用がかかる。 Patyらによる最近の研究は、データの低ランクなプロジェクションを使用してOTを計算することで、このコスト削減を特に目指している。 このアプローチを拡張し、1-Lipschitz であれば、より一般的な写像の族を用いて OT 距離を近似できることを示す。 最適な見積もりは、与えられた家族に対してOTを最大化することで得られる。 ot計算はデータを低次元空間にマッピングした後に行われるので,本手法は元のデータ次元とよく合致する。 ニューラルネットワークでそのアイデアを実証する。

Optimal transport distances (OT) have been widely used in recent work in Machine Learning as ways to compare probability distributions. These are costly to compute when the data lives in high dimension. Recent work by Paty et al., 2019, aims specifically at reducing this cost by computing OT using low-rank projections of the data (seen as discrete measures). We extend this approach and show that one can approximate OT distances by using more general families of maps provided they are 1-Lipschitz. The best estimate is obtained by maximising OT over the given family. As OT calculations are done after mapping data to a lower dimensional space, our method scales well with the original data dimension. We demonstrate the idea with neural networks.
翻訳日:2021-11-10 14:50:24 公開日:2021-11-08
# 協調型マルチプレイヤー・マルチアーム・バンディットのインスタンス依存分析

An Instance-Dependent Analysis for the Cooperative Multi-Player Multi-Armed Bandit ( http://arxiv.org/abs/2111.04873v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Peter Bartlett, Michael I. Jordan(参考訳) マルチプレイヤーマルチアーマッドバンドにおける情報共有と協調の課題について検討する。 本稿では,この問題に対する対数的後悔を実現するアルゴリズムを提案する。 私たちの結果は2つのイノベーションに基づいている。 まず, 逐次除去戦略の簡単な修正により, プレイヤーが衝突がなければ, 一定の要因まで, それらの部分最適化ギャップを推定できることを示す。 第2に、第1結果は、有意義なインスタンス依存の対数的後悔の保証を保ちながら、プレイヤー間での衝突の小さな報酬をうまく利用する通信プロトコルの設計に活用する。

We study the problem of information sharing and cooperation in Multi-Player Multi-Armed bandits. We propose the first algorithm that achieves logarithmic regret for this problem. Our results are based on two innovations. First, we show that a simple modification to a successive elimination strategy can be used to allow the players to estimate their suboptimality gaps, up to constant factors, in the absence of collisions. Second, we leverage the first result to design a communication protocol that successfully uses the small reward of collisions to coordinate among players, while preserving meaningful instance-dependent logarithmic regret guarantees.
翻訳日:2021-11-10 14:50:14 公開日:2021-11-08
# 形式論理に基づく視覚的質問応答

Visual Question Answering based on Formal Logic ( http://arxiv.org/abs/2111.04785v1 )

ライセンス: Link先を確認
Muralikrishnna G. Sethuraman, Ali Payani, Faramarz Fekri, J. Clayton Kerce(参考訳) 視覚的質問応答(VQA)は、複数のモーダル(画像、言語など)から得られる情報を理解することの難しさから、近年、機械学習コミュニティで大きな注目を集めている。 VQAでは、一連の質問が一連の画像に基づいて提示され、手元にあるタスクがその答えに到達する。 これを実現するために,形式論理の枠組みを用いたシンボリック推論に基づくアプローチを採用する。 画像と質問は、明示的な推論が行われる象徴表現に変換される。 我々は形式論理フレームワークを提案する。 (i)シーングラフの助けを借りて、画像が論理的背景事実に変換される。 (ii)トランスフォーマーベースのディープラーニングモデルを用いて、質問を一階述語論理節に翻訳する。 (iii)背景知識と述語節の接地を用いて満足度チェックを行い、回答を得る。 提案手法は高い解釈が可能であり, パイプラインの各ステップは人間によって容易に解析できる。 CLEVRとGQAデータセットに対する我々のアプローチを検証する。 我々はCLEVRデータセットの99.6%の精度を芸術モデルに匹敵する精度で達成し、形式論理が視覚的な質問応答に取り組むための実行可能なツールであることを示した。 我々のモデルはデータ効率も良く、トレーニングデータの10%しかトレーニングしていない場合、CLEVRデータセット上で99.1%の精度を達成する。

Visual question answering (VQA) has been gaining a lot of traction in the machine learning community in the recent years due to the challenges posed in understanding information coming from multiple modalities (i.e., images, language). In VQA, a series of questions are posed based on a set of images and the task at hand is to arrive at the answer. To achieve this, we take a symbolic reasoning based approach using the framework of formal logic. The image and the questions are converted into symbolic representations on which explicit reasoning is performed. We propose a formal logic framework where (i) images are converted to logical background facts with the help of scene graphs, (ii) the questions are translated to first-order predicate logic clauses using a transformer based deep learning model, and (iii) perform satisfiability checks, by using the background knowledge and the grounding of predicate clauses, to obtain the answer. Our proposed method is highly interpretable and each step in the pipeline can be easily analyzed by a human. We validate our approach on the CLEVR and the GQA dataset. We achieve near perfect accuracy of 99.6% on the CLEVR dataset comparable to the state of art models, showcasing that formal logic is a viable tool to tackle visual question answering. Our model is also data efficient, achieving 99.1% accuracy on CLEVR dataset when trained on just 10% of the training data.
翻訳日:2021-11-10 14:46:58 公開日:2021-11-08
# ハイブリッドBYOL-ViT:小さなデータセットを扱うための効率的なアプローチ

Hybrid BYOL-ViT: Efficient approach to deal with small Datasets ( http://arxiv.org/abs/2111.04845v1 )

ライセンス: Link先を確認
Safwen Naimi, Rien van Leeuwen, Wided Souidene and Slim Ben Saoud(参考訳) 教師付き学習は大きな表現空間を学習することができる。 しかし、モデルの設計により、従来の画像分類手法は、小さなデータセットを扱う際に、新しい問題や新しい状況に一般化するのに苦労する。 実際、教師付き学習は、非常に深いアーキテクチャで監督崩壊につながる画像特徴の位置を失う可能性がある。 本稿では,ラベルなしデータの強固かつ十分な拡張による自己スーパービジョンが,教師付き学習よりもニューラルネットワークの第1層を効果的に学習し,数百万のラベル付きデータを必要としないことを検討する。 主な目標は、一般的なタスクに依存しない低レベル機能を得ることで、アノテーションからピクセルデータを切り離すことである。 さらに,視覚トランスフォーマー(vit)について検討し,自己教師付きアーキテクチャから派生した低レベル機能は,この創発的アーキテクチャのロバスト性と全体的な性能を向上させることができることを示した。 提案手法を最小のオープンソースデータセットであるSTL-10を用いて評価し,自己教師付き学習アーキテクチャから生画像の代わりにViTに低レベル特徴を入力した場合,性能を41.66%から83.25%に向上させた。

Supervised learning can learn large representational spaces, which are crucial for handling difficult learning tasks. However, due to the design of the model, classical image classification approaches struggle to generalize to new problems and new situations when dealing with small datasets. In fact, supervised learning can lose the location of image features which leads to supervision collapse in very deep architectures. In this paper, we investigate how self-supervision with strong and sufficient augmentation of unlabeled data can train effectively the first layers of a neural network even better than supervised learning, with no need for millions of labeled data. The main goal is to disconnect pixel data from annotation by getting generic task-agnostic low-level features. Furthermore, we look into Vision Transformers (ViT) and show that the low-level features derived from a self-supervised architecture can improve the robustness and the overall performance of this emergent architecture. We evaluated our method on one of the smallest open-source datasets STL-10 and we obtained a significant boost of performance from 41.66% to 83.25% when inputting low-level features from a self-supervised learning architecture to the ViT instead of the raw images.
翻訳日:2021-11-10 14:46:36 公開日:2021-11-08
# グリーン深層学習に関する調査研究

A Survey on Green Deep Learning ( http://arxiv.org/abs/2111.05193v1 )

ライセンス: Link先を確認
Jingjing Xu, Wangchunshu Zhou, Zhiyi Fu, Hao Zhou, Lei Li(参考訳) 近年では、自然言語処理(NLP)やコンピュータビジョン(CV)など、さまざまな分野において、大規模でより深いモデルが立ち上がり、SOTA(State-of-the-ar t)の結果を継続的に押し進めている。 しかし、有望な結果にもかかわらず、SOTAモデルに必要な計算が指数的に増加したことに注意する必要がある。 大規模な計算は驚くほど大きなカーボンフットプリントを持つだけでなく、研究の包括性や実世界のアプリケーションへのデプロイに悪影響を及ぼす。 グリーンディープラーニングはますますホットな研究分野であり、モデルトレーニングと推論の間、研究者はエネルギー使用量や二酸化炭素排出量に注意を払うように求めている。 目標は、軽量で効率的な技術で新しい結果を得ることだ。 モデル圧縮や知識蒸留など、多くの技術がこの目標を達成するために利用できる。 本稿では,グリーン深層学習技術の開発に関する体系的レビューについて述べる。 これらのアプローチは,(1)コンパクトネットワーク,(2)エネルギー効率のトレーニング戦略,(3)エネルギー効率の推論アプローチ,(4)データ利用率の4つのカテゴリに分類される。 それぞれのカテゴリについて,達成された進歩と未解決の課題について論じる。

In recent years, larger and deeper models are springing up and continuously pushing state-of-the-art (SOTA) results across various fields like natural language processing (NLP) and computer vision (CV). However, despite promising results, it needs to be noted that the computations required by SOTA models have been increased at an exponential rate. Massive computations not only have a surprisingly large carbon footprint but also have negative effects on research inclusiveness and deployment on real-world applications. Green deep learning is an increasingly hot research field that appeals to researchers to pay attention to energy usage and carbon emission during model training and inference. The target is to yield novel results with lightweight and efficient technologies. Many technologies can be used to achieve this goal, like model compression and knowledge distillation. This paper focuses on presenting a systematic review of the development of Green deep learning technologies. We classify these approaches into four categories: (1) compact networks, (2) energy-efficient training strategies, (3) energy-efficient inference approaches, and (4) efficient data usage. For each category, we discuss the progress that has been achieved and the unresolved challenges.
翻訳日:2021-11-10 14:46:15 公開日:2021-11-08
# 攻撃的運転行動検出のためのディープラーニングアプローチ

Deep Learning Approach for Aggressive Driving Behaviour Detection ( http://arxiv.org/abs/2111.04794v1 )

ライセンス: Link先を確認
Farid Talebloo, Emad A. Mohammed, Behrouz Far(参考訳) 運転行動は、道路事故や事故の主な原因の1つであり、攻撃的な運転行動を特定し、最小化することでこれらを減らすことができる。 この研究は、異なる状況(ラッシュ、精神的衝突、報復)のドライバーが攻撃的に運転し始めるときのタイムステップを特定する。 私たちはスマートフォンのgpsセンサーを使って位置を検出し、ドライバーの運転行動を3分ごとに分類することで、この問題を克服しました。 我々のデータセットの時系列パターンを検出するために、運転中のパターンを特定するためにRNNアルゴリズム(GRU, LSTM)を用いる。 アルゴリズムは、道路、車両、位置、あるいは運転者の特性とは独立している。 3分間(またはそれ以上)の運転(120秒のGPSデータ)は、運転者の行動を特定するのに十分である。 その結果,高い精度とf1スコアが得られた。

Driving behaviour is one of the primary causes of road crashes and accidents, and these can be decreased by identifying and minimizing aggressive driving behaviour. This study identifies the timesteps when a driver in different circumstances (rush, mental conflicts, reprisal) begins to drive aggressively. An observer (real or virtual) is needed to examine driving behaviour to discover aggressive driving occasions; we overcome this problem by using a smartphone's GPS sensor to detect locations and classify drivers' driving behaviour every three minutes. To detect timeseries patterns in our dataset, we employ RNN (GRU, LSTM) algorithms to identify patterns during the driving course. The algorithm is independent of road, vehicle, position, or driver characteristics. We conclude that three minutes (or more) of driving (120 seconds of GPS data) is sufficient to identify driver behaviour. The results show high accuracy and a high F1 score.
翻訳日:2021-11-10 14:45:51 公開日:2021-11-08
# 確率的回路変換によるMarginal MAPの解法

Solving Marginal MAP Exactly by Probabilistic Circuit Transformations ( http://arxiv.org/abs/2111.04833v1 )

ライセンス: Link先を確認
YooJung Choi, Tal Friedman, Guy Van den Broeck(参考訳) 確率回路 (probabilistic circuits, pcs) は、マージンや最も可能性の高い説明 (mpe) などのクエリを効率的に、しばしば線形時間に推論できる、扱いやすい確率的モデルである。 しかし、多くの意思決定問題の中心である限界MAPは、高度に制約のある構造制約を満たさない限り、PCにとって厳しいクエリである。 そこで本稿では,PC を最小限の MAP クエリと無関係に除去し,正しい解を維持しながらPC を縮小するプルーニングアルゴリズムを提案する。 このプルーニング技術は非常に効果的であるため、回路を反復的に変換するのみに基づいて、サーチを必要とせずに、限界MAPソルバを構築することができる。 実世界のデータセットにアプローチの有効性を実証的に示す。

Probabilistic circuits (PCs) are a class of tractable probabilistic models that allow efficient, often linear-time, inference of queries such as marginals and most probable explanations (MPE). However, marginal MAP, which is central to many decision-making problems, remains a hard query for PCs unless they satisfy highly restrictive structural constraints. In this paper, we develop a pruning algorithm that removes parts of the PC that are irrelevant to a marginal MAP query, shrinking the PC while maintaining the correct solution. This pruning technique is so effective that we are able to build a marginal MAP solver based solely on iteratively transforming the circuit -- no search is required. We empirically demonstrate the efficacy of our approach on real-world datasets.
翻訳日:2021-11-10 14:44:03 公開日:2021-11-08
# 分位回帰における非単調性と交差問題の解法

Solution to the Non-Monotonicity and Crossing Problems in Quantile Regression ( http://arxiv.org/abs/2111.04805v1 )

ライセンス: Link先を確認
Resve A. Saleh and A.K.Md. Ehsanes Saleh(参考訳) 本稿では, 条件付きおよび構造的量子関数の推定において, 単調性の欠如という長年の問題に対処する新しい手法を提案する。 量子回帰は、一般的なデータサイエンス、特に計量学において非常に強力なツールである。 残念なことに、この横断問題は40年以上にわたって研究者や実践者たちを悩ませてきた。 許容できる解を見つけるために多くの試みがなされているが、これまでは単純で一般的な解は見つからなかった。 本稿では,この問題に対するエレガントな解法について述べる。r と python で容易に理解し,実装できる1つの数学的方程式に基づく。 質的回帰が日常的に使用されるすべての領域において非常に重要であり、特に機械学習のコンテキストにおいて、堅牢な回帰に応用される可能性がある。

This paper proposes a new method to address the long-standing problem of lack of monotonicity in estimation of the conditional and structural quantile function, also known as quantile crossing problem. Quantile regression is a very powerful tool in data science in general and econometrics in particular. Unfortunately, the crossing problem has been confounding researchers and practitioners alike for over 4 decades. Numerous attempts have been made to find an acceptable solution but no simple and general solution has been found to date. This paper describes an elegant solution to the problem which is based on a single mathematical equation that is easy to understand and implement in R and Python, while greatly reducing the crossing problem. It will be very important in all areas where quantile regression is routinely used and may also find application in robust regression, especially in the context of machine learning.
翻訳日:2021-11-10 14:43:25 公開日:2021-11-08
# クエリ強化型アクティブメトリック学習

Query-augmented Active Metric Learning ( http://arxiv.org/abs/2111.04871v1 )

ライセンス: Link先を確認
Yujia Deng, Yubai Yuan, Haoda Fu, Annie Qu(参考訳) 本稿では,ペア制約付きクラスタリングのためのアクティブなメトリック学習手法を提案する。 提案手法では,ラベルなしのインスタンスペアを組み込むことで,基盤となるメトリクスを推定しながら,インフォメーションインスタンスペアのラベルを積極的にクエリし,より正確かつ効率的なクラスタリングプロセスを実現する。 特に、よりペアワイズなラベルを生成して、クラスタリング性能を高めるためにメトリクスを学習する際の追加情報を提供することにより、クエリ制約を増大させます。 さらに、学習したメトリックを逐次更新し、無関係な特徴を適応的に罰することで、メトリック学習の堅牢性を高める。 さらに,余分なラベル付けコストを伴わずにクラスタリング効率を向上させるため,近隣構造を取り入れることで,インスタンスペアの情報ゲインをより正確に評価する,新しいアクティブクエリ戦略を提案する。 理論上は,既存の制約のみを用いた手法と比較して,拡張クエリを用いた計量学習手法の誤差境界の厳密化を提案する。 さらに,ランダム選択ではなく,アクティブクエリ戦略による改善についても検討した。 シミュレーション設定と実データ集合に関する数値的研究は,重要特徴量と無関係特徴量との信号対雑音比が低い場合,提案手法が特に有利であることを示す。

In this paper we propose an active metric learning method for clustering with pairwise constraints. The proposed method actively queries the label of informative instance pairs, while estimating underlying metrics by incorporating unlabeled instance pairs, which leads to a more accurate and efficient clustering process. In particular, we augment the queried constraints by generating more pairwise labels to provide additional information in learning a metric to enhance clustering performance. Furthermore, we increase the robustness of metric learning by updating the learned metric sequentially and penalizing the irrelevant features adaptively. In addition, we propose a novel active query strategy that evaluates the information gain of instance pairs more accurately by incorporating the neighborhood structure, which improves clustering efficiency without extra labeling cost. In theory, we provide a tighter error bound of the proposed metric learning method utilizing augmented queries compared with methods using existing constraints only. Furthermore, we also investigate the improvement using the active query strategy instead of random selection. Numerical studies on simulation settings and real datasets indicate that the proposed method is especially advantageous when the signal-to-noise ratio between significant features and irrelevant features is low.
翻訳日:2021-11-10 14:43:10 公開日:2021-11-08
# 代理モデルと不確実性定量化のためのGated Linear ModelによるU-net

Gated Linear Model induced U-net for surrogate modeling and uncertainty quantification ( http://arxiv.org/abs/2111.05123v1 )

ライセンス: Link先を確認
Sai Krishna Mendu and Souvik Chakraborty(参考訳) 本研究では,高次元の不確実性定量化と不確実性伝播問題を解決するための,新しい深層学習に基づくサロゲートモデルを提案する。 提案したディープラーニングアーキテクチャは、よく知られたU-netアーキテクチャをGaussian Gated Linear Network (GGLN)と統合し、Gated Linear Network induced U-netまたはGLU-netと呼ぶ。 提案するglu-netは不確実性伝播問題を画像として画像回帰に扱うため,データ効率が極めて高い。 さらに、予測の不確実性の推定も提供する。 GLU-netのネットワークアーキテクチャは、現在の作業よりも44倍のパラメータで複雑ではない。 スパースデータシナリオにおける不確実性の下でのDarcyフロー問題の解法として提案したGLU-netの性能について述べる。 確率的入力次元は4225までとみなす。 バニラモンテカルロシミュレーションを用いてベンチマーク結果を生成する。 提案したGLU-netは,入力構造に関する情報がネットワークに提供されていなくても,正確かつ極めて効率的である。 提案手法のロバスト性を説明するために,トレーニングサンプルサイズと確率的入力次元を変化させてケーススタディを行う。

We propose a novel deep learning based surrogate model for solving high-dimensional uncertainty quantification and uncertainty propagation problems. The proposed deep learning architecture is developed by integrating the well-known U-net architecture with the Gaussian Gated Linear Network (GGLN) and referred to as the Gated Linear Network induced U-net or GLU-net. The proposed GLU-net treats the uncertainty propagation problem as an image to image regression and hence, is extremely data efficient. Additionally, it also provides estimates of the predictive uncertainty. The network architecture of GLU-net is less complex with 44\% fewer parameters than the contemporary works. We illustrate the performance of the proposed GLU-net in solving the Darcy flow problem under uncertainty under the sparse data scenario. We consider the stochastic input dimensionality to be up to 4225. Benchmark results are generated using the vanilla Monte Carlo simulation. We observe the proposed GLU-net to be accurate and extremely efficient even when no information about the structure of the inputs is provided to the network. Case studies are performed by varying the training sample size and stochastic input dimensionality to illustrate the robustness of the proposed approach.
翻訳日:2021-11-10 14:41:49 公開日:2021-11-08
# TAGLETS:補助データを用いた半教師付き自動学習システム

TAGLETS: A System for Automatic Semi-Supervised Learning with Auxiliary Data ( http://arxiv.org/abs/2111.04798v1 )

ライセンス: Link先を確認
Wasu Piriyakulkij and Cristina Menghini and Ross Briden and Nihal V. Nayak and Jeffrey Zhu and Elaheh Raisi and Stephen H. Bach(参考訳) マシンラーニングの実践者は、ターゲットタスク(しばしば制限されている)のラベル付きデータ、ラベルなしデータ、その他のタスクのラベル付きデータセットなど、さまざまなデータにアクセスすることができる。 3種類のデータを自動的に活用し、高品質で可読な分類器を作成するための技術を学ぶためのシステムであるtagletsについて述べる。 TAGLETSの主な構成要素は、(1)知識グラフに基づいて整理された補助データ、(2)補助的および未ラベルのデータを利用する異なる手法をカプセル化したモジュール、(3)アンサンブルされたモジュールを可観測モデルに結合する蒸留段階である。 4つの画像分類タスクにおいて,TAGLETSと最先端の伝達学習および半教師付き学習手法を比較した。 本研究は,対象タスクに対するラベル付きデータの量や補助データの意味的関連性など,さまざまな設定をカバーする。 補助的および未ラベルのデータを複数の学習手法にインテリジェントに組み込むことで、TAGLETSはマッチし、最も多くはそれを超える代替手段となる。 TAGLETSはgithub.com/BatsResea rch/tagletsのオープンソースシステムとして利用可能である。

Machine learning practitioners often have access to a spectrum of data: labeled data for the target task (which is often limited), unlabeled data, and auxiliary data, the many available labeled datasets for other tasks. We describe TAGLETS, a system built to study techniques for automatically exploiting all three types of data and creating high-quality, servable classifiers. The key components of TAGLETS are: (1) auxiliary data organized according to a knowledge graph, (2) modules encapsulating different methods for exploiting auxiliary and unlabeled data, and (3) a distillation stage in which the ensembled modules are combined into a servable model. We compare TAGLETS with state-of-the-art transfer learning and semi-supervised learning methods on four image classification tasks. Our study covers a range of settings, varying the amount of labeled data and the semantic relatedness of the auxiliary data to the target task. We find that the intelligent incorporation of auxiliary and unlabeled data into multiple learning techniques enables TAGLETS to match-and most often significantly surpass-these alternatives. TAGLETS is available as an open-source system at github.com/BatsResea rch/taglets.
翻訳日:2021-11-10 14:40:39 公開日:2021-11-08
# 医用画像分割用混合トランスu-net

Mixed Transformer U-Net For Medical Image Segmentation ( http://arxiv.org/abs/2111.04734v1 )

ライセンス: Link先を確認
Hongyi Wang, Shiao Xie, Lanfen Lin, Yutaro Iwamoto, Xian-Hua Han, Yen-Wei Chen, Ruofeng Tong(参考訳) U-Netは医療画像セグメンテーションタスクで大きな成功を収めているが、長距離依存を明示的にモデル化する能力は欠如している。 そのため、視覚トランスフォーマは自己着脱(sa)によって長距離相関を捉えることができるため、近年では代替セグメンテーション構造として登場している。 しかし、トランスフォーマーは通常、大規模な事前学習に頼り、高い計算複雑性を持つ。 さらに、SAはデータセット全体の潜在的な相関を無視し、単一のサンプル内でのみ自己親和性をモデル化できる。 そこで本稿では,この問題を解決するために,混合トランスモジュール (mtm) という新しいトランスモジュールを提案する。 mtmはまず,よく設計された局所グローバルガウス重み付きセルフアテンション (lgg-sa) を用いて,効率的な自己親和性を計算する。 そして、外部注意(EA)を通じてデータサンプル間の相互接続をマイニングする。 MTMを用いて、正確な医用画像分割のためのMixed Transformer U-Net(MT-UNet)と呼ばれるU字型モデルを構築する。 提案手法を2つの公開データセットで検証し,提案手法が他の最先端手法よりも優れた性能を実現することを示す。 コードはhttps://github.com/d ootmaan/mt-unet。

Though U-Net has achieved tremendous success in medical image segmentation tasks, it lacks the ability to explicitly model long-range dependencies. Therefore, Vision Transformers have emerged as alternative segmentation structures recently, for their innate ability of capturing long-range correlations through Self-Attention (SA). However, Transformers usually rely on large-scale pre-training and have high computational complexity. Furthermore, SA can only model self-affinities within a single sample, ignoring the potential correlations of the overall dataset. To address these problems, we propose a novel Transformer module named Mixed Transformer Module (MTM) for simultaneous inter- and intra- affinities learning. MTM first calculates self-affinities efficiently through our well-designed Local-Global Gaussian-Weighted Self-Attention (LGG-SA). Then, it mines inter-connections between data samples through External Attention (EA). By using MTM, we construct a U-shaped model named Mixed Transformer U-Net (MT-UNet) for accurate medical image segmentation. We test our method on two different public datasets, and the experimental results show that the proposed method achieves better performance over other state-of-the-art methods. The code is available at: https://github.com/D ootmaan/MT-UNet.
翻訳日:2021-11-10 14:40:02 公開日:2021-11-08
# BRACS:H&E組織像におけるBRest癌サブタイプのためのデータセット

BRACS: A Dataset for BReAst Carcinoma Subtyping in H&E Histology Images ( http://arxiv.org/abs/2111.04740v1 )

ライセンス: Link先を確認
Nadia Brancati, Anna Maria Anniciello, Pushpak Pati, Daniel Riccio, Giosu\`e Scognamiglio, Guillaume Jaume, Giuseppe De Pietro, Maurizio Di Bonito, Antonio Foncubierta, Gerardo Botti, Maria Gabrani, Florinda Feroce, and Maria Frucci(参考訳) 乳がんは最も一般的に診断されるがんであり、がん患者の死亡件数は最も多い。 近年, 乳がん患者の診断活動と検診方針の併用により, 死亡率を大幅に低下させた。 しかしながら、病理学者による組織スライドの手動検査は煩雑で時間のかかる作業であり、サーバ間およびサーバ内変動が顕著である。 近年,全スライド走査システムの出現により,病理スライドのデジタル化が急速に進み,ディジタルワークフローの開発が可能になった。 これらの進歩により、人工知能(AI)を活用して、病理診断を支援し、自動化し、拡張することができる。 しかし、AI技術、特にディープラーニング(DL)は、そこから学ぶために大量の高品質な注釈付きデータを必要とする。 このようなタスク固有のデータセットの構築には、データ取得レベルの制約、時間消費と高価なアノテーション、プライベート情報の匿名化など、いくつかの課題がある。 本稿では, 乳腺病変の鑑別を容易にするため, Hematoxylin & Eosin (H&E) 染色画像の大きなコホートであるBReAst Carcinoma Subtyping (BRACS) データセットを紹介する。 BRACSには、WSIsから抽出された547個の全スライド画像(WSI)と4539個の関心領域(ROI)が含まれている。 それぞれのWSIおよび各ROIは、3人の診断された病理医の異なる病変分類のコンセンサスによって注釈される。 具体的には、BRACSは、良性、悪性、非定型という3つの病変タイプを含み、さらに7つのカテゴリに分類される。 私たちの知る限りでは、wsiレベルとroiレベルの両方で乳がんをサブタイプする最大の注釈付きデータセットです。 さらに、未調査の非定型病変を含めることで、BRACSはAIを活用してそれらの特性をよりよく理解するユニークな機会を提供する。

Breast cancer is the most commonly diagnosed cancer and registers the highest number of deaths for women with cancer. Recent advancements in diagnostic activities combined with large-scale screening policies have significantly lowered the mortality rates for breast cancer patients. However, the manual inspection of tissue slides by the pathologists is cumbersome, time-consuming, and is subject to significant inter- and intra-observer variability. Recently, the advent of whole-slide scanning systems have empowered the rapid digitization of pathology slides, and enabled to develop digital workflows. These advances further enable to leverage Artificial Intelligence (AI) to assist, automate, and augment pathological diagnosis. But the AI techniques, especially Deep Learning (DL), require a large amount of high-quality annotated data to learn from. Constructing such task-specific datasets poses several challenges, such as, data-acquisition level constrains, time-consuming and expensive annotations, and anonymization of private information. In this paper, we introduce the BReAst Carcinoma Subtyping (BRACS) dataset, a large cohort of annotated Hematoxylin & Eosin (H&E)-stained images to facilitate the characterization of breast lesions. BRACS contains 547 Whole-Slide Images (WSIs), and 4539 Regions of Interest (ROIs) extracted from the WSIs. Each WSI, and respective ROIs, are annotated by the consensus of three board-certified pathologists into different lesion categories. Specifically, BRACS includes three lesion types, i.e., benign, malignant and atypical, which are further subtyped into seven categories. It is, to the best of our knowledge, the largest annotated dataset for breast cancer subtyping both at WSI- and ROI-level. Further, by including the understudied atypical lesions, BRACS offers an unique opportunity for leveraging AI to better understand their characteristics.
翻訳日:2021-11-10 14:39:41 公開日:2021-11-08
# 自然言語による顔提示攻撃検出の解説

Explaining Face Presentation Attack Detection Using Natural Language ( http://arxiv.org/abs/2111.04862v1 )

ライセンス: Link先を確認
Hengameh Mirzaalian, Mohamed E. Hussein, Leonidas Spinoulas, Jonathan May, Wael Abd-Almageed(参考訳) 顔提示攻撃検出(pad)の課題に対処するために,深層ニューラルネットワークに基づく手法が数多く開発されている。 このような手法は、未確認の攻撃や環境条件に対する分類精度と堅牢性の観点から、PAD性能の向上に重点を置いているが、PAD予測の妥当性についてはほとんど注目されていない。 本稿では,自然言語によるパッド予測を説明する問題に取り組む。 提案手法は,PADモデルの深い層の特徴表現を言語モデルに渡して,PAD予測の背後にある推論を記述するテキストを生成する。 本研究では,注釈付きデータが少ないため,自然言語生成モデルとして軽量LSTMネットワークを適用した。 本稿では, 単語単位のクロスエントロピー損失, 文識別的損失, 文意味的損失など, 生成した説明の質が, 異なる損失関数にどのように影響するかを検討する。 1,105個のボナフィドと924個の提示攻撃サンプルからなるデータセットから顔画像を用いて実験を行った。 定量的・定性的な結果から,本モデルがテキストによる適切なパディング説明の生成と文の損失のパワーに与える影響を示した。 私たちの知る限りでは、これはジョイントバイオメトリックスnlpタスクの最初の導入です。 当社のデータセットは、githubページから取得可能です。

A large number of deep neural network based techniques have been developed to address the challenging problem of face presentation attack detection (PAD). Whereas such techniques' focus has been on improving PAD performance in terms of classification accuracy and robustness against unseen attacks and environmental conditions, there exists little attention on the explainability of PAD predictions. In this paper, we tackle the problem of explaining PAD predictions through natural language. Our approach passes feature representations of a deep layer of the PAD model to a language model to generate text describing the reasoning behind the PAD prediction. Due to the limited amount of annotated data in our study, we apply a light-weight LSTM network as our natural language generation model. We investigate how the quality of the generated explanations is affected by different loss functions, including the commonly used word-wise cross entropy loss, a sentence discriminative loss, and a sentence semantic loss. We perform our experiments using face images from a dataset consisting of 1,105 bona-fide and 924 presentation attack samples. Our quantitative and qualitative results show the effectiveness of our model for generating proper PAD explanations through text as well as the power of the sentence-wise losses. To the best of our knowledge, this is the first introduction of a joint biometrics-NLP task. Our dataset can be obtained through our GitHub page.
翻訳日:2021-11-10 14:39:10 公開日:2021-11-08
# EvoLearner:進化的アルゴリズムによる記述論理の学習

EvoLearner: Learning Description Logics with Evolutionary Algorithms ( http://arxiv.org/abs/2111.04879v1 )

ライセンス: Link先を確認
Stefan Heindorf, Lukas Bl\"ubaum, Nick D\"usterhus, Till Werner, Varun Nandkumar Golani, Caglar Demir, Axel-Cyrille Ngonga Ngomo(参考訳) 知識グラフにおけるノードの分類は重要なタスクであり、例えば、欠落したタイプのエンティティを予測したり、どの分子ががんの原因となるかを予測したり、どの薬物が有望な治療候補であるかを予測する。 ブラックボックスモデルはしばしば高い予測性能を達成するが、それらはポストホックで局所的な説明が可能であるだけで、学習したモデルをドメイン知識で容易にリッチにすることはできない。 この目的に向けて、ポジティブな例とネガティブな例から説明論理の概念を学ぶことが提案されている。 しかし、そのような概念を学ぶには長い時間がかかることが多く、最先端のアプローチはリテラルデータ値に対するサポートが限られている。 本稿では, ALCQ(D) を学習するための進化的アプローチである EvoLearner を提案する。 まず,前向きな例(知識グラフのノード)から始まり,偏りのあるランダムウォークを行い,それらを記述論理の概念に翻訳する。 さらに,データの分割場所を決定する際の情報ゲインを最大化することにより,データプロパティのサポートを向上させる。 提案手法は,構造化機械学習のためのベンチマークフレームワークSML-Benchの最先端技術であることを示す。 アブレーション研究は,新しい初期化法とデータ特性のサポートによるものであることを確認した。

Classifying nodes in knowledge graphs is an important task, e.g., predicting missing types of entities, predicting which molecules cause cancer, or predicting which drugs are promising treatment candidates. While black-box models often achieve high predictive performance, they are only post-hoc and locally explainable and do not allow the learned model to be easily enriched with domain knowledge. Towards this end, learning description logic concepts from positive and negative examples has been proposed. However, learning such concepts often takes a long time and state-of-the-art approaches provide limited support for literal data values, although they are crucial for many applications. In this paper, we propose EvoLearner - an evolutionary approach to learn ALCQ(D), which is the attributive language with complement (ALC) paired with qualified cardinality restrictions (Q) and data properties (D). We contribute a novel initialization method for the initial population: starting from positive examples (nodes in the knowledge graph), we perform biased random walks and translate them to description logic concepts. Moreover, we improve support for data properties by maximizing information gain when deciding where to split the data. We show that our approach significantly outperforms the state of the art on the benchmarking framework SML-Bench for structured machine learning. Our ablation study confirms that this is due to our novel initialization method and support for data properties.
翻訳日:2021-11-10 14:36:08 公開日:2021-11-08
# (参考訳) ニューラル微分方程式の不確かさの定量化 [全文訳有]

Uncertainty Quantification in Neural Differential Equations ( http://arxiv.org/abs/2111.04207v1 )

ライセンス: CC BY 4.0
Olga Graf, Pablo Flores, Pavlos Protopapas, Karim Pichara(参考訳) 不確実性定量化(UQ)は、収集された観測と不確実なドメイン知識に基づいて信頼できる予測を行うのに役立つ。 様々なアプリケーションにおけるディープラーニングの利用の増加に伴い、深層モデルの信頼性を高める効率的なUQ手法の必要性も高まっている。 不確実性の効果的な処理から恩恵を受けるアプリケーションには、deep learning based differential equation (de) solversがある。 我々は、DECソリューションの予測不確実性を得るためにいくつかの最先端UQ手法を適用し、4つの異なるDECタイプの結果を示す。

Uncertainty quantification (UQ) helps to make trustworthy predictions based on collected observations and uncertain domain knowledge. With increased usage of deep learning in various applications, the need for efficient UQ methods that can make deep models more reliable has increased as well. Among applications that can benefit from effective handling of uncertainty are the deep learning based differential equation (DE) solvers. We adapt several state-of-the-art UQ methods to get the predictive uncertainty for DE solutions and show the results on four different DE types.
翻訳日:2021-11-10 03:16:39 公開日:2021-11-08
# (参考訳) 突然変異がタンパク質の安定性に与える影響を予測するAIの課題 [全文訳有]

AI challenges for predicting the impact of mutations on protein stability ( http://arxiv.org/abs/2111.04208v1 )

ライセンス: CC BY 4.0
Fabrizio Pucci, Martin Schwersensky, Marianne Rooman(参考訳) 安定性はタンパク質適合性の重要な要素であり、標的突然変異による改変は、タンパク質工学、薬物設計、有害変異解釈などの様々な分野に応用されている。 過去数十年にわたり、人工知能(AI)の最新の発展に基づいて、突然変異がタンパク質の安定性に与える影響を予測する、より効果的な方法を構築するために、多くの研究が費やされてきた。 独立テストセットで推定した特徴,アルゴリズム,計算効率,精度について考察する。 我々は,それらの限界,トレーニングセットに対する繰り返しバイアス,一般化可能性,解釈可能性の批判的分析に焦点をあてる。 予測器の精度は15年以上にわたって約1 kcal/molで低下していた。 パフォーマンス向上のために対処すべき課題を議論することで、私たちは結論付けます。

Stability is a key ingredient of protein fitness and its modification through targeted mutations has applications in various fields such as protein engineering, drug design and deleterious variant interpretation. Many studies have been devoted over the past decades to building new, more effective methods for predicting the impact of mutations on protein stability, based on the latest developments in artificial intelligence (AI). We discuss their features, algorithms, computational efficiency, and accuracy estimated on an independent test set. We focus on a critical analysis of their limitations, the recurrent biases towards the training set, their generalizability and interpretability. We found that the accuracy of the predictors has stagnated at around 1 kcal/mol for over 15 years. We conclude by discussing the challenges that need to be addressed to reach improved performance.
翻訳日:2021-11-10 03:09:30 公開日:2021-11-08
# (参考訳) 3dモデルを用いた高密度歯のランドマーク・軸検出ネットワーク [全文訳有]

Dense Representative Tooth Landmark/axis Detection Network on 3D Model ( http://arxiv.org/abs/2111.04212v1 )

ライセンス: CC BY 4.0
Guangshun Wei, Zhiming Cui, Jie Zhu, Lei Yang, Yuanfeng Zhou, Pradeep Singh, Min Gu, Wenping Wang(参考訳) 人工知能(AI)技術は、デジタル矯正にますます使われているが、課題の1つは、歯のランドマークや軸を自動的に正確に検出することである。 これは、複雑な幾何学的定義と、個々の歯と異なる種類の歯の間に大きな違いがあるためである。 そこで本研究では, 歯科医師のラベル付きデータセットを用いて, 矯正治療に不可欠な歯モデルにおける歯のランドマーク/軸検出法を提案する。 本手法は, 歯の目印を点(例えば, 尖点)として抽出するだけでなく, 歯の角化や傾斜を測定する軸も抽出できる。 提案するネットワークは3d歯モデル入力とし, 歯のランドマークや軸の種類を予測している。 具体的には, 歯面上に定義された密集場として, ランドマークと軸をエンコードする。 この設計選択と追加部品のセットにより、提案したネットワークは、所定の3次元歯モデルからスパースランドマークを抽出するのにより適している。 提案手法の広範囲な評価は, 経験者歯科医が作成した歯科モデルを用いて行った。 その結果, 歯のランドマークを高精度に生成できることがわかった。 本手法は,最先端法およびアブレーション法との比較により検討・正当化された。

Artificial intelligence (AI) technology is increasingly used for digital orthodontics, but one of the challenges is to automatically and accurately detect tooth landmarks and axes. This is partly because of sophisticated geometric definitions of them, and partly due to large variations among individual tooth and across different types of tooth. As such, we propose a deep learning approach with a labeled dataset by professional dentists to the tooth landmark/axis detection on tooth model that are crucial for orthodontic treatments. Our method can extract not only tooth landmarks in the form of point (e.g. cusps), but also axes that measure the tooth angulation and inclination. The proposed network takes as input a 3D tooth model and predicts various types of the tooth landmarks and axes. Specifically, we encode the landmarks and axes as dense fields defined on the surface of the tooth model. This design choice and a set of added components make the proposed network more suitable for extracting sparse landmarks from a given 3D tooth model. Extensive evaluation of the proposed method was conducted on a set of dental models prepared by experienced dentists. Results show that our method can produce tooth landmarks with high accuracy. Our method was examined and justified via comparison with the state-of-the-art methods as well as the ablation studies.
翻訳日:2021-11-10 02:58:01 公開日:2021-11-08
# (参考訳) 深層能動学習を用いたプライバシーポリシーにおけるGDPR開示要求の自動検出 [全文訳有]

Automated Detection of GDPR Disclosure Requirements in Privacy Policies using Deep Active Learning ( http://arxiv.org/abs/2111.04224v1 )

ライセンス: CC BY 4.0
Tamjid Al Rahat, Tu Le, Yuan Tian(参考訳) 2018年5月にGDPRが施行されて以来、企業はこのプライバシー法に従うためにデータプラクティスに取り組んでいる。 特に、プライバシーポリシーはユーザーがプライバシーを理解し制御するための重要なコミュニケーションチャネルであるため、GDPRが施行された後、多くの企業がプライバシポリシーを更新した。 しかし、ほとんどのプライバシーポリシーは冗長であり、用語に満ちており、企業のデータプラクティスとユーザの権利を曖昧に記述している。 したがって、GDPRに準拠しているかどうかは不明である。 本稿では、GDPR18の要件をラベル付けした1,080のWebサイトのプライバシポリシデータセットを作成し、89.2%の精度でプライバシポリシを分類可能な畳み込みニューラルネットワーク(CNN)ベースのモデルを開発する。 我々は、プライバシーポリシーの遵守度を測定するために、このモデルを適用します。 その結果、GDPRが施行された後も、ウェブサイトの97%は少なくとも1つのGDPR要件を満たしていないことがわかった。

Since GDPR came into force in May 2018, companies have worked on their data practices to comply with this privacy law. In particular, since the privacy policy is the essential communication channel for users to understand and control their privacy, many companies updated their privacy policies after GDPR was enforced. However, most privacy policies are verbose, full of jargon, and vaguely describe companies' data practices and users' rights. Therefore, it is unclear if they comply with GDPR. In this paper, we create a privacy policy dataset of 1,080 websites labeled with the 18 GDPR requirements and develop a Convolutional Neural Network (CNN) based model which can classify the privacy policies with an accuracy of 89.2%. We apply our model to perform a measurement on the compliance in the privacy policies. Our results show that even after GDPR went into effect, 97% of websites still fail to comply with at least one requirement of GDPR.
翻訳日:2021-11-10 02:36:57 公開日:2021-11-08
# (参考訳) リアルタイムエッジコンピューティングのための2次元人物位置推定光の高精度モデル再検討 [全文訳有]

Rethinking Deconvolution for 2D Human Pose Estimation Light yet Accurate Model for Real-time Edge Computing ( http://arxiv.org/abs/2111.04226v1 )

ライセンス: CC BY 4.0
Masayuki Yamazaki, Eigo Mori(参考訳) 本研究では,現実的な軽量ポーズ推定モデルを提案する。 我々のモデルは低消費電力組込みデバイスを用いてリアルタイムな予測を行うことができる。 このシステムは精度が高く、COCOテストデータセットの計算コストはわずか3.8%であったため、SOTA HRNet 256x192の94.5%の精度を達成した。 私たちのモデルはエンコーダ-デコーダアーキテクチャを採用しており、効率を改善するために慎重に縮小しています。 特に,デコンボリューション層を最適化することに着目し,デコンボリューション層のチャネル削減が,システムの精度を損なうことなく計算資源消費量の削減に大きく寄与することを確認した。 また,モデル効率を最大化するために,ダークポスや蒸留訓練などの最近のモデル非依存技術も取り入れた。 さらに、モデル量子化を適用し、マルチ/ミックス精度の特徴を利用する。 FP16のモデル(COCO AP 70.0)はNVIDIA Jetson AGX Xavierで60fps、NVIDIA Quadro RTX6000で200fpsで動作する。

In this study, we present a pragmatic lightweight pose estimation model. Our model can achieve real-time predictions using low-power embedded devices. This system was found to be very accurate and achieved a 94.5% accuracy of SOTA HRNet 256x192 using a computational cost of only 3.8% on COCO test dataset. Our model adopts an encoder-decoder architecture and is carefully downsized to improve its efficiency. We especially focused on optimizing the deconvolution layers and observed that the channel reduction of the deconvolution layers contributes significantly to reducing computational resource consumption without degrading the accuracy of this system. We also incorporated recent model agnostic techniques such as DarkPose and distillation training to maximize the efficiency of our model. Furthermore, we applied model quantization to exploit multi/mixed precision features. Our FP16'ed model (COCO AP 70.0) operates at ~60-fps on NVIDIA Jetson AGX Xavier and ~200 fps on NVIDIA Quadro RTX6000.
翻訳日:2021-11-10 02:21:36 公開日:2021-11-08
# (参考訳) 3D Scene Stitchingとオブジェクトローカライゼーションのための実用的,高速,ロバストなポイントクラウド登録 [全文訳有]

Practical, Fast and Robust Point Cloud Registration for 3D Scene Stitching and Object Localization ( http://arxiv.org/abs/2111.04228v1 )

ライセンス: CC0 1.0
Lei Sun(参考訳) 3dポイントクラウド登録は、リモートセンシング、フォトグラメトリー、ロボティクス、幾何学的コンピュータビジョンにおける最も基本的な問題である。 3次元特徴マッチング手法の精度が限られているため、アウトリーチは、時には非常に多くの文字が対応している。 既存のロバストソルバは高い計算コストや制限されたロバスト性に遭遇する可能性があるので,超解率のポイントクラウド登録問題に対して,vocra (voting with cost function and rotation averaging) という,新しい高速かつ高ロバストな解を提案する。 最初のコントリビューションは、tukeyの2重のロバストなコストを使って、新しい投票と対応のソート手法を導入することです。 第2のコントリビューションは、ロバストな回転平均化に基づく時間効率のコンセンサス最大化パラダイムを設計することであり、対応間に不適切な候補を求めるのに役立つ。 最後に、チューキーの双重項 (GNC-TB) による漸進的非凸性を適用し、得られた不等式候補を用いて正しい変換を推定する。 2つの実データ問題に適用可能な標準ベンチマークと実時間実験の両方を行い、我々の解法VOCRAは99%以上の外れ値に対して堅牢であり、最先端の競合よりも時間効率が高いことを示した。

3D point cloud registration ranks among the most fundamental problems in remote sensing, photogrammetry, robotics and geometric computer vision. Due to the limited accuracy of 3D feature matching techniques, outliers may exist, sometimes even in very large numbers, among the correspondences. Since existing robust solvers may encounter high computational cost or restricted robustness, we propose a novel, fast and highly robust solution, named VOCRA (VOting with Cost function and Rotating Averaging), for the point cloud registration problem with extreme outlier rates. Our first contribution is to employ the Tukey's Biweight robust cost to introduce a new voting and correspondence sorting technique, which proves to be rather effective in distinguishing true inliers from outliers even with extreme (99%) outlier rates. Our second contribution consists in designing a time-efficient consensus maximization paradigm based on robust rotation averaging, serving to seek inlier candidates among the correspondences. Finally, we apply Graduated Non-Convexity with Tukey's Biweight (GNC-TB) to estimate the correct transformation with the inlier candidates obtained, which is then used to find the complete inlier set. Both standard benchmarking and realistic experiments with application to two real-data problems are conducted, and we show that our solver VOCRA is robust against over 99% outliers and more time-efficient than the state-of-the-art competitors.
翻訳日:2021-11-10 02:13:45 公開日:2021-11-08
# (参考訳) 合成顔の人間の知覚に関する研究 [全文訳有]

A Study of the Human Perception of Synthetic Faces ( http://arxiv.org/abs/2111.04230v1 )

ライセンス: CC BY 4.0
Bingyu Shen, Brandon RichardWebster, Alice O'Toole, Kevin Bowyer, Walter J. Scheirer(参考訳) 顔合成の進歩は、合成顔の使用を欺くことに警鐘を鳴らしている。 人工的なアイデンティティは、人間の観察者を騙すのに有効か? 本稿では,最先端の深層学習に基づくGANモデルを含む,異なる戦略を用いた合成顔の人間の知覚に関する研究を紹介する。 これは、心理学の実験技術に基づく合成顔生成技術の有効性に関する最初の厳密な研究である。 私たちは、ganベースの、より伝統的な画像処理ベースの技術が人間のオブザーバーを混乱させる頻度のような重要な質問に答えます。 これらの疑問に答えるために,さまざまな顔画像のソースを用いた大規模クラウドソーシング行動実験を行った。 その結果、複数の異なる状況下では、人間は実際の顔と合成顔の区別ができないことがわかった。 この発見は、顔画像が人間のユーザーに提示される多くの異なるアプリケーションに深刻な影響を及ぼす。

Advances in face synthesis have raised alarms about the deceptive use of synthetic faces. Can synthetic identities be effectively used to fool human observers? In this paper, we introduce a study of the human perception of synthetic faces generated using different strategies including a state-of-the-art deep learning-based GAN model. This is the first rigorous study of the effectiveness of synthetic face generation techniques grounded in experimental techniques from psychology. We answer important questions such as how often do GAN-based and more traditional image processing-based techniques confuse human observers, and are there subtle cues within a synthetic face image that cause humans to perceive it as a fake without having to search for obvious clues? To answer these questions, we conducted a series of large-scale crowdsourced behavioral experiments with different sources of face imagery. Results show that humans are unable to distinguish synthetic faces from real faces under several different circumstances. This finding has serious implications for many different applications where face images are presented to human users.
翻訳日:2021-11-10 01:47:08 公開日:2021-11-08
# (参考訳) テンプレートNeRF:カテゴリー別対象画像からの高密度形状対応のモデル化を目指して [全文訳有]

Template NeRF: Towards Modeling Dense Shape Correspondences from Category-Specific Object Images ( http://arxiv.org/abs/2111.04237v1 )

ライセンス: CC BY 4.0
Jianfei Guo, Zhiyuan Yang, Xi Lin, Qingfu Zhang(参考訳) テンプレートを用いたニューラルラディアンス場(NeRF)について,3次元の監督や地動対応の知識を必要とせず,外観や形状をモデル化し,同一カテゴリのオブジェクト間の密な形状対応を同時に生成する。 学習された密接な対応は、キーポイント検出、部分セグメンテーション、テクスチャ転送など、これまで特定のモデル設計が必要であった様々な画像ベースのタスクに容易に使用することができる。 本手法は,そのカテゴリの例を1つまたは数つだけ与えて,一発または数発の方法でアノテーションの転送を許容することもできる。 周期的アクティベーションとFiLM(Feature-wise linear modulation)コンディショニングを用いて、3D画像合成パイプラインNeRFに3Dデータの深い暗黙テンプレートを導入する。 共用NeRFテンプレートの形状や外観変化と同一のカテゴリ内のオブジェクトインスタンスを表現することにより,広い範囲のオブジェクトクラスの画像に基づいて高密度な形状対応を実現することができる。 本研究では,3次元情報に基づく他の手法と比較して,実世界の合成データと実世界のデータに競合する結果を示す。

We present neural radiance fields (NeRF) with templates, dubbed Template-NeRF, for modeling appearance and geometry and generating dense shape correspondences simultaneously among objects of the same category from only multi-view posed images, without the need of either 3D supervision or ground-truth correspondence knowledge. The learned dense correspondences can be readily used for various image-based tasks such as keypoint detection, part segmentation, and texture transfer that previously require specific model designs. Our method can also accommodate annotation transfer in a one or few-shot manner, given only one or a few instances of the category. Using periodic activation and feature-wise linear modulation (FiLM) conditioning, we introduce deep implicit templates on 3D data into the 3D-aware image synthesis pipeline NeRF. By representing object instances within the same category as shape and appearance variation of a shared NeRF template, our proposed method can achieve dense shape correspondences reasoning on images for a wide range of object classes. We demonstrate the results and applications on both synthetic and real-world data with competitive results compared with other methods based on 3D information.
翻訳日:2021-11-10 01:14:34 公開日:2021-11-08
# (参考訳) 新しいデータ前処理手法:異なる単位と測定尺度にロバストなデータマイニングを実現する [全文訳有]

A Novel Data Pre-processing Technique: Making Data Mining Robust to Different Units and Scales of Measurement ( http://arxiv.org/abs/2111.04253v1 )

ライセンス: CC BY 4.0
Arbind Agrahari Baniya, Sunil Aryal and Santosh KC(参考訳) 既存のデータマイニングアルゴリズムの多くは、モデルで機能値を直接使用しており、データの測定や表現に使用される単位/尺度に敏感である。 ランク変換に基づくデータの前処理は、この問題を克服するための潜在的な解決策として提案されている。 しかし、ランク変換による前処理後のデータは均一に分散しており、多くのデータマイニングアプリケーションではあまり役に立たない。 本稿では,複数のサブサンプルデータに対するランクに基づく,より優れた,効果的な代替手段を提案する。 提案手法をars | average rank over a ensemble of sub-samples と呼ぶ。 広範囲なデータセットの分類と異常検出に広く用いられているデータマイニングアルゴリズムの実証結果から、ARESがより一貫したタスク特異性をもたらすことが示唆されている。 様々なアルゴリズムとデータセットにまたがる結果。 これに加えて、最も広く使われているmin-max正規化や伝統的なランク変換と比べて、ほとんどの時間において優れた、または競争的な結果をもたらす。

Many existing data mining algorithms use feature values directly in their model, making them sensitive to units/scales used to measure/represent data. Pre-processing of data based on rank transformation has been suggested as a potential solution to overcome this issue. However, the resulting data after pre-processing with rank transformation is uniformly distributed, which may not be very useful in many data mining applications. In this paper, we present a better and effective alternative based on ranks over multiple sub-samples of data. We call the proposed pre-processing technique as ARES | Average Rank over an Ensemble of Sub-samples. Our empirical results of widely used data mining algorithms for classification and anomaly detection in a wide range of data sets suggest that ARES results in more consistent task specific? outcome across various algorithms and data sets. In addition to this, it results in better or competitive outcome most of the time compared to the most widely used min-max normalisation and the traditional rank transformation.
翻訳日:2021-11-10 01:01:07 公開日:2021-11-08
# (参考訳) ジャミ:日本の医療情報抽出システム [全文訳有]

JaMIE: A Pipeline Japanese Medical Information Extraction System ( http://arxiv.org/abs/2111.04261v1 )

ライセンス: CC BY 4.0
Fei Cheng, Shuntaro Yada, Ribeka Tanaka, Eiji Aramaki, Sadao Kurohashi(参考訳) 医療情報抽出のためのオープンアクセス自然言語処理ツールキットを提案する。 本報告ではまず,医療機関間の医療関係と時間関係を調べるための新しい関連アノテーションスキーマを提案する。 2種類のレポートを別々にアノテートすることで、実用的なアノテーションシナリオを実験する。 我々は,医療機関の認識,実体の分類,関係抽出のための3つの要素からなるパイプラインシステムを設計する。 実験結果から, 正確な分析性能を示し, 良好なアノテーション品質, レポートタイプを対象とする効果的なアノテーション戦略, 最新のコンテキスト埋め込みモデルの優位性を示唆した。

We present an open-access natural language processing toolkit for Japanese medical information extraction. We first propose a novel relation annotation schema for investigating the medical and temporal relations between medical entities in Japanese medical reports. We experiment with the practical annotation scenarios by separately annotating two different types of reports. We design a pipeline system with three components for recognizing medical entities, classifying entity modalities, and extracting relations. The empirical results show accurate analyzing performance and suggest the satisfactory annotation quality, the effective annotation strategy for targeting report types, and the superiority of the latest contextual embedding models.
翻訳日:2021-11-10 00:51:59 公開日:2021-11-08
# (参考訳) 動的正規化に基づくフェデレーション学習

Federated Learning Based on Dynamic Regularization ( http://arxiv.org/abs/2111.04263v1 )

ライセンス: CC BY 4.0
Durmus Alp Emre Acar, Yue Zhao, Ramon Matas Navarro, Matthew Mattina, Paul N. Whatmough, Venkatesh Saligrama(参考訳) 本稿では,ランダムに選択されたデバイスのサブセット間の協調をサーバが調整し,分散的にニューラルネットワークモデルを学習する新しい連合学習手法を提案する。 我々は,通信の観点からの連合学習問題を主に捉え,伝送コストを節約するために,デバイスレベルの計算量を増やすことを可能にする。 ローカルデバイスレベルの経験的損失の最小化は、グローバルな経験的損失のそれと矛盾する、という基本的なジレンマを指摘した。 近年の研究では, 最小化を試みたり, 勾配計算の並列化にデバイスを利用する場合と異なり, 各ラウンドにおける各デバイスに対する動的正規化器を提案し, グローバル・デバイス・ソリューションの制限が整合するようにした。 実データと合成データによる実験結果と,提案手法が対流と非凸の両方において効率的なトレーニングに繋がることを示すとともに,デバイスの不均一性に完全に無依存であり,多数のデバイス,部分的参加,不均衡なデータに対して堅牢であることを示す。

We propose a novel federated learning method for distributively training neural network models, where the server orchestrates cooperation between a subset of randomly chosen devices in each round. We view Federated Learning problem primarily from a communication perspective and allow more device level computations to save transmission costs. We point out a fundamental dilemma, in that the minima of the local-device level empirical loss are inconsistent with those of the global empirical loss. Different from recent prior works, that either attempt inexact minimization or utilize devices for parallelizing gradient computation, we propose a dynamic regularizer for each device at each round, so that in the limit the global and device solutions are aligned. We demonstrate both through empirical results on real and synthetic data as well as analytical results that our scheme leads to efficient training, in both convex and non-convex settings, while being fully agnostic to device heterogeneity and robust to large number of devices, partial participation and unbalanced data.
翻訳日:2021-11-10 00:42:54 公開日:2021-11-08
# (参考訳) クロスモーダルなオブジェクト追跡: モダリティを意識した表現と統一ベンチマーク [全文訳有]

Cross-Modal Object Tracking: Modality-Aware Representations and A Unified Benchmark ( http://arxiv.org/abs/2111.04264v1 )

ライセンス: CC BY 4.0
Chenglong Li, Tianhao Zhu, Lei Liu, Xiaonan Si Zilin Fan, Sulan Zhai(参考訳) 多くの視覚システムでは、視覚追跡はしばしばrgb画像シーケンスに基づいており、一部のターゲットは低照度条件では無効であり、追跡性能は著しく影響を受ける。 深度データや赤外線データなどの他のモダリティの導入は、個々のソースのイメージング制限を処理する効果的な方法であるが、マルチモーダルイメージングプラットフォームは通常、精巧な設計を必要とし、現在多くの現実世界のアプリケーションに適用できない。 近赤外(NIR)イメージングは、多くの監視カメラにおいて不可欠な部分となり、RGBとNIRを光強度に基づいて切り換えることができる。 これら2つのモダリティは、非常に異なる視覚特性を持つ異質であり、ビジュアルトラッキングに大きな課題をもたらす。 しかし、既存の研究ではこの問題は研究されていない。 本研究では,クロスモーダルオブジェクト追跡の問題に対処し,合計481kフレーム以上の654のクロスモーダル画像シーケンスを含む新たなビデオデータセットを作成し,平均映像長は735フレーム以上である。 クロスモーダル物体追跡の研究開発を促進するため,トラッキングプロセスにおけるRGBとNIRの出現ギャップを軽減するために,モダリティを意識した対象表現を学習するアルゴリズムを提案する。 プラグアンドプレイであり、異なるトラッキングフレームワークに柔軟に組み込むことができる。 提案手法の有効性を2つの代表的な追跡フレームワークを用いて検証し,提案手法の有効性を検証した。 無料のアカデミック利用向けにデータセットをリリースし、データセットダウンロードリンクとコードはまもなくリリースします。

In many visual systems, visual tracking often bases on RGB image sequences, in which some targets are invalid in low-light conditions, and tracking performance is thus affected significantly. Introducing other modalities such as depth and infrared data is an effective way to handle imaging limitations of individual sources, but multi-modal imaging platforms usually require elaborate designs and cannot be applied in many real-world applications at present. Near-infrared (NIR) imaging becomes an essential part of many surveillance cameras, whose imaging is switchable between RGB and NIR based on the light intensity. These two modalities are heterogeneous with very different visual properties and thus bring big challenges for visual tracking. However, existing works have not studied this challenging problem. In this work, we address the cross-modal object tracking problem and contribute a new video dataset, including 654 cross-modal image sequences with over 481K frames in total, and the average video length is more than 735 frames. To promote the research and development of cross-modal object tracking, we propose a new algorithm, which learns the modality-aware target representation to mitigate the appearance gap between RGB and NIR modalities in the tracking process. It is plug-and-play and could thus be flexibly embedded into different tracking frameworks. Extensive experiments on the dataset are conducted, and we demonstrate the effectiveness of the proposed algorithm in two representative tracking frameworks against 17 state-of-the-art tracking methods. We will release the dataset for free academic usage, dataset download link and code will be released soon.
翻訳日:2021-11-10 00:41:26 公開日:2021-11-08
# (参考訳) BlueFog: 最適化とディープラーニングのために分散アルゴリズムを実践する [全文訳有]

BlueFog: Make Decentralized Algorithms Practical for Optimization and Deep Learning ( http://arxiv.org/abs/2111.04287v1 )

ライセンス: CC BY 4.0
Bicheng Ying, Kun Yuan, Hanbin Hu, Yiming Chen, Wotao Yin(参考訳) 分散アルゴリズム(Decentralized algorithm)は、直接接続されたエージェント間の低コストな通信に依存する局所力学によって、グローバルな目標を達成する計算形式である。 分散データセットを含む大規模最適化タスクでは、分散アルゴリズムは中央ノードを持つ分散アルゴリズムよりも強く、時には優れている。 近年,ディープラーニングのための分散アルゴリズムの開発が注目されている。 これらはパラメータサーバやring-allreduceプロトコルを使用する場合の低通信オーバヘッドな代替品と見なされている。 しかし、使いやすい効率的なソフトウェアパッケージの欠如は、ほとんどの分散アルゴリズムを紙に留めている。 このギャップを埋めるために、多様な分散アルゴリズムの単純かつ高性能な実装のためのピソンライブラリBlueFogを紹介する。 さまざまな通信操作の統一的な抽象化に基づいて、bluefogは、同期操作に静的で無向なグラフを使うものから非同期操作に動的で有向なグラフを使うものまで、分散アルゴリズムのスペクトルを実装するための直感的なインターフェースを提供する。 BlueFogはまた、ディープラーニングタスクのパフォーマンスをさらに最適化するために、いくつかのシステムレベルのアクセラレーション技術も採用している。 主流のDNNトレーニングタスクでは、BlueFogはスループットが大幅に向上し、Ring-Allreduceをベースとした最先端の分散ディープラーニングパッケージであるHorovodよりも総じて1.2\times \sim 1.8\times$スピードアップを達成した。 bluefogは、https://github.com/b luefog-lib/bluefogでオープンソースである。

Decentralized algorithm is a form of computation that achieves a global goal through local dynamics that relies on low-cost communication between directly-connected agents. On large-scale optimization tasks involving distributed datasets, decentralized algorithms have shown strong, sometimes superior, performance over distributed algorithms with a central node. Recently, developing decentralized algorithms for deep learning has attracted great attention. They are considered as low-communication-ov erhead alternatives to those using a parameter server or the Ring-Allreduce protocol. However, the lack of an easy-to-use and efficient software package has kept most decentralized algorithms merely on paper. To fill the gap, we introduce BlueFog, a python library for straightforward, high-performance implementations of diverse decentralized algorithms. Based on a unified abstraction of various communication operations, BlueFog offers intuitive interfaces to implement a spectrum of decentralized algorithms, from those using a static, undirected graph for synchronous operations to those using dynamic and directed graphs for asynchronous operations. BlueFog also adopts several system-level acceleration techniques to further optimize the performance on the deep learning tasks. On mainstream DNN training tasks, BlueFog reaches a much higher throughput and achieves an overall $1.2\times \sim 1.8\times$ speedup over Horovod, a state-of-the-art distributed deep learning package based on Ring-Allreduce. BlueFog is open source at https://github.com/B luefog-Lib/bluefog.
翻訳日:2021-11-10 00:28:27 公開日:2021-11-08
# (参考訳) サブツリーの文脈認識表現の学習

Learning Context-Aware Representations of Subtrees ( http://arxiv.org/abs/2111.04308v1 )

ライセンス: CC BY-SA 4.0
Cedric Cook(参考訳) この論文は、Webページや要素分類への自然な応用による複雑な構造化データの効率的な表現を学習する問題に取り組む。 我々は、webページ内の要素を取り巻くコンテキストが問題に対して高い価値を持ち、現在悪用されていると仮定する。 この論文は、Web要素をDOMツリーのサブツリーとして分類するという問題を解決することを目的としている。 そこで我々はまず,木-LSTMのような構造を扱う知識システムについて論じる。 次に,このモデルの文脈対応拡張を提案する。 マルチクラスWeb分類タスクにおいて, 平均F1スコアが0.7973であることを示す。 このモデルは、様々なサブツリーに対してより良い表現を生成し、要素分類、Web上の強化学習における状態推定器などの用途に使用できる。

This thesis tackles the problem of learning efficient representations of complex, structured data with a natural application to web page and element classification. We hypothesise that the context around the element inside the web page is of high value to the problem and is currently under exploited. This thesis aims to solve the problem of classifying web elements as subtrees of a DOM tree by also considering their context. To achieve this, first we discuss current expert knowledge systems that work on structures, such as Tree-LSTM. Then, we propose context-aware extensions to this model. We show that the new model achieves an average F1-score of 0.7973 on a multi-class web classification task. This model generates better representations for various subtrees and may be used for applications such element classification, state estimators in reinforcement learning over the Web and more.
翻訳日:2021-11-09 23:53:07 公開日:2021-11-08
# (参考訳) 脳波に応用したディープラーニングの学習特性の評価 [全文訳有]

Assessing learned features of Deep Learning applied to EEG ( http://arxiv.org/abs/2111.04309v1 )

ライセンス: CC BY 4.0
Dung Truong, Scott Makeig, Arnaud Delorme(参考訳) 畳み込みニューラルネットワーク(cnns)は、オブジェクト検出、画像認識、画像検索など、多くのコンピュータビジョン関連のタスクで印象的なパフォーマンスを達成している。 これらの成果は、神経細胞構造の深い層と反復的なトレーニングプロセスで識別的特徴を学ぶcnnの優れた能力の恩恵を受ける。 これにより、脳波研究コミュニティは脳波分類タスクの実行にCNNを採用するようになった。 しかし、CNNが学習した機能はすぐには解釈できないため、CNNの内部動作メカニズムの理解が欠如している。 CNNの解釈性を改善するために,内部特徴を視覚的に知覚可能なパターンに変換し,CNN層の質的解析を行う。 cnnのネットワーク構造、操作、意味概念を解釈するために多くのcnn可視化手法がコンピュータビジョン文献で提案されているが、脳波データ解析への応用は限られている。 本研究では,脳波関連特徴を生の脳波データに基づいて学習したCNNから抽出する3つの異なる手法を用いて,各分類カテゴリの最適なサンプル,アクティベーションの最大化,逆畳み込みを行う。 これらの手法を,脳波性分類タスクの最先端性能を持つ高パフォーマンスディープラーニングモデルに適用し,このモデルがtheta周波数帯域の違いを特徴付けることを示した。 cnnモデルの可視化によって興味深い脳波結果が得られることを示す。 これらのツールを使用することで、Deep Learningを使用した脳波研究者は、学習した脳波の特徴をよりよく識別することができる。

Convolutional Neural Networks (CNNs) have achieved impressive performance on many computer vision related tasks, such as object detection, image recognition, image retrieval, etc. These achievements benefit from the CNNs' outstanding capability to learn discriminative features with deep layers of neuron structures and iterative training process. This has inspired the EEG research community to adopt CNN in performing EEG classification tasks. However, CNNs learned features are not immediately interpretable, causing a lack of understanding of the CNNs' internal working mechanism. To improve CNN interpretability, CNN visualization methods are applied to translate the internal features into visually perceptible patterns for qualitative analysis of CNN layers. Many CNN visualization methods have been proposed in the Computer Vision literature to interpret the CNN network structure, operation, and semantic concept, yet applications to EEG data analysis have been limited. In this work we use 3 different methods to extract EEG-relevant features from a CNN trained on raw EEG data: optimal samples for each classification category, activation maximization, and reverse convolution. We applied these methods to a high-performing Deep Learning model with state-of-the-art performance for an EEG sex classification task, and show that the model features a difference in the theta frequency band. We show that visualization of a CNN model can reveal interesting EEG results. Using these tools, EEG researchers using Deep Learning can better identify the learned EEG features, possibly identifying new class relevant biomarkers.
翻訳日:2021-11-09 23:52:12 公開日:2021-11-08
# (参考訳) ワンショット分類のための関係モデル [全文訳有]

A Relational Model for One-Shot Classification ( http://arxiv.org/abs/2111.04313v1 )

ライセンス: CC BY 4.0
Arturs Polis and Alexander Ilin(参考訳) 関係性帰納バイアスを組み込んだディープラーニングモデルが,広範なデータ拡張に頼ることなく,サンプル効率の学習にメリットをもたらすことを示す。 提案するワンショット分類モデルは,一対の入力を局所的および対的注意の形で関係マッチングする。 我々のアプローチは、ワンショット画像分類の課題を完全に解決する。 私たちのモデルは、データ拡張なしで、以前の技術と同様に、人間レベルの正確さを超えます。

We show that a deep learning model with built-in relational inductive bias can bring benefits to sample-efficient learning, without relying on extensive data augmentation. The proposed one-shot classification model performs relational matching of a pair of inputs in the form of local and pairwise attention. Our approach solves perfectly the one-shot image classification Omniglot challenge. Our model exceeds human level accuracy, as well as the previous state of the art, with no data augmentation.
翻訳日:2021-11-09 23:41:04 公開日:2021-11-08
# (参考訳) 教師なし医療報告生成のための知識グラフの自動エンコーディング [全文訳有]

Auto-Encoding Knowledge Graph for Unsupervised Medical Report Generation ( http://arxiv.org/abs/2111.04318v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Chenyu You, Xian Wu, Shen Ge, Sheng Wang, Xu Sun(参考訳) 医療画像の長期的かつコヒーレントなレポートを自動的に生成することを目的とした医療レポート生成は、研究の関心が高まっている。 既存のアプローチは主に教師付き方式を採用し、結合したイメージ-レポートペアに大きく依存している。 しかし、医療分野では、大規模な画像レポートペアデータセットの構築には時間と費用がかかる。 ペアデータへの依存を緩和するために,学習中の画像とレポートの独立セットを受け入れる教師なしモデル知識グラフオートエンコーダ(kgae)を提案する。 KGAEは、事前構築された知識グラフ、知識駆動エンコーダ、知識駆動デコーダから構成される。 知識駆動型エンコーダは、この潜在空間内の対応する座標に医療画像とレポートを投影し、知識駆動型デコーダは、この空間に座標が与えられた医療レポートを生成する。 知識駆動エンコーダとデコーダは独立した画像とレポートで訓練できるため、KGAEは教師なしである。 実験の結果, 教師なしKGAEは, イメージレポートトレーニングペアを使わずに, 望ましい医療報告を生成することがわかった。 さらに、KGAEは半教師付き設定と教師付き設定の両方で動作し、トレーニング時にペアイメージとレポートを受け入れることもできる。 イメージレポートペアによるさらなる微調整により、KGAEは、2つのデータセット上の現在の最先端モデルよりも一貫してパフォーマンスが向上する。

Medical report generation, which aims to automatically generate a long and coherent report of a given medical image, has been receiving growing research interests. Existing approaches mainly adopt a supervised manner and heavily rely on coupled image-report pairs. However, in the medical domain, building a large-scale image-report paired dataset is both time-consuming and expensive. To relax the dependency on paired data, we propose an unsupervised model Knowledge Graph Auto-Encoder (KGAE) which accepts independent sets of images and reports in training. KGAE consists of a pre-constructed knowledge graph, a knowledge-driven encoder and a knowledge-driven decoder. The knowledge graph works as the shared latent space to bridge the visual and textual domains; The knowledge-driven encoder projects medical images and reports to the corresponding coordinates in this latent space and the knowledge-driven decoder generates a medical report given a coordinate in this space. Since the knowledge-driven encoder and decoder can be trained with independent sets of images and reports, KGAE is unsupervised. The experiments show that the unsupervised KGAE generates desirable medical reports without using any image-report training pairs. Moreover, KGAE can also work in both semi-supervised and supervised settings, and accept paired images and reports in training. By further fine-tuning with image-report pairs, KGAE consistently outperforms the current state-of-the-art models on two datasets.
翻訳日:2021-11-09 23:34:55 公開日:2021-11-08
# (参考訳) threaTrace: Provenance Graph Learningによるノードレベルのホストベースの脅威の検出と追跡 [全文訳有]

threaTrace: Detecting and Tracing Host-based Threats in Node Level Through Provenance Graph Learning ( http://arxiv.org/abs/2111.04333v1 )

ライセンス: CC BY 4.0
Su Wang, Zhiliang Wang, Tao Zhou, Xia Yin, Dongqi Han, Han Zhang, Hongbin Sun, Xingang Shi, Jiahai Yang(参考訳) Program Attack、Malware implantation、Advanced Persistent Threats (APT)といったホストベースの脅威は、現代の攻撃者によって一般的に採用されている。 最近の研究は、ホスト内の脅威を検出するためにデータプロヴァンスにおける豊かな文脈情報を活用することを提案する。 データ証明は、システム監査データから構築された非循環グラフである。 証明グラフのノードはシステムエンティティ($processes$や$files$など)を表し、エッジは情報フローの方向のシステムコールを表す。 しかし、前者グラフの特徴を抽出する以前の研究では、少数の脅威関連物質に敏感ではないため、ステルスな脅威を狩る際には性能が低下する。 本稿では,攻撃パターンを事前に知ることなく,システムエンティティレベルでホストベースの脅威を検出する異常検出装置であるthreaTraceを提案する。 インダクティブグラフニューラルネットワークであるGraphSAGEをカスタマイズして、前駆グラフにおけるすべての良性エンティティの役割を学習します。 threaTraceはリアルタイムシステムで、長期実行中のホストを監視でき、初期の段階でホストベースの侵入を検出することができる。 3つの公開データセットからthreaTraceを評価する。 その結果、threatraceは3つの最先端のホスト侵入検出システムを上回ることがわかった。

Host-based threats such as Program Attack, Malware Implantation, and Advanced Persistent Threats (APT), are commonly adopted by modern attackers. Recent studies propose leveraging the rich contextual information in data provenance to detect threats in a host. Data provenance is a directed acyclic graph constructed from system audit data. Nodes in a provenance graph represent system entities (e.g., $processes$ and $files$) and edges represent system calls in the direction of information flow. However, previous studies, which extract features of the whole provenance graph, are not sensitive to the small number of threat-related entities and thus result in low performance when hunting stealthy threats. We present threaTrace, an anomaly-based detector that detects host-based threats at system entity level without prior knowledge of attack patterns. We tailor GraphSAGE, an inductive graph neural network, to learn every benign entity's role in a provenance graph. threaTrace is a real-time system, which is scalable of monitoring a long-term running host and capable of detecting host-based intrusion in their early phase. We evaluate threaTrace on three public datasets. The results show that threaTrace outperforms three state-of-the-art host intrusion detection systems.
翻訳日:2021-11-09 23:15:45 公開日:2021-11-08
# (参考訳) 視覚入力からのオフ政治模倣学習 [全文訳有]

Off-policy Imitation Learning from Visual Inputs ( http://arxiv.org/abs/2111.04345v1 )

ライセンス: CC BY 4.0
Zhihao Cheng, Li Shen, Dacheng Tao(参考訳) 近年,熟達状態を利用した模倣学習(IL)が成功している。 しかし、もう1つのil設定 - オンラインのビジュアルリソースを利用することで現実に応用する可能性がより高いvisual inputs(ilfvi)からのilは、データ効率の低下と、オンポリシーな学習方法と高次元の視覚入力によって生じるパフォーマンスの低下に苦しむ。 本稿では,これらの課題に対処するために,政治以外の学習方法,データ拡張,エンコーダ技術からなるOPIfVI(Off-Policy Imitation from Visual Inputs)を提案する。 より具体的には、データ効率を改善するため、opifviはオフラインでilを実行し、サンプルされたデータを複数回使用できる。 さらに,スペクトル正規化によりopifviの安定性を高め,オフポリシートレーニングの副作用を緩和する。 ilfviのパフォーマンス低下に寄与する中心的な要因は、エージェントが視覚入力から有意義な特徴を抽出することができないことだ。 したがって、OPIfVIはコンピュータビジョンからのデータ拡張を利用して、視覚入力からより優れた特徴を抽出できるエンコーダを訓練する。 さらに、エンコーダの勾配バックプロパゲーションの特定の構造は、エンコーダトレーニングを安定化するように設計されている。 最終的に、OPIfVIは、DeepMind Control Suiteを用いた広範囲な実験によって、視覚的な実演や視覚的な観察がなくても、専門家レベルのパフォーマンスを達成でき、既存のベースラインよりも優れていることを実証した。

Recently, various successful applications utilizing expert states in imitation learning (IL) have been witnessed. However, another IL setting -- IL from visual inputs (ILfVI), which has a greater promise to be applied in reality by utilizing online visual resources, suffers from low data-efficiency and poor performance resulted from an on-policy learning manner and high-dimensional visual inputs. We propose OPIfVI (Off-Policy Imitation from Visual Inputs), which is composed of an off-policy learning manner, data augmentation, and encoder techniques, to tackle the mentioned challenges, respectively. More specifically, to improve data-efficiency, OPIfVI conducts IL in an off-policy manner, with which sampled data can be used multiple times. In addition, we enhance the stability of OPIfVI with spectral normalization to mitigate the side-effect of off-policy training. The core factor, contributing to the poor performance of ILfVI, that we think is the agent could not extract meaningful features from visual inputs. Hence, OPIfVI employs data augmentation from computer vision to help train encoders that can better extract features from visual inputs. In addition, a specific structure of gradient backpropagation for the encoder is designed to stabilize the encoder training. At last, we demonstrate that OPIfVI is able to achieve expert-level performance and outperform existing baselines no matter visual demonstrations or visual observations are provided via extensive experiments using DeepMind Control Suite.
翻訳日:2021-11-09 22:49:47 公開日:2021-11-08
# (参考訳) 光銀河形態分類のためのディープラーニングアーキテクチャの比較 [全文訳有]

A Comparison of Deep Learning Architectures for Optical Galaxy Morphology Classification ( http://arxiv.org/abs/2111.04353v1 )

ライセンス: CC BY 4.0
Ezra Fielding, Clement N. Nyirenda, Mattia Vaccari(参考訳) 銀河形態学の分類は、銀河の形成と進化を理解する上で重要な役割を果たしている。 伝統的に、このプロセスは手動で行われる。 ディープラーニング技術の出現は、このプロセスの自動化に余地を与えている。 そこで,本論文では,光学銀河形態分類に最も適するものを決定するために,深層学習アーキテクチャの比較を行う。 2021年にWalmsleyらによって提案されたモデルトレーニング手法に適応して、Zoobot Pythonライブラリは、コアモデルアーキテクチャとしてEfficientNet B0、DenseNet121、ResNet50を使用して、ボランティアによって作成されたGalaxy Zoo DECaLS決定ツリー応答を予測するモデルをトレーニングするために使用される。 予測結果は、決定ツリーの質問ごとに正確なメトリクスを生成し、アーキテクチャのパフォーマンスを決定するために使用される。 DenseNet121は、正確なトレーニング時間で最高の結果が得られることが判明した。 将来的には、より深い学習アーキテクチャによるさらなるテストが有効だろう。

The classification of galaxy morphology plays a crucial role in understanding galaxy formation and evolution. Traditionally, this process is done manually. The emergence of deep learning techniques has given room for the automation of this process. As such, this paper offers a comparison of deep learning architectures to determine which is best suited for optical galaxy morphology classification. Adapting the model training method proposed by Walmsley et al in 2021, the Zoobot Python library is used to train models to predict Galaxy Zoo DECaLS decision tree responses, made by volunteers, using EfficientNet B0, DenseNet121 and ResNet50 as core model architectures. The predicted results are then used to generate accuracy metrics per decision tree question to determine architecture performance. DenseNet121 was found to produce the best results, in terms of accuracy, with a reasonable training time. In future, further testing with more deep learning architectures could prove beneficial.
翻訳日:2021-11-09 22:32:02 公開日:2021-11-08
# (参考訳) 半教師付き学習は、効果的な電波銀河形態分類に必要な手動ラベリング量を削減できるか? [全文訳有]

Can semi-supervised learning reduce the amount of manual labelling required for effective radio galaxy morphology classification? ( http://arxiv.org/abs/2111.04357v1 )

ライセンス: CC BY 4.0
Inigo V. Slijepcevic, Anna M. M. Scaife(参考訳) 本研究では,現代電波天文学における形態分類における最先端半教師付き学習(SSL)アルゴリズムの堅牢性について検討する。 我々は,ラベル付きデータポイントの数が少ない場合に,SSLが現在の最先端技術に匹敵する性能を達成できるかどうかを検証した。 SSLはさらなるレギュラー化を提供するが、非常に少ないラベルを使用すると性能が急速に低下し、真にラベルのないデータを使用するとパフォーマンスが大幅に低下する。

In this work, we examine the robustness of state-of-the-art semi-supervised learning (SSL) algorithms when applied to morphological classification in modern radio astronomy. We test whether SSL can achieve performance comparable to the current supervised state of the art when using many fewer labelled data points and if these results generalise to using truly unlabelled data. We find that although SSL provides additional regularisation, its performance degrades rapidly when using very few labels, and that using truly unlabelled data leads to a significant drop in performance.
翻訳日:2021-11-09 22:21:52 公開日:2021-11-08
# (参考訳) 対向攻撃に対するロバストかつ情報理論上安全なバイアス分類器 [全文訳有]

Robust and Information-theoreti cally Safe Bias Classifier against Adversarial Attacks ( http://arxiv.org/abs/2111.04404v1 )

ライセンス: CC BY 4.0
Lijia Yu and Xiao-Shan Gao(参考訳) 本稿では,Reluを活性化関数とするDNNのバイアス部を分類器として,バイアス分類器を導入する。 この研究の動機は、偏差部がゼロ勾配の断片的定数関数であるため、FGSMのような逆数を生成する勾配法によって直接攻撃できないことである。 バイアス分類器の存在を証明し,バイアス分類器の効果的な訓練法を提案する。 バイアス分類器に適切なランダムな第1次部分を加えることにより、攻撃が敵を生成するための完全にランダムな方向を生成するという意味で、原モデル勾配に基づく攻撃に対する情報理論的に安全な分類器を得る。 情報理論上安全な分類器の概念が提案されたのはこれが初めてであると思われる。 バイアス分類器に対するいくつかの攻撃法が提案され、ほとんどの場合、バイアス分類器はDNNよりも堅牢であることを示す数値実験が用いられている。

In this paper, the bias classifier is introduced, that is, the bias part of a DNN with Relu as the activation function is used as a classifier. The work is motivated by the fact that the bias part is a piecewise constant function with zero gradient and hence cannot be directly attacked by gradient-based methods to generate adversaries such as FGSM. The existence of the bias classifier is proved an effective training method for the bias classifier is proposed. It is proved that by adding a proper random first-degree part to the bias classifier, an information-theoreti cally safe classifier against the original-model gradient-based attack is obtained in the sense that the attack generates a totally random direction for generating adversaries. This seems to be the first time that the concept of information-theoreti cally safe classifier is proposed. Several attack methods for the bias classifier are proposed and numerical experiments are used to show that the bias classifier is more robust than DNNs against these attacks in most cases.
翻訳日:2021-11-09 22:14:59 公開日:2021-11-08
# (参考訳) ビデオレイニングのための3レベルモデル推論協調ネットワークアーキテクチャ [全文訳有]

Triple-level Model Inferred Collaborative Network Architecture for Video Deraining ( http://arxiv.org/abs/2111.04459v1 )

ライセンス: CC BY 4.0
Pan Mu, Zhu Liu, Yaohua Liu, Risheng Liu, Xin Fan(参考訳) ビデオデラリニングは屋外視覚システムにとって重要な問題であり、広く研究されている。 しかし,集約モデル形成とデータ分散による最適アーキテクチャの設計は,ビデオデレーシングにとって困難な課題である。 本稿では,様々な降雨状況に対処する3段階モデル推論協調探索(TMICS)という,協調最適化と自動探索機構を備えたネットワークアーキテクチャを推定するモデル誘導三段階最適化フレームワークを開発する。 特に,既存の手法では様々な雨量分布をカバーできないという問題を緩和するため,タスク変数とハイパーパラメータに関するハイパーパラメータ最適化モデルをまず設計する。 提案する最適化モデルに基づき,ビデオデレーシングのための協調構造を設計する。 この構造には、AAS(Attention-based Averaging Scheme)を導入して協力する支配的ネットワークアーキテクチャ(DNA)とコンパニオントネットワークアーキテクチャ(CNA)が含まれる。 ビデオからフレーム間情報をよりよく探索するために,光学フローモジュール(OFM)とテンポラルグルーピングモジュール(TGM)から検索して潜在フレームを復元するマクロ構造探索手法を提案する。 さらに,小型のタスク固有操作候補セットから探索可能なニューラルアーキテクチャを応用し,望ましい雨のストリーク除去アーキテクチャを自動的に発見する。 様々なデータセットに対する大規模な実験により、我々のモデルは最先端の作業よりも忠実度と時間的一貫性が著しく向上していることが示されている。 ソースコードはhttps://github.com/v is-opt-group/TMICSで入手できる。

Video deraining is an important issue for outdoor vision systems and has been investigated extensively. However, designing optimal architectures by the aggregating model formation and data distribution is a challenging task for video deraining. In this paper, we develop a model-guided triple-level optimization framework to deduce network architecture with cooperating optimization and auto-searching mechanism, named Triple-level Model Inferred Cooperating Searching (TMICS), for dealing with various video rain circumstances. In particular, to mitigate the problem that existing methods cannot cover various rain streaks distribution, we first design a hyper-parameter optimization model about task variable and hyper-parameter. Based on the proposed optimization model, we design a collaborative structure for video deraining. This structure includes Dominant Network Architecture (DNA) and Companionate Network Architecture (CNA) that is cooperated by introducing an Attention-based Averaging Scheme (AAS). To better explore inter-frame information from videos, we introduce a macroscopic structure searching scheme that searches from Optical Flow Module (OFM) and Temporal Grouping Module (TGM) to help restore latent frame. In addition, we apply the differentiable neural architecture searching from a compact candidate set of task-specific operations to discover desirable rain streaks removal architectures automatically. Extensive experiments on various datasets demonstrate that our model shows significant improvements in fidelity and temporal consistency over the state-of-the-art works. Source code is available at https://github.com/v is-opt-group/TMICS.
翻訳日:2021-11-09 21:49:19 公開日:2021-11-08
# (参考訳) 企業構造データに対するオントロジーに基づく質問応答 [全文訳有]

Ontology-based question answering over corporate structured data ( http://arxiv.org/abs/2111.04507v1 )

ライセンス: CC BY 4.0
Sergey Gorshkov, Constantin Kondratiev, Roman Shebalov(参考訳) 自然言語理解(NLU)処理に対するオントロジーに基づくアプローチは、対話システムの品質に対する質問の改善を可能にする。 我々は、NLUエンジンアーキテクチャを説明し、その実装を評価した。 エンジンは、ユーザ入力をSPARQL SELECT、ASK、INSERTクエリに変換し、オントロジーベースのデータ仮想化プラットフォームが提供する知識グラフに変換する。 この変換は、オンレックスオントロジーに従って構築された知識グラフの語彙レベルに基づいている。 説明されたアプローチは、グラフデータ集団タスクや、チャットボットを含む質問応答システムの実装に適用することができる。 チャットボットの対話エンジンについて述べる。会話のコンテキストを維持し,質問を明確にし,人間の論理的思考のいくつかの側面をシミュレートする。 このアプローチでは、グラフベースのアルゴリズムを使用して、ニューラルネットワークベースのアプローチに必要なデータセットの収集を回避し、モデルのより優れた説明可能性を提供します。 企業データソース上のデータ仮想化層と連携して質問応答エンジンを使用することで、会話で使用する構造化データから事実を抽出することができる。

Ontology-based approach to the Natural Language Understanding (NLU) processing allows to improve questions answering quality in dialogue systems. We describe our NLU engine architecture and evaluate its implementation. The engine transforms user input into the SPARQL SELECT, ASK or INSERT query to the knowledge graph provided by the ontology-based data virtualization platform. The transformation is based on the lexical level of the knowledge graph built according to the Ontolex ontology. The described approach can be applied for graph data population tasks and to the question answering systems implementation, including chat bots. We describe the dialogue engine for a chat bot which can keep the conversation context and ask clarifying questions, simulating some aspects of the human logical thinking. Our approach uses graph-based algorithms to avoid gathering datasets, required in the neural nets-based approaches, and provide better explainability of our models. Using question answering engine in conjunction with data virtualization layer over the corporate data sources allows extracting facts from the structured data to be used in conversation.
翻訳日:2021-11-09 21:28:04 公開日:2021-11-08
# (参考訳) 因果図におけるクラスタリングと構造ロバスト性

Clustering and Structural Robustness in Causal Diagrams ( http://arxiv.org/abs/2111.04513v1 )

ライセンス: CC BY 4.0
Santtu Tikka and Jouni Helske and Juha Karvanen(参考訳) グラフは因果関係の表現と視覚化に一般的に使用される。 少数の変数に対して、このアプローチは、手元にあるシナリオの簡潔で明確なビューを提供する。 研究中の変数の数が増えるにつれて、グラフィカルなアプローチは現実的ではなくなり、表現の明確さは失われる。 変数のクラスタリングは因果図のサイズを減らす自然な方法であるが、任意に実装すれば、因果関係の本質的性質を誤って変更することができる。 我々は、特定の条件下で因果効果の識別可能性特性を保持できるトランジットクラスタと呼ばれる特定のタイプのクラスターを定義する。 与えられたグラフ内のすべてのトランジットクラスタを見つけ出すための健全で完全なアルゴリズムを提供し,因果効果の同定をクラスタ化がいかに簡単かを示す。 また,クラスターグラフから始まって,因果効果の識別可能性特性が変化しない拡張グラフを求める逆問題についても検討した。 このような構造的ロバスト性はトランジットクラスターと密接に関連している。

Graphs are commonly used to represent and visualize causal relations. For a small number of variables, this approach provides a succinct and clear view of the scenario at hand. As the number of variables under study increases, the graphical approach may become impractical, and the clarity of the representation is lost. Clustering of variables is a natural way to reduce the size of the causal diagram but it may erroneously change the essential properties of the causal relations if implemented arbitrarily. We define a specific type of cluster, called transit cluster, that is guaranteed to preserve the identifiability properties of causal effects under certain conditions. We provide a sound and complete algorithm for finding all transit clusters in a given graph and demonstrate how clustering can simplify the identification of causal effects. We also study the inverse problem, where one starts with a clustered graph and looks for extended graphs where the identifiability properties of causal effects remain unchanged. We show that this kind of structural robustness is closely related to transit clusters.
翻訳日:2021-11-09 21:19:21 公開日:2021-11-08
# (参考訳) IberleF-2021 DETOXISタスクにおけるAI-UPV:トランスフォーマと統計モデルを用いた移民関連Webニュースコメントの毒性検出 [全文訳有]

AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in Immigration-Related Web News Comments Using Transformers and Statistical Models ( http://arxiv.org/abs/2111.04530v1 )

ライセンス: CC BY 4.0
Angel Felipe Magnoss\~ao de Paula and Ipek Baris Schlicht(参考訳) 本稿では,イベリア語評価フォーラム第3回ワークショップにおいて,スペイン語のコメントにおけるTOXicity検出(DETOXIS)の参加について述べる。 共有タスクは2つの関連する分類タスクに分けられる。 (i) タスク1: 毒性の検出及び (ii)タスク2:毒性レベル検出。 彼らは、移民に関する様々なオンラインニュース記事に投稿された有害なコメントの拡散によって悪化する外国人嫌悪問題に焦点を当てている。 この問題を軽減するために必要な取り組みの1つは、コメントの毒性を検出することである。 本研究の目的は,第1タスクのF1スコアと第2タスクのCEM(Closeness Evaluation Metric)に基づいて,DeTOXIS共有タスク2021のウェブニュース記事に対するコメントにおいて,クセノフォビアを検出するための正確なモデルを実装することである。 タスクを解決するために、私たちは2つのタイプの機械学習モデルに取り組みました。 (i)統計モデル及び統計モデル (II)言語理解モデルのための双方向変換器(BERT)。 スペインの大きなコーパスでトレーニングされたBERTモデルであるBETOを用いて、両方のタスクで最高の結果を得た。 我々はF1スコア0.5996で第1タスク2オフィシャルランキング3位を獲得し、CEM0.7142で第2タスク2オフィシャルランキング6位を獲得した。 私たちの結果は (i)BERTモデルは、テキストコメントにおける毒性検出のための統計モデルよりも優れた結果を得る。 (II)単言語BERTモデルは、事前訓練された言語におけるテキストコメントの毒性検出において、多言語BERTモデルよりも有利である。

This paper describes our participation in the DEtection of TOXicity in comments In Spanish (DETOXIS) shared task 2021 at the 3rd Workshop on Iberian Languages Evaluation Forum. The shared task is divided into two related classification tasks: (i) Task 1: toxicity detection and; (ii) Task 2: toxicity level detection. They focus on the xenophobic problem exacerbated by the spread of toxic comments posted in different online news articles related to immigration. One of the necessary efforts towards mitigating this problem is to detect toxicity in the comments. Our main objective was to implement an accurate model to detect xenophobia in comments about web news articles within the DETOXIS shared task 2021, based on the competition's official metrics: the F1-score for Task 1 and the Closeness Evaluation Metric (CEM) for Task 2. To solve the tasks, we worked with two types of machine learning models: (i) statistical models and (ii) Deep Bidirectional Transformers for Language Understanding (BERT) models. We obtained our best results in both tasks using BETO, an BERT model trained on a big Spanish corpus. We obtained the 3rd place in Task 1 official ranking with the F1-score of 0.5996, and we achieved the 6th place in Task 2 official ranking with the CEM of 0.7142. Our results suggest: (i) BERT models obtain better results than statistical models for toxicity detection in text comments; (ii) Monolingual BERT models have an advantage over multilingual BERT models in toxicity detection in text comments in their pre-trained language.
翻訳日:2021-11-09 21:17:55 公開日:2021-11-08
# (参考訳) BARFED:アウターリヤ除去に基づくビザンチン攻撃抵抗性フェデレーション [全文訳有]

BARFED: Byzantine Attack-Resistant Federated Averaging Based on Outlier Elimination ( http://arxiv.org/abs/2111.04550v1 )

ライセンス: CC BY 4.0
Ece Isik-Polat, Gorkem Polat, Altan Kocyigit(参考訳) フェデレートラーニングでは、各参加者が独自のデータでローカルモデルをトレーニングし、これらの参加者からのモデル更新を集約することにより、信頼されたサーバにグローバルモデルを形成する。 サーバは、プライバシを確保するために参加者のトレーニング手順に効果と可視性がないため、グローバルモデルはデータ中毒やモデル中毒などの攻撃に対して脆弱になる。 近年、これらの攻撃に対処するために多くの防衛アルゴリズムが提案されているが、非IIDデータセットのような連邦学習の性質と一致しない強い仮定がしばしばなされている。 さらに、それらは主に総合的な実験分析を欠いている。 本研究では,データ分散や参加者の類似性,悪意のある参加者の比率などについて想定しない,barfedと呼ばれる防御アルゴリズムを提案する。 BARFEDは主に、グローバルモデルへの距離に基づいて、モデルアーキテクチャの各レイヤに対して、参加者更新の外部状態を考慮する。 したがって、外部層を持たない参加者はモデルアグリゲーションに関与している。 提案手法は様々な攻撃に対して堅牢な防御を提供することを示す。

In federated learning, each participant trains its local model with its own data and a global model is formed at a trusted server by aggregating model updates coming from these participants. Since the server has no effect and visibility on the training procedure of the participants to ensure privacy, the global model becomes vulnerable to attacks such as data poisoning and model poisoning. Although many defense algorithms have recently been proposed to address these attacks, they often make strong assumptions that do not agree with the nature of federated learning, such as Non-IID datasets. Moreover, they mostly lack comprehensive experimental analyses. In this work, we propose a defense algorithm called BARFED that does not make any assumptions about data distribution, update similarity of participants, or the ratio of the malicious participants. BARFED mainly considers the outlier status of participant updates for each layer of the model architecture based on the distance to the global model. Hence, the participants that do not have any outlier layer are involved in model aggregation. We perform extensive experiments on many grounds and show that the proposed approach provides a robust defense against different attacks.
翻訳日:2021-11-09 21:06:10 公開日:2021-11-08
# (参考訳) タイのブログ投稿におけるうつ病の検出:データセットとベースライン [全文訳有]

Detecting Depression in Thai Blog Posts: a Dataset and a Baseline ( http://arxiv.org/abs/2111.04574v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen and Pattama Patpong and Khalid Alnajjar and Niko Partanen and Jack Rueter(参考訳) タイにおけるうつ病検出のための最初の公開コーパスを提示する。 我々のコーパスは、いくつかのオンラインブログに専門家によるうつ病のケースでまとめられている。 2つの異なるLSTMモデルと2つの異なるBERTモデルで実験を行った。 タイのBERTモデルを用いて,抑うつ検出における77.53\%の精度を実現する。 これは、将来の研究者が同じコーパスで良いベースラインを確立する。 さらに,wikipediaよりも多種多様なコーパスで訓練されたタイ語埋め込みの必要性も確認した。 私たちのコーパス、コード、トレーニングモデルがzenodoで公開されています。

We present the first openly available corpus for detecting depression in Thai. Our corpus is compiled by expert verified cases of depression in several online blogs. We experiment with two different LSTM based models and two different BERT based models. We achieve a 77.53\% accuracy with a Thai BERT model in detecting depression. This establishes a good baseline for future researcher on the same corpus. Furthermore, we identify a need for Thai embeddings that have been trained on a more varied corpus than Wikipedia. Our corpus, code and trained models have been released openly on Zenodo.
翻訳日:2021-11-09 20:53:41 公開日:2021-11-08
# (参考訳) CoCo Games:コミュニケーション対応カバーのためのグラフィックゲーム理論のSwarmコントロール [全文訳有]

CoCo Games: Graphical Game-Theoretic Swarm Control for Communication-Aware Coverage ( http://arxiv.org/abs/2111.04576v1 )

ライセンス: CC BY-SA 4.0
Malintha Fernando, Ransalu Senanayake, Martin Swany(参考訳) 本稿では,大規模地理的関心領域(ROI)を横断するロボットのコミュニケーション意識を最大化する手法を提案する。 提案手法は, 周辺環境におけるネットワークトポロジを補完し, 動的環境において高いロバスト性を示す。 我々は,多段階協調型グラフィカルゲームとしてカバレッジを定式化し,変動推論(VI)を用いて平衡に達する。 無人航空機(UAV)とユーザ機器(UE)ロボットを用いて,移動型アドホック無線ネットワークシナリオにおけるアプローチを実験的に検証した。 固定型・移動型ユーザ機器(ue)ロボットが現実のネットワーク環境下で定義したroisに対応できることを示す。

We present a novel approach to maximize the communication-aware coverage for robots operating over large-scale geographical regions of interest (ROIs). Our approach complements the underlying network topology in neighborhood selection and control, rendering it highly robust in dynamic environments. We formulate the coverage as a multi-stage, cooperative graphical game and employ Variational Inference (VI) to reach the equilibrium. We experimentally validate our approach in an mobile ad-hoc wireless network scenario using Unmanned Aerial Vehicles (UAV) and User Equipment (UE) robots. We show that it can cater to ROIs defined by stationary and moving User Equipment (UE) robots under realistic network conditions.
翻訳日:2021-11-09 20:46:02 公開日:2021-11-08
# (参考訳) 実現可能なモデルのための情報理論ベイズリスク低減 [全文訳有]

Information-Theoreti c Bayes Risk Lower Bounds for Realizable Models ( http://arxiv.org/abs/2111.04579v1 )

ライセンス: CC BY 4.0
Matthew Nokleby and Ahmad Beirami(参考訳) 本研究では,ベイズリスクと機械学習モデルの一般化誤差に関する情報理論の下限を導出する。 特に,モデルパラメータのレートゆがみ関数がトレーニングサンプルとモデルパラメータ間の必要な相互情報にバインドし,ベイズリスク制約までのモデルを学ぶ解析を行う。 実現可能なモデルの場合、レート歪み関数と相互情報の両方が解析に便利な表現を許容することを示す。 パラメータの(大まかに)低いリプシッツについて、速度歪み関数を下から有界とするのに対し、VCクラスでは、相互情報は$d_\mathrm{vc}\log(n)$で有界である。 これらの条件が一致するとき、ゼロ1の損失に対するベイズリスクは、既知の外界と対数的因子までのミニマックス下界に一致する$\Omega(d_\mathrm{vc}/n)$よりも速くスケールする。 また、ラベルノイズの影響を考慮し、トレーニングやテストサンプルの破損時に低い境界を提供する。

We derive information-theoreti c lower bounds on the Bayes risk and generalization error of realizable machine learning models. In particular, we employ an analysis in which the rate-distortion function of the model parameters bounds the required mutual information between the training samples and the model parameters in order to learn a model up to a Bayes risk constraint. For realizable models, we show that both the rate distortion function and mutual information admit expressions that are convenient for analysis. For models that are (roughly) lower Lipschitz in their parameters, we bound the rate distortion function from below, whereas for VC classes, the mutual information is bounded above by $d_\mathrm{vc}\log(n)$. When these conditions match, the Bayes risk with respect to the zero-one loss scales no faster than $\Omega(d_\mathrm{vc}/n)$, which matches known outer bounds and minimax lower bounds up to logarithmic factors. We also consider the impact of label noise, providing lower bounds when training and/or test samples are corrupted.
翻訳日:2021-11-09 20:30:06 公開日:2021-11-08
# (参考訳) 厳密な鞍点を避ける慣性ニュートンアルゴリズム [全文訳有]

Inertial Newton Algorithms Avoiding Strict Saddle Points ( http://arxiv.org/abs/2111.04596v1 )

ライセンス: CC BY 4.0
Camille Castera(参考訳) 非凸景観におけるニュートン法と慣性勾配勾配を混合した2階アルゴリズムの漸近挙動について検討した。 これらの手法のニュートン的挙動にもかかわらず、彼らは常に厳密な鞍点から逃れている。 また,これらの手法の超パラメータが臨界点近傍の質的挙動に果たす役割を証明した。 理論的結果は数値図によって支えられている。

We study the asymptotic behavior of second-order algorithms mixing Newton's method and inertial gradient descent in non-convex landscapes. We show that, despite the Newtonian behavior of these methods, they almost always escape strict saddle points. We also evidence the role played by the hyper-parameters of these methods in their qualitative behavior near critical points. The theoretical results are supported by numerical illustrations.
翻訳日:2021-11-09 20:08:50 公開日:2021-11-08
# (参考訳) スパース・リワード協調多エージェント問題に対する変分自動学習 [全文訳有]

Variational Automatic Curriculum Learning for Sparse-Reward Cooperative Multi-Agent Problems ( http://arxiv.org/abs/2111.04613v1 )

ライセンス: CC BY 4.0
Jiayu Chen, Yuanxin Zhang, Yuanfan Xu, Huimin Ma, Huazhong Yang, Jiaming Song, Yu Wang, Yi Wu(参考訳) 目標条件付き協調型マルチエージェント強化学習の課題を解決するために,カリキュラム学習アルゴリズムである変分自動カリキュラム学習(VACL)を導入する。 学習目標を,現在のタスク分布におけるタスク学習と,新しいタスク分布へのカリキュラム更新という2つの用語に分解することができる。 第2項の局所最適化は、カリキュラムが徐々にトレーニングタスクを簡単から困難に拡張すべきであることを示唆している。 我々のVACLアルゴリズムは、タスク拡張とエンティティ進行という2つの実践的なコンポーネントでこの変分パラダイムを実装し、タスク構成とタスク内のエンティティ数の両方に対してトレーニングカリキュラムを生成する。 実験の結果,VACLはスパース逆問題の集合を多数のエージェントで解くことがわかった。 特に、単一のデスクトップマシンを使用して、vaclは、simple-spreadベンチマークで100エージェントによる98%のカバレッジ率を達成し、openaiのhid-and-seekプロジェクトで示されたランプ使用動作を再現する。 プロジェクトのWebサイトはhttps://sites.google .com/view/vacl-neuri ps-2021。

We introduce a curriculum learning algorithm, Variational Automatic Curriculum Learning (VACL), for solving challenging goal-conditioned cooperative multi-agent reinforcement learning problems. We motivate our paradigm through a variational perspective, where the learning objective can be decomposed into two terms: task learning on the current task distribution, and curriculum update to a new task distribution. Local optimization over the second term suggests that the curriculum should gradually expand the training tasks from easy to hard. Our VACL algorithm implements this variational paradigm with two practical components, task expansion and entity progression, which produces training curricula over both the task configurations as well as the number of entities in the task. Experiment results show that VACL solves a collection of sparse-reward problems with a large number of agents. Particularly, using a single desktop machine, VACL achieves 98% coverage rate with 100 agents in the simple-spread benchmark and reproduces the ramp-use behavior originally shown in OpenAI's hide-and-seek project. Our project website is at https://sites.google .com/view/vacl-neuri ps-2021.
翻訳日:2021-11-09 19:31:47 公開日:2021-11-08
# (参考訳) パブリッククラウド上での高並列ハードウェアによるGANトレーニングの高速化 [全文訳有]

Accelerating GAN training using highly parallel hardware on public cloud ( http://arxiv.org/abs/2111.04628v1 )

ライセンス: CC BY 4.0
Renato Cardoso, Dejan Golubovic, Ignacio Peluaga Lozada, Ricardo Rocha, Jo\~ao Fernandes and Sofia Vallecorsa(参考訳) 高エネルギー物理学における機械学習やディープラーニングの応用が増えているため、専用インフラへの容易なアクセスは、高速かつ効率的な研究開発の要件である。 本研究では,Tensorflowデータ並列戦略を用いて,GAN(Generative Adversarial Network)を並列環境でトレーニングする,さまざまなタイプのクラウドサービスについて検討する。 具体的には、複数のGPUとGoogle Tensor Processing Unit(TPU)上でのトレーニングプロセスを並列化し、TensorFlow組み込みロジックとカスタムループの2つのアルゴリズムを比較します。 生成されたデータの品質はモンテカルロシミュレーションと比較される。 トレーニングプロセスの線形スピードアップは、物理結果の観点から、ほとんどの性能を維持しながら得られる。 さらに、前述のアプローチを大規模に、複数のGPUノード上でベンチマークし、さまざまなパブリッククラウドプロバイダにトレーニングプロセスをデプロイし、全体的な効率性とコスト効率を追求しています。 データサイエンス、クラウドデプロイメントオプション、関連する経済の組み合わせにより、クラウドベースのサービスの潜在能力を探求し、異質に展開することができる。

With the increasing number of Machine and Deep Learning applications in High Energy Physics, easy access to dedicated infrastructure represents a requirement for fast and efficient R&D. This work explores different types of cloud services to train a Generative Adversarial Network (GAN) in a parallel environment, using Tensorflow data parallel strategy. More specifically, we parallelize the training process on multiple GPUs and Google Tensor Processing Units (TPU) and we compare two algorithms: the TensorFlow built-in logic and a custom loop, optimised to have higher control of the elements assigned to each GPU worker or TPU core. The quality of the generated data is compared to Monte Carlo simulation. Linear speed-up of the training process is obtained, while retaining most of the performance in terms of physics results. Additionally, we benchmark the aforementioned approaches, at scale, over multiple GPU nodes, deploying the training process on different public cloud providers, seeking for overall efficiency and cost-effectiveness. The combination of data science, cloud deployment options and associated economics allows to burst out heterogeneously, exploring the full potential of cloud-based services.
翻訳日:2021-11-09 19:01:14 公開日:2021-11-08
# (参考訳) 構成とスタイル属性による画像美的評価 [全文訳有]

Composition and Style Attributes Guided Image Aesthetic Assessment ( http://arxiv.org/abs/2111.04647v1 )

ライセンス: CC BY 4.0
Luigi Celona and Marco Leonardi and Paolo Napoletano and Alessandro Rozza(参考訳) 画像の美的品質は、画像の美しさの尺度または評価として定義される。 美学は本質的に主観的な性質であるが、イメージの意味的内容、芸術的側面を記述した属性、撮影に使用される写真設定など、それに影響を与えるいくつかの要因がある。 本稿では,画像の意味的内容,芸術的スタイル,構成の分析に基づいて,画像の審美性を自動的に予測する手法を提案する。 提案ネットワークは、セマンティックな特徴抽出のための事前訓練されたネットワーク(Backbone)、画像属性の予測にBackboneの機能に依存するMulti Layer Perceptron(MLP)ネットワーク(AttributeNet)、AttributeNetが生成した埋め込みに予めエンコードされた属性を利用する自己適応型ハイパーネット(AttributeNet)により、美的推定専用のターゲットネットワークのパラメータを予測する(AestheticNet)。 画像が与えられた場合、提案するマルチネットワークは、スタイルと構成属性、および美的スコア分布を予測できる。 3つのベンチマークデータセットの結果から,提案手法の有効性が示された。

The aesthetic quality of an image is defined as the measure or appreciation of the beauty of an image. Aesthetics is inherently a subjective property but there are certain factors that influence it such as, the semantic content of the image, the attributes describing the artistic aspect, the photographic setup used for the shot, etc. In this paper we propose a method for the automatic prediction of the aesthetics of an image that is based on the analysis of the semantic content, the artistic style and the composition of the image. The proposed network includes: a pre-trained network for semantic features extraction (the Backbone); a Multi Layer Perceptron (MLP) network that relies on the Backbone features for the prediction of image attributes (the AttributeNet); a self-adaptive Hypernetwork that exploits the attributes prior encoded into the embedding generated by the AttributeNet to predict the parameters of the target network dedicated to aesthetic estimation (the AestheticNet). Given an image, the proposed multi-network is able to predict: style and composition attributes, and aesthetic score distribution. Results on three benchmark datasets demonstrate the effectiveness of the proposed method, while the ablation study gives a better understanding of the proposed network.
翻訳日:2021-11-09 18:50:00 公開日:2021-11-08
# (参考訳) SIRエピデミクスを用いた多項系のデータ駆動セットベース推定 [全文訳有]

Data-driven Set-based Estimation of Polynomial Systems with Application to SIR Epidemics ( http://arxiv.org/abs/2111.04704v1 )

ライセンス: CC BY 4.0
Amr Alanwar, Muhammad Umar B. Niazi, Karl H. Johansson(参考訳) 本稿では,非線形性を持つ非線形系のクラスに対するデータ駆動型集合ベース推定アルゴリズムを提案する。 提案手法は,システムの入力出力データを用いて,システムの状態を含むことを保証したセットをリアルタイムに計算する。 この系は多項式型であると仮定されるが、正確な多項式関数とその係数は知られていない。 この目的のために、推定器はオフラインとオンラインのフェーズに依存している。 オフライン位相は過去の入力出力データを利用して多項式系の可能な係数のセットを推定する。 そして、この推定された係数セットとシステムに関するサイド情報を用いて、オンラインフェーズは状態のセット推定を提供する。 最後に,SIR(Susceptible, Infected, Recovered)流行モデルを用いて,提案手法の評価を行った。

This paper proposes a data-driven set-based estimation algorithm for a class of nonlinear systems with polynomial nonlinearities. Using the system's input-output data, the proposed method computes in real-time a set that guarantees the inclusion of the system's state. Although the system is assumed to be polynomial type, the exact polynomial functions and their coefficients need not be known. To this end, the estimator relies on offline and online phases. The offline phase utilizes past input-output data to estimate a set of possible coefficients of the polynomial system. Then, using this estimated set of coefficients and the side information about the system, the online phase provides a set estimate of the state. Finally, the proposed methodology is evaluated through its application on SIR (Susceptible, Infected, Recovered) epidemic model.
翻訳日:2021-11-09 18:26:57 公開日:2021-11-08
# (参考訳) 合成座標による分子グラフ上の方向メッセージパッシング [全文訳有]

Directional Message Passing on Molecular Graphs via Synthetic Coordinates ( http://arxiv.org/abs/2111.04718v1 )

ライセンス: CC BY 4.0
Johannes Klicpera, Chandan Yeshwanth, Stephan G\"unnemann(参考訳) 指向性メッセージパッシングを通じて座標を利用するグラフニューラルネットワークは、最近、複数の分子特性予測タスクにテクニックの状態を設定した。 しかし、それらはしばしば利用できない原子の位置情報に依存しており、入手は通常、高価または不可能である。 本稿では, 分子構成を必要とせず, 高度なGNNを利用できる合成座標を提案する。 分子配置の粗い範囲を指定する距離境界と、パーソナライズされたPageRankの対称変種を用いたグラフベース距離の2つの距離を合成座標として提案する。 距離情報と角情報の両方を活用するために,通常のグラフニューラルネットワークを指向性MPNNに変換する手法を提案する。 この変換により、通常のグラフニューラルネットワークの誤差をZINCベンチマークで55%削減できることを示す。 さらに、SMPおよびDimeNet++モデルに合成座標を組み込むことにより、ZINCおよび座標自由QM9上の技術の状態を設定する。 私たちの実装はオンラインで利用可能です。

Graph neural networks that leverage coordinates via directional message passing have recently set the state of the art on multiple molecular property prediction tasks. However, they rely on atom position information that is often unavailable, and obtaining it is usually prohibitively expensive or even impossible. In this paper we propose synthetic coordinates that enable the use of advanced GNNs without requiring the true molecular configuration. We propose two distances as synthetic coordinates: Distance bounds that specify the rough range of molecular configurations, and graph-based distances using a symmetric variant of personalized PageRank. To leverage both distance and angular information we propose a method of transforming normal graph neural networks into directional MPNNs. We show that with this transformation we can reduce the error of a normal graph neural network by 55% on the ZINC benchmark. We furthermore set the state of the art on ZINC and coordinate-free QM9 by incorporating synthetic coordinates in the SMP and DimeNet++ models. Our implementation is available online.
翻訳日:2021-11-09 18:11:19 公開日:2021-11-08
# 自己教師付き学習における敵対的脆弱性の特徴付け

Characterizing the adversarial vulnerability of speech self-supervised learning ( http://arxiv.org/abs/2111.04330v1 )

ライセンス: Link先を確認
Haibin Wu, Bo Zheng, Xu Li, Xixin Wu, Hung-yi Lee, Helen Meng(参考訳) 音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)と呼ばれるリーダーボードは、アーキテクチャの最小限の修正と少量のデータ量で、さまざまな下流音声タスク間で共有自己教師付き学習(SSL)音声モデルの性能をベンチマークすることを目的としており、音声表現学習の研究を加速させている。 SUPERBは、音声SSL上流モデルで、最小限の適応によって、様々な下流タスクのパフォーマンスを改善する。 自己教師付き学習上流モデルのパラダイムと下流課題が音声コミュニティの注目を集めるにつれ、このようなパラダイムの敵対的強固さを特徴付けることが優先度が高い。 本稿では,ゼロ知識とリミテッド知識の両方の敵から攻撃を受けた場合の,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。 実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であり, ゼロ知識を持つ敵による攻撃は伝達性を有することが明らかとなった。 XABテストは、対人攻撃の非感受性を検証する。

A leaderboard named Speech processing Universal PERformance Benchmark (SUPERB), which aims at benchmarking the performance of a shared self-supervised learning (SSL) speech model across various downstream speech tasks with minimal modification of architectures and small amount of data, has fueled the research for speech representation learning. The SUPERB demonstrates speech SSL upstream models improve the performance of various downstream tasks through just minimal adaptation. As the paradigm of the self-supervised learning upstream model followed by downstream tasks arouses more attention in the speech community, characterizing the adversarial robustness of such paradigm is of high priority. In this paper, we make the first attempt to investigate the adversarial vulnerability of such paradigm under the attacks from both zero-knowledge adversaries and limited-knowledge adversaries. The experimental results illustrate that the paradigm proposed by SUPERB is seriously vulnerable to limited-knowledge adversaries, and the attacks generated by zero-knowledge adversaries are with transferability. The XAB test verifies the imperceptibility of crafted adversarial attacks.
翻訳日:2021-11-09 17:50:47 公開日:2021-11-08
# SEOFP-NET:手動浮動小数点を用いた音声強調のためのディープニューラルネットワークの圧縮と高速化

SEOFP-NET: Compression and Acceleration of Deep Neural Networks for Speech Enhancement Using Sign-Exponent-Only Floating-Points ( http://arxiv.org/abs/2111.04436v1 )

ライセンス: Link先を確認
Yu-Chen Lin, Cheng Yu, Yi-Te Hsu, Szu-Wei Fu, Yu Tsao, Tei-Wei Kuo(参考訳) コンピュータビジョンや音声信号処理など,様々な分野の分類タスクにおいて,多くの圧縮・加速戦略が達成されている。 それにもかかわらず、これらのタスクと分類タスクの性質が異なるため、同じ戦略は回帰タスクで目立たないパフォーマンスをもたらしている。 本稿では,音声信号処理のレグレッションタスクである音声強調のためのモデルサイズを圧縮し,推論時間を高速化する,新しいサイン-exonent-only floating-point Network (SEOFP-NET)技術を提案する。 提案手法は,訓練中の単一精度浮動小数点パラメータの分数ビットを定量化することにより,ディープニューラルネットワーク(DNN)に基づく音声強調モデルのサイズを圧縮する。 推論実装の前に、トレーニングされたSEOFP-NETモデルの全てのパラメータを少し調整して、浮動小数点乗算器を整数加算器に置き換えることで推論時間を高速化する。 一般化のために、sofp-net技術は様々なコーパスの下で異なるモデルアーキテクチャを持つ音声信号処理における異なる音声強調タスクに導入されている。 実験の結果、sofp-netモデルのサイズは音声強調性能を著しく低下させることなく81.249%まで大幅に圧縮でき、推定時間はベースラインモデルと比較して1.212倍に加速できることがわかった。 また,提案したSEOFP-NETが他の効率戦略と協調してモデル圧縮の相乗効果を実現できることを確認した。 さらに, 音声強調が聴取に与える影響を統計的に分析するために, ユーザスタディ実験に, 注目の相違点(JND)を適用した。 その結果,ベースラインモデルにより処理された音声信号と提案したSEOFP-NETとを,聴取者が容易に区別できないことがわかった。

Numerous compression and acceleration strategies have achieved outstanding results on classification tasks in various fields, such as computer vision and speech signal processing. Nevertheless, the same strategies have yielded ungratified performance on regression tasks because the nature between these and classification tasks differs. In this paper, a novel sign-exponent-only floating-point network (SEOFP-NET) technique is proposed to compress the model size and accelerate the inference time for speech enhancement, a regression task of speech signal processing. The proposed method compressed the sizes of deep neural network (DNN)-based speech enhancement models by quantizing the fraction bits of single-precision floating-point parameters during training. Before inference implementation, all parameters in the trained SEOFP-NET model are slightly adjusted to accelerate the inference time by replacing the floating-point multiplier with an integer-adder. For generalization, the SEOFP-NET technique is introduced to different speech enhancement tasks in speech signal processing with different model architectures under various corpora. The experimental results indicate that the size of SEOFP-NET models can be significantly compressed by up to 81.249% without noticeably downgrading their speech enhancement performance, and the inference time can be accelerated to 1.212x compared with the baseline models. The results also verify that the proposed SEOFP-NET can cooperate with other efficiency strategies to achieve a synergy effect for model compression. In addition, the just noticeable difference (JND) was applied to the user study experiment to statistically analyze the effect of speech enhancement on listening. The results indicate that the listeners cannot facilely differentiate between the enhanced speech signals processed by the baseline model and the proposed SEOFP-NET.
翻訳日:2021-11-09 17:50:23 公開日:2021-11-08
# ディープマルコフモデルの確率的安定性について

On the Stochastic Stability of Deep Markov Models ( http://arxiv.org/abs/2111.04601v1 )

ライセンス: Link先を確認
J\'an Drgo\v{n}a, Sayak Mukherjee, Jiaxin Zhang, Frank Liu, Mahantesh Halappanavar(参考訳) ディープマルコフモデル(ディープマルコフモデル、英: Deep Markov model、DMM)は、マルコフモデルの表現、学習、推論問題に対するスケーラブルで表現力豊かな一般化である。 しかし、そのようなモデルの基本的な確率的安定性は十分に研究されていない。 本稿では,DMMの確率安定性を力学系の文脈で定義した十分条件を提供し,深層ニューラルネットワークでモデル化された確率的写像の縮約に基づく安定性解析法を提案する。 我々は、ニューラルネットワークの重みのスペクトル特性と、ガウス分布を持つDMMの安定性と全体的な動的挙動に関する様々な利用活性化関数とを関連付ける。 この理論に基づいて,安定度を保証した制約付きDMMを設計するための実用的手法を提案する。 提案した安定性制約を用いた直観的な数値実験により理論的結果を実証的に裏付ける。

Deep Markov models (DMM) are generative models that are scalable and expressive generalization of Markov models for representation, learning, and inference problems. However, the fundamental stochastic stability guarantees of such models have not been thoroughly investigated. In this paper, we provide sufficient conditions of DMM's stochastic stability as defined in the context of dynamical systems and propose a stability analysis method based on the contraction of probabilistic maps modeled by deep neural networks. We make connections between the spectral properties of neural network's weights and different types of used activation functions on the stability and overall dynamic behavior of DMMs with Gaussian distributions. Based on the theory, we propose a few practical methods for designing constrained DMMs with guaranteed stability. We empirically substantiate our theoretical results via intuitive numerical experiments using the proposed stability constraints.
翻訳日:2021-11-09 17:49:51 公開日:2021-11-08
# エンドツーエンド音響ビームフォーミングのための学習フィルタバンク

Learning Filterbanks for End-to-End Acoustic Beamforming ( http://arxiv.org/abs/2111.04614v1 )

ライセンス: Link先を確認
Samuele Cornell, Manuel Pariente, Fran\c{c}ois Grondin, Stefano Squartini(参考訳) モノラル音源分離に関する最近の研究により, 窓が短い完全学習フィルタバンクを用いることで, 性能を向上できることが示されている。 一方、従来のビームフォーミング技術では、長い分析ウィンドウで性能が向上することが広く知られている。 これはまた、空間共分散行列を推定するためにディープニューラルネットワーク(DNN)に依存するほとんどのハイブリッドニューラルネットワークビームフォーミング手法にも適用される。 本研究では,これら2つの世界のギャップを橋渡しし,完全エンドツーエンドのハイブリッドニューラルネットワークビームフォーミングを探索する。そこでは,短時間フーリエ変換を用いる代わりに,解析と合成フィルタバンクをdnnと共同で学習する。 詳細は、学習されたフィルタバンクの2つの異なるタイプについて調べる。 我々は最近のClarity Challengeデータを用いて詳細な解析を行い、学習したフィルタバンクを使用することで、短い窓のオラクルマスクベースのビームフォーミングを超えることができることを示す。

Recent work on monaural source separation has shown that performance can be increased by using fully learned filterbanks with short windows. On the other hand it is widely known that, for conventional beamforming techniques, performance increases with long analysis windows. This applies also to most hybrid neural beamforming methods which rely on a deep neural network (DNN) to estimate the spatial covariance matrices. In this work we try to bridge the gap between these two worlds and explore fully end-to-end hybrid neural beamforming in which, instead of using the Short-Time-Fourier Transform, also the analysis and synthesis filterbanks are learnt jointly with the DNN. In detail, we explore two different types of learned filterbanks: fully learned and analytic. We perform a detailed analysis using the recent Clarity Challenge data and show that by using learnt filterbanks is possible to surpass oracle-mask based beamforming for short windows.
翻訳日:2021-11-09 17:49:38 公開日:2021-11-08
# hapssa:signalとstatistic analysisを用いたpdfマルウェア検出の総合的アプローチ

HAPSSA: Holistic Approach to PDF Malware Detection Using Signal and Statistical Analysis ( http://arxiv.org/abs/2111.04703v1 )

ライセンス: Link先を確認
Tajuddin Manhar Mohammed, Lakshmanan Nataraj, Satish Chikkagoudar, Shivkumar Chandrasekaran, B.S. Manjunath(参考訳) 悪意のあるpdf文書は、pdfマルウェアの身元と振る舞いを効果的に分析し特徴付けるために、現代の脅威インテリジェンスプラットフォームを必要とする様々なセキュリティ組織に深刻な脅威をもたらす。 最先端のアプローチでは、機械学習(ML)を使用してPDFマルウェアを特徴付ける機能を学ぶ。 しかし、MLモデルは、敵がマルウェアコードを難読化してアンチウイルスによって検出されるのを避けるという、回避攻撃の影響を受けることが多い。 本稿では,マルウェアバイナリの信号および統計解析を利用したpdfマルウェア検出に対する,単純かつ効果的な包括的アプローチを導出する。 これには、様々な静的および動的マルウェア検出方法からの直交的特徴空間モデルを組み合わせることで、コードの難読化に直面した際の汎用ロバスト性を実現する。 マルウェアと良性サンプルの両方を含む3万近いPDFファイルのデータセットを用いて、我々の総合的なアプローチは、PDFマルウェアの高検出率(99.92%)を維持し、マルウェア作者がマルウェアを隠蔽するために行う難読化を除去する単純な方法によって生成された新しい悪意のあるファイルさえも検出することを示した。

Malicious PDF documents present a serious threat to various security organizations that require modern threat intelligence platforms to effectively analyze and characterize the identity and behavior of PDF malware. State-of-the-art approaches use machine learning (ML) to learn features that characterize PDF malware. However, ML models are often susceptible to evasion attacks, in which an adversary obfuscates the malware code to avoid being detected by an Antivirus. In this paper, we derive a simple yet effective holistic approach to PDF malware detection that leverages signal and statistical analysis of malware binaries. This includes combining orthogonal feature space models from various static and dynamic malware detection methods to enable generalized robustness when faced with code obfuscations. Using a dataset of nearly 30,000 PDF files containing both malware and benign samples, we show that our holistic approach maintains a high detection rate (99.92%) of PDF malware and even detects new malicious files created by simple methods that remove the obfuscation conducted by malware authors to hide their malware, which are undetected by most antiviruses.
翻訳日:2021-11-09 17:49:21 公開日:2021-11-08
# クエリーから隠されたレイヤReLUネットワークを効率よく学習する

Efficiently Learning Any One Hidden Layer ReLU Network From Queries ( http://arxiv.org/abs/2111.04727v1 )

ライセンス: Link先を確認
Sitan Chen, Adam R Klivans, Raghu Meka(参考訳) モデル抽出攻撃は、クエリからニューラルネットワークを学習する古典的な問題に新たな関心を寄せている。 本研究では,ネットワークへのブラックボックスアクセスを提供する隠れレイヤニューラルネットワークの任意のアクティベーションを学習するための,最初の多項式時間アルゴリズムを提案する。 形式的には、$f$がreluアクティベーションを持つ任意の1つの隠れ層ニューラルネットワークであれば、ガウス測度に対して$f$に対して低平方損失を達成するネットワーク$f'$を出力するすべてのパラメータの多項式であるクエリ複雑性と実行時間を持つアルゴリズムが存在する。 セキュリティ文献における多くの研究がこの問題に対する特定のアルゴリズムの有効性を実証的に提案し実証してきたが、最悪の場合のネットワークでも効率の多項式時間保証は初めてである(特に我々のアルゴリズムは過度なパラメータ設定で成功している)。

Model extraction attacks have renewed interest in the classic problem of learning neural networks from queries. In this work we give the first polynomial-time algorithm for learning arbitrary one hidden layer neural networks activations provided black-box access to the network. Formally, we show that if $F$ is an arbitrary one hidden layer neural network with ReLU activations, there is an algorithm with query complexity and running time that is polynomial in all parameters that outputs a network $F'$ achieving low square loss relative to $F$ with respect to the Gaussian measure. While a number of works in the security literature have proposed and empirically demonstrated the effectiveness of certain algorithms for this problem, ours is the first with fully polynomial-time guarantees of efficiency even for worst-case networks (in particular our algorithm succeeds in the overparameterized setting).
翻訳日:2021-11-09 17:49:01 公開日:2021-11-08
# (参考訳) 勾配リークのためのベイズフレームワーク [全文訳有]

Bayesian Framework for Gradient Leakage ( http://arxiv.org/abs/2111.04706v1 )

ライセンス: CC BY 4.0
Mislav Balunovi\'c, Dimitar I. Dimitrov, Robin Staab, Martin Vechev(参考訳) フェデレーション学習は、トレーニングデータを共有せずに機械学習モデルをトレーニングするための確立された方法である。 しかし最近の研究では、共有勾配が機密情報を漏洩させる可能性があるため、データのプライバシを保証できないことが示されている。 勾配漏洩の問題を定式化するために, 最適化問題として表されるベイズ最適逆解析を初めて可能にする理論的枠組みを提案する。 既存の漏洩攻撃は,入力データと勾配の確率分布に異なる仮定を持つ,この最適敵の近似と見なすことができる。 本実験は,基礎となる分布の知識を持つベイズ最適逆数の有効性を検証した。 また,本実験では,既存のヒューリスティック防御が,特に訓練過程の早い段階では強固な攻撃に対して有効ではないことを示す。 以上の結果から,より効果的な防御の構築とその評価はいまだに未解決の問題であることが示唆された。

Federated learning is an established method for training machine learning models without sharing training data. However, recent work has shown that it cannot guarantee data privacy as shared gradients can still leak sensitive information. To formalize the problem of gradient leakage, we propose a theoretical framework that enables, for the first time, analysis of the Bayes optimal adversary phrased as an optimization problem. We demonstrate that existing leakage attacks can be seen as approximations of this optimal adversary with different assumptions on the probability distributions of the input data and gradients. Our experiments confirm the effectiveness of the Bayes optimal adversary when it has knowledge of the underlying distribution. Further, our experimental evaluation shows that several existing heuristic defenses are not effective against stronger attacks, especially early in the training process. Thus, our findings indicate that the construction of more effective defenses and their evaluation remains an open problem.
翻訳日:2021-11-09 17:46:37 公開日:2021-11-08
# スピロメトリに基づく気道疾患シミュレーションと機械学習による認識

Spirometry-based airways disease simulation and recognition using Machine Learning approaches ( http://arxiv.org/abs/2111.04315v1 )

ライセンス: Link先を確認
Riccardo Dio (AROMATH, UCA), Andr\'e Galligo (AROMATH, UCA), Angelos Mantzaflaris (AROMATH, UCA), Benjamin Mauroy (UCA)(参考訳) 本研究の目的は,気道疾患の自動認識のための医師への手段を提供することである。 本研究では,主にスピロメーターを用いて容易に記録できる測定方法に焦点を当てる。 この枠組みで使用される信号は、肺の線形複成分モデルを用いてシミュレートされる。 これにより、休息時の換気 (tidal breath) という仮説の下で換気をシミュレートできる。 抵抗パラメータと弾性パラメータを変更することで、データサンプルは健康、線維化、喘息呼吸をシミュレートする。 この合成データに基づいて、異なる機械学習モデルをテストし、その性能を評価する。 ナイーブバイアス分類器以外はすべて、少なくとも99%の精度を示している。 これは、機械学習が製造されたスピロメトリーデータに基づいて病気を正確に区別できるという概念の証明である。 これにより、このトピックに関するさらなる開発、特に実データ上でのモデルテストへの道のりが開ける。

The purpose of this study is to provide means to physicians for automated and fast recognition of airways diseases. In this work, we mainly focus on measures that can be easily recorded using a spirometer. The signals used in this framework are simulated using the linear bi-compartment model of the lungs. This allows us to simulate ventilation under the hypothesis of ventilation at rest (tidal breathing). By changing the resistive and elastic parameters, data samples are realized simulating healthy, fibrosis and asthma breathing. On this synthetic data, different machine learning models are tested and their performance is assessed. All but the Naive bias classifier show accuracy of at least 99%. This represents a proof of concept that Machine Learning can accurately differentiate diseases based on manufactured spirometry data. This paves the way for further developments on the topic, notably testing the model on real data.
翻訳日:2021-11-09 17:28:27 公開日:2021-11-08
# 知識追跡に適用したマルチモーダル融合とニューラル・アーキテクチャ・サーチを組み合わせたアプローチ

An Approach for Combining Multimodal Fusion and Neural Architecture Search Applied to Knowledge Tracing ( http://arxiv.org/abs/2111.04497v1 )

ライセンス: Link先を確認
Xinyi Ding, Tao Han, Yili Fang, Eric Larson(参考訳) 知識トレース(英: knowledge tracing)とは、特定の学習領域において、生徒の異なるスキルの習得レベルを追跡するプロセスである。 適応学習システムを構築する上で重要な要素の1つであり、数十年にわたって研究されてきた。 他の分野でのディープニューラルネットワークの成功と並行して、研究者は学習科学コミュニティで同様のアプローチをとっている。 しかし、既存のディープラーニングベースの知識トレースモデルの多くは、(1)正しい/誤った応答(他のモダリティから有用な情報を無視する)のみを使用するか、(2)試行錯誤によるドメイン専門知識を通じてネットワークアーキテクチャを設計するかのいずれかである。 本稿では,マルチモーダル融合とニューラルネットワークの探索を1つのフレームワークで組み合わせた逐次モデルに基づく最適化手法を提案する。 一般的なニューラルアーキテクチャ探索手法は,1つのモダリティしか含まない場合,提案手法の特別な場合と考えることができる。 さらに、時間重み付き曲線(重み付きAUC)と呼ばれる新しい計量を用いて、シーケンスモデルが時間とともにどのように機能するかを測定することを提案する。 得られたモデルが優れた性能を達成できることを示す2つの公開実データに対して,本手法の評価を行った。 多くの既存の研究とは異なり、モデル予測に関するマクネマールのテストを行い、その結果は統計的に有意である。

Knowledge Tracing is the process of tracking mastery level of different skills of students for a given learning domain. It is one of the key components for building adaptive learning systems and has been investigated for decades. In parallel with the success of deep neural networks in other fields, we have seen researchers take similar approaches in the learning science community. However, most existing deep learning based knowledge tracing models either: (1) only use the correct/incorrect response (ignoring useful information from other modalities) or (2) design their network architectures through domain expertise via trial and error. In this paper, we propose a sequential model based optimization approach that combines multimodal fusion and neural architecture search within one framework. The commonly used neural architecture search technique could be considered as a special case of our proposed approach when there is only one modality involved. We further propose to use a new metric called time-weighted Area Under the Curve (weighted AUC) to measure how a sequence model performs with time. We evaluate our methods on two public real datasets showing the discovered model is able to achieve superior performance. Unlike most existing works, we conduct McNemar's test on the model predictions and the results are statistically significant.
翻訳日:2021-11-09 17:26:38 公開日:2021-11-08
# 協調ゲームのための対話型逆強化学習

Interactive Inverse Reinforcement Learning for Cooperative Games ( http://arxiv.org/abs/2111.04698v1 )

ライセンス: Link先を確認
Thomas Kleine Buening, Anne-Marie George, Christos Dimitrakakis(参考訳) 共同報酬機能にアクセスできないまま、潜在的に最適でないパートナーと効果的に協力できるAIエージェントを設計する際の課題について検討する。 この問題は、協調的エピソード2エージェントマルコフ決定過程としてモデル化される。 ゲームにおけるスタックルバーグの定式化における2つのエージェントのうち、第1のエージェントのみを制御し、第2のエージェントは、第1のエージェントのポリシーにより期待されたユーティリティを最大化するために行動する。 第1のエージェントは,共同報酬機能を可能な限り早く学習し,共同政策が可能な限り最適なものにするために,どのように行動すべきだろうか? 本稿では,この対話型2エージェントシナリオにおいて,報酬関数に関する知識がどのように得られるかを分析する。 学習者の方針が遷移関数に有意な影響を及ぼす場合,報酬関数を効率的に学習できることを示す。

We study the problem of designing AI agents that can learn to cooperate effectively with a potentially suboptimal partner while having no access to the joint reward function. This problem is modeled as a cooperative episodic two-agent Markov decision process. We assume control over only the first of the two agents in a Stackelberg formulation of the game, where the second agent is acting so as to maximise expected utility given the first agent's policy. How should the first agent act in order to learn the joint reward function as quickly as possible, and so that the joint policy is as close to optimal as possible? In this paper, we analyse how knowledge about the reward function can be gained in this interactive two-agent scenario. We show that when the learning agent's policies have a significant effect on the transition function, the reward function can be learned efficiently.
翻訳日:2021-11-09 17:26:16 公開日:2021-11-08
# 深層学習LSTMモデルを用いたストックポートフォリオ最適化

Stock Portfolio Optimization Using a Deep Learning LSTM Model ( http://arxiv.org/abs/2111.04709v1 )

ライセンス: Link先を確認
Jaydip Sen, Abhishek Dutta, and Sidra Mehtab(参考訳) 将来の株価の予測とその動きパターンは複雑な問題である。 したがって、リターンとリスクの最適化を達成するために予測価格を用いて資本資産のポートフォリオを構築することは、さらに難しい課題である。 本研究は、2016年1月1日から2020年12月31日まで、インド株式市場の9つの異なるセクターからトップ5の株価を時系列的に分析してきた。 最適ポートフォリオはこれらのセクター毎に構築されます。 将来の株価を予測するため、長期短期記憶モデル(lstm)も設計され、微調整されている。 ポートフォリオ構築から5ヶ月後、ポートフォリオの実際の利益と予測したリスクを計算します。 各ポートフォリオの予測と実際のリターンは高いことが判明し、lstmモデルの高精度さを示している。

Predicting future stock prices and their movement patterns is a complex problem. Hence, building a portfolio of capital assets using the predicted prices to achieve the optimization between its return and risk is an even more difficult task. This work has carried out an analysis of the time series of the historical prices of the top five stocks from the nine different sectors of the Indian stock market from January 1, 2016, to December 31, 2020. Optimum portfolios are built for each of these sectors. For predicting future stock prices, a long-and-short-term memory (LSTM) model is also designed and fine-tuned. After five months of the portfolio construction, the actual and the predicted returns and risks of each portfolio are computed. The predicted and the actual returns of each portfolio are found to be high, indicating the high precision of the LSTM model.
翻訳日:2021-11-09 17:26:00 公開日:2021-11-08
# オープンおよびクローズド解剖面の適応領域保存パラメータ化

Adaptive area-preserving parameterization of open and closed anatomical surfaces ( http://arxiv.org/abs/2111.04265v1 )

ライセンス: Link先を確認
Gary P. T. Choi, Amita Giri, Lalan Kumar(参考訳) オープンおよびクローズド解剖学的表面のパラメータ化は、多くの生物医学的応用において基本的に重要である。 単位球面上で定義される基底関数の集合である球面調和は解剖学的形状記述に広く使われている。 しかし、物体表面と単位球面全体の1対1対応を確立することは、表面の形状が完全球面とあまりに異なる場合、大きな幾何学的歪みを引き起こす可能性がある。 本研究では, 単純連結な閉曲面に対して, パラメータ化の対象を球状キャップとする適応型領域保存パラメータ化法を提案する。 本手法は,パラメータ領域の形状をオブジェクト表面からパラメータ領域へのマッピングとともに最適化する。 物体表面は、単位球面の最適球面キャップ領域に領域保存の方法でグローバルにマッピングされ、また、低い共形歪みを示す。 さらに,適応高調波と呼ばれる適応球面キャップ領域上で定義される球面高調波様基底関数の組を更に開発する。 実験結果から, 提案手法は, 開口面および閉面の両方において, 面積および角度歪みの点で既存手法よりも優れていた。 適応パラメータ化と適応調和の新たな組み合わせにより,物体表面の表面記述を効果的に行うことができる。 我々の研究は、精度と柔軟性を向上し、解剖学的表面をマッピングする新しい方法を提供します。 より広範に、適応パラメータードメインを使用するというアイデアは、幅広いバイオメディカルな形状を容易に扱うことができる。

The parameterization of open and closed anatomical surfaces is of fundamental importance in many biomedical applications. Spherical harmonics, a set of basis functions defined on the unit sphere, are widely used for anatomical shape description. However, establishing a one-to-one correspondence between the object surface and the entire unit sphere may induce a large geometric distortion in case the shape of the surface is too different from a perfect sphere. In this work, we propose adaptive area-preserving parameterization methods for simply-connected open and closed surfaces with the target of the parameterization being a spherical cap. Our methods optimize the shape of the parameter domain along with the mapping from the object surface to the parameter domain. The object surface will be globally mapped to an optimal spherical cap region of the unit sphere in an area-preserving manner while also exhibiting low conformal distortion. We further develop a set of spherical harmonics-like basis functions defined over the adaptive spherical cap domain, which we call the adaptive harmonics. Experimental results show that the proposed parameterization methods outperform the existing methods for both open and closed anatomical surfaces in terms of area and angle distortion. Surface description of the object surfaces can be effectively achieved using a novel combination of the adaptive parameterization and the adaptive harmonics. Our work provides a novel way of mapping anatomical surfaces with improved accuracy and greater flexibility. More broadly, the idea of using an adaptive parameter domain allows easy handling of a wide range of biomedical shapes.
翻訳日:2021-11-09 17:25:49 公開日:2021-11-08
# (参考訳) 価格応答型給湯機におけるモデルフリーとモデル予測制御の比較 [全文訳有]

A Comparison of Model-Free and Model Predictive Control for Price Responsive Water Heaters ( http://arxiv.org/abs/2111.04689v1 )

ライセンス: CC BY 4.0
David J. Biagioni, Xiangyu Zhang, Peter Graf, Devon Sigler, Wesley Jones(参考訳) 本稿では,モデルフリー制御アルゴリズムである進化戦略 (es) と近方政策最適化 (ppo) と,模擬価格対応型給湯器を運用するreceding horizon model prediction control (mpc) の比較を行った。 MPCの4つの変種は、完全予測可能なワンショット制御器、完全予測可能な限定水平制御器、平均予測ベースの制御器、歴史的シナリオを用いた2段階確率的プログラミング制御器である。 いずれの場合も、水温と電力価格のmpcモデルは正確であり、水需要のみが不確かである。 比較のために、ESとPPOは、MPCが使用しているのと同じシナリオでシミュレーション環境と直接対話することで、ニューラルネットワークベースのポリシーを学ぶ。 すべてのメソッドは、要求時系列の別々の1週間の継続で評価される。 この問題に対する最適制御は困難であり,最小コストを達成するためには,mpcの8時間以上のルックアヘッドが必要となる。 この課題にもかかわらず、esとppoは平均的な予測と2段階の確率的mpcコントローラを平均コストで上回る優れた汎用ポリシーを学習し、計算アクションにおいて2桁以上高速である。 特にESは並列性を利用して,1150個のCPUコアを使用して90秒未満でポリシーを学習できることを示す。

We present a careful comparison of two model-free control algorithms, Evolution Strategies (ES) and Proximal Policy Optimization (PPO), with receding horizon model predictive control (MPC) for operating simulated, price responsive water heaters. Four MPC variants are considered: a one-shot controller with perfect forecasting yielding optimal control; a limited-horizon controller with perfect forecasting; a mean forecasting-based controller; and a two-stage stochastic programming controller using historical scenarios. In all cases, the MPC model for water temperature and electricity price are exact; only water demand is uncertain. For comparison, both ES and PPO learn neural network-based policies by directly interacting with the simulated environment under the same scenarios used by MPC. All methods are then evaluated on a separate one-week continuation of the demand time series. We demonstrate that optimal control for this problem is challenging, requiring more than 8-hour lookahead for MPC with perfect forecasting to attain the minimum cost. Despite this challenge, both ES and PPO learn good general purpose policies that outperform mean forecast and two-stage stochastic MPC controllers in terms of average cost and are more than two orders of magnitude faster at computing actions. We show that ES in particular can leverage parallelism to learn a policy in under 90 seconds using 1150 CPU cores.
翻訳日:2021-11-09 17:23:42 公開日:2021-11-08
# GROWL: Link Predictionによるグループ検出

GROWL: Group Detection With Link Prediction ( http://arxiv.org/abs/2111.04397v1 )

ライセンス: Link先を確認
Viktor Schmuck, Oya Celiktutan(参考訳) インタラクショングループ検出は、これまで個人の位置と方向情報に依存するボトムアップアプローチで対処されてきた。 これらのアプローチは主にペア親和性行列に基づいており、静的な第三者の視点に限られていた。 この問題は、対関係を超えたグラフニューラルネットワーク(gnn)に基づく包括的アプローチから大きな恩恵を受ける可能性がある。 提案手法であるGROup Detection With Link Prediction (GROWL) は,GNNに基づく手法の有効性を示す。 GROWLは、グラフ内の近傍に基づいて特徴埋め込みを生成して2つの個人間のリンクを予測し、多層パーセプトロン(MLP)のような浅い二項分類手法と結びついているかどうかを決定する。 本手法は,サードパーティのビューデータセットとロボセントリックデータセット(すなわち,エゴセントリックデータセット)の両方において,最先端のグループ検出アプローチに対してテストを行う。 さらに,RGBと深度データに基づくマルチモーダル手法を提案し,GROWLが入力として利用できる表現を計算する。 以上の結果から,GNNに基づくアプローチは,異なるカメラビュー,すなわち3人称視点と自我中心視点における精度を著しく向上させることができることがわかった。

Interaction group detection has been previously addressed with bottom-up approaches which relied on the position and orientation information of individuals. These approaches were primarily based on pairwise affinity matrices and were limited to static, third-person views. This problem can greatly benefit from a holistic approach based on Graph Neural Networks (GNNs) beyond pairwise relationships, due to the inherent spatial configuration that exists between individuals who form interaction groups. Our proposed method, GROup detection With Link prediction (GROWL), demonstrates the effectiveness of a GNN based approach. GROWL predicts the link between two individuals by generating a feature embedding based on their neighbourhood in the graph and determines whether they are connected with a shallow binary classification method such as Multi-layer Perceptrons (MLPs). We test our method against other state-of-the-art group detection approaches on both a third-person view dataset and a robocentric (i.e., egocentric) dataset. In addition, we propose a multimodal approach based on RGB and depth data to calculate a representation GROWL can utilise as input. Our results show that a GNN based approach can significantly improve accuracy across different camera views, i.e., third-person and egocentric views.
翻訳日:2021-11-09 17:12:44 公開日:2021-11-08
# 機械学習による炭酸塩気孔の3次元画像認識と鉱物量決定

Machine Learning Guided 3D Image Recognition for Carbonate Pore and Mineral Volumes Determination ( http://arxiv.org/abs/2111.04612v1 )

ライセンス: Link先を確認
Omar Alfarisi, Aikifa Raza, Hongtao Zhang, Djamel Ozzane, Mohamed Sassi and Tiejun Zhang(参考訳) 自動化画像処理アルゴリズムは、不均一な炭酸塩岩の形態を分類する品質、効率、一貫性を改善し、大量のデータや画像をシームレスに扱うことができる。 地質学者は、岩石画像、マイクロCT(Micro-Computed Tomography)、MRI(Magnetic Resonance Imaging)から岩石物性を決定する最適な方法の方向性を設定するのに困難に直面している。 成功した作品のほとんどは2d画像に焦点を当てた均質な岩石によるもので、3dにはあまり焦点を合わせず、数値シミュレーションを必要とする。 現在、画像分析手法は、画像処理、人工知能、および人工知能と組み合わせた画像処理の3つのアプローチに収束している。 本研究では,画像解像度最適化ガウスアルゴリズム(iroga)を用いた画像処理法と,ガウスランダムフォレスト(mldgrf)の機械学習による機械学習による高度な画像認識法を提案する。 IROGA法とMLDGRF法の校正のための参照3次元マイクロモデルを構築し,画像収集を行った。 これらのキャリブレーション手法の予測能力を評価するために, 天然不均質炭酸塩岩の3次元CTおよびMRI画像を用いた。 カルボネート岩のポロシティと岩石学を基準値として,それぞれ3つの業界標準法と2つの方法を用いて測定した。 特に、IROGAとMLDGRFは、トレーニングセットで96.2%、97.1%、ブラインドテストの検証で91.7%、94.4%の精度でポロシティ結果を生み出している。 X線粉末回折法と粒密度測定の2つの方法を用いて石灰岩とパイライトの基準値を測定した。 MLDGRFは97.7%の精度でリソロジー(石灰岩とパイライト)を生産している。

Automated image processing algorithms can improve the quality, efficiency, and consistency of classifying the morphology of heterogeneous carbonate rock and can deal with a massive amount of data and images seamlessly. Geoscientists face difficulties in setting the direction of the optimum method for determining petrophysical properties from rock images, Micro-Computed Tomography (uCT), or Magnetic Resonance Imaging (MRI). Most of the successful work is from the homogeneous rocks focusing on 2D images with less focus on 3D and requiring numerical simulation. Currently, image analysis methods converge to three approaches: image processing, artificial intelligence, and combined image processing with artificial intelligence. In this work, we propose two methods to determine the porosity from 3D uCT and MRI images: an image processing method with Image Resolution Optimized Gaussian Algorithm (IROGA); advanced image recognition method enabled by Machine Learning Difference of Gaussian Random Forest (MLDGRF). We have built reference 3D micro models and collected images for calibration of IROGA and MLDGRF methods. To evaluate the predictive capability of these calibrated approaches, we ran them on 3D uCT and MRI images of natural heterogeneous carbonate rock. We measured the porosity and lithology of the carbonate rock using three and two industry-standard ways, respectively, as reference values. Notably, IROGA and MLDGRF have produced porosity results with an accuracy of 96.2% and 97.1% on the training set and 91.7% and 94.4% on blind test validation, respectively, in comparison with the three experimental measurements. We measured limestone and pyrite reference values using two methods, X-ray powder diffraction, and grain density measurements. MLDGRF has produced lithology (limestone and Pyrite) volumes with 97.7% accuracy.
翻訳日:2021-11-09 17:12:07 公開日:2021-11-08
# ビデオフルオロスコピックドローイング研究における咽頭位相自動検出と骨の局在:石で2羽の鳥を殺すか?

Automated pharyngeal phase detection and bolus localization in videofluoroscopic swallowing study: Killing two birds with one stone? ( http://arxiv.org/abs/2111.04699v1 )

ライセンス: Link先を確認
Andrea Bandini, Sana Smaoui, Catriona M. Steele(参考訳) ビデオフルオロスコピックドローイング研究(VFSS)は、ドローイングを評価するための金標準イメージング技術であるが、VFSS記録の分析と評価には時間がかかり、専門的な訓練と専門知識が必要である。 研究者らは、吸入の咽頭相を自動的に検出し、コンピュータビジョンアプローチによるVFSS記録のボーラスを局在させることで、自動VFSS分析のための新しい技術の開発を促進することができることを示した。 しかし、これらのタスクを実行するアルゴリズムのトレーニングには、ほとんど利用できない大量の注釈付きデータが必要である。 咽頭位相検出と骨の局在化の課題は, 一つのアプローチで同時に解決できることを実証した。 本稿では, 咽頭位相検出と骨の局所化を弱教師付きで共同で行う深層学習フレームワークを提案し, 訓練の真理アノテーションとして咽頭位相の初期および最終フレームのみを必要とする。 我々のアプローチは、咽頭に骨が存在することが最も顕著な視覚的特徴であり、個々のVFSSフレームが咽頭相に属しているかどうかを推測することに由来する。 健常者59名の1245vfssクリップのデータセット上で,複数の畳み込みニューラルネットワーク(cnns)を用いた広範囲な実験を行った。 咽頭相はf1-scoreが0.9以上の値で検出できることを示した。 さらに,CNNのクラスアクティベーションマップを処理することにより,トレーニング目的に使用するボーラス位置のマニュアルアノテーションを使わずに,有望な結果でボラスをローカライズし,0.9以上の真理軌道との相関関係を得ることができた。 摂食障害患者のより大きなサンプルで検証を行えば,VFSS分析のためのインテリジェントなツールを開発するための枠組みが整備され,臨床医の摂食評価を支援する。

The videofluoroscopic swallowing study (VFSS) is a gold-standard imaging technique for assessing swallowing, but analysis and rating of VFSS recordings is time consuming and requires specialized training and expertise. Researchers have demonstrated that it is possible to automatically detect the pharyngeal phase of swallowing and to localize the bolus in VFSS recordings via computer vision approaches, fostering the development of novel techniques for automatic VFSS analysis. However, training of algorithms to perform these tasks requires large amounts of annotated data that are seldom available. We demonstrate that the challenges of pharyngeal phase detection and bolus localization can be solved together using a single approach. We propose a deep-learning framework that jointly tackles pharyngeal phase detection and bolus localization in a weakly-supervised manner, requiring only the initial and final frames of the pharyngeal phase as ground truth annotations for the training. Our approach stems from the observation that bolus presence in the pharynx is the most prominent visual feature upon which to infer whether individual VFSS frames belong to the pharyngeal phase. We conducted extensive experiments with multiple convolutional neural networks (CNNs) on a dataset of 1245 VFSS clips from 59 healthy subjects. We demonstrated that the pharyngeal phase can be detected with an F1-score higher than 0.9. Moreover, by processing the class activation maps of the CNNs, we were able to localize the bolus with promising results, obtaining correlations with ground truth trajectories higher than 0.9, without any manual annotations of bolus location used for training purposes. Once validated on a larger sample of participants with swallowing disorders, our framework will pave the way for the development of intelligent tools for VFSS analysis to support clinicians in swallowing assessment.
翻訳日:2021-11-09 17:11:37 公開日:2021-11-08
# ノーマ型可視光通信のためのインテリジェント反射面

Intelligent Reflecting Surfaces for Enhanced NOMA-based Visible Light Communications ( http://arxiv.org/abs/2111.04646v1 )

ライセンス: Link先を確認
Hanaa Abumarshoud, Bassant Selim, Mallik Tatipamula, Harald Haas(参考訳) 新興のインテリジェント反射面(IRS)技術は、可視光通信(VLC)システムにおける制御された光伝搬の可能性をもたらす。 この概念は、特定の重要なパフォーマンス指標を達成するためにチャネル自体を変更することができる新しいアプリケーションへの扉を開く。 本稿では,非直交多重アクセス(noma)を用いたvlcシステムのリンク信頼性向上にirssが果たす役割について,公開文献で初めて考察する。 本稿ではnomaパラメータとirsパラメータの同時最適化のためのフレームワークを提案し,リンク信頼性の大幅な向上を示す。 VLCチャネルがブロックされ、ランダムなデバイス配向を受けると、その拡張はさらに顕著になる。

The emerging intelligent reflecting surface (IRS) technology introduces the potential of controlled light propagation in visible light communication (VLC) systems. This concept opens the door for new applications in which the channel itself can be altered to achieve specific key performance indicators. In this paper, for the first time in the open literature, we investigate the role that IRSs can play in enhancing the link reliability in VLC systems employing non-orthogonal multiple access (NOMA). We propose a framework for the joint optimisation of the NOMA and IRS parameters and show that it provides significant enhancements in link reliability. The enhancement is even more pronounced when the VLC channel is subject to blockage and random device orientation.
翻訳日:2021-11-09 17:10:51 公開日:2021-11-08
# (参考訳) 事前訓練された顔認識の学習表現に関する情報理論的バイアス評価 [全文訳有]

Information-Theoreti c Bias Assessment Of Learned Representations Of Pretrained Face Recognition ( http://arxiv.org/abs/2111.04673v1 )

ライセンス: CC BY 4.0
Jiazhi Li, Wael Abd-Almageed(参考訳) 近年、顔認識の利用における平等な問題が注目を集めている中、マイノリティに対する公平性を改善するために、偏りのないディープラーニングモデルへの取り組みが増えている。 しかし, バイアスアセスメント指標に対する明確な定義や十分な分析はいまだに存在しない。 本研究では,事前学習された顔認識システムの学習表現から保護された属性に対するバイアスの程度を識別するための情報理論的独立バイアス評価指標を提案する。 本尺度は, 分類精度に依存する他の手法と異なり, 浅層ネットワークを用いて予測される保護属性のラベルと基底真理との差異を検討する。 また,ロジッツレベルの損失は,ニューラルネットワークに基づく予測者が常に相関関係を見出すため,バイアスを説明するには不十分である,理論的および実験的に論じる。 さらに,特定のコホートにおけるサンプル不足の問題を緩和する合成データセットを提案する。 最後に, 他の指標と比較し, 明瞭な識別と小さな変動の利点を提示し, 異なる偏差モデルの性能を提案手法で評価することで, ベンチマーク指標を確立する。

As equality issues in the use of face recognition have garnered a lot of attention lately, greater efforts have been made to debiased deep learning models to improve fairness to minorities. However, there is still no clear definition nor sufficient analysis for bias assessment metrics. We propose an information-theoreti c, independent bias assessment metric to identify degree of bias against protected demographic attributes from learned representations of pretrained facial recognition systems. Our metric differs from other methods that rely on classification accuracy or examine the differences between ground truth and predicted labels of protected attributes predicted using a shallow network. Also, we argue, theoretically and experimentally, that logits-level loss is not adequate to explain bias since predictors based on neural networks will always find correlations. Further, we present a synthetic dataset that mitigates the issue of insufficient samples in certain cohorts. Lastly, we establish a benchmark metric by presenting advantages in clear discrimination and small variation comparing with other metrics, and evaluate the performance of different debiased models with the proposed metric.
翻訳日:2021-11-09 17:05:29 公開日:2021-11-08
# 雑音ラベルを用いたロバスト学習のための学習

Learning to Rectify for Robust Learning with Noisy Labels ( http://arxiv.org/abs/2111.04239v1 )

ライセンス: Link先を確認
Haoliang Sun, Chenhui Guo, Qi Wei, Zhongyi Han, Yilong Yin(参考訳) ラベルノイズは、アプリケーションにおける深層モデルの一般化能力を大幅に低下させる。 効果的な戦略とアプローチである \textit{e.} 再重み付け(lost correction)は、ニューラルネットワークのトレーニングにおけるラベルノイズの負の影響を軽減するように設計されている。 既存の作品は通常、事前定義されたアーキテクチャに依存し、追加のハイパーパラメータを手動でチューニングする。 本稿では,メタ学習シナリオにおける分類ネットワークの学習手順を適応的に修正するために,warpi(warped probabilistic inference)を提案する。 決定論的モデルとは対照的に、WarPIはアモータイズメタネットワークを学習することで階層的確率モデルとして定式化され、サンプルのあいまいさを解消し、真剣なラベルノイズに対してより堅牢になる。 損失から重み値を直接生成する既存の近似重み関数とは異なり、我々のメタネットワークは、ロジットやラベルの入力から整流ベクトルを推定することで学習される。 これは分類ネットワークの学習手順を正す効果的な方法を提供し、一般化能力の大幅な向上を示す。 さらに、整流ベクトルを潜在変数としてモデル化し、メタネットワークを学習することで、分類ネットワークのSGD最適化にシームレスに統合することができる。 雑音ラベルによる頑健な学習の4つのベンチマークでWarPIを評価し, 異種雑音下での新たな最先端の学習を実現する。 大規模な研究と分析も,本モデルの有効性を実証している。

Label noise significantly degrades the generalization ability of deep models in applications. Effective strategies and approaches, \textit{e.g.} re-weighting, or loss correction, are designed to alleviate the negative impact of label noise when training a neural network. Those existing works usually rely on the pre-specified architecture and manually tuning the additional hyper-parameters. In this paper, we propose warped probabilistic inference (WarPI) to achieve adaptively rectifying the training procedure for the classification network within the meta-learning scenario. In contrast to the deterministic models, WarPI is formulated as a hierarchical probabilistic model by learning an amortization meta-network, which can resolve sample ambiguity and be therefore more robust to serious label noise. Unlike the existing approximated weighting function of directly generating weight values from losses, our meta-network is learned to estimate a rectifying vector from the input of the logits and labels, which has the capability of leveraging sufficient information lying in them. This provides an effective way to rectify the learning procedure for the classification network, demonstrating a significant improvement of the generalization ability. Besides, modeling the rectifying vector as a latent variable and learning the meta-network can be seamlessly integrated into the SGD optimization of the classification network. We evaluate WarPI on four benchmarks of robust learning with noisy labels and achieve the new state-of-the-art under variant noise types. Extensive study and analysis also demonstrate the effectiveness of our model.
翻訳日:2021-11-09 16:46:54 公開日:2021-11-08
# 知的交通システムの信頼感制御

Trust-aware Control for Intelligent Transportation Systems ( http://arxiv.org/abs/2111.04248v1 )

ライセンス: Link先を確認
Mingxi Cheng, Junyao Zhang, Shahin Nazarian, Jyotirmoy Deshmukh, Paul Bogdan(参考訳) 多くのインテリジェント交通システムはマルチエージェントシステムであり、交通機関内の交通参加者とサブシステムの両方を相互作用エージェントとしてモデル化することができる。 異なるエージェントシステム間の協調を実現するためにAIベースの手法を使用することで、人間の操作する車両のみを含む輸送システムよりも安全性が向上し、また、交通スループット、感知範囲、協調作業の実現の観点からシステムの効率が向上する。 しかし、自律性の向上により、交通インフラは侵入された車両のエージェントやインフラに脆弱になる。 本稿では,エージェントの信頼度を,主観論理として知られる認識論理を用いて体系的に定量化するために,信頼権限を交通インフラに組み込むことにより,新たな枠組みを提案する。 本稿では,次のような新しい貢献をする。 (i)信頼認識協調制御を実現するために,エージェントの信頼度を定量化する枠組みを提案する。 (ii)強化学習に基づくアプローチを用いて信頼認識制御を合成する方法を実証する。 3) 自律的交差点管理(AIM)のケーススタディを包括的に分析し, 信頼と信頼できないエージェントの混在したシナリオにおいて, 事故率を低下させるAIM-Trustと呼ばれる信頼を意識したバージョンを開発する。

Many intelligent transportation systems are multi-agent systems, i.e., both the traffic participants and the subsystems within the transportation infrastructure can be modeled as interacting agents. The use of AI-based methods to achieve coordination among the different agents systems can provide greater safety over transportation systems containing only human-operated vehicles, and also improve the system efficiency in terms of traffic throughput, sensing range, and enabling collaborative tasks. However, increased autonomy makes the transportation infrastructure vulnerable to compromised vehicular agents or infrastructure. This paper proposes a new framework by embedding the trust authority into transportation infrastructure to systematically quantify the trustworthiness of agents using an epistemic logic known as subjective logic. In this paper, we make the following novel contributions: (i) We propose a framework for using the quantified trustworthiness of agents to enable trust-aware coordination and control. (ii) We demonstrate how to synthesize trust-aware controllers using an approach based on reinforcement learning. (iii) We comprehensively analyze an autonomous intersection management (AIM) case study and develop a trust-aware version called AIM-Trust that leads to lower accident rates in scenarios consisting of a mixture of trusted and untrusted agents.
翻訳日:2021-11-09 16:43:06 公開日:2021-11-08
# (参考訳) 回帰モデルと分類モデルを説明するための一貫性十分記述と最小局所規則 [全文訳有]

Consistent Sufficient Explanations and Minimal Local Rules for explaining regression and classification models ( http://arxiv.org/abs/2111.04658v1 )

ライセンス: CC BY 4.0
Salim I. Amoukou and Nicolas J.B Brunel(参考訳) モデルの決定を説明するため、確率的十分説明(P-SE)の概念を拡張した。 それぞれのインスタンスに対して、このアプローチは、同じ予測を高い確率で得るのに十分な機能の最小サブセットを選択し、他の機能を削除する。 P-SEの要点は、同じ予測を維持する条件確率を計算することである。 したがって、任意のデータ$(\boldsymbol{X}, Y)$に対してランダムフォレストを通してこの確率を正確に高速に推定し、その一貫性の理論的解析を通じてその効率を示す。 その結果、p-se を回帰問題へと拡張する。 さらに、$X$の分布を学習せず、予測を行うモデルも持たずに、非バイナリ機能に対処する。 最後に、P-SEに基づく回帰/分類のための局所ルールに基づく説明を導入し、他の説明可能なAI手法と比較する。 これらのメソッドは Python パッケージとして \url{www.github.com/salim amoukou/acv00} で公開されている。

To explain the decision of any model, we extend the notion of probabilistic Sufficient Explanations (P-SE). For each instance, this approach selects the minimal subset of features that is sufficient to yield the same prediction with high probability, while removing other features. The crux of P-SE is to compute the conditional probability of maintaining the same prediction. Therefore, we introduce an accurate and fast estimator of this probability via random Forests for any data $(\boldsymbol{X}, Y)$ and show its efficiency through a theoretical analysis of its consistency. As a consequence, we extend the P-SE to regression problems. In addition, we deal with non-binary features, without learning the distribution of $X$ nor having the model for making predictions. Finally, we introduce local rule-based explanations for regression/classific ation based on the P-SE and compare our approaches w.r.t other explainable AI methods. These methods are publicly available as a Python package at \url{www.github.com/salim amoukou/acv00}.
翻訳日:2021-11-09 16:35:48 公開日:2021-11-08
# スパース点雲用3次元Voxel-to-BEVトラッカー

3D Siamese Voxel-to-BEV Tracker for Sparse Point Clouds ( http://arxiv.org/abs/2111.04426v1 )

ライセンス: Link先を確認
Le Hui, Lingpeng Wang, Mingmei Cheng, Jin Xie, Jian Yang(参考訳) ポイントクラウドにおける3Dオブジェクトのトラッキングは、動的環境におけるLiDARポイントの分散のため、依然として難しい問題である。 本研究では,sparse 3d ポイントクラウドにおけるトラッキング性能を著しく向上できる siamese voxel-to-bev トラッカを提案する。 具体的には、シームズ形状認識型特徴学習ネットワークと、voxel-to-BEVターゲットローカライゼーションネットワークで構成される。 siamese shape-aware feature learning networkは、オブジェクトの3d形状情報をキャプチャして、オブジェクトの識別特徴を学習し、スパースポイント雲の背景から潜在的なターゲットを識別することができる。 この目的を達成するために,まずテンプレートの特徴をターゲットに埋め込むテンプレート機能組込みを行い,その後に密度の高い3d形状を生成し,対象の形状情報を特徴付ける。 追跡対象のローカライズのために、voxel-to-BEVターゲットローカライゼーションネットワークは、密集した鳥眼ビュー(BEV)特徴マップからターゲットの2D中心と$z$軸中心をアンカーフリーで回帰する。 具体的には, 2D 中心と $z$-軸中心の回帰をより効果的に行うことのできる高密度 BEV 特徴写像を得るために, 最大プーリングにより, ボキセル化点雲を$z$-軸に沿って圧縮する。 KITTI および nuScenes データセットの大規模評価により,本手法は最先端の手法よりも大きなマージンで優れていた。

3D object tracking in point clouds is still a challenging problem due to the sparsity of LiDAR points in dynamic environments. In this work, we propose a Siamese voxel-to-BEV tracker, which can significantly improve the tracking performance in sparse 3D point clouds. Specifically, it consists of a Siamese shape-aware feature learning network and a voxel-to-BEV target localization network. The Siamese shape-aware feature learning network can capture 3D shape information of the object to learn the discriminative features of the object so that the potential target from the background in sparse point clouds can be identified. To this end, we first perform template feature embedding to embed the template's feature into the potential target and then generate a dense 3D shape to characterize the shape information of the potential target. For localizing the tracked target, the voxel-to-BEV target localization network regresses the target's 2D center and the $z$-axis center from the dense bird's eye view (BEV) feature map in an anchor-free manner. Concretely, we compress the voxelized point cloud along $z$-axis through max pooling to obtain a dense BEV feature map, where the regression of the 2D center and the $z$-axis center can be performed more effectively. Extensive evaluation on the KITTI and nuScenes datasets shows that our method significantly outperforms the current state-of-the-art methods by a large margin.
翻訳日:2021-11-09 16:03:09 公開日:2021-11-08
# StyleGANのテンソルベース部分空間分解

Tensor-based Subspace Factorization for StyleGAN ( http://arxiv.org/abs/2111.04554v1 )

ライセンス: Link先を確認
Ren\'e Haas, Stella Gra{\ss}hof and Sami Sebastian Brandt(参考訳) 本稿では,生成モデルの潜在空間をモデル化するためのテンソルベース手法である$\tau$ganを提案する。 目的は潜在空間における意味的方向を特定することである。 そこで本研究では,まず潜在空間に埋め込まれた構造化表情データベースに多線形テンソルモデルを適用することを提案する。 構造的表情データベースとしてBU-3DFEを用いてFFHQで訓練したStyleGANに対するアプローチを検証する。 本稿では,多重線形テンソルモデルのパラメータを最小二乗交互に近似する方法を示す。 さらに,スタイル固有モデルのアンサンブルとして定義されるタック付きスタイル分離テンソルモデルを導入し,このアプローチをスタイルガンの拡張潜在空間と統合する。 拡張潜在空間の個々のスタイルを考慮に入れると,モデルの柔軟性が向上し,復元誤差が低下することが示された。 最後に,gansモデルとマルチリニアモデルの両方について,従来の手法と比較した実験を行った。 具体的には,表現部分空間を解析し,表現軌跡が先行処理と整合した無情な面に一致していることを見出す。 また,人間の姿勢を変えることで,我々のアプローチから生成したイメージは,競合する2つのアプローチの結果よりも基礎的な真実に近いことも示します。

In this paper, we propose $\tau$GAN a tensor-based method for modeling the latent space of generative models. The objective is to identify semantic directions in latent space. To this end, we propose to fit a multilinear tensor model on a structured facial expression database, which is initially embedded into latent space. We validate our approach on StyleGAN trained on FFHQ using BU-3DFE as a structured facial expression database. We show how the parameters of the multilinear tensor model can be approximated by Alternating Least Squares. Further, we introduce a tacked style-separated tensor model, defined as an ensemble of style-specific models to integrate our approach with the extended latent space of StyleGAN. We show that taking the individual styles of the extended latent space into account leads to higher model flexibility and lower reconstruction error. Finally, we do several experiments comparing our approach to former work on both GANs and multilinear models. Concretely, we analyze the expression subspace and find that the expression trajectories meet at an apathetic face that is consistent with earlier work. We also show that by changing the pose of a person, the generated image from our approach is closer to the ground truth than results from two competing approaches.
翻訳日:2021-11-09 16:02:39 公開日:2021-11-08
# 自由群のアナグラム的商

Anagrammatic quotients of free groups ( http://arxiv.org/abs/2111.04517v1 )

ライセンス: Link先を確認
Eric Stubley(参考訳) 英語のアナグラムを用いて26個のジェネレータ上の自由群の商の構造を決定する。 このグループは2対の発電機の可能な325個の交換器のうち301個が自由群の商として驚くほど単純な表現をしており、24個の交換器は全てj、q、x、zの文字の少なくとも1つを含む。 本稿では,このグループを任意の辞書で決定できるアルゴリズムについて述べるとともに,SOWPODSスクラブル辞書から見つかった301個の通勤者を目撃する例を示す。

We determine the structure of the quotient of the free group on 26 generators by English language anagrams. This group admits a surprisingly simple presentation as a quotient of the free group by 301 of the possible 325 commutators of pairs of generators; all of the 24 missing commutators involve at least one of the letters j, q, x, z. We describe the algorithm which can be used to determine this group given any dictionary, and provide examples from the SOWPODS scrabble dictionary witnessing the 301 commutators found.
翻訳日:2021-11-09 16:02:20 公開日:2021-11-08
# (参考訳) 実世界データを用いた分布変化予測の不確かさとロバスト性の評価 [全文訳有]

Evaluating Predictive Uncertainty and Robustness to Distributional Shift Using Real World Data ( http://arxiv.org/abs/2111.04665v1 )

ライセンス: CC BY 4.0
Kumud Lakara, Akshat Bhandari, Pratinav Seth and Ujjwal Verma(参考訳) ほとんどの機械学習モデルは、トレーニング、テスト、デプロイメントデータが独立しており、同じ分散(d.d.)であると仮定して動作する。 この仮定は一般に自然の環境では当てはまらない。 通常、デプロイメントデータは様々なタイプの分散シフトの対象となる。 モデルの性能の大きさは、データセットの分布の変化に比例する。 したがって、実際のデータ上で期待される性能を現実的に推定するために、分布シフトに対するモデルの不確実性と堅牢性を評価する必要がある。 現在、不確実性とモデルの堅牢性を評価する方法は欠如しており、しばしば全体像を描き出せない。 さらに、これまでの分析は主に分類タスクに焦点が当てられている。 本稿では、Shifts Weather Prediction Datasetを用いて、一般的な回帰タスクに対するより洞察力の高いメトリクスを提案する。 また,これらのメトリクスを用いたベースライン手法の評価を行った。

Most machine learning models operate under the assumption that the training, testing and deployment data is independent and identically distributed (i.i.d.). This assumption doesn't generally hold true in a natural setting. Usually, the deployment data is subject to various types of distributional shifts. The magnitude of a model's performance is proportional to this shift in the distribution of the dataset. Thus it becomes necessary to evaluate a model's uncertainty and robustness to distributional shifts to get a realistic estimate of its expected performance on real-world data. Present methods to evaluate uncertainty and model's robustness are lacking and often fail to paint the full picture. Moreover, most analysis so far has primarily focused on classification tasks. In this paper, we propose more insightful metrics for general regression tasks using the Shifts Weather Prediction Dataset. We also present an evaluation of the baseline methods using these metrics.
翻訳日:2021-11-09 16:00:34 公開日:2021-11-08
# 生成的動的パッチ攻撃

Generative Dynamic Patch Attack ( http://arxiv.org/abs/2111.04266v1 )

ライセンス: Link先を確認
Xiang Li, Shihao Ji(参考訳) 敵対的パッチ攻撃(adversarial patch attack)は、画像の一部を乱してディープニューラルネットワークモデルを騙す一連の攻撃アルゴリズムである。 既存のパッチ攻撃は、主に、入力に依存しない場所(予め定義された場所またはランダムな場所)に敵のパッチを注入することを検討する。 この攻撃設定は攻撃に十分であるが、敵の訓練に使用する場合、かなりの制限がある。 したがって、既存のパッチ攻撃で訓練された堅牢なモデルは、他の敵攻撃を効果的に防御することはできない。 本稿では、まず、各入力画像に対してパッチパターンとパッチ位置の両方を逆向きに生成するエンドツーエンドのパッチ攻撃アルゴリズム、Generative Dynamic Patch Attack (GDPA)を提案する。 GDPAは動的・静的・可視・可視のパッチを生成する汎用的なアタックフレームワークであり、いくつかの設定変更がある。 第二に、GDPAは敵の訓練に容易に統合することができ、様々な敵の攻撃に対するモデル堅牢性を改善することができる。 VGGFace、Traffic Sign、ImageNetの大規模な実験では、GDPAは最先端のパッチアタックよりも高い攻撃成功率を達成する一方で、GDPAと敵対的に訓練されたモデルは、競合する方法よりも敵のパッチアタックに対して優れた堅牢性を示す。 ソースコードはhttps://github.com/l xuniverse/gdpaにあります。

Adversarial patch attack is a family of attack algorithms that perturb a part of image to fool a deep neural network model. Existing patch attacks mostly consider injecting adversarial patches at input-agnostic locations: either a predefined location or a random location. This attack setup may be sufficient for attack but has considerable limitations when using it for adversarial training. Thus, robust models trained with existing patch attacks cannot effectively defend other adversarial attacks. In this paper, we first propose an end-to-end patch attack algorithm, Generative Dynamic Patch Attack (GDPA), which generates both patch pattern and patch location adversarially for each input image. We show that GDPA is a generic attack framework that can produce dynamic/static and visible/invisible patches with a few configuration changes. Secondly, GDPA can be readily integrated for adversarial training to improve model robustness to various adversarial attacks. Extensive experiments on VGGFace, Traffic Sign and ImageNet show that GDPA achieves higher attack success rates than state-of-the-art patch attacks, while adversarially trained model with GDPA demonstrates superior robustness to adversarial patch attacks than competing methods. Our source code can be found at https://github.com/l xuniverse/gdpa.
翻訳日:2021-11-09 15:50:56 公開日:2021-11-08
# 自己教師付き単眼深度推定のための残留誘導学習表現

Residual-Guided Learning Representation for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2111.04310v1 )

ライセンス: Link先を確認
Byeongjun Park, Taekyung Kim, Hyojun Go, Changick Kim(参考訳) 測光一貫性損失は、自己教師付き単眼深度推定に一般的に用いられる主目的関数の1つである。 しかし、この損失は、しばしば不正確な誘導によって、テクスチャのない領域や目立たない領域で不安定な深さ予測を引き起こす。 近年の自己教師型学習手法では, 自動エンコーダから学習した特徴表現を利用して, 入力画像よりも識別性がよいことを期待している。 自動符号化機能の利用にもかかわらず,本手法は自動符号化機能ほど特徴を識別しない。 本稿では,自己符号化特徴の識別性を伝達することにより,深度推定ネットワークが識別特徴を埋め込むことのできる残留誘導損失を提案する。 本手法はkittiベンチマークを用いて実験を行い,他の最先端手法における精度と直交性を検証した。

Photometric consistency loss is one of the representative objective functions commonly used for self-supervised monocular depth estimation. However, this loss often causes unstable depth predictions in textureless or occluded regions due to incorrect guidance. Recent self-supervised learning approaches tackle this issue by utilizing feature representations explicitly learned from auto-encoders, expecting better discriminability than the input image. Despite the use of auto-encoded features, we observe that the method does not embed features as discriminative as auto-encoded features. In this paper, we propose residual guidance loss that enables the depth estimation network to embed the discriminative feature by transferring the discriminability of auto-encoded features. We conducted experiments on the KITTI benchmark and verified our method's superiority and orthogonality on other state-of-the-art methods.
翻訳日:2021-11-09 15:50:31 公開日:2021-11-08
# SEGA:Few-Shot Learningのためのビジュアルプロトタイプのセマンティックガイド

SEGA: Semantic Guided Attention on Visual Prototype for Few-Shot Learning ( http://arxiv.org/abs/2111.04316v1 )

ライセンス: Link先を確認
Fengyuan Yang, Ruiping Wang, Xilin Chen(参考訳) 少数のトレーニングサンプルに基づく新しいカテゴリの認識を機械に教えること、特に1つだけがデータ不足による新しいカテゴリの理解が理解できないことによる課題である。 しかし、視覚と意味の両方の事前知識に基づいて、どの分類的特徴に重点を置くべきかを人間が知ることができるため、人間はわずかなサンプルでも新しいクラスを素早く学ぶことができる。 これらの先行知識をより有効活用するために,セマンティクス・ガイド・アテンション(sega)機構を提案する。セマンティクス・ナレッションは,カテゴリーを他のカテゴリと区別する際に,視覚的な特徴が何に注意を払わなければならないかをトップダウン方式で視覚的な認識を導くために,セマンティクス・ナレッジ(semantic guided attention, sega)機構を提案する。 結果として、サンプルが少ない場合でも新しいクラスを組み込むことはより差別的である。 具体的には、各新規クラスのイメージを視覚プロトタイプに組み込むように特徴抽出器を訓練し、ベースクラスから視覚事前知識を転送する。 次に,意味的知識をカテゴリー固有の注意ベクトルにマッピングするネットワークを学習し,特徴選択を行い,視覚的プロトタイプを強化する。 miniImageNet, tieredImageNet, CIFAR-FS, CUB の広範な実験により,我々のセマンティックガイドによる注意が期待された機能を実現し, 最先端の成果を上回っていることが示された。

Teaching machines to recognize a new category based on few training samples especially only one remains challenging owing to the incomprehensive understanding of the novel category caused by the lack of data. However, human can learn new classes quickly even given few samples since human can tell what discriminative features should be focused on about each category based on both the visual and semantic prior knowledge. To better utilize those prior knowledge, we propose the SEmantic Guided Attention (SEGA) mechanism where the semantic knowledge is used to guide the visual perception in a top-down manner about what visual features should be paid attention to when distinguishing a category from the others. As a result, the embedding of the novel class even with few samples can be more discriminative. Concretely, a feature extractor is trained to embed few images of each novel class into a visual prototype with the help of transferring visual prior knowledge from base classes. Then we learn a network that maps semantic knowledge to category-specific attention vectors which will be used to perform feature selection to enhance the visual prototypes. Extensive experiments on miniImageNet, tieredImageNet, CIFAR-FS, and CUB indicate that our semantic guided attention realizes anticipated function and outperforms state-of-the-art results.
翻訳日:2021-11-09 15:50:17 公開日:2021-11-08
# 地域レベル戦略の活用によるプロトタイプ・ファウショット学習の促進

Enhancing Prototypical Few-Shot Learning by Leveraging the Local-Level Strategy ( http://arxiv.org/abs/2111.04331v1 )

ライセンス: Link先を確認
Junying Huang, Fan Chen, Keze Wang, Liang Lin, and Dongyu Zhang(参考訳) 参照サンプルが少ない新しいカテゴリからサンプルを認識することを目指して,FSL ( few-shot learning) は難しい問題である。 既存の作業は、局所的な特徴を全て混ぜることで、画像レベルの特徴に基づいて、しばしば少数ショットモデルを構築しており、それによって、局所的な詳細における識別的位置バイアスと情報損失につながることが判明した。 この問題に取り組むため,本稿では,局所的特徴に対する視点を返却し,一連の局所的戦略を提案する。 具体的には (a)ベースと新規なカテゴリの識別的位置偏りを避けるための局所的非依存なトレーニング戦略 (b)局所的特徴の正確な比較を捉えるための新しい局所的類似度尺度 (c)地域レベルの知識伝達は、異なる位置特徴に応じてベースカテゴリから異なる知識伝達を合成することができる。 広範な実験によって、提案するローカルレベルの戦略がパフォーマンスを大幅に向上させ、さまざまなベンチマークデータセットのベースラインに対して2.8%-7.2%の改善を達成できることを確認した。

Aiming at recognizing the samples from novel categories with few reference samples, few-shot learning (FSL) is a challenging problem. We found that the existing works often build their few-shot model based on the image-level feature by mixing all local-level features, which leads to the discriminative location bias and information loss in local details. To tackle the problem, this paper returns the perspective to the local-level feature and proposes a series of local-level strategies. Specifically, we present (a) a local-agnostic training strategy to avoid the discriminative location bias between the base and novel categories, (b) a novel local-level similarity measure to capture the accurate comparison between local-level features, and (c) a local-level knowledge transfer that can synthesize different knowledge transfers from the base category according to different location features. Extensive experiments justify that our proposed local-level strategies can significantly boost the performance and achieve 2.8%-7.2% improvements over the baseline across different benchmark datasets, which also achieves state-of-the-art accuracy.
翻訳日:2021-11-09 15:49:51 公開日:2021-11-08
# 仮面提示検出のための部分的攻撃予測と局所重み付き推論

Partial Attack Supervision and Regional Weighted Inference for Masked Face Presentation Attack Detection ( http://arxiv.org/abs/2111.04336v1 )

ライセンス: Link先を確認
Meiling Fang, Fadi Boutros, Arjan Kuijper, Naser Damer(参考訳) マスク着用は、sars-cov-2感染を防ぐ最も効果的な方法の1つだと証明されている。 しかし,マスクの着用は,異なる顔認識タスクに対する課題を提起し,マスク付き顔提示検出(PAD)の性能に関する懸念を提起する。 マスクフェイスPADに直面する主な問題は、不正に分類されたボナフェイドのマスクと、不正に分類された部分攻撃である。 本研究は,PADモデルトレーニングを監督する部分攻撃ラベルを検討する手法と,異なる顔領域に焦点を絞ることでPAD性能をさらに向上させる地域重み付け推論を提案することで,これらの課題に対処する。 提案手法は,特定のネットワークアーキテクチャに直接リンクせず,任意の共通ネットワークやカスタム設計ネットワークに直接組み込むことができる。 本研究では,2つのニューラルネットワーク(DeepPixBisとMixFaceNet)をバックボーンとして選択した。 実験は、コラボレーティブリアルマスク攻撃(CRMA)データベース上で実証されている。 提案手法は,マスク面に面した場合の問題点を低減し,CRMAデータベース上で確立されたPAD手法よりも優れていた。 さらに, 提案概念の個人的, 共同的利益をPAD全体の性能に与える影響について, ステップワイズ・アブレーションの詳細な研究を行った。

Wearing a mask has proven to be one of the most effective ways to prevent the transmission of SARS-CoV-2 coronavirus. However, wearing a mask poses challenges for different face recognition tasks and raises concerns about the performance of masked face presentation detection (PAD). The main issues facing the mask face PAD are the wrongly classified bona fide masked faces and the wrongly classified partial attacks (covered by real masks). This work addresses these issues by proposing a method that considers partial attack labels to supervise the PAD model training, as well as regional weighted inference to further improve the PAD performance by varying the focus on different facial areas. Our proposed method is not directly linked to specific network architecture and thus can be directly incorporated into any common or custom-designed network. In our work, two neural networks (DeepPixBis and MixFaceNet) are selected as backbones. The experiments are demonstrated on the collaborative real mask attack (CRMA) database. Our proposed method outperforms established PAD methods in the CRMA database by reducing the mentioned shortcomings when facing masked faces. Moreover, we present a detailed step-wise ablation study pointing out the individual and joint benefits of the proposed concepts on the overall PAD performance.
翻訳日:2021-11-09 15:49:32 公開日:2021-11-08
# 画像集合認識のためのグラスマン学習相互部分空間法

Grassmannian learning mutual subspace method for image set recognition ( http://arxiv.org/abs/2111.04352v1 )

ライセンス: Link先を確認
Lincon S. Souza, Naoya Sogi, Bernardo B. Gatto, Takumi Kobayashi and Kazuhiro Fukui(参考訳) 本稿では,画像の集合を入力とするオブジェクト認識の問題に対処する(例えば,複数のカメラソースとビデオフレーム)。 畳み込みニューラルネットワーク(CNN)ベースのフレームワークは、これらのセットを効果的に利用せず、観測されたパターンを処理し、セット内の画像のばらつきを考慮していないため、基盤となる特徴分布をキャプチャしない。 そこで本研究では,cnn上に埋め込まれたnn層であるグラスマン学習相互部分空間法(g-lmsm)を分類器として提案する。 画像集合は低次元の入力部分空間で表現され、この入力部分空間は標準角度の類似性によって参照部分空間と一致し、解釈可能で計算が容易である。 G-LMSMの鍵となる考え方は、参照部分空間がリーマン確率勾配勾配で最適化されたグラスマン多様体上の点として学習されることである。 この学習は安定し、効率的で、理論上はしっかりしている。 提案手法は,手形認識,顔の識別,顔の感情認識における有効性を示す。

This paper addresses the problem of object recognition given a set of images as input (e.g., multiple camera sources and video frames). Convolutional neural network (CNN)-based frameworks do not exploit these sets effectively, processing a pattern as observed, not capturing the underlying feature distribution as it does not consider the variance of images in the set. To address this issue, we propose the Grassmannian learning mutual subspace method (G-LMSM), a NN layer embedded on top of CNNs as a classifier, that can process image sets more effectively and can be trained in an end-to-end manner. The image set is represented by a low-dimensional input subspace; and this input subspace is matched with reference subspaces by a similarity of their canonical angles, an interpretable and easy to compute metric. The key idea of G-LMSM is that the reference subspaces are learned as points on the Grassmann manifold, optimized with Riemannian stochastic gradient descent. This learning is stable, efficient and theoretically well-grounded. We demonstrate the effectiveness of our proposed method on hand shape recognition, face identification, and facial emotion recognition.
翻訳日:2021-11-09 15:49:11 公開日:2021-11-08
# (参考訳) インフルエンシャルな例を見つけるための再考手法 [全文訳有]

Revisiting Methods for Finding Influential Examples ( http://arxiv.org/abs/2111.04683v1 )

ライセンス: CC BY 4.0
Karthikeyan K, Anders S{\o}gaard(参考訳) 最近、インフルエンス関数、TraceIn、Representer Point Selection、Grad-Dot、Grad-Cosなど、テスト時間決定に影響を及ぼすトレーニング例を見つけるためのインスタンスベースの説明可能性メソッドが提案されている。 通常、これらの手法はLOOの影響(クック距離)を金の標準として評価するか、あるいは様々なヒューリスティックを用いて評価される。 本稿では,これらすべての手法が不安定であることを示す。すなわち,初期化やトレーニングデータの順序付け,バッチサイズに非常に敏感である。 これは、文献における例の影響がモデル状態や他の例とは無関係であると仮定した自然な結果であり、そうではないと論じている。 その結果,LOOの影響とヒューリスティックス(ヒューリスティックス,ヒューリスティックス,ヒューリスティックス)は,インスタンスベースの説明の質を測る指標が乏しいことを示し,毒素攻撃を検出する能力によってその説明を評価することを提案する。 さらに,上述の手法をすべて改善し,下流タスクの大幅な改善を実現するための,シンプルで効果的なベースラインも提供する。

Several instance-based explainability methods for finding influential training examples for test-time decisions have been proposed recently, including Influence Functions, TraceIn, Representer Point Selection, Grad-Dot, and Grad-Cos. Typically these methods are evaluated using LOO influence (Cook's distance) as a gold standard, or using various heuristics. In this paper, we show that all of the above methods are unstable, i.e., extremely sensitive to initialization, ordering of the training data, and batch size. We suggest that this is a natural consequence of how in the literature, the influence of examples is assumed to be independent of model state and other examples -- and argue it is not. We show that LOO influence and heuristics are, as a result, poor metrics to measure the quality of instance-based explanations, and instead propose to evaluate such explanations by their ability to detect poisoning attacks. Further, we provide a simple, yet effective baseline to improve all of the above methods and show how it leads to very significant improvements on downstream tasks.
翻訳日:2021-11-09 15:47:49 公開日:2021-11-08
# 最善の公平な介入を

Identifying Best Fair Intervention ( http://arxiv.org/abs/2111.04272v1 )

ライセンス: Link先を確認
Ruijiang Gao, Han Feng(参考訳) 与えられた因果モデルにおいて,公平性制約を伴う最良腕識別の問題について検討する。 目的は、因果モデルの部分的知識のみを用いて、対実推定による公正性制約を満たしながら、結果の最大化のために、与えられたノードにソフトな介入を見つけることである。 問題は、オンライン市場における公平性を確保することにある。 誤差の確率を理論的に保証し、2段階のベースラインでアルゴリズムの有効性を実証的に検証する。

We study the problem of best arm identification with a fairness constraint in a given causal model. The goal is to find a soft intervention on a given node to maximize the outcome while meeting a fairness constraint by counterfactual estimation with only partial knowledge of the causal model. The problem is motivated by ensuring fairness on an online marketplace. We provide theoretical guarantees on the probability of error and empirically examine the effectiveness of our algorithm with a two-stage baseline.
翻訳日:2021-11-09 15:34:53 公開日:2021-11-08
# 欲深いオラクルをもつ組合せ半バンドのためのトンプソンサンプリングの硬さ解析

The Hardness Analysis of Thompson Sampling for Combinatorial Semi-bandits with Greedy Oracle ( http://arxiv.org/abs/2111.04295v1 )

ライセンス: Link先を確認
Fang Kong, Yueran Yang, Wei Chen, Shuai Li(参考訳) トンプソンサンプリング (ts) は、バンディット分野で多くの関心を集めている。 1930年代に導入されたが、理論上は近年まで証明されていない。 コンビネーショナル・マルチアームド・バンディット(cmab)の設定における解析はすべて、任意の入力に対して最適なソリューションを提供するための正確なオラクルが必要である。 しかし、多くの組合せ最適化問題はNPハードであり、近似オラクルのみが利用できるため、そのようなオラクルは通常実現不可能である。 例(Wang and Chen, 2018)では、近似オラクルでTSが学習できないことが示されている。 しかし、このオラクルは一般的ではなく、特定の問題インスタンスのためにのみ設計されている。 TS の収束解析が CMAB の正確なオラクルを超えて拡張できるかどうかはまだ明らかな問題である。 本稿では,多くの(オフライン)組合せ最適化問題の解法を理論的に保証する共通(近似)オラクルであるgreedy oracleの下で,この問題を考察する。 問題依存的後悔の少ない位数$\Omega(\log T/\Delta^2)$ を提供して TS の硬さを定量化し、greedy oracle を用いて CMAB 問題を解く。 私たちはまた、ほぼ一致する後悔の上限も提供します。 これらは TS が CMAB を共通の近似オラクルで解く最初の理論的結果であり、TS が近似オラクルでは働けないという誤解を破るものである。

Thompson sampling (TS) has attracted a lot of interest in the bandit area. It was introduced in the 1930s but has not been theoretically proven until recent years. All of its analysis in the combinatorial multi-armed bandit (CMAB) setting requires an exact oracle to provide optimal solutions with any input. However, such an oracle is usually not feasible since many combinatorial optimization problems are NP-hard and only approximation oracles are available. An example (Wang and Chen, 2018) has shown the failure of TS to learn with an approximation oracle. However, this oracle is uncommon and is designed only for a specific problem instance. It is still an open question whether the convergence analysis of TS can be extended beyond the exact oracle in CMAB. In this paper, we study this question under the greedy oracle, which is a common (approximation) oracle with theoretical guarantees to solve many (offline) combinatorial optimization problems. We provide a problem-dependent regret lower bound of order $\Omega(\log T/\Delta^2)$ to quantify the hardness of TS to solve CMAB problems with greedy oracle, where $T$ is the time horizon and $\Delta$ is some reward gap. We also provide an almost matching regret upper bound. These are the first theoretical results for TS to solve CMAB with a common approximation oracle and break the misconception that TS cannot work with approximation oracles.
翻訳日:2021-11-09 15:34:47 公開日:2021-11-08
# 整数最適化による非負テンソル補完

Nonnegative Tensor Completion via Integer Optimization ( http://arxiv.org/abs/2111.04580v1 )

ライセンス: Link先を確認
Caleb Bugg, Chen Chen, Anil Aswani(参考訳) 行列補完とは異なり、情報理論的なサンプル複雑性率を達成するためのテンソル補完問題のためのアルゴリズムはこれまでに示されていない。 本稿では,非負のテンソルに対する特殊ケース完備化のための新しいアルゴリズムを開発する。 我々は,本アルゴリズムが情報理論速度を達成しつつ,線形(数値耐性)なオラクルステップ数に収束することを証明する。 我々のアプローチは、構成する特定の 0-1 ポリトープのゲージを用いて、非負のテンソルに対する新しいノルムを定義することである。 ノルムは 0-1 のポリトープを用いて定義されるので、整数線形計画法を用いてポリトープ上の線型分離問題を解くことができる。 この知見をFrank-Wolfeアルゴリズムの変種と組み合わせて数値アルゴリズムを構築し,実験によりその有効性と拡張性を実証する。

Unlike matrix completion, no algorithm for the tensor completion problem has so far been shown to achieve the information-theoreti c sample complexity rate. This paper develops a new algorithm for the special case of completion for nonnegative tensors. We prove that our algorithm converges in a linear (in numerical tolerance) number of oracle steps, while achieving the information-theoreti c rate. Our approach is to define a new norm for nonnegative tensors using the gauge of a specific 0-1 polytope that we construct. Because the norm is defined using a 0-1 polytope, this means we can use integer linear programming to solve linear separation problems over the polytope. We combine this insight with a variant of the Frank-Wolfe algorithm to construct our numerical algorithm, and we demonstrate its effectiveness and scalability through experiments.
翻訳日:2021-11-09 15:34:02 公開日:2021-11-08
# コスト感受性学習によるNeyman-Pearson多クラス分類

Neyman-Pearson Multi-class Classification via Cost-sensitive Learning ( http://arxiv.org/abs/2111.04597v1 )

ライセンス: Link先を確認
Ye Tian and Yang Feng(参考訳) 既存の分類手法のほとんどは、全体的な誤分類の誤り率を最小化することを目的としているが、アプリケーションでは、異なるタイプのエラーが異なる結果をもたらす可能性がある。 この非対称性の問題を考慮して、2つの一般的なパラダイム、すなわちネイマン・ピアソン(NP)パラダイムとコスト感受性(CS)パラダイムが開発された。 csパラダイムと比較して、npパラダイムはコストの仕様を必要としない。 npパラダイムに関するこれまでのほとんどの作業は、バイナリケースに注目していた。 本研究では,多クラスNP問題をCS問題に接続して検討し,2つのアルゴリズムを提案する。 np oracleの不等式と一貫性をバイナリケースからマルチクラスケースに拡張し、我々の2つのアルゴリズムが特定の条件下でこれらの特性を享受していることを示す。 シミュレーションと実データ研究では,アルゴリズムの有効性を示す。 我々の知る限り、これは理論的な保証を伴うコスト感受性学習技術を用いて、マルチクラスNP問題を解く最初の試みである。 提案アルゴリズムは CRAN 上の R パッケージ "npcs" に実装されている。

Most existing classification methods aim to minimize the overall misclassification error rate, however, in applications, different types of errors can have different consequences. To take into account this asymmetry issue, two popular paradigms have been developed, namely the Neyman-Pearson (NP) paradigm and cost-sensitive (CS) paradigm. Compared to CS paradigm, NP paradigm does not require a specification of costs. Most previous works on NP paradigm focused on the binary case. In this work, we study the multi-class NP problem by connecting it to the CS problem, and propose two algorithms. We extend the NP oracle inequalities and consistency from the binary case to the multi-class case, and show that our two algorithms enjoy these properties under certain conditions. The simulation and real data studies demonstrate the effectiveness of our algorithms. To our knowledge, this is the first work to solve the multi-class NP problem via cost-sensitive learning techniques with theoretical guarantees. The proposed algorithms are implemented in the R package "npcs" on CRAN.
翻訳日:2021-11-09 15:33:48 公開日:2021-11-08
# 顔認識における幾何学的適応辞書攻撃

Geometrically Adaptive Dictionary Attack on Face Recognition ( http://arxiv.org/abs/2111.04371v1 )

ライセンス: Link先を確認
Junyoung Byun, Hyojun Go, Changick Kim(参考訳) CNNベースの顔認識モデルは優れた性能向上をもたらしたが、敵の摂動に弱い。 最近の研究では、たとえモデルのハードラベル出力にしかアクセスできないとしても、敵はモデルを騙すことができることが示されている。 しかし、不可避な逆ノイズを見つけるために多くのクエリが必要であるため、これらの攻撃にはクエリの数を減らすことが不可欠である。 本稿では,既存の決定に基づくブラックボックス攻撃の2つの限界を指摘した。 背景雑音の最適化のためにクエリを無駄にし、他の画像に対して発生する逆の摂動を利用できない。 我々はこれらの制限を克服するために3次元顔アライメントを活用し、Geometrically Adaptive Dictionary Attack (GADA) と呼ばれる顔認識に対するクエリ効率の良いブラックボックス攻撃の一般的な戦略を提案する。 私たちの核となるアイデアは、uvテクスチャマップで逆の摂動を生成し、それを画像の顔に投影することです。 摂動探索空間を顔領域に制限し、以前の摂動を効果的にリサイクルすることにより、クエリ効率を大幅に改善する。 GADA戦略を既存の2つの攻撃手法に適用し、LFWおよびCPLFWデータセットの実験において圧倒的な性能改善を示す。 さらに,クエリに基づくブラックボックス攻撃のプロセスを特定する,クエリ類似性に基づくステートフル検出を回避する新たな攻撃戦略を提案する。

CNN-based face recognition models have brought remarkable performance improvement, but they are vulnerable to adversarial perturbations. Recent studies have shown that adversaries can fool the models even if they can only access the models' hard-label output. However, since many queries are needed to find imperceptible adversarial noise, reducing the number of queries is crucial for these attacks. In this paper, we point out two limitations of existing decision-based black-box attacks. We observe that they waste queries for background noise optimization, and they do not take advantage of adversarial perturbations generated for other images. We exploit 3D face alignment to overcome these limitations and propose a general strategy for query-efficient black-box attacks on face recognition named Geometrically Adaptive Dictionary Attack (GADA). Our core idea is to create an adversarial perturbation in the UV texture map and project it onto the face in the image. It greatly improves query efficiency by limiting the perturbation search space to the facial area and effectively recycling previous perturbations. We apply the GADA strategy to two existing attack methods and show overwhelming performance improvement in the experiments on the LFW and CPLFW datasets. Furthermore, we also present a novel attack strategy that can circumvent query similarity-based stateful detection that identifies the process of query-based black-box attacks.
翻訳日:2021-11-09 15:30:50 公開日:2021-11-08
# S3RP:自己改善型超解法と吸着拡散過程の予測

S3RP: Self-Supervised Super-Resolution and Prediction for Advection-Diffusion Process ( http://arxiv.org/abs/2111.04639v1 )

ライセンス: Link先を確認
Chulin Wang, Kyongmin Yeo, Xiao Jin, Andres Codas, Levente J. Klein, Bruce Elmegreen(参考訳) 限られた情報を持つ対流拡散過程の超解像モデルを提案する。 超解像モデルの多くは、トレーニングにおいて高分解能(HR)の地上構造データを仮定するが、多くの場合、そのようなHRデータセットはアクセスできない。 ここでは、物理に基づく正規化を訓練したリカレント畳み込みネットワークが、HRの地下構造データを持たずに、HR情報を再構築可能であることを示す。 さらに,超解像問題の性質を考慮し,再帰的なwassersteinオートエンコーダを用いて不確かさをモデル化する。

We present a super-resolution model for an advection-diffusion process with limited information. While most of the super-resolution models assume high-resolution (HR) ground-truth data in the training, in many cases such HR dataset is not readily accessible. Here, we show that a Recurrent Convolutional Network trained with physics-based regularizations is able to reconstruct the HR information without having the HR ground-truth data. Moreover, considering the ill-posed nature of a super-resolution problem, we employ the Recurrent Wasserstein Autoencoder to model the uncertainty.
翻訳日:2021-11-09 15:30:29 公開日:2021-11-08
# OMD:音声・画像・静的特徴を用いた直交マルウェア検出

OMD: Orthogonal Malware Detection Using Audio, Image, and Static Features ( http://arxiv.org/abs/2111.04710v1 )

ライセンス: Link先を確認
Lakshmanan Nataraj, Tajuddin Manhar Mohammed, Tejaswi Nanjundaswamy, Satish Chikkagoudar, Shivkumar Chandrasekaran, B.S. Manjunath(参考訳) マルウェアやサイバー攻撃の増加に伴い、他の方法によって予測されない独自のマルウェアサンプルを検出することによって、既存の方法と相補的な「直交」サイバー防御アプローチが必要である。 本稿では,音声記述子,画像類似性記述子,その他の静的・統計的特徴を組み合わせてマルウェアを識別するための,新規で直交的なマルウェア検出手法を提案する。 まず,マルウェアバイナリを音声信号として表現する場合,音声記述子がマルウェアファミリーの分類にどのように有効であるかを示す。 そして,音声記述子上での予測は,画像類似性記述子や他の静的特徴に対する予測と直交していることを示す。 さらに,新しい特徴集合(あるいは型)が他の特徴集合に対してどのように直交しているかを定量化する,エラー解析のためのフレームワークとメトリクスを開発した。 これにより、フレームワーク全体に新機能と検出メソッドを追加できます。 マルウェアデータセットの実験結果から,本手法は直交マルウェア検出のための堅牢なフレームワークを提供することが示された。

With the growing number of malware and cyber attacks, there is a need for "orthogonal" cyber defense approaches, which are complementary to existing methods by detecting unique malware samples that are not predicted by other methods. In this paper, we propose a novel and orthogonal malware detection (OMD) approach to identify malware using a combination of audio descriptors, image similarity descriptors and other static/statistical features. First, we show how audio descriptors are effective in classifying malware families when the malware binaries are represented as audio signals. Then, we show that the predictions made on the audio descriptors are orthogonal to the predictions made on image similarity descriptors and other static features. Further, we develop a framework for error analysis and a metric to quantify how orthogonal a new feature set (or type) is with respect to other feature sets. This allows us to add new features and detection methods to our overall framework. Experimental results on malware datasets show that our approach provides a robust framework for orthogonal malware detection.
翻訳日:2021-11-09 15:30:16 公開日:2021-11-08
# 混合自律神経節の強化学習

Reinforcement Learning for Mixed Autonomy Intersections ( http://arxiv.org/abs/2111.04686v1 )

ライセンス: Link先を確認
Zhongxia Yan, Cathy Wu(参考訳) 本研究では,2方向と4方向の交差点のみを経由するシミュレーショントラヒックネットワークにおける混合自律交通制御のためのモデルフリー強化学習手法を提案する。 本手法は,任意の数の制御車両に対する局所観測に基づく分散制御が可能なマルチエージェントポリシー分解を利用する。 報奨がなくても、強化学習は車両が交通信号のような行動を示すように調整し、33-50%の制御された車両でほぼ最適スループットを達成することを実証する。 マルチタスク学習とトランスファー学習の助けを借りて,この動作がトラフィックネットワークの流入率とサイズをまたがって一般化することを示した。 結果のコード、モデル、ビデオはhttps://github.com/z hongxiayan/mixed_aut onomy_intersectionsで閲覧できます。

We propose a model-free reinforcement learning method for controlling mixed autonomy traffic in simulated traffic networks with through-traffic-only two-way and four-way intersections. Our method utilizes multi-agent policy decomposition which allows decentralized control based on local observations for an arbitrary number of controlled vehicles. We demonstrate that, even without reward shaping, reinforcement learning learns to coordinate the vehicles to exhibit traffic signal-like behaviors, achieving near-optimal throughput with 33-50% controlled vehicles. With the help of multi-task learning and transfer learning, we show that this behavior generalizes across inflow rates and size of the traffic network. Our code, models, and videos of results are available at https://github.com/Z hongxiaYan/mixed_aut onomy_intersections.
翻訳日:2021-11-09 15:29:11 公開日:2021-11-08
# ニューラルネットワークにおける格子ゲージ対称性

Lattice gauge symmetry in neural networks ( http://arxiv.org/abs/2111.04389v1 )

ライセンス: Link先を確認
Matteo Favoni, Andreas Ipp, David I. M\"uller, Daniel Schuh(参考訳) 本稿では,格子ゲージ同変畳み込みニューラルネットワーク(l-cnns)と呼ばれる新しいニューラルネットワークアーキテクチャについて検討する。 ゲージ同変畳み込み層と双線型層を明示的に構成するために使用するゲージ同分散の概念について考察する。 L-CNNと非同変CNNの性能は、一見単純な非線形回帰タスクを用いて比較され、L-CNNは一般化可能性を示し、非同変CNNよりも高い精度で予測できる。

We review a novel neural network architecture called lattice gauge equivariant convolutional neural networks (L-CNNs), which can be applied to generic machine learning problems in lattice gauge theory while exactly preserving gauge symmetry. We discuss the concept of gauge equivariance which we use to explicitly construct a gauge equivariant convolutional layer and a bilinear layer. The performance of L-CNNs and non-equivariant CNNs is compared using seemingly simple non-linear regression tasks, where L-CNNs demonstrate generalizability and achieve a high degree of accuracy in their predictions compared to their non-equivariant counterparts.
翻訳日:2021-11-09 15:27:51 公開日:2021-11-08
# 未知置換による滑らかなテンソル推定

Smooth tensor estimation with unknown permutations ( http://arxiv.org/abs/2111.04681v1 )

ライセンス: Link先を確認
Chanwoo Lee and Miaoyan Wang(参考訳) 我々は、未知の置換の存在下での構造的テンソル除算の問題を考える。 このようなデータ問題は、レコメンデーションシステム、ニューロイメージング、コミュニティ検出、マルチウェイ比較アプリケーションで一般的に発生する。 ここでは,任意の指標順列までの滑らかなテンソルモデルの一般族を開発し,人気のあるテンソルブロックモデルとリプシッツハイパーグラフモデルを特殊ケースとして取り入れた。 ブロックワイズ多項式族における制約付き最小二乗推定器は、ミニマックス誤差境界を達成する。 最適回復に必要な平滑性閾値に関して, 相転移現象が明らかにされる。 特に、次数$(m-2)(m+1)/2$ の多項式が位数-$m$テンソルの正確な回復に十分であるのに対して、高次はそれ以上の利益を示さない。 この現象は、スムーズなテンソル推定問題と、未知の置換の有無を区別する。 さらに,単調性仮定下で最適速度を実現する効率的な多項式時間ボルダカウントアルゴリズムを提案する。 本手法の有効性はシミュレーションとシカゴ犯罪データ分析の両方を通して実証した。

We consider the problem of structured tensor denoising in the presence of unknown permutations. Such data problems arise commonly in recommendation system, neuroimaging, community detection, and multiway comparison applications. Here, we develop a general family of smooth tensor models up to arbitrary index permutations; the model incorporates the popular tensor block models and Lipschitz hypergraphon models as special cases. We show that a constrained least-squares estimator in the block-wise polynomial family achieves the minimax error bound. A phase transition phenomenon is revealed with respect to the smoothness threshold needed for optimal recovery. In particular, we find that a polynomial of degree up to $(m-2)(m+1)/2$ is sufficient for accurate recovery of order-$m$ tensors, whereas higher degree exhibits no further benefits. This phenomenon reveals the intrinsic distinction for smooth tensor estimation problems with and without unknown permutations. Furthermore, we provide an efficient polynomial-time Borda count algorithm that provably achieves optimal rate under monotonicity assumptions. The efficacy of our procedure is demonstrated through both simulations and Chicago crime data analysis.
翻訳日:2021-11-09 15:27:40 公開日:2021-11-08
# 非有界ガウスに対するプライベートかつ計算効率の良い推定器

A Private and Computationally-Effi cient Estimator for Unbounded Gaussians ( http://arxiv.org/abs/2111.04609v1 )

ライセンス: Link先を確認
Gautam Kamath, Argyris Mouzakis, Vikrant Singhal, Thomas Steinke, Jonathan Ullman(参考訳) 任意のガウス分布 $\mathcal{N}(\mu,\Sigma)$ in $\mathbb{R}^d$ の平均と共分散に対する最初の多項式時間、多項式サンプル、微分プライベート推定器を与える。 以前の推定値はすべて非コンストラクティブで、ランニング時間がないか、パラメータ $\mu$ と $\Sigma$ の優先度境界を指定する必要がある。 我々のアルゴリズムにおける主要な新しい技術ツールは、任意のガウス$\mathcal{N}(0,\Sigma)$からサンプルを取り出し、$A \Sigma A^T$が一定条件数を持つような行列$A$を返す新しい微分プライベートプレコンディショナーである。

We give the first polynomial-time, polynomial-sample, differentially private estimator for the mean and covariance of an arbitrary Gaussian distribution $\mathcal{N}(\mu,\Sigma)$ in $\mathbb{R}^d$. All previous estimators are either nonconstructive, with unbounded running time, or require the user to specify a priori bounds on the parameters $\mu$ and $\Sigma$. The primary new technical tool in our algorithm is a new differentially private preconditioner that takes samples from an arbitrary Gaussian $\mathcal{N}(0,\Sigma)$ and returns a matrix $A$ such that $A \Sigma A^T$ has constant condition number.
翻訳日:2021-11-09 15:27:23 公開日:2021-11-08
# (参考訳) オフライン強化学習におけるデータセット特性の影響の理解 [全文訳有]

Understanding the Effects of Dataset Characteristics on Offline Reinforcement Learning ( http://arxiv.org/abs/2111.04714v1 )

ライセンス: CC BY 4.0
Kajetan Schweighofer, Markus Hofmarcher, Marius-Constantin Dinu, Philipp Renz, Angela Bitto-Nemling, Vihang Patil, Sepp Hochreiter(参考訳) 現実の世界では、弱い政策による環境への影響は高価または非常にリスクが高いため、強化学習の現実世界の応用を阻害する。 オフライン強化学習(RL)は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。 しかし、データセットはオフラインRLアルゴリズムの唯一の情報源であり、学習されたポリシーの性能を決定する。 データセット特性がさまざまなオフラインRLアルゴリズムに与える影響についてはまだ研究されていない。 そこで我々は,データセット特性が離散行動環境におけるオフラインrlアルゴリズムの性能に与える影響に関する包括的実証分析を行った。 データセットは、(1)トラジェクティブ品質(TQ)で測定された平均データセットリターンと、(2)ステートアクションカバレッジ(SACo)で測定されたカバレッジの2つの指標によって特徴づけられる。 オフポリティのDeep Q-Networkファミリーの亜種は、高いSACoを持つデータセットを必要とすることがわかった。 与えられたデータセットに対する学習ポリシーを制約するアルゴリズムは、高いTQまたはSACoを持つデータセットに対してうまく機能する。 高いTQを持つデータセットの場合、Behavior Cloningは、最高のオフラインRLアルゴリズムに似ています。

In real world, affecting the environment by a weak policy can be expensive or very risky, therefore hampers real world applications of reinforcement learning. Offline Reinforcement Learning (RL) can learn policies from a given dataset without interacting with the environment. However, the dataset is the only source of information for an Offline RL algorithm and determines the performance of the learned policy. We still lack studies on how dataset characteristics influence different Offline RL algorithms. Therefore, we conducted a comprehensive empirical analysis of how dataset characteristics effect the performance of Offline RL algorithms for discrete action environments. A dataset is characterized by two metrics: (1) the average dataset return measured by the Trajectory Quality (TQ) and (2) the coverage measured by the State-Action Coverage (SACo). We found that variants of the off-policy Deep Q-Network family require datasets with high SACo to perform well. Algorithms that constrain the learned policy towards the given dataset perform well for datasets with high TQ or SACo. For datasets with high TQ, Behavior Cloning outperforms or performs similarly to the best Offline RL algorithms.
翻訳日:2021-11-09 15:23:46 公開日:2021-11-08
# ランダム・フォレストには二重の輝きはない

There is no Double-Descent in Random Forests ( http://arxiv.org/abs/2111.04409v1 )

ライセンス: Link先を確認
Sebastian Buschj\"ager and Katharina Morik(参考訳) ランダムフォレスト(RF)は、機械学習の最先端技術のひとつであり、ほぼゼロパラメータチューニングによる優れたパフォーマンスを提供する。 RFは、基本的なビルディングブロックが過度に適合していることがよく知られているにもかかわらず、過度に適合することには耐え難いようだ。 最近、広く受け入れられた研究は、RFがいわゆる二重輝線曲線を示すと主張した: まず、モデルはu字型の曲線でデータを過度に適合させ、あるモデルの複雑さに達すると、その性能が再び向上する。 本稿では,モデルキャパシティがrfの成功を説明するための正しいツールであるという考えに挑戦し,モデルを訓練するアルゴリズムが以前考えられていたよりも重要な役割を果たすと主張する。 RFは二重発振曲線を示すのではなく、単一の降下を持つことを示す。 したがって、古典的な意味では過度に合わない。 さらに、その決定境界は過適合DTと近似するが、過適合しないRF変動を示す。 同様に、RFの判定境界を近似したDTがまだ過度に適合していることを示す。 最後に,その性能を推定するツールとして,アンサンブルの多様性について検討する。 そこで本研究では,アンサンブルの多様性を正確に制御できる負相関森林(ncforest)を提案する。 我々は、多様性とバイアスがrfの性能に重大な影響を与えていることを示します。 多様性の低さはrfの性能を単一の木に崩壊させるが、多様性の多さは、ほとんどの木がもはや正しい出力を生成しないことを意味する。 しかし、この2つの極端の間には、ほぼ同じパフォーマンスで、さまざまなトレードオフが見られます。 したがって、バイアスと多様性の間の特定のトレードオフは、アルゴリズムがこの良いトレードオフ方式に達するまで重要ではない。

Random Forests (RFs) are among the state-of-the-art in machine learning and offer excellent performance with nearly zero parameter tuning. Remarkably, RFs seem to be impervious to overfitting even though their basic building blocks are well-known to overfit. Recently, a broadly received study argued that a RF exhibits a so-called double-descent curve: First, the model overfits the data in a u-shaped curve and then, once a certain model complexity is reached, it suddenly improves its performance again. In this paper, we challenge the notion that model capacity is the correct tool to explain the success of RF and argue that the algorithm which trains the model plays a more important role than previously thought. We show that a RF does not exhibit a double-descent curve but rather has a single descent. Hence, it does not overfit in the classic sense. We further present a RF variation that also does not overfit although its decision boundary approximates that of an overfitted DT. Similar, we show that a DT which approximates the decision boundary of a RF will still overfit. Last, we study the diversity of an ensemble as a tool the estimate its performance. To do so, we introduce Negative Correlation Forest (NCForest) which allows for precise control over the diversity in the ensemble. We show, that the diversity and the bias indeed have a crucial impact on the performance of the RF. Having too low diversity collapses the performance of the RF into a a single tree, whereas having too much diversity means that most trees do not produce correct outputs anymore. However, in-between these two extremes we find a large range of different trade-offs with all roughly equal performance. Hence, the specific trade-off between bias and diversity does not matter as long as the algorithm reaches this good trade-off regime.
翻訳日:2021-11-09 15:00:54 公開日:2021-11-08
# 高次元ガウス過程における高速でスケーラブルなスパイクとスラブ可変選択

Fast and Scalable Spike and Slab Variable Selection in High-Dimensional Gaussian Processes ( http://arxiv.org/abs/2111.04558v1 )

ライセンス: Link先を確認
Hugh Dance and Brooks Paige(参考訳) ガウス過程(GP)における可変選択は、通常、「自動関係決定」カーネルの逆長スケールをしきい値にすることで行われるが、高次元データセットでは、このアプローチは信頼できない。 より確率論的に原則化された選択肢は、スパイクとスラブの事前を使い、可変包含の後方確率を推定することである。 しかし、gpsの既存の実装は、高次元と大容量のn$データセットの両方で実行するのに非常にコストがかかり、ほとんどのカーネルでは役に立たない。 そこで我々は,任意の異なるカーネルで抽出可能なスパイクとスラブGPのための高速かつスケーラブルな変分推論アルゴリズムを開発した。 我々は,ハイパーパラメータ上で平均化するベイズモデルにより,関連する変数の空間性に適応するアルゴリズムの能力を向上し,温度後部制限やドロップアウトプルーニング,近傍のミニバッチによる大幅な高速化を実現する。 実験では, ベニラおよびスパース変分GPより常に優れ, 同様のランタイム($n=10^6$)を維持しながら, MCMCを用いたスパイクとスラブGPと競合するが, 最大1000ドル以上の高速動作を行う。

Variable selection in Gaussian processes (GPs) is typically undertaken by thresholding the inverse lengthscales of `automatic relevance determination' kernels, but in high-dimensional datasets this approach can be unreliable. A more probabilistically principled alternative is to use spike and slab priors and infer a posterior probability of variable inclusion. However, existing implementations in GPs are extremely costly to run in both high-dimensional and large-$n$ datasets, or are intractable for most kernels. As such, we develop a fast and scalable variational inference algorithm for the spike and slab GP that is tractable with arbitrary differentiable kernels. We improve our algorithm's ability to adapt to the sparsity of relevant variables by Bayesian model averaging over hyperparameters, and achieve substantial speed ups using zero temperature posterior restrictions, dropout pruning and nearest neighbour minibatching. In experiments our method consistently outperforms vanilla and sparse variational GPs whilst retaining similar runtimes (even when $n=10^6$) and performs competitively with a spike and slab GP using MCMC but runs up to $1000$ times faster.
翻訳日:2021-11-09 15:00:24 公開日:2021-11-08
# 線形文脈帯域におけるモデル選択のためのユニバーサルおよびデータ適応アルゴリズム

Universal and data-adaptive algorithms for model selection in linear contextual bandits ( http://arxiv.org/abs/2111.04688v1 )

ライセンス: Link先を確認
Vidya Muthukumar, Akshay Krishnamurthy(参考訳) 文脈的包帯におけるモデル選択は、固定モデルクラスに対する最小化を後悔する重要な相補的問題である。 モデル選択の最も単純な非自明な例を考える: 単純な多重武装バンディット問題と線形文脈バンディット問題とを区別する。 この例でさえ、現在の最先端の手法は最適でない方法で探索し、強い「特徴の多様性」条件を必要とする。 本稿では,新しいアルゴリズムを提案する。 a) データ適応的な方法で探索し、 b) $\mathcal{O}(d^{\alpha} T^{1- \alpha})$ という形のモデル選択を保証する。 第1のアルゴリズムは「世界のベスト」な性質を享受し、異なる分布仮定の下で同時に保持される2つの前の結果を回復する。 後者は分布的仮定を完全に取り除き、扱いやすいモデル選択のスコープを広げる。 提案手法は,ネストした線形コンテキストバンディット間のモデル選択に拡張する。

Model selection in contextual bandits is an important complementary problem to regret minimization with respect to a fixed model class. We consider the simplest non-trivial instance of model-selection: distinguishing a simple multi-armed bandit problem from a linear contextual bandit problem. Even in this instance, current state-of-the-art methods explore in a suboptimal manner and require strong "feature-diversity&qu ot; conditions. In this paper, we introduce new algorithms that a) explore in a data-adaptive manner, and b) provide model selection guarantees of the form $\mathcal{O}(d^{\alpha} T^{1- \alpha})$ with no feature diversity conditions whatsoever, where $d$ denotes the dimension of the linear model and $T$ denotes the total number of rounds. The first algorithm enjoys a "best-of-both-worlds& quot; property, recovering two prior results that hold under distinct distributional assumptions, simultaneously. The second removes distributional assumptions altogether, expanding the scope for tractable model selection. Our approach extends to model selection among nested linear contextual bandits under some additional assumptions.
翻訳日:2021-11-09 15:00:02 公開日:2021-11-08
# デノイングによるデータ分布の高次勾配の推定

Estimating High Order Gradients of the Data Distribution by Denoising ( http://arxiv.org/abs/2111.04726v1 )

ライセンス: Link先を確認
Chenlin Meng, Yang Song, Wenzhe Li, Stefano Ermon(参考訳) データ密度の第1次微分はスコアマッチングを識別することで効率的に推定することができ、画像生成や音声合成といった多くのアプリケーションにおいて重要な要素となっている。 上位デリバティブは、データ分散に関する追加のローカル情報を提供し、新しいアプリケーションを可能にする。 学習密度モデルの自動微分によって推定できるが、これは推定誤差を増幅することができ、高次元の設定では高価である。 これらの限界を克服するために,試料からデータ密度の高次導関数(score)を直接推定する手法を提案する。 まず, スコアマッチングをトウィーディーの公式の特定の場合と解釈できることを示す。 トウィーディーの公式を高階モーメントに利用することにより、高階微分を推定するために分位スコアマッチングを一般化する。 提案手法で学習したモデルが, 自動微分法よりも2次微分を効率的に高精度に近似できることを実証的に示す。 また,本モデルは,合成データと自然画像のサンプリングのためのozaki離散化によるランジュバンダイナミクスの混合速度を向上できることを示す。

The first order derivative of a data density can be estimated efficiently by denoising score matching, and has become an important component in many applications, such as image generation and audio synthesis. Higher order derivatives provide additional local information about the data distribution and enable new applications. Although they can be estimated via automatic differentiation of a learned density model, this can amplify estimation errors and is expensive in high dimensional settings. To overcome these limitations, we propose a method to directly estimate high order derivatives (scores) of a data density from samples. We first show that denoising score matching can be interpreted as a particular case of Tweedie's formula. By leveraging Tweedie's formula on higher order moments, we generalize denoising score matching to estimate higher order derivatives. We demonstrate empirically that models trained with the proposed method can approximate second order derivatives more efficiently and accurately than via automatic differentiation. We show that our models can be used to quantify uncertainty in denoising and to improve the mixing speed of Langevin dynamics via Ozaki discretization for sampling synthetic data and natural images.
翻訳日:2021-11-09 14:59:42 公開日:2021-11-08
# ディープマーチングテトラヘドラ:高分解能3次元形状合成のためのハイブリッド表現

Deep Marching Tetrahedra: a Hybrid Representation for High-Resolution 3D Shape Synthesis ( http://arxiv.org/abs/2111.04276v1 )

ライセンス: Link先を確認
Tianchang Shen, Jun Gao, Kangxue Yin, Ming-Yu Liu, Sanja Fidler(参考訳) 粗いボクセルなどの簡単なユーザガイドを用いて高分解能な3次元形状を合成できる深部3次元条件生成モデルDMTetを紹介する。 新規なハイブリッド3D表現を活用することで、暗黙的かつ明示的な3D表現のメリットをマージする。 署名された距離値の回帰を訓練した現在の暗黙的アプローチと比較して、DMTetは、再構成された表面に対して直接最適化するので、より細かい幾何学的詳細をより少ないアーティファクトで合成することができる。 メッシュなどの明示的な表現を直接生成する深部3次元生成モデルとは異なり、我々のモデルは任意の位相で形状を合成することができる。 dmtetのコアは、離散符号付き距離関数を符号化する変形可能な四面体グリッドと、暗黙の符号付き距離表現を明示的な表面メッシュ表現に変換する微分可能なマーチングテトラヘドラ層を含む。 この組み合わせにより、表面幾何とトポロジーの合同最適化と、表面メッシュ上で明示的に定義された再構成と逆損失を用いてサブディビジョンの階層を生成することができる。 提案手法は,複雑な3次元動物形状のデータセット上で訓練された粗いボクセル入力から条件付き形状合成を行う既存の作業を大幅に上回っている。 プロジェクトページ: https://nv-tlabs.git hub.io/DMTet/。

We introduce DMTet, a deep 3D conditional generative model that can synthesize high-resolution 3D shapes using simple user guides such as coarse voxels. It marries the merits of implicit and explicit 3D representations by leveraging a novel hybrid 3D representation. Compared to the current implicit approaches, which are trained to regress the signed distance values, DMTet directly optimizes for the reconstructed surface, which enables us to synthesize finer geometric details with fewer artifacts. Unlike deep 3D generative models that directly generate explicit representations such as meshes, our model can synthesize shapes with arbitrary topology. The core of DMTet includes a deformable tetrahedral grid that encodes a discretized signed distance function and a differentiable marching tetrahedra layer that converts the implicit signed distance representation to the explicit surface mesh representation. This combination allows joint optimization of the surface geometry and topology as well as generation of the hierarchy of subdivisions using reconstruction and adversarial losses defined explicitly on the surface mesh. Our approach significantly outperforms existing work on conditional shape synthesis from coarse voxel inputs, trained on a dataset of complex 3D animal shapes. Project page: https://nv-tlabs.git hub.io/DMTet/.
翻訳日:2021-11-09 14:59:05 公開日:2021-11-08
# SustainBench: マシンラーニングによる持続可能な開発目標の監視のためのベンチマーク

SustainBench: Benchmarks for Monitoring the Sustainable Development Goals with Machine Learning ( http://arxiv.org/abs/2111.04724v1 )

ライセンス: Link先を確認
Christopher Yeh, Chenlin Meng, Sherrie Wang, Anne Driscoll, Erik Rozi, Patrick Liu, Jihyeon Lee, Marshall Burke, David B. Lobell, Stefano Ermon(参考訳) 国連持続可能な開発目標(SDGs)の進展は、歴史的に時間的・空間的報道の少ない地上調査から得られた主要な環境・社会経済指標のデータ不足によって妨げられている。 近年の機械学習の進歩により、衛星やソーシャルメディアなど、豊富な、頻繁に更新され、グローバルに利用可能なデータを活用することができ、SDGの進歩に関する洞察を提供することができる。 有望な早期結果にもかかわらず、これまでのところ、このようなデータをSDG測定に利用するアプローチは、異なるデータセットや一貫性のない評価指標で大きく評価されており、パフォーマンスが向上しているかどうか、さらなる研究が最も実りあるのかを理解することは困難である。 さらに、衛星と地上調査データの処理には、機械学習コミュニティに多く欠けているドメイン知識が必要である。 本稿では, 経済開発, 農業, 健康, 教育, 水と衛生, 気候行動, 陸地生活に関するタスクを含む, SDGを対象とした15のベンチマークタスクのコレクションであるSustainBenchを紹介する。 15のタスクのうち11のデータセットは、初めて一般公開される。 SustainBenchの目標は、(1)SDGの測定と達成に貢献する機械学習コミュニティの参入障壁を低くすること、(2)各種SDGのタスクにおける機械学習モデルを評価するための標準ベンチマークを提供すること、(3)モデル性能の向上がSDGの進歩を促進する新しい機械学習手法の開発を促進することである。

Progress toward the United Nations Sustainable Development Goals (SDGs) has been hindered by a lack of data on key environmental and socioeconomic indicators, which historically have come from ground surveys with sparse temporal and spatial coverage. Recent advances in machine learning have made it possible to utilize abundant, frequently-updated, and globally available data, such as from satellites or social media, to provide insights into progress toward SDGs. Despite promising early results, approaches to using such data for SDG measurement thus far have largely evaluated on different datasets or used inconsistent evaluation metrics, making it hard to understand whether performance is improving and where additional research would be most fruitful. Furthermore, processing satellite and ground survey data requires domain knowledge that many in the machine learning community lack. In this paper, we introduce SustainBench, a collection of 15 benchmark tasks across 7 SDGs, including tasks related to economic development, agriculture, health, education, water and sanitation, climate action, and life on land. Datasets for 11 of the 15 tasks are released publicly for the first time. Our goals for SustainBench are to (1) lower the barriers to entry for the machine learning community to contribute to measuring and achieving the SDGs; (2) provide standard benchmarks for evaluating machine learning models on tasks across a variety of SDGs; and (3) encourage the development of novel machine learning methods where improved model performance facilitates progress towards the SDGs.
翻訳日:2021-11-09 14:57:44 公開日:2021-11-08
# グラフロバストネスベンチマーク:グラフ機械学習の逆ロバストネスのベンチマーク

Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of Graph Machine Learning ( http://arxiv.org/abs/2111.04314v1 )

ライセンス: Link先を確認
Qinkai Zheng, Xu Zou, Yuxiao Dong, Yukuo Cen, Da Yin, Jiarong Xu, Yang Yang, Jie Tang(参考訳) グラフに対する敵対的攻撃は、グラフ機械学習(gml)モデルの堅牢性に対する大きな脅威となっている。 当然、アタッカーとディフェンダーの間には、常にエスカレートする武器競争がある。 しかし、両陣営の戦略は、しばしば同一かつ現実的な条件下では十分に比較されない。 このギャップを埋めるため,我々はgmlモデルの逆ロバスト性に対するスケーラブルで統一性,モジュール性,再現性を備えた評価を目標として,グラフロバストネスベンチマーク(grb)を提案する。 GRBは攻撃と防御のプロセスを標準化する 1)スケーラブルで多様なデータセットの開発 2 攻撃及び防御の実施のモジュール化、及び 3) 評価プロトコルを洗練したシナリオで統一する。 GRBパイプラインを活用することで、エンドユーザは、自動データ処理と実験的評価を備えた堅牢なGMLモデルの開発に集中することができる。 グラフ敵対学習に関するオープンで再現可能な研究をサポートするため、GRBはさまざまなシナリオにわたる公開リーダボードも提供している。 出発点として,ベースライン手法のベンチマーク実験を行った。 GRBはオープンソースで、コミュニティからのコントリビューションを歓迎している。 データセット、コード、リーダーボードはhttps://cogdl.ai/grb /home.comで入手できる。

Adversarial attacks on graphs have posed a major threat to the robustness of graph machine learning (GML) models. Naturally, there is an ever-escalating arms race between attackers and defenders. However, the strategies behind both sides are often not fairly compared under the same and realistic conditions. To bridge this gap, we present the Graph Robustness Benchmark (GRB) with the goal of providing a scalable, unified, modular, and reproducible evaluation for the adversarial robustness of GML models. GRB standardizes the process of attacks and defenses by 1) developing scalable and diverse datasets, 2) modularizing the attack and defense implementations, and 3) unifying the evaluation protocol in refined scenarios. By leveraging the GRB pipeline, the end-users can focus on the development of robust GML models with automated data processing and experimental evaluations. To support open and reproducible research on graph adversarial learning, GRB also hosts public leaderboards across different scenarios. As a starting point, we conduct extensive experiments to benchmark baseline techniques. GRB is open-source and welcomes contributions from the community. Datasets, codes, leaderboards are available at https://cogdl.ai/grb /home.
翻訳日:2021-11-09 14:53:55 公開日:2021-11-08
# (参考訳) モデルを手に入れろ! 機械学習モデルに対するモデルハイジャック攻撃 [全文訳有]

Get a Model! Model Hijacking Attack Against Machine Learning Models ( http://arxiv.org/abs/2111.04394v1 )

ライセンス: CC BY 4.0
Ahmed Salem, Michael Backes, Yang Zhang(参考訳) 機械学習(ML)は、自律運転から認証システムまで、さまざまな重要なアプリケーションの基盤として確立されている。 しかし、機械学習モデルの採用率の増加に伴い、複数の攻撃が発生している。 そのような攻撃の1つのクラスはトレーニングタイムアタックであり、敵は機械学習モデルトレーニングの前後でアタックを実行する。 本研究では,コンピュータビジョンに基づく機械学習モデル,すなわちモデルハイジャック攻撃に対する新たなトレーニング時間攻撃を提案する。 相手は、モデル所有者が気づかないまま、ターゲットモデルをハイジャックして元のモデルとは異なるタスクを実行することを目指している。 モデルハイジャックは、ハイジャックされたモデルオーナが違法または非倫理的なサービスを提供するモデルを持つためにフレーム化できるため、説明責任とセキュリティリスクを引き起こす可能性がある。 モデルハイジャック攻撃は、既存のデータ中毒攻撃と同じ方法で起動される。 しかし、モデルハイジャック攻撃の1つの要件は、ステルス性である。すなわち、ターゲットモデルをハイジャックするために使用されるデータサンプルは、モデルの元々のトレーニングデータセットと似ているべきである。 そこで本研究では,新しいエンコーダデコーダスタイルMLモデルであるCamouflagerをベースに,ChameleonとAdverse Chameleonの2つの異なるモデルハイジャック攻撃を提案する。 評価の結果,2つのモデルによるハイジャック攻撃は,モデルユーティリティの低下を無視して高い攻撃成功率を達成した。

Machine learning (ML) has established itself as a cornerstone for various critical applications ranging from autonomous driving to authentication systems. However, with this increasing adoption rate of machine learning models, multiple attacks have emerged. One class of such attacks is training time attack, whereby an adversary executes their attack before or during the machine learning model training. In this work, we propose a new training time attack against computer vision based machine learning models, namely model hijacking attack. The adversary aims to hijack a target model to execute a different task than its original one without the model owner noticing. Model hijacking can cause accountability and security risks since a hijacked model owner can be framed for having their model offering illegal or unethical services. Model hijacking attacks are launched in the same way as existing data poisoning attacks. However, one requirement of the model hijacking attack is to be stealthy, i.e., the data samples used to hijack the target model should look similar to the model's original training dataset. To this end, we propose two different model hijacking attacks, namely Chameleon and Adverse Chameleon, based on a novel encoder-decoder style ML model, namely the Camouflager. Our evaluation shows that both of our model hijacking attacks achieve a high attack success rate, with a negligible drop in model utility.
翻訳日:2021-11-09 14:50:37 公開日:2021-11-08
# ludwig benchmarking toolkitによるパーソナライズされたベンチマーク

Personalized Benchmarking with the Ludwig Benchmarking Toolkit ( http://arxiv.org/abs/2111.04260v1 )

ライセンス: Link先を確認
Avanika Narayan, Piero Molino, Karan Goel, Willie Neiswanger, Christopher R\'e (Department of Computer Science, Stanford University)(参考訳) ドメイン間の機械学習モデルの急速な拡大とデプロイメント設定は、個人的価値のタスクと目的をまたいだモデルをベンチマークしようとする、さまざまなコミュニティ(例えば業界実践者)を生み出した。 残念ながら、従来のベンチマークでは1つの目的(平均精度など)のモデルを評価できるため、標準ベンチマークの結果は使用できないため、変数(計算予算など)のコンバウンドを制御し、公正な比較を困難にしている。 ハイパーパラメータ最適化から評価まで)エンド・ツー・エンドのベンチマーク研究を、容易に拡張可能なタスクセット、ディープラーニングモデル、データセット、評価メトリクスで実行するためのパーソナライズされたベンチマークツールキットである、オープンソースのludwig benchmarking toolkit(lbt)を紹介します。 LBTは、トレーニングの制御と評価のカスタマイズのための設定可能なインターフェース、境界変数の排除のための標準化されたトレーニングフレームワーク、多目的評価のサポートを提供する。 7つのモデルと9つのデータセットにまたがるテキスト分類のための大規模比較分析を用いて、LBTを用いてパーソナライズされたベンチマーク研究を作成する方法を示す。 予測レイテンシとパフォーマンスのトレードオフ,データセット属性とパフォーマンスの関係,および事前トレーニングが収束と堅牢性に与える影響について検討し,様々なベンチマーク目標を満たすためにLBTをどのように使用できるかを示す。

The rapid proliferation of machine learning models across domains and deployment settings has given rise to various communities (e.g. industry practitioners) which seek to benchmark models across tasks and objectives of personal value. Unfortunately, these users cannot use standard benchmark results to perform such value-driven comparisons as traditional benchmarks evaluate models on a single objective (e.g. average accuracy) and fail to facilitate a standardized training framework that controls for confounding variables (e.g. computational budget), making fair comparisons difficult. To address these challenges, we introduce the open-source Ludwig Benchmarking Toolkit (LBT), a personalized benchmarking toolkit for running end-to-end benchmark studies (from hyperparameter optimization to evaluation) across an easily extensible set of tasks, deep learning models, datasets and evaluation metrics. LBT provides a configurable interface for controlling training and customizing evaluation, a standardized training framework for eliminating confounding variables, and support for multi-objective evaluation. We demonstrate how LBT can be used to create personalized benchmark studies with a large-scale comparative analysis for text classification across 7 models and 9 datasets. We explore the trade-offs between inference latency and performance, relationships between dataset attributes and performance, and the effects of pretraining on convergence and robustness, showing how LBT can be used to satisfy various benchmarking objectives.
翻訳日:2021-11-09 14:22:57 公開日:2021-11-08
# 公正分類のためのグループ認識閾値適応

Group-Aware Threshold Adaptation for Fair Classification ( http://arxiv.org/abs/2111.04271v1 )

ライセンス: Link先を確認
Taeuk Jang, Pengyi Shi, Xiaoqian Wang(参考訳) 機械学習の公平さは、さまざまな分野の応用が拡大し多様化し続けており、注目を集めている。 異なる階層群間での判別モデル行動を軽減するために,グループ認識しきい値適応による複数のフェアネス制約を克服するポストプロセッシング手法を提案する。 分類モデル出力の確率分布から推定される混乱行列を最適化することにより,各階層群の適応型分類閾値を学習する。 分類モデル構造に代えて、モデル出力の推定確率分布のみを必要とするため、この後処理モデルは、幅広い分類モデルに適用でき、モデル非依存な方法で公平性を改善し、プライバシを確保することができる。 これにより、既存の公正メソッドを後処理して、正確性と公平性のトレードオフをさらに改善することができます。 さらに,本モデルでは計算コストが低い。 本稿では,最適化アルゴリズムの収束と,精度と妥当性のトレードオフに関する厳密な理論的解析を行う。 理論的には,同条件下での既存手法よりも近似最適に近い上界を許容する。 実験により,提案手法は最先端手法より優れ,理論精度-公正トレードオフ境界に最も近い結果が得られることが示された。

The fairness in machine learning is getting increasing attention, as its applications in different fields continue to expand and diversify. To mitigate the discriminated model behaviors between different demographic groups, we introduce a novel post-processing method to optimize over multiple fairness constraints through group-aware threshold adaptation. We propose to learn adaptive classification thresholds for each demographic group by optimizing the confusion matrix estimated from the probability distribution of a classification model output. As we only need an estimated probability distribution of model output instead of the classification model structure, our post-processing model can be applied to a wide range of classification models and improve fairness in a model-agnostic manner and ensure privacy. This even allows us to post-process existing fairness methods to further improve the trade-off between accuracy and fairness. Moreover, our model has low computational cost. We provide rigorous theoretical analysis on the convergence of our optimization algorithm and the trade-off between accuracy and fairness of our method. Our method theoretically enables a better upper bound in near optimality than existing method under same condition. Experimental results demonstrate that our method outperforms state-of-the-art methods and obtains the result that is closest to the theoretical accuracy-fairness trade-off boundary.
翻訳日:2021-11-09 14:22:31 公開日:2021-11-08
# Mimic: 多変量時系列分類のための適応アルゴリズム

Mimic: An adaptive algorithm for multivariate time series classification ( http://arxiv.org/abs/2111.04273v1 )

ライセンス: Link先を確認
Yuhui Wang, Diane J. Cook(参考訳) 時系列データは価値があるが、しばしば精査される。 金融、医療、その他の重要なアプリケーションの時系列分類器への信頼を得るには、解釈可能なモデルを作成する必要がある。 これまで研究者は、予測能力に欠ける解釈可能な方法と、透明性に欠けるディープラーニング方法のどちらかを判断せざるを得なかった。 本稿では,最強の分類器の予測精度を保ちつつ解釈可能性を導入する新しい模倣アルゴリズムを提案する。 Mimicは、学習モデルのユーザ理解を高める視覚表現を同時に生成しながら、既存の多変量時系列分類器の学習方法を反映する。 26の時系列データセットの実験は、様々な時系列分類器を視覚的かつ正確に模倣するMimicの能力をサポートする。

Time series data are valuable but are often inscrutable. Gaining trust in time series classifiers for finance, healthcare, and other critical applications may rely on creating interpretable models. Researchers have previously been forced to decide between interpretable methods that lack predictive power and deep learning methods that lack transparency. In this paper, we propose a novel Mimic algorithm that retains the predictive accuracy of the strongest classifiers while introducing interpretability. Mimic mirrors the learning method of an existing multivariate time series classifier while simultaneously producing a visual representation that enhances user understanding of the learned model. Experiments on 26 time series datasets support Mimic's ability to imitate a variety of time series classifiers visually and accurately.
翻訳日:2021-11-09 14:22:13 公開日:2021-11-08
# 群衆からのバッチ強化学習

Batch Reinforcement Learning from Crowds ( http://arxiv.org/abs/2111.04279v1 )

ライセンス: Link先を確認
Guoxi Zhang, Hisashi Kashima(参考訳) バッチ強化学習の欠点は、データにおける報酬の要件であり、報酬機能のないタスクには適用できない。 行動のクローン化のような報酬の欠如に対する既存の設定は、ヒトから収集された最適なデモンストレーションに依存している。 残念ながら、最適性の確保には広範な専門知識が必要であり、複雑なタスクのための大規模なデータ取得を妨げている。 本稿では,選好から報奨関数を学習することにより,バッチ強化学習設定における報酬の欠如に対処する。 好みを生成するには、タスクの基本的な理解しか必要ありません。 精神的なプロセスであるため、好みを生成することは、デモの実行よりも高速である。 そのため、クラウドソーシングを使用して、専門家でない人間から大規模に好みを収集することができる。 本稿では,非熟練の人間からデータを集める際に生じる批判的課題である選好のノイズに挑戦する。 ラベルを協調的に利用するラベルの信頼性をモデル化する新しい確率モデルを提案する。 さらに,提案モデルは学習報酬関数を用いて推定を円滑に行う。 アタリデータセットの評価は,提案モデルの有効性を示し,続いて,提案するアイデアの相対的重要性を分析するアブレーション研究を行った。

A shortcoming of batch reinforcement learning is its requirement for rewards in data, thus not applicable to tasks without reward functions. Existing settings for lack of reward, such as behavioral cloning, rely on optimal demonstrations collected from humans. Unfortunately, extensive expertise is required for ensuring optimality, which hinder the acquisition of large-scale data for complex tasks. This paper addresses the lack of reward in a batch reinforcement learning setting by learning a reward function from preferences. Generating preferences only requires a basic understanding of a task. Being a mental process, generating preferences is faster than performing demonstrations. So preferences can be collected at scale from non-expert humans using crowdsourcing. This paper tackles a critical challenge that emerged when collecting data from non-expert humans: the noise in preferences. A novel probabilistic model is proposed for modelling the reliability of labels, which utilizes labels collaboratively. Moreover, the proposed model smooths the estimation with a learned reward function. Evaluation on Atari datasets demonstrates the effectiveness of the proposed model, followed by an ablation study to analyze the relative importance of the proposed ideas.
翻訳日:2021-11-09 14:22:00 公開日:2021-11-08
# 学習可能なグラフの深い教師なしアクティブラーニング

Deep Unsupervised Active Learning on Learnable Graphs ( http://arxiv.org/abs/2111.04286v1 )

ライセンス: Link先を確認
Handong Ma, Changsheng Li, Xinchu Shi, Ye Yuan, Guoren Wang(参考訳) 近年,教師なし能動学習への深層学習の適用が成功している。 しかし、現在の手法では、サンプル関係を無視しながらオートエンコーダを介して非線形変換を学習し、教師なしアクティブ学習のためのより効果的な表現学習機構を設計する余地を残している。 本稿では, ALLG と呼ばれる学習可能グラフを用いた深層教師なし能動学習モデルを提案する。 ALLGは最適なグラフ構造を学習することで、より良いサンプル表現を取得し、代表サンプルを選択することができる。 学習したグラフ構造をより安定かつ効果的にするために、$k$-nearest 隣のグラフを優先順位として考慮し、関係伝播グラフ構造を学ぶ。 異なるレイヤ間でのショートカット接続も組み込むことで、よく知られたオーバースムーシング問題をある程度軽減できます。 我々の知る限りでは、グラフ構造学習を教師なしアクティブラーニングに活用するための最初の試みである。 6つのデータセットで広範な実験を行い,本手法の有効性を示した。

Recently deep learning has been successfully applied to unsupervised active learning. However, current method attempts to learn a nonlinear transformation via an auto-encoder while ignoring the sample relation, leaving huge room to design more effective representation learning mechanisms for unsupervised active learning. In this paper, we propose a novel deep unsupervised Active Learning model via Learnable Graphs, named ALLG. ALLG benefits from learning optimal graph structures to acquire better sample representation and select representative samples. To make the learnt graph structure more stable and effective, we take into account $k$-nearest neighbor graph as a priori, and learn a relation propagation graph structure. We also incorporate shortcut connections among different layers, which can alleviate the well-known over-smoothing problem to some extent. To the best of our knowledge, this is the first attempt to leverage graph structure learning for unsupervised active learning. Extensive experiments performed on six datasets demonstrate the efficacy of our method.
翻訳日:2021-11-09 14:21:46 公開日:2021-11-08
# 説明操作に対する防御

Defense Against Explanation Manipulation ( http://arxiv.org/abs/2111.04303v1 )

ライセンス: Link先を確認
Ruixiang Tang, Ninghao Liu, Fan Yang, Na Zou, Xia Hu(参考訳) 説明可能な機械学習は、モデルの透明性が向上し、実際のアプリケーションで機械学習が信頼されるのに役立つため、注目を集めている。 しかし,近年では,予測を一定に保ちながらモデルの説明を容易に変更することができるため,説明手法が操作に脆弱であることが実証されている。 この問題に対処するため、より安定した説明方法の使用やモデル構成の変更に多くの努力が払われている。 本研究は,学習の観点から問題に取り組み,適用されている具体的な説明方法にかかわらず,モデルの内部説明安定性を改善するために,Reversarial Training on Explanations (ATEX) と呼ばれる新たなトレーニング手法を提案する。 データインスタンス上の説明値を直接指定する代わりに、ATEXはモデル予測にのみ要件を課し、最適化に2階微分を含まないようにする。 さらなる議論として、説明安定性はモデルの他の特性、すなわち敵の攻撃にさらされるリスクと密接に関連していることも判明した。 実験を通じて、ATEXは、目的説明の操作に対するモデルロバスト性の改善に加えて、スムーズな説明や、モデルに適用した場合の対人訓練の有効性の改善など、さらなるメリットももたらしている。

Explainable machine learning attracts increasing attention as it improves transparency of models, which is helpful for machine learning to be trusted in real applications. However, explanation methods have recently been demonstrated to be vulnerable to manipulation, where we can easily change a model's explanation while keeping its prediction constant. To tackle this problem, some efforts have been paid to use more stable explanation methods or to change model configurations. In this work, we tackle the problem from the training perspective, and propose a new training scheme called Adversarial Training on EXplanations (ATEX) to improve the internal explanation stability of a model regardless of the specific explanation method being applied. Instead of directly specifying explanation values over data instances, ATEX only puts requirement on model predictions which avoids involving second-order derivatives in optimization. As a further discussion, we also find that explanation stability is closely related to another property of the model, i.e., the risk of being exposed to adversarial attack. Through experiments, besides showing that ATEX improves model robustness against manipulation targeting explanation, it also brings additional benefits including smoothing explanations and improving the efficacy of adversarial training if applied to the model.
翻訳日:2021-11-09 14:21:31 公開日:2021-11-08
# (参考訳) SMU:スムージング最大化手法を用いたディープネットワークのスムーズなアクティベーション機能 [全文訳有]

SMU: smooth activation function for deep networks using smoothing maximum technique ( http://arxiv.org/abs/2111.04682v1 )

ライセンス: CC BY 4.0
Koushik Biswas, Sandeep Kumar, Shilpak Banerjee, Ashish Kumar Pandey(参考訳) ディープラーニングの研究者たちは、ネットワークのパフォーマンスを高める2つの新しいアクティベーション機能の提案に熱心だ。 アクティベーション機能のよい選択は、ネットワークパフォーマンスの改善に大きな影響を与える可能性がある。 手作りのアクティベーションは、ニューラルネットワークモデルで最も一般的な選択である。 ReLUは単純さのため、ディープラーニングコミュニティでは最も一般的な選択肢である。 本稿では、Leaky ReLUのような既知の活性化関数の近似に基づく新しい活性化関数を提案し、これをSmooth Maximum Unit(SMU)と呼ぶ。 SMUによるReLUの代替として、ShuffleNet V2モデルによるCIFAR100データセットが6.22%改善されました。

Deep learning researchers have a keen interest in proposing two new novel activation functions which can boost network performance. A good choice of activation function can have significant consequences in improving network performance. A handcrafted activation is the most common choice in neural network models. ReLU is the most common choice in the deep learning community due to its simplicity though ReLU has some serious drawbacks. In this paper, we have proposed a new novel activation function based on approximation of known activation functions like Leaky ReLU, and we call this function Smooth Maximum Unit (SMU). Replacing ReLU by SMU, we have got 6.22% improvement in the CIFAR100 dataset with the ShuffleNet V2 model.
翻訳日:2021-11-09 14:20:13 公開日:2021-11-08
# DeepSteal: 記憶における効率的なウェイトステアリングを活用する高度なモデル抽出

DeepSteal: Advanced Model Extractions Leveraging Efficient Weight Stealing in Memories ( http://arxiv.org/abs/2111.04625v1 )

ライセンス: Link先を確認
Adnan Siraj Rakin, Md Hafizul Islam Chowdhuryy, Fan Yao and Deliang Fan(参考訳) 近年のディープニューラルネットワーク(DNN)の進歩は、複数のセキュリティに敏感なドメインに広く展開されている。 リソース集約的なトレーニングと貴重なドメイン固有のトレーニングデータの使用の必要性から、これらのモデルはモデル所有者にとってトップ知的財産(ip)となっている。 DNNのプライバシーに対する大きな脅威の1つは、敵がDNNモデルの機密情報を盗もうとするモデル抽出攻撃である。 近年の研究では、ハードウェアベースのサイドチャネル攻撃は、DNNモデルに関する内部知識(例えば、モデルアーキテクチャ)を明らかにすることができるが、既存の攻撃では詳細なモデルパラメータ(例えば、重みやバイアス)を抽出することはできない。 本研究では,メモリサイドチャネル攻撃の助けを借りて,DNN重みを効果的に盗む高度なモデル抽出攻撃フレームワークであるDeepStealを提案する。 提案するDeepStealには2つの重要なステージがある。 まず, 情報漏洩ベクトルとしてrowhammerベースのハードウェア障害技術を採用することで, ハマーリークと呼ばれる新しい重み付きビット情報抽出手法を開発した。 HammerLeakは、DNNアプリケーションに適した、いくつかの新しいシステムレベルの技術を活用して、高速で効率的な重量盗みを可能にする。 次に,部分的漏洩ビット情報を有効に活用し,対象被害者モデルの代替プロトタイプを生成する,平均クラスタリング重みペナルティを用いた新しい代替モデルトレーニングアルゴリズムを提案する。 CIFAR-10/100/GTSRB)と4つのDNNアーキテクチャ(ResNet-18/34/Wide-R esNet/VGG-11)を用いて,この代替モデル抽出手法を評価する。 抽出した置換モデルは,CIFAR-10データセットの深部残差ネットワークにおいて90%以上の精度を達成できた。 さらに, 抽出した代替モデルは, 被害者モデルを騙すために, 効果的な逆入力サンプルを生成することもできる。

Recent advancements of Deep Neural Networks (DNNs) have seen widespread deployment in multiple security-sensitive domains. The need of resource-intensive training and use of valuable domain-specific training data have made these models a top intellectual property (IP) for model owners. One of the major threats to the DNN privacy is model extraction attacks where adversaries attempt to steal sensitive information in DNN models. Recent studies show hardware-based side channel attacks can reveal internal knowledge about DNN models (e.g., model architectures) However, to date, existing attacks cannot extract detailed model parameters (e.g., weights/biases). In this work, for the first time, we propose an advanced model extraction attack framework DeepSteal that effectively steals DNN weights with the aid of memory side-channel attack. Our proposed DeepSteal comprises two key stages. Firstly, we develop a new weight bit information extraction method, called HammerLeak, through adopting the rowhammer based hardware fault technique as the information leakage vector. HammerLeak leverages several novel system-level techniques tailed for DNN applications to enable fast and efficient weight stealing. Secondly, we propose a novel substitute model training algorithm with Mean Clustering weight penalty, which leverages the partial leaked bit information effectively and generates a substitute prototype of the target victim model. We evaluate this substitute model extraction method on three popular image datasets (e.g., CIFAR-10/100/GTSRB) and four DNN architectures (e.g., ResNet-18/34/Wide-Re sNet/VGG-11). The extracted substitute model has successfully achieved more than 90 % test accuracy on deep residual networks for the CIFAR-10 dataset. Moreover, our extracted substitute model could also generate effective adversarial input samples to fool the victim model.
翻訳日:2021-11-09 14:13:00 公開日:2021-11-08
# ニューラルネットワークの微調整における規則化とロバスト性の改善

Improved Regularization and Robustness for Fine-tuning in Neural Networks ( http://arxiv.org/abs/2111.04578v1 )

ライセンス: Link先を確認
Dongyue Li and Hongyang R. Zhang(参考訳) 転送学習に広く使われているアルゴリズムは微調整であり、少量のラベル付きデータで事前学習されたモデルを対象タスクに微調整する。 トレーニング済みモデルのキャパシティがターゲットデータセットのサイズよりもはるかに大きい場合、微調整はトレーニングラベルを過度に適合させ「記憶する」傾向がある。 したがって、重要な疑問は微調整を規則化し、ノイズに対する堅牢性を確保することである。 この問題に対処するために、まず微調整の一般化特性を分析する。 微調整時の各層における走行距離と微調整モデルの雑音安定性に依存するPAC-Bayes一般化法を提案する。 私たちはこれらの量を実証的に測定する。 この分析に基づいて、正規化と自己ラベル法との補間を含む正規化自己ラベル法を提案する。 (i)各層内を走行する距離を制限するための層別正則化 (ii)自己ラベル補正とラベル強調は、誤ってラベル付けされたデータポイント(モデルが確信している)を補正し、自信のないデータポイントを再強調する。 複数の事前学習モデルアーキテクチャを用いて,画像およびテキストデータセットの広範な集合に対するアプローチを検証する。 提案手法は,7つの画像分類タスクに対して1.76% (平均) 改善し,少数の分類タスクでは0.75%改善する。 対象のデータセットがノイズラベルを含む場合,提案手法はベースラインメソッドを2つのノイズ設定で平均3.56%上回る。

A widely used algorithm for transfer learning is fine-tuning, where a pre-trained model is fine-tuned on a target task with a small amount of labeled data. When the capacity of the pre-trained model is much larger than the size of the target data set, fine-tuning is prone to overfitting and "memorizing" the training labels. Hence, an important question is to regularize fine-tuning and ensure its robustness to noise. To address this question, we begin by analyzing the generalization properties of fine-tuning. We present a PAC-Bayes generalization bound that depends on the distance traveled in each layer during fine-tuning and the noise stability of the fine-tuned model. We empirically measure these quantities. Based on the analysis, we propose regularized self-labeling -- the interpolation between regularization and self-labeling methods, including (i) layer-wise regularization to constrain the distance traveled in each layer; (ii) self label-correction and label-reweighting to correct mislabeled data points (that the model is confident) and reweight less confident data points. We validate our approach on an extensive collection of image and text data sets using multiple pre-trained model architectures. Our approach improves baseline methods by 1.76% (on average) for seven image classification tasks and 0.75% for a few-shot classification task. When the target data set includes noisy labels, our approach outperforms baseline methods by 3.56% on average in two noisy settings.
翻訳日:2021-11-09 14:12:28 公開日:2021-11-08
# 運用分散学習による近似型ニューラルネットワーク探索

Approximate Neural Architecture Search via Operation Distribution Learning ( http://arxiv.org/abs/2111.04670v1 )

ライセンス: Link先を確認
Xingchen Wan, Binxin Ru, Pedro M. Esperan\c{c}a, Fabio M. Carlucci(参考訳) ニューラルネットワーク探索(NAS)の標準パラダイムは、特定の操作と接続を持つ完全な決定論的アーキテクチャを探すことである。 そこで本研究では, 最適動作分布を探索し, 任意の長さのアーキテクチャのサンプルに使用できる確率的近似解を提案する。 アーキテクチャセルを与えられた場合、その性能は、典型的な検索空間における特定の接続パターンではなく、使用中の操作の割合に大きく依存する。 この直観は任意の特定の探索戦略に直交し、様々なnasアルゴリズムに適用することができる。 4つのデータセットと4つのnas技術(ベイズ最適化、微分可能な検索、ローカル検索、ランダム検索)の広範囲な検証を通じて、(1)演算分布は解を確実に識別するのに十分な識別能力を持ち、(2)従来のエンコーディングよりも最適化が容易であり、パフォーマンスの面での大幅な高速化につながることを示した。 実際、この単純な直感は、現在のアプローチのコストを大幅に削減し、幅広いアプリケーションでNASを使用できる可能性がある。

The standard paradigm in Neural Architecture Search (NAS) is to search for a fully deterministic architecture with specific operations and connections. In this work, we instead propose to search for the optimal operation distribution, thus providing a stochastic and approximate solution, which can be used to sample architectures of arbitrary length. We propose and show, that given an architectural cell, its performance largely depends on the ratio of used operations, rather than any specific connection pattern in typical search spaces; that is, small changes in the ordering of the operations are often irrelevant. This intuition is orthogonal to any specific search strategy and can be applied to a diverse set of NAS algorithms. Through extensive validation on 4 data-sets and 4 NAS techniques (Bayesian optimisation, differentiable search, local search and random search), we show that the operation distribution (1) holds enough discriminating power to reliably identify a solution and (2) is significantly easier to optimise than traditional encodings, leading to large speed-ups at little to no cost in performance. Indeed, this simple intuition significantly reduces the cost of current approaches and potentially enable NAS to be used in a broader range of applications.
翻訳日:2021-11-09 14:12:07 公開日:2021-11-08
# ビデオにおける時間文接地の曖昧化に向けて

Towards Debiasing Temporal Sentence Grounding in Video ( http://arxiv.org/abs/2111.04321v1 )

ライセンス: Link先を確認
Hao Zhang and Aixin Sun and Wei Jing and Joey Tianyi Zhou(参考訳) ビデオ(TSGV)タスクにおける時間的文の接地は、未編集のビデオから時間的モーメントを見つけ出し、言語クエリ、すなわち文にマッチさせることである。 モーメントアノテーションのバイアス(例えば、ビデオの開始位置と終了位置)を考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向にあり、ビデオと言語クエリ間のクロスモーダル推論を十分に学ばない。 本稿では,データデバイアスとモデルデバイアスの2つのデバイアス戦略を提案し,tsgvモデルを用いてクロスモーダル相互作用を捉える。 データデバイアスは、ビデオトランケーションを通じてデータオーバーサンプリングを行い、列車の時間分布のバランスをとる。 モデルのデバイアスは、ビデオのみとクエリのみのモデルを利用して分散バイアスを捉え、モデルにクロスモーダルなインタラクションを学ばせます。 ベースモデルとしてVSLNetを用いて,配布外テストインスタンスを含む2つのデータセットに対する2つの戦略の影響を評価する。 その結果,両戦略がモデル一般化能力の向上に有効であることが示唆された。 両方のデバイアス戦略を備えたVSLNetは、両方のデータセットで最高の結果を得る。

The temporal sentence grounding in video (TSGV) task is to locate a temporal moment from an untrimmed video, to match a language query, i.e., a sentence. Without considering bias in moment annotations (e.g., start and end positions in a video), many models tend to capture statistical regularities of the moment annotations, and do not well learn cross-modal reasoning between video and language query. In this paper, we propose two debiasing strategies, data debiasing and model debiasing, to "force" a TSGV model to capture cross-modal interactions. Data debiasing performs data oversampling through video truncation to balance moment temporal distribution in train set. Model debiasing leverages video-only and query-only models to capture the distribution bias, and forces the model to learn cross-modal interactions. Using VSLNet as the base model, we evaluate impact of the two strategies on two datasets that contain out-of-distribution test instances. Results show that both strategies are effective in improving model generalization capability. Equipped with both debiasing strategies, VSLNet achieves best results on both datasets.
翻訳日:2021-11-09 14:09:45 公開日:2021-11-08
# (参考訳) 単言語および多言語bertとアンサンブルモデルを用いたスペイン語および英語ツイートにおける性差別予測 [全文訳有]

Sexism Prediction in Spanish and English Tweets Using Monolingual and Multilingual BERT and Ensemble Models ( http://arxiv.org/abs/2111.04551v1 )

ライセンス: CC BY 4.0
Angel Felipe Magnoss\~ao de Paula and Roberto Fray da Silva and Ipek Baris Schlicht(参考訳) ソーシャルメディアの人気はヘイトスピーチや性差別といった問題を生み出した。 ソーシャルメディアにおける性差別の識別と分類は、より健康的な社会環境の構築を可能にするため、非常に重要なタスクである。 しかし、これらの課題はかなり難しい。 本研究は、英語とスペイン語における性差別の識別と分類のための多言語・単言語翻訳とデータポイント翻訳とアンサンブル戦略を用いたシステムを提案する。 これは、Iberian Languages Evaluation Forum (IberLEF)によって提案された2021(EXIST 2021)タスクを共用するSocial neTworksのsexism Identificationの文脈で実施された。 提案システムとその主成分について述べるとともに, 深度ハイパーパラメータ解析を行った。 主な結果は次の通りである。 (i)ベースラインモデル(multilingual BERT)よりも優れた結果を得たシステム。 (ii)単言語モデルよりもより良い結果を得たアンサンブルモデル、及び 3)全ての個別モデルと最適な標準値を考慮したアンサンブルモデルが,両タスクの最良の精度とF1スコアを得た。 この研究は、EXISTの両タスクにおいて、最も高い精度(タスク1は0.780、タスク2は0.658)とF1スコア(タスク1は0.780、タスク2はF1マクロ)で第一位を獲得した。

The popularity of social media has created problems such as hate speech and sexism. The identification and classification of sexism in social media are very relevant tasks, as they would allow building a healthier social environment. Nevertheless, these tasks are considerably challenging. This work proposes a system to use multilingual and monolingual BERT and data points translation and ensemble strategies for sexism identification and classification in English and Spanish. It was conducted in the context of the sEXism Identification in Social neTworks shared 2021 (EXIST 2021) task, proposed by the Iberian Languages Evaluation Forum (IberLEF). The proposed system and its main components are described, and an in-depth hyperparameters analysis is conducted. The main results observed were: (i) the system obtained better results than the baseline model (multilingual BERT); (ii) ensemble models obtained better results than monolingual models; and (iii) an ensemble model considering all individual models and the best standardized values obtained the best accuracies and F1-scores for both tasks. This work obtained first place in both tasks at EXIST, with the highest accuracies (0.780 for task 1 and 0.658 for task 2) and F1-scores (F1-binary of 0.780 for task 1 and F1-macro of 0.579 for task 2).
翻訳日:2021-11-09 14:07:14 公開日:2021-11-08
# 量子ニューラルタンジェントカーネルによる表現学習

Representation Learning via Quantum Neural Tangent Kernels ( http://arxiv.org/abs/2111.04225v1 )

ライセンス: Link先を確認
Junyu Liu, Francesco Tacchino, Jennifer R. Glick, Liang Jiang, Antonio Mezzacapo(参考訳) 変分量子回路は、量子機械学習および変分量子シミュレーションタスクで使用される。 優れた変動回路の設計や、与えられた学習や最適化タスクでどれだけうまく機能するかの予測は、いまだに不明である。 本稿では,ニューラル・タンジェント・カーネルの理論を用いて変動量子回路の解析を行う。 量子ニューラルネットワークカーネルを定義し、最適化および学習タスクにおける損失関数の動的方程式を導出する。 我々は,変動角がゆるやかに変化し,線形摂動が十分であるような,凍結限界(lazy training regime)におけるダイナミクスを解析的に解く。 解析を動的設定に拡張し、変分角の二次補正を含む。 次に、ハイブリッド量子古典的アーキテクチャを検討し、ハイブリッド核に対する大きな幅制限を定義し、ハイブリッド量子古典的ニューラルネットワークがおよそガウス的であることを示す。 ここで得られた結果は、量子機械学習や最適化問題に用いられる変分量子回路の学習ダイナミクスを解析的に理解できる限界を示している。 これらの解析結果は量子機械学習実験の数値シミュレーションによって支持される。

Variational quantum circuits are used in quantum machine learning and variational quantum simulation tasks. Designing good variational circuits or predicting how well they perform for given learning or optimization tasks is still unclear. Here we discuss these problems, analyzing variational quantum circuits using the theory of neural tangent kernels. We define quantum neural tangent kernels, and derive dynamical equations for their associated loss function in optimization and learning tasks. We analytically solve the dynamics in the frozen limit, or lazy training regime, where variational angles change slowly and a linear perturbation is good enough. We extend the analysis to a dynamical setting, including quadratic corrections in the variational angles. We then consider hybrid quantum-classical architecture and define a large width limit for hybrid kernels, showing that a hybrid quantum-classical neural network can be approximately Gaussian. The results presented here show limits for which analytical understandings of the training dynamics for variational quantum circuits, used for quantum machine learning and optimization problems, are possible. These analytical results are supported by numerical simulations of quantum machine learning experiments.
翻訳日:2021-11-09 13:47:32 公開日:2021-11-08
# (参考訳) 生成ニューラルネットワークによるてんかんの推論

Epidemic inference through generative neural networks ( http://arxiv.org/abs/2111.03383v2 )

ライセンス: CC BY 4.0
Indaco Biazzo, Alfredo Braunstein, Luca Dall'Asta, Fabio Mazza(参考訳) ネットワーク上での感染拡大における欠落情報の再構築は, 予防と封じ込め戦略において不可欠である。 例えば、感染性だが無症状の個人(例えば、手動接触追跡など)を特定し警告することは、COVID-19パンデミックの流行を抑えるのに役立った。 起こりうる流行のカスケードの数は、通常、関与する個体数とともに指数関数的に増加する。 流行過程における推論問題によって生じる課題は、証拠(例えば医療検査)に適合する部分集合のほとんど無視できない部分集合を特定することが困難であることから生じる。 本稿では、観察と互換性のある最も可能性の高い感染カスケードをサンプリングできる新しい生成型ニューラルネットワークフレームワークを提案する。 さらに、この枠組みは感染拡大を規定するパラメータを推測することができる。 提案手法は, 患者ゼロ問題に対する既往の方法, リスクアセスメント, 職場や病院における感染拡大など, 総合的, 実例シナリオにおける感染パラメータの推測について, より良い, あるいは同等の結果を得る。

Reconstructing missing information in epidemic spreading on contact networks can be essential in prevention and containment strategies. For instance, identifying and warning infective but asymptomatic individuals (e.g., manual contact tracing) helped contain outbreaks in the COVID-19 pandemic. The number of possible epidemic cascades typically grows exponentially with the number of individuals involved. The challenge posed by inference problems in the epidemics processes originates from the difficulty of identifying the almost negligible subset of those compatible with the evidence (for instance, medical tests). Here we present a new generative neural networks framework that can sample the most probable infection cascades compatible with observations. Moreover, the framework can infer the parameters governing the spreading of infections. The proposed method obtains better or comparable results with existing methods on the patient zero problem, risk assessment, and inference of infectious parameters in synthetic and real case scenarios like spreading infections in workplaces and hospitals.
翻訳日:2021-11-09 12:22:35 公開日:2021-11-08
# 対向ロバスト性の統一ゲーム理論的解釈

A Unified Game-Theoretic Interpretation of Adversarial Robustness ( http://arxiv.org/abs/2111.03536v2 )

ライセンス: Link先を確認
Jie Ren, Die Zhang, Yisen Wang, Lu Chen, Zhanpeng Zhou, Yiting Chen, Xu Cheng, Xin Wang, Meng Zhou, Jie Shi, Quanshi Zhang(参考訳) 本稿では,DNNの入力変数間の多次相互作用の視点として,異なる敵攻撃と防御方法を説明する統一的な視点を提供する。 マルチオーダーの相互作用に基づいて、敵攻撃がDNNを騙すために主に高階の相互作用に影響を与えることが判明した。 さらに、敵対的に訓練されたDNNのロバスト性は、カテゴリー固有の低次相互作用に由来する。 本研究は,既存の防衛手法を原理的に説明できる,敵対的摂動とロバスト性を統合する可能性を示す。 また,本研究は,前回から学習した特徴の形状バイアスに対する不正確な理解の修正も行っている。

This paper provides a unified view to explain different adversarial attacks and defense methods, \emph{i.e.} the view of multi-order interactions between input variables of DNNs. Based on the multi-order interaction, we discover that adversarial attacks mainly affect high-order interactions to fool the DNN. Furthermore, we find that the robustness of adversarially trained DNNs comes from category-specific low-order interactions. Our findings provide a potential method to unify adversarial perturbations and robustness, which can explain the existing defense methods in a principle way. Besides, our findings also make a revision of previous inaccurate understanding of the shape bias of adversarially learned features.
翻訳日:2021-11-09 12:07:38 公開日:2021-11-08