このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200616となっている論文です。

PDF登録状況(公開日: 20200616)

TitleAuthorsAbstract論文公表日・翻訳日
# 隠れた共同設立者の存在下での単一変数干渉による共同非線形効果の学習

Learning Joint Nonlinear Effects from Single-variable Interventions in the Presence of Hidden Confounders ( http://arxiv.org/abs/2005.11528v2 )

ライセンス: Link先を確認
Sorawit Saengkyongam and Ricardo Silva(参考訳) 隠れた共同設立者の存在下での複数同時介入の効果を推定する手法を提案する。 隠れた結合の問題を克服するために,観測データだけでなく,各処理変数が別々に介入される単一変数の介入の集合にもアクセス可能な設定を考える。 付加ガウス雑音を伴う非線形連続的構造因果モデルからデータを生成することを仮定して同定可能性を示す。 さらに,異なるレジームから全てのデータをプールし,組み合わせ確率を最大化することにより,簡易なパラメータ推定手法を提案する。 また,本研究の総合的な実験により,同定可能性の検証や,合成データと実世界データの両方のベースラインに対するアプローチの性能の比較を行う。

We propose an approach to estimate the effect of multiple simultaneous interventions in the presence of hidden confounders. To overcome the problem of hidden confounding, we consider the setting where we have access to not only the observational data but also sets of single-variable interventions in which each of the treatment variables is intervened on separately. We prove identifiability under the assumption that the data is generated from a nonlinear continuous structural causal model with additive Gaussian noise. In addition, we propose a simple parameter estimation method by pooling all the data from different regimes and jointly maximizing the combined likelihood. We also conduct comprehensive experiments to verify the identifiability result as well as to compare the performance of our approach against a baseline on both synthetic and real-world data.
翻訳日:2022-11-30 03:44:44 公開日:2020-06-16
# マルチタイムスケールスパイクリカレントニューラルネットワークによる効率的かつ効率的な計算

Effective and Efficient Computation with Multiple-timescale Spiking Recurrent Neural Networks ( http://arxiv.org/abs/2005.11633v2 )

ライセンス: Link先を確認
Bojian Yin, Federico Corradi, Sander M. Boht\'e(参考訳) エッジAIのパラダイムとしての脳に触発されたニューロモルフィックコンピューティングの出現は、このハードウェア上で動く高性能で効率的なスパイクニューラルネットワークの探索を動機付けている。 しかし、ディープラーニングにおける古典的なニューラルネットワークと比較して、現在のスパイクニューラルネットワークは、説得力のある分野では競争力に欠ける。 ここでは、逐次的かつストリーミング的なタスクにおいて、新しいタイプの適応スパイクリカレントニューラルネットワーク(SRNN)が、他のスパイクニューラルネットワークと比較して最先端の性能を実現し、スパース活性を示しながら、古典的リカレントニューラルネットワーク(RNN)の性能にほぼ到達または超えることを実証する。 この結果から,従来のRNNに比べて,SRNNのエネルギー効率は100倍に向上した。 これを実現するために、我々は、標準および適応的多時間スパイクニューロンを自己再生神経ユニットとしてモデル化し、pytorchディープラーニングフレームワークにおけるサロゲート勾配と自己分化を利用して、スパイクニューロンをタスクに適応させるために重要なスパイクニューロンパラメータの学習を含む、バックプロパゲーションを効率的に実装する。

The emergence of brain-inspired neuromorphic computing as a paradigm for edge AI is motivating the search for high-performance and efficient spiking neural networks to run on this hardware. However, compared to classical neural networks in deep learning, current spiking neural networks lack competitive performance in compelling areas. Here, for sequential and streaming tasks, we demonstrate how a novel type of adaptive spiking recurrent neural network (SRNN) is able to achieve state-of-the-art performance compared to other spiking neural networks and almost reach or exceed the performance of classical recurrent neural networks (RNNs) while exhibiting sparse activity. From this, we calculate a $>$100x energy improvement for our SRNNs over classical RNNs on the harder tasks. To achieve this, we model standard and adaptive multiple-timescale spiking neurons as self-recurrent neural units, and leverage surrogate gradients and auto-differentiation in the PyTorch Deep Learning framework to efficiently implement backpropagation-through-time, including learning of the important spiking neuron parameters to adapt our spiking neurons to the tasks.
翻訳日:2022-11-29 13:15:24 公開日:2020-06-16
# 生成モデルを用いたパラメトリック変換からの画像復元

Image Restoration from Parametric Transformations using Generative Models ( http://arxiv.org/abs/2005.14036v2 )

ライセンス: Link先を確認
Kalliopi Basioti, George V. Moustakides(参考訳) 画像が生成モデルによって統計的に記述される場合、この情報を用いて、塗り込み、超解像、画像彩色、生成モデル反転などの様々な画像復元問題の最適な技術を開発することができる。 生成モデルの助けを借りて、自然にこれらの復元問題を統計的推定問題として定式化することができる。 提案手法は,最大a-posteriori確率と最大推定値を組み合わせることで,未知のパラメータを含む場合でも,変換によって歪んだ画像を復元することができる。 結果として得られる最適化は、チューニングを必要とするパラメータなしで完全に定義される。 これは、変換の正確な知識を必要とし、適切に定義されなければならない重みを持つ正規化項を含む現在の技術の状況と比較されなければならない。 最後に、各画像がそれぞれの生成モデルによって記述された複数の画像の混合に対応するように拡張し、各画像が単一の混合から分離できることに留意する必要がある。

When images are statistically described by a generative model we can use this information to develop optimum techniques for various image restoration problems as inpainting, super-resolution, image coloring, generative model inversion, etc. With the help of the generative model it is possible to formulate, in a natural way, these restoration problems as Statistical estimation problems. Our approach, by combining maximum a-posteriori probability with maximum likelihood estimation, is capable of restoring images that are distorted by transformations even when the latter contain unknown parameters. The resulting optimization is completely defined with no parameters requiring tuning. This must be compared with the current state of the art which requires exact knowledge of the transformations and contains regularizer terms with weights that must be properly defined. Finally, we must mention that we extend our method to accommodate mixtures of multiple images where each image is described by its own generative model and we are able of successfully separating each participating image from a single mixture.
翻訳日:2022-11-28 08:03:03 公開日:2020-06-16
# DeepCoDA: 構成健康データに対するパーソナライズされた解釈可能性

DeepCoDA: personalized interpretability for compositional health data ( http://arxiv.org/abs/2006.01392v2 )

ライセンス: Link先を確認
Thomas P. Quinn, Dang Nguyen, Santu Rana, Sunil Gupta, Svetha Venkatesh(参考訳) 解釈可能性により、ドメインエキスパートはモデルの妥当性と信頼性を直接評価することができます。 医療の分野では、解釈可能なモデルは、データ前処理のような技術的要因に依存しない関連する生物学的メカニズムを含意すべきである。 我々は,パーソナライズド・コンタラクタビリティを,サンプル特有の特徴の帰属尺度として定義し,その結論を正当化する精密な健康モデルのための最小要件として捉えた。 一部の健康データ、特に高スループットシークエンシング実験によって生成されたデータは、精密な健康モデルとその解釈を損なうニュアンスを持っている。 これらのデータは構成的であり、各機能は条件付きで他の全ての特徴に依存する。 深層構成データ分析(deepcoda)フレームワークを提案する。このフレームワークは、高精度な健康モデリングを高次元の構成データに拡張し、患者固有の重みによるパーソナライズされた解釈性を提供する。 我々のアーキテクチャは、25の現実世界のデータセットにまたがる最先端のパフォーマンスを維持しつつ、パーソナライズされ、コンポジションデータに完全に整合した解釈を生成する。

Interpretability allows the domain-expert to directly evaluate the model's relevance and reliability, a practice that offers assurance and builds trust. In the healthcare setting, interpretable models should implicate relevant biological mechanisms independent of technical factors like data pre-processing. We define personalized interpretability as a measure of sample-specific feature attribution, and view it as a minimum requirement for a precision health model to justify its conclusions. Some health data, especially those generated by high-throughput sequencing experiments, have nuances that compromise precision health models and their interpretation. These data are compositional, meaning that each feature is conditionally dependent on all other features. We propose the Deep Compositional Data Analysis (DeepCoDA) framework to extend precision health modelling to high-dimensional compositional data, and to provide personalized interpretability through patient-specific weights. Our architecture maintains state-of-the-art performance across 25 real-world data sets, all while producing interpretations that are both personalized and fully coherent for compositional data.
翻訳日:2022-11-25 23:08:39 公開日:2020-06-16
# テンソルネットワークによる異常検出

Anomaly Detection with Tensor Networks ( http://arxiv.org/abs/2006.02516v2 )

ライセンス: Link先を確認
Jinhui Wang, Chase Roberts, Guifre Vidal, Stefan Leichenauer(参考訳) 凝縮物質物理学に由来するテンソルネットワークは、高次元テンソルのコンパクト表現である。 本稿では,一級異常検出の特定のタスクにおいて,テンソルネットワークの長所を実証する。 テンソルネットワークのメモリと計算効率を利用して、元の特徴数に指数関数的な次元を持つ空間上の線形変換を学習する。 モデルの線形性は,モデルのグローバル傾向をフロベニウス規範を通じて予測正規性にペナルティすることで,トレーニングインスタンスの厳密な適合性を確保することを可能にする。 本手法は,表型データセットにおける深層アルゴリズムや古典的アルゴリズムよりも優れており,画像の局所性を生かしてはいないが,画像データセットの競合結果を生成する。

Originating from condensed matter physics, tensor networks are compact representations of high-dimensional tensors. In this paper, the prowess of tensor networks is demonstrated on the particular task of one-class anomaly detection. We exploit the memory and computational efficiency of tensor networks to learn a linear transformation over a space with dimension exponential in the number of original features. The linearity of our model enables us to ensure a tight fit around training instances by penalizing the model's global tendency to a predict normality via its Frobenius norm---a task that is infeasible for most deep learning models. Our method outperforms deep and classical algorithms on tabular datasets and produces competitive results on image datasets, despite not exploiting the locality of images.
翻訳日:2022-11-25 17:44:40 公開日:2020-06-16
# UCLID-Net:オブジェクト空間における単一ビュー再構成

UCLID-Net: Single View Reconstruction in Object Space ( http://arxiv.org/abs/2006.03817v2 )

ライセンス: Link先を確認
Benoit Guillard, Edoardo Remelli, Pascal Fua(参考訳) 最先端のディープラーニングシングルビュー再構成アプローチの多くは、形状パラメトリゼーションまたは暗黙の表現を出力するエンコーダデコーダアーキテクチャに依存している。 しかし、これらの表現は3次元空間オブジェクトのユークリッド構造をほとんど保存しない。 本稿では,3次元潜在空間を保存した幾何学的空間を構築することで,オブジェクト座標空間におけるグローバルな形状規則性と局所的推論を同時に学習し,その結果,性能が向上することを示す。 ベンチマーク目的でよく使用されるShapeNet合成画像と、我々のアプローチが最先端の画像より優れている実世界の画像の両方を実証する。 さらに、シングルビューパイプラインは自然にマルチビュー再構築にも拡張されます。

Most state-of-the-art deep geometric learning single-view reconstruction approaches rely on encoder-decoder architectures that output either shape parametrizations or implicit representations. However, these representations rarely preserve the Euclidean structure of the 3D space objects exist in. In this paper, we show that building a geometry preserving 3-dimensional latent space helps the network concurrently learn global shape regularities and local reasoning in the object coordinate space and, as a result, boosts performance. We demonstrate both on ShapeNet synthetic images, which are often used for benchmarking purposes, and on real-world images that our approach outperforms state-of-the-art ones. Furthermore, the single-view pipeline naturally extends to multi-view reconstruction, which we also show.
翻訳日:2022-11-24 21:52:09 公開日:2020-06-16
# 深い目標指向クラスタリング

Deep Goal-Oriented Clustering ( http://arxiv.org/abs/2006.04259v3 )

ライセンス: Link先を確認
Yifeng Shi, Christopher M. Bender, Junier B. Oliva, Marc Niethammer(参考訳) クラスタリングと予測は、教師なし学習と教師なし学習の2つの主要なタスクである。 機械学習の最近の進歩の多くはこれらの2つのタスクを中心にしているが、相互依存的、相互に有益な関係は滅多に研究されていない。 データを適切にクラスタリングすることは、下流の予測タスクに役立ち、逆に下流のタスクに対するより良い予測性能は、より適切なクラスタリング戦略を通知する可能性がある。 本研究では,この相互に有益な関係の後半に焦点をあてる。 そこで本研究では,サイドインフォメーションと非教師なしモデリングを併用し,エンドツーエンドでデータ集合を行う確率的フレームワークであるdeep goal-oriented clustering(dgc)を提案する。 我々は、最先端技術に匹敵する予測精度を達成し、また、我々の設定において、同種のクラスタリング戦略を同時に学習することで、データセットにおけるモデルの有効性を示す。

Clustering and prediction are two primary tasks in the fields of unsupervised and supervised learning, respectively. Although much of the recent advances in machine learning have been centered around those two tasks, the interdependent, mutually beneficial relationship between them is rarely explored. One could reasonably expect appropriately clustering the data would aid the downstream prediction task and, conversely, a better prediction performance for the downstream task could potentially inform a more appropriate clustering strategy. In this work, we focus on the latter part of this mutually beneficial relationship. To this end, we introduce Deep Goal-Oriented Clustering (DGC), a probabilistic framework that clusters the data by jointly using supervision via side-information and unsupervised modeling of the inherent data structure in an end-to-end fashion. We show the effectiveness of our model on a range of datasets by achieving prediction accuracies comparable to the state-of-the-art, while, more importantly in our setting, simultaneously learning congruent clustering strategies.
翻訳日:2022-11-24 07:47:46 公開日:2020-06-16
# ワンショット部分対部分登録のための3d-3d対応学習

Learning 3D-3D Correspondences for One-shot Partial-to-partial Registration ( http://arxiv.org/abs/2006.04523v2 )

ライセンス: Link先を確認
Zheng Dang, Fei Wang and Mathieu Salzmann(参考訳) 3D-3Dの登録は伝統的に最適化に基づく手法で行われているが、最近の研究は学習に基づく手法がより高速で堅牢な結果が得られることを示した。 しかし、この文脈ではPRNetだけが部分的から部分的な登録シナリオを処理できる。 残念なことに、これは複雑なネットワークアーキテクチャを持つ反復的な手順に依存するコストで達成される。 本稿では,学習に基づく部分的/部分的登録をワンショットで実現し,ネットワークの複雑さを減らし,登録精度を向上することを示す。 そこで本研究では,外れ値のビンを用いることにより,オクルードポイントを考慮できる最適なトランスポート層を提案する。 結果として得られるOPRNetフレームワークは、標準ベンチマークにおける技術状況よりも優れており、既存の技術よりも堅牢性と一般化能力が向上している。

While 3D-3D registration is traditionally tacked by optimization-based methods, recent work has shown that learning-based techniques could achieve faster and more robust results. In this context, however, only PRNet can handle the partial-to-partial registration scenario. Unfortunately, this is achieved at the cost of relying on an iterative procedure, with a complex network architecture. Here, we show that learning-based partial-to-partial registration can be achieved in a one-shot manner, jointly reducing network complexity and increasing registration accuracy. To this end, we propose an Optimal Transport layer able to account for occluded points thanks to the use of outlier bins. The resulting OPRNet framework outperforms the state of the art on standard benchmarks, demonstrating better robustness and generalization ability than existing techniques.
翻訳日:2022-11-24 02:00:46 公開日:2020-06-16
# MNISTライクなデータセットを用いたタミル母音認識

Tamil Vowel Recognition With Augmented MNIST-like Data Set ( http://arxiv.org/abs/2006.08367v2 )

ライセンス: Link先を確認
Muthiah Annamalai(参考訳) タミル母音のためのMNIST[4]互換データセット[1]を生成して,タミルOCR/Handwritingアプリケーションのための分類DNNや他のML/AIディープラーニング[2]モデルの構築を可能にする。 TensorFlowでは6万のグレースケール、28x28ピクセルのデータセットを使用して、92%の精度(トレーニング)と82%のクロスバリデーション4層CNNを10,000以上のパラメータで構築しています。 また,同一ネットワーク上で示される手書き母音におけるtop-1分類精度は70%,top-2分類精度は92%であった。

We report generation of a MNIST [4] compatible data set [1] for Tamil vowels to enable building a classification DNN or other such ML/AI deep learning [2] models for Tamil OCR/Handwriting applications. We report the capability of the 60,000 grayscale, 28x28 pixel dataset to build a 92% accuracy (training) and 82% cross-validation 4-layer CNN, with 100,000+ parameters, in TensorFlow. We also report a top-1 classification accuracy of 70% and top-2 classification accuracy of 92% on handwritten vowels showing, for the same network.
翻訳日:2022-11-23 13:34:37 公開日:2020-06-16
# MC-BERT:メタコントローラによる効率的な言語事前学習

MC-BERT: Efficient Language Pre-Training via a Meta Controller ( http://arxiv.org/abs/2006.05744v2 )

ライセンス: Link先を確認
Zhenhui Xu, Linyuan Gong, Guolin Ke, Di He, Shuxin Zheng, Liwei Wang, Jiang Bian, Tie-Yan Liu(参考訳) 事前訓練された文脈表現(例えばBERT)は多くのNLPタスクで最先端の結果を達成する基盤となっている。 しかし、大規模な事前学習は計算コストが高い。 事前トレーニングを加速する初期の試みであるELECTRAは、各入力トークンがジェネレータに置き換えられたかどうかを予測する識別モデルを訓練している。 本研究により,ELECTRAの成功は主に事前学習タスクの複雑さの低減によるものであることが判明した。二項分類(置換トークン検出)は生成タスク(マスク言語モデリング)よりも学習が効率的である。 しかし、このような単純化されたタスクは意味的にはあまり意味を成さない。 そこで本研究では,新しいメタ学習フレームワークMC-BERTを提案する。 事前トレーニングタスクは、メタコントローラネットワークがトレーニング入力と候補を提供するrejectオプションを備えたマルチチョースクローズテストである。 GLUE自然言語理解ベンチマークによる結果から,提案手法は効率的かつ効果的であることが示された。

Pre-trained contextual representations (e.g., BERT) have become the foundation to achieve state-of-the-art results on many NLP tasks. However, large-scale pre-training is computationally expensive. ELECTRA, an early attempt to accelerate pre-training, trains a discriminative model that predicts whether each input token was replaced by a generator. Our studies reveal that ELECTRA's success is mainly due to its reduced complexity of the pre-training task: the binary classification (replaced token detection) is more efficient to learn than the generation task (masked language modeling). However, such a simplified task is less semantically informative. To achieve better efficiency and effectiveness, we propose a novel meta-learning framework, MC-BERT. The pre-training task is a multi-choice cloze test with a reject option, where a meta controller network provides training input and candidates. Results over GLUE natural language understanding benchmark demonstrate that our proposed method is both efficient and effective: it outperforms baselines on GLUE semantic tasks given the same computational budget.
翻訳日:2022-11-23 04:11:36 公開日:2020-06-16
# 帰属駆動によるVQAモデルの弱さの探索

Exploring Weaknesses of VQA Models through Attribution Driven Insights ( http://arxiv.org/abs/2006.06637v2 )

ライセンス: Link先を確認
Shaunak Halbe(参考訳) 深層ニューラルネットワークは、関連する大規模データセットが利用可能であるため、過去数年間、視覚的な質問応答のタスクにうまく使われてきた。 しかし、これらのデータセットは人工的な設定で作成され、現実世界のシナリオをほとんど反映しない。 近年の研究では、視覚障害者の視覚的質問にこれらのVQAモデルを効果的に適用している。 高い精度を実現しているにもかかわらず、これらのモデルは入力質問のばらつきに影響を受けやすいように見え、人気のあるvqaモデルをアトリビューション(予測に対するインプットの影響)のレンズを通して分析し、貴重な洞察を得る。 さらに,これらの知見を応用して,入力質問の意味を無視できない変化でシステムに大きなダメージを与える敵の攻撃を仕掛ける。 これにより、視覚障害者を支援するためにデプロイされた場合の入力の変化に対して、より堅牢なシステムの開発が促進されると考えています。

Deep Neural Networks have been successfully used for the task of Visual Question Answering for the past few years owing to the availability of relevant large scale datasets. However these datasets are created in artificial settings and rarely reflect the real world scenario. Recent research effectively applies these VQA models for answering visual questions for the blind. Despite achieving high accuracy these models appear to be susceptible to variation in input questions.We analyze popular VQA models through the lens of attribution (input's influence on predictions) to gain valuable insights. Further, We use these insights to craft adversarial attacks which inflict significant damage to these systems with negligible change in meaning of the input questions. We believe this will enhance development of systems more robust to the possible variations in inputs when deployed to assist the visually impaired.
翻訳日:2022-11-22 09:35:24 公開日:2020-06-16
# テキストによる予測スキルの測定

Measuring Forecasting Skill from Text ( http://arxiv.org/abs/2006.07425v2 )

ライセンス: Link先を確認
Shi Zong, Alan Ritter, Eduard Hovy(参考訳) 人々は未来について正確な予測をする能力が異なる。 以前の研究では、一部の個人は、常により良い精度で将来の出来事の結果を予測することができることを示した。 これは自然な疑問につながります – 予測者が他よりも優れている理由は何でしょう? 本稿では,利用者が使用する言語と予測スキルとの関係について検討する。 1) オンライン予測フォーラム「グッド・ジャッジメント・オープン」の地政学的予測と, (2) 財務アナリストによる企業業績予測のコーパスである。 我々は、不確実性、可読性、感情など、人々の将来の予測に関連するテキスト上で計算される多くの言語指標を提示する。 予測に関連する言語的要因を研究することにより、熟練した予測者によるアプローチに光を当てることができる。 さらに,言語のみに基づくモデルを用いて,予測スキルを正確に予測できることを実証した。 これは、正確な予測や、早期に熟練した予測者を特定するのに役立つ可能性がある。

People vary in their ability to make accurate predictions about the future. Prior studies have shown that some individuals can predict the outcome of future events with consistently better accuracy. This leads to a natural question: what makes some forecasters better than others? In this paper we explore connections between the language people use to describe their predictions and their forecasting skill. Datasets from two different forecasting domains are explored: (1) geopolitical forecasts from Good Judgment Open, an online prediction forum and (2) a corpus of company earnings forecasts made by financial analysts. We present a number of linguistic metrics which are computed over text associated with people's predictions about the future including: uncertainty, readability, and emotion. By studying linguistic factors associated with predictions, we are able to shed some light on the approach taken by skilled forecasters. Furthermore, we demonstrate that it is possible to accurately predict forecasting skill using a model that is based solely on language. This could potentially be useful for identifying accurate predictions or potentially skilled forecasters earlier.
翻訳日:2022-11-22 04:18:44 公開日:2020-06-16
# マルチモーダルフィンガープリント提示検出:新しいデータセットによる評価

Multi-Modal Fingerprint Presentation Attack Detection: Evaluation On A New Dataset ( http://arxiv.org/abs/2006.07498v2 )

ライセンス: Link先を確認
Leonidas Spinoulas, Hengameh Mirzaalian, Mohamed Hussein, and Wael AbdAlmageed(参考訳) 指紋提示攻撃検出は、現実的な偽指紋提示を生成する攻撃準備技術の継続的な進歩により、ますます困難になっている。 本研究は,コミュニティで広く利用されている古い指紋画像に頼るのではなく,最近導入された複数のセンシングモダリティの有用性について検討する。 本研究では,近赤外,近赤外,レーザー照明を用いたフロントイルミネーションイメージングと近赤外光を用いたバックイルミネーションイメージングについて述べる。 これらの非従来型センシングモードとそれらの融合による生体検出の有効性について検討するため,完全畳み込み型ディープニューラルネットワークフレームワークを用いた包括的解析を行った。 評価では,新たなセンサ・モダリティと,コレクションの1つと公開LivDet2015データセットからのレガシデータとの異なる組み合わせを比較し,ほとんどの場合において新しいセンサ・モダリティの優位性を示す。 また、既知の、未知の攻撃の事例と、データセット内およびデータセット間評価の事例についても触れる。 以上の結果から,本手法のパワーは,ハードウェアベースの(あるいはハイブリッドな)ソリューションに要する余分なコストを正当化する,採用する分類フレームワークではなく,取得したデータの性質に起因していることが示唆された。 データセットコレクションの1つを公開する予定です。

Fingerprint presentation attack detection is becoming an increasingly challenging problem due to the continuous advancement of attack preparation techniques, which generate realistic-looking fake fingerprint presentations. In this work, rather than relying on legacy fingerprint images, which are widely used in the community, we study the usefulness of multiple recently introduced sensing modalities. Our study covers front-illumination imaging using short-wave-infrared, near-infrared, and laser illumination; and back-illumination imaging using near-infrared light. Toward studying the effectiveness of each of these unconventional sensing modalities and their fusion for liveness detection, we conducted a comprehensive analysis using a fully convolutional deep neural network framework. Our evaluation compares different combination of the new sensing modalities to legacy data from one of our collections as well as the public LivDet2015 dataset, showing the superiority of the new sensing modalities in most cases. It also covers the cases of known and unknown attacks and the cases of intra-dataset and inter-dataset evaluations. Our results indicate that the power of our approach stems from the nature of the captured data rather than the employed classification framework, which justifies the extra cost for hardware-based (or hybrid) solutions. We plan to publicly release one of our dataset collections.
翻訳日:2022-11-22 04:10:33 公開日:2020-06-16
# O(1) 2レベル勾配平均化による分散SGDの通信

O(1) Communication for Distributed SGD through Two-Level Gradient Averaging ( http://arxiv.org/abs/2006.07405v2 )

ライセンス: Link先を確認
Subhadeep Bhattacharya, Weikuan Yu and Fahim Tahmid Chowdhury(参考訳) 大規模ニューラルネットワークモデルでは、分散確率勾配Descent (SGD) に対して、nパラメータのモデルに対して、作業者毎のO(n) の通信複雑性を持つ、重い通信課題が提示される。 勾配を圧縮するために多くのスパーシフィケーションと量子化技術が提案されており、一部では通信の複雑さをo(k)に還元している。 本稿では,2レベル勾配平均化(A2SGD)と呼ばれる手法を導入し,すべての勾配を,更新モデルに対する2つのグローバル平均の計算に先立って,作業者ごとの局所平均に集約する。 A2SGDはまた、高速収束のための分散を維持するために局所誤差を保持する。 我々の理論的解析は、A2SGDがデフォルト分散SGDアルゴリズムと同様に収束していることを示している。 評価の結果,A2SGDは作業者ごとの通信トラフィックを著しく削減し,LSTM-PTBのトレーニング時間をトップKとQSGDと比較して3.2倍,23.2倍改善した。 我々の知る限り、A2SGDは分散SGDのためのワーカーごとのO(1)通信複雑性を初めて達成した。

Large neural network models present a hefty communication challenge to distributed Stochastic Gradient Descent (SGD), with a communication complexity of O(n) per worker for a model of n parameters. Many sparsification and quantization techniques have been proposed to compress the gradients, some reducing the communication complexity to O(k), where k << n. In this paper, we introduce a strategy called two-level gradient averaging (A2SGD) to consolidate all gradients down to merely two local averages per worker before the computation of two global averages for an updated model. A2SGD also retains local errors to maintain the variance for fast convergence. Our theoretical analysis shows that A2SGD converges similarly like the default distributed SGD algorithm. Our evaluation validates the theoretical conclusion and demonstrates that A2SGD significantly reduces the communication traffic per worker, and improves the overall training time of LSTM-PTB by 3.2x and 23.2x, respectively, compared to Top-K and QSGD. To the best of our knowledge, A2SGD is the first to achieve O(1) communication complexity per worker for distributed SGD.
翻訳日:2022-11-22 03:51:26 公開日:2020-06-16
# AlgebraNets

AlgebraNets ( http://arxiv.org/abs/2006.07360v2 )

ライセンス: Link先を確認
Jordan Hoffmann, Simon Schmitt, Simon Osindero, Karen Simonyan, Erich Elsen(参考訳) ニューラルネットワークは歴史的に${f: \mathbb{R}^n \to \mathbb{R}^m }$、すなわち実数で表される活性化と重み/パラメータ、$\mathbb{R}$の関数集合から階層的に構築されてきた。 本研究では,アクティベーションと重み付けのためのリッチなオブジェクトセットを検討するとともに,画像Netデータセットを用いた大規模画像分類と,enwiki8データセットとWikiText-103データセットを用いた言語モデリングという2つの課題において,代用代数学を数値表現として包括的に研究する。 我々はこのより広いモデルのクラスを代数ネットと表現する。 その結果,より小さなデータセット上の$\mathbb{C}$(複素数)と$\mathbb{H}$(四元数)から構築されたニューラルネットワークを探索した先行研究の結論は,必ずしもこれらの困難な設定に移行するとは限らないことがわかった。 しかし,この結果から,$\mathbb{R}$よりも優れたパラメータと計算効率を実現する代用代数学が存在することが示された。 我々は$\mathbb{C}$, $\mathbb{H}$, $M_{2}(\mathbb{R})$ ( 2 つの実数値行列の集合)、$M_{2}(\mathbb{C})$, $M_{3}(\mathbb{R})$, $M_{4}(\mathbb{R})$を考える。 さらに,これらの代数学における乗算は実乗算よりも計算密度が高く,自己回帰推論やスパースニューラルネットワークなどのパラメータ再利用が本質的に制限されている状況において有用である。 そこで,代数学におけるスパーシリティの誘導方法について検討する。 大規模で実用的なベンチマークに対する我々の強力な結果が、ニューラルネットワークの重み付けとアクティベーションに実数を使用するデフォルトの選択に挑戦する、非従来型アーキテクチャのさらなる探求を促すことを期待しています。

Neural networks have historically been built layerwise from the set of functions in ${f: \mathbb{R}^n \to \mathbb{R}^m }$, i.e. with activations and weights/parameters represented by real numbers, $\mathbb{R}$. Our work considers a richer set of objects for activations and weights, and undertakes a comprehensive study of alternative algebras as number representations by studying their performance on two challenging problems: large-scale image classification using the ImageNet dataset and language modeling using the enwiki8 and WikiText-103 datasets. We denote this broader class of models as AlgebraNets. Our findings indicate that the conclusions of prior work, which explored neural networks constructed from $\mathbb{C}$ (complex numbers) and $\mathbb{H}$ (quaternions) on smaller datasets, do not always transfer to these challenging settings. However, our results demonstrate that there are alternative algebras which deliver better parameter and computational efficiency compared with $\mathbb{R}$. We consider $\mathbb{C}$, $\mathbb{H}$, $M_{2}(\mathbb{R})$ (the set of $2\times2$ real-valued matrices), $M_{2}(\mathbb{C})$, $M_{3}(\mathbb{R})$ and $M_{4}(\mathbb{R})$. Additionally, we note that multiplication in these algebras has higher compute density than real multiplication, a useful property in situations with inherently limited parameter reuse such as auto-regressive inference and sparse neural networks. We therefore investigate how to induce sparsity within AlgebraNets. We hope that our strong results on large-scale, practical benchmarks will spur further exploration of these unconventional architectures which challenge the default choice of using real numbers for neural network weights and activations.
翻訳日:2022-11-22 02:57:42 公開日:2020-06-16
# Web 質問応答におけるユーザ行動からの重要度フィードバックのマイニング

Mining Implicit Relevance Feedback from User Behavior for Web Question Answering ( http://arxiv.org/abs/2006.07581v2 )

ライセンス: Link先を確認
Linjun Shou, Shining Bo, Feixiang Cheng, Ming Gong, Jian Pei, Daxin Jiang(参考訳) 多言語商用検索エンジンのためのwebスケール質問応答システム(qa)のトレーニングとリフレッシュには、多くのトレーニング例が必要になる。 原則の1つは、検索エンジンログに記録されたユーザーの行動から暗黙の妥当性のフィードバックを掘り出すことである。 以前のすべての作業は、パスではなく、webドキュメントの関連性をターゲットとする暗黙の関連性フィードバックをマイニングしている。 QAタスクの特徴はいくつかあるため,既存のWebドキュメントのユーザ行動モデルは,経路関係の推測には適用できない。 本稿では,ユーザ行動と通過関連性の相関性を検討するための最初の研究を行い,Web QAのための新たなトレーニングデータマイニング手法を提案する。 我々は4つのテストデータセットについて広範な実験を行い,提案手法は人間のラベル付きデータなしで,パスランキングの精度を大幅に向上させることを示した。 実のところ、この研究はグローバルな商用検索エンジン、特に低リソース言語におけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。 私たちの技術は多言語サービスにデプロイされています。

Training and refreshing a web-scale Question Answering (QA) system for a multi-lingual commercial search engine often requires a huge amount of training examples. One principled idea is to mine implicit relevance feedback from user behavior recorded in search engine logs. All previous works on mining implicit relevance feedback target at relevance of web documents rather than passages. Due to several unique characteristics of QA tasks, the existing user behavior models for web documents cannot be applied to infer passage relevance. In this paper, we make the first study to explore the correlation between user behavior and passage relevance, and propose a novel approach for mining training data for Web QA. We conduct extensive experiments on four test datasets and the results show our approach significantly improves the accuracy of passage ranking without extra human labeled data. In practice, this work has proved effective to substantially reduce the human labeling cost for the QA service in a global commercial search engine, especially for languages with low resources. Our techniques have been deployed in multi-language services.
翻訳日:2022-11-21 21:16:51 公開日:2020-06-16
# リモートセンシング画像における少数ショット物体検出

Few-shot Object Detection on Remote Sensing Images ( http://arxiv.org/abs/2006.07826v2 )

ライセンス: Link先を確認
Jingyu Deng, Xiang Li, Yi Fang(参考訳) 本稿では,リモートセンシング画像における物体検出の問題に対処する。 従来,リモートセンシング画像における物体検出のためのディープCNN法が多数開発されており,検出性能と効率性に優れた成果が報告されている。 しかし、現在のcnnベースの手法では、ディープニューラルネットワークを訓練するために多くの注釈付きサンプルが必要であり、見えないオブジェクトカテゴリの一般化能力は限られている。 本稿では,リモートセンシング画像に対して,未確認のオブジェクトカテゴリに対して,アノテーション付きサンプルを少数用意したオブジェクト検出手法を提案する。 具体的には、入力画像から特徴表現を抽出するメタ特徴抽出器と、サポート画像から各特徴表現に対して異なる重みを適応的に割り当てることを学ぶリウェイトモジュールと、再重み付き特徴マップ上でオブジェクト検出を行うバウンディングボックス予測モジュールの3つの主要コンポーネントを含む。 我々は、YOLOv3アーキテクチャに基づいて、少数ショットオブジェクト検出モデルを構築し、マルチスケールオブジェクト検出フレームワークを開発する。 2つのベンチマークデータセットの実験では、いくつかの注釈付きサンプルだけで、我々のモデルはリモートセンシング画像上で満足な検出性能を達成でき、我々のモデルの性能は、確立されたベースラインモデルよりも大幅に向上している。

In this paper, we deal with the problem of object detection on remote sensing images. Previous methods have developed numerous deep CNN-based methods for object detection on remote sensing images and the report remarkable achievements in detection performance and efficiency. However, current CNN-based methods mostly require a large number of annotated samples to train deep neural networks and tend to have limited generalization abilities for unseen object categories. In this paper, we introduce a few-shot learning-based method for object detection on remote sensing images where only a few annotated samples are provided for the unseen object categories. More specifically, our model contains three main components: a meta feature extractor that learns to extract feature representations from input images, a reweighting module that learn to adaptively assign different weights for each feature representation from the support images, and a bounding box prediction module that carries out object detection on the reweighted feature maps. We build our few-shot object detection model upon YOLOv3 architecture and develop a multi-scale object detection framework. Experiments on two benchmark datasets demonstrate that with only a few annotated samples our model can still achieve a satisfying detection performance on remote sensing images and the performance of our model is significantly better than the well-established baseline models.
翻訳日:2022-11-21 13:15:15 公開日:2020-06-16
# 自動面接性能評価とフィードバックのためのマルチモーダル行動分析の活用

Leveraging Multimodal Behavioral Analytics for Automated Job Interview Performance Assessment and Feedback ( http://arxiv.org/abs/2006.07909v2 )

ライセンス: Link先を確認
Anumeha Agrawal, Rosa Anil George, Selvan Sunitha Ravi, Sowmya Kamath S, Anand Kumar M(参考訳) 行動的手がかりは人間のコミュニケーションや認知に重要な役割を果たす。 ほとんどの専門分野において、人材採用政策は、職業スキルと性格特性の両方が適切に評価されるように枠付けされている。 採用面接は、専門的な資格、対人的スキル、批判的かつストレスの多い状況、時間と資源の制約の有無など、従業員のポジションに適合する可能性のある可能性を評価するために構成される。 したがって、候補者は肯定的かつ否定的な属性を認識し、その成功に悪影響を及ぼす可能性のある行動的手がかりに留意する必要がある。 本稿では,面接シナリオの候補を分析し,エンゲージメントや発話率,アイコンタクトなど,予め定義されたラベルに対するフィードバックを提供するマルチモーダル分析フレームワークを提案する。 録音されたインタビューから得られた映像,音声,テキストの書き起こしを用いて,面接者の表情,音声,韻律情報を含む包括的分析を行う。 我々はこれらのマルチモーダルデータソースを用いて複合表現を構築し、機械学習分類器を訓練してクラスラベルを予測する。 このような分析は、インタビュアーの行動的手がかりと身体言語に対する建設的なフィードバックを提供するために使用される。 実験の結果,提案手法は有望な結果を得た。

Behavioral cues play a significant part in human communication and cognitive perception. In most professional domains, employee recruitment policies are framed such that both professional skills and personality traits are adequately assessed. Hiring interviews are structured to evaluate expansively a potential employee's suitability for the position - their professional qualifications, interpersonal skills, ability to perform in critical and stressful situations, in the presence of time and resource constraints, etc. Therefore, candidates need to be aware of their positive and negative attributes and be mindful of behavioral cues that might have adverse effects on their success. We propose a multimodal analytical framework that analyzes the candidate in an interview scenario and provides feedback for predefined labels such as engagement, speaking rate, eye contact, etc. We perform a comprehensive analysis that includes the interviewee's facial expressions, speech, and prosodic information, using the video, audio, and text transcripts obtained from the recorded interview. We use these multimodal data sources to construct a composite representation, which is used for training machine learning classifiers to predict the class labels. Such analysis is then used to provide constructive feedback to the interviewee for their behavioral cues and body language. Experimental validation showed that the proposed methodology achieved promising results.
翻訳日:2022-11-21 09:43:23 公開日:2020-06-16
# ピクセル可視性:カラー画像に見えない物体を検出する

Pixel Invisibility: Detecting Objects Invisible in Color Images ( http://arxiv.org/abs/2006.08383v2 )

ライセンス: Link先を確認
Yongxin Wang and Duminda Wijesekera(参考訳) 深層ニューラルネットワークを用いた物体検出器の最近の成功にもかかわらず、自動運転車のような安全クリティカルな応用への展開は疑問視されている。 これは、夜間、霧、夕暮れ、夜明け、輝きといった運用条件下での検出器の故障の信頼性が低いためである。 このような不当な失敗は、安全性の侵害につながる可能性がある。 この問題を解決するために、我々は、日、夜、霧といった様々な照明条件下で、色領域で見えない物体を含む画素/領域の確率を計算し、手動ラベリングを必要としないカラー画像の画素レベルの可視マップを予測するアルゴリズムを開発した。 そこで本研究では,日中の弱アライメント画像ペアを用いた色から赤外線領域へのクロスモーダル知識の蒸留と,その中間レベル特徴距離に基づく画素レベルの可視性指標の構築を提案する。 定量的実験により, 画素レベルの可視性マスクの性能と, 蒸留中濃度特性が赤外線画像中の被写体検出に及ぼす影響が示された。

Despite recent success of object detectors using deep neural networks, their deployment on safety-critical applications such as self-driving cars remains questionable. This is partly due to the absence of reliable estimation for detectors' failure under operational conditions such as night, fog, dusk, dawn and glare. Such unquantifiable failures could lead to safety violations. In order to solve this problem, we created an algorithm that predicts a pixel-level invisibility map for color images that does not require manual labeling - that computes the probability that a pixel/region contains objects that are invisible in color domain, during various lighting conditions such as day, night and fog. We propose a novel use of cross modal knowledge distillation from color to infra-red domain using weakly-aligned image pairs from the day and construct indicators for the pixel-level invisibility based on the distances of their intermediate-level features. Quantitative experiments show the great performance of our pixel-level invisibility mask and also the effectiveness of distilled mid-level features on object detection in infra-red imagery.
翻訳日:2022-11-21 05:20:57 公開日:2020-06-16
# 強化学習に基づく自動車両制御のオンライン展開フレームワーク

An online evolving framework for advancing reinforcement-learning based automated vehicle control ( http://arxiv.org/abs/2006.08092v2 )

ライセンス: Link先を確認
Teawon Han, Subramanya Nageshrao, Dimitar P. Filev, Umit Ozguner(参考訳) 本稿では,コントローラの不完全な意思決定を事前に検出し,修正するためのオンライン進化フレームワークを提案する。 フレームワークは進化する有限状態マシン(e-FSM)、アクションリバイザ、コントローラモジュールの3つのモジュールで構成されている。 e-FSMモジュールは、新しい状態を決定し、繰り返し遷移確率を特定することによって、確率モデル(例えば離散時間マルコフ連鎖)をゼロから進化させる。 最新の確率モデルと与えられた基準により、アクションリバイザモジュールは将来の状態を予測してコントローラの選択したアクションの有効性をチェックする。 そして、選択されたアクションが適切でない場合は、別のアクションを検査して選択する。 提案手法の利点を示すため, 車両追従シナリオにおいて, 速度と安全性によって制御基準が設定された場合のエゴ車両の制御に, DDPG (Deep Deterministic Policy Gradient) w/とw/oを適用した。 実験の結果,DDPGコントローラが選択した不適切な動作は,提案したフレームワークを通じて適切に検出・修正され,数回の反復で制御障害は発生しないことがわかった。

In this paper, an online evolving framework is proposed to detect and revise a controller's imperfect decision-making in advance. The framework consists of three modules: the evolving Finite State Machine (e-FSM), action-reviser, and controller modules. The e-FSM module evolves a stochastic model (e.g., Discrete-Time Markov Chain) from scratch by determining new states and identifying transition probabilities repeatedly. With the latest stochastic model and given criteria, the action-reviser module checks validity of the controller's chosen action by predicting future states. Then, if the chosen action is not appropriate, another action is inspected and selected. In order to show the advantage of the proposed framework, the Deep Deterministic Policy Gradient (DDPG) w/ and w/o the online evolving framework are applied to control an ego-vehicle in the car-following scenario where control criteria are set by speed and safety. Experimental results show that inappropriate actions chosen by the DDPG controller are detected and revised appropriately through our proposed framework, resulting in no control failures after a few iterations.
翻訳日:2022-11-21 05:02:56 公開日:2020-06-16
# ICAM:ディスタングル表現と特徴属性マッピングによる解釈可能な分類

ICAM: Interpretable Classification via Disentangled Representations and Feature Attribution Mapping ( http://arxiv.org/abs/2006.08287v2 )

ライセンス: Link先を確認
Cher Bass, Mariana da Silva, Carole Sudre, Petru-Daniel Tudosiu, Stephen M. Smith, Emma C. Robinson(参考訳) 特徴帰属(英: feature attribution, fa)または画像内の異なる位置へのクラス関係の割り当ては、多くの分類問題において重要であるが、神経科学領域において特に重要であり、行動や疾患の正確な機械的なモデルには、特徴を識別する全ての特徴の知識が必要である。 同時に、表現型は通常異種であり、重要な自然変動の背景に対して変化が起こるため、脳画像からのクラス関連性の予測は困難である。 本稿では,画像から画像への変換によってクラス固有のFAマップを作成するための新しいフレームワークを提案する。 本稿では,VAE-GANを用いて,背景特徴からクラス関連性を明示的に切り離し,解釈性を向上させることを提案する。 本手法は認知症(adniデータセット)、老化(ukバイオバンク)、(シミュレーション)病変検出の2次元および3次元脳画像データセットで検証した。 本研究では,本手法により生成されたFAマップが,地上事実に対する検証において,ベースラインFA法より優れていることを示す。 さらに,本手法は,表現型変異の探索を支援するために潜時空間サンプリングを用いた最初の手法である。 私たちのコードはhttps://github.com/CherBass/ICAM.comで公開されます。

Feature attribution (FA), or the assignment of class-relevance to different locations in an image, is important for many classification problems but is particularly crucial within the neuroscience domain, where accurate mechanistic models of behaviours, or disease, require knowledge of all features discriminative of a trait. At the same time, predicting class relevance from brain images is challenging as phenotypes are typically heterogeneous, and changes occur against a background of significant natural variation. Here, we present a novel framework for creating class specific FA maps through image-to-image translation. We propose the use of a VAE-GAN to explicitly disentangle class relevance from background features for improved interpretability properties, which results in meaningful FA maps. We validate our method on 2D and 3D brain image datasets of dementia (ADNI dataset), ageing (UK Biobank), and (simulated) lesion detection. We show that FA maps generated by our method outperform baseline FA methods when validated against ground truth. More significantly, our approach is the first to use latent space sampling to support exploration of phenotype variation. Our code will be available online at https://github.com/CherBass/ICAM.
翻訳日:2022-11-21 03:51:44 公開日:2020-06-16
# ベータ発散を伴う表データ用ロバスト変分オートエンコーダ

Robust Variational Autoencoder for Tabular Data with Beta Divergence ( http://arxiv.org/abs/2006.08204v2 )

ライセンス: Link先を確認
Haleh Akrami, Sergul Aydore, Richard M. Leahy, Anand A. Joshi(参考訳) 本稿では,表型データ(RTVAE)に対して$\beta$のばらつきを持つロバストな変分オートエンコーダを提案する。 変分オートエンコーダ(VAE)とその変分は異常検出問題に対する一般的なフレームワークである。 第一の前提は、VAEを通して正規パターンの表現を学習し、そこから逸脱して異常を示すことができるということである。 しかし、トレーニングデータ自体が外れ値を含むことができる。 トレーニングデータの異常発生源には、データ収集プロセス自体(ランダムノイズ)や、機械学習モデルのパフォーマンスを低下させる可能性のある悪意のある攻撃者(データ中毒)が含まれる。 いずれの場合も、これらの異常値はVAEのトレーニングプロセスに不均等に影響を与え、通常の行動が何かという誤った結論につながる可能性がある。 本研究は,学習データにおける外れ値に頑健な分類的かつ連続的な特徴を持つ表型データセットのための変分オートエンコーダの新たな形式を導出する。 ネットワークトラフィックデータセットの異常検出アプリケーションについて,本手法の有効性を実証した。

We propose a robust variational autoencoder with $\beta$ divergence for tabular data (RTVAE) with mixed categorical and continuous features. Variational autoencoders (VAE) and their variations are popular frameworks for anomaly detection problems. The primary assumption is that we can learn representations for normal patterns via VAEs and any deviation from that can indicate anomalies. However, the training data itself can contain outliers. The source of outliers in training data include the data collection process itself (random noise) or a malicious attacker (data poisoning) who may target to degrade the performance of the machine learning model. In either case, these outliers can disproportionately affect the training process of VAEs and may lead to wrong conclusions about what the normal behavior is. In this work, we derive a novel form of a variational autoencoder for tabular data sets with categorical and continuous features that is robust to outliers in training data. Our results on the anomaly detection application for network traffic datasets demonstrate the effectiveness of our approach.
翻訳日:2022-11-21 03:40:52 公開日:2020-06-16
# 音楽生成のためのLSTMネットワーク

LSTM Networks for Music Generation ( http://arxiv.org/abs/2006.09838v1 )

ライセンス: Link先を確認
Xin Xu(参考訳) 本稿では,LSTM(Long Short-Term Memory)に基づく楽曲生成手法を提案する。

The paper presents a method of the music generation based on LSTM (Long Short-Term Memory), contrasts the effects of different network structures on the music generation and introduces other methods used by some researchers.
翻訳日:2022-11-20 21:55:19 公開日:2020-06-16
# ShieldNN: 安全でないNNコントローラのためのおそらく安全なNNフィルタ

ShieldNN: A Provably Safe NN Filter for Unsafe NN Controllers ( http://arxiv.org/abs/2006.09564v1 )

ライセンス: Link先を確認
James Ferlez and Mahmoud Elnaggar and Yasser Shoukry and Cody Fleming(参考訳) 本稿では,任意の制御NNを組み込んだセキュア・バイ・デザイナ・リニア・ユニット(ReLU)ニューラルネットワーク(NN)を構築する際の問題点について考察する。 特に,連続時間運動自転車モデル(kbm)で生成された制御入力を安全に補正するnnフィルタを合成するアルゴリズムを提案する。 ShieldNNには2つの新しいコントリビューションがある: 1つは、KBMモデルのための新しいバリア関数(BF)に基づいており、もう1つは、安全を保証した安全フィルタNNの設計にこのBFを利用する証明可能な健全なアルゴリズムである。 さらに、KBMは四輪車の力学をよく近似することが知られているので、四輪車のCARLAシミュレーションにおけるシールドNNフィルタの有効性を示す。 特に,個々の歩行者障害物の存在下での深層強化学習におけるシールドNNフィルタの効果について検討した。 ShieldNNフィルタは障害物衝突数を99.4%-100%削減した。 さらに,トレーニング中にShieldNNを取り入れることの効果についても検討した。訓練中にShieldNNを使わなかった場合,一定の回数のエピソードに対して28%の報酬が得られた。 これは、ShieldNNがRLトレーニング中にサンプル効率を改善するというさらなる特性を持っていることを示唆している。

In this paper, we consider the problem of creating a safe-by-design Rectified Linear Unit (ReLU) Neural Network (NN), which, when composed with an arbitrary control NN, makes the composition provably safe. In particular, we propose an algorithm to synthesize such NN filters that safely correct control inputs generated for the continuous-time Kinematic Bicycle Model (KBM). ShieldNN contains two main novel contributions: first, it is based on a novel Barrier Function (BF) for the KBM model; and second, it is itself a provably sound algorithm that leverages this BF to a design a safety filter NN with safety guarantees. Moreover, since the KBM is known to well approximate the dynamics of four-wheeled vehicles, we show the efficacy of ShieldNN filters in CARLA simulations of four-wheeled vehicles. In particular, we examined the effect of ShieldNN filters on Deep Reinforcement Learning trained controllers in the presence of individual pedestrian obstacles. The safety properties of ShieldNN were borne out in our experiments: the ShieldNN filter reduced the number of obstacle collisions by 99.4%-100%. Furthermore, we also studied the effect of incorporating ShieldNN during training: for a constant number of episodes, 28% less reward was observed when ShieldNN wasn't used during training. This suggests that ShieldNN has the further property of improving sample efficiency during RL training.
翻訳日:2022-11-20 21:55:15 公開日:2020-06-16
# 流れの音響予測:自由表面への様々な液体噴流

Acoustic prediction of flowrate: varying liquid jet stream onto a free surface ( http://arxiv.org/abs/2006.09016v1 )

ライセンス: Link先を確認
Balamurali B T, Edwin Jonathan Aslim, Yun Shu Lynn Ng, Tricia Li, Chuen Kuo, Jacob Shihang Chen, Dorien Herremans, Lay Guat Ng, Jer-Ming Chen(参考訳) 液体噴流の流れに関する情報は多くの実世界の応用において重要である。 多くの場合、これらの流れは直接自由表面(例えばプール)に落下し、水しぶきを伴う水しぶきを発生させる。 発生する音は、液体噴流と受動自由表面とのエネルギー相互作用によって供給される。 本研究では,水プールに落下する流量の異なる水噴流の音を収集し,この音を用いて流量と流量の軌跡を予測した。 ひとつは、収集した音から抽出した音声特徴を用いてトレーニングされた機械学習モデルを使用して、フローレート(とフローレートの軌跡)を予測する。 対照的に、第2の方法は、液体-液体相互作用のスペクトルエネルギーに関する音響パラメータを直接使用し、流路を推定する。 しかし、実際の流量は重力法で直接決定される: プール液体の質量の変化を時間とともに追跡する。 ここでは,2つの手法が実際の流れとよく一致し,流れの軌跡を正確に予測する上で同等の性能を示し,音を用いた潜在的現実的応用に対する洞察を提供する。

Information on liquid jet stream flow is crucial in many real world applications. In a large number of cases, these flows fall directly onto free surfaces (e.g. pools), creating a splash with accompanying splashing sounds. The sound produced is supplied by energy interactions between the liquid jet stream and the passive free surface. In this investigation, we collect the sound of a water jet of varying flowrate falling into a pool of water, and use this sound to predict the flowrate and flowrate trajectory involved. Two approaches are employed: one uses machine-learning models trained using audio features extracted from the collected sound to predict the flowrate (and subsequently the flowrate trajectory). In contrast, the second method directly uses acoustic parameters related to the spectral energy of the liquid-liquid interaction to estimate the flowrate trajectory. The actual flowrate, however, is determined directly using a gravimetric method: tracking the change in mass of the pooling liquid over time. We show here that the two methods agree well with the actual flowrate and offer comparable performance in accurately predicting the flowrate trajectory, and accordingly offer insights for potential real-life applications using sound.
翻訳日:2022-11-20 21:51:09 公開日:2020-06-16
# NodeNet: ノード分類のためのグラフ正規化ニューラルネットワーク

NodeNet: A Graph Regularised Neural Network for Node Classification ( http://arxiv.org/abs/2006.09022v1 )

ライセンス: Link先を確認
Shrey Dabhi and Manojkumar Parmar(参考訳) 実世界の事象は高い相互依存と接続を示し、したがって生成されたデータポイントもリンクを継承する。 しかし、AI/ML技術の大部分は、データポイント間のリンクを排除している。 最近、グラフベースのAI/ML技術への関心が高まっている。 グラフベースの学習アルゴリズムは、データと関連する情報を効果的に利用し、優れたモデルを構築する。 ニューラルグラフ学習(Neural Graph Learning, NGL)は、従来の機械学習アルゴリズムと修正された損失関数を使ってグラフ構造のエッジを利用する手法である。 本稿では,引用グラフのノード分類タスクを解決するため,NGL-NodeNetを用いたモデルを提案する。 変更点とその課題との関連について論じる。 さらに、この結果と現在の技術状況を比較し、NodeNetの優れたパフォーマンスの理由を調査します。

Real-world events exhibit a high degree of interdependence and connections, and hence data points generated also inherit the linkages. However, the majority of AI/ML techniques leave out the linkages among data points. The recent surge of interest in graph-based AI/ML techniques is aimed to leverage the linkages. Graph-based learning algorithms utilize the data and related information effectively to build superior models. Neural Graph Learning (NGL) is one such technique that utilizes a traditional machine learning algorithm with a modified loss function to leverage the edges in the graph structure. In this paper, we propose a model using NGL - NodeNet, to solve node classification task for citation graphs. We discuss our modifications and their relevance to the task. We further compare our results with the current state of the art and investigate reasons for the superior performance of NodeNet.
翻訳日:2022-11-20 21:50:50 公開日:2020-06-16
# ネットワークスライシングシナリオにおける無線アクセスネゴシエーションのためのビデオストリーミングKQIの推定

Estimation of Video Streaming KQIs for Radio Access Negotiation in Network Slicing Scenarios ( http://arxiv.org/abs/2006.09162v1 )

ライセンス: Link先を確認
Carlos Baena, Sergio Fortes, Eduardo Baena, Raquel Barco(参考訳) マルチメディアコンテンツの利用は近年大きく増加しており、モバイルネットワークのユーザにとって最も重要なサービスの一つとなっている。 そのため、ネットワークオペレータは、最高のビデオサービスプロビジョンをサポートするためのインフラストラクチャの最適化に苦労する。 さらに5Gでは,ネットワークスライシングの概念を,ネットワーク構成と最適化のまったく異なる視点を示す新しいパラダイムとして導入している。 このスキームの主な課題は、どの特定のリソースがスライスを使用するユーザに必要なサービス品質を提供するかを確立することである。 そこで本研究では,ネットワーク低層構成パラメータとメトリクスから算出したビデオストリーミングキー品質指標(KQI)を推定することにより,スライス交渉プロセスを支援するための完全なフレームワークを提案する。 提案した推定器は実際の細胞シナリオで評価される。

The use of multimedia content has hugely increased in recent times, becoming one of the most important services for the users of mobile networks. Consequently, network operators struggle to optimize their infrastructure to support the best video service-provision. As an additional challenge, 5G introduces the concept of network slicing as a new paradigm that presents a completely different view of the network configuration and optimization. A main challenge of this scheme is to establish which specific resources would provide the necessary quality of service for the users using the slice. To address this, the present work presents a complete framework for this support of the slice negotiation process through the estimation of the provided Video Streaming Key Quality Indicators (KQIs), which are calculated from network low-layer configuration parameters and metrics. The proposed estimator is then evaluated in a real cellular scenario.
翻訳日:2022-11-20 21:50:08 公開日:2020-06-16
# 物理アウェア深層学習によるリアルタイム3次元ナノスケールコヒーレントイメージング

Real-time 3D Nanoscale Coherent Imaging via Physics-aware Deep Learning ( http://arxiv.org/abs/2006.09441v1 )

ライセンス: Link先を確認
Henry Chan, Youssef S.G. Nashed, Saugat Kandel, Stephan Hruszkewycz, Subramanian Sankaranarayanan, Ross J. Harder, Mathew J. Cherukara(参考訳) 位相検索は、測定強度だけで失われた位相情報を復元する問題であり、天文学からナノスケールイメージングまで様々な画像モダリティで広く直面している逆問題である。 現在の段階回復のプロセスは、本質的に反復的です。 その結果、画像形成には時間がかかり、計算コストがかかるようになり、リアルタイムイメージングが先立つ。 本稿では3次元ナノスケールX線イメージングを代表例として,この位相探索問題に対処する深層学習モデルを開発する。 本稿では,入力3次元X線コヒーレント散乱データからのみ3次元構造とひずみを予測するために訓練された,深層畳み込みニューラルネットワークと微分プログラミングフレームワークである3D-CDI-NNを紹介する。 x線散乱過程の物理はネットワークのトレーニングにおいて明示的に強制され、トレーニングデータは物質の物理を代表する原子論的シミュレーションから引き出される。 物理に基づく最適化手法により、ニューラルネットワークの予測をさらに洗練し、最小計算コストで最大精度を実現する。 3D-CDI-NNは、3Dコヒーレント回折パターンを実空間構造に逆転させ、従来の反復位相探索法よりも数百倍高速で精度を損なうことができる。 位相探索問題に対する我々の統合機械学習および微分プログラミングソリューションは、他の応用領域における逆問題に広く適用できる。

Phase retrieval, the problem of recovering lost phase information from measured intensity alone, is an inverse problem that is widely faced in various imaging modalities ranging from astronomy to nanoscale imaging. The current process of phase recovery is iterative in nature. As a result, the image formation is time-consuming and computationally expensive, precluding real-time imaging. Here, we use 3D nanoscale X-ray imaging as a representative example to develop a deep learning model to address this phase retrieval problem. We introduce 3D-CDI-NN, a deep convolutional neural network and differential programming framework trained to predict 3D structure and strain solely from input 3D X-ray coherent scattering data. Our networks are designed to be "physics-aware" in multiple aspects; in that the physics of x-ray scattering process is explicitly enforced in the training of the network, and the training data are drawn from atomistic simulations that are representative of the physics of the material. We further refine the neural network prediction through a physics-based optimization procedure to enable maximum accuracy at lowest computational cost. 3D-CDI-NN can invert a 3D coherent diffraction pattern to real-space structure and strain hundreds of times faster than traditional iterative phase retrieval methods, with negligible loss in accuracy. Our integrated machine learning and differential programming solution to the phase retrieval problem is broadly applicable across inverse problems in other application areas.
翻訳日:2022-11-20 21:49:47 公開日:2020-06-16
# グラフ畳み込みニューラルネットワークを用いた病理画像の可視化

Visualization for Histopathology Images using Graph Convolutional Neural Networks ( http://arxiv.org/abs/2006.09464v1 )

ライセンス: Link先を確認
Mookund Sureka, Abhijeet Patil, Deepak Anand, Amit Sethi(参考訳) 医用画像におけるコンピュータ支援診断におけるディープラーニングの利用の増加に伴い、深層学習モデルのブラックボックス性に対する批判も高まっている。 医療コミュニティは、デュー・ディリジェンスと、疾患や治療機構の理解を深めるための解釈可能なモデルが必要である。 特に組織学では、細胞レベルでの詳細な情報や細胞間の空間的関係性は豊富であるが、畳み込みニューラルネットワークを改変して関連する視覚特徴を指摘することは困難である。 病理組織を核のグラフとしてモデル化するアプローチを採用し,注意機構とリンパ節閉塞を基盤としたグラフ畳み込みネットワークフレームワークを開発した。 提案手法では,全スライド画像における各細胞核の相対的寄与を強調する。 我々は,浸潤性乳癌とin-situ性乳癌の鑑別を訓練し,Gleason 3, 4前立腺癌は診断において重要な構造を理解するのとよく一致する解釈可能な視覚マップを生成する。

With the increase in the use of deep learning for computer-aided diagnosis in medical images, the criticism of the black-box nature of the deep learning models is also on the rise. The medical community needs interpretable models for both due diligence and advancing the understanding of disease and treatment mechanisms. In histology, in particular, while there is rich detail available at the cellular level and that of spatial relationships between cells, it is difficult to modify convolutional neural networks to point out the relevant visual features. We adopt an approach to model histology tissue as a graph of nuclei and develop a graph convolutional network framework based on attention mechanism and node occlusion for disease diagnosis. The proposed method highlights the relative contribution of each cell nucleus in the whole-slide image. Our visualization of such networks trained to distinguish between invasive and in-situ breast cancers, and Gleason 3 and 4 prostate cancers generate interpretable visual maps that correspond well with our understanding of the structures that are important to experts for their diagnosis.
翻訳日:2022-11-20 21:49:23 公開日:2020-06-16
# 前処置MRIにおける腫瘍位置は、Glioblastomaの偽増殖と腫瘍再発の可能性を予測できるか? 実現可能性研究

Can tumor location on pre-treatment MRI predict likelihood of pseudo-progression versus tumor recurrence in Glioblastoma? A feasibility study ( http://arxiv.org/abs/2006.09483v1 )

ライセンス: Link先を確認
Marwa Ismail, Virginia Hill, Volodymyr Statsevych, Evan Mason, Ramon Correa, Prateek Prasanna, Gagandeep Singh, Kaustav Bera, Rajat Thawani, Anant Madabhushi, Manmeet Ahluwalia, Pallavi Tiwari(参考訳) Glioblastoma (GBM) 管理における重要な課題は, 腫瘍再発による良性放射線誘発効果である擬似予後(PsP)を, 従来の治療後の定期的な画像診断において同定することである。 従来の研究では腫瘍葉の有無と側方性はGBMの結果と相関しており、GBMの病因と進行は腫瘍の位置によって影響されることが示唆されている。 そこで本研究は, 腫瘍再発に対する偽予後を呈する患者に対して, 治療-na\"ive MRI上の腫瘍位置が早期の手がかりとなるか検討する。 今回, PsP (33) と腫瘍再発 (41) をともなう術前Glioblastoma MRI 74例について検討した。 まず、Gd-T1w MRIの病変とT2w/FLAIRの腹腔周囲肥大を鑑別し、脳のアトラスに登録した。 2つの表現型から得られた患者を用いて, 病変増悪頻度を定量化し, ボクセル強度を平均化することにより, 2つのアトラスを構築した。 次に,各アトラス間のvoxel-wise 有意差 (p-value<0.05) を計算するために,差分関係の解析を行った。 統計的に重要なクラスターは最終的に構造的アトラスにマッピングされ、その位置の解剖学的局在を提供する。 以上より, psp患者は前頭葉, 側頭葉, 腸間膜, 被膜に多発性腫瘍を認め, psp患者は前頭葉, 側頭葉に多発性腫瘍を認めた。 これらの予備的な結果は, 腫瘍再発の発生頻度をMRIで評価するために, 脳の特定の解剖学的領域に対する前処置病変の側方化が早期に可能であることを示唆している。

A significant challenge in Glioblastoma (GBM) management is identifying pseudo-progression (PsP), a benign radiation-induced effect, from tumor recurrence, on routine imaging following conventional treatment. Previous studies have linked tumor lobar presence and laterality to GBM outcomes, suggesting that disease etiology and progression in GBM may be impacted by tumor location. Hence, in this feasibility study, we seek to investigate the following question: Can tumor location on treatment-na\"ive MRI provide early cues regarding likelihood of a patient developing pseudo-progression versus tumor recurrence? In this study, 74 pre-treatment Glioblastoma MRI scans with PsP (33) and tumor recurrence (41) were analyzed. First, enhancing lesion on Gd-T1w MRI and peri-lesional hyperintensities on T2w/FLAIR were segmented by experts and then registered to a brain atlas. Using patients from the two phenotypes, we construct two atlases by quantifying frequency of occurrence of enhancing lesion and peri-lesion hyperintensities, by averaging voxel intensities across the population. Analysis of differential involvement was then performed to compute voxel-wise significant differences (p-value<0.05) across the atlases. Statistically significant clusters were finally mapped to a structural atlas to provide anatomic localization of their location. Our results demonstrate that patients with tumor recurrence showed prominence of their initial tumor in the parietal lobe, while patients with PsP showed a multi-focal distribution of the initial tumor in the frontal and temporal lobes, insula, and putamen. These preliminary results suggest that lateralization of pre-treatment lesions towards certain anatomical areas of the brain may allow to provide early cues regarding assessing likelihood of occurrence of pseudo-progression from tumor recurrence on MRI scans.
翻訳日:2022-11-20 21:49:07 公開日:2020-06-16
# セルラーネットワーク管理のためのソーシャルイベントデータの適用

Applying Social Event Data for the Management of Cellular Networks ( http://arxiv.org/abs/2006.09258v1 )

ライセンス: Link先を確認
Sergio Fortes, David Palacios, Inmaculada Serrano, Raquel Barco(参考訳) インターネットは、カレンダー、イベントアグリゲータ、ソーシャルネットワーク、ブラウザなど、さまざまなソーシャルデータソースを提供している。 また、WebサービスやセマンティックWeb、ビッグデータ技術といった、これらのソースから情報を収集するメカニズムは、よりアクセスしやすく、効率的になっています。 これにより、主なイベントとその関連する群衆の詳細な予測が可能になる。 サービス提供の要件が増大しているため、特に都市部では、これらのイベントに関する情報を持つことは、運用、管理、保守(OAM)タスクにとって極めて有用である。 そこで本稿では,ソーシャルデータの自動取得と処理,ネットワーク要素(nes)との関連性とその性能について述べる。 実際のネットワークで直接動作するように設計されたシステムの主な機能を定義し,開発する。 提案手法の異なるOAMアプリケーションを分析し,実際のデプロイでシステム評価を行う。

Internet provides a growing variety of social data sources: calendars, event aggregators, social networks, browsers, etc. Also, the mechanisms to gather information from these sources, such as web services, semantic web and big data techniques have become more accessible and efficient. This allows a detailed prediction of the main expected events and their associated crowds. Due to the increasing requirements for service provision, particularly in urban areas, having information on those events would be extremely useful for Operations, Administration and Maintenance (OAM) tasks, since the social events largely affect the cellular network performance. Therefore, this paper presents a framework for the automatic acquisition and processing of social data, as well as their association with network elements (NEs) and their performance. The main functionalities of this system, which have been devised to directly work in real networks, are defined and developed. Different OAM applications of the proposed approach are analyzed and the system is evaluated in a real deployment.
翻訳日:2022-11-20 21:43:08 公開日:2020-06-16
# IMU信号のデータ拡張と運転行動の半教師付き分類による評価

Data Augmentation of IMU Signals and Evaluation via a Semi-Supervised Classification of Driving Behavior ( http://arxiv.org/abs/2006.09267v1 )

ライセンス: Link先を確認
Amani Jaafer and Gustav Nilsson and Giacomo Como(参考訳) 過去数年間、データからドライバーの行動を分類する関心が高まっている。 このような関心は、プライバシの制約により、慣性測定ユニット(IMU)などのデータへのアクセスしかできない自動車保険会社に特に関係している。 本稿では,運転者が積極的に運転しているか,あるいは通常のIMUデータに基づいて運転しているかに応じて,旅行の一部を分類する半教師付き学習ソリューションを提案する。 ラベル付きIMUデータの量は限られてコストがかかるため,Recurrent Conditional Generative Adversarial Networks (RCGAN) を用いてラベル付きデータを生成する。 以上の結果から,rcganが生成したラベル付きデータを利用することで,ドライバの分類が79%で改善されることがわかった。

Over the past years, interest in classifying drivers' behavior from data has surged. Such interest is particularly relevant for car insurance companies who, due to privacy constraints, often only have access to data from Inertial Measurement Units (IMU) or similar. In this paper, we present a semi-supervised learning solution to classify portions of trips according to whether drivers are driving aggressively or normally based on such IMU data. Since the amount of labeled IMU data is limited and costly to generate, we utilize Recurrent Conditional Generative Adversarial Networks (RCGAN) to generate more labeled data. Our results show that, by utilizing RCGAN-generated labeled data, the classification of the drivers is improved in 79% of the cases, compared to when the drivers are classified with no generated data.
翻訳日:2022-11-20 21:42:53 公開日:2020-06-16
# 振動計測による自己診断断層の時間的クラスタリングネットワーク

Temporal clustering network for self-diagnosing faults from vibration measurements ( http://arxiv.org/abs/2006.09505v1 )

ライセンス: Link先を確認
G. Zhang (Michigan Engineering Services), A. R. Singer (Michigan Engineering Services), N. Vlahopoulos (University of Michigan)(参考訳) オペレーティングシステムの健全性を定量化し、障害の発生を自己診断するために、運用機械にインテリジェンスを構築し、監視された信号にデータ分析を使用する必要がある。 内蔵された制御手順は、障害の診断時に破滅的な失敗を避けるために、自動的に修正措置を取ることができる。 本稿では,オペレーティングシステム上で発生した加速度測定(機械基礎,機械ケーシングなど)を処理し,異常発生時の監視信号に基づいて時間的クラスタリングネットワーク(TCN)機能を提案する。 The new capability uses: one-dimensional convolutional neural networks (1D-CNN) for processing the measurements; unsupervised learning (i.e. no labeled signals from the different operating conditions and no signals at pristine vs. damaged conditions are necessary for training the 1D-CNN); clustering (i.e. grouping signals in different clusters reflective of the operating conditions); and statistical analysis for identifying fault signals that are not members of any of the clusters associated with the pristine operating conditions. その動作を示すケーススタディが論文に含まれている。 最後に、さらなる研究のトピックが特定される。

There is a need to build intelligence in operating machinery and use data analysis on monitored signals in order to quantify the health of the operating system and self-diagnose any initiations of fault. Built-in control procedures can automatically take corrective actions in order to avoid catastrophic failure when a fault is diagnosed. This paper presents a Temporal Clustering Network (TCN) capability for processing acceleration measurement(s) made on the operating system (i.e. machinery foundation, machinery casing, etc.), or any other type of temporal signals, and determine based on the monitored signal when a fault is at its onset. The new capability uses: one-dimensional convolutional neural networks (1D-CNN) for processing the measurements; unsupervised learning (i.e. no labeled signals from the different operating conditions and no signals at pristine vs. damaged conditions are necessary for training the 1D-CNN); clustering (i.e. grouping signals in different clusters reflective of the operating conditions); and statistical analysis for identifying fault signals that are not members of any of the clusters associated with the pristine operating conditions. A case study demonstrating its operation is included in the paper. Finally topics for further research are identified.
翻訳日:2022-11-20 21:41:34 公開日:2020-06-16
# 血管インターベンションにおけるオプティカルフローガイドドワープによるエンド・ツー・エンドリアルタイムカテーテル・セグメンテーション

End-to-End Real-time Catheter Segmentation with Optical Flow-Guided Warping during Endovascular Intervention ( http://arxiv.org/abs/2006.09117v1 )

ライセンス: Link先を確認
Anh Nguyen, Dennis Kundrat, Giulio Dagnino, Wenqiang Chi, Mohamed E. M. K. Abdelaziz, Yao Guo, YingLiang Ma, Trevor M. Y. Kwok, Celia Riga, and Guang-Zhong Yang(参考訳) 正確なリアルタイムカテーテルセグメンテーションは、ロボットによる血管内インターベンションにおいて重要な前提条件である。 既存の学習に基づくカテーテルのセグメンテーションと追跡の手法のほとんどは、地上構造アノテーションの難しさのために、小規模なデータセットや合成データでのみ訓練されている。 また,術中画像の時間的連続性は完全には利用されない。 本稿では,血管内介入のためのエンドツーエンドおよびリアルタイムディープラーニングフレームワークであるFW-Netを提案する。 提案するfw-netには,エンコーダデコーダアーキテクチャを用いたセグメンテーションネットワーク,光フロー情報を抽出するフローネットワーク,フレーム間時間連続性を学習するための新しいフロー誘導型ワーピング関数の3つのモジュールがある。 ネットワークは, 時間的連続性を効果的に学習することにより, 生の接地のみを用いて, カテーテルをリアルタイムにセグメンテーションし追跡することに成功した。 詳細な検証結果から,fw-netはリアルタイム性能を実現しつつ,最先端技術よりも優れています。

Accurate real-time catheter segmentation is an important pre-requisite for robot-assisted endovascular intervention. Most of the existing learning-based methods for catheter segmentation and tracking are only trained on small-scale datasets or synthetic data due to the difficulties of ground-truth annotation. Furthermore, the temporal continuity in intraoperative imaging sequences is not fully utilised. In this paper, we present FW-Net, an end-to-end and real-time deep learning framework for endovascular intervention. The proposed FW-Net has three modules: a segmentation network with encoder-decoder architecture, a flow network to extract optical flow information, and a novel flow-guided warping function to learn the frame-to-frame temporal continuity. We show that by effectively learning temporal continuity, the network can successfully segment and track the catheters in real-time sequences using only raw ground-truth for training. Detailed validation results confirm that our FW-Net outperforms state-of-the-art techniques while achieving real-time performance.
翻訳日:2022-11-20 21:41:06 公開日:2020-06-16
# マルチデバイス環境におけるタイピングパターンからのソフトバイオメトリックス推定について

On the Inference of Soft Biometrics from Typing Patterns Collected in a Multi-device Environment ( http://arxiv.org/abs/2006.09501v1 )

ライセンス: Link先を確認
Vishaal Udandarao and Mohit Agrawal and Rajesh Kumar and Rajiv Ratn Shah(参考訳) 本稿では,マルチデバイス環境における117人の個人から収集した入力パターンから,性別,メジャー/マイナー(コンピュータ科学,非コンピュータ科学),タイピングスタイル,年齢,身長を推定する。 最初の3つの識別子の推論は分類タスクとして、残りは回帰タスクとして考慮された。 分類タスクでは、6つの古典的機械学習(ML)と4つのディープラーニング(DL)分類器のパフォーマンスをベンチマークする。 一方,回帰作業では3つのMLと4つのDLベースの回帰器を評価した。 全体的な実験は、2つのテキスト入力(無料と固定)と4つのデバイス(デスクトップ、タブレット、電話、複合)で構成された。 ベストアレンジメントはそれぞれ96.15%, 93.02%, 87.80%のタイプスタイル, 性別, メジャー/マイナーで, 絶対誤差は1.77歳, 身長2.65インチであった。 この研究で挙げられた様々なアプリケーションシナリオを考慮して、結果は有望です。

In this paper, we study the inference of gender, major/minor (computer science, non-computer science), typing style, age, and height from the typing patterns collected from 117 individuals in a multi-device environment. The inference of the first three identifiers was considered as classification tasks, while the rest as regression tasks. For classification tasks, we benchmark the performance of six classical machine learning (ML) and four deep learning (DL) classifiers. On the other hand, for regression tasks, we evaluated three ML and four DL-based regressors. The overall experiment consisted of two text-entry (free and fixed) and four device (Desktop, Tablet, Phone, and Combined) configurations. The best arrangements achieved accuracies of 96.15%, 93.02%, and 87.80% for typing style, gender, and major/minor, respectively, and mean absolute errors of 1.77 years and 2.65 inches for age and height, respectively. The results are promising considering the variety of application scenarios that we have listed in this work.
翻訳日:2022-11-20 21:40:49 公開日:2020-06-16
# 直接ヒューリスティック動的プログラミングによるオンライン強化学習制御:時間駆動からイベント駆動へ

Online Reinforcement Learning Control by Direct Heuristic Dynamic Programming: from Time-Driven to Event-Driven ( http://arxiv.org/abs/2006.08938v1 )

ライセンス: Link先を確認
Qingtao Zhao, Jennie Si, Jian Sun(参考訳) 本稿では、新しいデータが到着すると予測モデル内のパラメータを継続的に更新する機械学習手法について述べる。 既存の近似動的プログラミング (ADP) と強化学習 (RL) アルゴリズムのうち, 直接ヒューリスティック動的プログラミング (dHDP) は, 複雑な学習制御問題の解法として有効であることが示された。 制御ポリシーと批判を継続的に更新し、システム状態は継続的に進化する。 したがって、ノイズ等の無意味なシステムイベントによる時間駆動dhdpの更新を防止することが望ましい。 そこで我々は,新しいイベント駆動型dHDPを提案する。 Lyapunov関数候補を構築することにより、システム状態の統一的な境界性(UUB)と、批判者および制御ポリシーネットワークの重みを証明できる。 その結果,有限境界内のベルマン最適度に接近する近似制御とコスト・ツー・ゴー関数を示す。 また、イベント駆動型dHDPアルゴリズムが、もともとの時間駆動型dHDPと比較してどのように機能するかを示す。

In this paper time-driven learning refers to the machine learning method that updates parameters in a prediction model continuously as new data arrives. Among existing approximate dynamic programming (ADP) and reinforcement learning (RL) algorithms, the direct heuristic dynamic programming (dHDP) has been shown an effective tool as demonstrated in solving several complex learning control problems. It continuously updates the control policy and the critic as system states continuously evolve. It is therefore desirable to prevent the time-driven dHDP from updating due to insignificant system event such as noise. Toward this goal, we propose a new event-driven dHDP. By constructing a Lyapunov function candidate, we prove the uniformly ultimately boundedness (UUB) of the system states and the weights in the critic and the control policy networks. Consequently we show the approximate control and cost-to-go function approaching Bellman optimality within a finite bound. We also illustrate how the event-driven dHDP algorithm works in comparison to the original time-driven dHDP.
翻訳日:2022-11-20 21:40:30 公開日:2020-06-16
# AcED: 高精度かつエッジ一貫性のある単眼深度推定

AcED: Accurate and Edge-consistent Monocular Depth Estimation ( http://arxiv.org/abs/2006.09243v1 )

ライセンス: Link先を確認
Kunal Swami, Prasanna Vishnu Bondada, Pankaj Kumar Bajpai(参考訳) 単一画像深度推定は難しい問題である。 現在の最先端の手法は、問題を順序回帰の方法として定式化する。 しかし、定式化は完全微分可能ではなく、深さ写像はエンドツーエンドで生成されない。 この手法は,1ピクセルあたりの深度ラベルを決定するために,na\"5"しきい値戦略を用いる。 完全に微分可能な順序回帰を初めて定式化し、エンドツーエンドでネットワークをトレーニングします。 これにより、最適化関数に境界制約と滑らか性制約を組み込むことができ、滑らかでエッジに一貫性のある深度写像が得られる。 深度補正のための画素ごとの信頼度マップ計算も提案した。 提案手法の大規模評価は,最近の最先端手法よりも,定量的かつ定性的に優れていることを示す。 さらに,実生活における課題の画像の社内データセットを用いて,シングルカメラボケソリューションの実用性を実証した。

Single image depth estimation is a challenging problem. The current state-of-the-art method formulates the problem as that of ordinal regression. However, the formulation is not fully differentiable and depth maps are not generated in an end-to-end fashion. The method uses a na\"ive threshold strategy to determine per-pixel depth labels, which results in significant discretization errors. For the first time, we formulate a fully differentiable ordinal regression and train the network in end-to-end fashion. This enables us to include boundary and smoothness constraints in the optimization function, leading to smooth and edge-consistent depth maps. A novel per-pixel confidence map computation for depth refinement is also proposed. Extensive evaluation of the proposed model on challenging benchmarks reveals its superiority over recent state-of-the-art methods, both quantitatively and qualitatively. Additionally, we demonstrate practical utility of the proposed method for single camera bokeh solution using in-house dataset of challenging real-life images.
翻訳日:2022-11-20 21:33:34 公開日:2020-06-16
# iot edgeデバイス上で分散畳み込みニューラルネットワークはどの程度セキュアか?

How Secure is Distributed Convolutional Neural Network on IoT Edge Devices? ( http://arxiv.org/abs/2006.09276v1 )

ライセンス: Link先を確認
Hawzhin Mohammed, Tolulope A. Odetola, Syed Rafay Hasan(参考訳) 畳み込みニューラルネットワーク(CNN)は多くのアプリケーションで成功している。 CNNのリソース制約のあるエッジデバイスへの展開は困難であることが証明された。 異なるエッジデバイスにまたがる分散デプロイメントが採用されている。 本稿では,異なるノード間の分散エッジネットワークに展開するCNNに対するトロイの木馬攻撃を提案する。 分散CNN推論のための5つのステルス攻撃シナリオを提案する。 これらの攻撃はトリガーとペイロード回路に分けられる。 これらの攻撃はディープラーニングモデル(LeNet、AlexNet)でテストされる。 結果は、個々の層の脆弱性の程度と、最終分類にどれほど重要かを示している。

Convolutional Neural Networks (CNN) has found successful adoption in many applications. The deployment of CNN on resource-constrained edge devices have proved challenging. CNN distributed deployment across different edge devices has been adopted. In this paper, we propose Trojan attacks on CNN deployed across a distributed edge network across different nodes. We propose five stealthy attack scenarios for distributed CNN inference. These attacks are divided into trigger and payload circuitry. These attacks are tested on deep learning models (LeNet, AlexNet). The results show how the degree of vulnerability of individual layers and how critical they are to the final classification.
翻訳日:2022-11-20 21:33:20 公開日:2020-06-16
# 多エージェントロボット組立計画のための最適順序タスク割り当てと経路探索

Optimal Sequential Task Assignment and Path Finding for Multi-Agent Robotic Assembly Planning ( http://arxiv.org/abs/2006.08845v1 )

ライセンス: Link先を確認
Kyle Brown, Oriana Peltzer, Martin A. Sehr, Mac Schwager, Mykel J. Kochenderfer(参考訳) タスク間優先制約(例えば、タスク$A$とタスク$B$は、タスク$C$が始まる前に完了しなければならない)を持つアプリケーションにおいて、タスクの逐次割り当てと衝突不要なルーティングの問題を調査する。 このような問題は、ロボット製造アプリケーションのための組み立て計画においてよく起こり、最終製品を形成するにはサブアセンブリを組み立てる必要がある。 問題に対する最適解を求めるための階層的アルゴリズムを提案する。 このアルゴリズムは、ランダムに生成された一連の問題インスタンスで評価され、ロボットは、"工場的"グリッドの世界環境において、ステーション間でオブジェクトを移動しなければならない。 さらに, 本アルゴリズムの出力が非ホロノミック微分駆動ロボットの衝突のない軌道生成に有効であることを示す。

We study the problem of sequential task assignment and collision-free routing for large teams of robots in applications with inter-task precedence constraints (e.g., task $A$ and task $B$ must both be completed before task $C$ may begin). Such problems commonly occur in assembly planning for robotic manufacturing applications, in which sub-assemblies must be completed before they can be combined to form the final product. We propose a hierarchical algorithm for computing makespan-optimal solutions to the problem. The algorithm is evaluated on a set of randomly generated problem instances where robots must transport objects between stations in a "factory "grid world environment. In addition, we demonstrate in high-fidelity simulation that the output of our algorithm can be used to generate collision-free trajectories for non-holonomic differential-drive robots.
翻訳日:2022-11-20 21:32:24 公開日:2020-06-16
# Lio - 人間とロボットのインタラクションとケアのためのパーソナルロボットアシスタント

Lio -- A Personal Robot Assistant for Human-Robot Interaction and Care Applications ( http://arxiv.org/abs/2006.09019v1 )

ライセンス: Link先を確認
Justinas Miseikis, Pietro Caroni, Patricia Duchamp, Alina Gasser, Rastislav Marko, Nelija Miseikiene, Frederik Zwilling, Charles de Castelbajac, Lucas Eicher, Michael Fruh, Hansruedi Fruh(参考訳) Lioはモバイルロボットプラットフォームで、人間とロボットのインタラクションとパーソナルケアアシスタントタスクのために設計された多機能アームを備えている。 このロボットは、すでにいくつかの医療施設に配備されており、自律的に機能し、スタッフや患者を日常的に支援している。 lioは、ソフトな人工材料に完全なカバレッジを持ち、衝突検出、速度制限、力を持つことで、本質的に安全である。 さらに、ロボットは、対応するモーションコントローラを有する。 安全なナビゲーションと環境理解のために、視覚、オーディオ、レーザー、超音波、機械式センサーの組み合わせが使用される。 ros対応のセットアップにより、研究者は生のセンサーデータにアクセスでき、ロボットを直接コントロールできる。 lioの親しみやすい外観のおかげで、ロボットは医療スタッフや患者に受け入れられるようになった。 完全に自律的な操作は、柔軟な決定エンジン、自律ナビゲーション、自動リチャージによって可能となる。 時間スケジュールのタスクトリガと組み合わせることで、Lioは一日中稼働でき、バッテリー寿命は最大8時間、アイドル時には充電できる。 強力なオンボードコンピューティングユニットの組み合わせは、人工知能とディープラーニングベースのソリューションを、クラウドサービスに機密データを送らずにロボット上に展開するために必要な処理能力を提供する。 新型コロナウイルス(COVID-19)パンデミックの間、Lioは急速に調整され、消毒や遠隔での体温測定などの追加機能を実現した。 ISO13482 - パーソナルケアロボットの安全要件に準拠しており、直接テストし、医療施設に配備することができる。

Lio is a mobile robot platform with a multi-functional arm explicitly designed for human-robot interaction and personal care assistant tasks. The robot has already been deployed in several health care facilities, where it is functioning autonomously, assisting staff and patients on an everyday basis. Lio is intrinsically safe by having full coverage in soft artificial-leather material as well as having collision detection, limited speed and forces. Furthermore, the robot has a compliant motion controller. A combination of visual, audio, laser, ultrasound and mechanical sensors are used for safe navigation and environment understanding. The ROS-enabled setup allows researchers to access raw sensor data as well as have direct control of the robot. The friendly appearance of Lio has resulted in the robot being well accepted by health care staff and patients. Fully autonomous operation is made possible by a flexible decision engine, autonomous navigation and automatic recharging. Combined with time-scheduled task triggers, this allows Lio to operate throughout the day, with a battery life of up to 8 hours and recharging during idle times. A combination of powerful on-board computing units provides enough processing power to deploy artificial intelligence and deep learning-based solutions on-board the robot without the need to send any sensitive data to cloud services, guaranteeing compliance with privacy requirements. During the COVID-19 pandemic, Lio was rapidly adjusted to perform additional functionality like disinfection and remote elevated body temperature detection. It complies with ISO13482 - Safety requirements for personal care robots, meaning it can be directly tested and deployed in care facilities.
翻訳日:2022-11-20 21:32:09 公開日:2020-06-16
# 長期空間時間予測のための動的注意の保存

Preserving Dynamic Attention for Long-Term Spatial-Temporal Prediction ( http://arxiv.org/abs/2006.08849v1 )

ライセンス: Link先を確認
Haoxing Lin, Rufan Bai, Weijia Jia, Xinyu Yang, Yongjian You(参考訳) 都市別データマイニングシステムでは,長期的有効予測がますます求められている。 事故防止や資源の事前配置といった多くの実用化には、準備期間の延長が必要である。 しかし、長期予測は非常にエラーに敏感であり、複雑な空間的時間的相関を伴う都市的な現象を予測する場合には、より重要となる。 特に、貴重な相関の量が限られているため、非常に無関係な特徴は、予測エラーの増加を引き起こすノイズをもたらす。 さらに、各時間ステップの後に、エラーは相関を通り抜け、将来の予測ごとに空間的-時間的位置に到達することができ、重大なエラー伝播を引き起こす。 これらの問題に対処するため、入力と出力の相関を明示的に測定する新しいマルチスペース注意機構を備えた動的スイッチ注意ネットワーク(DSAN)を提案する。 無関係なノイズをフィルタリングし、誤り伝播を緩和するため、dsanはノイズ入力に自己アテンションを適用して価値情報を動的に抽出し、各出力をスイッチアテンション機構を実装して清浄された入力に直接ブリッジする。 2つの時空間予測タスクに関する広範な実験を通じて、DSANの短期的および長期的予測における優位性を示す。

Effective long-term predictions have been increasingly demanded in urban-wise data mining systems. Many practical applications, such as accident prevention and resource pre-allocation, require an extended period for preparation. However, challenges come as long-term prediction is highly error-sensitive, which becomes more critical when predicting urban-wise phenomena with complicated and dynamic spatial-temporal correlation. Specifically, since the amount of valuable correlation is limited, enormous irrelevant features introduce noises that trigger increased prediction errors. Besides, after each time step, the errors can traverse through the correlations and reach the spatial-temporal positions in every future prediction, leading to significant error propagation. To address these issues, we propose a Dynamic Switch-Attention Network (DSAN) with a novel Multi-Space Attention (MSA) mechanism that measures the correlations between inputs and outputs explicitly. To filter out irrelevant noises and alleviate the error propagation, DSAN dynamically extracts valuable information by applying self-attention over the noisy input and bridges each output directly to the purified inputs via implementing a switch-attention mechanism. Through extensive experiments on two spatial-temporal prediction tasks, we demonstrate the superior advantage of DSAN in both short-term and long-term predictions.
翻訳日:2022-11-20 21:31:43 公開日:2020-06-16
# 自己教師付き学習による複雑なナビゲーション行動を可能にするロボット知覚

Robot Perception enables Complex Navigation Behavior via Self-Supervised Learning ( http://arxiv.org/abs/2006.08967v1 )

ライセンス: Link先を確認
Marvin Chanc\'an and Michael Milford(参考訳) ロボットシステムにおけるビジュモータ制御の学習は,長期的自律性を目指す上での基本的な問題である。 しかし、近年の教師あり学習に基づく視覚・運動認識システムは、限られた能力で別々に構築されることが多いが、受動視覚計測(VO)や移動ロボットの視覚的ローカライゼーションのような少数の行動スキルに制限されている。 本稿では,これらのロボット認識システムを,強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクに統一するアプローチを提案する。 本手法は,1つの画像列から直接自己スーパービジョンを用いて得られるコンパクトな動きと視覚知覚データを時間的に組み込んで,複雑な目標指向ナビゲーションスキルを実現する。 我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。 その結果、視覚のみのナビゲーションシステムでは30%に対して、昼から夜のサイクルのような極端な環境変化を80%の成功率で正確に一般化できることがわかった。

Learning visuomotor control policies in robotic systems is a fundamental problem when aiming for long-term behavioral autonomy. Recent supervised-learning-based vision and motion perception systems, however, are often separately built with limited capabilities, while being restricted to few behavioral skills such as passive visual odometry (VO) or mobile robot visual localization. Here we propose an approach to unify those successful robot perception systems for active target-driven navigation tasks via reinforcement learning (RL). Our method temporally incorporates compact motion and visual perception data - directly obtained using self-supervision from a single image sequence - to enable complex goal-oriented navigation skills. We demonstrate our approach on two real-world driving dataset, KITTI and Oxford RobotCar, using the new interactive CityLearn framework. The results show that our method can accurately generalize to extreme environmental changes such as day to night cycles with up to an 80% success rate, compared to 30% for a vision-only navigation systems.
翻訳日:2022-11-20 21:31:13 公開日:2020-06-16
# seoの視点から見たクエリインテント検出

Query Intent Detection from the SEO Perspective ( http://arxiv.org/abs/2006.09119v1 )

ライセンス: Link先を確認
Samin Mohammadi, Mathieu Chapon, Arthur Fremond(参考訳) Googleユーザは、情報取得、製品購入、サービスの比較やシミュレーション、製品検索など、クエリから異なる意図を持っている。 ユーザの正しい意図を理解することは、提供に役立つ 一 検索エンジン最適化(SEO)の観点からウェブページ上のより良いコンテンツ 二 検索エンジンの観点からよりユーザー満足度の高い結果 本研究では,Google検索結果と機械学習手法を利用してユーザクエリの意図を特定することを目的とする。 提案手法は,クエリの意図を検出するためにいくつかの機能を利用するクラスタリングモデルである。 クラスタ化されたクエリから抽出されたキーワードのリストは、与えられた新しいクエリの意図を特定するために使用される。 クラスタリング結果とフィルタキーワードで予測された意図を比較すると,抽出したキーワードの効率性を示す。

Google users have different intents from their queries such as acquiring information, buying products, comparing or simulating services, looking for products, and so on. Understanding the right intention of users helps to provide i) better content on web pages from the Search Engine Optimization (SEO) perspective and ii) more user-satisfying results from the search engine perspective. In this study, we aim to identify the user query's intent by taking advantage of Google results and machine learning methods. Our proposed approach is a clustering model that exploits some features to detect query's intent. A list of keywords extracted from the clustered queries is used to identify the intent of a new given query. Comparing the clustering results with the intents predicted by filtered keywords show the efficiency of the extracted keywords for detecting intents.
翻訳日:2022-11-20 21:30:55 公開日:2020-06-16
# 機械学習システムの品質管理

Quality Management of Machine Learning Systems ( http://arxiv.org/abs/2006.09529v1 )

ライセンス: Link先を確認
P. Santhanam(参考訳) 過去10年間で、機械学習(ML)技術の大きな進歩により、人工知能(AI)は私たちの日常生活の一部になっています。 生のai技術やインターネット上の消費者向けアプリケーションにおける爆発的な成長にもかかわらず、ビジネスアプリケーションへの採用は著しく遅れている。 ビジネス/ミッションクリティカルなシステムでは、AIアプリケーションの信頼性と保守性に関する深刻な懸念が残っている。 出力の統計的性質のため、ソフトウェア「欠陥」は明確に定義されていない。 そのため、プログラムデバッグ、静的コード分析、機能テストなど、多くの従来の品質管理手法を再評価する必要がある。 AIモデルの正確性以外にも、公正性、堅牢性、説明可能性、透明性など、多くの新しい品質特性が、AIシステムを提供する上で重要である。 本研究の目的は,MLアプリケーションのための総合的な品質管理フレームワークの展望と,より信頼性の高いAIを実現するためのソフトウェア工学研究の新たな分野を特定することである。

In the past decade, Artificial Intelligence (AI) has become a part of our daily lives due to major advances in Machine Learning (ML) techniques. In spite of an explosive growth in the raw AI technology and in consumer facing applications on the internet, its adoption in business applications has conspicuously lagged behind. For business/mission-critical systems, serious concerns about reliability and maintainability of AI applications remain. Due to the statistical nature of the output, software 'defects' are not well defined. Consequently, many traditional quality management techniques such as program debugging, static code analysis, functional testing, etc. have to be reevaluated. Beyond the correctness of an AI model, many other new quality attributes, such as fairness, robustness, explainability, transparency, etc. become important in delivering an AI system. The purpose of this paper is to present a view of a holistic quality management framework for ML applications based on the current advances and identify new areas of software engineering research to achieve a more trustworthy AI.
翻訳日:2022-11-20 21:24:40 公開日:2020-06-16
# シェープリー値を用いた人口特徴量の効率的な非パラメトリック統計的推定

Efficient nonparametric statistical inference on population feature importance using Shapley values ( http://arxiv.org/abs/2006.09481v1 )

ライセンス: Link先を確認
Brian D. Williamson and Jean Feng(参考訳) 予測タスクにおける変数の真の集団レベルの重要性は、基礎となるデータ生成メカニズムに関する有用な知識を提供し、その後の実験で収集する測定値を決定するのに役立つ。 この重要性に関する統計的推測は、関心の人口を理解する上で重要な要素である。 本稿では,SPVIM(Shapley Population Variable Importance Measure)を用いて,有効統計量の推定と推定を行う。 真の SPVIM の計算複雑性は変数の数に比例して指数関数的にスケールするが, ランダムサンプリングのみを$\Theta(n)$ とする特徴部分集合を$n$ とする推定器を提案する。 推定器が漸近的に最適な速度で収束することを示す。 さらに、推定器の漸近分布を導出することにより、有効な信頼区間と仮説テストを構築する。 本手法はシミュレーションにおける有限サンプル性能が良好であり,院内死亡予測タスクでは,異なる機械学習アルゴリズムを適用した場合と同様の変数重要度推定を行う。

The true population-level importance of a variable in a prediction task provides useful knowledge about the underlying data-generating mechanism and can help in deciding which measurements to collect in subsequent experiments. Valid statistical inference on this importance is a key component in understanding the population of interest. We present a computationally efficient procedure for estimating and obtaining valid statistical inference on the Shapley Population Variable Importance Measure (SPVIM). Although the computational complexity of the true SPVIM scales exponentially with the number of variables, we propose an estimator based on randomly sampling only $\Theta(n)$ feature subsets given $n$ observations. We prove that our estimator converges at an asymptotically optimal rate. Moreover, by deriving the asymptotic distribution of our estimator, we construct valid confidence intervals and hypothesis tests. Our procedure has good finite-sample performance in simulations, and for an in-hospital mortality prediction task produces similar variable importance estimates when different machine learning algorithms are applied.
翻訳日:2022-11-20 21:24:05 公開日:2020-06-16
# 自動音声認識のためのエンドツーエンドコード切り替え言語モデル

End-to-End Code Switching Language Models for Automatic Speech Recognition ( http://arxiv.org/abs/2006.08870v1 )

ライセンス: Link先を確認
Ahan M. R., Shreyas Sunil Kulkarni(参考訳) 本稿では,特に,世界各国のバイリンガルコミュニティでよく見られる,コード交換テキストについて述べる。 自動音声認識(asr)モジュールからの符号切り換えテキストの抽出における不一致から、符号切り換えテキストから単言語テキストを抽出することにより、bertや他の機械翻訳モデルのような深い双方向言語モデル(lm)を用いて単言語テキストを抽出する手法を提案し、また、asrモデルから符号切り換えテキストを抽出する異なる方法を検討する。 また,このモデルのロバスト性について,パープレキシティやwerなどの他の指標と,外部情報のない標準バイリンガルテキスト出力を比較して説明する。

In this paper, we particularly work on the code-switched text, one of the most common occurrences in the bilingual communities across the world. Due to the discrepancies in the extraction of code-switched text from an Automated Speech Recognition(ASR) module, and thereby extracting the monolingual text from the code-switched text, we propose an approach for extracting monolingual text using Deep Bi-directional Language Models(LM) such as BERT and other Machine Translation models, and also explore different ways of extracting code-switched text from the ASR model. We also explain the robustness of the model by comparing the results of Perplexity and other different metrics like WER, to the standard bi-lingual text output without any external information.
翻訳日:2022-11-20 21:23:45 公開日:2020-06-16
# 社会科学における学術論文からの因果知識抽出

Causal Knowledge Extraction from Scholarly Papers in Social Sciences ( http://arxiv.org/abs/2006.08904v1 )

ライセンス: Link先を確認
Victor Zitian Chen, Felipe Montano-Campos and Wlodek Zadrozny(参考訳) 今日の学術論文の規模と範囲は、知識をタイムリーに消化し、合成しようとする圧倒的な人間研究者である。 本稿では,自然言語処理(nlp)モデルを開発し,社会科学における学術論文からの関係抽出の速度を加速し,これらの論文から仮説を特定し,原因・影響要素を抽出する。 具体的には モデルを開発し 1)ビジネスにおける学術文書の文章の分類と管理を仮説(仮説分類)として分類する。 2) これらの仮説を因果関係に分類し(因果分類)、因果関係を因果関係とする場合 3)これらの仮説(エンティティ抽出)から原因と効果の実体を抽出する。 異なるモデリング技術を用いて、3つのタスクすべてで高いパフォーマンスを達成しました。 我々のアプローチは、幅広い社会科学の学術文献だけでなく、他の種類のテキスト資料にも一般化できるかもしれない。

The scale and scope of scholarly articles today are overwhelming human researchers who seek to timely digest and synthesize knowledge. In this paper, we seek to develop natural language processing (NLP) models to accelerate the speed of extraction of relationships from scholarly papers in social sciences, identify hypotheses from these papers, and extract the cause-and-effect entities. Specifically, we develop models to 1) classify sentences in scholarly documents in business and management as hypotheses (hypothesis classification), 2) classify these hypotheses as causal relationships or not (causality classification), and, if they are causal, 3) extract the cause and effect entities from these hypotheses (entity extraction). We have achieved high performance for all the three tasks using different modeling techniques. Our approach may be generalizable to scholarly documents in a wide range of social sciences, as well as other types of textual materials.
翻訳日:2022-11-20 21:23:30 公開日:2020-06-16
# MBES画像のノイズフォワードにおける深層学習に基づく魚のセグメンテーション

Deep Learning based Segmentation of Fish in Noisy Forward Looking MBES Images ( http://arxiv.org/abs/2006.09034v1 )

ライセンス: Link先を確認
Jesper Haahr Christensen, Lars Valdemar Mogensen, Ole Ravn(参考訳) 本研究では,前向きマルチビームエコー法(MBES)によって生成された雑音の多い低解像度画像の小さなデータセットにおいて,魚のセグメンテーションに対するディープラーニング(DL)アプローチを検討する。 本稿では,意味セグメンテーションのためのdlおよび畳み込みニューラルネットワーク(cnns)の最近の進歩と,イメージングソナーによって投影される全ての範囲方位位置に対する魚・非魚の確率予測へのエンドツーエンドアプローチを実証する。 デンマークの音響とフェロー諸島からの自己収集データセットを用いて,モデルの訓練とテストを行い,低容量データセットでも満足できる性能と一般化を得る手法を提案する。 我々は,本モデルが望まれる性能を証明し,意味的文脈の重要性を活かし,現実の目標からノイズや非ターゲットを分離することを学習したことを示す。 さらに,低コストな組込みプラットフォームにモデルをデプロイして,コンピューティングとパワーがサイズ/コストで制限されるエッジ環境 - テストとプロトタイピング - に適合させる手法を提案する。

In this work, we investigate a Deep Learning (DL) approach to fish segmentation in a small dataset of noisy low-resolution images generated by a forward-looking multibeam echosounder (MBES). We build on recent advances in DL and Convolutional Neural Networks (CNNs) for semantic segmentation and demonstrate an end-to-end approach for a fish/non-fish probability prediction for all range-azimuth positions projected by an imaging sonar. We use self-collected datasets from the Danish Sound and the Faroe Islands to train and test our model and present techniques to obtain satisfying performance and generalization even with a low-volume dataset. We show that our model proves the desired performance and has learned to harness the importance of semantic context and take this into account to separate noise and non-targets from real targets. Furthermore, we present techniques to deploy models on low-cost embedded platforms to obtain higher performance fit for edge environments - where compute and power are restricted by size/cost - for testing and prototyping.
翻訳日:2022-11-20 21:22:59 公開日:2020-06-16
# 単一エッジオクルダーによる2次元非視線シーン推定

Two-Dimensional Non-Line-of-Sight Scene Estimation from a Single Edge Occluder ( http://arxiv.org/abs/2006.09241v1 )

ライセンス: Link先を確認
Sheila W. Seidel, John Murray-Bruce, Yanting Ma, Christopher Yu, William T. Freeman, and Vivek K Goyal(参考訳) パッシブ非視線撮像法は、アクティブな装置よりも高速でステルス性が高く、複雑で高価な装置を必要とすることが多い。 しかし、これらの手法の多くはオクルーダーや隠れたシーンの動作を利用するか、複雑なオクルーダーの知識やキャリブレーションを必要とする。 壁の端は、既知のユビキタスなオクルディング構造であり、その背後に隠された領域を撮像するための開口部として使用できる。 角の周りからの光が床に投げられ、鋭い影ではなく扇状のペナンブラを形成する。 ペナブラの変種は、隠れたシーンに関する顕著な量の情報を含んでいる。 従来の作業では、エッジの垂直な性質を活用して、ペナブラの1枚の写真から、動きと静止した風景を1D(角の周囲の角度)で再現した。 本稿では,第2の再構成次元(エッジから測る範囲)を導入する。 我々は,放射状落下を考慮した新しい前方モデルを求め,ペナンブラの1枚の写真から2次元再構成を行う2つの逆アルゴリズムを提案する。 両方のアルゴリズムの性能は、複数の異なるシーン構成に対応する実験データで示される。 Cramer-Rao境界解析は、2Dコーナーカメラの実現可能性(および実用性)をさらに示す。

Passive non-line-of-sight imaging methods are often faster and stealthier than their active counterparts, requiring less complex and costly equipment. However, many of these methods exploit motion of an occluder or the hidden scene, or require knowledge or calibration of complicated occluders. The edge of a wall is a known and ubiquitous occluding structure that may be used as an aperture to image the region hidden behind it. Light from around the corner is cast onto the floor forming a fan-like penumbra rather than a sharp shadow. Subtle variations in the penumbra contain a remarkable amount of information about the hidden scene. Previous work has leveraged the vertical nature of the edge to demonstrate 1D (in angle measured around the corner) reconstructions of moving and stationary hidden scenery from as little as a single photograph of the penumbra. In this work, we introduce a second reconstruction dimension: range measured from the edge. We derive a new forward model, accounting for radial falloff, and propose two inversion algorithms to form 2D reconstructions from a single photograph of the penumbra. Performances of both algorithms are demonstrated on experimental data corresponding to several different hidden scene configurations. A Cramer-Rao bound analysis further demonstrates the feasibility (and utility) of the 2D corner camera.
翻訳日:2022-11-20 21:22:16 公開日:2020-06-16
# 効率良く穴を解析・処理するための新しいrun-based connected component labeling

A New Run-based Connected Component Labeling for Efficiently Analyzing and Processing Holes ( http://arxiv.org/abs/2006.09299v1 )

ライセンス: Link先を確認
Florian Lemaitre and Lionel Lacassagne(参考訳) 本稿では,隣接木を演算するフォアグラウンドおよびバックグラウンドラベリングのための新しい連結コンポーネントラベリングと解析アルゴリズムを紹介する。 特徴(有界箱、最初の統計モーメント、オイラー数)の計算はオンザフライで行われる。 トランジッションクロージャは、画像を再スキャンすることなく、それらの特徴を周囲の連結コンポーネントとマージしながら、効率的なホール処理を可能にする。 既存のアルゴリズムと比較すると、この新しいアルゴリズムは、白黒コンポーネントを処理するアルゴリズムよりも高速にこれらの計算を行うことができる。

This article introduces a new connected component labeling and analysis algorithm for foreground and background labeling that computes the adjacency tree. The computation of features (bounding boxes, first statistical moments, Euler number) is done on-the-fly. The transitive closure enables an efficient hole processing that can be filled while their features are merged with the surrounding connected component without the need to rescan the image. A comparison with existing algorithms shows that this new algorithm can do all these computations faster than algorithms processing black and white components.
翻訳日:2022-11-20 21:15:47 公開日:2020-06-16
# LiDARsim:実世界の活用によるリアルなLiDARシミュレーション

LiDARsim: Realistic LiDAR Simulation by Leveraging the Real World ( http://arxiv.org/abs/2006.09348v1 )

ライセンス: Link先を確認
Sivabalan Manivasagam, Shenlong Wang, Kelvin Wong, Wenyuan Zeng, Mikita Sazanovich, Shuhan Tan, Bin Yang, Wei-Chiu Ma, Raquel Urtasun(参考訳) 我々は、ほとんどの自動運転車に好まれるセンサーであるLiDAR点雲を現実的にシミュレーションする問題に取り組む。 我々は,実データを活用することで,CAD/プロデューラルモデルから構築した仮想世界よりも複雑な世界をより現実的にシミュレートできると主張している。 この目標に向けて、私たちはまず3d静的マップと3d動的オブジェクトの大規模なカタログを構築しました。 そして、私たちのカタログからシーンを選択してシナリオを生成し、自動運転車(SDV)と、そのカタログから動的なオブジェクトのセットをシーン内のもっともらしい場所に配置する。 現実的なシミュレーションを作成するために,物理シミュレーションと学習シミュレーションの両方のパワーをキャプチャする新しいシミュレータを開発した。 まず3Dシーン上でレイキャストを行い、次にディープニューラルネットワークを用いて物理シミュレーションから偏差を生成し、現実的なLiDAR点雲を生成する。 本稿では,LiDARsimが長距離イベントにおける認識アルゴリズムのテストに有用であること,および安全クリティカルシナリオにおけるエンドツーエンド閉ループ評価について紹介する。

We tackle the problem of producing realistic simulations of LiDAR point clouds, the sensor of preference for most self-driving vehicles. We argue that, by leveraging real data, we can simulate the complex world more realistically compared to employing virtual worlds built from CAD/procedural models. Towards this goal, we first build a large catalog of 3D static maps and 3D dynamic objects by driving around several cities with our self-driving fleet. We can then generate scenarios by selecting a scene from our catalog and "virtually" placing the self-driving vehicle (SDV) and a set of dynamic objects from the catalog in plausible locations in the scene. To produce realistic simulations, we develop a novel simulator that captures both the power of physics-based and learning-based simulation. We first utilize ray casting over the 3D scene and then use a deep neural network to produce deviations from the physics-based simulation, producing realistic LiDAR point clouds. We showcase LiDARsim's usefulness for perception algorithms-testing on long-tail events and end-to-end closed-loop evaluation on safety-critical scenarios.
翻訳日:2022-11-20 21:15:39 公開日:2020-06-16
# 視覚的キラリティー

Visual Chirality ( http://arxiv.org/abs/2006.09512v1 )

ライセンス: Link先を確認
Zhiqiu Lin, Jin Sun, Abe Davis, Noah Snavely(参考訳) 画像がミラー化されているかどうか、どうすればわかるのか? ミラー反射の形状はよく理解されているが、コンピュータビジョンでデータ拡張が広く使われているにもかかわらず、大規模な画像の分布にどのように影響するかについてはあまり語られていない。 本稿では,視覚データの統計が反射によってどのように変化するかを検討する。 これらの変化を「視覚的キラリティ」と呼び、幾何学的キラリティの概念(鏡像とは異なる物体の概念)の後である。 視覚キラリティーの分析から、カメラの画像処理から生じる低レベルのキラル信号や、人と顔の画像における視覚キラリティーの発見など、驚くべき結果が得られた。 我々の研究は、データ強化、自己教師付き学習、画像鑑定に影響を及ぼす。

How can we tell whether an image has been mirrored? While we understand the geometry of mirror reflections very well, less has been said about how it affects distributions of imagery at scale, despite widespread use for data augmentation in computer vision. In this paper, we investigate how the statistics of visual data are changed by reflection. We refer to these changes as "visual chirality", after the concept of geometric chirality - the notion of objects that are distinct from their mirror image. Our analysis of visual chirality reveals surprising results, including low-level chiral signals pervading imagery stemming from image processing in cameras, to the ability to discover visual chirality in images of people and faces. Our work has implications for data augmentation, self-supervised learning, and image forensics.
翻訳日:2022-11-20 21:15:21 公開日:2020-06-16
# 教師なし領域適応におけるマイニングラベル分布ドリフト

Mining Label Distribution Drift in Unsupervised Domain Adaptation ( http://arxiv.org/abs/2006.09565v1 )

ライセンス: Link先を確認
Peizhao Li, Zhengming Ding, Hongfu Liu(参考訳) 教師なしドメイン適応ターゲットは、ラベル付きソースドメインから関連するラベルなしターゲットドメインにタスク知識を転送することであり、学術分野や産業分野から幅広い関心を集めている。 ドメインの相違を最小限に抑えるために、この方向で多大な努力がなされているが、残念なことに、既存のメソッドのほとんどは、異なるドメインからの特徴表現を調整することによって、図の一部を管理するだけである。 特徴空間における相違以外にも、ラベル分布のドリフトとして認識されている未知のソースラベルと未知のターゲットラベルの分布のギャップは、ドメインのばらつきを高める重要な要因であり、十分に注意が払われていない。 そこで本稿では,ラベル分布のドリフトが現在のドメイン適応法に悪影響を及ぼすことを実験的に明らかにする。 次に,データ分布シフトとラベル分布ドリフトを同時処理するラベル分布マッチングドメイン逆ネットワーク(lmdan)を提案する。 lmdanでは、ラベル分布ドリフト問題は、ラベル分布の不一致によってもたらされる悪影響を避けるために正の適応に寄与するサンプルを選択するソースサンプル重み付け戦略によって解決される。 最後に、一般領域適応実験とは異なる領域適応データセットを改良し、ソースとターゲット領域間のかなりのラベル分布ドリフトを生成する。 解析結果と実験モデル解析により,LMDANは,そのようなシナリオ下での他の最先端のドメイン適応手法に比べて優れた性能を示すことが示された。

Unsupervised domain adaptation targets to transfer task knowledge from labeled source domain to related yet unlabeled target domain, and is catching extensive interests from academic and industrial areas. Although tremendous efforts along this direction have been made to minimize the domain divergence, unfortunately, most of existing methods only manage part of the picture by aligning feature representations from different domains. Beyond the discrepancy in feature space, the gap between known source label and unknown target label distribution, recognized as label distribution drift, is another crucial factor raising domain divergence, and has not been paid enough attention and well explored. From this point, in this paper, we first experimentally reveal how label distribution drift brings negative effects on current domain adaptation methods. Next, we propose Label distribution Matching Domain Adversarial Network (LMDAN) to handle data distribution shift and label distribution drift jointly. In LMDAN, label distribution drift problem is addressed by the proposed source samples weighting strategy, which select samples to contribute to positive adaptation and avoid negative effects brought by the mismatched in label distribution. Finally, different from general domain adaptation experiments, we modify domain adaptation datasets to create the considerable label distribution drift between source and target domain. Numerical results and empirical model analysis show that LMDAN delivers superior performance compared to other state-of-the-art domain adaptation methods under such scenarios.
翻訳日:2022-11-20 21:14:44 公開日:2020-06-16
# 地上真理感情分析のための感情操作

Manipulating emotions for ground truth emotion analysis ( http://arxiv.org/abs/2006.08952v1 )

ライセンス: Link先を確認
Bennett Kleinberg(参考訳) テキストデータは、人間の認識を大規模に研究できるレンズとして利用されている。 感情分析のような手法は現在、計算社会科学者の標準的なツールキットにあるが、典型的には妥当性の不明な第三者アノテーションに依存している。 そこで本研究では,テキストを用いた感情分析手法として,実験行動研究からオンライン感情誘導技術を導入する。 テキストデータは、幸福、中立、または悲しい条件にランダムに割り当てられた参加者から集められた。 結果は気分誘導の手順を支持する。 次に,レキシコンアプローチが誘発された感情をいかによく取り出すかを検討した。 いずれのアプローチも、真の感情状態の統計的な違いをもたらした。 概して、感情のばらつきの3分の1しかテキストベースの測定で捉えられなかった。 事前訓練された分類器は、真の感情を検出するのにうまくいかなかった。 論文は、今後の研究への限界と提案で締めくくる。

Text data are being used as a lens through which human cognition can be studied at a large scale. Methods like emotion analysis are now in the standard toolkit of computational social scientists but typically rely on third-person annotation with unknown validity. As an alternative, this paper introduces online emotion induction techniques from experimental behavioural research as a method for text-based emotion analysis. Text data were collected from participants who were randomly allocated to a happy, neutral or sad condition. The findings support the mood induction procedure. We then examined how well lexicon approaches can retrieve the induced emotion. All approaches resulted in statistical differences between the true emotion conditions. Overall, only up to one-third of the variance in emotion was captured by text-based measurements. Pretrained classifiers performed poorly on detecting true emotions. The paper concludes with limitations and suggestions for future research.
翻訳日:2022-11-20 21:14:19 公開日:2020-06-16
# 深層強化学習によるNoSQLデータベースのインデックス選択

Index Selection for NoSQL Database with Deep Reinforcement Learning ( http://arxiv.org/abs/2006.08842v1 )

ライセンス: Link先を確認
Shun Yao, Hongzhi Wang and Yu Yan(参考訳) 本稿ではNoSQLデータベースインデックス選択の新しいアプローチを提案する。 異なるワークロードのために、データベースのパフォーマンスを最適化するために、異なるインデックスとそのパラメータを選択します。 このアプローチは、所定の固定ワークロードに対して最適なインデックスを選択し、変化するワークロードに対応するために、深い強化学習モデルを構築する。 実験の結果,深層強化学習インデックス選択手法 (drlisa) は, 従来の単一のインデックス構造により, 異なる程度まで性能が向上した。

We propose a new approach of NoSQL database index selection. For different workloads, we select different indexes and their different parameters to optimize the database performance. The approach builds a deep reinforcement learning model to select an optimal index for a given fixed workload and adapts to a changing workload. Experimental results show that, Deep Reinforcement Learning Index Selection Approach (DRLISA) has improved performance to varying degrees according to traditional single index structures.
翻訳日:2022-11-20 21:14:08 公開日:2020-06-16
# ファジィ議論におけるSCC再帰性原理

The SCC-recursiveness Principle in Fuzzy Argumentation Frameworks ( http://arxiv.org/abs/2006.08880v1 )

ライセンス: Link先を確認
Zongshun Wang and Jiachao Wu(参考訳) ダングの抽象的議論理論は形式的議論の分野において指導的役割を果たす。 議論の意味論の性質は以前の文献で深く研究されている。 SCC再帰性原理(SCC-recursiveness principle)は、強連結成分のグラフ理論の概念に依存する拡張の性質である。 議論セマンティクスを計算するための効率的かつインクリメンタルなアルゴリズムである、議論セマンティクスのための一般的な再帰的スキーマを提供する。 しかし、不確実な議論と不確実な攻撃関係を持つ議論フレームワークでは、SCC再帰理論が欠如している。 本稿では、ファジィ議論フレームワーク(FAF)におけるSCC再帰理論を探求し、議論と攻撃にファジィ次数を加える。 本稿では, SCC再帰性原理をFAFに拡張するために, まず, FAFに適合するように再帰原理と方向性原理を変更する。 次に、FAFのSCC再帰性原理は修正された原則によって定式化される。 さらに、いくつかの例では、SCC再帰性原理は、FAFにおける議論意味論の計算を単純化するための効率的で漸進的なアルゴリズムを提供することを示している。

Dung's abstract argumentation theory plays a guiding role in the field of formal argumentation. The properties of argumentation semantics have been deeply explored in the previous literature. The SCC-recursiveness principle is a property of the extensions which relies on the graph-theoretical notion of strongly connected components. It provides a general recursive schema for argumentation semantics, which is an efficient and incremental algorithm for computing the argumentation semantics. However, in argumentation frameworks with uncertain arguments and uncertain attack relation, the SCC-recursive theory is absence. This paper is an exploration of the SCC-recursive theory in fuzzy argumentation frameworks (FAFs), which add numbers as fuzzy degrees to the arguments and attacks. In this paper, in order to extend the SCC-recursiveness principle to FAFs, we first modify the reinstatement principle and directionality principle to fit the FAFs. Then the SCC-recursiveness principle in FAFs is formalized by the modified principles. Additionally, some illustrating examples show that the SCC-recursiveness principle also provides an efficient and incremental algorithm for simplify the computation of argumentation semantics in FAFs.
翻訳日:2022-11-20 21:14:00 公開日:2020-06-16
# 人工ホルモンシステムにおけるネゲーター関係に関わる問題の難しさについて

On the Hardness of Problems Involving Negator Relationships in an Artificial Hormone System ( http://arxiv.org/abs/2006.08958v1 )

ライセンス: Link先を確認
Eric Hutter and Mathias Pacher and Uwe Brinkschulte(参考訳) 人工ホルモンシステム(artificial hormone system:ahs)は、分散システムでタスクを割り当てる自己組織型ミドルウェアである。 条件付きタスク構造を可能にするため,いわゆるネガターホルモンによって拡張した。 しかし、この拡張により、システム内の一見単純な決定問題の計算複雑性が増大する: [1] と [2] では、問題 negator-path と negator-sat を定義し、np完全性が証明された。 本稿では,ネゲータパスとネゲータsatの例を示し,新しい問題ネゲータ安定性を紹介し,ネゲータが関与するすべての問題はアルゴリズム的に解くのが難しい理由を説明する。

The Artificial Hormone System (AHS) is a self-organizing middleware to allocate tasks in a distributed system. We extended it by so-called negator hormones to enable conditional task structures. However, this extension increases the computational complexity of seemingly simple decision problems in the system: In [1] and [2], we defined the problems Negator-Path and Negator-Sat and proved their NP-completeness. In this supplementary report to these papers, we show examples of Negator-Path and Negator-Sat, introduce the novel problem Negator-Stability and explain why all of these problems involving negators are hard to solve algorithmically.
翻訳日:2022-11-20 21:13:42 公開日:2020-06-16
# 腎臓交換における異種選好との整合

Aligning with Heterogeneous Preferences for Kidney Exchange ( http://arxiv.org/abs/2006.09519v1 )

ライセンス: Link先を確認
Rachel Freedman(参考訳) AIアルゴリズムはますます人間のグループ全体に影響を及ぼす決定を下す。 人間は様々な好みを保ち、矛盾する傾向にあるため、そのようなグループのために決定を下すAIアルゴリズムは、不整合性や矛盾する個人の好みを代表集合に組み込むという、嗜好集約の問題に遭遇する。 本稿では,この問題を実世界の公衆衛生,腎臓交換という文脈で解決する。 生体提供者から腎臓交換市場において移植が必要な患者に腎臓を割り当てるアルゴリズムは、提供するコミュニティの価値に合致する方法で患者を優先するが、割り当ての好みは個人によって大きく異なる。 本稿では,このような不均一なモラル嗜好に基づいて,患者を優先順位付けするための方法論を提案し,実装し,評価する。 患者重みの静的なセットを1つ選択する代わりに、ジレンマの割り当てに対するヒトの反応に基づいて選好関数の分布を学習し、この分布からサンプルを採取し、マッチング中の患者重みを動的に決定する。 本手法は, サンプル選好順序における一致患者の平均ランクを上昇させ, グループ選好の満足度の向上を示唆する。 この作業は、異種グループを代表して、将来の自動化された道徳的意思決定のロードマップを提案することを願っています。

AI algorithms increasingly make decisions that impact entire groups of humans. Since humans tend to hold varying and even conflicting preferences, AI algorithms responsible for making decisions on behalf of such groups encounter the problem of preference aggregation: combining inconsistent and sometimes contradictory individual preferences into a representative aggregate. In this paper, we address this problem in a real-world public health context: kidney exchange. The algorithms that allocate kidneys from living donors to patients needing transplants in kidney exchange matching markets should prioritize patients in a way that aligns with the values of the community they serve, but allocation preferences vary widely across individuals. In this paper, we propose, implement and evaluate a methodology for prioritizing patients based on such heterogeneous moral preferences. Instead of selecting a single static set of patient weights, we learn a distribution over preference functions based on human subject responses to allocation dilemmas, then sample from this distribution to dynamically determine patient weights during matching. We find that this methodology increases the average rank of matched patients in the sampled preference ordering, indicating better satisfaction of group preferences. We hope that this work will suggest a roadmap for future automated moral decision making on behalf of heterogeneous groups.
翻訳日:2022-11-20 21:13:27 公開日:2020-06-16
# ハンガリー語動詞順における動詞意味論の役割

The Role of Verb Semantics in Hungarian Verb-Object Order ( http://arxiv.org/abs/2006.09432v1 )

ライセンス: Link先を確認
Dorottya Demszky and L\'aszl\'o K\'alm\'an and Dan Jurafsky and Beth Levin(参考訳) ハンガリー語はしばしば談話構成言語(discourse-configurational language)と呼ばれ、成分の構造的位置は文法的機能(主題や対象など)よりも論理的機能(話題やコメント)によって決定される。 koml\'osy (1989) による研究に基づき、談話の文脈に加えて、動詞の語彙意味論もハンガリー語の語順を決定する上で重要な役割を果たしていると主張する。 ハンガリー語の単語順の決定における語彙意味論の役割を調べるために,ハンガリー語のギガワードコーパスから抽出された数十万の例に見られるように,380の推移動詞とその対象の順序に関する大規模データ駆動分析を行う。 語彙意味論が動詞とその対象の順序に与える影響を,動詞を11の意味クラスに分類することによって検証する。 動詞のセマンティッククラスに加えて, 情報構造, オブジェクトの定性, オブジェクトのNP重みに関する2つの制御特徴も含み, それらの効果サイズを動詞のセマンティックスと比較できるように選択した。 以上の結果から,これら3つの特徴がハンガリー語における動詞-目的語秩序に有意な影響を与えていることが示唆された。 特に、ed "cover" や jelent "mean" や \"ovez "surround" のような定動詞は OV-preferring の傾向(VO-preferring が強いサイコ動詞を除いて)、b\'ir\'al "judge" や cs\okkent "reduce" や cs\'okol "kiss" のような非定動詞は VO-preferring の傾向にある。 これらの結果は,語彙的意味因子がハンガリー語の語順に影響を与えるという仮説を支持している。

Hungarian is often referred to as a discourse-configurational language, since the structural position of constituents is determined by their logical function (topic or comment) rather than their grammatical function (e.g., subject or object). We build on work by Koml\'osy (1989) and argue that in addition to discourse context, the lexical semantics of the verb also plays a significant role in determining Hungarian word order. In order to investigate the role of lexical semantics in determining Hungarian word order, we conduct a large-scale, data-driven analysis on the ordering of 380 transitive verbs and their objects, as observed in hundreds of thousands of examples extracted from the Hungarian Gigaword Corpus. We test the effect of lexical semantics on the ordering of verbs and their objects by grouping verbs into 11 semantic classes. In addition to the semantic class of the verb, we also include two control features related to information structure, object definiteness and object NP weight, chosen to allow a comparison of their effect size to that of verb semantics. Our results suggest that all three features have a significant effect on verb-object ordering in Hungarian and among these features, the semantic class of the verb has the largest effect. Specifically, we find that stative verbs, such as fed "cover", jelent "mean" and \"ovez "surround", tend to be OV-preferring (with the exception of psych verbs which are strongly VO-preferring) and non-stative verbs, such as b\'ir\'al "judge", cs\"okkent "reduce" and cs\'okol "kiss", verbs tend to be VO-preferring. These findings support our hypothesis that lexical semantic factors influence word order in Hungarian.
翻訳日:2022-11-20 21:07:04 公開日:2020-06-16
# GPUによる階層型パノラマ画像の特徴検索

GPU-accelerated Hierarchical Panoramic Image Feature Retrieval for Indoor Localization ( http://arxiv.org/abs/2006.08861v1 )

ライセンス: Link先を確認
Feng Hu(参考訳) 屋内のローカライゼーションには、商業的位置ベースサービス(LBS)、ロボットナビゲーション、視覚障害者のための補助ナビゲーションなど、多くの応用がある。 本稿では, パノラマ画像特徴を用いた視覚的ランドマークのモデル化と,GPUによる並列検索アルゴリズムによるユーザ位置の計算により,屋内位置決定問題をマルチメディア検索問題に定式化する。 シーン類似性問題を解決するために,複数画像に基づく検索戦略と2次元アグリゲーション手法を適用し,最終検索位置を推定する。 実データを構築するキャンパスにおける実験は、リアルタイム応答(14fps)とロバストな局在を示す。

Indoor localization has many applications, such as commercial Location Based Services (LBS), robotic navigation, and assistive navigation for the blind. This paper formulates the indoor localization problem into a multimedia retrieving problem by modeling visual landmarks with a panoramic image feature, and calculating a user's location via GPU- accelerated parallel retrieving algorithm. To solve the scene similarity problem, we apply a multi-images based retrieval strategy and a 2D aggregation method to estimate the final retrieval location. Experiments on a campus building real data demonstrate real-time responses (14fps) and robust localization.
翻訳日:2022-11-20 21:06:03 公開日:2020-06-16
# ビデオテキスト検索のための視覚的セマンティック推論

Exploiting Visual Semantic Reasoning for Video-Text Retrieval ( http://arxiv.org/abs/2006.08889v1 )

ライセンス: Link先を確認
Zerun Feng, Zhimin Zeng, Caili Guo, Zheng Li(参考訳) 映像検索は、視覚と言語領域を橋渡しする挑戦的な研究課題であり、近年広く注目を集めている。 それまでの作品は、フレームレベルの特徴から直接エンコードすることで、ビデオの表現に費やされてきた。 実際、ビデオは、既存の方法があまり注意を払わない様々な、豊富な意味関係で構成されている。 この問題に対処するために、フレーム領域間の推論を利用するビジュアルセマンティック拡張推論ネットワーク(ViSERN)を提案する。 具体的には、フレーム領域を頂点として、完全連結意味相関グラフを構築する。 次に,新しいランダムウォークルールに基づくグラフ畳み込みネットワークによる推論を行い,意味関係に関わる領域特徴を生成する。 推論の利点により、領域間の意味的相互作用が考慮され、冗長性の影響が抑制される。 最後に、領域の特徴を集約してフレームレベルの特徴を形成し、さらにエンコーディングしてビデオテキストの類似度を測定する。 2つの公開ベンチマークデータセットの大規模な実験は、強力なセマンティック推論により最先端の性能を達成し、本手法の有効性を検証した。

Video retrieval is a challenging research topic bridging the vision and language areas and has attracted broad attention in recent years. Previous works have been devoted to representing videos by directly encoding from frame-level features. In fact, videos consist of various and abundant semantic relations to which existing methods pay less attention. To address this issue, we propose a Visual Semantic Enhanced Reasoning Network (ViSERN) to exploit reasoning between frame regions. Specifically, we consider frame regions as vertices and construct a fully-connected semantic correlation graph. Then, we perform reasoning by novel random walk rule-based graph convolutional networks to generate region features involved with semantic relations. With the benefit of reasoning, semantic interactions between regions are considered, while the impact of redundancy is suppressed. Finally, the region features are aggregated to form frame-level features for further encoding to measure video-text similarity. Extensive experiments on two public benchmark datasets validate the effectiveness of our method by achieving state-of-the-art performance due to the powerful semantic reasoning.
翻訳日:2022-11-20 21:05:51 公開日:2020-06-16
# acitivitynet challenge 2020におけるava-kineticsクロスオーバーの1位解

1st place solution for AVA-Kinetics Crossover in AcitivityNet Challenge 2020 ( http://arxiv.org/abs/2006.09116v1 )

ライセンス: Link先を確認
Siyu Chen, Junting Pan, Guanglu Song, Manyuan Zhang, Hao Shao, Ziyi Lin, Jing Shao, Hongsheng Li, Yu Liu(参考訳) 本報告では, activitynet challenge 2020 における時空間的行動定位トラック ava-kinetics crossover の勝利ソリューションを紹介する。 本稿では主にアクター・コンテキスト・アクター関係ネットワークに基づく。 新しいava-kineticsデータセットの技術的な詳細と実験結果について述べる。 AVA-キネティクスの試験セットで39.62 mAPを達成したが、これは他の項目よりも大きなマージンで優れていた。 コードはhttps://github.com/siyu-c/acar-net。

This technical report introduces our winning solution to the spatio-temporal action localization track, AVA-Kinetics Crossover, in ActivityNet Challenge 2020. Our entry is mainly based on Actor-Context-Actor Relation Network. We describe technical details for the new AVA-Kinetics dataset, together with some experimental results. Without any bells and whistles, we achieved 39.62 mAP on the test set of AVA-Kinetics, which outperforms other entries by a large margin. Code will be available at: https://github.com/Siyu-C/ACAR-Net.
翻訳日:2022-11-20 21:05:38 公開日:2020-06-16
# 双線型最適化のための共勾配降下

Cogradient Descent for Bilinear Optimization ( http://arxiv.org/abs/2006.09142v1 )

ライセンス: Link先を確認
Li'an Zhuo, Baochang Zhang, Linlin Yang, Hanlin Chen, Qixiang Ye, David Doermann, Guodong Guo, Rongrong Ji(参考訳) 従来の学習方法は,2つの固有結合因子を独立に扱うことで,双線形モデルを単純化する。 一つの理由は、非同期勾配降下によるトレーニング不足であり、結果として結合変数の勾配が消失する。 本稿では,射影関数を介して隠れた変数の勾配を調整するための理論的枠組みに基づいて,双線形問題に対処するコグニエント降下アルゴリズム(cogd)を提案する。 一方の変数は、他方との結合関係を考慮し、同期勾配降下を導き、最適化手順を容易にすることで解決する。 本アルゴリズムは,学習パラダイムにおいて広く用いられている空間的制約の下で,一変数の問題を解くために応用される。 我々は,画像再構成,塗装,ネットワークプルーニングなど幅広い応用を考慮し,CoGDを検証する。 実験の結果、最先端の技術を著しく改善していることがわかった。

Conventional learning methods simplify the bilinear model by regarding two intrinsically coupled factors independently, which degrades the optimization procedure. One reason lies in the insufficient training due to the asynchronous gradient descent, which results in vanishing gradients for the coupled variables. In this paper, we introduce a Cogradient Descent algorithm (CoGD) to address the bilinear problem, based on a theoretical framework to coordinate the gradient of hidden variables via a projection function. We solve one variable by considering its coupling relationship with the other, leading to a synchronous gradient descent to facilitate the optimization procedure. Our algorithm is applied to solve problems with one variable under the sparsity constraint, which is widely used in the learning paradigm. We validate our CoGD considering an extensive set of applications including image reconstruction, inpainting, and network pruning. Experiments show that it improves the state-of-the-art by a significant margin.
翻訳日:2022-11-20 21:05:28 公開日:2020-06-16
# dsdanet: クロスドメイン変化検出のためのディープシャム領域適応畳み込みニューラルネットワーク

DSDANet: Deep Siamese Domain Adaptation Convolutional Neural Network for Cross-domain Change Detection ( http://arxiv.org/abs/2006.09225v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Chen Wu and Bo Du and Liangpei Zhang(参考訳) 変更検出(CD)はリモートセンシングにおいて最も重要な応用の1つである。 近年、深層学習はCDタスクにおいて有望なパフォーマンスを実現している。 しかし、ディープモデルはタスク固有のものであり、CDデータセットのバイアスがしばしば存在するため、ディープCDモデルがオリジナルのCDデータセットから新しいデータセットに転送した後に劣化したパフォーマンスに悩まされることは避けられないため、新しいデータセットの多数のサンプルを手動でラベル付けすることは避けられない。 十分なラベル付きデータ(オリジナルドメイン)を持つデータセットで転送可能なcdモデルを学べるが、ラベル付きデータ(ターゲットドメイン)なしで他のデータセットの変更を十分に検出できるだろうか? これはクロスドメイン変更検出問題として定義される。 本稿では,クロスドメインcdのための新しいディープシャムドメイン適応畳み込みニューラルネットワーク(dsdanet)アーキテクチャを提案する。 DSDANetでは、シアム畳み込みニューラルネットワークがまず、多時間画像から空間スペクトルの特徴を抽出する。 次に、マルチカーネル最大平均誤差(MK-MMD)により、学習した特徴表現を再生カーネルヒルベルト空間(RKHS)に埋め込み、2つの領域の分布を明示的に一致させることができる。 ソースラベル付きデータでネットワークパラメータとカーネル係数を最適化し、ラベルなしデータをターゲットにすることで、DSDANetは2つのドメイン間の相違をブリッジするトランスファー可能な特徴表現を学習できる。 我々の知る限りでは、このようなドメイン適応に基づくディープネットワークがCDに提案されたのは初めてである。 理論的解析と実験により,提案手法の有効性と可能性を示す。

Change detection (CD) is one of the most vital applications in remote sensing. Recently, deep learning has achieved promising performance in the CD task. However, the deep models are task-specific and CD data set bias often exists, hence it is inevitable that deep CD models would suffer degraded performance after transferring it from original CD data set to new ones, making manually label numerous samples in the new data set unavoidable, which costs a large amount of time and human labor. How to learn a transferable CD model in the data set with enough labeled data (original domain) but can well detect changes in another data set without labeled data (target domain)? This is defined as the cross-domain change detection problem. In this paper, we propose a novel deep siamese domain adaptation convolutional neural network (DSDANet) architecture for cross-domain CD. In DSDANet, a siamese convolutional neural network first extracts spatial-spectral features from multi-temporal images. Then, through multi-kernel maximum mean discrepancy (MK-MMD), the learned feature representation is embedded into a reproducing kernel Hilbert space (RKHS), in which the distribution of two domains can be explicitly matched. By optimizing the network parameters and kernel coefficients with the source labeled data and target unlabeled data, DSDANet can learn transferrable feature representation that can bridge the discrepancy between two domains. To the best of our knowledge, it is the first time that such a domain adaptation-based deep network is proposed for CD. The theoretical analysis and experimental results demonstrate the effectiveness and potential of the proposed method.
翻訳日:2022-11-20 21:04:31 公開日:2020-06-16
# 深部物体検出器の地表面不均衡問題

Foreground-Background Imbalance Problem in Deep Object Detectors: A Review ( http://arxiv.org/abs/2006.09238v1 )

ライセンス: Link先を確認
Joya Chen, Qi Wu, Dong Liu, Tong Xu(参考訳) 近年では、コンピュータビジョンの根本的な課題である物体検出のためのディープラーニング技術が目覚ましい発展を遂げている。 それでも正確な深部物体検出器の訓練には依然として困難があり、そのうちの1つは前景と後方の不均衡の問題によるものである。 本稿では,不均衡問題の解に関する最近の進歩について調査する。 まず,1段と2段を含む多種多様な深度検出器における不均衡問題の特徴を分析する。 第二に、既存のソリューションを、ヒューリスティックスと非サンプリングスキームの2つのカテゴリに分け、詳細をレビューする。 第3に、COCOベンチマークにおける最先端ソリューションの性能を実験的に比較する。 今後の作業の方向性についても論じる。

Recent years have witnessed the remarkable developments made by deep learning techniques for object detection, a fundamentally challenging problem of computer vision. Nevertheless, there are still difficulties in training accurate deep object detectors, one of which is owing to the foreground-background imbalance problem. In this paper, we survey the recent advances about the solutions to the imbalance problem. First, we analyze the characteristics of the imbalance problem in different kinds of deep detectors, including one-stage and two-stage ones. Second, we divide the existing solutions into two categories: sampling heuristics and non-sampling schemes, and review them in detail. Third, we experimentally compare the performance of some state-of-the-art solutions on the COCO benchmark. Promising directions for future work are also discussed.
翻訳日:2022-11-20 21:04:05 公開日:2020-06-16
# 翻訳用モデル代名詞ジェンダーへのスケーラブルなクロスリンガル・ピボット

Scalable Cross Lingual Pivots to Model Pronoun Gender for Translation ( http://arxiv.org/abs/2006.08881v1 )

ライセンス: Link先を確認
Kellie Webster and Emily Pitler(参考訳) 文書理解が不十分な機械翻訳システムは、ドロップまたは中性代名詞を性別付き代名詞を持つ言語(英語など)に翻訳する際に誤りを犯すことがある。 これらの代名詞の根底にある性別を予測することは、テキスト的にマークされず、文脈の中核的な言及から推論する必要があるため困難である。 本研究では,高品質な性別ラベルを自動生成する新たな言語間ピボット手法を提案し,このデータを用いて,スペイン語のドロップした女性代名詞を92%F1で微調整し,ニューラルマシン翻訳モデルでは30~51%,非微調整BERTモデルでは54~71%とした。 分類器のラベル付きニューラルマシン翻訳モデルを拡張し,代名詞翻訳を改善しつつ,同時に文を翻訳する並列化可能な翻訳モデルも備えている。

Machine translation systems with inadequate document understanding can make errors when translating dropped or neutral pronouns into languages with gendered pronouns (e.g., English). Predicting the underlying gender of these pronouns is difficult since it is not marked textually and must instead be inferred from coreferent mentions in the context. We propose a novel cross-lingual pivoting technique for automatically producing high-quality gender labels, and show that this data can be used to fine-tune a BERT classifier with 92% F1 for Spanish dropped feminine pronouns, compared with 30-51% for neural machine translation models and 54-71% for a non-fine-tuned BERT model. We augment a neural machine translation model with labels from our classifier to improve pronoun translation, while still having parallelizable translation models that translate a sentence at a time.
翻訳日:2022-11-20 20:57:00 公開日:2020-06-16
# スキーマガイドによる対話状態追跡のためのSPPDシステム

The SPPD System for Schema Guided Dialogue State Tracking Challenge ( http://arxiv.org/abs/2006.09035v1 )

ライセンス: Link先を確認
Miao Li, Haoqi Xiong, Yunbo Cao (Smart Platform Product Department, Tencent Inc, China)(参考訳) 本稿では,Schema Guidedによる対話状態追跡のためのSPPDシステムであるDialog System Technology Challenges 8 (DSTC8)について紹介する。 この挑戦はDSTC8のトラック4と名付けられ、現実世界の対話システムのためのスケーラブルなマルチドメイン対話状態追跡アルゴリズムを開発するための、全く新しい、挑戦的なデータセットを提供する。 本稿では,ゼロショット対話状態追跡システムを提案する。 システムの主要なコンポーネントはBERTベースのゼロショットNLUモデルで、サービスのスキーマの自然言語記述と対話からの発話とのセマンティックな関係を効果的に捉えることができる。 また,より長い対話履歴からの情報を活用し,複数ドメイン対話におけるスロット転送問題を克服するための戦略を提案する。 実験結果から,提案方式はベースラインシステムと比較して大幅な改善が得られた。

This paper introduces one of our group's work on the Dialog System Technology Challenges 8 (DSTC8), the SPPD system for Schema Guided dialogue state tracking challenge. This challenge, named as Track 4 in DSTC8, provides a brand new and challenging dataset for developing scalable multi-domain dialogue state tracking algorithms for real world dialogue systems. We propose a zero-shot dialogue state tracking system for this task. The key components of the system is a number of BERT based zero-shot NLU models that can effectively capture semantic relations between natural language descriptions of services' schemas and utterances from dialogue turns. We also propose some strategies to make the system better to exploit information from longer dialogue history and to overcome the slot carryover problem for multi-domain dialogues. The experimental results show that the proposed system achieves a significant improvement compared with the baseline system.
翻訳日:2022-11-20 20:56:43 公開日:2020-06-16
# 多レベル相互作用伝達によるアスペクト抽出のための弱教師付きドメイン適応

Weakly-supervised Domain Adaption for Aspect Extraction via Multi-level Interaction Transfer ( http://arxiv.org/abs/2006.09235v1 )

ライセンス: Link先を確認
Tao Liang, Wenya Wang, Fengmao Lv(参考訳) きめ細かいアスペクト抽出はアスペクトベースの意見分析において不可欠なサブタスクである。 それは、各文における製品またはサービスの側面用語(すなわち意見対象)を特定することを目的としている。 しかし、高価なアノテーションプロセスは通常、各ドメインの十分なトークンレベルラベルを取得するために必要となる。 この制限に対処するために、いくつかの先行研究は十分なラベル付けされたソースドメインからラベル付けされていないターゲットドメインに知識を転送するためのドメイン適応戦略を提案している。 しかし、きめ細かい予測問題とドメイン間の大きなドメインギャップの両立が困難であるため、性能は相変わらず不満足である。 本研究は,レビューサイトなどの商用サービスで一般的に使用可能な文レベルのアスペクトカテゴリラベルを,抽出目的のトークンレベルの転送を促進するための先駆的な研究を行っている。 具体的には、アスペクトカテゴリ情報は、文レベルアスペクトカテゴリとトークンレベルアスペクトの相互作用がドメイン間で不変であるという仮定で、転送のためのピボット知識を構築するために使用される。 そこで本研究では,細粒度情報と粗粒度情報の両方を複数の抽象レベルで整合させる,新しいマルチレベル再構築機構を提案する。 包括的実験により,本手法は文レベルのアスペクトカテゴリラベルを十分に活用し,クロスドメインアスペクト抽出を改善することができることを示した。

Fine-grained aspect extraction is an essential sub-task in aspect based opinion analysis. It aims to identify the aspect terms (a.k.a. opinion targets) of a product or service in each sentence. However, expensive annotation process is usually involved to acquire sufficient token-level labels for each domain. To address this limitation, some previous works propose domain adaptation strategies to transfer knowledge from a sufficiently labeled source domain to unlabeled target domains. But due to both the difficulty of fine-grained prediction problems and the large domain gap between domains, the performance remains unsatisfactory. This work conducts a pioneer study on leveraging sentence-level aspect category labels that can be usually available in commercial services like review sites to promote token-level transfer for the extraction purpose. Specifically, the aspect category information is used to construct pivot knowledge for transfer with assumption that the interactions between sentence-level aspect category and token-level aspect terms are invariant across domains. To this end, we propose a novel multi-level reconstruction mechanism that aligns both the fine-grained and coarse-grained information in multiple levels of abstractions. Comprehensive experiments demonstrate that our approach can fully utilize sentence-level aspect category labels to improve cross-domain aspect extraction with a large performance gain.
翻訳日:2022-11-20 20:56:11 公開日:2020-06-16
# コミュニケーションの必要性は言語変化における競争を調節する

Communicative need modulates competition in language change ( http://arxiv.org/abs/2006.09277v1 )

ライセンス: Link先を確認
Andres Karjus, Richard A. Blythe, Simon Kirby, Kenny Smith(参考訳) すべての言語は時間とともに変化する。 この原因の多くは、新しい言語要素の出現と借用によるものである。 新しい要素と類似のセマンティックあるいは文法的な機能を持つ古い要素との競合は、話者が一方を好み、もう一方が使われなくなることにつながる可能性がある。 十分に大きなコーパス以外の言語固有の資源を必要としないダイアクロニックコーパスにおける言語要素間の競合を定量化する一般的な手法を提案する。 このアプローチは、幅広い言語や言語サブシステムに適用することができる。 ここでは、言語、タイプ、ジャンル、タイムスパンが異なる5つのコーパスの語彙データに適用する。 コミュニケーションの必要性の変化は、語彙的競合のダイナミクスを常に予測している。 ほぼ匿名の単語は、言語使用者にとって重要性が一定である会話のトピックに属している場合、直接競合する傾向があり、おそらく競合する単語の1つが消滅する。 対照的に、言語ユーザにとって重要性が増しているトピックでは、ほぼ同義語に近い単語は直接競合せず共存しがちである。 これは、単語間の直接的な競合に加えて、言語の変化がトピックやセマンティックサブスペースの競合によって引き起こされることを示唆している。

All living languages change over time. The causes for this are many, one being the emergence and borrowing of new linguistic elements. Competition between the new elements and older ones with a similar semantic or grammatical function may lead to speakers preferring one of them, and leaving the other to go out of use. We introduce a general method for quantifying competition between linguistic elements in diachronic corpora which does not require language-specific resources other than a sufficiently large corpus. This approach is readily applicable to a wide range of languages and linguistic subsystems. Here, we apply it to lexical data in five corpora differing in language, type, genre, and time span. We find that changes in communicative need are consistently predictive of lexical competition dynamics. Near-synonymous words are more likely to directly compete if they belong to a topic of conversation whose importance to language users is constant over time, possibly leading to the extinction of one of the competing words. By contrast, in topics which are increasing in importance for language users, near-synonymous words tend not to compete directly and can coexist. This suggests that, in addition to direct competition between words, language change can be driven by competition between topics or semantic subspaces.
翻訳日:2022-11-20 20:55:41 公開日:2020-06-16
# チューリング試験損失を用いた畳み込みニューラルネットワークを用いたctにおける肺分節と結節の検出

Lung Segmentation and Nodule Detection in Computed Tomography Scan using a Convolutional Neural Network Trained Adversarially using Turing Test Loss ( http://arxiv.org/abs/2006.09308v1 )

ライセンス: Link先を確認
Rakshith Sathish, Rachana Sathish, Ramanathan Sethuraman and Debdoot Sheet(参考訳) 肺がんは世界中で最も多く見られるがんであり、死亡率が高い。 低線量ct(low-dose ct)による肺結節の早期検出は,その効果的な臨床管理に不可欠である。 悪性腫瘍の症状である結節は、患者のctスキャンで約0.01250.025\%の容積を占める。 すべてのスライスの手動スクリーニングは面倒な作業であり、ヒューマンエラーのリスクが高い。 この問題に取り組むため,我々は計算効率の高い二段階フレームワークを提案する。 第1段階では、肺領域のチューリング試験損失セグメントを用いて、畳み込みニューラルネットワーク(CNN)が逆行訓練を行った。 第2段階では、セグメント領域からサンプリングされたパッチを分類し、結節の存在を検出する。 提案手法は10倍のクロスバリデーションに対して, dice係数0.984\pm0.0007$のluna16チャレンジデータセット上で実験的に検証される。

Lung cancer is the most common form of cancer found worldwide with a high mortality rate. Early detection of pulmonary nodules by screening with a low-dose computed tomography (CT) scan is crucial for its effective clinical management. Nodules which are symptomatic of malignancy occupy about 0.0125 - 0.025\% of volume in a CT scan of a patient. Manual screening of all slices is a tedious task and presents a high risk of human errors. To tackle this problem we propose a computationally efficient two stage framework. In the first stage, a convolutional neural network (CNN) trained adversarially using Turing test loss segments the lung region. In the second stage, patches sampled from the segmented region are then classified to detect the presence of nodules. The proposed method is experimentally validated on the LUNA16 challenge dataset with a dice coefficient of $0.984\pm0.0007$ for 10-fold cross-validation.
翻訳日:2022-11-20 20:48:58 公開日:2020-06-16
# 形態的セグメンテーションによるドメイン適応

Domain Adaptation with Morphologic Segmentation ( http://arxiv.org/abs/2006.09322v1 )

ライセンス: Link先を確認
Jonathan Klein, S\"oren Pirk, Dominik L. Michels(参考訳) 本稿では,任意の入力領域(実および合成領域)から一様出力領域への画像変換に形態素セグメンテーションを用いる新しいドメイン適応フレームワークを提案する。 我々のフレームワークは確立された画像から画像への変換パイプラインに基づいており、まず入力画像から形態や意味を符号化した一般化表現、すなわちエッジ・プラス・セグメンテーション・マップ(EPS)を変換して出力領域に変換する。 出力領域に変換された画像は、フォトリアリスティックで、異なる現実(例えば、レンズフレア、モーションボケなど)と合成(非現実的なテクスチャ、単純化された幾何学など)のデータセットに一般的に存在するアーティファクトを含まない。 私たちのゴールは、複数のソースからのデータを共通の表現に統一し、コンピュータビジョンにおける下流タスクのトレーニングを容易にする前処理ステップを確立することです。 このように、既存のタスクのためのニューラルネットワークは、さまざまなトレーニングデータに基づいてトレーニングできるが、特定のデータセットへの過度な適合の影響も少ない。 都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。 さらなる結果はプロジェクトのwebサイトhttp://jonathank.de/research/eps/で見ることができる。

We present a novel domain adaptation framework that uses morphologic segmentation to translate images from arbitrary input domains (real and synthetic) into a uniform output domain. Our framework is based on an established image-to-image translation pipeline that allows us to first transform the input image into a generalized representation that encodes morphology and semantics - the edge-plus-segmentation map (EPS) - which is then transformed into an output domain. Images transformed into the output domain are photo-realistic and free of artifacts that are commonly present across different real (e.g. lens flare, motion blur, etc.) and synthetic (e.g. unrealistic textures, simplified geometry, etc.) data sets. Our goal is to establish a preprocessing step that unifies data from multiple sources into a common representation that facilitates training downstream tasks in computer vision. This way, neural networks for existing tasks can be trained on a larger variety of training data, while they are also less affected by overfitting to specific data sets. We showcase the effectiveness of our approach by qualitatively and quantitatively evaluating our method on four data sets of simulated and real data of urban scenes. Additional results can be found on the project website available at http://jonathank.de/research/eps/ .
翻訳日:2022-11-20 20:48:47 公開日:2020-06-16
# 解釈可能なマルチモーダル融合ネットワークは脳認知のメカニズムを明らかにする

Interpretable multimodal fusion networks reveal mechanisms of brain cognition ( http://arxiv.org/abs/2006.09454v1 )

ライセンス: Link先を確認
Wenxing Hu, Xianghe Meng, Yuntong Bai, Aiying Zhang, Biao Cai, Gemeng Zhang, Tony W. Wilson, Julia M. Stephen, Vince D. Calhoun, Yu-Ping Wang(参考訳) マルチモーダル融合は、より包括的な視点を提供することで疾患の診断に役立つ。 アルゴリズムの開発は、データの不均一性と、モダリティ内およびモダリティ間の複雑な関係のために困難である。 深層ネットワークに基づくデータ融合モデルが開発され, 複雑な関連を捉え, 診断性能が向上した。 診断予測を超えて、疾患メカニズムの評価は生体医学研究において極めて重要である。 しかし、深層ネットワークに基づくデータフュージョンモデルは解釈が難しく、生物学的メカニズムの研究が困難である。 本研究では,自動診断と結果解釈を同時に行うことができる多モード融合モデル,すなわちgCAM-CCLを開発する。 gCAM-CCLモデルは、入力特徴のピクセルレベルのコントリビューションを定量化する解釈可能なアクティベーションマップを生成することができる。 これは勾配に基づく重みを使って中間特徴マップを組み合わせることによって達成される。 さらに、推定アクティベーションマップはクラス固有であり、キャプチャされたクロスデータアソシエーションは関心/ラベル関連であり、クラス固有解析と生物学的メカニズム解析をさらに促進する。 脳画像遺伝学的研究におけるgCAM-CCLモデルの有効性を検証し,gCAM-CCLの分類と機構解析の両面において良好な性能を示した。 メカニズム分析は、タスクfMRIスキャンにおいて、いくつかのオブジェクト認識関連関心領域(ROI)が最初に活性化され、その後、複数の下流符号化ROIが関与することを示している。 また,高認知能群はより強い神経伝達シグナルを伝達し,低認知能群は遺伝的変異から生じる脳・神経発達に問題があることが示唆された。

Multimodal fusion benefits disease diagnosis by providing a more comprehensive perspective. Developing algorithms is challenging due to data heterogeneity and the complex within- and between-modality associations. Deep-network-based data-fusion models have been developed to capture the complex associations and the performance in diagnosis has been improved accordingly. Moving beyond diagnosis prediction, evaluation of disease mechanisms is critically important for biomedical research. Deep-network-based data-fusion models, however, are difficult to interpret, bringing about difficulties for studying biological mechanisms. In this work, we develop an interpretable multimodal fusion model, namely gCAM-CCL, which can perform automated diagnosis and result interpretation simultaneously. The gCAM-CCL model can generate interpretable activation maps, which quantify pixel-level contributions of the input features. This is achieved by combining intermediate feature maps using gradient-based weights. Moreover, the estimated activation maps are class-specific, and the captured cross-data associations are interest/label related, which further facilitates class-specific analysis and biological mechanism analysis. We validate the gCAM-CCL model on a brain imaging-genetic study, and show gCAM-CCL's performed well for both classification and mechanism analysis. Mechanism analysis suggests that during task-fMRI scans, several object recognition related regions of interests (ROIs) are first activated and then several downstream encoding ROIs get involved. Results also suggest that the higher cognition performing group may have stronger neurotransmission signaling while the lower cognition performing group may have problem in brain/neuron development, resulting from genetic variations.
翻訳日:2022-11-20 20:48:23 公開日:2020-06-16
# 胸部CT画像からのFew-Shot COVID-19診断のためのMomentum Contrastive Learning

Momentum Contrastive Learning for Few-Shot COVID-19 Diagnosis from Chest CT Images ( http://arxiv.org/abs/2006.13276v1 )

ライセンス: Link先を確認
Xiaocong Chen and Lina Yao and Tao Zhou and Jinming Dong and Yu Zhang(参考訳) 2019年12月に新型コロナウイルス(COVID-19)が流行した現在のパンデミックは、世界的な緊急事態を招き、世界各国の経済、医療システム、個人福祉に大きな影響を与えた。 急速に進行する疾患を制御するには、高度に敏感で特定の診断が必要である。 リアルタイムrt-pcrが最も一般的に使用されるが、最大8時間かかり、医療従事者からかなりの労力がかかる。 そのため、迅速かつ自動的な診断システムが必要である。 胸部CT画像からの診断は有望な方向である。 しかし,アノテートct画像の取得には時間を要するため,訓練サンプルが不足しているため,現在の研究は限られている。 そこで本研究では,新型コロナウイルス(covid-19)の自動診断のための新しい深層学習アルゴリズムを提案する。 具体的には、コントラスト学習を用いて、大規模かつ一般に利用可能な肺データセット上で表現的な特徴表現をキャプチャするエンコーダを訓練し、分類のための原型的ネットワークを採用する。 提案モデルの有効性を,公に利用可能かつ注釈付き2つのctデータセットで比較検討した。 以上の結果から,胸部ct画像によるcovid-19の診断に優れた効果が得られた。

The current pandemic, caused by the outbreak of a novel coronavirus (COVID-19) in December 2019, has led to a global emergency that has significantly impacted economies, healthcare systems and personal wellbeing all around the world. Controlling the rapidly evolving disease requires highly sensitive and specific diagnostics. While real-time RT-PCR is the most commonly used, these can take up to 8 hours, and require significant effort from healthcare professionals. As such, there is a critical need for a quick and automatic diagnostic system. Diagnosis from chest CT images is a promising direction. However, current studies are limited by the lack of sufficient training samples, as acquiring annotated CT images is time-consuming. To this end, we propose a new deep learning algorithm for the automated diagnosis of COVID-19, which only requires a few samples for training. Specifically, we use contrastive learning to train an encoder which can capture expressive feature representations on large and publicly available lung datasets and adopt the prototypical network for classification. We validate the efficacy of the proposed model in comparison with other competing methods on two publicly available and annotated COVID-19 CT datasets. Our results demonstrate the superior performance of our model for the accurate diagnosis of COVID-19 based on chest CT images.
翻訳日:2022-11-20 20:47:56 公開日:2020-06-16
# 平均場レジームにおける多層ニューラルネットワークのグローバル収束に関する一考察

A Note on the Global Convergence of Multilayer Neural Networks in the Mean Field Regime ( http://arxiv.org/abs/2006.09355v1 )

ライセンス: Link先を確認
Huy Tuan Pham, Phan-Minh Nguyen(参考訳) 最近の研究で我々は、神経埋め込みの概念に基づいて、多層ニューラルネットワークの勾配に基づく学習力学の平均場限界を記述するための厳密な枠組みを導入した。 また,このフレームワークを用いた3層ネットワーク(および2層ネットワーク)のグローバルコンバージェンス保証も行った。 本稿では,先行研究の知見を拡張して,任意の深さの多層ネットワークに対するグローバル収束保証を証明できることを指摘する。 初期化を仮定する以前の3層グローバル収束保証とは異なり、本結果は相関初期化の一種に適用できる。 この初期化は、任意の有限の訓練時間において、ニューラルネットワークの深さを通してある普遍近似特性を伝搬することができる。 この効果を達成するために,双方向の多様性条件を導入する。

In a recent work, we introduced a rigorous framework to describe the mean field limit of the gradient-based learning dynamics of multilayer neural networks, based on the idea of a neuronal embedding. There we also proved a global convergence guarantee for three-layer (as well as two-layer) networks using this framework. In this companion note, we point out that the insights in our previous work can be readily extended to prove a global convergence guarantee for multilayer networks of any depths. Unlike our previous three-layer global convergence guarantee that assumes i.i.d. initializations, our present result applies to a type of correlated initialization. This initialization allows to, at any finite training time, propagate a certain universal approximation property through the depth of the neural network. To achieve this effect, we introduce a bidirectional diversity condition.
翻訳日:2022-11-20 20:46:07 公開日:2020-06-16
# リニア・ハイデン層ニューラルネットワークを用いたトランスファー学習のためのミニマックス下限

Minimax Lower Bounds for Transfer Learning with Linear and One-hidden Layer Neural Networks ( http://arxiv.org/abs/2006.10581v1 )

ライセンス: Link先を確認
Seyed Mohammadreza Mousavi Kalan, Zalan Fabian, A. Salman Avestimehr, and Mahdi Soltanolkotabi(参考訳) ラベル付きトレーニングデータが不足する可能性のある、新たなドメインにおける機械学習モデルのパフォーマンス向上のための強力なテクニックとして、転送学習が登場している。 このアプローチでは、多くのラベル付きトレーニングデータが利用可能なソースタスク用にトレーニングされたモデルが、ラベル付きトレーニングデータが少ない関連するターゲットタスクでモデルをトレーニングするための出発点として使用される。 近年のトランスファーラーニングアプローチの実証的成功にもかかわらず、トランスファーラーニングの利点と基本的限界は理解されていない。 本稿では,線形および一重層ニューラルネットワークモデルによる回帰の文脈における伝達学習の基本的限界を特徴付ける統計的ミニマックスフレームワークを開発する。 具体的には、ラベル付きソースとターゲットデータの関数として、任意のアルゴリズムによって達成可能なターゲット一般化誤差の低い値と、ソースとターゲットタスク間の類似性の適切な概念を導出する。 私たちの下限は、転校学習のメリットと限界に対する新たな洞察を提供します。 さらに様々な実験で理論的な発見を裏付ける。

Transfer learning has emerged as a powerful technique for improving the performance of machine learning models on new domains where labeled training data may be scarce. In this approach a model trained for a source task, where plenty of labeled training data is available, is used as a starting point for training a model on a related target task with only few labeled training data. Despite recent empirical success of transfer learning approaches, the benefits and fundamental limits of transfer learning are poorly understood. In this paper we develop a statistical minimax framework to characterize the fundamental limits of transfer learning in the context of regression with linear and one-hidden layer neural network models. Specifically, we derive a lower-bound for the target generalization error achievable by any algorithm as a function of the number of labeled source and target data as well as appropriate notions of similarity between the source and target tasks. Our lower bound provides new insights into the benefits and limitations of transfer learning. We further corroborate our theoretical finding with various experiments.
翻訳日:2022-11-20 20:40:31 公開日:2020-06-16
# 複数有向グラフ推定のためのベイズ型線形非ガウス非循環モデルによる青年期脳感情回路発達の研究

A Bayesian incorporated linear non-Gaussian acyclic model for multiple directed graph estimation to study brain emotion circuit development in adolescence ( http://arxiv.org/abs/2006.12618v1 )

ライセンス: Link先を確認
Aiying Zhang, Gemeng Zhang, Biao Cai, Tony W. Wilson, Julia M. Stephen, Vince D. Calhoun and Yu-Ping Wang(参考訳) 感情知覚は、分散型脳回路を含む感情的および認知的発達に不可欠である。 感情の識別能力は幼少期から始まり、幼少期から青年期にかけて成長を続ける。 脳の感情回路の発達を理解することは、青年期に観察された感情の変化を説明するのに役立つかもしれない。 これまでの研究では、感情識別タスク中の小児後期から成人初期までの脳機能接続(fc)の軌跡を明らかにした。 本研究では,因果関係から因果関係への理解を深めようと努力する。 ベイズ系を組み込んだ線形非ガウス非巡回モデル(bilingam)を提案した。 特に、異なる発達段階における複数の年齢群に対する多重有向非巡回グラフ(DAG)を共同で推定することができる。 シミュレーションの結果、特にサンプルサイズが小さい場合(高次元の場合)、様々な設定でより安定で正確な性能を示した。 その後,フィラデルフィア神経発達コホート(pnc)からの実データの解析に適用した。 8~22歳の855人が5つの異なる青年期に分けられた。 ネットワーク分析の結果,感情関連とモジュール間接続が発達し,感情関連ハブが特定された。 さらにハブをインハブとアウトハブの2つのタイプに分類し,情報の受信と配信の中心とした。 いくつかの独特の発達ハブ構造とグループ固有のパターンも発見された。 我々の発見は、人間の脳における感情発達の因果的理解に役立つ。

Emotion perception is essential to affective and cognitive development which involves distributed brain circuits. The ability of emotion identification begins in infancy and continues to develop throughout childhood and adolescence. Understanding the development of brain's emotion circuitry may help us explain the emotional changes observed during adolescence. Our previous study delineated the trajectory of brain functional connectivity (FC) from late childhood to early adulthood during emotion identification tasks. In this work, we endeavour to deepen our understanding from association to causation. We proposed a Bayesian incorporated linear non-Gaussian acyclic model (BiLiNGAM), which incorporated our previous association model into the prior estimation pipeline. In particular, it can jointly estimate multiple directed acyclic graphs (DAGs) for multiple age groups at different developmental stages. Simulation results indicated more stable and accurate performance over various settings, especially when the sample size was small (high-dimensional cases). We then applied to the analysis of real data from the Philadelphia Neurodevelopmental Cohort (PNC). This included 855 individuals aged 8-22 years who were divided into five different adolescent stages. Our network analysis revealed the development of emotion-related intra- and inter- modular connectivity and pinpointed several emotion-related hubs. We further categorized the hubs into two types: in-hubs and out-hubs, as the center of receiving and distributing information. Several unique developmental hub structures and group-specific patterns were also discovered. Our findings help provide a causal understanding of emotion development in the human brain.
翻訳日:2022-11-20 20:39:53 公開日:2020-06-16
# 深層畳み込み生成逆ネットワークを用いた接続型ドレナージネットワーク生成

Connectivity-informed Drainage Network Generation using Deep Convolution Generative Adversarial Networks ( http://arxiv.org/abs/2006.13304v1 )

ライセンス: Link先を確認
Sung Eun Kim, Yongwon Seo, Junshik Hwang, Hongkyu Yoon, and Jonghyun Lee(参考訳) 確率的ネットワークモデリングは、有意義な統計的評価に十分な数のネットワークを生成するために高い計算コストによってしばしば制限される。 本研究では,Dep Convolutional Generative Adversarial Networks (DCGANs) を用いて,確率的ネットワークモデル,ギブのモデルを繰り返しモデル化することなく,既に生成されたネットワークサンプルからの排水網を高速に再現する。 特に,排水ネットワークの各ノード上の流れの方向情報にドレインネットワークイメージを変換し,ドレインネットワーク内のノード間の接続制約を格納した複数のバイナリ層に変換する,新たな接続変形手法を開発した。 3種類のトレーニングサンプルを用いたDCGANの比較を行った。 1) 当初の排水網の画像 2)対応する方向情報のみ、及び 3)接続不能な方向情報。 生成された画像の比較により,dcganのネットワークの複雑さと接続性のコンパクトな表現により,より効率的に正確なドレナージネットワークを再現する手法が,他の2つの手法よりも優れていることが示された。 本研究は、dcganが、ネットワーク、骨折、その他の高コントラスト特徴が重要である地球や材料科学で一般的な高コントラスト画像に適用可能であることを強調する。

Stochastic network modeling is often limited by high computational costs to generate a large number of networks enough for meaningful statistical evaluation. In this study, Deep Convolutional Generative Adversarial Networks (DCGANs) were applied to quickly reproduce drainage networks from the already generated network samples without repetitive long modeling of the stochastic network model, Gibb's model. In particular, we developed a novel connectivity-informed method that converts the drainage network images to the directional information of flow on each node of the drainage network, and then transform it into multiple binary layers where the connectivity constraints between nodes in the drainage network are stored. DCGANs trained with three different types of training samples were compared; 1) original drainage network images, 2) their corresponding directional information only, and 3) the connectivity-informed directional information. Comparison of generated images demonstrated that the novel connectivity-informed method outperformed the other two methods by training DCGANs more effectively and better reproducing accurate drainage networks due to its compact representation of the network complexity and connectivity. This work highlights that DCGANs can be applicable for high contrast images common in earth and material sciences where the network, fractures, and other high contrast features are important.
翻訳日:2022-11-20 20:39:33 公開日:2020-06-16
# ストータリングとストータリング療法の自動化に向けて

Towards Automated Assessment of Stuttering and Stuttering Therapy ( http://arxiv.org/abs/2006.09222v1 )

ライセンス: Link先を確認
Sebastian P. Bayerl, Florian H\"onig, Joelle Reister and Korbinian Riedhammer(参考訳) 発声は複雑な言語障害であり、繰り返し、音、音節または単語の延長、発話中のブロックによって識別できる。 重度評価は通常、スピーチセラピストによって行われる。 自動評価の試みは行われたが、治療にはほとんど使われていない。 発声重症度を評価する一般的な方法は、%発声音節(%ss)、発話課題中の3つの発声症状の平均、最近導入された発声効率スコア(ses)である。 本稿では,スタブリングの重症度を評価する新しい手法である音声制御指標(SCI)を提案する。 SESとは異なり、流速形成の治療成功を評価するためにも使用できる。 本研究はsesとsciの両方を評価し,その前・中・後におけるドイツ語話者の発話を包含する包括的ラベル付きデータセットについて検討した。 音声認識システムの音声アライメントは,ラベル付き発声イベントに対する相対的な位置に対して統計的に評価される。 その結果、音声長の分布はラベル付き発話における位置と周辺で異なることが示唆された。

Stuttering is a complex speech disorder that can be identified by repetitions, prolongations of sounds, syllables or words, and blocks while speaking. Severity assessment is usually done by a speech therapist. While attempts at automated assessment were made, it is rarely used in therapy. Common methods for the assessment of stuttering severity include percent stuttered syllables (% SS), the average of the three longest stuttering symptoms during a speech task, or the recently introduced Speech Efficiency Score (SES). This paper introduces the Speech Control Index (SCI), a new method to evaluate the severity of stuttering. Unlike SES, it can also be used to assess therapy success for fluency shaping. We evaluate both SES and SCI on a new comprehensively labeled dataset containing stuttered German speech of clients prior to, during, and after undergoing stuttering therapy. Phone alignments of an automatic speech recognition system are statistically evaluated in relation to their relative position to labeled stuttering events. The results indicate that phone length distributions differ with respect to their position in and around labeled stuttering events
翻訳日:2022-11-20 20:39:11 公開日:2020-06-16
# ポーキングによる深さ:自己監督型グラフプから深さを推定する学習

Depth by Poking: Learning to Estimate Depth from Self-Supervised Grasping ( http://arxiv.org/abs/2006.08903v1 )

ライセンス: Link先を確認
Ben Goodrich, Alex Kuefler, William D. Richards(参考訳) 正確な深度推定はロボット操作には未解決の問題であり、構造化光やLiDARセンサーを含む最先端技術でさえ反射や透明な表面では失敗する。 本稿では,ロボットと環境との物理的相互作用のラベルを用いて,RGB-D画像から深度を推定するニューラルネットワークモデルを訓練することにより,この問題に対処する。 我々のネットワークは、入力画像の各ピクセルについて、ロボットのエンドエフェクターが対応する位置をつかんだり突いたりしようとすると、Z位置が到達すると予測する。 自律的な把握ポリシを前提として,エンドエフェクタの位置ラベルを人間のアノテーションなしでフォワードキネマティクスで復元できるため,本手法は自己管理される。 このような物理的相互作用データの収集は高価であるが,技術操作システムの訓練や定期運用には必要である。 したがって、この深さ推定器は、他のタスク(例えば、つかみ、押す、配置)のデータを収集しながら ``for free'' となる。 本手法は,従来の構造化光センサや非教師なし深層学習法に比べて,非常に低い根元平均二乗誤差を実現できることを示す。

Accurate depth estimation remains an open problem for robotic manipulation; even state of the art techniques including structured light and LiDAR sensors fail on reflective or transparent surfaces. We address this problem by training a neural network model to estimate depth from RGB-D images, using labels from physical interactions between a robot and its environment. Our network predicts, for each pixel in an input image, the z position that a robot's end effector would reach if it attempted to grasp or poke at the corresponding position. Given an autonomous grasping policy, our approach is self-supervised as end effector position labels can be recovered through forward kinematics, without human annotation. Although gathering such physical interaction data is expensive, it is necessary for training and routine operation of state of the art manipulation systems. Therefore, this depth estimator comes ``for free'' while collecting data for other tasks (e.g., grasping, pushing, placing). We show our approach achieves significantly lower root mean squared error than traditional structured light sensors and unsupervised deep learning methods on difficult, industry-scale jumbled bin datasets.
翻訳日:2022-11-20 20:38:53 公開日:2020-06-16
# rl-cyclegan:強化学習を考慮したシミュレーション

RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real ( http://arxiv.org/abs/2006.09001v1 )

ライセンス: Link先を確認
Kanishka Rao, Chris Harris, Alex Irpan, Sergey Levine, Julian Ibarz, Mohi Khansari(参考訳) ディープニューラルネットワークに基づく強化学習(RL)は、手動のエンジニアリングや知覚システムの事前学習を必要とせずに、視覚ベースのロボットグリップのような複雑なタスクのための適切な視覚表現を学習することができる。 しかし、RLのデータは、望ましい環境でエージェントを走らせることで収集され、ロボット工学のようなアプリケーションでは、現実世界でロボットを走らせるのは非常にコストがかかり、時間がかかります。 シミュレーショントレーニングは魅力的な代替手段を提供するが、シミュレーションで訓練されたポリシーが現実世界に効果的に移行できるようにするには、追加の機械が必要である。 シミュレーションは現実と一致せず、一般的にシミュレーションと現実のギャップを埋めるにはドメイン知識とタスク固有のエンジニアリングが必要です。 生成モデルを使ってシミュレーション画像をリアルな画像に変換することで、このプロセスを自動化できます。 しかし、この種の翻訳は通常タスクに依存しず、翻訳された画像はタスクに関連する全ての特徴を保存しない。 本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。 これにより、タスク対応翻訳を学べます。 この損失を教師なしドメイン翻訳に組み込んだRL-CycleGANは、強化学習のためのシミュレーションから実世界へのトランスファーのための新しいアプローチである。 RL-CycleGANを2つの視覚系ロボットグルーピングタスクで評価したところ、RL-CycleGANは従来のシミュレート・トゥ・リアル・トランスファー法よりも大幅に改善され、少ない数の実世界観測で優れた実世界性能が得られることがわかった。

Deep neural network based reinforcement learning (RL) can learn appropriate visual representations for complex tasks like vision-based robotic grasping without the need for manually engineering or prior learning a perception system. However, data for RL is collected via running an agent in the desired environment, and for applications like robotics, running a robot in the real world may be extremely costly and time consuming. Simulated training offers an appealing alternative, but ensuring that policies trained in simulation can transfer effectively into the real world requires additional machinery. Simulations may not match reality, and typically bridging the simulation-to-reality gap requires domain knowledge and task-specific engineering. We can automate this process by employing generative models to translate simulated images into realistic ones. However, this sort of translation is typically task-agnostic, in that the translated images may not preserve all features that are relevant to the task. In this paper, we introduce the RL-scene consistency loss for image translation, which ensures that the translation operation is invariant with respect to the Q-values associated with the image. This allows us to learn a task-aware translation. Incorporating this loss into unsupervised domain translation, we obtain RL-CycleGAN, a new approach for simulation-to-real-world transfer for reinforcement learning. In evaluations of RL-CycleGAN on two vision-based robotics grasping tasks, we show that RL-CycleGAN offers a substantial improvement over a number of prior methods for sim-to-real transfer, attaining excellent real-world performance with only a modest number of real-world observations.
翻訳日:2022-11-20 20:38:34 公開日:2020-06-16
# 並列システムによる文書画像分類の精度向上と高速化

Improving accuracy and speeding up Document Image Classification through parallel systems ( http://arxiv.org/abs/2006.09141v1 )

ライセンス: Link先を確認
Javier Ferrando and Juan Luis Dominguez and Jordi Torres and Raul Garcia and David Garcia and Daniel Garrido and Jordi Cortada and Mateo Valero(参考訳) 本稿では,文書分類タスクにおける重畳畳み込みニューラルネットワーク(CNN)と比較して,効率的なネットモデルの利点を示す。 RVL-CDIPデータセットでは、より軽量なモデルで以前の結果を改善することができ、Tobacco3482のような小さなドメイン内データセット上で転送学習能力を示す。 さらに,OCR による抽出テキスト上で BERT モデルが生成した画像モデル予測と組み合わせることで,画像入力のみの高速化が可能なアンサンブルパイプラインを提案する。 また,バッチサイズが精度を損なうことなく効果的に増大できることを示し,複数のGPUを並列化することでトレーニングプロセスを高速化し,計算時間を短縮できることを示した。 最後に、PyTorchとTensorflow Deep Learningフレームワーク間のトレーニングパフォーマンスの違いを明らかにします。

This paper presents a study showing the benefits of the EfficientNet models compared with heavier Convolutional Neural Networks (CNNs) in the Document Classification task, essential problem in the digitalization process of institutions. We show in the RVL-CDIP dataset that we can improve previous results with a much lighter model and present its transfer learning capabilities on a smaller in-domain dataset such as Tobacco3482. Moreover, we present an ensemble pipeline which is able to boost solely image input by combining image model predictions with the ones generated by BERT model on extracted text by OCR. We also show that the batch size can be effectively increased without hindering its accuracy so that the training process can be sped up by parallelizing throughout multiple GPUs, decreasing the computational time needed. Lastly, we expose the training performance differences between PyTorch and Tensorflow Deep Learning frameworks.
翻訳日:2022-11-20 20:37:17 公開日:2020-06-16
# 協調ゲーム抽象化を用いたチームワークの評価とリワード

Evaluating and Rewarding Teamwork Using Cooperative Game Abstractions ( http://arxiv.org/abs/2006.09538v1 )

ライセンス: Link先を確認
Tom Yan, Christian Kroer, Alexander Peysakhovich(参考訳) 個人のチームがどれだけうまく働くかを予測できますか? チームパフォーマンスへの貢献に対して、個人はどのように報われるべきか? 協調ゲーム理論は、特徴関数(CF)とShapley Value(SV)のようなソリューション概念という、これらの質問に答えるための強力なツールセットを提供する。 まず、CFは私たちにはほとんど与えられず、データから学ぶ必要がある。 第二に、svは自然界における組合せである。 データからCFを推定するための協調ゲーム抽象化(CGA)と呼ばれるパラメトリックモデルを導入する。 CGAは容易に学習でき、容易に解釈でき、SVの線形時間計算を可能にする。 CGAモデルに対する識別結果とサンプル複雑性境界、およびCGAを用いたSVの推定における誤差境界を提供する。 我々は,人工RLエージェントのチームと,プロスポーツの現実世界チームの研究に本手法を適用した。

Can we predict how well a team of individuals will perform together? How should individuals be rewarded for their contributions to the team performance? Cooperative game theory gives us a powerful set of tools for answering these questions: the Characteristic Function (CF) and solution concepts like the Shapley Value (SV). There are two major difficulties in applying these techniques to real world problems: first, the CF is rarely given to us and needs to be learned from data. Second, the SV is combinatorial in nature. We introduce a parametric model called cooperative game abstractions (CGAs) for estimating CFs from data. CGAs are easy to learn, readily interpretable, and crucially allow linear-time computation of the SV. We provide identification results and sample complexity bounds for CGA models as well as error bounds in the estimation of the SV using CGAs. We apply our methods to study teams of artificial RL agents as well as real world teams from professional sports.
翻訳日:2022-11-20 20:30:16 公開日:2020-06-16
# AdvMind:ブラックボックス攻撃の相手を推測する

AdvMind: Inferring Adversary Intent of Black-Box Attacks ( http://arxiv.org/abs/2006.09539v1 )

ライセンス: Link先を確認
Ren Pang, Xinyang Zhang, Shouling Ji, Xiapu Luo, Ting Wang(参考訳) ディープニューラルネットワーク(dnn)は本質的に、ブラックボックス設定下でも、ターゲットモデルへのクエリアクセスしか持たない敵の攻撃に影響を受けやすい。 実際には、そのような攻撃を効果的に検出することは可能であるが(例えば、大規模な類似するが非同一の問い合わせを観察するなど)、敵意を正確に推測することはしばしば困難であり(例えば、敵意の標的クラスである敵意の製作の試み)、特に攻撃の初期段階において、多くのシナリオにおいて効果的な抑止と修復を行う上で不可欠である。 本稿では,ブラックボックス攻撃の敵意を頑健かつ迅速な方法で推定する新たな評価モデルであるAdvMindを提案する。 具体的には、強固な検出を達成するためにadvmindは、ターゲットを隠す試みが攻撃コストを大幅に増加させる(例えば、クエリ数)、即席検出を達成するために、advmindが積極的に実行可能なクエリ結果を合成して、彼女の意図を最大限に露呈する敵からその後のクエリを引き出す。 ベンチマークデータセットの広範な評価と最先端のブラックボックス攻撃により、平均的なAdvMindは3回未満のクエリバッチを観察した後、75%以上の精度で敵の意図を検知し、同時に適応攻撃のコストを60%以上向上することを示した。 さらに,advmindと他の防御手法との相乗効果についても検討し,有望な研究方向を指摘した。

Deep neural networks (DNNs) are inherently susceptible to adversarial attacks even under black-box settings, in which the adversary only has query access to the target models. In practice, while it may be possible to effectively detect such attacks (e.g., observing massive similar but non-identical queries), it is often challenging to exactly infer the adversary intent (e.g., the target class of the adversarial example the adversary attempts to craft) especially during early stages of the attacks, which is crucial for performing effective deterrence and remediation of the threats in many scenarios. In this paper, we present AdvMind, a new class of estimation models that infer the adversary intent of black-box adversarial attacks in a robust and prompt manner. Specifically, to achieve robust detection, AdvMind accounts for the adversary adaptiveness such that her attempt to conceal the target will significantly increase the attack cost (e.g., in terms of the number of queries); to achieve prompt detection, AdvMind proactively synthesizes plausible query results to solicit subsequent queries from the adversary that maximally expose her intent. Through extensive empirical evaluation on benchmark datasets and state-of-the-art black-box attacks, we demonstrate that on average AdvMind detects the adversary intent with over 75% accuracy after observing less than 3 query batches and meanwhile increases the cost of adaptive attacks by over 60%. We further discuss the possible synergy between AdvMind and other defense methods against black-box adversarial attacks, pointing to several promising research directions.
翻訳日:2022-11-20 20:29:52 公開日:2020-06-16
# 学習ダイナミクスを用いたデータ駆動制御:モデルベース対モデルフリーアプローチ

Data Driven Control with Learned Dynamics: Model-Based versus Model-Free Approach ( http://arxiv.org/abs/2006.09543v1 )

ライセンス: Link先を確認
Wenjian Hao, Yiqiang Han(参考訳) 本稿では,モデルベースとモデルフリーの2種類のデータ駆動制御手法を比較する。 最近提案されたDeep Koopman Representation for Control (DKRC)は、未知の非線形力学系を高次元線形系にマッピングするためにディープニューラルネットワークを利用する。 もう1つは、アクター批判アーキテクチャに基づく古典的なモデルフリー制御手法である、Deep Deterministic Policy Gradient (DDPG)は、様々な力学系で有効であることが証明されている。 ベンチマーク目的で複数のコントロール環境を提供するOpenAI Gymで比較が行われる。 比較には、古典的逆振り子と月着陸連続制御という2つの例がある。 実験の結果から,これら2つの手法を制御戦略と様々な初期化条件における有効性の観点から比較した。 また,データ駆動型サンプル効率アプローチによる未知ダイナミクスの学習モデルの精度を示すeuler-lagrange線形化法による解析モデルを用いて,dkrcから得られた学習動的モデルについて検討した。

This paper compares two different types of data-driven control methods, representing model-based and model-free approaches. One is a recently proposed method - Deep Koopman Representation for Control (DKRC), which utilizes a deep neural network to map an unknown nonlinear dynamical system to a high-dimensional linear system, which allows for employing state-of-the-art control strategy. The other one is a classic model-free control method based on an actor-critic architecture - Deep Deterministic Policy Gradient (DDPG), which has been proved to be effective in various dynamical systems. The comparison is carried out in OpenAI Gym, which provides multiple control environments for benchmark purposes. Two examples are provided for comparison, i.e., classic Inverted Pendulum and Lunar Lander Continuous Control. From the results of the experiments, we compare these two methods in terms of control strategies and the effectiveness under various initialization conditions. We also examine the learned dynamic model from DKRC with the analytical model derived from the Euler-Lagrange Linearization method, which demonstrates the accuracy in the learned model for unknown dynamics from a data-driven sample-efficient approach.
翻訳日:2022-11-20 20:29:18 公開日:2020-06-16
# 等尺グラフニューラルネットワーク

Isometric Graph Neural Networks ( http://arxiv.org/abs/2006.09554v1 )

ライセンス: Link先を確認
Matthew Walker, Bo Yan, Yiou Xiao, Yafei Wang, Ayan Acharya(参考訳) グラフ内のノードの表現に依存する多くのタスクは、グラフ内のノード間の距離に忠実であれば恩恵を受ける。 このような表現を抽出する幾何学的手法はグラフサイズを超越したスケーリングが低く、グラフニューラルネットワーク(GNN)アルゴリズムの最近の進歩は、グラフ距離情報を第1次近傍に反映する能力に制限がある。 そこで本研究では,GNNアルゴリズムがノード間の距離を反映した表現を生成するために,入力表現空間と損失関数を変更することを必要とするIsometric Graph Neural Networks (IGNN) の学習手法を提案する。 複数のデータセット上で複数の予測タスクをモデル化するために,複数のGNNアーキテクチャ上でアイソメトリック手法を実験した。 これらの実験で auc-roc が 43\%$ まで向上したことに加え、ケンドールの tau (kt) において400% 以上の一貫性と実質的な改善が観察された。

Many tasks that rely on representations of nodes in graphs would benefit if those representations were faithful to distances between nodes in the graph. Geometric techniques to extract such representations have poor scaling over large graph size, and recent advances in Graph Neural Network (GNN) algorithms have limited ability to reflect graph distance information beyond the first degree neighborhood. To enable this highly desired capability, we propose a technique to learn Isometric Graph Neural Networks (IGNN), which requires changing the input representation space and loss function to enable any GNN algorithm to generate representations that reflect distances between nodes. We experiment with the isometric technique on several GNN architectures for modeling multiple prediction tasks on multiple datasets. In addition to an improvement in AUC-ROC as high as $43\%$ in these experiments, we observe a consistent and substantial improvement as high as 400% in Kendall's Tau (KT), a measure that directly reflects distance information, demonstrating that the learned embeddings do account for graph distances.
翻訳日:2022-11-20 20:28:38 公開日:2020-06-16
# ほとんどの機械学習タスクのためのワンパスプライベートスケッチ

A One-Pass Private Sketch for Most Machine Learning Tasks ( http://arxiv.org/abs/2006.09352v1 )

ライセンス: Link先を確認
Benjamin Coleman and Anshumali Shrivastava(参考訳) 差分プライバシー(DP)は、正式な証明可能な保証を通じてプライバシーとユーティリティのトレードオフを説明する魅力的なプライバシー定義である。 汎用データリリースアルゴリズムの最近の進歩に触発されて,回帰,分類,密度推定,近距離探索など,多数の機械学習タスクをサポートするデータセットのプライベートスケッチ,あるいは小さなサマリーを提案する。 このスケッチは,局所性に敏感なハッシュをインデックス化して,効率的なワンパスアルゴリズムで構築したランダムな一致テーブルで構成されている。 dpカーネル密度推定の競合誤差境界を証明した。 DPカーネル密度推定のための既存の手法は、次元の増大とともに、しばしば指数関数的に遅くスケールする。 対照的に、私たちのスケッチは、大きな高次元のデータセットを1パスで素早く実行できます。 既存のDP手法と比較して計算コストのごく一部で、我々の一般的なスケッチは、同様のプライバシーとユーティリティのトレードオフをもたらすことを示す。 当社のスケッチは、大規模に分散した機械学習環境での差分プライバシを実現することを期待しています。

Differential privacy (DP) is a compelling privacy definition that explains the privacy-utility tradeoff via formal, provable guarantees. Inspired by recent progress toward general-purpose data release algorithms, we propose a private sketch, or small summary of the dataset, that supports a multitude of machine learning tasks including regression, classification, density estimation, near-neighbor search, and more. Our sketch consists of randomized contingency tables that are indexed with locality-sensitive hashing and constructed with an efficient one-pass algorithm. We prove competitive error bounds for DP kernel density estimation. Existing methods for DP kernel density estimation scale poorly, often exponentially slower with an increase in dimensions. In contrast, our sketch can quickly run on large, high-dimensional datasets in a single pass. Exhaustive experiments show that our generic sketch delivers a similar privacy-utility tradeoff when compared to existing DP methods at a fraction of the computation cost. We expect that our sketch will enable differential privacy in distributed, large-scale machine learning settings.
翻訳日:2022-11-20 20:22:36 公開日:2020-06-16
# 支持が不十分なオフポリシーバンディット

Off-policy Bandits with Deficient Support ( http://arxiv.org/abs/2006.09438v1 )

ライセンス: Link先を確認
Noveen Sachdeva, Yi Su, Thorsten Joachims(参考訳) デプロイされたシステムの過去の動作から効果的なコンテキスト帯域ポリシーを学習することは、大量のログデータの再利用を可能にするため、多くの設定(音声アシスタント、レコメンデーション、検索など)で非常に望ましい。 しかし、そのようなオフ・ポリティ・ラーニングのための最先端の手法は、ips(inverse propensity score)重み付けに基づいている。 IPS重み付けの重要な理論的な要件は、データをログしたポリシーが「完全なサポート」を持っていることである。 残念ながら、多くの現実世界のシステムは、特にアクション空間が大きい場合、サポート不足のデータを生成し、既存の手法が破滅的に失敗する可能性があることを示す。 このような理論と応用のギャップを克服するために,サポート不足データに固有の制約があるにもかかわらず,IPSベースの学習に様々な保証を提供する3つのアプローチを同定する。 これら3つの手法の統計的および計算的性質を体系的に解析し,その効果を実証的に評価する。 文脈帯域学習におけるサポート欠陥の体系的分析に加えて,実践的指導を行うための推奨事項も提示する。

Learning effective contextual-bandit policies from past actions of a deployed system is highly desirable in many settings (e.g. voice assistants, recommendation, search), since it enables the reuse of large amounts of log data. State-of-the-art methods for such off-policy learning, however, are based on inverse propensity score (IPS) weighting. A key theoretical requirement of IPS weighting is that the policy that logged the data has "full support", which typically translates into requiring non-zero probability for any action in any context. Unfortunately, many real-world systems produce support deficient data, especially when the action space is large, and we show how existing methods can fail catastrophically. To overcome this gap between theory and applications, we identify three approaches that provide various guarantees for IPS-based learning despite the inherent limitations of support-deficient data: restricting the action space, reward extrapolation, and restricting the policy space. We systematically analyze the statistical and computational properties of these three approaches, and we empirically evaluate their effectiveness. In addition to providing the first systematic analysis of support-deficiency in contextual-bandit learning, we conclude with recommendations that provide practical guidance.
翻訳日:2022-11-20 20:21:22 公開日:2020-06-16
# L1-ロバストマルコフ決定過程の部分的政策反復

Partial Policy Iteration for L1-Robust Markov Decision Processes ( http://arxiv.org/abs/2006.09484v1 )

ライセンス: Link先を確認
Chin Pang Ho and Marek Petrik and Wolfram Wiesemann(参考訳) ロバスト・マルコフ決定過程(MDP)は、報酬と部分的に知られた遷移確率によってモデル化された動的決定問題に対する信頼性の高い解を計算することができる。 残念なことに、遷移確率の不確実性を考慮すると、堅牢なMDPを解く際の計算複雑性が著しく増加し、スケーラビリティが著しく制限される。 本稿では, 重み付き $l_1$ ノルムで定義される s- および sa-rectangular ambiguity 集合を用いたロバストな mdps の共通クラスを解くための新しい効率的なアルゴリズムについて述べる。 我々は,ロバストなmdpのための新しい,効率的,フレキシブル,汎用的なポリシイテレーションスキームである部分ポリシーイテレーションを提案する。 また,非ロバストベルマン作用素の線形複雑性にほぼ一致するような,ロバストベルマン作用素を準線形時間で計算するための高速手法を提案する。 実験結果から,提案手法は線形計画解法とロバストな値反復法を併用した最先端手法よりも桁違いに高速であることが示唆された。

Robust Markov decision processes (MDPs) allow to compute reliable solutions for dynamic decision problems whose evolution is modeled by rewards and partially-known transition probabilities. Unfortunately, accounting for uncertainty in the transition probabilities significantly increases the computational complexity of solving robust MDPs, which severely limits their scalability. This paper describes new efficient algorithms for solving the common class of robust MDPs with s- and sa-rectangular ambiguity sets defined by weighted $L_1$ norms. We propose partial policy iteration, a new, efficient, flexible, and general policy iteration scheme for robust MDPs. We also propose fast methods for computing the robust Bellman operator in quasi-linear time, nearly matching the linear complexity the non-robust Bellman operator. Our experimental results indicate that the proposed methods are many orders of magnitude faster than the state-of-the-art approach which uses linear programming solvers combined with a robust value iteration.
翻訳日:2022-11-20 20:19:38 公開日:2020-06-16
# 注意の焦点は視覚機能における情報伝達を改善する

Focus of Attention Improves Information Transfer in Visual Features ( http://arxiv.org/abs/2006.09229v1 )

ライセンス: Link先を確認
Matteo Tiezzi, Stefano Melacci, Alessandro Betti, Marco Maggini, Marco Gori(参考訳) 連続的なビジュアルストリームからの教師なし学習は、従来のバッチモードの計算では自然に効率的に管理できない難しい問題である。 情報の流れは、視覚データの適切な時空間分布に応じて慎重に処理されなければならず、学習のほとんどのアプローチは一般に均一な確率密度を想定している。 本稿では,物理における最小作用原理に触発された計算モデルを用いて,真のオンライン環境における視覚情報伝達のための教師なし学習に着目する。 相互情報の最大化は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。 2階微分方程式に基づくこのモデルは、入力から入力の視覚的特徴に関連する記号の離散空間への情報伝達を最大化し、その計算は隠れたニューロンによって支援される。 入力確率分布をよりよく構成するために、情報最大化モデルと一致して2階微分方程式にもとづく、人間のような注目モデルを用いる。 注意の焦点によって引き起こされる時空間的フィルタリングにより、集中領域にまたがって入力ストリームからより多くの情報をグローバルに転送し、ある文脈では、均一な確率分布をもたらすフィルタされていないケースに対して、フレーム全体にわたってより多くの情報を転送することができることを示す実験結果を提供する。

Unsupervised learning from continuous visual streams is a challenging problem that cannot be naturally and efficiently managed in the classic batch-mode setting of computation. The information stream must be carefully processed accordingly to an appropriate spatio-temporal distribution of the visual data, while most approaches of learning commonly assume uniform probability density. In this paper we focus on unsupervised learning for transferring visual information in a truly online setting by using a computational model that is inspired to the principle of least action in physics. The maximization of the mutual information is carried out by a temporal process which yields online estimation of the entropy terms. The model, which is based on second-order differential equations, maximizes the information transfer from the input to a discrete space of symbols related to the visual features of the input, whose computation is supported by hidden neurons. In order to better structure the input probability distribution, we use a human-like focus of attention model that, coherently with the information maximization model, is also based on second-order differential equations. We provide experimental results to support the theory by showing that the spatio-temporal filtering induced by the focus of attention allows the system to globally transfer more information from the input stream over the focused areas and, in some contexts, over the whole frames with respect to the unfiltered case that yields uniform probability distributions.
翻訳日:2022-11-20 20:12:51 公開日:2020-06-16
# ロバストなフェデレーション学習:アフィン分布シフトの事例

Robust Federated Learning: The Case of Affine Distribution Shifts ( http://arxiv.org/abs/2006.08907v1 )

ライセンス: Link先を確認
Amirhossein Reisizadeh, Farzan Farnia, Ramtin Pedarsani, Ali Jadbabaie(参考訳) フェデレートラーニング(Federated Learning)は、ネットワーク内の複数のユーザ間で分散されたサンプルを使用してモデルをトレーニングすることを目的とした分散パラダイムである。 このような環境では、トレーニングデータは統計的に異種であり、ユーザ間で様々な分散シフトを示し、学習モデルのパフォーマンスを低下させる。 本研究の主な目的は,ユーザのサンプルの分布変化に対して良好な性能を実現する,堅牢なフェデレーション学習アルゴリズムを開発することである。 この目的を達成するために、まず、フェデレーション設定におけるデバイス依存データの不均一性をキャプチャするユーザのデータの構造化アフィン分布シフトを検討する。 この摂動モデルは、画像がデバイス依存の不完全性(例えば、強度、コントラスト、明るさ)を受ける画像分類などの様々な連邦学習問題に適用できる。 本稿では,ユーザ間でのアフィン分布シフトに対処するため,アフィン分布シフトに対して確実に頑健であるFederated Learning framework Robust to Affine Distribution shifts (FLRA)を提案する。 FLRAの分散ミニマックス問題を解くために,高速かつ効率的な最適化法を提案し,勾配Descent Ascent (GDA) 法による収束保証を提供する。 さらに,サンプル実験分布から真の基底分布への適切な一般化を示すために,学習者分類器の一般化誤差境界を証明した。 FLRAを実証的に支援するための数値実験を行った。 実験では,アフィン分布の変化が学習者分類器の性能を著しく低下させるには十分であり,本アルゴリズムは標準連関学習法や逆学習法と比較して有意な利得が得られることを示す。

Federated learning is a distributed paradigm that aims at training models using samples distributed across multiple users in a network while keeping the samples on users' devices with the aim of efficiency and protecting users privacy. In such settings, the training data is often statistically heterogeneous and manifests various distribution shifts across users, which degrades the performance of the learnt model. The primary goal of this paper is to develop a robust federated learning algorithm that achieves satisfactory performance against distribution shifts in users' samples. To achieve this goal, we first consider a structured affine distribution shift in users' data that captures the device-dependent data heterogeneity in federated settings. This perturbation model is applicable to various federated learning problems such as image classification where the images undergo device-dependent imperfections, e.g. different intensity, contrast, and brightness. To address affine distribution shifts across users, we propose a Federated Learning framework Robust to Affine distribution shifts (FLRA) that is provably robust against affine Wasserstein shifts to the distribution of observed samples. To solve the FLRA's distributed minimax problem, we propose a fast and efficient optimization method and provide convergence guarantees via a gradient Descent Ascent (GDA) method. We further prove generalization error bounds for the learnt classifier to show proper generalization from empirical distribution of samples to the true underlying distribution. We perform several numerical experiments to empirically support FLRA. We show that an affine distribution shift indeed suffices to significantly decrease the performance of the learnt classifier in a new test user, and our proposed algorithm achieves a significant gain in comparison to standard federated learning and adversarial training methods.
翻訳日:2022-11-20 20:04:53 公開日:2020-06-16
# 最適決定から線形プログラムを学ぶ

Learning Linear Programs from Optimal Decisions ( http://arxiv.org/abs/2006.08923v1 )

ライセンス: Link先を確認
Yingcong Tan, Daria Terekhov, Andrew Delong(参考訳) 最適決定から線形プログラムを学習するための柔軟な勾配ベースフレームワークを提案する。 線形プログラムはしばしば手動で指定され、関連するコストと制約の事前知識を使用する。 一部の応用では、線形プログラムは最適な決定の観測から学ぶ必要がある。 最適決定から学ぶことは特に難しい二段階問題であり、関連する逆最適化文献の多くは特別なケースに特化されている。 我々は、コスト、制約、損失関数の柔軟なパラメトリゼーションを可能にしながら、全てのパラメータを共同で学習する。 また,空の実現可能領域や非統一的最適決定など,線形プログラムの学習に特有の課題にも対処した。 実験の結果,従来の手法では適用できない合成線形プログラムと最小コストのマルチ商品フローインスタンスの学習に成功した。 また,均質な内部点アルゴリズムの高速バッチモードpytorch実装も提供し,暗黙的な微分やバックプロパゲーションによる勾配をサポートする。

We propose a flexible gradient-based framework for learning linear programs from optimal decisions. Linear programs are often specified by hand, using prior knowledge of relevant costs and constraints. In some applications, linear programs must instead be learned from observations of optimal decisions. Learning from optimal decisions is a particularly challenging bi-level problem, and much of the related inverse optimization literature is dedicated to special cases. We tackle the general problem, learning all parameters jointly while allowing flexible parametrizations of costs, constraints, and loss functions. We also address challenges specific to learning linear programs, such as empty feasible regions and non-unique optimal decisions. Experiments show that our method successfully learns synthetic linear programs and minimum-cost multi-commodity flow instances for which previous methods are not directly applicable. We also provide a fast batch-mode PyTorch implementation of the homogeneous interior point algorithm, which supports gradients by implicit differentiation or backpropagation.
翻訳日:2022-11-20 20:04:21 公開日:2020-06-16
# クラスタ化ラッソとOSCARの効率的な経路アルゴリズム

Efficient Path Algorithms for Clustered Lasso and OSCAR ( http://arxiv.org/abs/2006.08965v1 )

ライセンス: Link先を確認
Atsumori Takahashi and Shunichi Nomura(参考訳) 高次元回帰では、結果に対する特徴クラスタリングは、しばしば特徴の選択と同じくらい重要である。 その目的のために、回帰のためのクラスタ化ラッソと八角形収縮とクラスタリングアルゴリズム(OSCAR)を用いて、それぞれペアワイズ$L_1$ノルムとペアワイズ$L_\infty$ノルムで特徴群を自動的に作成する。 本稿では,クラスタ化されたlassoとoscarに対する効率的な経路アルゴリズムを提案し,それらの正規化パラメータに対して解経路を構築する。 完全対正則化における多くの項にもかかわらず、それらの項の対称性を用いることで計算コストは削減される。 各特徴群における劣次方程式をチェックするための単純な等価条件は、いくつかのグラフ理論によって導かれる。 提案アルゴリズムは数値実験において既存のアルゴリズムよりも効率的であることが示されている。

In high dimensional regression, feature clustering by their effects on outcomes is often as important as feature selection. For that purpose, clustered Lasso and octagonal shrinkage and clustering algorithm for regression (OSCAR) are used to make feature groups automatically by pairwise $L_1$ norm and pairwise $L_\infty$ norm, respectively. This paper proposes efficient path algorithms for clustered Lasso and OSCAR to construct solution paths with respect to their regularization parameters. Despite too many terms in exhaustive pairwise regularization, their computational costs are reduced by using symmetry of those terms. Simple equivalent conditions to check subgradient equations in each feature group are derived by some graph theories. The proposed algorithms are shown to be more efficient than existing algorithms in numerical experiments.
翻訳日:2022-11-20 20:03:29 公開日:2020-06-16
# マルチペナルティ分布回帰の学習率の推定

Estimates on Learning Rates for Multi-Penalty Distribution Regression ( http://arxiv.org/abs/2006.09017v1 )

ライセンス: Link先を確認
Zhan Yu, Daniel W. C. Ho(参考訳) 本稿では,2段階のサンプル分布回帰を利用して機能学習を行う。 本研究では,分布回帰のための複数ペナルティ正則化アルゴリズムを学習理論の枠組みで検討する。 このアルゴリズムは確率測度から実値出力に回帰することを目的としている。 分布回帰の理論的な解析は、実用環境では第2段階のサンプルのみが観測可能であるため、成熟度や非常に困難である。 このアルゴリズムでは、サンプルから情報を変換するために、分布を平均埋め込み技法でマーサーカーネル $k$ に関連付けられた再生カーネルヒルベルト空間 $\mathcal{h}_k$ に埋め込む。 この論文の主な貢献は、分散回帰の特徴を捉え、アルゴリズムの最適学習率を導出するための、新しいマルチペナルティ正規化アルゴリズムを提案することである。 この研究は、既存の文献では研究されていない非標準設定 $f_{\rho}\notin\mathcal{H}_K$ における分布回帰の学習率も導出している。 さらに,大規模データや情報問題に直面する分散回帰に基づく分散学習アルゴリズムを提案する。 最適学習率を分散学習アルゴリズムに導出する。 新しいアルゴリズムを提供し、学習率を示すことによって、文学における既存の作業を異なる側面で改善する。

This paper is concerned with functional learning by utilizing two-stage sampled distribution regression. We study a multi-penalty regularization algorithm for distribution regression under the framework of learning theory. The algorithm aims at regressing to real valued outputs from probability measures. The theoretical analysis on distribution regression is far from maturity and quite challenging, since only second stage samples are observable in practical setting. In the algorithm, to transform information from samples, we embed the distributions to a reproducing kernel Hilbert space $\mathcal{H}_K$ associated with Mercer kernel $K$ via mean embedding technique. The main contribution of the paper is to present a novel multi-penalty regularization algorithm to capture more features of distribution regression and derive optimal learning rates for the algorithm. The work also derives learning rates for distribution regression in the nonstandard setting $f_{\rho}\notin\mathcal{H}_K$, which is not explored in existing literature. Moreover, we propose a distribution regression-based distributed learning algorithm to face large-scale data or information challenge. The optimal learning rates are derived for the distributed learning algorithm. By providing new algorithms and showing their learning rates, we improve the existing work in different aspects in the literature.
翻訳日:2022-11-20 20:02:55 公開日:2020-06-16
# MCRapper:Monte-Carlo Rademacher平均値と近似パターンマイニング

MCRapper: Monte-Carlo Rademacher Averages for Poset Families and Approximate Pattern Mining ( http://arxiv.org/abs/2006.09085v1 )

ライセンス: Link先を確認
Leonardo Pellegrina, Cyrus Cousins, Fabio Vandin, Matteo Riondato(参考訳) MCRapperは,多くのパターンマイニングタスクで発生するような,ポーズ(格子)構造を示す関数群に対して,MCERA(Monte-Carlo Empirical Rademacher Averages)の効率的な計算アルゴリズムである。 MCERAは、期待値からサンプル平均の最大偏差に対する上限を計算することができるので、利用可能なデータが未知の分布からサンプルと見なされるとき、統計学的に重要な関数(パターン)と、利用可能なデータが大きなデータセットからの小さなサンプルであるとき、高観測関数(頻繁なパターン)の集合の近似の両方を見つけることができる。 この機能は、以前提案された2つのソリューションのうちの1つしか達成できないような、強力な改善である。 MCRapperは、パターンマイニング自体から借用された手法である探索空間を効率的に探索し、熟成するために、関数の相違に上限を用いる。 MCRapperの実用性を示すため,真周波数パターン(TFP)マイニングのためのアルゴリズムTFP-Rを開発した。 TFP-Rは偽陽性(精度)を含む確率を保証し、同じ保証を提供する既存の方法よりも高い統計的パワー(リコール)を示す。 mcrapper と tfp-r を評価し,各タスクの最先端を上回っていることを示す。

We present MCRapper, an algorithm for efficient computation of Monte-Carlo Empirical Rademacher Averages (MCERA) for families of functions exhibiting poset (e.g., lattice) structure, such as those that arise in many pattern mining tasks. The MCERA allows us to compute upper bounds to the maximum deviation of sample means from their expectations, thus it can be used to find both statistically-significant functions (i.e., patterns) when the available data is seen as a sample from an unknown distribution, and approximations of collections of high-expectation functions (e.g., frequent patterns) when the available data is a small sample from a large dataset. This feature is a strong improvement over previously proposed solutions that could only achieve one of the two. MCRapper uses upper bounds to the discrepancy of the functions to efficiently explore and prune the search space, a technique borrowed from pattern mining itself. To show the practical use of MCRapper, we employ it to develop an algorithm TFP-R for the task of True Frequent Pattern (TFP) mining. TFP-R gives guarantees on the probability of including any false positives (precision) and exhibits higher statistical power (recall) than existing methods offering the same guarantees. We evaluate MCRapper and TFP-R and show that they outperform the state-of-the-art for their respective tasks.
翻訳日:2022-11-20 20:02:00 公開日:2020-06-16
# 第7回BioASQ Challengeの結果

Results of the seventh edition of the BioASQ Challenge ( http://arxiv.org/abs/2006.09174v1 )

ライセンス: Link先を確認
Anastasios Nentidis, Konstantinos Bougiatiotis, Anastasia Krithara, Georgios Paliouras(参考訳) 本稿では,第7回BioASQチャレンジの結果を紹介する。 BioASQチャレンジの目的は、大規模バイオメディカルセマンティックインデックスと質問応答のタスクにおける課題の組織化によるシステムと方法論の促進である。 今年のチャレンジには、100以上のシステムを持つ30チームが参加した。 前年と同様に、最高のシステムは強力なベースラインを上回ることができた。 これは最先端のシステムが継続的に改善され、研究のフロンティアが押し上げられていることを示唆している。

The results of the seventh edition of the BioASQ challenge are presented in this paper. The aim of the BioASQ challenge is the promotion of systems and methodologies through the organization of a challenge on the tasks of large-scale biomedical semantic indexing and question answering. In total, 30 teams with more than 100 systems participated in the challenge this year. As in previous years, the best systems were able to outperform the strong baselines. This suggests that state-of-the-art systems are continuously improving, pushing the frontier of research.
翻訳日:2022-11-20 19:55:25 公開日:2020-06-16
# 自己調整型非対称突然変異を用いた進化アルゴリズム

Evolutionary Algorithms with Self-adjusting Asymmetric Mutation ( http://arxiv.org/abs/2006.09126v1 )

ライセンス: Link先を確認
Amirhossein Rajabi and Carsten Witt(参考訳) 進化的アルゴリズム(EA)や他のランダム化された探索ヒューリスティックは、下層の探索空間の異なる変換に関して不変な非バイアスアルゴリズムとみなされることが多い。 しかし、一定の量のドメイン知識が利用可能であれば、EAにおけるバイアス付き検索演算子の使用は可能となる。 二進探索空間に対する単純な (1+1) EA を考え、ゼロビットと1ビットを異なる方法で扱うことができる非対称な突然変異演算子を解析する。 この作用素は、Jansen and Sudholt (ECJ 18(1), 2010) による以前の研究を拡張し、演算子非対称性をアルゴリズムの成功率に応じて変化させる。 適切な非対称性の度合いを学習する自己調整スキームを用いて、固定されたターゲット$a\in\{0,1\}^n$のマッチングビット数を記述する関数のクラス上で、改善された実行結果を示す。

Evolutionary Algorithms (EAs) and other randomized search heuristics are often considered as unbiased algorithms that are invariant with respect to different transformations of the underlying search space. However, if a certain amount of domain knowledge is available the use of biased search operators in EAs becomes viable. We consider a simple (1+1) EA for binary search spaces and analyze an asymmetric mutation operator that can treat zero- and one-bits differently. This operator extends previous work by Jansen and Sudholt (ECJ 18(1), 2010) by allowing the operator asymmetry to vary according to the success rate of the algorithm. Using a self-adjusting scheme that learns an appropriate degree of asymmetry, we show improved runtime results on the class of functions OneMax$_a$ describing the number of matching bits with a fixed target $a\in\{0,1\}^n$.
翻訳日:2022-11-20 19:55:20 公開日:2020-06-16
# 動的mmwaveネットワークにおける適応型ユーザアソシエーションのためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Adaptive User Association in Dynamic mmWave Networks ( http://arxiv.org/abs/2006.09066v1 )

ライセンス: Link先を確認
Mohamed Sana, Antonio De Domenico, Wei Yu, Yves Lostanlen, and Emilio Calvanese Strinati(参考訳) ネットワークの高密度化とミリ波技術は、第5世代(5g)のモバイルネットワークの容量とデータレート要件を満たす鍵となる。 この文脈では、ローカルな観測で低複雑さのポリシーを設計するが、グローバルなネットワーク状態とネットワークダイナミクスに関してユーザアソシエーションを適応することは困難である。 実際、文献で提案されるフレームワークは、グローバルネットワーク情報への継続的なアクセスと、無線環境の変化に伴う関連性の再計算を必要とする。 このようなアプローチが複雑であるため、これらのソリューションは密集した5gネットワークには適していない。 本稿では,マルチエージェント強化学習に基づくユーザアソシエーションのためのスケーラブルでフレキシブルなアルゴリズムを設計し,この問題に対処する。 このアプローチでは、ユーザーは、ローカルな観測のみに基づいて、ネットワークの総和率を最適化するために、自律的に行動を調整することを学習する独立したエージェントとして行動する。 エージェント間の直接的な情報交換はないので、シグナルのオーバーヘッドも制限します。 シミュレーションの結果,提案手法は無線環境の(高速)変化に適応可能であり,最先端の解と比較した場合の合計利得が大きいことがわかった。

Network densification and millimeter-wave technologies are key enablers to fulfill the capacity and data rate requirements of the fifth generation (5G) of mobile networks. In this context, designing low-complexity policies with local observations, yet able to adapt the user association with respect to the global network state and to the network dynamics is a challenge. In fact, the frameworks proposed in literature require continuous access to global network information and to recompute the association when the radio environment changes. With the complexity associated to such an approach, these solutions are not well suited to dense 5G networks. In this paper, we address this issue by designing a scalable and flexible algorithm for user association based on multi-agent reinforcement learning. In this approach, users act as independent agents that, based on their local observations only, learn to autonomously coordinate their actions in order to optimize the network sum-rate. Since there is no direct information exchange among the agents, we also limit the signaling overhead. Simulation results show that the proposed algorithm is able to adapt to (fast) changes of radio environment, thus providing large sum-rate gain in comparison to state-of-the-art solutions.
翻訳日:2022-11-20 19:54:42 公開日:2020-06-16
# モントリオールAI倫理研究所による欧州委員会のAIに関するホワイトペーパーへの反応

Response by the Montreal AI Ethics Institute to the European Commission's Whitepaper on AI ( http://arxiv.org/abs/2006.09428v1 )

ライセンス: Link先を確認
Abhishek Gupta (1 and 2), Camylle Lanteigne (1 and 3) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) McGill University)(参考訳) 2020年2月、欧州委員会(EC)は「On Artificial Intelligence - A European approach to excellence and trust」と題する白書を発表した。 本稿では、欧州連合における人工知能(AI)の推進と採用のためのECの政策オプションの概要について述べる。 モントリオールAI倫理研究所(MAIEI)は、この論文をレビューし、ECの計画である「卓越したエコシステム」と「信頼のエコシステム」の構築と、AI、モノのインターネット(IoT)、ロボット工学の安全性と責任に関する回答を公開した。 MAIEIは、上記のセクションに関して、以下を含む15の勧告を提供している。 1) 研究開発コミュニティ、加盟国及び民間部門への取り組みに焦点をあてる。 2) トレーディングパートナーの政策とEUの政策を整合させる。 3) 信頼できるAIを構築するための理論的枠組みとアプローチの間のエコシステムのギャップを分析する。 4) 調整及び政策調整に焦点を当てる。 5) データのプライベートかつセキュアな共有を促進するメカニズムに注目すること。 6)研究・イノベーションコミュニティを強化するため、AI研究卓越センターのネットワークを構築する。 7) デジタルイノベーションハブを通じて知識移転を促進し、AIの専門知識を育成すること。 8)AIシステムの不透明性に関する議論にニュアンスを加えること。 9) 個人がAIシステムの決定又は出力を訴えるプロセスを作成すること。 10) 新規則の施行及び既存規則の強化 11) 顔認識技術の使用を禁止すること。 12) 同様の基準及び強制要件に全AIシステムを保持すること。 13) 生体認証システムが実施する目的を達成すること。 14) リスクが高いとみなされないシステムに対する自発的なラベリングシステムを実装すること。 15)AIシステムを理解し、潜在的なリスクを伝えることができる監視プロセスに個人を任命する。

In February 2020, the European Commission (EC) published a white paper entitled, On Artificial Intelligence - A European approach to excellence and trust. This paper outlines the EC's policy options for the promotion and adoption of artificial intelligence (AI) in the European Union. The Montreal AI Ethics Institute (MAIEI) reviewed this paper and published a response addressing the EC's plans to build an "ecosystem of excellence" and an "ecosystem of trust," as well as the safety and liability implications of AI, the internet of things (IoT), and robotics. MAIEI provides 15 recommendations in relation to the sections outlined above, including: 1) focus efforts on the research and innovation community, member states, and the private sector; 2) create alignment between trading partners' policies and EU policies; 3) analyze the gaps in the ecosystem between theoretical frameworks and approaches to building trustworthy AI; 4) focus on coordination and policy alignment; 5) focus on mechanisms that promote private and secure sharing of data; 6) create a network of AI research excellence centres to strengthen the research and innovation community; 7) promote knowledge transfer and develop AI expertise through Digital Innovation Hubs; 8) add nuance to the discussion regarding the opacity of AI systems; 9) create a process for individuals to appeal an AI system's decision or output; 10) implement new rules and strengthen existing regulations; 11) ban the use of facial recognition technology; 12) hold all AI systems to similar standards and compulsory requirements; 13) ensure biometric identification systems fulfill the purpose for which they are implemented; 14) implement a voluntary labelling system for systems that are not considered high-risk; 15) appoint individuals to the oversight process who understand AI systems well and are able to communicate potential risks.
翻訳日:2022-11-20 19:54:21 公開日:2020-06-16
# 深部強化学習を用いた無人表面車両のCOLREG対応衝突回避

COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using Deep Reinforcement Learning ( http://arxiv.org/abs/2006.09540v1 )

ライセンス: Link先を確認
Eivind Meyer and Amalie Heiberg and Adil Rasheed and Omer San(参考訳) 追従と衝突回避は、無人表面船や他の自動運転車にとって、ロボット工学における2つの基本的なガイダンス問題である。 何十年もの間、彼らは学術研究の対象となり、多くのアプローチが提案された。 しかし、それらは主に別の問題として扱われており、通常は実験的にのみ決定できるパラメータを持つ非線形第一原理モデルに依存している。 近年のDeep Reinforcement Learning(DRL)の台頭は、試行錯誤に基づくアプローチによって、最適なガイダンスポリシーをゼロからエンドツーエンドに学習する、という別のアプローチを示唆している。 本稿では,未作動の自律表面車両をコレーグに準拠して制御する二重目的問題に適用し,他の船舶との衝突を回避しつつ,事前の既知の所望経路を追従する,連続制御タスクにおける最先端性能を示すdrlアルゴリズムであるproximal policy optimization (ppo)の可能性を検討する。 ノルウェー海の入り江であるトロンドハイム・フィヨルド(Trondheim Fjord)からの高忠実度標高とAIS追跡データに基づいて、エージェントの最終的な成功は、挑戦的だが現実的な船の遭遇に対処しながら、非均一な海洋を航行する能力にかかっている、挑戦的で動的な現実のシナリオにおいて、訓練されたエージェントのパフォーマンスを評価する。

Path Following and Collision Avoidance, be it for unmanned surface vessels or other autonomous vehicles, are two fundamental guidance problems in robotics. For many decades, they have been subject to academic study, leading to a vast number of proposed approaches. However, they have mostly been treated as separate problems, and have typically relied on non-linear first-principles models with parameters that can only be determined experimentally. The rise of Deep Reinforcement Learning (DRL) in recent years suggests an alternative approach: end-to-end learning of the optimal guidance policy from scratch by means of a trial-and-error based approach. In this article, we explore the potential of Proximal Policy Optimization (PPO), a DRL algorithm with demonstrated state-of-the-art performance on Continuous Control tasks, when applied to the dual-objective problem of controlling an underactuated Autonomous Surface Vehicle in a COLREGs compliant manner such that it follows an a priori known desired path while avoiding collisions with other vessels along the way. Based on high-fidelity elevation and AIS tracking data from the Trondheim Fjord, an inlet of the Norwegian sea, we evaluate the trained agent's performance in challenging, dynamic real-world scenarios where the ultimate success of the agent rests upon its ability to navigate non-uniform marine terrain while handling challenging, but realistic vessel encounters.
翻訳日:2022-11-20 19:54:01 公開日:2020-06-16
# ウォークメッセージパッシングニューラルネットワークと2次グラフニューラルネットワーク

Walk Message Passing Neural Networks and Second-Order Graph Neural Networks ( http://arxiv.org/abs/2006.09499v1 )

ライセンス: Link先を確認
Floris Geerts(参考訳) メッセージパッシングニューラルネットワーク(MPNN)の表現力は、1次元Weisfeiler-Lemanグラフ(1-WL)の表現力と一致することが知られている。 MPNNの表現力を高めるために、高次元のWeisfeiler-Lemanテストに基づいて、最近多くのグラフニューラルネットワークアーキテクチャが提案されている。 本稿では,2次元 (2-WL) テストについて考察し,その特徴を頂点間距離$\ell$-walk MPNNと呼ばれる新しいタイプのMPNNを導入する。 2ドルのMPNNが2-WLと表現力で一致していることを示す。 より一般的に、$\ell$-walk MPNNは、任意の$\ell\geq 2$に対して、最近導入された$\ell$-walkリファインメントプロシージャ(W[$\ell$])の表現力と一致する。 2-WL と W[$\ell$] の対応に基づき、$\ell$-walk MPNN と $2$-walk MPNN が同じ表現力を持つ、すなわち、同じグラフのペアを区別できるが、$$$-walk MPNN は 2$-walk MPNN よりも早くグラフのペアを区別することができる。 表現力で2-WLまたはW[$\ell$]と一致する具体的な学習可能なグラフニューラルネットワーク(GNN)形式について、非線形層を許容する2階グラフニューラルネットワークを検討する。 特に、W[$\ell$] を表現力で一致させるために、各層で$\ell-1$行列乗法を許す。 我々は、特徴のタイプ(例えば可算集合から来るか、非可算集合から来るか)によって、特徴を表現するのに必要な次元の数に影響するため、2次gnnの異なるバージョンを提案する。 以上の結果から,複数行列乗算による層内の非線形性の増加は表現力を増加させるものではないことが示唆された。 最善の点では、入力グラフの区別がより速くなります。

The expressive power of message passing neural networks (MPNNs) is known to match the expressive power of the 1-dimensional Weisfeiler-Leman graph (1-WL) isomorphism test. To boost the expressive power of MPNNs, a number of graph neural network architectures have recently been proposed based on higher-dimensional Weisfeiler-Leman tests. In this paper we consider the two-dimensional (2-WL) test and introduce a new type of MPNNs, referred to as $\ell$-walk MPNNs, which aggregate features along walks of length $\ell$ between vertices. We show that $2$-walk MPNNs match 2-WL in expressive power. More generally, $\ell$-walk MPNNs, for any $\ell\geq 2$, are shown to match the expressive power of the recently introduced $\ell$-walk refinement procedure (W[$\ell$]). Based on a correspondence between 2-WL and W[$\ell$], we observe that $\ell$-walk MPNNs and $2$-walk MPNNs have the same expressive power, i.e., they can distinguish the same pairs of graphs, but $\ell$-walk MPNNs can possibly distinguish pairs of graphs faster than $2$-walk MPNNs. When it comes to concrete learnable graph neural network (GNN) formalisms that match 2-WL or W[$\ell$] in expressive power, we consider second-order graph neural networks that allow for non-linear layers. In particular, to match W[$\ell$] in expressive power, we allow $\ell-1$ matrix multiplications in each layer. We propose different versions of second-order GNNs depending on the type of features (i.e., coming from a countable set, or coming from an uncountable set) as this affects the number of dimensions needed to represent the features. Our results indicate that increasing non-linearity in layers by means of allowing multiple matrix multiplications does not increase expressive power. At the very best, it results in a faster distinction of input graphs.
翻訳日:2022-11-20 19:47:30 公開日:2020-06-16
# アイテムセットの分解可能なファミリー

Decomposable Families of Itemsets ( http://arxiv.org/abs/2006.09533v1 )

ライセンス: Link先を確認
Nikolaj Tatti, Hannes Heikinheimo(参考訳) アイテムセットの大きなコレクションから、小さなが高品質なパターンのサブセットを選択するという問題は、最近多くの研究を引き寄せている。 ここでは、アイテムセットの分解可能なファミリーの概念を用いて、この問題に対するアプローチについて議論する。 このようなアイテムセットファミリーは、元のアイテムセットのコレクションが派生したデータに対する確率モデルを定義する。 さらにそれらは、マルコフ確率場の理論に精通したジャンクション木と呼ばれる特別な木構造を誘導する。 この方法にはいくつかの利点がある。 ジャンクションツリーは、採掘結果の直感的な表現を提供する。 計算の観点からは、このモデルはアイテムセットのコレクション全体を使用して難解な問題に対するレバレッジを提供する。 我々は,分解可能なアイテムセットファミリを構築するための効率的なアルゴリズムを提供し,そのモデルを用いた頻度境界クエリを用いたアプリケーション例を示す。 実験結果から,本アルゴリズムは高品質な結果が得られることが示された。

The problem of selecting a small, yet high quality subset of patterns from a larger collection of itemsets has recently attracted lot of research. Here we discuss an approach to this problem using the notion of decomposable families of itemsets. Such itemset families define a probabilistic model for the data from which the original collection of itemsets has been derived from. Furthermore, they induce a special tree structure, called a junction tree, familiar from the theory of Markov Random Fields. The method has several advantages. The junction trees provide an intuitive representation of the mining results. From the computational point of view, the model provides leverage for problems that could be intractable using the entire collection of itemsets. We provide an efficient algorithm to build decomposable itemset families, and give an application example with frequency bound querying using the model. Empirical results show that our algorithm yields high quality results.
翻訳日:2022-11-20 19:46:39 公開日:2020-06-16
# $\psi$-Learning Incorporated Linear non-Gaussian Acyclic Model (\psi$-LiNGAM) を用いたfMRIからの脳結合の因果推論

Causal inference of brain connectivity from fMRI with $\psi$-Learning Incorporated Linear non-Gaussian Acyclic Model ($\psi$-LiNGAM) ( http://arxiv.org/abs/2006.09536v1 )

ライセンス: Link先を確認
Aiying Zhang, Gemeng Zhang, Biao Cai, Wenxing Hu, Li Xiao, Tony W. Wilson, Julia M. Stephen, Vince D. Calhoun and Yu-Ping Wang(参考訳) 機能的結合(fc)は、脳ネットワークの相互作用を識別し、最終的にこれらの相互作用がどのように認知を生み出すかを理解するための主要な手段となっている。 FCの一般的な定義は、測定された脳領域間の統計的関連である。 しかし、関連づけは空間的接続のみを提供するが、興味のある領域間の因果的相互作用は提供できないため、これは問題となる可能性がある。 したがって、それらの因果関係を研究する必要がある。 直進非巡回グラフ(DAG)モデルは近年のFC研究で応用されているが、限られたサンプルサイズや多数の変数(高次元問題)といった問題にしばしば遭遇し、計算困難と収束問題の両方を引き起こす。 その結果、DAGモデルの使用は問題であり、一般にDAGモデルの識別は非決定論的多項式時間(NP-hard)である。 この目的のために, 線形非ガウス的非巡回モデル($\psi$-LiNGAM)を提案する。 因果推論を促進するために連想モデル($\psi$-learning)を使用し、特に高次元の場合ではうまく機能します。 シミュレーションの結果,提案手法は既存のグラフ構造や方向を検出する手法よりも頑健で精度が高いことがわかった。 次に,Philphi Neurodevelopmental Cohort (PNC) から得られた静止状態fMRI(rsfMRI)データを用いて,8歳から22歳までの855名の認知的分散について検討した。 そこで我々は,情報受信,送信,中継のセンタに対応する3種類のハブ構造,in-hub,out-hub,sum-hubを特定した。 また、16組の最も重要な因果フローも検出した。 いくつかの結果は生物学的に有意であることが確認されている。

Functional connectivity (FC) has become a primary means of understanding brain functions by identifying brain network interactions and, ultimately, how those interactions produce cognitions. A popular definition of FC is by statistical associations between measured brain regions. However, this could be problematic since the associations can only provide spatial connections but not causal interactions among regions of interests. Hence, it is necessary to study their causal relationship. Directed acyclic graph (DAG) models have been applied in recent FC studies but often encountered problems such as limited sample sizes and large number of variables (namely high-dimensional problems), which lead to both computational difficulty and convergence issues. As a result, the use of DAG models is problematic, where the identification of DAG models in general is nondeterministic polynomial time hard (NP-hard). To this end, we propose a $\psi$-learning incorporated linear non-Gaussian acyclic model ($\psi$-LiNGAM). We use the association model ($\psi$-learning) to facilitate causal inferences and the model works well especially for high-dimensional cases. Our simulation results demonstrate that the proposed method is more robust and accurate than several existing ones in detecting graph structure and direction. We then applied it to the resting state fMRI (rsfMRI) data obtained from the publicly available Philadelphia Neurodevelopmental Cohort (PNC) to study the cognitive variance, which includes 855 individuals aged 8-22 years. Therein, we have identified three types of hub structure: the in-hub, out-hub and sum-hub, which correspond to the centers of receiving, sending and relaying information, respectively. We also detected 16 most important pairs of causal flows. Several of the results have been verified to be biologically significant.
翻訳日:2022-11-20 19:46:25 公開日:2020-06-16
# 期待最大化フィルタを用いたプラグアンドプレイ異常検出

Plug-and-Play Anomaly Detection with Expectation Maximization Filtering ( http://arxiv.org/abs/2006.08933v1 )

ライセンス: Link先を確認
Muhammad Umar Karim Khan, Mishal Fatima, Chong-Min Kyung(参考訳) 群衆の異常検出は早期の救助反応を可能にする。 群衆監視のためのプラグアンドプレイ型スマートカメラは、典型的な異常検出とは異なる多くの制約があり、トレーニングデータを反復的に使用できない、トレーニングラベルがない、トレーニングと分類を同時に行う必要がある。 本稿では、これらの制約をすべてアプローチで解決する。 本稿では,教師なし手法を用いてシーン内の物体の動作挙動を学習するコア異常検出(cad)ニューラルネットワークを提案する。 標準データセットの平均的な1エポックトレーニングのCADは、畳み込みオートエンコーダと畳み込みLSTMベースの手法による最良の結果と比較して、AUC(Area Under the Curve)の4.66%と4.9%の増加を示している。 本手法は1回の訓練で,畳み込みLSTM法と比較してAUCを8.03%改善する。 また,コア異常検出ネットワークをトレーニングするためのサンプルを選択する期待最大化フィルタを提案する。 全体的なフレームワークは、ビデオストリーム上で群衆異常検出が行われると、将来のフレーム予測ベースのアプローチに比べて24.87%改善する。 私たちの研究は、自律的なプラグアンドプレイ型スマートカメラを使って、群衆の異常検出にディープラーニングを使うための第一歩だと信じています。

Anomaly detection in crowds enables early rescue response. A plug-and-play smart camera for crowd surveillance has numerous constraints different from typical anomaly detection: the training data cannot be used iteratively; there are no training labels; and training and classification needs to be performed simultaneously. We tackle all these constraints with our approach in this paper. We propose a Core Anomaly-Detection (CAD) neural network which learns the motion behavior of objects in the scene with an unsupervised method. On average over standard datasets, CAD with a single epoch of training shows a percentage increase in Area Under the Curve (AUC) of 4.66% and 4.9% compared to the best results with convolutional autoencoders and convolutional LSTM-based methods, respectively. With a single epoch of training, our method improves the AUC by 8.03% compared to the convolutional LSTM-based approach. We also propose an Expectation Maximization filter which chooses samples for training the core anomaly-detection network. The overall framework improves the AUC compared to future frame prediction-based approach by 24.87% when crowd anomaly detection is performed on a video stream. We believe our work is the first step towards using deep learning methods with autonomous plug-and-play smart cameras for crowd anomaly detection.
翻訳日:2022-11-20 19:45:44 公開日:2020-06-16
# MuPPET(Multi-Precision Policy Enforceed Training) : CNNの定量定点トレーニングのための精度切替戦略

Multi-Precision Policy Enforced Training (MuPPET): A precision-switching strategy for quantised fixed-point training of CNNs ( http://arxiv.org/abs/2006.09049v1 )

ライセンス: Link先を確認
Aditya Rajagopal, Diederik Adriaan Vink, Stylianos I. Venieris, Christos-Savvas Bouganis(参考訳) 大規模な畳み込みニューラルネットワーク(CNN)は、数時間から数週間にわたる非常に長いトレーニング時間に悩まされており、ディープラーニング実践者の生産性と実験を制限している。 ネットワークのサイズと複雑さが大きくなるにつれて、低精度のデータ表現と計算によってトレーニング時間を短縮できる。 しかし、そのような場合、最終的な精度は勾配の消失の問題に悩まされる。 既存の最先端手法では、FP32(32ビット浮動小数点)とFP16/FP8(16ビット浮動小数点)の2つの異なる精度レベルを利用した混合精度アプローチでこの問題に対処し、最近のGPUアーキテクチャのハードウェアサポートを活用して性能向上を実現している。 この研究は、低精度の不動点表現を含む複数の精度を利用するマルチレベル最適化アプローチを用いることで、量子化トレーニングの境界を押し上げる。 新たなトレーニング戦略である MuPPET は、複数の表現規則の使用と、実行時に精度規則間の遷移点を決定する精度スイッチング機構を組み合わせる。 提案した戦略は、目標とするハードウェアアーキテクチャのハードウェアレベルの能力にトレーニングプロセスを調整し、最先端のアプローチと比較してトレーニング時間とエネルギー効率の改善をもたらす。 イメージネット(ILSVRC12)上のAlexNet、ResNet18、GoogLeNetのトレーニングにMuPPETを適用し、NVIDIA Turing GPUをターゲットにしたMuPPETは、トレーニングタイムの最大1.84$\times$、ネットワーク全体の平均スピードアップ1.58$\times$と同じ精度を達成している。

Large-scale convolutional neural networks (CNNs) suffer from very long training times, spanning from hours to weeks, limiting the productivity and experimentation of deep learning practitioners. As networks grow in size and complexity, training time can be reduced through low-precision data representations and computations. However, in doing so the final accuracy suffers due to the problem of vanishing gradients. Existing state-of-the-art methods combat this issue by means of a mixed-precision approach utilising two different precision levels, FP32 (32-bit floating-point) and FP16/FP8 (16-/8-bit floating-point), leveraging the hardware support of recent GPU architectures for FP16 operations to obtain performance gains. This work pushes the boundary of quantised training by employing a multilevel optimisation approach that utilises multiple precisions including low-precision fixed-point representations. The novel training strategy, MuPPET, combines the use of multiple number representation regimes together with a precision-switching mechanism that decides at run time the transition point between precision regimes. Overall, the proposed strategy tailors the training process to the hardware-level capabilities of the target hardware architecture and yields improvements in training time and energy efficiency compared to state-of-the-art approaches. Applying MuPPET on the training of AlexNet, ResNet18 and GoogLeNet on ImageNet (ILSVRC12) and targeting an NVIDIA Turing GPU, MuPPET achieves the same accuracy as standard full-precision training with training-time speedup of up to 1.84$\times$ and an average speedup of 1.58$\times$ across the networks.
翻訳日:2022-11-20 19:45:24 公開日:2020-06-16
# data-poorドメインにおけるディープマルチモーダル転送学習レグレッション

Deep Multimodal Transfer-Learned Regression in Data-Poor Domains ( http://arxiv.org/abs/2006.09310v1 )

ライセンス: Link先を確認
Levi McClenny, Mulugeta Haile, Vahid Attari, Brian Sadler, Ulisses Braga-Neto, Raymundo Arroyave(参考訳) 多くの現実世界のディープラーニングアプリケーションでは、ターゲットの推定はオーディオビデオや画像テキストなど、さまざまな入力データモードに依存する可能性がある。 このタスクは十分なデータがないためにさらに複雑になる可能性がある。 本稿では,データポーア領域における対象パラメータの予測に有効である深層回帰アーキテクチャにおいて,画像と特徴データのマルチモーダル学習を行うための深層マルチモーダル転送型レグレッサ(dmtl-r)を提案する。 本モデルは、ネットワークトレーニング中の補足データモードからの特徴情報を同時に調整しながら、少量のトレーニング画像データに対して所定のcnn重みを微調整することができ、画像や特徴だけで達成できるよりも高精度な単一目標または多目標回帰を実現する。 そこで本研究では,様々なcnnアーキテクチャから事前学習した重みを用いて,物理特性を付加した位相場シミュレーション画像を用いて,マルチモーダル手法の有効性を示す。

In many real-world applications of deep learning, estimation of a target may rely on various types of input data modes, such as audio-video, image-text, etc. This task can be further complicated by a lack of sufficient data. Here we propose a Deep Multimodal Transfer-Learned Regressor (DMTL-R) for multimodal learning of image and feature data in a deep regression architecture effective at predicting target parameters in data-poor domains. Our model is capable of fine-tuning a given set of pre-trained CNN weights on a small amount of training image data, while simultaneously conditioning on feature information from a complimentary data mode during network training, yielding more accurate single-target or multi-target regression than can be achieved using the images or the features alone. We present results using phase-field simulation microstructure images with an accompanying set of physical features, using pre-trained weights from various well-known CNN architectures, which demonstrate the efficacy of the proposed multimodal approach.
翻訳日:2022-11-20 19:44:07 公開日:2020-06-16
# 知らないことを伝える:反復的なデータマイニングのためのランダム化戦略

Tell Me Something I Don't Know: Randomization Strategies for Iterative Data Mining ( http://arxiv.org/abs/2006.09467v1 )

ライセンス: Link先を確認
Sami Hanhij\"arvi, Markus Ojala, Niko Vuokko, Kai Puolam\"aki, Nikolaj Tatti, Heikki Mannila(参考訳) さまざまなデータマイニング手法が利用可能であり、探索的なデータ分析において、同じデータセットに多くの異なる方法を使用するのが一般的である。 しかし、ある方法によって得られた結果が別の方法の結果によって示される現象の反映であるかどうか、あるいはある意味無関係な性質で表されるのかという問題を引き起こす。 例えば、クラスタリングを使用することで、明確なクラスタ構造を示すことができ、変数間の計算相関は、データに多くの重要な相関関係があることを示せる。 しかし、相関が実際にクラスター構造によって決定される場合も考えられる。 本稿では,以前に発見されたパターンやモデルを考慮に入れるために,データをランダム化する問題を考える。 ランダム化法は反復的なデータマイニングに利用できる。 データマイニングプロセスの各ステップにおいて、ランダム化は、既に発見されたパターンやモデルを満たす一連のデータ行列からランダムなサンプルを生成する。 すなわち、データセットといくつかの統計値(例えばクラスタセンターや共起数)が与えられた場合、ランダム化手法は、与えられた統計値と元のデータセットとの類似値を持つデータセットをサンプリングする。 ローカルスワップに基づくメトロポリスサンプリングを用いてこれを実現する。 本手法の有用性を示す実データ実験について述べる。 その結果、多くの場合、例えば、クラスタリングの結果は、例えば、頻繁なパターン発見の結果を意味することが示されています。

There is a wide variety of data mining methods available, and it is generally useful in exploratory data analysis to use many different methods for the same dataset. This, however, leads to the problem of whether the results found by one method are a reflection of the phenomenon shown by the results of another method, or whether the results depict in some sense unrelated properties of the data. For example, using clustering can give indication of a clear cluster structure, and computing correlations between variables can show that there are many significant correlations in the data. However, it can be the case that the correlations are actually determined by the cluster structure. In this paper, we consider the problem of randomizing data so that previously discovered patterns or models are taken into account. The randomization methods can be used in iterative data mining. At each step in the data mining process, the randomization produces random samples from the set of data matrices satisfying the already discovered patterns or models. That is, given a data set and some statistics (e.g., cluster centers or co-occurrence counts) of the data, the randomization methods sample data sets having similar values of the given statistics as the original data set. We use Metropolis sampling based on local swaps to achieve this. We describe experiments on real data that demonstrate the usefulness of our approach. Our results indicate that in many cases, the results of, e.g., clustering actually imply the results of, say, frequent pattern discovery.
翻訳日:2022-11-20 19:35:14 公開日:2020-06-16
# タイムウインドウを用いた共同注意による車両経路問題の解法

Learning to Solve Vehicle Routing Problems with Time Windows through Joint Attention ( http://arxiv.org/abs/2006.09100v1 )

ライセンス: Link先を確認
Jonas K. Falkner and Lars Schmidt-Thieme(参考訳) 多くの現実世界の車両ルーティング問題には、車両の容量、顧客のための時間窓などに関する豊富な制約がある。 近年、最適化ヒューリスティックよりも高速に車両の経路問題を解くための機械学習モデルが開発されているが、複雑な制約を考慮することはまれである。 解を逐次経路で構成する一般的な手順のため、これらの手法はそのような問題に対して不利に一般化する。 本稿では,複数のツアーの協調行動空間に注意を払って,複数のルートを同時に開始・拡張できるポリシーモデルを開発する。 このようにして、モデルはルートと顧客を選択できるため、ルート間のトレードオフが難しいことを学べる。 時間窓付き車両経路問題の3つの変種に関する総合的な実験において、我々のモデルであるJAMPRは、異なる問題サイズでうまく機能し、既存の最先端建設モデルより優れていることを示す。 3つの変種のうちの2つは、同等のメタヒューリスティック解法よりもはるかに優れた解を生成する。

Many real-world vehicle routing problems involve rich sets of constraints with respect to the capacities of the vehicles, time windows for customers etc. While in recent years first machine learning models have been developed to solve basic vehicle routing problems faster than optimization heuristics, complex constraints rarely are taken into consideration. Due to their general procedure to construct solutions sequentially route by route, these methods generalize unfavorably to such problems. In this paper, we develop a policy model that is able to start and extend multiple routes concurrently by using attention on the joint action space of several tours. In that way the model is able to select routes and customers and thus learns to make difficult trade-offs between routes. In comprehensive experiments on three variants of the vehicle routing problem with time windows we show that our model called JAMPR works well for different problem sizes and outperforms the existing state-of-the-art constructive model. For two of the three variants it also creates significantly better solutions than a comparable meta-heuristic solver.
翻訳日:2022-11-20 19:28:52 公開日:2020-06-16
# 深層学習における正規化法の新たな解釈

New Interpretations of Normalization Methods in Deep Learning ( http://arxiv.org/abs/2006.09104v1 )

ライセンス: Link先を確認
Jiacheng Sun, Xiangyong Cao, Hanwen Liang, Weiran Huang, Zewei Chen, Zhenguo Li(参考訳) 近年、バッチ正規化(BN)、レイヤ正規化(LN)、重量正規化(WN)、グループ正規化(GN)など、ニューラルネットワークのトレーニングを支援する様々な正規化手法が提案されている。 しかし、これらすべての正規化法を分析する数学的ツールが不足している。 本稿ではまず,必要なツールを定義するための補題を提案する。 そして、これらのツールを用いて、一般的な正規化手法を深く分析し、以下の結論を得る。 1) ほとんどの正規化方法は,球面上の事前活性化又は重みの正規化という,統一的な枠組みで解釈することができる。 2) 既存の正規化手法の多くはスケール不変であるため,スケーリング対称性を排除した球面上で最適化を行うことができ,ネットワークのトレーニングの安定化に寄与する。 3) これらの正規化手法による訓練は重みの規範を増加させ,攻撃の増幅に伴って敵の脆弱性を引き起こす可能性があることを証明した。 最後に、これらの主張を検証するために一連の実験が行われた。

In recent years, a variety of normalization methods have been proposed to help train neural networks, such as batch normalization (BN), layer normalization (LN), weight normalization (WN), group normalization (GN), etc. However, mathematical tools to analyze all these normalization methods are lacking. In this paper, we first propose a lemma to define some necessary tools. Then, we use these tools to make a deep analysis on popular normalization methods and obtain the following conclusions: 1) Most of the normalization methods can be interpreted in a unified framework, namely normalizing pre-activations or weights onto a sphere; 2) Since most of the existing normalization methods are scaling invariant, we can conduct optimization on a sphere with scaling symmetry removed, which can help stabilize the training of network; 3) We prove that training with these normalization methods can make the norm of weights increase, which could cause adversarial vulnerability as it amplifies the attack. Finally, a series of experiments are conducted to verify these claims.
翻訳日:2022-11-20 19:28:33 公開日:2020-06-16
# ディファレンシャルプライバシを用いたモデル説明

Model Explanations with Differential Privacy ( http://arxiv.org/abs/2006.09129v1 )

ライセンス: Link先を確認
Neel Patel, Reza Shokri, Yair Zick(参考訳) ブラックボックス機械学習モデルは重要な意思決定領域で使われており、よりアルゴリズム的な透明性を求める声が上がっている。 欠点は、モデル説明がトレーニングデータとそれらを生成するために使用される説明データに関する情報を漏洩させることで、データのプライバシーを損なうことだ。 この問題に対処するために,特徴に基づくモデル記述を構築するための差分プライベートアルゴリズムを提案する。 適応型差分勾配降下アルゴリズムを設計し, 正確な説明を行うために必要な最小限のプライバシー予算を求める。 過去の微分的プライベートな説明を適応的に再利用することで、説明データの全体的なプライバシー損失を低減する。 また、トレーニングデータに関してプライバシの保証を増幅する。 我々は、微分プライベートモデルとプライバシーメカニズムがモデル説明の質に与える影響を評価する。

Black-box machine learning models are used in critical decision-making domains, giving rise to several calls for more algorithmic transparency. The drawback is that model explanations can leak information about the training data and the explanation data used to generate them, thus undermining data privacy. To address this issue, we propose differentially private algorithms to construct feature-based model explanations. We design an adaptive differentially private gradient descent algorithm, that finds the minimal privacy budget required to produce accurate explanations. It reduces the overall privacy loss on explanation data, by adaptively reusing past differentially private explanations. It also amplifies the privacy guarantees with respect to the training data. We evaluate the implications of differentially private models and our privacy mechanisms on the quality of model explanations.
翻訳日:2022-11-20 19:27:34 公開日:2020-06-16
# MDLを用いた数値的対象の優れたサブグループリストの発見

Discovering outstanding subgroup lists for numeric targets using MDL ( http://arxiv.org/abs/2006.09186v1 )

ライセンス: Link先を確認
Hugo M. Proen\c{c}a, Peter Gr\"unwald, Thomas B\"ack, Matthijs van Leeuwen(参考訳) サブグループ発見(SD)の課題は、ターゲット属性に関して際立ったデータセットのサブセットの解釈可能な記述を見つけることである。 多数の冗長部分群をマイニングする問題に対処するため,サブグループ集合探索(SSD)が提案されている。 しかし、最先端のSSDメソッドには制限がある。 本稿では,最小記述長(MDL)の原理とサブグループリストに基づくサブグループ集合発見のための分散型問題定式化を提案する。 最適なサブグループリストは、対象の全体分布からデータを最もよく要約したものであると論じる。 我々は、焦点を1つの数値的目標変数に限定し、我々の形式化が1つの部分群を見つける際に既存の品質尺度と一致することを示すが、その追加により、部分群の品質と部分群の複雑さとのトレードオフが可能になる。 次に、SSD++を提案する。これは、優れたサブグループリストを返すことを経験的に実証するヒューリスティックアルゴリズムである。

The task of subgroup discovery (SD) is to find interpretable descriptions of subsets of a dataset that stand out with respect to a target attribute. To address the problem of mining large numbers of redundant subgroups, subgroup set discovery (SSD) has been proposed. State-of-the-art SSD methods have their limitations though, as they typically heavily rely on heuristics and/or user-chosen hyperparameters. We propose a dispersion-aware problem formulation for subgroup set discovery that is based on the minimum description length (MDL) principle and subgroup lists. We argue that the best subgroup list is the one that best summarizes the data given the overall distribution of the target. We restrict our focus to a single numeric target variable and show that our formalization coincides with an existing quality measure when finding a single subgroup, but that-in addition-it allows to trade off subgroup quality with the complexity of the subgroup. We next propose SSD++, a heuristic algorithm for which we empirically demonstrate that it returns outstanding subgroup lists: non-redundant sets of compact subgroups that stand out by having strongly deviating means and small spread.
翻訳日:2022-11-20 19:27:07 公開日:2020-06-16
# 曲線活性化関数を持つニューラルネットワークのモデル複雑性の測定

Measuring Model Complexity of Neural Networks with Curve Activation Functions ( http://arxiv.org/abs/2006.08962v1 )

ライセンス: Link先を確認
Xia Hu, Weiqing Liu, Jiang Bian, Jian Pei(参考訳) ディープニューラルネットワークのモデル複雑さを測定するのが基本である。 モデル複雑性に関する既存の文献は、主に線形活性化関数を持つニューラルネットワークに焦点を当てている。 一般曲線活性化関数を持つニューラルネットワークのモデル複雑性は、まだ未解決の問題である。 そこで,本稿ではまず,曲線活性化関数を持つ深部モデルに近似する線形近似ニューラルネットワーク(LANN,Lyly Approximation Neural Network)を提案する。 LANNは各ニューロンの活性化機能に対して個別に線形近似を構築し、必要な近似度を満たすために線形領域の数を最小化する。 次に, LANNsによって形成される線形領域数の上界を解析し, 上界に基づく複雑性尺度を導出する。 複雑度測定の有用性を検討するため,ニューラルネットワークのトレーニング過程を実験的に検討し,オーバーフィッティングを検出する。 以上の結果から,オーバーフィッティングの発生はトレーニング中のモデルの複雑さの増加と正の相関を示した。 L^1$ と $L^2$ の正規化はモデル複雑性の増加を抑制する。 最後に,モデル複雑性を直接制約することにより,過剰フィッティングを防止するための2つのアプローチを提案する。

It is fundamental to measure model complexity of deep neural networks. The existing literature on model complexity mainly focuses on neural networks with piecewise linear activation functions. Model complexity of neural networks with general curve activation functions remains an open problem. To tackle the challenge, in this paper, we first propose the linear approximation neural network (LANN for short), a piecewise linear framework to approximate a given deep model with curve activation function. LANN constructs individual piecewise linear approximation for the activation function of each neuron, and minimizes the number of linear regions to satisfy a required approximation degree. Then, we analyze the upper bound of the number of linear regions formed by LANNs, and derive the complexity measure based on the upper bound. To examine the usefulness of the complexity measure, we experimentally explore the training process of neural networks and detect overfitting. Our results demonstrate that the occurrence of overfitting is positively correlated with the increase of model complexity during training. We find that the $L^1$ and $L^2$ regularizations suppress the increase of model complexity. Finally, we propose two approaches to prevent overfitting by directly constraining model complexity, namely neuron pruning and customized $L^1$ regularization.
翻訳日:2022-11-20 19:19:55 公開日:2020-06-16
# 付加ポアソン過程:確率過程における高次相互作用の学習強度

Additive Poisson Process: Learning Intensity of Higher-Order Interaction in Stochastic Processes ( http://arxiv.org/abs/2006.08982v1 )

ライセンス: Link先を確認
Simon Luo, Feng Zhou, Lamiae Azizi and Mahito Sugiyama(参考訳) 低次元射影を用いた確率過程における強度関数の高次相互作用効果をモデル化できる新しいフレームワークであるAdditive Poisson Process(APP)を提案する。 本モデルは,統計多様体上の高次相互作用をモデル化するために情報幾何学の手法と,次元の呪いによる効果を克服するために低次元射影を用いる一般化加法モデルを組み合わせたものである。 低次元射影におけるサンプル分布から確率過程における強度関数によってモデル化された分布へのklの発散を最小化し,凸最適化問題を解く。 実験結果から,我々は低次元空間で観測された試料を用いて,非常に少ない観測で高次強度関数を推定できることを示した。

We present the Additive Poisson Process (APP), a novel framework that can model the higher-order interaction effects of the intensity functions in stochastic processes using lower dimensional projections. Our model combines the techniques in information geometry to model higher-order interactions on a statistical manifold and in generalized additive models to use lower-dimensional projections to overcome the effects from the curse of dimensionality. Our approach solves a convex optimization problem by minimizing the KL divergence from a sample distribution in lower dimensional projections to the distribution modeled by an intensity function in the stochastic process. Our empirical results show that our model is able to use samples observed in the lower dimensional space to estimate the higher-order intensity function with extremely sparse observations.
翻訳日:2022-11-20 19:19:07 公開日:2020-06-16
# 離散時間コックスモデルによるフェデレーション生存分析

Federated Survival Analysis with Discrete-Time Cox Models ( http://arxiv.org/abs/2006.08997v1 )

ライセンス: Link先を確認
Mathieu Andreux, Andre Manoel, Romuald Menuet, Charlie Saillard, Chlo\'e Simpson(参考訳) フェデレートラーニング(FL)によって、異なるセンターに位置する分散データセットから機械学習モデルを構築することは、プライバシーを維持しながら、ローカルデータの不足を回避するための有望なアプローチである。 しかし、生存分析に使用される顕著なcox比例ハザード(ph)モデルは、その損失関数がサンプルに関して分離不能であるため、flフレームワークに適合しない。 この非分離性をバイパスするna\"iveメソッドは、中心当たりの損失を計算し、その和を真の損失の近似として最小化する。 結果として生じるモデルは、いくつかの悪条件において重要な性能損失を被る可能性がある。 代わりに、cox phモデルの離散時間拡張を利用して、分離損失関数を持つ分類問題として生存解析を定式化する。 この手法を用いて, 合成データを用いた標準FL手法と, The Cancer Genome Atlas (TCGA) による実世界のデータセットを用いて生存モデルを訓練し, 集約データに基づいて訓練されたCox PHモデルと類似した性能を示す。 従来の研究に比べて,提案手法はコミュニケーション効率が高く,汎用性が高く,プライバシ保存技術に適している。

Building machine learning models from decentralized datasets located in different centers with federated learning (FL) is a promising approach to circumvent local data scarcity while preserving privacy. However, the prominent Cox proportional hazards (PH) model, used for survival analysis, does not fit the FL framework, as its loss function is non-separable with respect to the samples. The na\"ive method to bypass this non-separability consists in calculating the losses per center, and minimizing their sum as an approximation of the true loss. We show that the resulting model may suffer from important performance loss in some adverse settings. Instead, we leverage the discrete-time extension of the Cox PH model to formulate survival analysis as a classification problem with a separable loss function. Using this approach, we train survival models using standard FL techniques on synthetic data, as well as real-world datasets from The Cancer Genome Atlas (TCGA), showing similar performance to a Cox PH model trained on aggregated data. Compared to previous works, the proposed method is more communication-efficient, more generic, and more amenable to using privacy-preserving techniques.
翻訳日:2022-11-20 19:18:55 公開日:2020-06-16
# 組立学習のためのモデル非依存結合

Model Agnostic Combination for Ensemble Learning ( http://arxiv.org/abs/2006.09025v1 )

ライセンス: Link先を確認
Ohad Silbert, Yitzhak Peleg and Evi Kopelowitz(参考訳) モデルの組み立てはシングルモデルのパフォーマンスを改善することでよく知られている。 本稿では,この組み合わせに関係するサブモデルの数に不変性を保ちながら,モデルを組み合わせるための最適関数を求めるために,MACという新しいアンサンブル手法を提案する。 サブモデルの数に依存せず、デプロイ後もサブモデルの追加と置き換えが可能で、スタッキング、ブースティング、エキスパートとスーパーラーナーの混合といった、トレーニング中に組み合わせに使用するモデルをロックし、アンサンブルに新しいモデルが導入されるたびに再トレーニングする必要がある。 我々は,Kaggle RSNAの頭蓋内出血検出チャレンジにおいて,MACは従来の平均的手法より優れており,固定数のサブモデルに対してXGBoostを介してXGBoostを推し進める競争結果が示され,サブモデルを追加してもリトレーニングなしで性能が向上することを示した。

Ensemble of models is well known to improve single model performance. We present a novel ensembling technique coined MAC that is designed to find the optimal function for combining models while remaining invariant to the number of sub-models involved in the combination. Being agnostic to the number of sub-models enables addition and replacement of sub-models to the combination even after deployment, unlike many of the current methods for ensembling such as stacking, boosting, mixture of experts and super learners that lock the models used for combination during training and therefore need retraining whenever a new model is introduced into the ensemble. We show that on the Kaggle RSNA Intracranial Hemorrhage Detection challenge, MAC outperforms classical average methods, demonstrates competitive results to boosting via XGBoost for a fixed number of sub-models, and outperforms it when adding sub-models to the combination without retraining.
翻訳日:2022-11-20 19:18:35 公開日:2020-06-16
# ラベルの分類における確率的デカップリング

Probabilistic Decoupling of Labels in Classification ( http://arxiv.org/abs/2006.09046v1 )

ライセンス: Link先を確認
Jeppe N{\o}rregaard and Lars Kai Hansen(参考訳) 本稿では,半教師付き,正アンラベル化,多陽性アンラベル化,雑音ラベル学習などの非標準分類タスクに対する原則的,確率的,統一的なアプローチを開発する。 ラベル分布を予測するために,ラベルの分類器を訓練する。 次にラベルクラス遷移のモデルを変分最適化することで、基礎となるクラス分配を推測する。

In this paper we develop a principled, probabilistic, unified approach to non-standard classification tasks, such as semi-supervised, positive-unlabelled, multi-positive-unlabelled and noisy-label learning. We train a classifier on the given labels to predict the label-distribution. We then infer the underlying class-distributions by variationally optimizing a model of label-class transitions.
翻訳日:2022-11-20 19:17:48 公開日:2020-06-16
# フラットネスは偽りの友人です

Flatness is a False Friend ( http://arxiv.org/abs/2006.09091v1 )

ライセンス: Link先を確認
Diego Granziol(参考訳) トレース、フロベニウス、スペクトルノルムといったヘッセンに基づく平坦性の測度が議論され、一般化に関係して示されてきた。 本稿では,クロスエントロピー損失下でのフィードフォワードニューラルネットワークについて,重みを持つ低損失解には,ヘシアンベースの平坦性尺度が小さいことを実証する。 これは、l2$の正規化で得られる解は、一般化したにもかかわらず、原則として非正規化より鋭くなければならないことを意味する。 これは、ロジスティック回帰、多層パーセプトロン、単純な畳み込み、mnistおよびcifar-100$データセット上の事前活性化および広範囲の残留ネットワークに当てはまる。 さらに,イテレート平均化を用いた適応最適化アルゴリズムでは,vgg-$16$ network と cifar-$100$ dataset において,sgd の優れた一般化を実現するが,30 \times$ sharp であることを示す。 この理論的発見は、実験結果とともに、一般化の議論において、ヘッセンに基づく鋭度尺度の有効性に関する深刻な疑問を提起する。 さらに,ヘシアンのランクはクラス数に乗じた一定回数のニューロン数で区切ることができ,実際にはネットワークパラメータのごく一部であることが多い。 これは、多くのヘッセン固有値が、文献で報告されているゼロまたは非常に0に近いものであるという興味深い観察を説明する。

Hessian based measures of flatness, such as the trace, Frobenius and spectral norms, have been argued, used and shown to relate to generalisation. In this paper we demonstrate that for feed forward neural networks under the cross entropy loss, we would expect low loss solutions with large weights to have small Hessian based measures of flatness. This implies that solutions obtained using $L2$ regularisation should in principle be sharper than those without, despite generalising better. We show this to be true for logistic regression, multi-layer perceptrons, simple convolutional, pre-activated and wide residual networks on the MNIST and CIFAR-$100$ datasets. Furthermore, we show that for adaptive optimisation algorithms using iterate averaging, on the VGG-$16$ network and CIFAR-$100$ dataset, achieve superior generalisation to SGD but are $30 \times$ sharper. This theoretical finding, along with experimental results, raises serious questions about the validity of Hessian based sharpness measures in the discussion of generalisation. We further show that the Hessian rank can be bounded by the a constant times number of neurons multiplied by the number of classes, which in practice is often a small fraction of the network parameters. This explains the curious observation that many Hessian eigenvalues are either zero or very near zero which has been reported in the literature.
翻訳日:2022-11-20 19:17:39 公開日:2020-06-16
# 単調ニューラルネットワークの逆例学習

Counterexample-Guided Learning of Monotonic Neural Networks ( http://arxiv.org/abs/2006.08852v1 )

ライセンス: Link先を確認
Aishwarya Sivaraman, Golnoosh Farnadi, Todd Millstein, Guy Van den Broeck(参考訳) ディープラーニングの普及は、帰納バイアスを最小限に抑えた自動的特徴構築によることが多い。 しかし、多くの現実世界のタスクでは、学習関数はドメイン固有の制約を満たすことを意図している。 我々は、特定の入力特徴の値の増加に伴い、関数の出力が増加することを要求し、共通する単調性制約に焦点を当てる。 予測時間に一調性制約を強制する反例誘導手法を開発した。 さらに,単調性をディープラーニングの帰納的バイアスとして用いる手法を提案する。 学習プロセスに単調な反例を反復的に組み込むことで機能する。 単調学習における先行研究とは対照的に,一般のreluニューラルネットワークを対象とし,仮説空間をこれ以上制限しない。 我々はこれらの手法をCOMETと呼ばれるツールで実装した。 実世界のデータセットを用いた実験では,既存のモノトニック学習者と比較して,我々の手法が最先端の結果を達成し,モノトニック性制約を考慮に入れずにトレーニングした者に比べてモデル品質を向上させることが示されている。

The widespread adoption of deep learning is often attributed to its automatic feature construction with minimal inductive bias. However, in many real-world tasks, the learned function is intended to satisfy domain-specific constraints. We focus on monotonicity constraints, which are common and require that the function's output increases with increasing values of specific input features. We develop a counterexample-guided technique to provably enforce monotonicity constraints at prediction time. Additionally, we propose a technique to use monotonicity as an inductive bias for deep learning. It works by iteratively incorporating monotonicity counterexamples in the learning process. Contrary to prior work in monotonic learning, we target general ReLU neural networks and do not further restrict the hypothesis space. We have implemented these techniques in a tool called COMET. Experiments on real-world datasets demonstrate that our approach achieves state-of-the-art results compared to existing monotonic learners, and can improve the model quality compared to those that were trained without taking monotonicity constraints into account.
翻訳日:2022-11-20 19:11:42 公開日:2020-06-16
# ユニバーサル近似のための最小幅

Minimum Width for Universal Approximation ( http://arxiv.org/abs/2006.08859v1 )

ライセンス: Link先を確認
Sejun Park, Chulhee Yun, Jaeho Lee, Jinwoo Shin(参考訳) 幅境界ネットワークの普遍近似特性は、深さ境界ネットワーク上の古典的普遍近似結果の双対として研究されている。 しかし、普遍近似を可能にする臨界幅は、入力次元$d_x$と出力次元$d_y$で明確に特徴づけられていない。 本稿では、ReLUアクティベーション関数を用いたネットワークに対するこの方向の最初の決定的な結果を与える:$L^p$関数の普遍近似に必要な最小幅は、正確に$\max\{d_x+1,d_y\}$である。 また、同じ結論が ReLU との等式近似に当てはまるのではなく、追加のしきい値アクティベーション関数で成り立つことを証明している。 また, 一般活性化関数を持つネットワークを用いて, 普遍近似に必要な最小幅に, より厳密な上限を導出することができる。

The universal approximation property of width-bounded networks has been studied as a dual of classical universal approximation results on depth-bounded networks. However, the critical width enabling the universal approximation has not been exactly characterized in terms of the input dimension $d_x$ and the output dimension $d_y$. In this work, we provide the first definitive result in this direction for networks using the ReLU activation functions: The minimum width required for the universal approximation of the $L^p$ functions is exactly $\max\{d_x+1,d_y\}$. We also prove that the same conclusion does not hold for the uniform approximation with ReLU, but does hold with an additional threshold activation function. Our proof technique can be also used to derive a tighter upper bound on the minimum width required for the universal approximation using networks with general activation functions.
翻訳日:2022-11-20 19:11:27 公開日:2020-06-16
# 集合グラフィカルモデルに基づく確率的最適輸送

Probabilistic Optimal Transport based on Collective Graphical Models ( http://arxiv.org/abs/2006.08866v1 )

ライセンス: Link先を確認
Yasunori Akagi, Yusuke Tanaka, Tomoharu Iwata, Takeshi Kurashima, Hiroyuki Toda(参考訳) 最適輸送(OT)は、確率分布とヒストグラムの類似性を測定する強力なツールであるため、機械学習やコンピュータビジョンなどの様々な分野で広く利用されている。 これまでの研究では、OTは確率質量をある確率分布から別の確率分布へ輸送する最小コストとして定義されてきた。 本研究では,OTを確率的生成モデルの最大後部解(MAP)とみなす新しい枠組みを提案する。 提案したフレームワークでは, エントロピー正則化を伴うOTは, グラフィカルモデルから生成された複数のサンプルの集計統計を記述した, CGM (Collective Graphical Model) と呼ばれる確率モデルの後部確率の最大化に等価であることを示す。 CGMのMAPソリューションとしてのOTの解釈には、以下の2つの利点がある。 (i)騒音分布のモデル化により,騒音ヒストグラム間の不一致を計算できる。 様々な分布をノイズモデリングに利用することができるため、騒音分布を柔軟に選択して状況に適合させることができる。 (ii)otの重要な応用であるヒストグラム間の補間法を新たに構築することができる。 提案手法により,確率的解釈に基づく直感的モデリングが可能となり,簡便で効率的な推定アルゴリズムが利用可能となる。 合成および実世界の時空間人口データセットを用いた実験により,提案手法の有効性が示された。

Optimal Transport (OT) is being widely used in various fields such as machine learning and computer vision, as it is a powerful tool for measuring the similarity between probability distributions and histograms. In previous studies, OT has been defined as the minimum cost to transport probability mass from one probability distribution to another. In this study, we propose a new framework in which OT is considered as a maximum a posteriori (MAP) solution of a probabilistic generative model. With the proposed framework, we show that OT with entropic regularization is equivalent to maximizing a posterior probability of a probabilistic model called Collective Graphical Model (CGM), which describes aggregated statistics of multiple samples generated from a graphical model. Interpreting OT as a MAP solution of a CGM has the following two advantages: (i) We can calculate the discrepancy between noisy histograms by modeling noise distributions. Since various distributions can be used for noise modeling, it is possible to select the noise distribution flexibly to suit the situation. (ii) We can construct a new method for interpolation between histograms, which is an important application of OT. The proposed method allows for intuitive modeling based on the probabilistic interpretations, and a simple and efficient estimation algorithm is available. Experiments using synthetic and real-world spatio-temporal population datasets show the effectiveness of the proposed interpolation method.
翻訳日:2022-11-20 19:11:12 公開日:2020-06-16
# 期待に基づく目標のためのgo hessian

GO Hessian for Expectation-Based Objectives ( http://arxiv.org/abs/2006.08873v1 )

ライセンス: Link先を確認
Yulai Cong, Miaoyun Zhao, Jianqiao Li, Junya Chen, Lawrence Carin(参考訳) 期待に基づく目標である$\mathbb{e}_{q_{\boldsymbol{\gamma}}(\boldsymbol{y})} [f(\boldsymbol{y})]$, ここで確率変数 (rv) $\boldsymbol{y}$ は連続(非可換)の内部ノードと連続/離散葉を持つ確率的計算グラフから引き出すことができる。 GO勾配をアップグレードすると、$\mathbb{E}_{q_{\boldsymboldsymbol {\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$ an unbiased low-variance Hessian estimator, named GO Hessian が現れる。 実用的な実装を考えると,GO Hessian は自動微分や Hessian-vector 製品で使いやすく,確率計算グラフ上での曲率情報の効率よく利用することができる。 代表的な例として,ノンリパラメタブルガンマと負二項rsv/ノードのgo hessianを提案する。 go hessian に基づいて、$\mathbb{e}_{q_{\boldsymbol{\boldsymbol{\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$ の新たな二階法を設計し、その有効性と効率性を検証するための厳密な実験を行った。

An unbiased low-variance gradient estimator, termed GO gradient, was proposed recently for expectation-based objectives $\mathbb{E}_{q_{\boldsymbol{\gamma}}(\boldsymbol{y})} [f(\boldsymbol{y})]$, where the random variable (RV) $\boldsymbol{y}$ may be drawn from a stochastic computation graph with continuous (non-reparameterizable) internal nodes and continuous/discrete leaves. Upgrading the GO gradient, we present for $\mathbb{E}_{q_{\boldsymbol{\boldsymbol{\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$ an unbiased low-variance Hessian estimator, named GO Hessian. Considering practical implementation, we reveal that GO Hessian is easy-to-use with auto-differentiation and Hessian-vector products, enabling efficient cheap exploitation of curvature information over stochastic computation graphs. As representative examples, we present the GO Hessian for non-reparameterizable gamma and negative binomial RVs/nodes. Based on the GO Hessian, we design a new second-order method for $\mathbb{E}_{q_{\boldsymbol{\boldsymbol{\gamma}}}(\boldsymbol{y})} [f(\boldsymbol{y})]$, with rigorous experiments conducted to verify its effectiveness and efficiency.
翻訳日:2022-11-20 19:10:49 公開日:2020-06-16
# DefenseVGAE: 変分グラフオートエンコーダによるグラフデータに対する敵攻撃に対する防御

DefenseVGAE: Defending against Adversarial Attacks on Graph Data via a Variational Graph Autoencoder ( http://arxiv.org/abs/2006.08900v1 )

ライセンス: Link先を確認
Ao Zhang and Jinwen Ma(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータ上のタスクに対して顕著なパフォーマンスを達成する。 しかし、近年の研究では、敵対的な構造的摂動に対して極めて脆弱であり、結果が信頼できないことが示されている。 本稿では,変分グラフオートエンコーダ(VGAE)を利用した新しいフレームワークであるDefenseVGAEを提案する。 DefenseVGAEはグラフ構造を再構築するよう訓練されている。 再構成された隣接行列は、対向的摂動の影響を低減し、対向的攻撃に直面した際のGCNの性能を高めることができる。 本研究では,様々な脅威モデルにおいて提案手法の有効性を示す実験を行った。 いくつかの設定では、既存の防衛戦略を上回っている。 私たちのコードはhttps://github.com/zhangao520/defense-vgaeで公開されています。

Graph neural networks (GNNs) achieve remarkable performance for tasks on graph data. However, recent works show they are extremely vulnerable to adversarial structural perturbations, making their outcomes unreliable. In this paper, we propose DefenseVGAE, a novel framework leveraging variational graph autoencoders(VGAEs) to defend GNNs against such attacks. DefenseVGAE is trained to reconstruct graph structure. The reconstructed adjacency matrix can reduce the effects of adversarial perturbations and boost the performance of GCNs when facing adversarial attacks. Our experiments on a number of datasets show the effectiveness of the proposed method under various threat models. Under some settings it outperforms existing defense strategies. Our code has been made publicly available at https://github.com/zhangao520/defense-vgae.
翻訳日:2022-11-20 19:09:51 公開日:2020-06-16
# 分散データセット上のディープニューラルネットワーク分類器のキャリブレーション

Calibrating Deep Neural Network Classifiers on Out-of-Distribution Datasets ( http://arxiv.org/abs/2006.08914v1 )

ライセンス: Link先を確認
Zhihui Shao, and Jianyi Yang, and Shaolei Ren(参考訳) ディープニューラルネットワーク(DNN)分類器の信頼性を高めるために、真の正当性を示す正確な予測信頼度が不可欠である。 この目的のために、ターゲットDNNの出力層をキャリブレーションされた信頼度にマッピングする軽量モデルを活用するために、多くのポストホックキャリブレーション手法が提案されている。 それにもかかわらず、実際にはOOD(out-of-distriion)データセットでは、ターゲットのDNNは、しばしば高い信頼性でサンプルを誤分類することができ、正確な信頼を生み出すために既存のキャリブレーションメソッドに重大な課題を生じさせる。 本稿では,OCDデータセット上のDNN分類器に対して,CCAC(Confidence Calibration with an Auxiliary Class)と呼ばれるポストホックな信頼度校正手法を提案する。 CCACの重要な特徴は、誤分類されたサンプルと正しく分類されたサンプルを分離するキャリブレーションモデルにおける補助クラスであり、それによってターゲットのDNNが確実に間違っていることを効果的に軽減する。 また,自由パラメータを削減し,新しい未知のデータセットへの転送を容易にするため,CCACの簡易バージョンを提案する。 異なるDNNモデル,データセット,アプリケーションに対する実験により,CCACは従来よりずっと優れていることがわかった。

To increase the trustworthiness of deep neural network (DNN) classifiers, an accurate prediction confidence that represents the true likelihood of correctness is crucial. Towards this end, many post-hoc calibration methods have been proposed to leverage a lightweight model to map the target DNN's output layer into a calibrated confidence. Nonetheless, on an out-of-distribution (OOD) dataset in practice, the target DNN can often mis-classify samples with a high confidence, creating significant challenges for the existing calibration methods to produce an accurate confidence. In this paper, we propose a new post-hoc confidence calibration method, called CCAC (Confidence Calibration with an Auxiliary Class), for DNN classifiers on OOD datasets. The key novelty of CCAC is an auxiliary class in the calibration model which separates mis-classified samples from correctly classified ones, thus effectively mitigating the target DNN's being confidently wrong. We also propose a simplified version of CCAC to reduce free parameters and facilitate transfer to a new unseen dataset. Our experiments on different DNN models, datasets and applications show that CCAC can consistently outperform the prior post-hoc calibration methods.
翻訳日:2022-11-20 19:09:38 公開日:2020-06-16
# マルコフデータによる最小二乗回帰:基本限界とアルゴリズム

Least Squares Regression with Markovian Data: Fundamental Limits and Algorithms ( http://arxiv.org/abs/2006.08916v1 )

ライセンス: Link先を確認
Guy Bresler, Prateek Jain, Dheeraj Nagaraj, Praneeth Netrapalli and Xian Wu(参考訳) データポイントが依存し、マルコフ連鎖からサンプルされる最小二乗線形回帰の問題について検討する。 この問題に対して,基礎となるマルコフ連鎖の混合時間である$\tau_{\mathsf{mix}}$を用いて,異なる雑音条件下で,鋭い情報理論のミニマックス下界を確立する。 我々の結果は、マルコフデータによる最適化は、独立データによる最適化よりも厳密なものであり、ほぼ独立のサンプルである$\tilde{\Theta}(\tau_{\mathsf{mix}})$の1つでのみ動作する自明なアルゴリズム(SGD-DD)が極小であることを示す。 実際、SGD(Stochastic Gradient Descent)法はステップサイズが一定であり、それ以外は独立なデータ設定による回帰において最小限の最適値である。 最悪のケース分析の他に、ガウス自動回帰力学のような実際に見られる構造化データセットがより効率的な最適化スキームを許容できるかどうかを調査する。 驚くべきことに、この特異で自然な設定であっても、ステップサイズが一定であるSGD(Stochastic Gradient Descent)は依然としてSGD-DDに劣らない。 代わりに,経験的リプレイに基づくアルゴリズムを提案する。これは一般的な強化学習手法であり,エラー率を大幅に向上させる。 我々の改善率は、アルゴリズムが興味深いマルコフ連鎖上でsgd-ddを上回る最初の結果の1つとなり、実際経験リプレイの使用をサポートする最初の理論的分析の1つを提供する。

We study the problem of least squares linear regression where the data-points are dependent and are sampled from a Markov chain. We establish sharp information theoretic minimax lower bounds for this problem in terms of $\tau_{\mathsf{mix}}$, the mixing time of the underlying Markov chain, under different noise settings. Our results establish that in general, optimization with Markovian data is strictly harder than optimization with independent data and a trivial algorithm (SGD-DD) that works with only one in every $\tilde{\Theta}(\tau_{\mathsf{mix}})$ samples, which are approximately independent, is minimax optimal. In fact, it is strictly better than the popular Stochastic Gradient Descent (SGD) method with constant step-size which is otherwise minimax optimal in the regression with independent data setting. Beyond a worst case analysis, we investigate whether structured datasets seen in practice such as Gaussian auto-regressive dynamics can admit more efficient optimization schemes. Surprisingly, even in this specific and natural setting, Stochastic Gradient Descent (SGD) with constant step-size is still no better than SGD-DD. Instead, we propose an algorithm based on experience replay--a popular reinforcement learning technique--that achieves a significantly better error rate. Our improved rate serves as one of the first results where an algorithm outperforms SGD-DD on an interesting Markov chain and also provides one of the first theoretical analyses to support the use of experience replay in practice.
翻訳日:2022-11-20 19:09:16 公開日:2020-06-16
# サプライチェーン管理における製品階層予測のための多相アプローチ:froyalfx社への適用

A Multi-Phase Approach for Product Hierarchy Forecasting in Supply Chain Management: Application to MonarchFx Inc ( http://arxiv.org/abs/2006.08931v1 )

ライセンス: Link先を確認
Sajjad Taghiyeh, David C Lengacher and Robert B Handfield(参考訳) 階層的な時系列要求は多くの産業に存在し、しばしば製品、時間枠、地理的集約と関連付けられる。 従来、これらの階層はトップダウン、ボトムアップ、ミドルアウトのアプローチで予測されてきた。 我々が答えようとしている質問は、階層的なサプライチェーンにおける親レベルの予測を改善するために、子レベルの予測をどのように利用するかである。 予測の改善はロジスティクスコスト、特にeコマースの大幅な削減に利用できる。 本稿では,新しい多相階層(MPH)手法を提案する。 本手法では,機械学習モデルを用いて階層内の各系列を独立に予測し,各系列を組み合わせて親レベルでの第2フェーズモデル推定を行う。 MonarchFx Inc.(ロジスティクスソリューションプロバイダ)のセールスデータは、私たちのアプローチを評価し、ボトムアップおよびトップダウンメソッドと比較するために使用されます。 提案手法を用いた予測精度は82-90%向上した。 提案手法により、サプライチェーンプランナはより正確な予測モデルを導出し、多変量データの利点を利用することができる。

Hierarchical time series demands exist in many industries and are often associated with the product, time frame, or geographic aggregations. Traditionally, these hierarchies have been forecasted using top-down, bottom-up, or middle-out approaches. The question we aim to answer is how to utilize child-level forecasts to improve parent-level forecasts in a hierarchical supply chain. Improved forecasts can be used to considerably reduce logistics costs, especially in e-commerce. We propose a novel multi-phase hierarchical (MPH) approach. Our method involves forecasting each series in the hierarchy independently using machine learning models, then combining all forecasts to allow a second phase model estimation at the parent level. Sales data from MonarchFx Inc. (a logistics solutions provider) is used to evaluate our approach and compare it to bottom-up and top-down methods. Our results demonstrate an 82-90% improvement in forecast accuracy using the proposed approach. Using the proposed method, supply chain planners can derive more accurate forecasting models to exploit the benefit of multivariate data.
翻訳日:2022-11-20 19:08:44 公開日:2020-06-16
# フィードバックと局所可塑性で学ぶこと

Learning to Learn with Feedback and Local Plasticity ( http://arxiv.org/abs/2006.09549v1 )

ライセンス: Link先を確認
Jack Lindsey, Ashok Litwin-Kumar(参考訳) 生物学的にインスパイアされたバックプロパゲーションの選択肢への関心は、深層学習と神経科学のつながりを前進させ、オンライン、継続的な学習のようなタスクにおけるバックプロパゲーションの欠点に対処するという欲求によって引き起こされる。 しかし、脳が採用しているような局所的なシナプス学習規則は、ディープネットワークにおけるバックプロパゲーションのパフォーマンスと一致しなかった。 本研究では,メタラーニングを用いて,フィードバック接続と局所的,生物学的にインスパイアされた学習ルールを用いて学習するネットワークを探索する。 重要なことに、フィードバック接続はフィードフォワードウェイトに縛られず、生物学的に目立たない重量輸送を避けている。 実験の結果, メタトレーニングネットワークは, 多層アーキテクチャにおけるオンラインクレジット割り当てにフィードバック接続を効果的に利用していることがわかった。 驚くべきことに、このアプローチは回帰と分類タスクに関する最先端の勾配に基づくオンラインメタ学習アルゴリズムと一致し、特に連続的な学習において優れている。 これらのモデルが用いた重み更新の解析により、更新間の干渉を減らす方法で勾配降下と定性的に異なることが判明した。 本研究は,勾配降下型学習に適合するだけでなく,その限界を克服する生物学的に妥当な学習機構の存在を示唆する。

Interest in biologically inspired alternatives to backpropagation is driven by the desire to both advance connections between deep learning and neuroscience and address backpropagation's shortcomings on tasks such as online, continual learning. However, local synaptic learning rules like those employed by the brain have so far failed to match the performance of backpropagation in deep networks. In this study, we employ meta-learning to discover networks that learn using feedback connections and local, biologically inspired learning rules. Importantly, the feedback connections are not tied to the feedforward weights, avoiding biologically implausible weight transport. Our experiments show that meta-trained networks effectively use feedback connections to perform online credit assignment in multi-layer architectures. Surprisingly, this approach matches or exceeds a state-of-the-art gradient-based online meta-learning algorithm on regression and classification tasks, excelling in particular at continual learning. Analysis of the weight updates employed by these models reveals that they differ qualitatively from gradient descent in a way that reduces interference between updates. Our results suggest the existence of a class of biologically plausible learning mechanisms that not only match gradient descent-based learning, but also overcome its limitations.
翻訳日:2022-11-20 19:02:24 公開日:2020-06-16
# PERL: 事前学習した深部埋め込みモデルに対するPivot-based Domain Adaptation

PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models ( http://arxiv.org/abs/2006.09075v1 )

ライセンス: Link先を確認
Eyal Ben-David, Carmel Rabinovitz, Roi Reichart(参考訳) Pivotベースのニューラル表現モデルは、NLPのドメイン適応に大きな進歩をもたらした。 しかし、このアプローチに従っている以前の作品は、ソースドメインからのラベル付きデータとソースおよびターゲットドメインからのラベルなしデータのみを使用するが、これらのドメインから必ずしも引き出されたものではない巨大なラベルなしコーパスを組み込むことを怠っている。 そこで本研究では,BERT などの文脈型単語埋め込みモデルを拡張した表現学習モデル PERL を提案する。 PERLは、22の感情分類ドメイン適応設定で強いベースラインを上回り、ドメイン内のモデル性能を改善し、効果的な縮小サイズモデルを生成し、モデルの安定性を向上させる。

Pivot-based neural representation models have lead to significant progress in domain adaptation for NLP. However, previous works that follow this approach utilize only labeled data from the source domain and unlabeled data from the source and target domains, but neglect to incorporate massive unlabeled corpora that are not necessarily drawn from these domains. To alleviate this, we propose PERL: A representation learning model that extends contextualized word embedding models such as BERT with pivot-based fine-tuning. PERL outperforms strong baselines across 22 sentiment classification domain adaptation setups, improves in-domain model performance, yields effective reduced-size models and increases model stability.
翻訳日:2022-11-20 19:01:58 公開日:2020-06-16
# ドメインシフトによる選択的質問応答

Selective Question Answering under Domain Shift ( http://arxiv.org/abs/2006.09462v1 )

ライセンス: Link先を確認
Amita Kamath, Robin Jia, Percy Liang(参考訳) 間違った答えを出すのを避けるために、質問応答(QA)モデルはいつ回答を控えるかを知る必要がある。 さらに、ユーザーはしばしばモデルのトレーニングデータから分岐する質問をし、エラーがより起こりやすく、したがって無視がより重要になる。 本稿では,ドメイン内データとドメイン外データの混合に対してQAモデルをテストし,高い精度を維持しつつ,可能な限り多くの質問に答えなければならないドメインシフト下での選択的質問応答の設定を提案する。 モデルがドメイン外の入力に過信されているため、モデルのソフトマックス確率のみに基づくアテンションポリシーは不十分である。 代わりに、キャリブレータをトレーニングして、QAモデルがアースする入力を識別し、エラーを予測した場合に停止する。 重要なことに、キャリブレータは、テストデータとは異なるドメインからであっても、ドメイン外のデータでモデルの振る舞いを観察する利点がある。 この手法をSQuAD学習QAモデルと組み合わせ、SQuADと他の5つのQAデータセットの混合について評価する。 提案手法は,80%の精度を維持しながら56%の質問に回答するが,それに対してモデルの確率を直接使用する場合,80%の精度で48%しか回答しない。

To avoid giving wrong answers, question answering (QA) models need to know when to abstain from answering. Moreover, users often ask questions that diverge from the model's training data, making errors more likely and thus abstention more critical. In this work, we propose the setting of selective question answering under domain shift, in which a QA model is tested on a mixture of in-domain and out-of-domain data, and must answer (i.e., not abstain on) as many questions as possible while maintaining high accuracy. Abstention policies based solely on the model's softmax probabilities fare poorly, since models are overconfident on out-of-domain inputs. Instead, we train a calibrator to identify inputs on which the QA model errs, and abstain when it predicts an error is likely. Crucially, the calibrator benefits from observing the model's behavior on out-of-domain data, even if from a different domain than the test data. We combine this method with a SQuAD-trained QA model and evaluate on mixtures of SQuAD and five other QA datasets. Our method answers 56% of questions while maintaining 80% accuracy; in contrast, directly using the model's probabilities only answers 48% at 80% accuracy.
翻訳日:2022-11-20 19:01:45 公開日:2020-06-16
# EPIE Dataset: 可能な慣用表現のためのコーパス

EPIE Dataset: A Corpus For Possible Idiomatic Expressions ( http://arxiv.org/abs/2006.09479v1 )

ライセンス: Link先を確認
Prateek Saxena and Soma Paul(参考訳) 慣用表現は、言語理解と自然言語理解、特に機械翻訳(mt)のようなタスクにとって、常にボトルネックとなっている。 MTシステムは主に、非構成的意味の理解に活用できる汎用的および言語学的決定論的パターンを提示しないため、慣用的表現のリテラル翻訳を生成する。 これらの表現は、訓練に用いられる並列コーパスに現れるが、リテラル文脈における慣用的な表現の構成語が比較的高いため、慣用的な意味は、その表現の合成的意味に圧倒される。 メタファー検出システム(Metaphor Detection Systems)は、単語レベルでの非合成的使用を検出できるが、慣用的な表現を欠いている。 これにより、より広範なカバレッジと、一般的に発生する慣用的な表現の発生率の高いデータセットが、Metaphor Detectionに使用できるようになる。 このことを念頭に置いて、717の慣用表現の語彙例をラベル付けした25206文を含む、英語のPossible Idiomatic Expressions(EPIE)コーパスを提示する。 これらのスパンは、与えられた慣用表現のセットのリテラル使用法もカバーする。 また,シーケンスラベリングモジュールをトレーニングし,精度,精度,リコールスコアの3つの独立したデータセット上でテストすることにより,データセットの有用性を示す。

Idiomatic expressions have always been a bottleneck for language comprehension and natural language understanding, specifically for tasks like Machine Translation(MT). MT systems predominantly produce literal translations of idiomatic expressions as they do not exhibit generic and linguistically deterministic patterns which can be exploited for comprehension of the non-compositional meaning of the expressions. These expressions occur in parallel corpora used for training, but due to the comparatively high occurrences of the constituent words of idiomatic expressions in literal context, the idiomatic meaning gets overpowered by the compositional meaning of the expression. State of the art Metaphor Detection Systems are able to detect non-compositional usage at word level but miss out on idiosyncratic phrasal idiomatic expressions. This creates a dire need for a dataset with a wider coverage and higher occurrence of commonly occurring idiomatic expressions, the spans of which can be used for Metaphor Detection. With this in mind, we present our English Possible Idiomatic Expressions(EPIE) corpus containing 25206 sentences labelled with lexical instances of 717 idiomatic expressions. These spans also cover literal usages for the given set of idiomatic expressions. We also present the utility of our dataset by using it to train a sequence labelling module and testing on three independent datasets with high accuracy, precision and recall scores.
翻訳日:2022-11-20 19:01:23 公開日:2020-06-16
# 量子化係数を用いた低ランク近似によるCNN加速

CNN Acceleration by Low-rank Approximation with Quantized Factors ( http://arxiv.org/abs/2006.08878v1 )

ライセンス: Link先を確認
Nikolay Kozyrskiy, Anh-Huy Phan(参考訳) 現代の畳み込みニューラルネットワークは複雑なコンピュータビジョンタスクの解決において大きな成果を上げているが、計算の複雑さ、メモリ、消費電力の厳しい要件のため、モバイルや組み込みデバイスでは効果的に使用できない。 CNNは、デプロイ前に圧縮され、加速されなければならない。 この問題を解決するために、タッカー形式の低ランクテンソル近似と重みと特徴写像の量子化(実行)という2つの既知の手法を組み合わせた新しい手法を提案する。 マルチ線形階数選択の課題に対して, グレディワンステップとマルチステップのアルゴリズムを提案する。 タッカー分解および量子化を適用した品質回復手法を開発した。 CIFAR-10, CIFAR-100, Imagenet分類タスクにおけるResNet18とResNet34の効率を実証した。 圧縮・加速のための他の手法との比較分析の結果,提案手法は有望な特徴を示した。

The modern convolutional neural networks although achieve great results in solving complex computer vision tasks still cannot be effectively used in mobile and embedded devices due to the strict requirements for computational complexity, memory and power consumption. The CNNs have to be compressed and accelerated before deployment. In order to solve this problem the novel approach combining two known methods, low-rank tensor approximation in Tucker format and quantization of weights and feature maps (activations), is proposed. The greedy one-step and multi-step algorithms for the task of multilinear rank selection are proposed. The approach for quality restoration after applying Tucker decomposition and quantization is developed. The efficiency of our method is demonstrated for ResNet18 and ResNet34 on CIFAR-10, CIFAR-100 and Imagenet classification tasks. As a result of comparative analysis performed for other methods for compression and acceleration our approach showed its promising features.
翻訳日:2022-11-20 19:00:43 公開日:2020-06-16
# モデル埋め込みモデルに基づく強化学習

Model Embedding Model-Based Reinforcement Learning ( http://arxiv.org/abs/2006.09234v1 )

ライセンス: Link先を確認
Xiaoyu Tan, Chao Qu, Junwu Xiong, James Zhang(参考訳) モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れている。 しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。 本稿では,確率的強化学習の枠組みにおけるモデル埋め込みモデルベース強化学習(MEMB)の簡易かつエレガントなアルゴリズムを提案する。 サンプル効率とモデルバイアスのバランスをとるために,実データと虚データの両方をトレーニングで活用する。 特に、ポリシー更新にモデルを埋め込み、実際のデータセットから$q$と$v$関数を学習します。 我々は,モデルと方針にリプシッツ連続性を仮定したmembの理論解析を行う。 最後に、いくつかのベンチマークでmembを評価し、アルゴリズムが最先端のパフォーマンスを達成できることを実証する。

Model-based reinforcement learning (MBRL) has shown its advantages in sample-efficiency over model-free reinforcement learning (MFRL). Despite the impressive results it achieves, it still faces a trade-off between the ease of data generation and model bias. In this paper, we propose a simple and elegant model-embedding model-based reinforcement learning (MEMB) algorithm in the framework of the probabilistic reinforcement learning. To balance the sample-efficiency and model bias, we exploit both real and imaginary data in the training. In particular, we embed the model in the policy update and learn $Q$ and $V$ functions from the real data set. We provide the theoretical analysis of MEMB with the Lipschitz continuity assumption on the model and policy. At last, we evaluate MEMB on several benchmarks and demonstrate our algorithm can achieve state-of-the-art performance.
翻訳日:2022-11-20 19:00:29 公開日:2020-06-16
# 深層強化学習を用いた順序バッチとシーケンス問題の解法

Solving the Order Batching and Sequencing Problem using Deep Reinforcement Learning ( http://arxiv.org/abs/2006.09507v1 )

ライセンス: Link先を確認
Bram Cals, Yingqian Zhang, Remco Dijkman, Claudy van Dorst(参考訳) 電子商取引市場では、タイムデリバリーは顧客満足度にとって非常に重要である。 本稿では,大規模注文数を最小限に抑えるため,倉庫内における注文のバッチ処理のタイミングとタイミングを決定するためのDep Reinforcement Learning (DRL) 手法を提案する。 特に、この技術は、注文を個別に(ピック・バイ・オーダー)するか、あるいは他の注文(ピック・バイ・バッチ)とバッチで選択するか、他の注文をどちらで行うかの決定を容易にする。 本稿では,これを半マルコフ決定プロセスとして定式化し,倉庫システムの特徴を含むベクトルベースの状態表現を開発する。 これにより、環境と対話して戦略を学習する深層強化学習ソリューションを作成し、近似ポリシー最適化アルゴリズムを用いて問題を解決することができる。 提案するDRL手法の性能を,複数のバッチ処理と異なる問題設定におけるシーケンシングヒューリスティックスと比較することにより評価する。 以上の結果から,drlアプローチは,提案するヒューリスティックスよりも一貫性と優れたソリューションを生み出す戦略を開発できることが示されている。

In e-commerce markets, on time delivery is of great importance to customer satisfaction. In this paper, we present a Deep Reinforcement Learning (DRL) approach for deciding how and when orders should be batched and picked in a warehouse to minimize the number of tardy orders. In particular, the technique facilitates making decisions on whether an order should be picked individually (pick-by-order) or picked in a batch with other orders (pick-by-batch), and if so with which other orders. We approach the problem by formulating it as a semi-Markov decision process and develop a vector-based state representation that includes the characteristics of the warehouse system. This allows us to create a deep reinforcement learning solution that learns a strategy by interacting with the environment and solve the problem with a proximal policy optimization algorithm. We evaluate the performance of the proposed DRL approach by comparing it with several batching and sequencing heuristics in different problem settings. The results show that the DRL approach is able to develop a strategy that produces consistent, good solutions and performs better than the proposed heuristics.
翻訳日:2022-11-20 19:00:17 公開日:2020-06-16
# 補助運転のためのパーソナライズされた気候設定

Mining Personalized Climate Preferences for Assistant Driving ( http://arxiv.org/abs/2006.08846v1 )

ライセンス: Link先を確認
Feng Hu(参考訳) アシスタント運転と自動運転の両方が、ここ数年で大きな注目を集めている。 しかし、ほとんどの研究は安全な運転に焦点を当てており、車内気候制御や、旅行者の個人的習慣や好みに基づく補助運転に関する研究はほとんど行われていない。 本稿では,運転者の日常運転において,運転者の嗜好に合った環境制御,運転行動認識,運転推奨のための新しいアプローチを提案する。 このアルゴリズムは、(1)車内センシングとコンテキストの特徴と、関連する環境、車両走行、およびドライバーの行動に影響を及ぼす交通パラメータを収集するためのiot(internet of things)プラットフォームとの相性を高める。 2) さらに特徴抽出と機械学習アルゴリズムを適用した結果に基づいて、車両のステータス(窓を開けたり、エアコンをオンにするなど)を自動的にラベル付けできる非侵入的インテリジェントドライバ動作と車両状態検出コンポーネント。 3)パーソナライズされたドライバは、より健康で快適な体験のための学習と選好の推奨コンポーネントを提供する。 異種データを収集し,アルゴリズムをテストするために,iOSアプリと空気質監視センサを備えたクライアントサーバアーキテクチャを用いたプロトタイプを開発した。 世界中の複数の都市で、11,370 km (320時間) の運転データに関する実世界実験が行われ、このアプローチの有効性と精度が示された。

Both assistant driving and self-driving have attracted a great amount of attention in the last few years. However, the majority of research efforts focus on safe driving; few research has been conducted on in-vehicle climate control, or assistant driving based on travellers' personal habits or preferences. In this paper, we propose a novel approach for climate control, driver behavior recognition and driving recommendation for better fitting drivers' preferences in their daily driving. The algorithm consists three components: (1) A in-vehicle sensing and context feature enriching compnent with a Internet of Things (IoT) platform for collecting related environment, vehicle-running, and traffic parameters that affect drivers' behaviors. (2) A non-intrusive intelligent driver behaviour and vehicle status detection component, which can automatically label vehicle's status (open windows, turn on air condition, etc.), based on results of applying further feature extraction and machine learning algorithms. (3) A personalized driver habits learning and preference recommendation component for more healthy and comfortable experiences. A prototype using a client-server architecture with an iOS app and an air-quality monitoring sensor has been developed for collecting heterogeneous data and testing our algorithms. Real-world experiments on driving data of 11,370 km (320 hours) by different drivers in multiple cities worldwide have been conducted, which demonstrate the effective and accuracy of our approach.
翻訳日:2022-11-20 18:59:56 公開日:2020-06-16
# 二重オーバーパラメータ化のための離散学習率の急激なバイアスによるロバスト回復

Robust Recovery via Implicit Bias of Discrepant Learning Rates for Double Over-parameterization ( http://arxiv.org/abs/2006.08857v1 )

ライセンス: Link先を確認
Chong You, Zhihui Zhu, Qing Qu, Yi Ma(参考訳) 近年の進歩は、過パラメータ化モデルにおける勾配降下の暗黙の偏りは、固有ランクに関する事前知識がなくても線形測定から低ランク行列の回復を可能にすることを示している。 対照的に、粗悪な測定値からロバストな低ランク行列を回復するためには、過剰パラメータ化は、腐敗の本質的なランクとスパース性の両方について事前の知識なしに過剰に適合する。 本稿では,低ランク行列とスパース破壊の両方に対する二重過パラメータ化により,離散学習率を持つ勾配降下は,行列のランクや汚職のスパース性について事前の知識がなくても,基盤となる行列を確実に回復することを示す。 さらに,深層畳み込みネットワークを用いた過剰パラメータ化による自然画像のロバスト回復のためのアプローチをさらに拡張する。 実験では,ネットワーク幅と終了条件をケースバイケースで調整する必要のない単一の学習パイプラインを用いて,異なるテスト画像と異なる腐敗レベルを処理することを示す。 成功の根底にあるのは、異なる過剰パラメータの異なる学習率を持つ暗黙のバイアスであり、幅広い応用が要求される可能性がある。

Recent advances have shown that implicit bias of gradient descent on over-parameterized models enables the recovery of low-rank matrices from linear measurements, even with no prior knowledge on the intrinsic rank. In contrast, for robust low-rank matrix recovery from grossly corrupted measurements, over-parameterization leads to overfitting without prior knowledge on both the intrinsic rank and sparsity of corruption. This paper shows that with a double over-parameterization for both the low-rank matrix and sparse corruption, gradient descent with discrepant learning rates provably recovers the underlying matrix even without prior knowledge on neither rank of the matrix nor sparsity of the corruption. We further extend our approach for the robust recovery of natural images by over-parameterizing images with deep convolutional networks. Experiments show that our method handles different test images and varying corruption levels with a single learning pipeline where the network width and termination conditions do not need to be adjusted on a case-by-case basis. Underlying the success is again the implicit bias with discrepant learning rates on different over-parameterized parameters, which may bear on broader applications.
翻訳日:2022-11-20 18:54:20 公開日:2020-06-16
# deepcapture:ディープラーニングとデータ拡張を用いた画像スパム検出

DeepCapture: Image Spam Detection Using Deep Learning and Data Augmentation ( http://arxiv.org/abs/2006.08885v1 )

ライセンス: Link先を確認
Bedeuro Kim, Sharif Abuadbba, Hyoungshick Kim(参考訳) 画像スパムメールは、しばしば使用されるキーワードでスパムメールを検出するテキストベースのスパムフィルタを避けるために使用される。 本稿では,畳み込みニューラルネットワーク(CNN)モデルを用いて,DeepCaptureと呼ばれる新しい画像スパムメール検出ツールを提案する。 画像スパムメールの検出には多くの取り組みがあったが、トレーニング期間中の過度な適合により、全く新しい、目に見えない画像スパムメールに対して大きなパフォーマンス低下がある。 この課題に対処するため、私たちは主に、オーバーフィット問題に対処するより堅牢なモデルの開発に重点を置いています。 我々のキーとなるアイデアは、画像スパム検出タスクに適したデータ拡張技術を用いて、多数のトレーニングサンプルのみを含む8層からなるCNN-XGBoostフレームワークを構築することです。 DeepCaptureの実現可能性を示すために、6,000のスパムと2,313のノンスパム画像サンプルからなる公開データセットを用いて、その性能を評価する。 実験の結果,DeepCaptureはF1スコア88%を達成でき,既存のスパム検出モデルであるCNN-SVMよりも6%改善され,F1スコア82%となっている。 さらに、DeepCaptureは、新しい、見えない画像データセットに対して、既存のイメージスパム検出ソリューションより優れています。

Image spam emails are often used to evade text-based spam filters that detect spam emails with their frequently used keywords. In this paper, we propose a new image spam email detection tool called DeepCapture using a convolutional neural network (CNN) model. There have been many efforts to detect image spam emails, but there is a significant performance degrade against entirely new and unseen image spam emails due to overfitting during the training phase. To address this challenging issue, we mainly focus on developing a more robust model to address the overfitting problem. Our key idea is to build a CNN-XGBoost framework consisting of eight layers only with a large number of training samples using data augmentation techniques tailored towards the image spam detection task. To show the feasibility of DeepCapture, we evaluate its performance with publicly available datasets consisting of 6,000 spam and 2,313 non-spam image samples. The experimental results show that DeepCapture is capable of achieving an F1-score of 88%, which has a 6% improvement over the best existing spam detection model CNN-SVM with an F1-score of 82%. Moreover, DeepCapture outperformed existing image spam detection solutions against new and unseen image datasets.
翻訳日:2022-11-20 18:53:45 公開日:2020-06-16
# Few-shot分類のためのフォーゲット更新モジュールによるチャネル関係予測

Channel Relationship Prediction with Forget-Update Module for Few-shot Classification ( http://arxiv.org/abs/2006.08937v1 )

ライセンス: Link先を確認
Minglei Yuan and Cunhao Cai and Tong Lu(参考訳) 本稿では,サポートセット内の各クラスと,leet-updateモジュールを用いたクエリサンプルの関係を推測するパイプラインを提案する。 まず,すべてのサポートサンプルと問合せサンプルの総合情報を収集することにより,シーケンス予測モデルに基づく少数ショット分類手法の性能を向上させる"channel vector sequence construction module"という新しいアーキテクチャモジュールを提案する。 このモジュールによって生成されたチャネルベクトル列は、シーケンスの各時間ステップが、すべてのサポートサンプルの対応するチャネルと推測されるクエリサンプルからの情報を含むように構成される。 畳み込みニューラルネットワークと完全接続されたネットワークによりチャネルベクトルシーケンスを求め、スプライシングされたチャネルベクトルシーケンスを、サポートサンプルの対応するチャネルベクトルと、クエリサンプルとを、元のチャネル順にスプライシングする。 また,スタック化されたrelook-updateブロックからなるrelook-updateモジュールを提案する。 forgetブロックは学習した重みで元の情報を変更し、更新ブロックはモデルの密接な接続を確立する。 提案するパイプラインは,チャネルベクトル列構築モジュールとリフレッシュ更新モジュールから構成されており,クエリサンプルとサポートサンプルとの関係を,数ショットの分類シナリオで推測することができる。 実験結果から,このパイプラインはminiImagenet, CUBデータセット, クロスドメインシナリオで最先端の結果を得ることができることがわかった。

In this paper, we proposed a pipeline for inferring the relationship of each class in support set and a query sample using forget-update module. We first propose a novel architectural module called "channel vector sequence construction module", which boosts the performance of sequence-prediction-model-based few-shot classification methods by collecting the overall information of all support samples and a query sample. The channel vector sequence generated by this module is organized in a way that each time step of the sequence contains the information from the corresponding channel of all support samples and the query sample to be inferred. Channel vector sequence is obtained by a convolutional neural network and a fully connected network, and the spliced channel vector sequence is spliced of the corresponding channel vectors of support samples and a query sample in the original channel order. Also, we propose a forget-update module consisting of stacked forget-update blocks. The forget block modify the original information with the learned weights and the update block establishes a dense connection for the model. The proposed pipeline, which consists of channel vector sequence construction module and forget-update module, can infer the relationship between the query sample and support samples in few-shot classification scenario. Experimental results show that the pipeline can achieve state-of-the-art results on miniImagenet, CUB dataset, and cross-domain scenario.
翻訳日:2022-11-20 18:53:25 公開日:2020-06-16
# 構造化・局所化画像復元

Structured and Localized Image Restoration ( http://arxiv.org/abs/2006.09261v1 )

ライセンス: Link先を確認
Thomas Eboli, Alex Nowak-Vila, Jian Sun, Francis Bach, Jean Ponce, Alessandro Rudi(参考訳) 本稿では,局所構造予測と非線形マルチタスク学習のアイデアを活用した画像復元手法を提案する。 我々は,事前に収集した外部データベースから復元すべきパッチとクリーンパッチの間の距離を計測する用語の和で正規化したペナリゼーションエネルギー関数を最適化する。 得られた推定器は、重複するパッチの局所的な依存性特性を活用する強力な統計的保証を備える。 平均二乗およびユークリッド標準誤差に基づいて対応するエネルギーのアルゴリズムを導出する。 最後に, 標準ベンチマークを用いて, 異なる画像復元問題に対するモデルの実効性を示す。

We present a novel approach to image restoration that leverages ideas from localized structured prediction and non-linear multi-task learning. We optimize a penalized energy function regularized by a sum of terms measuring the distance between patches to be restored and clean patches from an external database gathered beforehand. The resulting estimator comes with strong statistical guarantees leveraging local dependency properties of overlapping patches. We derive the corresponding algorithms for energies based on the mean-squared and Euclidean norm errors. Finally, we demonstrate the practical effectiveness of our model on different image restoration problems using standard benchmarks.
翻訳日:2022-11-20 18:52:01 公開日:2020-06-16
# Gradient Amplification:ディープニューラルネットワークの効率的なトレーニング方法

Gradient Amplification: An efficient way to train deep neural networks ( http://arxiv.org/abs/2006.10560v1 )

ライセンス: Link先を確認
Sunitha Basodi, Chunyan Ji, Haiping Zhang, and Yi Pan(参考訳) ディープラーニングモデルの性能向上とトレーニング時間の短縮は、ディープニューラルネットワークにおける継続的な課題である。 これらの課題に対処するいくつかのアプローチが提案されており、そのうちの1つはニューラルネットワークの深さを増加させることである。 このような深いネットワークは、トレーニング時間を増やすだけでなく、トレーニング中の勾配の問題も抱える。 本研究では,学習速度の異なる複数の時代にわたる勾配増幅法を有効又は無効にするための学習戦略を考案し,ディープラーニングモデルの学習のための勾配増幅手法を提案する。 VGG-19およびresnet(Resnet-18およびResnet-34)モデルの実験を行い、これらのモデルに対する増幅パラメータの影響を詳細に検討した。 提案手法は,これらのディープラーニングモデルの性能を高い学習率でも向上させ,トレーニング時間を短縮して高い学習性能を実現する。

Improving performance of deep learning models and reducing their training times are ongoing challenges in deep neural networks. There are several approaches proposed to address these challenges one of which is to increase the depth of the neural networks. Such deeper networks not only increase training times, but also suffer from vanishing gradients problem while training. In this work, we propose gradient amplification approach for training deep learning models to prevent vanishing gradients and also develop a training strategy to enable or disable gradient amplification method across several epochs with different learning rates. We perform experiments on VGG-19 and resnet (Resnet-18 and Resnet-34) models, and study the impact of amplification parameters on these models in detail. Our proposed approach improves performance of these deep learning models even at higher learning rates, thereby allowing these models to achieve higher performance with reduced training time.
翻訳日:2022-11-20 18:51:52 公開日:2020-06-16
# 顔分類のための畳み込みニューラルネットワークにおける画素関連性の検証と一般化

Validation and generalization of pixel-wise relevance in convolutional neural networks trained for face classification ( http://arxiv.org/abs/2006.16795v1 )

ライセンス: Link先を確認
J\~nani Crawford, Eshed Margalit, Kalanit Grill-Spector, and Sonia Poltoratski(参考訳) 科学、ガバナンス、そしてより広い社会における顔認識における畳み込みニューラルネットワークの利用の増加は、これらの「ブラックボックス」決定がどのようになされるかを示す方法の急激な必要性を生み出した。 人間が理解し有用であるためには、入力データのランダムな初期化や素早い相関に頑健な方法でモデルの学習した分類戦略を伝える必要がある。 そこで本研究では,層間相関伝播法(lrp)の分解的画素分割法を適用し,顔認識のためのvgg-16モデルの複数のクラスの決定を解いた。 次に,事前学習データセット(imagenetまたはvggface)や微調整タスク(生成者または識別分類),モデル重みのランダム初期化など,キーモデルパラメータ間の関係尺度の差異と一般化を定量化した。 相関に基づく画像マスキングを用いることで、顔分類の関連マップはランダム初期化において一般的に安定であり、微調整タスクをまたいで一般化できることがわかった。 しかし、事前学習データセットの一般化は著しく少なく、ImageNetとVGGFaceで訓練されたモデルは、比較可能な高い分類性能を達成できたとしても、異なる顔情報をサンプリングすることを示している。 モデル間の関連マップのきめ細かい分析により、選択パラメータの特定の利点を示す一般化の非対称性が明らかとなり、畳み込みニューラルネットワークやタスク間の決定を駆動する重要な顔画像ピクセルの下位セットを見つけることが可能である可能性が示唆された。 最後に,類似性の尺度に対するモデル決定重み付けの評価を行い,人間と機械間での顔認識決定を解釈するための新しい枠組みを提案する。

The increased use of convolutional neural networks for face recognition in science, governance, and broader society has created an acute need for methods that can show how these 'black box' decisions are made. To be interpretable and useful to humans, such a method should convey a model's learned classification strategy in a way that is robust to random initializations or spurious correlations in input data. To this end, we applied the decompositional pixel-wise attribution method of layer-wise relevance propagation (LRP) to resolve the decisions of several classes of VGG-16 models trained for face recognition. We then quantified how these relevance measures vary with and generalize across key model parameters, such as the pretraining dataset (ImageNet or VGGFace), the finetuning task (gender or identity classification), and random initializations of model weights. Using relevance-based image masking, we find that relevance maps for face classification prove generally stable across random initializations, and can generalize across finetuning tasks. However, there is markedly less generalization across pretraining datasets, indicating that ImageNet- and VGGFace-trained models sample face information differently even as they achieve comparably high classification performance. Fine-grained analyses of relevance maps across models revealed asymmetries in generalization that point to specific benefits of choice parameters, and suggest that it may be possible to find an underlying set of important face image pixels that drive decisions across convolutional neural networks and tasks. Finally, we evaluated model decision weighting against human measures of similarity, providing a novel framework for interpreting face recognition decisions across human and machine.
翻訳日:2022-11-20 18:51:38 公開日:2020-06-16
# 強化学習におけるタスク非依存探索

Task-agnostic Exploration in Reinforcement Learning ( http://arxiv.org/abs/2006.09497v1 )

ライセンス: Link先を確認
Xuezhou Zhang, Yuzhe ma, Adish Singla(参考訳) 効率的な探索は強化学習(RL)における主要な課題の1つである。 既存のサンプル効率のよいアルゴリズムの多くは、探索中に単一の報酬関数の存在を仮定している。 しかし、多くの実用的なシナリオでは、エージェントが同時に多くのスキルを習得する必要がある場合や、複数の矛盾する目標をバランスさせる必要がある場合など、探索を導くための単一の報酬関数は存在しない。 これらの課題に対処するために、我々は \textit{task-agnostic rl} フレームワークを提案している。 探索フェーズでは、エージェントは、報酬関数のガイダンスなしでmdpを探索することによって、最初に軌道を収集します。 調査の後、各タスクに対して \textit{sampled rewards} で強化された収集されたトラジェクトリを考えると、$N$タスクのほぼ最適ポリシーを見つけることを目指している。 このアルゴリズムは,最大$\tilde O(\log(N)H^5SA/\epsilon^2)の探索後に,$N$の任意のタスクに対して$\epsilon$-optimal Policyを求める。 また、$\Omega(\log (N)H^2SA/\epsilon^2)$ lower boundを提供し、$N$の$\log$依存性は避けられないことを示す。 さらに、基底真理報酬関数が知られている場合の統計的に簡単な設定で、$n$非依存なサンプル複雑性が \textsc{ucbzero} に束縛される。

Efficient exploration is one of the main challenges in reinforcement learning (RL). Most existing sample-efficient algorithms assume the existence of a single reward function during exploration. In many practical scenarios, however, there is not a single underlying reward function to guide the exploration, for instance, when an agent needs to learn many skills simultaneously, or multiple conflicting objectives need to be balanced. To address these challenges, we propose the \textit{task-agnostic RL} framework: In the exploration phase, the agent first collects trajectories by exploring the MDP without the guidance of a reward function. After exploration, it aims at finding near-optimal policies for $N$ tasks, given the collected trajectories augmented with \textit{sampled rewards} for each task. We present an efficient task-agnostic RL algorithm, \textsc{UCBZero}, that finds $\epsilon$-optimal policies for $N$ arbitrary tasks after at most $\tilde O(\log(N)H^5SA/\epsilon^2)$ exploration episodes. We also provide an $\Omega(\log (N)H^2SA/\epsilon^2)$ lower bound, showing that the $\log$ dependency on $N$ is unavoidable. Furthermore, we provide an $N$-independent sample complexity bound of \textsc{UCBZero} in the statistically easier setting when the ground truth reward functions are known.
翻訳日:2022-11-20 18:43:13 公開日:2020-06-16
# 画像分類のための微調整DART

Fine-Tuning DARTS for Image Classification ( http://arxiv.org/abs/2006.09042v1 )

ライセンス: Link先を確認
Muhammad Suhaib Tanveer, Muhammad Umar Karim Khan, Chong-Min Kyung(参考訳) neural architecture search (nas) は分類性能が優れているため、注目を集めている。 Differential Architecture Search (DARTS) は計算学的に軽量な手法である。 計算資源を制限するため、DARTSは多数の近似を行う。 これらの近似は性能が劣る。 本稿では,これらの近似から独立して固定演算を用いたDARTSの微調整を提案する。 本手法は,パラメータ数と分類精度の良好なトレードオフを提供する。 提案手法では,Fashion-MNIST,CompCars,MIO-TCDデータセットのTop-1精度を,最先端のアプローチと比較して0.56%,0.50%,0.39%向上させる。 CIFAR-10, CIFAR-100, Fashion-MNIST, CompCars, MIO-TCDデータセットでは, DARTSに比べて精度が0.28%, 1.64%, 0.34%, 4.5%, 3.27%向上した。

Neural Architecture Search (NAS) has gained attraction due to superior classification performance. Differential Architecture Search (DARTS) is a computationally light method. To limit computational resources DARTS makes numerous approximations. These approximations result in inferior performance. We propose to fine-tune DARTS using fixed operations as they are independent of these approximations. Our method offers a good trade-off between the number of parameters and classification accuracy. Our approach improves the top-1 accuracy on Fashion-MNIST, CompCars, and MIO-TCD datasets by 0.56%, 0.50%, and 0.39%, respectively compared to the state-of-the-art approaches. Our approach performs better than DARTS, improving the accuracy by 0.28%, 1.64%, 0.34%, 4.5%, and 3.27% compared to DARTS, on CIFAR-10, CIFAR-100, Fashion-MNIST, CompCars, and MIO-TCD datasets, respectively.
翻訳日:2022-11-20 18:42:47 公開日:2020-06-16
# 事故予測のためのグローバル特徴集約

Global Feature Aggregation for Accident Anticipation ( http://arxiv.org/abs/2006.08942v1 )

ライセンス: Link先を確認
Mishal Fatima, Muhammad Umar Karim Khan, and Chong Min Kyung(参考訳) 自律・非自律車両における事故予知は事故回避に役立つ。 ビデオシーケンスにおける交通事故などの異常事象を認識するためには,所定のフレーム内の物体の相互作用を考慮したネットワークが重要である。 本稿では,フレーム内のすべてのオブジェクトの特徴の重み付け和を計算し,各オブジェクトの特徴を洗練する新しい特徴集約(fa)ブロックを提案する。 FAブロックとLong Short Term Memory (LSTM) ネットワークを併用して,ビデオシーケンスにおける事故の予測を行う。 street accident (sa) データセットにおける平均精度 (map) と平均時間対アクシデント (atta) について報告する。 提案手法は, 適応損失法と動的パラメータ予測法と比較して, 事故の0.32秒, 事故の0.75秒を予測し, リスク予測の最高スコアを得る。

Anticipation of accidents ahead of time in autonomous and non-autonomous vehicles aids in accident avoidance. In order to recognize abnormal events such as traffic accidents in a video sequence, it is important that the network takes into account interactions of objects in a given frame. We propose a novel Feature Aggregation (FA) block that refines each object's features by computing a weighted sum of the features of all objects in a frame. We use FA block along with Long Short Term Memory (LSTM) network to anticipate accidents in the video sequences. We report mean Average Precision (mAP) and Average Time-to-Accident (ATTA) on Street Accident (SA) dataset. Our proposed method achieves the highest score for risk anticipation by predicting accidents 0.32 sec and 0.75 sec earlier compared to the best results with Adaptive Loss and dynamic parameter prediction based methods respectively.
翻訳日:2022-11-20 18:42:08 公開日:2020-06-16
# アクティブビジュアル学習のための意味的好奇心

Semantic Curiosity for Active Visual Learning ( http://arxiv.org/abs/2006.09367v1 )

ライセンス: Link先を確認
Devendra Singh Chaplot, Helen Jiang, Saurabh Gupta, Abhinav Gupta(参考訳) 本稿では,物体検出のための具体化対話型学習の課題について検討する。 環境(およびラベルの予算)が与えられた場合、エージェントがラベルを取得するデータを選択することで、オブジェクト検出器を学習することが目的です。 調査政策はどの軌道にラベルを付けるべきか決めるべきか? 1つの可能性として、トレーニング対象検出器の障害ケースを外部報酬として使用する。 しかし、これはRLポリシーのトレーニングに必要な数百万のフレームをラベル付けする必要がある。 代わりに、意味的好奇心の概念を導入することによって、探索政策を訓練するための自己指導的なアプローチを探求する。 私たちのセマンティック好奇心ポリシーは、単純な観察に基づいています -- 検出出力は一貫性があるべきです。 したがって,我々の意味的好奇心は,無矛盾なラベル付け行動を伴う軌道に報いるとともに,探索政策を奨励する。 セマンティクス・キュリオシティによって訓練された探索ポリシーは、新しいシーンに一般化し、ランダムな探索、予測エラー・キュリオシティ、カバレッジを最大化する探索といった他の選択肢で訓練されたベースラインを上回るオブジェクト検出器の訓練を支援する。

In this paper, we study the task of embodied interactive learning for object detection. Given a set of environments (and some labeling budget), our goal is to learn an object detector by having an agent select what data to obtain labels for. How should an exploration policy decide which trajectory should be labeled? One possibility is to use a trained object detector's failure cases as an external reward. However, this will require labeling millions of frames required for training RL policies, which is infeasible. Instead, we explore a self-supervised approach for training our exploration policy by introducing a notion of semantic curiosity. Our semantic curiosity policy is based on a simple observation -- the detection outputs should be consistent. Therefore, our semantic curiosity rewards trajectories with inconsistent labeling behavior and encourages the exploration policy to explore such areas. The exploration policy trained via semantic curiosity generalizes to novel scenes and helps train an object detector that outperforms baselines trained with other possible alternatives such as random exploration, prediction-error curiosity, and coverage-maximizing exploration.
翻訳日:2022-11-20 18:41:56 公開日:2020-06-16
# 疎結合性, 対向ロバスト性, および人工ニューロンの新しいモデルについて

On sparse connectivity, adversarial robustness, and a novel model of the artificial neuron ( http://arxiv.org/abs/2006.09510v1 )

ライセンス: Link先を確認
Sergey Bochkanov(参考訳) ディープニューラルネットワークは、ほぼすべての知覚的ベンチマークで人間のレベル精度を達成した。 これらの進歩は、何十年にもわたって古い2つのアイデアを用いてなされたことが興味深い。 a) 線形和算器に基づく人工ニューロンと (b)SGDトレーニング。 しかし、計算効率と対向摂動に対する安定性という、精度を超える重要な指標がある。 本稿では,輪郭認識タスクにおけるこれらの指標を改善するための2つの密結合手法を提案する。 (a) ハードウェア要件の低さと対向性摂動に対する固有の堅牢性を有する「強ニューロン」という,人工ニューロンの新しいモデル (b)ニューロン毎に$o(1)$接続を持つスパースネットワークを生成する新規な構成的トレーニングアルゴリズム。 SVHN および GTSRB ベンチマークを用いて,本手法の有効性を実証する。 演算回数の10x-100x削減(他のスペーシフィケーション手法の10倍、高密度ネットワークの100倍)とハードウェア要件の大幅な削減(8ビット固定点数を用いた)を実現し、モデルの精度を低下させることなく達成した。 逆行性摂動に対する上向きの安定性(逆行性トレーニングによるものを除く)は、強いニューロンのみの堅牢性に頼らずに、逆行性対策なしで達成された。 また,我々の強力なニューロンを構成するブロックが,敵の攻撃に対して完全な安定性を持つ唯一の活性化機能であることも証明した。

Deep neural networks have achieved human-level accuracy on almost all perceptual benchmarks. It is interesting that these advances were made using two ideas that are decades old: (a) an artificial neuron based on a linear summator and (b) SGD training. However, there are important metrics beyond accuracy: computational efficiency and stability against adversarial perturbations. In this paper, we propose two closely connected methods to improve these metrics on contour recognition tasks: (a) a novel model of an artificial neuron, a "strong neuron," with low hardware requirements and inherent robustness against adversarial perturbations and (b) a novel constructive training algorithm that generates sparse networks with $O(1)$ connections per neuron. We demonstrate the feasibility of our approach through experiments on SVHN and GTSRB benchmarks. We achieved an impressive 10x-100x reduction in operations count (10x when compared with other sparsification approaches, 100x when compared with dense networks) and a substantial reduction in hardware requirements (8-bit fixed-point math was used) with no reduction in model accuracy. Superior stability against adversarial perturbations (exceeding that of adversarial training) was achieved without any counteradversarial measures, relying on the robustness of strong neurons alone. We also proved that constituent blocks of our strong neuron are the only activation functions with perfect stability against adversarial attacks.
翻訳日:2022-11-20 18:36:24 公開日:2020-06-16
# どれぐらい信用できますか。 --説明ニューラルネットワークの不確かさの定量化

How Much Can I Trust You? -- Quantifying Uncertainties in Explaining Neural Networks ( http://arxiv.org/abs/2006.09000v1 )

ライセンス: Link先を確認
Kirill Bykov, Marina M.-C. H\"ohne, Klaus-Robert M\"uller, Shinichi Nakajima, Marius Kloft(参考訳) 説明可能なAI(XAI)は、深層ニューラルネットワークなどの学習機械による予測の解釈を提供することを目標とし、マシンをより透明にし、さらに安全クリティカルな分野のアプリケーションにも信頼性を持たせる。 しかし、これまでのところ説明の不確かさを定量化する方法は考えられておらず、説明への信頼度が高い領域では問題となっている。 そこで本研究では,ニューラルネットの任意の説明方法をベイズ型ニューラルネットの説明法に変換するための新しいフレームワークを提案する。 ベイズフレームワーク内では、ネットワークの重みは標準的な単一説明スコアとヒートマップをその分布に拡張する分布に従い、本質的なネットワークモデルの不確かさを説明の不確かさの定量化に変換する。 これにより、モデル説明に関連する不確実性を初めて彫り出し、その後、(パーセンタイルを使用して)ユーザに対する適切な説明信頼度を評価できます。 本手法の有効性と有用性は,質的および定量的に様々な実験で実証した。

Explainable AI (XAI) aims to provide interpretations for predictions made by learning machines, such as deep neural networks, in order to make the machines more transparent for the user and furthermore trustworthy also for applications in e.g. safety-critical areas. So far, however, no methods for quantifying uncertainties of explanations have been conceived, which is problematic in domains where a high confidence in explanations is a prerequisite. We therefore contribute by proposing a new framework that allows to convert any arbitrary explanation method for neural networks into an explanation method for Bayesian neural networks, with an in-built modeling of uncertainties. Within the Bayesian framework a network's weights follow a distribution that extends standard single explanation scores and heatmaps to distributions thereof, in this manner translating the intrinsic network model uncertainties into a quantification of explanation uncertainties. This allows us for the first time to carve out uncertainties associated with a model explanation and subsequently gauge the appropriate level of explanation confidence for a user (using percentiles). We demonstrate the effectiveness and usefulness of our approach extensively in various experiments, both qualitatively and quantitatively.
翻訳日:2022-11-20 18:35:20 公開日:2020-06-16
# SPLASH: 精度と対向ロバスト性を改善するための学習可能なアクティベーション機能

SPLASH: Learnable Activation Functions for Improving Accuracy and Adversarial Robustness ( http://arxiv.org/abs/2006.08947v1 )

ライセンス: Link先を確認
Mohammadamin Tavakoli, Forest Agostinelli, Pierre Baldi(参考訳) SPLASHユニットは、深層ニューラルネットワークの精度を同時に向上すると同時に、敵攻撃に対する堅牢性を向上する学習可能なアクティベーション機能である。 SPLASHユニットは単純なパラメータ化を持ち、幅広い非線形関数を近似する能力を維持する。 SPLASHユニット: 1)連続 2) 接地 (f(0) = 0) である。 3) 対称ヒンジを使用し, そして 4)ヒンジの位置は、データから直接導出される(すなわち、学習を必要としない)。 ReLUとその変種を含む9つの学習および固定活性化関数と比較して、SPLASHユニットは3つのデータセット(MNIST、CIFAR-10、CIFAR-100)と4つのアーキテクチャ(LeNet5、All-CNN、ResNet-20、Network-in-Network)で優れたパフォーマンスを示している。 さらに、SPLASHユニットは、敵攻撃に対するディープニューラルネットワークの堅牢性を大幅に向上させることを示した。 ブラックボックス攻撃とオープンボックス攻撃の両方に対する実験により、一般に使われているアーキテクチャ、すなわちLeNet5、All-CNN、ResNet-20、Network-in-Networkは、ReLUの代わりにSPLASHユニットを使用することで、敵攻撃に対して最大で31%堅牢であることが示された。

We introduce SPLASH units, a class of learnable activation functions shown to simultaneously improve the accuracy of deep neural networks while also improving their robustness to adversarial attacks. SPLASH units have both a simple parameterization and maintain the ability to approximate a wide range of non-linear functions. SPLASH units are: 1) continuous; 2) grounded (f(0) = 0); 3) use symmetric hinges; and 4) the locations of the hinges are derived directly from the data (i.e. no learning required). Compared to nine other learned and fixed activation functions, including ReLU and its variants, SPLASH units show superior performance across three datasets (MNIST, CIFAR-10, and CIFAR-100) and four architectures (LeNet5, All-CNN, ResNet-20, and Network-in-Network). Furthermore, we show that SPLASH units significantly increase the robustness of deep neural networks to adversarial attacks. Our experiments on both black-box and open-box adversarial attacks show that commonly-used architectures, namely LeNet5, All-CNN, ResNet-20, and Network-in-Network, can be up to 31% more robust to adversarial attacks by simply using SPLASH units instead of ReLUs.
翻訳日:2022-11-20 18:35:00 公開日:2020-06-16
# ボルツマンマシンによるジェネリックセマンティックハッシュ

Generative Semantic Hashing Enhanced via Boltzmann Machines ( http://arxiv.org/abs/2006.08858v1 )

ライセンス: Link先を確認
Lin Zheng, Qinliang Su, Dinghan Shen and Changyou Chen(参考訳) 生成的意味ハッシュは、高速検索速度と少ないメモリフットプリントのおかげで、大規模情報検索に有望な技術である。 訓練の扱いやすさのために、既存の生成ハッシング法は、ハッシュ符号のビット間の独立性を強制する後方分布の因子化された形式を主に想定している。 モデル表現とコード空間のサイズの両方の観点から考えると、独立性は必ずしも最良の仮定ではない。 本稿では,ハッシュ符号のビット間の相関を導入するため,ボルツマンマシンの分布を変分後段として用いることを提案する。 トレーニングの難易度問題に対処するため,まずガウス分布とベルヌーイ分布の階層的連結として加えたボルツマンマシンの分布を再パラメータ化する近似手法を開発した。 それに基づいて、エビデンス下限(elbo)に対して漸近的に示される下限がさらに導出される。 これらの新しい技術により、モデル全体を効率的に最適化することができる。 広範な実験結果から,ハッシュコード内の異なるビット間の相関を効果的にモデル化することで,性能が大幅に向上することを示す。

Generative semantic hashing is a promising technique for large-scale information retrieval thanks to its fast retrieval speed and small memory footprint. For the tractability of training, existing generative-hashing methods mostly assume a factorized form for the posterior distribution, enforcing independence among the bits of hash codes. From the perspectives of both model representation and code space size, independence is always not the best assumption. In this paper, to introduce correlations among the bits of hash codes, we propose to employ the distribution of Boltzmann machine as the variational posterior. To address the intractability issue of training, we first develop an approximate method to reparameterize the distribution of a Boltzmann machine by augmenting it as a hierarchical concatenation of a Gaussian-like distribution and a Bernoulli distribution. Based on that, an asymptotically-exact lower bound is further derived for the evidence lower bound (ELBO). With these novel techniques, the entire model can be optimized efficiently. Extensive experimental results demonstrate that by effectively modeling correlations among different bits within a hash code, our model can achieve significant performance gains.
翻訳日:2022-11-20 18:34:10 公開日:2020-06-16
# よりサンプル効率のよい時間差学習のためのメタラーニング適性トレース

META-Learning Eligibility Traces for More Sample Efficient Temporal Difference Learning ( http://arxiv.org/abs/2006.08906v1 )

ライセンス: Link先を確認
Mingde Zhao(参考訳) 時間差学習(td learning)は、与えられたポリシーの価値を学ぶアルゴリズムと、ポリシーを改善する方法を学ぶアルゴリズムの両方のコアとなる、標準的で非常に成功した強化学習アプローチである。 適格トレースを持つTD学習は、時間的クレジット割り当てを行う手段を提供する。すなわち、パラメータ$\lambda$によって制御された前回の状態に報酬のどの部分が割り当てられるべきかを決定する。 しかし、このパラメータのチューニングは時間がかかり、チューニングしないと非効率な学習につながる可能性がある。 そこで本研究では,td-learningのサンプル効率を向上させるために,適性トレースパラメータを状態に依存して調整するメタラーニング手法を提案する。 この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。 私たちのアプローチは、オン政治とオフ政治の学習の両方で使用できます。 提案手法は,いくつかの仮定の下で,目標誤差の最小化により,更新対象の全体的な品質を改善する。 この方法は、メタラーニング機能(オブザーブレーション)ベースの$\lambda$オンラインによる関数近似による予測を支援するプラグインや、ポリシー改善を支援するコントロールケースでも使用することができる。 我々の経験的評価は,学習速度変化に対するアルゴリズムの頑健性の向上とともに,大幅な性能向上を示す。

Temporal-Difference (TD) learning is a standard and very successful reinforcement learning approach, at the core of both algorithms that learn the value of a given policy, as well as algorithms which learn how to improve policies. TD-learning with eligibility traces provides a way to do temporal credit assignment, i.e. decide which portion of a reward should be assigned to predecessor states that occurred at different previous times, controlled by a parameter $\lambda$. However, tuning this parameter can be time-consuming, and not tuning it can lead to inefficient learning. To improve the sample efficiency of TD-learning, we propose a meta-learning method for adjusting the eligibility trace parameter, in a state-dependent manner. The adaptation is achieved with the help of auxiliary learners that learn distributional information about the update targets online, incurring roughly the same computational complexity per step as the usual value learner. Our approach can be used both in on-policy and off-policy learning. We prove that, under some assumptions, the proposed method improves the overall quality of the update targets, by minimizing the overall target error. This method can be viewed as a plugin which can also be used to assist prediction with function approximation by meta-learning feature (observation)-based $\lambda$ online, or even in the control case to assist policy improvement. Our empirical evaluation demonstrates significant performance improvements, as well as improved robustness of the proposed algorithm to learning rate variation.
翻訳日:2022-11-20 18:33:10 公開日:2020-06-16