このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210618となっている論文です。

PDF登録状況(公開日: 20210618)

TitleAuthorsAbstract論文公表日・翻訳日
# VQMIVC:ワンショット音声変換のためのベクトル量子化と相互情報に基づく教師なし音声表現のアンタングル化

VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion ( http://arxiv.org/abs/2106.10132v1 )

ライセンス: Link先を確認
Disong Wang, Liqun Deng, Yu Ting Yeung, Xiao Chen, Xunying Liu, Helen Meng(参考訳) 単一の話者発話のみを基準として任意の話者間で変換を行うワンショット音声変換(VC)は、音声表現の歪みによって効果的に実現できる。 既存の作業は、訓練中に異なる音声表現間の相関を無視し、コンテンツ情報の話者表現への漏洩を引き起こし、VCのパフォーマンスを低下させる。 そこで本研究では,コンテンツエンコーディングのためのベクトル量子化(vq)と,相互情報(mi)を訓練中の相関指標として導入し,教師なしの方法でコンテンツ,話者,ピッチ表現の適切な不等角化を実現する。 実験結果は,対象話者特性を捉えつつ,音源言語内容とイントネーション変動を保持できる効果的な不等角化音声表現の学習において,提案手法が優れていることを反映する。 そこで,提案手法は,現状のワンショットvcシステムよりも高い音声自然性と話者類似性を実現する。 私たちのコード、事前トレーニングされたモデル、デモはhttps://github.com/w endison/vqmivc.com/で利用可能です。

One-shot voice conversion (VC), which performs conversion across arbitrary speakers with only a single target-speaker utterance for reference, can be effectively achieved by speech representation disentanglement. Existing work generally ignores the correlation between different speech representations during training, which causes leakage of content information into the speaker representation and thus degrades VC performance. To alleviate this issue, we employ vector quantization (VQ) for content encoding and introduce mutual information (MI) as the correlation metric during training, to achieve proper disentanglement of content, speaker and pitch representations, by reducing their inter-dependencies in an unsupervised manner. Experimental results reflect the superiority of the proposed method in learning effective disentangled speech representations for retaining source linguistic content and intonation variations, while capturing target speaker characteristics. In doing so, the proposed approach achieves higher speech naturalness and speaker similarity than current state-of-the-art one-shot VC systems. Our code, pre-trained models and demo are available at https://github.com/W endison/VQMIVC.
翻訳日:2021-07-25 11:53:07 公開日:2021-06-18
# (参考訳) 平面スウィープによる多視点ステレオの深層学習 [全文訳有]

Deep Learning for Multi-View Stereo via Plane Sweep: A Survey ( http://arxiv.org/abs/2106.15328v1 )

ライセンス: CC BY 4.0
Qingtian Zhu(参考訳) 自動運転、ロボティクス、バーチャルリアリティーなど、多くの分野に応用されているため、近年3D再構築が注目を集めている。 人工知能の主要な技術として、様々なコンピュータビジョン問題を解決するためにディープラーニングがうまく採用されている。 しかし、3dリコンストラクションのためのディープラーニングは、ユニークな課題とさまざまなパイプラインのため、まだ初期段階にある。 本稿では,画像に基づく3次元再構成において重要な課題である多視点ステレオ(MVS)の深層学習手法の最近の進歩を概観する。 また、いくつかの公開データセットで比較結果を提示し、洞察に富んだ観察と将来の研究方向を示唆している。

3D reconstruction has lately attracted increasing attention due to its wide application in many areas, such as autonomous driving, robotics and virtual reality. As a dominant technique in artificial intelligence, deep learning has been successfully adopted to solve various computer vision problems. However, deep learning for 3D reconstruction is still at its infancy due to its unique challenges and varying pipelines. To stimulate future research, this paper presents a review of recent progress in deep learning methods for Multi-view Stereo (MVS), which is considered as a crucial task of image-based 3D reconstruction. It also presents comparative results on several publicly available datasets, with insightful observations and inspiring future research directions.
翻訳日:2021-07-04 23:23:16 公開日:2021-06-18
# (参考訳) 不確定場に対するインターバルとファジィ物理インフォームドニューラルネットワーク [全文訳有]

Interval and fuzzy physics-informed neural networks for uncertain fields ( http://arxiv.org/abs/2106.13727v1 )

ライセンス: CC BY-SA 4.0
Jan Niklas Fuhg, Am\'elie Fau, Nikolaos Bouklas(参考訳) 時間的および空間的に不確定なパラメータは、工学的応用において定期的に発生する。 一般に、これらの不確かさは、容易には利用できない確率分布関数の出現に関する知識を必要とする確率場とプロセスを用いて説明される。 このような場合、区間解析やファジィ集合論のような非確率的アプローチは有用な不確実性測度である。 ファジィ場と間隔場を含む偏微分方程式は、入力場を基底関数展開法を用いてサンプリングする有限要素法を用いて伝統的に解かれる。 しかし、このアプローチは空間相関場に関する知識に依存するため、問題となっている。 本研究では、物理インフォームドニューラルネットワーク(PINN)を用いて、間隔とファジィ偏微分方程式を解く。 その結果, 空間的に不確実なパラメータ場を含む方程式の有界解を得るために, 間隔物理学情報ニューラルネットワーク (iPINN) とファジィ物理情報ニューラルネットワーク (fPINN) と呼ばれるネットワーク構造が得られた。 有限要素法とは対照的に、入力フィールドの相関長の指定やモンテカルロシミュレーションによる平均化は不要である。 実際、入力間隔場に関する情報は、提示された解スキームの副産物として直接得られる。 さらに、PINNの主な利点は、すべて維持されている。 スキームのメッシュフリーな性質と逆問題設定の容易さ。

Temporally and spatially dependent uncertain parameters are regularly encountered in engineering applications. Commonly these uncertainties are accounted for using random fields and processes which require knowledge about the appearing probability distributions functions which is not readily available. In these cases non-probabilistic approaches such as interval analysis and fuzzy set theory are helpful uncertainty measures. Partial differential equations involving fuzzy and interval fields are traditionally solved using the finite element method where the input fields are sampled using some basis function expansion methods. This approach however is problematic, as it is reliant on knowledge about the spatial correlation fields. In this work we utilize physics-informed neural networks (PINNs) to solve interval and fuzzy partial differential equations. The resulting network structures termed interval physics-informed neural networks (iPINNs) and fuzzy physics-informed neural networks (fPINNs) show promising results for obtaining bounded solutions of equations involving spatially uncertain parameter fields. In contrast to finite element approaches, no correlation length specification of the input fields as well as no averaging via Monte-Carlo simulations are necessary. In fact, information about the input interval fields is obtained directly as a byproduct of the presented solution scheme. Furthermore, all major advantages of PINNs are retained, i.e. meshfree nature of the scheme, and ease of inverse problem set-up.
翻訳日:2021-07-04 23:11:58 公開日:2021-06-18
# アバタープロトタイプ生成と適応によるソースフリードメイン適応

Source-free Domain Adaptation via Avatar Prototype Generation and Adaptation ( http://arxiv.org/abs/2106.15326v1 )

ライセンス: Link先を確認
Zhen Qiu, Yifan Zhang, Hongbin Lin, Shuaicheng Niu, Yanxia Liu, Qing Du, Mingkui Tan(参考訳) データプライバシの問題によりソースドメインデータにアクセスできないが、事前トレーニング済みのソースモデルとラベルなしのターゲットデータのみを利用可能とする、source-free unsupervised domain adaptation(uda)問題と呼ばれる実用的なドメイン適応タスクについて検討する。 ソースデータとターゲットドメインラベルの欠如は、モデル適応を非常に困難にします。 そこで我々は、ソースモデルに隠された知識をマイニングし、それを利用して、ソースアバターのプロトタイプ(すなわち、ソースクラスの代表的特徴)とドメインアライメントのための擬似ラベルを生成することを提案する。 そこで本研究では,CPGA(Contrastive Prototype Generation and Adaptation)法を提案する。 具体的には,(1)プロトタイプ生成:ソースモデルの分類境界情報を探索することにより,コントラスト学習によりプロトタイプ生成器を訓練し,アバタープロトタイプを生成する。 2) プロトタイプ適応: 生成したソースプロトタイプと擬似ラベルに基づいて, それぞれの擬似ラベル付きターゲットデータを対応するソースプロトタイプに整合させる, 頑健なコントラスト型プロトタイプ適応戦略を開発する。 3つのUDAベンチマークデータセットに対する大規模な実験により,提案手法の有効性と優位性を示した。

We study a practical domain adaptation task, called source-free unsupervised domain adaptation (UDA) problem, in which we cannot access source domain data due to data privacy issues but only a pre-trained source model and unlabeled target data are available. This task, however, is very difficult due to one key challenge: the lack of source data and target domain labels makes model adaptation very challenging. To address this, we propose to mine the hidden knowledge in the source model and exploit it to generate source avatar prototypes (i.e., representative features for each source class) as well as target pseudo labels for domain alignment. To this end, we propose a Contrastive Prototype Generation and Adaptation (CPGA) method. Specifically, CPGA consists of two stages: (1) prototype generation: by exploring the classification boundary information of the source model, we train a prototype generator to generate avatar prototypes via contrastive learning. (2) prototype adaptation: based on the generated source prototypes and target pseudo labels, we develop a new robust contrastive prototype adaptation strategy to align each pseudo-labeled target data to the corresponding source prototypes. Extensive experiments on three UDA benchmark datasets demonstrate the effectiveness and superiority of the proposed method.
翻訳日:2021-07-04 19:42:08 公開日:2021-06-18
# 期待伝搬を用いたパッチベース画像復元

Patch-Based Image Restoration using Expectation Propagation ( http://arxiv.org/abs/2106.15327v1 )

ライセンス: Link先を確認
Dan Yao and Stephen McLaughlin and Yoann Altmann(参考訳) 本稿では,パッチベースの事前分布を用いた画像復元のためのEPフレームワークを提案する。 モンテカルロ法は古典的には難解な後方分布のサンプルとして用いられるが、画像復元のような高次元の推論問題ではスケーラビリティの問題に苦しむことがある。 この問題に対処するために、EP は多変量ガウス密度の積を用いて後続分布を近似するために用いられる。 さらに、これらの密度の共分散行列に構造的制約を課すことで、スケーラビリティと分散計算が可能となる。 この手法は自然に加法的なガウス観測ノイズを扱うのに適しているが、非ガウス観測ノイズにも拡張することができる。 ガウス雑音とポアソン雑音のデノワ化・インパイント・デコンボリューション問題に対する実験は、画像問題における不確かさの定量化のためのフレキシブル近似ベイズ法(英語版)の潜在的な利点をサンプリング法よりも少ない計算コストで示している。

This paper presents a new Expectation Propagation (EP) framework for image restoration using patch-based prior distributions. While Monte Carlo techniques are classically used to sample from intractable posterior distributions, they can suffer from scalability issues in high-dimensional inference problems such as image restoration. To address this issue, EP is used here to approximate the posterior distributions using products of multivariate Gaussian densities. Moreover, imposing structural constraints on the covariance matrices of these densities allows for greater scalability and distributed computation. While the method is naturally suited to handle additive Gaussian observation noise, it can also be extended to non-Gaussian noise. Experiments conducted for denoising, inpainting and deconvolution problems with Gaussian and Poisson noise illustrate the potential benefits of such flexible approximate Bayesian method for uncertainty quantification in imaging problems, at a reduced computational cost compared to sampling techniques.
翻訳日:2021-07-04 19:40:38 公開日:2021-06-18
# LPaaSによるスマート環境のための宣言型目標指向フレームワーク

A Declarative Goal-oriented Framework for Smart Environments with LPaaS ( http://arxiv.org/abs/2106.13083v1 )

ライセンス: Link先を確認
Giuseppe Bisicchia, Stefano Forti, Antonio Brogi(参考訳) Internet of Things(モノのインターネット)を利用したスマート環境は、環境パラメータを自動的に調整することで、私たちの日常生活を改善することを目的としている。 温度、内部光)と自己管理型サイバーフィジカルシステムによる省エネルギーの実現。 しかし、商用ソリューションでは、これらのパラメータに単純なターゲット目標を設定するだけで、異なるユーザや/またはシステム管理者間の競合目標の仲介を考慮せず、異なるiot分野間の互換性を制限できる。 本稿では,スマート環境,ユーザセット目標,カスタマイズ可能なメディエーションポリシを表現するための宣言型フレームワークを提案する。 オープンソースのPrologのプロトタイプが2つのライフスタイルのモチベーションの例で紹介されている。

Smart environments powered by the Internet of Things aim at improving our daily lives by automatically tuning ambient parameters (e.g. temperature, interior light) and by achieving energy savings through self-managing cyber-physical systems. Commercial solutions, however, only permit setting simple target goals on those parameters and do not consider mediating conflicting goals among different users and/or system administrators, and feature limited compatibility across different IoT verticals. In this article, we propose a declarative framework to represent smart environments, user-set goals and customisable mediation policies to reconcile contrasting goals encompassing multiple IoT systems. An open-source Prolog prototype of the framework is showcased over two lifelike motivating examples.
翻訳日:2021-06-27 09:06:49 公開日:2021-06-18
# (参考訳) 世帯所得・消費・支出データセットの分類モデルの性能評価 [全文訳有]

Performance Evaluation of Classification Models for Household Income, Consumption and Expenditure Data Set ( http://arxiv.org/abs/2106.11055v1 )

ライセンス: CC BY 4.0
Mersha Nigus and Dorsewamy(参考訳) 食料安全保障は、地域レベルでも世界レベルでも最近の食糧不足や、慢性的な飢餓と戦うための主要寄付国からの新たな約束のおかげで、これまでよりも政策上の課題で目立ったものとなっている。 機械学習が使用できる分野の1つは、家庭用食品の不安の分類である。 本研究では,家庭が食事の安全であるか否かを機械学習アルゴリズムによって分類するロバストな手法を提案する。 本研究では,家庭の食品安全状態を分類するために,10種類の機械学習アルゴリズムを用いた。 グラディエントブースティング(GB)、ランダムフォレスト(RF)、エクストラツリー(ET)、バッグング(Bgging)、K-Nearest Neighbor(KNN)、決定木(DT)、サポートベクトルマシン(SVM)、ロジスティック回帰(LR)、アダブースト(AB)、ネイブベイズ(Naive Bayes)は、この研究で使われた分類アルゴリズムである。 そして,HICE調査データからデータを収集し,ドメインエキスパートが検証することで,家庭用食品の安全状態のためのデータセットの開発から分類タスクを行う。 すべての分類器のパフォーマンスは、すべてのパフォーマンス指標により良い結果をもたらす。 ランダムフォレストとグラディエントブースティングモデルの性能は、試験精度0.9997と、バッギング、決定木、アダブースト、エクストラツリー、K-アネレスト、ロジスティック回帰、SVM、ネイブベイズなどの他の分類器をそれぞれ0.9996、0.09996、0.09994、0.95675、0.95615、0.8915、0.7853、0.7595とする。

Food security is more prominent on the policy agenda today than it has been in the past, thanks to recent food shortages at both the regional and global levels as well as renewed promises from major donor countries to combat chronic hunger. One field where machine learning can be used is in the classification of household food insecurity. In this study, we establish a robust methodology to categorize whether or not a household is being food secure and food insecure by machine learning algorithms. In this study, we have used ten machine learning algorithms to classify the food security status of the Household. Gradient Boosting (GB), Random Forest (RF), Extra Tree (ET), Bagging, K-Nearest Neighbor (KNN), Decision Tree (DT), Support Vector Machine (SVM), Logistic Regression (LR), Ada Boost (AB) and Naive Bayes were the classification algorithms used throughout this study (NB). Then, we perform classification tasks from developing data set for household food security status by gathering data from HICE survey data and validating it by Domain Experts. The performance of all classifiers has better results for all performance metrics. The performance of the Random Forest and Gradient Boosting models are outstanding with a testing accuracy of 0.9997 and the other classifier such as Bagging, Decision tree, Ada Boost, Extra tree, K-nearest neighbor, Logistic Regression, SVM and Naive Bayes are scored 0.9996, 0.09996, 0.9994, 0.95675, 0.9415, 0.8915, 0.7853 and 0.7595, respectively.
翻訳日:2021-06-25 09:39:57 公開日:2021-06-18
# (参考訳) QuaPy: 定量化のためのPythonベースのフレームワーク [全文訳有]

QuaPy: A Python-Based Framework for Quantification ( http://arxiv.org/abs/2106.11057v1 )

ライセンス: CC BY 4.0
Alejandro Moreo, Andrea Esuli, Fabrizio Sebastiani(参考訳) QuaPyは量子化を行うためのオープンソースのフレームワークである。 structed prevalence Estimation)はPythonで記述されている。 量子化は教師付き学習を通じて量子化器を訓練するタスクであり、量子化器は相対周波数を推定する予測器である。 流行度値) ラベルのないデータのサンプルに対する関心のクラス。 各クラスに割り当てられたデータ項目の数をカウントして、標準分類器を適用することで、定量化を自明に行うことができるが、この「分類とカウント」法は、量子化のために特別に設計された手法により性能が向上することが示されている。 QuaPyは、多くのベースライン手法と高度な定量化手法、定量化指向モデル選択のためのルーチン、広く受け入れられた評価尺度、そしてこの分野で日常的に使用される堅牢な評価プロトコルの実装を提供する。 QuaPyはまた、量子化器のテストに一般的に使用されるデータセットを提供し、結果の分析と解釈を容易にする可視化ツールを提供する。 このソフトウェアはオープンソースで、https://github.com/H LT-ISTI/QuaPyを介してBSD-3ライセンス下で公開されている。

QuaPy is an open-source framework for performing quantification (a.k.a. supervised prevalence estimation), written in Python. Quantification is the task of training quantifiers via supervised learning, where a quantifier is a predictor that estimates the relative frequencies (a.k.a. prevalence values) of the classes of interest in a sample of unlabelled data. While quantification can be trivially performed by applying a standard classifier to each unlabelled data item and counting how many data items have been assigned to each class, it has been shown that this "classify and count" method is outperformed by methods specifically designed for quantification. QuaPy provides implementations of a number of baseline methods and advanced quantification methods, of routines for quantification-orien ted model selection, of several broadly accepted evaluation measures, and of robust evaluation protocols routinely used in the field. QuaPy also makes available datasets commonly used for testing quantifiers, and offers visualization tools for facilitating the analysis and interpretation of the results. The software is open-source and publicly available under a BSD-3 licence via https://github.com/H LT-ISTI/QuaPy, and can be installed via pip (https://pypi.org/pr oject/QuaPy/)
翻訳日:2021-06-25 09:30:28 公開日:2021-06-18
# (参考訳) 言語を活用したプログラムの抽象化と検索ヒューリスティック [全文訳有]

Leveraging Language to Learn Program Abstractions and Search Heuristics ( http://arxiv.org/abs/2106.11053v1 )

ライセンス: CC BY 4.0
Catherine Wong and Kevin Ellis and Joshua B. Tenenbaum and Jacob Andreas(参考訳) 帰納的プログラム合成は、望ましい振る舞いの例からプログラムを推論し、解釈可能で堅牢で一般化可能な機械学習システムを構築するための一般的なパラダイムを提供する。 効果的なプログラム合成は、プログラムを構築するための強力な機能のライブラリと、与えられたタスクを解決するプログラムを見つけるための効率的な探索戦略である。 LAPS(Language for Abstraction and Program Search)は、自然言語アノテーションを用いて、ライブラリとニューラルネットワークによる合成のための検索モデルの共同学習をガイドする手法である。 最先端のライブラリ学習システム(dreamcoder)に統合されると、lapsは高品質なライブラリを生成し、3つのドメイン(文字列編集、画像合成、シーンに関する抽象的推論)における検索効率と一般化を向上します。

Inductive program synthesis, or inferring programs from examples of desired behavior, offers a general paradigm for building interpretable, robust, and generalizable machine learning systems. Effective program synthesis depends on two key ingredients: a strong library of functions from which to build programs, and an efficient search strategy for finding programs that solve a given task. We introduce LAPS (Language for Abstraction and Program Search), a technique for using natural language annotations to guide joint learning of libraries and neurally-guided search models for synthesis. When integrated into a state-of-the-art library learning system (DreamCoder), LAPS produces higher-quality libraries and improves search efficiency and generalization on three domains -- string editing, image composition, and abstract reasoning about scenes -- even when no natural language hints are available at test time.
翻訳日:2021-06-25 09:11:02 公開日:2021-06-18
# (参考訳) 画像ベースおよび自己報告皮膚表現型指標の信頼性と妥当性 [全文訳有]

Reliability and Validity of Image-Based and Self-Reported Skin Phenotype Metrics ( http://arxiv.org/abs/2106.11240v1 )

ライセンス: CC BY-SA 4.0
John J. Howard, Yevgeniy B. Sirotin, Jerry L. Tipton, and Arun R. Vemury(参考訳) 顔認識システムの採用が進むにつれ、人口集団間でこれらの技術の適切な性能を確保することが重要である。 近年、スキントーンのような表現型は、性能差を探究する際、伝統的な人種カテゴリーの優れた代替品として提案されている。 しかし、バイオメトリックスの性能評価やaiのより広範な評価において、スキントーンを適切に測定する方法についてのコンセンサスはほとんどない。 本研究では,画像から推定される顔領域光度測定(falms)と,人肌計測装置を用いて収集した地肌読解との関係について検討する。 同一個体の異なる画像から推定したFALMは,地上のFALMと比較して有意に異なる。 この変動は、取得の制御(カメラ、背景、環境)を大きくすることでのみ減少する。 次に,fstとフィッツパトリック・スキンタイプ (fst) を標準的,対人的,医療的調査で比較し,fstがスキントーンの予測に乏しいことを示した。 最後に、FALMの雑音推定が、人口統計学における説明因子の選択誤差につながることを示す。 これらの結果から, 生体計測性能評価のためのスキントーンの測定は, 客観的, 特徴的, 制御的ソースから行う必要がある。 さらに,FSTカテゴリとFALMを非制御画像から推定することは,現在実施されているアプローチであるにもかかわらず,肌色を適切に評価することができない。

With increasing adoption of face recognition systems, it is important to ensure adequate performance of these technologies across demographic groups. Recently, phenotypes such as skin-tone, have been proposed as superior alternatives to traditional race categories when exploring performance differentials. However, there is little consensus regarding how to appropriately measure skin-tone in evaluations of biometric performance or in AI more broadly. In this study, we explore the relationship between face-area-lightness- measures (FALMs) estimated from images and ground-truth skin readings collected using a device designed to measure human skin. FALMs estimated from different images of the same individual varied significantly relative to ground-truth FALM. This variation was only reduced by greater control of acquisition (camera, background, and environment). Next, we compare ground-truth FALM to Fitzpatrick Skin Types (FST) categories obtained using the standard, in-person, medical survey and show FST is poorly predictive of skin-tone. Finally, we show how noisy estimation of FALM leads to errors selecting explanatory factors for demographic differentials. These results demonstrate that measures of skin-tone for biometric performance evaluations must come from objective, characterized, and controlled sources. Further, despite this being a currently practiced approach, estimating FST categories and FALMs from uncontrolled imagery does not provide an appropriate measure of skin-tone.
翻訳日:2021-06-25 08:52:41 公開日:2021-06-18
# (参考訳) 多元弱監督モデルにおける依存構造誤特定 [全文訳有]

Dependency Structure Misspecification in Multi-Source Weak Supervision Models ( http://arxiv.org/abs/2106.10302v1 )

ライセンス: CC BY 4.0
Salva R\"uhling Cachay, Benedikt Boecking, Artur Dubrawski(参考訳) データプログラミング(DP)は、高価な手書きデータに代わる魅力的な選択肢であることが証明されている。 dp では、ユーザはドメイン知識を \emph{labeling functions} (lf) にエンコードし、データのサブセットを能動的にラベル付けし、複雑な依存関係を持つヒューリスティックスを作成する。 その後、ラベルモデルはLFに適合し、未知のクラスラベルの見積もりを生成する。 下流分類器のテストセット性能に対するラベルモデルの不特定の影響について検討する。 これは、特に dp のフィールドアプリケーションでは lf 間の依存性構造が頻繁に無視されるため、実践者に深刻な認識のギャップをもたらす。 構造過特化によるモデリングエラーを解析する。 我々は、モデリングエラーに関する新しい理論的境界を導出し、この誤差が、一見意味のある構造をモデル化しても、実質的であることを実証的に示す。

Data programming (DP) has proven to be an attractive alternative to costly hand-labeling of data. In DP, users encode domain knowledge into \emph{labeling functions} (LF), heuristics that label a subset of the data noisily and may have complex dependencies. A label model is then fit to the LFs to produce an estimate of the unknown class label. The effects of label model misspecification on test set performance of a downstream classifier are understudied. This presents a serious awareness gap to practitioners, in particular since the dependency structure among LFs is frequently ignored in field applications of DP. We analyse modeling errors due to structure over-specification. We derive novel theoretical bounds on the modeling error and empirically show that this error can be substantial, even when modeling a seemingly sensible structure.
翻訳日:2021-06-25 08:31:02 公開日:2021-06-18
# (参考訳) ライブビデオストリーミングイベントにおけるユーザエンゲージメントと採用のためのマルチタスク学習 [全文訳有]

Multi-Task Learning for User Engagement and Adoption in Live Video Streaming Events ( http://arxiv.org/abs/2106.10305v1 )

ライセンス: CC BY 4.0
Stefanos Antaris and Dimitrios Rafailidis and Romina Arriaza(参考訳) 近年,大規模国際企業における視聴者のコミュニケーションにおいて,ライブビデオストリーミングイベントが主流となっている。 視聴者が世界中に分散しているという主な課題は、視聴者のエンゲージメントと採用の両方を改善するために、最適なイベントの時間をスケジュールする方法にある。 本稿では,ライブビデオストリーミングイベントの時刻を選択するためのマルチタスク深層強化学習モデルを提案する。 我々は、視聴者の関与と採用を独立したタスクとみなし、共通の方針を学ぶために統一的な損失関数を定式化する。 さらに、各タスクがエージェントのトレーニング戦略に異なる貢献をする可能性があるという事実も考慮する。 そこで,エージェントのトレーニングに対する各タスクの貢献度を決定するために,各タスクの状態-動作遷移に対するトランスフォーマーのアーキテクチャを設計する。 2019年1月から2021年3月までの4つの大企業のライブビデオストリーミングイベントによって生成された4つの実世界のデータセットについて,提案モデルを評価した。 本実験は,いくつかの最先端戦略と比較し,提案モデルの有効性を実証する。 再現のために、評価データセットと実装はhttps://github.com/s tefanosantaris/merli n.comで公開されている。

Nowadays, live video streaming events have become a mainstay in viewer's communication in large international enterprises. Provided that viewers are distributed worldwide, the main challenge resides on how to schedule the optimal event's time so as to improve both the viewer's engagement and adoption. In this paper we present a multi-task deep reinforcement learning model to select the time of a live video streaming event, aiming to optimize the viewer's engagement and adoption at the same time. We consider the engagement and adoption of the viewers as independent tasks and formulate a unified loss function to learn a common policy. In addition, we account for the fact that each task might have different contribution to the training strategy of the agent. Therefore, to determine the contribution of each task to the agent's training, we design a Transformer's architecture for the state-action transitions of each task. We evaluate our proposed model on four real-world datasets, generated by the live video streaming events of four large enterprises spanning from January 2019 until March 2021. Our experiments demonstrate the effectiveness of the proposed model when compared with several state-of-the-art strategies. For reproduction purposes, our evaluation datasets and implementation are publicly available at https://github.com/s tefanosantaris/merli n.
翻訳日:2021-06-25 08:17:16 公開日:2021-06-18
# (参考訳) フォワードパスを変更せずに微分可能な粒子フィルタリング [全文訳有]

Differentiable Particle Filtering without Modifying the Forward Pass ( http://arxiv.org/abs/2106.10314v1 )

ライセンス: CC BY-SA 4.0
Adam \'Scibior, Vaden Masrani, Frank Wood(参考訳) 近年, 粒子フィルタは勾配勾配に最適化されたエンド・ツー・エンドの成分として用いられている。 しかし、粒子フィルタの再サンプリングステップは微分可能ではなく、勾配の偏りや最適化の妨げとなる。 この問題を改善するために、いくつかの異なる種類の再サンプリングが提案されており、これらは全て、粒子フィルタの振る舞いを重要かつ望ましくない方法で修正している。 本稿では,バックプロパゲーションに使用されるメッセージのみを変更し,パーティクルフィルタの標準フォワードパスを変更せずに残すことで,限界確率の勾配の偏りのない推定値を得る方法を示す。 本手法は実装が簡単で計算オーバーヘッドが低く,追加のハイパーパラメータは導入せず,高次導関数にも拡張できる。 我々はこれを停止段階再サンプリングと呼び、後方メッセージを明示的に変更するのではなく、停止段階演算子を使用して自動微分ライブラリで容易に実装できる。

In recent years particle filters have being used as components in systems optimized end-to-end with gradient descent. However, the resampling step in a particle filter is not differentiable, which biases gradients and interferes with optimization. To remedy this problem, several differentiable variants of resampling have been proposed, all of which modify the behavior of the particle filter in significant and potentially undesirable ways. In this paper, we show how to obtain unbiased estimators of the gradient of the marginal likelihood by only modifying messages used in backpropagation, leaving the standard forward pass of a particle filter unchanged. Our method is simple to implement, has a low computational overhead, does not introduce additional hyperparameters, and extends to derivatives of higher orders. We call it stop-gradient resampling, since it can easily be implemented with automatic differentiation libraries using the stop-gradient operator instead of explicitly modifying the backward messages.
翻訳日:2021-06-25 08:01:58 公開日:2021-06-18
# (参考訳) Proper Value Equivalence [全文訳有]

Proper Value Equivalence ( http://arxiv.org/abs/2106.10316v1 )

ライセンス: CC BY 4.0
Christopher Grimm, Andr\'e Barreto, Gregory Farquhar, David Silver, Satinder Singh(参考訳) モデルベース強化学習(RL)の主な課題の1つは、環境のどの側面をモデル化すべきかを決定することである。 価値等価性(VE)の原則は、この問題に対する単純な答えである: モデルは、価値ベースの計画に関係のある環境の側面を捉えなければならない。 厳密には、VEは一連のポリシーと一連の関数に基づいてモデルを区別する:モデルが環境に対してVEであるとは、ベルマン演算子が関数に適用すると正しい結果が得られることを誘導する。 ポリシーと関数の数が増えるにつれて、VEモデルの集合は縮小し、最終的には完全なモデルに対応する単一点に崩壊する。 したがって、ve原則の基礎となる基本的な問題は、計画に足りる最小のポリシーと機能を選択する方法である。 本稿では,この質問に答える上で重要な一歩を踏み出します。 まず ve の概念をベルマン作用素の $k$ 応用に関して定義されたオーダー-$k$ に対応するものに一般化する。 これは、$k \rightarrow \infty$としてサイズが増加するVEクラスのファミリーにつながる。 この極限において、すべての関数は値関数となり、適切な VE あるいは単に PVE と呼ぶ VE の特別なインスタンス化が成立する。 VEとは異なり、PVEクラスはすべての値関数が使用されるときでも複数のモデルを含むことができる。 重要なのは、これらのモデルはすべて計画に十分であり、環境の多くの側面を無視できるという事実にもかかわらず、最適なポリシーが得られるということです。 我々はPVEモデルを学習するための損失関数を構築し、MuZeroやMuesliのような一般的なアルゴリズムは、この損失の上限を最小化できると主張している。 この接続を利用して、MuZeroの修正を提案し、実際にパフォーマンスを改善することができることを示す。

One of the main challenges in model-based reinforcement learning (RL) is to decide which aspects of the environment should be modeled. The value-equivalence (VE) principle proposes a simple answer to this question: a model should capture the aspects of the environment that are relevant for value-based planning. Technically, VE distinguishes models based on a set of policies and a set of functions: a model is said to be VE to the environment if the Bellman operators it induces for the policies yield the correct result when applied to the functions. As the number of policies and functions increase, the set of VE models shrinks, eventually collapsing to a single point corresponding to a perfect model. A fundamental question underlying the VE principle is thus how to select the smallest sets of policies and functions that are sufficient for planning. In this paper we take an important step towards answering this question. We start by generalizing the concept of VE to order-$k$ counterparts defined with respect to $k$ applications of the Bellman operator. This leads to a family of VE classes that increase in size as $k \rightarrow \infty$. In the limit, all functions become value functions, and we have a special instantiation of VE which we call proper VE or simply PVE. Unlike VE, the PVE class may contain multiple models even in the limit when all value functions are used. Crucially, all these models are sufficient for planning, meaning that they will yield an optimal policy despite the fact that they may ignore many aspects of the environment. We construct a loss function for learning PVE models and argue that popular algorithms such as MuZero and Muesli can be understood as minimizing an upper bound for this loss. We leverage this connection to propose a modification to MuZero and show that it can lead to improved performance in practice.
翻訳日:2021-06-25 07:47:44 公開日:2021-06-18
# (参考訳) 衝突リスク評価と防止を支援する複雑な運転シーン解析のための視覚センサを用いたディープニューラルネットワークシステム [全文訳有]

A system of vision sensor based deep neural networks for complex driving scene analysis in support of crash risk assessment and prevention ( http://arxiv.org/abs/2106.10319v1 )

ライセンス: CC BY 4.0
Muhammad Monjurul Karim, Yu Li, Ruwen Qin, Zhaozheng Yin(参考訳) 事故リスクの評価において、人間ドライバーや自動運転車を支援するため、車載ダッシュカメラとディープラーニングアルゴリズムを用いたシーン解析が最重要となる。 これらの技術はますます普及しているが、この目的のためのシーン分析の推進は依然として課題である。 これは主に、衝突リスク指標と衝突可能性を分析するための注釈付き大規模画像データセットの欠如と、複雑な運転シーンから大量の必要な情報を抽出する効果的な方法の欠如によるものである。 このギャップを埋めるために,シーン分析システムを開発した。 システムのマルチネットは、シーン分類を実行する2つのマルチタスクニューラルネットワークを含み、各シーンに4つのラベルを提供する。 deeplab v3とyolo v3を組み合わせることで、危険な歩行者や最寄りの車両を検知・発見する。 すべての識別された情報は、周囲の交通からの衝突リスクを特定するために、自動運転車や人間ドライバーに状況認識を提供することができる。 交通事故研究のための注釈付き画像データセットの不足に対処するため,本論文では2つの全く新しいデータセットを開発し,提案したディープニューラルネットワークのトレーニングに有効であることが証明された。 本論文は,マルチネットの性能と,開発したシステムの効率をさらに評価する。 総合的なシーン分析はさらに代表的な例で示される。 その結果,運転シーン分析におけるシステムとデータセットの有効性,クラッシュリスクアセスメントとクラッシュ防止への支援性が示された。

To assist human drivers and autonomous vehicles in assessing crash risks, driving scene analysis using dash cameras on vehicles and deep learning algorithms is of paramount importance. Although these technologies are increasingly available, driving scene analysis for this purpose still remains a challenge. This is mainly due to the lack of annotated large image datasets for analyzing crash risk indicators and crash likelihood, and the lack of an effective method to extract lots of required information from complex driving scenes. To fill the gap, this paper develops a scene analysis system. The Multi-Net of the system includes two multi-task neural networks that perform scene classification to provide four labels for each scene. The DeepLab v3 and YOLO v3 are combined by the system to detect and locate risky pedestrians and the nearest vehicles. All identified information can provide the situational awareness to autonomous vehicles or human drivers for identifying crash risks from the surrounding traffic. To address the scarcity of annotated image datasets for studying traffic crashes, two completely new datasets have been developed by this paper and made available to the public, which were proved to be effective in training the proposed deep neural networks. The paper further evaluates the performance of the Multi-Net and the efficiency of the developed system. Comprehensive scene analysis is further illustrated with representative examples. Results demonstrate the effectiveness of the developed system and datasets for driving scene analysis, and their supportiveness for crash risk assessment and crash prevention.
翻訳日:2021-06-25 07:06:05 公開日:2021-06-18
# (参考訳) グループ構造逆行訓練 [全文訳有]

Group-Structured Adversarial Training ( http://arxiv.org/abs/2106.10324v1 )

ライセンス: CC BY 4.0
Farzan Farnia, Amirali Aghazadeh, James Zou, David Tse(参考訳) 入力データに対する摂動に対するロバストなトレーニング手法は、機械学習の文献で注目されている。 この方向の標準的なアプローチは、逆摂動トレーニングサンプルを用いてモデルを学習する逆行訓練である。 しかしながら、逆行訓練は、異なる組織の遺伝子発現レベルなどの生物学的データに一般的に見られる普遍的およびグループスパースシフトのようなサンプルにまたがる摂動に対して過度に対処する。 本研究では,この最適性ギャップを解消し,サンプル間の摂動に頑健なモデルを学習するGSAT(Group-Structure d Adversarial Training)を導入する。 GSATを非凸凹極小最適化問題として定式化し、グループ構造最適輸送コストを最小化する。 具体的には、群と核のノルム法則をモデル化したグループスパースおよびランク制約摂動に対するGSATの適用に焦点をあてる。 このような場合、GSATの非滑らかな最適化問題を解決するために、GDADMM(Gradient Descent Ascent)とADMM(Alternating Direction Method of Multipliers)を組み合わせることで、GDADMMと呼ばれる新しい最小最適化アルゴリズムを提案する。 本稿では、画像認識および計算生物学データセットに対する構造化摂動に対する堅牢性を得るためのGSATフレームワークのいくつかの応用について述べる。

Robust training methods against perturbations to the input data have received great attention in the machine learning literature. A standard approach in this direction is adversarial training which learns a model using adversarially-pertur bed training samples. However, adversarial training performs suboptimally against perturbations structured across samples such as universal and group-sparse shifts that are commonly present in biological data such as gene expression levels of different tissues. In this work, we seek to close this optimality gap and introduce Group-Structured Adversarial Training (GSAT) which learns a model robust to perturbations structured across samples. We formulate GSAT as a non-convex concave minimax optimization problem which minimizes a group-structured optimal transport cost. Specifically, we focus on the applications of GSAT for group-sparse and rank-constrained perturbations modeled using group and nuclear norm penalties. In order to solve GSAT's non-smooth optimization problem in those cases, we propose a new minimax optimization algorithm called GDADMM by combining Gradient Descent Ascent (GDA) and Alternating Direction Method of Multipliers (ADMM). We present several applications of the GSAT framework to gain robustness against structured perturbations for image recognition and computational biology datasets.
翻訳日:2021-06-25 06:55:41 公開日:2021-06-18
# (参考訳) 価値目標データセットを用いた社会への言語モデルの適用プロセス

Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets ( http://arxiv.org/abs/2106.10328v1 )

ライセンス: CC BY-SA 4.0
Irene Solaiman (1) and Christy Dennison (1) ((1) OpenAI)(参考訳) 言語モデルは有害で偏った出力を生成し、望ましくない振る舞いを示す。 本稿では, 目標値の所定のセットを反映したデータセットを作成・微調整することで, モデル行動を大きく変化させる反復的プロセスであるValues-Targeted Datasetsを用いた社会への言語モデル適応プロセス(PALMS)を提案する。 対象値への適合度を評価する人的評価による定量的指標, 結果に対する毒性スコア, 特定の社会的カテゴリーに関連する最も一般的な単語を分析する質的指標の3つの指標を用いて, プロセスを評価した。 各イテレーションを通じて、評価から観察した欠点に基づいたトレーニングデータセットの例を追加します。 PALMSは、幅広いGPT-3言語モデルサイズのベースラインや制御モデルと比較して、能力の整合性を損なうことなく、全ての指標において大幅に性能が向上する。 PALMSの有効性はモデルのサイズによって増加する。 言語モデルの振る舞いをかなり調整することは、小さな手書きデータセットで実現可能であることを示す。

Language models can generate harmful and biased outputs and exhibit undesirable behavior. We propose a Process for Adapting Language Models to Society (PALMS) with Values-Targeted Datasets, an iterative process to significantly change model behavior by crafting and fine-tuning on a dataset that reflects a predetermined set of target values. We evaluate our process using three metrics: quantitative metrics with human evaluations that score output adherence to a target value, and toxicity scoring on outputs; and qualitative metrics analyzing the most common word associated with a given social category. Through each iteration, we add additional training dataset examples based on observed shortcomings from evaluations. PALMS performs significantly better on all metrics compared to baseline and control models for a broad range of GPT-3 language model sizes without compromising capability integrity. We find that the effectiveness of PALMS increases with model size. We show that significantly adjusting language model behavior is feasible with a small, hand-curated dataset.
翻訳日:2021-06-25 06:21:18 公開日:2021-06-18
# (参考訳) exoskeleton-based multimodal action and movement recognition: identifying and development the optimal boosted learning approach [全文訳有]

Exoskeleton-Based Multimodal Action and Movement Recognition: Identifying and Developing the Optimal Boosted Learning Approach ( http://arxiv.org/abs/2106.10331v1 )

ライセンス: CC BY 4.0
Nirmalya Thakur and Chia Y. Han(参考訳) 本稿では,外骨格系行動と運動認識の分野での2つの科学的貢献について述べる。 まず、新しい機械学習とパターン認識ベースのフレームワークを提示し、階段を上り、階段を上り、座った、座った、座った、座った、座った、嘘をつく、座った、嘘をつく、嘘をつく、立って、立つ、という幅広い行動や動きを、全体の精度82.63%で検出する。 第二に、Random Forest, Artificial Neural Network, Decision Tree, Multiway Decision Tree, Support Vector Machine, k-NN, Gradient Boosted Trees, Decision Stump, Auto MLP, Linear Regression, Vector Linear Regression, Random Tree, Na\"ive Bayes", Na\"ive Bayes (Kernel), Linear Discriminant Analysis, Quadratic Discriminant Analysis, Deep Learningなどが、このフレームワークに適用されている。 これらの学習手法のそれぞれのパフォーマンスはAdaBoostアルゴリズムを用いて向上し、Cross Validationアプローチはトレーニングとテストに使用された。 その結果,k-NN分類器は,他の学習手法よりも優れており,その学習方法として最適であることが示唆された。 本研究は,スマートホームなどのモノのインターネット(iot)を基盤とした生活環境の将来における高齢者のエクソスケルトン支援・自立的生活能力の向上に寄与する上で,本研究の重要性を示唆し,議論した。 特定の症例として,高機能下肢外骨格であるHybrid Assistive Limb exoskeletonの能力を増強するために,我々の研究の成果がどう関係しているかを考察した。

This paper makes two scientific contributions to the field of exoskeleton-based action and movement recognition. First, it presents a novel machine learning and pattern recognition-based framework that can detect a wide range of actions and movements - walking, walking upstairs, walking downstairs, sitting, standing, lying, stand to sit, sit to stand, sit to lie, lie to sit, stand to lie, and lie to stand, with an overall accuracy of 82.63%. Second, it presents a comprehensive comparative study of different learning approaches - Random Forest, Artificial Neural Network, Decision Tree, Multiway Decision Tree, Support Vector Machine, k-NN, Gradient Boosted Trees, Decision Stump, Auto MLP, Linear Regression, Vector Linear Regression, Random Tree, Na\"ive Bayes, Na\"ive Bayes (Kernel), Linear Discriminant Analysis, Quadratic Discriminant Analysis, and Deep Learning applied to this framework. The performance of each of these learning approaches was boosted by using the AdaBoost algorithm, and the Cross Validation approach was used for training and testing. The results show that in boosted form, the k- NN classifier outperforms all the other boosted learning approaches and is, therefore, the optimal learning method for this purpose. The results presented and discussed uphold the importance of this work to contribute towards augmenting the abilities of exoskeleton-based assisted and independent living of the elderly in the future of Internet of Things-based living environments, such as Smart Homes. As a specific use case, we also discuss how the findings of our work are relevant for augmenting the capabilities of the Hybrid Assistive Limb exoskeleton, a highly functional lower limb exoskeleton.
翻訳日:2021-06-25 06:20:19 公開日:2021-06-18
# (参考訳) 人間のポーズを用いた単視点物理距離推定 [全文訳有]

Single View Physical Distance Estimation using Human Pose ( http://arxiv.org/abs/2106.10335v1 )

ライセンス: CC BY 4.0
Xiaohan Fei, Henry Wang, Xiangyu Zeng, Lin Lee Cheong, Meng Wang, Joseph Tighe(参考訳) そこで本研究では,1枚のRGB画像や3Dシーンを一定位置から見るカメラで撮影した映像から,カメラの内在性,地上面,身体的距離を同時に推定するシステムを提案する。 カメラキャリブレーションと距離推定を自動化するために、人間のポーズに関する先行情報を活用し、ポーズに基づく自動校正と距離推定のための新しい直接的な定式化を開発し、公開データセット上での最先端のパフォーマンスを示す。 提案手法により、既存のカメラシステムは、専用のキャリブレーションプロセスやレンジセンサーを必要とせずに物理的な距離を計測でき、ソーシャルディスタンシングや職場の安全といった幅広いユースケースに適用できる。 さらに,この領域における評価と研究の推進のために,さらに距離アノテーションを付加したMEVAデータセットに貢献し,ポーズに基づく自動校正と距離推定の問題に対する世界初となる評価ベンチマークMEVADAを作成した。

We propose a fully automated system that simultaneously estimates the camera intrinsics, the ground plane, and physical distances between people from a single RGB image or video captured by a camera viewing a 3-D scene from a fixed vantage point. To automate camera calibration and distance estimation, we leverage priors about human pose and develop a novel direct formulation for pose-based auto-calibration and distance estimation, which shows state-of-the-art performance on publicly available datasets. The proposed approach enables existing camera systems to measure physical distances without needing a dedicated calibration process or range sensors, and is applicable to a broad range of use cases such as social distancing and workplace safety. Furthermore, to enable evaluation and drive research in this area, we contribute to the publicly available MEVA dataset with additional distance annotations, resulting in MEVADA -- the first evaluation benchmark in the world for the pose-based auto-calibration and distance estimation problem.
翻訳日:2021-06-25 06:06:23 公開日:2021-06-18
# (参考訳) 最適化する前の学習の限界 [全文訳有]

The Perils of Learning Before Optimizing ( http://arxiv.org/abs/2106.10349v1 )

ライセンス: CC BY 4.0
Chris Cameron, Jason Hartford, Taylor Lundy, Kevin Leyton-Brown(参考訳) 実世界の最適化問題の定式化は、しばしば歴史的データ(例えば、高速ルートを推奨する最適化器)から予測することから始まる。 通常、最適化問題を生成するために使用される予測モデルを学習し、その問題を2つの別々の段階で解く。 近年の研究では、最適化タスクを微分することで、このような予測モデルをエンドツーエンドで学べることを示した。 このような手法はしばしば経験的な改善をもたらすが、これは通常、2段階の解法で使われる標準的な損失関数よりも良いエラートレードオフを行うエンドツーエンドに起因する。 我々は、この説明を洗練し、エンドツーエンドがパフォーマンスを改善するときにより正確に特徴付ける。 予測対象が確率的である場合、2段階のソリューションは、モデルへのターゲット分布の統計値 -- 予測対象に対する期待を考える -- を事前選択しなければならない。 確率的最適化における二段階法とエンドツーエンド法の性能差は,確率的最適化における \emph{price of correlation} の概念と密接に関連し,予測最適化問題に対する既存の poc 結果の影響を示す。 次に,目的関数の係数が複数の予測対象に依存する,新しい,特に実用的な設定を考える。 我々は,(1)二段階がエンドツーエンドよりも無制限に悪くなる,(2)二段階が最適である明示的な構成を与える。 目的関数が複数の予測対象に依存するが、しかしながら2段階のソリューションをデプロイする実世界のアプリケーション群を同定する。 また,シミュレーションを用いて性能ギャップを実験的に定量化する。

Formulating real-world optimization problems often begins with making predictions from historical data (e.g., an optimizer that aims to recommend fast routes relies upon travel-time predictions). Typically, learning the prediction model used to generate the optimization problem and solving that problem are performed in two separate stages. Recent work has showed how such prediction models can be learned end-to-end by differentiating through the optimization task. Such methods often yield empirical improvements, which are typically attributed to end-to-end making better error tradeoffs than the standard loss function used in a two-stage solution. We refine this explanation and more precisely characterize when end-to-end can improve performance. When prediction targets are stochastic, a two-stage solution must make an a priori choice about which statistics of the target distribution to model -- we consider expectations over prediction targets -- while an end-to-end solution can make this choice adaptively. We show that the performance gap between a two-stage and end-to-end approach is closely related to the \emph{price of correlation} concept in stochastic optimization and show the implications of some existing POC results for our predict-then-optimiz e problem. We then consider a novel and particularly practical setting, where coefficients in the objective function depend on multiple prediction targets. We give explicit constructions where (1) two-stage performs unboundedly worse than end-to-end; and (2) two-stage is optimal. We identify a large set of real-world applications whose objective functions rely on multiple prediction targets but which nevertheless deploy two-stage solutions. We also use simulations to experimentally quantify performance gaps.
翻訳日:2021-06-25 05:48:02 公開日:2021-06-18
# (参考訳) ディフルレント音声のための音声アシスタントシステムの解析とチューニング [全文訳有]

Analysis and Tuning of a Voice Assistant System for Dysfluent Speech ( http://arxiv.org/abs/2106.11759v1 )

ライセンス: CC BY 4.0
Vikramjit Mitra, Zifang Huang, Colin Lea, Lauren Tooley, Sarah Wu, Darren Botten, Ashwini Palekar, Shrinath Thelapurath, Panayiotis Georgiou, Sachin Kajarekar, Jefferey Bigham(参考訳) 音声発音の障害や変化は、音声認識性能を著しく低下させる可能性があり、中等度から重度の音声障害を持つ多くの個人にとって、音声操作システムは機能しない。 現在の音声認識システムは、主に流行った話者のデータで訓練されており、結果として、音声や単語の繰り返し、音声の延長、可聴ブロックなどの不均一性のある音声にうまく一般化していない。 本研究は,一般的な音声アシスタントタスク(すなわち「天気とは何か」)の性能向上のための生産指向の手法を用いて,消費者音声認識システムの定量的分析に焦点をあてた。 ベースラインでは、このシステムはかなりの数の挿入および置換エラーを導入し、結果として意図された音声単語誤り率(iswer)が、流血性障害を持つ個人に対して13.64\%悪化する(絶対的)。 既存のハイブリッド音声認識システムにおけるデコードパラメータを単純に調整することで、流感障害のある人に対しては、isWERを24倍(相対)改善できることを示す。 これらのパラメータのチューニングは、すべてのノイズを散らかす18人の研究参加者のデフォルト設定と比較して、ドメイン認識が3.6\%、意図認識が1.7\%向上することを意味する。

Dysfluencies and variations in speech pronunciation can severely degrade speech recognition performance, and for many individuals with moderate-to-severe speech disorders, voice operated systems do not work. Current speech recognition systems are trained primarily with data from fluent speakers and as a consequence do not generalize well to speech with dysfluencies such as sound or word repetitions, sound prolongations, or audible blocks. The focus of this work is on quantitative analysis of a consumer speech recognition system on individuals who stutter and production-oriented approaches for improving performance for common voice assistant tasks (i.e., "what is the weather?"). At baseline, this system introduces a significant number of insertion and substitution errors resulting in intended speech Word Error Rates (isWER) that are 13.64\% worse (absolute) for individuals with fluency disorders. We show that by simply tuning the decoding parameters in an existing hybrid speech recognition system one can improve isWER by 24\% (relative) for individuals with fluency disorders. Tuning these parameters translates to 3.6\% better domain recognition and 1.7\% better intent recognition relative to the default setup for the 18 study participants across all stuttering severities.
翻訳日:2021-06-25 05:24:57 公開日:2021-06-18
# (参考訳) スキル伝達における資源経済と高速学習のための高水準機能 [全文訳有]

High-level Features for Resource Economy and Fast Learning in Skill Transfer ( http://arxiv.org/abs/2106.10354v1 )

ライセンス: CC BY 4.0
Alper Ahmetoglu, Emre Ugur, Minoru Asada, Erhan Oztop(参考訳) 抽象化は、エージェントが効果的な意思決定のために堅牢な表現を構築することができるインテリジェンスの重要な側面である。 過去10年間で、ディープネットワークはますます複雑な抽象化を形成する能力のために有効であることが証明されている。 しかし、これらの抽象化は多くのニューロンに分散しており、学習スキルの再使用はコストがかかる。 以前の研究は、デザイナーバイアスを生み出す抽象化の形成を強制するか、より効果的にソースタスクをキャプチャするハイレベルな特徴をどのように取得するかを調査することなく、多数のニューラルユニットを使用した。 設計バイアスとリソース使用の分離を回避するため,ニューラル・レスポンス・ダイナミクスを活用し,スキル転送に使用するコンパクト表現を形成することを提案する。 本研究では,(1)最大情報圧縮原理に基づく競合する2つの手法と(2)抽象事象がゆっくりと変化する信号を生成するという概念を考察し,タスク実行時に発生する神経信号に適用する。 具体的には、シミュレーション実験において、ソースタスクを実行中にディープネットワークの最後の隠れ層から収集した信号に主成分分析(pca)またはスロー特徴解析(sfa)を適用し、これらの特徴を新たな対象タスクにおけるスキル伝達に利用する。 これらの選択肢の一般化性能と、全層出力と無転送設定によるスキル転送のベースラインを比較した。 その結果,sfaユニットはスキルの伝達に最も成功していることがわかった。 SFAとPCAは、通常の技術移転に比べて少ないリソースを消費し、多くのユニットが構成され、エンドエフェクタ-障害物-ゴール関係を反映した局所的な応答を示す。 最後に、最小固有値を持つSFA単位は、完全な記号系の前駆体と考えられる関節角のような高次特徴と高い相関を持つ記号表現に類似している。

Abstraction is an important aspect of intelligence which enables agents to construct robust representations for effective decision making. In the last decade, deep networks are proven to be effective due to their ability to form increasingly complex abstractions. However, these abstractions are distributed over many neurons, making the re-use of a learned skill costly. Previous work either enforced formation of abstractions creating a designer bias, or used a large number of neural units without investigating how to obtain high-level features that may more effectively capture the source task. For avoiding designer bias and unsparing resource use, we propose to exploit neural response dynamics to form compact representations to use in skill transfer. For this, we consider two competing methods based on (1) maximum information compression principle and (2) the notion that abstract events tend to generate slowly changing signals, and apply them to the neural signals generated during task execution. To be concrete, in our simulation experiments, we either apply principal component analysis (PCA) or slow feature analysis (SFA) on the signals collected from the last hidden layer of a deep network while it performs a source task, and use these features for skill transfer in a new target task. We compare the generalization performance of these alternatives with the baselines of skill transfer with full layer output and no-transfer settings. Our results show that SFA units are the most successful for skill transfer. SFA as well as PCA, incur less resources compared to usual skill transfer, whereby many units formed show a localized response reflecting end-effector-obstacl e-goal relations. Finally, SFA units with lowest eigenvalues resembles symbolic representations that highly correlate with high-level features such as joint angles which might be thought of precursors for fully symbolic systems.
翻訳日:2021-06-25 05:14:52 公開日:2021-06-18
# (参考訳) Scenic4RL:強化学習環境のモデリングと生成 [全文訳有]

Scenic4RL: Programmatic Modeling and Generation of Reinforcement Learning Environments ( http://arxiv.org/abs/2106.10365v1 )

ライセンス: CC BY 4.0
Abdus Salam Azad, Edward Kim, Qiancheng Wu, Kimin Lee, Ion Stoica, Pieter Abbeel, and Sanjit A. Seshia(参考訳) 強化学習(RL)エージェントの能力は、環境が生み出す学習シナリオの多様性と、それが現実世界の状況をどのように捉えているかに直接依存する。 しかし、既存の環境/シミュレータは初期状態と遷移ダイナミクスを体系的にモデル化するサポートを欠いている。 さらにサッカーのような複雑な領域では、シナリオの空間は無限であり、ある研究グループがRLアルゴリズムを訓練、テスト、ベンチマークするための包括的なシナリオセットを提供することは不可能である。 この問題に対処するために、我々は、インタラクティブなシナリオを直感的にモデル化し、生成するために、既存の形式的なシナリオ仕様言語であるSCENICを採用しました。 我々はSCENICをGoogle Research Soccer環境にインタフェースし、SCENIC4RLというプラットフォームを開発した。 このプラットフォームを用いて、SCENICで符号化された36のシナリオプログラムと、そのサブセットから生成された実演データからなるデータセットを提供する。 RLアルゴリズムをトレーニング、テスト、ベンチマークするためのデータセットとプラットフォームの有効性を示す実験結果を共有します。 さらに重要なのは、RLコミュニティが包括的なシナリオの構築に一括して貢献できるように、当社のプラットフォームをオープンソースにしています。

The capability of reinforcement learning (RL) agent directly depends on the diversity of learning scenarios the environment generates and how closely it captures real-world situations. However, existing environments/simulat ors lack the support to systematically model distributions over initial states and transition dynamics. Furthermore, in complex domains such as soccer, the space of possible scenarios is infinite, which makes it impossible for one research group to provide a comprehensive set of scenarios to train, test, and benchmark RL algorithms. To address this issue, for the first time, we adopt an existing formal scenario specification language, SCENIC, to intuitively model and generate interactive scenarios. We interfaced SCENIC to Google Research Soccer environment to create a platform called SCENIC4RL. Using this platform, we provide a dataset consisting of 36 scenario programs encoded in SCENIC and demonstration data generated from a subset of them. We share our experimental results to show the effectiveness of our dataset and the platform to train, test, and benchmark RL algorithms. More importantly, we open-source our platform to enable RL community to collectively contribute to constructing a comprehensive set of scenarios.
翻訳日:2021-06-25 05:02:28 公開日:2021-06-18
# 回帰予測における最大推定値の利点について

On the benefits of maximum likelihood estimation for Regression and Forecasting ( http://arxiv.org/abs/2106.10370v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Abhimanyu Das, Rajat Sen, Ananda Theertha Suresh(参考訳) 我々は、特定の目標指標に対する経験的リスク最小化(ERM)の典型的なアプローチの代替として、回帰と予測のための実用的最大様相推定(MLE)アプローチを提唱する。 このアプローチは、データセット内の事前ドメイン知識のような帰納的バイアスを捉えるのに適しており、様々なタイプのターゲットメトリクスを最適化できる推論時間にポストホックな推定子を出力することができる。 提案手法は, 一般条件下での目標距離の推定値と常に競合するものであり, ポアソン回帰(Poisson Regression)のような多くの実践的条件下では, ERMよりもはるかに優れていることを示す。 提案手法は,データ分布の異なる時系列予測と回帰データセットの多種多様なタスクにおいて,ERMよりも優れた性能が得られることを実証的に実証した。

We advocate for a practical Maximum Likelihood Estimation (MLE) approach for regression and forecasting, as an alternative to the typical approach of Empirical Risk Minimization (ERM) for a specific target metric. This approach is better suited to capture inductive biases such as prior domain knowledge in datasets, and can output post-hoc estimators at inference time that can optimize different types of target metrics. We present theoretical results to demonstrate that our approach is always competitive with any estimator for the target metric under some general conditions, and in many practical settings (such as Poisson Regression) can actually be much superior to ERM. We demonstrate empirically that our method instantiated with a well-designed general purpose mixture likelihood family can obtain superior performance over ERM for a variety of tasks across time-series forecasting and regression datasets with different data distributions.
翻訳日:2021-06-22 16:05:27 公開日:2021-06-18
# sarデータ融合のためのパラダイム選択と土地被覆分類への応用

Paradigm selection for Data Fusion of SAR and Multispectral Sentinel data applied to Land-Cover Classification ( http://arxiv.org/abs/2106.11056v1 )

ライセンス: Link先を確認
Alessandro Sebastianelli, Maria Pia Del Rosso, Pierre Philippe Mathieu, Silvia Liberata Ullo(参考訳) データ融合はよく知られた技術であり、AI4EO(Artificial Intelligence for Earth Observation)ドメインでは、主に複数のデータソースを組み合わせてAI4EOアプリケーションを強化し、より良い結果をもたらすため、ますます人気が高まっている。 一方、衛星データ分析の他の方法と同様に、データ融合自体も人工知能(AI)の統合によって恩恵を受け、進化している。 本稿では,畳み込みニューラルネットワーク(cnns)に基づく4つのデータ融合パラダイムを分析し,実装する。 目的は、最良のデータ融合フレームワークを選択するための体系的な手順を提供することであり、cnnの基本的な構造が定義されれば、最良の分類結果が得られる。 この手続きは土地被覆分類で検証されているが、他のケースに移すこともできる。

Data fusion is a well-known technique, becoming more and more popular in the Artificial Intelligence for Earth Observation (AI4EO) domain mainly due to its ability of reinforcing AI4EO applications by combining multiple data sources and thus bringing better results. On the other hand, like other methods for satellite data analysis, data fusion itself is also benefiting and evolving thanks to the integration of Artificial Intelligence (AI). In this letter, four data fusion paradigms, based on Convolutional Neural Networks (CNNs), are analyzed and implemented. The goals are to provide a systematic procedure for choosing the best data fusion framework, resulting in the best classification results, once the basic structure for the CNN has been defined, and to help interested researchers in their work when data fusion applied to remote sensing is involved. The procedure has been validated for land-cover classification but it can be transferred to other cases.
翻訳日:2021-06-22 16:02:10 公開日:2021-06-18
# 単一段階の弱教師付きセマンティックセグメンテーションに向けて

Towards Single Stage Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2106.10309v1 )

ライセンス: Link先を確認
Peri Akiva and Kristin Dana(参考訳) セマンティックセグメンテーションラベルを得るためのコストのかかるプロセスは、画像レベル、ポイント、ボックスラベルのみを使用して、wsss(weakly supervised semantic segmentation)メソッドへと研究を進めた。 濃密なシーン表現の欠如は、シーンに関する追加的な意味情報を得るための複雑さを増大させる方法を必要とする。 現在のsota(state-of-the-ar t)モデルは、イメージレベルラベルを利用してクラスアクティベーションマップ(cams)を作成し、監視のために擬似マスクを作成するためにしきい値が設定される前に、複数の改良段階を経る。 マルチステージアプローチは計算コストが高く、CAM生成のためのイメージレベルラベルへの依存は、より複雑なシーンへの一般化性に欠ける。 それとは対照的に,本手法は任意のデータセットに一般化可能な単一段階のアプローチを提供し,事前訓練されたバックボーンや分類,あるいは別個の精細化タスクに依存することなく,スクラッチからトレーニングすることができる。 我々はポイントアノテーションを利用して、洗練された機能やフィルタリング機能を通じて、信頼性の高い擬似マスクを生成する。 提案手法は画像レベルのアノテーションよりもわずかに高額なポイントアノテーションを必要とするが,ベンチマークデータセット(PascalVOC 2012)ではSOTAのパフォーマンスを示すとともに,最近の実世界のデータセット(CRAID,CityPersons,I AD)では,他のSOTA WSSSメソッドよりも大幅に優れていた。

The costly process of obtaining semantic segmentation labels has driven research towards weakly supervised semantic segmentation (WSSS) methods, using only image-level, point, or box labels. The lack of dense scene representation requires methods to increase complexity to obtain additional semantic information about the scene, often done through multiple stages of training and refinement. Current state-of-the-art (SOTA) models leverage image-level labels to produce class activation maps (CAMs) which go through multiple stages of refinement before they are thresholded to make pseudo-masks for supervision. The multi-stage approach is computationally expensive, and dependency on image-level labels for CAMs generation lacks generalizability to more complex scenes. In contrary, our method offers a single-stage approach generalizable to arbitrary dataset, that is trainable from scratch, without any dependency on pre-trained backbones, classification, or separate refinement tasks. We utilize point annotations to generate reliable, on-the-fly pseudo-masks through refined and filtered features. While our method requires point annotations that are only slightly more expensive than image-level annotations, we are to demonstrate SOTA performance on benchmark datasets (PascalVOC 2012), as well as significantly outperform other SOTA WSSS methods on recent real-world datasets (CRAID, CityPersons, IAD).
翻訳日:2021-06-22 15:59:33 公開日:2021-06-18
# 動物ID問題:継続的なキュレーション

The Animal ID Problem: Continual Curation ( http://arxiv.org/abs/2106.10377v1 )

ライセンス: Link先を確認
Charles V. Stewart, Jason R. Parham, Jason Holmberg and Tanya Y. Berger-Wolf(参考訳) 画像から個々の動物の識別に関する新たな研究を刺激するために,画像と動物の識別の人間・機械による連続的なキュレーションを定式化することを提案する。 これはオープンワールド認識の問題であり、アルゴリズムが最初に訓練され、デプロイされた後、ほとんどの新しい動物がシステムに入る。 ここで定義する連続的キュレーションは、(1)現在の認識方法の有効性の向上、(2)無決定の可能性を可能にするペアワイズ検証アルゴリズム、(3)キュレーションプロセスを導くために人間の入力を求めるアルゴリズム的決定機構を必要とする。 エラーメトリクスは、1回または2回だけ見ただけでなく、データベースにない新しい動物を認識するための認識アルゴリズムの能力を評価する必要がある。 システム全体の性能の重要な指標は、人間の入力量の関数としての精度である。

Hoping to stimulate new research in individual animal identification from images, we propose to formulate the problem as the human-machine Continual Curation of images and animal identities. This is an open world recognition problem, where most new animals enter the system after its algorithms are initially trained and deployed. Continual Curation, as defined here, requires (1) an improvement in the effectiveness of current recognition methods, (2) a pairwise verification algorithm that allows the possibility of no decision, and (3) an algorithmic decision mechanism that seeks human input to guide the curation process. Error metrics must evaluate the ability of recognition algorithms to identify not only animals that have been seen just once or twice but also recognize new animals not in the database. An important measure of overall system performance is accuracy as a function of the amount of human input required.
翻訳日:2021-06-22 15:50:51 公開日:2021-06-18
# 逆強化学習を用いた効率的なソーシャルナビゲーション

Sample Efficient Social Navigation Using Inverse Reinforcement Learning ( http://arxiv.org/abs/2106.10318v1 )

ライセンス: Link先を確認
Bobak H. Baghi, Gregory Dudek(参考訳) 本稿では,人間軌道の観測から社会的に適合したナビゲーションポリシーを効率的に学習するアルゴリズムを提案する。 移動ロボットが居住し、社会空間を交通するようになると、彼らは社会的な手がかりを考慮し、社会的に従順な行動をとる必要がある。 例から学ぶことに集中する。 本稿では,人間の軌道観測から学習する逆強化学習に基づくアルゴリズムについて述べる。 我々は,リプレイバッファ(オフ・ポリティカル強化学習法に多数存在する)の概念を活用して,逆強化学習に関連する追加のサンプル複雑性を解消し,代替手法よりもサンプル効率を向上させる。 本手法は,一般の歩行者行動データセットを用いてエージェントを訓練することで評価し,関連する手法と比較する。 このアプローチは、トレーニング時間とサンプルの複雑さを減らしながら、より良いパフォーマンスをもたらすことを示す。

In this paper, we present an algorithm to efficiently learn socially-compliant navigation policies from observations of human trajectories. As mobile robots come to inhabit and traffic social spaces, they must account for social cues and behave in a socially compliant manner. We focus on learning such cues from examples. We describe an inverse reinforcement learning based algorithm which learns from human trajectory observations without knowing their specific actions. We increase the sample-efficiency of our approach over alternative methods by leveraging the notion of a replay buffer (found in many off-policy reinforcement learning methods) to eliminate the additional sample complexity associated with inverse reinforcement learning. We evaluate our method by training agents using publicly available pedestrian motion data sets and compare it to related methods. We show that our approach yields better performance while also decreasing training time and sample complexity.
翻訳日:2021-06-22 15:45:06 公開日:2021-06-18
# 中央値に対する非パラメトリック微分プライベート信頼区間

Non-parametric Differentially Private Confidence Intervals for the Median ( http://arxiv.org/abs/2106.10333v1 )

ライセンス: Link先を確認
Joerg Drechsler, Ira Globus-Harris, Audra McMillan, Jayshree Sarathy, and Adam Smith(参考訳) 差分プライバシーは、データ内の個々のレコードに対して強い機密性を保証するデータ処理アルゴリズムの制限である。 しかし、適切な統計的推測、すなわち、人口の真の価値に関する(ノイズの多い)サンプル推定の不確かさを適切に定量化する研究は、現在も限られている。 本稿では,中央値に対する有意な個人的信頼区間を計算するためのいくつかの戦略を提案し,評価する。 差分的にプライベートポイントの推定を計算し、その不確実性を導出する代わりに、インターバルバウンダリを直接推定し、プライバシが重要である場合、このアプローチが優れている理由について議論する。 また,不確実性の発生源であるサンプリングからの誤りと出力を保護するエラーの両方に対処することは,不確実性を逐次的に組み込む単純なアプローチよりも望ましいことを示す。 様々なパラメータ設定下での異なるアルゴリズムの性能を広範囲なシミュレーション研究で評価し,1940年国勢調査のデータを用いて,その結果が実用環境でどのように適用できるかを実証した。

Differential privacy is a restriction on data processing algorithms that provides strong confidentiality guarantees for individual records in the data. However, research on proper statistical inference, that is, research on properly quantifying the uncertainty of the (noisy) sample estimate regarding the true value in the population, is currently still limited. This paper proposes and evaluates several strategies to compute valid differentially private confidence intervals for the median. Instead of computing a differentially private point estimate and deriving its uncertainty, we directly estimate the interval bounds and discuss why this approach is superior if ensuring privacy is important. We also illustrate that addressing both sources of uncertainty--the error from sampling and the error from protecting the output--simultaneous ly should be preferred over simpler approaches that incorporate the uncertainty in a sequential fashion. We evaluate the performance of the different algorithms under various parameter settings in extensive simulation studies and demonstrate how the findings could be applied in practical settings using data from the 1940 Decennial Census.
翻訳日:2021-06-22 15:43:48 公開日:2021-06-18
# Oracleの故障によるクラスタリングのためのクエリ最適化と時間効率アルゴリズム

Towards a Query-Optimal and Time-Efficient Algorithm for Clustering with a Faulty Oracle ( http://arxiv.org/abs/2106.10374v1 )

ライセンス: Link先を確認
Pan Peng, Jiapeng Zhang(参考訳) データベースにおけるクラウドソーシングエンティティの解決,ソーシャルネットワークにおけるエッジ予測の署名,相関クラスタリングなどの応用に触発されて,MazumdarとSaha(NIPS 2017)は,クラスタリングを障害オラクルで研究するためのエレガントな理論的モデルを提案した。 このモデルでは、未知のグループ(またはクラスタ)に属する$n$アイテムのセットが与えられた場合、私たちのゴールは、オラクルにペアワイズクエリを要求することでクラスタを回復することです。 このオラクルは ``do items $u$ と $v$ が同じクラスタに属している'' というクエリに答えることができる。 しかし、各ペアワイズクエリerrに対する答えは$\varepsilon$であり、$\varepsilon\in(0,\f rac12)$である。 mazumdarとsahaは、このモデルの下で2つのアルゴリズムを提供した: 1つのアルゴリズムはクエリ最適化であり、時間非効率である(すなわち、準多項時間で実行される)。 Larsen, Mitzenmacher and Tsourakakis [WWW 2020] はその後、2ドルクラスタの特別な場合に対して新しい時間効率のアルゴリズムを与え、バイアス $\delta:=1-2\varepsilon$ が大きければクエリ最適化となる。 一般に$k$クラスタや他の$\delta$のレギュレーションに対して、クエリ最適で時間効率のアルゴリズムを得られるかどうかという未解決の問題として残された。 本稿では,上記の問題に対して,情報理論的なリカバリが可能であれば,すべての定数$k$ に対して,ほぼ最適に近いクエリ複雑性(最大$o(\log^2 n)$) と,レジーム内の$\delta$ の時間効率アルゴリズムを提案する。 我々のアルゴリズムは確率ブロックモデルとの接続に基づいている。

Motivated by applications in crowdsourced entity resolution in database, signed edge prediction in social networks and correlation clustering, Mazumdar and Saha [NIPS 2017] proposed an elegant theoretical model for studying clustering with a faulty oracle. In this model, given a set of $n$ items which belong to $k$ unknown groups (or clusters), our goal is to recover the clusters by asking pairwise queries to an oracle. This oracle can answer the query that ``do items $u$ and $v$ belong to the same cluster?''. However, the answer to each pairwise query errs with probability $\varepsilon$, for some $\varepsilon\in(0,\f rac12)$. Mazumdar and Saha provided two algorithms under this model: one algorithm is query-optimal while time-inefficient (i.e., running in quasi-polynomial time), the other is time efficient (i.e., in polynomial time) while query-suboptimal. Larsen, Mitzenmacher and Tsourakakis [WWW 2020] then gave a new time-efficient algorithm for the special case of $2$ clusters, which is query-optimal if the bias $\delta:=1-2\varepsilon$ of the model is large. It was left as an open question whether one can obtain a query-optimal, time-efficient algorithm for the general case of $k$ clusters and other regimes of $\delta$. In this paper, we make progress on the above question and provide a time-efficient algorithm with nearly-optimal query complexity (up to a factor of $O(\log^2 n)$) for all constant $k$ and any $\delta$ in the regime when information-theoreti c recovery is possible. Our algorithm is built on a connection to the stochastic block model.
翻訳日:2021-06-22 15:43:30 公開日:2021-06-18
# 重み付き無限大ニューラルネットワークの$\alpha$-Stable収束

$\alpha$-Stable convergence of heavy-tailed infinitely-wide neural networks ( http://arxiv.org/abs/2106.11064v1 )

ライセンス: Link先を確認
Paul Jung, Hoil Lee, Jiho Lee, and Hongseok Yang(参考訳) 我々は、標準のディープフィードフォワードニューラルネットワークの限界である無限大多層パーセプトロン(MLP)を考える。 各層について、MLPの重みは i.i.d で初期化されると仮定する。 対称$\alpha$-stable分布のアトラクション領域における光尾分布(有限分散)または重い尾分布(英語版)のサンプル($\alpha\in(0,2]$)は層に依存する。 層のバイアス項では i. i. d. と仮定します 対称な$\alpha$-stable分布を持つ初期化は、その層と同じ$\alpha$パラメータを持つ。 次に、Favaro, Fortini, and Peluchetti (2020) の最近の結果を拡張し、与えられた隠れ層のすべてのノードにおける事前活性化値のベクトルが、適切なスケーリングの下で、その極限に収束することを示す。 対称 $\alpha$-stable 分布を持つ確率変数。

We consider infinitely-wide multi-layer perceptrons (MLPs) which are limits of standard deep feed-forward neural networks. We assume that, for each layer, the weights of an MLP are initialized with i.i.d. samples from either a light-tailed (finite variance) or heavy-tailed distribution in the domain of attraction of a symmetric $\alpha$-stable distribution, where $\alpha\in(0,2]$ may depend on the layer. For the bias terms of the layer, we assume i.i.d. initializations with a symmetric $\alpha$-stable distribution having the same $\alpha$ parameter of that layer. We then extend a recent result of Favaro, Fortini, and Peluchetti (2020), to show that the vector of pre-activation values at all nodes of a given hidden layer converges in the limit, under a suitable scaling, to a vector of i.i.d. random variables with symmetric $\alpha$-stable distributions.
翻訳日:2021-06-22 15:41:03 公開日:2021-06-18
# 3次元骨格運動の動的深部生成的潜在モデル

Dynamical Deep Generative Latent Modeling of 3D Skeletal Motion ( http://arxiv.org/abs/2106.10393v1 )

ライセンス: Link先を確認
Amirreza Farnoosh, Sarah Ostadabbas(参考訳) 本稿では,データの解釈可能なパターンを明らかにし,生成可能な3次元ポーズデータのセグメンテーションのためのベイズ切替動的モデルを提案する。 本モデルは,高相関な骨格データを低次元潜在フレームワークにおける時間的プロセスの切り替えの空間的基礎の集合に分解する。 マルチモーダルおよび高次非線形相互依存性の両方に対応するために, 切替深部ベクトル自己回帰に関する時間過程をパラメータ化する。 これにより,3次元ポーズデータのダイナミックスにおける意味的内在状態を近似的変動推論を用いて解析し,複雑な骨格運動の現実的な低レベルな動的生成とセグメンテーションを可能にする。 コウモリ,サルサダンス,ウォーキング,ゴルフデータセットを含む4つの生体運動データを用いた実験は,最先端の手法と比較して,モデルの優れた性能を実証する。

In this paper, we propose a Bayesian switching dynamical model for segmentation of 3D pose data over time that uncovers interpretable patterns in the data and is generative. Our model decomposes highly correlated skeleton data into a set of few spatial basis of switching temporal processes in a low-dimensional latent framework. We parameterize these temporal processes with regard to a switching deep vector autoregressive prior in order to accommodate both multimodal and higher-order nonlinear inter-dependencies. This results in a dynamical deep generative latent model that parses the meaningful intrinsic states in the dynamics of 3D pose data using approximate variational inference, and enables a realistic low-level dynamical generation and segmentation of complex skeleton movements. Our experiments on four biological motion data containing bat flight, salsa dance, walking, and golf datasets substantiate superior performance of our model in comparison with the state-of-the-art methods.
翻訳日:2021-06-22 15:35:45 公開日:2021-06-18
# 近位政策最適化による干潟の予測フリー・リアルタイムフレキシブル制御--白海ラグーンを事例として

Prediction-Free, Real-Time Flexible Control of Tidal Lagoons through Proximal Policy Optimisation: A Case Study for the Swansea Lagoon ( http://arxiv.org/abs/2106.10360v1 )

ライセンス: Link先を確認
T\'ulio Marcondes Moreira (1), Jackson Geraldo de Faria Jr (1), Pedro O.S. Vaz de Melo (1), Luiz Chaimowicz (1) and Gilberto Medeiros-Ribeiro (1) ((1) Universidade Federal de Minas Gerais, Belo Horizonte, Brazil)(参考訳) 潮位帯の構造は、温室効果ガスの排出なしに合理的な予測可能なエネルギーを生産できる可能性から、大規模な発電を想定されている。 潮流を駆動する主力成分が決定論的ダイナミクスを持つと、所定の潮流発電所で利用可能なエネルギーは、主に予測可能な事象として解析的および数値最適化ルーチンを通じて推定されている。 この制約により、最先端のフレキシブルな運用手法は、潮流予測(測定されたデータと、将来の半減期サイクルの合計)に依存して、潮流ラグーンの最良の運用戦略を推測し、新たな潮潮流ごとに最適化ルーチンを実行する必要がある追加コストを課される。 本稿では,統一ml-エイジェントによる近位政策最適化を施した潮流ラグーンの最適化操作を提案する。 Swansea Bay Tidal Lagoonを事例として,本手法を文献から考案した6種類の操作最適化手法(ベースライン)と比較した。 提案手法は, タービンおよびスライスを最適化した運転方針を通したエネルギー生成の最大化に成功し, 使用した試験データによらず, 実測海洋データのみで実時間フレキシブル制御を行うことで, 最先端の最適化手法による競争結果が得られることを示す。

Tidal range structures have been considered for large scale electricity generation for their potential ability to produce reasonable predictable energy without the emission of greenhouse gases. Once the main forcing components for driving the tides have deterministic dynamics, the available energy in a given tidal power plant has been estimated, through analytical and numerical optimisation routines, as a mostly predictable event. This constraint imposes state-of-art flexible operation methods to rely on tidal predictions (concurrent with measured data and up to a multiple of half-tidal cycles into the future) to infer best operational strategies for tidal lagoons, with the additional cost of requiring to run optimisation routines for every new tide. In this paper, we propose a novel optimised operation of tidal lagoons with proximal policy optimisation through Unity ML-Agents. We compare this technique with 6 different operation optimisation approaches (baselines) devised from the literature, utilising the Swansea Bay Tidal Lagoon as a case study. We show that our approach is successful in maximising energy generation through an optimised operational policy of turbines and sluices, yielding competitive results with state-of-the-art methods of optimisation, regardless of test data used, requiring training once and performing real-time flexible control with measured ocean data only.
翻訳日:2021-06-22 15:25:34 公開日:2021-06-18
# クロスホスピタルシープシス早期検出のためのセルフペーストアンサンブルを用いた半教師付き最適輸送

Semi-supervised Optimal Transport with Self-paced Ensemble for Cross-hospital Sepsis Early Detection ( http://arxiv.org/abs/2106.10352v1 )

ライセンス: Link先を確認
Ruiqing Ding, Yu Zhou, Jie Xu, Yan Xie, Qiqiang Liang, He Ren, Yixuan Wang, Yanlin Chen, Leye Wang and Man Huang(参考訳) 近年,医療シナリオにおける問題解決にコンピュータ技術の活用が注目されている。 その中でも、機械学習は敗血症の予測、診断、治療に広く使われている。 しかし、最先端の手法は教師付き学習のために大量のラベル付き医療データを必要とする。 現実世界のアプリケーションでは、ラベル付きデータの欠如は、ある病院が新しいセプシス検出システムをデプロイしたい場合、大きな障害を引き起こす。 教師付き学習環境とは違って、既知の情報(例えば、リッチなラベル付きデータを持つ別の病院など)を使用して、許容可能なパフォーマンスを持つモデルを構築する必要がある。 本稿では,ラベル付きデータを豊富に有する他者から知識を伝達するために,敗血症早期発見のための自己ペースアンサンブルフレームワークであるspssotを用いた半教師付き最適トランスポートを提案する。 SPSSOTでは、まず、ソースドメイン(例えば、リッチラベル付き病院)とターゲットドメイン(例えば、ラベル付き少ない病院)から同じ臨床指標を抽出し、最適な輸送理論に基づく半教師付きドメイン適応と自己ペーストアンダーサンプリングを組み合わせて、共変量シフトやクラス不均衡による負の移動を避ける。 全体としては、spssotはsepsis早期検出のためのエンドツーエンド転送学習手法であり、2つのドメインからそれぞれ、イテレーション数に応じて適切なサンプルを選択でき、2つのドメインの特徴空間を調整できる。 2つのオープン臨床データセットに関する広範囲な実験により、提案手法であるspssotとの比較により、2つのトランスファー学習シナリオにおいて、ターゲットドメイン内の1%のラベル付きデータでauc値を著しく改善できることが示されました。

The utilization of computer technology to solve problems in medical scenarios has attracted considerable attention in recent years, which still has great potential and space for exploration. Among them, machine learning has been widely used in the prediction, diagnosis and even treatment of Sepsis. However, state-of-the-art methods require large amounts of labeled medical data for supervised learning. In real-world applications, the lack of labeled data will cause enormous obstacles if one hospital wants to deploy a new Sepsis detection system. Different from the supervised learning setting, we need to use known information (e.g., from another hospital with rich labeled data) to help build a model with acceptable performance, i.e., transfer learning. In this paper, we propose a semi-supervised optimal transport with self-paced ensemble framework for Sepsis early detection, called SPSSOT, to transfer knowledge from the other that has rich labeled data. In SPSSOT, we first extract the same clinical indicators from the source domain (e.g., hospital with rich labeled data) and the target domain (e.g., hospital with little labeled data), then we combine the semi-supervised domain adaptation based on optimal transport theory with self-paced under-sampling to avoid a negative transfer possibly caused by covariate shift and class imbalance. On the whole, SPSSOT is an end-to-end transfer learning method for Sepsis early detection which can automatically select suitable samples from two domains respectively according to the number of iterations and align feature space of two domains. Extensive experiments on two open clinical datasets demonstrate that comparing with other methods, our proposed SPSSOT, can significantly improve the AUC values with only 1% labeled data in the target domain in two transfer learning scenarios, MIMIC $rightarrow$ Challenge and Challenge $rightarrow$ MIMIC.
翻訳日:2021-06-22 15:15:33 公開日:2021-06-18
# WiFi信号を用いた液体センシング

Liquid Sensing Using WiFi Signals ( http://arxiv.org/abs/2106.10356v1 )

ライセンス: Link先を確認
Yili Ren, Jie Yang(参考訳) internet-of-things(i ot)の人気は、スマートホーム環境でさまざまな新興サービスを可能にする前例のない機会を与えてくれました。 これらのサービスの中で、コンテナ内の液体レベルを感知することは、生活の質を向上させる多くのスマートホームおよびモバイルヘルスケアアプリケーションを構築する上で重要である。 本稿では,従来のスマートホームネットワークと容易に統合可能な,低コストで高精度な液体レベルセンシングシステムLiquidSenseについて述べる。 LiquidSenseは既存のホームWiFiネットワークと、コンテナに取り付けられた安価なトランスデューサを使って、液体レベルの検出のためにコンテナの共鳴を検出する。 特に,コンテナ表面に低コストのトランスデューサを装着し,よく設計されたチャープ信号を出力して容器共振器を作り,ホームWiFi信号に微妙な変化をもたらす。 wifi信号の微妙な位相変化を分析することで、liquidsenseは共鳴周波数を液体レベル検出の特徴として抽出する。 本システムは,曲線フィッティングとSVMを用いた連続予測と離散予測の両方の予測モデルを構築する。 3つの異なる材料と6種類の液体の容器を用いた家庭環境におけるLiquidSenseの評価を行った。 その結果,LiquidSenseは連続予測では97%,離散予測では0.968のFスコアを達成した。 また,本システムはホーム環境において広範囲にカバーされており,非線形(NLOS)シナリオ下でも良好に動作することを示す。

The popularity of Internet-of-Things (IoT) has provided us with unprecedented opportunities to enable a variety of emerging services in a smart home environment. Among those services, sensing the liquid level in a container is critical to building many smart home and mobile healthcare applications that improve the quality of life. This paper presents LiquidSense, a liquid-level sensing system that is low-cost, high accuracy, widely applicable to different daily liquids and containers, and can be easily integrated with existing smart home networks. LiquidSense uses an existing home WiFi network and a low-cost transducer that attached to the container to sense the resonance of the container for liquid level detection. In particular, our system mounts a low-cost transducer on the surface of the container and emits a well-designed chirp signal to make the container resonant, which introduces subtle changes to the home WiFi signals. By analyzing the subtle phase changes of the WiFi signals, LiquidSense extracts the resonance frequency as a feature for liquid level detection. Our system constructs prediction models for both continuous and discrete predictions using curve fitting and SVM respectively. We evaluate LiquidSense in home environments with containers of three different materials and six types of liquids. Results show that LiquidSense achieves an overall accuracy of 97% for continuous prediction and an overall F-score of 0.968 for discrete prediction. Results also show that our system has a large coverage in a home environment and works well under non-line-of-sight (NLOS) scenarios.
翻訳日:2021-06-22 15:14:59 公開日:2021-06-18
# 非局所深部画像を用いた動的PETからの線形パラメトリック画像の直接再構成

Direct Reconstruction of Linear Parametric Images from Dynamic PET Using Nonlocal Deep Image Prior ( http://arxiv.org/abs/2106.10359v1 )

ライセンス: Link先を確認
Kuang Gong, Ciprian Catana, Jinyi Qi and Quanzheng Li(参考訳) PET画像モデルとトレーサ運動学を統合フレームワークで組み合わせることで,測定したPETシングラムから直接パラメトリック画像を推定する直接再構成法を開発した。 受信回数が限られているため、信号対雑音比(SNR)と直接再構成フレームワークによって生成されたパラメトリック画像の解像度は依然として限られている。 近年,高品位トレーニングラベルが多数用意されている医療画像診断において,教師付き深層学習法が有効である。 静的PETイメージングでは、走査時間を拡張して高品質なトレーニングラベルを取得することができる。 しかし、これは走査時間が十分長い動的PETイメージングでは実現不可能である。 本研究では,Patlakモデルと相対平衡ローガンモデルを用いて,動的PETから直接パラメトリック再構成を行うための教師なしディープラーニングフレームワークを提案する。 PET/CTやPET/MRスキャンから手軽に手に入る解剖学的前駆体像をネットワーク入力として提供し、多様体制約を提供し、カーネル層を構築して非局所的特徴認知を行う。 線形運動モデルはネットワーク構造に1x1畳み込み層として埋め込まれた。 訓練対象関数はPET統計モデルに基づいていた。 18f-fdgおよび11c-pibトレーサの動的データセットに基づく評価では,提案手法が従来法およびカーネル法に基づく直接再構成法を上回った。

Direct reconstruction methods have been developed to estimate parametric images directly from the measured PET sinograms by combining the PET imaging model and tracer kinetics in an integrated framework. Due to limited counts received, signal-to-noise-rati o (SNR) and resolution of parametric images produced by direct reconstruction frameworks are still limited. Recently supervised deep learning methods have been successfully applied to medical imaging denoising/reconstruc tion when large number of high-quality training labels are available. For static PET imaging, high-quality training labels can be acquired by extending the scanning time. However, this is not feasible for dynamic PET imaging, where the scanning time is already long enough. In this work, we proposed an unsupervised deep learning framework for direct parametric reconstruction from dynamic PET, which was tested on the Patlak model and the relative equilibrium Logan model. The patient's anatomical prior image, which is readily available from PET/CT or PET/MR scans, was supplied as the network input to provide a manifold constraint, and also utilized to construct a kernel layer to perform non-local feature denoising. The linear kinetic model was embedded in the network structure as a 1x1 convolution layer. The training objective function was based on the PET statistical model. Evaluations based on dynamic datasets of 18F-FDG and 11C-PiB tracers show that the proposed framework can outperform the traditional and the kernel method-based direct reconstruction methods.
翻訳日:2021-06-22 15:09:14 公開日:2021-06-18
# 新型コロナウイルスによるクラウドファンディングの変化:GoFundMeの証拠

How COVID-19 Have Changed Crowdfunding: Evidence From GoFundMe ( http://arxiv.org/abs/2106.09981v1 )

ライセンス: Link先を確認
Junda Wang, Xupin Zhang, Jiebo Luo(参考訳) 新型コロナウイルスの長期効果はまだ決定されていないが、クラウドファンディングへの直接的な影響は大きい。 この研究は、この変化をより深く理解するための計算的アプローチを採用している。 過去2年間にGoFundMeで公開されたすべてのキャンペーンのユニークなデータセットを使用して、クラウドファンディングプロジェクトの成功に繋がった要因を調査します。 特に,クラウドファンディングサイトで一般的に見られるカバーイメージやその他の変数を分析し,クラウドファンディングプロジェクトのコーパスを調査した。 さらに,xgboostに基づく特徴の意義を評価するために,分類器と回帰モデルを構築した。 さらに,機能とクラウドファンディングの成功の因果関係を調べるために,反事実分析を用いた。 さらに重要なことは、2020年3月に始まった新型コロナウイルスの感染拡大前後のクラウドファンディングキャンペーンの違いを調べるために、感情分析とペアのサンプルt-testが実施されている。 まず、クラウドファンディングの成功には大きな人種差があることに留意する。 第2に、新型コロナウイルス(covid-19)の流行後、キャンペーンの説明を通じて表現された悲しい感情が重要になった。 これらすべての要因を考慮すると、covid-19がクラウドファンディングキャンペーンに与える影響に光を当てた。

While the long-term effects of COVID-19 are yet to be determined, its immediate impact on crowdfunding is nonetheless significant. This study takes a computational approach to more deeply comprehend this change. Using a unique data set of all the campaigns published over the past two years on GoFundMe, we explore the factors that have led to the successful funding of a crowdfunding project. In particular, we study a corpus of crowdfunded projects, analyzing cover images and other variables commonly present on crowdfunding sites. Furthermore, we construct a classifier and a regression model to assess the significance of features based on XGBoost. In addition, we employ counterfactual analysis to investigate the causality between features and the success of crowdfunding. More importantly, sentiment analysis and the paired sample t-test are performed to examine the differences in crowdfunding campaigns before and after the COVID-19 outbreak that started in March 2020. First, we note that there is significant racial disparity in crowdfunding success. Second, we find that sad emotion expressed through the campaign's description became significant after the COVID-19 outbreak. Considering all these factors, our findings shed light on the impact of COVID-19 on crowdfunding campaigns.
翻訳日:2021-06-22 15:08:27 公開日:2021-06-18
# 損失圧縮のためのユニバーサルレートゆがみ知覚表現

Universal Rate-Distortion-Perc eption Representations for Lossy Compression ( http://arxiv.org/abs/2106.10311v1 )

ライセンス: Link先を確認
George Zhang, Jingjing Qian, Jun Chen, Ashish Khisti(参考訳) 損失圧縮の文脈において、Blau & Michaeli (2019) は知覚品質の数学的概念を採用し、古典的な速度歪みトレードオフを一般化して情報速度歪み知覚関数を定義する。 我々は、エンコーダを固定し、歪みや知覚の制約の集合内の任意の点を達成するためにデコーダを変化させる普遍表現の概念を考える。 対応する情報理論の普遍的速度歪み知覚関数が,近似的に動作可能であることを証明した。 mse歪みの下では、ガウス源の歪み受容トレードオフ全体が、漸近的に同じ速度の1つのエンコーダによって達成できることを示す。 次に、任意の分布の場合の固定表現に対する達成可能な歪み知覚領域を特徴付けるとともに、上記の結果がほぼ持続する条件を特定し、予め固定されていない場合について検討する。 このことは、RDPトレードオフ全体でほぼ普遍的な実践的な構造の研究を動機付け、それぞれの目的のために新しいエンコーダを設計する必要がなくなる。 画像圧縮タスクにおいて、固定エンコーダを持つ機械学習モデルによって達成される運用上のトレードオフは、可変エンコーダに比べて少ないペナルティしか得られないことを示唆するMNISTとSVHNの実験結果を示す。

In the context of lossy compression, Blau & Michaeli (2019) adopt a mathematical notion of perceptual quality and define the information rate-distortion-perc eption function, generalizing the classical rate-distortion tradeoff. We consider the notion of universal representations in which one may fix an encoder and vary the decoder to achieve any point within a collection of distortion and perception constraints. We prove that the corresponding information-theoreti c universal rate-distortion-perc eption function is operationally achievable in an approximate sense. Under MSE distortion, we show that the entire distortion-perceptio n tradeoff of a Gaussian source can be achieved by a single encoder of the same rate asymptotically. We then characterize the achievable distortion-perceptio n region for a fixed representation in the case of arbitrary distributions, identify conditions under which the aforementioned results continue to hold approximately, and study the case when the rate is not fixed in advance. This motivates the study of practical constructions that are approximately universal across the RDP tradeoff, thereby alleviating the need to design a new encoder for each objective. We provide experimental results on MNIST and SVHN suggesting that on image compression tasks, the operational tradeoffs achieved by machine learning models with a fixed encoder suffer only a small penalty when compared to their variable encoder counterparts.
翻訳日:2021-06-22 15:07:53 公開日:2021-06-18
# (参考訳) LSEC:大規模スペクトルアンサンブルクラスタリング [全文訳有]

LSEC: Large-scale spectral ensemble clustering ( http://arxiv.org/abs/2106.09852v1 )

ライセンス: CC BY 4.0
Hongmin Li, Xiucai Ye, Akira Imakura and Tetsuya Sakurai(参考訳) アンサンブルクラスタリングは、複数のベースクラスタリングをより良いクラスタリング結果に組み合わせることで、機械学習分野における基本的な問題である。 しかしながら、既存の手法のほとんどは効率のボトルネックのため、大規模なアンサンブルクラスタリングタスクには適さない。 本稿では,効率と効率のバランスを良好に両立させる大規模スペクトルアンサンブルクラスタリング(lsec)手法を提案する。 LSECでは、大規模スペクトルクラスタリングに基づく効率的なアンサンブル生成フレームワークが、低計算量で様々なベースクラスタリングを生成するように設計されている。 次に、すべてのベースのクラスタリングは、2部グラフ分割ベースのコンセンサス関数を介して、よりよいコンセンサスクラスタリング結果に結合される。 LSEC法は既存のアンサンブルクラスタリング法よりも計算複雑性が低い。 10個の大規模データセットで行った実験は, LSEC法の有効性と有効性を示した。 提案手法と実験データセットのMATLABコードはhttps://github.com/L iHongmin/MyPaperWith Code.comで公開されている。

Ensemble clustering is a fundamental problem in the machine learning field, combining multiple base clusterings into a better clustering result. However, most of the existing methods are unsuitable for large-scale ensemble clustering tasks due to the efficiency bottleneck. In this paper, we propose a large-scale spectral ensemble clustering (LSEC) method to strike a good balance between efficiency and effectiveness. In LSEC, a large-scale spectral clustering based efficient ensemble generation framework is designed to generate various base clusterings within a low computational complexity. Then all based clustering are combined through a bipartite graph partition based consensus function into a better consensus clustering result. The LSEC method achieves a lower computational complexity than most existing ensemble clustering methods. Experiments conducted on ten large-scale datasets show the efficiency and effectiveness of the LSEC method. The MATLAB code of the proposed method and experimental datasets are available at https://github.com/L i- Hongmin/MyPaperWithC ode.
翻訳日:2021-06-22 02:25:29 公開日:2021-06-18
# (参考訳) 計画的成長・生存法による有効モデルスパーシフィケーション [全文訳有]

Effective Model Sparsification by Scheduled Grow-and-Prune Methods ( http://arxiv.org/abs/2106.09857v1 )

ライセンス: CC BY 4.0
Xiaolong Ma, Minghai Qin, Fei Sun, Zejiang Hou, Kun Yuan, Yi Xu, Yanzhi Wang, Yen-Kuang Chen, Rong Jin, Yuan Xie(参考訳) ディープニューラルネットワーク(DNN)は多くの現実世界の問題を解決するのに効果的である。 より大きなDNNモデルは通常、より良い品質(例えば精度)を示すが、その過剰な計算は長いトレーニングと推論時間をもたらす。 モデルスペーシフィケーションは、モデル品質を維持しながら計算とメモリコストを削減できる。 既存のスパシフィケーションアルゴリズムのほとんどは一方向から重みを除去するが、他のアルゴリズムは各層の小さな重みのサブセットをランダムにまたは欲求的に探索する。 アルゴリズムの非効率さは、達成可能なスパーシリティレベルを低下させる。 加えて、多くのアルゴリズムは未学習の高密度モデルを必要とするため、大きなメモリフットプリントと長いトレーニング時間に悩まされる。 本稿では,高密度モデルの事前学習を行なわずに,新たなGrow-and-prune(GaP)手法を提案する。 前の作業の欠点に対処するため、レイヤのサブセットを高密度に繰り返し拡大し、トレーニングの後にスパースに戻る。 実験により、画像分類、客観的検出、3Dオブジェクト部分分割、翻訳など、様々なタスクにおいて、高度に最適化された高密度モデルの品質と80%の間隔で一致または打ち勝つことができることが示された。 彼らはまた、事前訓練された高密度モデルからのプルーニングなど、他の最先端(SOTA)プルーニング手法よりも優れている。 例えば、GaP経由で取得した90%のスパースResNet-50はImageNet上で77.9%の精度を実現し、SOTAの結果を1.5%改善した。

Deep neural networks (DNNs) are effective in solving many real-world problems. Larger DNN models usually exhibit better quality (e.g., accuracy) but their excessive computation results in long training and inference time. Model sparsification can reduce the computation and memory cost while maintaining model quality. Most existing sparsification algorithms unidirectionally remove weights, while others randomly or greedily explore a small subset of weights in each layer. The inefficiency of the algorithms reduces the achievable sparsity level. In addition, many algorithms still require pre-trained dense models and thus suffer from large memory footprint and long training time. In this paper, we propose a novel scheduled grow-and-prune (GaP) methodology without pre-training the dense models. It addresses the shortcomings of the previous works by repeatedly growing a subset of layers to dense and then pruning back to sparse after some training. Experiments have shown that such models can match or beat the quality of highly optimized dense models at 80% sparsity on a variety of tasks, such as image classification, objective detection, 3D object part segmentation, and translation. They also outperform other state-of-the-art (SOTA) pruning methods, including pruning from pre-trained dense models. As an example, a 90% sparse ResNet-50 obtained via GaP achieves 77.9% top-1 accuracy on ImageNet, improving the SOTA results by 1.5%.
翻訳日:2021-06-22 01:52:05 公開日:2021-06-18
# (参考訳) rsg:不均衡データセットを学習するためのシンプルで効果的なモジュール [全文訳有]

RSG: A Simple but Effective Module for Learning Imbalanced Datasets ( http://arxiv.org/abs/2106.09859v1 )

ライセンス: CC BY 4.0
Jianfeng Wang, Thomas Lukasiewicz, Xiaolin Hu, Jianfei Cai, Zhenghua Xu(参考訳) 不均衡なデータセットは実践的に広く存在し、希少なクラスでの優れた一般化を伴うディープニューラルネットワークのトレーニングには大きな課題がある。 本研究では,この問題を解決するために,新しいレアクラスサンプルジェネレータ(RSG)を提案する。 rsgは、トレーニング中にレアクラスのための新たなサンプルの生成を目標としており、特に、(1)あらゆる種類の畳み込みニューラルネットワークに容易に統合でき、異なる損失関数と組み合わせるとうまく機能し、(2)トレーニング段階でのみ使用されるため、テストフェーズ中にディープニューラルネットワークに副次的負担が課されないという利点がある。 実験的評価では,RSGの有効性を検証した。 さらに、RSGを活用して、不均衡なCIFARとPlaces-LT、ImageNet-LT、iNaturalist 2018の新たな最先端結果の競合結果を得る。 ソースコードはhttps://github.com/J ianf-Wang/RSGで入手できる。

Imbalanced datasets widely exist in practice and area great challenge for training deep neural models with agood generalization on infrequent classes. In this work, wepropose a new rare-class sample generator (RSG) to solvethis problem. RSG aims to generate some new samplesfor rare classes during training, and it has in particularthe following advantages: (1) it is convenient to use andhighly versatile, because it can be easily integrated intoany kind of convolutional neural network, and it works wellwhen combined with different loss functions, and (2) it isonly used during the training phase, and therefore, no ad-ditional burden is imposed on deep neural networks duringthe testing phase. In extensive experimental evaluations, weverify the effectiveness of RSG. Furthermore, by leveragingRSG, we obtain competitive results on Imbalanced CIFARand new state-of-the-art results on Places-LT, ImageNet-LT, and iNaturalist 2018. The source code is available at https://github.com/J ianf-Wang/RSG.
翻訳日:2021-06-22 01:27:19 公開日:2021-06-18
# (参考訳) 技術支援レビューのためのヒューリスティック停止ルール [全文訳有]

Heuristic Stopping Rules For Technology-Assisted Review ( http://arxiv.org/abs/2106.09871v1 )

ライセンス: CC BY 4.0
Eugene Yang and David D. Lewis and Ophir Frieder(参考訳) technology-assisted review(tar)は、大規模なコレクションで関連するドキュメントを見つけるための、ループ内アクティブラーニングワークフローである。 これらのワークフローは、しばしば見つかった関連するドキュメントの割合(例えば)のターゲットを満たさなければならない。 コストを抑えると同時に、コストを下げる。 様々なヒューリスティックな停止規則が、特定の設定でこのトレードオフを打つために提案されているが、様々なリコールターゲットやタスクに対してテストされていない。 本研究では,調査研究から得られたモデルに基づく推定手法に基づいて,新しいヒューリスティックな停止規則であるQuantCIとQuantCIを提案する。 提案するヒューリスティックとの比較を行い,リコール目標の精度を検証し,レビューコストを大幅に削減した。

Technology-assisted review (TAR) refers to human-in-the-loop active learning workflows for finding relevant documents in large collections. These workflows often must meet a target for the proportion of relevant documents found (i.e. recall) while also holding down costs. A variety of heuristic stopping rules have been suggested for striking this tradeoff in particular settings, but none have been tested against a range of recall targets and tasks. We propose two new heuristic stopping rules, Quant and QuantCI based on model-based estimation techniques from survey research. We compare them against a range of proposed heuristics and find they are accurate at hitting a range of recall targets while substantially reducing review costs.
翻訳日:2021-06-22 01:12:55 公開日:2021-06-18
# (参考訳) トランスを用いた動的グラフの異常検出 [全文訳有]

Anomaly Detection in Dynamic Graphs via Transformer ( http://arxiv.org/abs/2106.09876v1 )

ライセンス: CC BY 4.0
Yixin Liu, Shirui Pan, Yu Guang Wang, Fei Xiong, Liang Wang, Vincent CS Lee(参考訳) 動的グラフの異常検出は、ソーシャルネットワーク、eコマース、サイバーセキュリティに広く応用されているため、注目を集めている。 最近のディープラーニングベースのアプローチは、浅いメソッドに対して有望な結果を示している。 しかし、非分散ノードに対する情報符号化の欠如と、結合した時空間動的グラフから知識を識別することの難しさという、動的グラフにおける異常検出の2つの主要な課題に対処できなかった。 これらの課題を克服するために,本稿では動的グラフ(taddy)のためのトランスフォーマティブに基づく異常検出フレームワークを提案する。 本フレームワークは,進化するグラフストリームにおける各ノードの構造的役割と時間的役割をよりよく表現するための包括的ノード符号化戦略を構築する。 一方、TADDYは動的グラフ変換器モデルを用いて、時空間パターンを結合した動的グラフから情報表現をキャプチャする。 提案したTADDYフレームワークは,4つの実世界のデータセットに対して,最先端の手法よりも大きなマージンで優れていることを示す。

Detecting anomalies for dynamic graphs has drawn increasing attention due to their wide applications in social networks, e-commerce, and cybersecurity. The recent deep learning-based approaches have shown promising results over shallow methods. However, they fail to address two core challenges of anomaly detection in dynamic graphs: the lack of informative encoding for unattributed nodes and the difficulty of learning discriminate knowledge from coupled spatial-temporal dynamic graphs. To overcome these challenges, in this paper, we present a novel Transformer-based Anomaly Detection framework for DYnamic graph (TADDY). Our framework constructs a comprehensive node encoding strategy to better represent each node's structural and temporal roles in an evolving graphs stream. Meanwhile, TADDY captures informative representation from dynamic graphs with coupled spatial-temporal patterns via a dynamic graph transformer model. The extensive experimental results demonstrate that our proposed TADDY framework outperforms the state-of-the-art methods by a large margin on four real-world datasets.
翻訳日:2021-06-22 00:58:36 公開日:2021-06-18
# (参考訳) 深部自己回帰ネットワークを用いたバッチ多重忠実ベイズ最適化 [全文訳有]

Batch Multi-Fidelity Bayesian Optimization with Deep Auto-Regressive Networks ( http://arxiv.org/abs/2106.09884v1 )

ライセンス: CC BY 4.0
Shibo Li, Robert M. Kirby, Shandian Zhe(参考訳) ベイズ最適化(BO)はブラックボックスと高価な評価関数を最適化するための強力なアプローチである。 コストと精度の間の柔軟なトレードオフを可能にするため、多くのアプリケーションは異なる忠実度で関数を評価することができる。 本稿では,利益コスト比を最大化しつつ最適化コストを削減するため,深層自己回帰ネットワーク(bmbo-darn)を用いたバッチマルチ忠実度ベイズ最適化を提案する。 ベイズニューラルネットワークの集合を用いて、完全自己回帰モデルを構築する。これは全ての忠実度にわたる強いが複雑な関係を捉え、サロゲート学習と最適化性能を改善するのに十分な表現である。 さらに,問合せの質と多様性を高めるため,組合わせ検索を必要とせず,簡便で効率的なバッチ問合せ手法を開発した。 我々は,高相関なクエリをペナルティ化し,多様性を促進するMax-value Entropy Search(MES)原理に基づくバッチ取得関数を提案する。 後続サンプルとモーメントマッチングを用いて、取得関数の効率的な計算を達成し、各ステップで改善が保証されるフィデリティとインプットのペア毎に交互に最適化を行う。 実世界のハイパーパラメータ最適化におけるアプローチの利点を実証する。

Bayesian optimization (BO) is a powerful approach for optimizing black-box, expensive-to-evaluat e functions. To enable a flexible trade-off between the cost and accuracy, many applications allow the function to be evaluated at different fidelities. In order to reduce the optimization cost while maximizing the benefit-cost ratio, in this paper, we propose Batch Multi-fidelity Bayesian Optimization with Deep Auto-Regressive Networks (BMBO-DARN). We use a set of Bayesian neural networks to construct a fully auto-regressive model, which is expressive enough to capture strong yet complex relationships across all the fidelities, so as to improve the surrogate learning and optimization performance. Furthermore, to enhance the quality and diversity of queries, we develop a simple yet efficient batch querying method, without any combinatorial search over the fidelities. We propose a batch acquisition function based on Max-value Entropy Search (MES) principle, which penalizes highly correlated queries and encourages diversity. We use posterior samples and moment matching to fulfill efficient computation of the acquisition function and conduct alternating optimization over every fidelity-input pair, which guarantees an improvement at each step. We demonstrate the advantage of our approach on four real-world hyperparameter optimization applications.
翻訳日:2021-06-22 00:34:57 公開日:2021-06-18
# (参考訳) 新型コロナウイルス(covid-19)のスクリーニングを支援する自律航法ロボットの開発 [全文訳有]

Development of a conversing and body temperature scanning autonomously navigating robot to help screen for COVID-19 ( http://arxiv.org/abs/2106.09894v1 )

ライセンス: CC BY 4.0
Ryan Kim(参考訳) 新型コロナウイルス(COVID-19)のパンデミックを通じて、患者が提示する最も一般的な症状は発熱であり、ウイルスの潜在的なキャリアーを検出するための予防措置として温度スキャンが使用される。 ハンドヘルド温度計を持つ人間の従業員は、このタスクを果たすのに使われてきたが、物理的に距離が取れず、この手法のシーケンシャルな性質が大きな不便と非効率をもたらすため、危険にさらされている。 提案したソリューションは、患者の温度を会話してスキャンして発熱を検出し、新型コロナウイルスのスクリーニングを支援する自律走行ロボットである。 この目的を達成するためには、(1)自律的なナビゲート、(2)人の検出と追跡、(3)38{\deg}cを超えると個人の体温の読み取りと会話ができること、(2)自律的なナビゲートを行う移動ロボットは、顔追跡アルゴリズムで制御されたマニピュレータと、サーマルカメラ、スマートフォン、チャットボットからなるエンドエフェクタとで使用される必要がある。 目標は、上記のタスクを実行する機能ソリューションを開発することです。 さらに、遭遇した技術的課題とそのエンジニアリングソリューションが提示され、商業化に近づく際に組み込むことができる拡張のために推奨される。

Throughout the COVID-19 pandemic, the most common symptom displayed by patients has been a fever, leading to the use of temperature scanning as a preemptive measure to detect potential carriers of the virus. Human employees with handheld thermometers have been used to fulfill this task, however this puts them at risk as they cannot be physically distanced and the sequential nature of this method leads to great inconveniences and inefficiency. The proposed solution is an autonomously navigating robot capable of conversing and scanning people's temperature to detect fevers and help screen for COVID-19. To satisfy this objective, the robot must be able to (1) navigate autonomously, (2) detect and track people, and (3) get individuals' temperature reading and converse with them if it exceeds 38{\deg}C. An autonomously navigating mobile robot is used with a manipulator controlled using a face tracking algorithm, and an end effector consisting of a thermal camera, smartphone, and chatbot. The goal is to develop a functioning solution that performs the above tasks. In addition, technical challenges encountered and their engineering solutions will be presented, and recommendations will be made for enhancements that could be incorporated when approaching commercialization.
翻訳日:2021-06-22 00:17:26 公開日:2021-06-18
# (参考訳) 光は嘘:光敵の攻撃 [全文訳有]

Light Lies: Optical Adversarial Attack ( http://arxiv.org/abs/2106.09908v1 )

ライセンス: CC BY 4.0
Kyu-Lim Kim, Jeong-Soo Kim, Seung-Ri Song, Jun-Ho Choi, Chul-Min Joo, Jong-Seok Lee(参考訳) 画像に知覚不能なノイズを注入し、深層モデルの画像分類性能を低下させる敵対的攻撃について、かなりの量の研究がなされている。 しかし、既存の研究の多くは、サンプリングと量子化を伴う画像センサが取得した画像が記録されたデジタル(ピクセル)領域での攻撃について検討している。 本稿では,画像センサに到達した光界情報を物理的に変化させて,分類モデルが誤分類を生じさせる光学対向攻撃を初めて導入する。 具体的には、写真システムに配置された空間光変調器を用いて、フーリエ領域の光の位相を変調する。 勾配に基づく最適化により変調器の動作パラメータを求め、クロスエントロピーを最大化し、歪みを最小化する。 そこで本研究では,シミュレーションと実ハードウェア光システムの両方に基づき,提案する光攻撃の可能性を示す実験を行う。 また, 提案した攻撃は, 球面収差, デフォーカス, アシグマティズムなどの一般的な光学領域歪みと, 摂動パターンと分類結果の両面では全く異なることが確認された。

A significant amount of work has been done on adversarial attacks that inject imperceptible noise to images to deteriorate the image classification performance of deep models. However, most of the existing studies consider attacks in the digital (pixel) domain where an image acquired by an image sensor with sampling and quantization has been recorded. This paper, for the first time, introduces an optical adversarial attack, which physically alters the light field information arriving at the image sensor so that the classification model yields misclassification. More specifically, we modulate the phase of the light in the Fourier domain using a spatial light modulator placed in the photographic system. The operative parameters of the modulator are obtained by gradient-based optimization to maximize cross-entropy and minimize distortions. We present experiments based on both simulation and a real hardware optical system, from which the feasibility of the proposed optical attack is demonstrated. It is also verified that the proposed attack is completely different from common optical-domain distortions such as spherical aberration, defocus, and astigmatism in terms of both perturbation patterns and classification results.
翻訳日:2021-06-22 00:07:45 公開日:2021-06-18
# (参考訳) 不適切であること

Being Properly Improper ( http://arxiv.org/abs/2106.09920v1 )

ライセンス: CC BY 4.0
Richard Nock, Tyler Sypherd, Lalitha Sankar(参考訳) 今日のMLでは、データは、悪いものでも良いものでも、さまざまな方法でツイスト(変更)することができる。 このようなツイストされたデータは、クラス確率推定の多くの一般的な損失の基礎となる教師付き損失の正当性の確立理論に挑戦する。 残念なことに、その核心である適切性は、最適なモデルもツイストを学習することを保証する。 本稿では,これらのクラス確率に基づく損失を,それらが必須の正当性から切り離されたときに解析し,ストロークプロペラ損失を,ストロークから最適(未変更)推定値を取り出すことができる損失として定義し,S. 有本が導入した半世紀の古い損失の自然な延長が適当であることを示す。 そして、適切な損失を減らし、加速するために最適なアルゴリズムをいくつか提供した理論に目を向ける。 ブースティングは、例の重みを計算するために損失の凸共役の導関数にアクセスする必要がある。 そのような関数は計算的あるいは数学的理由から取得することは困難であり、これは有本が失った場合である。 この難しさを回避して、次のような問題を反転させる。 一般的な重み付け更新関数でブループリントブースティングアルゴリズムを実装したと仮定する。 ブースティング準拠の最小化が生じる損失は何か? 我々の解は、弱い学習者への呼び出し数に対する最適なブースティング依存性を満たす一般的なブースティングアルゴリズムとして現れ、有元の損失に適用すると、いくつかのドメインとツイストでパフォーマンスを示す単純な最適化アルゴリズムに繋がる。

In today's ML, data can be twisted (changed) in various ways, either for bad or good intent. Such twisted data challenges the founding theory of properness for supervised losses which form the basis for many popular losses for class probability estimation. Unfortunately, at its core, properness ensures that the optimal models also learn the twist. In this paper, we analyse such class probability-based losses when they are stripped off the mandatory properness; we define twist-proper losses as losses formally able to retrieve the optimum (untwisted) estimate off the twists, and show that a natural extension of a half-century old loss introduced by S. Arimoto is twist proper. We then turn to a theory that has provided some of the best off-the-shelf algorithms for proper losses, boosting. Boosting can require access to the derivative of the convex conjugate of a loss to compute examples weights. Such a function can be hard to get, for computational or mathematical reasons; this turns out to be the case for Arimoto's loss. We bypass this difficulty by inverting the problem as follows: suppose a blueprint boosting algorithm is implemented with a general weight update function. What are the losses for which boosting-compliant minimisation happens? Our answer comes as a general boosting algorithm which meets the optimal boosting dependence on the number of calls to the weak learner; when applied to Arimoto's loss, it leads to a simple optimisation algorithm whose performances are showcased on several domains and twists.
翻訳日:2021-06-21 23:57:24 公開日:2021-06-18
# (参考訳) グラフベース共同パンデミック懸念とtwitterの関係抽出 [全文訳有]

Graph-based Joint Pandemic Concern and Relation Extraction on Twitter ( http://arxiv.org/abs/2106.09929v1 )

ライセンス: CC BY 4.0
Jingli Shi, Weihua Li, Sira Yongchareon, Yi Yang and Quan Bai(参考訳) 公衆の関心事検出は、パンデミックの流行前後の危機管理に関する当局への潜在的ガイダンスを提供する。 オンラインソーシャルメディアプラットフォームから人々の懸念や注意を検知することは、パニックを緩和し、社会危機を防ぐ効果的なアプローチとして広く認識されている。 しかし、ソーシャルメディアで大量の情報から時間的関心事を検出することは、特に、手動でラベル付けされたデータが公衆衛生上の緊急事態(例えばCOVID-19)の欠如にある場合、大きな課題であることが判明した。 本稿では,グラフ畳み込みネットワークと2方向長短期記憶を統合した,人々の関心事とそれに対応する関係を識別する,新たなエンド・ツー・エンドのディープラーニングモデルを提案する。 BERT埋め込みの連続的な特徴を除いて、ツイートの局所的特徴は、関心グラフモジュールによって抽出することができる。 したがって,このモデルでは,手作業によるラベル付データ不足の問題に対処できる。 我々は,手動ラベル付きツイートと自動ラベル付きツイートの両方を用いて,提案モデルを評価するための広範囲な実験を行った。 実験の結果,本モデルは実世界のデータセットにおける最先端モデルよりも優れることがわかった。

Public concern detection provides potential guidance to the authorities for crisis management before or during a pandemic outbreak. Detecting people's concerns and attention from online social media platforms has been widely acknowledged as an effective approach to relieve public panic and prevent a social crisis. However, detecting concerns in time from massive information in social media turns out to be a big challenge, especially when sufficient manually labeled data is in the absence of public health emergencies, e.g., COVID-19. In this paper, we propose a novel end-to-end deep learning model to identify people's concerns and the corresponding relations based on Graph Convolutional Network and Bi-directional Long Short Term Memory integrated with Concern Graph. Except for the sequential features from BERT embeddings, the regional features of tweets can be extracted by the Concern Graph module, which not only benefits the concern detection but also enables our model to be high noise-tolerant. Thus, our model can address the issue of insufficient manually labeled data. We conduct extensive experiments to evaluate the proposed model by using both manually labeled tweets and automatically labeled tweets. The experimental results show that our model can outperform the state-of-art models on real-world datasets.
翻訳日:2021-06-21 23:56:08 公開日:2021-06-18
# (参考訳) BinarizedAttack: グラフベースの異常検出に対する構造的攻撃 [全文訳有]

BinarizedAttack: Structural Poisoning Attacks to Graph-based Anomaly Detection ( http://arxiv.org/abs/2106.09989v1 )

ライセンス: CC BY 4.0
Yulin Zhu, Yuni Lai, Kaifa Zhao, Xiapu Luo, Mingquan Yuan, Jian Ren, Kai Zhou(参考訳) グラフに基づく異常検出(GAD)は,グラフの強力な表現能力と近年のグラフマイニング技術の進歩により普及しつつある。 しかし、これらのGADツールは、データ間の関係を活用できるというユニークな利点のために、新たな攻撃面を公開する。 つまり、攻撃者はこれらの関係(すなわちグラフの構造)を操作でき、いくつかのターゲットノードが検出を回避できる。 本稿では,この脆弱性を,代表的な回帰型gadシステムであるoddballに対して,新しい種類の標的構造中毒攻撃を設計することで活用する。 特に,二段階最適化問題としてオッドボールに対する攻撃を定式化し,離散領域において問題を効率的に解くことが重要な技術的課題である。 勾配降下に基づくBinarizedAttackと呼ばれる新しい攻撃手法を提案する。 先行技術と比較して、BinarizedAttackは勾配情報をうまく利用でき、組合せ最適化問題の解決に特に適している。 さらに,BinarizedAttackの攻撃伝達性を他の表現学習に基づくGADシステムへの攻撃に利用して検討する。 我々は,攻撃者の予算を制限したグラフに基づく異常検出ツールの回避にbinarizedattackが有効であることを示すとともに,black-box transfer attack設定ではbinarizedattackも効果的にテストされ,特にgadシステムによって学習されたノード埋め込みを著しく変えることができることを示した。 我々の研究は、グラフデータに依存するセキュリティ分析ツールに対する新たなタイプの攻撃を研究するための扉を開く。

Graph-based Anomaly Detection (GAD) is becoming prevalent due to the powerful representation abilities of graphs as well as recent advances in graph mining techniques. These GAD tools, however, expose a new attacking surface, ironically due to their unique advantage of being able to exploit the relations among data. That is, attackers now can manipulate those relations (i.e., the structure of the graph) to allow some target nodes to evade detection. In this paper, we exploit this vulnerability by designing a new type of targeted structural poisoning attacks to a representative regression-based GAD system termed OddBall. Specially, we formulate the attack against OddBall as a bi-level optimization problem, where the key technical challenge is to efficiently solve the problem in a discrete domain. We propose a novel attack method termed BinarizedAttack based on gradient descent. Comparing to prior arts, BinarizedAttack can better use the gradient information, making it particularly suitable for solving combinatorial optimization problems. Furthermore, we investigate the attack transferability of BinarizedAttack by employing it to attack other representation-learn ing-based GAD systems. Our comprehensive experiments demonstrate that BinarizedAttack is very effective in enabling target nodes to evade graph-based anomaly detection tools with limited attackers' budget, and in the black-box transfer attack setting, BinarizedAttack is also tested effective and in particular, can significantly change the node embeddings learned by the GAD systems. Our research thus opens the door to studying a new type of attack against security analytic tools that rely on graph data.
翻訳日:2021-06-21 23:37:55 公開日:2021-06-18
# (参考訳) 対実的説明と反対例の関連について [全文訳有]

On the Connections between Counterfactual Explanations and Adversarial Examples ( http://arxiv.org/abs/2106.09992v1 )

ライセンス: CC BY 4.0
Martin Pawelczyk, Shalmali Joshi, Chirag Agarwal, Sohini Upadhyay, Himabindu Lakkaraju(参考訳) 機械学習(ML)の説明可能性と堅牢性に対処するための重要な研究分野として、カウンターファクトな説明と反対例が出現している。 アルゴリズムによる決定に悪影響を及ぼす個人に会話を提供することを目的として、反実的な説明が開発されたが、敵対的な例はMLモデルの脆弱性を明らかにするように設計された。 従来の研究ではこれらの枠組みの共通点が示唆されているが、反実的な説明と敵対的な事例に関する文献間の関係を体系的に探究する作業はほとんど行われていない。 本研究は, 対実的説明と敵対的事例との間の関係を形式化するための最初の試みである。 より具体的には、理論的に正反対の説明と反対例生成法を分析し、それらが同様に振る舞う条件を明らかにする。 分析の結果,wachterらによって提唱されたような反事実的説明や逆例生成手法がいくつか提案されている。 アル and Carlini and Wagner (平均2乗誤差損失) and C-CHVAE and natural adversarial examples by Zhao et。 アル 同等です 我々はまた、Wachterらによって生成された反実的説明と敵対的な例の間の距離を拘束する。 アル 線形モデルのためのdeepfool法です 最後に,合成および実世界のデータセットを用いた広範囲な実験により理論的知見を実証的に検証した。

Counterfactual explanations and adversarial examples have emerged as critical research areas for addressing the explainability and robustness goals of machine learning (ML). While counterfactual explanations were developed with the goal of providing recourse to individuals adversely impacted by algorithmic decisions, adversarial examples were designed to expose the vulnerabilities of ML models. While prior research has hinted at the commonalities between these frameworks, there has been little to no work on systematically exploring the connections between the literature on counterfactual explanations and adversarial examples. In this work, we make one of the first attempts at formalizing the connections between counterfactual explanations and adversarial examples. More specifically, we theoretically analyze salient counterfactual explanation and adversarial example generation methods, and highlight the conditions under which they behave similarly. Our analysis demonstrates that several popular counterfactual explanation and adversarial example generation methods such as the ones proposed by Wachter et. al. and Carlini and Wagner (with mean squared error loss), and C-CHVAE and natural adversarial examples by Zhao et. al. are equivalent. We also bound the distance between counterfactual explanations and adversarial examples generated by Wachter et. al. and DeepFool methods for linear models. Finally, we empirically validate our theoretical findings using extensive experimentation with synthetic and real world datasets.
翻訳日:2021-06-21 23:16:18 公開日:2021-06-18
# (参考訳) グラフ畳み込みネットワークを用いた等分散ブリッジSO(2)不変表現学習 [全文訳有]

Equivariance-bridged SO(2)-Invariant Representation Learning using Graph Convolutional Network ( http://arxiv.org/abs/2106.09996v1 )

ライセンス: CC BY 4.0
Sungwon Hwang, Hyungtae Lim and Hyun Myung(参考訳) 回転に対して堅牢な畳み込みニューラルネットワーク(CNN)のトレーニングは、主にデータ拡張で行われている。 本稿では、ネットワークの構造的回転不変性を実現することにより、データ拡張への依存を減らすために、研究方向の別の進歩的なビジョンを強調する。 深い等分散架橋SO(2)不変ネットワークは、そのようなビジョンを反映するために提案される。 まず,画像のグラフ表現にグラフ畳み込みネットワーク(gcn)を実装するために,自己重み付き近辺グラフ畳み込みネットワーク(swn-gcn)を提案する。 その後、SWN-GCNから取得した頂点の同変集合に対して、高次元表現の集約に適した置換不変演算であるGlobal Average Pooling (GAP) を用いて不変表現を得る。 本手法は,MNIST と CIFAR-10 の回転画像上での最先端画像分類性能を実現する。 表現の不変性に対する定量的検証は、回転上のSWN-GCNの深い表現の強い不変性を示す。

Training a Convolutional Neural Network (CNN) to be robust against rotation has mostly been done with data augmentation. In this paper, another progressive vision of research direction is highlighted to encourage less dependence on data augmentation by achieving structural rotational invariance of a network. The deep equivariance-bridged SO(2) invariant network is proposed to echo such vision. First, Self-Weighted Nearest Neighbors Graph Convolutional Network (SWN-GCN) is proposed to implement Graph Convolutional Network (GCN) on the graph representation of an image to acquire rotationally equivariant representation, as GCN is more suitable for constructing deeper network than spectral graph convolution-based approaches. Then, invariant representation is eventually obtained with Global Average Pooling (GAP), a permutation-invarian t operation suitable for aggregating high-dimensional representations, over the equivariant set of vertices retrieved from SWN-GCN. Our method achieves the state-of-the-art image classification performance on rotated MNIST and CIFAR-10 images, where the models are trained with a non-augmented dataset only. Quantitative validations over invariance of the representations also demonstrate strong invariance of deep representations of SWN-GCN over rotations.
翻訳日:2021-06-21 22:49:57 公開日:2021-06-18
# (参考訳) ニューラルネットワークにおけるレイヤの繰り返し積み重ね:ニューラルマシン翻訳への応用 [全文訳有]

Recurrent Stacking of Layers in Neural Networks: An Application to Neural Machine Translation ( http://arxiv.org/abs/2106.10002v1 )

ライセンス: CC BY-SA 4.0
Raj Dabre and Atsushi Fujita(参考訳) ディープニューラルネットワークモデリングにおいて、最も一般的なプラクティスは、複数の繰り返し、畳み込み、フィードフォワード層を積み重ねて高品質な連続空間表現を得ることであり、それによってネットワークの予測の質が向上する。 従来、スタックの各レイヤは独自のパラメータを持ち、モデルパラメータの数を大幅に増加させる。 本稿では,全ての層にパラメータを共有することで,繰り返し積み重ねられたニューラルネットワークモデルを実現することを提案する。 本稿では,提案手法をエンコーダ・デコーダに基づくニューラルネットワークモデル,すなわちトランスフォーマモデルに適用し,3つの日英翻訳データセットを実験する,ニューラルネットワーク翻訳(nmt)に関する広範なケーススタディについて報告する。 実験により,単一層を反復的にスタックするモデルの翻訳品質は,パラメータが著しく少ないにもかかわらず,各層が異なるパラメータを持つ6層をスタックするモデルにアプローチすることを示す。 また、非常に深いNMTモデルをトレーニングする繰り返し積み重ねの限界についても検討する。 また,本論文では,事前学習したパラメータと知識蒸留を利用して,学生モデルとしての繰り返し積み重ねモデルの有用性を検証し,反復積み重ねモデルの直接訓練がもたらす翻訳品質の低下を補うことを示す。 また、繰り返し積み重ねによるパラメータの減少に加えて、転送学習が高速な復号化にどう役立つかを示す。 最後に,繰り返し積み重ねられたレイヤとそうでないモデルを用いて,モデルの注意を可視化することにより,繰り返し積み重ねられたレイヤの効果を分析する。

In deep neural network modeling, the most common practice is to stack a number of recurrent, convolutional, or feed-forward layers in order to obtain high-quality continuous space representations which in turn improves the quality of the network's prediction. Conventionally, each layer in the stack has its own parameters which leads to a significant increase in the number of model parameters. In this paper, we propose to share parameters across all layers thereby leading to a recurrently stacked neural network model. We report on an extensive case study on neural machine translation (NMT), where we apply our proposed method to an encoder-decoder based neural network model, i.e., the Transformer model, and experiment with three Japanese--English translation datasets. We empirically demonstrate that the translation quality of a model that recurrently stacks a single layer 6 times, despite having significantly fewer parameters, approaches that of a model that stacks 6 layers where each layer has different parameters. We also explore the limits of recurrent stacking where we train extremely deep NMT models. This paper also examines the utility of our recurrently stacked model as a student model through transfer learning via leveraging pre-trained parameters and knowledge distillation, and shows that it compensates for the performance drops in translation quality that the direct training of recurrently stacked model brings. We also show how transfer learning helps in faster decoding on top of the already reduced number of parameters due to recurrent stacking. Finally, we analyze the effects of recurrently stacked layers by visualizing the attentions of models that use recurrently stacked layers and models that do not.
翻訳日:2021-06-21 22:38:02 公開日:2021-06-18
# (参考訳) 南アフリカのランドスケープにおける金融感情分析に向けて [全文訳有]

Towards Financial Sentiment Analysis in a South African Landscape ( http://arxiv.org/abs/2106.10004v1 )

ライセンス: CC BY 4.0
Michelle Terblanche and Vukosi Marivate(参考訳) 自然言語処理のサブ分野としての感性分析は、過去10年間に注目を集めており、組織はオンラインメディア監視を通じて、より効果的に評判を管理することができる。 しかし、多くのドライバーが評判に影響を与えるが、この論文は金融パフォーマンスの側面のみに焦点を当て、南アフリカの文脈で金融感情分析に関するギャップを探求する。 その結果、事前学習された感情分析者はこのタスクに最も効果が低く、従来のレキシコンベースと機械学習のアプローチはニュース記事の財務的な感情を予測するのに最適であることがわかった。 評価方法は, 84\%-94\%の精度を示した。 予測されたセンチメントは株価と非常によく相関し、財務業績の指標として感情の潜在的利用を強調した。 この研究の主な貢献は、金融感情分析のために既存の感情辞書を更新することだった。 モデル一般化は、使用したトレーニングデータが少ないため、受け入れられなかった。 今後の作業には、データセットを拡張して一般ユーザビリティを改善し、南アフリカのデータのオープンソースの財務感情分析ツールに貢献することが含まれる。

Sentiment analysis as a sub-field of natural language processing has received increased attention in the past decade enabling organisations to more effectively manage their reputation through online media monitoring. Many drivers impact reputation, however, this thesis focuses only the aspect of financial performance and explores the gap with regards to financial sentiment analysis in a South African context. Results showed that pre-trained sentiment analysers are least effective for this task and that traditional lexicon-based and machine learning approaches are best suited to predict financial sentiment of news articles. The evaluated methods produced accuracies of 84\%-94\%. The predicted sentiments correlated quite well with share price and highlighted the potential use of sentiment as an indicator of financial performance. A main contribution of the study was updating an existing sentiment dictionary for financial sentiment analysis. Model generalisation was less acceptable due to the limited amount of training data used. Future work includes expanding the data set to improve general usability and contribute to an open-source financial sentiment analyser for South African data.
翻訳日:2021-06-21 22:14:34 公開日:2021-06-18
# (参考訳) 音声分類のための新しいクラスによるゼロショットフェデレーション学習 [全文訳有]

Zero-Shot Federated Learning with New Classes for Audio Classification ( http://arxiv.org/abs/2106.10019v1 )

ライセンス: CC BY 4.0
Gautham Krishna Gudur, Satheesh K. Perepu(参考訳) 連合学習は、ユーザーのプライバシーを保ちながら、異なるユーザーデバイスから洞察を抽出する効果的な方法である。 しかし、完全に見えないデータ分散を持つ新しいクラスは、グローバルサーバや他のユーザによってアクセスできないフェデレートされた学習環境で、任意のデバイスにストリームすることができる。 そこで本研究では,これらの課題に対処するための統合ゼロショットフレームワークを提案する。 1)新しいクラスラベルがユーザによって報告されない場合、従来のFL設定が使用される。2)新しいクラスラベルがユーザによって報告されると、各デバイスの新しいクラスに対応するクラス類似度行列を計算し、匿名化されたデータ印象を合成し、次に教師なしクラスタリングを行い、異なるユーザ間で新しいクラスを区別する。 さらに,提案フレームワークは,参加ユーザ間のラベルおよびモデル間の統計的不均一性も扱える。 我々は、異なる通信ラウンド(flイテレーション)にまたがる我々のフレームワークを実験的に評価し、ローカルとグローバルの両方のアップデートと異種ラベルとモデルの両方で新しいクラスと、広く使われている2つのオーディオ分類アプリケーション(キーワードスポッティングと都市音の分類)で評価し、平均決定論的精度が ~4.041% と ~4.258% の上昇を観測した。

Federated learning is an effective way of extracting insights from different user devices while preserving the privacy of users. However, new classes with completely unseen data distributions can stream across any device in a federated learning setting, whose data cannot be accessed by the global server or other users. To this end, we propose a unified zero-shot framework to handle these aforementioned challenges during federated learning. We simulate two scenarios here -- 1) when the new class labels are not reported by the user, the traditional FL setting is used; 2) when new class labels are reported by the user, we synthesize Anonymized Data Impressions by calculating class similarity matrices corresponding to each device's new classes followed by unsupervised clustering to distinguish between new classes across different users. Moreover, our proposed framework can also handle statistical heterogeneities in both labels and models across the participating users. We empirically evaluate our framework on-device across different communication rounds (FL iterations) with new classes in both local and global updates, along with heterogeneous labels and models, on two widely used audio classification applications -- keyword spotting and urban sound classification, and observe an average deterministic accuracy increase of ~4.041% and ~4.258% respectively.
翻訳日:2021-06-21 22:03:51 公開日:2021-06-18
# (参考訳) 確率凸凸ミニマックス問題に対する局所アダグラード型アルゴリズム [全文訳有]

Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax Problems ( http://arxiv.org/abs/2106.10022v1 )

ライセンス: CC BY 4.0
Luofeng Liao, Li Shen, Jia Duan, Mladen Kolar, Dacheng Tao(参考訳) 大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。 その適用範囲は広いが、既存の確率的ミニマックス法を用いて大量のデータが存在する場合、効率的かつ効果的に解決することは困難である。 パラメーターサーバモデルにおける凸凹最小値問題の解法に適した適応学習率を用いて,確率最小値のクラスを調査し,通信効率のよい分散確率極値分解アルゴリズムであるLocalAdaSEGを開発した。 localadasegには3つの主な特徴がある: (i) 周期的通信戦略は、ワーカーとサーバ間の通信コストを削減し、 (ii) ローカルに計算され、チューニングフリーな実装を可能にする適応的学習率、そして (iii) 理論的には、確率的勾配の推定から生じる支配的分散項に対するほぼ線形なスピードアップは、滑らかな凸凸凹設定の両方において証明される。 LocalAdaSEGは確率的双線形ゲームを解くために使われ、生成的敵ネットワークを訓練する。 そこで我々はLocalAdaSEGを,ミニマックス問題に対するいくつかの既存最適化器と比較し,同種および異種両方の設定において,その有効性を示す。

Large scale convex-concave minimax problems arise in numerous applications, including game theory, robust training, and training of generative adversarial networks. Despite their wide applicability, solving such problems efficiently and effectively is challenging in the presence of large amounts of data using existing stochastic minimax methods. We study a class of stochastic minimax methods and develop a communication-effici ent distributed stochastic extragradient algorithm, LocalAdaSEG, with an adaptive learning rate suitable for solving convex-concave minimax problem in the Parameter-Server model. LocalAdaSEG has three main features: (i) periodic communication strategy reduces the communication cost between workers and the server; (ii) an adaptive learning rate that is computed locally and allows for tuning-free implementation; and (iii) theoretically, a nearly linear speed-up with respect to the dominant variance term, arising from estimation of the stochastic gradient, is proven in both the smooth and nonsmooth convex-concave settings. LocalAdaSEG is used to solve a stochastic bilinear game, and train generative adversarial network. We compare LocalAdaSEG against several existing optimizers for minimax problems and demonstrate its efficacy through several experiments in both the homogeneous and heterogeneous settings.
翻訳日:2021-06-21 21:52:34 公開日:2021-06-18
# (参考訳) 微分可能なスパイクネットワークシミュレータを用いたニューラルネットワークの要約統計の適合化 [全文訳有]

Fitting summary statistics of neural data with a differentiable spiking network simulator ( http://arxiv.org/abs/2106.10064v1 )

ライセンス: CC BY 4.0
Guillaume Bellec, Shuqi Wang, Alireza Modirshanechi, Johanni Brea, Wulfram Gerstner(参考訳) 神経活動にネットワークモデルを適用することは、神経科学の重要なツールになりつつある。 一般的なアプローチは、記録された活動の可能性を最大化するパラメータを持つ確率論的リカレントスパイクネットワークで脳領域をモデル化することである。 これは広く用いられているが、得られたモデルが現実的な神経活動を生成していないことを示し、記録されていないニューロンが記録されたネットワークに重大な影響を与える場合に、接続行列を誤って推定する。 このことを正すために,シミュレーションと記録された活動の類似性を測定する用語を用いて,ログの類似性を高めることを提案する。 この相違性は神経科学でよく用いられる要約統計によって定義され、その最適化は確率的にシミュレートされたスパイク列車によるバックプロパゲーションに依存するため効率的である。 本手法を理論的に解析し,より現実的な活動統計を生成し,他の手法よりも接続マトリックスを回復できることを実証的に示す。

Fitting network models to neural activity is becoming an important tool in neuroscience. A popular approach is to model a brain area with a probabilistic recurrent spiking network whose parameters maximize the likelihood of the recorded activity. Although this is widely used, we show that the resulting model does not produce realistic neural activity and wrongly estimates the connectivity matrix when neurons that are not recorded have a substantial impact on the recorded network. To correct for this, we suggest to augment the log-likelihood with terms that measure the dissimilarity between simulated and recorded activity. This dissimilarity is defined via summary statistics commonly used in neuroscience, and the optimization is efficient because it relies on back-propagation through the stochastically simulated spike trains. We analyze this method theoretically and show empirically that it generates more realistic activity statistics and recovers the connectivity matrix better than other methods.
翻訳日:2021-06-21 21:13:31 公開日:2021-06-18
# (参考訳) マルチラベルテキスト分類用ラベルマスク [全文訳有]

Label Mask for Multi-Label Text Classification ( http://arxiv.org/abs/2106.10076v1 )

ライセンス: CC BY 4.0
Rui Song, Xingbing Chen, Zelong Liu, Haining An, Zhiqi Zhang, Xiaoguang Wang, Hao Xu(参考訳) マルチラベルテキスト分類の重要な問題の一つは、ラベル間の相関を利用した方法である。 しかし、複雑で未知のラベル空間におけるラベル間の相関を直接モデル化することは非常に困難である。 本稿では,言語モデルのクローズ問題から着想を得たラベルマスクマルチラベルテキスト分類モデル(lm-mtc)を提案する。 LM-MTCは、事前訓練言語モデルの強力な能力によってラベル間の暗黙の関係を捉えることができる。 そこで我々は,各潜在的なラベルに異なるトークンを割り当て,そのトークンを特定の確率でランダムにマスクし,ラベルに基づくマスケッド言語モデル(MLM)を構築する。 MTCとMLMを共に訓練し、モデルの一般化能力をさらに向上する。 複数のデータセットで多数の実験を行い,本手法の有効性を実証した。

One of the key problems in multi-label text classification is how to take advantage of the correlation among labels. However, it is very challenging to directly model the correlations among labels in a complex and unknown label space. In this paper, we propose a Label Mask multi-label text classification model (LM-MTC), which is inspired by the idea of cloze questions of language model. LM-MTC is able to capture implicit relationships among labels through the powerful ability of pre-train language models. On the basis, we assign a different token to each potential label, and randomly mask the token with a certain probability to build a label based Masked Language Model (MLM). We train the MTC and MLM together, further improving the generalization ability of the model. A large number of experiments on multiple datasets demonstrate the effectiveness of our method.
翻訳日:2021-06-21 20:53:07 公開日:2021-06-18
# (参考訳) 抽象要約における主観バイアス [全文訳有]

Subjective Bias in Abstractive Summarization ( http://arxiv.org/abs/2106.10084v1 )

ライセンス: CC BY 4.0
Lei Li, Wei Liu, Marina Litvak, Natalia Vanetik, Jiacheng Pei, Yinan Liu, Siya Qi(参考訳) 要約の主観性のため、各訓練文書に複数の金の要約を持つことは良い習慣である。 しかし、現代の大規模な抽象要約データセットの多くは、異なるスタイルの異なる人間によって書かれた1対1のサンプルしか持たない。 この現象の影響は未定である。 同一内容を主観的バイアスとして要約する複数の表現間の差異を定式化し,抽象的要約の文脈におけるバイアスの役割を検討する。 本稿では,主観的スタイルの特徴埋め込みを軽量かつ効果的に抽出する手法を提案する。 スタイルクラスタデータセットでトレーニングされた要約モデルの結果、コンバージェンス、抽象化、一般化に繋がる特定のタイプのスタイルが存在することが示されている。 再現可能なコードと生成された要約はオンラインで入手できる。

Due to the subjectivity of the summarization, it is a good practice to have more than one gold summary for each training document. However, many modern large-scale abstractive summarization datasets have only one-to-one samples written by different human with different styles. The impact of this phenomenon is understudied. We formulate the differences among possible multiple expressions summarizing the same content as subjective bias and examine the role of this bias in the context of abstractive summarization. In this paper a lightweight and effective method to extract the feature embeddings of subjective styles is proposed. Results of summarization models trained on style-clustered datasets show that there are certain types of styles that lead to better convergence, abstraction and generalization. The reproducible code and generated summaries are available online.
翻訳日:2021-06-21 20:46:09 公開日:2021-06-18
# (参考訳) 長期野生ビデオにおけるジェネリックイベント境界の識別 [全文訳有]

Discerning Generic Event Boundaries in Long-Form Wild Videos ( http://arxiv.org/abs/2106.10090v1 )

ライセンス: CC BY 4.0
Ayush K Rai, Tarun Krishna, Julia Dietlmeier, Kevin McGuinness, Alan F Smeaton, Noel E O'Connor(参考訳) ビデオ中の一般的な分類なしのイベント境界を検出することは、全体像の理解に向けた大きな一歩である。 本稿では,ビデオから時空間的特徴を学習可能な2つのストリームインフラット3次元畳み込みアーキテクチャに基づくイベント境界検出手法を提案する。 本研究は,先駆的なイベント境界検出チャレンジ(cvpr2021 long form video understanding-loveuワークショップの一部)から着想を得たものである。

Detecting generic, taxonomy-free event boundaries invideos represents a major stride forward towards holisticvideo understanding. In this paper we present a technique forgeneric event boundary detection based on a two stream in-flated 3D convolutions architecture, which can learn spatio-temporal features from videos. Our work is inspired from theGeneric Event Boundary Detection Challenge (part of CVPR2021 Long Form Video Understanding- LOVEU Workshop).Throughout the paper we provide an in-depth analysis ofthe experiments performed along with an interpretation ofthe results obtained.
翻訳日:2021-06-21 20:35:35 公開日:2021-06-18
# (参考訳) 深部強化学習モデルによる脳の視覚反応予測 : 予備的結果 [全文訳有]

Deep Reinforcement Learning Models Predict Visual Responses in the Brain: A Preliminary Result ( http://arxiv.org/abs/2106.10112v1 )

ライセンス: CC0 1.0
Maytus Piriyajitakonkij, Sirawaj Itthipuripat, Theerawit Wilaiprasitporn, Nat Dilokthanakul(参考訳) supervised deep convolutional neural networks (dcnns) は現在、霊長類の心室視覚ストリームがオブジェクト認識をどのように解決するかを説明する最良の計算モデルの1つである。 しかし、既存の視覚処理モデルでは認識の具体化は考慮されていない。 生態学的観点から、人間はそれらと相互作用することで物体を認識することを学び、より良い分類、専門化、一般化を可能にします。 ここでは,体型学習フレームワークに基づく計算モデルが,既存の教師付きモデルよりも霊長類視覚システムにおける物体認識のメカニズムをうまく説明できるかどうかを問う。 この問題に対処するために、強化学習を用いてニューラルネットワークモデルをトレーニングし、3次元コンピュータゲームをプレイし、これらの強化学習モデルは、教師付きニューラルネットワークモデルに匹敵するレベルにおいて、初期の視覚領域(例えば、V1とV2)で神経応答予測精度のスコアを得る。 対照的に、教師付きニューラルネットワークモデルは強化学習モデルと比較して、より高い視覚領域においてより良い神経応答予測をもたらす。 予備結果は, 視覚神経科学の今後の方向性を示唆するものであり, 体格概念の欠如を補うために, 深層強化学習を含めるべきである。

Supervised deep convolutional neural networks (DCNNs) are currently one of the best computational models that can explain how the primate ventral visual stream solves object recognition. However, embodied cognition has not been considered in the existing visual processing models. From the ecological standpoint, humans learn to recognize objects by interacting with them, allowing better classification, specialization, and generalization. Here, we ask if computational models under the embodied learning framework can explain mechanisms underlying object recognition in the primate visual system better than the existing supervised models? To address this question, we use reinforcement learning to train neural network models to play a 3D computer game and we find that these reinforcement learning models achieve neural response prediction accuracy scores in the early visual areas (e.g., V1 and V2) in the levels that are comparable to those accomplished by the supervised neural network model. In contrast, the supervised neural network models yield better neural response predictions in the higher visual areas, compared to the reinforcement learning models. Our preliminary results suggest the future direction of visual neuroscience in which deep reinforcement learning should be included to fill the missing embodiment concept.
翻訳日:2021-06-21 20:30:33 公開日:2021-06-18
# (参考訳) リカレントニューラルネットワークのための仮想時間サンプル:農業におけるセマンティックセグメンテーションへの応用 [全文訳有]

Virtual Temporal Samples for Recurrent Neural Networks: applied to semantic segmentation in agriculture ( http://arxiv.org/abs/2106.10118v1 )

ライセンス: CC BY 4.0
Alireza Ahmadi, Michael Halstead, and Chris McCool(参考訳) 本稿では,農業ロボットの文脈における時間的意味的セグメンテーションの実現の可能性について検討する。 そこで,ラベル付き静止画像から仮想時間サンプルを生成する手法を提案する。 これにより、追加のアノテーションを使わずに、実質的にラベル付けされた時間シーケンスを生成することができます。 通常、リカレントニューラルネットワーク(rnn)をトレーニングするには、ビデオ(時間的)シーケンスからのラベル付きサンプルが必要である。 仮想時間サンプルを生成することにより、軽量なRNNを訓練して、2つの課題のある農業データセットに対してセマンティックセグメンテーションを行うことができることを示す。 以上の結果から,仮想サンプルを用いて時間的セマンティックセグメンタを訓練することにより,サツマイモとサトウキビのデータセットの絶対量4.6と4.9に向上できることがわかった。 このことは, 複雑な合成データ生成技術を用いることなく, 大量の時間的シーケンスをラベル付けするオーバーヘッドを伴わず, 農耕画像を時間的に正確に分類できることを示唆している。

This paper explores the potential for performing temporal semantic segmentation in the context of agricultural robotics without temporally labelled data. We achieve this by proposing to generate virtual temporal samples from labelled still images. This allows us, with no extra annotation effort, to generate virtually labelled temporal sequences. Normally, to train a recurrent neural network (RNN), labelled samples from a video (temporal) sequence are required which is laborious and has stymied work in this direction. By generating virtual temporal samples, we demonstrate that it is possible to train a lightweight RNN to perform semantic segmentation on two challenging agricultural datasets. Our results show that by training a temporal semantic segmenter using virtual samples we can increase the performance by an absolute amount of 4.6 and 4.9 on sweet pepper and sugar beet datasets, respectively. This indicates that our virtual data augmentation technique is able to accurately classify agricultural images temporally without the use of complicated synthetic data generation techniques nor with the overhead of labelling large amounts of temporal sequences.
翻訳日:2021-06-21 20:22:35 公開日:2021-06-18
# (参考訳) コード混合テキストの複雑さを計測するメトリクスの課題と限界 [全文訳有]

Challenges and Limitations with the Metrics Measuring the Complexity of Code-Mixed Text ( http://arxiv.org/abs/2106.10123v1 )

ライセンス: CC BY 4.0
Vivek Srivastava, Mayank Singh(参考訳) コード混合は多言語話者間の頻繁なコミュニケーションスタイルであり、テキストや音声と同じ発話で2つの異なる言語からの単語やフレーズを混合する。 モノリンガルテキストとノイズテキストが共存しているため、コードミックステキストの識別とフィルタリングは難しい作業である。 長年にわたり、コードミックスされたテキストの品質を識別し検証するために、いくつかのコードミックスメトリクスが広く使われてきた。 本稿では,様々な実験で広く使用されている既存のデータセットの例を用いて,コード混合メトリクスの固有の制限について述べる。

Code-mixing is a frequent communication style among multilingual speakers where they mix words and phrases from two different languages in the same utterance of text or speech. Identifying and filtering code-mixed text is a challenging task due to its co-existence with monolingual and noisy text. Over the years, several code-mixing metrics have been extensively used to identify and validate code-mixed text quality. This paper demonstrates several inherent limitations of code-mixing metrics with examples from the already existing datasets that are popularly used across various experiments.
翻訳日:2021-06-21 20:11:00 公開日:2021-06-18
# (参考訳) ユーザ創造性を高める:アイデア生成のためのセマンティック尺度

Enhancing user creativity: Semantic measures for idea generation ( http://arxiv.org/abs/2106.10131v1 )

ライセンス: CC BY 4.0
Georgi V. Georgiev, Danko D. Georgiev(参考訳) 人間の創造性は現実世界の問題を解決する新しいアイデアを生み出す。 これにより、周囲の世界を変革し、人間の属性を現在可能な範囲を超えて拡張する権限が得られます。 創造的なアイデアは新しいだけでなく、有用で効率的で価値あるソリューションを提供するのにも成功しています。 したがって、創造性は利用可能な資源の使用を最適化し、富を増大させる。 しかし、人間の創造性の起源は理解されておらず、生成したアイデアの成功を予測できる意味的尺度は現在不明である。 本稿では,WordNet 3.1に基づく49のセマンティック測度を用いて,実世界の環境における設計問題解決会話のデータセットを分析し,意味的類似性,情報内容の増大,ポリセミーの減少が生成したアイデアの成功を予測することを示す。 クライアントからのフィードバックは情報コンテンツも強化し、創造的な問題解決において成功するアイデアの多様化につながる。 これらの結果は,人間の問題解決における現実のプロセスを特定し,問題解決,学生の学習,スキル獲得をリアルタイムに監視するためのツールを提供することによって認知科学を前進させる。 統計的に強力で計算が速い情報コンテンツ(IC S\anchez-Batet)と意味的類似性(Lin/S\anchez-Batet) のサブセットは、コンピュータ支援による人間の創造性の向上や、汎用人工知能に支えられた機械における創造性の実現を支援することができる。

Human creativity generates novel ideas to solve real-world problems. This thereby grants us the power to transform the surrounding world and extend our human attributes beyond what is currently possible. Creative ideas are not just new and unexpected, but are also successful in providing solutions that are useful, efficient and valuable. Thus, creativity optimizes the use of available resources and increases wealth. The origin of human creativity, however, is poorly understood, and semantic measures that could predict the success of generated ideas are currently unknown. Here, we analyze a dataset of design problem-solving conversations in real-world settings by using 49 semantic measures based on WordNet 3.1 and demonstrate that a divergence of semantic similarity, an increased information content, and a decreased polysemy predict the success of generated ideas. The first feedback from clients also enhances information content and leads to a divergence of successful ideas in creative problem solving. These results advance cognitive science by identifying real-world processes in human problem solving that are relevant to the success of produced solutions and provide tools for real-time monitoring of problem solving, student training and skill acquisition. A selected subset of information content (IC S\'anchez-Batet) and semantic similarity (Lin/S\'anchez-Batet) measures, which are both statistically powerful and computationally fast, could support the development of technologies for computer-assisted enhancements of human creativity or for the implementation of creativity in machines endowed with general artificial intelligence.
翻訳日:2021-06-21 19:59:53 公開日:2021-06-18
# (参考訳) 接地のないQBFとしての古典的計画(拡張版) [全文訳有]

Classical Planning as QBF without Grounding (extended version) ( http://arxiv.org/abs/2106.10138v1 )

ライセンス: CC BY 4.0
Irfansha Shaik, Jaco van de Pol(参考訳) ほとんどの古典的なプランナーはグラウンディングを前処理のステップとして使い、命題論理の計画を減らす。 しかし、グラウンド化にはメモリの大幅なコストが伴うため、SAT/QBFベースのプランナのエンコーディングが大きくなる。 SAT/QBFエンコーディングではアクション分割、コンパクトエンコーディング、並列計画などの最適化がなされているが、IPC 2018プランニングコンペティションの有機合成問題(元々の非スプリット形式)など、アクションが多くのパラメータを持つ場合、グラウンディングによるメモリ使用量はボトルネックのままである。 本稿では,オブジェクト数の対数的なコンパクトQBF符号化を行い,オブジェクトの組み合わせの普遍的定量化により,グラウンド化を完全に回避する。 また, 従来のSAT/QBFベースプランナでは扱えなかった有機合成問題のいくつかを, 単純なSATエンコーディングと非基底QBFエンコーディングを比較した。

Most classical planners use grounding as a preprocessing step, reducing planning to propositional logic. However, grounding comes with a severe cost in memory, resulting in large encodings for SAT/QBF based planners. Despite the optimisations in SAT/QBF encodings such as action splitting, compact encodings and using parallel plans, the memory usage due to grounding remains a bottleneck when actions have many parameters, such as in the Organic Synthesis problems from the IPC 2018 planning competition (in its original non-split form). In this paper, we provide a compact QBF encoding that is logarithmic in the number of objects and avoids grounding completely by using universal quantification for object combinations. We compare the ungrounded QBF encoding with the simple SAT encoding and also show that we can solve some of the Organic Synthesis problems, which could not be handled before by any SAT/QBF based planners due to grounding.
翻訳日:2021-06-21 19:58:43 公開日:2021-06-18
# (参考訳) pywatts: 時系列用のpythonワークフロー自動化ツール [全文訳有]

pyWATTS: Python Workflow Automation Tool for Time Series ( http://arxiv.org/abs/2106.10157v1 )

ライセンス: CC BY 4.0
Benedikt Heidrich, Andreas Bartschat, Marian Turowski, Oliver Neumann, Kaleb Phipps, Stefan Meisenbacher, Kai Schmieder, Nicole Ludwig, Ralf Mikut, Veit Hagenmeyer(参考訳) 時系列データは、金融市場からエネルギーシステムまで、様々な用途に基礎を置いている。 その重要性から、時系列分析に使用するツールやメソッドの数や複雑さが絶えず増加している。 しかし、不明瞭なapiとドキュメントの欠如のため、研究者は研究プロジェクトへの統合や結果の再現に苦労している。 さらに、時系列分析では、反復的なタスクが多数存在し、プロジェクト毎に再実装されることが多く、不要なコストがかかる。 これらの問題を解決するために,オープンソースのpythonベースのパッケージである \texttt{pywatts} という,時系列データ解析のためのワークフロー自動化ツールを提案する。 pyWATTSには、新しいメソッドや既存のメソッドのシームレスな統合を可能にするモジュール、繰り返しタスクを簡単に再現するためのサブパイプライニング、結果を単純に複製するための機能のロードと保存、Scikit-learn、PyTorch、KerasといったPython機械学習ライブラリのネイティブサポートが含まれている。

Time series data are fundamental for a variety of applications, ranging from financial markets to energy systems. Due to their importance, the number and complexity of tools and methods used for time series analysis is constantly increasing. However, due to unclear APIs and a lack of documentation, researchers struggle to integrate them into their research projects and replicate results. Additionally, in time series analysis there exist many repetitive tasks, which are often re-implemented for each project, unnecessarily costing time. To solve these problems we present \texttt{pyWATTS}, an open-source Python-based package that is a non-sequential workflow automation tool for the analysis of time series data. pyWATTS includes modules with clearly defined interfaces to enable seamless integration of new or existing methods, subpipelining to easily reproduce repetitive tasks, load and save functionality to simply replicate results, and native support for key Python machine learning libraries such as scikit-learn, PyTorch, and Keras.
翻訳日:2021-06-21 19:29:35 公開日:2021-06-18
# (参考訳) 構造化しきい値バンディット問題に対する問題依存的視点 [全文訳有]

Problem Dependent View on Structured Thresholding Bandit Problems ( http://arxiv.org/abs/2106.10166v1 )

ライセンス: CC BY 4.0
James Cheshire, Pierre M\'enard, Alexandra Carpentier(参考訳) 確率的しきい値バンディット問題 (tbp) における問題依存構造について, 形状制約下で検討した。 TBPでは、学習者の目的は、シーケンシャルゲームの終了時に、所定のしきい値を超える手段を持つアームセットを出力することである。 バニラは非構造で、既に文献でよく研究されている。 腕の数として$K$とすると、(i)アームの列が$(\mu_k)_{k=1}^K$が単調に増加(MTBP)している場合、(ii)$(\mu_k)_{k=1}^K$が凹(CTBP)である場合を考える。 問題依存体制におけるどちらのケースも考慮し、エラーの確率、すなわち、調査する。 少なくとも一つの腕を誤分類する確率。 固定予算設定では、コンケーブとモノトーンの両方の設定における誤差の確率の上限と下限、および関連するアルゴリズムを提供する。 どちらの設定でも、境界は指数関数の普遍定数まで問題に依存する状態に一致する。

We investigate the problem dependent regime in the stochastic Thresholding Bandit problem (TBP) under several shape constraints. In the TBP, the objective of the learner is to output, at the end of a sequential game, the set of arms whose means are above a given threshold. The vanilla, unstructured, case is already well studied in the literature. Taking $K$ as the number of arms, we consider the case where (i) the sequence of arm's means $(\mu_k)_{k=1}^K$ is monotonically increasing (MTBP) and (ii) the case where $(\mu_k)_{k=1}^K$ is concave (CTBP). We consider both cases in the problem dependent regime and study the probability of error - i.e. the probability to mis-classify at least one arm. In the fixed budget setting, we provide upper and lower bounds for the probability of error in both the concave and monotone settings, as well as associated algorithms. In both settings the bounds match in the problem dependent regime up to universal constants in the exponential.
翻訳日:2021-06-21 19:22:12 公開日:2021-06-18
# (参考訳) テキスト依存と独立話者認識のロバストな組み合わせのための埋め込みネットワークの融合 [全文訳有]

Fusion of Embeddings Networks for Robust Combination of Text Dependent and Independent Speaker Recognition ( http://arxiv.org/abs/2106.10169v1 )

ライセンス: CC BY 4.0
Ruirui Li, Chelsea J.-T. Ju, Zeya Chen, Hongda Mao, Oguz Elibol, Andreas Stolcke(参考訳) 音声入力に基づいてユーザを暗黙的に認識することにより、話者識別は、パーソナライズされたシステム行動や迅速なショッピングチェックアウトなど、多くの下流アプリケーションを可能にする。 音声内容が制約されているか否かに基づいて、テキスト依存(TD)とテキスト非依存(TI)の両方の話者認識モデルを用いることができる。 我々は,両モデルの利点をアンサンブルシステムを通じて組み合わせ,より信頼性の高い予測をしたい。 しかしながら、そのような結合アプローチは不完全な入力、すなわちtdまたはti入力が欠落している場合に対して堅牢でなければならない。 そこで本研究では,統合学習とニューラルアテンションを組み合わせた組込みネットワークフォエネットアーキテクチャの融合を提案する。 フェネトと音声アシスタント入力のデータセット上での4つの競合ベースライン法を比較し、特に不完全入力の存在下で、ベースラインとスコア融合法よりも高い精度を達成することを示す。

By implicitly recognizing a user based on his/her speech input, speaker identification enables many downstream applications, such as personalized system behavior and expedited shopping checkouts. Based on whether the speech content is constrained or not, both text-dependent (TD) and text-independent (TI) speaker recognition models may be used. We wish to combine the advantages of both types of models through an ensemble system to make more reliable predictions. However, any such combined approach has to be robust to incomplete inputs, i.e., when either TD or TI input is missing. As a solution we propose a fusion of embeddings network foenet architecture, combining joint learning with neural attention. We compare foenet with four competitive baseline methods on a dataset of voice assistant inputs, and show that it achieves higher accuracy than the baseline and score fusion methods, especially in the presence of incomplete inputs.
翻訳日:2021-06-21 18:48:31 公開日:2021-06-18
# (参考訳) Ethereumフィッシング詐欺検出のための自己教師付きインクリメンタルディープグラフ学習 [全文訳有]

Self-supervised Incremental Deep Graph Learning for Ethereum Phishing Scam Detection ( http://arxiv.org/abs/2106.10176v1 )

ライセンス: CC BY 4.0
Shucheng Li, Fengyuan Xu, Runchuan Wang, Sheng Zhong(参考訳) 近年、フィッシング詐欺は、二番目に大きなブロックチェーンプラットフォームであるEthereumにかかわる最大の資金で犯罪タイプになっている。 一方、graph neural network (gnn)は様々なノード分類タスクで有望な性能を示している。 しかし、実世界の複雑なグラフに自然に抽象化できるEthereumトランザクションデータでは、ラベルの不足と大量のトランザクションデータが、GNNメソッドの活用を困難にしている。 本稿では,この2つの課題に対処するために,Ethereum上のフィッシング詐欺検出問題に対する自己教師付きインクリメンタルグラフ学習モデル(SIEGE)を提案する。 このモデルでは、空間的および時間的視点から設計された2つのプリテキストタスクは、膨大なトランザクションデータから有用なノード埋め込みを効果的に学習するのに役立ちます。 そして、インクリメンタルなパラダイムは、大規模トランザクションデータを効率的に処理し、データ分散が劇的に変化しているときにモデルが優れたパフォーマンスを維持するのに役立つ。 Ethereumから約半年ほどのトランザクション記録を収集し、広範な実験により、当社のモデルは、トランスダクティブとインダクティブの両方で、強いベースラインを一貫して上回ります。

In recent years, phishing scams have become the crime type with the largest money involved on Ethereum, the second-largest blockchain platform. Meanwhile, graph neural network (GNN) has shown promising performance in various node classification tasks. However, for Ethereum transaction data, which could be naturally abstracted to a real-world complex graph, the scarcity of labels and the huge volume of transaction data make it difficult to take advantage of GNN methods. Here in this paper, to address the two challenges, we propose a Self-supervised Incremental deep Graph learning model (SIEGE), for the phishing scam detection problem on Ethereum. In our model, two pretext tasks designed from spatial and temporal perspectives help us effectively learn useful node embedding from the huge amount of unlabelled transaction data. And the incremental paradigm allows us to efficiently handle large-scale transaction data and help the model maintain good performance when the data distribution is drastically changing. We collect transaction records about half a year from Ethereum and our extensive experiments show that our model consistently outperforms strong baselines in both transductive and inductive settings.
翻訳日:2021-06-21 18:36:09 公開日:2021-06-18
# (参考訳) より良い表現を通して学習を移すのに役立つadversarial training [全文訳有]

Adversarial Training Helps Transfer Learning via Better Representations ( http://arxiv.org/abs/2106.10189v1 )

ライセンス: CC BY-SA 4.0
Zhun Deng, Linjun Zhang, Kailas Vodrahalli, Kenji Kawaguchi, James Zou(参考訳) Transfer Learningは、ソースデータに事前トレーニングされたモデルを活用して、ターゲット設定に効率的に適応することを目的としている。 最近の研究は、ソースデータ内の悪意あるトレーニングが、モデルが新しいドメインに転送する能力を向上させることを実証している。 しかし、その理由は不明である。 本稿では,対人学習が伝達学習にどう役立つか,理論的モデルを提案する。 ソースデータの逆トレーニングは、より優れた表現を生成するため、この表現の上に微調整を行うことで、ターゲットデータのより正確な予測が可能となる。 さらに、音源データにおける半教師付き学習が、同様に表現を改善して伝達学習を改善することを理論的および実証的に示す。 さらに,半教師付き学習の上で対人訓練を行うことにより,伝達性の向上が期待でき,両手法が表現に相補的な利点を持つことが示唆された。 私たちは、一般的なデータセットとディープラーニングアーキテクチャの実験で理論を支持します。

Transfer learning aims to leverage models pre-trained on source data to efficiently adapt to target setting, where only limited data are available for model fine-tuning. Recent works empirically demonstrate that adversarial training in the source data can improve the ability of models to transfer to new domains. However, why this happens is not known. In this paper, we provide a theoretical model to rigorously analyze how adversarial training helps transfer learning. We show that adversarial training in the source data generates provably better representations, so fine-tuning on top of this representation leads to a more accurate predictor of the target data. We further demonstrate both theoretically and empirically that semi-supervised learning in the source data can also improve transfer learning by similarly improving the representation. Moreover, performing adversarial training on top of semi-supervised learning can further improve transferability, suggesting that the two approaches have complementary benefits on representations. We support our theories with experiments on popular data sets and deep learning architectures.
翻訳日:2021-06-21 18:24:16 公開日:2021-06-18
# (参考訳) 合理的なシャプリー値 [全文訳有]

Rational Shapley Values ( http://arxiv.org/abs/2106.10191v1 )

ライセンス: CC BY 4.0
David S. Watson(参考訳) 不透明な機械学習アルゴリズムの予測を説明することは重要かつ困難なタスクであり、特に医療や金融などの高度な意思決定を支援するために複雑なモデルがますます使われている。 ポストホックな説明可能な人工知能(XAI)のための一般的なツールは、文脈に敏感でない(例えば、特徴属性)か、要約が難しい(例えば、偽物)。 本稿では,これらの非互換なアプローチを厳密で柔軟な方法で合成し拡張する,新しいXAI手法であるemph{rational Shapley values}を紹介する。 私は意思決定理論や因果モデリングのツールを活用して、XAIにおける多くの既知の課題を解決する実用的なアプローチを形式化し、実装します。 与えられた説明タスクに対して,確率変数の分布と適切な参照クラスを組み合わせることで,ユーザの目標と知識が反復的に解集合にどのように情報を与え制約するかを,理論と実験を通して示す。 この方法は、定量的および定性的な比較において、XAIツールの状態と良好に比較できる。

Explaining the predictions of opaque machine learning algorithms is an important and challenging task, especially as complex models are increasingly used to assist in high-stakes decisions such as those arising in healthcare and finance. Most popular tools for post-hoc explainable artificial intelligence (XAI) are either insensitive to context (e.g., feature attributions) or difficult to summarize (e.g., counterfactuals). In this paper, I introduce \emph{rational Shapley values}, a novel XAI method that synthesizes and extends these seemingly incompatible approaches in a rigorous, flexible manner. I leverage tools from decision theory and causal modeling to formalize and implement a pragmatic approach that resolves a number of known challenges in XAI. By pairing the distribution of random variables with the appropriate reference class for a given explanation task, I illustrate through theory and experiments how user goals and knowledge can inform and constrain the solution set in an iterative fashion. The method compares favorably to state of the art XAI tools in a range of quantitative and qualitative comparisons.
翻訳日:2021-06-21 17:47:57 公開日:2021-06-18
# (参考訳) コンカレントゲームのための平衡設計 [全文訳有]

Equilibrium Design for Concurrent Games ( http://arxiv.org/abs/2106.10192v1 )

ライセンス: CC BY 4.0
Julian Gutierrez, Muhammad Najib, Giuseppe Perelli, Michael Wooldridge(参考訳) ゲーム理論において、メカニズム設計は、ゲームの望ましい結果を達成するためのインセンティブの設計に関係している。 本稿では,例えば,与えられた時相論理特性を満たす平衡が,我々が平衡設計と呼ぶ問題となるような,望ましい平衡が得られるようにインセンティブの設計について検討する。 本研究は,システム仕様を時間論理式として,ゲームを定量的に同時ゲーム構造として,プレイヤーのゴールを平均支払い目的として表現する枠組みに基づく。 特に、ltl と gr(1) の式で与えられるシステム仕様を検討し、与えられた時相論理特性がゲームのある/すべての nash 平衡で満たされることを保証するメカニズムを実装することは、そのような機構が存在する場合には、ltl 特性の pspace と gr(1) 仕様の np/$\sigma^{p}_{2}$ で行えることを示す。 また、解の最適性や一意性などの様々な関連する決定および最適化問題の複雑さについて検討し、これらの問題の複雑さが多項式階層内にあることを示す。 アプリケーションとして、均衡設計は、平均払い目標が存在しない同時ゲームの合理的な合成と検証の問題に対する代替ソリューションとして、あるいは可能な限り、望ましくない合理的結果(nash平衡)を持つ同時ゲームを最適な方法で修正するテクニックとして使用できる。

In game theory, mechanism design is concerned with the design of incentives so that a desired outcome of the game can be achieved. In this paper, we study the design of incentives so that a desirable equilibrium is obtained, for instance, an equilibrium satisfying a given temporal logic property -- a problem that we call equilibrium design. We base our study on a framework where system specifications are represented as temporal logic formulae, games as quantitative concurrent game structures, and players' goals as mean-payoff objectives. In particular, we consider system specifications given by LTL and GR(1) formulae, and show that implementing a mechanism to ensure that a given temporal logic property is satisfied on some/every Nash equilibrium of the game, whenever such a mechanism exists, can be done in PSPACE for LTL properties and in NP/$\Sigma^{P}_{2}$ for GR(1) specifications. We also study the complexity of various related decision and optimisation problems, such as optimality and uniqueness of solutions, and show that the complexities of all such problems lie within the polynomial hierarchy. As an application, equilibrium design can be used as an alternative solution to the rational synthesis and verification problems for concurrent games with mean-payoff objectives whenever no solution exists, or as a technique to repair, whenever possible, concurrent games with undesirable rational outcomes (Nash equilibria) in an optimal way.
翻訳日:2021-06-21 17:24:27 公開日:2021-06-18
# (参考訳) 交通事故の早期予測のための動的時空間注意ネットワーク [全文訳有]

A Dynamic Spatial-temporal Attention Network for Early Anticipation of Traffic Accidents ( http://arxiv.org/abs/2106.10197v1 )

ライセンス: CC BY 4.0
Muhammad Monjurul Karim, Yu Li, Ruwen Qin, Zhaozheng Yin(参考訳) 近年,高度運転支援システム(ADAS)を搭載した自動運転車が登場している。 人間ドライバーが運転する通常の車両と道路を共有している。 乗客や他の道路利用者の安全確保のためには、自動車やADASが自然運転シーンからの交通事故を予知することが不可欠である。 交通エージェントの動的時空間相互作用は複雑であり、将来の事故を予測する視覚的手がかりはダッシュカムビデオデータに深く埋め込まれている。 したがって、交通事故の早期予測は依然として課題である。 そこで本稿では,ダッシュカムビデオからの交通事故を早期に予測するための動的空間的注意(DSTA)ネットワークを提案する。 提案するDSTAネットワークは,動的テンポラルアテンション(DTA)と呼ばれるモジュールを用いて,ビデオシーケンスの識別時間セグメントを選択することを学習する。 また、動的空間注意(DSA)と呼ばれる別のモジュールを用いて、フレームの情報的空間領域に集中することを学ぶ。 事故の空間的・時間的関係の特徴と景観的特徴は, Gated Recurrent Unit (GRU) ネットワークと共同で学習される。 2つのベンチマークデータセットにおけるDSTAネットワークの実験的評価により、最先端の性能を上回ったことが確認された。 DSTAネットワークの個々のコンポーネントのコントリビューションを評価し、ネットワークがそのようなパフォーマンスを実現する方法を明らかにする。 さらに,2つの相補モデルから予測スコアを融合し,その効果を検証し,早期事故予測の性能をさらに高めるための新しい戦略を提案する。

Recently, autonomous vehicles and those equipped with an Advanced Driver Assistance System (ADAS) are emerging. They share the road with regular ones operated by human drivers entirely. To ensure guaranteed safety for passengers and other road users, it becomes essential for autonomous vehicles and ADAS to anticipate traffic accidents from natural driving scenes. The dynamic spatial-temporal interaction of the traffic agents is complex, and visual cues for predicting a future accident are embedded deeply in dashcam video data. Therefore, early anticipation of traffic accidents remains a challenge. To this end, the paper presents a dynamic spatial-temporal attention (DSTA) network for early anticipation of traffic accidents from dashcam videos. The proposed DSTA-network learns to select discriminative temporal segments of a video sequence with a module named Dynamic Temporal Attention (DTA). It also learns to focus on the informative spatial regions of frames with another module named Dynamic Spatial Attention (DSA). The spatial-temporal relational features of accidents, along with scene appearance features, are learned jointly with a Gated Recurrent Unit (GRU) network. The experimental evaluation of the DSTA-network on two benchmark datasets confirms that it has exceeded the state-of-the-art performance. A thorough ablation study evaluates the contributions of individual components of the DSTA-network, revealing how the network achieves such performance. Furthermore, this paper proposes a new strategy that fuses the prediction scores from two complementary models and verifies its effectiveness in further boosting the performance of early accident anticipation.
翻訳日:2021-06-21 16:54:05 公開日:2021-06-18
# (参考訳) bitfit: トランスフォーマーに基づくマスク言語モデルのパラメータ効率の簡単な微調整 [全文訳有]

BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models ( http://arxiv.org/abs/2106.10199v1 )

ライセンス: CC BY 4.0
Elad Ben Zaken, Shauli Ravfogel, Yoav Goldberg(参考訳) 我々は,小口径のトレーニングデータを用いて,事前学習したBERTモデルの偏差項(あるいは偏差項のサブセット)のみを微調整することは,モデル全体の微調整と競合する(時として優れている)ことを示す。 大きなデータの場合、バイアスのみの微調整は他のまばらな微調整法と競合する。 ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングトレーニングによって引き起こされる知識を公開することによるものであるという仮説を支持している。

We show that with small-to-medium training data, fine-tuning only the bias terms (or a subset of the bias terms) of pre-trained BERT models is competitive with (and sometimes better than) fine-tuning the entire model. For larger data, bias-only fine-tuning is competitive with other sparse fine-tuning methods. Besides their practical utility, these findings are relevant for the question of understanding the commonly-used process of finetuning: they support the hypothesis that finetuning is mainly about exposing knowledge induced by language-modeling training, rather than learning new task-specific linguistic knowledge.
翻訳日:2021-06-21 16:37:15 公開日:2021-06-18
# (参考訳) ミニバッチルール学習に関する研究 [全文訳有]

An Investigation into Mini-Batch Rule Learning ( http://arxiv.org/abs/2106.10202v1 )

ライセンス: CC BY 4.0
Florian Beck and Johannes F\"urnkranz(参考訳) 例のミニバッチに対する反復的改良を用いて,単一の隠蔽層を持つネットワーク構造において,ルールセットを効率的に学習できるかどうかを検討する。 最初のrudimentaryバージョンは、ripperのパフォーマンスレベルにはまだ達していないが、単一のデータセット以外すべてにおいて許容できるパフォーマンスを示している。

We investigate whether it is possible to learn rule sets efficiently in a network structure with a single hidden layer using iterative refinements over mini-batches of examples. A first rudimentary version shows an acceptable performance on all but one dataset, even though it does not yet reach the performance levels of Ripper.
翻訳日:2021-06-21 16:27:16 公開日:2021-06-18
# (参考訳) 非パラメトリックハミルトンモンテカルロ

Nonparametric Hamiltonian Monte Carlo ( http://arxiv.org/abs/2106.10238v1 )

ライセンス: CC BY 4.0
Carol Mak, Fabian Zaiser, Luke Ong(参考訳) 確率的プログラミングはプログラムを用いて、後続確率が内蔵推論エンジンによって計算される生成モデルを表現する。 挑戦的なゴールは、普遍確率型プログラミング言語 (PPL) において任意のプログラムに対して最初から動作する汎用推論アルゴリズムを開発することである。 そのようなプログラムによって定義される密度は、確率分岐と再帰を用いても、無限次元パラメータ空間上のモデルに対応するという意味で(一般に)非パラメトリックである。 しかし、ハミルトニアンモンテカルロ(hmc)アルゴリズムのような標準的な推論アルゴリズムは、一定の数のパラメータを持つ対象分布である。 本稿では、HMCを非パラメトリックモデルに一般化する非パラメトリックハミルトンモンテカルロ(NP-HMC)アルゴリズムを提案する。 NP-HMCへの入力は「ツリー表現可能」と呼ばれる新しい可測関数のクラスであり、普遍的なPPLにおける確率プログラムの密度関数の言語に依存しない表現として機能する。 我々はNP-HMCの正当性証明を行い、いくつかの非パラメトリックな例において既存の手法よりも顕著な性能向上を実証的に示す。

Probabilistic programming uses programs to express generative models whose posterior probability is then computed by built-in inference engines. A challenging goal is to develop general purpose inference algorithms that work out-of-the-box for arbitrary programs in a universal probabilistic programming language (PPL). The densities defined by such programs, which may use stochastic branching and recursion, are (in general) nonparametric, in the sense that they correspond to models on an infinite-dimensional parameter space. However standard inference algorithms, such as the Hamiltonian Monte Carlo (HMC) algorithm, target distributions with a fixed number of parameters. This paper introduces the Nonparametric Hamiltonian Monte Carlo (NP-HMC) algorithm which generalises HMC to nonparametric models. Inputs to NP-HMC are a new class of measurable functions called "tree representable", which serve as a language-independent representation of the density functions of probabilistic programs in a universal PPL. We provide a correctness proof of NP-HMC, and empirically demonstrate significant performance improvements over existing approaches on several nonparametric examples.
翻訳日:2021-06-21 16:24:09 公開日:2021-06-18
# (参考訳) VSAC: HとFのための効率的かつ正確な推定器 [全文訳有]

VSAC: Efficient and Accurate Estimator for H and F ( http://arxiv.org/abs/2106.10240v1 )

ライセンス: CC BY 4.0
Maksym Ivashechkin, Daniel Barath, Jiri Matas(参考訳) RANSAC型ロバスト推定器であるVSACについて述べる。 これは、支配的な平面ハンドリングの有効性を大幅に改善する独立な不整合の概念の導入による恩恵であり、また、誤陽性のない不正確なモデルのほとんど誤りのない拒絶を可能にする。 ローカル最適化プロセスとそのアプリケーションは、平均1回だけ実行されるように改善されている。 さらなる技術的改善として、適応逐次仮説検証とガウス除去による効率的なモデル推定がある。 4つの標準データセットの実験によると、VSACは以前のすべてのデータセットよりも大幅に高速で、CPU上で平均1-2msで動作する。 現在最も正確な2次元幾何学推定器である MAGSAC++ と同等の精度で2桁高速である。 EVD、HPatches、PhotoTourism、Kusvod2データセットの繰り返し実行では、決して失敗しなかった。

We present VSAC, a RANSAC-type robust estimator with a number of novelties. It benefits from the introduction of the concept of independent inliers that improves significantly the efficacy of the dominant plane handling and, also, allows near error-free rejection of incorrect models, without false positives. The local optimization process and its application is improved so that it is run on average only once. Further technical improvements include adaptive sequential hypothesis verification and efficient model estimation via Gaussian elimination. Experiments on four standard datasets show that VSAC is significantly faster than all its predecessors and runs on average in 1-2 ms, on a CPU. It is two orders of magnitude faster and yet as precise as MAGSAC++, the currently most accurate estimator of two-view geometry. In the repeated runs on EVD, HPatches, PhotoTourism, and Kusvod2 datasets, it never failed.
翻訳日:2021-06-21 16:22:48 公開日:2021-06-18
# (参考訳) アクティブオフライン政策選択 [全文訳有]

Active Offline Policy Selection ( http://arxiv.org/abs/2106.10251v1 )

ライセンス: CC BY 4.0
Ksenia Konyushkova, Yutian Chen, Thomas Paine, Caglar Gulcehre, Cosmin Paduraru, Daniel J Mankowitz, Misha Denil, Nando de Freitas(参考訳) 本稿では,ログデータの多いドメインにおけるポリシ選択の問題に対処するが,インタラクション予算が非常に制限されている。 この問題を解決することで、産業、ロボティクス、医療分野などにおけるオフライン強化学習ポリシーの安全性評価と展開が可能になる。 ログデータのみを用いてポリシーの価値を評価するために,いくつかの外部評価手法が提案されている。 しかし,OPEによる評価と実環境におけるオンライン評価との間には,依然として大きなギャップがある。 このギャップを減らすために,ログデータとオンラインインタラクションの制限を組み合わさって最適なポリシーを識別する,新しい「emph{active offline policy selection}」問題定式化を導入する。 我々は評価開始を温めるためにOPEの進歩に頼っている。 我々は、限られた環境相互作用を賢明に活用するために、どのポリシーを評価するべきかを反復的に決定するためにベイズ最適化を構築する。 多くの候補ポリシーが提案できるため、私たちはアプローチをスケーラブルにし、ポリシー間の類似性をモデル化するためのカーネル機能を導入することに重点を置いています。 いくつかのベンチマーク環境を用いて,提案手法が最先端のOPE推定と,予算限定による完全オンライン政策評価を改善することを示す。 また,提案手法の各コンポーネントが重要であり,提案手法の様々な数と品質,さらには多数の候補政策においても有効であることを示す。

This paper addresses the problem of policy selection in domains with abundant logged data, but with a very restricted interaction budget. Solving this problem would enable safe evaluation and deployment of offline reinforcement learning policies in industry, robotics, and healthcare domain among others. Several off-policy evaluation (OPE) techniques have been proposed to assess the value of policies using only logged data. However, there is still a big gap between the evaluation by OPE and the full online evaluation in the real environment. To reduce this gap, we introduce a novel \emph{active offline policy selection} problem formulation, which combined logged data and limited online interactions to identify the best policy. We rely on the advances in OPE to warm start the evaluation. We build upon Bayesian optimization to iteratively decide which policies to evaluate in order to utilize the limited environment interactions wisely. Many candidate policies could be proposed, thus, we focus on making our approach scalable and introduce a kernel function to model similarity between policies. We use several benchmark environments to show that the proposed approach improves upon state-of-the-art OPE estimates and fully online policy evaluation with limited budget. Additionally, we show that each component of the proposed method is important, it works well with various number and quality of OPE estimates and even with a large number of candidate policies.
翻訳日:2021-06-21 16:04:40 公開日:2021-06-18
# (参考訳) 深層・浅層ルール学習に関する実証的研究 [全文訳有]

An Empirical Investigation into Deep and Shallow Rule Learning ( http://arxiv.org/abs/2106.10254v1 )

ライセンス: CC BY 4.0
Florian Beck and Johannes F\"urnkranz(参考訳) 帰納的ルール学習は、間違いなく機械学習の最も伝統的なパラダイムの1つです。 ルールに基づく理論の学習は長年にわたってかなりの進歩を遂げてきたが、すべての最先端学習者は依然として、入力特徴と対象概念を直接関連付ける記述を学んでいる。 最も単純な場合、概念学習(英語版)では、これは正のクラスの解離正規形(DNF)記述である。 すべての論理式を等価なDNF式に還元できるので、これは論理的な観点からは十分であることは間違いないが、しかしながら、中間概念を形成することによって深層理論を形成するより構造化された表現は、たとえ後者も普遍関数近似器であるとしても、深部ニューラルネットワークが浅部ネットワークより優れているのと全く同じ方法で学習し易い。 本稿では,経験的に深層ルール学習と浅部ルール学習を,グリージーなミニバッチに基づく最適化に依存する一様一般アルゴリズムと比較する。 人工および実世界のベンチマークデータを用いた実験は、深いルールネットワークが浅いネットワークより優れていることを示している。

Inductive rule learning is arguably among the most traditional paradigms in machine learning. Although we have seen considerable progress over the years in learning rule-based theories, all state-of-the-art learners still learn descriptions that directly relate the input features to the target concept. In the simplest case, concept learning, this is a disjunctive normal form (DNF) description of the positive class. While it is clear that this is sufficient from a logical point of view because every logical expression can be reduced to an equivalent DNF expression, it could nevertheless be the case that more structured representations, which form deep theories by forming intermediate concepts, could be easier to learn, in very much the same way as deep neural networks are able to outperform shallow networks, even though the latter are also universal function approximators. In this paper, we empirically compare deep and shallow rule learning with a uniform general algorithm, which relies on greedy mini-batch based optimization. Our experiments on both artificial and real-world benchmark data indicate that deep rule networks outperform shallow networks.
翻訳日:2021-06-21 15:42:03 公開日:2021-06-18
# (参考訳) 変圧器を用いた終端動作検出 [全文訳有]

End-to-end Temporal Action Detection with Transformer ( http://arxiv.org/abs/2106.10271v1 )

ライセンス: CC BY 4.0
Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Song Bai, Xiang Bai(参考訳) 時間的アクション検出(TAD)は、ビデオ内のすべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。 これはビデオ理解の基本的な課題であり、TADでは大きな進歩を遂げている。 従来の手法では、複数のステージ、ネットワーク、ハンドデザインのルールや操作が含まれており、効率や柔軟性に欠ける。 そこで我々は,TAD on Transformer のエンドツーエンドフレームワークである \textit{TadTR} を構築し,同時にすべてのアクションインスタンスをラベルと時間的位置のセットとして並列に予測する。 TadTRは、ビデオ内の複数のスニペットに選択的に参加することにより、アクション予測に必要な時間的コンテキスト情報を適応的に抽出することができる。 tadのパイプラインを大幅に単純化し、以前の検出器よりもはるかに高速に動作する。 本手法はhacsセグメントとthums14の最先端性能と activitynet-1.3 の競合性能を実現する。 私たちのコードは \url{https://github.com/x lliu7/TadTR} で利用可能になります。

Temporal action detection (TAD) aims to determine the semantic label and the boundaries of every action instance in an untrimmed video. It is a fundamental task in video understanding and significant progress has been made in TAD. Previous methods involve multiple stages or networks and hand-designed rules or operations, which fall short in efficiency and flexibility. Here, we construct an end-to-end framework for TAD upon Transformer, termed \textit{TadTR}, which simultaneously predicts all action instances as a set of labels and temporal locations in parallel. TadTR is able to adaptively extract temporal context information needed for making action predictions, by selectively attending to a number of snippets in a video. It greatly simplifies the pipeline of TAD and runs much faster than previous detectors. Our method achieves state-of-the-art performance on HACS Segments and THUMOS14 and competitive performance on ActivityNet-1.3. Our code will be made available at \url{https://github.com/x lliu7/TadTR}.
翻訳日:2021-06-21 15:17:08 公開日:2021-06-18
# (参考訳) リーマン凸ポテンシャル写像 [全文訳有]

Riemannian Convex Potential Maps ( http://arxiv.org/abs/2106.10272v1 )

ライセンス: CC BY 4.0
Samuel Cohen, Brandon Amos, Yaron Lipman(参考訳) リーマン多様体上のモデリング分布は、例えば物理学や地質学において生じる非ユークリッドデータを理解する上で重要な要素である。 この空間の分岐アプローチは、表現的および計算的トレードオフによって制限される。 我々はリーマンの最適輸送から凸ポテンシャルを用いた流れのクラスを提案し,研究する。 これらは普遍的であり、任意のコンパクトリーマン多様体上のモデル分布は、多様体の領域知識をアーキテクチャに統合する必要がない。 これらの流れは, 合成・地質データに基づいて, 球面上の標準分布やトーラスをモデル化できることを実証する。 私たちのソースコードはhttp://github.com/fa cebookresearch/rcpmで無料で利用できます。

Modeling distributions on Riemannian manifolds is a crucial component in understanding non-Euclidean data that arises, e.g., in physics and geology. The budding approaches in this space are limited by representational and computational tradeoffs. We propose and study a class of flows that uses convex potentials from Riemannian optimal transport. These are universal and can model distributions on any compact Riemannian manifold without requiring domain knowledge of the manifold to be integrated into the architecture. We demonstrate that these flows can model standard distributions on spheres, and tori, on synthetic and geological data. Our source code is freely available online at http://github.com/fa cebookresearch/rcpm
翻訳日:2021-06-21 15:02:19 公開日:2021-06-18
# GANの進化: 矛盾がコンプライアンスになるとき

Evolving GANs: When Contradictions Turn into Compliance ( http://arxiv.org/abs/2106.09946v1 )

ライセンス: Link先を確認
Sauptik Dhar, Javad Heydari, Samarth Tripathi, Unmesh Kurup, Mohak Shah(参考訳) ラベル付きデータの可用性の制限は、教師付き学習問題を困難にする。 semi-supervisedやuniversum learningのような代替的な学習設定はラベル付きデータへの依存を緩和するが、それでも大量のラベル付きデータが必要である。 GANをベースとした合成データ生成手法は,手作業を改善するために合成サンプルを生成することで,最近約束されている。 しかし、これらのサンプルは他の用途には使用できない。 本稿では,限られたデータ設定下での判別精度を向上し,リアルな合成データを生成するganゲームを提案する。 これにより、生成したデータが他の類似したタスクに使用できるという利点が加わった。 我々は,我々のアプローチを支持するための理論的保証と実証結果を提供する。

Limited availability of labeled-data makes any supervised learning problem challenging. Alternative learning settings like semi-supervised and universum learning alleviate the dependency on labeled data, but still require a large amount of unlabeled data, which may be unavailable or expensive to acquire. GAN-based synthetic data generation methods have recently shown promise by generating synthetic samples to improve task at hand. However, these samples cannot be used for other purposes. In this paper, we propose a GAN game which provides improved discriminator accuracy under limited data settings, while generating realistic synthetic data. This provides the added advantage that now the generated data can be used for other similar tasks. We provide the theoretical guarantees and empirical results in support of our approach.
翻訳日:2021-06-21 14:27:02 公開日:2021-06-18
# 深層学習によるブラジル人の名前の性別予測

Predicting gender of Brazilian names using deep learning ( http://arxiv.org/abs/2106.10156v1 )

ライセンス: Link先を確認
Rosana C. B. Rego, Ver\^onica M. L. Silva(参考訳) 名前による性別の予測は簡単な作業ではありません。 多くのアプリケーション、特に自然言語処理(NLP)分野において、このタスクは、主に外国の名前を考える際に必要となる。 一部の機械学習アルゴリズムは、十分に予測を実行できる。 本稿では、MLP、RNN、GRU、CNN、BiLSTMなどのフィードフォワードおよびリカレントディープニューラルネットワークモデルを用いて、性別をファーストネームで分類し、実装した。 モデルのトレーニングと評価にはブラジル人の名前のデータセットが使用される。 モデルの性能を測定するために,精度,リコール,精度,混乱行列を分析した。 その結果,文字列集合として名前を見る特徴抽出戦略から性別予測が可能となった。 一部のモデルは、90%以上のケースで正確に性別を予測する。 繰り返しモデルはこのバイナリ分類問題においてフィードフォワードモデルを克服する。

Predicting gender by the name is not a simple task. In many applications, especially in the natural language processing (NLP) field, this task may be necessary, mainly when considering foreign names. Some machine learning algorithms can satisfactorily perform the prediction. In this paper, we examined and implemented feedforward and recurrent deep neural network models, such as MLP, RNN, GRU, CNN, and BiLSTM, to classify gender through the first name. A dataset of Brazilian names is used to train and evaluate the models. We analyzed the accuracy, recall, precision, and confusion matrix to measure the models' performances. The results indicate that the gender prediction can be performed from the feature extraction strategy looking at the names as a set of strings. Some models accurately predict the gender in more than 90% of the cases. The recurrent models overcome the feedforward models in this binary classification problem.
翻訳日:2021-06-21 14:26:50 公開日:2021-06-18
# 対照表現学習における負の役割の検討

Investigating the Role of Negatives in Contrastive Representation Learning ( http://arxiv.org/abs/2106.09943v1 )

ライセンス: Link先を確認
Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy and Dipendra Misra(参考訳) ノイズコントラスト学習は教師なし表現学習の一般的な手法である。 このアプローチでは,教師あり学習への還元により表現が得られ,意味的類似性の概念が与えられた学習者は,類似した(肯定的な)例をランダムな(否定的な)例のコレクションと区別しようとする。 現代のコントラスト学習パイプラインの成功は、データ拡張の選択、否定的な例の数、バッチサイズといった多くのパラメータに依存しているが、これらのパラメータが下流のパフォーマンスにどのように相互作用し影響するかについては、限定的な理解がある。 我々は、これらのパラメータの1つの役割の曖昧さ、すなわち負の例の数に焦点をあてる。 理論的には、衝突被覆トレードオフの存在が示され、データの下位概念の数に最適な負の例の数をスケールすべきことを示唆する。 実験では,NLPタスクと視覚タスクの両方において負の数の役割を精査する。 NLPタスクでは、結果が我々の理論と広く一致しているのに対し、我々の視覚実験はより悪質であり、性能は時々負の数に敏感である。 我々は,この行動の正当な説明を議論し,理論と実践をよりよく整えるための今後の方向性を提案する。

Noise contrastive learning is a popular technique for unsupervised representation learning. In this approach, a representation is obtained via reduction to supervised learning, where given a notion of semantic similarity, the learner tries to distinguish a similar (positive) example from a collection of random (negative) examples. The success of modern contrastive learning pipelines relies on many parameters such as the choice of data augmentation, the number of negative examples, and the batch size; however, there is limited understanding as to how these parameters interact and affect downstream performance. We focus on disambiguating the role of one of these parameters: the number of negative examples. Theoretically, we show the existence of a collision-coverage trade-off suggesting that the optimal number of negative examples should scale with the number of underlying concepts in the data. Empirically, we scrutinize the role of the number of negatives in both NLP and vision tasks. In the NLP task, we find that the results broadly agree with our theory, while our vision experiments are murkier with performance sometimes even being insensitive to the number of negatives. We discuss plausible explanations for this behavior and suggest future directions to better align theory and practice.
翻訳日:2021-06-21 14:26:38 公開日:2021-06-18
# 適応フィルタバンクによるグラフ畳み込みネットワーク内のメッセージパッシング

Message Passing in Graph Convolution Networks via Adaptive Filter Banks ( http://arxiv.org/abs/2106.09910v1 )

ライセンス: Link先を確認
Xing Gao, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong, Pascal Frossard(参考訳) グラフ畳み込みネットワーク、例えばメッセージパッシンググラフ畳み込みネットワーク(mpgcns)は、ネットワーク化されたデータの表現学習において強力なツールである。 しかし、データが不均一である場合、ほとんどのアーキテクチャはマルチチャネルグラフ信号を処理するために単一の戦略を採用するため、通常は低周波情報に焦点を当てる。 本稿では、メッセージパッシングモデルの利点を保ちながら、「低パス」機能を超えて機能を拡張する新しいグラフ畳み込み演算子 BankGCN を提案する。 グラフ上のマルチチャネル信号をサブスペースに分解し、適応フィルタで各サブスペース内の特定の情報を処理する。 すべての部分空間のフィルタは異なる周波数応答を持ち、一緒にフィルタバンクを形成する。 さらに、スペクトル領域内の各フィルタはメッセージパッシングスキームに対応し、フィルタバンクを介して多様なスキームを実装する。 重要なことに、フィルタバンクと信号分解を共同で学習し、データのスペクトル特性に適応させ、対象とする。 さらに、これは既存のMPGCNと比較してほとんど余分なパラメータなしで実装されている。 実験の結果,提案する畳み込み演算子は,ベンチマークグラフデータセットの集合において,グラフ分類において優れた性能を達成できることがわかった。

Graph convolution networks, like message passing graph convolution networks (MPGCNs), have been a powerful tool in representation learning of networked data. However, when data is heterogeneous, most architectures are limited as they employ a single strategy to handle multi-channel graph signals and they typically focus on low-frequency information. In this paper, we present a novel graph convolution operator, termed BankGCN, which keeps benefits of message passing models, but extends their capabilities beyond `low-pass' features. It decomposes multi-channel signals on graphs into subspaces and handles particular information in each subspace with an adapted filter. The filters of all subspaces have different frequency responses and together form a filter bank. Furthermore, each filter in the spectral domain corresponds to a message passing scheme, and diverse schemes are implemented via the filter bank. Importantly, the filter bank and the signal decomposition are jointly learned to adapt to the spectral characteristics of data and to target applications. Furthermore, this is implemented almost without extra parameters in comparison with most existing MPGCNs. Experimental results show that the proposed convolution operator permits to achieve excellent performance in graph classification on a collection of benchmark graph datasets.
翻訳日:2021-06-21 14:26:20 公開日:2021-06-18
# 深層学習理論の原理

The Principles of Deep Learning Theory ( http://arxiv.org/abs/2106.10165v1 )

ライセンス: Link先を確認
Daniel A. Roberts, Sho Yaida, Boris Hanin(参考訳) この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。 まず,ネットワークの第一原理のコンポーネントレベル図から,階層間反復方程式と非線形学習ダイナミクスを解いて,トレーニングされたネットワークの出力の正確な記述を決定する方法について述べる。 主な結果は、ネットワークの予測がほぼガウシアン分布によって記述され、ネットワークの深さから幅へのアスペクト比が無限幅ガウシアン記述からのずれを制御する。 これらのネットワークがトレーニングから非自明な表現を学習し、非線形モデルにおける表現学習のメカニズムをより広く分析する方法について説明する。 ほぼカーネル・メソッドの観点から、基礎となる学習アルゴリズムに対するそのようなモデルの予測の依存は、単純で普遍的な方法で表現できることが分かる。 これらの結果を得るために,ネットワークを介した信号伝達を特徴付ける表現群フロー (rg flow) の概念を開発した。 ネットワークを臨界にチューニングすることにより,爆発・消滅勾配問題に対する実用的な解を与える。 さらに,rgフローが普遍的動作にどのようにつながるかを説明し,異なるアクティベーション関数から構築されたネットワークを普遍性クラスに分類する。 総じて、深さと幅の比は、訓練されたネットワークのアンサンブルの効果的なモデルの複雑さを制御していることを示す。 情報理論手法を用いることで,ネットワークが事実上最も有用であると期待する最適アスペクト比を推定し,このスケールを任意の深さまで押し上げるための残差接続をいかに活用できるかを示す。 これらのツールを使うことで、アーキテクチャ、ハイパーパラメータ、オプティマイザの帰納的バイアスについて詳細に学ぶことができます。

This book develops an effective theory approach to understanding deep neural networks of practical relevance. Beginning from a first-principles component-level picture of networks, we explain how to determine an accurate description of the output of trained networks by solving layer-to-layer iteration equations and nonlinear learning dynamics. A main result is that the predictions of networks are described by nearly-Gaussian distributions, with the depth-to-width aspect ratio of the network controlling the deviations from the infinite-width Gaussian description. We explain how these effectively-deep networks learn nontrivial representations from training and more broadly analyze the mechanism of representation learning for nonlinear models. From a nearly-kernel-method s perspective, we find that the dependence of such models' predictions on the underlying learning algorithm can be expressed in a simple and universal way. To obtain these results, we develop the notion of representation group flow (RG flow) to characterize the propagation of signals through the network. By tuning networks to criticality, we give a practical solution to the exploding and vanishing gradient problem. We further explain how RG flow leads to near-universal behavior and lets us categorize networks built from different activation functions into universality classes. Altogether, we show that the depth-to-width ratio governs the effective model complexity of the ensemble of trained networks. By using information-theoreti c techniques, we estimate the optimal aspect ratio at which we expect the network to be practically most useful and show how residual connections can be used to push this scale to arbitrary depths. With these tools, we can learn in detail about the inductive bias of architectures, hyperparameters, and optimizers.
翻訳日:2021-06-21 14:26:01 公開日:2021-06-18
# MADE: 探索地域からの逸脱の最大化による探索

MADE: Exploration via Maximizing Deviation from Explored Regions ( http://arxiv.org/abs/2106.10268v1 )

ライセンス: Link先を確認
Tianjun Zhang, Paria Rashidinejad, Jiantao Jiao, Yuandong Tian, Joseph Gonzalez, Stuart Russell(参考訳) オンライン強化学習(RL)では、高次元環境における効率的な探索が特に困難である。 表型パラメータ化が可能となる低次元環境では、カウントベース上信頼境界(ucb)探索法が最小最適速度を達成する。 しかし, 非線形関数近似を含む現実的なRLタスクにおいて, UCBを効率的に実装する方法は不明である。 そこで本稿では,探索地域からの次の政策の占有率の偏りを,textit{maximizing}による新たな探索手法を提案する。 この用語を標準のrl目標に適応正規化子として加え、探索と搾取のバランスをとる。 我々は、新しい目的を証明可能な収束アルゴリズムと組み合わせ、既存のボーナスを調整する新しい本質的な報酬を生み出す。 提案する固有報酬は実装が容易であり、既存のRLアルゴリズムと組み合わせて探索を行う。 概念実証として,様々なモデルベースおよびモデルフリーなアルゴリズムにおいて,表例に対する新たな内在的な報酬を評価する。 MiniGridとDeepMind Control Suiteのベンチマークからナビゲーションおよび移動タスクをテストすると、我々の手法は最先端の手法よりもサンプル効率を大幅に改善する。 私たちのコードはhttps://github.com/t ianjunz/madeで利用可能です。

In online reinforcement learning (RL), efficient exploration remains particularly challenging in high-dimensional environments with sparse rewards. In low-dimensional environments, where tabular parameterization is possible, count-based upper confidence bound (UCB) exploration methods achieve minimax near-optimal rates. However, it remains unclear how to efficiently implement UCB in realistic RL tasks that involve non-linear function approximation. To address this, we propose a new exploration approach via \textit{maximizing} the deviation of the occupancy of the next policy from the explored regions. We add this term as an adaptive regularizer to the standard RL objective to balance exploration vs. exploitation. We pair the new objective with a provably convergent algorithm, giving rise to a new intrinsic reward that adjusts existing bonuses. The proposed intrinsic reward is easy to implement and combine with other existing RL algorithms to conduct exploration. As a proof of concept, we evaluate the new intrinsic reward on tabular examples across a variety of model-based and model-free algorithms, showing improvements over count-only exploration strategies. When tested on navigation and locomotion tasks from MiniGrid and DeepMind Control Suite benchmarks, our approach significantly improves sample efficiency over state-of-the-art methods. Our code is available at https://github.com/t ianjunz/MADE.
翻訳日:2021-06-21 14:25:37 公開日:2021-06-18
# smoothed multi-view subspace clustering

Smoothed Multi-View Subspace Clustering ( http://arxiv.org/abs/2106.09875v1 )

ライセンス: Link先を確認
Peng Chen, Liang Liu, Zhengrui Ma, Zhao Kang(参考訳) 近年のマルチビューサブスペースクラスタリングは,複数のビューにまたがる補完的な情報の利用により,優れたパフォーマンスを達成している。 しかし、マルチビューデータは非常に複雑で、現実世界のアプリケーションでは簡単にクラスタ化できない。 ほとんどの既存手法は生データで動作し、最適解を得ることができない。 本研究では,SMVSC (S smoothed Multi-view subspace clustering) と呼ばれる新しいマルチビュークラスタリング手法を提案する。 具体的には、ローパスフィルタを適用してグラフ幾何学的特徴を保持する。 その結果、 ``clustering-friendly& quot; 表現を生成し、ダウンストリームのクラスタリングタスクを大いに促進します。 ベンチマークデータセットに関する広範囲な実験は、我々のアプローチの優位性を検証する。 分析によると、グラフフィルタリングはクラスの分離性を高める。

In recent years, multi-view subspace clustering has achieved impressive performance due to the exploitation of complementary imformation across multiple views. However, multi-view data can be very complicated and are not easy to cluster in real-world applications. Most existing methods operate on raw data and may not obtain the optimal solution. In this work, we propose a novel multi-view clustering method named smoothed multi-view subspace clustering (SMVSC) by employing a novel technique, i.e., graph filtering, to obtain a smooth representation for each view, in which similar data points have similar feature values. Specifically, it retains the graph geometric features through applying a low-pass filter. Consequently, it produces a ``clustering-friendly& quot; representation and greatly facilitates the downstream clustering task. Extensive experiments on benchmark datasets validate the superiority of our approach. Analysis shows that graph filtering increases the separability of classes.
翻訳日:2021-06-21 14:25:00 公開日:2021-06-18
# ViTのトレーニング方法? 視覚変換器のデータ・拡張・正規化

How to train your ViT? Data, Augmentation, and Regularization in Vision Transformers ( http://arxiv.org/abs/2106.10270v1 )

ライセンス: Link先を確認
Andreas Steiner, Alexander Kolesnikov, Xiaohua Zhai, Ross Wightman, Jakob Uszkoreit, Lucas Beyer(参考訳) 視覚変換器(ViT)は、画像分類、オブジェクト検出、セマンティックイメージセグメンテーションなど、幅広い視覚アプリケーションにおいて高い競争力を発揮することが示されている。 畳み込みニューラルネットワークと比較して、Vision Transformerのより弱いインダクティブバイアスは、より小さなトレーニングデータセットでのトレーニングにおいて、モデル正規化やデータ拡張(略して`AugReg'')への依存を増大させる。 我々は,トレーニングデータ量とaugreg,モデルサイズ,計算予算の相互作用をよりよく理解するために,系統的な実証研究を行う。 この研究の結果、計算量の増加とaugregの組み合わせは、より多くのトレーニングデータに基づいてトレーニングされたモデルと同じパフォーマンスのモデルが得られることがわかった:我々は、公開imagenet-21kデータセット上でさまざまなサイズのvitモデルをトレーニングします。

Vision Transformers (ViT) have been shown to attain highly competitive performance for a wide range of vision applications, such as image classification, object detection and semantic image segmentation. In comparison to convolutional neural networks, the Vision Transformer's weaker inductive bias is generally found to cause an increased reliance on model regularization or data augmentation (``AugReg'' for short) when training on smaller training datasets. We conduct a systematic empirical study in order to better understand the interplay between the amount of training data, AugReg, model size and compute budget. As one result of this study we find that the combination of increased compute and AugReg can yield models with the same performance as models trained on an order of magnitude more training data: we train ViT models of various sizes on the public ImageNet-21k dataset which either match or outperform their counterparts trained on the larger, but not publicly available JFT-300M dataset.
翻訳日:2021-06-21 14:24:49 公開日:2021-06-18
# クラスタリングフレンドリな表現に向けて:グラフフィルタリングによるサブスペースクラスタリング

Towards Clustering-friendly Representations: Subspace Clustering via Graph Filtering ( http://arxiv.org/abs/2106.09874v1 )

ライセンス: Link先を確認
Zhengrui Ma, Zhao Kang, Guangchun Luo, Ling Tian(参考訳) 特定のタスクに適したデータ表現を見つけることは、多くのアプリケーションで重要であることが示されている。 サブスペースクラスタリングの成功は、データが異なるサブスペースに分離できるという仮定に依存する。 しかし、この単純な仮定は、生データは部分空間に分離できないため、常に成り立つわけではない。 クラスタリングフレンドリー'’表現を復元し,その後のクラスタリングを容易にするために,円滑な表現を実現するグラフフィルタリング手法を提案する。 具体的には、ローパスフィルタを適用してクラスタリングに有用なデータ表現を抽出することにより、グラフの類似性をデータ特徴に注入する。 画像および文書クラスタリングデータセットの大規模な実験により、我々の手法は最先端のサブスペースクラスタリング技術により改善されていることを示す。 特に、ディープラーニング手法と同等の性能は、多くの実世界のアプリケーションに対する単純なグラフフィルタリング方式の有効性を強調している。 アブレーション研究によれば、グラフフィルタリングはノイズを除去し、画像の構造を保存し、クラスの分離性を高めることができる。

Finding a suitable data representation for a specific task has been shown to be crucial in many applications. The success of subspace clustering depends on the assumption that the data can be separated into different subspaces. However, this simple assumption does not always hold since the raw data might not be separable into subspaces. To recover the ``clustering-friendly& #x27;' representation and facilitate the subsequent clustering, we propose a graph filtering approach by which a smooth representation is achieved. Specifically, it injects graph similarity into data features by applying a low-pass filter to extract useful data representations for clustering. Extensive experiments on image and document clustering datasets demonstrate that our method improves upon state-of-the-art subspace clustering techniques. Especially, its comparable performance with deep learning methods emphasizes the effectiveness of the simple graph filtering scheme for many real-world applications. An ablation study shows that graph filtering can remove noise, preserve structure in the image, and increase the separability of classes.
翻訳日:2021-06-21 14:24:30 公開日:2021-06-18
# クエリ変調によるオブジェクト検出とユーザインテント間のギャップのブリッジ

Bridging the Gap Between Object Detection and User Intent via Query-Modulation ( http://arxiv.org/abs/2106.10258v1 )

ライセンス: Link先を確認
Marco Fornoni, Chaochao Yan, Liangchen Luo, Kimberly Wilber, Alex Stark, Yin Cui, Boqing Gong, Andrew Howard(参考訳) カメラや写真を通してオブジェクトと対話する場合、ユーザーは特定の意図を持つことが多い。 例えば、彼らはビジュアル検索を実行したいかもしれない。 しかし、ほとんどのオブジェクト検出モデルは、イメージピクセルのみを入力として、ユーザの意図を無視している。 これはしばしば、関心対象に対する高信頼度検出の欠如や、間違ったクラスラベルによる検出など、誤った結果につながる。 本稿では,単純なクエリの埋め込みとして表現されたユーザ意図を明示的に説明するために,標準オブジェクト検出器を変調する手法を検討する。 標準オブジェクト検出器と比較して、クエリ変調検出器は、特定のラベルのオブジェクトを検出するのに優れた性能を示す。 標準オブジェクト検出アノテーションから合成された大規模トレーニングデータのおかげで、クエリ修飾検出器は特別な参照表現認識システムを上回ることができる。 さらに、クエリ修飾検出と標準オブジェクト検出の両方を解決するために同時にトレーニングすることができる。

When interacting with objects through cameras, or pictures, users often have a specific intent. For example, they may want to perform a visual search. However, most object detection models ignore the user intent, relying on image pixels as their only input. This often leads to incorrect results, such as lack of a high-confidence detection on the object of interest, or detection with a wrong class label. In this paper we investigate techniques to modulate standard object detectors to explicitly account for the user intent, expressed as an embedding of a simple query. Compared to standard object detectors, query-modulated detectors show superior performance at detecting objects for a given label of interest. Thanks to large-scale training data synthesized from standard object detection annotations, query-modulated detectors can also outperform specialized referring expression recognition systems. Furthermore, they can be simultaneously trained to solve for both query-modulated detection and standard object detection.
翻訳日:2021-06-21 14:24:16 公開日:2021-06-18
# Residual Error: 対向ロバスト性のための新しいパフォーマンス尺度

Residual Error: a New Performance Measure for Adversarial Robustness ( http://arxiv.org/abs/2106.10212v1 )

ライセンス: Link先を確認
Hossein Aboutalebi, Mohammad Javad Shafiee, Michelle Karg, Christian Scharfenberger, Alexander Wong(参考訳) 過去10年間のディープラーニングの大きな進歩にもかかわらず、ディープラーニングの採用を広く制限する大きな課題は、敵の攻撃に対する脆弱さである。 逆摂動データの存在下で誤った予測を行うことに対するこの感度は、ディープニューラルネットワークを実際のミッションクリティカルな特定のアプリケーションに適用することが困難になる。 研究の焦点の多くは、敵の例の作成と敵の強固化に向けられているが、敵の強固さを評価するためのパフォーマンス対策の領域は十分に検討されていない。 本研究は, 個別サンプルレベルでの深部ニューラルネットワークの対角的堅牢性を評価するだけでなく, 対角的および非対角的事例を区別し, 対角的サンプル検出を容易にする新たな性能指標である残留誤差の概念を提示する。 さらに,残差誤差を扱いやすい方法で近似するハイブリッドモデルを提案する。 画像分類の事例を用いた実験により,複数のディープニューラルネットワークアーキテクチャを評価するための残差誤差指標の有効性と有効性が示された。 これらの結果から,提案手法は,ミッションクリティカルなシナリオで使用されるディープニューラルネットワークの堅牢性を評価するだけでなく,逆向きに頑健なモデルの設計にも有用である可能性が示唆された。

Despite the significant advances in deep learning over the past decade, a major challenge that limits the wide-spread adoption of deep learning has been their fragility to adversarial attacks. This sensitivity to making erroneous predictions in the presence of adversarially perturbed data makes deep neural networks difficult to adopt for certain real-world, mission-critical applications. While much of the research focus has revolved around adversarial example creation and adversarial hardening, the area of performance measures for assessing adversarial robustness is not well explored. Motivated by this, this study presents the concept of residual error, a new performance measure for not only assessing the adversarial robustness of a deep neural network at the individual sample level, but also can be used to differentiate between adversarial and non-adversarial examples to facilitate for adversarial example detection. Furthermore, we introduce a hybrid model for approximating the residual error in a tractable manner. Experimental results using the case of image classification demonstrates the effectiveness and efficacy of the proposed residual error metric for assessing several well-known deep neural network architectures. These results thus illustrate that the proposed measure could be a useful tool for not only assessing the robustness of deep neural networks used in mission-critical scenarios, but also in the design of adversarially robust models.
翻訳日:2021-06-21 14:24:03 公開日:2021-06-18
# 負データ拡張を用いたコントラスト学習による新規性検出

Novelty Detection via Contrastive Learning with Negative Data Augmentation ( http://arxiv.org/abs/2106.09958v1 )

ライセンス: Link先を確認
Chengwei Chen, Yuan Xie, Shaohui Lin, Ruizhi Qiao, Jian Zhou, Xin Tan, Yi Zhang and Lizhuang Ma(参考訳) ノベルティ検出は、クエリ例が学習したトレーニング分布と異なるかどうかを決定するプロセスである。 従来の手法では、gans(generative adversarial network)を介して正規サンプルの表現を学習しようとする。 しかし、不安定なトレーニング、モードダウン、差別能力の低下に悩まされる。 最近は、様々なプレテキストタスク(例)がある。 回転予測とクラスタリング)は、新規性検出における自己教師付き学習のために提案されている。 しかし、学習された潜伏的特徴はいまだに差別的ではない。 我々は,新しいデコーダエンコーダフレームワークを導入することで,この問題を克服する。 まず、生成ネットワーク(a.k.a.)。 decoder) 初期化潜在ベクトルをイメージにマッピングすることで表現を学習する。 特に、このベクトルはモード投下の問題を避けるためにトレーニングデータの分布全体を考慮して初期化される。 第2に、コントラストネットワーク(a.k.a.)。 encoder)は、相互情報推定を通じて'learn to compare'を目指しており、これは生成ネットワークが負のデータ拡張戦略を用いてより識別的な表現を得るのに役立つ。 広範な実験により,本モデルは最先端のノベルティ検出器よりも優れた性能を示し,新たなノベルティ検出ベンチマークで新たな最先端結果を得ることができた。 CIFAR10とDCASE。 さらに,本モデルは,他の逆方向の新規性検出法と比較して,非逆方向のトレーニングに安定である。

Novelty detection is the process of determining whether a query example differs from the learned training distribution. Previous methods attempt to learn the representation of the normal samples via generative adversarial networks (GANs). However, they will suffer from instability training, mode dropping, and low discriminative ability. Recently, various pretext tasks (e.g. rotation prediction and clustering) have been proposed for self-supervised learning in novelty detection. However, the learned latent features are still low discriminative. We overcome such problems by introducing a novel decoder-encoder framework. Firstly, a generative network (a.k.a. decoder) learns the representation by mapping the initialized latent vector to an image. In particular, this vector is initialized by considering the entire distribution of training data to avoid the problem of mode-dropping. Secondly, a contrastive network (a.k.a. encoder) aims to ``learn to compare'' through mutual information estimation, which directly helps the generative network to obtain a more discriminative representation by using a negative data augmentation strategy. Extensive experiments show that our model has significant superiority over cutting-edge novelty detectors and achieves new state-of-the-art results on some novelty detection benchmarks, e.g. CIFAR10 and DCASE. Moreover, our model is more stable for training in a non-adversarial manner, compared to other adversarial based novelty detection methods.
翻訳日:2021-06-21 14:22:55 公開日:2021-06-18
# 一般化ゲーム表現のコントラスト学習

Contrastive Learning of Generalized Game Representations ( http://arxiv.org/abs/2106.10060v1 )

ライセンス: Link先を確認
Chintan Trivedi, Antonios Liapis and Georgios N. Yannakakis(参考訳) ピクセルを通してゲームを表現することは、汎用的で汎用的なゲームモデルを構築するための有望なアプローチを提供する。 ゲームは単なる画像ではないが、ゲーム画素で訓練されたニューラルネットワークモデルは、ゲームの内容ではなく、画像の視覚的スタイルの違いをキャプチャすることが多い。 結果として、そのようなモデルは同じジャンルの類似ゲームでもうまく一般化できない。 本稿では,コントラスト学習の最近の進歩と,ゲームにおける表現学習の利点について述べる。 ゲームのイメージをコントラストする学習は、ゲームをより効率的に分類するだけでなく、視覚的なスタイルを無視してコンテンツに集中することによって、より意味のある方法でゲームを分離するモデルを生成する。 本研究は、175種類のゲームと10種類のゲームジャンルにまたがる10k画像を含むスポーツビデオゲームの大規模データセットを用いて,一般的なゲーム表現の学習に,従来の教師付き学習よりもコントラスト学習が適していることを示す。 本研究の成果は,再学習や微調整を必要とせず,未確認ゲーム間で再利用可能なゲーム用ユニバーサルビジュアルエンコーダに近づいた。

Representing games through their pixels offers a promising approach for building general-purpose and versatile game models. While games are not merely images, neural network models trained on game pixels often capture differences of the visual style of the image rather than the content of the game. As a result, such models cannot generalize well even within similar games of the same genre. In this paper we build on recent advances in contrastive learning and showcase its benefits for representation learning in games. Learning to contrast images of games not only classifies games in a more efficient manner; it also yields models that separate games in a more meaningful fashion by ignoring the visual style and focusing, instead, on their content. Our results in a large dataset of sports video games containing 100k images across 175 games and 10 game genres suggest that contrastive learning is better suited for learning generalized game representations compared to conventional supervised learning. The findings of this study bring us closer to universal visual encoders for games that can be reused across previously unseen games without requiring retraining or fine-tuning.
翻訳日:2021-06-21 14:22:35 公開日:2021-06-18
# 深層学習とデータ強化による産業溶接プロセスの故障検出に向けて

Toward Fault Detection in Industrial Welding Processes with Deep Learning and Data Augmentation ( http://arxiv.org/abs/2106.10160v1 )

ライセンス: Link先を確認
Jibinraj Antony, Dr. Florian Schlather, Georgij Safronov, Markus Schmitz, Prof. Dr. Kristof Van Laerhoven(参考訳) コンピュータビジョンの分野におけるディープラーニングモデルの台頭により、産業プロセスにおける彼らの応用の新たな可能性が大きな利益をもたらすことが証明される。 それでも、高度に標準化された産業プロセスに対する機械学習の実際の適合性はまだ議論中である。 本稿では,レーザービーム溶接品質管理の事例を例として,AIツールの産業化における課題について考察する。 TensorFlowオブジェクト検出APIからオブジェクト検出アルゴリズムを使用し、転送学習を使用してユースケースに適応する。 ベースラインモデルはベンチマークとして使われ、データセットのスケーリングやハイパーパラメータチューニングを行うモデルと比較される。 画像拡張によるデータセットの適度なスケーリングは、ユニオン(IoU)とリコールの交差点の改善につながるが、高レベルの拡張とスケーリングは結果の劣化につながる可能性がある。 最後に、調査結果を基礎となるユースケースの視点に置き、その適合性を評価します。

With the rise of deep learning models in the field of computer vision, new possibilities for their application in industrial processes proves to return great benefits. Nevertheless, the actual fit of machine learning for highly standardised industrial processes is still under debate. This paper addresses the challenges on the industrial realization of the AI tools, considering the use case of Laser Beam Welding quality control as an example. We use object detection algorithms from the TensorFlow object detection API and adapt them to our use case using transfer learning. The baseline models we develop are used as benchmarks and evaluated and compared to models that undergo dataset scaling and hyperparameter tuning. We find that moderate scaling of the dataset via image augmentation leads to improvements in intersection over union (IoU) and recall, whereas high levels of augmentation and scaling may lead to deterioration of results. Finally, we put our results into perspective of the underlying use case and evaluate their fit.
翻訳日:2021-06-21 14:22:18 公開日:2021-06-18
# 境界表現を学習する粗大なインスタンス分割ネットワーク

A Coarse-to-Fine Instance Segmentation Network with Learning Boundary Representation ( http://arxiv.org/abs/2106.10213v1 )

ライセンス: Link先を確認
Feng Luo, Bin-Bin Gao, Jiangpeng Yan, Xiu Li(参考訳) 境界ベースのインスタンスセグメンテーションは、その魅力的な効率性から多くの注目を集めている。 しかし,既存の手法では遠距離回帰が困難である。 本稿では,この問題に対処するための粗細モジュールを提案する。 粗い段階で近似境界点を生成し、その特徴をサンプリングして精巧な回帰器に供給して微妙な予測を行う。 モジュール内では差分サンプリング操作が十分にサポートされているため、エンドツーエンドでトレーニング可能である。 さらに,包括的境界認識ブランチを設計し,回帰を支援するためにインスタンス非依存の監督を導入する。 ResNet-101を組み込んだアプローチでは,COCOデータセット上の31.7\%マスクAPを単一スケールのトレーニングとテストで達成し,ベースラインの1.3\%マスクAPを1\%未満の追加パラメータとGFLOPで上回った。 また,提案手法は,軽量な設計と簡単なパイプラインを持つ既存の境界ベース手法と比較して,競争性能が向上することを示した。

Boundary-based instance segmentation has drawn much attention since of its attractive efficiency. However, existing methods suffer from the difficulty in long-distance regression. In this paper, we propose a coarse-to-fine module to address the problem. Approximate boundary points are generated at the coarse stage and then features of these points are sampled and fed to a refined regressor for fine prediction. It is end-to-end trainable since differential sampling operation is well supported in the module. Furthermore, we design a holistic boundary-aware branch and introduce instance-agnostic supervision to assist regression. Equipped with ResNet-101, our approach achieves 31.7\% mask AP on COCO dataset with single-scale training and testing, outperforming the baseline 1.3\% mask AP with less than 1\% additional parameters and GFLOPs. Experiments also show that our proposed method achieves competitive performance compared to existing boundary-based methods with a lightweight design and a simple pipeline.
翻訳日:2021-06-21 14:22:02 公開日:2021-06-18
# 政策データを用いたバッチ強化学習の複雑さについて

On the Sample Complexity of Batch Reinforcement Learning with Policy-Induced Data ( http://arxiv.org/abs/2106.09973v1 )

ライセンス: Link先を確認
Chenjun Xiao, Ilbin Lee, Bo Dai, Dale Schuurmans, Csaba Szepesvari(参考訳) 有限マルコフ決定過程(MDP)において、学習に利用可能なデータが、基礎となるMDPを知らずに選択しなければならないロギングポリシーに従うことによって得られる場合、よい政策を学ぶためのサンプルの複雑さに関する根本的な疑問を考察する。 本研究の主目的は,計画的地平線$H$が有限である場合,適切な政策を得るために必要な最小限の遷移数であるサンプル複雑性が,関連する量の指数関数であることを示す。 In particular, we prove that the sample complexity of obtaining $\epsilon$-optimal policies is at least $\Omega(\mathrm{A}^{\min(\mathrm{S}-1, H+1)})$ for $\gamma$-discounted problems, where $\mathrm{S}$ is the number of states, $\mathrm{A}$ is the number of actions, and $H$ is the effective horizon defined as $H=\lfloor \tfrac{\ln(1/\epsilon)}{\ln(1/\gamma)} \rfloor$; and it is at least $\Omega(\mathrm{A}^{\min(\mathrm{S}-1, H)}/\varepsilon^2)$ for finite horizon problems, where $H$ is the planning horizon of the problem. この下界は基本的に上界と一致する。 平均帰納的な設定では、有限のデータ量で$\epsilon$-optimalポリシーを見つけるアルゴリズムは存在しない。

We study the fundamental question of the sample complexity of learning a good policy in finite Markov decision processes (MDPs) when the data available for learning is obtained by following a logging policy that must be chosen without knowledge of the underlying MDP. Our main results show that the sample complexity, the minimum number of transitions necessary and sufficient to obtain a good policy, is an exponential function of the relevant quantities when the planning horizon $H$ is finite. In particular, we prove that the sample complexity of obtaining $\epsilon$-optimal policies is at least $\Omega(\mathrm{A}^{\min(\mathrm{S}-1, H+1)})$ for $\gamma$-discounted problems, where $\mathrm{S}$ is the number of states, $\mathrm{A}$ is the number of actions, and $H$ is the effective horizon defined as $H=\lfloor \tfrac{\ln(1/\epsilon)}{\ln(1/\gamma)} \rfloor$; and it is at least $\Omega(\mathrm{A}^{\min(\mathrm{S}-1, H)}/\varepsilon^2)$ for finite horizon problems, where $H$ is the planning horizon of the problem. This lower bound is essentially matched by an upper bound. For the average-reward setting we show that there is no algorithm finding $\epsilon$-optimal policies with a finite amount of data.
翻訳日:2021-06-21 14:21:37 公開日:2021-06-18
# 反復的特徴マッチング:対数環境を用いた証明可能なドメイン一般化に向けて

Iterative Feature Matching: Toward Provable Domain Generalization with Logarithmic Environments ( http://arxiv.org/abs/2106.09913v1 )

ライセンス: Link先を確認
Yining Chen, Elan Rosenfeld, Mark Sellke, Tengyu Ma, Andrej Risteski(参考訳) ドメインの一般化は、限られた数のトレーニング環境からのデータで、目に見えないテスト環境でうまく機能することを目的としています。 この課題に対する提案アルゴリズムの急増にもかかわらず、その性能を評価することは理論的にも経験的にも依然として非常に困難である。 さらに、invariant risk minimization (irm) のような最近のアプローチでは、[rosenfeld et al., 2021] によって提案されたような単純なデータモデルでも、スプリアス特徴空間の次元に線形な、非常に多くのトレーニング環境が必要である。 このモデルの変種の下では、ERMとIRMの両方が$o(d_s)$環境では一般化できないことを示す。 次に,$o(\log{d_s})$環境のみを見た後に一般化する予測器を生成するために,高い確率で保証される反復的特徴マッチングを行う新しいアルゴリズムを提案する。

Domain generalization aims at performing well on unseen test environments with data from a limited number of training environments. Despite a proliferation of proposal algorithms for this task, assessing their performance, both theoretically and empirically is still very challenging. Moreover, recent approaches such as Invariant Risk Minimization (IRM) require a prohibitively large number of training environments - linear in the dimension of the spurious feature space $d_s$ - even on simple data models like the one proposed by [Rosenfeld et al., 2021]. Under a variant of this model, we show that both ERM and IRM cannot generalize with $o(d_s)$ environments. We then present a new algorithm based on performing iterative feature matching that is guaranteed with high probability to yield a predictor that generalizes after seeing only $O(\log{d_s})$ environments.
翻訳日:2021-06-21 14:20:26 公開日:2021-06-18
# カーネル平均埋め込みを用いた分布最適化の一考察

A Note on Optimizing Distributions using Kernel Mean Embeddings ( http://arxiv.org/abs/2106.09994v1 )

ライセンス: Link先を確認
Boris Muzellec, Francis Bach, Alessandro Rudi(参考訳) カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を再生核ヒルベルト空間に表現する一般的なツールである。 カーネルが特徴的である場合、平均埋め込みは、最大平均不一致(MMD)と呼ばれる確率測度間の距離を定義するために用いられる。 平均埋め込みとMDDの利点は、計算コストが低く、サンプルの複雑さが低いことである。 しかし、ヒルベルト空間ベクトルが確率分布に対応するような特徴付けの難しさから、カーネルの平均埋め込みは分布を最適化する問題に限定的に応用されている。 本稿では Marteau-Ferey et al の正の関数の2乗和のパラメタライゼーションを活用することを提案する。 MMD幾何学における分布に適合する[2020]。 まず、カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。 次に, 有限サンプル設定におけるそのような分布を最適化するアルゴリズムを提案し, 密度適合数値実験で示す。

Kernel mean embeddings are a popular tool that consists in representing probability measures by their infinite-dimensional mean embeddings in a reproducing kernel Hilbert space. When the kernel is characteristic, mean embeddings can be used to define a distance between probability measures, known as the maximum mean discrepancy (MMD). A well-known advantage of mean embeddings and MMD is their low computational cost and low sample complexity. However, kernel mean embeddings have had limited applications to problems that consist in optimizing distributions, due to the difficulty of characterizing which Hilbert space vectors correspond to a probability distribution. In this note, we propose to leverage the kernel sums-of-squares parameterization of positive functions of Marteau-Ferey et al. [2020] to fit distributions in the MMD geometry. First, we show that when the kernel is characteristic, distributions with a kernel sum-of-squares density are dense. Then, we provide algorithms to optimize such distributions in the finite-sample setting, which we illustrate in a density fitting numerical experiment.
翻訳日:2021-06-21 14:20:09 公開日:2021-06-18
# 確率過程のコントラスト表現について

On Contrastive Representations of Stochastic Processes ( http://arxiv.org/abs/2106.10052v1 )

ライセンス: Link先を確認
Emile Mathieu, Adam Foster, Yee Whye Teh(参考訳) 確率過程の学習は、メタラーニングから物理オブジェクトモデル、時系列に至るまで、機械学習における新たな問題である。 典型的な手法は、観測の正確な再構成に依存するが、高次元化やノイズ分布の複雑化に伴い、この手法は崩壊する。 そこで本稿では,確率過程のコントラスト表現(CRESP)を正確に再構築せずに学習するための統合フレームワークを提案する。 確率的プロセス表現の潜在的なユースケースを特定し,それぞれに対応する手法を提案する。 実験により,本手法は周期関数,3次元オブジェクト,動的プロセスの表現の学習に有効であることを示す。 提案手法は従来の手法よりもノイズの多い高次元観測を許容し,学習した表現を下流タスクに伝達する。

Learning representations of stochastic processes is an emerging problem in machine learning with applications from meta-learning to physical object models to time series. Typical methods rely on exact reconstruction of observations, but this approach breaks down as observations become high-dimensional or noise distributions become complex. To address this, we propose a unifying framework for learning contrastive representations of stochastic processes (CRESP) that does away with exact reconstruction. We dissect potential use cases for stochastic process representations, and propose methods that accommodate each. Empirically, we show that our methods are effective for learning representations of periodic functions, 3D objects and dynamical processes. Our methods tolerate noisy high-dimensional observations better than traditional approaches, and the learned representations transfer to a range of downstream tasks.
翻訳日:2021-06-21 14:19:51 公開日:2021-06-18
# 水平分割ラベルのための垂直的フェデレーション学習フレームワーク

A Vertical Federated Learning Framework for Horizontally Partitioned Labels ( http://arxiv.org/abs/2106.10056v1 )

ライセンス: Link先を確認
Wensheng Xia, Ying Li, Lan Zhang, Zhonghai Wu, Xiaoyong Yuan(参考訳) 垂直フェデレーション学習は、垂直に分割されたデータに対して、プライバシ保護を備えたディープラーニングモデルをトレーニングするための、協調的な機械学習フレームワークである。 学界と産業の両方から注目を集めている。 残念ながら、既存の垂直連合学習手法を現実世界のアプリケーションに適用することは、2つの困難な課題に直面している。 第一に、既存のほとんどの垂直連合学習手法は、少なくとも一方が全てのデータサンプルのラベルの完全なセットを持っているという強い仮定を持ち、一方、この仮定は、ラベルが水平に分割され、当事者が部分的なラベルのみを保持する多くの現実的なシナリオでは満たされていない。 既存の垂直連合学習法は部分ラベルのみを利用することができ、エンドツーエンドのバックプロパゲーションにおいて不適切なモデル更新につながる可能性がある。 第二に、計算資源と通信資源は当事者によって異なる。 限られた計算資源と通信資源を持つ一部の当事者はストラグラーとなり、訓練の収束を遅らせる。 このようなストラグラー問題は、垂直連合学習における水平分割ラベルのシナリオにおいて誇張される。 そこで本研究では,水平分割ラベルを全て活用し,プライバシ保存型ニューラルネットワークのトレーニングを行うために,カスケード垂直フェデレーション学習(cvfl)と呼ばれる新しい垂直フェデレーション学習フレームワークを提案する。 トラグラー問題を緩和するために、トラグラーのトレーニングモデルへの寄与を増大させる新しい最適化目標を設計する。 我々はCVFLの有効性を厳格に検証するために,一連の定性的実験を行った。 CVFLは集中トレーニングで同等の性能(例えば分類タスクの精度)を達成できることが示されている。 新たな最適化目標は、トレーニング中に非同期集約機構のみを使用する場合と比較して、ストラグラー問題をさらに緩和することができる。

Vertical federated learning is a collaborative machine learning framework to train deep leaning models on vertically partitioned data with privacy-preservation . It attracts much attention both from academia and industry. Unfortunately, applying most existing vertical federated learning methods in real-world applications still faces two daunting challenges. First, most existing vertical federated learning methods have a strong assumption that at least one party holds the complete set of labels of all data samples, while this assumption is not satisfied in many practical scenarios, where labels are horizontally partitioned and the parties only hold partial labels. Existing vertical federated learning methods can only utilize partial labels, which may lead to inadequate model update in end-to-end backpropagation. Second, computational and communication resources vary in parties. Some parties with limited computational and communication resources will become the stragglers and slow down the convergence of training. Such straggler problem will be exaggerated in the scenarios of horizontally partitioned labels in vertical federated learning. To address these challenges, we propose a novel vertical federated learning framework named Cascade Vertical Federated Learning (CVFL) to fully utilize all horizontally partitioned labels to train neural networks with privacy-preservation . To mitigate the straggler problem, we design a novel optimization objective which can increase straggler's contribution to the trained models. We conduct a series of qualitative experiments to rigorously verify the effectiveness of CVFL. It is demonstrated that CVFL can achieve comparable performance (e.g., accuracy for classification tasks) with centralized training. The new optimization objective can further mitigate the straggler problem comparing with only using the asynchronous aggregation mechanism during training.
翻訳日:2021-06-21 14:19:39 公開日:2021-06-18
# ベイズニューラルネットワークを改良したビット周波数器

Being a Bit Frequentist Improves Bayesian Neural Networks ( http://arxiv.org/abs/2106.10065v1 )

ライセンス: Link先を確認
Agustinus Kristiadi and Matthias Hein and Philipp Hennig(参考訳) その説得力のある理論的性質にもかかわらず、ベイズニューラルネットワーク(BNN)は分類に基づく不確実性定量化(UQ)タスクにおいて、アウト・オブ・ディストリビューション(OOD)検出やデータセットシフトロバストネス(英語版)といった頻繁な手法よりもパフォーマンスが悪い傾向にある。 本研究は, 先行研究における実証的な知見に基づいて, いわゆる「OODトレーニング」におけるベイズ的手法の回避によるものであると仮定する。 これを検証するため,ベイズ推論にOODデータを組み込む4つの方法を探ることで,BNNトレーニングにおいてOODデータを第一級市民として扱う。 OODを訓練したBNNは,近年の頻繁なベースラインに劣らず,競争力があることを示す。 この研究はベイズ的および頻繁なUQにおける将来の研究の強力な基盤となる。

Despite their compelling theoretical properties, Bayesian neural networks (BNNs) tend to perform worse than frequentist methods in classification-based uncertainty quantification (UQ) tasks such as out-of-distribution (OOD) detection and dataset-shift robustness. In this work, based on empirical findings in prior works, we hypothesize that this issue is due to the avoidance of Bayesian methods in the so-called "OOD training" -- a family of techniques for incorporating OOD data during training process, which has since been an integral part of state-of-the-art frequentist UQ methods. To validate this, we treat OOD data as a first-class citizen in BNN training by exploring four different ways of incorporating OOD data in Bayesian inference. We show in extensive experiments that OOD-trained BNNs are competitive to, if not better than recent frequentist baselines. This work thus provides strong baselines for future work in both Bayesian and frequentist UQ.
翻訳日:2021-06-21 14:19:09 公開日:2021-06-18
# FLANタイム! 可読性のための特徴的潜在表現の要約

It's FLAN time! Summing feature-wise latent representations for interpretability ( http://arxiv.org/abs/2106.10086v1 )

ライセンス: Link先を確認
An-phi Nguyen, Maria Rodriguez Martinez(参考訳) 解釈可能性(interpretability)は、重要なシナリオにデプロイされる機械学習モデルに必要な機能である。 法制度 医療 これらの状況において、アルゴリズム的決定は、決定によって影響を受けるエンドユーザに(潜在的に負の)長期的影響をもたらす可能性がある。 多くの場合、深層学習モデルの表現力は必要ないため、単純で解釈可能なモデル(例)である。 線形モデル)が好まれるべきです。 しかし、高次元および/または複素領域では(例えば)。 コンピュータビジョン) ニューラルネットワークの普遍的な近似能力が必要である。 線形モデルとコルモゴロフ・アルノル表現定理に着想を得て,FLAN(Feature-wise Latent Additive Networks)と呼ばれる構造制約ニューラルネットワークの新たなクラスを提案する。 重要なことに、FLANは各入力特徴を個別に処理し、それぞれに共通の潜在空間の表現を演算する。 これらの特徴的潜在表現は単純に要約され、集約された表現は予測に使用される。 これらの制約(線形モデルの解釈可能性の核心にある)により、ユーザーは個々の特徴を他の特徴とは独立に評価し、解釈可能性を高めることができる。 異なる領域にわたる一連の実験において、テスト性能を過度に損なうことなく、FLANで提案される構造的制約がディープラーニングモデルの解釈可能性を高めることを示す。

Interpretability has become a necessary feature for machine learning models deployed in critical scenarios, e.g. legal systems, healthcare. In these situations, algorithmic decisions may have (potentially negative) long-lasting effects on the end-user affected by the decision. In many cases, the representational power of deep learning models is not needed, therefore simple and interpretable models (e.g. linear models) should be preferred. However, in high-dimensional and/or complex domains (e.g. computer vision), the universal approximation capabilities of neural networks is required. Inspired by linear models and the Kolmogorov-Arnol representation theorem, we propose a novel class of structurally-constra ined neural networks, which we call FLANs (Feature-wise Latent Additive Networks). Crucially, FLANs process each input feature separately, computing for each of them a representation in a common latent space. These feature-wise latent representations are then simply summed, and the aggregated representation is used for prediction. These constraints (which are at the core of the interpretability of linear models) allow an user to estimate the effect of each individual feature independently from the others, enhancing interpretability. In a set of experiments across different domains, we show how without compromising excessively the test performance, the structural constraints proposed in FLANs indeed increase the interpretability of deep learning models.
翻訳日:2021-06-21 14:18:53 公開日:2021-06-18
# ScoreGrad:連続エネルギーベース生成モデルによる多変量確率時系列予測

ScoreGrad: Multivariate Probabilistic Time Series Forecasting with Continuous Energy-based Generative Models ( http://arxiv.org/abs/2106.10121v1 )

ライセンス: Link先を確認
Tijin Yan, Hongwei Zhang, Tong Zhou, Yufeng Zhan, Yuanqing Xia(参考訳) 多変量時系列予測は、インテリジェンストランスポートやAIOpsといった幅広い応用のために、多くの注目を集めている。 生成モデルは、データ分布をモデル化し、ノイズを考慮に入れることができるため、時系列モデリングにおいて素晴らしい結果を得た。 しかし、多くの既存の作品は、関数型生成モデルの制約やハイパーパラメータに対する感度のために広く利用できない。 本稿では,連続エネルギーに基づく生成モデルに基づく多変量確率時系列予測フレームワークである scoregrad を提案する。 ScoreGradは時系列特徴抽出モジュールと条件確率微分方程式に基づくスコアマッチングモジュールで構成される。 この予測は、逆時間SDEを反復的に解くことで実現できる。 我々の知る限りでは、ScoreGradは時系列予測に使用される最初の連続エネルギーベース生成モデルである。 さらに、ScoreGradは6つの実世界のデータセットで最先端の結果を達成する。 ハイパーパラメータとサンプルタイプがパフォーマンスに与える影響についても検討した。 コードはhttps://github.com/y antijin/scoregradpre dで入手できる。

Multivariate time series prediction has attracted a lot of attention because of its wide applications such as intelligence transportation, AIOps. Generative models have achieved impressive results in time series modeling because they can model data distribution and take noise into consideration. However, many existing works can not be widely used because of the constraints of functional form of generative models or the sensitivity to hyperparameters. In this paper, we propose ScoreGrad, a multivariate probabilistic time series forecasting framework based on continuous energy-based generative models. ScoreGrad is composed of time series feature extraction module and conditional stochastic differential equation based score matching module. The prediction can be achieved by iteratively solving reverse-time SDE. To the best of our knowledge, ScoreGrad is the first continuous energy based generative model used for time series forecasting. Furthermore, ScoreGrad achieves state-of-the-art results on six real-world datasets. The impact of hyperparameters and sampler types on the performance are also explored. Code is available at https://github.com/y antijin/ScoreGradPre d.
翻訳日:2021-06-21 14:18:33 公開日:2021-06-18
# 準分離ガウス過程に対する擬点と状態空間近似の組み合わせ

Combining Pseudo-Point and State Space Approximations for Sum-Separable Gaussian Processes ( http://arxiv.org/abs/2106.10210v1 )

ライセンス: Link先を確認
Will Tebbutt and Arno Solin and Richard E. Turner(参考訳) ガウス過程(GP)は、気候科学や疫学などの時空間モデリング問題における推論と学習のための重要な確率論的ツールである。 しかし、既存のGP近似は、多くの応用の目印となる多くのオフザグリッド空間データポイントと長い時系列を同時にサポートしていない。 GPを大規模データセットにスケーリングするための金本位法の一つである擬似点近似は、オフザグリッド空間データを扱うのに適している。 しかし、時間次元の立方体計算スケーリングに効果的に回帰する長い時空観測地平線を扱うことができない。 状態空間 gp 近似は時間的データを扱うのに適しており、時間的 gp が事前にマルコフ形式を認めている場合、時間的観測の回数が線形に複雑になるが、立方体空間コストを持ち、格子外空間データを扱うことができない。 本研究では、擬似点法と状態空間GP近似フレームワークを組み合わせ、両世界の長所を得るためのシンプルでエレガントな方法が存在することを示す。 このアプローチは、時空分離可能なGPに適用される驚くべき条件付き独立性に基づいている。 組み合わせたアプローチは,いずれの手法よりも拡張性が高く,時空間問題にも適用可能であることを実証的に実証した。

Gaussian processes (GPs) are important probabilistic tools for inference and learning in spatio-temporal modelling problems such as those in climate science and epidemiology. However, existing GP approximations do not simultaneously support large numbers of off-the-grid spatial data-points and long time-series which is a hallmark of many applications. Pseudo-point approximations, one of the gold-standard methods for scaling GPs to large data sets, are well suited for handling off-the-grid spatial data. However, they cannot handle long temporal observation horizons effectively reverting to cubic computational scaling in the time dimension. State space GP approximations are well suited to handling temporal data, if the temporal GP prior admits a Markov form, leading to linear complexity in the number of temporal observations, but have a cubic spatial cost and cannot handle off-the-grid spatial data. In this work we show that there is a simple and elegant way to combine pseudo-point methods with the state space GP approximation framework to get the best of both worlds. The approach hinges on a surprising conditional independence property which applies to space--time separable GPs. We demonstrate empirically that the combined approach is more scalable and applicable to a greater range of spatio-temporal problems than either method on its own.
翻訳日:2021-06-21 14:18:22 公開日:2021-06-18
# DNNの確率的表現:相互情報のブリッジと一般化

A Probabilistic Representation of DNNs: Bridging Mutual Information and Generalization ( http://arxiv.org/abs/2106.10262v1 )

ライセンス: Link先を確認
Xinjie Lan, Kenneth Barner(参考訳) 近年,Deep Neural Networks (DNN) の一般化誤差のバウンダリングにおいて,相互情報(MI)が注目されている。 しかし、DNNにおけるMIを正確に推定することは困難であり、従って、これまでのほとんどの研究はMI境界を緩和し、一般化のための情報理論的な説明を弱める必要がある。 そこで本研究では,MIを正確に推定するためのDNNの確率的表現を提案する。 提案するmi推定器を用いて,一般化のための情報理論的な説明を検証し,最先端の緩和よりも厳密な一般化を導出する。

Recently, Mutual Information (MI) has attracted attention in bounding the generalization error of Deep Neural Networks (DNNs). However, it is intractable to accurately estimate the MI in DNNs, thus most previous works have to relax the MI bound, which in turn weakens the information theoretic explanation for generalization. To address the limitation, this paper introduces a probabilistic representation of DNNs for accurately estimating the MI. Leveraging the proposed MI estimator, we validate the information theoretic explanation for generalization, and derive a tighter generalization bound than the state-of-the-art relaxations.
翻訳日:2021-06-21 14:18:02 公開日:2021-06-18
# GEM:マルチモーダルタスクの一般的な評価ベンチマーク

GEM: A General Evaluation Benchmark for Multimodal Tasks ( http://arxiv.org/abs/2106.09889v1 )

ライセンス: Link先を確認
Lin Su and Nan Duan and Edward Cui and Lei Ji and Chenfei Wu and Huaishao Luo and Yongfei Liu and Ming Zhong and Taroon Bharti and Arun Sacheti(参考訳) 本稿では,GEMをマルチモーダルタスクの総合評価ベンチマークとして提示する。 自然言語タスクに重点を置いているGLUE、SuperGLUE、XGLUE、XTREMEといった既存のデータセットとは異なり、GEMは画像言語タスクのGEM-Iとビデオ言語タスクのGEM-Vで構成される大規模なビジョンベンチマークである。 MSCOCOやFlicker30Kといった既存の画像言語タスクのマルチモーダルデータセット、ビデオ言語タスクのYouCook2やMSR-VTTと比較すると、GEMは画像言語タスクとビデオ言語タスクを同時にカバーする最大のビジョン言語データセットであるだけでなく、複数の言語でラベル付けされている。 このベンチマークには2つのベースラインモデルも提供しています。 我々は,多言語マルチモーダル研究の発展を目指して,データセット,コード,ベースラインモデルをリリースする。

In this paper, we present GEM as a General Evaluation benchmark for Multimodal tasks. Different from existing datasets such as GLUE, SuperGLUE, XGLUE and XTREME that mainly focus on natural language tasks, GEM is a large-scale vision-language benchmark, which consists of GEM-I for image-language tasks and GEM-V for video-language tasks. Comparing with existing multimodal datasets such as MSCOCO and Flicker30K for image-language tasks, YouCook2 and MSR-VTT for video-language tasks, GEM is not only the largest vision-language dataset covering image-language tasks and video-language tasks at the same time, but also labeled in multiple languages. We also provide two baseline models for this benchmark. We will release the dataset, code and baseline models, aiming to advance the development of multilingual multimodal research.
翻訳日:2021-06-21 14:17:50 公開日:2021-06-18
# 自己ラベルと自己アテンションによる一元的対人ネットワークトレーニング

A Unified Generative Adversarial Network Training via Self-Labeling and Self-Attention ( http://arxiv.org/abs/2106.09914v1 )

ライセンス: Link先を確認
Tomoki Watanabe, Paolo Favaro(参考訳) 本稿では,任意のレベルのラベリングを統一的に処理できる新しいGANトレーニング手法を提案する。 提案手法では,手動で定義したラベルを組み込んだ人工ラベリングを導入し,それらのアライメントを誘導する。 人工ラベルを定義するために、ニューラルネットワークジェネレータは、複数のカテゴリにまたがるよりも、近隣の潜在ベクトルをセマンティックな類似性のあるデータにマッピングするために、より容易に訓練できるという仮定を利用する。 生成されたデータサンプルとその対応する人工条件ラベルを用いて分類器を訓練する。 分類器は、実データを自己ラベルするために使用される。 自己ラベルの精度を高めるために,分類器の指数移動平均を用いる。 しかし,分類器がまだ誤りを犯す可能性があるため,分類器が高い分類確率スコアを出力した場合のみ,実データサンプルのラベル付けを使用することで,自己注意によるラベルの洗練を図る。 我々は, CIFAR-10, STL-10, SVHNに対するアプローチを評価し, 自己ラベルと自己アテンションの両方が生成データの品質を継続的に向上することを示す。 さらに驚くべきことに、提案手法はクラス条件のGANよりも優れている。

We propose a novel GAN training scheme that can handle any level of labeling in a unified manner. Our scheme introduces a form of artificial labeling that can incorporate manually defined labels, when available, and induce an alignment between them. To define the artificial labels, we exploit the assumption that neural network generators can be trained more easily to map nearby latent vectors to data with semantic similarities, than across separate categories. We use generated data samples and their corresponding artificial conditioning labels to train a classifier. The classifier is then used to self-label real data. To boost the accuracy of the self-labeling, we also use the exponential moving average of the classifier. However, because the classifier might still make mistakes, especially at the beginning of the training, we also refine the labels through self-attention, by using the labeling of real data samples only when the classifier outputs a high classification probability score. We evaluate our approach on CIFAR-10, STL-10 and SVHN, and show that both self-labeling and self-attention consistently improve the quality of generated data. More surprisingly, we find that the proposed scheme can even outperform class-conditional GANs.
翻訳日:2021-06-21 14:17:15 公開日:2021-06-18
# 共同解体・復調のための残留コントラスト学習

Residual Contrastive Learning for Joint Demosaicking and Denoising ( http://arxiv.org/abs/2106.10070v1 )

ライセンス: Link先を確認
Nanqing Dong, Matteo Maggioni, Yongxin Yang, Eduardo P\'erez-Pellitero, Ales Leonardis, Steven McDonagh(参考訳) 対照的学習(CL)のブレークスルーにより、RGB画像上の高レベル視覚タスクにおいて、自己教師付き学習(SSL)が最近成功している。 しかし、CLはRAWドメインのJDD(Joint Demosaicking and Denoising)のような低レベルの視覚タスクでは未定義である。 本稿では,この手法のギャップを埋めるために,RAW画像に対する新しいCLアプローチ,Ressent contrastive Learning (RCL)を提案する。 本研究は,各RAW画像に含まれるノイズが信号依存的であることを前提として,同一RAW画像の2つの作物は異なるRAW画像の2つの作物よりも類似したノイズ分布を持つべきである。 識別的特徴として残差を用い, コントラスト損失の分布の発散を測定するために, 地球移動者の距離を計測した。 提案したCL戦略を評価するために,合成信号依存ノイズによる大規模データによる教師なしJDD実験をシミュレーションし,未知(ランダム)ノイズ分散を伴う教師なしJDDタスクの新しいベンチマークを設定した。 実験では,cl が分布 (c.f.) に適用可能であることを検証した。 また、ノイズの統計が不明な場合には、従来の非MLおよびSSL JDDメソッドの堅牢性の欠如が露呈し、信号依存ノイズ問題に関するさらなる洞察を提供する。

The breakthrough of contrastive learning (CL) has fueled the recent success of self-supervised learning (SSL) in high-level vision tasks on RGB images. However, CL is still ill-defined for low-level vision tasks, such as joint demosaicking and denoising (JDD), in the RAW domain. To bridge this methodological gap, we present a novel CL approach on RAW images, residual contrastive learning (RCL), which aims to learn meaningful representations for JDD. Our work is built on the assumption that noise contained in each RAW image is signal-dependent, thus two crops from the same RAW image should have more similar noise distribution than two crops from different RAW images. We use residuals as a discriminative feature and the earth mover's distance to measure the distribution divergence for the contrastive loss. To evaluate the proposed CL strategy, we simulate a series of unsupervised JDD experiments with large-scale data corrupted by synthetic signal-dependent noise, where we set a new benchmark for unsupervised JDD tasks with unknown (random) noise variance. Our empirical study not only validates that CL can be applied on distributions (c.f. features), but also exposes the lack of robustness of previous non-ML and SSL JDD methods when the statistics of the noise are unknown, thus providing some further insight into signal-dependent noise problems.
翻訳日:2021-06-21 14:16:53 公開日:2021-06-18
# 等変ニューラルネットワークのための安定部分微分演算子

Steerable Partial Differential Operators for Equivariant Neural Networks ( http://arxiv.org/abs/2106.10163v1 )

ライセンス: Link先を確認
Erik Jenner, Maurice Weiler(参考訳) 最近の同変深層学習の研究は物理学と強い類似性を持っている。 基底空間上の体は、これらの体の間の同変写像と同様に、両方の体の基本体である。 しかし深層学習では、これらの写像は通常核との畳み込みによって定義されるが、物理学では偏微分作用素 (pdos) である。 深層学習の文脈における同変PDOの理論の発展は、これらの主題をさらに密集させ、より強力なアイデアの流れをもたらす可能性がある。 本研究では、任意の対称性群に対して、特徴ベクトル場間のPDOが同変であるときに完全に特徴付ける$G$-ステアビリティ制約を導出する。 そして、この制約をいくつかの重要な群に対して完全に解決する。 畳み込み層の等価なドロップイン置換としてソリューションを使用し、その役割でそれらをベンチマークします。 最後に、古典的畳み込みと微分作用素を統合するシュワルツ分布に基づく同変写像の枠組みを開発し、両者の関係について洞察を与える。

Recent work in equivariant deep learning bears strong similarities to physics. Fields over a base space are fundamental entities in both subjects, as are equivariant maps between these fields. In deep learning, however, these maps are usually defined by convolutions with a kernel, whereas they are partial differential operators (PDOs) in physics. Developing the theory of equivariant PDOs in the context of deep learning could bring these subjects even closer together and lead to a stronger flow of ideas. In this work, we derive a $G$-steerability constraint that completely characterizes when a PDO between feature vector fields is equivariant, for arbitrary symmetry groups $G$. We then fully solve this constraint for several important groups. We use our solutions as equivariant drop-in replacements for convolutional layers and benchmark them in that role. Finally, we develop a framework for equivariant maps based on Schwartz distributions that unifies classical convolutions and differential operators and gives insight about the relation between the two.
翻訳日:2021-06-21 14:16:31 公開日:2021-06-18
# 気晴らし-ロバストアクティブビジュアルトラッキングに向けて

Towards Distraction-Robust Active Visual Tracking ( http://arxiv.org/abs/2106.10110v1 )

ライセンス: Link先を確認
Fangwei Zhong, Peng Sun, Wenhan Luo, Tingyun Yan, Yizhou Wang(参考訳) アクティブな視覚的トラッキングでは、物体を邪魔するときには、標的を隠蔽したり、混乱させた外観をもたらすことで、しばしばトラッカーを誤解させるため、悪名高い。 この問題に対処するために、ターゲットと複数のトラッカーが協調チームを形成してトラッカーと対戦し、追従に失敗する複合協調競争型マルチエージェントゲームを提案する。 私たちのゲームで学習することで、邪魔者の様々な注意をそらす行動が自然に現れて、トラッカーの弱点を露呈し、トラッカーの注意をそらすようにします。 効果的な学習には,障害に対する報奨関数,教師-学生間の学習戦略,トラッカーに対する繰り返し注意機構など,多くの実践的な方法が提示される。 実験の結果,トラッカは所望の注意をそそるアクティブなビジュアルトラッキングを行い,未発見の環境に広く適用できることがわかった。 また,マルチエージェントゲームを用いてトラッカーのロバスト性を逆向きにテストできることも示す。

In active visual tracking, it is notoriously difficult when distracting objects appear, as distractors often mislead the tracker by occluding the target or bringing a confusing appearance. To address this issue, we propose a mixed cooperative-competit ive multi-agent game, where a target and multiple distractors form a collaborative team to play against a tracker and make it fail to follow. Through learning in our game, diverse distracting behaviors of the distractors naturally emerge, thereby exposing the tracker's weakness, which helps enhance the distraction-robustne ss of the tracker. For effective learning, we then present a bunch of practical methods, including a reward function for distractors, a cross-modal teacher-student learning strategy, and a recurrent attention mechanism for the tracker. The experimental results show that our tracker performs desired distraction-robust active visual tracking and can be well generalized to unseen environments. We also show that the multi-agent game can be used to adversarially test the robustness of trackers.
翻訳日:2021-06-21 14:16:14 公開日:2021-06-18
# 悪質なキャラクター: 受け入れ難いNLP攻撃

Bad Characters: Imperceptible NLP Attacks ( http://arxiv.org/abs/2106.09898v1 )

ライセンス: Link先を確認
Nicholas Boucher, Ilia Shumailov, Ross Anderson, Nicolas Papernot(参考訳) 機械学習システムは、理論と実際の両方において、敵の例に弱いことが数年間の研究で示されている。 これまでこのような攻撃は主に視覚モデルをターゲットにしており、人間と機械の知覚のギャップを生かしてきた。 テキストベースのモデルも敵の例で攻撃されているが、このような攻撃は意味的意味と区別不能を保つのに苦労した。 本稿では,テキストベースのモデルをブラックボックス設定で攻撃するために,入力に視覚的な修正を加えることなく,多数の敵の例を探索する。 我々は,人間の目には知覚できない符号化固有摂動を用いて,ニューラルネットワーク翻訳パイプラインからweb検索エンジンまで,幅広い自然言語処理(nlp)システムの出力を操作する。 単一の認識不能なエンコーディングインジェクション(1つの見えない文字、ホモグリフ、リオーダー、削除を表す)では、攻撃者は脆弱なモデルの性能を著しく低下させ、ほとんどのモデルが機能的に壊れる可能性がある。 当社の攻撃は、現在デプロイされている商用システムに対するもので、MicrosoftやGoogleが製造したものだけでなく、FacebookやIBMが公開したオープンソースモデルも対象です。 この新たな攻撃は、多くの言語処理システムに重大な脅威をもたらす。攻撃者は、基盤となるモデルについて仮定することなく、ターゲットとする方法でシステムに影響を与えることができる。 我々は,テキストベースのNLPシステムでは,従来のアプリケーションと同じように注意深い入力衛生化が必要であり,そのようなシステムが大規模に迅速に展開されているため,アーキテクトやオペレーターの緊急注意が必要であると結論付けた。

Several years of research have shown that machine-learning systems are vulnerable to adversarial examples, both in theory and in practice. Until now, such attacks have primarily targeted visual models, exploiting the gap between human and machine perception. Although text-based models have also been attacked with adversarial examples, such attacks struggled to preserve semantic meaning and indistinguishability . In this paper, we explore a large class of adversarial examples that can be used to attack text-based models in a black-box setting without making any human-perceptible visual modification to inputs. We use encoding-specific perturbations that are imperceptible to the human eye to manipulate the outputs of a wide range of Natural Language Processing (NLP) systems from neural machine-translation pipelines to web search engines. We find that with a single imperceptible encoding injection -- representing one invisible character, homoglyph, reordering, or deletion -- an attacker can significantly reduce the performance of vulnerable models, and with three injections most models can be functionally broken. Our attacks work against currently-deployed commercial systems, including those produced by Microsoft and Google, in addition to open source models published by Facebook and IBM. This novel series of attacks presents a significant threat to many language processing systems: an attacker can affect systems in a targeted manner without any assumptions about the underlying model. We conclude that text-based NLP systems require careful input sanitization, just like conventional applications, and that given such systems are now being deployed rapidly at scale, the urgent attention of architects and operators is required.
翻訳日:2021-06-21 14:15:55 公開日:2021-06-18
# 障害音声の自動音声認識モデルのオンデバイスパーソナライズ

On-Device Personalization of Automatic Speech Recognition Models for Disordered Speech ( http://arxiv.org/abs/2106.10259v1 )

ライセンス: Link先を確認
Katrin Tomanek, Fran\c{c}oise Beaufays, Julie Cattiau, Angad Chandorkar, Khe Chai Sim(参考訳) 現在の最先端自動音声認識(ASR)システムは、典型的な音声に対して高い精度を達成するが、混乱した音声やその他の非定型音声パターンに対する顕著な性能劣化に悩まされる。 この問題に対する一般的なソリューションであるASRモデルのパーソナライズは通常、データプライバシ、遅延モデル更新時間、モバイルデバイスとサーバインフラストラクチャ間のデータやモデルをコピーするための通信コストに関する問題を引き起こすサーバベースのトレーニング環境で実行される。 本稿では,デバイス上でのasrパーソナライズへのアプローチについて紹介する。 提案手法は,発話障害のある話者100名を対象に試行し,話者ごとの発話が50人しか必要とせず,単語誤り率の中央値が71%向上した。 音声制御されたホームオートメーションプラットフォームでテストすると、デバイス上のパーソナライズされたモデルでは、未適応モデルの40%に対して、タスクの成功率は81%である。

While current state-of-the-art Automatic Speech Recognition (ASR) systems achieve high accuracy on typical speech, they suffer from significant performance degradation on disordered speech and other atypical speech patterns. Personalization of ASR models, a commonly applied solution to this problem, is usually performed in a server-based training environment posing problems around data privacy, delayed model-update times, and communication cost for copying data and models between mobile device and server infrastructure. In this paper, we present an approach to on-device based ASR personalization with very small amounts of speaker-specific data. We test our approach on a diverse set of 100 speakers with disordered speech and find median relative word error rate improvement of 71% with only 50 short utterances required per speaker. When tested on a voice-controlled home automation platform, on-device personalized models show a median task success rate of 81%, compared to only 40% of the unadapted models.
翻訳日:2021-06-21 14:15:29 公開日:2021-06-18
# 強化学習とアクティブ推論によるゴール指向計画

Goal-Directed Planning by Reinforcement Learning and Active Inference ( http://arxiv.org/abs/2106.09938v1 )

ライセンス: Link先を確認
Dongqi Han, Kenji Doya and Jun Tani(参考訳) 目標指向行動と習慣行動の違いは何か? ベイズ推論を用いた意思決定の新たな計算フレームワークを提案する。 このモデルは、自己爆発によって環境状態遷移を予測し、確率的内部状態をサンプリングして運動を発生させる。 従来のz$の分布から得られる習慣行動は、強化学習によって取得される。 目標指向行動は、目標観察のための自由エネルギーを最小化するために、能動推論を用いて計画的にz$の後方分布から決定される。 本稿では,カメラ観測と連続運動動作を用いたセンサモレータナビゲーションタスクの実験により,提案手法の有効性を実証する。

What is the difference between goal-directed and habitual behavior? We propose a novel computational framework of decision making with Bayesian inference, in which everything is integrated as an entire neural network model. The model learns to predict environmental state transitions by self-exploration and generating motor actions by sampling stochastic internal states $z$. Habitual behavior, which is obtained from the prior distribution of $z$, is acquired by reinforcement learning. Goal-directed behavior is determined from the posterior distribution of $z$ by planning, using active inference, to minimize the free energy for goal observation. We demonstrate the effectiveness of the proposed framework by experiments in a sensorimotor navigation task with camera observations and continuous motor actions.
翻訳日:2021-06-21 14:14:31 公開日:2021-06-18
# 多段階政策回帰法による計画への学習

Learning to Plan via a Multi-Step Policy Regression Method ( http://arxiv.org/abs/2106.10075v1 )

ライセンス: Link先を確認
Stefan Wagner and Michael Janschek and Tobias Uelwer and Stefan Harmeling(参考訳) 本稿では,特定の動作列を必要とする環境での推論性能を向上させるための新しい手法を提案する。 これは例えば、理想的には最適経路が決定される迷路環境の場合である。 一つのステップでポリシーを学ぶ代わりに、事前にnアクションを予測できるポリシーを学びたいのです。 提案手法は政策水平回帰(PHR)と呼ばれ,A2Cがサンプリングした環境の知識を用いて,n次元の政策ベクトルを観測毎に生成する政策蒸留装置で学習する。 本手法をminigridおよびpong環境でテストし,1回の観測で動作シーケンスの予測に成功し,推定時間中に劇的な高速化を示す。

We propose a new approach to increase inference performance in environments that require a specific sequence of actions in order to be solved. This is for example the case for maze environments where ideally an optimal path is determined. Instead of learning a policy for a single step, we want to learn a policy that can predict n actions in advance. Our proposed method called policy horizon regression (PHR) uses knowledge of the environment sampled by A2C to learn an n dimensional policy vector in a policy distillation setup which yields n sequential actions per observation. We test our method on the MiniGrid and Pong environments and show drastic speedup during inference time by successfully predicting sequences of actions on a single observation.
翻訳日:2021-06-21 14:14:21 公開日:2021-06-18
# less is more: 圧縮対敵攻撃による敵のロバスト性のための特徴選択

Less is More: Feature Selection for Adversarial Robustness with Compressive Counter-Adversarial Attacks ( http://arxiv.org/abs/2106.10252v1 )

ライセンス: Link先を確認
Emre Ozfatura and Muhammad Zaid Hameed and Kerem Ozfatura and Deniz Gunduz(参考訳) 敵対的攻撃に関する一般的な観察は、主に分類器を騙すために暗黙の層で偽のアクティベーションを引き起こすことである。 これらのアクティベーション値が入力の特定の特徴に対応すると仮定すると、目的は分類に最も有用な特徴を選択する。 そこで本研究では,ペナルティメート層における入力サンプルの摂動に対する一貫性を強調する対敵攻撃を用いて,重要な特徴を識別する新しい手法を提案する。 まず,クリーンとロバストの間のギャップを橋渡しする分類法として,特徴のサブセットが存在することを実証的に示す。 第2に,入力サンプルの近傍を探索して特徴を識別する簡易かつ効率的な機構を提案する。 次に、各層における活性化値の整合性を観察して特徴を選択する。

A common observation regarding adversarial attacks is that they mostly give rise to false activation at the penultimate layer to fool the classifier. Assuming that these activation values correspond to certain features of the input, the objective becomes choosing the features that are most useful for classification. Hence, we propose a novel approach to identify the important features by employing counter-adversarial attacks, which highlights the consistency at the penultimate layer with respect to perturbations on input samples. First, we empirically show that there exist a subset of features, classification based in which bridge the gap between the clean and robust accuracy. Second, we propose a simple yet efficient mechanism to identify those features by searching the neighborhood of input sample. We then select features by observing the consistency of the activation values at the penultimate layer.
翻訳日:2021-06-21 14:14:09 公開日:2021-06-18
# 機械学習における逆例の単純マニフォールドモデル

The Dimpled Manifold Model of Adversarial Examples in Machine Learning ( http://arxiv.org/abs/2106.10151v1 )

ライセンス: Link先を確認
Adi Shamir, Odelia Melamed, Oriel BenShmuel(参考訳) 2013年にいくつかの研究グループによって、入力に小さな摂動を伴って提示されたディープニューラルネットワークの極端な脆弱さが独立に発見されたが、大きな努力にもかかわらず、これらの敵対的な例は明確な説明が得られず、バッフル現象のままであった。 本稿では,新しい概念的枠組み(dimpled manifold modelと呼ぶ)について紹介する。これは,逆行例が存在する理由,それらの摂動がこれほど小さなノルムを持つ理由,これらの摂動がランダムなノイズに見える理由,不正確なラベル付き画像で逆行的に訓練されたネットワークがテスト画像を正確に分類できる理由について,簡単な説明を与える。 論文の最後の部分では、この新しいモデルを強く支持する多数の実験の結果について述べ、特に、逆摂動はトレーニング例を含む低次元多様体と略垂直であるという主張について述べる。

The extreme fragility of deep neural networks when presented with tiny perturbations in their inputs was independently discovered by several research groups in 2013, but in spite of enormous effort these adversarial examples remained a baffling phenomenon with no clear explanation. In this paper we introduce a new conceptual framework (which we call the Dimpled Manifold Model) which provides a simple explanation for why adversarial examples exist, why their perturbations have such tiny norms, why these perturbations look like random noise, and why a network which was adversarially trained with incorrectly labeled images can still correctly classify test images. In the last part of the paper we describe the results of numerous experiments which strongly support this new model, and in particular our assertion that adversarial perturbations are roughly perpendicular to the low dimensional manifold which contains all the training examples.
翻訳日:2021-06-21 14:13:43 公開日:2021-06-18
# federated robustness propagation: share adversarial robustness in federated learning

Federated Robustness Propagation: Sharing Adversarial Robustness in Federated Learning ( http://arxiv.org/abs/2106.10196v1 )

ライセンス: Link先を確認
Junyuan Hong, Haotao Wang, Zhangyang Wang, Jiayu Zhou(参考訳) フェデレートラーニング(FL)は、生データを共有することなく、参加するユーザのセットからモデルを学習する人気の分散ラーニングスキーマとして登場した。 flの大きな課題の1つは、分布的に異なる(または非iid)データと様々な計算リソースを持つユーザーの多様性である。 集中学習と同じように、FLユーザはテスト時に悪意のある攻撃者に対して、モデル堅牢性を望んでいる。 敵対的トレーニング(AT)は、中央集権学習のための健全なソリューションを提供するが、FLユーザの利用を拡大することは、多くのユーザにとって大きな課題となっている。 本稿では,ATを払えない高リソースユーザから,FLプロセス中において,ATを払えない低リソースユーザまで,敵対的ロバスト性を広める新たな学習環境について検討する。 既存のfl手法では,非iidユーザ間の対向的ロバスト性が効果的に伝播できないことを示し,注意深く設計されたバッチ正規化統計を用いてロバスト性を伝達する簡易かつ効果的な伝播手法を提案する。 実験により,本手法の合理性と有効性を示す。 特に,本提案手法は,学習中にATを利用できるユーザ数が少ない場合でも,FLに顕著な堅牢性を与える。 コードは受理次第公表される。

Federated learning (FL) emerges as a popular distributed learning schema that learns a model from a set of participating users without requiring raw data to be shared. One major challenge of FL comes from heterogeneity in users, which may have distributionally different (or non-iid) data and varying computation resources. Just like in centralized learning, FL users also desire model robustness against malicious attackers at test time. Whereas adversarial training (AT) provides a sound solution for centralized learning, extending its usage for FL users has imposed significant challenges, as many users may have very limited training data as well as tight computational budgets, to afford the data-hungry and costly AT. In this paper, we study a novel learning setting that propagates adversarial robustness from high-resource users that can afford AT, to those low-resource users that cannot afford it, during the FL process. We show that existing FL techniques cannot effectively propagate adversarial robustness among non-iid users, and propose a simple yet effective propagation approach that transfers robustness through carefully designed batch-normalization statistics. We demonstrate the rationality and effectiveness of our method through extensive experiments. Especially, the proposed method is shown to grant FL remarkable robustness even when only a small portion of users afford AT during learning. Codes will be published upon acceptance.
翻訳日:2021-06-21 14:13:26 公開日:2021-06-18
# 攻撃失敗の指標: 攻撃例のデバッグと最適化の改善

Indicators of Attack Failure: Debugging and Improving Optimization of Adversarial Examples ( http://arxiv.org/abs/2106.09947v1 )

ライセンス: Link先を確認
Maura Pintor, Luca Demetrio, Angelo Sotgiu, Giovanni Manca, Ambra Demontis, Nicholas Carlini, Battista Biggio, Fabio Roli(参考訳) 機械学習モデルの対向例に対するロバスト性の評価は難しい課題である。 多くの防御は、勾配に基づく攻撃を失敗させることによって誤ったセキュリティ感をもたらすことが示されており、より厳格な評価の下で破られた。 現在の敵対的ロバスト性評価を改善するためのガイドラインとベストプラクティスが提案されているが、自動テストとデバッグツールの欠如により、これらの推奨事項を体系的に適用することは困難である。 本研究では,(i)勾配に基づく攻撃の最適化における共通障害を明らかにする定量的指標のセットを定義し,(ii)系統的評価プロトコル内で特定の緩和戦略を提案することにより,これらの制限を克服する。 本研究では, 提案手法を用いて, 現在の対向ロバストネス評価の可視化, デバッグ, 改善を実現し, 対向ロバストネス評価の自動化と体系化に向けた第一歩となることを示す。 私たちのオープンソースコードは、https://github.com/p ralab/IndicatorsOfAt tackFailure.comで利用可能です。

Evaluating robustness of machine-learning models to adversarial examples is a challenging problem. Many defenses have been shown to provide a false sense of security by causing gradient-based attacks to fail, and they have been broken under more rigorous evaluations. Although guidelines and best practices have been suggested to improve current adversarial robustness evaluations, the lack of automatic testing and debugging tools makes it difficult to apply these recommendations in a systematic manner. In this work, we overcome these limitations by (i) defining a set of quantitative indicators which unveil common failures in the optimization of gradient-based attacks, and (ii) proposing specific mitigation strategies within a systematic evaluation protocol. Our extensive experimental analysis shows that the proposed indicators of failure can be used to visualize, debug and improve current adversarial robustness evaluations, providing a first concrete step towards automatizing and systematizing current adversarial robustness evaluations. Our open-source code is available at: https://github.com/p ralab/IndicatorsOfAt tackFailure.
翻訳日:2021-06-21 14:11:40 公開日:2021-06-18
# リアルタイムデータに対する累積中毒攻撃

Accumulative Poisoning Attacks on Real-time Data ( http://arxiv.org/abs/2106.09993v1 )

ライセンス: Link先を確認
Tianyu Pang, Xiao Yang, Yinpeng Dong, Hang Su, Jun Zhu(参考訳) 信頼できない情報源からのトレーニングデータ収集は、モデルの精度を低下させるためにトレーニングデータを悪意を持って操作する敵を毒殺する機械学習サービスを公開する。 オフラインデータセットでトレーニングを行う場合、毒付け敵はトレーニング前に毒付きデータを事前に注入しなければならず、毒付きバッチをモデルに供給する順序は確率的である。 対照的に、実用的なシステムは、一般的に、連続的にキャプチャされたリアルタイムデータに基づいて訓練/微調整されており、敵を毒殺した場合は、現在のモデル状態に応じて各データバッチを動的に毒殺することができる。 本稿では,リアルタイム設定に着目し,(汚染された)トリガーバッチの破壊効果を(精度に影響を与えずに)秘かに拡大する累積的な攻撃フェーズを関連付ける新たな攻撃戦略を提案する。 CIFAR-10上でのオンライン学習とフェデレーション学習を模倣することにより、累積フェーズ後のトリガバッチにおいて、モデル精度が1回の更新ステップで大幅に低下することを示す。 我々の研究は、よく設計されているが簡単な攻撃戦略が、複雑なテクニックを探索する必要なしに、中毒効果を劇的に増幅できることを検証する。

Collecting training data from untrusted sources exposes machine learning services to poisoning adversaries, who maliciously manipulate training data to degrade the model accuracy. When trained on offline datasets, poisoning adversaries have to inject the poisoned data in advance before training, and the order of feeding these poisoned batches into the model is stochastic. In contrast, practical systems are more usually trained/fine-tuned on sequentially captured real-time data, in which case poisoning adversaries could dynamically poison each data batch according to the current model state. In this paper, we focus on the real-time settings and propose a new attacking strategy, which affiliates an accumulative phase with poisoning attacks to secretly (i.e., without affecting accuracy) magnify the destructive effect of a (poisoned) trigger batch. By mimicking online learning and federated learning on CIFAR-10, we show that the model accuracy will significantly drop by a single update step on the trigger batch after the accumulative phase. Our work validates that a well-designed but straightforward attacking strategy can dramatically amplify the poisoning effects, with no need to explore complex techniques.
翻訳日:2021-06-21 14:11:22 公開日:2021-06-18
# World-GAN:Minecraft Worldsのジェネレーティブモデル

World-GAN: a Generative Model for Minecraft Worlds ( http://arxiv.org/abs/2106.10155v1 )

ライセンス: Link先を確認
Maren Awiszus, Frederik Schubert, Bodo Rosenhahn(参考訳) この研究は、Minecraftで機械学習を通じてデータ駆動の手続き的コンテンツ生成を実行する最初の方法であるWorld-GANを紹介する。 GAN(Generative Adversarial Network)アーキテクチャに基づいて,任意のサンプルから任意のサイズの世界スニペットを作成することができる。 我々は、Minecraft World Generatorで生成された構造と同様に、コミュニティからの創造物に対する我々のアプローチを評価する。 本手法は, word2vec [1] で導入された自然言語処理(NLP)で使用される高密度表現に動機づけられる。 提案されたblock2vec表現により、world-ganは異なるブロックの数から独立しており、minecraftでは多くの変更が可能であり、より大きなレベルを生成することができる。 最後に、この新しい表現空間を変更することで、すでに訓練済みのジェネレータの生成スタイルを変更できることを実証する。 World-GANは、ユーザーが創造物の一部に基づいてMinecraft世界を生成することを可能にする。

This work introduces World-GAN, the first method to perform data-driven Procedural Content Generation via Machine Learning in Minecraft from a single example. Based on a 3D Generative Adversarial Network (GAN) architecture, we are able to create arbitrarily sized world snippets from a given sample. We evaluate our approach on creations from the community as well as structures generated with the Minecraft World Generator. Our method is motivated by the dense representations used in Natural Language Processing (NLP) introduced with word2vec [1]. The proposed block2vec representations make World-GAN independent from the number of different blocks, which can vary a lot in Minecraft, and enable the generation of larger levels. Finally, we demonstrate that changing this new representation space allows us to change the generated style of an already trained generator. World-GAN enables its users to generate Minecraft worlds based on parts of their creations.
翻訳日:2021-06-21 14:11:03 公開日:2021-06-18
# 風力発電設備の故障検知システムにおけるラベリングドリフト

Labelling Drifts in a Fault Detection System for Wind Turbine Maintenance ( http://arxiv.org/abs/2106.09951v1 )

ライセンス: Link先を確認
I\~nigo Martinez and Elisabeth Viles and I\~naki Cabrejas(参考訳) 故障検知システムは、予測保守戦略への第一歩である。 初期障害や異常を検出する一般的なデータ駆動手法は、フィードフォワードニューラルネットワーク(FFNN)や極端な学習マシン(ELM)といった機械学習技術を適用することで、通常の行動モデルのトレーニングである。 しかし,これらのモデリング手法の性能は,産業資産の運用する動的環境における非定常性の予期せぬ上昇によって低下する可能性がある。 この測定変数の予測不可能な統計的変化は概念ドリフトとして知られている。 本稿では,風力タービンのメンテナンスケースについて紹介する。 このようなコンセプトドリフトイベントは、統計検出器とウィンドウベースのアプローチによって検出されることが望まれる。 しかし、実際の複雑なシステムでは、概念ドリフトは人工的に生成されたデータセットほど明確で明らかではない。 現在のドリフト検出器の有効性を評価し、また、この特定産業用途に適切な新技術を設計するためには、既存のドリフトの特性を事前に検討する必要がある。 この点に関して情報の欠如により,風力タービンの寿命におけるドリフト現象をラベル付けする手法が提案されている。 この方法論は、概念ドリフト検出器の訓練場としても、複雑なシステムのメンテナンスに関する知識を強化する貴重な情報としても機能するドリフトデータベースの作成を促進する。

A failure detection system is the first step towards predictive maintenance strategies. A popular data-driven method to detect incipient failures and anomalies is the training of normal behaviour models by applying a machine learning technique like feed-forward neural networks (FFNN) or extreme learning machines (ELM). However, the performance of any of these modelling techniques can be deteriorated by the unexpected rise of non-stationarities in the dynamic environment in which industrial assets operate. This unpredictable statistical change in the measured variable is known as concept drift. In this article a wind turbine maintenance case is presented, where non-stationarities of various kinds can happen unexpectedly. Such concept drift events are desired to be detected by means of statistical detectors and window-based approaches. However, in real complex systems, concept drifts are not as clear and evident as in artificially generated datasets. In order to evaluate the effectiveness of current drift detectors and also to design an appropriate novel technique for this specific industrial application, it is essential to dispose beforehand of a characterization of the existent drifts. Under the lack of information in this regard, a methodology for labelling concept drift events in the lifetime of wind turbines is proposed. This methodology will facilitate the creation of a drift database that will serve both as a training ground for concept drift detectors and as a valuable information to enhance the knowledge about maintenance of complex systems.
翻訳日:2021-06-21 14:10:50 公開日:2021-06-18
# PRGC:ポテンシャル関係とグローバル対応に基づく共同関係トリプル抽出

PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction ( http://arxiv.org/abs/2106.09895v1 )

ライセンス: Link先を確認
Hengyi Zheng, Rui Wen, Xi Chen, Yifan Yang, Yunyan Zhang, Ziheng Zhang, Ningyu Zhang, Bin Qin, Ming Xu, Yefeng Zheng(参考訳) 非構造化テキストからのエンティティとリレーションの協調抽出は、情報抽出において重要なタスクである。 近年の手法は性能は高いが,関係予測の冗長性,スパンベース抽出の一般化の低さ,非効率性など,いくつかの制約に悩まされている。 本稿では,この課題を,新しい視点から関係判断,エンティティ抽出,主観オブジェクトアライメントの3つのサブタスクに分解し,ポテンシャル関係と大域対応(prgc)に基づく結合関係三重項抽出フレームワークを提案する。 具体的には、全ての関係ではなく、後続のエンティティ抽出を予測関係サブセットに制約する潜在的関係を予測するコンポーネントを設計し、対象と対象の重なり合う問題に関係性特異的なシーケンスタギングコンポーネントを適用し、最後に、対象と対象を低複雑さで3重に整列するグローバル対応コンポーネントを設計する。 PRGCは高効率な公開ベンチマークで最先端のパフォーマンスを実現し、重複するトリプルの複雑なシナリオで一貫したパフォーマンス向上を実現している。

Joint extraction of entities and relations from unstructured texts is a crucial task in information extraction. Recent methods achieve considerable performance but still suffer from some inherent limitations, such as redundancy of relation prediction, poor generalization of span-based extraction and inefficiency. In this paper, we decompose this task into three subtasks, Relation Judgement, Entity Extraction and Subject-object Alignment from a novel perspective and then propose a joint relational triple extraction framework based on Potential Relation and Global Correspondence (PRGC). Specifically, we design a component to predict potential relations, which constrains the following entity extraction to the predicted relation subset rather than all relations; then a relation-specific sequence tagging component is applied to handle the overlapping problem between subjects and objects; finally, a global correspondence component is designed to align the subject and object into a triple with low-complexity. Extensive experiments show that PRGC achieves state-of-the-art performance on public benchmarks with higher efficiency and delivers consistent performance gain on complex scenarios of overlapping triples.
翻訳日:2021-06-21 14:10:30 公開日:2021-06-18
# トピック、インタラクション、クエリの連続性:オンライン会話における引用学習

Continuity of Topic, Interaction, and Query: Learning to Quote in Online Conversations ( http://arxiv.org/abs/2106.09896v1 )

ライセンス: Link先を確認
Lingzhi Wang, Jing Li, Xingshan Zeng, Haisong Zhang, Kam-Fai Wong(参考訳) 引用は、対人コミュニケーションにおける説明と説得の成功に不可欠である。 しかし、会話の中で引用するものを見つけることは人間と機械の両方にとって難しい。 本研究は,オンライン会話における引用の自動生成について検討し,引用が与えられた文脈に適合するか否かを言語一貫性がどう影響するかを考察する。 ここでは、潜在トピック、対話履歴との相互作用、クエリターンの既存のコンテンツに対する一貫性の観点から、引用の文脈的一貫性を捉える。 さらに、エンコーダ-デコーダニューラルフレームワークを使用して、言語生成による引用でコンテキストを継続する。 英語と中国語の2つの大規模データセットにおける実験結果は、私たちの引用生成モデルが最先端モデルを上回ることを示している。 さらなる分析によって、トピック、インタラクション、クエリ一貫性はすべて、オンライン会話で引用する方法を学ぶのに役立ちます。

Quotations are crucial for successful explanations and persuasions in interpersonal communications. However, finding what to quote in a conversation is challenging for both humans and machines. This work studies automatic quotation generation in an online conversation and explores how language consistency affects whether a quotation fits the given context. Here, we capture the contextual consistency of a quotation in terms of latent topics, interactions with the dialogue history, and coherence to the query turn's existing content. Further, an encoder-decoder neural framework is employed to continue the context with a quotation via language generation. Experiment results on two large-scale datasets in English and Chinese demonstrate that our quotation generation model outperforms the state-of-the-art models. Further analysis shows that topic, interaction, and query consistency are all helpful to learn how to quote in online conversations.
翻訳日:2021-06-21 14:10:09 公開日:2021-06-18
# 文書レベル関係グラフ抽出のためのニューラルエッジ編集手法

A Neural Edge-Editing Approach for Document-Level Relation Graph Extraction ( http://arxiv.org/abs/2106.09900v1 )

ライセンス: Link先を確認
Kohei Makino, Makoto Miwa, Yutaka Sasaki(参考訳) 本稿では,文書から関係情報を抽出する新たなエッジ編集手法を提案する。 このアプローチでは、文書内の関係をエンティティ間の関係グラフとして扱う。 関係グラフは、他のシステムや空グラフによって抽出されたグラフである初期グラフのエッジを編集することによって反復的に構築される。 エッジの編集方法は、ドキュメントと時間的構築されたグラフ情報を用いて、それらを近接して分類することであり、各エッジは、事前訓練されたトランスフォーマーモデルによる文書コンテキスト情報と、グラフ畳み込みニューラルネットワークモデルによるグラフコンテキスト情報とで表現される。 材料科学テキストから材料合成手順を抽出する作業に対する我々のアプローチを評価する。 実験結果は,社内ルールベースシステムと空グラフによって初期化されたグラフを編集する手法の有効性を示す。

In this paper, we propose a novel edge-editing approach to extract relation information from a document. We treat the relations in a document as a relation graph among entities in this approach. The relation graph is iteratively constructed by editing edges of an initial graph, which might be a graph extracted by another system or an empty graph. The way to edit edges is to classify them in a close-first manner using the document and temporally-construct ed graph information; each edge is represented with a document context information by a pretrained transformer model and a graph context information by a graph convolutional neural network model. We evaluate our approach on the task to extract material synthesis procedures from materials science texts. The experimental results show the effectiveness of our approach in editing the graphs initialized by our in-house rule-based system and empty graphs.
翻訳日:2021-06-21 14:09:53 公開日:2021-06-18
# マルチホップレトリバーの微妙な事前訓練

Weakly Supervised Pre-Training for Multi-Hop Retriever ( http://arxiv.org/abs/2106.09983v1 )

ライセンス: Link先を確認
Yeon Seonwoo, Sang-Woo Lee, Ji-Hoon Kim, Jung-Woo Ha, Alice Oh(参考訳) マルチホップQAでは、複雑な質問に答えるには、質問の欠落した実体を見つけるために反復的な文書検索が必要である。 このプロセスの主なステップは、サブクエスト検出、サブクエストのためのドキュメント検索、最終文書検索のための新しいクエリの生成である。 しかし、サブクエストとそれに対応するドキュメントを含む複雑な質問を含むデータセットを構築するには、コストのかかる人的アノテーションが必要である。 そこで本研究では,人間の努力を伴わずに,弱い教師付きマルチホップレトリバーを事前学習する新しい手法を提案する。 本手法は,1)複雑な質問のベクトル表現を生成する事前学習タスク,2)事前学習の弱い監督として質問と下位質問の入れ子構造を生成するスケーラブルなデータ生成手法,3)高密度エンコーダに基づく事前学習モデル構造を含む。 我々は,事前学習した検索器の性能を,エンドツーエンドのマルチホップQA上での最先端モデルと比較し,文書検索を行う。 実験結果は,事前学習したレトリバーが有効であり,限られたデータや計算資源でも頑健であることを示す。

In multi-hop QA, answering complex questions entails iterative document retrieval for finding the missing entity of the question. The main steps of this process are sub-question detection, document retrieval for the sub-question, and generation of a new query for the final document retrieval. However, building a dataset that contains complex questions with sub-questions and their corresponding documents requires costly human annotation. To address the issue, we propose a new method for weakly supervised multi-hop retriever pre-training without human efforts. Our method includes 1) a pre-training task for generating vector representations of complex questions, 2) a scalable data generation method that produces the nested structure of question and sub-question as weak supervision for pre-training, and 3) a pre-training model structure based on dense encoders. We conduct experiments to compare the performance of our pre-trained retriever with several state-of-the-art models on end-to-end multi-hop QA as well as document retrieval. The experimental results show that our pre-trained retriever is effective and also robust on limited data and computational resources.
翻訳日:2021-06-21 14:09:37 公開日:2021-06-18
# SPBERT:知識グラフに対するエンドツーエンド質問応答のためのSPARQLクエリ上でのBERTの事前トレーニング

SPBERT: Pre-training BERT on SPARQL Queries for End-to-end Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2106.09997v1 )

ライセンス: Link先を確認
Hieu Tran, Long Phan, and Truong-Son Nguyen(参考訳) 我々は,自然言語質問からsparqlクエリを構築できる知識グラフ(kgs)上でのエンドツーエンド質問応答(qa)の構築と,そのクエリに対する言語的回答の生成という,前例のない試みを目指しています。 そこで我々は,大規模なSPARQLクエリログを事前トレーニングしたTransformerベースの言語モデルであるSPBERTを紹介する。 マスク付き言語モデリングの目的と単語構造的目的を取り入れることで、SPBERTは自然言語とSPARQLクエリ言語の両方で汎用表現を学習し、SPARQLのような構造化言語に不可欠な単語の逐次順序を最大限に活用することができる。 本稿では,SPBERTとエンコーダデコーダアーキテクチャを知識ベースQAコーパスに適用する方法について検討する。 SPARQL Query Construction と Answer Verbalization Generation の2つの補助タスクについて,徹底的な実験を行った。 その結果、SPBERTは有望な性能を示し、これらのタスクのいくつかについて最先端の結果を得ることができた。

We aim to create an unprecedented attempt to build an end-to-end Question Answering (QA) over Knowledge Graphs (KGs), which can construct SPARQL queries from natural language questions and generate a verbalized answer to its queries. Hence, we introduce SPBERT, a Transformer-based language model pre-trained on massive SPARQL query logs. By incorporating masked language modelling objective and word structural objective, SPBERT can learn general-purpose representations in both natural language and SPARQL query language and make the most of the sequential order of words that are crucial for structured language like SPARQL. In this paper, we investigate how SPBERT and encoder-decoder architecture can be adapted for Knowledge-based QA corpora. We conduct exhaustive experiments on two auxiliary tasks, including SPARQL Query Construction and Answer Verbalization Generation. Results show that SPBERT obtains promising performance and achieves state-of-the-art results on several of these tasks.
翻訳日:2021-06-21 14:09:16 公開日:2021-06-18
# 心房細動研究における左心房LGE MRIの医用画像解析

Medical Image Analysis on Left Atrial LGE MRI for Atrial Fibrillation Studies: A Review ( http://arxiv.org/abs/2106.09862v1 )

ライセンス: Link先を確認
Lei Li and Veronika A. Zimmer and Julia A. Schnabel and Xiahai Zhuang(参考訳) 後期ガドリニウム造影MRI(LGE MRI)は左心房(LA)傷の可視化と定量化に一般的に用いられている。 傷痕の位置と範囲は心房細動(AF)の病態と進展に関する重要な情報を提供する。 したがって, LAスカーセグメンテーションとLGE MRIの定量化は, AF患者のコンピュータ支援による診断と治療の成層化に有用である。 手動のデライン化は時間を要する可能性があり、エキスパート内および専門家間の変動が伴うため、この計算の自動化は非常に望まれる。 本稿では,laキャビティ,壁,スカーおよびアブレーションギャップのセグメンテーションおよびlge mriによる定量化のための計算方法に関する体系的考察と,関連するaf研究文献について述べる。 具体的には、まずAF関連画像技術、特にLGE MRIを要約する。 次に,4つのタスクの方法論を詳細に検討し,各タスクに適用される検証戦略を要約する。 最後に, 今後の開発の可能性について概説し, 上記の方法の臨床応用の可能性について概説する。 レビューによると、このトピックに関する研究はまだ初期段階にある。 LAセグメンテーションにはいくつかの手法が提案されているが、外観の高可変性や画像取得の違いによる性能問題により、さらなるアルゴリズム開発にはまだ大きな範囲がある。

Late gadolinium enhancement magnetic resonance imaging (LGE MRI) is commonly used to visualize and quantify left atrial (LA) scars. The position and extent of scars provide important information of the pathophysiology and progression of atrial fibrillation (AF). Hence, LA scar segmentation and quantification from LGE MRI can be useful in computer-assisted diagnosis and treatment stratification of AF patients. Since manual delineation can be time-consuming and subject to intra- and inter-expert variability, automating this computing is highly desired, which nevertheless is still challenging and under-researched. This paper aims to provide a systematic review on computing methods for LA cavity, wall, scar and ablation gap segmentation and quantification from LGE MRI, and the related literature for AF studies. Specifically, we first summarize AF-related imaging techniques, particularly LGE MRI. Then, we review the methodologies of the four computing tasks in detail, and summarize the validation strategies applied in each task. Finally, the possible future developments are outlined, with a brief survey on the potential clinical applications of the aforementioned methods. The review shows that the research into this topic is still in early stages. Although several methods have been proposed, especially for LA segmentation, there is still large scope for further algorithmic developments due to performance issues related to the high variability of enhancement appearance and differences in image acquisition.
翻訳日:2021-06-21 14:08:37 公開日:2021-06-18
# 1, +1}エンコード分解と高速化による量子ニューラルネットワーク

Quantized Neural Networks via {-1, +1} Encoding Decomposition and Acceleration ( http://arxiv.org/abs/2106.09886v1 )

ライセンス: Link先を確認
Qigong Sun, Xiufang Li, Fanhua Shang, Hongying Liu, Kang Yang, Licheng Jiao, and Zhouchen Lin(参考訳) ディープニューラルネットワーク(DNN)のトレーニングは常に、計算とデータストレージの両方に集約的なリソースを必要とする。 したがって、DNNは携帯電話や組み込みデバイスに効率的に適用することはできない。 そこで本研究では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解し,ビットワイズ演算(xnorとbitcount)により効率よく実装し,モデル圧縮,計算加速度,資源節約を実現する, {-1, +1} を用いた新しい符号化方式を提案する。 本手法を用いることで,ユーザの要求やハードウェアリソースに応じて,任意の符号化精度を実現することができる。 提案手法は,データストレージと計算の面でFPGAとASICの利用に非常に適しており,スマートチップに実現可能なアイデアを提供する。 本研究では,大規模画像分類(イメージネットなど),物体検出,意味セグメンテーションタスクにおいて,提案手法の有効性を検証する。 特に,低ビット符号化方式では,ハイビット符号化方式とほぼ同じ性能が得られる。

The training of deep neural networks (DNNs) always requires intensive resources for both computation and data storage. Thus, DNNs cannot be efficiently applied to mobile phones and embedded devices, which severely limits their applicability in industrial applications. To address this issue, we propose a novel encoding scheme using {-1, +1} to decompose quantized neural networks (QNNs) into multi-branch binary networks, which can be efficiently implemented by bitwise operations (i.e., xnor and bitcount) to achieve model compression, computational acceleration, and resource saving. By using our method, users can achieve different encoding precisions arbitrarily according to their requirements and hardware resources. The proposed mechanism is highly suitable for the use of FPGA and ASIC in terms of data storage and computation, which provides a feasible idea for smart chips. We validate the effectiveness of our method on large-scale image classification (e.g., ImageNet), object detection, and semantic segmentation tasks. In particular, our method with low-bit encoding can still achieve almost the same performance as its high-bit counterparts.
翻訳日:2021-06-21 14:08:14 公開日:2021-06-18
# 医療マッティング:不確実性を伴う医療セグメンテーションの新しい展望

Medical Matting: A New Perspective on Medical Segmentation with Uncertainty ( http://arxiv.org/abs/2106.09887v1 )

ライセンス: Link先を確認
Lin Wang, Lie Ju, Donghao Zhang, Xin Wang, Wanji He, Yelin Huang, Zhiwen Yang, Xuan Yao, Xin Zhao, Xiufen Ye, Zongyuan Ge(参考訳) 医用画像分割では、特に小さな病変を扱う場合、二乗マスクで曖昧な領域を正確にマークすることは困難である。 したがって、複数のアノテーションの条件下で二項マスクを使用することで、放射線学者が合意に達することは困難である。 しかし、これらの領域は診断しやすい解剖学的構造を含んでいる可能性がある。 これらの状況を研究するために不確実性が導入される。 しかしながら、不確実性は通常、複数の試行方法で予測間のばらつきによって測定される。 これは直感的ではなく、画像に正確な対応がない。 画像マッティングに触発され, 柔らかいセグメンテーション法としてマッティングを導入し, 医療現場における不確実領域, 医用マッティングに対処し, 表現する新たな視点を提案する。 具体的には、医用マットデータセットがないため、2つの医療用データセットにアルファマットをラベル付けしました。 第2に,自然画像に適用したマッティング法は医療現場には適さないため,バイナリマスクとアルファマットを連続して生成する新しいアーキテクチャを提案する。 第3に、不確実性マップを導入し、バイナリ結果から曖昧な領域を強調し、マッティング性能を改善する。 これらのデータセットで評価すると,提案手法は最先端のマットングアルゴリズムを大差で上回り,アルファマットはバイナリマスクよりも効率的なラベリング形式であることが判明した。

In medical image segmentation, it is difficult to mark ambiguous areas accurately with binary masks, especially when dealing with small lesions. Therefore, it is a challenge for radiologists to reach a consensus by using binary masks under the condition of multiple annotations. However, these areas may contain anatomical structures that are conducive to diagnosis. Uncertainty is introduced to study these situations. Nevertheless, the uncertainty is usually measured by the variances between predictions in a multiple trial way. It is not intuitive, and there is no exact correspondence in the image. Inspired by image matting, we introduce matting as a soft segmentation method and a new perspective to deal with and represent uncertain regions into medical scenes, namely medical matting. More specifically, because there is no available medical matting dataset, we first labeled two medical datasets with alpha matte. Secondly, the matting method applied to the natural image is not suitable for the medical scene, so we propose a new architecture to generate binary masks and alpha matte in a row. Thirdly, the uncertainty map is introduced to highlight the ambiguous regions from the binary results and improve the matting performance. Evaluated on these datasets, the proposed model outperformed state-of-the-art matting algorithms by a large margin, and alpha matte is proved to be a more efficient labeling form than a binary mask.
翻訳日:2021-06-21 14:07:56 公開日:2021-06-18
# 仮想交通レーンを用いた都市交差点におけるリアルタイム交通軌跡追跡, 速度推定, 運転行動校正のためのフレームワーク

A Framework for Real-time Traffic Trajectory Tracking, Speed Estimation, and Driver Behavior Calibration at Urban Intersections Using Virtual Traffic Lanes ( http://arxiv.org/abs/2106.09932v1 )

ライセンス: Link先を確認
Awad Abdelhalim, Montasir Abbas, Bhavi Bharat Kotha, Alfred Wicks(参考訳) 先行研究では,都市交差点におけるリアルタイム車両検出,追跡,ターン移動分類のための3段階フレームワークであるvt-laneを提案する。 本研究では,都市交差点における交通の速度推定と運転行動校正を目的とした,VT-Laneを用いた高精度な軌跡と移動分類を取り入れたケーススタディを提案する。 まず,高度に計測された車両を用いて,映像推定から得られた推定速度を検証した。 速度検証の結果,検出された車両の平均走行速度を0.19m/秒の誤差でリアルタイムに推定できることがわかった。 瞬時速度(30Hz)は、それぞれ0.21m/secと0.86m/secの平均誤差で推定された。 次に、推定速度を用いて、研究領域における車両の運転行動モデルのパラメータを校正する。 その結果,キャリブレーションモデルでは平均0.45 m/secの誤差で走行動作を再現でき,道路交通映像データから車追従モデルの大規模自動キャリブレーションを行うための高ポテンシャルが示され,微視的シミュレーションによる交通モデルの改善に繋がる可能性が示唆された。

In a previous study, we presented VT-Lane, a three-step framework for real-time vehicle detection, tracking, and turn movement classification at urban intersections. In this study, we present a case study incorporating the highly accurate trajectories and movement classification obtained via VT-Lane for the purpose of speed estimation and driver behavior calibration for traffic at urban intersections. First, we use a highly instrumented vehicle to verify the estimated speeds obtained from video inference. The results of the speed validation show that our method can estimate the average travel speed of detected vehicles in real-time with an error of 0.19 m/sec, which is equivalent to 2% of the average observed travel speeds in the intersection of the study. Instantaneous speeds (at the resolution of 30 Hz) were found to be estimated with an average error of 0.21 m/sec and 0.86 m/sec respectively for free-flowing and congested traffic conditions. We then use the estimated speeds to calibrate the parameters of a driver behavior model for the vehicles in the area of study. The results show that the calibrated model replicates the driving behavior with an average error of 0.45 m/sec, indicating the high potential for using this framework for automated, large-scale calibration of car-following models from roadside traffic video data, which can lead to substantial improvements in traffic modeling via microscopic simulation.
翻訳日:2021-06-21 14:07:32 公開日:2021-06-18
# 密接な感情理解のためのモーダル注意を伴うマルチグラニュラリティネットワーク

Multi-Granularity Network with Modal Attention for Dense Affective Understanding ( http://arxiv.org/abs/2106.09964v1 )

ライセンス: Link先を確認
Baoming Yan, Lin Wang, Ke Gao, Bo Gao, Xiao Liu, Chao Ban, Jiang Yang, Xiaobo Li(参考訳) 映像コンテンツによる誘発表現の予測を目的とした映像感情理解は,映像作成と推薦のために望まれる。 最近のeevチャレンジでは、密接な情動理解タスクが提案され、フレームレベルの情動予測が必要である。 本稿では,対象フレームのより詳細な記述のために,多粒度特徴を用いた多粒度ネットワーク(MGN-MA)を提案する。 具体的には、マルチグラニュラリティ機能はフレームレベル、クリップレベル、ビデオレベルに分けられ、視覚的コンテンツ、セマンティックコンテキスト、ビデオテーマ情報に対応する。 次に、モーダルアテンション融合モジュールは、多粒度特徴を融合し、より愛情関連モーダルを強調するように設計されている。 最後に、融合した機能は、表現を予測するためにMixtures Of Experts (MOE)分類器に入力される。 モデルアンサンブル後処理のさらなる活用により,提案手法はEEVチャレンジにおいて0.02292の相関スコアを達成できる。

Video affective understanding, which aims to predict the evoked expressions by the video content, is desired for video creation and recommendation. In the recent EEV challenge, a dense affective understanding task is proposed and requires frame-level affective prediction. In this paper, we propose a multi-granularity network with modal attention (MGN-MA), which employs multi-granularity features for better description of the target frame. Specifically, the multi-granularity features could be divided into frame-level, clips-level and video-level features, which corresponds to visual-salient content, semantic-context and video theme information. Then the modal attention fusion module is designed to fuse the multi-granularity features and emphasize more affection-relevant modals. Finally, the fused feature is fed into a Mixtures Of Experts (MOE) classifier to predict the expressions. Further employing model-ensemble post-processing, the proposed method achieves the correlation score of 0.02292 in the EEV challenge.
翻訳日:2021-06-21 14:07:06 公開日:2021-06-18
# HifiFace:3D形状とセマンティックな事前ガイドによる高忠実な顔スワップ

HifiFace: 3D Shape and Semantic Prior Guided High Fidelity Face Swapping ( http://arxiv.org/abs/2106.09965v1 )

ライセンス: Link先を確認
Yuhan Wang, Xu Chen, Junwei Zhu, Wenqing Chu, Ying Tai, Chengjie Wang, Jilin Li, Yongjian Wu, Feiyue Huang and Rongrong Ji(参考訳) 本研究では,光源面の形状をよく保存し,フォトリアリスティックな結果を生成するhififaceと呼ばれる高忠実度顔スワップ法を提案する。 顔の同一性を維持するために顔認識モデルのみを用いる他の既存の顔交換作業とは異なり、3次元MMおよび3次元顔再構成法から幾何的監督により顔形状を制御する3次元形状認識IDを提案する。 一方,エンコーダとデコーダの組み合わせを最適化するセマンティック・ファシアル・フュージョン(Semantic Facial Fusion)モジュールを導入し,アダプティブ・ブレンディングを行い,その結果をよりリアルにする。 野生の顔に関する広範囲な実験は、この手法が、特に顔の形状において、より良いアイデンティティを保ち、従来の最先端の手法よりもよりフォトリアリスティックな結果を生み出すことを証明している。

In this work, we propose a high fidelity face swapping method, called HifiFace, which can well preserve the face shape of the source face and generate photo-realistic results. Unlike other existing face swapping works that only use face recognition model to keep the identity similarity, we propose 3D shape-aware identity to control the face shape with the geometric supervision from 3DMM and 3D face reconstruction method. Meanwhile, we introduce the Semantic Facial Fusion module to optimize the combination of encoder and decoder features and make adaptive blending, which makes the results more photo-realistic. Extensive experiments on faces in the wild demonstrate that our method can preserve better identity, especially on the face shape, and can generate more photo-realistic results than previous state-of-the-art methods.
翻訳日:2021-06-21 14:06:47 公開日:2021-06-18
# 変換不変最適化に基づくコンピュータビジョンの解釈に向けて

Towards interpreting computer vision based on transformation invariant optimization ( http://arxiv.org/abs/2106.09982v1 )

ライセンス: Link先を確認
Chen Li, Jinzhe Jiang, Xin Zhang, Tonghuan Zhang, Yaqian Zhao, Dongdong Jiang and RenGang Li(参考訳) ディープニューラルネットワーク(DNN)がどのように予測を行うかを理解することは、人工知能において重要な分野であり、DNNの幅広い応用を妨げる。 学習した表現の可視化は、人間がDNNのビジョンを理解するのに役立つ。 本研究では、ニューラルネットワークをターゲットクラスに活性化できる可視化画像を、バックプロパゲーション法により生成する。 ここでは、画像生成過程における変換不変性を導入するために回転およびスケーリング操作を適用し、可視化効果に大きな改善が認められる。 最後に,このような手法がニューラルネットワークに対する洞察を得る上で有用であることを示す。

Interpreting how does deep neural networks (DNNs) make predictions is a vital field in artificial intelligence, which hinders wide applications of DNNs. Visualization of learned representations helps we humans understand the vision of DNNs. In this work, visualized images that can activate the neural network to the target classes are generated by back-propagation method. Here, rotation and scaling operations are applied to introduce the transformation invariance in the image generating process, which we find a significant improvement on visualization effect. Finally, we show some cases that such method can help us to gain insight into neural networks.
翻訳日:2021-06-21 14:06:30 公開日:2021-06-18
# オンデバイス文書のローカライズのためのhoughに基づく高度手法

Advanced Hough-based method for on-device document localization ( http://arxiv.org/abs/2106.09987v1 )

ライセンス: Link先を確認
D.V. Tropin, A.M. Ershov, D.P. Nikolaev and V.V. Arlazarov(参考訳) デバイス上の文書認識システムの需要は、より厳格なプライバシーとセキュリティ要件の出現とともに増加する。 このようなシステムでは、エンドデバイスからサードパーティの情報処理サーバへのデータ転送は行われない。 応答時間は、オンデバイス文書認識のユーザエクスペリエンスに不可欠である。 スマートフォンなどのコンシューマグレードのエンドデバイスでは、離散GPU、強力なCPU、あるいは大きなRAM容量が利用できないため、時間制限は、オンデバイス実行に適用されるアルゴリズムの計算複雑性に大きな制約を与えた。 本研究では,文書の内容や内部構造を事前に知ることなく,画像中の文書の位置を考察する。 公開された作品に従って、少なくとも5つのシステムがオンデバイスドキュメントロケーションのソリューションを提供している。 これらのシステムはすべて、ハフベースと見なすことのできるロケーションメソッドを使用する。 このようなシステムの精度は、限られた計算資源を考慮に入れない最先端のソリューションよりも低いようである。 先進的なハフ法を提案する。 他の手法とは対照的に、中央射影モデルの幾何学的不変性を考慮し、文書境界検出にエッジとカラーの特徴を組み合わせる。 提案手法は,ニューラルネットワークのようなU-netを超越した精度で,SmartDocデータセットの2番目の最適結果を実現する。 より挑戦的なMIDV-500データセットで評価すると、提案アルゴリズムは公表された手法と比較して最高の精度を保証した。 本手法はオンデバイス計算への適用性を維持した。

The demand for on-device document recognition systems increases in conjunction with the emergence of more strict privacy and security requirements. In such systems, there is no data transfer from the end device to a third-party information processing servers. The response time is vital to the user experience of on-device document recognition. Combined with the unavailability of discrete GPUs, powerful CPUs, or a large RAM capacity on consumer-grade end devices such as smartphones, the time limitations put significant constraints on the computational complexity of the applied algorithms for on-device execution. In this work, we consider document location in an image without prior knowledge of the document content or its internal structure. In accordance with the published works, at least 5 systems offer solutions for on-device document location. All these systems use a location method which can be considered Hough-based. The precision of such systems seems to be lower than that of the state-of-the-art solutions which were not designed to account for the limited computational resources. We propose an advanced Hough-based method. In contrast with other approaches, it accounts for the geometric invariants of the central projection model and combines both edge and color features for document boundary detection. The proposed method allowed for the second best result for SmartDoc dataset in terms of precision, surpassed by U-net like neural network. When evaluated on a more challenging MIDV-500 dataset, the proposed algorithm guaranteed the best precision compared to published methods. Our method retained the applicability to on-device computations.
翻訳日:2021-06-21 14:06:20 公開日:2021-06-18
# shape prior non-uniform sampling guided real-time stereo 3d object detection

Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object Detection ( http://arxiv.org/abs/2106.10013v1 )

ライセンス: Link先を確認
A. Gao, J. Cao, and Y. Pang(参考訳) 擬似LiDARベースの3Dオブジェクト検出器は高い精度で人気を博している。 しかし,これらの手法では深度監視が必要であり,低速化に苦しむ。 これら2つの問題を解決するため、最近発表されたRTS3Dは、深度監督なしでオブジェクトの中間表現のための効率的な4D特徴-一貫性埋め込み(FCE)空間を構築した。 fce空間は、異なるオブジェクト領域の重要性を無視する特徴サンプリングポイント生成のために、オブジェクト領域全体を3次元一様グリッド潜在空間に分割する。 しかし, 内部領域と比較すると, 外側領域は正確な3d検出に重要な役割を担っている。 外側領域からより多くの情報をエンコードするために,外側領域で密サンプリングを行い,内側領域でスパースサンプリングを行う,事前の非一様サンプリング戦略を提案する。 その結果、外部領域からより多くの点をサンプリングし、3次元検出に有用な特徴を抽出する。 さらに,各サンプリング点の特徴識別を強化するために,よりコンテキスト情報を活用し,ノイズを抑える高レベルな意味強化FCEモジュールを提案する。 提案手法の有効性を示すため,KITTIデータセットの実験を行った。 ベースラインRTS3Dと比較して,提案手法はネットワークパラメータをほとんど含まないAP3dに対して2.57%改善されている。 さらに,提案手法は,リアルタイムに余分な監視を行わず,最先端の手法よりも優れた性能を示す。

Pseudo-LiDAR based 3D object detectors have gained popularity due to their high accuracy. However, these methods need dense depth supervision and suffer from inferior speed. To solve these two issues, a recently introduced RTS3D builds an efficient 4D Feature-Consistency Embedding (FCE) space for the intermediate representation of object without depth supervision. FCE space splits the entire object region into 3D uniform grid latent space for feature sampling point generation, which ignores the importance of different object regions. However, we argue that, compared with the inner region, the outer region plays a more important role for accurate 3D detection. To encode more information from the outer region, we propose a shape prior non-uniform sampling strategy that performs dense sampling in outer region and sparse sampling in inner region. As a result, more points are sampled from the outer region and more useful features are extracted for 3D detection. Further, to enhance the feature discrimination of each sampling point, we propose a high-level semantic enhanced FCE module to exploit more contextual information and suppress noise better. Experiments on the KITTI dataset are performed to show the effectiveness of the proposed method. Compared with the baseline RTS3D, our proposed method has 2.57% improvement on AP3d almost without extra network parameters. Moreover, our proposed method outperforms the state-of-the-art methods without extra supervision at a real-time speed.
翻訳日:2021-06-21 14:06:01 公開日:2021-06-18
# EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021: Team M3EM Technical Report

EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2021: Team M3EM Technical Report ( http://arxiv.org/abs/2106.10026v1 )

ライセンス: Link先を確認
Lijin Yang, Yifei Huang, Yusuke Sugano, Yoichi Sato(参考訳) 本報告では,2021年のepic-kitchens-100uns upervised domain adaptation challenge for action recognitionの技術的詳細について述べる。 複数のモダリティを活用することで、Unsupervised Domain Adaptation (UDA)タスクの恩恵が証明されている。 本研究では,複数のモードからの情報を協調的に検討し,ドメイン間で最も転送可能な表現を見つけるための深層モジュールであるM3EMを提案する。 これを実現するために、他のモダリティの文脈を用いて各モダリティを強化する2つのサブモジュールを実装する。 第1のサブモジュールは意味空間を通してモダリティ間の情報を交換し、第2のサブモジュールは全てのモダリティのコンセンサスに基づいて最も転送可能な空間領域を見つける。

In this report, we describe the technical details of our submission to the 2021 EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition. Leveraging multiple modalities has been proved to benefit the Unsupervised Domain Adaptation (UDA) task. In this work, we present Multi-Modal Mutual Enhancement Module (M3EM), a deep module for jointly considering information from multiple modalities to find the most transferable representations across domains. We achieve this by implementing two sub-modules for enhancing each modality using the context of other modalities. The first sub-module exchanges information across modalities through the semantic space, while the second sub-module finds the most transferable spatial region based on the consensus of all modalities.
翻訳日:2021-06-21 14:05:38 公開日:2021-06-18
# トレーニングかアーキテクチャか? ニューラルネットワークに不変性を導入する方法

Training or Architecture? How to Incorporate Invariance in Neural Networks ( http://arxiv.org/abs/2106.10044v1 )

ライセンス: Link先を確認
Kanchana Vaishnavi Gandikota, Jonas Geiping, Zorah L\"ahner, Adam Czapli\'nski, Michael Moeller(参考訳) 多くのアプリケーションは、入力データの特定の変換に対するニューラルネットワークの堅牢性、あるいは理想的には不変性を必要とする。 最も一般的には、この要件はトレーニングデータの強化、逆のトレーニングの使用、あるいは望ましい不変性を含むネットワークアーキテクチャの定義によって対処される。 残念なことに、後者はしばしば全ての可能な変換を列挙する能力に依存しており、そのようなアプローチは任意の回転やスケーリングのような無限の変換集合に対してほとんど不可能である。 本研究では,固定基準に基づく(連続的な)軌道から1つの要素を選択することにより,グループ動作に関するネットワークアーキテクチャを確実に不変化する手法を提案する。 簡単に言えば、実際のネットワークにデータを送る前に、可能なトランスフォーメーションを“無効化”するつもりです。 このような手法の特性を解析し、等価ネットワークに拡張し、いくつかの数値例でロバスト性および計算効率の観点からその利点を実証する。 特に,画像の回転に関するロバスト性(離散化アーティファクトのみを保持することができる可能性がある)や,3次元点雲分類の証明可能な回転・スケーリング不変性について検討する。

Many applications require the robustness, or ideally the invariance, of a neural network to certain transformations of input data. Most commonly, this requirement is addressed by either augmenting the training data, using adversarial training, or defining network architectures that include the desired invariance automatically. Unfortunately, the latter often relies on the ability to enlist all possible transformations, which make such approaches largely infeasible for infinite sets of transformations, such as arbitrary rotations or scaling. In this work, we propose a method for provably invariant network architectures with respect to group actions by choosing one element from a (possibly continuous) orbit based on a fixed criterion. In a nutshell, we intend to 'undo' any possible transformation before feeding the data into the actual network. We analyze properties of such approaches, extend them to equivariant networks, and demonstrate their advantages in terms of robustness as well as computational efficiency in several numerical examples. In particular, we investigate the robustness with respect to rotations of images (which can possibly hold up to discretization artifacts only) as well as the provable rotational and scaling invariance of 3D point cloud classification.
翻訳日:2021-06-21 14:05:23 公開日:2021-06-18
# 空中光切断による複合人物分類

Combined Person Classification with Airborne Optical Sectioning ( http://arxiv.org/abs/2106.10077v1 )

ライセンス: Link先を確認
Indrajit Kurmi, David C. Schedl, and Oliver Bimber(参考訳) 完全に自律的なドローンは、森林の天蓋を強く排除し、失われたり負傷したりすることを実証されている。 新しい合成開口イメージング技術であるairborne optical sectioning (aos) とディープラーニングに基づく分類は、リアルな探索・認識条件下で高い検出率を可能にする。 単一積分画像ではなく,複数のaosの分類を組み合わせることで,誤検出が著しく抑制され,真の検出が促進されることを示す。 これにより、特に閉塞の存在下での分類率が向上する。 これを実現するために,AOS撮像法を改良し,その後の積分の重なり合いをサポートし,リアルタイム・オンボード走査と地上速度の最大10m/sの処理を可能にした。

Fully autonomous drones have been demonstrated to find lost or injured persons under strongly occluding forest canopy. Airborne Optical Sectioning (AOS), a novel synthetic aperture imaging technique, together with deep-learning-based classification enables high detection rates under realistic search-and-rescue conditions. We demonstrate that false detections can be significantly suppressed and true detections boosted by combining classifications from multiple AOS rather than single integral images. This improves classification rates especially in the presence of occlusion. To make this possible, we modified the AOS imaging process to support large overlaps between subsequent integrals, enabling real-time and on-board scanning and processing of groundspeeds up to 10 m/s.
翻訳日:2021-06-21 14:05:06 公開日:2021-06-18
# hSMAL:運動パターン認識のための詳細な馬の形と姿勢再構成

hSMAL: Detailed Horse Shape and Pose Reconstruction for Motion Pattern Recognition ( http://arxiv.org/abs/2106.10102v1 )

ライセンス: Link先を確認
Ci Li, Nima Ghorbani, Sofia Broom\'e, Maheen Rashid, Michael J. Black, Elin Hernlund, Hedvig Kjellstr\"om, Silvia Zuffi(参考訳) 本稿では,馬の動きのモデルに基づく行動解析に関する予備研究について述べる。 このアプローチは,動物形状の3次元調音統計モデルであるsmalモデルに基づいている。 337ドルの馬のおもちゃから学んだ新しいテンプレート、骨格、形状空間に基づいて、馬のための新しいsmalモデルを定義した。 3d mocapデータと画像から馬の復元におけるhsmalモデルの精度を検証した。 本稿では,映像からの透視検出問題にhSMALモデルを適用し,そのモデルに画像に適合させて3次元ポーズを復元し,ポーズデータにST-GCNネットワークを訓練する。 mocapポイントでトレーニングされた同じネットワークとの比較は、私たちのアプローチのメリットを示しています。

In this paper we present our preliminary work on model-based behavioral analysis of horse motion. Our approach is based on the SMAL model, a 3D articulated statistical model of animal shape. We define a novel SMAL model for horses based on a new template, skeleton and shape space learned from $37$ horse toys. We test the accuracy of our hSMAL model in reconstructing a horse from 3D mocap data and images. We apply the hSMAL model to the problem of lameness detection from video, where we fit the model to images to recover 3D pose and train an ST-GCN network on pose data. A comparison with the same network trained on mocap points illustrates the benefit of our approach.
翻訳日:2021-06-21 14:04:53 公開日:2021-06-18
# ストリーム横断型コントラストを用いた自己教師付きビデオ表現学習

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting ( http://arxiv.org/abs/2106.10137v1 )

ライセンス: Link先を確認
Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu(参考訳) データ拡張と対照的な損失関数に依存するインスタンスレベルのコントラスト学習技術は、視覚表現学習の分野において大きな成功を収めている。 しかし、多くの拡張インスタンス上で操作を行うため、ビデオのリッチな動的構造を利用するには適していない。 本稿では,RGBと光フロービューの両方から一貫したプロトタイプ割り当てを予測し,サンプルセット上で動作させる新しい手法である"Video Cross-Stream Prototypeal Contrasting"を提案する。 具体的には、最適化プロセスに代えて、ストリームの1つを最適化しながら、すべてのビューをストリームプロトタイプベクターの1セットにマッピングします。 それぞれの割り当ては、予測に一致するものを除いてすべてのビューで予測され、割り当てられたプロトタイプに近く表現をプッシュする。 その結果、推論中に光学フロー計算を明示的に必要とせずに、より効率的な動き情報付きビデオ埋め込みが学習される。 s3d バックボーン (90.5% top-1 acc) を用いて ucf101 で+3.2%, r(2+1)d バックボーンを用いて ucf101 で+7.2%, hmdb51 で+15.1% と, 最寄りの映像検索と行動認識に関する最先端の結果を得た。

Instance-level contrastive learning techniques, which rely on data augmentation and a contrastive loss function, have found great success in the domain of visual representation learning. They are not suitable for exploiting the rich dynamical structure of video however, as operations are done on many augmented instances. In this paper we propose "Video Cross-Stream Prototypical Contrasting", a novel method which predicts consistent prototype assignments from both RGB and optical flow views, operating on sets of samples. Specifically, we alternate the optimization process; while optimizing one of the streams, all views are mapped to one set of stream prototype vectors. Each of the assignments is predicted with all views except the one matching the prediction, pushing representations closer to their assigned prototypes. As a result, more efficient video embeddings with ingrained motion information are learned, without the explicit need for optical flow computation during inference. We obtain state-of-the-art results on nearest neighbour video retrieval and action recognition, outperforming previous best by +3.2% on UCF101 using the S3D backbone (90.5% Top-1 acc), and by +7.2% on UCF101 and +15.1% on HMDB51 using the R(2+1)D backbone.
翻訳日:2021-06-21 14:04:42 公開日:2021-06-18
# エンベッドできるのは、時空間トランスフォーマーによる自然言語による車両検索

All You Can Embed: Natural Language based Vehicle Retrieval with Spatio-Temporal Transformers ( http://arxiv.org/abs/2106.10153v1 )

ライセンス: Link先を確認
Carmelo Scribano, Davide Sapienza, Giorgia Franchini, Micaela Verucchi and Marko Bertogna(参考訳) 自然言語とビジョンを組み合わせることは、人工知能の領域においてユニークで興味深い課題である。 AI City Challenge Track 5 for Natural Language-Based Vehicle Retrievalは、スマートシティのユースケースに適用された視覚情報とテキスト情報を組み合わせた問題に焦点を当てている。 本稿では,AYCE(All You Can Embed)という,単一車両追跡シーケンスを自然言語に関連付けるモジュール型ソリューションを提案する。 提案したアーキテクチャの主要なビルディングブロックは (i) BERT でテキスト記述の埋め込みを提供し、 (ii) コンボリューションバックボーンと Transformer モデルで視覚情報を埋め込む。 検索モデルの学習のために,視覚と言語間の距離尺度を学習するために,三重項マージン損失の変動が提案されている。 コードはhttps://github.com/c scribano/AYCE_2021で公開されている。

Combining Natural Language with Vision represents a unique and interesting challenge in the domain of Artificial Intelligence. The AI City Challenge Track 5 for Natural Language-Based Vehicle Retrieval focuses on the problem of combining visual and textual information, applied to a smart-city use case. In this paper, we present All You Can Embed (AYCE), a modular solution to correlate single-vehicle tracking sequences with natural language. The main building blocks of the proposed architecture are (i) BERT to provide an embedding of the textual descriptions, (ii) a convolutional backbone along with a Transformer model to embed the visual information. For the training of the retrieval model, a variation of the Triplet Margin Loss is proposed to learn a distance measure between the visual and language embeddings. The code is publicly available at https://github.com/c scribano/AYCE_2021.
翻訳日:2021-06-21 14:04:09 公開日:2021-06-18
# 補助モデルの自己学習による経時的ドメイン適応

Gradual Domain Adaptation via Self-Training of Auxiliary Models ( http://arxiv.org/abs/2106.09890v1 )

ライセンス: Link先を確認
Yabin Zhang, Bin Deng, Kui Jia, Lei Zhang(参考訳) ソースとターゲットドメイン間のギャップを増やすことで、ドメイン適応はより難しくなります。 対象ドメインを分散させるためのラベル付きソースデータの信頼性に関する実証分析から,中間ドメインのモデルを学習し,ドメイン間の分散シフトに徐々に対処する補助モデル(AuxSelfTrain)の自己学習を提案する。 本稿では、ソースデータの割合の減少と、連続するドメイン間のドメイン距離を最小化するためにサンプリングされたターゲットデータの割合の増加の組合せとして、進化中の中間ドメインを紹介する。 次に、進化する中間領域上の補助モデルの自己学習により、ソースモデルが徐々にターゲット領域での使用に適応することができる。 また,暗黙的アンサンブルによるサンプル選択のための拡張指標を導入し,提案手法を半教師あり領域適応に拡張する。 教師なしおよび半教師付きドメイン適応のベンチマークデータセットの実験は、その有効性を検証する。

Domain adaptation becomes more challenging with increasing gaps between source and target domains. Motivated from an empirical analysis on the reliability of labeled source data for the use of distancing target domains, we propose self-training of auxiliary models (AuxSelfTrain) that learns models for intermediate domains and gradually combats the distancing shifts across domains. We introduce evolving intermediate domains as combinations of decreasing proportion of source data and increasing proportion of target data, which are sampled to minimize the domain distance between consecutive domains. Then the source model could be gradually adapted for the use in the target domain by self-training of auxiliary models on evolving intermediate domains. We also introduce an enhanced indicator for sample selection via implicit ensemble and extend the proposed method to semi-supervised domain adaptation. Experiments on benchmark datasets of unsupervised and semi-supervised domain adaptation verify its efficacy.
翻訳日:2021-06-21 14:03:35 公開日:2021-06-18
# SATとMaxSATによるブール行列分解

Boolean Matrix Factorization with SAT and MaxSAT ( http://arxiv.org/abs/2106.10105v1 )

ライセンス: Link先を確認
Florent Avellaneda, Roger Villemaire(参考訳) ブール行列分解問題は、2つのより小さなブール行列のブール積による行列の近似である。 分解すべき行列が小さければ最適解を得るため,SATとMaxSATの符号化を提案するが,分解すべき行列が大きければ,最大二角被覆の探索に基づくヒューリスティックを提案する。 提案手法は, 計算時間を合理的に保ちながら, 既存手法よりも分解性が高いことを示す。 提案手法により,不完全行列の扱いも可能となる。

The Boolean matrix factorization problem consists in approximating a matrix by the Boolean product of two smaller Boolean matrices. To obtain optimal solutions when the matrices to be factorized are small, we propose SAT and MaxSAT encoding; however, when the matrices to be factorized are large, we propose a heuristic based on the search for maximal biclique edge cover. We experimentally demonstrate that our approaches allow a better factorization than existing approaches while keeping reasonable computation times. Our methods also allow the handling of incomplete matrices with missing entries.
翻訳日:2021-06-21 14:03:22 公開日:2021-06-18
# graph context encoder: graph feature inpainting for graph generation and self-supervised pretraining

Graph Context Encoder: Graph Feature Inpainting for Graph Generation and Self-supervised Pretraining ( http://arxiv.org/abs/2106.10124v1 )

ライセンス: Link先を確認
Oriel Frigo, R\'emy Brossard, David Dehaene(参考訳) 本稿では,グラフ特徴のマスキングと再構成に基づくグラフ表現学習のための,単純かつ効率的な手法であるグラフコンテキストエンコーダ(gce)を提案する。 GCEモデルは、ノードとエッジラベルがマスクされたグラフオートエンコーダと同様に、入力グラフを効率的に再構築するように訓練される。 特に,本モデルでは,ランダムな擬似エッジによるグラフのマスキングと再構成により,グラフ構造の変更も可能である。 GCEは新規なグラフ生成に利用でき、分子生成にも応用できることを示す。 また,複数のベンチマークグラフデータセットでテストされた教師付き分類タスクにおいて,gceがベースライン性能を向上させることを示す。

We propose the Graph Context Encoder (GCE), a simple but efficient approach for graph representation learning based on graph feature masking and reconstruction. GCE models are trained to efficiently reconstruct input graphs similarly to a graph autoencoder where node and edge labels are masked. In particular, our model is also allowed to change graph structures by masking and reconstructing graphs augmented by random pseudo-edges. We show that GCE can be used for novel graph generation, with applications for molecule generation. Used as a pretraining method, we also show that GCE improves baseline performances in supervised classification tasks tested on multiple standard benchmark graph datasets.
翻訳日:2021-06-21 14:03:12 公開日:2021-06-18
# ノイズグラッド:モデル重みへの確率性の導入による説明の強化

NoiseGrad: enhancing explanations by introducing stochasticity to model weights ( http://arxiv.org/abs/2106.10185v1 )

ライセンス: Link先を確認
Kirill Bykov, Anna Hedstr\"om, Shinichi Nakajima, Marina M.-C. H\"ohne(参考訳) 帰属法は、複雑な学習機械の意思決定過程を説明するために現実世界のアプリケーションで使われる実践的な道具である。 SmoothGradと呼ばれる単純な手法は、勾配に基づく帰属法の視覚的拡散を効果的に抑制できることが示されており、研究者と実践者の間で確立されている。 しかし、研究でまだ解明されていないのは、モデル重みに確率性を導入することで、どのように説明が改善されるかである。 本研究では,入力データに代えて重み付けにノイズを付加する,確率的かつメソッド非依存な説明エンハンシング手法であるノイズグレードを提案する。 提案手法を,異なるデータセット,説明手法,ネットワークアーキテクチャを含む様々な実験により検討し,乗算ガウス雑音によるノイズGrad(および拡張ノイズGrad++)は,複数の評価基準においてSmoothGradと比較して明らかに有利であることを示した。 提案手法をベイズ学習に接続し,ハイパーパラメータを選択するためのヒューリスティックを提供する。

Attribution methods remain a practical instrument that is used in real-world applications to explain the decision-making process of complex learning machines. It has been shown that a simple method called SmoothGrad can effectively reduce the visual diffusion of gradient-based attribution methods and has established itself among both researchers and practitioners. What remains unexplored in research, however, is how explanations can be improved by introducing stochasticity to the model weights. In the light of this, we introduce - NoiseGrad - a stochastic, method-agnostic explanation-enhancin g method that adds noise to the weights instead of the input data. We investigate our proposed method through various experiments including different datasets, explanation methods and network architectures and conclude that NoiseGrad (and its extension NoiseGrad++) with multiplicative Gaussian noise offers a clear advantage compared to SmoothGrad on several evaluation criteria. We connect our proposed method to Bayesian Learning and provide the user with a heuristic for choosing hyperparameters.
翻訳日:2021-06-21 14:03:00 公開日:2021-06-18
# 自動音声認識のための改良型単段非自己回帰変圧器

An Improved Single Step Non-autoregressive Transformer for Automatic Speech Recognition ( http://arxiv.org/abs/2106.09885v1 )

ライセンス: Link先を確認
Ruchao Fan, Wei Chu, Peng Chang, Jing Xiao and Abeer Alwan(参考訳) 非自己回帰機構は、特に1ステップの変種が適用される場合、音声変換器の推論時間を著しく短縮することができる。 CTCアライメントに基づく単一ステップ非自己回帰変換器(CASS-NAT)の以前の研究は、自己回帰変換器(AT)よりも大きなリアルタイム係数(RTF)の改善を示した。 本研究では, エンドツーエンドCASS-NATの精度向上のためのいくつかの手法を提案し, 性能解析を行った。 まず、エンコーダモジュールとデコーダモジュールの両方に畳み込み拡張自己アテンションブロックを適用する。 次に,各トークンのトリガーマスク(音響境界)を拡張し,CTCアライメントのロバスト性を高めることを提案する。 さらに、低層パラメータの勾配更新を強化するために繰り返し損失関数が使用される。 外部言語モデルを用いなければ、改良されたcass-natのwersはlibrispeechテストでは3.1%/7.2%、aishell1テストセットでは5.4%、相対的なwer/cer改善は7%〜21%である。 分析では,トークンレベルの音響埋め込みの関係を可視化するために,デコーダ内の注目重量分布をプロットする。 音響埋め込みを可視化すると,それらが単語埋め込みと類似していることが判明し,改良されたCASS-NATがATと同じような動作をする理由が説明される。

Non-autoregressive mechanisms can significantly decrease inference time for speech transformers, especially when the single step variant is applied. Previous work on CTC alignment-based single step non-autoregressive transformer (CASS-NAT) has shown a large real time factor (RTF) improvement over autoregressive transformers (AT). In this work, we propose several methods to improve the accuracy of the end-to-end CASS-NAT, followed by performance analyses. First, convolution augmented self-attention blocks are applied to both the encoder and decoder modules. Second, we propose to expand the trigger mask (acoustic boundary) for each token to increase the robustness of CTC alignments. In addition, iterated loss functions are used to enhance the gradient update of low-layer parameters. Without using an external language model, the WERs of the improved CASS-NAT, when using the three methods, are 3.1%/7.2% on Librispeech test clean/other sets and the CER is 5.4% on the Aishell1 test set, achieving a 7%~21% relative WER/CER improvement. For the analyses, we plot attention weight distributions in the decoders to visualize the relationships between token-level acoustic embeddings. When the acoustic embeddings are visualized, we find that they have a similar behavior to word embeddings, which explains why the improved CASS-NAT performs similarly to AT.
翻訳日:2021-06-21 14:02:39 公開日:2021-06-18
# メタパスのない双曲空間に異種ネットワークを埋め込む

Embedding Heterogeneous Networks into Hyperbolic Space Without Meta-path ( http://arxiv.org/abs/2106.09923v1 )

ライセンス: Link先を確認
Lili Wang, Chongyang Gao, Chenghan Huang, Ruibo Liu, Weicheng Ma, Soroush Vosoughi(参考訳) 現実世界で見られるネットワークは多種多様である。 一般的なタイプのネットワークは異種ネットワークであり、ノード(とエッジ)は異なるタイプのネットワークである。 そのため、これらの異種ネットワークの低次元空間での表現を学習する努力が続けられている。 しかし、既存のヘテロジニアスなネットワーク埋め込み手法のほとんどが以下の2つの欠点を抱えている: (1) 対象空間は通常ユークリッド空間である。 逆に、近年の多くの研究は、複素ネットワークが非ユークリッドである双曲潜在解剖を持つことを示した。 2) これらの手法は通常、メタパスの選択にドメイン固有の事前知識を必要とするメタパスに依存する。 さらに、同じネットワーク上の異なるダウンストリームタスクは、タスク固有の埋め込みを生成するために異なるメタパスを必要とするかもしれない。 本稿では,異種ネットワークを双曲空間に埋め込むメタパスを必要としない,自己誘導型ランダムウォーク法を提案する。 我々は,2つの公開データセット上でネットワーク再構成とリンク予測のタスクを徹底的に実験し,各タスクでよく知られたベースラインを上回ることを示す。

Networks found in the real-world are numerous and varied. A common type of network is the heterogeneous network, where the nodes (and edges) can be of different types. Accordingly, there have been efforts at learning representations of these heterogeneous networks in low-dimensional space. However, most of the existing heterogeneous network embedding methods suffer from the following two drawbacks: (1) The target space is usually Euclidean. Conversely, many recent works have shown that complex networks may have hyperbolic latent anatomy, which is non-Euclidean. (2) These methods usually rely on meta-paths, which require domain-specific prior knowledge for meta-path selection. Additionally, different down-streaming tasks on the same network might require different meta-paths in order to generate task-specific embeddings. In this paper, we propose a novel self-guided random walk method that does not require meta-path for embedding heterogeneous networks into hyperbolic space. We conduct thorough experiments for the tasks of network reconstruction and link prediction on two public datasets, showing that our model outperforms a variety of well-known baselines across all tasks.
翻訳日:2021-06-21 14:02:12 公開日:2021-06-18
# マンダリンと英語の歌唱における音声セグメントと楽音の同期化

Synchronising speech segments with musical beats in Mandarin and English singing ( http://arxiv.org/abs/2106.10045v1 )

ライセンス: Link先を確認
Cong Zhang, Jian Zhu(参考訳) 音声データに基づいて学習したモデルを用いた合成歌声の生成には,モデルの柔軟性と制御性から多くの利点がある。 しかし、音声訓練データにはセグメントとビート間の時間的関係が欠如しているため、合成歌唱は時折オフビートを鳴らすことがある。 したがって、音声セグメントと音楽ビート間の時間的関係に関する情報の入手が不可欠である。 本研究は,P中心とソノリティ階層の言語理論に基づいて,歌唱データにおけるセグメントビート同期を仮説として検討した。 マンダリンコーパスとプロの歌唱データの英語コーパスを手動で注釈付けして分析した。 その結果,音楽的ビートの存在はソノリティよりもセグメント持続時間に依存することがわかった。 しかし、ソノリティ階層とp-centre理論はビートの位置と強く関連していた。 マンダリンと英語は共通パターンを示すにもかかわらず、言語横断的な変化を示した。

Generating synthesised singing voice with models trained on speech data has many advantages due to the models' flexibility and controllability. However, since the information about the temporal relationship between segments and beats are lacking in speech training data, the synthesised singing may sound off-beat at times. Therefore, the availability of the information on the temporal relationship between speech segments and music beats is crucial. The current study investigated the segment-beat synchronisation in singing data, with hypotheses formed based on the linguistics theories of P-centre and sonority hierarchy. A Mandarin corpus and an English corpus of professional singing data were manually annotated and analysed. The results showed that the presence of musical beats was more dependent on segment duration than sonority. However, the sonority hierarchy and the P-centre theory were highly related to the location of beats. Mandarin and English demonstrated cross-linguistic variations despite exhibiting common patterns.
翻訳日:2021-06-21 14:01:36 公開日:2021-06-18
# ピクセル空間における深部ニューラルネットワークの対向ロバスト性の解析:意味論的視点

Analyzing Adversarial Robustness of Deep Neural Networks in Pixel Space: a Semantic Perspective ( http://arxiv.org/abs/2106.09872v1 )

ライセンス: Link先を確認
Lina Wang, Xingshu Chen, Yulong Wang, Yawei Yue, Yi Zhu, Xuemei Zeng, Wei Wang(参考訳) 深層ニューラルネットワークの敵例に対する脆弱性は、ネットワークが誤った出力を生成することを誤解するために、知覚不能な摂動で入力を修正することで悪用され、堅牢性の欠如とセキュリティ上の懸念が浮き彫りになる。 前回の研究では、画像レベルにおける画像分類器の敵対的頑健性を調査し、画像内のすべての画素情報を無差別に使用し、画像の画素空間における意味的意味の異なる領域の探索を欠いている。 本研究では, このギャップを埋め, 対向画像の画素空間を探索するために, セグメント化画像の異なる領域の画素で可能な摂動画素を求めるアルゴリズムを提案する。 CIFAR-10とImageNetの広範な実験結果は、画像の一部のピクセルで修正されたピクセルを検索することで、画像全体のピクセルを全て必要とせずに1ピクセルの対角攻撃をうまく起動できることを確認し、画像の異なる領域に複数の脆弱な点が存在する。 また,画像上の異なる領域の対角的堅牢性は,意味情報の量によって異なることを示す。

The vulnerability of deep neural networks to adversarial examples, which are crafted maliciously by modifying the inputs with imperceptible perturbations to misled the network produce incorrect outputs, reveals the lack of robustness and poses security concerns. Previous works study the adversarial robustness of image classifiers on image level and use all the pixel information in an image indiscriminately, lacking of exploration of regions with different semantic meanings in the pixel space of an image. In this work, we fill this gap and explore the pixel space of the adversarial image by proposing an algorithm to looking for possible perturbations pixel by pixel in different regions of the segmented image. The extensive experimental results on CIFAR-10 and ImageNet verify that searching for the modified pixel in only some pixels of an image can successfully launch the one-pixel adversarial attacks without requiring all the pixels of the entire image, and there exist multiple vulnerable points scattered in different regions of an image. We also demonstrate that the adversarial robustness of different regions on the image varies with the amount of semantic information contained.
翻訳日:2021-06-21 14:01:23 公開日:2021-06-18
# 共有埋め込みを用いたライダーマップのレーダ位置改善

Improved Radar Localization on Lidar Maps Using Shared Embedding ( http://arxiv.org/abs/2106.10000v1 )

ライセンス: Link先を確認
Huan Yin, Yue Wang and Rong Xiong(参考訳) 本論文では,事前構築したlidarマップ上でのレーダグローバルローカライズとポーズ追跡を解決するための異種ローカライズフレームワークを提案する。 センシングモードのギャップを埋めるために、ディープニューラルネットワークが構築され、レーダースキャンとlidarマップのための共有埋め込みスペースが構築される。 学習した特徴埋め込みは類似度の測定に役立ち、マップ検索とデータマッチングがそれぞれ改善される。 RobotCarとMulRanのデータセットでは、提案フレームワークの有効性をScan ContextとRaLLと比較して示す。 さらに、提案されたポーズトラッキングパイプラインは、オリジナルのRaLLと比較してニューラルネットワークが少ない。

We present a heterogeneous localization framework for solving radar global localization and pose tracking on pre-built lidar maps. To bridge the gap of sensing modalities, deep neural networks are constructed to create shared embedding space for radar scans and lidar maps. Herein learned feature embeddings are supportive for similarity measurement, thus improving map retrieval and data matching respectively. In RobotCar and MulRan datasets, we demonstrate the effectiveness of the proposed framework with the comparison to Scan Context and RaLL. In addition, the proposed pose tracking pipeline is with less neural networks compared to the original RaLL.
翻訳日:2021-06-21 14:01:00 公開日:2021-06-18
# 解析マーチングの効率的な実装による深層表面ネットワークからの学習とメッシュ化

Learning and Meshing from Deep Implicit Surface Networks Using an Efficient Implementation of Analytic Marching ( http://arxiv.org/abs/2106.10031v1 )

ライセンス: Link先を確認
Jiabao Lei, Kui Jia, Yi Ma(参考訳) 物体やシーンの表面の再構成はコンピュータビジョン、コンピュータグラフィックス、ロボット工学に多大な応用がある。 本稿では,ゼロレベル集合が基底表面をキャプチャする暗黙の場関数から表面メッシュを復元する,この文脈における根本的な問題について検討する。 この目的を達成するために、既存の手法は従来のメッシュアルゴリズムに依存しており、有望ではあるが、マーチングキューブで離散的な空間サンプリングを使用することにより、暗黙の表面ネットワークで学んだ精度の喪失に悩まされている。 Rectified Linear Unit (ReLU) の活性化を伴う MLP が入力空間を複数の線形領域に分割することを考えると、我々はこの局所線型性をポリゴンメッシュの所望の結果が持つ同じ性質と結びつける動機付けとなる。 より具体的には,MLPに基づく暗黙関数,解析セル,解析面によって区切られた線形領域から,関数のゼロレベルアイソサーフェスに関連付けられた領域を同定する。 穏やかな条件下では、識別された分析面は、閉じた平面面を形成することが保証される。 この定理に基づき,解析セル間を行進して暗黙的表面ネットワークで捕捉されたメッシュを正確に復元する解析的マーチングのアルゴリズムを提案する。 また,本理論とアルゴリズムは近距離接続と最大プーリングを持つ先進mlpにも等しく適用可能であることを示した。 解析マーチングの並列性を考えると、CUDA並列コンピューティングによる暗黙のサーフェスネットワークの効率的なメッシュ化と、効率的な下流処理のためのメッシュ単純化をサポートするソフトウェアパッケージであるAnalyticMeshにコントリビュートする。 本手法を暗黙の曲面ネットワークを用いた生成形状モデリングの異なる設定に適用する。 大規模な実験は、メッシュの精度と効率の両面から、既存の手法に対する利点を実証している。

Reconstruction of object or scene surfaces has tremendous applications in computer vision, computer graphics, and robotics. In this paper, we study a fundamental problem in this context about recovering a surface mesh from an implicit field function whose zero-level set captures the underlying surface. To achieve the goal, existing methods rely on traditional meshing algorithms; while promising, they suffer from loss of precision learned in the implicit surface networks, due to the use of discrete space sampling in marching cubes. Given that an MLP with activations of Rectified Linear Unit (ReLU) partitions its input space into a number of linear regions, we are motivated to connect this local linearity with a same property owned by the desired result of polygon mesh. More specifically, we identify from the linear regions, partitioned by an MLP based implicit function, the analytic cells and analytic faces that are associated with the function's zero-level isosurface. We prove that under mild conditions, the identified analytic faces are guaranteed to connect and form a closed, piecewise planar surface. Based on the theorem, we propose an algorithm of analytic marching, which marches among analytic cells to exactly recover the mesh captured by an implicit surface network. We also show that our theory and algorithm are equally applicable to advanced MLPs with shortcut connections and max pooling. Given the parallel nature of analytic marching, we contribute AnalyticMesh, a software package that supports efficient meshing of implicit surface networks via CUDA parallel computing, and mesh simplification for efficient downstream processing. We apply our method to different settings of generative shape modeling using implicit surface networks. Extensive experiments demonstrate our advantages over existing methods in terms of both meshing accuracy and efficiency.
翻訳日:2021-06-21 14:00:51 公開日:2021-06-18
# 夜間写真における光害低減

Light Pollution Reduction in Nighttime Photography ( http://arxiv.org/abs/2106.10046v1 )

ライセンス: Link先を確認
Chang Liu, Xiaolin Wu(参考訳) 夜間の写真家は、望ましくない人工照明の光害に悩むことが多い。 大気中のエアロゾルに散らばった人工的な光は、コントラストとダイナミックレンジを減らして、星の光を浸し、夜間の画質を低下させる。 本稿では,上述した知覚品質の劣化を効果的に軽減し,夜空の原始状態を復元する物理ベース光汚染低減(LPR)アルゴリズムを開発する。 提案したlprアルゴリズムの成功の鍵は、地上人工光の空間放射率分布とスペクトルシグネチャを推定するための逆法である。 LPRアルゴリズムの有効性と限界を評価するために大規模な実験を行った。

Nighttime photographers are often troubled by light pollution of unwanted artificial lights. Artificial lights, after scattered by aerosols in the atmosphere, can inundate the starlight and degrade the quality of nighttime images, by reducing contrast and dynamic range and causing hazes. In this paper we develop a physically-based light pollution reduction (LPR) algorithm that can substantially alleviate the aforementioned degradations of perceptual quality and restore the pristine state of night sky. The key to the success of the proposed LPR algorithm is an inverse method to estimate the spatial radiance distribution and spectral signature of ground artificial lights. Extensive experiments are carried out to evaluate the efficacy and limitations of the LPR algorithm.
翻訳日:2021-06-21 14:00:18 公開日:2021-06-18
# 実世界画像エンハンスメントの偏差主観評価

Debiased Subjective Assessment of Real-World Image Enhancement ( http://arxiv.org/abs/2106.10080v1 )

ライセンス: Link先を確認
Cao Peibei. Wang Zhangyang, Ma Kede(参考訳) 実世界の画像エンハンスメントでは、接地データを取得することはしばしば困難であり(不可能ではないにせよ)、客観的品質評価のための距離メトリクスの採用を妨げている。 結果として、画像エンハンスメントを評価する最も単純で信頼性の高い方法である主観的品質評価に頼ることが多い。 従来の主観的テストでは、画像空間における選択されたサンプルの極めてスパースな分布によるバイアスのサンプリング、選択されたサンプルの潜在的な過剰によるアルゴリズム的バイアス、さらなるチェリーピッキングテスト結果による主観的バイアスの3つのバイアスを、手動で事前選択する必要がある。 これにより、現実世界の画像エンハンスメントの分野は、科学よりも芸術的になる。 ここでは, 適応的, 多様な画像を自動的にサンプリングすることにより, 従来の主観的評価を逸脱させる。 これにより、サンプル選択を、選択された入力画像間のエンハンサー間の差分と多様性の結合最大化にキャストする。 得られた拡張画像の注意深い視覚検査は、拡張アルゴリズムの偏りのないランキングを提供する。 我々は,デハジング,スーパーレゾリューション,低光度エンハンスメントという3つの画像エンハンスメントタスクを用いて主観評価手法を示す。

In real-world image enhancement, it is often challenging (if not impossible) to acquire ground-truth data, preventing the adoption of distance metrics for objective quality assessment. As a result, one often resorts to subjective quality assessment, the most straightforward and reliable means of evaluating image enhancement. Conventional subjective testing requires manually pre-selecting a small set of visual examples, which may suffer from three sources of biases: 1) sampling bias due to the extremely sparse distribution of the selected samples in the image space; 2) algorithmic bias due to potential overfitting the selected samples; 3) subjective bias due to further potential cherry-picking test results. This eventually makes the field of real-world image enhancement more of an art than a science. Here we take steps towards debiasing conventional subjective assessment by automatically sampling a set of adaptive and diverse images for subsequent testing. This is achieved by casting sample selection into a joint maximization of the discrepancy between the enhancers and the diversity among the selected input images. Careful visual inspection on the resulting enhanced images provides a debiased ranking of the enhancement algorithms. We demonstrate our subjective assessment method using three popular and practically demanding image enhancement tasks: dehazing, super-resolution, and low-light enhancement.
翻訳日:2021-06-21 14:00:06 公開日:2021-06-18
# カスケードニューラルネットワークを用いた非Iterative Phase Retrieval

Non-Iterative Phase Retrieval With Cascaded Neural Networks ( http://arxiv.org/abs/2106.10195v1 )

ライセンス: Link先を確認
Tobias Uelwer and Tobias Hoffmann and Stefan Harmeling(参考訳) フーリエ位相の探索はフーリエ変換の大きさのみを与えられる信号を再構成する問題である。 最適化に基づくアプローチ、例えば、よく確立されたGerchberg-Saxtonやハイブリッド入力出力アルゴリズムは、オーバーサンプリングされない大きさの画像を再構成するのに苦労する。 これは学習フェーズ後の非オーバサンプルスケール測定からの再構成を可能にする学習手法の適用を動機付けている。 本稿では,これらの学習手法の限界を深層ニューラルネットワークカスケードを用いて押し上げ,その非サンプリングフーリエマグニチュードから異なる解像度で画像を連続的に再構成する。 提案手法は,MNIST,EMNIST,Fashio n-MNIST,KMNISTの4つの異なるデータセット上で評価し,他の非定位手法や最適化手法よりも優れた性能が得られることを示す。

Fourier phase retrieval is the problem of reconstructing a signal given only the magnitude of its Fourier transformation. Optimization-based approaches, like the well-established Gerchberg-Saxton or the hybrid input output algorithm, struggle at reconstructing images from magnitudes that are not oversampled. This motivates the application of learned methods, which allow reconstruction from non-oversampled magnitude measurements after a learning phase. In this paper, we want to push the limits of these learned methods by means of a deep neural network cascade that reconstructs the image successively on different resolutions from its non-oversampled Fourier magnitude. We evaluate our method on four different datasets (MNIST, EMNIST, Fashion-MNIST, and KMNIST) and demonstrate that it yields improved performance over other non-iterative methods and optimization-based methods.
翻訳日:2021-06-21 13:59:39 公開日:2021-06-18
# 社会学習戦略のメタコントロール

Meta-control of social learning strategies ( http://arxiv.org/abs/2106.10015v1 )

ライセンス: Link先を確認
Anil Yaman, Nicolas Bredeche, Onur \c{C}aylak, Joel Z. Leibo, Sang Wan Lee(参考訳) 社会学習は、実際の経験のない他人の行動を模倣し、コスト効率の良い知識獲得手段を提供する。 しかし、これはどの個人が信頼できる情報を持っているかという根本的な疑問を提起する。 前者と後者はそれぞれ成功に基づく社会学習戦略として知られている。 ここでは,成功に基づく戦略が不確実性の低い良質な環境を十分に活用する一方で,不確定な環境では失敗することを示す。 一方、共形戦略はこの悪影響を効果的に軽減することができる。 これらの結果に基づき, 個人および社会学習戦略のメタコントロールは, 揮発性および不確実性環境において効果的かつサンプル効率の良い学習をもたらすと仮定した。 様々なレベルのボラティリティと不確実性を持つ環境のシミュレーションは、我々の仮説を裏付けた。 その結果,他者の学習を外部の知識基盤として活用することにより,エージェントが環境不確実性を最小限の探索コストで解決できることが示唆された。

Social learning, copying other's behavior without actual experience, offers a cost-effective means of knowledge acquisition. However, it raises the fundamental question of which individuals have reliable information: successful individuals versus the majority. The former and the latter are known respectively as success-based and conformist social learning strategies. We show here that while the success-based strategy fully exploits the benign environment of low uncertainly, it fails in uncertain environments. On the other hand, the conformist strategy can effectively mitigate this adverse effect. Based on these findings, we hypothesized that meta-control of individual and social learning strategies provides effective and sample-efficient learning in volatile and uncertain environments. Simulations on a set of environments with various levels of volatility and uncertainty confirmed our hypothesis. The results imply that meta-control of social learning affords agents the leverage to resolve environmental uncertainty with minimal exploration cost, by exploiting others' learning as an external knowledge base.
翻訳日:2021-06-21 13:58:51 公開日:2021-06-18
# 非ネイティブの子供による非転写データを用いた低資源ドイツASR-InterSPEECH 2021共有タスクSPAPLシステム

Low Resource German ASR with Untranscribed Data Spoken by Non-native Children -- INTERSPEECH 2021 Shared Task SPAPL System ( http://arxiv.org/abs/2106.09963v1 )

ライセンス: Link先を確認
Jinhan Wang, Yunzheng Zhu, Ruchao Fan, Wei Chu, Abeer Alwan(参考訳) 本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。 子供向けのドイツのASRシステムを開発するために、5時間の転写データと60時間の非転写データを提供する。 書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。 非転写データの利用を探求するため、システム性能を漸進的に改善するために、様々なアプローチが実装され、組み合わせられる。 まず,双方向自己回帰型予測符号化(bi-apc)を用いて音響モデルの初期パラメータを学習する。 第2に、逐次半教師付き学習により、擬似転写データを反復的に生成する。 第3に、異なるトレーニング段階で異なるデータ拡張スキームを使用して、トレーニングデータのばらつきとサイズを増大させる。 最後に、リコーディングにはリカレントニューラルネットワーク言語モデル(RNNLM)が使用される。 本システムでは,評価データに対して39.68%の単語誤り率(WER)を達成し,オフィシャルベースライン(45.21%)に対して約12%の改善を行った。

This paper describes the SPAPL system for the INTERSPEECH 2021 Challenge: Shared Task on Automatic Speech Recognition for Non-Native Children's Speech in German. ~ 5 hours of transcribed data and ~ 60 hours of untranscribed data are provided to develop a German ASR system for children. For the training of the transcribed data, we propose a non-speech state discriminative loss (NSDL) to mitigate the influence of long-duration non-speech segments within speech utterances. In order to explore the use of the untranscribed data, various approaches are implemented and combined together to incrementally improve the system performance. First, bidirectional autoregressive predictive coding (Bi-APC) is used to learn initial parameters for acoustic modelling using the provided untranscribed data. Second, incremental semi-supervised learning is further used to iteratively generate pseudo-transcribed data. Third, different data augmentation schemes are used at different training stages to increase the variability and size of the training data. Finally, a recurrent neural network language model (RNNLM) is used for rescoring. Our system achieves a word error rate (WER) of 39.68% on the evaluation data, an approximately 12% relative improvement over the official baseline (45.21%).
翻訳日:2021-06-21 13:58:26 公開日:2021-06-18
# ディープニューラルネットワークに埋め込まれたトリガーセット型透かしのロバスト性評価

Evaluating the Robustness of Trigger Set-Based Watermarks Embedded in Deep Neural Networks ( http://arxiv.org/abs/2106.10147v1 )

ライセンス: Link先を確認
Suyoung Lee, Wonho Song, Suman Jana, Meeyoung Cha, Sooel Son(参考訳) Triggerセットベースのウォーターマーキングスキームは、ディープニューラルネットワークモデルのオーナの所有権を証明する手段として、注目を集めている。 本稿では,現在最先端のトリガセットベースの透かしアルゴリズムが,その設計目標であるオーナシップを達成できないことを論じる。 この障害は,ウォーターマーキングアルゴリズムのロバスト性評価において,(1)不完全逆評価と(2)見過ごされた適応攻撃の2つの実験的欠陥が原因であると考えられる。 我々は,既存の6つの攻撃に対する10の代表的なウォーターマーキングスキームの包括的敵意評価を行い,これらのウォーターマーキングスキームが少なくとも2つの攻撃に対して堅牢性に欠けることを示す。 また,ターゲットモデルの基盤となる透かしアルゴリズムに対する敵の知識を活用した適応攻撃を提案する。 提案した攻撃は10の透かしスキームの全てを効果的に破壊し、敵が透かし付きモデルの所有権を曖昧にすることができることを示した。 我々は,我々の適応攻撃を含む包括的対角的評価を行うことで,透かし方式の堅牢性を評価する上で,我々のガイドラインを検討することを奨励する。

Trigger set-based watermarking schemes have gained emerging attention as they provide a means to prove ownership for deep neural network model owners. In this paper, we argue that state-of-the-art trigger set-based watermarking algorithms do not achieve their designed goal of proving ownership. We posit that this impaired capability stems from two common experimental flaws that the existing research practice has committed when evaluating the robustness of watermarking algorithms: (1) incomplete adversarial evaluation and (2) overlooked adaptive attacks. We conduct a comprehensive adversarial evaluation of 10 representative watermarking schemes against six of the existing attacks and demonstrate that each of these watermarking schemes lacks robustness against at least two attacks. We also propose novel adaptive attacks that harness the adversary's knowledge of the underlying watermarking algorithm of a target model. We demonstrate that the proposed attacks effectively break all of the 10 watermarking schemes, consequently allowing adversaries to obscure the ownership of any watermarked model. We encourage follow-up studies to consider our guidelines when evaluating the robustness of their watermarking schemes via conducting comprehensive adversarial evaluation that include our adaptive attacks to demonstrate a meaningful upper bound of watermark robustness.
翻訳日:2021-06-21 13:58:06 公開日:2021-06-18
# コードスケッチ生成の学習

Learning to Generate Code Sketches ( http://arxiv.org/abs/2106.10158v1 )

ライセンス: Link先を確認
Daya Guo, Alexey Svyatkovskiy, Jian Yin, Nan Duan, Marc Brockschmidt, Miltiadis Allamanis(参考訳) 伝統的な生成モデルは、終端トークンのシーケンスの予測に限定される。 しかし、生成タスクの曖昧さは誤った出力につながる可能性がある。 これに対処するために,変換器をベースとした文法誘導モデルであるGramformerを導入し,スケッチを生成するために(明示的な監督なしに)学習する。 強化学習を通じて、グラムフォーマーは、目標タスクにあいまいさがある不正確なトークンの発生を避ける穴を導入することを学ぶ。 文レベルのソースコード補完、すなわち、部分的なコードコンテキストなど、曖昧なユーザの意図が与えられたコードスニペットの生成のために、grammformersをトレーニングします。 我々は、c#とpythonのコード補完に関するgrammformersを評価し、従来の生成モデルよりも10-50%正確なスケッチを生成し、同様のテクニックでトレーニングされたスケッチ生成ベースラインと比較して37-50%長いスケッチを生成することを示した。

Traditional generative models are limited to predicting sequences of terminal tokens. However, ambiguities in the generation task may lead to incorrect outputs. Towards addressing this, we introduce Grammformers, transformer-based grammar-guided models that learn (without explicit supervision) to generate sketches -- sequences of tokens with holes. Through reinforcement learning, Grammformers learn to introduce holes avoiding the generation of incorrect tokens where there is ambiguity in the target task. We train Grammformers for statement-level source code completion, i.e., the generation of code snippets given an ambiguous user intent, such as a partial code context. We evaluate Grammformers on code completion for C# and Python and show that it generates 10-50% more accurate sketches compared to traditional generative models and 37-50% longer sketches compared to sketch-generating baselines trained with similar techniques.
翻訳日:2021-06-21 13:57:44 公開日:2021-06-18
# 正規微分方程式による決定論的ギブズサンプリング

Deterministic Gibbs Sampling via Ordinary Differential Equations ( http://arxiv.org/abs/2106.10188v1 )

ライセンス: Link先を確認
Kirill Neklyudov, Roberto Bondesan, Max Welling(参考訳) 決定論的ダイナミクスは多くのMCMCアルゴリズムの重要な部分である。 正規化流を利用したハイブリッドモンテカルロまたはサンプラー 本稿では,自律的ODEとツールを用いた決定論的測度保存ダイナミクスの一般構築について述べる。 我々は、ハイブリッドモンテカルロや他の決定論的サンプルが、我々の理論の特別な場合としてどのように従うかを示す。 次に, ODE フローの観点から連続的な非逐次バージョンの Gibbs をサンプリングし, 離散状態空間に拡張することで, 提案手法の有用性を実証する。 決定論的サンプルは, 独立標本を生成しても, 確率的サンプルよりも効率がよいことがわかった。

Deterministic dynamics is an essential part of many MCMC algorithms, e.g. Hybrid Monte Carlo or samplers utilizing normalizing flows. This paper presents a general construction of deterministic measure-preserving dynamics using autonomous ODEs and tools from differential geometry. We show how Hybrid Monte Carlo and other deterministic samplers follow as special cases of our theory. We then demonstrate the utility of our approach by constructing a continuous non-sequential version of Gibbs sampling in terms of an ODE flow and extending it to discrete state spaces. We find that our deterministic samplers are more sample efficient than stochastic counterparts, even if the latter generate independent samples.
翻訳日:2021-06-21 13:57:29 公開日:2021-06-18
# オープンコラボレーションにおける分散ディープラーニング

Distributed Deep Learning in Open Collaborations ( http://arxiv.org/abs/2106.10207v1 )

ライセンス: Link先を確認
Michael Diskin, Alexey Bukhtiyarov, Max Ryabinin, Lucile Saulnier, Quentin Lhoest, Anton Sinitsin, Dmitry Popov, Dmitry Pyrkin, Maxim Kashirin, Alexander Borzunov, Albert Villanova del Moral, Denis Mazur, Ilia Kobelev, Yacine Jernite, Thomas Wolf, Gennady Pekhimenko(参考訳) 最新のディープラーニングアプリケーションは、最先端モデルのトレーニングにますます多くの計算を必要とする。 この要求に対処するため、大企業や機関は専用の高性能コンピューティングクラスタを使用しており、その構築とメンテナンスは環境的にコストがかかり、ほとんどの組織の予算をはるかに超えている。 その結果、いくつかの研究の方向性は、いくつかの大きな産業的かつより少ない学術的俳優の排他的領域となる。 この格差を軽減するために、小さなグループは計算資源をプールし、すべての参加者に利益をもたらす共同実験を行うことができる。 このパラダイムはグリッドコンピューティングやボランティアコンピューティングと呼ばれ、多くの科学分野において成功している。 しかし、このアプローチを機械学習に使用するのは、高いレイテンシ、非対称帯域幅、ボランティアコンピューティング特有のいくつかの課題のために難しい。 本研究では,これらの制約を慎重に分析し,協調学習に特化した新しいアルゴリズムフレームワークを提案する。 現実的な条件下でのSwaVとALBERTの事前学習に対するアプローチの有効性を実証し,コストのごく一部で従来の設定に匹敵する性能を実現する。 最後に,40名による事前学習を成功させた言語モデルの詳細な報告を行った。

Modern deep learning applications require increasingly more compute to train state-of-the-art models. To address this demand, large corporations and institutions use dedicated High-Performance Computing clusters, whose construction and maintenance are both environmentally costly and well beyond the budget of most organizations. As a result, some research directions become the exclusive domain of a few large industrial and even fewer academic actors. To alleviate this disparity, smaller groups may pool their computational resources and run collaborative experiments that benefit all participants. This paradigm, known as grid- or volunteer computing, has seen successful applications in numerous scientific areas. However, using this approach for machine learning is difficult due to high latency, asymmetric bandwidth, and several challenges unique to volunteer computing. In this work, we carefully analyze these constraints and propose a novel algorithmic framework designed specifically for collaborative training. We demonstrate the effectiveness of our approach for SwAV and ALBERT pretraining in realistic conditions and achieve performance comparable to traditional setups at a fraction of the cost. Finally, we provide a detailed report of successful collaborative language model pretraining with 40 participants.
翻訳日:2021-06-21 13:57:20 公開日:2021-06-18
# 加工サイクル時間予測:ニューラルネットワークを用いたマシンツールフィード行動のデータ駆動モデリング

Machining Cycle Time Prediction: Data-driven Modelling of Machine Tool Feedrate Behavior with Neural Networks ( http://arxiv.org/abs/2106.09719v1 )

ライセンス: Link先を確認
Chao Sun, Javier Dominguez-Caballero, Rob Ward, Sabino Ayvar-Soberanis, David Curtis(参考訳) 製造業では,加工サイクルの正確な予測が重要である。 通常、コンピュータ支援製造(cam)ソフトウェアは、ツールパスファイルから指令フィードレートを使用して、基本的なキネマティックな設定で加工時間を推定する。 通常、この手法は工具パス幾何学や工具パス耐性を考慮せず、したがって加工サイクルの時間を大幅に見積もっている。 本稿では,機械固有の知識を取り除き,各機械工具軸に対してニューラルネットワークモデルを構築し,データ駆動型フィードレートおよび加工サイクルタイム予測手法を提案する。 本研究では, ニューラルネットワークモデルの学習に, 指令フィードレート, 名目加速度, ツールパス幾何, 測定フィードレートからなるデータセットを用いた。 商業加工センターにおける代表的な産業用薄肉構造成分を用いた検証試験により,90%以上の精度で加工時間を推定した。 この手法は、ニューラルネットワークモデルが複雑な機械工具システムの振る舞いを学習し、サイクルタイムを予測する能力を持つことを示した。 この方法のさらなる統合は、産業4.0におけるデジタル双生児の移植において重要である。

Accurate prediction of machining cycle times is important in the manufacturing industry. Usually, Computer Aided Manufacturing (CAM) software estimates the machining times using the commanded feedrate from the toolpath file using basic kinematic settings. Typically, the methods do not account for toolpath geometry or toolpath tolerance and therefore under estimate the machining cycle times considerably. Removing the need for machine specific knowledge, this paper presents a data-driven feedrate and machining cycle time prediction method by building a neural network model for each machine tool axis. In this study, datasets composed of the commanded feedrate, nominal acceleration, toolpath geometry and the measured feedrate were used to train a neural network model. Validation trials using a representative industrial thin wall structure component on a commercial machining centre showed that this method estimated the machining time with more than 90% accuracy. This method showed that neural network models have the capability to learn the behavior of a complex machine tool system and predict cycle times. Further integration of the methods will be critical in the implantation of digital twins in Industry 4.0.
翻訳日:2021-06-21 13:56:37 公開日:2021-06-18
# FinGAT:金融グラフのアテンション・ネットワークでトップK株をリコメンド

FinGAT: Financial Graph Attention Networks for Recommending Top-K Profitable Stocks ( http://arxiv.org/abs/2106.10159v1 )

ライセンス: Link先を確認
Yi-Ling Hsu, Yu-Che Tsai, Cheng-Te Li(参考訳) 金融技術(FinTech)は投資家や企業の間で注目を集めている。 FinTechの従来の株価分析は株価の予測を目標としているが、利益を得るための努力は少ない。 さらに、株価の時系列をモデル化する既存のアプローチでは、株式とセクター(すなわち株式のカテゴリー)の関係は無視されるか、あるいは事前に定義されている。 株式関係の無視は、株式間で共有される情報を見逃すが、事前定義された関係を用いると、株間の株価の潜在的な相互作用や影響を描写できない。 本研究は、株価の時系列とセクター情報を用いて、利益率でトップkの株式を推薦することを目的とする。 我々は,ストック間の事前定義された関係が与えられないことを前提として,新たなディープラーニングモデルであるファイナンシャルグラフ注意ネットワーク(FinGAT)を提案する。 FinGATのアイデアは3倍です。 まず,時系列から短期および長期の連続パターンを学習するための階層的学習要素を考案する。 第2に、株式間の完全連結グラフと、セクター間の完全連結グラフと、グラフ注意ネットワークを構築し、株式とセクター間の潜伏相互作用を学習する。 第三に、利益の出る株式を共同で推薦し、株価の動きを予測するマルチタスクの目標が考案される。 台湾株,S&P500,NASDAQデータセットを用いて行った実験は,最先端の手法と比較して,FinGATの優れた推奨性能を示した。

Financial technology (FinTech) has drawn much attention among investors and companies. While conventional stock analysis in FinTech targets at predicting stock prices, less effort is made for profitable stock recommendation. Besides, in existing approaches on modeling time series of stock prices, the relationships among stocks and sectors (i.e., categories of stocks) are either neglected or pre-defined. Ignoring stock relationships will miss the information shared between stocks while using pre-defined relationships cannot depict the latent interactions or influence of stock prices between stocks. In this work, we aim at recommending the top-K profitable stocks in terms of return ratio using time series of stock prices and sector information. We propose a novel deep learning-based model, Financial Graph Attention Networks (FinGAT), to tackle the task under the setting that no pre-defined relationships between stocks are given. The idea of FinGAT is three-fold. First, we devise a hierarchical learning component to learn short-term and long-term sequential patterns from stock time series. Second, a fully-connected graph between stocks and a fully-connected graph between sectors are constructed, along with graph attention networks, to learn the latent interactions among stocks and sectors. Third, a multi-task objective is devised to jointly recommend the profitable stocks and predict the stock movement. Experiments conducted on Taiwan Stock, S&P 500, and NASDAQ datasets exhibit remarkable recommendation performance of our FinGAT, comparing to state-of-the-art methods.
翻訳日:2021-06-21 13:55:27 公開日:2021-06-18
# (参考訳) 動作優先とダイナミクスモデル:オフラインrlにおける性能向上とドメイン転送 [全文訳有]

Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL ( http://arxiv.org/abs/2106.09119v2 )

ライセンス: CC BY 4.0
Catherine Cang, Aravind Rajeswaran, Pieter Abbeel, Michael Laskin(参考訳) オフライン強化学習(英語版) (RL) は、追加の環境相互作用なしに不完全なオフラインデータから準最適ポリシーを抽出することを目的としている。 多様なオフラインデータセットからポリシーを抽出することで、トレーニングプロセスをより安全で速く、より合理化することにより、RLの適用範囲を広げる可能性がある。 本研究では,オフラインrlアルゴリズムの性能向上,オフラインデータの品質に対する堅牢性,一般化機能について検討する。 そこで我々は,オフラインモデルに基づく適応行動優先型rl(mabe)を導入する。 本アルゴリズムは、ドメイン内一般化をサポートする動的モデルと、ドメイン間一般化をサポートする振る舞い先行が相補的であることに基づく。 組み合わせると、オフラインのRLポリシーの性能と一般化が大幅に向上する。 広く研究されている D4RL オフライン RL ベンチマークでは,MABE が従来のモデルフリーおよびモデルベースアルゴリズムと比較して高い平均性能を達成することがわかった。 クロスドメインの一般化を必要とする実験では、MABEは従来の手法よりも優れていた。 私たちのウェブサイトはhttps://sites.google .com/berkeley.edu/ma beで閲覧できます。

Offline Reinforcement Learning (RL) aims to extract near-optimal policies from imperfect offline data without additional environment interactions. Extracting policies from diverse offline datasets has the potential to expand the range of applicability of RL by making the training process safer, faster, and more streamlined. We investigate how to improve the performance of offline RL algorithms, its robustness to the quality of offline data, as well as its generalization capabilities. To this end, we introduce Offline Model-based RL with Adaptive Behavioral Priors (MABE). Our algorithm is based on the finding that dynamics models, which support within-domain generalization, and behavioral priors, which support cross-domain generalization, are complementary. When combined together, they substantially improve the performance and generalization of offline RL policies. In the widely studied D4RL offline RL benchmark, we find that MABE achieves higher average performance compared to prior model-free and model-based algorithms. In experiments that require cross-domain generalization, we find that MABE outperforms prior methods. Our website is available at https://sites.google .com/berkeley.edu/ma be .
翻訳日:2021-06-21 12:17:08 公開日:2021-06-18
# (参考訳) 自然度解析を用いた視覚立体視品質評価のためのマルチタスク畳み込みニューラルネットワーク [全文訳有]

A Multi-task convolutional neural network for blind stereoscopic image quality assessment using naturalness analysis ( http://arxiv.org/abs/2106.09303v2 )

ライセンス: CC BY 4.0
Salima Bourbia, Ayoub Karine, Aladine Chetouani, Mohammed El Hassouni(参考訳) 本稿では,新しいマルチタスク深層学習手法を用いた視覚ステレオ画像品質評価(NR-SIQA)の問題に対処する。 立体視の分野では、情報は両眼現象と同様に左右の視点の間でかなり分布する。 本研究では,これらの特徴を統合し,畳み込みニューラルネットワークによる参照のない立体画像の品質を推定する。 本手法は,ステレオ画像に適応した自然度解析に基づく特徴量予測と,その品質予測の2つのタスクを主課題とする。 前者、いわゆる補助タスクは、品質予測を改善するために、より堅牢で関連する機能を見つけることを目的としている。 そこで我々は,複雑なウェーブレット領域における自然シーン統計モデルを用いて自然性に基づく特徴量を計算する。 立体画像間の統計的依存関係を捉えることができる。 LIVE PHASE I と LIVE PHASE II のデータベース上で実験を行った。 その結果,最新技術との比較において,本手法の妥当性が示された。 私たちのコードはhttps://github.com/b ourbia-salima/multit ask-cnn-nrsiqa_2021で利用可能です。

This paper addresses the problem of blind stereoscopic image quality assessment (NR-SIQA) using a new multi-task deep learning based-method. In the field of stereoscopic vision, the information is fairly distributed between the left and right views as well as the binocular phenomenon. In this work, we propose to integrate these characteristics to estimate the quality of stereoscopic images without reference through a convolutional neural network. Our method is based on two main tasks: the first task predicts naturalness analysis based features adapted to stereo images, while the second task predicts the quality of such images. The former, so-called auxiliary task, aims to find more robust and relevant features to improve the quality prediction. To do this, we compute naturalness-based features using a Natural Scene Statistics (NSS) model in the complex wavelet domain. It allows to capture the statistical dependency between pairs of the stereoscopic images. Experiments are conducted on the well known LIVE PHASE I and LIVE PHASE II databases. The results obtained show the relevance of our method when comparing with those of the state-of-the-art. Our code is available online on https://github.com/B ourbia-Salima/multit ask-cnn-nrsiqa_2021.
翻訳日:2021-06-21 11:56:13 公開日:2021-06-18
# (参考訳) トレーニング中のニューラルネットワーク固有空間の性質と進化を探る [全文訳有]

Exploring the Properties and Evolution of Neural Network Eigenspaces during Training ( http://arxiv.org/abs/2106.09526v2 )

ライセンス: CC BY 4.0
Mats L. Richter, Leila Malihi, Anne-Kathrin Patricia Windler, Ulf Krumnack(参考訳) 本研究では,ロジスティック回帰プローブ \cite{probes} と飽和メトリック \cite{featurespace_saturat ion} を用いてニューラルネットワーク内の情報処理を探索する。 本研究では,ニューラルネットワークの過度なパラメータ化と過度パラメータ化の可能性を開放し,問題難易度とニューラルネットワーク能力が対角的な予測性能に影響を及ぼすことを示す。 さらに, 観察された効果は, \cite{featurespace_saturat ion} に記載された '‘tail pattern'' のような既報の病理パターンとは独立であることを示す。 最後に、飽和パターンがトレーニング中に早期に収束することを示し、分析中により早いサイクルタイムを可能にする。

In this work we explore the information processing inside neural networks using logistic regression probes \cite{probes} and the saturation metric \cite{featurespace_saturat ion}. We show that problem difficulty and neural network capacity affect the predictive performance in an antagonistic manner, opening the possibility of detecting over- and under-parameterizati on of neural networks for a given task. We further show that the observed effects are independent from previously reported pathological patterns like the ``tail pattern'' described in \cite{featurespace_saturat ion}. Finally we are able to show that saturation patterns converge early during training, allowing for a quicker cycle time during analysis
翻訳日:2021-06-21 11:47:18 公開日:2021-06-18
# (参考訳) XCiT: クロス共分散画像変換器 [全文訳有]

XCiT: Cross-Covariance Image Transformers ( http://arxiv.org/abs/2106.09681v2 )

ライセンス: CC BY 4.0
Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Herv\'e Jegou(参考訳) 自然言語処理の成功に続いて、トランスフォーマーは最近、コンピュータビジョンに多くの期待を示している。 変圧器に基づく自己注意操作は、すべてのトークン間の大域的な相互作用をもたらす。 単語やイメージパッチは、畳み込みの局所的な相互作用を超えて、柔軟な画像データのモデリングを可能にする。 しかし、この柔軟性は時間とメモリの2倍の複雑さを伴い、長いシーケンスや高解像度画像への応用を妨げる。 そこで我々は,キーとクエリの相互分散行列に基づいて対話を行うトークンではなく,機能チャネルをまたいだセルフアテンションの「移行」バージョンを提案する。 その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。 画像変換器(XCiT)はXCA上に構築されている。 従来の変圧器の精度と畳み込み構造の拡張性を組み合わせたものである。 本稿では,imagenet-1kにおける画像分類と自己教師付き特徴学習,cocoにおけるオブジェクト検出とインスタンスセグメンテーション,ade20kにおける意味セグメンテーションなど,複数の視覚ベンチマークで優れた結果を報告することにより,xcitの有効性と汎用性を検証する。

Following their success in natural language processing, transformers have recently shown much promise for computer vision. The self-attention operation underlying transformers yields global interactions between all tokens ,i.e. words or image patches, and enables flexible modelling of image data beyond the local interactions of convolutions. This flexibility, however, comes with a quadratic complexity in time and memory, hindering application to long sequences and high-resolution images. We propose a "transposed" version of self-attention that operates across feature channels rather than tokens, where the interactions are based on the cross-covariance matrix between keys and queries. The resulting cross-covariance attention (XCA) has linear complexity in the number of tokens, and allows efficient processing of high-resolution images. Our cross-covariance image transformer (XCiT) is built upon XCA. It combines the accuracy of conventional transformers with the scalability of convolutional architectures. We validate the effectiveness and generality of XCiT by reporting excellent results on multiple vision benchmarks, including image classification and self-supervised feature learning on ImageNet-1k, object detection and instance segmentation on COCO, and semantic segmentation on ADE20k.
翻訳日:2021-06-21 11:40:14 公開日:2021-06-18
# (参考訳) どれくらい低いのか - 低精度トレーニングにおけるエラーのトレーディングメモリ [全文訳有]

How Low Can We Go: Trading Memory for Error in Low-Precision Training ( http://arxiv.org/abs/2106.09686v2 )

ライセンス: CC0 1.0
Chengrun Yang, Ziyang Wu, Jerry Chee, Christopher De Sa, Madeleine Udell(参考訳) 低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。 しかし、私たちは貯金の代償を支払っている: 精度が低いとラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。 アプリケーションが成長するにつれて、ユーザは新しいモデルのトレーニングに使用する精度を選択する必要があり、チップメーカーは製造する精度を決定する必要がある。 これらの精度選択をハイパーパラメータチューニング問題として捉え,メモリとエラーのトレードオフを学ぶためにメタラーニングからアイデアを借用する。 本稿では,PEPPP(Pick the Perfect Precision)に対するPareto Estimationを提案する。 ネットワーク評価が限られている非支配的な構成(パレートフロンティア)を見つけるのに行列分解を用いる。 任意のメモリ予算に対して、エラーを最小限にする精度は、このフロンティアのポイントです。 実践者は、フロンティアを使ってメモリをエラーと交換し、目標に対して最適な精度を選択することができます。

Low-precision arithmetic trains deep learning models using less energy, less memory and less time. However, we pay a price for the savings: lower precision may yield larger round-off error and hence larger prediction error. As applications proliferate, users must choose which precision to use to train a new model, and chip manufacturers must decide which precisions to manufacture. We view these precision choices as a hyperparameter tuning problem, and borrow ideas from meta-learning to learn the tradeoff between memory and error. In this paper, we introduce Pareto Estimation to Pick the Perfect Precision (PEPPP). We use matrix factorization to find non-dominated configurations (the Pareto frontier) with a limited number of network evaluations. For any given memory budget, the precision that minimizes error is a point on this frontier. Practitioners can use the frontier to trade memory for error and choose the best precision for their goals.
翻訳日:2021-06-21 11:08:37 公開日:2021-06-18
# 実例難解なレンズによる深層学習

Deep Learning Through the Lens of Example Difficulty ( http://arxiv.org/abs/2106.09647v2 )

ライセンス: Link先を確認
Robert J. N. Baldock, Hartmut Maennel and Behnam Neyshabur(参考訳) ディープラーニングを理解するための既存の作業は、すべてのデータ依存情報を数個に圧縮する手段をしばしば採用している。 本研究では,個々の事例の役割に基づいた視点を採用する。 本稿では,与えられた入力の予測を行う際の計算困難度,すなわち(有効)予測深さの尺度を提案する。 広範な調査により,入力の予測深さとモデルの不確実性,信頼性,正確性,データポイントの学習速度との間に,驚くほど単純な関係が明らかになった。 さらに、難解な例を3つの解釈可能な群に分類し、これらの群が深層モデル内でどのように異なる処理を行うかを示し、この理解によって予測精度が向上することを示す。 初期の層は一般化し、後の層は記憶する; 初期の層はより早く収束し、ネットワークは簡単なデータと単純な関数を学習する。

Existing work on understanding deep learning often employs measures that compress all data-dependent information into a few numbers. In this work, we adopt a perspective based on the role of individual examples. We introduce a measure of the computational difficulty of making a prediction for a given input: the (effective) prediction depth. Our extensive investigation reveals surprising yet simple relationships between the prediction depth of a given input and the model's uncertainty, confidence, accuracy and speed of learning for that data point. We further categorize difficult examples into three interpretable groups, demonstrate how these groups are processed differently inside deep models and showcase how this understanding allows us to improve prediction accuracy. Insights from our study lead to a coherent view of a number of separately reported phenomena in the literature: early layers generalize while later layers memorize; early layers converge faster and networks learn easy data and simple functions first.
翻訳日:2021-06-21 10:48:58 公開日:2021-06-18
# FastAno: 時空間パッチ変換による高速異常検出

FastAno: Fast Anomaly Detection via Spatio-temporal Patch Transformation ( http://arxiv.org/abs/2106.08613v2 )

ライセンス: Link先を確認
Chaewon Park, MyeongAh Cho, Minhyeok Lee, Sangyoun Lee(参考訳) 監視ビデオの自動監視の必要性が高まっているため,映像異常検出が注目されている。 特に、予測に基づくアプローチは、トレーニングセットの通常のフレームで学習した後、テストセットの異常事象を含むフレームを予測することによって異常を検出する最も研究された方法の1つである。 しかしながら、事前訓練された光フローネットワークを使用することで計算コストが高まるか、異常を予測できる強力な生成能力があるため異常な状況を検出することができない。 これらの欠点に対処するために、通常のフレームキューブ内で不規則なパッチキューブを生成するために、空間回転変換(SRT)と時間混合変換(TMT)を提案する。 さらに,提案したパッチ変換はトレーニング段階でのみ使用されるので,推論時に高速に異常フレームを検出することができる。 提案手法は,3つの異常検出ベンチマークで評価され,競争精度が向上し,従来の処理を全て高速化した。

Video anomaly detection has gained significant attention due to the increasing requirements of automatic monitoring for surveillance videos. Especially, the prediction based approach is one of the most studied methods to detect anomalies by predicting frames that include abnormal events in the test set after learning with the normal frames of the training set. However, a lot of prediction networks are computationally expensive owing to the use of pre-trained optical flow networks, or fail to detect abnormal situations because of their strong generative ability to predict even the anomalies. To address these shortcomings, we propose spatial rotation transformation (SRT) and temporal mixing transformation (TMT) to generate irregular patch cuboids within normal frame cuboids in order to enhance the learning of normal features. Additionally, the proposed patch transformation is used only during the training phase, allowing our model to detect abnormal frames at fast speed during inference. Our model is evaluated on three anomaly detection benchmarks, achieving competitive accuracy and surpassing all the previous works in terms of speed.
翻訳日:2021-06-21 10:48:43 公開日:2021-06-18
# 変形駆動性seq2seq縦型腫瘍と放射線治療のための臓器リスク予測

Deformation Driven Seq2Seq Longitudinal Tumor and Organs-at-Risk Prediction for Radiotherapy ( http://arxiv.org/abs/2106.09076v2 )

ライセンス: Link先を確認
Donghoon Lee, Sadegh R Alam, Jue Jiang, Pengpeng Zhang, Saad Nadeem and Yu-Chi Hu(参考訳) 目的: 放射線療法は, 治療中の縦隔腫瘍およびOAR予測に固有の課題と臨床要件を提示する。 これらの課題は腫瘍炎症・浮腫・放射線による臓器形状の変化である一方、臨床要件は、治療前画像情報と適応放射線治療における毒性評価との関連において、ロールベースで予測を更新するための入出力シーケンスタイムポイントの柔軟性と全ての予測の接地を要求する。 方法: 上記の課題に対処し, 臨床要件を満たすために, 個別の時間点と参照前処理/計画CT間の一連の変形ベクトル場(DVF)を用いて, 将来的な解剖学的変形と腫瘍量の変化, および重要なOARを用いた, 畳み込み長短期記憶(ConvLSTM)に基づく新しい3Dシークエンス・ツー・シーケンスモデルを提案する。 DICE係数と相互情報量を用いたトレーニングデータのサブセットにハイパーパラメータ最適化を適用することにより、高品質なDVFトレーニングデータを生成する。 2つの放射線治療データセット(手作業による前・中・後治療ct28例)と内部非小細胞肺癌データセット(手作業による計画ctと週6回のcbct)について検証した。 結果: dvf表現とスキップ接続の使用は,従来の画像表現を用いたconvlstm予測のぼやけた問題を克服する。 4週目,5週目,6週目における肺GTV予測におけるDICEの平均偏差は0.83$\pm$0.09,0.82$\ pm$0.08,0.81$\pm$0.1 0であり,治療後副耳下腺腫および対側耳下腺腫では0.81$\pm$0.06,0.85$\ pm$0.02であった。

Purpose: Radiotherapy presents unique challenges and clinical requirements for longitudinal tumor and organ-at-risk (OAR) prediction during treatment. The challenges include tumor inflammation/edema and radiation-induced changes in organ geometry, whereas the clinical requirements demand flexibility in input/output sequence timepoints to update the predictions on rolling basis and the grounding of all predictions in relationship to the pre-treatment imaging information for response and toxicity assessment in adaptive radiotherapy. Methods: To deal with the aforementioned challenges and to comply with the clinical requirements, we present a novel 3D sequence-to-sequence model based on Convolution Long Short Term Memory (ConvLSTM) that makes use of series of deformation vector fields (DVF) between individual timepoints and reference pre-treatment/planni ng CTs to predict future anatomical deformations and changes in gross tumor volume as well as critical OARs. High-quality DVF training data is created by employing hyper-parameter optimization on the subset of the training data with DICE coefficient and mutual information metric. We validated our model on two radiotherapy datasets: a publicly available head-and-neck dataset (28 patients with manually contoured pre-, mid-, and post-treatment CTs), and an internal non-small cell lung cancer dataset (63 patients with manually contoured planning CT and 6 weekly CBCTs). Results: The use of DVF representation and skip connections overcomes the blurring issue of ConvLSTM prediction with the traditional image representation. The mean and standard deviation of DICE for predictions of lung GTV at week 4, 5, and 6 were 0.83$\pm$0.09, 0.82$\pm$0.08, and 0.81$\pm$0.10, respectively, and for post-treatment ipsilateral and contralateral parotids, were 0.81$\pm$0.06 and 0.85$\pm$0.02.
翻訳日:2021-06-21 10:48:25 公開日:2021-06-18
# 体積医用画像分割のための位置コントラスト学習

Positional Contrastive Learning for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2106.09157v2 )

ライセンス: Link先を確認
Dewen Zeng, Yawen Wu, Xinrong Hu, Xiaowei Xu, Haiyun Yuan, Meiping Huang, Jian Zhuang, Jingtong Hu and Yiyu Shi(参考訳) ディープラーニングの成功は、大きなラベル付きトレーニングセットの可用性に大きく依存する。 しかし、厳格なプライバシー上の懸念と高価なラベル付け作業のため、医療画像領域で大きなラベル付きデータセットを得るのは難しい。 教師なし学習技術であるコントラスト学習は、ラベルのないデータから画像レベルの表現を学習する際に強力であることが証明されている。 学習したエンコーダを転送したり微調整したりすることで、限られたラベルで下流タスクのパフォーマンスを向上させることができる。 コントラスト学習における重要なステップは、コントラストデータペアの生成である。これは自然画像の分類には比較的簡単であるが、データセット全体にわたって同じ組織や臓器が存在するため、医療画像のセグメンテーションには極めて困難である。 その結果、医用画像セグメンテーションに適用すると、ほとんどの最先端のコントラスト学習フレームワークは必然的に多くの偽陰性ペアを導入し、結果として劣化したセグメンテーション品質をもたらす。 この問題に対処するために,ボリューム医療画像の位置情報を活用することで,コントラストデータペアを生成する新しい位置コントラスト学習(PCL)フレームワークを提案する。 CTとMRIのデータセットを用いた実験結果から,提案手法は半教師付き設定と移動学習の両方において既存の手法と比較して,セグメンテーション性能を大幅に向上できることが示された。

The success of deep learning heavily depends on the availability of large labeled training sets. However, it is hard to get large labeled datasets in medical image domain because of the strict privacy concern and costly labeling efforts. Contrastive learning, an unsupervised learning technique, has been proved powerful in learning image-level representations from unlabeled data. The learned encoder can then be transferred or fine-tuned to improve the performance of downstream tasks with limited labels. A critical step in contrastive learning is the generation of contrastive data pairs, which is relatively simple for natural image classification but quite challenging for medical image segmentation due to the existence of the same tissue or organ across the dataset. As a result, when applied to medical image segmentation, most state-of-the-art contrastive learning frameworks inevitably introduce a lot of false-negative pairs and result in degraded segmentation quality. To address this issue, we propose a novel positional contrastive learning (PCL) framework to generate contrastive data pairs by leveraging the position information in volumetric medical images. Experimental results on CT and MRI datasets demonstrate that the proposed PCL method can substantially improve the segmentation performance compared to existing methods in both semi-supervised setting and transfer learning setting.
翻訳日:2021-06-21 10:47:42 公開日:2021-06-18
# atrial general: domain generalization for left atrial segmentation of multi-center lge mri

AtrialGeneral: Domain Generalization for Left Atrial Segmentation of Multi-Center LGE MRIs ( http://arxiv.org/abs/2106.08727v2 )

ライセンス: Link先を確認
Lei Li and Veronika A. Zimmer and Julia A. Schnabel and Xiahai Zhuang(参考訳) 後期gadolinium enhanced magnetic resonance imaging(lge mri)からの左心房分画は、心房細動の治療計画に必要な重要なステップである。 しかし, 画像品質の低さ, LA形状のばらつき, LA境界の不明瞭さにより, LGE MRIからの自動LA分割は依然として困難である。 ディープラーニングベースの手法は、有望なLAセグメンテーション結果を提供することができるが、しばしば、異なるスキャナやサイトからのデータなど、目に見えない領域に一般化する。 本研究では,画像品質の異なる複数の中心から210個のLGEMRIを収集する。 LAセグメンテーションタスクにおけるモデルのドメイン一般化能力を評価するために,マルチセンターLGE MRIからLAセグメンテーションによく使われる4つのセグメンテーションネットワークを用いた。 さらに, ヒストグラムマッチング, 相互情報に基づく不整合表現, ランダムなスタイル転送の3つの領域一般化戦略について検討し, 単純なヒストグラムマッチングが最も効果的であることを示した。

Left atrial (LA) segmentation from late gadolinium enhanced magnetic resonance imaging (LGE MRI) is a crucial step needed for planning the treatment of atrial fibrillation. However, automatic LA segmentation from LGE MRI is still challenging, due to the poor image quality, high variability in LA shapes, and unclear LA boundary. Though deep learning-based methods can provide promising LA segmentation results, they often generalize poorly to unseen domains, such as data from different scanners and/or sites. In this work, we collect 210 LGE MRIs from different centers with different levels of image quality. To evaluate the domain generalization ability of models on the LA segmentation task, we employ four commonly used semantic segmentation networks for the LA segmentation from multi-center LGE MRIs. Besides, we investigate three domain generalization strategies, i.e., histogram matching, mutual information based disentangled representation, and random style transfer, where a simple histogram matching is proved to be most effective.
翻訳日:2021-06-21 10:47:19 公開日:2021-06-18
# 脳ネットワークの説明可能な分類のための偽グラフ

Counterfactual Graphs for Explainable Classification of Brain Networks ( http://arxiv.org/abs/2106.08640v2 )

ライセンス: Link先を確認
Carlo Abrate and Francesco Bonchi(参考訳) 正常な脳と機能不全な脳を区別できる訓練用グラフ分類器は、特定の認知表現型に関連するサブ構造を特定するのに役立つ。 しかし、グラフ分類器の単なる予測能力は、特定の精神疾患を診断するためのツールが豊富にある神経科学者に限定されている。 重要なのはモデルの解釈であり、新しい洞察と新しい仮説を提供することができる。 本稿では,ブラックボックスグラフ分類器の局所的なポストホックな説明を生成する方法として,emph{counterfactual graphs}を提案する。 グラフとブラックボックスが与えられたとき、カウンターファクトは元のグラフと高い構造的類似性を持つグラフであり、異なるクラスのブラックボックスによって分類される。 本稿では,反実グラフ探索のためのいくつかの戦略を提案し,実証的に比較する。 既知の最適カウンターファクチュアを持つホワイトボックス分類器に対する実験は、ヒューリスティックではあるが、最適と非常に近い反ファクチュアを生成することができることを示した。 最後に,様々なブラックボックス分類器の挙動を正しく把握し,神経科学者に興味深い洞察を与えるために,反事実グラフを用いてグローバル説明を構築する方法を示す。

Training graph classifiers able to distinguish between healthy brains and dysfunctional ones, can help identifying substructures associated to specific cognitive phenotypes. However, the mere predictive power of the graph classifier is of limited interest to the neuroscientists, which have plenty of tools for the diagnosis of specific mental disorders. What matters is the interpretation of the model, as it can provide novel insights and new hypotheses. In this paper we propose \emph{counterfactual graphs} as a way to produce local post-hoc explanations of any black-box graph classifier. Given a graph and a black-box, a counterfactual is a graph which, while having high structural similarity with the original graph, is classified by the black-box in a different class. We propose and empirically compare several strategies for counterfactual graph search. Our experiments against a white-box classifier with known optimal counterfactual, show that our methods, although heuristic, can produce counterfactuals very close to the optimal one. Finally, we show how to use counterfactual graphs to build global explanations correctly capturing the behaviour of different black-box classifiers and providing interesting insights for the neuroscientists.
翻訳日:2021-06-21 10:47:01 公開日:2021-06-18
# quantumfed:協調的な量子トレーニングのための連合学習フレームワーク

QuantumFed: A Federated Learning Framework for Collaborative Quantum Training ( http://arxiv.org/abs/2106.09109v2 )

ライセンス: Link先を確認
Qi Xia, Qun Li(参考訳) 量子コンピューティングとディープラーニングの急速な発展により、量子ニューラルネットワークは最近大きな注目を集めている。 量子コンピューティングのパワーを活用することで、ディープニューラルネットワークは古典的な機械学習における計算能力の限界を克服することができる。 しかしながら、複数の量子マシンが各マシンのローカルデータを使用してグローバルモデルをトレーニングしたい場合、データを1台のマシンにコピーしてモデルをトレーニングするのは非常に困難である。 したがって、協調的な量子ニューラルネットワークフレームワークが必要である。 本稿では,複数の量子ノードを持つ量子連合学習フレームワークであるQuantumFedを提案するために,フェデレート学習のコアアイデアを借用する。 実験では,フレームワークの実現可能性と堅牢性を示す。

With the fast development of quantum computing and deep learning, quantum neural networks have attracted great attention recently. By leveraging the power of quantum computing, deep neural networks can potentially overcome computational power limitations in classic machine learning. However, when multiple quantum machines wish to train a global model using the local data on each machine, it may be very difficult to copy the data into one machine and train the model. Therefore, a collaborative quantum neural network framework is necessary. In this article, we borrow the core idea of federated learning to propose QuantumFed, a quantum federated learning framework to have multiple quantum nodes with local quantum data train a mode together. Our experiments show the feasibility and robustness of our framework.
翻訳日:2021-06-21 09:09:38 公開日:2021-06-18
# Mungojerrie: 線形時間目的の強化学習

Mungojerrie: Reinforcement Learning of Linear-Time Objectives ( http://arxiv.org/abs/2106.09161v2 )

ライセンス: Link先を確認
Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi, and Dominik Wojtczak(参考訳) 強化学習は、システムの事前知識なしでコントローラを合成する。 各タイムステップに報酬が与えられる。 コントローラは、これらの報酬の割引金額を最適化します。 この種のアルゴリズムを適用するには、通常手動で行う報酬体系を設計する必要がある。 設計者は意図を正確に捉えなければならない。 これは自明ではないかもしれないし、エラーを起こしやすい。 この手動プログラミングの代替として、アセンブリで直接プログラミングするのと同様に、形式言語で目的を指定し、報酬スキームに"コンパイル"することが挙げられる。 Mungojerrie (https://plv.colorad o.edu/mungojerrie/)は、有限モデル上の$\omega$-regularの目的に対する報酬スキームをテストするツールである。 このツールは強化学習アルゴリズムと確率論的モデルチェッカーを含む。 MungojerrieはPRISMで指定されたモデルとHOAで指定された$\omega$-automataをサポートする。

Reinforcement learning synthesizes controllers without prior knowledge of the system. At each timestep, a reward is given. The controllers optimize the discounted sum of these rewards. Applying this class of algorithms requires designing a reward scheme, which is typically done manually. The designer must ensure that their intent is accurately captured. This may not be trivial, and is prone to error. An alternative to this manual programming, akin to programming directly in assembly, is to specify the objective in a formal language and have it "compiled" to a reward scheme. Mungojerrie (https://plv.colorad o.edu/mungojerrie/) is a tool for testing reward schemes for $\omega$-regular objectives on finite models. The tool contains reinforcement learning algorithms and a probabilistic model checker. Mungojerrie supports models specified in PRISM and $\omega$-automata specified in HOA.
翻訳日:2021-06-21 09:09:27 公開日:2021-06-18