このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210617となっている論文です。

PDF登録状況(公開日: 20210617)

TitleAuthorsAbstract論文公表日・翻訳日
# se-md:2d画像からポイントクラウドを生成するためのシングルエンコーダマルチデコーダディープネットワーク

SE-MD: A Single-encoder multiple-decoder deep network for point cloud generation from 2D images ( http://arxiv.org/abs/2106.15325v1 )

ライセンス: Link先を確認
Abdul Mueed Hafiz, Rouf Ul Alam Bhat, Shabir Ahmad Parah, M. Hassaballah(参考訳) 単一の2D RGB画像から3Dモデルを生成することは、困難で活発に研究されているコンピュータビジョンタスクである。 従来のネットワークアーキテクチャを用いた様々な手法が提案されている。 しかし、研究成果は限られており、非効率な3d表現フォーマットの使用、弱い3dモデル生成バックボーン、密集点雲の生成不能、密集点雲生成のための後処理の依存、rgb画像におけるシルエットへの依存など様々な問題がある。 本稿では、ネットワークアーキテクチャにおける並列化の概念を用いて、その効率的で堅牢でシンプルなモデルにより、現場の芸術の状態を向上する2次元RGB画像からポイントクラウドへの変換手法を提案する。 ポイントクラウドの効率的でリッチな3D表現だけでなく、一般的な問題に対処するために、新しく堅牢なポイントクラウド生成バックボーンも使用しています。 これはシングルエンコーダの多重デコーダディープネットワークアーキテクチャを使用し、各デコーダは一定の固定視点を生成する。 これに続き、すべての視点を融合して濃密な点雲を生成する。 この技法について様々な実験を行い、その性能を他の最先端の技術と比較し、印象的な性能向上を示す。 コードはhttps://github.com/m ueedhafiz1982/で入手できる。

3D model generation from single 2D RGB images is a challenging and actively researched computer vision task. Various techniques using conventional network architectures have been proposed for the same. However, the body of research work is limited and there are various issues like using inefficient 3D representation formats, weak 3D model generation backbones, inability to generate dense point clouds, dependence of post-processing for generation of dense point clouds, and dependence on silhouettes in RGB images. In this paper, a novel 2D RGB image to point cloud conversion technique is proposed, which improves the state of art in the field due to its efficient, robust and simple model by using the concept of parallelization in network architecture. It not only uses the efficient and rich 3D representation of point clouds, but also uses a novel and robust point cloud generation backbone in order to address the prevalent issues. This involves using a single-encoder multiple-decoder deep network architecture wherein each decoder generates certain fixed viewpoints. This is followed by fusing all the viewpoints to generate a dense point cloud. Various experiments are conducted on the technique and its performance is compared with those of other state of the art techniques and impressive gains in performance are demonstrated. Code is available at https://github.com/m ueedhafiz1982/
翻訳日:2021-07-04 19:43:35 公開日:2021-06-17
# 植物データにおける外れ値と異常値の事前処理:真空蒸留装置の方法論と事例研究

Pre-treatment of outliers and anomalies in plant data: Methodology and case study of a Vacuum Distillation Unit ( http://arxiv.org/abs/2106.14641v1 )

ライセンス: Link先を確認
Kamil Oster, Stefan G\"uttel, Jonathan L. Shapiro, Lu Chen, Megan Jobson(参考訳) データ前処理は、データ品質を改善する上で重要な役割を果たすため、生データから正確な情報を抽出することができる。 一般的に使用されるデータ前処理技法の1つは、outliers detectionである。 いわゆる3${\sigma}$メソッドは、外れ値を特定するための一般的なプラクティスである。 原稿に示されているように、全ての異常値が識別されないため、データの全体的な統計値が歪む可能性がある。 この問題は、さらなるデータ分析に大きな影響を与え、予測モデルの精度を低下させる可能性がある。 外れ値検出には様々なテクニックがあるが、理論的な作業は別として、いずれもケーススタディの作業が必要である。 短期的(誤ったデータ、ノイズ)と長期的(例えば)の2種類が検討された。 長期間の故障)。 使用したデータは、アジアの製油所の真空蒸留ユニット(VDU)から採取され、40個の物理センサー(温度、圧力、流量)が含まれていた。 3${\sigma}$しきい値の修正手法を用いて,短期値,すなわち,短期値の同定を行った。 エンサーデータは変化点によって決定されるチャンクに分割され、近正規分布を表すチャンクごとに3${\sigma}$しきい値が計算される。 我々は、3${\sigma}$メソッドが、時系列全体に適用される3${\sigma}$メソッドよりも、短期の外れ値検出により良いアプローチを提供することを示した。 それでも、これは長期の外れ値(データ内の別の状態を表すことができる)ではうまく機能しない。 この場合、Hotellingの$T^2$統計を用いた主成分分析(PCA)を用いて、長期的なアウトリーチを同定した。 pcaで得られた結果はdbscanクラスタリング法で得られた。 また,PCA法の整合性と正確性を支持するDBSCANにより,アウトリーチ(PCA法で視覚的に明確かつ正しく検出された)を正しく同定した。

Data pre-treatment plays a significant role in improving data quality, thus allowing extraction of accurate information from raw data. One of the data pre-treatment techniques commonly used is outliers detection. The so-called 3${\sigma}$ method is a common practice to identify the outliers. As shown in the manuscript, it does not identify all outliers, resulting in possible distortion of the overall statistics of the data. This problem can have a significant impact on further data analysis and can lead to reduction in the accuracy of predictive models. There is a plethora of various techniques for outliers detection, however, aside from theoretical work, they all require case study work. Two types of outliers were considered: short-term (erroneous data, noise) and long-term outliers (e.g. malfunctioning for longer periods). The data used were taken from the vacuum distillation unit (VDU) of an Asian refinery and included 40 physical sensors (temperature, pressure and flow rate). We used a modified method for 3${\sigma}$ thresholds to identify the short-term outliers, i.e. ensors data are divided into chunks determined by change points and 3${\sigma}$ thresholds are calculated within each chunk representing near-normal distribution. We have shown that piecewise 3${\sigma}$ method offers a better approach to short-term outliers detection than 3${\sigma}$ method applied to the entire time series. Nevertheless, this does not perform well for long-term outliers (which can represent another state in the data). In this case, we used principal component analysis (PCA) with Hotelling's $T^2$ statistics to identify the long-term outliers. The results obtained with PCA were subject to DBSCAN clustering method. The outliers (which were visually obvious and correctly detected by the PCA method) were also correctly identified by DBSCAN which supported the consistency and accuracy of the PCA method.
翻訳日:2021-07-04 19:40:18 公開日:2021-06-17
# (参考訳) Sphynx: プライベート推論のためのReLU効率の良いネットワーク設計 [全文訳有]

Sphynx: ReLU-Efficient Network Design for Private Inference ( http://arxiv.org/abs/2106.11755v1 )

ライセンス: CC BY-SA 4.0
Minsu Cho, Zahra Ghodsi, Brandon Reagen, Siddharth Garg, Chinmay Hegde(参考訳) ディープラーニングの出現には、ユーザのデータとサービスプロバイダのモデルに関するプライバシーの懸念が伴っている。 プライベート推論(pi)に注目し、サービスプロバイダのモデルを使用して、ユーザのデータサンプルで推論を行うことを目標としています。 ディープネットワークのための既存のPIメソッドは、機能低下の少ない暗号的にセキュアな推論を可能にするが、主に非線形ネットワーク操作(ReLUなど)によって引き起こされる、深刻なレイテンシコストを発生させる。 本稿では,コンボリューションセル設計のためのマイクロサーチ戦略に基づくネットワーク設計手法であるsphynxを提案する。 Sphynx は CIFAR-100 上のすべての既存のプライベート推論手法に対して Pareto の優位性を達成している。 また,Tiny-ImageNetとImageNetの暗号的プライベート推論をサポートする大規模ネットワークを設計する。

The emergence of deep learning has been accompanied by privacy concerns surrounding users' data and service providers' models. We focus on private inference (PI), where the goal is to perform inference on a user's data sample using a service provider's model. Existing PI methods for deep networks enable cryptographically secure inference with little drop in functionality; however, they incur severe latency costs, primarily caused by non-linear network operations (such as ReLUs). This paper presents Sphynx, a ReLU-efficient network design method based on micro-search strategies for convolutional cell design. Sphynx achieves Pareto dominance over all existing private inference methods on CIFAR-100. We also design large-scale networks that support cryptographically private inference on Tiny-ImageNet and ImageNet.
翻訳日:2021-06-27 09:37:01 公開日:2021-06-17
# (参考訳) Evo* 2021 -- Late-Breaking Abstracts Volume

Evo* 2021 -- Late-Breaking Abstracts Volume ( http://arxiv.org/abs/2106.11804v1 )

ライセンス: CC BY-SA 4.0
A.M. Mora and A.I. Esparcia-Alc\'azar(参考訳) 2021年4月7日から9日まで、Evo* 2021会議に提出されたレイトブレーキング抽象書の巻頭はオンラインで公開されている。 これらの論文は, バイオインスパイアド・メソッド(主に進化的計算)の異なるアプローチを様々な問題に適用するための研究と予備的な成果を提示する。

Volume with the Late-Breaking Abstracts submitted to the Evo* 2021 Conference, held online from 7 to 9 of April 2021. These papers present ongoing research and preliminary results investigating on the application of different approaches of Bioinspired Methods (mainly Evolutionary Computation) to different problems, most of them real world ones.
翻訳日:2021-06-27 09:14:57 公開日:2021-06-17
# 条件付きVAEを用いたダンジョンとプラットフォームレベルのブレンドと生成

Dungeon and Platformer Level Blending and Generation using Conditional VAEs ( http://arxiv.org/abs/2106.12692v1 )

ライセンス: Link先を確認
Anurag Sarkar, Seth Cooper(参考訳) 変分オートエンコーダ (VAE) は、異なるゲームからレベルを生成し、ブレンディングするために、以前の作業で使われてきた。 これらのモデルに制御性を加えるために、条件付きVAE(CVAE)が最近示され、所望のコンテンツを指定するラベルを使って修正できる出力を生成することができた。 CVAEを使用してプラットフォームレベルとダンジョンレベルを生成し、これらのジャンルをブレンドすることで、これらの作業を拡張する。 CVAEはダンジョンのドア配置とプラットフォームレベルの進行方向を確実に制御できることを示す。 したがって, 適切なラベルを用いることで, ダンジョン全体と相互接続された部屋とセグメントのプラットフォームレベル, ダンジョンとプラットフォームをブレンドするレベルを生成することができる。 The Legend of Zelda, Metroid, Mega Man, Lode Runnerを使って,私たちのアプローチを実演します。

Variational autoencoders (VAEs) have been used in prior works for generating and blending levels from different games. To add controllability to these models, conditional VAEs (CVAEs) were recently shown capable of generating output that can be modified using labels specifying desired content, albeit working with segments of levels and platformers exclusively. We expand these works by using CVAEs for generating whole platformer and dungeon levels, and blending levels across these genres. We show that CVAEs can reliably control door placement in dungeons and progression direction in platformer levels. Thus, by using appropriate labels, our approach can generate whole dungeons and platformer levels of interconnected rooms and segments respectively as well as levels that blend dungeons and platformers. We demonstrate our approach using The Legend of Zelda, Metroid, Mega Man and Lode Runner.
翻訳日:2021-06-27 09:07:23 公開日:2021-06-17
# 進化的記号回帰ネットワークに基づく自然流の縦分散係数の解釈可能な予測モデル

An interpretable prediction model for longitudinal dispersion coefficient in natural streams based on evolutionary symbolic regression network ( http://arxiv.org/abs/2106.11026v1 )

ライセンス: Link先を確認
Yifeng Zhao, Zicheng Liu, Pei Zhang, Stan Z. Li, S.A. Galindo-Torres(参考訳) 自然流の分散をよりよく理解するには、長手分散係数(LDC)の知識が必要である。 LDCの予測には様々な方法が提案されている。 これらの研究は分析学、統計学、ML駆動研究の3つのタイプに分類することができる。 しかし、その総合的な評価はまだ不十分である。 本稿では,まずこれらの手法の詳細な解析を行い,その欠陥を明らかにする。 これは世界中の660の油圧およびチャネル特性のサンプルからなる広範囲なデータベース上で実行される。 テストセット選択のためのSSMD(Subset Selection of Maxim Dissimilarity)と、外れ値の除去のためのIQR(Inter Quartile Range)を配置することにより、利用データの信頼性と代表性を向上させる。 ml-driven method > the statistical method > the analysis method。 暗黙的なML駆動法は本質的にブラックボックスであるのに対し、明示的なML駆動法はLCCの予測により多くの可能性を持っている。 さらに、オーバーフィッティングは既存のモデルでは普遍的な問題である。 これらのモデルも固定パラメータの組み合わせに悩まされている。 高い性能でLCC予測の解釈可能なモデルを確立するため,進化的記号回帰ネットワーク(ESRN)と呼ばれる新しい記号回帰手法を設計する。 遺伝的アルゴリズムとニューラルネットワークの組み合わせである。 オーバーフィッティングを避け、より多くのパラメータの組み合わせを探索するために戦略が導入される。 その結果,ESRNモデルは既存のシンボルモデルよりも性能が優れていることがわかった。 提案モデルは,パラメータの低要件(wとU*のみが要求される)の利点から,実用的な工学的問題に適している。 フィールドテストを実行できない、あるいは限られたフィールド情報を得ることができる状況に対して、説得力のあるソリューションを提供することができる。

A better understanding of dispersion in natural streams requires knowledge of longitudinal dispersion coefficient(LDC). Various methods have been proposed for predictions of LDC. Those studies can be grouped into three types: analytical, statistical and ML-driven researches(Implicit and explicit). However, a comprehensive evaluation of them is still lacking. In this paper, we first present an in-depth analysis of those methods and find out their defects. This is carried out on an extensive database composed of 660 samples of hydraulic and channel properties worldwide. The reliability and representativeness of utilized data are enhanced through the deployment of the Subset Selection of Maximum Dissimilarity(SSMD) for testing set selection and the Inter Quartile Range(IQR) for removal of the outlier. The evaluation reveals the rank of those methods as: ML-driven method > the statistical method > the analytical method. Whereas implicit ML-driven methods are black-boxes in nature, explicit ML-driven methods have more potential in prediction of LDC. Besides, overfitting is a universal problem in existing models. Those models also suffer from a fixed parameter combination. To establish an interpretable model for LDC prediction with higher performance, we then design a novel symbolic regression method called evolutionary symbolic regression network(ESRN). It is a combination of genetic algorithms and neural networks. Strategies are introduced to avoid overfitting and explore more parameter combinations. Results show that the ESRN model has superiorities over other existing symbolic models in performance. The proposed model is suitable for practical engineering problems due to its advantage in low requirement of parameters (only w and U* are required). It can provide convincing solutions for situations where the field test cannot be carried out or limited field information can be obtained.
翻訳日:2021-06-22 15:10:58 公開日:2021-06-17
# (参考訳) 振幅ニューラルネットワークを用いたハドロン衝突体における二光子生成の最適化シミュレーション

Optimising simulations for diphoton production at hadron colliders using amplitude neural networks ( http://arxiv.org/abs/2106.09474v1 )

ライセンス: CC BY 4.0
Joseph Aylett-Bullock, Simon Badger, Ryan Moodie(参考訳) 機械学習技術は、イベント生成とシミュレーションを劇的に最適化する可能性がある。 我々は,高多重散乱過程における近似行列要素に対するニューラルネットワークの利用について検討を続けている。 グルーオン核融合によるループ誘起二光子生成の事例に注目し,ハドロン衝突型加速器観測に応用可能な現実的なシミュレーション手法を開発した。 ニューラルネットワークは、NJet C++ライブラリで実装された1ループ振幅を使用してトレーニングされ、Sherpa Monte Carloイベントジェネレータにインターフェースされる。 また,訓練されたネットワークは,位相空間に影響を及ぼす運動的切断やニューラルネットワークシミュレーションの信頼性を変化させる際にどのように振る舞うかを考察する。

Machine learning technology has the potential to dramatically optimise event generation and simulations. We continue to investigate the use of neural networks to approximate matrix elements for high-multiplicity scattering processes. We focus on the case of loop-induced diphoton production through gluon fusion and develop a realistic simulation method that can be applied to hadron collider observables. Neural networks are trained using the one-loop amplitudes implemented in the NJet C++ library and interfaced to the Sherpa Monte Carlo event generator where we perform a detailed study for $2\to3$ and $2\to4$ scattering problems. We also consider how the trained networks perform when varying the kinematic cuts effecting the phase space and the reliability of the neural network simulations.
翻訳日:2021-06-22 04:20:29 公開日:2021-06-17
# (参考訳) ロボット群に基づく建設作業の最適化 [全文訳有]

Optimizing robotic swarm based construction tasks ( http://arxiv.org/abs/2106.09749v1 )

ライセンス: CC BY 4.0
Teshan Liyanage, Subha Fernando(参考訳) アリ、シロアリ、ミツバチのような自然界の社会昆虫は、非常に効率的なプロセスでコロニーを共同で構築する。 これらの群れでは、各昆虫は個々の個体の冗長かつ並列な行動を示す建設タスクに寄与する。 しかし、swarmの動作をロボット工学に適応させることは、既存のswarmロボティクス構築へのアプローチの限界のために、広く使われるほど大きなスケールで現実世界にはまだ実現していない。 本稿では,既存のSwarm構築手法を組み合わせて,与えられた2次元形状を最適化的に構築可能なSwarmロボットシステムを提案する。

Social insects in nature such as ants, termites and bees construct their colonies collaboratively in a very efficient process. In these swarms, each insect contributes to the construction task individually showing redundant and parallel behavior of individual entities. But the robotics adaptations of these swarm's behaviors haven't yet made it to the real world at a large enough scale of commonly being used due to the limitations in the existing approaches to the swarm robotics construction. This paper presents an approach that combines the existing swarm construction approaches which results in a swarm robotic system, capable of constructing a given 2 dimensional shape in an optimized manner.
翻訳日:2021-06-22 04:19:33 公開日:2021-06-17
# (参考訳) CIRA Guide to Custom Loss Functions for Neural Networks in Environmental Sciences -- Version 1

CIRA Guide to Custom Loss Functions for Neural Networks in Environmental Sciences -- Version 1 ( http://arxiv.org/abs/2106.09757v1 )

ライセンス: CC BY 4.0
Imme Ebert-Uphoff, Ryan Lagerquist, Kyle Hilburn, Yoonjin Lee, Katherine Haynes, Jason Stock, Christina Kumler, and Jebb Q. Stewart(参考訳) ニューラルネットワークは環境科学の応用でますます使われている。 さらに、損失関数を最小化することでニューラルネットワークモデルを訓練し、正確に最適化されているものを決定するため、環境科学応用において損失関数を極めて慎重に選択することが重要である。 標準損失関数は環境科学のすべてのニーズをカバーするものではないため、科学者が独自の損失関数を開発することが重要であり、空間モデル検証のために開発されたものを含め、環境科学で既に開発された古典的なパフォーマンス対策の多くを実行することができる。 しかしながら、カスタム損失関数開発の基礎を包括的にカバーする資源は少なく、環境科学者のニーズに焦点を絞った知識が最善のものにはなりません。 本論文は,環境科学応用を対象としたカスタム損失関数の書き方に関するガイドを提供することで,このギャップを埋めようとしている。 トピックには、カスタム損失関数を書く基本、共通の落とし穴、損失関数で使用する関数、損失関数としての分数スキルスコアなどの例、物理的制約を組み込む方法、離散的およびソフトな離散化、焦点、堅牢、適応的損失といった概念が含まれる。 KerasとTensorFlowバックエンドを備えたPythonのこのガイドには現在サンプルが提供されているが、基本的な概念はPythonとPyTorchのような他の環境にも適用される。 同様に、ここで提供されるサンプル損失関数は気象学のものであるが、これらはカスタム損失関数の作り方の一例にすぎない。 環境科学の他の分野は、例えば空間予測を効果的に評価するためのカスタム損失関数に対して非常に類似したニーズを持ち、ここで議論される概念も適用できる。 すべてのコードサンプルはGitHubリポジトリで提供される。

Neural networks are increasingly used in environmental science applications. Furthermore, neural network models are trained by minimizing a loss function, and it is crucial to choose the loss function very carefully for environmental science applications, as it determines what exactly is being optimized. Standard loss functions do not cover all the needs of the environmental sciences, which makes it important for scientists to be able to develop their own custom loss functions so that they can implement many of the classic performance measures already developed in environmental science, including measures developed for spatial model verification. However, there are very few resources available that cover the basics of custom loss function development comprehensively, and to the best of our knowledge none that focus on the needs of environmental scientists. This document seeks to fill this gap by providing a guide on how to write custom loss functions targeted toward environmental science applications. Topics include the basics of writing custom loss functions, common pitfalls, functions to use in loss functions, examples such as fractions skill score as loss function, how to incorporate physical constraints, discrete and soft discretization, and concepts such as focal, robust, and adaptive loss. While examples are currently provided in this guide for Python with Keras and the TensorFlow backend, the basic concepts also apply to other environments, such as Python with PyTorch. Similarly, while the sample loss functions provided here are from meteorology, these are just examples of how to create custom loss functions. Other fields in the environmental sciences have very similar needs for custom loss functions, e.g., for evaluating spatial forecasts effectively, and the concepts discussed here can be applied there as well. All code samples are provided in a GitHub repository.
翻訳日:2021-06-22 04:14:03 公開日:2021-06-17
# (参考訳) ユニバーサルカノニカルマップによる対象カテゴリ間の関係の発見 [全文訳有]

Discovering Relationships between Object Categories via Universal Canonical Maps ( http://arxiv.org/abs/2106.09758v1 )

ライセンス: CC BY 4.0
Natalia Neverova, Artsiom Sanakoyeu, Patrick Labatut, David Novotny, Andrea Vedaldi(参考訳) 変形可能なオブジェクトの複数カテゴリの幾何学を共同で学習する問題に取り組む。 近年の研究では、関連する対象のいくつかのカテゴリについて、統一的な姿勢予測子を学習できることが示されている。 しかし、そのようなモデルのトレーニングには、カテゴリー間の対応を手動で初期化する必要がある。 これは準最適であり、結果として得られるモデルは個々のカテゴリが学習されると正しい対応を維持することができない。 本稿では,改良された対応文を,カテゴリーに固有の密接なポーズ予測の自然な副産物として自動的に学習できることを示す。 これを実現するために,異なるカテゴリ間および画像とカテゴリ間の対応を統一埋め込みを用いて表現する。 次に、後者を用いて、対称なカテゴリー間サイクル一貫性と、新しい非対称なカテゴリ間サイクル整合性という2つの制約を強制する。 カテゴリー間対応のための手動アノテーションを使わずに,3次元形状のマッチングを行う専用手法よりも優れ,最先端のアライメント結果が得られる。 また,新しいモデルでは,事前の作業よりも濃厚なポーズ予測に適している。

We tackle the problem of learning the geometry of multiple categories of deformable objects jointly. Recent work has shown that it is possible to learn a unified dense pose predictor for several categories of related objects. However, training such models requires to initialize inter-category correspondences by hand. This is suboptimal and the resulting models fail to maintain correct correspondences as individual categories are learned. In this paper, we show that improved correspondences can be learned automatically as a natural byproduct of learning category-specific dense pose predictors. To do this, we express correspondences between different categories and between images and categories using a unified embedding. Then, we use the latter to enforce two constraints: symmetric inter-category cycle consistency and a new asymmetric image-to-category cycle consistency. Without any manual annotations for the inter-category correspondences, we obtain state-of-the-art alignment results, outperforming dedicated methods for matching 3D shapes. Moreover, the new model is also better at the task of dense pose prediction than prior work.
翻訳日:2021-06-22 04:12:47 公開日:2021-06-17
# (参考訳) 連続治療のための因果バイアス定量化 [全文訳有]

Causal Bias Quantification for Continuous Treatment ( http://arxiv.org/abs/2106.09762v1 )

ライセンス: CC BY 4.0
Gianluca Detommaso, Michael Br\"uckner, Philip Schulz, Victor Chernozhukov(参考訳) 本研究では, 連続処理環境における限界因果効果と因果バイアスの新たな評価法を開発した。 条件付き確率分布に対する期待として表現できることを示し, 標準統計的・確率論的手法を用いて推定できることを示した。 期待の全ての項は、高度に非線形なモデルに対しても自動微分によって計算できる。 さらに,共変量調整による因果効果の識別性に関する新たな完全基準を開発し,基準が満たされた場合にはバイアスがゼロとなることを示した。 コンバウンディング,オーバーコントロール,内因性選択バイアスの線形モデル,データ不足による完全識別性が達成できない非線形モデル,スタチンと動脈硬化性心血管疾患のシミュレーション医学的研究,の3つのシナリオでフレームワークの有効性を検討した。

In this work we develop a novel characterization of marginal causal effect and causal bias in the continuous treatment setting. We show they can be expressed as an expectation with respect to a conditional probability distribution, which can be estimated via standard statistical and probabilistic methods. All terms in the expectations can be computed via automatic differentiation, also for highly non-linear models. We further develop a new complete criterion for identifiability of causal effects via covariate adjustment, showing the bias equals zero if the criterion is met. We study the effectiveness of our framework in three different scenarios: linear models under confounding, overcontrol and endogenous selection bias; a non-linear model where full identifiability cannot be achieved because of missing data; a simulated medical study of statins and atherosclerotic cardiovascular disease.
翻訳日:2021-06-22 03:38:10 公開日:2021-06-17
# (参考訳) ヘイトスピーチ検出のためのデータセット構築のための情報検索手法 [全文訳有]

An Information Retrieval Approach to Building Datasets for Hate Speech Detection ( http://arxiv.org/abs/2106.09775v1 )

ライセンス: CC BY 4.0
Md Mustafizur Rahman, Dinesh Balakrishnan, Dhiraj Murthy, Mucahid Kutlu, Matthew Lease(参考訳) ヘイトスピーチ検出のためのベンチマークデータセットの構築にはいくつかの課題がある。 第一に、ヘイトスピーチは比較的稀である - 例えば、Twitter投稿の3\%未満はヘイトフル \citep{founta2018large} である。 一般的な方法は、既知の‘hate words’を含むツイートに注釈を付けるだけであるが、これは現実世界の関心現象を部分的に捉えたバイアス付きベンチマークをもたらす。 2つめの課題は、ヘイトスピーチの定義が非常に可変で主観的である傾向があることである。 ヘイトスピーチの様々な先行概念を持つアノテーションは、互いに同意するだけでなく、特定のラベル付けガイドラインに従うのにも苦労する。 我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。 この接続は、IRテストコレクションを作成するための確立された方法論が、ヘイトスピーチ検出のためのより良いベンチマークデータセットを作成するために有用である可能性を示唆している。 まず,アノテートすべきツイートをインテリジェントかつ効率的に選択するために,"em pooling} と "em active learning" という確立されたir技術を適用する。 第二に、アノテーションの一貫性と値の両方を改善するために、 {\em Task decomposition} \cite{Zhang-sigir14} と {\em annotator rationale} \cite{mcdonnell16-hcomp} の技法を適用する。 上記のテクニックを使用して、新しいベンチマークデータセット\footnote{We will release the dataset upon Publish} を作成し、共有する。 以前のデータセットよりも広い範囲をカバーするヘイトスピーチ検出のために。 また,これらより広い形態の憎悪に対して,既存の検出モデルの精度が劇的に低下することを示した。 収集された注釈器の合理化はラベル付け決定に対する文書化されたサポートを提供するだけでなく、モデリングにおける二重スーパービジョンおよび/または説明生成のためのエキサイティングな将来の作業機会を生み出す。

Building a benchmark dataset for hate speech detection presents several challenges. Firstly, because hate speech is relatively rare -- e.g., less than 3\% of Twitter posts are hateful \citep{founta2018large} -- random sampling of tweets to annotate is inefficient in capturing hate speech. A common practice is to only annotate tweets containing known ``hate words'', but this risks yielding a biased benchmark that only partially captures the real-world phenomenon of interest. A second challenge is that definitions of hate speech tend to be highly variable and subjective. Annotators having diverse prior notions of hate speech may not only disagree with one another but also struggle to conform to specified labeling guidelines. Our key insight is that the rarity and subjectivity of hate speech are akin to that of relevance in information retrieval (IR). This connection suggests that well-established methodologies for creating IR test collections might also be usefully applied to create better benchmark datasets for hate speech detection. Firstly, to intelligently and efficiently select which tweets to annotate, we apply established IR techniques of {\em pooling} and {\em active learning}. Secondly, to improve both consistency and value of annotations, we apply {\em task decomposition} \cite{Zhang-sigir14} and {\em annotator rationale} \cite{mcdonnell16-hcomp} techniques. Using the above techniques, we create and share a new benchmark dataset\footnote{We will release the dataset upon publication.} for hate speech detection with broader coverage than prior datasets. We also show a dramatic drop in accuracy of existing detection models when tested on these broader forms of hate. Collected annotator rationales not only provide documented support for labeling decisions but also create exciting future work opportunities for dual-supervision and/or explanation generation in modeling.
翻訳日:2021-06-22 03:12:19 公開日:2021-06-17
# (参考訳) 局所的離散的連関学習:密接なリスク境界を持つ効率的なアルゴリズム

Locally Differentially Private Federated Learning: Efficient Algorithms with Tight Risk Bounds ( http://arxiv.org/abs/2106.09779v1 )

ライセンス: CC BY 4.0
Andrew Lowy and Meisam Razaviyayn(参考訳) フェデレートラーニング(Federated Learning, FL)は、不均一でバランスの取れない、しばしばセンシティブなローカルデータを持つ多くのクライアントが、モデルを学ぶために協力する分散学習パラダイムである。 ローカル微分プライバシ(LDP)は、信頼できるサードパーティに頼ることなく、トレーニング中および後に各クライアントのデータ漏洩を確実に保証する。 LDPは, 便益を十分に確保するには厳しすぎると考えられることが多いが, 本論文はこの信念に異議を唱える。 我々は、不均衡で異質なデータ、クライアント間で異なるプライバシー要求、信頼できないコミュニケーションを備えた一般的なセットアップを検討し、各ラウンドでランダムなクライアント数/サブセットが利用可能である。 分散ミニバッチSGDの雑音変動を,スムーズな(強い)凸FLに対する3つの LDP アルゴリズムを提案する。 1つは加速され、新しい時間変化ノイズが伴うが、これは完全一般の非i.d に対して最初の非自明な LDP 過剰リスクを得るために用いられる。 FL問題。 i.i.d.に特化。 クライアント、私たちのリスクバウンダリは、集中型設定における最もよく知られた、あるいは最適なバウンダリと、各クライアントが1人のデータを表すクロスデバイス設定の間を補間します。 さらに、あるレジームにおいて、我々の収束率は、対応する非プライベートな下限または非プライベートアルゴリズムの非プライベートな状態(``privacy for free'')と一致することを示した。 最後に,この理論結果を検証し,数値実験によるアルゴリズムの実用性について述べる。

Federated learning (FL) is a distributed learning paradigm in which many clients with heterogeneous, unbalanced, and often sensitive local data, collaborate to learn a model. Local Differential Privacy (LDP) provides a strong guarantee that each client's data cannot be leaked during and after training, without relying on a trusted third party. While LDP is often believed to be too stringent to allow for satisfactory utility, our paper challenges this belief. We consider a general setup with unbalanced, heterogeneous data, disparate privacy needs across clients, and unreliable communication, where a random number/subset of clients is available each round. We propose three LDP algorithms for smooth (strongly) convex FL; each are noisy variations of distributed minibatch SGD. One is accelerated and one involves novel time-varying noise, which we use to obtain the first non-trivial LDP excess risk bound for the fully general non-i.i.d. FL problem. Specializing to i.i.d. clients, our risk bounds interpolate between the best known and/or optimal bounds in the centralized setting and the cross-device setting, where each client represents just one person's data. Furthermore, we show that in certain regimes, our convergence rate (nearly) matches the corresponding non-private lower bound or outperforms state of the art non-private algorithms (``privacy for free''). Finally, we validate our theoretical results and illustrate the practical utility of our algorithm with numerical experiments.
翻訳日:2021-06-22 02:51:06 公開日:2021-06-17
# (参考訳) 広帯域確率ネットワーク:ガウス極限とPAC-ベイズ訓練 [全文訳有]

Wide stochastic networks: Gaussian limit and PAC-Bayesian training ( http://arxiv.org/abs/2106.09798v1 )

ライセンス: CC BY 4.0
Eugenio Clerico, George Deligiannidis, Arnaud Doucet(参考訳) 無限幅の限界は、過パラメータ化されたニューラルネットワークの分析研究においてかなりの単純化を可能にする。 適切なランダム初期化により、非常に大きなネットワークは、訓練前後のガウス過程によってよく近似される。 本研究では,パラメータが確率変数である単純な確率的アーキテクチャに対して,同様の結果を与える。 出力分布の明示的な評価は、一般化境界を直接最適化するPAC-ベイズ訓練手順を可能にする。 大規模だが有限幅のネットワークでは、このトレーニング手法が標準的なPAC-ベイズ法より優れていることを実証的に示す。

The limit of infinite width allows for substantial simplifications in the analytical study of overparameterized neural networks. With a suitable random initialization, an extremely large network is well approximated by a Gaussian process, both before and during training. In the present work, we establish a similar result for a simple stochastic architecture whose parameters are random variables. The explicit evaluation of the output distribution allows for a PAC-Bayesian training procedure that directly optimizes the generalization bound. For a large but finite-width network, we show empirically on MNIST that this training approach can outperform standard PAC-Bayesian methods.
翻訳日:2021-06-22 02:49:32 公開日:2021-06-17
# pykale:pythonの複数のソースからナレッジアウェアな機械学習

PyKale: Knowledge-Aware Machine Learning from Multiple Sources in Python ( http://arxiv.org/abs/2106.09756v1 )

ライセンス: Link先を確認
Haiping Lu, Xianyuan Liu, Robert Turner, Peizhen Bai, Raivo E Koot, Shuo Zhou, Mustafa Chasmai, Lawrence Schobs(参考訳) 機械学習は、多くの学際的な研究問題を約束する汎用技術である。 しかし、多くの機械学習ツールが別々の領域で別々に開発される場合、学際的な境界を越える際の大きな障壁が存在する。 我々は,グラフ,画像,テキスト,ビデオ上で知識を意識した機械学習を行うpythonライブラリpykaleを提案する。 標準的なソフトウェアエンジニアリングプラクティスに基づいた新しいグリーン機械学習ガイドラインを定式化し、新しいパイプラインベースのアプリケーションプログラミングインタフェース(api)を提案する。 PyKaleは、正確かつ解釈可能な予測のために複数の情報源からの知識を活用することに重点を置いており、最新の深層学習と次元減少モデルでマルチモーダル学習と伝達学習(特にドメイン適応)をサポートする。 PyTorch上にPyKaleを構築し、リッチなPyTorchエコシステムを活用しています。 当社のパイプラインベースのapi設計では、標準化と最小化、反復と冗長性の低減、既存のリソースの再利用、各領域での学習モデルの再利用などを通じて、グリーンマシンラーニングの概念を取り入れています。 バイオインフォマティクス,ナレッジグラフ,画像・映像認識,医用画像の例を通して,その学際的性質を実証する。

Machine learning is a general-purpose technology holding promises for many interdisciplinary research problems. However, significant barriers exist in crossing disciplinary boundaries when most machine learning tools are developed in different areas separately. We present Pykale - a Python library for knowledge-aware machine learning on graphs, images, texts, and videos to enable and accelerate interdisciplinary research. We formulate new green machine learning guidelines based on standard software engineering practices and propose a novel pipeline-based application programming interface (API). PyKale focuses on leveraging knowledge from multiple sources for accurate and interpretable prediction, thus supporting multimodal learning and transfer learning (particularly domain adaptation) with latest deep learning and dimensionality reduction models. We build PyKale on PyTorch and leverage the rich PyTorch ecosystem. Our pipeline-based API design enforces standardization and minimalism, embracing green machine learning concepts via reducing repetitions and redundancy, reusing existing resources, and recycling learning models across areas. We demonstrate its interdisciplinary nature via examples in bioinformatics, knowledge graph, image/video recognition, and medical imaging.
翻訳日:2021-06-21 14:27:21 公開日:2021-06-17
# 表現学習のための効率的な自己教師型視覚変換器

Efficient Self-supervised Vision Transformers for Representation Learning ( http://arxiv.org/abs/2106.09785v1 )

ライセンス: Link先を確認
Chunyuan Li, Jianwei Yang, Pengchuan Zhang, Mei Gao, Bin Xiao, Xiyang Dai, Lu Yuan, Jianfeng Gao(参考訳) 本稿では、視覚表現学習のための効率的な自己教師型視覚変換器(EsViT)を開発するための2つの手法について検討する。 まず,画像領域間の微粒度対応をとらえる能力を失うことで,モデリングの複雑さを著しく減らすことが可能な多段階アーキテクチャを包括的実証研究を通して示す。 第2に,モデルがきめ細かい領域依存性を捉えることができ,その結果,学習した視覚表現の品質が大幅に向上する,領域マッチングの新たな事前学習タスクを提案する。 EsViTは2つの手法を組み合わせることで、画像Net線形プローブ評価において81.3%のトップ-1を達成し、先行技術よりも高いスループットで性能を向上した。 下流の線形分類タスクに移行する場合、EsViTは18のデータセットのうち17で教師付きタスクよりも優れています。 コードとモデルは一般公開される予定だ。

This paper investigates two techniques for developing efficient self-supervised vision transformers (EsViT) for visual representation learning. First, we show through a comprehensive empirical study that multi-stage architectures with sparse self-attentions can significantly reduce modeling complexity but with a cost of losing the ability to capture fine-grained correspondences between image regions. Second, we propose a new pre-training task of region matching which allows the model to capture fine-grained region dependencies and as a result significantly improves the quality of the learned vision representations. Our results show that combining the two techniques, EsViT achieves 81.3% top-1 on the ImageNet linear probe evaluation, outperforming prior arts with around an order magnitude of higher throughput. When transferring to downstream linear classification tasks, EsViT outperforms its supervised counterpart on 17 out of 18 datasets. The code and models will be publicly available.
翻訳日:2021-06-21 14:25:15 公開日:2021-06-17
# 感情抽出のためのマルチタスク学習と適応知識モデル

Multi-Task Learning and Adapted Knowledge Models for Emotion-Cause Extraction ( http://arxiv.org/abs/2106.09790v1 )

ライセンス: Link先を確認
Elsbeth Turcan, Shuai Wang, Rishita Anubhai, Kasturi Bhattacharjee, Yaser Al-Onaizan, Smaranda Muresan(参考訳) テキストで表現される感情を検出することは、自然言語処理においてよく研究されている問題である。 しかし、感情の原因となるものなど、よりきめ細かい感情分析の研究はまだ初期段階にある。 本稿では,感情認識と感情検出の両方を取り扱う手法を提案する。 共通感覚知識が暗黙的に表現された感情とそれらの感情の理由を理解する上で重要な役割を担っていることを考慮し,適応型知識モデルとマルチタスク学習による共通感覚知識を組み合わせた新しい手法を提案する。 共通センス推論とマルチタスクフレームワークを含む場合,両タスクのパフォーマンス改善を示す。 モデルパフォーマンスに関する洞察を得るために、詳細な分析を提供する。

Detecting what emotions are expressed in text is a well-studied problem in natural language processing. However, research on finer grained emotion analysis such as what causes an emotion is still in its infancy. We present solutions that tackle both emotion recognition and emotion cause detection in a joint fashion. Considering that common-sense knowledge plays an important role in understanding implicitly expressed emotions and the reasons for those emotions, we propose novel methods that combine common-sense knowledge via adapted knowledge models with multi-task learning to perform joint emotion classification and emotion cause tagging. We show performance improvement on both tasks when including common-sense reasoning and a multitask framework. We provide a thorough analysis to gain insights into model performance.
翻訳日:2021-06-21 14:23:39 公開日:2021-06-17
# 臨床報告からのラベル自動抽出による深部強化学習による3次元mri脳容積の高精度分類

Deep reinforcement learning with automated label extraction from clinical reports accurately classifies 3D MRI brain volumes ( http://arxiv.org/abs/2106.09812v1 )

ライセンス: Link先を確認
Joseph Stember, Hrithwik Shalu(参考訳) 目的: 画像分類は、おそらく画像aiの最も基本的なタスクである。 しかし、画像のラベル付けは時間がかかり、面倒である。 我々は最近, 強化学習(RL)がMRI脳画像の2次元スライスを高精度に分類できることを実証した。 まず,臨床報告から分類ラベルを自動的に抽出する。 第2に,これまでの2D分類作業を,施設からの全3D画像ボリュームに拡張する。 そこで,本稿では,SBERT自然言語処理手法を用いて,レポートからラベルを自動的に抽出する。 そして、パート2では、これらのラベルをRLと組み合わせて、DQN(Deep-Q Network)を3次元画像ボリュームに分類する。 方法: 第1部ではSBERTを90例の放射線学的徴候で訓練した。 次に、トレーニングされたSBERTを使用して、パート2で使用するクラスラベルを予測しました。 第2部では,3次元畳み込みとTD(0)Q学習を組み合わせた深部Q学習を実現するために,多段階画像分類を適用した。 90枚の画像を訓練しました 第1部で訓練されたSBERTによる患者報告から予測されたクラスを用いて,61枚の画像の別セットを検証した。 比較のために、同じラベルを使ったイメージのトレーニングとテストのセットで、教師付きディープラーニング分類ネットワークをトレーニングし、テストしました。 結果: 第1報:SBERTモデルでは, 放射線診断のコーパスを用いて, 正常検診と転移検診の両方で100%の精度が得られた。 パート2: これらのラベルを用いた場合, 教師ありアプローチはトレーニングデータに迅速に適合し, 予想通り, テストセット上では成績が良く(66%, ランダムな推測だけで) , 強化学習アプローチは92%の精度を達成した。 結果は統計的に有意であり、p値は3.1 x 10^-5である。

Purpose: Image classification is perhaps the most fundamental task in imaging AI. However, labeling images is time-consuming and tedious. We have recently demonstrated that reinforcement learning (RL) can classify 2D slices of MRI brain images with high accuracy. Here we make two important steps toward speeding image classification: Firstly, we automatically extract class labels from the clinical reports. Secondly, we extend our prior 2D classification work to fully 3D image volumes from our institution. Hence, we proceed as follows: in Part 1, we extract labels from reports automatically using the SBERT natural language processing approach. Then, in Part 2, we use these labels with RL to train a classification Deep-Q Network (DQN) for 3D image volumes. Methods: For Part 1, we trained SBERT with 90 radiology report impressions. We then used the trained SBERT to predict class labels for use in Part 2. In Part 2, we applied multi-step image classification to allow for combined Deep-Q learning using 3D convolutions and TD(0) Q learning. We trained on a set of 90 images. We tested on a separate set of 61 images, again using the classes predicted from patient reports by the trained SBERT in Part 1. For comparison, we also trained and tested a supervised deep learning classification network on the same set of training and testing images using the same labels. Results: Part 1: Upon training with the corpus of radiology reports, the SBERT model had 100% accuracy for both normal and metastasis-containin g scans. Part 2: Then, using these labels, whereas the supervised approach quickly overfit the training data and as expected performed poorly on the testing set (66% accuracy, just over random guessing), the reinforcement learning approach achieved an accuracy of 92%. The results were found to be statistically significant, with a p-value of 3.1 x 10^-5.
翻訳日:2021-06-21 14:23:28 公開日:2021-06-17
# オンライン強化学習における関数近似アーキテクチャの適用

Adapting the Function Approximation Architecture in Online Reinforcement Learning ( http://arxiv.org/abs/2106.09776v1 )

ライセンス: Link先を確認
John D. Martin and Joseph Modayil(参考訳) 強化学習システム(RL)の性能は、値関数の近似に使用される計算アーキテクチャに依存する。 深層学習法は、ノイズの多い高次元観測から非線形関数を近似するための最適化技術とアーキテクチャの両方を提供する。 しかし、一般的な最適化技術は厳密なオンライン更新のために設計されていない。 例えば、光センサーは宇宙にランダムに分散している。 本稿では,有用な非線形特徴を効率的に発見する適応アーキテクチャを持つオンラインrl予測アルゴリズムを提案する。 このアルゴリズムは高次元の確率的観測により空間領域で評価される。 このアルゴリズムは、非適応ベースラインアーキテクチャよりも優れており、サイドチャネル情報を与えるアーキテクチャの性能にアプローチする。 これらの結果は、観測構造が利用できないより一般的な問題に対するスケーラブルなRLアルゴリズムへのステップである。

The performance of a reinforcement learning (RL) system depends on the computational architecture used to approximate a value function. Deep learning methods provide both optimization techniques and architectures for approximating nonlinear functions from noisy, high-dimensional observations. However, prevailing optimization techniques are not designed for strictly-incremental online updates. Nor are standard architectures designed for observations with an a priori unknown structure: for example, light sensors randomly dispersed in space. This paper proposes an online RL prediction algorithm with an adaptive architecture that efficiently finds useful nonlinear features. The algorithm is evaluated in a spatial domain with high-dimensional, stochastic observations. The algorithm outperforms non-adaptive baseline architectures and approaches the performance of an architecture given side-channel information. These results are a step towards scalable RL algorithms for more general problems, where the observation structure is not available.
翻訳日:2021-06-21 14:21:47 公開日:2021-06-17
# LNN-EL:短文エンティティリンクに対するニューロシンボリックアプローチ

LNN-EL: A Neuro-Symbolic Approach to Short-text Entity Linking ( http://arxiv.org/abs/2106.09795v1 )

ライセンス: Link先を確認
Hang Jiang, Sairam Gurajada, Qiuhao Lu, Sumit Neelam, Lucian Popa, Prithviraj Sen, Yunyao Li, Alexander Gray(参考訳) テキスト中の言及を知識グラフ内のエンティティにリンクすることで曖昧さを解消するタスクであるエンティティリンク(el)は、テキスト理解、質問応答、会話システムにおいて不可欠である。 短いテキスト(例:単一文や質問)上のエンティティリンクは、限られたコンテキストのために特定の課題を引き起こす。 従来のアプローチではヒューリスティックやブラックボックスのニューラルメソッドが用いられていたが,一階述語論理に基づく解釈可能なルールとニューラルネットワークの性能を組み合わせたニューラルシンボリックアプローチであるLNN-ELを提案する。 ルールの使用に制約があるにもかかわらず、LNN-ELはSotAのブラックボックスニューラルアプローチに対して競争力があり、拡張性と転送可能性の利点が加えられている。 特に,人間の専門家が与える既存のルールテンプレートと,複数の種類の機能(プライヤ,BERTエンコーディング,ボックス埋め込みなど)と,従来のELメソッドから得られるスコアとを簡単に組み合わせることで,そのような方法を改善することができることを示す。 例えば、LC-QuAD-1.0データセットでは、以前のSotAよりもF1スコアが4ドル以上上昇している。 最後に,論理を用いた帰納的バイアスは,高い精度を維持しながら,微調整なしでもデータセット間でうまく転送される学習規則をもたらすことを示す。

Entity linking (EL), the task of disambiguating mentions in text by linking them to entities in a knowledge graph, is crucial for text understanding, question answering or conversational systems. Entity linking on short text (e.g., single sentence or question) poses particular challenges due to limited context. While prior approaches use either heuristics or black-box neural methods, here we propose LNN-EL, a neuro-symbolic approach that combines the advantages of using interpretable rules based on first-order logic with the performance of neural learning. Even though constrained to using rules, LNN-EL performs competitively against SotA black-box neural approaches, with the added benefits of extensibility and transferability. In particular, we show that we can easily blend existing rule templates given by a human expert, with multiple types of features (priors, BERT encodings, box embeddings, etc), and even scores resulting from previous EL methods, thus improving on such methods. For instance, on the LC-QuAD-1.0 dataset, we show more than $4$\% increase in F1 score over previous SotA. Finally, we show that the inductive bias offered by using logic results in learned rules that transfer well across datasets, even without fine tuning, while maintaining high accuracy.
翻訳日:2021-06-21 14:21:16 公開日:2021-06-17
# リスク最小化のための非分散ペナルティについて

On Invariance Penalties for Risk Minimization ( http://arxiv.org/abs/2106.09777v1 )

ライセンス: Link先を確認
Kia Khezeli, Arno Blaas, Frank Soboczenski, Nicholas Chia, John Kalantari(参考訳) 不変リスク最小化(IRM)の原理はArjovskyらによって最初に提案された。 [2019] 異なる実験条件からデータ不均一性を生かして領域一般化問題に対処する。 具体的には、最適な分類器がすべての領域で不変であるデータ表現を見つけようとする。 IRMの概念的魅力にもかかわらず、当初提案された不変罰の有効性は近年疑問視されている。 特に、非不変データ表現に対して、不変ペナルティを任意に小さくすることができる反例が存在する。 本稿では,データ表現のグラミアン行列を再検討することにより,別の不変ペナルティを提案する。 リスクと不分散のペナルティの関係における固有値の役割を論じ,その反例に対して不条件であることを示す。 提案手法は, 弱い非退化条件下での線形設定の不変表現を復元することが保証される。 その効果は、ドメイン一般化のための2つの広範囲なテストベッドであるdomainbedとinvarianceunittestの実験によって実証される。

The Invariant Risk Minimization (IRM) principle was first proposed by Arjovsky et al. [2019] to address the domain generalization problem by leveraging data heterogeneity from differing experimental conditions. Specifically, IRM seeks to find a data representation under which an optimal classifier remains invariant across all domains. Despite the conceptual appeal of IRM, the effectiveness of the originally proposed invariance penalty has recently been brought into question. In particular, there exists counterexamples for which that invariance penalty can be arbitrarily small for non-invariant data representations. We propose an alternative invariance penalty by revisiting the Gramian matrix of the data representation. We discuss the role of its eigenvalues in the relationship between the risk and the invariance penalty, and demonstrate that it is ill-conditioned for said counterexamples. The proposed approach is guaranteed to recover an invariant representation for linear settings under mild non-degeneracy conditions. Its effectiveness is substantiated by experiments on DomainBed and InvarianceUnitTest, two extensive test beds for domain generalization.
翻訳日:2021-06-21 14:20:54 公開日:2021-06-17
# 共変量シフト下でのpac予測セット

PAC Prediction Sets Under Covariate Shift ( http://arxiv.org/abs/2106.09848v1 )

ライセンス: Link先を確認
Sangdon Park and Edgar Dobriban and Insup Lee and Osbert Bastani(参考訳) 現代の機械学習が直面する重要な課題は、モデル予測の不確実性を厳格に定量化する方法である。 予測モデルを無効にする可能性のある基礎となるデータ分布の変更がある場合、特に不確実性は重要である。 しかし、既存の不確実性定量化アルゴリズムのほとんどは、そのようなシフトの存在下で崩壊する。 本稿では,共変量シフトの存在下での<emph{probably approximately correct (PAC) 予測セットを構築することで,この問題に対処する新しいアプローチを提案する。 我々のアプローチは、ソース分布(トレーニング例をラベル付けした)からターゲット分布(不確かさを定量化したい)への共変量シフトがあるような設定にフォーカスしています。 我々のアルゴリズムは、トレーニング例の確率が共変量シフトの下でどのように変化するかをエンコードする重要度重みを仮定する。 実際、重要度重み付けは一般的に見積もる必要があるので、アルゴリズムを真の値ではなく重要度重み付けに対して信頼区間が与えられるような設定に拡張します。 我々は, domainnet と imagenet のデータセットに基づいて設計した様々な共変量シフトに対するアプローチの有効性を実証する。

An important challenge facing modern machine learning is how to rigorously quantify the uncertainty of model predictions. Conveying uncertainty is especially important when there are changes to the underlying data distribution that might invalidate the predictive model. Yet, most existing uncertainty quantification algorithms break down in the presence of such shifts. We propose a novel approach that addresses this challenge by constructing \emph{probably approximately correct (PAC)} prediction sets in the presence of covariate shift. Our approach focuses on the setting where there is a covariate shift from the source distribution (where we have labeled training examples) to the target distribution (for which we want to quantify uncertainty). Our algorithm assumes given importance weights that encode how the probabilities of the training examples change under the covariate shift. In practice, importance weights typically need to be estimated; thus, we extend our algorithm to the setting where we are given confidence intervals for the importance weights rather than their true value. We demonstrate the effectiveness of our approach on various covariate shifts designed based on the DomainNet and ImageNet datasets.
翻訳日:2021-06-21 14:20:41 公開日:2021-06-17
# 誘導型統合勾配:雑音除去のための適応経路法

Guided Integrated Gradients: An Adaptive Path Method for Removing Noise ( http://arxiv.org/abs/2106.09788v1 )

ライセンス: Link先を確認
Andrei Kapishnikov, Subhashini Venugopalan, Besim Avci, Ben Wedin, Michael Terry, Tolga Bolukbasi(参考訳) 統合勾配 (ig) はディープニューラルネットワークで一般的に用いられる特徴帰属法である。 igには多くの望ましい特性があるが、この方法は視覚モデルに適用すると予測されたクラスとは無関係な領域にスプリアス/ノイズの画素帰属を生成することが多い。 これは以前にも指摘されてきたが、既存のほとんどのソリューションは、結果の帰属のノイズを明示的に減らすことで、症状に対処することを目的としている。 本研究では,問題の原因の一つとして,IG経路に沿った雑音の蓄積があげられる。 このノイズの発生源の影響を最小限に抑えるため、アトリビューションパス自体の適応を提案する。 本稿では,パスメソッドの一般化としてAdaptive Path Methods (APMs)を導入し,APMの具体例としてIGをガイドする。 経験的に、 Guided IG はモデルの予測や説明されている入力画像とよりよく一致した精度マップを作成する。 ほぼすべての実験において、IGが他の関連手法よりも優れる定性的かつ定量的な実験を示す。

Integrated Gradients (IG) is a commonly used feature attribution method for deep neural networks. While IG has many desirable properties, the method often produces spurious/noisy pixel attributions in regions that are not related to the predicted class when applied to visual models. While this has been previously noted, most existing solutions are aimed at addressing the symptoms by explicitly reducing the noise in the resulting attributions. In this work, we show that one of the causes of the problem is the accumulation of noise along the IG path. To minimize the effect of this source of noise, we propose adapting the attribution path itself -- conditioning the path not just on the image but also on the model being explained. We introduce Adaptive Path Methods (APMs) as a generalization of path methods, and Guided IG as a specific instance of an APM. Empirically, Guided IG creates saliency maps better aligned with the model's prediction and the input image that is being explained. We show through qualitative and quantitative experiments that Guided IG outperforms other, related methods in nearly every experiment.
翻訳日:2021-06-21 14:17:33 公開日:2021-06-17
# グラフニューラルネットワークによる教師なしリソース割り当て

Unsupervised Resource Allocation with Graph Neural Networks ( http://arxiv.org/abs/2106.09761v1 )

ライセンス: Link先を確認
Miles Cranmer (Princeton), Peter Melchior (Princeton), Brian Nord (Fermilab)(参考訳) 本稿では,教師なしの方法で資源を割り当てる方法を学ぶことにより,グローバルユーティリティ機能を最大化する手法を提案する。 我々は,割当目標間の相互作用が重要であると期待し,gnnを用いて最適に近い割当方針の報酬構造を学ぶことを提案する。 資源制約を緩和することで、より標準的な進化アルゴリズムとは対照的に、勾配に基づく最適化を採用できる。 我々のアルゴリズムは、宇宙の組成を最適に推測するために、限られた初期情報に基づいて10^9$の銀河を選択する必要がある現代の天文学の問題によって動機付けられている。 提案手法は, 興味の物理と計測プロセスに対して, 前方シミュレータのみを必要とすることで, 柔軟に割当戦略を学習する方法を示す。 我々は、この手法がリソース割り当ての問題にも応用できることを期待している。

We present an approach for maximizing a global utility function by learning how to allocate resources in an unsupervised way. We expect interactions between allocation targets to be important and therefore propose to learn the reward structure for near-optimal allocation policies with a GNN. By relaxing the resource constraint, we can employ gradient-based optimization in contrast to more standard evolutionary algorithms. Our algorithm is motivated by a problem in modern astronomy, where one needs to select-based on limited initial information-among $10^9$ galaxies those whose detailed measurement will lead to optimal inference of the composition of the universe. Our technique presents a way of flexibly learning an allocation strategy by only requiring forward simulators for the physics of interest and the measurement process. We anticipate that our technique will also find applications in a range of resource allocation problems.
翻訳日:2021-06-21 14:15:13 公開日:2021-06-17
# 確率データベースにおけるオートエンコーダに基づくクリーニング

Autoencoder-based cleaning in probabilistic databases ( http://arxiv.org/abs/2106.09764v1 )

ライセンス: Link先を確認
R.R. Mauritz, F.P.J. Nijweide, J. Goseling, M. van Keulen(参考訳) データ統合の分野では、データの抽出、結合、マージにおいて、データ品質の問題がしばしば発生する。 確率データ統合アプローチは確率データベースにおける不確実性などの問題に関する情報を表す。 本稿では,データ品質のほぼ自動改善が可能なデータクリーニングオートエンコーダを提案する。 疑わしい値を識別し、正すために、データの構造と依存関係を学習する。 理論的枠組みが提供され、分類的および数値的確率的データからかなりの量のノイズを除去できることが実験によって示されている。 この方法はクリーンなデータを必要としない。 しかし、手作業による少数のデータのクリーニングがパフォーマンスを大幅に向上させることを示す。

In the field of data integration, data quality problems are often encountered when extracting, combining, and merging data. The probabilistic data integration approach represents information about such problems as uncertainties in a probabilistic database. In this paper, we propose a data-cleaning autoencoder capable of near-automatic data quality improvement. It learns the structure and dependencies in the data to identify and correct doubtful values. A theoretical framework is provided, and experiments show that it can remove significant amounts of noise from categorical and numeric probabilistic data. Our method does not require clean data. We do, however, show that manually cleaning a small fraction of the data significantly improves performance.
翻訳日:2021-06-21 14:15:01 公開日:2021-06-17
# 部分観測可能性下におけるエージェント強化学習

Many Agent Reinforcement Learning Under Partial Observability ( http://arxiv.org/abs/2106.09825v1 )

ライセンス: Link先を確認
Keyang He, Prashant Doshi, Bikramjit Banerjee(参考訳) 近年,多エージェント強化学習 (MARL) への関心が高まっており, 深層強化学習, 主にアクター・クリティカルなアーキテクチャを活用し, 可観測性や通信性の観点から, 限られた範囲の環境に適用することができる。 しかし、この作品の大部分の継続的な制限は、エージェントの数に指数関数的に増加する共同作用に基づく表現に関して、次元の呪いである。 本稿では,このスケーラビリティの課題に焦点をあてる。 最近発表された2つの深いMARLアルゴリズムであるMADDPGとIA2Cに適用し、これらのインスタンス化をアクション匿名性(viz., mean-field MARL)を利用する別の手法と比較する。 提案手法は,最近導入された実用的ドメインを用いて,平均場法よりも幅広いエージェントネットワークで最適な動作を学習できることを示す。

Recent renewed interest in multi-agent reinforcement learning (MARL) has generated an impressive array of techniques that leverage deep reinforcement learning, primarily actor-critic architectures, and can be applied to a limited range of settings in terms of observability and communication. However, a continuing limitation of much of this work is the curse of dimensionality when it comes to representations based on joint actions, which grow exponentially with the number of agents. In this paper, we squarely focus on this challenge of scalability. We apply the key insight of action anonymity, which leads to permutation invariance of joint actions, to two recently presented deep MARL algorithms, MADDPG and IA2C, and compare these instantiations to another recent technique that leverages action anonymity, viz., mean-field MARL. We show that our instantiations can learn the optimal behavior in a broader class of agent networks than the mean-field method, using a recently introduced pragmatic domain.
翻訳日:2021-06-21 14:14:51 公開日:2021-06-17
# 非スムース最適化におけるモロー包絡の厳密な鞍点の回避

Escaping strict saddle points of the Moreau envelope in nonsmooth optimization ( http://arxiv.org/abs/2106.09815v1 )

ライセンス: Link先を確認
Damek Davis and Mateo D\'iaz and Dmitriy Drusvyatskiy(参考訳) 近年の研究では、確率摂動勾配法が滑らかな関数の厳密な鞍点を効率的に回避できることが示されている。 本研究は,モローエンベロープに適用した確率摂動勾配法の類似性を解析し,非スムース最適化に拡張する。 主な結論は、非スムース最適化のための様々なアルゴリズムは、モローエンベロープの厳密な鞍点を制御速度で回避できるということである。 主な技術的洞察は、モローエンベロープの勾配を相対的に近似する近位サブプロブレム収差方向に適用される典型的なアルゴリズムである。

Recent work has shown that stochastically perturbed gradient methods can efficiently escape strict saddle points of smooth functions. We extend this body of work to nonsmooth optimization, by analyzing an inexact analogue of a stochastically perturbed gradient method applied to the Moreau envelope. The main conclusion is that a variety of algorithms for nonsmooth optimization can escape strict saddle points of the Moreau envelope at a controlled rate. The main technical insight is that typical algorithms applied to the proximal subproblem yield directions that approximate the gradient of the Moreau envelope in relative terms.
翻訳日:2021-06-21 14:13:54 公開日:2021-06-17
# コンピュータ診断のための合成covid-19胸部x線データセット

Synthetic COVID-19 Chest X-ray Dataset for Computer-Aided Diagnosis ( http://arxiv.org/abs/2106.09759v1 )

ライセンス: Link先を確認
Hasib Zunair and A. Ben Hamza(参考訳) 我々は、機械学習モデルをトレーニングするためのSynthetic COVID-19 Chest X-ray Datasetと呼ばれる新しいデータセットを紹介した。 データセットは21,295個の合成covid-19胸部x線画像からなり、コンピュータ支援診断に用いられる。 これらの画像は教師なしのドメイン適応アプローチで生成され、高品質である。 重度不均衡条件下での追加トレーニングデータとして使用すると、合成画像は様々なディープラーニングアーキテクチャのパフォーマンスを向上させるだけでなく、高い信頼性でターゲットクラスを検出する。 また、合成画像のみをトレーニングすることで、同等のパフォーマンスを達成できることも分かりました。 さらに、合成COVID-19画像の健全な特徴は、分布が非COVID-19クラスと大きく異なることを示し、適切な決定境界を可能にする。 このような高忠実度胸部x線画像が利用可能になれば、診断および/または管理ツールの開発が促進されることを願っています。

We introduce a new dataset called Synthetic COVID-19 Chest X-ray Dataset for training machine learning models. The dataset consists of 21,295 synthetic COVID-19 chest X-ray images to be used for computer-aided diagnosis. These images, generated via an unsupervised domain adaptation approach, are of high quality. We find that the synthetic images not only improve performance of various deep learning architectures when used as additional training data under heavy imbalance conditions, but also detect the target class with high confidence. We also find that comparable performance can also be achieved when trained only on synthetic images. Further, salient features of the synthetic COVID-19 images indicate that the distribution is significantly different from Non-COVID-19 classes, enabling a proper decision boundary. We hope the availability of such high fidelity chest X-ray images of COVID-19 will encourage advances in the development of diagnostic and/or management tools.
翻訳日:2021-06-21 14:13:03 公開日:2021-06-17
# 内部クラスタ検証のための距離ベース分離性尺度

A Distance-based Separability Measure for Internal Cluster Validation ( http://arxiv.org/abs/2106.09794v1 )

ライセンス: Link先を確認
Shuyue Guan, Murray Loew(参考訳) クラスタリング結果を評価することは、クラスタ分析の重要な部分である。 教師なし学習におけるクラスタリングには真のクラスラベルがないため、予測されたラベルとデータを使用する内部クラスタ妥当性指標(CVI)が多数作成されている。 真のラベルがなければ、効果的なCVIを設計するのはクラスタリングメソッドを作成するのと同じくらい難しい。 また、すべてのデータセットを測定するために使用できる普遍的なCVIはなく、真のラベルのないクラスタに対して適切なCVIを選択するための特定の方法がないため、より多くのCVIを持つことは重要です。 そのため,クラスタリング結果の評価には様々なCVIを適用する必要がある。 本稿では,データ分離性尺度に基づく新しい内部cvi - distance-based separability index (dsi)を提案する。 DSIとDun(1974年)と最近のCVDD(2019年)の8つの内部CVIを比較し、12の実および97の合成データセット上の5つのクラスタリングアルゴリズムのクラスタリング結果を用いて、外部CVIを比較した。 結果は、DSIが他の比較CVIと比較して効果的で、ユニークで、競争力のあるCVIであることを示している。 また, CVIs 評価の一般的な過程を要約し, CVIs の結果の比較のためのランク差基準を作成した。

To evaluate clustering results is a significant part of cluster analysis. Since there are no true class labels for clustering in typical unsupervised learning, many internal cluster validity indices (CVIs), which use predicted labels and data, have been created. Without true labels, to design an effective CVI is as difficult as to create a clustering method. And it is crucial to have more CVIs because there are no universal CVIs that can be used to measure all datasets and no specific methods of selecting a proper CVI for clusters without true labels. Therefore, to apply a variety of CVIs to evaluate clustering results is necessary. In this paper, we propose a novel internal CVI -- the Distance-based Separability Index (DSI), based on a data separability measure. We compared the DSI with eight internal CVIs including studies from early Dunn (1974) to most recent CVDD (2019) and an external CVI as ground truth, by using clustering results of five clustering algorithms on 12 real and 97 synthetic datasets. Results show DSI is an effective, unique, and competitive CVI to other compared CVIs. We also summarized the general process to evaluate CVIs and created the rank-difference metric for comparison of CVIs' results.
翻訳日:2021-06-21 14:12:51 公開日:2021-06-17
# ハイブリッドグラフ畳み込みニューラルネットワークによるランドマークに基づく解剖学的セグメンテーション

Hybrid graph convolutional neural networks for landmark-based anatomical segmentation ( http://arxiv.org/abs/2106.09832v1 )

ライセンス: Link先を確認
Nicol\'as Gaggion, Lucas Mansilla, Diego Milone, Enzo Ferrante(参考訳) 本研究では,解剖学的構造に対するランドマークベースセグメンテーションの問題に対処する。 本稿では,画像特徴符号化の標準畳み込みとグラフ畳み込みニューラルネットワークを組み合わせたエンコーダ・デコーダニューラルネットワークであるHybridGNetを提案する。 胸部x線画像における解剖学的セグメンテーションのための他の標準ランドマークモデルとピクセルベースモデルを考慮して,提案アーキテクチャをベンチマークし,hybridgnetが画像閉塞に対してより頑健であることを見出した。 また、ピクセルレベルのアノテーションからランドマークベースのセグメンテーションを構築できることも示しています。 実験結果から,HybridGNetはスペクトル畳み込みによるデコードプロセスに形状制約を自然に組み込むことで,正確で解剖学的に妥当なランドマークベースセグメンテーションを生成することが示唆された。

In this work we address the problem of landmark-based segmentation for anatomical structures. We propose HybridGNet, an encoder-decoder neural architecture which combines standard convolutions for image feature encoding, with graph convolutional neural networks to decode plausible representations of anatomical structures. We benchmark the proposed architecture considering other standard landmark and pixel-based models for anatomical segmentation in chest x-ray images, and found that HybridGNet is more robust to image occlusions. We also show that it can be used to construct landmark-based segmentations from pixel level annotations. Our experimental results suggest that HybridGNet produces accurate and anatomically plausible landmark-based segmentations, by naturally incorporating shape constraints within the decoding process via spectral convolutions.
翻訳日:2021-06-21 14:12:30 公開日:2021-06-17
# AI-Enabled Ultra-Low-Dose CT 再構成

AI-Enabled Ultra-Low-Dose CT Reconstruction ( http://arxiv.org/abs/2106.09834v1 )

ライセンス: Link先を確認
Weiwen Wu, Chuang Niu, Shadi Ebrahimian, Hengyong Yu, Mannu Kalra, Ge Wang(参考訳) ALARA(As Low As Reasonably Achievable)の原則により、超低用量CT再構成は、特に小児のがんリスクや遺伝的損傷を最小限に抑える聖杯である。 医療用CT技術の発達に伴い、低用量スキャンから適切なCT画像を再構成するために、反復アルゴリズムが広く用いられている。 近年、人工知能(AI)技術は、CT線量をさらに次のレベルに減らすことに大きな期待を示している。 本稿では,X線撮影と同等の低線量で画像品質を診断できるAIを用いたCT再構成法を提案する。 具体的には, 深層学習, 物理モデリング, 画像先行を統合した, スプリット・アンロール・グリッド型代替再構成(sugar)ネットワークを開発した。 臨床データセットの再構成結果から,36個のプロジェクションからのSUGARを用いて優れた画像の再構成が可能であった。 このアプローチは将来の医療を変える可能性がある。

By the ALARA (As Low As Reasonably Achievable) principle, ultra-low-dose CT reconstruction is a holy grail to minimize cancer risks and genetic damages, especially for children. With the development of medical CT technologies, the iterative algorithms are widely used to reconstruct decent CT images from a low-dose scan. Recently, artificial intelligence (AI) techniques have shown a great promise in further reducing CT radiation dose to the next level. In this paper, we demonstrate that AI-powered CT reconstruction offers diagnostic image quality at an ultra-low-dose level comparable to that of radiography. Specifically, here we develop a Split Unrolled Grid-like Alternative Reconstruction (SUGAR) network, in which deep learning, physical modeling and image prior are integrated. The reconstruction results from clinical datasets show that excellent images can be reconstructed using SUGAR from 36 projections. This approach has a potential to change future healthcare.
翻訳日:2021-06-21 14:12:13 公開日:2021-06-17
# データフリー・ジェネレーション・リプレイによるDual-Teacher Class-Incremental Learning

Dual-Teacher Class-Incremental Learning With Data-Free Generative Replay ( http://arxiv.org/abs/2106.09835v1 )

ライセンス: Link先を確認
Yoojin Choi, Mostafa El-Khamy, Jungwon Lee(参考訳) 本稿では,クラス増分学習(CIL)のための2つの新しい知識伝達手法を提案する。 まず,データフリーな生成リプレイ(DF-GR)を提案し,生成モデルからの合成サンプルを用いてCILの破滅的忘れを緩和する。 従来の生成リプレイでは、生成モデルは古いデータに対して事前訓練され、後続の漸進学習のために余分なメモリで共有される。 提案するdf-grでは,事前学習した分類モデルに基づいて,トレーニングデータを用いずにゼロから生成モデルを訓練し,事前学習した生成モデルを共有するコストを削減した。 次に,2人の教師から1人の生徒に知識蒸留を行うための2つの教員情報蒸留(DT-ID)を導入する。 CILでは、DT-IDを使用して、古いクラスの事前学習モデルと新しいクラスの新しいデータに基づいて訓練された別のモデルに基づいて、段階的に新しいクラスを学ぶ。 提案手法を最先端のCIL手法の1つ上に実装し,CIFAR-100およびImageNetデータセットの性能改善を示した。

This paper proposes two novel knowledge transfer techniques for class-incremental learning (CIL). First, we propose data-free generative replay (DF-GR) to mitigate catastrophic forgetting in CIL by using synthetic samples from a generative model. In the conventional generative replay, the generative model is pre-trained for old data and shared in extra memory for later incremental learning. In our proposed DF-GR, we train a generative model from scratch without using any training data, based on the pre-trained classification model from the past, so we curtail the cost of sharing pre-trained generative models. Second, we introduce dual-teacher information distillation (DT-ID) for knowledge distillation from two teachers to one student. In CIL, we use DT-ID to learn new classes incrementally based on the pre-trained model for old classes and another model (pre-)trained on the new data for new classes. We implemented the proposed schemes on top of one of the state-of-the-art CIL methods and showed the performance improvement on CIFAR-100 and ImageNet datasets.
翻訳日:2021-06-21 14:11:59 公開日:2021-06-17
# DeepLab2: ディープラベリングのためのTensorFlowライブラリ

DeepLab2: A TensorFlow Library for Deep Labeling ( http://arxiv.org/abs/2106.09748v1 )

ライセンス: Link先を確認
Mark Weber, Huiyu Wang, Siyuan Qiao, Jun Xie, Maxwell D. Collins, Yukun Zhu, Liangzhe Yuan, Dahun Kim, Qihang Yu, Daniel Cremers, Laura Leal-Taixe, Alan L. Yuille, Florian Schroff, Hartwig Adam, Liang-Chieh Chen(参考訳) DeepLab2はディープラベリングのためのTensorFlowライブラリで、コンピュータビジョンにおける一般的な高密度ピクセル予測問題に対して、最先端で使いやすいTensorFlowコードベースを提供することを目指している。 DeepLab2には、トレーニング済みのチェックポイントと、モデルトレーニングと評価コードを備えた、最近開発されたDeepLabモデル亜種がすべて含まれています。 DeepLab2の有効性を示すために、ネットワークバックボーンとしてAxial-SWideRNetを使用したPanoptic-DeepLabは、Cityscaspes検証セット上で68.0% PQまたは83.5% mIoUを達成した。 当社のライブラリを公開することで,高密度ピクセルラベリングタスクの今後の研究が促進され,この技術の新たな応用が期待できる。 コードは \url{https://github.com/g oogle-research/deepl ab2} で公開されている。

DeepLab2 is a TensorFlow library for deep labeling, aiming to provide a state-of-the-art and easy-to-use TensorFlow codebase for general dense pixel prediction problems in computer vision. DeepLab2 includes all our recently developed DeepLab model variants with pretrained checkpoints as well as model training and evaluation code, allowing the community to reproduce and further improve upon the state-of-art systems. To showcase the effectiveness of DeepLab2, our Panoptic-DeepLab employing Axial-SWideRNet as network backbone achieves 68.0% PQ or 83.5% mIoU on Cityscaspes validation set, with only single-scale inference and ImageNet-1K pretrained checkpoints. We hope that publicly sharing our library could facilitate future research on dense pixel labeling tasks and envision new applications of this technology. Code is made publicly available at \url{https://github.com/g oogle-research/deepl ab2}.
翻訳日:2021-06-21 14:08:58 公開日:2021-06-17
# ランダムニューラルネットワークの分類のための一般化学習ベクトル量子化と超次元計算

Generalized Learning Vector Quantization for Classification in Randomized Neural Networks and Hyperdimensional Computing ( http://arxiv.org/abs/2106.09821v1 )

ライセンス: Link先を確認
Cameron Diao, Denis Kleyko, Jan M. Rabaey, Bruno A. Olshausen(参考訳) エッジデバイスにデプロイされる機械学習アルゴリズムは、リソースの制約と効率要件を満たす必要がある。 ランダムベクトル関数リンク(RVFL)ネットワークは、設計と訓練の効率化のために、そのような用途に好まれる。 トレーニング中に計算コストのかかる行列操作を回避し,ネットワークの潜在的な応用範囲を広げる改良RVFLネットワークを提案する。 この修正は、最小二乗分類器を一般化学習ベクトル量子化(glvq)分類器に置き換え、単純なベクトルと距離計算のみを用いる。 GLVQ分類器は、超次元コンピューティングの分野で広く使われている特定の分類アルゴリズムの改善とも考えられる。 提案手法は,UCI Machine Learning Repositoryのデータセットの集合に対して,従来提案されていたRVFLネットワークよりも高い最先端の精度を達成した。 さらに,本手法は繰り返しの訓練において高い精度を保ちながら(最小二乗分類器の計算コストの21%しか使用していない),高い精度を保っていることを示す。

Machine learning algorithms deployed on edge devices must meet certain resource constraints and efficiency requirements. Random Vector Functional Link (RVFL) networks are favored for such applications due to their simple design and training efficiency. We propose a modified RVFL network that avoids computationally expensive matrix operations during training, thus expanding the network's range of potential applications. Our modification replaces the least-squares classifier with the Generalized Learning Vector Quantization (GLVQ) classifier, which only employs simple vector and distance calculations. The GLVQ classifier can also be considered an improvement upon certain classification algorithms popularly used in the area of Hyperdimensional Computing. The proposed approach achieved state-of-the-art accuracy on a collection of datasets from the UCI Machine Learning Repository - higher than previously proposed RVFL networks. We further demonstrate that our approach still achieves high accuracy while severely limited in training iterations (using on average only 21% of the least-squares classifier computational costs).
翻訳日:2021-06-21 14:03:52 公開日:2021-06-17
# 確率的未来文脈をもつマルチモードトランス

Multi-mode Transformer Transducer with Stochastic Future Context ( http://arxiv.org/abs/2106.09760v1 )

ライセンス: Link先を確認
Kwangyoun Kim, Felix Wu, Prashant Sridhar, Kyu J. Han, Shinji Watanabe(参考訳) 自動音声認識(ASR)モデルは、周囲の音声情報を文脈として提示する場合、エラーが少なくなる。 残念ながら、より大きな将来のコンテキストを取得すると、レイテンシが高くなる。 スピードと精度の間には必然的なトレードオフがある。 つまり、異なるレイテンシ要件を満たすためには、複数のモデルを格納し、制約の下で最適なモデルを選択する必要があります。 代わりに、より望ましいアプローチは、我々がマルチモードasrと呼ぶ異なる制約に基づいて、動的にレイテンシを調整できる単一のモデルを持つことです。 マルチモードのasrモデルは推論中に様々なレイテンシ要求を満たすことができる -- 大きなレイテンシが受け入れられると、モデルがより長い将来のコンテキストを処理して高い精度を達成でき、また、レイテンシの予算が柔軟でない場合、モデルが将来のコンテキストに依存することは少なくなり、信頼できる精度が得られる。 マルチモードASRを追求するために,各イテレーションで1つのストリーミング構成をサンプリングする簡単なトレーニング手順であるStochastic Future Contextを提案する。 aishell-1とlibrispeechデータセットの広範な実験を通じて、マルチモードasrモデルが、異なるレイテンシー予算でトレーニングされたストリーミングベースラインの競合であることを示した。

Automatic speech recognition (ASR) models make fewer errors when more surrounding speech information is presented as context. Unfortunately, acquiring a larger future context leads to higher latency. There exists an inevitable trade-off between speed and accuracy. Naively, to fit different latency requirements, people have to store multiple models and pick the best one under the constraints. Instead, a more desirable approach is to have a single model that can dynamically adjust its latency based on different constraints, which we refer to as Multi-mode ASR. A Multi-mode ASR model can fulfill various latency requirements during inference -- when a larger latency becomes acceptable, the model can process longer future context to achieve higher accuracy and when a latency budget is not flexible, the model can be less dependent on future context but still achieve reliable accuracy. In pursuit of Multi-mode ASR, we propose Stochastic Future Context, a simple training procedure that samples one streaming configuration in each iteration. Through extensive experiments on AISHELL-1 and LibriSpeech datasets, we show that a Multi-mode ASR model rivals, if not surpasses, a set of competitive streaming baselines trained with different latency budgets.
翻訳日:2021-06-21 14:01:56 公開日:2021-06-17
# disinformation, stochastic harm, and costly filtering: a principal-agent analysis of regulating social media platforms

Disinformation, Stochastic Harm, and Costly Filtering: A Principal-Agent Analysis of Regulating Social Media Platforms ( http://arxiv.org/abs/2106.09847v1 )

ライセンス: Link先を確認
Shehroze Khan and James R. Wright(参考訳) Facebookなどのソーシャルメディアプラットフォームにおける偽情報の拡散は社会に有害である。 この危害は公共の言説の段階的な劣化の形をとるが、キャピトルヒルでの最近の暴動のような突然の劇的な出来事の形式を取ることもある。 プラットフォーム自体が、関連するデータやそれを使用する専門知識に最適なアクセス権を持つため、偽情報の拡散を防止する最善の位置にある。 しかし、フィルタリングのアルゴリズムの実装や手作業によるフィルタリングを行うためだけでなく、そのようなバイラルなコンテンツを削除することがユーザーの成長と広告収入に影響を及ぼすため、非情報のフィルタリングはコストがかかる。 有害コンテンツのコストは他の団体によって負担されるため、プラットフォームは社会的に最適なレベルでフィルタリングするインセンティブを持たない。 この問題は、企業によって有害事象のコストが直接負担されることがなく、企業の緩和努力が観察不可能であり、有害な結果と特定の失敗との因果関係の証明が困難である環境規制の問題と類似している。 環境規制分野において、この問題の1つの解決策は、企業が所定の規則に従って適切な予防措置をとることを保証するために、コストのかかる監視を行うことである。 しかし、不正情報の分類は実行可能であり、したがって一定のルールは時間とともに効果が低下する。 ドメインをMarkov決定プロセスとしてエンコードすることで、静的なルールに基づくペナルティが、プラットフォームによる適切なフィルタリングをインセンティブ化できることを実証します。 アダプティブ・ルールに基づくペナルティは、最適な努力をインセンティブにすることができるが、直観的には、レギュレータが適切なレベルのフィルタリングを必要とすることによって有害な事象に十分に過度に反応する場合に限る。

The spread of disinformation on social media platforms such as Facebook is harmful to society. This harm can take the form of a gradual degradation of public discourse; but it can also take the form of sudden dramatic events such as the recent insurrection on Capitol Hill. The platforms themselves are in the best position to prevent the spread of disinformation, as they have the best access to relevant data and the expertise to use it. However, filtering disinformation is costly, not only for implementing filtering algorithms or employing manual filtering effort, but also because removing such highly viral content impacts user growth and thus potential advertising revenue. Since the costs of harmful content are borne by other entities, the platform will therefore have no incentive to filter at a socially-optimal level. This problem is similar to the problem of environmental regulation, in which the costs of adverse events are not directly borne by a firm, the mitigation effort of a firm is not observable, and the causal link between a harmful consequence and a specific failure is difficult to prove. In the environmental regulation domain, one solution to this issue is to perform costly monitoring to ensure that the firm takes adequate precautions according a specified rule. However, classifying disinformation is performative, and thus a fixed rule becomes less effective over time. Encoding our domain as a Markov decision process, we demonstrate that no penalty based on a static rule, no matter how large, can incentivize adequate filtering by the platform. Penalties based on an adaptive rule can incentivize optimal effort, but counterintuitively, only if the regulator sufficiently overreacts to harmful events by requiring a greater-than-optimal level of filtering.
翻訳日:2021-06-21 13:59:22 公開日:2021-06-17
# 分散ランダム化ニューラルネットワークにおける超次元計算による圧縮の効果について

On Effects of Compression with Hyperdimensional Computing in Distributed Randomized Neural Networks ( http://arxiv.org/abs/2106.09831v1 )

ライセンス: Link先を確認
Antonello Rosato, Massimo Panella, Evgeny Osipov, Denis Kleyko(参考訳) 一般的な教師あり学習技術の変化は、近い将来、複雑で計算コストのかかるアルゴリズムから、より柔軟で初等的な訓練アルゴリズムへと変化することが予想される。 ランダム化アルゴリズムの強い再活性化は、この視点で考えることができる。 我々は最近,エージェント間の情報交換のコストを考慮した,ランダム化されたニューラルネットワークと超次元計算に基づく分散分類モデルを提案した。 圧縮の使用は、通信ボトルネックに関連する問題に対処するために重要であるが、元々のアプローチは、圧縮の使用方法において厳格である。 そこで本研究では,より柔軟な圧縮手法を提案し,従来の圧縮アルゴリズム,次元低減法,量子化法と比較する。

A change of the prevalent supervised learning techniques is foreseeable in the near future: from the complex, computational expensive algorithms to more flexible and elementary training ones. The strong revitalization of randomized algorithms can be framed in this prospect steering. We recently proposed a model for distributed classification based on randomized neural networks and hyperdimensional computing, which takes into account cost of information exchange between agents using compression. The use of compression is important as it addresses the issues related to the communication bottleneck, however, the original approach is rigid in the way the compression is used. Therefore, in this work, we propose a more flexible approach to compression and compare it to conventional compression algorithms, dimensionality reduction, and quantization techniques.
翻訳日:2021-06-21 13:58:36 公開日:2021-06-17
# デュアルビュー分子プレトレーニング

Dual-view Molecule Pre-training ( http://arxiv.org/abs/2106.10234v1 )

ライセンス: Link先を確認
Jinhua Zhu, Yingce Xia, Tao Qin, Wengang Zhou, Houqiang Li, Tie-Yan Liu(参考訳) 自然言語処理とコンピュータビジョンの成功に触発された事前学習は、特に分子ベースのタスクにおいて、化学情報学やバイオインフォマティクスに大きな注目を集めている。 分子はグラフ(原子が結合している部分)またはSMILES配列(深さ優先探索が特定の規則で分子グラフに適用される部分)で表すことができる。 既存の分子事前学習の研究では、グラフ表現のみまたはSMILES表現のみを使用する。 本研究では,両タイプの分子表現の強みを効果的に組み合わせた,新しい事前学習アルゴリズムである二重視点分子事前学習(DMP)の設計と表現の活用を提案する。 DMPのモデルは、分子のSMILES配列を入力とするTransformerブランチと、分子グラフを入力とするGNNブランチの2つで構成されている。 DMPのトレーニングは、(1)トランスフォーマーブランチによるSMILESシーケンスにおけるマスク付きトークンの予測、(2)分子グラフにおけるマスク付き原子の予測、(3)トランスフォーマーブランチとGNNブランチによって出力される2つのハイレベル表現間の一貫性の最大化の3つのタスクを含む。 事前トレーニング後、Transformerブランチ(これは経験的な結果に従って推奨される)、GNNブランチ、あるいは下流タスクの両方を使用できます。 DMPは9つの分子特性予測タスクでテストされ、そのうち7つで最先端のパフォーマンスを達成する。 さらに,3つのレトロシンセシスタスクでDMPをテストし,USPTO-fullデータセットでその状態を実現する。 私たちのコードはまもなくリリースされます。

Inspired by its success in natural language processing and computer vision, pre-training has attracted substantial attention in cheminformatics and bioinformatics, especially for molecule based tasks. A molecule can be represented by either a graph (where atoms are connected by bonds) or a SMILES sequence (where depth-first-search is applied to the molecular graph with specific rules). Existing works on molecule pre-training use either graph representations only or SMILES representations only. In this work, we propose to leverage both the representations and design a new pre-training algorithm, dual-view molecule pre-training (briefly, DMP), that can effectively combine the strengths of both types of molecule representations. The model of DMP consists of two branches: a Transformer branch that takes the SMILES sequence of a molecule as input, and a GNN branch that takes a molecular graph as input. The training of DMP contains three tasks: (1) predicting masked tokens in a SMILES sequence by the Transformer branch, (2) predicting masked atoms in a molecular graph by the GNN branch, and (3) maximizing the consistency between the two high-level representations output by the Transformer and GNN branches separately. After pre-training, we can use either the Transformer branch (this one is recommended according to empirical results), the GNN branch, or both for downstream tasks. DMP is tested on nine molecular property prediction tasks and achieves state-of-the-art performances on seven of them. Furthermore, we test DMP on three retrosynthesis tasks and achieve state-of-the-result on the USPTO-full dataset. Our code will be released soon.
翻訳日:2021-06-21 13:57:03 公開日:2021-06-17
# 貯留層計算によるカオス音響の勾配なし最適化

Gradient-free optimization of chaotic acoustics with reservoir computing ( http://arxiv.org/abs/2106.09780v1 )

ライセンス: Link先を確認
Francisco Huhn and Luca Magri(参考訳) 時間平均音響コスト関数を最小化する設計パラメータを求める多目的最適化法を開発した。 この方法は勾配フリー、モデルインフォームド、エコー状態ネットワークに基づく貯留層計算によるデータ駆動である。 まず, エコー状態ネットワークの予測能力を, 短時間・長時間のダイナミックス予測において解析する。 完全なデータ駆動アーキテクチャとモデル駆動アーキテクチャの両方が、時間的および統計的にカオス音響力学を学ぶことがわかりました。 1つの音響モードを持つ物理的減階モデルでトレーニングを行うと、計算コストを低く保ちながら、エコー状態ネットワークの精度と堅牢性が著しく向上する。 エコー状態ネットワークは、時間平均量を評価するために支配方程式を統合することで、時間的ダイナミクスの正確な予測を提供する。 第二に、エコー状態ネットワークとベイズ法による設計熱音響パラメータ空間の探索を行う。 計算方法は最小限の侵入である。 第3に,ガスタービンやロケットモータの火炎などの熱源との正のフィードバックによって発生するカオス振動の時間平均音響エネルギーを最小化する火炎パラメータの組を求める。 これらの振動は熱音響振動として知られる。 火炎パラメータの最適セットはブルートフォースグリッド探索と同じ精度で見つかるが、収束速度は1桁以上高速である。 この研究は、例えば高忠実度シミュレーションや実験からデータを生成するコストが高いカオスシステムの非侵入的(`hands-off'')最適化の新たな可能性を開く。

We develop a versatile optimization method, which finds the design parameters that minimize time-averaged acoustic cost functionals. The method is gradient-free, model-informed, and data-driven with reservoir computing based on echo state networks. First, we analyse the predictive capabilities of echo state networks both in the short- and long-time prediction of the dynamics. We find that both fully data-driven and model-informed architectures learn the chaotic acoustic dynamics, both time-accurately and statistically. Informing the training with a physical reduced-order model with one acoustic mode markedly improves the accuracy and robustness of the echo state networks, whilst keeping the computational cost low. Echo state networks offer accurate predictions of the long-time dynamics, which would be otherwise expensive by integrating the governing equations to evaluate the time-averaged quantity to optimize. Second, we couple echo state networks with a Bayesian technique to explore the design thermoacoustic parameter space. The computational method is minimally intrusive. Third, we find the set of flame parameters that minimize the time-averaged acoustic energy of chaotic oscillations, which are caused by the positive feedback with a heat source, such as a flame in gas turbines or rocket motors. These oscillations are known as thermoacoustic oscillations. The optimal set of flame parameters is found with the same accuracy as brute-force grid search, but with a convergence rate that is more than one order of magnitude faster. This work opens up new possibilities for non-intrusive (``hands-off'') optimization of chaotic systems, in which the cost of generating data, for example from high-fidelity simulations and experiments, is high.
翻訳日:2021-06-21 13:56:19 公開日:2021-06-17
# wifi信号によるトポロジカルな屋内マッピング

Topological Indoor Mapping through WiFi Signals ( http://arxiv.org/abs/2106.09789v1 )

ライセンス: Link先を確認
Bastian Schaefermeier and Gerd Stumme and Tom Hanika(参考訳) wifiアクセスポイントとwi-fi信号強度を計測できるモバイルデバイスのユビキタスな存在は、屋内のローカライズとマッピングにおける現実世界の応用を可能にする。 特に追加のインフラストラクチャは不要である。 しかし、この分野での以前のアプローチは、厳密なマップ構築プロセス、環境の変化、ハードウェアの違いといった問題によってしばしば妨げられた。 トポロジカルマップに焦点を当てたこれらの問題に取り組む。 これらは、部屋などの離散的な位置とその関係、例えば距離と遷移周波数を表す。 教師なし手法では、WiFi信号強度分布、次元減少、クラスタリングを用いる。 これは、ユーザーがモバイルデバイスを持ち、通常のルーチンに従う設定で使用できる。 我々は,カンファレンスなどの短期屋内イベントの応用を目標としている。

The ubiquitous presence of WiFi access points and mobile devices capable of measuring WiFi signal strengths allow for real-world applications in indoor localization and mapping. In particular, no additional infrastructure is required. Previous approaches in this field were, however, often hindered by problems such as effortful map-building processes, changing environments and hardware differences. We tackle these problems focussing on topological maps. These represent discrete locations, such as rooms, and their relations, e.g., distances and transition frequencies. In our unsupervised method, we employ WiFi signal strength distributions, dimension reduction and clustering. It can be used in settings where users carry mobile devices and follow their normal routine. We aim for applications in short-lived indoor events such as conferences.
翻訳日:2021-06-21 13:55:52 公開日:2021-06-17
# Shuffle Private Stochastic Convex Optimization

Shuffle Private Stochastic Convex Optimization ( http://arxiv.org/abs/2106.09805v1 )

ライセンス: Link先を確認
Albert Cheu and Matthew Joseph and Jieming Mao and Binghui Peng(参考訳) シャッフルプライバシでは、各ユーザがランダム化されたメッセージの集合を信頼できるシャッシャに送信し、シャッシャがランダムにこれらのメッセージを置換する。 このモデルの以前の作業は、手段、ヒストグラム、カウントなどのアルゴリズムプリミティブを計算するために、1ラウンドの通信を使用するプロトコルに重点を置いてきた。 本稿では,確率凸最適化のための対話型シャッフルプロトコルを提案する。 我々の最適化プロトコルは、有界$\ell_2$ノルムのベクトルを和る新しい非インタラクティブプロトコルに依存している。 この和サブルーチンと、ミニバッチ確率勾配降下、加速度勾配降下、ネステロフの平滑化法などの手法を組み合わせることで、局所モデルのそれに対して著しく改善され、時には中央モデルのそれと一致する様々な凸損失関数に対する損失保証を得る。

In shuffle privacy, each user sends a collection of randomized messages to a trusted shuffler, the shuffler randomly permutes these messages, and the resulting shuffled collection of messages must satisfy differential privacy. Prior work in this model has largely focused on protocols that use a single round of communication to compute algorithmic primitives like means, histograms, and counts. In this work, we present interactive shuffle protocols for stochastic convex optimization. Our optimization protocols rely on a new noninteractive protocol for summing vectors of bounded $\ell_2$ norm. By combining this sum subroutine with techniques including mini-batch stochastic gradient descent, accelerated gradient descent, and Nesterov's smoothing method, we obtain loss guarantees for a variety of convex loss functions that significantly improve on those of the local model and sometimes match those of the central model.
翻訳日:2021-06-21 13:55:44 公開日:2021-06-17
# 3次元医用画像登録のためのマルチスケールニューラルode

Multi-scale Neural ODEs for 3D Medical Image Registration ( http://arxiv.org/abs/2106.08493v2 )

ライセンス: Link先を確認
Junshen Xu, Eric Z. Chen, Xiao Chen, Terrence Chen, Shanhui Sun(参考訳) 画像登録は医用画像解析において重要な役割を果たす。 従来の最適化に基づく手法は、計算コストのかかる反復過程による正確な推定を提供する。 ラーニング・トゥ・マップのような深層学習手法はより高速であるが、大きな動きを扱うための精度を改善するために反復的あるいは粗大なアプローチが必要である。 本研究では,多スケールニューラルodeモデルによる登録オプティマイザの学習を提案する。 推論は、従来の勾配降下最適化器と同様の反復勾配更新で構成されるが、ニューラルODEはトレーニングデータから学習し、各イテレーションで効率よく勾配を適応するため、はるかに高速な方法である。 さらに,異なる画像コントラストにまたがる画像の出現変化に対処するために,モーダル非依存的類似度指標を学習することを提案した。 公開データとプライベートデータの両方から得られた複数コントラスト3次元mr画像の文脈における広範囲な実験を通して評価を行い,提案手法の優れた性能を実証した。

Image registration plays an important role in medical image analysis. Conventional optimization based methods provide an accurate estimation due to the iterative process at the cost of expensive computation. Deep learning methods such as learn-to-map are much faster but either iterative or coarse-to-fine approach is required to improve accuracy for handling large motions. In this work, we proposed to learn a registration optimizer via a multi-scale neural ODE model. The inference consists of iterative gradient updates similar to a conventional gradient descent optimizer but in a much faster way, because the neural ODE learns from the training data to adapt the gradient efficiently at each iteration. Furthermore, we proposed to learn a modal-independent similarity metric to address image appearance variations across different image contrasts. We performed evaluations through extensive experiments in the context of multi-contrast 3D MR images from both public and private data sources and demonstrate the superior performance of our proposed methods.
翻訳日:2021-06-21 09:09:54 公開日:2021-06-17
# AIによるRedditポストの人気予測

Predicting the Popularity of Reddit Posts with AI ( http://arxiv.org/abs/2106.07380v2 )

ライセンス: Link先を確認
Juno Kim(参考訳) ソーシャルメディアは、人気の投稿や意見がユーザーの決定や思考プロセスに大きな影響を与え、大きな変化をもたらしている。 例えば、r/wall Streetbetsにインスパイアされた最近のRedditの暴動は、スレッド上の一連の投稿から始まった。 顕著な影響を与える可能性のあるポストの予測は、次のトレンドの準備を可能にする。 本研究の目的は、Reddit投稿の人気を正確に予測できる機械学習モデルを開発することである。 具体的には、そのテキストの内容に基づいて、投稿が受け取るアップボイト数を予測する。 私は、ベースライン線形回帰モデル、ランダムフォレスト回帰モデル、ニューラルネットワークという3つの異なるモデルを実験しました。 私はredditの投稿データをオンラインデータセットから収集し、単一のサブredditとサブredditのコレクションでトレーニングしたモデルのパフォーマンスを分析しました。 その結果,モデル損失の比較において,ニューラルネットワークモデルの性能が最も高かった。 ユーザーが投稿しなければならない反応を通じて、社会的トレンドを予測するために機械学習モデルを使用することで、近い将来のより良いイメージが想像できる。

Social media creates crucial mass changes, as popular posts and opinions cast a significant influence on users' decisions and thought processes. For example, the recent Reddit uprising inspired by r/wallstreetbets which had remarkable economic impact was started with a series of posts on the thread. The prediction of posts that may have a notable impact will allow for the preparation of possible following trends. This study aims to develop a machine learning model capable of accurately predicting the popularity of a Reddit post. Specifically, the model is predicting the number of upvotes a post will receive based on its textual content. I experimented with three different models: a baseline linear regression model, a random forest regression model, and a neural network. I collected Reddit post data from an online data set and analyzed the model's performance when trained on a single subreddit and a collection of subreddits. The results showed that the neural network model performed the best when the loss of the models were compared. With the use of a machine learning model to predict social trends through the reaction users have to post, a better picture of the near future can be envisioned.
翻訳日:2021-06-20 16:11:47 公開日:2021-06-17
# (参考訳) RHNAS: 実現可能なハードウェアとニューラルアーキテクチャ検索 [全文訳有]

RHNAS: Realizable Hardware and Neural Architecture Search ( http://arxiv.org/abs/2106.09180v1 )

ライセンス: CC BY 4.0
Yash Akhauri, Adithya Niranjan, J. Pablo Mu\~noz, Suvadeep Banerjee, Abhijit Davare, Pasquale Cocchini, Anton A. Sorokin, Ravi Iyer, Nilesh Jain(参考訳) 人工知能の急速に進化する分野は、システムの効率を最大化し、生産性の課題に対処するために、ニューラルネットワークアーキテクチャとニューラルアクセラレータを共同設計する自動化アプローチを必要とする。 この広大な空間の合同最適化を可能にするため、差別化可能なNN-HW共同設計への関心が高まっている。 完全な差別化可能な共設計は、最適化されたNN-HW構成を見つけるためのリソース要件を減らしたが、一般的なハードウェアアクセラレーター検索空間に適応できなかった。 これは多くのハードウェアアクセラレーターの探索空間に合成不能な(有意義な)設計が存在するためである。 任意のニューラルネットワーク検索空間を持つ構成可能なハードウェアアクセラレータの,効率的かつ実現可能な共同設計を実現するため,RHNASを提案する。 RHNASは、ハードウェア最適化のための強化学習と、微分可能なニューラルネットワーク探索を組み合わせた手法である。 rhnasは、imagenet上の1.84倍低レイテンシと1.86倍低エネルギー遅延製品(edp)、デフォルトのハードウェアアクセラレーター設計よりも2.81倍低レイテンシ、3.30倍低edpで実現可能なnn-hw設計を発見した。

The rapidly evolving field of Artificial Intelligence necessitates automated approaches to co-design neural network architecture and neural accelerators to maximize system efficiency and address productivity challenges. To enable joint optimization of this vast space, there has been growing interest in differentiable NN-HW co-design. Fully differentiable co-design has reduced the resource requirements for discovering optimized NN-HW configurations, but fail to adapt to general hardware accelerator search spaces. This is due to the existence of non-synthesizable (invalid) designs in the search space of many hardware accelerators. To enable efficient and realizable co-design of configurable hardware accelerators with arbitrary neural network search spaces, we introduce RHNAS. RHNAS is a method that combines reinforcement learning for hardware optimization with differentiable neural architecture search. RHNAS discovers realizable NN-HW designs with 1.84x lower latency and 1.86x lower energy-delay product (EDP) on ImageNet and 2.81x lower latency and 3.30x lower EDP on CIFAR-10 over the default hardware accelerator design.
翻訳日:2021-06-19 07:12:26 公開日:2021-06-17
# (参考訳) レドックスフローバッテリの物理モデルによるcokrigingモデル [全文訳有]

Physics-informed CoKriging model of a redox flow battery ( http://arxiv.org/abs/2106.09188v1 )

ライセンス: CC BY 4.0
Amanda A. Howard, Alexandre M. Tartakovsky(参考訳) レドックスフローバッテリ(RFB)は、大量のエネルギーを安価かつ効率的に貯蔵する能力を提供するが、バッテリー容量と性能を向上させるために、RFBの充電曲線の高速かつ正確なモデルが必要である。 RFBの電荷分配曲線を予測する多相モデルを開発した。 多忠実度モデルでは、実験データに基づいて訓練され、いわゆる「ゼロ次元」物理モデルによって制約される物理インフォームドCoKriging(CoPhIK)機械学習手法を用いる。 本稿では,実験結果と良好に一致し,既存のゼロ次元モデルと比較して有意な改善を示す。 提案モデルは,ゼロ次元モデルにおいて入力パラメータに敏感ではないため,ロバストであることを示す。 また,現在の密度,流量,初期濃度を含む入力パラメータの範囲を正確に予測するためには,少量の高忠実度実験データセットが必要であることも明らかにした。

Redox flow batteries (RFBs) offer the capability to store large amounts of energy cheaply and efficiently, however, there is a need for fast and accurate models of the charge-discharge curve of a RFB to potentially improve the battery capacity and performance. We develop a multifidelity model for predicting the charge-discharge curve of a RFB. In the multifidelity model, we use the Physics-informed CoKriging (CoPhIK) machine learning method that is trained on experimental data and constrained by the so-called "zero-dimensional&quo t; physics-based model. Here we demonstrate that the model shows good agreement with experimental results and significant improvements over existing zero-dimensional models. We show that the proposed model is robust as it is not sensitive to the input parameters in the zero-dimensional model. We also show that only a small amount of high-fidelity experimental datasets are needed for accurate predictions for the range of considered input parameters, which include current density, flow rate, and initial concentrations.
翻訳日:2021-06-19 06:56:40 公開日:2021-06-17
# (参考訳) フォントの知覚的マニフォールド学習 [全文訳有]

Learning Perceptual Manifold of Fonts ( http://arxiv.org/abs/2106.09198v1 )

ライセンス: CC BY 4.0
Haoran Xie and Yuki Fujita and Kazunori Miyata(参考訳) 生成モデルにおける深層学習技術の急速な発展とともに、機械学習と人間の知性を組み合わせて現実的な応用を解決することが緊急の課題となっている。 本研究は,人間の作業者による知覚研究の努力により,機械が生成した文字フォントを調整することを目的としている。 多くのフォントがオンラインで公開されているが、一般ユーザーの好みに合わせてフォントを生成・探索することは困難かつ困難である。 そこで本研究では,フォント生成モデルの潜在空間における知覚調整を可視化するために,フォントの知覚多様体を提案する。 本フレームワークでは,フォント生成のための変分オートエンコーダネットワークを採用する。 次に、生成モデルの多次元潜在空間から生成されたフォントについて知覚的研究を行う。 特定の好みの分布データを得た後,多様体学習手法を用いてフォント分布を可視化する。 従来のユーザインタフェースとは対照的に,提案するフォント探索型ユーザインタフェースは,指定したユーザ嗜好において効率的かつ有用である。

Along the rapid development of deep learning techniques in generative models, it is becoming an urgent issue to combine machine intelligence with human intelligence to solve the practical applications. Motivated by this methodology, this work aims to adjust the machine generated character fonts with the effort of human workers in the perception study. Although numerous fonts are available online for public usage, it is difficult and challenging to generate and explore a font to meet the preferences for common users. To solve the specific issue, we propose the perceptual manifold of fonts to visualize the perceptual adjustment in the latent space of a generative model of fonts. In our framework, we adopt the variational autoencoder network for the font generation. Then, we conduct a perceptual study on the generated fonts from the multi-dimensional latent space of the generative model. After we obtained the distribution data of specific preferences, we utilize manifold learning approach to visualize the font distribution. In contrast to the conventional user interface in our user study, the proposed font-exploring user interface is efficient and helpful in the designated user preference.
翻訳日:2021-06-19 06:37:38 公開日:2021-06-17
# (参考訳) 自閉症スペクトラム障害児のための2段階マルチモーダル感情分析フレームワーク [全文訳有]

A Two-stage Multi-modal Affect Analysis Framework for Children with Autism Spectrum Disorder ( http://arxiv.org/abs/2106.09199v1 )

ライセンス: CC BY 4.0
Jicheng Li, Anjana Bhat, Roghayeh Barmaki(参考訳) 自閉症スペクトラム障害(英語: Autism spectrum disorder、ASD)は、他者の表情を知覚することが困難であり、感情を提示し、伝達し、自身の顔や身体を通して影響を及ぼすことによって、人のコミュニケーションや社会的行動に影響を与える発達障害である。 遊びやゲームを通じて子どもの社会的スキルを改善する一般的な方法である遊び療法において、ASDが与える影響状態を予測し、改善する試みがいくつかなされている。 しかし、以前の多くの研究は、ベンチマーク感情データセットの事前学習モデルのみを使用しており、通常発達中の子供と自閉症児の感情の区別を考慮できなかった。 本稿では,実環境におけるASDの影響状態(陽性,陰性,中性)の3つの主要な影響状態を予測するために,音響的および視覚的手がかりを利用したオープンソースの2段階マルチモーダルアプローチを提案し,72:40%の総合的精度を達成した。 この研究は、2段階のスキーマを提案することによって、ASDに対する人間の専門知識とマシンインテリジェンスを組み合わせる新しい方法を示す。

Autism spectrum disorder (ASD) is a developmental disorder that influences the communication and social behavior of a person in a way that those in the spectrum have difficulty in perceiving other people's facial expressions, as well as presenting and communicating emotions and affect via their own faces and bodies. Some efforts have been made to predict and improve children with ASD's affect states in play therapy, a common method to improve children's social skills via play and games. However, many previous works only used pre-trained models on benchmark emotion datasets and failed to consider the distinction in emotion between typically developing children and children with autism. In this paper, we present an open-source two-stage multi-modal approach leveraging acoustic and visual cues to predict three main affect states of children with ASD's affect states (positive, negative, and neutral) in real-world play therapy scenarios, and achieved an overall accuracy of 72:40%. This work presents a novel way to combine human expertise and machine intelligence for ASD affect recognition by proposing a two-stage schema.
翻訳日:2021-06-19 06:32:09 公開日:2021-06-17
# (参考訳) リアルタイム医用画像分割のための三方向注意ネットワーク [全文訳有]

Trilateral Attention Network for Real-time Medical Image Segmentation ( http://arxiv.org/abs/2106.09201v1 )

ライセンス: CC BY 4.0
Ghada Zamzmi, Vandana Sachdev, and Sameer Antani(参考訳) 医学画像の解剖学的意義のある領域への正確なセグメンテーションは、定量的指標やバイオマーカーの抽出に重要である。 セグメンテーションのための共通パイプラインは、興味検出段階とセグメンテーション段階の領域を含み、互いに独立し、通常、別々のディープラーニングネットワークを使用して実行される。 セグメンテーションステージの性能は,抽出した空間的特徴セットと受容場に大きく依存する。 本稿では,医療画像のリアルタイム検出とセグメンテーションのためのエンドツーエンドネットワークであるtrilateral attention network (tanet)を提案する。 TaNetは、領域ローカライゼーションのためのモジュールと、1)手作りの畳み込みカーネルを持つ手作り経路、2)正規の畳み込みカーネルを持つ詳細経路、3)受容領域を拡大するグローバルパスの3つのセグメンテーション経路を持つ。 最初の2つの経路は、手作りカーネルとレギュラーカーネルによって抽出されたリッチな低レベルの特徴をエンコードし、グローバルパスは高レベルのコンテキスト情報をエンコードする。 異なる特徴セットを用いてネットワークをローカライズとセグメンテーションのために共同でトレーニングすることにより、心臓セグメンテーションのための心エコーデータセットで評価すると、精度と速度の点で優れたパフォーマンスを実現した。 コードとモデルは、TaNet Githubのページで公開される。

Accurate segmentation of medical images into anatomically meaningful regions is critical for the extraction of quantitative indices or biomarkers. The common pipeline for segmentation comprises regions of interest detection stage and segmentation stage, which are independent of each other and typically performed using separate deep learning networks. The performance of the segmentation stage highly relies on the extracted set of spatial features and the receptive fields. In this work, we propose an end-to-end network, called Trilateral Attention Network (TaNet), for real-time detection and segmentation in medical images. TaNet has a module for region localization, and three segmentation pathways: 1) handcrafted pathway with hand-designed convolutional kernels, 2) detail pathway with regular convolutional kernels, and 3) a global pathway to enlarge the receptive field. The first two pathways encode rich handcrafted and low-level features extracted by hand-designed and regular kernels while the global pathway encodes high-level context information. By jointly training the network for localization and segmentation using different sets of features, TaNet achieved superior performance, in terms of accuracy and speed, when evaluated on an echocardiography dataset for cardiac segmentation. The code and models will be made publicly available in TaNet Github page.
翻訳日:2021-06-19 06:20:40 公開日:2021-06-17
# (参考訳) デモンストレーションなしでデモから学ぶ [全文訳有]

Learning from Demonstration without Demonstrations ( http://arxiv.org/abs/2106.09203v1 )

ライセンス: CC BY 4.0
Tom Blau, Gilad Francis, Philippe Morere(参考訳) 最先端強化学習(RL)アルゴリズムは、特にスパース報酬の場合、高いサンプリング複雑性に悩まされる。 この問題を緩和するための一般的な戦略は、一連の専門家のデモを模倣して制御ポリシーを学ぶことである。 このようなアプローチの欠点は、専門家がデモを作成する必要があることだ。 この欠点に対処するために,専門家にアクセスせずにデモンストレーションを自動的に発見する手法であるP2D2を提案する。 探索問題として探索実験を定式化し,素早い探索確率木などの計画アルゴリズムを活用し,実演軌跡を探索する。 これらのデモはポリシーの初期化に使用され、その後汎用RLアルゴリズムによって洗練される。 我々は,P2D2が軌道上で成功したことの理論的保証と,サンプリング複雑性の限界を提供する。 本手法は,古典的および内在的な探索rl技術を,従来の制御とロボット工学のタスクで上回っており,探索サンプルのほんの一部しか必要とせず,漸近的性能が向上している。

State-of-the-art reinforcement learning (RL) algorithms suffer from high sample complexity, particularly in the sparse reward case. A popular strategy for mitigating this problem is to learn control policies by imitating a set of expert demonstrations. The drawback of such approaches is that an expert needs to produce demonstrations, which may be costly in practice. To address this shortcoming, we propose Probabilistic Planning for Demonstration Discovery (P2D2), a technique for automatically discovering demonstrations without access to an expert. We formulate discovering demonstrations as a search problem and leverage widely-used planning algorithms such as Rapidly-exploring Random Tree to find demonstration trajectories. These demonstrations are used to initialize a policy, then refined by a generic RL algorithm. We provide theoretical guarantees of P2D2 finding successful trajectories, as well as bounds for its sampling complexity. We experimentally demonstrate the method outperforms classic and intrinsic exploration RL techniques in a range of classic control and robotics tasks, requiring only a fraction of exploration samples and achieving better asymptotic performance.
翻訳日:2021-06-19 06:10:26 公開日:2021-06-17
# (参考訳) 微調整事前学習言語モデルのハイパーパラメータ最適化に関する実証的研究 [全文訳有]

An Empirical Study on Hyperparameter Optimization for Fine-Tuning Pre-trained Language Models ( http://arxiv.org/abs/2106.09204v1 )

ライセンス: CC BY 4.0
Xueqing Liu, Chi Wang(参考訳) 微調整事前学習言語モデルの性能は、主にハイパーパラメータ構成に依存する。 本稿では,事前学習された言語モデルにおける現代ハイパーパラメータ最適化手法(hpo)の性能について検討する。 まず,GLUEデータセット上での2つの最先端言語モデルの微調整におけるHPOアルゴリズムの性能について検討し,報告する。 時間的予算の不足とオーバーフィットという2つの理由から、hpoが同じ時間的予算を使用すると、グリッド検索を上回らないことが多いことが分かりました。 我々は,HPOの故障事例を系統的にトラブルシュートするための2つの一般的な戦略と実験的手順を提案する。 この手順を適用することで、HPOは検索空間や時間予算においてより適切な設定で成功するが、一部の場合では過度に適合する。 最後に、今後の仕事について提案する。 実装はhttps://github.com/m icrosoft/FLAML/tree/ main/flaml/nlp/で確認できます。

The performance of fine-tuning pre-trained language models largely depends on the hyperparameter configuration. In this paper, we investigate the performance of modern hyperparameter optimization methods (HPO) on fine-tuning pre-trained language models. First, we study and report three HPO algorithms' performances on fine-tuning two state-of-the-art language models on the GLUE dataset. We find that using the same time budget, HPO often fails to outperform grid search due to two reasons: insufficient time budget and overfitting. We propose two general strategies and an experimental procedure to systematically troubleshoot HPO's failure cases. By applying the procedure, we observe that HPO can succeed with more appropriate settings in the search space and time budget; however, in certain cases overfitting remains. Finally, we make suggestions for future work. Our implementation can be found in https://github.com/m icrosoft/FLAML/tree/ main/flaml/nlp/.
翻訳日:2021-06-19 05:48:30 公開日:2021-06-17
# (参考訳) 異なる種類の攻撃に対するベイズニューラルネットワークのロバスト性の評価 [全文訳有]

Evaluating the Robustness of Bayesian Neural Networks Against Different Types of Attacks ( http://arxiv.org/abs/2106.09223v1 )

ライセンス: CC BY 4.0
Yutian Pang, Sheng Cheng, Jueming Hu, Yongming Liu(参考訳) 画像分類タスクにおけるベイズニューラルネットワークのロバスト性向上を評価するために,ベンチマークcnnモデルを基準として,最先端のベイズニューラルネットワークに対する入力摂動と敵意攻撃を行う。 攻撃はcnnベースの機械学習システムに対する信号干渉やサイバー攻撃をシミュレートするために選択される。 その結果,ベイズニューラルネットワークは,決定論的ニューラルネットワークモデルに対して発生する敵の攻撃に対して,敵の訓練を伴わずに,はるかに高い堅牢性を達成することがわかった。 ベイジアン後方は、進行中の悪意ある活動の安全前兆として機能することができる。 さらに、決定論的CNN抽出器の後の確率的分類器は、確率的特徴抽出器よりも十分な頑健性を有することを示した。 これは、安全クリティカルドメイン内の意思決定パイプライン構築における確率的なレイヤの利用を推奨する。

To evaluate the robustness gain of Bayesian neural networks on image classification tasks, we perform input perturbations, and adversarial attacks to the state-of-the-art Bayesian neural networks, with a benchmark CNN model as reference. The attacks are selected to simulate signal interference and cyberattacks towards CNN-based machine learning systems. The result shows that a Bayesian neural network achieves significantly higher robustness against adversarial attacks generated against a deterministic neural network model, without adversarial training. The Bayesian posterior can act as the safety precursor of ongoing malicious activities. Furthermore, we show that the stochastic classifier after the deterministic CNN extractor has sufficient robustness enhancement rather than a stochastic feature extractor before the stochastic classifier. This advises on utilizing stochastic layers in building decision-making pipelines within a safety-critical domain.
翻訳日:2021-06-19 05:30:22 公開日:2021-06-17
# (参考訳) 知識や教養のあるギース? 知識ベースとしての言語モデルの再検討 [全文訳有]

Knowledgeable or Educated Guess? Revisiting Language Models as Knowledge Bases ( http://arxiv.org/abs/2106.09231v1 )

ライセンス: CC BY 4.0
Boxi Cao, Hongyu Lin, Xianpei Han, Le Sun, Lingyong Yan, Meng Liao, Tong Xue, Jin Xu(参考訳) 以前の文献では、BERTのような事前訓練されたマスク付き言語モデル(MLM)が、いくつかのデータセット上で競合する事実知識抽出性能を達成できることが示されており、MLMが信頼できる知識源になり得ることを示している。 本稿では,異なる抽出パラダイム上でのMDMの基本的な予測機構について,厳密な研究を行う。 MLMの振る舞いを調べることで、以前の適切なパフォーマンスは主にデータセットアーティファクトに適合する偏りのあるプロンプトに起因していることがわかった。 さらに,具体的事例と外部コンテキストを取り入れることで,主体型指導と黄金解答リークによる知識予測が向上する。 本研究は,MLMの基盤となる予測メカニズムに光を当て,現在のMLMが信頼性のある事実知識基盤として機能する可能性があるという過去の結論を強く疑うものである。

Previous literatures show that pre-trained masked language models (MLMs) such as BERT can achieve competitive factual knowledge extraction performance on some datasets, indicating that MLMs can potentially be a reliable knowledge source. In this paper, we conduct a rigorous study to explore the underlying predicting mechanisms of MLMs over different extraction paradigms. By investigating the behaviors of MLMs, we find that previous decent performance mainly owes to the biased prompts which overfit dataset artifacts. Furthermore, incorporating illustrative cases and external contexts improve knowledge prediction mainly due to entity type guidance and golden answer leakage. Our findings shed light on the underlying predicting mechanisms of MLMs, and strongly question the previous conclusion that current MLMs can potentially serve as reliable factual knowledge bases.
翻訳日:2021-06-19 05:21:04 公開日:2021-06-17
# (参考訳) text2event: エンドツーエンドイベント抽出のための制御可能なシーケンス間構造生成 [全文訳有]

Text2Event: Controllable Sequence-to-Structur e Generation for End-to-end Event Extraction ( http://arxiv.org/abs/2106.09232v1 )

ライセンス: CC BY 4.0
Yaojie Lu, Hongyu Lin, Jin Xu, Xianpei Han, Jialong Tang, Annan Li, Le Sun, Meng Liao, Shaoyi Chen(参考訳) イベントの抽出は、イベントレコードの複雑な構造と、テキストとイベント間のセマンティックなギャップのために難しい。 従来の方法では通常、複雑な構造予測タスクを複数のサブタスクに分解してイベントレコードを抽出する。 本稿では,テキストからイベントを直接エンドツーエンドに抽出できるシーケンス・ツー・構造生成パラダイムであるText2Eventを提案する。 具体的には,イベント抽出のためのシーケンス間ネットワーク,推論中のイベント知識注入のための制約付き復号アルゴリズム,効率的なモデル学習のためのカリキュラム学習アルゴリズムを設計する。 実験の結果,すべてのタスクを1つのモデルで一様にモデル化し,異なるラベルを普遍的に予測することにより,教師付き学習と転送学習の両方において,記録レベルのアノテーションのみを用いて競争性能を達成できることがわかった。

Event extraction is challenging due to the complex structure of event records and the semantic gap between text and event. Traditional methods usually extract event records by decomposing the complex structure prediction task into multiple subtasks. In this paper, we propose Text2Event, a sequence-to-structur e generation paradigm that can directly extract events from the text in an end-to-end manner. Specifically, we design a sequence-to-structur e network for unified event extraction, a constrained decoding algorithm for event knowledge injection during inference, and a curriculum learning algorithm for efficient model learning. Experimental results show that, by uniformly modeling all tasks in a single model and universally predicting different labels, our method can achieve competitive performance using only record-level annotations in both supervised learning and transfer learning settings.
翻訳日:2021-06-19 05:01:51 公開日:2021-06-17
# (参考訳) 因果的介入による遠隔教師付き実体認識の非バイアス化 [全文訳有]

De-biasing Distantly Supervised Named Entity Recognition via Causal Intervention ( http://arxiv.org/abs/2106.09233v1 )

ライセンス: CC BY 4.0
Wenkai Zhang, Hongyu Lin, Xianpei Han, Le Sun(参考訳) 遠隔監視は、辞書マッチングを通じてトレーニングインスタンスを自動的に生成することで、NERのデータボトルネックに取り組む。 残念なことに、DS-NERの学習は辞書バイアスが強く、急激な相関に苦しむため、学習モデルの有効性と堅牢性を損なう。 本稿では,構造的因果モデル(scm)を用いて辞書バイアスを基礎的に説明し,そのバイアスを辞書内および辞書間バイアスに分類し,その原因を同定する。 SCMに基づいて,因果介入により非バイアスDS-NERを学習する。 辞書内バイアスについては,辞書共同設立者によるスプリアス相関を解消するためにバックドア調整を行う。 辞書間バイアスに対して、DS-NERモデルを辞書の摂動に対してより堅牢にする因果不変正則化器を提案する。 4つのデータセットと3つのDS-NERモデルによる実験により,本手法はDS-NERの性能を大幅に向上できることが示された。

Distant supervision tackles the data bottleneck in NER by automatically generating training instances via dictionary matching. Unfortunately, the learning of DS-NER is severely dictionary-biased, which suffers from spurious correlations and therefore undermines the effectiveness and the robustness of the learned models. In this paper, we fundamentally explain the dictionary bias via a Structural Causal Model (SCM), categorize the bias into intra-dictionary and inter-dictionary biases, and identify their causes. Based on the SCM, we learn de-biased DS-NER via causal interventions. For intra-dictionary bias, we conduct backdoor adjustment to remove the spurious correlations introduced by the dictionary confounder. For inter-dictionary bias, we propose a causal invariance regularizer which will make DS-NER models more robust to the perturbation of dictionaries. Experiments on four datasets and three DS-NER models show that our method can significantly improve the performance of DS-NER.
翻訳日:2021-06-19 04:45:24 公開日:2021-06-17
# (参考訳) 超幾何学的確率モデルによる遠方教師付き名前付きエンティティ認識 [全文訳有]

Denoising Distantly Supervised Named Entity Recognition via a Hypergeometric Probabilistic Model ( http://arxiv.org/abs/2106.09234v1 )

ライセンス: CC BY 4.0
Wenkai Zhang, Hongyu Lin, Xianpei Han, Le Sun, Huidan Liu, Zhicheng Wei, Nicholas Jing Yuan(参考訳) デノナイジングは、遠隔監視に基づくエンティティ認識にとって不可欠なステップである。 従来は、さまざまなデータセットやエンティティタイプに基づくノイズ分布の多様性を無視した、インスタンスレベルの信頼性統計に基づいていた。 これにより、高いノイズレート設定に適応することが困難になる。 本稿では,雑音分布とインスタンスレベルの信頼度を考慮した遠距離教師付きNERの認知アルゴリズムであるHypergeometric Learning (HGL)を提案する。 具体的には、ニューラルネットワークのトレーニング中に、ノイズレートによってパラメータ化されたハイパージオメトリック分布に従って、各バッチ内のノイズサンプルを自然にモデル化する。 そして、前記バッチ内の各インスタンスは、前回のトレーニングステップから得られたラベル信頼度と、このサンプルバッチ内のノイズ分布に基づいて、正しいかノイズのどちらかと見なされる。 実験により、HGLは遠隔監視から取得した弱いラベル付きデータを効果的に復調することができ、訓練されたモデルに大幅な改善をもたらすことが示された。

Denoising is the essential step for distant supervision based named entity recognition. Previous denoising methods are mostly based on instance-level confidence statistics, which ignore the variety of the underlying noise distribution on different datasets and entity types. This makes them difficult to be adapted to high noise rate settings. In this paper, we propose Hypergeometric Learning (HGL), a denoising algorithm for distantly supervised NER that takes both noise distribution and instance-level confidence into consideration. Specifically, during neural network training, we naturally model the noise samples in each batch following a hypergeometric distribution parameterized by the noise-rate. Then each instance in the batch is regarded as either correct or noisy one according to its label confidence derived from previous training step, as well as the noise distribution in this sampled batch. Experiments show that HGL can effectively denoise the weakly-labeled data retrieved from distant supervision, and therefore results in significant improvements on the trained models.
翻訳日:2021-06-19 04:30:53 公開日:2021-06-17
# (参考訳) バイアス付きC4Iアプリケーションにおける知識グラフと機械学習 [全文訳有]

Knowledge Graphs and Machine Learning in biased C4I applications ( http://arxiv.org/abs/2106.09258v1 )

ライセンス: CC BY 4.0
Evangelos Paparidis and Konstantinos Kotis(参考訳) 本稿では、最近AIアプリケーションに現れたバイアスの重要な問題に対する私たちの見解を紹介する。 具体的には、aiアプリケーション、すなわち機械学習とナレッジグラフで使用される現在の技術の組み合わせについて論じ、c4iドメインの偏りのあるアプリケーションへの関与を指摘する。 これは、現在異なるアプリケーションドメインから生じるより広い問題であるが、バイアスは、セキュリティに関連した性質のため、他のc4iでより重要に見える。 C4Iアプリケーションをデバイアス化するためのアクションを提案する一方で、知識グラフとセマンティックWebコミュニティにおけるこのトピックの未熟な側面を認めます。

This paper introduces our position on the critical issue of bias that recently appeared in AI applications. Specifically, we discuss the combination of current technologies used in AI applications i.e., Machine Learning and Knowledge Graphs, and point to their involvement in (de)biased applications of the C4I domain. Although this is a wider problem that currently emerges from different application domains, bias appears more critical in C4I than in others due to its security-related nature. While proposing certain actions to be taken towards debiasing C4I applications, we acknowledge the immature aspect of this topic within the Knowledge Graph and Semantic Web communities.
翻訳日:2021-06-19 04:17:29 公開日:2021-06-17
# (参考訳) MatES:母系ケアのためのWebベースのフォワードチェインエキスパートシステム [全文訳有]

MatES: Web-based Forward Chaining Expert System for Maternal Care ( http://arxiv.org/abs/2106.09281v1 )

ライセンス: CC BY 4.0
Haile Misgna, Moges Ahmed and Anubhav Kumar(参考訳) 母親の合併症を防ぐソリューションは、訓練を受けた医療専門家によって知られ、予防できる。 しかし、エチオピアのような患者と医師の比率が1人から1000人の国では、母親の死亡率と死亡率が高い。 高度に訓練された医療専門家のギャップを埋めるため、エチオピアは健康延長プログラムを導入した。 健康増進労働者(HEW)へのタスクシフトはエチオピアの死亡率と死亡率の低下に寄与した。 知識ギャップは、HEWにとって大きな課題の1つです。 理由は、訓練は定期的に行われておらず、助産婦、婦人科医、医師が相談のためにいるわけではなく、すべてのガイドラインは紙ベースであり、簡単に損傷に晒される。 本稿では,母子ケアのためのWebベースのエキスパートシステムの設計と実装について述べる。 サハラ以南のアフリカで見られる主要な10の疾患と母性健康問題の複雑化のみを目標とした。 専門家システムは、コンピュータやスマートフォンからウェブブラウザを使ってアクセスすることができる。 前方連鎖型ルールベースのエキスパートシステムは、提案と知識ベースから新しい知識を作成するために使用される。 この専門家システムは、母親の健康の分野でヒューの訓練に使用できる。 キーワード:エキスパートシステム、母系ケア、フォワードチェーン、ルールベースエキスパートシステム、PHLIPS

The solution to prevent maternal complications are known and preventable by trained health professionals. But in countries like Ethiopia where the patient to physician ratio is 1 doctor to 1000 patients, maternal mortality and morbidity rate is high. To fill the gap of highly trained health professionals, Ethiopia introduced health extension programs. Task shifting to health extension workers (HEWs) contributed in decreasing mortality and morbidity rate in Ethiopia. Knowledge-gap has been one of the major challenges to HEWs. The reasons are trainings are not given in regular manner, there is no midwife, gynecologists or doctors around for consultation, and all guidelines are paper-based which are easily exposed to damage. In this paper, we describe the design and implementation of a web-based expert system for maternal care. We only targeted the major 10 diseases and complication of maternal health issues seen in Sub-Saharan Africa. The expert system can be accessed through the use of web browsers from computers as well as smart phones. Forward chaining rule-based expert system is used in order to give suggestions and create a new knowledge from the knowledge-base. This expert system can be used to train HEWs in the field of maternal health. Keywords: expert system, maternal care, forward-chaining, rule-based expert system, PHLIPS
翻訳日:2021-06-19 04:08:20 公開日:2021-06-17
# (参考訳) 自然度解析を用いた視覚立体視品質評価のためのマルチタスク畳み込みニューラルネットワーク [全文訳有]

A Multi-task convolutional neural network for blind stereoscopic image quality assessment using naturalness analysis ( http://arxiv.org/abs/2106.09303v1 )

ライセンス: CC BY 4.0
Salima Bourbia (1), Ayoub Karine (2), Aladine Chetouani (3), Mohammed El Hassouni (1 and 4) ((1) LRIT, Mohammed V University in Rabat, Rabat, Morocco, (2) L@bISEN, ISEN Yncrea Ouest, 33 Quater Chemin du Champ de Manoeuvre, 44470 Carquefou, France, (3) Laboratoire PRISME, Universite d'Orl\'eans, France, (4) FLSH, Mohammed V University in Rabat, Rabat, Morocco)(参考訳) 本稿では,新しいマルチタスク深層学習手法を用いた視覚ステレオ画像品質評価(NR-SIQA)の問題に対処する。 立体視の分野では、情報は両眼現象と同様に左右の視点の間でかなり分布する。 本研究では,これらの特徴を統合し,畳み込みニューラルネットワークによる参照のない立体画像の品質を推定する。 本手法は,ステレオ画像に適応した自然度解析に基づく特徴量予測と,その品質予測の2つのタスクを主課題とする。 前者、いわゆる補助タスクは、品質予測を改善するために、より堅牢で関連する機能を見つけることを目的としている。 そこで我々は,複雑なウェーブレット領域における自然シーン統計モデルを用いて自然性に基づく特徴量を計算する。 立体画像間の統計的依存関係を捉えることができる。 LIVE PHASE I と LIVE PHASE II のデータベース上で実験を行った。 その結果,最新技術との比較において,本手法の妥当性が示された。 私たちのコードは \url{https://github.com/b ourbia-salima/multit ask-cnn-nrsiqa_2021} で利用可能です。

This paper addresses the problem of blind stereoscopic image quality assessment (NR-SIQA) using a new multi-task deep learning based-method. In the field of stereoscopic vision, the information is fairly distributed between the left and right views as well as the binocular phenomenon. In this work, we propose to integrate these characteristics to estimate the quality of stereoscopic images without reference through a convolutional neural network. Our method is based on two main tasks: the first task predicts naturalness analysis based features adapted to stereo images, while the second task predicts the quality of such images. The former, so-called auxiliary task, aims to find more robust and relevant features to improve the quality prediction. To do this, we compute naturalness-based features using a Natural Scene Statistics (NSS) model in the complex wavelet domain. It allows to capture the statistical dependency between pairs of the stereoscopic images. Experiments are conducted on the well known LIVE PHASE I and LIVE PHASE II databases. The results obtained show the relevance of our method when comparing with those of the state-of-the-art. Our code is available online on \url{https://github.com/B ourbia-Salima/multit ask-cnn-nrsiqa_2021}.
翻訳日:2021-06-19 04:03:36 公開日:2021-06-17
# (参考訳) 時系列は特別なシーケンスである:サンプル畳み込みと相互作用による予測 [全文訳有]

Time Series is a Special Sequence: Forecasting with Sample Convolution and Interaction ( http://arxiv.org/abs/2106.09305v1 )

ライセンス: CC BY 4.0
Minhao Liu, Ailing Zeng, Qiuxia Lai, Qiang Xu(参考訳) 時系列データ(英: time series)とは、時系列データの一種で、時系列で記録された観測の集合である。 既存のディープラーニング技術では、時系列分析にジェネリックシーケンスモデル(recurrent neural network、transformer model、temporal convolutional networkなど)を使用する。 例えば、時系列データのダウンサンプリングは、しばしばデータ内のほとんどの情報を保存しますが、テキストシーケンスやDNAシーケンスのような一般的なシーケンスデータには当てはまりません。 本稿では,新しいニューラルネットワークアーキテクチャを提案し,時系列予測問題に適用し,時間的モデリングのための複数の解像度でサンプル畳み込みと相互作用を行う。 提案アーキテクチャであるSCINetは,予測可能性の向上による特徴抽出を容易にする。 実験結果から,SCINetは実世界の時系列予測データセットにまたがる既存ソリューションに対して,大幅な予測精度の向上を実現していることがわかった。 特に、高度な空間モデリング技術を用いることなく、時間空間データセットに対して高いフォアキャスト精度を実現することができる。 私たちのコードとデータは補足資料で示されています。

Time series is a special type of sequence data, a set of observations collected at even intervals of time and ordered chronologically. Existing deep learning techniques use generic sequence models (e.g., recurrent neural network, Transformer model, or temporal convolutional network) for time series analysis, which ignore some of its unique properties. For example, the downsampling of time series data often preserves most of the information in the data, while this is not true for general sequence data such as text sequence and DNA sequence. Motivated by the above, in this paper, we propose a novel neural network architecture and apply it for the time series forecasting problem, wherein we conduct sample convolution and interaction at multiple resolutions for temporal modeling. The proposed architecture, namelySCINet, facilitates extracting features with enhanced predictability. Experimental results show that SCINet achieves significant prediction accuracy improvement over existing solutions across various real-world time series forecasting datasets. In particular, it can achieve high fore-casting accuracy for those temporal-spatial datasets without using sophisticated spatial modeling techniques. Our codes and data are presented in the supplemental material.
翻訳日:2021-06-19 03:54:39 公開日:2021-06-17
# (参考訳) レイヤフォールディング: 活性化線形化を用いたニューラルネットワーク深度低減 [全文訳有]

Layer Folding: Neural Network Depth Reduction using Activation Linearization ( http://arxiv.org/abs/2106.09309v1 )

ライセンス: CC BY 4.0
Amir Ben Dror, Niv Zehngut, Avraham Raviv, Evgeny Artyomov, Ran Vitek and Roy Jevnisek(参考訳) ディープニューラルネットワークの普及にもかかわらず、リソース制約のあるデバイスへの適用性は計算負荷によって制限されている。 現代のデバイスは高いレベルの並列性を示すが、リアルタイムレイテンシはネットワークの深さに依存する。 最近の研究では、特定の深さ以下では、より浅いネットワークの幅は指数関数的に大きくなる必要があるが、ニューラルネットワークが収束を加速し、精度を漸進的に向上させるため、この最小の深さを超えることが想定されている。 これにより、既に訓練済みのディープネットワークを、より浅い形式に変身させるモチベーションが生まれます。 非線形アクティベーションを除去できるかどうかを学習し,連続したリニアレイヤを1つに折り畳む手法を提案する。 我々は, CIFAR-10 と CIFAR-100 で事前訓練されたネットワークに適用し, それら全てを同様の深さの浅い形に変換できることを示す。 最後に、この手法を用いて、ImageNet分類タスク上でMobileNetV2およびEfficientNet-Liteアーキテクチャのより効率的な代替手段を提供する。

Despite the increasing prevalence of deep neural networks, their applicability in resource-constrained devices is limited due to their computational load. While modern devices exhibit a high level of parallelism, real-time latency is still highly dependent on networks' depth. Although recent works show that below a certain depth, the width of shallower networks must grow exponentially, we presume that neural networks typically exceed this minimal depth to accelerate convergence and incrementally increase accuracy. This motivates us to transform pre-trained deep networks that already exploit such advantages into shallower forms. We propose a method that learns whether non-linear activations can be removed, allowing to fold consecutive linear layers into one. We apply our method to networks pre-trained on CIFAR-10 and CIFAR-100 and find that they can all be transformed into shallower forms that share a similar depth. Finally, we use our method to provide more efficient alternatives to MobileNetV2 and EfficientNet-Lite architectures on the ImageNet classification task.
翻訳日:2021-06-19 03:37:12 公開日:2021-06-17
# (参考訳) 制御可能な信頼度に基づく画像デノイジング [全文訳有]

Controllable Confidence-Based Image Denoising ( http://arxiv.org/abs/2106.09311v1 )

ライセンス: CC BY 4.0
Haley Owsianko, Florian Cassayre and Qiyuan Liang(参考訳) イメージデノイングは古典的な復元問題です。 しかし、現在のディープラーニング手法は一般化と解釈可能性の問題に直面している。 これらの問題を解決するため,本プロジェクトでは,制御可能な信頼度に基づくノイズ除去が可能なフレームワークを提案する。 このフレームワークは、2つの異なる画像の融合に基づいており、どちらも同じノイズ入力から派生している。 そのうちの1つはジェネリックアルゴリズム(例)で識別される。 入力イメージにはほとんど仮定しないガウス(gaussian)は、すべてのシナリオにおいて一般化する。 もう1つはディープラーニングを使って識別され、見られるデータセットでうまく機能する。 周波数領域において2つのコンポーネントをスムーズに融合させる手法のセットを紹介する。 さらに,ユーザが出力を解釈できるように,深層学習ディネーザの信頼性を見積もるとともに,アウト・オブ・ディストリビューションの入力から保護するための融合戦略を提供する。 実験を通じて,提案フレームワークの有効性を異なるユースケースで実証する。

Image denoising is a classic restoration problem. Yet, current deep learning methods are subject to the problems of generalization and interpretability. To mitigate these problems, in this project, we present a framework that is capable of controllable, confidence-based noise removal. The framework is based on the fusion between two different denoised images, both derived from the same noisy input. One of the two is denoised using generic algorithms (e.g. Gaussian), which make few assumptions on the input images, therefore, generalize in all scenarios. The other is denoised using deep learning, performing well on seen datasets. We introduce a set of techniques to fuse the two components smoothly in the frequency domain. Beyond that, we estimate the confidence of a deep learning denoiser to allow users to interpret the output, and provide a fusion strategy that safeguards them against out-of-distribution inputs. Through experiments, we demonstrate the effectiveness of the proposed framework in different use cases.
翻訳日:2021-06-19 03:16:51 公開日:2021-06-17
# (参考訳) バイオインスパイアされた非教師なし表現学習をめざして [全文訳有]

Towards bio-inspired unsupervised representation learning for indoor aerial navigation ( http://arxiv.org/abs/2106.09326v1 )

ライセンス: CC BY 4.0
Ni Wang, Ozan Catal, Tim Verbelen, Matthias Hartmann, Bart Dhoedt(参考訳) GPSを内蔵した屋内環境での航空航法は、まだオープンな課題だ。 ドローンは、よりリッチな視点から環境を認識でき、他の自律プラットフォームよりも厳密な計算とエネルギーの制約がある。 この問題に対処するため,本研究では,生物に触発されたslamとそのドローンナビゲーションシステムへの応用に関する深層学習アルゴリズムを提示する。 本稿では,低次元潜在状態記述子を出力し,知覚的エイリアスに対する感度を軽減し,高効率な組込みハードウェアの開発を行う教師なし表現学習手法を提案する。 設計したアルゴリズムは,室内倉庫環境で収集したデータセット上で評価され,最初の結果は,堅牢な室内空中ナビゲーションの実現可能性を示す。

Aerial navigation in GPS-denied, indoor environments, is still an open challenge. Drones can perceive the environment from a richer set of viewpoints, while having more stringent compute and energy constraints than other autonomous platforms. To tackle that problem, this research displays a biologically inspired deep-learning algorithm for simultaneous localization and mapping (SLAM) and its application in a drone navigation system. We propose an unsupervised representation learning method that yields low-dimensional latent state descriptors, that mitigates the sensitivity to perceptual aliasing, and works on power-efficient, embedded hardware. The designed algorithm is evaluated on a dataset collected in an indoor warehouse environment, and initial results show the feasibility for robust indoor aerial navigation.
翻訳日:2021-06-19 03:02:15 公開日:2021-06-17
# (参考訳) 単純な生成ネットワーク [全文訳有]

A Simple Generative Network ( http://arxiv.org/abs/2106.09330v1 )

ライセンス: CC BY 4.0
Daniel N. Nissani (Nissensohn)(参考訳) 生成ニューラルネットワークは、手書きテキストや自然画像などの複雑な確率分布を模倣することができる。 当初からいくつかのモデルが提案されていた。 それらの中で最も成功したのは、敵対的(GAN)、自動エンコーディング(VAE)、および比較的複雑なアーキテクチャとスキームに基づく。 驚くべきことに、非常に単純なアーキテクチャ(単一のフィードフォワードニューラルネットワーク)と明確な最適化目標(kullback_leibler divergence)が見過ごされていた。 本稿では,そのようなモデル(SGNと略記)が,従来の技術手法と比較して,視覚的,定量的に競合するサンプルを生成できることを実証する。

Generative neural networks are able to mimic intricate probability distributions such as those of handwritten text, natural images, etc. Since their inception several models were proposed. The most successful of these were based on adversarial (GAN), auto-encoding (VAE) and maximum mean discrepancy (MMD) relatively complex architectures and schemes. Surprisingly, a very simple architecture (a single feed-forward neural network) in conjunction with an obvious optimization goal (Kullback_Leibler divergence) was apparently overlooked. This paper demonstrates that such a model (denoted SGN for its simplicity) is able to generate samples visually and quantitatively competitive as compared with the fore-mentioned state of the art methods.
翻訳日:2021-06-19 02:55:55 公開日:2021-06-17
# (参考訳) 遠隔実験とオンライン実践学習のためのバーチャルリアリティに基づくデジタルツインシステム [全文訳有]

Virtual Reality based Digital Twin System for remote laboratories and online practical learning ( http://arxiv.org/abs/2106.09344v1 )

ライセンス: CC0 1.0
Claire Palmer, Ben Roullier, Muhammad Aamir, Leonardo Stella, Uchenna Diala, Ashiq Anjum, Frank Mcquade, Keith Cox and Alex Calvert(参考訳) 現在のパンデミックが示すように、バーチャルリアリティ(VR)やタブレットベースのソリューションのような、リモート学習およびバーチャルラーニングアプリケーションが必要である。 開発者による複雑な学習シナリオの作成には非常に時間がかかり、1年以上かかります。 講師が研究室のチュートリアルのために独自のコンテンツを作成するための簡単な方法を提供する必要がある。 現在、仮想学習アプリケーションの半自動作成を可能にするジェネリックモデルの開発が進められている。 電気実験室チュートリアルのための仮想学習アプリケーションの作成を記述したケーススタディを提示する。

There is a need for remote learning and virtual learning applications such as virtual reality (VR) and tablet-based solutions which the current pandemic has demonstrated. Creating complex learning scenarios by developers is highly time-consuming and can take over a year. There is a need to provide a simple method to enable lecturers to create their own content for their laboratory tutorials. Research is currently being undertaken into developing generic models to enable the semi-automatic creation of a virtual learning application. A case study describing the creation of a virtual learning application for an electrical laboratory tutorial is presented.
翻訳日:2021-06-19 02:47:05 公開日:2021-06-17
# (参考訳) ampチェーングラフモデルの識別性 [全文訳有]

Identifiability of AMP chain graph models ( http://arxiv.org/abs/2106.09350v1 )

ライセンス: CC BY 4.0
Yuhao Wang, Arnab Bhattacharyya(参考訳) 線形構造方程式モデルとガウス図形モデルの共通一般化であるAndersson-Madigan-Pe rlman(AMP)連鎖グラフモデルの同定可能性について検討する。 AMPモデルは、自身が無向グラフであるチェーンコンポーネント上のDAGによって記述される。 既知の鎖成分分解では,鎖成分の残留共分散行列の行列式がトポロジカル順序でモノトン非減少である場合,鎖成分上のDAGが同定可能であることを示す。 この条件はベイズネットの等分散識別性基準を拡張し、行列式から正半定値行列上の任意の超加法関数に一般化することができる。 成分分解が不明な場合には,部分モジュラ関数最小化に基づく多項式時間アルゴリズムを用いて全構造を復元できる条件を記述する。 また,アルゴリズムの性能を既存のベースラインと比較する実験を行った。

We study identifiability of Andersson-Madigan-Pe rlman (AMP) chain graph models, which are a common generalization of linear structural equation models and Gaussian graphical models. AMP models are described by DAGs on chain components which themselves are undirected graphs. For a known chain component decomposition, we show that the DAG on the chain components is identifiable if the determinants of the residual covariance matrices of the chain components are monotone non-decreasing in topological order. This condition extends the equal variance identifiability criterion for Bayes nets, and it can be generalized from determinants to any super-additive function on positive semidefinite matrices. When the component decomposition is unknown, we describe conditions that allow recovery of the full structure using a polynomial time algorithm based on submodular function minimization. We also conduct experiments comparing our algorithm's performance against existing baselines.
翻訳日:2021-06-19 02:40:55 公開日:2021-06-17
# (参考訳) ウェーブレットパック駆動ディープフェイク画像検出 [全文訳有]

Wavelet-Packet Powered Deepfake Image Detection ( http://arxiv.org/abs/2106.09369v1 )

ライセンス: CC BY 4.0
Moritz Wolter and Felix Blanke and Charles Tapley Hoyt and Jochen Garcke(参考訳) ニューラルネットワークがリアルな人工画像を生成するようになるにつれ、映画、音楽、ビデオゲームを改善し、インターネットをより創造的で刺激的な場所にする可能性がある。 しかし同時に、最新の技術は、新しいデジタル方法の嘘をつく可能性を秘めている。 これに応えて、多様な信頼性の高いツールボックスが必要となり、人工画像やその他のコンテンツを識別する。 以前の仕事は、主にピクセル空間 cnn またはフーリエ変換に依存している。 我々の知る限りでは、これまでにウェーブレットに基づくガン分析と検出方法が欠落している。 本稿では,このギャップを埋めることを目的として,gan生成画像解析と検出に対するウェーブレットに基づくアプローチについて述べる。 本手法はffhq,celeba,lsunのソース識別問題に対する評価を行い,性能の向上と競合性を見いだした。

As neural networks become more able to generate realistic artificial images, they have the potential to improve movies, music, video games and make the internet an even more creative and inspiring place. Yet, at the same time, the latest technology potentially enables new digital ways to lie. In response, the need for a diverse and reliable toolbox arises to identify artificial images and other content. Previous work primarily relies on pixel-space CNN or the Fourier transform. To the best of our knowledge, wavelet-based gan analysis and detection methods have been absent thus far. This paper aims to fill this gap and describes a wavelet-based approach to gan-generated image analysis and detection. We evaluate our method on FFHQ, CelebA, and LSUN source identification problems and find improved or competitive performance.
翻訳日:2021-06-19 02:22:12 公開日:2021-06-17
# (参考訳) 現代のニューラルネットワークの校正の暗面について [全文訳有]

On the Dark Side of Calibration for Modern Neural Networks ( http://arxiv.org/abs/2106.09385v1 )

ライセンス: CC BY-SA 4.0
Aditya Singh, Alessandro Bay, Biswa Sengupta, Andrea Mirabile(参考訳) 現代のニューラルネットワークは高度に不完全である。 これは、ディープニューラルネットワーク(DNN)を確実に活用する安全クリティカルシステムにとって、大きな課題となる。 最近提案された多くのアプローチは、DNNキャリブレーションの改善に大きく進歩している。 しかし、歴史的に校正の重要な側面であった改良にはほとんど触れていない。 リファインメントは、ネットワークの正誤予測の分離可能性を示す。 本稿では,モデルキャリブレーションとリファインメントの検証のための理論的,実証的に支持された展示について述べる。 まず,期待校正誤差(ece)の崩壊を予測した信頼性と精細度に示す。 この結果と結びつくことで、正規化に基づくキャリブレーションはモデルの信頼性を損なうことだけに焦点を当てる。 これは論理的にモデルの洗練に対する深刻な欠点である。 我々は、標準データセットにおける様々な技術キャリブレーションアプローチの厳密な経験的評価を通じて、我々の主張を支持する。 ラベルの平滑化やミキサアップなど,多くのキャリブレーション手法が用いられている。 DNNの利便性を低下させる。 自然なデータシフトの下でも、このキャリブレーション抑制トレードオフは、キャリブレーション手法の大部分に当てはまる。 これらの知見は、現代のDNN校正のために取られたいくつかの一般的な経路に対する緊急のふりかえりを呼び起こす。

Modern neural networks are highly uncalibrated. It poses a significant challenge for safety-critical systems to utilise deep neural networks (DNNs), reliably. Many recently proposed approaches have demonstrated substantial progress in improving DNN calibration. However, they hardly touch upon refinement, which historically has been an essential aspect of calibration. Refinement indicates separability of a network's correct and incorrect predictions. This paper presents a theoretically and empirically supported exposition for reviewing a model's calibration and refinement. Firstly, we show the breakdown of expected calibration error (ECE), into predicted confidence and refinement. Connecting with this result, we highlight that regularisation based calibration only focuses on naively reducing a model's confidence. This logically has a severe downside to a model's refinement. We support our claims through rigorous empirical evaluations of many state of the art calibration approaches on standard datasets. We find that many calibration approaches with the likes of label smoothing, mixup etc. lower the utility of a DNN by degrading its refinement. Even under natural data shift, this calibration-refineme nt trade-off holds for the majority of calibration methods. These findings call for an urgent retrospective into some popular pathways taken for modern DNN calibration.
翻訳日:2021-06-19 02:08:38 公開日:2021-06-17
# (参考訳) エンティティアライメントの自己管理手法 [全文訳有]

A Self-supervised Method for Entity Alignment ( http://arxiv.org/abs/2106.09395v1 )

ライセンス: CC BY 4.0
Xiao Liu, Haoyun Hong, Xinghao Wang, Zeyi Chen, Evgeny Kharlamov, Yuxiao Dong, Jie Tang(参考訳) 異なる知識グラフ(kgs)にまたがる等価なエンティティを識別することを目的としたエンティティアライメントは、大規模なkgsを構築する上での基本的な問題である。 開発期間中、正確な調整には監督が必要であると考えられてきた。 自己監督学習の最近の進歩にインスパイアされた私たちは、エンティティアライメントの監督を取り除ける範囲を探求する。 このタスクの既存の教師付きメソッドは、それぞれの正の(ラベル付き)エンティティを互いに近づけることに重点を置いている。 しかし、分析結果から、エンティティアライメントの学習は、サンプル(ラベルなし)の否定を、ポジティブなアライメントペアを近づけるよりも遠くへ押し出すことによって、実際有益であることが示唆された。 我々は、この発見を活用して、2つのKGにまたがる対照的な学習戦略を設計する。 ベンチマークデータセットに関する広範囲な実験により、監視のないselfkgは、最先端の教師付きベースラインと同等の結果をマッチングまたは達成できることが示されている。 SelfKGのパフォーマンスは、自己教師付き学習がKGにおけるエンティティアライメントに大きな可能性をもたらすことを示している。

Entity alignment, aiming to identify equivalent entities across different knowledge graphs (KGs), is a fundamental problem for constructing large-scale KGs. Over the course of its development, supervision has been considered necessary for accurate alignments. Inspired by the recent progress of self-supervised learning, we explore the extent to which we can get rid of supervision for entity alignment. Existing supervised methods for this task focus on pulling each pair of positive (labeled) entities close to each other. However, our analysis suggests that the learning of entity alignment can actually benefit more from pushing sampled (unlabeled) negatives far away than pulling positive aligned pairs close. We present SelfKG by leveraging this discovery to design a contrastive learning strategy across two KGs. Extensive experiments on benchmark datasets demonstrate that SelfKG without supervision can match or achieve comparable results with state-of-the-art supervised baselines. The performance of SelfKG demonstrates self-supervised learning offers great potential for entity alignment in KGs.
翻訳日:2021-06-19 01:53:23 公開日:2021-06-17
# (参考訳) サンプル選択学習によるグラフニューラルネットワークによる認知スコア予測 [全文訳有]

Predicting cognitive scores with graph neural networks through sample selection learning ( http://arxiv.org/abs/2106.09408v1 )

ライセンス: CC BY 4.0
Martin Hanik, Mehmet Arif Demirta\c{s}, Mohammed Amine Gharsallaoui, Islem Rekik(参考訳) 知性と神経活動の関係を分析することは、健康と病気における人間の脳の動作原理を理解する上で最も重要である。 既存の文献では、機能的脳コネクトームは、機械学習モデルを用いて、健康なコホートと無秩序なコホートの知能商(IQ)スコアなどの認知的指標を予測するのに成功している。 しかし、既存の手法では、トポロジカルな性質を無視するベクトル化を通じて脳コネクトーム(すなわちグラフ)を平坦化する。 この制限に対処し、新しいグラフニューラルネットワーク(GNN)にインスパイアされた我々は、脳の接続からIQスコアを予測するための新しい回帰GNNモデル(RegGNN)を設計する。 さらに,対象とする予測タスクから学習すべき最善のサンプルを選択するための,新規で完全モジュール化されたサンプル選択手法を提案する。 しかし,このような深層学習アーキテクチャは計算コストが高いため,未発見サンプルに対して最も高い予測力を持つトレーニングサンプルを選択する方法を学習する \emph{learning-based sample selection} 手法も提案する。 このため、コネクトーム(すなわちそれらの隣接行列)が対称正定値行列錐(SPD)にあるという事実に乗じる。 本研究の結果は,自閉症スペクトラム障害における比較法を上回り,3次元クロスバリデーションを用いた神経定型被験者の競争性能を向上した。 さらに,サンプル選択手法が他の学習手法に一般化されることを示し,GNNアーキテクチャを超えてその有用性を示す。

Analyzing the relation between intelligence and neural activity is of the utmost importance in understanding the working principles of the human brain in health and disease. In existing literature, functional brain connectomes have been used successfully to predict cognitive measures such as intelligence quotient (IQ) scores in both healthy and disordered cohorts using machine learning models. However, existing methods resort to flattening the brain connectome (i.e., graph) through vectorization which overlooks its topological properties. To address this limitation and inspired from the emerging graph neural networks (GNNs), we design a novel regression GNN model (namely RegGNN) for predicting IQ scores from brain connectivity. On top of that, we introduce a novel, fully modular sample selection method to select the best samples to learn from for our target prediction task. However, since such deep learning architectures are computationally expensive to train, we further propose a \emph{learning-based sample selection} method that learns how to choose the training samples with the highest expected predictive power on unseen samples. For this, we capitalize on the fact that connectomes (i.e., their adjacency matrices) lie in the symmetric positive definite (SPD) matrix cone. Our results on full-scale and verbal IQ prediction outperforms comparison methods in autism spectrum disorder cohorts and achieves a competitive performance for neurotypical subjects using 3-fold cross-validation. Furthermore, we show that our sample selection approach generalizes to other learning-based methods, which shows its usefulness beyond our GNN architecture.
翻訳日:2021-06-19 01:20:44 公開日:2021-06-17
# (参考訳) 変分量子分類器のための学習可能な離散的特徴埋め込み [全文訳有]

Trainable Discrete Feature Embeddings for Variational Quantum Classifier ( http://arxiv.org/abs/2106.09415v1 )

ライセンス: CC BY 4.0
Napat Thumwanit, Chayaphol Lortararprasert, Hiroshi Yano, Rudy Raymond(参考訳) 量子分類器はヒルベルト空間の量子優位性を約束する入力データの洗練された埋め込みを提供する。 その利点は、入力を変分量子回路を持つ量子状態に変換する量子特徴マップにある。 最近の研究は、量子ランダムアクセス符号化(QRAC)を用いて、量子ビットが少なくて離散的な特徴をマッピングする方法を示している。 本稿では,qracと量子メトリック学習と呼ばれる量子特徴マップの学習戦略を組み合わせることで,学習可能な量子回路に離散的特徴を埋め込む新しい手法を提案する。 提案するトレーニング可能な埋め込みでは,QRACのような量子ビットが少ないだけでなく,クラスがハードブール関数に基づく入力を分類するQRACの制限を克服する必要がある。 本稿では,実世界のデータセットの分類において,より優れた性能を達成するために変分量子分類器での利用を数値的に示し,量子機械学習に短期量子コンピュータを活用する可能性を示す。

Quantum classifiers provide sophisticated embeddings of input data in Hilbert space promising quantum advantage. The advantage stems from quantum feature maps encoding the inputs into quantum states with variational quantum circuits. A recent work shows how to map discrete features with fewer quantum bits using Quantum Random Access Coding (QRAC), an important primitive to encode binary strings into quantum states. We propose a new method to embed discrete features with trainable quantum circuits by combining QRAC and a recently proposed strategy for training quantum feature map called quantum metric learning. We show that the proposed trainable embedding requires not only as few qubits as QRAC but also overcomes the limitations of QRAC to classify inputs whose classes are based on hard Boolean functions. We numerically demonstrate its use in variational quantum classifiers to achieve better performances in classifying real-world datasets, and thus its possibility to leverage near-term quantum computers for quantum machine learning.
翻訳日:2021-06-19 00:57:13 公開日:2021-06-17
# (参考訳) CRIL:生成・予測モデルによる継続型ロボット模倣学習 [全文訳有]

CRIL: Continual Robot Imitation Learning via Generative and Prediction Model ( http://arxiv.org/abs/2106.09422v1 )

ライセンス: CC BY 4.0
Chongkai Gao, Haichuan Gao, Shangqi Guo, Tianren Zhang, and Feng Chen(参考訳) 模倣学習(il)アルゴリズムは、ロボットが専門家のデモンストレーションからスキルを学ぶ有望な結果を示している。 しかし、現在多様なタスクを学ばなければならない多用途ロボットにとっては、同時にマルチタスクのデモを提供し、学習することは、どちらも難しい。 そこで本研究では,ロボットが1つずつ新しいタスクを継続的に学習し,マルチタスクILの負担を軽減し,同時に新しいタスク学習のプロセスを加速する,連続的な模倣学習能力を実現する方法について検討する。 本稿では,創発的逆ネットワークとダイナミクス予測モデルを用いて,新しいタスク学習過程における学習タスクの疑似軌跡を生成し,逐次模倣学習能力を実現する新しい軌道生成モデルを提案する。 本手法の有効性をシミュレーションと実世界操作の両方で実証した。

Imitation learning (IL) algorithms have shown promising results for robots to learn skills from expert demonstrations. However, for versatile robots nowadays that need to learn diverse tasks, providing and learning the multi-task demonstrations all at once are both difficult. To solve this problem, in this work we study how to realize continual imitation learning ability that empowers robots to continually learn new tasks one by one, thus reducing the burden of multi-task IL and accelerating the process of new task learning at the same time. We propose a novel trajectory generation model that employs both a generative adversarial network and a dynamics prediction model to generate pseudo trajectories from all learned tasks in the new task learning process to achieve continual imitation learning ability. Our experiments on both simulation and real world manipulation tasks demonstrate the effectiveness of our method.
翻訳日:2021-06-19 00:36:18 公開日:2021-06-17
# (参考訳) DocNLI: ドキュメントレベルの自然言語推論のための大規模データセット [全文訳有]

DocNLI: A Large-scale Dataset for Document-level Natural Language Inference ( http://arxiv.org/abs/2106.09449v1 )

ライセンス: CC BY 4.0
Wenpeng Yin, Dragomir Radev, Caiming Xiong(参考訳) 自然言語推論(NLI)は、関係抽出、質問応答、要約などの様々なNLP問題を解くための統一的なフレームワークとして定式化されている。 大規模なラベル付きデータセットが利用可能になったため、ここ数年で集中的に研究されている。 しかし、既存の研究の多くは単に文レベルの推論に重点を置いており、これは下流のNLP問題におけるNLIの適用範囲を制限するものである。 この作業はDocNLI – ドキュメントレベルのNLI用の,新たに構築された大規模データセットだ。 DocNLIは幅広いNLP問題から変換され、テキストのジャンルをカバーしている。 前提は常に文書の粒度に留まるが、仮説は単文から数百語の節まで様々である。 さらにDocNLIには、非常に限られたアーティファクトがあり、残念ながらいくつかの一般的な文レベルのNLIデータセットに広く存在している。 実験では,微調整がなくても,DocNLIで事前訓練されたモデルが一般的な文レベルのベンチマークで有望な性能を示し,文書の粒度の推測に依存する領域外NLPタスクによく適応することを示した。 タスク固有の微調整はさらなる改善をもたらす可能性がある。 データ、コード、事前訓練されたモデルはhttps://github.com/s alesforce/DocNLIで見ることができる。

Natural language inference (NLI) is formulated as a unified framework for solving various NLP problems such as relation extraction, question answering, summarization, etc. It has been studied intensively in the past few years thanks to the availability of large-scale labeled datasets. However, most existing studies focus on merely sentence-level inference, which limits the scope of NLI's application in downstream NLP problems. This work presents DocNLI -- a newly-constructed large-scale dataset for document-level NLI. DocNLI is transformed from a broad range of NLP problems and covers multiple genres of text. The premises always stay in the document granularity, whereas the hypotheses vary in length from single sentences to passages with hundreds of words. Additionally, DocNLI has pretty limited artifacts which unfortunately widely exist in some popular sentence-level NLI datasets. Our experiments demonstrate that, even without fine-tuning, a model pretrained on DocNLI shows promising performance on popular sentence-level benchmarks, and generalizes well to out-of-domain NLP tasks that rely on inference at document granularity. Task-specific fine-tuning can bring further improvements. Data, code, and pretrained models can be found at https://github.com/s alesforce/DocNLI.
翻訳日:2021-06-19 00:21:04 公開日:2021-06-17
# (参考訳) DravidianCodeMix: Code-Mixed TextにおけるDravidian言語に対する知覚分析と攻撃言語識別データセット

DravidianCodeMix: Sentiment Analysis and Offensive Language Identification Dataset for Dravidian Languages in Code-Mixed Text ( http://arxiv.org/abs/2106.09460v1 )

ライセンス: CC BY 4.0
Bharathi Raja Chakravarthi, Ruba Priyadharshini, Vigneshwaran Muralidaran, Navya Jose, Shardul Suryawanshi, Elizabeth Sherly, John P. McCrae(参考訳) 本稿では,ソーシャルメディアのコメントから生成された3つの低リソースDravidian言語のための,多言語で手動で注釈付きデータセットの開発について述べる。 このデータセットは6万以上のyoutubeコメントに対して感情分析と攻撃的言語識別のためにアノテートされた。 データセットはタミル語で約44,000のコメント、カナダ語で約7000のコメント、マラヤ語で約20,000のコメントで構成されている。 データはボランティア・アノテータによって手動でアノテーションされ、krippendorff's alphaで高いアノテータ間契約を結んでいる。 データセットは、多言語国からのユーザ生成コンテンツを含むため、あらゆる種類のコード混合現象を含む。 また,機械学習手法を用いてデータセットのベンチマークを確立するためのベースライン実験を行う。 データセットはGithub(https://githu b.com/bharathichzhiy an/DravidianCodeMix- Dataset)とZenodo(https://zenod o.org/record/4750858 \#.YJtw0SYo\0M)で入手できる。

This paper describes the development of a multilingual, manually annotated dataset for three under-resourced Dravidian languages generated from social media comments. The dataset was annotated for sentiment analysis and offensive language identification for a total of more than 60,000 YouTube comments. The dataset consists of around 44,000 comments in Tamil-English, around 7,000 comments in Kannada-English, and around 20,000 comments in Malayalam-English. The data was manually annotated by volunteer annotators and has a high inter-annotator agreement in Krippendorff's alpha. The dataset contains all types of code-mixing phenomena since it comprises user-generated content from a multilingual country. We also present baseline experiments to establish benchmarks on the dataset using machine learning methods. The dataset is available on Github (https://github.com/ bharathichezhiyan/Dr avidianCodeMix-Datas et) and Zenodo (https://zenodo.org/ record/4750858\#.YJt w0SYo\_0M).
翻訳日:2021-06-19 00:07:11 公開日:2021-06-17
# (参考訳) pysentimiento: 感覚分析とSocialNLPタスクのためのPythonツールキット [全文訳有]

pysentimiento: A Python Toolkit for Sentiment Analysis and SocialNLP tasks ( http://arxiv.org/abs/2106.09462v1 )

ライセンス: CC BY 4.0
Juan Manuel P\'erez, Juan Carlos Giudici, Franco Luque(参考訳) テキストからの意見の抽出は、過去数年間で多くの関心を集めており、ソーシャルネットワークやその他の場所では、これまでにない量のユーザー生成コンテンツを経験している。 社会研究者が意見採鉱ツールを使うことで見出す問題は、通常は商用APIの裏側にあり、英語以外の言語では利用できないことである。 これらの問題に対処するため、感性分析や他のソーシャルNLPタスクのための多言語Pythonツールキットpysentimientoを提案する。 このオープンソースのライブラリは、スペイン語と英語の最先端のモデルをブラックボックス方式で提供する。

Extracting opinions from texts has gathered a lot of interest in the last years, as we are experiencing an unprecedented volume of user-generated content in social networks and other places. A problem that social researchers find in using opinion mining tools is that they are usually behind commercial APIs and unavailable for other languages than English. To address these issues, we present pysentimiento, a multilingual Python toolkit for Sentiment Analysis and other Social NLP tasks. This open-source library brings state-of-the-art models for Spanish and English in a black-box fashion, allowing researchers to easily access these techniques.
翻訳日:2021-06-19 00:06:11 公開日:2021-06-17
# (参考訳) プライベートなリモートソースによるセキュアなマルチファンクション計算 [全文訳有]

Secure Multi-Function Computation with Private Remote Sources ( http://arxiv.org/abs/2106.09485v1 )

ライセンス: CC BY 4.0
Onur G\"unl\"u, Matthieu Bloch, and Rafael F. Schaefer(参考訳) 本研究では, リモートソースのノイズを観測する当事者が, コミュニケーションを通じて核融合センターにおける観測関数の計算を容易にする分散関数計算問題を考える。 分散関数の計算には、信頼性やストレージだけでなく、プライバシや機密性など、制約がある。 具体的には、1) リモートソースは、リモートソースのリーク情報の観点から測定された、盗聴者及び融合センターからプライベートであり、2) 計算された関数は、その関数の引数に関するリーク情報の観点から測定された盗聴者から秘密であり、かつ、使用する機能に関係なく機密性を確保する。 損失なし・損失付き単関数計算の厳密なレート領域を導出し、最適補助確率変数をバイナリ入力対称出力チャネルとして特徴付ける情報ボトルネック例の損失性単関数計算率領域を示す。 我々は、マルコフ連鎖条件でのみ異なるレート領域の内界と外界が特徴付けられるような、共同の秘密とプライバシーの制約を伴って、損失のない非同期多重関数計算へのアプローチを拡張した。

We consider a distributed function computation problem in which parties observing noisy versions of a remote source facilitate the computation of a function of their observations at a fusion center through public communication. The distributed function computation is subject to constraints, including not only reliability and storage but also privacy and secrecy. Specifically, 1) the remote source should remain private from an eavesdropper and the fusion center, measured in terms of the information leaked about the remote source; 2) the function computed should remain secret from the eavesdropper, measured in terms of the information leaked about the arguments of the function, to ensure secrecy regardless of the exact function used. We derive the exact rate regions for lossless and lossy single-function computation and illustrate the lossy single-function computation rate region for an information bottleneck example, in which the optimal auxiliary random variables are characterized for binary-input symmetric-output channels. We extend the approach to lossless and lossy asynchronous multiple-function computations with joint secrecy and privacy constraints, in which case inner and outer bounds for the rate regions differing only in the Markov chain conditions imposed are characterized.
翻訳日:2021-06-19 00:01:54 公開日:2021-06-17
# (参考訳) 対角線ネットワークにおけるSGDの必須バイアス-確率性の確率的ベネフィット

Implicit Bias of SGD for Diagonal Linear Networks: a Provable Benefit of Stochasticity ( http://arxiv.org/abs/2106.09524v1 )

ライセンス: CC BY 4.0
Scott Pesme, Loucas Pillaud-Vivien and Nicolas Flammarion(参考訳) 過パラメータニューラルネットワークの成功を説明するためには、トレーニングアルゴリズムの暗黙のバイアスを理解することが重要である。 本稿では, 対角線ネットワーク上での確率勾配勾配のダイナミクスについて, 連続時間, すなわち確率勾配流を用いて検討する。 確率的流れによって選択される解を明示的に特徴付け、勾配流よりも常により良い一般化特性を享受できることを証明する。 非常に驚くべきことに、トレーニング損失の収束速度がバイアス効果の程度、すなわち収束が遅くなるほどバイアスが良くなることを示す。 解析を完全化するために、ダイナミクスの収束保証を提供する。 理論的主張を支持する実験結果も提示する。 本研究は, 構造雑音がより一般化し, 傾きよりも確率的勾配降下の実践において観察されるより大きな性能を説明するのに役立つことを示す。

Understanding the implicit bias of training algorithms is of crucial importance in order to explain the success of overparametrised neural networks. In this paper, we study the dynamics of stochastic gradient descent over diagonal linear networks through its continuous time version, namely stochastic gradient flow. We explicitly characterise the solution chosen by the stochastic flow and prove that it always enjoys better generalisation properties than that of gradient flow. Quite surprisingly, we show that the convergence speed of the training loss controls the magnitude of the biasing effect: the slower the convergence, the better the bias. To fully complete our analysis, we provide convergence guarantees for the dynamics. We also give experimental results which support our theoretical claims. Our findings highlight the fact that structured noise can induce better generalisation and they help explain the greater performances observed in practice of stochastic gradient descent over gradient descent.
翻訳日:2021-06-18 22:28:47 公開日:2021-06-17
# (参考訳) トレーニング中のニューラルネットワーク固有空間の性質と進化を探る [全文訳有]

Exploring the Properties and Evolution of Neural Network Eigenspaces during Training ( http://arxiv.org/abs/2106.09526v1 )

ライセンス: CC BY 4.0
Mats L. Richter Leila Malihi Anne-Kathrin Patricia Windler Ulf Krumnack(参考訳) 本研究では,ロジスティック回帰プローブ \cite{probes} と飽和メトリック \cite{featurespace_saturat ion} を用いてニューラルネットワーク内の情報処理を探索する。 本研究では,ニューラルネットワークの過度なパラメータ化と過度パラメータ化の可能性を開放し,問題難易度とニューラルネットワーク能力が対角的な予測性能に影響を及ぼすことを示す。 さらに, 観察された効果は, \cite{featurespace_saturat ion} に記載された '‘tail pattern'' のような既報の病理パターンとは独立であることを示す。 最後に、飽和パターンがトレーニング中に早期に収束することを示し、分析中により早いサイクルタイムを可能にする。

In this work we explore the information processing inside neural networks using logistic regression probes \cite{probes} and the saturation metric \cite{featurespace_saturat ion}. We show that problem difficulty and neural network capacity affect the predictive performance in an antagonistic manner, opening the possibility of detecting over- and under-parameterizati on of neural networks for a given task. We further show that the observed effects are independent from previously reported pathological patterns like the ``tail pattern'' described in \cite{featurespace_saturat ion}. Finally we are able to show that saturation patterns converge early during training, allowing for a quicker cycle time during analysis
翻訳日:2021-06-18 22:27:43 公開日:2021-06-17
# (参考訳) tf-agentsに基づく振り子スイングアップ問題に対する深層強化学習手法 [全文訳有]

A Deep Reinforcement Learning Approach towards Pendulum Swing-up Problem based on TF-Agents ( http://arxiv.org/abs/2106.09556v1 )

ライセンス: CC BY 4.0
Yifei Bi, Xinyi Chen, Caihui Xiao(参考訳) 深層Q学習エージェントでCartPoleをトレーニングするというアイデアに適応して、ポールが落ちないようにする有望な結果を見つけることができます。 環境とエージェントの相互作用から学ぶための強化学習(rl)の能力は、最適な制御戦略を提供する。 本稿では,学習した振り子を直立位置にしバランスをとるという,古典的な振り子スイングアップ問題を解くことを目的とする。 深い決定論的ポリシーグラディエントアルゴリズムは、この問題において連続的なアクションドメインを操作するために導入された。 コード部分における平均戻り値の増加,損失の減少,ライブビデオの再生により,最適な振り子の有意な結果が証明された。

Adapting the idea of training CartPole with Deep Q-learning agent, we are able to find a promising result that prevent the pole from falling down. The capacity of reinforcement learning (RL) to learn from the interaction between the environment and agent provides an optimal control strategy. In this paper, we aim to solve the classic pendulum swing-up problem that making the learned pendulum to be in upright position and balanced. Deep Deterministic Policy Gradient algorithm is introduced to operate over continuous action domain in this problem. Salient results of optimal pendulum are proved with increasing average return, decreasing loss, and live video in the code part.
翻訳日:2021-06-18 22:20:35 公開日:2021-06-17
# (参考訳) オープンリレーション抽出のための要素介入 [全文訳有]

Element Intervention for Open Relation Extraction ( http://arxiv.org/abs/2106.09558v1 )

ライセンス: CC BY 4.0
Fangchao Liu, Lingyong Yan, Hongyu Lin, Xianpei Han, Le Sun(参考訳) オープンリレーション抽出は, 一般リレーション抽出における重要なステップである, 同じリレーションシップを参照するクラスタリレーションインスタンスを目標とする。 現在のopenreモデルは、遠方の監視から生成されたデータセットで一般的にトレーニングされるため、不安定になり、モデルが容易に崩壊する。 本稿では,openreの手順を因果的視点から再検討する。 構造的因果モデルを用いてopenreを定式化することにより、上記の問題は、エンティティとコンテキストから関係型へのスプリアスな相関に起因することを同定する。 この問題に対処するため、我々は、コンテキストとエンティティにそれぞれ介入する \emph{Element Intervention} を実行し、それらの基礎となる因果効果を得る。 また、エンティティランキングとコンテキストコントラストに基づく介入の2つの具体的な実装も提供する。 教師なし関係抽出データセットの実験結果から,提案手法は従来の最先端手法よりも優れ,異なるデータセット間で堅牢であることが示された。

Open relation extraction aims to cluster relation instances referring to the same underlying relation, which is a critical step for general relation extraction. Current OpenRE models are commonly trained on the datasets generated from distant supervision, which often results in instability and makes the model easily collapsed. In this paper, we revisit the procedure of OpenRE from a causal view. By formulating OpenRE using a structural causal model, we identify that the above-mentioned problems stem from the spurious correlations from entities and context to the relation type. To address this issue, we conduct \emph{Element Intervention}, which intervenes on the context and entities respectively to obtain the underlying causal effects of them. We also provide two specific implementations of the interventions based on entity ranking and context contrasting. Experimental results on unsupervised relation extraction datasets show that our methods outperform previous state-of-the-art methods and are robust across different datasets.
翻訳日:2021-06-18 22:15:06 公開日:2021-06-17
# (参考訳) Macroscaleでの学習について [全文訳有]

On Anytime Learning at Macroscale ( http://arxiv.org/abs/2106.09563v1 )

ライセンス: CC BY 4.0
Lucas Caccia, Jing Xu, Myle Ott, Marc'Aurelio Ranzato, Ludovic Denoyer(参考訳) 古典的な機械学習フレームワークは、予測モデルをトレーニングするために、おそらく大きなデータセットへのアクセスを前提としている。 しかし、多くの実用的なアプリケーションでは、データは一度にすべてではなく、時間とともにバッチで到着する。 これにより、モデル精度と時間との自然なトレードオフが生まれ、そのようなモデルが得られる。 欲深い予測者は、それらが利用可能になるとすぐにバッチでトレーニングすることで、非自明な予測を生成できるが、将来のデータを最適に利用することもできる。 一方、ターディ予測器は、複数のバッチをより大きなデータセットに集約するのを長く待つことができるが、最終的にははるかに優れたパフォーマンスを提供する。 本研究では,ストリーミング学習環境について考察し,マクロスケール(alma)での学習について考察する。 これは、データのチャンクのレベルではなく、大規模なバッチのシーケンス全体のレベルに適用された、任意の時間学習の例である。 まず、この学習設定を定式化し、次に、与えられたメモリと計算予算のタスクに対して、学習者がいかにうまく機能するかを評価するメトリクスを導入し、最後に、マクロスケールで学習するために再利用された標準ベンチマークに対するいくつかのベースラインアプローチをテストする。 一般的な発見は、より大きなモデルは常により一般化されるということだ。 特に、初期モデルが比較的小さい場合、時間とともにモデルの容量を増やすことが重要である。 さらに、中間レートでのモデル更新は、精度と時間の間の最良のトレードオフを伴い、有用な予測器を得る。

Classical machine learning frameworks assume access to a possibly large dataset in order to train a predictive model. In many practical applications however, data does not arrive all at once, but in batches over time. This creates a natural trade-off between accuracy of a model and time to obtain such a model. A greedy predictor could produce non-trivial predictions by immediately training on batches as soon as these become available but, it may also make sub-optimal use of future data. On the other hand, a tardy predictor could wait for a long time to aggregate several batches into a larger dataset, but ultimately deliver a much better performance. In this work, we consider such a streaming learning setting, which we dub {\em anytime learning at macroscale} (ALMA). It is an instance of anytime learning applied not at the level of a single chunk of data, but at the level of the entire sequence of large batches. We first formalize this learning setting, we then introduce metrics to assess how well learners perform on the given task for a given memory and compute budget, and finally we test several baseline approaches on standard benchmarks repurposed for anytime learning at macroscale. The general finding is that bigger models always generalize better. In particular, it is important to grow model capacity over time if the initial model is relatively small. Moreover, updating the model at an intermediate rate strikes the best trade off between accuracy and time to obtain a useful predictor.
翻訳日:2021-06-18 21:57:44 公開日:2021-06-17
# (参考訳) コンテキスト露出によるsiftマッチング [全文訳有]

SIFT Matching by Context Exposed ( http://arxiv.org/abs/2106.09584v1 )

ライセンス: CC BY 4.0
Fabio Bellavia(参考訳) 本稿では、マッチングコンテキスト情報を利用して、ローカル画像記述子マッチングをステップアップする方法を検討する。 2つの主要なコンテキストが識別され、それぞれ記述子空間とキーポイント空間から導かれる。 前者は一般に実際のマッチング戦略の設計に使用され、後者は局所的な空間整合性に応じてフィルタする。 そこで, 新たなマッチング戦略と, それぞれblob matching と delaunay triangulation matching (dtm) と呼ばれる新しい局所空間フィルタを考案した。 ブロブマッチング(Blob matching)は、事前フィルタリングや多対多、対称マッチングなど、いくつかの戦略を統合することで、一般的なマッチングフレームワークを提供する。 DTMはデラウネー三角形の縮約と拡張を交互に切り換えて、キーポイント近傍の整合性を見つけ、調整する。 実験により、DTMは、特に非平面シーンにおいて、精度とロバストさの整合性の観点から、最先端技術よりも同等か優れていることが示された。 提案手法は,提案手法と参照のための共通SIFTマッチング手法を含む,平面と非平面の両方の正しい対応性の観点から,マッチングパイプラインを解析するために考案された新しいベンチマークに基づいて評価を行う。 この評価は、この分野の今後の研究を支援することができる。

This paper investigates how to step up local image descriptor matching by exploiting matching context information. Two main contexts are identified, originated respectively from the descriptor space and from the keypoint space. The former is generally used to design the actual matching strategy while the latter to filter matches according to the local spatial consistency. On this basis, a new matching strategy and a novel local spatial filter, named respectively blob matching and Delaunay Triangulation Matching (DTM) are devised. Blob matching provides a general matching framework by merging together several strategies, including pre-filtering as well as many-to-many and symmetric matching, enabling to achieve a global improvement upon each individual strategy. DTM alternates between Delaunay triangulation contractions and expansions to figure out and adjust keypoint neighborhood consistency. Experimental evaluation shows that DTM is comparable or better than the state-of-the-art in terms of matching accuracy and robustness, especially for non-planar scenes. Evaluation is carried out according to a new benchmark devised for analyzing the matching pipeline in terms of correct correspondences on both planar and non-planar scenes, including state-of-the-art methods as well as the common SIFT matching approach for reference. This evaluation can be of assistance for future research in this field.
翻訳日:2021-06-18 21:40:43 公開日:2021-06-17
# (参考訳) 補助的タスクを用いたエンド・ツー・エンドクロスドメインテキスト・トゥ・SQLセマンティックパーシング [全文訳有]

End-to-End Cross-Domain Text-to-SQL Semantic Parsing with Auxiliary Task ( http://arxiv.org/abs/2106.09588v1 )

ライセンス: CC BY 4.0
Peng Shi, Tao Yu, Patrick Ng, Zhiguo Wang(参考訳) 本研究では、スキーマリンクと値フィリングという、クロスドメインテキストからSQLへのセマンティック解析タスクにおける2つの重要なコンポーネントに焦点を当てる。 モデルがより優れた符号化能力の学習を促すために,明示的な学習目標を用いてエンコーダに関連性マッチング機能を持たせるための列選択補助タスクを提案する。 さらに,既存のゼロショットセマンティックパーザから実世界のアプリケーションへのブリッジ構築のための2つの値フィリング手法を提案する。 spiderの実験により,提案フレームワークはデータベースコンテンツが利用できない場合の実行精度と正確なセット精度のベースラインを改良し,詳細な分析結果が今後の作業に光を当てる。

In this work, we focus on two crucial components in the cross-domain text-to-SQL semantic parsing task: schema linking and value filling. To encourage the model to learn better encoding ability, we propose a column selection auxiliary task to empower the encoder with the relevance matching capability by using explicit learning targets. Furthermore, we propose two value filling methods to build the bridge from the existing zero-shot semantic parsers to real-world applications, considering most of the existing parsers ignore the values filling in the synthesized SQL. With experiments on Spider, our proposed framework improves over the baselines on the execution accuracy and exact set match accuracy when database contents are unavailable, and detailed analysis sheds light on future work.
翻訳日:2021-06-18 20:37:26 公開日:2021-06-17
# (参考訳) ドメイン固有表現とコモンセンス知識を文脈認識注意GRUにモデル化したワクチン感情ツイートの分類 [全文訳有]

Classifying vaccine sentiment tweets by modelling domain-specific representation and commonsense knowledge into context-aware attentive GRU ( http://arxiv.org/abs/2106.09589v1 )

ライセンス: CC BY 4.0
Usman Naseem, Matloob Khushi, Jinman Kim and Adam G. Dunn(参考訳) ワクチンは重要な公衆衛生指標であるが、ワクチンのヘシタシーや拒絶はワクチンのカバレッジが低く、予防接種プログラムの有効性を低下させる可能性がある。 ソーシャルメディアは、地理的な場所やワクチン関連の懸念を詳述することで、ワクチンの受容に対する新たなリスクを推定する機会を提供する。 ワクチン関連ツイートなどのソーシャルメディア投稿の分類方法では、一般的なドメインテキストで訓練された言語モデル(LM)を使用する。 しかし、ワクチンの感情を大規模に測定する課題は、緊張感やジェスチャーがないことから生じ、過去のつぶやきやソーシャルなつながりなど、ユーザーに関する追加情報を持っているとは限らない。 LMのもう1つの課題は、ユーザメタデータ、すなわちエモティコン、肯定的、否定的な単語で明らかなコモンセンス知識の欠如である。 本研究では,ワクチン関連ツイートで訓練されたドメイン特化lmを用いて,文脈に配慮した双方向ゲート型リカレントネットワーク(ck-bigru)に共通知識をモデル化する,相互接続されたコンポーネントからなる新しいエンドツーエンドフレームワークを提案する。 さらに、構文、ユーザーメタデータ、感情情報を利用してツイートの感情を捉えます。 私たちは2つの人気のあるワクチン関連Twitterデータセットを用いて実験を行い、提案手法が予防接種、抗ワクチン、中立的なツイートを識別する最先端のモデルより優れていることを実証した。

Vaccines are an important public health measure, but vaccine hesitancy and refusal can create clusters of low vaccine coverage and reduce the effectiveness of vaccination programs. Social media provides an opportunity to estimate emerging risks to vaccine acceptance by including geographical location and detailing vaccine-related concerns. Methods for classifying social media posts, such as vaccine-related tweets, use language models (LMs) trained on general domain text. However, challenges to measuring vaccine sentiment at scale arise from the absence of tonal stress and gestural cues and may not always have additional information about the user, e.g., past tweets or social connections. Another challenge in LMs is the lack of commonsense knowledge that are apparent in users metadata, i.e., emoticons, positive and negative words etc. In this study, to classify vaccine sentiment tweets with limited information, we present a novel end-to-end framework consisting of interconnected components that use domain-specific LM trained on vaccine-related tweets and models commonsense knowledge into a bidirectional gated recurrent network (CK-BiGRU) with context-aware attention. We further leverage syntactical, user metadata and sentiment information to capture the sentiment of a tweet. We experimented using two popular vaccine-related Twitter datasets and demonstrate that our proposed approach outperforms state-of-the-art models in identifying pro-vaccine, anti-vaccine and neutral tweets.
翻訳日:2021-06-18 20:28:24 公開日:2021-06-17
# (参考訳) 構造非線形ICAを用いた雑音データからの識別可能特徴の特定 [全文訳有]

Disentangling Identifiable Features from Noisy Data with Structured Nonlinear ICA ( http://arxiv.org/abs/2106.09620v1 )

ライセンス: CC BY 4.0
Hermanni H\"alv\"a, Sylvain Le Corff, Luc Leh\'ericy, Jonathan So, Yongjie Zhu, Elisabeth Gassiat, Aapo Hyvarinen(参考訳) 本稿では, SNICA (Structured Nondependent Component Analysis) と呼ばれる, 原理的非絡み合いのための新しい一般化可能なフレームワークを提案する。 我々の貢献は、非常に広い階層構造モデルに対する深層生成モデルの識別可能性理論を拡張することである。 これまでの研究では、時系列モデルの特定のクラスに対する識別可能性を示してきたが、この定理はより一般的な時間構造だけでなく、空間的依存のようなより複雑な構造を持つモデルにも拡張されている。 特に,未知分布の雑音が存在する場合でも,この枠組みの識別性が保持されるという大きな結果が得られた。 したがって、SNICA設定は、時系列の既存の非線形ICAモデルを全て仮定し、さらによりリッチな識別可能なモデルを可能にする。 最後に、我々のフレームワークの柔軟性の例として、非定常性と自己相関の両方を完全に教師なしの環境で考慮し、次元削減を行い、隠蔽状態のモデル化を行い、変動最大化による原理的推定と推論を可能にする、非常に有用な特性を組み合わせた最初の非線形ICAモデルを導入する。

We introduce a new general identifiable framework for principled disentanglement referred to as Structured Nonlinear Independent Component Analysis (SNICA). Our contribution is to extend the identifiability theory of deep generative models for a very broad class of structured models. While previous works have shown identifiability for specific classes of time-series models, our theorems extend this to more general temporal structures as well as to models with more complex structures such as spatial dependencies. In particular, we establish the major result that identifiability for this framework holds even in the presence of noise of unknown distribution. The SNICA setting therefore subsumes all the existing nonlinear ICA models for time-series and also allows for new much richer identifiable models. Finally, as an example of our framework's flexibility, we introduce the first nonlinear ICA model for time-series that combines the following very useful properties: it accounts for both nonstationarity and autocorrelation in a fully unsupervised setting; performs dimensionality reduction; models hidden states; and enables principled estimation and inference by variational maximum-likelihood.
翻訳日:2021-06-18 20:11:53 公開日:2021-06-17
# (参考訳) ディープラーニングを用いたプライバシー保護アイトラッキング [全文訳有]

Privacy-Preserving Eye-tracking Using Deep Learning ( http://arxiv.org/abs/2106.09621v1 )

ライセンス: CC BY-SA 4.0
Salman Seyedi, Zifan Jiang, Allan Levey, Gari D. Clifford(参考訳) ディープラーニングのような複雑な機械学習手法の利用拡大は、人間のアクティビティ認識、特に健康への利用の爆発につながった。 特に、より大きなボディセンサーネットワークシステムの一部として、顔と全身の分析が健康状態を評価するために一般的になりつつある。 しかし、プライベートおよび時には保護されたデータを扱う複雑なモデルは、識別可能なデータの潜在的漏洩に関する懸念を引き起こす。 本研究では,個々の顔の画像に基づいて学習した深層ネットワークモデルの場合に焦点を当てる。 視線追跡による神経機能評価を行う493名の被験者のフルフェイスビデオ撮影を行った。 トレーニングデータのメンバシップを認識するために、サポートベクターマシンエミッション層を付加したディープネットワークの入力として、出力、勾配、中間層出力、損失、ラベルが使用された。 推論攻撃法と関連する数学的解析により,深層学習モデルにおける顔の特徴の意図しない記憶の可能性が低いことを示す。 本研究では,名前付きモデルがトレーニングデータの完全性を維持していることを示す。 同じプロセスは異なるモデルに対して同様の条件で実装することができる。

The expanding usage of complex machine learning methods like deep learning has led to an explosion in human activity recognition, particularly applied to health. In particular, as part of a larger body sensor network system, face and full-body analysis is becoming increasingly common for evaluating health status. However, complex models which handle private and sometimes protected data, raise concerns about the potential leak of identifiable data. In this work, we focus on the case of a deep network model trained on images of individual faces. Full-face video recordings taken from 493 individuals undergoing an eye-tracking based evaluation of neurological function were used. Outputs, gradients, intermediate layer outputs, loss, and labels were used as inputs for a deep network with an added support vector machine emission layer to recognize membership in the training data. The inference attack method and associated mathematical analysis indicate that there is a low likelihood of unintended memorization of facial features in the deep learning model. In this study, it is showed that the named model preserves the integrity of training data with reasonable confidence. The same process can be implemented in similar conditions for different models.
翻訳日:2021-06-18 19:35:25 公開日:2021-06-17
# (参考訳) AttDLNet:3次元LiDAR位置認識のための注意型DLネットワーク [全文訳有]

AttDLNet: Attention-based DL Network for 3D LiDAR Place Recognition ( http://arxiv.org/abs/2106.09637v1 )

ライセンス: CC BY 4.0
Tiago Barros, Lu\'is Garrote, Ricardo Pereira, Cristiano Premebida, Urbano J. Nunes(参考訳) 深層ネットワークは、3dlidarのような新しいセンサーモードに徐々に適応され、位置認識のような自動運転車関連のアプリケーションで前例のない成果をもたらした。 場所認識における深層モデルの主な課題の1つは、その類似性に基づいて場所を関連付ける効率的で記述的な特徴表現を抽出することである。 本稿では,LDARデータを用いた位置認識の課題に対処するため,エンコーダネットワークを含む新しい3次元LiDARベースのディープラーニングネットワーク(AttDLNet)を提案する。 提案するネットワークは,トレーニング用のコサイン損失と,検証のための検索ベースの位置認識パイプラインを用いて,KITTIデータセット上でトレーニングおよび検証を行う。 さらに,最善のネットワーク構成を評価するため,アブレーション研究を行った。 その結果、エンコーダネットワーク機能は、すでに非常に記述性が高いが、ネットワークに注意を向けることにより、パフォーマンスがさらに向上することがわかった。 アブレーション実験の結果,中間エンコーダ層は高い平均性能を示し,深い層は配向変化に対してより堅牢であることがわかった。 コードはプロジェクトのWebサイトで公開されている。 https://github.com/C ybonic/ AttDLNet

Deep networks have been progressively adapted to new sensor modalities, namely to 3D LiDAR, which led to unprecedented achievements in autonomous vehicle-related applications such as place recognition. One of the main challenges of deep models in place recognition is to extract efficient and descriptive feature representations that relate places based on their similarity. To address the problem of place recognition using LiDAR data, this paper proposes a novel 3D LiDAR-based deep learning network (named AttDLNet) that comprises an encoder network and exploits an attention mechanism to selectively focus on long-range context and interfeature relationships. The proposed network is trained and validated on the KITTI dataset, using the cosine loss for training and a retrieval-based place recognition pipeline for validation. Additionally, an ablation study is presented to assess the best network configuration. Results show that the encoder network features are already very descriptive, but adding attention to the network further improves performance. From the ablation study, results indicate that the middle encoder layers have the highest mean performance, while deeper layers are more robust to orientation change. The code is publicly available on the project website: https://github.com/C ybonic/ AttDLNet
翻訳日:2021-06-18 19:26:53 公開日:2021-06-17
# (参考訳) 原型的グラフコントラスト学習 [全文訳有]

Prototypical Graph Contrastive Learning ( http://arxiv.org/abs/2106.09645v1 )

ライセンス: CC0 1.0
Shuai Lin, Pan Zhou, Zi-Yuan Hu, Shuojia Wang, Ruihui Zhao, Yefeng Zheng, Liang Lin, Eric Xing, Xiaodan Liang(参考訳) グラフレベルの表現は、分子の性質を予測するなど、様々な現実世界の応用において重要である。 しかし実際には、正確なグラフアノテーションは一般的に非常に高価で時間を要する。 この問題を解決するために、グラフコントラスト学習は、正のペア(同じグラフの例示ペア)をまとめ、教師なし表現学習のために負のペア(異なるグラフの例示ペア)をプッシュするインスタンス識別タスクを構成する。 しかし、クエリに対して、その負はすべてのグラフから一様にサンプリングされるので、既存のメソッドは、重要なサンプリングバイアスの問題、すなわち、クエリと同一の意味構造を持つ負がパフォーマンスを低下させる可能性に苦しむ。 本稿では,このサンプリングバイアス問題を緩和するために,プロトタイプグラフ比較学習(PGCL)アプローチを提案する。 具体的には、pgclは、同じグループにセマンティクス的に類似したグラフをクラスタリングすることで、グラフデータの基盤となるセマンティクス構造をモデル化し、同時に同じグラフの異なる拡張に対するクラスタリング一貫性を促進する。 そして、クエリが与えられた場合、クエリのクラスタとは異なるクラスタからグラフを描画することで、負のサンプリングを実行し、クエリと負のサンプルとのセマンティックな差異を保証する。 さらに、クエリに対して、PGCLは、そのプロトタイプ(クラスタセントロイド)とクエリプロトタイプの間の距離に基づいて、その負のサンプルをさらに重み付けし、適度なプロトタイプ距離を持つ負が比較的大きな重みを享受できるようにした。 この再加重戦略は均一サンプリングよりも有効であることが証明された。 各種グラフベンチマークにおける実験結果は,最先端手法に対するpgclの利点を検証した。

Graph-level representations are critical in various real-world applications, such as predicting the properties of molecules. But in practice, precise graph annotations are generally very expensive and time-consuming. To address this issue, graph contrastive learning constructs instance discrimination task which pulls together positive pairs (augmentation pairs of the same graph) and pushes away negative pairs (augmentation pairs of different graphs) for unsupervised representation learning. However, since for a query, its negatives are uniformly sampled from all graphs, existing methods suffer from the critical sampling bias issue, i.e., the negatives likely having the same semantic structure with the query, leading to performance degradation. To mitigate this sampling bias issue, in this paper, we propose a Prototypical Graph Contrastive Learning (PGCL) approach. Specifically, PGCL models the underlying semantic structure of the graph data via clustering semantically similar graphs into the same group, and simultaneously encourages the clustering consistency for different augmentations of the same graph. Then given a query, it performs negative sampling via drawing the graphs from those clusters that differ from the cluster of query, which ensures the semantic difference between query and its negative samples. Moreover, for a query, PGCL further reweights its negative samples based on the distance between their prototypes (cluster centroids) and the query prototype such that those negatives having moderate prototype distance enjoy relatively large weights. This reweighting strategy is proved to be more effective than uniform sampling. Experimental results on various graph benchmarks testify the advantages of our PGCL over state-of-the-art methods.
翻訳日:2021-06-18 19:13:48 公開日:2021-06-17
# (参考訳) 低次元演算子に対する機械学習近似による非侵入非線形モデル削減 [全文訳有]

Non-intrusive Nonlinear Model Reduction via Machine Learning Approximations to Low-dimensional Operators ( http://arxiv.org/abs/2106.09658v1 )

ライセンス: CC BY 4.0
Zhe Bai, Liqian Peng(参考訳) パラメータ化された非線形力学系のための射影に基づく還元順序モデル(roms)は、様々なアプリケーションでエキサイティングな結果を示しているが、その幅広い採用は、その侵入性によって制限されている。 そこで本研究では, 従来より侵入的であった減数次モデルが, 非侵入的手法で正確に近似できる手法を提案する。 具体的には、最新の機械学習回帰手法を用いて、プロジェクションベースリダクションモデル(ROM)に関連する低次元演算子を近似する。 シミュレーションコードの唯一の要件は、近似された低次元演算子を訓練するためにこの機能を使用するため、状態とパラメータを与えられた速度をエクスポートする能力である。 非インタラクティビティを実現することに加えて、このアプローチが計算の複雑さを極端に低下させ、最大1000\times$で実行時間を削減できることを実証する。 提案手法が2種類のPDEに対して有効であることを示す。

Although projection-based reduced-order models (ROMs) for parameterized nonlinear dynamical systems have demonstrated exciting results across a range of applications, their broad adoption has been limited by their intrusivity: implementing such a reduced-order model typically requires significant modifications to the underlying simulation code. To address this, we propose a method that enables traditionally intrusive reduced-order models to be accurately approximated in a non-intrusive manner. Specifically, the approach approximates the low-dimensional operators associated with projection-based reduced-order models (ROMs) using modern machine-learning regression techniques. The only requirement of the simulation code is the ability to export the velocity given the state and parameters as this functionality is used to train the approximated low-dimensional operators. In addition to enabling nonintrusivity, we demonstrate that the approach also leads to very low computational complexity, achieving up to $1000\times$ reduction in run time. We demonstrate the effectiveness of the proposed technique on two types of PDEs.
翻訳日:2021-06-18 18:59:19 公開日:2021-06-17
# (参考訳) 統計的形状モデルと畳み込みニューラルネットワークを用いた3次元経直腸超音波画像における前立腺の自動分離 [全文訳有]

Automatic Segmentation of the Prostate on 3D Trans-rectal Ultrasound Images using Statistical Shape Models and Convolutional Neural Networks ( http://arxiv.org/abs/2106.09662v1 )

ライセンス: CC BY 4.0
Golnoosh Samei, Davood Karimi, Claudia Kesch, Septimiu Salcudean(参考訳) 本研究では,畳み込みニューラルネットワーク (cnns) と統計形状モデル (ssms) を用いて, 難治な経直腸超音波 (trus) 画像データセット上で前立腺を分割する手法を提案する。 TRUSは、多くの画像誘導による前立腺への介入に用いられる。 これらの画像における臓器の高速かつ正確なセグメンテーションは、磁気共鳴画像(MRI)などの他のモダリティとの計画と融合に不可欠である。 しかしながら、trusは軟組織コントラストと信号対ノイズ比が限られており、前立腺を分割するのが困難であり、オブザーバ間およびオブザーバ内変動の対象となる。 これは腺の境界が定義が難しい基底と頂点において特に問題となる。 本稿では,前立腺をより正確に構成できる高い軟組織コントラストを有するMRデータセットで学習した形状の事前情報を利用して,この問題に対処することを目的とする。 CNNによって計算された前立腺組織確率マップと組み合わせて, この形状を用いる。

In this work we propose to segment the prostate on a challenging dataset of trans-rectal ultrasound (TRUS) images using convolutional neural networks (CNNs) and statistical shape models (SSMs). TRUS is commonly used for a number of image-guided interventions on the prostate. Fast and accurate segmentation on the organ in these images is crucial to planning and fusion with other modalities such as magnetic resonance images (MRIs) . However, TRUS has limited soft tissue contrast and signal to noise ratio which makes the task of segmenting the prostate challenging and subject to inter-observer and intra-observer variability. This is especially problematic at the base and apex where the gland boundary is hard to define. In this paper, we aim to tackle this problem by taking advantage of shape priors learnt on an MR dataset which has higher soft tissue contrast allowing the prostate to be contoured more accurately. We use this shape prior in combination with a prostate tissue probability map computed by a CNN for segmentation.
翻訳日:2021-06-18 18:17:12 公開日:2021-06-17
# (参考訳) 自然発声によるアルツハイマー認知症に対する音声・語彙・逆流機能を用いたマルチモーダル融合法 [全文訳有]

Multi-modal fusion with gating using audio, lexical and disfluency features for Alzheimer's Dementia recognition from spontaneous speech ( http://arxiv.org/abs/2106.09668v1 )

ライセンス: CC BY 4.0
Morteza Rohanian, Julian Hough, Matthew Purver(参考訳) 本稿では,アルツハイマー病の重症度を音声データから自動予測する手法の開発を目的として,自発的発話(adress)チャレンジによるアルツハイマー認知症認識への提案を行う。 我々は,アルツハイマー病診断とMMSEスコア予測の文脈において,自然発話における認知障害検出のための音響的・自然言語的特徴に着目した。 そこで本研究では,テキストと音声のモダリティごとに異なるLSTMから一様決定を得られるモデルを提案し,最終的な予測にゲーティング機構を用いて組み合わせた。 テキストと音声の逐次モデリングに着目し,個人の発話における不均一性が認知障害の程度に関連しているかを検討した。 その結果,提案する分類と回帰スキームは,開発とテストの両方において非常に有望な結果が得られることがわかった。 このことは、アルツハイマー病が医療セッションの音声データのシーケンスモデリングで正常に検出できることを示唆している。

This paper is a submission to the Alzheimer's Dementia Recognition through Spontaneous Speech (ADReSS) challenge, which aims to develop methods that can assist in the automated prediction of severity of Alzheimer's Disease from speech data. We focus on acoustic and natural language features for cognitive impairment detection in spontaneous speech in the context of Alzheimer's Disease Diagnosis and the mini-mental state examination (MMSE) score prediction. We proposed a model that obtains unimodal decisions from different LSTMs, one for each modality of text and audio, and then combines them using a gating mechanism for the final prediction. We focused on sequential modelling of text and audio and investigated whether the disfluencies present in individuals' speech relate to the extent of their cognitive impairment. Our results show that the proposed classification and regression schemes obtain very promising results on both development and test sets. This suggests Alzheimer's Disease can be detected successfully with sequence modeling of the speech data of medical sessions.
翻訳日:2021-06-18 18:08:23 公開日:2021-06-17
# (参考訳) セルフアテンションによるオープンドメイン映像のオンスクリーン音源分離の改善 [全文訳有]

Improving On-Screen Sound Separation for Open Domain Videos with Audio-Visual Self-attention ( http://arxiv.org/abs/2106.09669v1 )

ライセンス: CC BY 4.0
Efthymios Tzinis, Scott Wisdom, Tal Remez, John R. Hershey(参考訳) そこで本研究では,映像から音を分離し,その音と映像を関連付けることのできる,最先端の映像映像音声分離システムを提案する。 本研究では、時空間的注意の単純さと粗さの解消、音声分離モデルの収束性の低下など、従来の音声視覚的オンスクリーン音源分離の限界を識別する。 提案手法では,より詳細な解像度で視聴覚依存性をキャプチャするクロスモーダルおよびセルフアテンションモジュールと,教師なし事前学習による音声分離モデルを用いて,これらの問題に対処する。 これらの改良により、モデルはより広い範囲の未公開ビデオに一般化できる。 評価と半教師付き学習のために,大規模映像データベース(yfcc100m)から画面上の音声の人間アノテーションを収集した。 以上の結果より,画面上分離性能は従来法よりも向上した。

We introduce a state-of-the-art audio-visual on-screen sound separation system which is capable of learning to separate sounds and associate them with on-screen objects by looking at in-the-wild videos. We identify limitations of previous work on audiovisual on-screen sound separation, including the simplicity and coarse resolution of spatio-temporal attention, and poor convergence of the audio separation model. Our proposed model addresses these issues using cross-modal and self-attention modules that capture audio-visual dependencies at a finer resolution over time, and by unsupervised pre-training of audio separation model. These improvements allow the model to generalize to a much wider set of unseen videos. For evaluation and semi-supervised training, we collected human annotations of on-screen audio from a large database of in-the-wild videos (YFCC100M). Our results show marked improvements in on-screen separation performance, in more general conditions than previous methods.
翻訳日:2021-06-18 17:58:28 公開日:2021-06-17
# (参考訳) ディープネットワークにおける遅延重み制限のための減衰系列を用いた適応型低ランク正則化 [全文訳有]

Adaptive Low-Rank Regularization with Damping Sequences to Restrict Lazy Weights in Deep Networks ( http://arxiv.org/abs/2106.09677v1 )

ライセンス: CC BY 4.0
Mohammad Mahdi Bejani, Mehdi Ghatee(参考訳) オーバーフィッティングはディープニューラルネットワークにおける重要な問題のひとつだ。 多くの正規化スキームは盲目的に過剰に収まるのを防ごうとしている。 しかし、トレーニングアルゴリズムの収束速度を低下させる。 適応正規化スキームは、よりインテリジェントにオーバーフィッティングを解決できる。 通常はネットワーク全体の重みには影響しない。 本稿では,オーバーフィッティングの原因となる重み付け層のサブセットを検出する。 オーバーフィッティングは行列とテンソル条件数によって認識される。 重み付け層のサブセットを低ランク因子化(LRF)に収束させるアダプティブ低ランク(ALR)という適応正規化スキームが提案されている。 これは、新しいTikhonovベースの損失関数を最小化する。 ALRはまた、エポック成長時に遅延重みが正規化に寄与することを奨励する。 ダンピングシーケンスを使用して、最後の世代で層選択の確率を増加させる。 したがって、トレーニング精度が低下する前に、ALRは遅延重みを減らし、ネットワークを実質的に調整する。 実験の結果,alrは深層ネットワークを高いトレーニング速度と低リソース使用率で規則化することがわかった。

Overfitting is one of the critical problems in deep neural networks. Many regularization schemes try to prevent overfitting blindly. However, they decrease the convergence speed of training algorithms. Adaptive regularization schemes can solve overfitting more intelligently. They usually do not affect the entire network weights. This paper detects a subset of the weighting layers that cause overfitting. The overfitting recognizes by matrix and tensor condition numbers. An adaptive regularization scheme entitled Adaptive Low-Rank (ALR) is proposed that converges a subset of the weighting layers to their Low-Rank Factorization (LRF). It happens by minimizing a new Tikhonov-based loss function. ALR also encourages lazy weights to contribute to the regularization when epochs grow up. It uses a damping sequence to increment layer selection likelihood in the last generations. Thus before falling the training accuracy, ALR reduces the lazy weights and regularizes the network substantially. The experimental results show that ALR regularizes the deep networks well with high training speed and low resource usage.
翻訳日:2021-06-18 17:43:54 公開日:2021-06-17
# (参考訳) JOKR:unsupervised cross-domain Motion Retargetingのための共同キーポイント表現

JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion Retargeting ( http://arxiv.org/abs/2106.09679v1 )

ライセンス: CC BY-SA 4.0
Ron Mokady, Rotem Tzaban, Sagie Benaim, Amit H. Bermano and Daniel Cohen-Or(参考訳) ビデオにおける教師なしのモーションリターゲティングのタスクは、ディープニューラルネットワークを使うことで大幅に進歩した。 初期の研究は人間の顔や身体のような特定の対象に焦点を合わせていたが、最近の研究は教師なしのケースと見なされた。 しかし、ソースとターゲットのビデオが異なる形状であれば、現在の手法は失敗する。 この問題を軽減するため、jokr - オブジェクトやデータ収集を必要とせずに、ソースとターゲットビデオの両方に共通する動きをキャプチャする統合キーポイント表現である。 ドメイン混乱項を用いることで,両ビデオの教師なしのキーポイント表現を区別不能に強制する。 これにより、2つのドメインに共通する動きの一部と、その特徴的な外観と動きの間の絡み合いが促進され、他のドメインのスタイルを描きながら1つの動きをキャプチャするビデオを生成することができる。 対象が異なる比例や向きの場合には、JOKR間の学習されたアフィン変換を適用する。 これは表現をアフィン不変量に拡張し、実際には再ターゲティングペアの多様性を広げる。 この幾何学的表現は、時間的コヒーレンスや手動編集のようなより直感的な制御を可能にする。 包括的実験により,提案手法を異なる領域間ビデオペアに適用できることを実証する。 本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。 また,統計的指標とユーザスタディを通して,最先端の代替品と比較して優れた時間的一貫性と視覚品質を示す。 ソースコードとビデオはhttps://rmokady.gith ub.io/JOKR/ で見ることができる。

The task of unsupervised motion retargeting in videos has seen substantial advancements through the use of deep neural networks. While early works concentrated on specific object priors such as a human face or body, recent work considered the unsupervised case. When the source and target videos, however, are of different shapes, current methods fail. To alleviate this problem, we introduce JOKR - a JOint Keypoint Representation that captures the motion common to both the source and target videos, without requiring any object prior or data collection. By employing a domain confusion term, we enforce the unsupervised keypoint representations of both videos to be indistinguishable. This encourages disentanglement between the parts of the motion that are common to the two domains, and their distinctive appearance and motion, enabling the generation of videos that capture the motion of the one while depicting the style of the other. To enable cases where the objects are of different proportions or orientations, we apply a learned affine transformation between the JOKRs. This augments the representation to be affine invariant, and in practice broadens the variety of possible retargeting pairs. This geometry-driven representation enables further intuitive control, such as temporal coherence and manual editing. Through comprehensive experimentation, we demonstrate the applicability of our method to different challenging cross-domain video pairs. We evaluate our method both qualitatively and quantitatively, and demonstrate that our method handles various cross-domain scenarios, such as different animals, different flowers, and humans. We also demonstrate superior temporal coherency and visual quality compared to state-of-the-art alternatives, through statistical metrics and a user study. Source code and videos can be found at https://rmokady.gith ub.io/JOKR/ .
翻訳日:2021-06-18 17:32:42 公開日:2021-06-17
# (参考訳) 説明可能なブースティングによる精度、解釈可能性、差分プライバシー [全文訳有]

Accuracy, Interpretability, and Differential Privacy via Explainable Boosting ( http://arxiv.org/abs/2106.09680v1 )

ライセンス: CC BY 4.0
Harsha Nori, Rich Caruana, Zhiqi Bu, Judy Hanwen Shen, Janardhan Kulkarni(参考訳) 解釈可能なMLモデルをトレーニングする最近の方法であるEBM(Explainable Boosting Machines)に差分プライバシーを追加することで、プライバシを保護しながら最先端の精度が得られることを示す。 複数分類および回帰データセットを用いた実験により,DP-EBMモデルでは,強い差分プライバシー保証を伴っても驚くほど精度の低下がみられた。 DP を EBM に適用する他の2つの利点は、a) 訓練されたモデルは、正確なグローバルかつ局所的な解釈可能性を提供し、これはしばしば、差分プライバシーが必要な設定において重要である。

We show that adding differential privacy to Explainable Boosting Machines (EBMs), a recent method for training interpretable ML models, yields state-of-the-art accuracy while protecting privacy. Our experiments on multiple classification and regression datasets show that DP-EBM models suffer surprisingly little accuracy loss even with strong differential privacy guarantees. In addition to high accuracy, two other benefits of applying DP to EBMs are: a) trained models provide exact global and local interpretability, which is often important in settings where differential privacy is needed; and b) the models can be edited after training without loss of privacy to correct errors which DP noise may have introduced.
翻訳日:2021-06-18 17:31:33 公開日:2021-06-17
# (参考訳) XCiT: クロス共分散画像変換器 [全文訳有]

XCiT: Cross-Covariance Image Transformers ( http://arxiv.org/abs/2106.09681v1 )

ライセンス: CC BY 4.0
Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Herv\'e Jegou(参考訳) 自然言語処理の成功に続いて、トランスフォーマーは最近、コンピュータビジョンに多くの期待を示している。 変圧器に基づく自己注意操作は、すべてのトークン間の大域的な相互作用をもたらす。 単語やイメージパッチは、畳み込みの局所的な相互作用を超えて、柔軟な画像データのモデリングを可能にする。 しかし、この柔軟性は時間とメモリの2倍の複雑さを伴い、長いシーケンスや高解像度画像への応用を妨げる。 そこで我々は,キーとクエリの相互分散行列に基づいて対話を行うトークンではなく,機能チャネルをまたいだセルフアテンションの「移行」バージョンを提案する。 その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。 画像変換器(XCiT)はXCA上に構築されている。 従来の変圧器の精度と畳み込み構造の拡張性を組み合わせたものである。 本稿では,imagenet-1kにおける画像分類と自己教師付き特徴学習,cocoにおけるオブジェクト検出とインスタンスセグメンテーション,ade20kにおける意味セグメンテーションなど,複数の視覚ベンチマークで優れた結果を報告することにより,xcitの有効性と汎用性を検証する。

Following their success in natural language processing, transformers have recently shown much promise for computer vision. The self-attention operation underlying transformers yields global interactions between all tokens ,i.e. words or image patches, and enables flexible modelling of image data beyond the local interactions of convolutions. This flexibility, however, comes with a quadratic complexity in time and memory, hindering application to long sequences and high-resolution images. We propose a "transposed" version of self-attention that operates across feature channels rather than tokens, where the interactions are based on the cross-covariance matrix between keys and queries. The resulting cross-covariance attention (XCA) has linear complexity in the number of tokens, and allows efficient processing of high-resolution images. Our cross-covariance image transformer (XCiT) is built upon XCA. It combines the accuracy of conventional transformers with the scalability of convolutional architectures. We validate the effectiveness and generality of XCiT by reporting excellent results on multiple vision benchmarks, including image classification and self-supervised feature learning on ImageNet-1k, object detection and instance segmentation on COCO, and semantic segmentation on ADE20k.
翻訳日:2021-06-18 17:15:18 公開日:2021-06-17
# (参考訳) どれくらい低いのか - 低精度トレーニングにおけるエラーのトレーディングメモリ [全文訳有]

How Low Can We Go: Trading Memory for Error in Low-Precision Training ( http://arxiv.org/abs/2106.09686v1 )

ライセンス: CC0 1.0
Chengrun Yang, Ziyang Wu, Jerry Chee, Christopher De Sa, Madeleine Udell(参考訳) 低精度算術は、少ないエネルギー、少ないメモリ、少ない時間でディープラーニングモデルを訓練する。 しかし、私たちは貯金の代償を支払っている: 精度が低いとラウンドオフエラーが大きくなり、したがって予測エラーが大きくなる可能性がある。 アプリケーションが成長するにつれて、ユーザは新しいモデルのトレーニングに使用する精度を選択する必要があり、チップメーカーは製造する精度を決定する必要がある。 これらの精度選択をハイパーパラメータチューニング問題として捉え,メモリとエラーのトレードオフを学ぶためにメタラーニングからアイデアを借用する。 本稿では,PEPPP(Pick the Perfect Precision)に対するPareto Estimationを提案する。 ネットワーク評価が限られている非支配的な構成(パレートフロンティア)を見つけるのに行列分解を用いる。 任意のメモリ予算に対して、エラーを最小限にする精度は、このフロンティアのポイントです。 実践者は、フロンティアを使ってメモリをエラーと交換し、目標に対して最適な精度を選択することができます。

Low-precision arithmetic trains deep learning models using less energy, less memory and less time. However, we pay a price for the savings: lower precision may yield larger round-off error and hence larger prediction error. As applications proliferate, users must choose which precision to use to train a new model, and chip manufacturers must decide which precisions to manufacture. We view these precision choices as a hyperparameter tuning problem, and borrow ideas from meta-learning to learn the tradeoff between memory and error. In this paper, we introduce Pareto Estimation to Pick the Perfect Precision (PEPPP). We use matrix factorization to find non-dominated configurations (the Pareto frontier) with a limited number of network evaluations. For any given memory budget, the precision that minimizes error is a point on this frontier. Practitioners can use the frontier to trade memory for error and choose the best precision for their goals.
翻訳日:2021-06-18 16:36:08 公開日:2021-06-17
# テキスト環境の知識グラフに基づく世界モデル学習

Learning Knowledge Graph-based World Models of Textual Environments ( http://arxiv.org/abs/2106.09608v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Mark O. Riedl(参考訳) 世界モデルは、対話的で位置のある環境で効率的に操作する学習エージェントの能力を向上させる。 本研究は,テキストベースのゲーム環境のワールドモデル構築に焦点をあてる。 テキストベースのゲーム(interactive narratives)は、エージェントがテキスト自然言語を使って世界を理解し、対話する強化学習環境である。 これらの環境には、何百もの文字、場所、オブジェクトで満たされた世界を通して、長くて多段階のパズルやクエストが含まれている。 我々の世界モデルは同時に学習する:(1)知識グラフとして世界を表現するときエージェントの行動によって生じる世界の変化を予測する;(2)世界で活動するのに必要な文脈に関連した自然言語アクションのセットを生成する。 このタスクを知識グラフとアクションの固有の構造を利用してシーケンス生成問題の集合として構成し、トランスフォーマティブベースのマルチタスクアーキテクチャと損失関数の両方を導入して学習する。 ゼロショットアブレーション(ゼロショットアブレーション)により,提案手法が既存のテキスト世界モデリング手法をはるかに上回っており,それぞれの貢献の重要性も示している。

World models improve a learning agent's ability to efficiently operate in interactive and situated environments. This work focuses on the task of building world models of text-based game environments. Text-based games, or interactive narratives, are reinforcement learning environments in which agents perceive and interact with the world using textual natural language. These environments contain long, multi-step puzzles or quests woven through a world that is filled with hundreds of characters, locations, and objects. Our world model learns to simultaneously: (1) predict changes in the world caused by an agent's actions when representing the world as a knowledge graph; and (2) generate the set of contextually relevant natural language actions required to operate in the world. We frame this task as a Set of Sequences generation problem by exploiting the inherent structure of knowledge graphs and actions and introduce both a transformer-based multi-task architecture and a loss function to train it. A zero-shot ablation study on never-before-seen textual worlds shows that our methodology significantly outperforms existing textual world modeling techniques as well as the importance of each of our contributions.
翻訳日:2021-06-18 16:16:56 公開日:2021-06-17
# LoRA: 大規模言語モデルの低ランク適応

LoRA: Low-Rank Adaptation of Large Language Models ( http://arxiv.org/abs/2106.09685v1 )

ライセンス: Link先を確認
Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Weizhu Chen(参考訳) 自然言語処理の主要なパラダイムは、一般的なドメインデータに対する大規模な事前学習と、特定のタスクやドメインへの適応である。 大型モデルの事前訓練を行うにつれて、モデルパラメータを再訓練する従来の微調整は実現しにくくなる。 GPT-3 175Bを例として用いて、細調整されたモデルの独立したインスタンスを多数配置する。 本稿では,トレーニング済みモデル重みを凍結し,トレーニング可能な階数分解行列をトランスフォーマーアーキテクチャの各層に注入し,下流タスクのトレーニング可能なパラメータの数を大幅に削減するローランド適応(LoRA)を提案する。 GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。 LoRAは、トレーニング可能なパラメータが少なく、トレーニングのスループットが高く、追加の推論遅延がないにもかかわらず、GPT-3とGPT-2のモデル品質を微調整するより優れている。 また,言語モデル適応におけるランク欠陥に関する実証的研究を行い,LoRAの有効性に光を当てる。 我々はGPT-2の実装をhttps://github.com/m icrosoft/LoRA でリリースします。

The dominant paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, conventional fine-tuning, which retrains all model parameters, becomes less feasible. Using GPT-3 175B as an example, deploying many independent instances of fine-tuned models, each with 175B parameters, is extremely expensive. We propose Low-Rank Adaptation, or LoRA, which freezes the pre-trained model weights and injects trainable rank decomposition matrices into each layer of the Transformer architecture, greatly reducing the number of trainable parameters for downstream tasks. For GPT-3, LoRA can reduce the number of trainable parameters by 10,000 times and the computation hardware requirement by 3 times compared to full fine-tuning. LoRA performs on-par or better than fine-tuning in model quality on both GPT-3 and GPT-2, despite having fewer trainable parameters, a higher training throughput, and no additional inference latency. We also provide an empirical investigation into rank-deficiency in language model adaptations, which sheds light on the efficacy of LoRA. We release our implementation in GPT-2 at https://github.com/m icrosoft/LoRA .
翻訳日:2021-06-18 16:16:36 公開日:2021-06-17
# マルチモーダルからモノモーダルセグメンテーションネットワークへの知識蒸留

Knowledge distillation from multi-modal to mono-modal segmentation networks ( http://arxiv.org/abs/2106.09564v1 )

ライセンス: Link先を確認
Minhao Hu, Matthis Maillard, Ya Zhang, Tommaso Ciceri, Giammarco La Barbera, Isabelle Bloch, Pietro Gori(参考訳) 近年,医用画像分割における複数の画像モダリティの併用が広く研究されている。 異なるモダリティからの情報の融合は、いくつかのアプリケーションにおいて、モノモーダルセグメンテーションに関して、セグメンテーションの精度を向上させることを実証している。 しかし、医師やスキャナーの数が限られているため、臨床環境では複数のモダリティの取得は不可能であり、コストやスキャン時間を制限している。 ほとんどの場合、1つのモダリティのみが取得される。 本稿では,訓練されたマルチモーダルネットワーク(教師)からモノモーダルネットワーク(学生)へ知識を転送するフレームワークであるkd-netを提案する。 提案手法は,教師の入力(nモダリティ)のサブセット(1モダリティ)に基づいて学生ネットワークを訓練する一般蒸留フレームワークの適応である。 我々はBraTS 2018データセットを用いた脳腫瘍セグメント化における提案フレームワークの有効性について述べる。 異なるアーキテクチャを用いて,生徒ネットワークが教師から効果的に学習し,セグメンテーション精度で常にベースラインのモノモーダルネットワークを上回ることを示す。

The joint use of multiple imaging modalities for medical image segmentation has been widely studied in recent years. The fusion of information from different modalities has demonstrated to improve the segmentation accuracy, with respect to mono-modal segmentations, in several applications. However, acquiring multiple modalities is usually not possible in a clinical setting due to a limited number of physicians and scanners, and to limit costs and scan time. Most of the time, only one modality is acquired. In this paper, we propose KD-Net, a framework to transfer knowledge from a trained multi-modal network (teacher) to a mono-modal one (student). The proposed method is an adaptation of the generalized distillation framework where the student network is trained on a subset (1 modality) of the teacher's inputs (n modalities). We illustrate the effectiveness of the proposed framework in brain tumor segmentation with the BraTS 2018 dataset. Using different architectures, we show that the student network effectively learns from the teacher and always outperforms the baseline mono-modal network in terms of segmentation accuracy.
翻訳日:2021-06-18 16:16:12 公開日:2021-06-17
# Amortized Auto-Tuning:Hyperpar ameter Recommendationのための費用効率の良い転送最適化

Amortized Auto-Tuning: Cost-Efficient Transfer Optimization for Hyperparameter Recommendation ( http://arxiv.org/abs/2106.09179v1 )

ライセンス: Link先を確認
Yuxin Xiao, Eric P. Xing, Willie Neiswanger(参考訳) 現代の機械学習モデルのハイパーパラメータの数とトレーニング時間の増加に伴い、ハイパーパラメータチューニングはますます高価になりつつある。 知識伝達によるチューニングを高速化する手法が提案されているが、通常はハイパーパラメータの最終的な性能を必要とし、低忠実度情報に重点を置いていない。 しかし、この慣習は準最適であり、不要な資源の使用を引き起こす可能性がある。 タスク間の類似性を測り、既存のタスクから新しいタスクに知識を移すために、低忠実度チューニングの観測を利用するよりも、コスト効率がよい。 しかし、マルチファイダリティチューニングの実行には、追加観測におけるノイズと性能予測の必要性という、転送設定における独自の課題が伴う。 そこで我々は,マルチタスク多忠実ベイズ最適化の枠組みを徹底的に解析し,最適なインスタンス化-アモータイズ自動チューニング(AT2)を実現する。 さらに、オフラインで計算された27タスクハイパーパラメータレコメンデーション(HyperRec)データベースをコミュニティに提供する。 HyperRecや他の実世界のデータベースに関する大規模な実験は、我々のAT2法の有効性を示している。

With the surge in the number of hyperparameters and training times of modern machine learning models, hyperparameter tuning is becoming increasingly expensive. Although methods have been proposed to speed up tuning via knowledge transfer, they typically require the final performance of hyperparameters and do not focus on low-fidelity information. Nevertheless, this common practice is suboptimal and can incur an unnecessary use of resources. It is more cost-efficient to instead leverage the low-fidelity tuning observations to measure inter-task similarity and transfer knowledge from existing to new tasks accordingly. However, performing multi-fidelity tuning comes with its own challenges in the transfer setting: the noise in the additional observations and the need for performance forecasting. Therefore, we conduct a thorough analysis of the multi-task multi-fidelity Bayesian optimization framework, which leads to the best instantiation--amort ized auto-tuning (AT2). We further present an offline-computed 27-task hyperparameter recommendation (HyperRec) database to serve the community. Extensive experiments on HyperRec and other real-world databases illustrate the effectiveness of our AT2 method.
翻訳日:2021-06-18 16:15:55 公開日:2021-06-17
# 反復ランダム化を用いたランダム初期化ニューラルネットワーク

Pruning Randomly Initialized Neural Networks with Iterative Randomization ( http://arxiv.org/abs/2106.09269v1 )

ライセンス: Link先を確認
Daiki Chijiwa, Shin'ya Yamaguchi, Yasutoshi Ida, Kenji Umakoshi, Tomohiro Inoue(参考訳) ランダムに初期化されたニューラルネットワークの重み付けは、抽選チケット仮説の文脈において重要な役割を果たす。 ラマヌジャンとアル。 (2020) は, 重量値の最適化よりも, 重量を刈り取るだけで優れた性能が得られることを示した。 しかしながら、重み最適化と同じレベルの性能を達成するために、プルーニングアプローチでは、プルーニングの前にネットワーク内のより多くのパラメータを必要とするため、メモリ空間が増加する。 このパラメータの非効率性を克服するために、反復的に重み値(IteRand)をランダムに初期化する新しい枠組みを導入する。 理論的には、我々のフレームワークで近似定理を証明し、ランダム化演算がパラメータの必要な数を減らすのに有効であることを示す。 また、cifar-10とimagenetの複数の実験でパラメータ効率を実証した。

Pruning the weights of randomly initialized neural networks plays an important role in the context of lottery ticket hypothesis. Ramanujan et al. (2020) empirically showed that only pruning the weights can achieve remarkable performance instead of optimizing the weight values. However, to achieve the same level of performance as the weight optimization, the pruning approach requires more parameters in the networks before pruning and thus more memory space. To overcome this parameter inefficiency, we introduce a novel framework to prune randomly initialized neural networks with iteratively randomizing weight values (IteRand). Theoretically, we prove an approximation theorem in our framework, which indicates that the randomizing operations are provably effective to reduce the required number of the parameters. We also empirically demonstrate the parameter efficiency in multiple experiments on CIFAR-10 and ImageNet.
翻訳日:2021-06-18 16:15:36 公開日:2021-06-17
# ループ内の分類器を用いたクラスバランシングGAN

Class Balancing GAN with a Classifier in the Loop ( http://arxiv.org/abs/2106.09402v1 )

ライセンス: Link先を確認
Harsh Rangwani, Konda Reddy Mopuri, and R. Venkatesh Babu(参考訳) generative adversarial networks (gans) は、ますます複雑な画像分布を模倣するために急速に進化してきた。 しかし、開発の大半は、バランスのとれたデータセットに対するgansのパフォーマンスに焦点を当てている。 我々は、バランスの取れたデータセットでうまく機能する既存のGANとそのトレーニング体制が、バランスの取れていない場合(すなわち、不均衡な場合)に有効でないことを発見した。 long-tailed) データセット。 本稿では,gans訓練のための新しい理論的動機付けクラスバランス調整器を提案する。 我々の正規化器は、訓練済みの分類器からの知識を利用して、データセット内のすべてのクラスのバランスの取れた学習を確実にします。 これは、ニューラルネットワークで観測される指数的無視に基づいて効果的なクラス周波数をモデル化し、GANが表現不足のクラスに集中するように促すことによって達成される。 複数のデータセットにまたがる既存手法よりも優れた性能を達成し,長期分布の学習表現における正規化器の有用性を実証する。 具体的には、非条件のGANに適用すると、長い尾を持つiNaturalist-$2019$データセット上で、FIDを13.03$から9.01$に改善する。

Generative Adversarial Networks (GANs) have swiftly evolved to imitate increasingly complex image distributions. However, majority of the developments focus on performance of GANs on balanced datasets. We find that the existing GANs and their training regimes which work well on balanced datasets fail to be effective in case of imbalanced (i.e. long-tailed) datasets. In this work we introduce a novel theoretically motivated Class Balancing regularizer for training GANs. Our regularizer makes use of the knowledge from a pre-trained classifier to ensure balanced learning of all the classes in the dataset. This is achieved via modelling the effective class frequency based on the exponential forgetting observed in neural networks and encouraging the GAN to focus on underrepresented classes. We demonstrate the utility of our regularizer in learning representations for long-tailed distributions via achieving better performance than existing approaches over multiple datasets. Specifically, when applied to an unconditional GAN, it improves the FID from $13.03$ to $9.01$ on the long-tailed iNaturalist-$2019$ dataset.
翻訳日:2021-06-18 16:15:03 公開日:2021-06-17
# SECANT: ビジュアルポリシーのゼロショット一般化のための自己拡張クローン

SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual Policies ( http://arxiv.org/abs/2106.09678v1 )

ライセンス: Link先を確認
Linxi Fan, Guanzhi Wang, De-An Huang, Zhiding Yu, Li Fei-Fei, Yuke Zhu, Anima Anandkumar(参考訳) 一般化は強化学習(RL)の長年にわたる課題である。 特に視覚rlは、高次元の観察空間における無関係な要因によって容易に注意をそらすことができる。 本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。 本稿では,2段階のイメージ拡張を利用して,ロバストな表現学習をポリシー最適化から切り離す手法であるSECANTを提案する。 具体的には、エキスパートポリシーは、まずRLによって、弱い拡張でゼロから訓練される。 その後、学生ネットワークは、強力な強化による教師付き学習によって専門家の方針を模倣することを学び、その表現を専門家と比較して視覚的変動に対してより堅牢にする。 大規模な実験により、SECANTは4つの挑戦領域にわたるゼロショットの一般化において、技術の状態を著しく向上させることが示された。 これまでのSOTAよりも平均的な報酬改善は、DeepMind Control (+26.5%)、ロボット操作(+337.8%)、視覚ベースの自動運転(+47.7%)、屋内オブジェクトナビゲーション(+15.8%)である。 コードリリースとビデオはhttps://linxifan.git hub.io/secant-site/で入手できる。

Generalization has been a long-standing challenge for reinforcement learning (RL). Visual RL, in particular, can be easily distracted by irrelevant factors in high-dimensional observation space. In this work, we consider robust policy learning which targets zero-shot generalization to unseen visual environments with large distributional shift. We propose SECANT, a novel self-expert cloning technique that leverages image augmentation in two stages to decouple robust representation learning from policy optimization. Specifically, an expert policy is first trained by RL from scratch with weak augmentations. A student network then learns to mimic the expert policy by supervised learning with strong augmentations, making its representation more robust against visual variations compared to the expert. Extensive experiments demonstrate that SECANT significantly advances the state of the art in zero-shot generalization across 4 challenging domains. Our average reward improvements over prior SOTAs are: DeepMind Control (+26.5%), robotic manipulation (+337.8%), vision-based autonomous driving (+47.7%), and indoor object navigation (+15.8%). Code release and video are available at https://linxifan.git hub.io/secant-site/.
翻訳日:2021-06-18 16:14:48 公開日:2021-06-17
# Orthogonal-Pad\' ;e Activation Function: ディープネットワークにおけるスムーズかつ高速収束のためのトレーニング可能なアクティベーション関数

Orthogonal-Pad\' ;e Activation Functions: Trainable Activation functions for smooth and faster convergence in deep networks ( http://arxiv.org/abs/2106.09693v1 )

ライセンス: Link先を確認
Koushik Biswas, Shilpak Banerjee, Ashish Kumar Pandey(参考訳) トレーニング可能なアクティベーション関数である直交-Pad\'eアクティベーション関数を提案し,より高速な学習能力を示し,標準ディープラーニングデータセットやモデルの精度を向上させる。 実験の結果,Hermite-Pade (HP) アクティベーション機能 (HP-1 と HP-2) と呼ばれる6つの直交-Pad\'e アクティベーションのうち,2つの最適な候補が見つかった。 ReLUと比較して、HP-1とHP-2は、それぞれPreActResNet-34において5.06%、HP-2は4.63%、CIFAR100データセット上では3.02%、MobileNet V2モデルでは2.75%、CIFAR10データセットでは1.78%、PreActResNet-34では2.24%、LeNetでは2.24%、Efficientnet B0では2.03%である。

We have proposed orthogonal-Pad\' ;e activation functions, which are trainable activation functions and show that they have faster learning capability and improves the accuracy in standard deep learning datasets and models. Based on our experiments, we have found two best candidates out of six orthogonal-Pad\' ;e activations, which we call safe Hermite-Pade (HP) activation functions, namely HP-1 and HP-2. When compared to ReLU, HP-1 and HP-2 has an increment in top-1 accuracy by 5.06% and 4.63% respectively in PreActResNet-34, by 3.02% and 2.75% respectively in MobileNet V2 model on CIFAR100 dataset while on CIFAR10 dataset top-1 accuracy increases by 2.02% and 1.78% respectively in PreActResNet-34, by 2.24% and 2.06% respectively in LeNet, by 2.15% and 2.03% respectively in Efficientnet B0.
翻訳日:2021-06-18 16:14:26 公開日:2021-06-17
# 局所不確かさ攻撃

Localized Uncertainty Attacks ( http://arxiv.org/abs/2106.09222v1 )

ライセンス: Link先を確認
Ousmane Amadou Dia, Theofanis Karaletsos, Caner Hazirbas, Cristian Canton Ferrer, Ilknur Kaynar Kabul, Erik Meijer(参考訳) 深層学習モデルの敵の摂動に対する感受性は、敵の例に新たな注目を集め、多くの攻撃を引き起こしている。 しかし、これらの攻撃のほとんどは、人間には受け入れがたい多くの敵の摂動を包含することができない。 本稿では,決定論的・確率的分類器に対する新たな脅威モデルである局所的不確実性攻撃について述べる。 この脅威モデルの下では,分類器が不確実な入力領域のみを摂動することで,逆例を生成する。 このような領域を見つけるために,分類器が確率的である場合や,決定論的である場合にその不確かさを和らげるために代用モデルを学習する際,分類器の予測不確実性を利用する。 入力を無差別に摂動させる機能攻撃である$\ell_p$ ballとは異なり、対象とする変更は知覚しにくい。 脅威モデルに基づく場合、これらの攻撃は依然として強い敵の例を生じさせ、その例は入力とより深い類似性を保っている。

The susceptibility of deep learning models to adversarial perturbations has stirred renewed attention in adversarial examples resulting in a number of attacks. However, most of these attacks fail to encompass a large spectrum of adversarial perturbations that are imperceptible to humans. In this paper, we present localized uncertainty attacks, a novel class of threat models against deterministic and stochastic classifiers. Under this threat model, we create adversarial examples by perturbing only regions in the inputs where a classifier is uncertain. To find such regions, we utilize the predictive uncertainty of the classifier when the classifier is stochastic or, we learn a surrogate model to amortize the uncertainty when it is deterministic. Unlike $\ell_p$ ball or functional attacks which perturb inputs indiscriminately, our targeted changes can be less perceptible. When considered under our threat model, these attacks still produce strong adversarial examples; with the examples retaining a greater degree of similarity with the inputs.
翻訳日:2021-06-18 16:13:59 公開日:2021-06-17
# プライバシ保存画像翻訳のためのフェデレーションサイクルGAN

Federated CycleGAN for Privacy-Preserving Image-to-Image Translation ( http://arxiv.org/abs/2106.09246v1 )

ライセンス: Link先を確認
Joonyoung Song, Jong Chul Ye(参考訳) CycleGANのような教師なしのイメージ・ツー・イメージの翻訳手法では、異なるドメインのトレーニングデータセットを使用して、あるドメインから別のドメインへのイメージ変換を学ぶ。 残念ながら、これらのアプローチはいまだに集中的に収集されていない記録を必要としており、プライバシーとセキュリティの問題を侵害する可能性がある。 最近の連合学習(fl)では、データ交換なしにニューラルネットワークをトレーニングすることができるが、flの基本的な前提は、すべてのクライアントが、同じドメインから独自のトレーニングデータを持っているということだ。 そこで本研究では,データプライバシを維持しつつ,教師なしの方法で画像翻訳を学習可能な,新しいフェデレーション型CycleGANアーキテクチャを提案する。 特に,このアプローチは,サイクルガン損失を,そのデータのみを用いて評価可能なクライアント固有の局所目標の合計に分解できるという新しい観察から生まれたものである。 このローカルな目的分解により、複数のクライアントがパフォーマンスを犠牲にすることなくフェデレートされたCycleGANトレーニングに参加することができる。 さらに,Adaptive Instance Normalization (AdaIN) を用いた新しいスイッチ可能なジェネレータと識別器アーキテクチャを用いて,フェデレート学習の帯域幅要件を大幅に低減する。 各種教師なし画像翻訳タスクの実験結果から,フェデレートされたCycleGANは,非フェデレーション画像と同等の性能を示した。

Unsupervised image-to-image translation methods such as CycleGAN learn to convert images from one domain to another using unpaired training data sets from different domains. Unfortunately, these approaches still require centrally collected unpaired records, potentially violating privacy and security issues. Although the recent federated learning (FL) allows a neural network to be trained without data exchange, the basic assumption of the FL is that all clients have their own training data from a similar domain, which is different from our image-to-image translation scenario in which each client has images from its unique domain and the goal is to learn image translation between different domains without accessing the target domain data. To address this, here we propose a novel federated CycleGAN architecture that can learn image translation in an unsupervised manner while maintaining the data privacy. Specifically, our approach arises from a novel observation that CycleGAN loss can be decomposed into the sum of client specific local objectives that can be evaluated using only their data. This local objective decomposition allows multiple clients to participate in federated CycleGAN training without sacrificing performance. Furthermore, our method employs novel switchable generator and discriminator architecture using Adaptive Instance Normalization (AdaIN) that significantly reduces the band-width requirement of the federated learning. Our experimental results on various unsupervised image translation tasks show that our federated CycleGAN provides comparable performance compared to the non-federated counterpart.
翻訳日:2021-06-18 16:13:44 公開日:2021-06-17
# PAGEの短いノート:非凸最適化のための最適収束率

A Short Note of PAGE: Optimal Convergence Rates for Nonconvex Optimization ( http://arxiv.org/abs/2106.09663v1 )

ライセンス: Link先を確認
Zhize Li(参考訳) 本稿では,まず非凸問題設定を思い出し,最適PAGEアルゴリズム(Li et al., ICML'21)を導入する。 次に、最適収束率を達成するためのPAGEの単純でクリーンな収束解析を行う。 さらに、PAGEとその分析は簡単に適用でき、他の作品にも一般化できる。 このメモが洞察を提供し、将来の作業に役立つことを願っています。

In this note, we first recall the nonconvex problem setting and introduce the optimal PAGE algorithm (Li et al., ICML'21). Then we provide a simple and clean convergence analysis of PAGE for achieving optimal convergence rates. Moreover, PAGE and its analysis can be easily adopted and generalized to other works. We hope that this note provides the insights and is helpful for future works.
翻訳日:2021-06-18 16:13:19 公開日:2021-06-17
# テキストによる世界モデリング

Modeling Worlds in Text ( http://arxiv.org/abs/2106.09578v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Mark O. Riedl(参考訳) 対話的な物語の知識グラフに基づく世界モデルを構築する学習エージェントの作成を可能にするデータセットを提供する。 インタラクティブな物語、あるいはテキストアドベンチャーゲームは、エージェントが純粋に自然言語を通じて世界を理解し、相互作用する長いパズルやクエストとして部分的に構成された観察可能な環境である。 個々のゲームは通常、数百の場所、文字、オブジェクト -- それぞれ独自の記述を持つ -- を含み、言語ベースのエージェントにそのような世界で動作するのに必要な構造化メモリを与えるという問題を研究する機会を提供する。 我々のデータセットは、リッチな自然言語観測の24198のマッピングを提供し、(1) 地図の形で世界状態を反映する知識グラフ、(2) 特定の世界状態に変化をもたらすことが保証される自然言語アクションを提供する。 トレーニングデータは、複数のジャンルの27のゲームにまたがって収集され、テストセットにさらに9つのゲーム以上の7836のホールドアウトインスタンスが含まれている。 さらに,ルールベース,質問応答,シーケンス学習のアプローチを用いたベースラインモデルと,データの解析とそれに対応する学習タスクを提供する。

We provide a dataset that enables the creation of learning agents that can build knowledge graph-based world models of interactive narratives. Interactive narratives -- or text-adventure games -- are partially observable environments structured as long puzzles or quests in which an agent perceives and interacts with the world purely through textual natural language. Each individual game typically contains hundreds of locations, characters, and objects -- each with their own unique descriptions -- providing an opportunity to study the problem of giving language-based agents the structured memory necessary to operate in such worlds. Our dataset provides 24198 mappings between rich natural language observations and: (1) knowledge graphs that reflect the world state in the form of a map; (2) natural language actions that are guaranteed to cause a change in that particular world state. The training data is collected across 27 games in multiple genres and contains a further 7836 heldout instances over 9 additional games in the test set. We further provide baseline models using rules-based, question-answering, and sequence learning approaches in addition to an analysis of the data and corresponding learning tasks.
翻訳日:2021-06-18 16:13:13 公開日:2021-06-17
# ビデオトランスフォーマの長短時間コントラスト学習

Long-Short Temporal Contrastive Learning of Video Transformers ( http://arxiv.org/abs/2106.09212v1 )

ライセンス: Link先を確認
Jue Wang, Gedas Bertasius, Du Tran, Lorenzo Torresani(参考訳) ビデオトランスフォーマーは最近、ビデオ理解のための3D CNNの代替として登場した。 しかし、パラメータの多さと誘導バイアスの低減により、これらのモデルは、最高のパフォーマンスを達成するために、大規模画像データセットの教師付き事前トレーニングを必要とする。 本稿では,ビデオのみのデータセット上でのビデオトランスフォーマーの自己教師あり事前学習が,imagenet-21kのような大規模画像データセット上での教師付き事前学習と同等以上の動作認識結果をもたらすことを実証的に示す。 変換器をベースとしたモデルでは,時間的間隔の延長による依存性の把握が効果的であるため,モデルに長期的視点を一致させる単純な学習手順を提案する。 提案手法はlong-short temporal contrastive learning (lstcl) と呼ばれ,ビデオトランスフォーマはより長い時間的範囲から捉えた時間的文脈を予測することで,効果的なクリップレベルの表現を学習できる。 この結果の汎用性を示すために,我々は,swinトランスフォーマーの改良版を含む2つの異なるビデオトランスフォーマーアーキテクチャを用いて,3つの異なる自己教師付きコントラスト学習フレームワーク (moco v3, byol, simsiam) の実装と検証を行った。 我々は,複数のビデオベンチマークにおいてLSTCLが競合性能を達成し,教師付き画像ベース事前学習の有力な代替手段であることを示す。

Video transformers have recently emerged as a competitive alternative to 3D CNNs for video understanding. However, due to their large number of parameters and reduced inductive biases, these models require supervised pretraining on large-scale image datasets to achieve top performance. In this paper, we empirically demonstrate that self-supervised pretraining of video transformers on video-only datasets can lead to action recognition results that are on par or better than those obtained with supervised pretraining on large-scale image datasets, even massive ones such as ImageNet-21K. Since transformer-based models are effective at capturing dependencies over extended temporal spans, we propose a simple learning procedure that forces the model to match a long-term view to a short-term view of the same video. Our approach, named Long-Short Temporal Contrastive Learning (LSTCL), enables video transformers to learn an effective clip-level representation by predicting temporal context captured from a longer temporal extent. To demonstrate the generality of our findings, we implement and validate our approach under three different self-supervised contrastive learning frameworks (MoCo v3, BYOL, SimSiam) using two distinct video-transformer architectures, including an improved variant of the Swin Transformer augmented with space-time attention. We conduct a thorough ablation study and show that LSTCL achieves competitive performance on multiple video benchmarks and represents a convincing alternative to supervised image-based pretraining.
翻訳日:2021-06-18 16:12:41 公開日:2021-06-17
# オブジェクトを見ているランダムCNN:CNNのインダクティブバイアスとその応用

A Random CNN Sees Objects: One Inductive Bias of CNN and Its Applications ( http://arxiv.org/abs/2106.09259v1 )

ライセンス: Link先を確認
Yun-Hao Cao and Jianxin Wu(参考訳) ランダムに初期化されたCNNは、驚くべきことにオブジェクトをローカライズすることができる。 すなわち、CNNは、この論文でTobias (`The object is at sight')という名前のオブジェクトに自然にフォーカスする誘導バイアスを持つ。 この経験的帰納バイアスはさらに分析され、自己教師あり学習に適用される。 cnnは、前景と背景の分離がtobiasによって導かれる異なる背景を持つ様々なバージョンに、全ての画像を変換することで、前景オブジェクトに焦点を当てた表現を学ぶことを奨励される。 実験の結果,提案したTobiasは,特に物体検出において,下流タスクを大幅に改善することがわかった。 また,Tobiasは異なるサイズのトレーニングセットに対して一貫した改良を施しており,画像強化の変化に対してより耐性が高いことを示す。 私たちのコードはhttps://github.com/c upidjay/tobiasで利用可能です。

This paper starts by revealing a surprising finding: without any learning, a randomly initialized CNN can localize objects surprisingly well. That is, a CNN has an inductive bias to naturally focus on objects, named as Tobias (``The object is at sight'') in this paper. This empirical inductive bias is further analyzed and successfully applied to self-supervised learning. A CNN is encouraged to learn representations that focus on the foreground object, by transforming every image into various versions with different backgrounds, where the foreground and background separation is guided by Tobias. Experimental results show that the proposed Tobias significantly improves downstream tasks, especially for object detection. This paper also shows that Tobias has consistent improvements on training sets of different sizes, and is more resilient to changes in image augmentations. Our codes will be available at https://github.com/C upidJay/Tobias.
翻訳日:2021-06-18 16:12:11 公開日:2021-06-17
# 画像分類のためのディープサブドメイン適応ネットワーク

Deep Subdomain Adaptation Network for Image Classification ( http://arxiv.org/abs/2106.09388v1 )

ライセンス: Link先を確認
Yongchun Zhu, Fuzhen Zhuang, Jindong Wang, Guolin Ke, Jingwu Chen, Jiang Bian, Hui Xiong and Qing He(参考訳) ラベル付きデータが利用できないターゲットタスクでは、異なるソースドメインから学習者を転送することができる。 従来のディープドメイン適応手法は、グローバルドメインシフト、すなわち、異なるドメインの同じカテゴリ内の2つのサブドメイン間の関係を考慮せずに、グローバルソースとターゲットディストリビューションを整合させることを主に学習し、細かな情報を捉えずに転送学習性能を満足させる。 近年,関連するサブドメインの分布を正確に調整することに焦点を当てたサブドメイン適応に注目する研究者が増えている。 しかし、そのほとんどはいくつかの損失関数を含む逆法であり、ゆっくりと収束する。 そこで本研究では,各ドメインにまたがるドメイン固有のレイヤアクティベーションのサブドメイン分布を,ローカルな最大平均不一致(LMMD)に基づいて調整することにより,転送ネットワークを学習するディープサブドメイン適応ネットワーク(DSAN)を提案する。 我々のDSANは非常に単純だが効果的であり、敵の訓練を必要とせず、迅速に収束する。 この適応は、ほとんどのフィードフォワードネットワークモデルにおいて、LMMD損失で拡張することで容易に達成でき、バックプロパゲーションにより効率的に訓練することができる。 DSANはオブジェクト認識タスクと桁分類タスクの両方において顕著な結果が得られることを示した。 私たちのコードは、https://github.com/e asezyc/deep-transfer -learningで利用できます。

For a target task where labeled data is unavailable, domain adaptation can transfer a learner from a different source domain. Previous deep domain adaptation methods mainly learn a global domain shift, i.e., align the global source and target distributions without considering the relationships between two subdomains within the same category of different domains, leading to unsatisfying transfer learning performance without capturing the fine-grained information. Recently, more and more researchers pay attention to Subdomain Adaptation which focuses on accurately aligning the distributions of the relevant subdomains. However, most of them are adversarial methods which contain several loss functions and converge slowly. Based on this, we present Deep Subdomain Adaptation Network (DSAN) which learns a transfer network by aligning the relevant subdomain distributions of domain-specific layer activations across different domains based on a local maximum mean discrepancy (LMMD). Our DSAN is very simple but effective which does not need adversarial training and converges fast. The adaptation can be achieved easily with most feed-forward network models by extending them with LMMD loss, which can be trained efficiently via back-propagation. Experiments demonstrate that DSAN can achieve remarkable results on both object recognition tasks and digit classification tasks. Our code will be available at: https://github.com/e asezyc/deep-transfer -learning
翻訳日:2021-06-18 16:11:55 公開日:2021-06-17
# 生物医学的解釈可能なエンティティ表現

Biomedical Interpretable Entity Representations ( http://arxiv.org/abs/2106.09502v1 )

ライセンス: Link先を確認
Diego Garcia-Olano, Yasumasa Onoe, Ioana Baldini, Joydeep Ghosh, Byron C. Wallace, Kush R. Varshney(参考訳) 事前訓練された言語モデルは、エンティティ中心のNLPタスクに強いパフォーマンスを提供する密度の高いエンティティ表現を誘導するが、そのような表現はすぐに解釈できない。 これは、バイオメディシンのような重要な領域における取り込みをモデル化するための障壁となる。 一般的な解釈可能な表現学習に関する最近の研究(onoe and durrett, 2020)があるが、これらのドメインに依存しない表現は、バイオメディシンの重要な領域に容易に移行できない。 本稿では,医療オントロジーにおける概念にエンティティをマッピングすることで,バイオメディカルテキストの大規模なコーパスから新たなエンティティ型システムとトレーニングセットを作成し,そのカテゴリが我々のタイプであるウィキペディアページへと移行する。 このマッピングから、次元がきめ細かいエンティティタイプに対応する生体医学的解釈可能なエンティティ表現(biers)が導出され、与えられたエンティティが対応する型である確率が予測される。 本稿では,BIERの最終スパース表現と中間密度表現を利用して,モデルおよびエンティティタイプデバッグを容易にする手法を提案する。 本研究では, 生体医学的な課題において, 名前付きエンティティの曖昧さやエンティティラベルの分類などにおいて, biers が強力な性能を発揮することを示し, 特に低スーパービジョン設定において, 解釈可能性の有用性を強調する誤り解析を行う。 最後に、誘導型68Kバイオメディカルタイプシステム、BIERモデルのトレーニングに使用される3700万の導出データ、最高のパフォーマンスモデルを提供する。

Pre-trained language models induce dense entity representations that offer strong performance on entity-centric NLP tasks, but such representations are not immediately interpretable. This can be a barrier to model uptake in important domains such as biomedicine. There has been recent work on general interpretable representation learning (Onoe and Durrett, 2020), but these domain-agnostic representations do not readily transfer to the important domain of biomedicine. In this paper, we create a new entity type system and training set from a large corpus of biomedical texts by mapping entities to concepts in a medical ontology, and from these to Wikipedia pages whose categories are our types. From this mapping we derive Biomedical Interpretable Entity Representations(BIER s), in which dimensions correspond to fine-grained entity types, and values are predicted probabilities that a given entity is of the corresponding type. We propose a novel method that exploits BIER's final sparse and intermediate dense representations to facilitate model and entity type debugging. We show that BIERs achieve strong performance in biomedical tasks including named entity disambiguation and entity label classification, and we provide error analysis to highlight the utility of their interpretability, particularly in low-supervision settings. Finally, we provide our induced 68K biomedical type system, the corresponding 37 million triples of derived data used to train BIER models and our best performing model.
翻訳日:2021-06-18 16:11:17 公開日:2021-06-17
# マルチヘッドかシングルヘッドか? 変圧器訓練における経験的比較

Multi-head or Single-head? An Empirical Comparison for Transformer Training ( http://arxiv.org/abs/2106.09650v1 )

ライセンス: Link先を確認
Liyuan Liu and Jialu Liu and Jiawei Han(参考訳) マルチヘッドアテンションは、トランスフォーマーモデルの成功において重要な役割を担い、様々なアプリケーションにおける従来のアテンションよりも一貫したパフォーマンス改善につながっている。 この効果は複数の地位に共同で出席する能力に起因しているという説が有力である。 本稿では,複数位置への共同参加が多面的注意のユニークな特徴ではなく,多層的一面的注意の多面的関与がより効果的であることを示す。 そこで本研究では,同一位置にいる場合,単頭注意よりも層数が少ないため,多頭注意の主な利点はトレーニング安定性にあることを示唆する。 例えば、24層16ヘッドトランス (BERT-large) と384層384層のシングルヘッドトランスは同じアテンションヘッド番号とほぼ同じモデルサイズを持ち、マルチヘッドトランスははるかに浅い。 一方,近年のディープラーニングの進歩により,384層トランスフォーマのトレーニングを安定させることができた。 トレーニングの難しさはもはやボトルネックにならないため、非常に深いシングルヘッドトランスフォーマーはハイパーパラメータをチューニングせずに一貫したパフォーマンス改善を達成している。

Multi-head attention plays a crucial role in the recent success of Transformer models, which leads to consistent performance improvements over conventional attention in various applications. The popular belief is that this effectiveness stems from the ability of jointly attending multiple positions. In this paper, we first demonstrate that jointly attending multiple positions is not a unique feature of multi-head attention, as multi-layer single-head attention also attends multiple positions and is more effective. Then, we suggest the main advantage of the multi-head attention is the training stability, since it has less number of layers than the single-head attention, when attending the same number of positions. For example, 24-layer 16-head Transformer (BERT-large) and 384-layer single-head Transformer has the same total attention head number and roughly the same model size, while the multi-head one is significantly shallower. Meanwhile, we show that, with recent advances in deep learning, we can successfully stabilize the training of the 384-layer Transformer. As the training difficulty is no longer a bottleneck, substantially deeper single-head Transformer achieves consistent performance improvements without tuning hyper-parameters.
翻訳日:2021-06-18 16:10:51 公開日:2021-06-17
# バイオメディカル知識ベース完成のための科学的言語モデル:実証的研究

Scientific Language Models for Biomedical Knowledge Base Completion: An Empirical Study ( http://arxiv.org/abs/2106.09700v1 )

ライセンス: Link先を確認
Rahul Nadkarni, David Wadden, Iz Beltagy, Noah A. Smith, Hannaneh Hajishirzi, Tom Hope(参考訳) 生体医学知識グラフ(kgs)は、疾患、薬物、遺伝子などの実体に関する豊富な情報を持っている。 これらのグラフに欠落するリンクを予測することは、ドラッグデザインや再購入など、多くの重要な応用を促進する可能性がある。 近年の研究では、ジェネラルドメイン言語モデル(LM)が「ソフト」なKGとして機能し、KG完了のタスクのために微調整できることが示されている。 そこで本研究では,KG 完成のための科学的 LM について検討し,生物医学的リンク予測を強化するために潜伏した知識を活用できるかどうかを考察する。 いくつかのドメイン固有のLMを評価し、KGとして表現する薬物や疾患を中心としたデータセットを微調整し、テキストエンティティ記述に富む。 LMモデルとKG埋め込みモデルを統合し,各入力例をいずれかのモデルに割り当てることを学ぶルータ法を用いて,性能を大幅に向上させる。 最後に,新しい科学的実体を用いた帰納的設定におけるlmモデルの利点を示す。 データセットとコードは公開されています。

Biomedical knowledge graphs (KGs) hold rich information on entities such as diseases, drugs, and genes. Predicting missing links in these graphs can boost many important applications, such as drug design and repurposing. Recent work has shown that general-domain language models (LMs) can serve as "soft" KGs, and that they can be fine-tuned for the task of KG completion. In this work, we study scientific LMs for KG completion, exploring whether we can tap into their latent knowledge to enhance biomedical link prediction. We evaluate several domain-specific LMs, fine-tuning them on datasets centered on drugs and diseases that we represent as KGs and enrich with textual entity descriptions. We integrate the LM-based models with KG embedding models, using a router method that learns to assign each input example to either type of model and provides a substantial boost in performance. Finally, we demonstrate the advantage of LM models in the inductive setting with novel scientific entities. Our datasets and code are made publicly available.
翻訳日:2021-06-18 16:10:31 公開日:2021-06-17
# 異なる見方、同じように振る舞う:不均質な観察による模倣学習

Seeing Differently, Acting Similarly: Imitation Learning with Heterogeneous Observations ( http://arxiv.org/abs/2106.09256v1 )

ライセンス: Link先を確認
Xin-Qiang Cai, Yao-Xiang Ding, Zi-Xuan Chen, Yuan Jiang, Masashi Sugiyama, Zhi-Hua Zhou(参考訳) 多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。 この状況は、従来の空間適応技術と組み合わせても、既存の模倣学習アプローチが機能する上で大きな障害となる。 主な課題は、異なる観測空間下での学習者の占有度を動的に変化させるための専門家の占有度を測定することである。 本研究では,上述の学習問題をヘテロジニアス観測模倣学習(HOIL)としてモデル化する。 本稿では,重要度重み付け,拒絶学習,能動的問合せの手法に基づき,iwreアルゴリズムによる重み付けを重要度重み付けアルゴリズムとして提案する。 実験の結果,IWRE は HOIL タスクの解決に成功し,Atari ドメイン下でのランダムアクセスメモリ (RAM) ベースのポリシーに視覚ベースのデモを変換する難しいタスクを含むことがわかった。

In many real-world imitation learning tasks, the demonstrator and the learner have to act in different but full observation spaces. This situation generates significant obstacles for existing imitation learning approaches to work, even when they are combined with traditional space adaptation techniques. The main challenge lies in bridging expert's occupancy measures to learner's dynamically changing occupancy measures under the different observation spaces. In this work, we model the above learning problem as Heterogeneous Observations Imitation Learning (HOIL). We propose the Importance Weighting with REjection (IWRE) algorithm based on the techniques of importance-weighting , learning with rejection, and active querying to solve the key challenge of occupancy measure matching. Experimental results show that IWRE can successfully solve HOIL tasks, including the challenging task of transforming the vision-based demonstrations to random access memory (RAM)-based policies under the Atari domain.
翻訳日:2021-06-18 16:10:14 公開日:2021-06-17
# MHNF:マルチホップ不均一近隣情報融合グラフ表現学習

MHNF: Multi-hop Heterogeneous Neighborhood information Fusion graph representation learning ( http://arxiv.org/abs/2106.09289v1 )

ライセンス: Link先を確認
Dongjie Zhu, Yundong Sun, Haiwen Du and Zhaoshuo Tian(参考訳) 注意機構により、グラフニューラルネットワーク(GNN)は、ターゲットノードとそのワンホップ隣人間の注意重みを学習でき、さらに性能が向上する。 しかし、既存のGNNは均質グラフに向いており、各層は1ホップ隣人の情報のみを集約できる。 多層ネットワークのスタック化にはノイズが多く、スムース化が容易になる。 本稿では,MHNF(Multi-hop Heterogeneous Neborhood Information Fusion graph representation learning)を提案する。 具体的には,マルチホップハイブリッド近傍を効率的に抽出するハイブリッドメタパス自律抽出モデルを提案する。 次に,同一のハイブリッドメタパス内で異なるホップ近傍情報を選択的に集約するホップレベルの異種情報集約モデルを提案する。 最後に,階層型セマンティックアテンション融合モデル(HSAF)を提案する。 本稿では,マルチホップ近傍情報を集約し,対象タスクのハイブリッドメタパスを学習することで,手動でメタパスを指定できる制限を低減できる。 さらに、HSAFはメタパスの内部ノード情報を抽出し、異なるレベルのセマンティック情報をよりよく統合することができる。 実際のデータセット実験の結果、MHNFはノード分類およびクラスタリングタスクにおける最先端の手法よりも優れている(それぞれ10.94% - 69.09%と11.58% - 394.93%)。

Attention mechanism enables the Graph Neural Networks(GNNs) to learn the attention weights between the target node and its one-hop neighbors, the performance is further improved. However, the most existing GNNs are oriented to homogeneous graphs and each layer can only aggregate the information of one-hop neighbors. Stacking multi-layer networks will introduce a lot of noise and easily lead to over smoothing. We propose a Multi-hop Heterogeneous Neighborhood information Fusion graph representation learning method (MHNF). Specifically, we first propose a hybrid metapath autonomous extraction model to efficiently extract multi-hop hybrid neighbors. Then, we propose a hop-level heterogeneous Information aggregation model, which selectively aggregates different-hop neighborhood information within the same hybrid metapath. Finally, a hierarchical semantic attention fusion model (HSAF) is proposed, which can efficiently integrate different-hop and different-path neighborhood information respectively. This paper can solve the problem of aggregating the multi-hop neighborhood information and can learn hybrid metapaths for target task, reducing the limitation of manually specifying metapaths. In addition, HSAF can extract the internal node information of the metapaths and better integrate the semantic information of different levels. Experimental results on real datasets show that MHNF is superior to state-of-the-art methods in node classification and clustering tasks (10.94% - 69.09% and 11.58% - 394.93% relative improvement on average, respectively).
翻訳日:2021-06-18 16:09:59 公開日:2021-06-17
# カリキュラム陰性サンプリングを用いた教師なし経路表現学習

Unsupervised Path Representation Learning with Curriculum Negative Sampling ( http://arxiv.org/abs/2106.09373v1 )

ライセンス: Link先を確認
Sean Bin Yang, Chenjuan Guo, Jilin Hu, Jian Tang, Bin Yang(参考訳) 経路表現は、経路推薦システムにおける経路ランキングの推定やナビゲーションシステムにおける経路旅行時間の推定など、様々な輸送アプリケーションにおいて重要である。 既存の研究では、大量のラベル付きトレーニングデータを必要とし、他のタスクに不適切な一般化を必要とする、教師付き方法でタスク固有のパス表現を学習することが多い。 そこで我々は,下流の異なるタスクに対応する汎用パス表現を学習するために,教師なし学習フレームワークPath InfoMax(PIM)を提案する。 まず,各入力経路に対して,カリキュラム学習の原則に従って,少量の負の経路を生成するための,カリキュラム負のサンプリング手法を提案する。 次に、emph{PIM}は相互情報の最大化を用いて、グローバルとローカルの両方のビューから経路表現を学習する。 グローバルな見方では、PIMは入力パスの表現と負のパスの表現を区別する。 局所的な見方では、 \emph{pim} は入力経路表現を負の経路にのみ現れるノードの表現と区別する。 これにより、学習パス表現は、グローバル情報とローカル情報の両方を異なるスケールでエンコードすることができる。 2つのルートネットワークデータセットを用いたランキングスコア推定と旅行時間推定の2つの下流タスクに関する広範な実験は、pimが他の教師なしの方法を大幅に上回っており、教師付きパス表現学習の事前学習方法としても利用できることを示唆している。

Path representations are critical in a variety of transportation applications, such as estimating path ranking in path recommendation systems and estimating path travel time in navigation systems. Existing studies often learn task-specific path representations in a supervised manner, which require a large amount of labeled training data and generalize poorly to other tasks. We propose an unsupervised learning framework Path InfoMax (PIM) to learn generic path representations that work for different downstream tasks. We first propose a curriculum negative sampling method, for each input path, to generate a small amount of negative paths, by following the principles of curriculum learning. Next, \emph{PIM} employs mutual information maximization to learn path representations from both a global and a local view. In the global view, PIM distinguishes the representations of the input paths from those of the negative paths. In the local view, \emph{PIM} distinguishes the input path representations from the representations of the nodes that appear only in the negative paths. This enables the learned path representations to encode both global and local information at different scales. Extensive experiments on two downstream tasks, ranking score estimation and travel time estimation, using two road network datasets suggest that PIM significantly outperforms other unsupervised methods and is also able to be used as a pre-training method to enhance supervised path representation learning.
翻訳日:2021-06-18 16:09:33 公開日:2021-06-17
# 脳腫瘍生存予測のための解釈可能な機械学習分類器

Interpretable Machine Learning Classifiers for Brain Tumour Survival Prediction ( http://arxiv.org/abs/2106.09424v1 )

ライセンス: Link先を確認
Colleen E. Charlton and Michael Tin Chung Poon and Paul M. Brennan and Jacques D. Fleuriot(参考訳) 脳腫瘍と診断された患者の生存予測は、異種腫瘍の挙動と治療に対する反応により困難である。 予後のより良い推定は、治療計画と患者支援をサポートする。 機械学習の進歩は、臨床予測モデルの発達を知らせてきたが、臨床への統合はほとんど存在しない。 この理由の1つは、モデルの解釈可能性の欠如である。 本稿では,脳腫瘍生存予測のために,新しい脳腫瘍データセットを用いて2つの解釈可能なルールリストモデルを比較した。 すべてのモデルは標準性能指標を用いて定量的に評価される。 ルールリストは、解釈可能性と臨床的有用性についても質的に評価される。 ブラックボックス機械学習モデルの解釈性は、LIMEとSHAPの2つのポストホックな説明手法を用いて評価する。 その結果,ブラックボックスモデルではルールリストがわずかに上回っていたことが判明した。 ルールリストアルゴリズムが、臨床専門知識に合わせた単純な決定リストを作成したことを実証する。 比較して、ブラックボックスモデルに適用されたポストホック解釈可能性法は、局所モデル予測の信頼性の低い説明を生み出す可能性がある。 モデル解釈可能性は、予測性能の違いを理解し、臨床実践への統合に不可欠である。

Prediction of survival in patients diagnosed with a brain tumour is challenging because of heterogeneous tumour behaviours and responses to treatment. Better estimations of prognosis would support treatment planning and patient support. Advances in machine learning have informed development of clinical predictive models, but their integration into clinical practice is almost non-existent. One reasons for this is the lack of interpretability of models. In this paper, we use a novel brain tumour dataset to compare two interpretable rule list models against popular machine learning approaches for brain tumour survival prediction. All models are quantitatively evaluated using standard performance metrics. The rule lists are also qualitatively assessed for their interpretability and clinical utility. The interpretability of the black box machine learning models is evaluated using two post-hoc explanation techniques, LIME and SHAP. Our results show that the rule lists were only slightly outperformed by the black box models. We demonstrate that rule list algorithms produced simple decision lists that align with clinical expertise. By comparison, post-hoc interpretability methods applied to black box models may produce unreliable explanations of local model predictions. Model interpretability is essential for understanding differences in predictive performance and for integration into clinical practice.
翻訳日:2021-06-18 16:09:11 公開日:2021-06-17
# エラスティックフェデレーションラーニングによる異種クライアントを目指して

Towards Heterogeneous Clients with Elastic Federated Learning ( http://arxiv.org/abs/2106.09433v1 )

ライセンス: Link先を確認
Zichen Ma, Yu Lu, Zihan Lu, Wenye Li, Jinfeng Yi, Shuguang Cui(参考訳) フェデレーション学習は、データをローカルに保ちながら、エッジプロセッサやデータウェアハウスなど、デバイスやデータサイロ上でマシンラーニングモデルをトレーニングする。 不均一で潜在的に巨大なネットワークでのトレーニングは、非IIDデータと実際の参加率の低いことから、システムにバイアスをもたらす。 本稿では,システム内の不均質性に対処し,最も有益なパラメータを学習中に揮発性を低下させ,不完全局所更新を利用する弾力的フェデレーション学習(elastic federated learning, efl)を提案する。 上流と下流の両方の通信を圧縮する効率的かつ効率的なアルゴリズムである。 理論的には、このアルゴリズムは非IIDデータを低い参加率でトレーニングする際に収束を保証する。 実証実験は、EFLフレームワークの堅牢性と効率性に関する競争性能を裏付けるものである。

Federated learning involves training machine learning models over devices or data silos, such as edge processors or data warehouses, while keeping the data local. Training in heterogeneous and potentially massive networks introduces bias into the system, which is originated from the non-IID data and the low participation rate in reality. In this paper, we propose Elastic Federated Learning (EFL), an unbiased algorithm to tackle the heterogeneity in the system, which makes the most informative parameters less volatile during training, and utilizes the incomplete local updates. It is an efficient and effective algorithm that compresses both upstream and downstream communications. Theoretically, the algorithm has convergence guarantee when training on the non-IID data at the low participation rate. Empirical experiments corroborate the competitive performance of EFL framework on the robustness and the efficiency.
翻訳日:2021-06-18 16:08:55 公開日:2021-06-17
# Hi-Phy:階層的物理推論のためのベンチマーク

Hi-Phy: A Benchmark for Hierarchical Physical Reasoning ( http://arxiv.org/abs/2106.09692v1 )

ライセンス: Link先を確認
Cheng Xue, Vimukthini Pinto, Chathura Gamage, Peng Zhang and Jochen Renz(参考訳) 物理的オブジェクトの振る舞いに関する推論は、物理世界で動くエージェントの重要な能力である。 人間は身体的推論を非常に経験していますが、それでもAIにとって大きな課題です。 この問題に対処する研究を容易にするために、最近いくつかのベンチマークが提案されている。 しかし、これらのベンチマークでは、複雑な推論タスクを解決する際にエージェントの粒度の物理推論能力を測定することはできない。 本稿では,身体的推論能力のテストを可能にする物理推論のための新しいベンチマークを提案する。 人間の能力の獲得方法に着想を得て,複雑性を増す物理推論能力の一般的な階層を提案する。 ベンチマークテストでは,ゲームangry birdsで生成した物理的推論タスクを通じて,この階層に従って機能をテストする。 このベンチマークにより,エージェントの粒度の物理的推論能力を測定することで,包括的なエージェント評価を行うことができる。 我々は,人間,学習エージェント,ヒューリスティックエージェントを用いて評価を行い,その能力を決定する。 評価の結果, 学習エージェントは, 局所的一般化能力に優れ, 基礎的な理学能力の習得に苦慮しており, 現状のヒューリスティックエージェントや人間よりもパフォーマンスが悪くなっていることがわかった。 このベンチマークは、高度な人間に似た物理的推論能力を持つインテリジェントエージェントの開発を研究者に促すものだと考えています。 URL: https://github.com/C heng-Xue/Hi-Phy

Reasoning about the behaviour of physical objects is a key capability of agents operating in physical worlds. Humans are very experienced in physical reasoning while it remains a major challenge for AI. To facilitate research addressing this problem, several benchmarks have been proposed recently. However, these benchmarks do not enable us to measure an agent's granular physical reasoning capabilities when solving a complex reasoning task. In this paper, we propose a new benchmark for physical reasoning that allows us to test individual physical reasoning capabilities. Inspired by how humans acquire these capabilities, we propose a general hierarchy of physical reasoning capabilities with increasing complexity. Our benchmark tests capabilities according to this hierarchy through generated physical reasoning tasks in the video game Angry Birds. This benchmark enables us to conduct a comprehensive agent evaluation by measuring the agent's granular physical reasoning capabilities. We conduct an evaluation with human players, learning agents, and heuristic agents and determine their capabilities. Our evaluation shows that learning agents, with good local generalization ability, still struggle to learn the underlying physical reasoning capabilities and perform worse than current state-of-the-art heuristic agents and humans. We believe that this benchmark will encourage researchers to develop intelligent agents with advanced, human-like physical reasoning capabilities. URL: https://github.com/C heng-Xue/Hi-Phy
翻訳日:2021-06-18 16:08:41 公開日:2021-06-17
# 効率的なブラックボックス最適化に向けた最適統計的協調

Optimum-statistical collaboration towards efficient black-box optimization ( http://arxiv.org/abs/2106.09215v1 )

ライセンス: Link先を確認
Wenjie Li, Chihua Wang, Guang Cheng(参考訳) ハイパーパラメータのトレーニングがますます増えており、マシンラーニングシステムはハイパーパラメータのチューニング自動化をより理解する必要がある。 このことは、アルゴリズム設計で実装されたより良い探索機構によりより実用的なブラックボックス最適化の研究への関心を高め、最適化と統計的誤差の両方のフラックスを管理している。 ブラックボックス最適化アルゴリズムは、報酬サンプル間の不均一性を考慮せずに、非効率になる可能性がある。 本稿では,ブラックボックス最適化における統計的不確実性の役割を重要視し,より効率的なアルゴリズム設計を導く。 最適化プロセスにおいて,最適化誤差フラックスと統計的エラーフラックスとの相互作用を管理するフレームワークである \textit{optimum-statistical collaboration} を導入する。 この枠組みに着想を得て,局所平滑性仮定のみを仮定した目的関数に対するtexttt{VHCT}アルゴリズムを提案する。 理論上,我々のアルゴリズムはレート・オプティカルな後悔の限界を満足していることを証明する。

With increasingly more hyperparameters involved in their training, machine learning systems demand a better understanding of hyperparameter tuning automation. This has raised interest in studies of provably black-box optimization, which is made more practical by better exploration mechanism implemented in algorithm design, managing the flux of both optimization and statistical errors. Prior efforts focus on delineating optimization errors, but this is deficient: black-box optimization algorithms can be inefficient without considering heterogeneity among reward samples. In this paper, we make the key delineation on the role of statistical uncertainty in black-box optimization, guiding a more efficient algorithm design. We introduce \textit{optimum-statistical collaboration}, a framework of managing the interaction between optimization error flux and statistical error flux evolving in the optimization process. Inspired by this framework, we propose the \texttt{VHCT} algorithms for objective functions with only local-smoothness assumptions. In theory, we prove our algorithm enjoys rate-optimal regret bounds; in experiments, we show the algorithm outperforms prior efforts in extensive settings.
翻訳日:2021-06-18 16:08:09 公開日:2021-06-17
# 学習済みの言語モデルはなぜ下流タスクに役立つのか? 頭とプロンプトのチューニングに関する一検討

Why Do Pretrained Language Models Help in Downstream Tasks? An Analysis of Head and Prompt Tuning ( http://arxiv.org/abs/2106.09226v1 )

ライセンス: Link先を確認
Colin Wei, Sang Michael Xie, Tengyu Ma(参考訳) 事前訓練された言語モデルは、下流のNLPタスクに適応して最先端のパフォーマンスを達成した。 しかしながら、これらのモデルの理論的解析は、事前訓練と下流のタスクがかなり異なる可能性があるため、希少かつ困難である。 本稿では,事前学習タスクと下流タスクをテキストの潜在変数生成モデルに関連付ける解析フレームワークを提案する。 我々は,ヘッドチューニング(凍結事前学習モデル上での分類器の学習)を分析し,この設定で即時チューニングを行う。 我々の分析における生成モデルは、HMM(Hidden Markov Model)またはHMM(Hidden Markov Model)のどちらかであり、自然言語の長期依存によって動機付けられた潜在記憶成分を付加したものである。 HMMの特定の非退化条件下では、単純な分類ヘッドがダウンストリームタスクを解くことができ、2)迅速なチューニングは、より弱い非退化条件で下流の保証を得ることができ、3) タスク関連情報が長期記憶から回復しやすいため、メモリ拡張HMMの回復保証はバニラHMMよりも強いことを示す。 hmmsを用いた合成データ実験の結果を裏付ける。

Pretrained language models have achieved state-of-the-art performance when adapted to a downstream NLP task. However, theoretical analysis of these models is scarce and challenging since the pretraining and downstream tasks can be very different. We propose an analysis framework that links the pretraining and downstream tasks with an underlying latent variable generative model of text -- the downstream classifier must recover a function of the posterior distribution over the latent variables. We analyze head tuning (learning a classifier on top of the frozen pretrained model) and prompt tuning in this setting. The generative model in our analysis is either a Hidden Markov Model (HMM) or an HMM augmented with a latent memory component, motivated by long-term dependencies in natural language. We show that 1) under certain non-degeneracy conditions on the HMM, simple classification heads can solve the downstream task, 2) prompt tuning obtains downstream guarantees with weaker non-degeneracy conditions, and 3) our recovery guarantees for the memory-augmented HMM are stronger than for the vanilla HMM because task-relevant information is easier to recover from the long-term memory. Experiments on synthetically generated data from HMMs back our theoretical findings.
翻訳日:2021-06-18 16:07:50 公開日:2021-06-17
# 雑音ラベルからの深層学習の理解に向けて

Towards Understanding Deep Learning from Noisy Labels with Small-Loss Criterion ( http://arxiv.org/abs/2106.09291v1 )

ライセンス: Link先を確認
Xian-Jin Gui, Wei Wang, Zhang-Hao Tian(参考訳) ディープニューラルネットワークは、高性能を実現するために大量のラベル付きデータを必要とする。 現実世界のアプリケーションでは、ラベルは通常クラウドソーシングのような非専門家から収集され、コストを節約し、ノイズを発生させる。 近年,ノイズラベルを扱うための深層学習手法が開発され,その多くが小損失基準に基づいている。 しかし、これらの手法がノイズラベルからうまく学べる理由を説明する理論的解析は少ない。 本稿では,広く使われている小損失基準がなぜ機能するのかを理論的に説明する。 この説明に基づき,バニラの低損失基準を改良し,ノイズラベルに対処する。 実験結果は,我々の理論的説明を検証し,改革の有効性を実証した。

Deep neural networks need large amounts of labeled data to achieve good performance. In real-world applications, labels are usually collected from non-experts such as crowdsourcing to save cost and thus are noisy. In the past few years, deep learning methods for dealing with noisy labels have been developed, many of which are based on the small-loss criterion. However, there are few theoretical analyses to explain why these methods could learn well from noisy labels. In this paper, we theoretically explain why the widely-used small-loss criterion works. Based on the explanation, we reformalize the vanilla small-loss criterion to better tackle noisy labels. The experimental results verify our theoretical explanation and also demonstrate the effectiveness of the reformalization.
翻訳日:2021-06-18 16:07:30 公開日:2021-06-17
# アルゴリズムバイアスとデータバイアス : 分布的ロバストな最適化とデータのキュレーションの関係を理解する

Algorithmic Bias and Data Bias: Understanding the Relation between Distributionally Robust Optimization and Data Curation ( http://arxiv.org/abs/2106.09467v1 )

ライセンス: Link先を確認
Agnieszka S{\l}owik, L\'eon Bottou(参考訳) 平均誤差を最小化する機械学習システムは、データセット全体の平均誤差が低くなることなく、データの注目すべきサブセット間で一貫性がないことが示されている。 データが人々を表わす社会・経済的な応用において、これは過小表現された性別や民族集団の差別につながる可能性がある。 機械学習におけるバイアス緩和の重要性を考えると、このトピックは実践における公正性(データバイアスとアルゴリズムバイアス)の確保方法に関する論争に繋がる。 分布的ロバスト最適化(DRO)は、サブ人口間で最悪の予測リスクを最小化することによってこの問題に対処しているように見える。 適切な重み付きトレーニングデータセット上で,DROと同一損失の最適化の関係を明らかにする理論的結果を確立する。 結果は、凸や非凸損失関数と同様に、有限かつ無限個のトレーニング分布をカバーする。 DROやトレーニングセットのキュレーションは、バイアス軽減のための完全な解として解釈されるべきではなく、普遍的に堅牢なトレーニングセットが存在しないのと同じように、DRO問題をセットアップし、社会的に許容される結果の集合を保証する普遍的な方法がない。 次に、これらの洞察を活用して、DROによるバイアスに対処するための実践的な推奨事項の最小セットを提供する。 最後に、DROの他の応用における我々の結果の分岐について、対角的堅牢性の例を用いて論じる。 以上の結果から,アルゴリズムに焦点をあてた議論と偏見に関する議論の両方にメリットがあることが示唆された。

Machine learning systems based on minimizing average error have been shown to perform inconsistently across notable subsets of the data, which is not exposed by a low average error for the entire dataset. In consequential social and economic applications, where data represent people, this can lead to discrimination of underrepresented gender and ethnic groups. Given the importance of bias mitigation in machine learning, the topic leads to contentious debates on how to ensure fairness in practice (data bias versus algorithmic bias). Distributionally Robust Optimization (DRO) seemingly addresses this problem by minimizing the worst expected risk across subpopulations. We establish theoretical results that clarify the relation between DRO and the optimization of the same loss averaged on an adequately weighted training dataset. The results cover finite and infinite number of training distributions, as well as convex and non-convex loss functions. We show that neither DRO nor curating the training set should be construed as a complete solution for bias mitigation: in the same way that there is no universally robust training set, there is no universal way to setup a DRO problem and ensure a socially acceptable set of results. We then leverage these insights to provide a mininal set of practical recommendations for addressing bias with DRO. Finally, we discuss ramifications of our results in other related applications of DRO, using an example of adversarial robustness. Our results show that there is merit to both the algorithm-focused and the data-focused side of the bias debate, as long as arguments in favor of these positions are precisely qualified and backed by relevant mathematics known today.
翻訳日:2021-06-18 16:07:20 公開日:2021-06-17
# ランダム林からの重要度評価--特徴化と拡張

Importance measures derived from random forests: characterisation and extension ( http://arxiv.org/abs/2106.09473v1 )

ライセンス: Link先を確認
Antonio Sutera(参考訳) 今日では、新しい技術、特に人工知能が社会にますます定着しています。 ビッグデータ分析と機械学習(人工知能の2つのサブフィールド)は、多くのアプリケーション分野(医学、コミュニケーション、金融など)における最近の多くのブレークスルーの中核であり、その中には日々の生活(ソーシャルネットワーク、コンピュータ、スマートフォンなど)に強く関係しているものも含まれる。 機械学習では、大きなデータセットのおかげで、計算の複雑さが増大する価格で、大きな改善がなされることが多い。 現在、最も先進的な機械学習アルゴリズムによって構築された最先端モデルは通常、非常に効率的で利益を上げながら非常に複雑になった。 彼らの複雑さは、これらのモデルが解釈や正当化ができない予測や決定を提供するブラックボックスとして一般的に見られる程度である。 それでも、これらのモデルが自律的に使われているか、あるいは単純な意思決定支援ツールとして使われているかは、健康と人間の命がかかっている機械学習アプリケーションですでに使われている。 したがって、予測や決定を詳細に理解することなく、これらのモデルから生じるすべてのことを盲目的に信じないことは明らかである。 したがって、この論文は、いわゆるツリーベース手法である機械学習アルゴリズムの特定のファミリーによって構築されたモデルの解釈可能性を改善することを目的としている。 これらのモデルを解釈するためにいくつかのメカニズムが提案されており、その理解を改善し、特性を研究し、制限を定義するためにこの論文に沿っている。

Nowadays new technologies, and especially artificial intelligence, are more and more established in our society. Big data analysis and machine learning, two sub-fields of artificial intelligence, are at the core of many recent breakthroughs in many application fields (e.g., medicine, communication, finance, ...), including some that are strongly related to our day-to-day life (e.g., social networks, computers, smartphones, ...). In machine learning, significant improvements are usually achieved at the price of an increasing computational complexity and thanks to bigger datasets. Currently, cutting-edge models built by the most advanced machine learning algorithms typically became simultaneously very efficient and profitable but also extremely complex. Their complexity is to such an extent that these models are commonly seen as black-boxes providing a prediction or a decision which can not be interpreted or justified. Nevertheless, whether these models are used autonomously or as a simple decision-making support tool, they are already being used in machine learning applications where health and human life are at stake. Therefore, it appears to be an obvious necessity not to blindly believe everything coming out of those models without a detailed understanding of their predictions or decisions. Accordingly, this thesis aims at improving the interpretability of models built by a specific family of machine learning algorithms, the so-called tree-based methods. Several mechanisms have been proposed to interpret these models and we aim along this thesis to improve their understanding, study their properties, and define their limitations.
翻訳日:2021-06-18 16:06:55 公開日:2021-06-17
# メタキャリブレーション:微分可能なキャリブレーション誤差を用いたモデルキャリブレーションのメタラーニング

Meta-Calibration: Meta-Learning of Model Calibration Using Differentiable Expected Calibration Error ( http://arxiv.org/abs/2106.09613v1 )

ライセンス: Link先を確認
Ondrej Bohdal, Yongxin Yang, Timothy Hospedales(参考訳) ニューラルネットワークのキャリブレーションは、現実のニューラルネットワークの利用においてますます重要になっているトピック問題である。 問題は、モデル信頼度とそれが持つべき信頼との間に重大な違いがある現代のニューラルネットワークを使用する場合、特に顕著である。 様々な戦略が提案されているが、改善の余地はもっとある。 本稿では,メタラーニングの目的として,予測キャリブレーション誤差に対する微分可能なメトリックを導入し,最先端のアプローチによる競争結果の達成に成功させる手法を提案する。 このアプローチは、モデルキャリブレーションを直接最適化するためにメタラーニングを使用する新たな方向を示します。

Calibration of neural networks is a topical problem that is becoming increasingly important for real-world use of neural networks. The problem is especially noticeable when using modern neural networks, for which there is significant difference between the model confidence and the confidence it should have. Various strategies have been successfully proposed, yet there is more space for improvements. We propose a novel approach that introduces a differentiable metric for expected calibration error and successfully uses it as an objective for meta-learning, achieving competitive results with state-of-the-art approaches. Our approach presents a new direction of using meta-learning to directly optimize model calibration, which we believe will inspire further work in this promising and new direction.
翻訳日:2021-06-18 16:06:30 公開日:2021-06-17
# 実例難解なレンズによる深層学習

Deep Learning Through the Lens of Example Difficulty ( http://arxiv.org/abs/2106.09647v1 )

ライセンス: Link先を確認
Robert J. N. Baldock, Hartmut Maennel and Behnam Neyshabur(参考訳) ディープラーニングを理解するための既存の作業は、すべてのデータ依存情報を数個に圧縮する手段をしばしば採用している。 本研究では,個々の事例の役割に基づいた視点を採用する。 本稿では,与えられた入力の予測を行う際の計算困難度,すなわち(有効)予測深さの尺度を提案する。 広範な調査により,入力の予測深さとモデルの不確実性,信頼性,正確性,データポイントの学習速度との間に,驚くほど単純な関係が明らかになった。 さらに、難解な例を3つの解釈可能な群に分類し、これらの群が深層モデル内でどのように異なる処理を行うかを示し、この理解によって予測精度が向上することを示す。 初期の層は一般化し、後の層は記憶する; 初期の層はより早く収束し、ネットワークは簡単なデータと単純な関数を学習する。

Existing work on understanding deep learning often employs measures that compress all data-dependent information into a few numbers. In this work, we adopt a perspective based on the role of individual examples. We introduce a measure of the computational difficulty of making a prediction for a given input: the (effective) prediction depth. Our extensive investigation reveals surprising yet simple relationships between the prediction depth of a given input and the model's uncertainty, confidence, accuracy and speed of learning for that data point. We further categorize difficult examples into three interpretable groups, demonstrate how these groups are processed differently inside deep models and showcase how this understanding allows us to improve prediction accuracy. Insights from our study lead to a coherent view of a number of separately reported phenomena in the literature: early layers generalize while later layers memorize; early layers converge faster and networks learn easy data and simple functions first.
翻訳日:2021-06-18 16:06:18 公開日:2021-06-17
# 自己注意型生成対向ネットワークを用いた手書き公式の教師なし学習データ生成

Unsupervised Training Data Generation of Handwritten Formulas using Generative Adversarial Networks with Self-Attention ( http://arxiv.org/abs/2106.09432v1 )

ライセンス: Link先を確認
Matthias Springstein and Eric M\"uller-Budack and Ralph Ewerth(参考訳) 画像やビデオフレームにおける手書きの数学的表現の認識は困難で未解決の問題である。 深層対流ニューラルネットワークは基本的に有望なアプローチだが、通常は大量のラベル付きトレーニングデータを必要とする。 しかし、手書き公式認識のタスクにはそのような大規模なトレーニングデータセットは存在しない。 本稿では,ラテックス文書から派生した数学的表現の合成訓練例を多数作成するシステムを提案する。 そこで本研究では, 適応方程式を手書き公式に変換する, 注目に基づく新たな生成逆ネットワークを提案する。 このアプローチによって生成されたデータセットには数十万の式が含まれており、事前トレーニングやより複雑なモデルの設計に最適である。 CROHME 2014ベンチマークデータセットを用いた合成データセットと認識手法の評価を行った。 実験結果は,アプローチの実現可能性を示している。

The recognition of handwritten mathematical expressions in images and video frames is a difficult and unsolved problem yet. Deep convectional neural networks are basically a promising approach, but typically require a large amount of labeled training data. However, such a large training dataset does not exist for the task of handwritten formula recognition. In this paper, we introduce a system that creates a large set of synthesized training examples of mathematical expressions which are derived from LaTeX documents. For this purpose, we propose a novel attention-based generative adversarial network to translate rendered equations to handwritten formulas. The datasets generated by this approach contain hundreds of thousands of formulas, making it ideal for pretraining or the design of more complex models. We evaluate our synthesized dataset and the recognition approach on the CROHME 2014 benchmark dataset. Experimental results demonstrate the feasibility of the approach.
翻訳日:2021-06-18 16:05:09 公開日:2021-06-17
# 因果的介入による対向的視覚ロバスト性

Adversarial Visual Robustness by Causal Intervention ( http://arxiv.org/abs/2106.09534v1 )

ライセンス: Link先を確認
Kaihua Tang, Mingyuan Tao, Hanwang Zhang(参考訳) 敵の訓練は、敵の例に対する最も有望な防御である。 しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。 積極的な防御を実現するには、一般的な境界付き脅威モデルを超えて、敵の例をより基本的な理解が必要です。 本稿では,攻撃者が共犯効果を的確に活用する学習において,その原因は共創者がユビキタスに存在するという,敵対的脆弱性の因果的視点を提供する。 したがって、敵対的堅牢性に対する基本的な解決策は因果介入である。 共同設立者は一般に観察できないため、共同設立者の観察を必要とせずに介入を実現するインストゥルメンタル変数の使用を提案する。 我々は,頑健なトレーニング手法を器用変数(CiiV)による因果介入とみなす。 分離可能なレチノトピックサンプリング層と一貫性損失を有しており、安定であり、勾配難読化に悩まされないことが保証されている。 MNIST、CIFAR-10、mini-ImageNetデータセットに適用された幅広い攻撃と設定に関する広範な実験は、CiiVが適応攻撃に対して堅牢であることを実証的に実証している。

Adversarial training is the de facto most promising defense against adversarial examples. Yet, its passive nature inevitably prevents it from being immune to unknown attackers. To achieve a proactive defense, we need a more fundamental understanding of adversarial examples, beyond the popular bounded threat model. In this paper, we provide a causal viewpoint of adversarial vulnerability: the cause is the confounder ubiquitously existing in learning, where attackers are precisely exploiting the confounding effect. Therefore, a fundamental solution for adversarial robustness is causal intervention. As the confounder is unobserved in general, we propose to use the instrumental variable that achieves intervention without the need for confounder observation. We term our robust training method as Causal intervention by instrumental Variable (CiiV). It has a differentiable retinotopic sampling layer and a consistency loss, which is stable and guaranteed not to suffer from gradient obfuscation. Extensive experiments on a wide spectrum of attackers and settings applied in MNIST, CIFAR-10, and mini-ImageNet datasets empirically demonstrate that CiiV is robust to adaptive attacks.
翻訳日:2021-06-18 16:04:57 公開日:2021-06-17
# always be dreaming: データフリーなクラスインクリメンタル学習のための新しいアプローチ

Always Be Dreaming: A New Approach for Data-Free Class-Incremental Learning ( http://arxiv.org/abs/2106.09701v1 )

ライセンス: Link先を確認
James Smith, Yen-Chang Hsu, Jonathan Balloch, Yilin Shen, Hongxia Jin, Zsolt Kira(参考訳) 現代のコンピュータビジョンアプリケーションは、時間とともに新しい概念を段階的に学習するときに破滅的な忘れに苦しむ。 この忘れを緩和するための最も成功したアプローチは、以前に見られたデータの広範囲なリプレイを必要とし、メモリの制約やデータの合法性に関する懸念がある場合に問題となる。 本研究では,インクリメンタル学習エージェントが,ジェネレータや過去のタスクからのデータを保存することなく,時間とともに新たな概念を学習しなければならない,データフリークラスインクリメンタル学習(dfcil)の高影響問題を考える。 DFCILの1つのアプローチは,学習者の分類モデルのフリーズコピーを反転させて生成した合成画像を再生することであるが,本手法は標準蒸留方式を用いる場合,一般的なクラスインクリメンタルベンチマークでは失敗することを示す。 この失敗の原因を診断し,DFCILの新たな漸進的蒸留戦略を提案し,改良されたクロスエントロピートレーニングと重み付けされた特徴蒸留に寄与し,本手法は,一般的なクラスインクリメンタルベンチマークのためのSOTA DFCIL法と比較して,最終タスク精度(絶対差)が25.1%向上することを示した。 本手法は,イメージのコアセットを格納するいくつかの標準的なリプレイベース手法よりも優れる。

Modern computer vision applications suffer from catastrophic forgetting when incrementally learning new concepts over time. The most successful approaches to alleviate this forgetting require extensive replay of previously seen data, which is problematic when memory constraints or data legality concerns exist. In this work, we consider the high-impact problem of Data-Free Class-Incremental Learning (DFCIL), where an incremental learning agent must learn new concepts over time without storing generators or training data from past tasks. One approach for DFCIL is to replay synthetic images produced by inverting a frozen copy of the learner's classification model, but we show this approach fails for common class-incremental benchmarks when using standard distillation strategies. We diagnose the cause of this failure and propose a novel incremental distillation strategy for DFCIL, contributing a modified cross-entropy training and importance-weighted feature distillation, and show that our method results in up to a 25.1% increase in final task accuracy (absolute difference) compared to SOTA DFCIL methods for common class-incremental benchmarks. Our method even outperforms several standard replay based methods which store a coreset of images.
翻訳日:2021-06-18 16:04:41 公開日:2021-06-17
# シングル陽性ラベルからのマルチラベル学習

Multi-Label Learning from Single Positive Labels ( http://arxiv.org/abs/2106.09708v1 )

ライセンス: Link先を確認
Elijah Cole, Oisin Mac Aodha, Titouan Lorieul, Pietro Perona, Dan Morris, Nebojsa Jojic(参考訳) 与えられた画像のすべての適用可能なラベルを予測することは、マルチラベル分類として知られている。 標準のマルチクラスケース(各画像が1つのラベルしか持たない)と比較すると、マルチラベル分類のトレーニングデータをアノテートするのはかなり難しい。 潜在的なラベルの数が大きい場合、人間のアノテータはトレーニング画像ごとに適用可能なラベルをすべて言及することは困難である。 さらに、いくつかの設定では、例えば、検出は本質的に難しい。 高解像度画像で小さなオブジェクトインスタンスを見つける。 その結果、複数ラベルのトレーニングデータは、しばしば偽陰性に悩まされる。 この問題の最も難しいバージョンは、アノテータが各画像に関連付けられたラベルを1つだけ提供するものである。 その結果、トレーニングセットは画像ごとに1つの正のラベルしか持たず、確認された負のラベルは持たない。 線形分類器とエンド・ツー・エンドの微調整深層ネットワークのための4つの異なるマルチラベル画像分類データセットにまたがるラベルの欠落から学習するこの特別なケースについて検討する。 既存のマルチラベル損失をこの設定に拡張し、トレーニング中に期待される正のラベルの数を制限する新しい変種を提案する。 驚くべきことに,ラベルの確認が著しく少ないにもかかわらず,完全ラベル付き分類器の性能にアプローチすることが可能であるケースもある。

Predicting all applicable labels for a given image is known as multi-label classification. Compared to the standard multi-class case (where each image has only one label), it is considerably more challenging to annotate training data for multi-label classification. When the number of potential labels is large, human annotators find it difficult to mention all applicable labels for each training image. Furthermore, in some settings detection is intrinsically difficult e.g. finding small object instances in high resolution images. As a result, multi-label training data is often plagued by false negatives. We consider the hardest version of this problem, where annotators provide only one relevant label for each image. As a result, training sets will have only one positive label per image and no confirmed negatives. We explore this special case of learning from missing labels across four different multi-label image classification datasets for both linear classifiers and end-to-end fine-tuned deep networks. We extend existing multi-label losses to this setting and propose novel variants that constrain the number of expected positive labels during training. Surprisingly, we show that in some cases it is possible to approach the performance of fully labeled classifiers despite training with significantly fewer confirmed labels.
翻訳日:2021-06-18 16:04:17 公開日:2021-06-17
# 大規模分子言語表現は重要な構造情報を取得するか?

Do Large Scale Molecular Language Representations Capture Important Structural Information? ( http://arxiv.org/abs/2106.09553v1 )

ライセンス: Link先を確認
Jerret Ross, Brian Belgodere, Vijil Chenthamarakshan, Inkit Padhi, Youssef Mroueh, Payel Das(参考訳) 分子の構造から化学特性を予測することは、薬物発見や材料設計を含む多くの応用において非常に重要である。 機械学習に基づく分子特性予測は、例えば密度汎関数理論(DFT)計算と比較して、はるかに少ない複雑さで正確な予測を可能にするという約束を持っている。 分子グラフから抽出した特徴は、グラフニューラルネットを教師付きで用い、そのようなタスクの強いベースラインとして現れている。 しかし、膨大な化学空間と限定的なラベルの利用可能性は教師あり学習を困難にし、汎用的な分子表現の学習を求める。 近年,大規模なラベル付きコーパス上でのトランスフォーマベース言語モデル (PTLM) は,多くの下流自然言語処理タスクにおいて最先端の結果を生み出している。 そこで本研究では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。 このモデルは、PubChemおよびZINCデータセットから11億個の未標識分子からなる1D SMILES配列の線形アテンション機構と高度に並列化されたトレーニングを取り入れた。 実験により, 既存のグラフベースおよび指紋ベースの教師付き学習ベースラインと比較して, qm8分子とqm9分子の特性予測の難解な課題に対して, 学習分子表現が競争力を発揮することが示された。 MoLFormerr表現のタスク固有の微調整により、これらのプロパティ予測ベンチマークのパフォーマンスが向上する。 これらの結果は、大規模な分子言語モデルが十分な構造情報を捕捉し、量子化学特性を正確に予測できることを示す。

Predicting chemical properties from the structure of a molecule is of great importance in many applications including drug discovery and material design. Machine learning based molecular property prediction holds the promise of enabling accurate predictions at much less complexity, when compared to, for example Density Functional Theory (DFT) calculations. Features extracted from molecular graphs, using graph neural nets in a supervised manner, have emerged as strong baselines for such tasks. However, the vast chemical space together with the limited availability of labels makes supervised learning challenging, calling for learning a general-purpose molecular representation. Recently, pre-trained transformer-based language models (PTLMs) on large unlabeled corpus have produced state-of-the-art results in many downstream natural language processing tasks. Inspired by this development, here we present molecular embeddings obtained by training an efficient transformer encoder model, referred to as MoLFormer. This model was employed with a linear attention mechanism and highly paralleized training on 1D SMILES sequences of 1.1 billion unlabeled molecules from the PubChem and ZINC datasets. Experiments show that the learned molecular representation performs competitively, when compared to existing graph-based and fingerprint-based supervised learning baselines, on the challenging tasks of predicting properties of QM8 and QM9 molecules. Further task-specific fine-tuning of the MoLFormerr representation improves performance on several of those property prediction benchmarks. These results provide encouraging evidence that large-scale molecular language models can capture sufficient structural information to be able to accurately predict quantum chemical properties and beyond.
翻訳日:2021-06-18 16:03:58 公開日:2021-06-17
# CoANE: 分散ネットワーク埋め込みのためのコンテキスト共起のモデリング

CoANE: Modeling Context Co-occurrence for Attributed Network Embedding ( http://arxiv.org/abs/2106.09241v1 )

ライセンス: Link先を確認
I-Chung Hsieh, Cheng-Te Li(参考訳) 帰結型ネットワーク埋め込み(ane)は、ネットワーク構造だけでなく、ノード属性も埋め込み空間に保存できるように、低次元ベクトルを学ぶことである。 既存のANEモデルは、グラフ構造と属性の特定の組み合わせを考慮していない。 各ノードは、特定の属性分布のパターンとともに、高度に相互接続された隣人のような構造的特徴を持つが、各ノードの近傍は、マルチホップノードだけでなく、特定のクラスタや社会サークルも考慮すべきである。 このような情報をモデル化するために,本稿では,新しいANEモデルであるContext Co-occurrence-aware Attributed Network Embedding (CoANE)を提案する。 CoANEの基本的な考え方は、各ノードの多様なパターンに関連するコンテキスト属性をモデル化し、各属性をチャネルとして扱うことで位置情報をエンコードする畳み込み機構を適用することである。 コンテキスト共起の学習は各ノードの潜伏する社会円を捉えることができる。 ノードの構造的および意味的知識をよりよくエンコードするために、正のグラフ可能性、文脈的負のサンプリング、属性の再構成からなる3方向の目的関数を考案する。 リンク予測,ノードラベル分類,ノードクラスタリングという5つの実際のデータセットについて実験を行った。 その結果、CoANEは最先端のANEモデルよりも大幅に優れていることがわかった。

Attributed network embedding (ANE) is to learn low-dimensional vectors so that not only the network structure but also node attributes can be preserved in the embedding space. Existing ANE models do not consider the specific combination between graph structure and attributes. While each node has its structural characteristics, such as highly-interconnecte d neighbors along with their certain patterns of attribute distribution, each node's neighborhood should be not only depicted by multi-hop nodes, but consider certain clusters or social circles. To model such information, in this paper, we propose a novel ANE model, Context Co-occurrence-aware Attributed Network Embedding (CoANE). The basic idea of CoANE is to model the context attributes that each node's involved diverse patterns, and apply the convolutional mechanism to encode positional information by treating each attribute as a channel. The learning of context co-occurrence can capture the latent social circles of each node. To better encode structural and semantic knowledge of nodes, we devise a three-way objective function, consisting of positive graph likelihood, contextual negative sampling, and attribute reconstruction. We conduct experiments on five real datasets in the tasks of link prediction, node label classification, and node clustering. The results exhibit that CoANE can significantly outperform state-of-the-art ANE models.
翻訳日:2021-06-18 16:03:14 公開日:2021-06-17
# 相関平衡メタソルバーを用いたゼロサムを超えるマルチエージェントトレーニング

Multi-Agent Training beyond Zero-Sum with Correlated Equilibrium Meta-Solvers ( http://arxiv.org/abs/2106.09435v1 )

ライセンス: Link先を確認
Luke Marris, Paul Muller, Marc Lanctot, Karl Tuyls, Thore Grapael(参考訳) 2人プレイのコンスタントサムゲームは文学でよく研究されているが、この設定以外での進展は限られている。 我々は,n-player, general-sum extensive form gameにおけるエージェントのトレーニングアルゴリズムであるJoint Policy-Space Response Oracles (JPSRO)を提案する。 さらに, 相関平衡 (ce) を有望なメタソルバとして提案し, 相関平衡選択問題を解くための原理的かつ計算効率の高い解群である, 新たな解概念であるmaximum gini correlationd equilibrium (mgce) を提案する。 JPSROのためのCEメタソルバを用いていくつかの実験を行い、n-player, general-sumゲーム上で収束を示す。

Two-player, constant-sum games are well studied in the literature, but there has been limited progress outside of this setting. We propose Joint Policy-Space Response Oracles (JPSRO), an algorithm for training agents in n-player, general-sum extensive form games, which provably converges to an equilibrium. We further suggest correlated equilibria (CE) as promising meta-solvers, and propose a novel solution concept Maximum Gini Correlated Equilibrium (MGCE), a principled and computationally efficient family of solutions for solving the correlated equilibrium selection problem. We conduct several experiments using CE meta-solvers for JPSRO and demonstrate convergence on n-player, general-sum games.
翻訳日:2021-06-18 16:02:53 公開日:2021-06-17
# 補間器の一様収束性:ガウス幅、ノルム境界、およびベニグオーバーフィッティング

Uniform Convergence of Interpolators: Gaussian Width, Norm Bounds, and Benign Overfitting ( http://arxiv.org/abs/2106.09276v1 )

ライセンス: Link先を確認
Frederic Koehler and Lijia Zhou and Danica J. Sutherland and Nathan Srebro(参考訳) ガウスデータの高次元線形回帰における補間学習を考察し、クラスのガウス幅の観点から任意の仮説クラスにおける補間子の一般化誤差に対する一様収束を保証する。 ユークリッドノルム球へのジェネリックバウンドの適用は、Bartlett et alの一貫性を回復する。 (2020) を最小ノルム補間器とし, 周らの予測を確認する。 (2020) ガウスデータの特別な場合における最小ノルム補間器について 最小 l1-ノルム補間器(基底探索)に対する新しい一貫性結果を得るため, 単純体に適用することで, 境界の一般性を実証する。 この結果は、少なくともいくつかの設定において、ノルムベースの一般化境界がどのように説明され、良性過剰適合の分析に使用されるかを示す。

We consider interpolation learning in high-dimensional linear regression with Gaussian data, and prove a generic uniform convergence guarantee on the generalization error of interpolators in an arbitrary hypothesis class in terms of the class's Gaussian width. Applying the generic bound to Euclidean norm balls recovers the consistency result of Bartlett et al. (2020) for minimum-norm interpolators, and confirms a prediction of Zhou et al. (2020) for near-minimal-norm interpolators in the special case of Gaussian data. We demonstrate the generality of the bound by applying it to the simplex, obtaining a novel consistency result for minimum l1-norm interpolators (basis pursuit). Our results show how norm-based generalization bounds can explain and be used to analyze benign overfitting, at least in some settings.
翻訳日:2021-06-18 16:02:16 公開日:2021-06-17
# 電力系統の確率予測のための深部生成モデル

Deep generative modeling for probabilistic forecasting in power systems ( http://arxiv.org/abs/2106.09370v1 )

ライセンス: Link先を確認
Jonathan Dumas and Antoine Wehenkel Damien Lanaspeze and Bertrand Corn\'elusse and Antonio Sutera(参考訳) 再生可能エネルギーの割合が高いエンドユースセクターの直接電化は、2050年までに炭素中立社会を駆動する柱の1つである。 本研究では,最近のディープラーニング手法である正規化フローを用いて,電力系統アプリケーションにおける新たな課題に直面する意思決定者にとって極めて重要な,正確な確率的予測を行う。 グローバルエネルギー予測コンペティション2014のオープンデータを用いた包括的実証的評価を通じて,本手法は他の最先端のディープラーニング生成モデル,創発的敵ネットワークと変分的オートエンコーダと競合することを実証する。 風力, 太陽エネルギー, 負荷シナリオを生成するモデルは, エネルギー小売業者のケーススタディと, いくつかの相補的指標を用いて品質を考慮し, 予測値の両面で適切に比較する。

Greater direct electrification of end-use sectors with a higher share of renewables is one of the pillars to power a carbon-neutral society by 2050. This study uses a recent deep learning technique, the normalizing flows, to produce accurate probabilistic forecasts that are crucial for decision-makers to face the new challenges in power systems applications. Through comprehensive empirical evaluations using the open data of the Global Energy Forecasting Competition 2014, we demonstrate that our methodology is competitive with other state-of-the-art deep learning generative models: generative adversarial networks and variational autoencoders. The models producing weather-based wind, solar power, and load scenarios are properly compared both in terms of forecast value, by considering the case study of an energy retailer, and quality using several complementary metrics.
翻訳日:2021-06-18 16:02:00 公開日:2021-06-17
# 風向予測の処理後アンサンブル予測のための機械学習手法:系統的比較

Machine learning methods for postprocessing ensemble forecasts of wind gusts: A systematic comparison ( http://arxiv.org/abs/2106.09512v1 )

ライセンス: Link先を確認
Benedikt Schulz and Sebastian Lerch(参考訳) 系統的誤りを訂正するための後処理アンサンブル気象予測は、研究と運用の標準的な実践となっている。 しかし、厳しい気象予報の重要性にもかかわらず、風速予報のアンサンブル後処理に焦点を当てた最近の研究はほとんどない。 Here, we provide a comprehensive review and systematic comparison of eight statistical and machine learning methods for probabilistic wind gust forecasting via ensemble postprocessing, that can be divided in three groups: State of the art postprocessing techniques from statistics (ensemble model output statistics (EMOS), member-by-member postprocessing, isotonic distributional regression), established machine learning methods (gradient-boosting extended EMOS, quantile regression forests) and neural network-based approaches (distributional regression network, Bernstein quantile network, histogram estimation network). これらの手法は、ドイツ気象局で運用された高解像度の対流透過型アンサンブル予測システムから得られた6年間のデータと、ドイツの気象観測所175箇所の時間観測を用いて体系的に比較される。 すべての後処理方法は、校正された予測を導き、生のアンサンブル予測の系統的誤りを補正することができるが、風向以外の気象予測変数からの情報を組み込むことで、予測スキルが大幅に向上する。 特に,様々な確率予測型を出力とする局所適応型ニューラルネットワークのフレキシブルなフレームワークを提案する。これは,ベンチマーク後処理法を著しく上回るだけでなく,日周期,特に惑星境界層の夜間遷移に関連する物理的に一貫した関係を学習する。

Postprocessing ensemble weather predictions to correct systematic errors has become a standard practice in research and operations. However, only few recent studies have focused on ensemble postprocessing of wind gust forecasts, despite its importance for severe weather warnings. Here, we provide a comprehensive review and systematic comparison of eight statistical and machine learning methods for probabilistic wind gust forecasting via ensemble postprocessing, that can be divided in three groups: State of the art postprocessing techniques from statistics (ensemble model output statistics (EMOS), member-by-member postprocessing, isotonic distributional regression), established machine learning methods (gradient-boosting extended EMOS, quantile regression forests) and neural network-based approaches (distributional regression network, Bernstein quantile network, histogram estimation network). The methods are systematically compared using six years of data from a high-resolution, convection-permittin g ensemble prediction system that was run operationally at the German weather service, and hourly observations at 175 surface weather stations in Germany. While all postprocessing methods yield calibrated forecasts and are able to correct the systematic errors of the raw ensemble predictions, incorporating information from additional meteorological predictor variables beyond wind gusts leads to significant improvements in forecast skill. In particular, we propose a flexible framework of locally adaptive neural networks with different probabilistic forecast types as output, which not only significantly outperform all benchmark postprocessing methods but also learn physically consistent relations associated with the diurnal cycle, especially the evening transition of the planetary boundary layer.
翻訳日:2021-06-18 16:01:45 公開日:2021-06-17
# PAC-Bayes, MAC-Bayes and Conditional Mutual Information: 一般VCクラスを扱う高速なレート境界

PAC-Bayes, MAC-Bayes and Conditional Mutual Information: Fast rate bounds that handle general VC classes ( http://arxiv.org/abs/2106.09683v1 )

ライセンス: Link先を確認
Peter Gr\"unwald, Thomas Steinke, Lydia Zakynthinou(参考訳) 条件付きPAC-Bayesianと相互情報(MI)の一般化境界を統一的に導出する。 条件付きmi境界を,条件付きmac-bayesian(約正しい)境界(条件付きpac-bayesian bounds)から派生した条件付きmac-bayesian(約正しい)境界(条件付きmi-bayesian bounds)の特別な選択の例として導出する。 これにより、一般的なvcクラスに対して、非自明なpac-bayesとmiスタイルの境界を得ることができます。 第二に、ベルンシュタイン条件が成立し($\gamma=1$で)exp-concave損失がある場合、$O \left(({\text{KL}}/n)^{\gamma}\right)$ for $\gamma > 1/2$は、標準的なPAC-Bayes一般化とMI境界の両方では不可能である。 我々の研究は、MIをVCで扱うSteinkeとZakynthinou [2020]の最近の研究を拡張し、PAC-Bayesも高速レートもなし、Hellstr\"omとDurisi [2020]の最近の研究は、指数的不等式を統一してPAC-Bayesセッティングに拡張している。 高速なPAC-Bayes一般化誤差境界を開始したが、MIも一般VCクラスも扱わない[2019]。

We give a novel, unified derivation of conditional PAC-Bayesian and mutual information (MI) generalization bounds. We derive conditional MI bounds as an instance, with special choice of prior, of conditional MAC-Bayesian (Mean Approximately Correct) bounds, itself derived from conditional PAC-Bayesian bounds, where `conditional' means that one can use priors conditioned on a joint training and ghost sample. This allows us to get nontrivial PAC-Bayes and MI-style bounds for general VC classes, something recently shown to be impossible with standard PAC-Bayesian/MI bounds. Second, it allows us to get faster rates of order $O \left(({\text{KL}}/n)^{\gamma}\right)$ for $\gamma > 1/2$ if a Bernstein condition holds and for exp-concave losses (with $\gamma=1$), which is impossible with both standard PAC-Bayes generalization and MI bounds. Our work extends the recent work by Steinke and Zakynthinou [2020] who handle MI with VC but neither PAC-Bayes nor fast rates, the recent work of Hellstr\"om and Durisi [2020] who extend the latter to the PAC-Bayes setting via a unifying exponential inequality, and Mhammedi et al. [2019] who initiated fast rate PAC-Bayes generalization error bounds but handle neither MI nor general VC classes.
翻訳日:2021-06-18 16:01:18 公開日:2021-06-17
# カメラとLiDARの両方に見えない:物理世界攻撃時の自律走行におけるマルチセンサフュージョンによる知覚のセキュリティ

Invisible for both Camera and LiDAR: Security of Multi-Sensor Fusion based Perception in Autonomous Driving Under Physical-World Attacks ( http://arxiv.org/abs/2106.09249v1 )

ライセンス: Link先を確認
Yulong Cao*, Ningfei Wang*, Chaowei Xiao*, Dawei Yang*, Jin Fang, Ruigang Yang, Qi Alfred Chen, Mingyan Liu, Bo Li (*co-first authors)(参考訳) 自律運転(AD)システムでは、安全と安全の両方が重要である。 セキュリティに関する様々な先行研究にもかかわらず、いずれもカメラまたはLiDARベースのAD認識のみに対する攻撃を考慮している。 しかし、現在のADシステムは、主にマルチセンサー・フュージョン(MSF)ベースの設計を採用しており、これは原則として全てのフュージョン・ソースが同時に攻撃されるわけではないという前提のもと、これらの攻撃に対してより堅牢である。 本稿では,MDFに基づくADシステムにおけるセキュリティ問題の最初の研究について述べる。 我々は、全ての核融合源を同時に攻撃する可能性を探ることで、上記の基本的MSF設計仮定に挑戦する。 これにより、msfが広告知覚に対する一般的な防衛戦略として、どの程度のセキュリティ保証を提供できるかを理解することができる。 我々は、この攻撃を最適化問題として定式化し、物理的に実現可能な3Dプリントオブジェクトを生成する。 我々は,(1)非微分可能なターゲットカメラとlidarセンシングシステム,(2)lidarベースの広告知覚で広く使用される非微分可能なセルレベルの集約機能,という2つの主な設計課題に対処する新しい攻撃パイプラインを提案する。 我々は、実世界の運転シナリオにおいて、業界レベルの広告システムの代表的存在であるmsfに対する攻撃を評価する。 その結果、攻撃は異なるオブジェクトタイプとmsfで90%以上の成功率を達成した。 当社の攻撃はまた、盗品で、被害者の位置に対して堅牢で、MSFアルゴリズムで転送可能で、LiDARとカメラデバイスで3Dプリントされ、キャプチャされた後、物理的な世界が実現可能であることもわかりました。 エンド・ツー・エンドの安全性への影響を具体的に評価するため,さらにシミュレーション評価を行い,業界レベルのADシステムにおいて100%の車両衝突率を生じることを示す。

In Autonomous Driving (AD) systems, perception is both security and safety critical. Despite various prior studies on its security issues, all of them only consider attacks on camera- or LiDAR-based AD perception alone. However, production AD systems today predominantly adopt a Multi-Sensor Fusion (MSF) based design, which in principle can be more robust against these attacks under the assumption that not all fusion sources are (or can be) attacked at the same time. In this paper, we present the first study of security issues of MSF-based perception in AD systems. We directly challenge the basic MSF design assumption above by exploring the possibility of attacking all fusion sources simultaneously. This allows us for the first time to understand how much security guarantee MSF can fundamentally provide as a general defense strategy for AD perception. We formulate the attack as an optimization problem to generate a physically-realizabl e, adversarial 3D-printed object that misleads an AD system to fail in detecting it and thus crash into it. We propose a novel attack pipeline that addresses two main design challenges: (1) non-differentiable target camera and LiDAR sensing systems, and (2) non-differentiable cell-level aggregated features popularly used in LiDAR-based AD perception. We evaluate our attack on MSF included in representative open-source industry-grade AD systems in real-world driving scenarios. Our results show that the attack achieves over 90% success rate across different object types and MSF. Our attack is also found stealthy, robust to victim positions, transferable across MSF algorithms, and physical-world realizable after being 3D-printed and captured by LiDAR and camera devices. To concretely assess the end-to-end safety impact, we further perform simulation evaluation and show that it can cause a 100% vehicle collision rate for an industry-grade AD system.
翻訳日:2021-06-18 15:59:47 公開日:2021-06-17
# BABEL: 英語ラベルによる身体・行動・行動

BABEL: Bodies, Action and Behavior with English Labels ( http://arxiv.org/abs/2106.09696v1 )

ライセンス: Link先を確認
Abhinanda R. Punnakkal (1), Arjun Chandrasekaran (1), Nikos Athanasiou (1), Alejandra Quiros-Ramirez (2), Michael J. Black (1) ((1) Max Planck Institute for Intelligent Systems, (2) Universitat Konstanz)(参考訳) 人間の動きのセマンティクス(動作の意味、方法、理由)を理解することは、人間の行動のデータセットとセマンティクスラベルを必要とする重要な問題である。 既存のデータセットには2つのアプローチがある。 大規模ビデオデータセットは多くのアクションラベルを含んでいるが、地上の3d人間の動きは含まない。 あるいは、モーションキャプチャ(mocap)データセットは正確な身体の動きを持つが、少数のアクションに限定される。 そこで本研究では,モーキャップシーケンスで実行される動作を記述する言語ラベル付き大規模データセットBABELを提案する。 BABELはAMASSから約43時間のモーキャップ配列のアクションラベルで構成されている。 シーケンスラベルはシーケンス内の全体的なアクションを記述し、フレームラベルはシーケンスの各フレームにおけるすべてのアクションを記述します。 各フレームラベルは、mocapシーケンスにおける対応するアクションの持続時間と正確に一致しており、複数のアクションが重なり合うことができる。 BABELには28k以上のシーケンスラベルと63kのフレームラベルがあり、250以上のユニークなアクションカテゴリに属している。 BABELのラベルは、アクション認識、時間的アクションローカライゼーション、モーション合成などのタスクに利用することができる。 BABELをベンチマークとして評価するために,3次元動作認識モデルの性能評価を行った。 我々は,BABELが実世界のシナリオに適用可能な興味深い学習課題を提起し,三次元行動認識の進歩の有用なベンチマークとなることを実証した。 データセット、ベースラインメソッド、評価コードは利用可能で、学術研究目的でhttps://babel.is.tue .mpg.de/でサポートされている。

Understanding the semantics of human movement -- the what, how and why of the movement -- is an important problem that requires datasets of human actions with semantic labels. Existing datasets take one of two approaches. Large-scale video datasets contain many action labels but do not contain ground-truth 3D human motion. Alternatively, motion-capture (mocap) datasets have precise body motions but are limited to a small number of actions. To address this, we present BABEL, a large dataset with language labels describing the actions being performed in mocap sequences. BABEL consists of action labels for about 43 hours of mocap sequences from AMASS. Action labels are at two levels of abstraction -- sequence labels describe the overall action in the sequence, and frame labels describe all actions in every frame of the sequence. Each frame label is precisely aligned with the duration of the corresponding action in the mocap sequence, and multiple actions can overlap. There are over 28k sequence labels, and 63k frame labels in BABEL, which belong to over 250 unique action categories. Labels from BABEL can be leveraged for tasks like action recognition, temporal action localization, motion synthesis, etc. To demonstrate the value of BABEL as a benchmark, we evaluate the performance of models on 3D action recognition. We demonstrate that BABEL poses interesting learning challenges that are applicable to real-world scenarios, and can serve as a useful benchmark of progress in 3D action recognition. The dataset, baseline method, and evaluation code is made available, and supported for academic research purposes at https://babel.is.tue .mpg.de/.
翻訳日:2021-06-18 15:59:13 公開日:2021-06-17
# Voice2Series:時系列分類のための音響モデルの再プログラム

Voice2Series: Reprogramming Acoustic Models for Time Series Classification ( http://arxiv.org/abs/2106.09296v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Yun-Yun Tsai, Pin-Yu Chen(参考訳) 限られたデータで時系列を分類する学習は実用的だが難しい問題である。 現在の手法は主に手書きの特徴抽出ルールやドメイン固有のデータ拡張に基づいている。 深層音声処理モデルの進歩と、音声データが一変時信号であるという事実に触発され、入力変換学習と出力ラベルマッピングを通じて時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチであるVoice2Series (V2S)を提案する。 大規模事前学習音声処理モデルの表現学習能力を活用することで,30個の異なる時系列タスクにおいて,v2は20個のタスクにおいて最先端の手法よりも優れており,その平均精度が1.84%向上することを示す。 さらに,v2sの個体群リスクがソースリスクとwasserstein距離による再プログラムによる特徴調整によって上限されていることを証明し,その理論的正当性を提供する。 我々の結果は時系列分類に新しい効果的な手段を提供する。

Learning to classify time series with limited data is a practical yet challenging problem. Current methods are primarily based on hand-designed feature extraction rules or domain-specific data augmentation. Motivated by the advances in deep speech processing models and the fact that voice data are univariate temporal signals, in this paper, we propose Voice2Series (V2S), a novel end-to-end approach that reprograms acoustic models for time series classification, through input transformation learning and output label mapping. Leveraging the representation learning power of a large-scale pre-trained speech processing model, on 30 different time series tasks we show that V2S either outperforms or is tied with state-of-the-art methods on 20 tasks, and improves their average accuracy by 1.84%. We further provide a theoretical justification of V2S by proving its population risk is upper bounded by the source risk and a Wasserstein distance accounting for feature alignment via reprogramming. Our results offer new and effective means to time series classification.
翻訳日:2021-06-18 15:58:46 公開日:2021-06-17
# スパース線形回帰におけるプリコンディショニングのパワーについて

On the Power of Preconditioning in Sparse Linear Regression ( http://arxiv.org/abs/2106.09207v1 )

ライセンス: Link先を確認
Jonathan Kelner, Frederic Koehler, Raghu Meka, Dhruv Rohatgi(参考訳) スパース線形回帰は高次元統計学の基本的な問題であるが、設計行列上の制約条件なしで効率的に解ける方法については明らかに分かっていない。 我々は、コヴァリエートが複数の変数のガウシアン $n(0,\sigma)$ と $\sigma : n \times n$ から独立に引き出され、$(\hat{w}-w^*)^t\sigma(\hat{w}-w^*)$ を最小化する推定子$\hat{w}$ を求める。 理論的には、任意の$\sigma$ と $w^*$ に対して$o(k \log n)$ の強いエラー境界が得られるが、$\sigma$ や $w^*$ の仮定なしに、これらの保証を$o(n)$ のサンプルと一致させる効率的なアルゴリズムは知られていない。 ハードネスに関しては、計算下限は最悪の場合の設計行列でのみ知られている。 ランダム設計のインスタンスはラッソにとって難しいことが知られているが、これらのインスタンスは単純な基底の変更(つまり)の後、一般にラッソによって解決できる。 プレコンディショニング) 本研究では, 疎線形回帰におけるプレコンディショニングのパワーを明らかにするために, 上下境界を与える。 まず、プレコンディショニングされたラッソは、余変数の依存性構造がマルコフの性質という意味では、木幅が低く、たとえ$\Sigma$ が高条件であったとしても、ほぼ最適に多くの疎線型回帰問題を解くことができることを示す。 第二に、最適な前提条件のlassoでは確実に難しい(初めて)ランダム設計インスタンスを構築します。 実際、木幅分類は、任意の木幅-$t$グラフに対して、このグラフ上にガウスマルコフ確率場が存在することを証明して完了し、事前条件付きラッソは、任意のプリコンディショナーの選択により、このモデルからコヴァリエートが引き出されるときに$o(\log n)$-スパース信号を回収するために$\omega(t^{1/20})$サンプルを必要とする。

Sparse linear regression is a fundamental problem in high-dimensional statistics, but strikingly little is known about how to efficiently solve it without restrictive conditions on the design matrix. We consider the (correlated) random design setting, where the covariates are independently drawn from a multivariate Gaussian $N(0,\Sigma)$ with $\Sigma : n \times n$, and seek estimators $\hat{w}$ minimizing $(\hat{w}-w^*)^T\Sigma(\hat{w}-w^*)$, where $w^*$ is the $k$-sparse ground truth. Information theoretically, one can achieve strong error bounds with $O(k \log n)$ samples for arbitrary $\Sigma$ and $w^*$; however, no efficient algorithms are known to match these guarantees even with $o(n)$ samples, without further assumptions on $\Sigma$ or $w^*$. As far as hardness, computational lower bounds are only known with worst-case design matrices. Random-design instances are known which are hard for the Lasso, but these instances can generally be solved by Lasso after a simple change-of-basis (i.e. preconditioning). In this work, we give upper and lower bounds clarifying the power of preconditioning in sparse linear regression. First, we show that the preconditioned Lasso can solve a large class of sparse linear regression problems nearly optimally: it succeeds whenever the dependency structure of the covariates, in the sense of the Markov property, has low treewidth -- even if $\Sigma$ is highly ill-conditioned. Second, we construct (for the first time) random-design instances which are provably hard for an optimally preconditioned Lasso. In fact, we complete our treewidth classification by proving that for any treewidth-$t$ graph, there exists a Gaussian Markov Random Field on this graph such that the preconditioned Lasso, with any choice of preconditioner, requires $\Omega(t^{1/20})$ samples to recover $O(\log n)$-sparse signals when covariates are drawn from this model.
翻訳日:2021-06-18 15:58:28 公開日:2021-06-17
# リスト決定可能な線形回帰に対する統計的照会下限

Statistical Query Lower Bounds for List-Decodable Linear Regression ( http://arxiv.org/abs/2106.09689v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Ankit Pensia, Thanasis Pittas, Alistair Stewart(参考訳) リスト決定可能な線形回帰問題(英語版)(list-decodable linear regression) では、敵が多くの例を破る可能性がある。 具体的には、ラベル付き例の集合 $T$ を $(x, y) \in \mathbb{R}^d \times \mathbb{R}$ とし、パラメータ $0< \alpha <1/2$ を $T$ 内の点の $\alpha$-fraction が i.i.d となるように与えられる。 ガウス共変量を持つ線形回帰モデルからのサンプルと点の残りの(1-\alpha)$-フラクションは任意の雑音分布から引き出される。 目標は、少なくとも1つがターゲットの回帰ベクトルに近いように、仮説ベクトルの小さなリストを出力することである。 我々の主な結果は、この問題に対して$d^{\mathrm{poly}(1/\alpha)}$の統計的クエリ(SQ)の下限である。 我々のSQ下限は、以前に開発されたアルゴリズムの性能と定性的に一致し、このタスクの現在の上限がほぼ最良であることを示す。

We study the problem of list-decodable linear regression, where an adversary can corrupt a majority of the examples. Specifically, we are given a set $T$ of labeled examples $(x, y) \in \mathbb{R}^d \times \mathbb{R}$ and a parameter $0< \alpha <1/2$ such that an $\alpha$-fraction of the points in $T$ are i.i.d. samples from a linear regression model with Gaussian covariates, and the remaining $(1-\alpha)$-fractio n of the points are drawn from an arbitrary noise distribution. The goal is to output a small list of hypothesis vectors such that at least one of them is close to the target regression vector. Our main result is a Statistical Query (SQ) lower bound of $d^{\mathrm{poly}(1/\alpha)}$ for this problem. Our SQ lower bound qualitatively matches the performance of previously developed algorithms, providing evidence that current upper bounds for this task are nearly best possible.
翻訳日:2021-06-18 15:57:37 公開日:2021-06-17
# 完全および部分的ネットワークデータに対するスペクトル良性試験

Spectral goodness-of-fit tests for complete and partial network data ( http://arxiv.org/abs/2106.09702v1 )

ライセンス: Link先を確認
Shane Lubold and Bolun Liu and Tyler H. McCormick(参考訳) ネットワークは個々のアクター間の複雑な関係を記述する。 本研究では,確率ブロックモデルや潜在空間モデルといったパラメトリックモデルがデータセットに適合するかどうかを判断し,同様のデータに推定する方法について述べる。 本研究では,ランダム行列理論における最近の結果を用いて,dyadicデータに対する一般適合性テストを行う。 提案手法は,特定の関心モデルに適用した場合,よく用いられるネットワークモデルにおいて,パラメータを選択する簡単な,計算的に高速な方法を提供する。 例えば、潜在空間モデルにおける潜在空間の次元を選択する方法を示す。 他のネットワーク適合性手法とは異なり、我々の一般的なアプローチは、大きなグラフで煩雑な候補パラメトリックモデルからのシミュレーションを必要とせず、比較のためにグラフ上の特定の統計セットを選択する必要がなくなる。 また、集約されたリレーショナルデータなど、部分的なネットワークデータに対する適合度テストの実行も可能です。 我々は,本手法が興味のある多くの状況で良好に動作することを示すシミュレーションで示す。 実験的に関係のあるネットワークを分析し,提案手法がコミュニティ検出アルゴリズムの改善につながることを示す。 我々のメソッドを実装するためのRコードはGithubで入手できる。

Networks describe the, often complex, relationships between individual actors. In this work, we address the question of how to determine whether a parametric model, such as a stochastic block model or latent space model, fits a dataset well and will extrapolate to similar data. We use recent results in random matrix theory to derive a general goodness-of-fit test for dyadic data. We show that our method, when applied to a specific model of interest, provides an straightforward, computationally fast way of selecting parameters in a number of commonly used network models. For example, we show how to select the dimension of the latent space in latent space models. Unlike other network goodness-of-fit methods, our general approach does not require simulating from a candidate parametric model, which can be cumbersome with large graphs, and eliminates the need to choose a particular set of statistics on the graph for comparison. It also allows us to perform goodness-of-fit tests on partial network data, such as Aggregated Relational Data. We show with simulations that our method performs well in many situations of interest. We analyze several empirically relevant networks and show that our method leads to improved community detection algorithms. R code to implement our method is available on Github.
翻訳日:2021-06-18 15:57:16 公開日:2021-06-17
# 深層強化学習による不確かさシステム環境における資源配分のモデル化

Modelling resource allocation in uncertain system environment through deep reinforcement learning ( http://arxiv.org/abs/2106.09461v1 )

ライセンス: Link先を確認
Neel Gandhi, Shakti Mishra(参考訳) 強化学習はメカトロニクス、ロボティクス、その他のリソース制約された制御システムの分野で応用されている。 リソース割り当ての問題は、主に伝統的な事前定義技術と最新のディープラーニング手法を用いて解決される。 リソース割り当てのための事前定義された最も深い学習方法の欠点は、不確定なシステム環境の場合の要件を満たさないことである。 我々は,不確実なシステム環境における資源配分の問題に,深層強化学習を用いた一定の基準に従うことができる。 また、強化学習は長期にわたって新しい不確実な環境に適応する能力を有する。 本稿では,様々な深層強化学習手法について,ノイズ層,優先順位付けされたリプレイ,袋詰め,デュエルネットワーク,および関連する組み合わせを用いて強化学習のアーキテクチャを変更するために異なるコンポーネントを適用し,性能と計算コストの削減の観点から改善を図ることで,詳細な比較分析を行う。 本論文は, 資源配分のシミュレーション環境において, 資源割当を最大化することで, 資源割当の効率を97.7%向上し, ノイズバッギングによる資源割当を効果的に解決できることを示した。

Reinforcement Learning has applications in field of mechatronics, robotics, and other resource-constrained control system. Problem of resource allocation is primarily solved using traditional predefined techniques and modern deep learning methods. The drawback of predefined and most deep learning methods for resource allocation is failing to meet the requirements in cases of uncertain system environment. We can approach problem of resource allocation in uncertain system environment alongside following certain criteria using deep reinforcement learning. Also, reinforcement learning has ability for adapting to new uncertain environment for prolonged period of time. The paper provides a detailed comparative analysis on various deep reinforcement learning methods by applying different components to modify architecture of reinforcement learning with use of noisy layers, prioritized replay, bagging, duelling networks, and other related combination to obtain improvement in terms of performance and reduction of computational cost. The paper identifies problem of resource allocation in uncertain environment could be effectively solved using Noisy Bagging duelling double deep Q network achieving efficiency of 97.7% by maximizing reward with significant exploration in given simulated environment for resource allocation.
翻訳日:2021-06-18 15:56:58 公開日:2021-06-17
# X-FACT: マルチリンガルファクトチェックのためのベンチマークデータセット

X-FACT: A New Benchmark Dataset for Multilingual Fact Checking ( http://arxiv.org/abs/2106.09248v1 )

ライセンス: Link先を確認
Ashim Gupta and Vivek Srikumar(参考訳) 本稿では,自然に存在する実世界のクレームを実際に検証するための,公開可能な最大多言語データセットであるx-factを紹介する。 データセットは25の言語で短いステートメントを含んでおり、専門家のファクトチェッカーによってveracityとラベル付けされている。 データセットには、ドメイン外の一般化と、多言語モデルのゼロショット能力の両方を測定する多言語評価ベンチマークが含まれている。 最先端の多言語トランスフォーマーモデルを用いて,テキストクレームに加えて,検索エンジンを用いて検索したニュース記事のメタデータやエビデンスを利用したファクトチェックモデルを開発した。 経験的に、最良のモデルは、約40%のf-scoreを達成し、我々のデータセットは、多言語ファクトチェックモデルの評価に挑戦的なベンチマークであることを示唆している。

In this work, we introduce X-FACT: the largest publicly available multilingual dataset for factual verification of naturally existing real-world claims. The dataset contains short statements in 25 languages and is labeled for veracity by expert fact-checkers. The dataset includes a multilingual evaluation benchmark that measures both out-of-domain generalization, and zero-shot capabilities of the multilingual models. Using state-of-the-art multilingual transformer-based models, we develop several automated fact-checking models that, along with textual claims, make use of additional metadata and evidence from news stories retrieved using a search engine. Empirically, our best model attains an F-score of around 40%, suggesting that our dataset is a challenging benchmark for evaluation of multilingual fact-checking models.
翻訳日:2021-06-18 15:56:22 公開日:2021-06-17
# lost in interpreting: ソースまたはインタプリタからの音声翻訳?

Lost in Interpreting: Speech Translation from Source or Interpreter? ( http://arxiv.org/abs/2106.09343v1 )

ライセンス: Link先を確認
Dominik Mach\'a\v{c}ek, Mat\'u\v{s} \v{Z}ilinec, Ond\v{r}ej Bojar(参考訳) 解釈は多言語会議を促進するが、安価な言語セットは必要よりも小さいことが多い。 自動同時翻訳は、提供言語の集合を拡張することができる。 このような自動システムは、より遅れの少ない翻訳品質を実現するために、元の話者やインタプリタに従わなければならないかを検討する。 この質問に答えるために、europarl同時解釈コーパス(esic)、10時間の欧州議会演説の記録と書き起こしを英語で公開し、チェコ語とドイツ語を同時に解釈します。 話者ベースおよび通訳ベース音声翻訳システムの品質とレイテンシを英語からチェコ語まで評価した。 本研究では,機械翻訳システムと比較して,人間の通訳の暗黙的単純化と要約の違いについて検討した。 最後に,これら各手法の情報損失を測定するための人的評価を行う。

Interpreters facilitate multi-lingual meetings but the affordable set of languages is often smaller than what is needed. Automatic simultaneous speech translation can extend the set of provided languages. We investigate if such an automatic system should rather follow the original speaker, or an interpreter to achieve better translation quality at the cost of increased delay. To answer the question, we release Europarl Simultaneous Interpreting Corpus (ESIC), 10 hours of recordings and transcripts of European Parliament speeches in English, with simultaneous interpreting into Czech and German. We evaluate quality and latency of speaker-based and interpreter-based spoken translation systems from English to Czech. We study the differences in implicit simplification and summarization of the human interpreter compared to a machine translation system trained to shorten the output to some extent. Finally, we perform human evaluation to measure information loss of each of these approaches.
翻訳日:2021-06-18 15:56:09 公開日:2021-06-17
# 深い推論のためのポインタネットワークの能力について

On the Capabilities of Pointer Networks for Deep Deductive Reasoning ( http://arxiv.org/abs/2106.09225v1 )

ライセンス: Link先を確認
Monireh Ebrahimi, Aaron Eberhart, Pascal Hitzler(参考訳) 推論を学ぶことができるニューラルネットワークの構築の重要性は、神経シンボリックなコミュニティでよく認識されている。 本稿では,ニューラルネットワークを記号的知識ベース上の推論に応用する。 そこで我々は,エンコーダ・デコーダアーキテクチャの一般およびポインタネットワークにおけるメリット,特に,正確で一般化可能な,堅牢なニューロシンボリック推論器の開発について検討する。 実験結果に基づき,ポインターネットワークは複数の推論タスクにおいて非常に良好に動作し,前回報告した技術に比較して有意なマージンを示した。 我々は、これまで遭遇したことのないドメイン/語彙の知識グラフに挑戦しても、ポインタネットワークが性能を維持することを観察する。 我々の知る限りでは、ポインタネットワークを用いたニューロシンボリック推論に関する最初の研究である。 これらの推論問題に対する我々の印象的な結果は、より複雑な論理や他の神経-記号問題に対する推論のためのポインタネットワークの機能のより広範な探索を促進することを願っている。

The importance of building neural networks that can learn to reason has been well recognized in the neuro-symbolic community. In this paper, we apply neural pointer networks for conducting reasoning over symbolic knowledge bases. In doing so, we explore the benefits and limitations of encoder-decoder architectures in general and pointer networks in particular for developing accurate, generalizable and robust neuro-symbolic reasoners. Based on our experimental results, pointer networks performs remarkably well across multiple reasoning tasks while outperforming the previously reported state of the art by a significant margin. We observe that the Pointer Networks preserve their performance even when challenged with knowledge graphs of the domain/vocabulary it has never encountered before. To the best of our knowledge, this is the first study on neuro-symbolic reasoning using Pointer Networks. We hope our impressive results on these reasoning problems will encourage broader exploration of pointer networks' capabilities for reasoning over more complex logics and for other neuro-symbolic problems.
翻訳日:2021-06-18 15:55:54 公開日:2021-06-17
# jsi at the finsim-2 task: ontology-augmented financial concept classification

JSI at the FinSim-2 task: Ontology-Augmented Financial Concept Classification ( http://arxiv.org/abs/2106.09230v1 )

ライセンス: Link先を確認
Timen Stepi\v{s}nik Perdih, Senja Pollak, Bla\v{z} \v{Skrlj}(参考訳) オントロジーはここ数年、機械推論にますます使われてきた。 概念の説明を提供したり、望ましいラベルから関連するオントロジーへのマッピングが存在する場合、概念分類に使用することができる。 ontologiesを使うもう1つの利点は、学習プロセスを必要としないことだ。 本稿では,財務領域の分類問題に対するオントロジーの実践的利用について述べる。 まず、与えられたオントロジーをグラフに変換し、金融概念の入力セットの共通の意味記述を見つけることを目的として一般化を進める。 金融分野における意味的類似性を学ぶための共通タスクの解法を提案する(finsim-2タスク)。 業務は、金融ドメインの概念を外部オントロジー(金融業界ビジネスオントロジー)において最も関連性の高いハイパーネム概念に自動的に分類できるシステムの設計である。 本稿では,与えられた概念をオントロジーにマップし,最も関連するハイパーニムをグラフ検索する手法を提案する。 また,単語ベクトル化手法と機械学習分類器を用いて,各概念のラベルランキングを補足する。

Ontologies are increasingly used for machine reasoning over the last few years. They can provide explanations of concepts or be used for concept classification if there exists a mapping from the desired labels to the relevant ontology. Another advantage of using ontologies is that they do not need a learning process, meaning that we do not need the train data or time before using them. This paper presents a practical use of an ontology for a classification problem from the financial domain. It first transforms a given ontology to a graph and proceeds with generalization with the aim to find common semantic descriptions of the input sets of financial concepts. We present a solution to the shared task on Learning Semantic Similarities for the Financial Domain (FinSim-2 task). The task is to design a system that can automatically classify concepts from the Financial domain into the most relevant hypernym concept in an external ontology - the Financial Industry Business Ontology. We propose a method that maps given concepts to the mentioned ontology and performs a graph search for the most relevant hypernyms. We also employ a word vectorization method and a machine learning classifier to supplement the method with a ranked list of labels for each concept.
翻訳日:2021-06-18 15:55:37 公開日:2021-06-17
# 中央クルド語機械翻訳:最初の大規模並列コーパスと実験

Central Kurdish machine translation: First large scale parallel corpus and experiments ( http://arxiv.org/abs/2106.09325v1 )

ライセンス: Link先を確認
Zhila Amini, Mohammad Mohammadamini (LIA), Hawre Hosseini, Mehran Mansouri, Daban Jaff(参考訳) クルド語の計算処理は相対的に増加したが、この言語の機械翻訳にはかなりの科学的研究が欠けているようである。 これは、特にこのタスクのためにキュレートされたリソースが欠如しているためだ。 本稿では,229,222組の手作業による翻訳文を含む,中央クルド語-英語 awta の大規模並列コーパスについて述べる。 私たちのコーパスは、機械翻訳のより堅牢で現実的なアプリケーションを構築するために、さまざまなテキストジャンルやドメインから収集されます。 この分野の研究を促進するため,我々はこのコーパスの一部を公開している。 さらに,クルド語機械翻訳のタスクをベンチマークするために,複数のニューラルマシン翻訳モデルを構築した。 さらに,中央クルド語機械翻訳が直面する主な課題を明らかにするために,実験結果の分析を行った。 これらの課題には、本論文で分類した言語依存と非依存の課題が含まれており、最初のグループは、形態的、構文的、意味的に異なる中央クルド語の特性を認識している。 BLEUスコアの22.72と16.81は、それぞれKu$\rightarrow$ENとEn$\rightarrow$Kuに対して達成している。

While the computational processing of Kurdish has experienced a relative increase, the machine translation of this language seems to be lacking a considerable body of scientific work. This is in part due to the lack of resources especially curated for this task. In this paper, we present the first large scale parallel corpus of Central Kurdish-English, Awta, containing 229,222 pairs of manually aligned translations. Our corpus is collected from different text genres and domains in an attempt to build more robust and real-world applications of machine translation. We make a portion of this corpus publicly available in order to foster research in this area. Further, we build several neural machine translation models in order to benchmark the task of Kurdish machine translation. Additionally, we perform extensive experimental analysis of results in order to identify the major challenges that Central Kurdish machine translation faces. These challenges include language-dependent and-independent ones as categorized in this paper, the first group of which are aware of Central Kurdish linguistic properties on different morphological, syntactic and semantic levels. Our best performing systems achieve 22.72 and 16.81 in BLEU score for Ku$\rightarrow$EN and En$\rightarrow$Ku, respectively.
翻訳日:2021-06-18 15:55:20 公開日:2021-06-17
# MetaBalance: クラス不均衡データのための高性能ニューラルネットワーク

MetaBalance: High-Performance Neural Networks for Class-Imbalanced Data ( http://arxiv.org/abs/2106.09643v1 )

ライセンス: Link先を確認
Arpit Bansal, Micah Goldblum, Valeriia Cherepanova, Avi Schwarzschild, C. Bayan Bruss, Tom Goldstein(参考訳) あるクラスが他のクラスよりもはるかに多くのサンプルを含むクラス不均衡データは、現実世界のアプリケーションではユビキタスである。 クラス不均衡を扱う標準的なテクニックは、通常、再重み付け損失や再バランスデータに関するトレーニングによって機能する。 残念なことに、そのような目的に対する過パラメータニューラルネットワークのトレーニングは、マイノリティクラスのデータを急速に記憶する。 このトラップを避けるために、メタラーニングを利用する。これは'outer-loop'と'inner-loop'の損失の両方を使い、それぞれが異なる戦略でバランスをとることができる。 提案手法であるMetaBalanceは,画像分類,クレジットカード不正検出,ローンデフォルト予測,顔認識タスクを極めて不均衡なデータで評価した結果,MetaBalanceはさまざまな再サンプリング戦略に優れていた。

Class-imbalanced data, in which some classes contain far more samples than others, is ubiquitous in real-world applications. Standard techniques for handling class-imbalance usually work by training on a re-weighted loss or on re-balanced data. Unfortunately, training overparameterized neural networks on such objectives causes rapid memorization of minority class data. To avoid this trap, we harness meta-learning, which uses both an ''outer-loop'' and an ''inner-loop'' loss, each of which may be balanced using different strategies. We evaluate our method, MetaBalance, on image classification, credit-card fraud detection, loan default prediction, and facial recognition tasks with severely imbalanced data, and we find that MetaBalance outperforms a wide array of popular re-sampling strategies.
翻訳日:2021-06-18 15:54:45 公開日:2021-06-17
# 皮膚病変解析のための自己監督前訓練の評価

An Evaluation of Self-Supervised Pre-Training for Skin-Lesion Analysis ( http://arxiv.org/abs/2106.09229v1 )

ライセンス: Link先を確認
Levy Chaves, Alceu Bissoto, Eduardo Valle and Sandra Avila(参考訳) 自己指導型プレトレーニングは、トランスファーラーニングのための教師付きプレトレーニングの代替となる。 プリテキストタスクのアノテーションを合成することで、self-supervisionはターゲットタスクで微調整する前に、大量の擬似ラベルでモデルを事前トレーニングすることができる。 そこで本研究では, 皮膚病変の診断のためのセルフスーパービジョンを評価し, 3つのセルフスーパービジョンパイプラインと, 内および外分布サンプルからなる5つのテストデータセットの課題ベースラインを比較した。 以上の結果から,自己スーパービジョンは,適応性の向上と結果のばらつきの低減の両方において競争的であることが示された。 セルフスーパービジョンは、低いトレーニングデータシナリオ($<1\,500$と$<150$サンプル)において特に有用であり、健全な結果を得るためには結果の安定化が不可欠である。

Self-supervised pre-training appears as an advantageous alternative to supervised pre-trained for transfer learning. By synthesizing annotations on pretext tasks, self-supervision allows to pre-train models on large amounts of pseudo-labels before fine-tuning them on the target task. In this work, we assess self-supervision for the diagnosis of skin lesions, comparing three self-supervised pipelines to a challenging supervised baseline, on five test datasets comprising in- and out-of-distribution samples. Our results show that self-supervision is competitive both in improving accuracies and in reducing the variability of outcomes. Self-supervision proves particularly useful for low training data scenarios ($<1\,500$ and $<150$ samples), where its ability to stabilize the outcomes is essential to provide sound results.
翻訳日:2021-06-18 15:53:24 公開日:2021-06-17
# 適応ホモトピー学習によるディープコントラストグラフ表現

Deep Contrastive Graph Representation via Adaptive Homotopy Learning ( http://arxiv.org/abs/2106.09244v1 )

ライセンス: Link先を確認
Rui Zhang, Chengjun Lu, Ziheng Jiao and Xuelong Li(参考訳) Homotopyモデルは、機械学習の分野でさまざまな研究によって活用される優れたツールである。 しかし、その柔軟性は適応性の欠如、すなわち適切なホモトピー係数の手動固定や調整のために制限される。 上記の問題に対処するために、マクローリン双対性を用いる新しい適応ホモトピーフレームワーク(AH)を提案し、ホモトピーパラメータを適応的に得ることができる。 したがって、提案したAHはホモトピーに基づくアルゴリズムを強化するために広く利用することができる。 本稿では,AHを対照学習(AHCL)に適用し,弱教師付き学習(ギブンラベル事前)から教師なし学習に効果的に移行し,対照学習のソフトラベルを直接かつ適応的に学習する。 したがって、AHCLは事前情報なしに深い特徴を抽出する適応能力を持つ。 したがって、関連する適応ラベルによって定式化された親和性行列は、入力に対する深い表現のトポロジーを組み込んだ深いラプラシアングラフとして構成することができる。 最終的に、ベンチマークデータセットに関する広範な実験は、我々の方法の優位性を検証する。

Homotopy model is an excellent tool exploited by diverse research works in the field of machine learning. However, its flexibility is limited due to lack of adaptiveness, i.e., manual fixing or tuning the appropriate homotopy coefficients. To address the problem above, we propose a novel adaptive homotopy framework (AH) in which the Maclaurin duality is employed, such that the homotopy parameters can be adaptively obtained. Accordingly, the proposed AH can be widely utilized to enhance the homotopy-based algorithm. In particular, in this paper, we apply AH to contrastive learning (AHCL) such that it can be effectively transferred from weak-supervised learning (given label priori) to unsupervised learning, where soft labels of contrastive learning are directly and adaptively learned. Accordingly, AHCL has the adaptive ability to extract deep features without any sort of prior information. Consequently, the affinity matrix formulated by the related adaptive labels can be constructed as the deep Laplacian graph that incorporates the topology of deep representations for the inputs. Eventually, extensive experiments on benchmark datasets validate the superiority of our method.
翻訳日:2021-06-18 15:53:09 公開日:2021-06-17
# オプティカルマウス:シングルビュー動画から3Dマウスを撮る

Optical Mouse: 3D Mouse Pose From Single-View Video ( http://arxiv.org/abs/2106.09251v1 )

ライセンス: Link先を確認
Bo Hu, Bryan Seybold, Shan Yang, David Ross, Avneesh Sud, Graham Ruby, Yi Liu(参考訳) そこで本研究では,単眼ビデオから手足や足などのマウスの3dポーズを推定する手法を提案する。 多くのヒトの臨床症状とその動物モデルが異常な動きをもたらし、3次元の運動を正確に測定することは健康に関する洞察を与える。 3Dは2D表現よりも健康関連属性の分類を改善する。 推定されたポーズは足がほとんど閉ざされている場合でも、歩幅を推定できるほど正確である。 この方法は、動物の健康を非侵襲的に測定する継続的モニタリングシステムの一部として適用することができる。

We present a method to infer the 3D pose of mice, including the limbs and feet, from monocular videos. Many human clinical conditions and their corresponding animal models result in abnormal motion, and accurately measuring 3D motion at scale offers insights into health. The 3D poses improve classification of health-related attributes over 2D representations. The inferred poses are accurate enough to estimate stride length even when the feet are mostly occluded. This method could be applied as part of a continuous monitoring system to non-invasively measure animal health.
翻訳日:2021-06-18 15:52:49 公開日:2021-06-17
# 人間の動き予測のための多段階動作注意

Multi-level Motion Attention for Human Motion Prediction ( http://arxiv.org/abs/2106.09300v1 )

ライセンス: Link先を確認
Wei Mao, Miaomiao Liu, Mathieu Salzmann, Hongdong Li(参考訳) 人間の動き予測は、歴史的動きが与えられた将来の人間のポーズを予測することを目的としている。 リカレントでもフィードフォワードでも、既存の学習ベースの手法では、複雑なスポーツ行動や料理活動であっても、人間の動きが繰り返す傾向にあるという観察をモデル化できない。 本稿では,この観察を明示的に活用した注意に基づくフィードフォワードネットワークを提案する。 特に、ポーズ類似性によるフレームワイドアテンションをモデル化する代わりに、現在の動きコンテキストと過去の動きサブシーケンスとの類似性を捉えるために、動き注意を抽出することを提案する。 この文脈では, 関節, 体部, ポーズレベルで計算された異なるタイプの注意の使用について検討する。 関連した過去の動きを集約し、グラフ畳み込みネットワークで結果を処理することにより、長期履歴からの動作パターンを効果的に活用し、将来のポーズを予測する。 我々は,Human3.6M,AMASS,3DP Wを用いて,周期的および非周期的な行動に対するアプローチの利点を検証した。 注意モデルのおかげで、3つのデータセットすべてに最先端の結果が得られます。 私たちのコードはhttps://github.com/w ei-mao-2019/hisrepit selfで利用可能です。

Human motion prediction aims to forecast future human poses given a historical motion. Whether based on recurrent or feed-forward neural networks, existing learning based methods fail to model the observation that human motion tends to repeat itself, even for complex sports actions and cooking activities. Here, we introduce an attention based feed-forward network that explicitly leverages this observation. In particular, instead of modeling frame-wise attention via pose similarity, we propose to extract motion attention to capture the similarity between the current motion context and the historical motion sub-sequences. In this context, we study the use of different types of attention, computed at joint, body part, and full pose levels. Aggregating the relevant past motions and processing the result with a graph convolutional network allows us to effectively exploit motion patterns from the long-term history to predict the future poses. Our experiments on Human3.6M, AMASS and 3DPW validate the benefits of our approach for both periodical and non-periodical actions. Thanks to our attention model, it yields state-of-the-art results on all three datasets. Our code is available at https://github.com/w ei-mao-2019/HisRepIt self.
翻訳日:2021-06-18 15:52:39 公開日:2021-06-17
# 課題からどうやって(さらに)学ぶのか? 将来的なアルゴリズム開発への統計的アプローチ

How can we learn (more) from challenges? A statistical approach to driving future algorithm development ( http://arxiv.org/abs/2106.09302v1 )

ライセンス: Link先を確認
Tobias Ro{\ss}, Pierangela Bruno, Annika Reinke, Manuel Wiesenfarth, Lisa Koeppel, Peter M. Full, B\"unyamin Pekdemir, Patrick Godau, Darya Trofimova, Fabian Isensee, Sara Moccia, Francesco Calimeri, Beat P. M\"uller-Stich, Annette Kopp-Schneider, Lena Maier-Hein(参考訳) 課題は、画像解析アルゴリズムを比較的にベンチマークするための最先端のアプローチとなっている。 同一のデータセットの検証は大きな前進でしたが、結果分析は純粋なランキングテーブルに限定されることが多く、関連する質問は答えられません。 具体的には、最先端のアルゴリズムが失敗した画像の特徴を体系的に調査する作業はほとんど行われていない。 文献のこのギャップに対処するため,(1)課題から学ぶための統計的枠組みを提示し,(2)腹腔鏡ビデオにおける機器のインスタンスセグメンテーションの特定のタスクをインスタンス化する。 我々のフレームワークは画像の意味的メタデータアノテーションに依存しており、GLMM(General Linear Mixed Models)解析の基礎となっている。 2,728枚の画像上で実行される51,542個のメタデータアノテーションに基づいて,Robost Medical Instrument Segmentation Challenge (ROBUST-MIS) Challenge 2019の結果にアプローチを適用した。 その後の手法開発では,既存の手法が失敗する傾向にあった画像の処理において,最先端の総合的性能と特定の強みを持つディープラーニングモデルを構築した。 このアプローチの客観性と汎用的適用性から,医療画像解析などの分野における検証ツールとして有用である可能性が示唆された。 そして、小さく、交差し、移動し、透明な機器(parts)のセグメンテーション。

Challenges have become the state-of-the-art approach to benchmark image analysis algorithms in a comparative manner. While the validation on identical data sets was a great step forward, results analysis is often restricted to pure ranking tables, leaving relevant questions unanswered. Specifically, little effort has been put into the systematic investigation on what characterizes images in which state-of-the-art algorithms fail. To address this gap in the literature, we (1) present a statistical framework for learning from challenges and (2) instantiate it for the specific task of instrument instance segmentation in laparoscopic videos. Our framework relies on the semantic meta data annotation of images, which serves as foundation for a General Linear Mixed Models (GLMM) analysis. Based on 51,542 meta data annotations performed on 2,728 images, we applied our approach to the results of the Robust Medical Instrument Segmentation Challenge (ROBUST-MIS) challenge 2019 and revealed underexposure, motion and occlusion of instruments as well as the presence of smoke or other objects in the background as major sources of algorithm failure. Our subsequent method development, tailored to the specific remaining issues, yielded a deep learning model with state-of-the-art overall performance and specific strengths in the processing of images in which previous methods tended to fail. Due to the objectivity and generic applicability of our approach, it could become a valuable tool for validation in the field of medical image analysis and beyond. and segmentation of small, crossing, moving and transparent instrument(s) (parts).
翻訳日:2021-06-18 15:52:23 公開日:2021-06-17
# THUNDR : マーカーを用いたトランスフォーマーによる3次元HUmaN再構成

THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers ( http://arxiv.org/abs/2106.09336v1 )

ライセンス: Link先を確認
Mihai Zanfir, Andrei Zanfir, Eduard Gabriel Bazavan, William T. Freeman, Rahul Sukthankar and Cristian Sminchisescu(参考訳) モノクロRGB画像から3次元ポーズと形状を再構成するトランスフォーマーに基づくディープニューラルネットワーク手法THUNDRを提案する。 我々の方法論の鍵となるのは、モデルフリーな出力アーキテクチャの予測力と、GHUMのような統計的人体表面モデルの正規化、人文的保存特性を組み合わせることを目的とした、中間的な3dマーカー表現である。 提案するトランスフォーマティブに基づく予測パイプラインは,タスクに関連する画像領域に着目し,自己監視型レジームをサポートし,ソリューションが人間人類学的に一貫性があることを保証する。 完全教師型モデルと自己教師型モデルの両方に対してHuman3.6Mと3DPWの最先端結果を示し, 人体形状, 関節位置, グローバルトランスフォーメーションを推定するタスクについて検討した。 また,野生で採取した難易度の高いヒトの3次元復元性能も観察した。

We present THUNDR, a transformer-based deep neural network methodology to reconstruct the 3d pose and shape of people, given monocular RGB images. Key to our methodology is an intermediate 3d marker representation, where we aim to combine the predictive power of model-free-output architectures and the regularizing, anthropometrically-p reserving properties of a statistical human surface model like GHUM -- a recently introduced, expressive full body statistical 3d human model, trained end-to-end. Our novel transformer-based prediction pipeline can focus on image regions relevant to the task, supports self-supervised regimes, and ensures that solutions are consistent with human anthropometry. We show state-of-the-art results on Human3.6M and 3DPW, for both the fully-supervised and the self-supervised models, for the task of inferring 3d human shape, joint positions, and global translation. Moreover, we observe very solid 3d reconstruction performance for difficult human poses collected in the wild.
翻訳日:2021-06-18 15:51:55 公開日:2021-06-17
# ShuffleBlock: 深層畳み込みニューラルネットワークを正規化するShuffle

ShuffleBlock: Shuffle to Regularize Deep Convolutional Neural Networks ( http://arxiv.org/abs/2106.09358v1 )

ライセンス: Link先を確認
Sudhakar Kumawat, Gagan Kanojia, and Shanmuganathan Raman(参考訳) ディープニューラルネットワークは膨大な表現力を持ち、ほとんどのデータセットに過剰に適合する。 したがって、オーバーフィッティングを減らし、その一般化能力を高めるためには、それらを正規化することが重要である。 近年,資源効率の良いネットワークにおけるグループ畳み込みのチャネルを混在させるチャネルシャッフル演算を導入し,メモリと計算量を削減する。 本稿では,深い畳み込みネットワークにおける正規化手法としてのチャネルシャッフルの動作について検討する。 トレーニング中のチャネルのランダムシャッフルは性能を大幅に低下させるが、チャネル間の小さなパッチをランダムにシャッフルすると性能が大幅に向上する。 シャッフルすべきパッチは、特徴マップ内の同じ空間位置から選択され、あるチャネルから別のチャネルに転送されたパッチは、後続のチャネルの構造化ノイズとして機能する。 私たちはこのメソッドを"ShuffleBlock"と呼びます。 提案するShuffleBlockモジュールは実装が容易で,CIFARおよびImageNetデータセットの画像分類タスクにおいて,ベースラインネットワークの性能を向上させる。 また、ほとんどの場合、他の多くの正規化手法よりも優れたパフォーマンスを達成する。 シャッフルブロックモジュールの様々なハイパーパラメータの選択に関するいくつかのアブレーション研究を行い、その性能をさらに向上させる新しいスケジューリング手法を提案する。

Deep neural networks have enormous representational power which leads them to overfit on most datasets. Thus, regularizing them is important in order to reduce overfitting and enhance their generalization capabilities. Recently, channel shuffle operation has been introduced for mixing channels in group convolutions in resource efficient networks in order to reduce memory and computations. This paper studies the operation of channel shuffle as a regularization technique in deep convolutional networks. We show that while random shuffling of channels during training drastically reduce their performance, however, randomly shuffling small patches between channels significantly improves their performance. The patches to be shuffled are picked from the same spatial locations in the feature maps such that a patch, when transferred from one channel to another, acts as structured noise for the later channel. We call this method "ShuffleBlock". The proposed ShuffleBlock module is easy to implement and improves the performance of several baseline networks on the task of image classification on CIFAR and ImageNet datasets. It also achieves comparable and in many cases better performance than many other regularization methods. We provide several ablation studies on selecting various hyperparameters of the ShuffleBlock module and propose a new scheduling method that further enhances its performance.
翻訳日:2021-06-18 15:51:35 公開日:2021-06-17
# 顔の正確な年齢推定に多重損失を用いる

using multiple losses for accurate facial age estimation ( http://arxiv.org/abs/2106.09393v1 )

ライセンス: Link先を確認
Yi Zhou, Heikki Huttunen, Tapio Elomaa(参考訳) 年齢推定はコンピュータビジョンの重要な課題である。 畳み込みニューラルネットワークの進歩により、年齢推定の性能は劇的に改善された。 既存のアプローチは通常、年齢推定を分類問題として扱う。 しかし,年齢ラベルは曖昧であり,分類作業が困難である。 本稿では, 分類に基づく手法と比較して, 性能を向上する, 年齢推定のための簡易かつ効果的な手法を提案する。 本手法は,4つの分類損失と1つの回帰損失を組み合わせて,年齢-粒度-ネットと呼ぶ。 cvpr chalearn 2016データセット上で年齢-粒度-netフレームワークを検証し,提案手法が個々の損失と比較して予測誤差を低減できることを示す。 ソースコードリンクはhttps://github.com/y ipersevere/age-estim ation。

Age estimation is an essential challenge in computer vision. With the advances of convolutional neural networks, the performance of age estimation has been dramatically improved. Existing approaches usually treat age estimation as a classification problem. However, the age labels are ambiguous, thus make the classification task difficult. In this paper, we propose a simple yet effective approach for age estimation, which improves the performance compared to classification-based methods. The method combines four classification losses and one regression loss representing different class granularities together, and we name it as Age-Granularity-Net. We validate the Age-Granularity-Net framework on the CVPR Chalearn 2016 dataset, and extensive experiments show that the proposed approach can reduce the prediction error compared to any individual loss. The source code link is https://github.com/y ipersevere/age-estim ation.
翻訳日:2021-06-18 15:51:13 公開日:2021-06-17
# ファウショット学習のためのエピソード適応型埋め込みネットワーク

Episode Adaptive Embedding Networks for Few-shot Learning ( http://arxiv.org/abs/2106.09398v1 )

ライセンス: Link先を確認
Fangbing Liu and Qing Wang(参考訳) ほとんどショット学習は、クラス毎にラベル付きインスタンスを使用して分類器を学習することを目的としていない。 数ショット学習のためのメトリクス学習アプローチは、インスタンスを高次元空間に埋め込み、インスタンス埋め込み間の距離に基づいて分類を行う。 しかし、このような組込みは通常全てのエピソードで共有されるため、エピソード固有の特徴に応じて分類器を一般化する識別能力が欠如している。 本稿では,インスタンスのエピソード固有の埋め込みを学習するための新しいアプローチであるemph{Episode Adaptive Embedding Network} (EAEN)を提案する。 各チャンネルピクセル埋め込み次元におけるエピソード内のすべてのインスタンスの確率分布を活用することで、eaenは、少数ショット学習タスクで発生する過剰な問題を軽減するだけでなく、エピソード特有の識別的特徴も捉えることができる。 eaenの有効性とロバスト性を検証するために,様々な汎用組み込みバックボーンと異なる分類器の組み合わせで,広く使用されている3つのベンチマークデータセットについて広範な実験を行った。 その結果, EAENは, 最先端手法の異なる設定において, 10\%$から20\%$の分類精度を著しく向上することがわかった。

Few-shot learning aims to learn a classifier using a few labelled instances for each class. Metric-learning approaches for few-shot learning embed instances into a high-dimensional space and conduct classification based on distances among instance embeddings. However, such instance embeddings are usually shared across all episodes and thus lack the discriminative power to generalize classifiers according to episode-specific features. In this paper, we propose a novel approach, namely \emph{Episode Adaptive Embedding Network} (EAEN), to learn episode-specific embeddings of instances. By leveraging the probability distributions of all instances in an episode at each channel-pixel embedding dimension, EAEN can not only alleviate the overfitting issue encountered in few-shot learning tasks, but also capture discriminative features specific to an episode. To empirically verify the effectiveness and robustness of EAEN, we have conducted extensive experiments on three widely used benchmark datasets, under various combinations of different generic embedding backbones and different classifiers. The results show that EAEN significantly improves classification accuracy about $10\%$ to $20\%$ in different settings over the state-of-the-art methods.
翻訳日:2021-06-18 15:51:01 公開日:2021-06-17
# NeuroMorph: One Goにおける教師なし形状補間と対応

NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One Go ( http://arxiv.org/abs/2106.09431v1 )

ライセンス: Link先を確認
Marvin Eisenberger, David Novotny, Gael Kerchenbaum, Patrick Labatut, Natalia Neverova, Daniel Cremers, Andrea Vedaldi(参考訳) ニューロモルフィック(neuromorph)とは,2つの3次元形状を入力として生成する,新たなニューラルネットワークアーキテクチャである。 単一のフィードフォワードパスでは、スムーズな補間とポイント・ツー・ポイント対応がある。 補間は変形場として表現され、ターゲットに類似するようにソース形状のポーズを変更するが、オブジェクトの同一性は変わらない。 NeuroMorphは、グラフ畳み込みとグローバル機能プーリングを組み合わせたエレガントなアーキテクチャを使用して、局所的な特徴を抽出する。 トレーニング中、モデルにインセンティブを与え、基礎となる形状空間多様体上の測地線を近似することで、現実的な変形を生み出す。 この強力な幾何学的事前は、手動の対応アノテーションを必要とせずに、エンドツーエンドと完全に教師なしの方法でモデルのトレーニングを可能にします。 NeuroMorphは、さまざまなオブジェクトカテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。 複数のベンチマークにおいて、最新の教師なしおよび教師なしの手法のパフォーマンスを一致または超えた形状対応タスクと補間タスクの両方に対する最先端の結果を得る。

We present NeuroMorph, a new neural network architecture that takes as input two 3D shapes and produces in one go, i.e. in a single feed forward pass, a smooth interpolation and point-to-point correspondences between them. The interpolation, expressed as a deformation field, changes the pose of the source shape to resemble the target, but leaves the object identity unchanged. NeuroMorph uses an elegant architecture combining graph convolutions with global feature pooling to extract local features. During training, the model is incentivized to create realistic deformations by approximating geodesics on the underlying shape space manifold. This strong geometric prior allows to train our model end-to-end and in a fully unsupervised manner without requiring any manual correspondence annotations. NeuroMorph works well for a large variety of input shapes, including non-isometric pairs from different object categories. It obtains state-of-the-art results for both shape correspondence and interpolation tasks, matching or surpassing the performance of recent unsupervised and supervised methods on multiple benchmarks.
翻訳日:2021-06-18 15:50:40 公開日:2021-06-17
# 画像キャプション用半自己回帰変換器

Semi-Autoregressive Transformer for Image Captioning ( http://arxiv.org/abs/2106.09436v1 )

ライセンス: Link先を確認
Yuanen Zhou, Yong Zhang, Zhenzhen Hu, Meng Wang(参考訳) 現在の最先端の画像キャプションモデルは自動回帰デコーダを採用しており、事前に生成された単語を条件付けして各単語を生成する。 この問題に対処するため、最近、全ての単語を並列に生成することで推論の速度を大幅に高速化する非自己回帰画像キャプションモデルが提案されている。 しかし、これらの非自己回帰モデルは、単語依存を過剰に除去するため、必然的に大きな世代品質劣化に悩まされる。 速度と品質のトレードオフを改善するため,画像キャプションの半自己回帰モデル(SATIC)を導入し,グローバルな自己回帰特性を維持しつつ,局所的に単語を並列に生成する。 Transformerに基づいて、SATICを実装するのに必要な変更はわずかである。 MSCOCO画像キャプションベンチマークの大規模な実験により、SATICは鐘や笛なしでより良いトレードオフを達成できることが示された。 コードは {\color{magenta}\url{https://github.com/Y uanEZhou/satic}}で入手できる。

Current state-of-the-art image captioning models adopt autoregressive decoders, \ie they generate each word by conditioning on previously generated words, which leads to heavy latency during inference. To tackle this issue, non-autoregressive image captioning models have recently been proposed to significantly accelerate the speed of inference by generating all words in parallel. However, these non-autoregressive models inevitably suffer from large generation quality degradation since they remove words dependence excessively. To make a better trade-off between speed and quality, we introduce a semi-autoregressive model for image captioning~(dubbed as SATIC), which keeps the autoregressive property in global but generates words parallelly in local. Based on Transformer, there are only a few modifications needed to implement SATIC. Extensive experiments on the MSCOCO image captioning benchmark show that SATIC can achieve a better trade-off without bells and whistles. Code is available at {\color{magenta}\url{https://github.com/Y uanEZhou/satic}}.
翻訳日:2021-06-18 15:50:22 公開日:2021-06-17
# ビデオパノプティカルセグメンテーションのための全セグメントを関連付ける学習

Learning to Associate Every Segment for Video Panoptic Segmentation ( http://arxiv.org/abs/2106.09453v1 )

ライセンス: Link先を確認
Sanghyun Woo, Dahun Kim, Joon-Young Lee, In So Kweon(参考訳) 時間対応 - フレーム間でピクセルやオブジェクトをリンクする - は、ビデオモデルの基本的な監視信号である。 動的シーンのパノプティクス的理解のために、我々はこの概念をさらに各セグメントに拡張する。 具体的には,粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習することを目的とする。 このアイデアは、2つの新しい学習目標を設計することで実現します。 提案手法の有効性を検証するため,提案手法を深層シャイムモデルに適用し,対象タスクとともに2つの異なるレベル(セグメントとピクセル)で時間対応を学習するようモデルを訓練する。 推論時に、モデルは余分な計算や後処理なしで各フレームを独立に処理する。 フレーム毎の推論モデルがcityscapes-vpsとviperデータセットで新たな最先端結果を達成できることを示します。 さらに、その高い効率のため、以前の最先端のアプローチと比較して、モデルはわずかな時間(3x)で実行される。

Temporal correspondence - linking pixels or objects across frames - is a fundamental supervisory signal for the video models. For the panoptic understanding of dynamic scenes, we further extend this concept to every segment. Specifically, we aim to learn coarse segment-level matching and fine pixel-level matching together. We implement this idea by designing two novel learning objectives. To validate our proposals, we adopt a deep siamese model and train the model to learn the temporal correspondence on two different levels (i.e., segment and pixel) along with the target task. At inference time, the model processes each frame independently without any extra computation and post-processing. We show that our per-frame inference model can achieve new state-of-the-art results on Cityscapes-VPS and VIPER datasets. Moreover, due to its high efficiency, the model runs in a fraction of time (3x) compared to the previous state-of-the-art approach.
翻訳日:2021-06-18 15:50:06 公開日:2021-06-17
# RGB-DSalientオブジェクト検出のための単一ストリーム構造を用いた動的知識蒸留

Dynamic Knowledge Distillation with A Single Stream Structure for RGB-DSalient Object Detection ( http://arxiv.org/abs/2106.09517v1 )

ライセンス: Link先を確認
Guangyu Ren, Tania Stathaki(参考訳) RGB-D Salient Object Detection (SOD) は、データに付加された深度情報により、複雑な環境における検出において、その優位性を示す。 必然的に、深度画像から特徴を抽出するために独立したストリームが導入され、余分な計算とパラメータが導かれる。 モデルサイズを犠牲にして検出精度を向上させる手法は,SOD問題の実用化を阻害する可能性がある。 このジレンマに対処するため,軽量な枠組みとともに動的蒸留法を提案し,パラメータを著しく低減した。 本手法は, 研修段階における教員と学生のパフォーマンスの要因を考察し, 学生モデルに一定重量を適用するのではなく, 蒸留重量を動的に割り当てる。 5つの公開データセットで広範な実験を行い、78.2mbの軽量構造で10の以前の方法と比較して、この手法が競合性能を発揮できることを実証した。

RGB-D salient object detection(SOD) demonstrates its superiority on detecting in complex environments due to the additional depth information introduced in the data. Inevitably, an independent stream is introduced to extract features from depth images, leading to extra computation and parameters. This methodology which sacrifices the model size to improve the detection accuracy may impede the practical application of SOD problems. To tackle this dilemma, we propose a dynamic distillation method along with a lightweight framework, which significantly reduces the parameters. This method considers the factors of both teacher and student performance within the training stage and dynamically assigns the distillation weight instead of applying a fixed weight on the student model. Extensive experiments are conducted on five public datasets to demonstrate that our method can achieve competitive performance compared to 10 prior methods through a 78.2MB lightweight structure.
翻訳日:2021-06-18 15:49:53 公開日:2021-06-17
# スケール一貫性のある融合:異種局所サンプリングからグローバル没入レンダリングへ

Scale-Consistent Fusion: from Heterogeneous Local Sampling to Global Immersive Rendering ( http://arxiv.org/abs/2106.09548v1 )

ライセンス: Link先を確認
Wenpeng Xing, Jie Chen, Zaifeng Yang and Qiang Wang(参考訳) 画像に基づく幾何モデリングと、スパースに基づく新しいビュー合成は、バーチャルリアリティや没入型テレプレゼンスのような新興マルチメディアアプリケーションにとって難しいが重要な課題である。 既存の手法では、このような困難な基準条件で信頼できる奥行き情報を推測する限界があるため、十分な結果が得られない。 LFカメラの普及に伴い、LF画像(LFI)の撮影は通常の写真撮影と同じくらい便利であり、幾何情報を確実に推測することができる。 これにより、LFキャプチャのスパースセットを使用して、高品質なノベルビューを世界中でレンダリングするインスピレーションを得ました。 しかし,複数角度からのLFキャプチャの融合は,様々なキャプチャ設定によるスケールの不整合のため困難である。 この課題を克服するために,大域的幾何融合のための異なるキャプチャ間の相違確率ボリューム(DPV)を頑健に整合させる,新しいスケール一貫性ボリューム再スケーリングアルゴリズムを提案する。 対象のカメラフラストムに投射される融合DPVに基づいて、新しい学習ベースモジュール(注意誘導型マルチスケール残差融合モジュール、深部再規則化モジュール)が提案され、新規LFIの高画質レンダリングのための異種捕獲からのノイズ観測を包括的に規則化している。 スタンフォードのLytro Multi-view LFデータセットに対する定量的および定性的な実験は、提案手法が異種推論とLF合成の異なる実験条件下で、最先端の手法よりも優れていることを示している。

Image-based geometric modeling and novel view synthesis based on sparse, large-baseline samplings are challenging but important tasks for emerging multimedia applications such as virtual reality and immersive telepresence. Existing methods fail to produce satisfactory results due to the limitation on inferring reliable depth information over such challenging reference conditions. With the popularization of commercial light field (LF) cameras, capturing LF images (LFIs) is as convenient as taking regular photos, and geometry information can be reliably inferred. This inspires us to use a sparse set of LF captures to render high-quality novel views globally. However, fusion of LF captures from multiple angles is challenging due to the scale inconsistency caused by various capture settings. To overcome this challenge, we propose a novel scale-consistent volume rescaling algorithm that robustly aligns the disparity probability volumes (DPV) among different captures for scale-consistent global geometry fusion. Based on the fused DPV projected to the target camera frustum, novel learning-based modules have been proposed (i.e., the attention-guided multi-scale residual fusion module, and the disparity field guided deep re-regularization module) which comprehensively regularize noisy observations from heterogeneous captures for high-quality rendering of novel LFIs. Both quantitative and qualitative experiments over the Stanford Lytro Multi-view LF dataset show that the proposed method outperforms state-of-the-art methods significantly under different experiment settings for disparity inference and LF synthesis.
翻訳日:2021-06-18 15:49:38 公開日:2021-06-17
# 適合するか否か:Weak Supervisionのモデルベース顔再構成と咬合分割

To fit or not to fit: Model-based Face Reconstruction and Occlusion Segmentation from Weak Supervision ( http://arxiv.org/abs/2106.09614v1 )

ライセンス: Link先を確認
Chunlu Li, Andreas Morel-Forster, Thomas Vetter, Bernhard Egger, Adam Kortylewski(参考訳) 単一画像からの3D顔の復元は、その不適切な性質のため困難である。 モデルベースフェイスオートエンコーダは、ターゲット画像にフェースモデルを弱教師付きで適合させることにより、この問題に効果的に対処する。 しかし、制約のない環境では、モデルはしばしば隠蔽された顔領域に適応しようとするため、顔再構成を歪ませる。 修正オクルージョン・セグメンテーションは、隠蔽面領域の嵌合を避けるための有効なソリューションであるが、大量の注釈付きトレーニングデータを必要とする。 本研究では,モデルに基づく顔オートエンコーダが,訓練中に追加の監督を必要とせず,オクルーダを正確にセグメント化することを可能にし,モデルに適合しない領域とを分離する。 これを実現するために、セグメンテーションネットワークで顔自動エンコーダを拡張する。 セグメンテーションネットワークは、画素を含むトレードオフのバランスに達してモデルを適用することにより、どの領域に適応すべきかを決定し、モデルフィッティングが負の影響を及ぼさないように画素を除外し、顔を示す画素の全体的な再構成精度を高くする。 これにより、オクルージョンセグメンテーションが顔オートエンコーダのトレーニングを誘導し、非オクルード領域のフィッティングを拘束し、改良されたフィッティングにより、オクルードされた顔領域をより正確に予測できる相乗効果が得られる。 CelebA-HQデータベースとARデータベースの質的,定量的実験により, 咬合下での3次元顔再構成の改善と, 弱監督下での正確な閉塞セグメンテーションの実現に, モデルの有効性が検証された。 コードはhttps://github.com/u nibas-gravis/occlusi on-robust-mofa。

3D face reconstruction from a single image is challenging due to its ill-posed nature. Model-based face autoencoders address this issue effectively by fitting a face model to the target image in a weakly supervised manner. However, in unconstrained environments occlusions distort the face reconstruction because the model often erroneously tries to adapt to occluded face regions. Supervised occlusion segmentation is a viable solution to avoid the fitting of occluded face regions, but it requires a large amount of annotated training data. In this work, we enable model-based face autoencoders to segment occluders accurately without requiring any additional supervision during training, and this separates regions where the model will be fitted from those where it will not be fitted. To achieve this, we extend face autoencoders with a segmentation network. The segmentation network decides which regions the model should adapt to by reaching balances in a trade-off between including pixels and adapting the model to them, and excluding pixels so that the model fitting is not negatively affected and reaches higher overall reconstruction accuracy on pixels showing the face. This leads to a synergistic effect, in which the occlusion segmentation guides the training of the face autoencoder to constrain the fitting in the non-occluded regions, while the improved fitting enables the segmentation model to better predict the occluded face regions. Qualitative and quantitative experiments on the CelebA-HQ database and the AR database verify the effectiveness of our model in improving 3D face reconstruction under occlusions and in enabling accurate occlusion segmentation from weak supervision only. Code available at https://github.com/u nibas-gravis/Occlusi on-Robust-MoFA.
翻訳日:2021-06-18 15:49:12 公開日:2021-06-17
# 野生のデータセットのインドのマスク付き顔

Indian Masked Faces in the Wild Dataset ( http://arxiv.org/abs/2106.09670v1 )

ライセンス: Link先を確認
Shiksha Mishra, Puspita Majumdar, Richa Singh, Mayank Vatsa(参考訳) 新型コロナウイルスのパンデミックにより、世界中の公共の場所でマスクを着用することが義務化されている。 フェイスマスクは、顔領域の大部分を遮蔽する。 さらに、シンプルなものからグラフィックやプリントのあるものまで、さまざまなタイプのマスクを着用している。 これらは顔認識アルゴリズムに新たな課題をもたらす。 研究者らは最近、マスク付き顔認識の課題を克服するアルゴリズムを設計するためのマスク付き顔データセットをいくつか提案している。 しかし、既存のデータセットには、制限のない設定での文化的多様性と収集が欠けている。 インドのような服装の多様性のある国では、人々は伝統的なマスクを着用するだけでなく、薄い綿のタオル(地元では「ガムチャ」)や「ストゥール」、そして「ハンカチ」のような服装で顔を覆っている。 本稿では, 被験者が着用するマスクの種類, ポーズ, 照明, 解像度, および色彩のバリエーションの異なる画像を含む, 野生(imfw)データセットの, 新規な \textbf{indian masked faces in the wild (imfw) を提案する。 また,提案するimfwデータセット上での既存顔認識モデルの性能のベンチマークを行った。 実験により,様々な条件下での既存アルゴリズムの限界が示された。

Due to the COVID-19 pandemic, wearing face masks has become a mandate in public places worldwide. Face masks occlude a significant portion of the facial region. Additionally, people wear different types of masks, from simple ones to ones with graphics and prints. These pose new challenges to face recognition algorithms. Researchers have recently proposed a few masked face datasets for designing algorithms to overcome the challenges of masked face recognition. However, existing datasets lack the cultural diversity and collection in the unrestricted settings. Country like India with attire diversity, people are not limited to wearing traditional masks but also clothing like a thin cotton printed towel (locally called as ``gamcha''), ``stoles'', and ``handkerchiefs'' to cover their faces. In this paper, we present a novel \textbf{Indian Masked Faces in the Wild (IMFW)} dataset which contains images with variations in pose, illumination, resolution, and the variety of masks worn by the subjects. We have also benchmarked the performance of existing face recognition models on the proposed IMFW dataset. Experimental results demonstrate the limitations of existing algorithms in presence of diverse conditions.
翻訳日:2021-06-18 15:48:41 公開日:2021-06-17
# 2021 画像類似性データセットと課題

The 2021 Image Similarity Dataset and Challenge ( http://arxiv.org/abs/2106.09672v1 )

ライセンス: Link先を確認
Matthijs Douze and Giorgos Tolias and Ed Pizzi and Zo\"e Papakipos and Lowik Chanussot and Filip Radenovic and Tomas Jenicek and Maxim Maximov and Laura Leal-Taix\'e and Ismail Elezi and Ond\v{r}ej Chum and Cristian Canton Ferrer(参考訳) 本稿では,大規模画像類似度検出のための新しいベンチマークを提案する。 このベンチマークは、NeurIPS'21 (ISC2021)のイメージ類似性チャレンジに使用される。 目標は、クエリイメージが、サイズが1~数百万の参照コーパス内の任意のイメージの修正コピーであるかどうかを判断することである。 ベンチマークでは、自動変換、手作り画像編集、機械学習ベースの操作など、さまざまなイメージ変換が特徴である。 これは、例えば不適切な情報や不快なコンテンツを扱う完全性に関連する問題など、ソーシャルメディアに現れる現実のケースを模倣する。 画像操作の強みとベンチマークの難しさは、一連のベースラインアプローチの性能に応じて調整される。 クエリセットと参照セットには、マッチしない`distractor'イメージの大部分が含まれており、実際のニードル・イン・ヘイスタック設定に対応しており、評価指標はそれを反映している。 DISC21ベンチマークは、画像のコピー検出を重要かつ挑戦的なコンピュータビジョンタスクとして促進し、技術状況のリフレッシュを期待する。

This paper introduces a new benchmark for large-scale image similarity detection. This benchmark is used for the Image Similarity Challenge at NeurIPS'21 (ISC2021). The goal is to determine whether a query image is a modified copy of any image in a reference corpus of size 1~million. The benchmark features a variety of image transformations such as automated transformations, hand-crafted image edits and machine-learning based manipulations. This mimics real-life cases appearing in social media, for example for integrity-related problems dealing with misinformation and objectionable content. The strength of the image manipulations, and therefore the difficulty of the benchmark, is calibrated according to the performance of a set of baseline approaches. Both the query and reference set contain a majority of ``distractor'' images that do not match, which corresponds to a real-life needle-in-haystack setting, and the evaluation metric reflects that. We expect the DISC21 benchmark to promote image copy detection as an important and challenging computer vision task and refresh the state of the art.
翻訳日:2021-06-18 15:48:22 公開日:2021-06-17
# MoDist: 自己教師型ビデオ表現学習のためのモーション蒸留

MoDist: Motion Distillation for Self-supervised Video Representation Learning ( http://arxiv.org/abs/2106.09703v1 )

ライセンス: Link先を確認
Fanyi Xiao and Joseph Tighe and Davide Modolo(参考訳) 本稿では,モーディストを,自己教師付き映像表現に動的に運動情報を蒸留する新しい手法として提示する。 RGB入力から暗黙的に動きの手がかりを学習する従来のビデオ表現学習法と比較して,MoDist法で学習した表現は前景の動作領域に重点を置いており,より下流の作業に適応していることを示す。 これを実現するため、modistはrgbビデオクリップの標準的なコントラスト学習目標を運動経路と視覚経路とのクロスモーダル学習目標で強化する。 我々は,行動認識(UCF101/HMDB51/SSv2) と行動検出(AVA)の両方のデータセット上でMoDistを評価し,すべてのデータセットに対して最先端の自己管理性能を示す。 さらに,MoDist表現は,全監督下で学習した表現と同等(場合によってはそれ以上)に効果的であることを示す。 その単純さを考えると、modistが将来の自己教師付きビデオ表現学習研究のベースラインとなることを願っている。

We present MoDist as a novel method to explicitly distill motion information into self-supervised video representations. Compared to previous video representation learning methods that mostly focus on learning motion cues implicitly from RGB inputs, we show that the representation learned with our MoDist method focus more on foreground motion regions and thus generalizes better to downstream tasks. To achieve this, MoDist enriches standard contrastive learning objectives for RGB video clips with a cross-modal learning objective between a Motion pathway and a Visual pathway. We evaluate MoDist on several datasets for both action recognition (UCF101/HMDB51/SSv2) as well as action detection (AVA), and demonstrate state-of-the-art self-supervised performance on all datasets. Furthermore, we show that MoDist representation can be as effective as (in some cases even better than) representations learned with full supervision. Given its simplicity, we hope MoDist could serve as a strong baseline for future research in self-supervised video representation learning.
翻訳日:2021-06-18 15:48:05 公開日:2021-06-17
# 野生の視覚属性を予測するための学習

Learning to Predict Visual Attributes in the Wild ( http://arxiv.org/abs/2106.09707v1 )

ライセンス: Link先を確認
Khoi Pham, Kushal Kafle, Zhe Lin, Zhihong Ding, Scott Cohen, Quan Tran, Abhinav Shrivastava(参考訳) 視覚属性はシーンに含まれる情報の大部分を構成する。 オブジェクトは、視覚的な外観(色、テクスチャ)、幾何学(形、サイズ、姿勢)、および他の固有の特性(状態、動作)を記述する様々な属性を使って記述することができる。 既存の作業は、特定のドメインにおける属性予測の研究に限られている。 本稿では,260K以上のオブジェクトインスタンスに対して,927K以上の属性アノテーションからなる大規模視覚属性予測データセットを提案する。 オブジェクト属性予測は、オブジェクトに適用するすべての属性を予測しなければならないマルチラベル分類問題である。 我々のデータセットは、多数の属性、ラベルの空間性、データの不均衡、オブジェクトの閉塞など、既存のメソッドに重大な課題を提起します。 そこで本研究では,低レベルと高レベルの両方のcnn機能を活用したベースモデル,重み付けと再サンプリング手法,新しい負ラベル拡張手法,教師付き属性認識型コントラスト学習アルゴリズムなど,これらの課題を体系的に解決する手法を提案する。 これらの技術を用いることで,現状よりも3.7mAP,5.7ポイントのF1点が向上した。 VAWデータセットの詳細はhttp://vawdataset.co m/で確認できる。

Visual attributes constitute a large portion of information contained in a scene. Objects can be described using a wide variety of attributes which portray their visual appearance (color, texture), geometry (shape, size, posture), and other intrinsic properties (state, action). Existing work is mostly limited to study of attribute prediction in specific domains. In this paper, we introduce a large-scale in-the-wild visual attribute prediction dataset consisting of over 927K attribute annotations for over 260K object instances. Formally, object attribute prediction is a multi-label classification problem where all attributes that apply to an object must be predicted. Our dataset poses significant challenges to existing methods due to large number of attributes, label sparsity, data imbalance, and object occlusion. To this end, we propose several techniques that systematically tackle these challenges, including a base model that utilizes both low- and high-level CNN features with multi-hop attention, reweighting and resampling techniques, a novel negative label expansion scheme, and a novel supervised attribute-aware contrastive learning algorithm. Using these techniques, we achieve near 3.7 mAP and 5.7 overall F1 points improvement over the current state of the art. Further details about the VAW dataset can be found at http://vawdataset.co m/.
翻訳日:2021-06-18 15:47:43 公開日:2021-06-17
# 視覚対応幻覚 : 幾何学的推論に向けて

Visual Correspondence Hallucination: Towards Geometric Reasoning ( http://arxiv.org/abs/2106.09711v1 )

ライセンス: Link先を確認
Hugo Germain and Vincent Lepetit and Guillaume Bourmaud(参考訳) 一対の重なり合うソース画像とターゲット画像と、ソース画像のキーポイントとが与えられた場合、対象画像のキーポイント対応部は、視野内、または視野外のいずれかを視認することができる。 局所的特徴マッチング手法は、可視時のみ対応者の位置を識別できるが、人間は、幾何学的推論によってその位置をオクルードしたり、視野の外側に表示したりすることもできる。 本稿では,ネットワークをトレーニングしてこのギャップを橋渡しし,対応者の位置のピーク確率分布を,その対応者が目に見えるか,無視されているか,あるいは視野の外にあるかに関わらず出力する。 実験により,このネットワークが認識できない画像の対の対応を幻覚的に表現できることを実証した。 また、このネットワークをカメラポーズ推定問題に適用し、最先端のローカル特徴マッチングベースの競合よりもはるかに堅牢であることを示す。

Given a pair of partially overlapping source and target images and a keypoint in the source image, the keypoint's correspondent in the target image can be either visible, occluded or outside the field of view. Local feature matching methods are only able to identify the correspondent's location when it is visible, while humans can also hallucinate its location when it is occluded or outside the field of view through geometric reasoning. In this paper, we bridge this gap by training a network to output a peaked probability distribution over the correspondent's location, regardless of this correspondent being visible, occluded, or outside the field of view. We experimentally demonstrate that this network is indeed able to hallucinate correspondences on unseen pairs of images. We also apply this network to a camera pose estimation problem and find it is significantly more robust than state-of-the-art local feature matching-based competitors.
翻訳日:2021-06-18 15:47:21 公開日:2021-06-17
# IFCNet: IFCエンティティ分類のためのベンチマークデータセット

IFCNet: A Benchmark Dataset for IFC Entity Classification ( http://arxiv.org/abs/2106.09712v1 )

ライセンス: Link先を確認
Christoph Emunds, Nicolas Pauen, Veronika Richter, J\'er\^ome Frisch, Christoph van Treeck(参考訳) BIM向けのドメイン固有ソフトウェア製品間の相互運用性と情報交換の強化は、アーキテクチャ、エンジニアリング、建設、運用業界において重要な側面である。 近年の研究では、BIMモデルのセマンティックエンリッチメントのための機械学習とディープラーニングの分野からの研究が始まっている。 しかし、これらの機械学習アルゴリズムのトレーニングと評価には、十分に大きく包括的なデータセットが必要である。 IFCNetは、幾何学的情報と意味的情報の両方を含む幅広いIFCクラスにまたがる、単一エンテントIFCファイルのデータセットである。 対象の幾何学的情報のみを用いて、3つの異なるディープラーニングモデルが優れた分類性能を達成できることを実験により示した。

Enhancing interoperability and information exchange between domain-specific software products for BIM is an important aspect in the Architecture, Engineering, Construction and Operations industry. Recent research started investigating methods from the areas of machine and deep learning for semantic enrichment of BIM models. However, training and evaluation of these machine learning algorithms requires sufficiently large and comprehensive datasets. This work presents IFCNet, a dataset of single-entity IFC files spanning a broad range of IFC classes containing both geometric and semantic information. Using only the geometric information of objects, the experiments show that three different deep learning models are able to achieve good classification performance.
翻訳日:2021-06-18 15:47:02 公開日:2021-06-17
# ニューラルネットワークのためのラベル空間におけるデータ拡張によるデータセットの結合

Joining datasets via data augmentation in the label space for neural networks ( http://arxiv.org/abs/2106.09260v1 )

ライセンス: Link先を確認
Jake Zhao (Junbo), Mingfeng Ou, Linji Xue, Yunkai Cui, Sai Wu, Gang Chen(参考訳) ほとんどの場合、現代のディープラーニングシステムは、ニューラルネットワークのトレーニングと推論のために単一のデータセットに制限されている。 この記事では、類似の目的から作られたデータセットを結合する体系的な方法に興味があります。 解釈不能な潜在ベクトル空間におけるデータセット結合をユビキタスに実施する以前の論文とは異なり,本手法のコアはラベル空間における拡張手順である。 データセットの結合のためのラベル空間に対処する主な課題は、ラベル間の相違である:非重複ラベルアノテーションセット、異なるラベルの粒度または階層性など。 特に,人工的に作成した知識グラフ,リカレントニューラルネットワーク,およびラベル空間におけるデータセットの結合をうまく達成するポリシ勾配を活用する新しい手法を提案する。 画像とテキストの分類実験の結果は,提案手法の有効性を正当化している。

Most, if not all, modern deep learning systems restrict themselves to a single dataset for neural network training and inference. In this article, we are interested in systematic ways to join datasets that are made of similar purposes. Unlike previous published works that ubiquitously conduct the dataset joining in the uninterpretable latent vectorial space, the core to our method is an augmentation procedure in the label space. The primary challenge to address the label space for dataset joining is the discrepancy between labels: non-overlapping label annotation sets, different labeling granularity or hierarchy and etc. Notably we propose a new technique leveraging artificially created knowledge graph, recurrent neural networks and policy gradient that successfully achieve the dataset joining in the label space. Empirical results on both image and text classification justify the validity of our approach.
翻訳日:2021-06-18 15:46:07 公開日:2021-06-17
# CROP:機能的平滑化による強化学習のためのロバストポリシの認定

CROP: Certifying Robust Policies for Reinforcement Learning through Functional Smoothing ( http://arxiv.org/abs/2106.09292v1 )

ライセンス: Link先を確認
Fan Wu, Linyi Li, Zijian Huang, Yevgeniy Vorobeychik, Ding Zhao, Bo Li(参考訳) 本稿では,強化学習(crop)のための強固な政策を,逆境状態の摂動に対して証明する最初の枠組みを提案する。 本研究では,国家ごとの行動の堅牢性と累積報酬の低限界の2種類のロバスト性認定基準を提案する。 具体的には,ガウスノイズを伴って滑らかなQ-関数から導かれるポリシーを各状態に対して適用し,この軌道に沿った動作のロバスト性を保証する局所平滑化アルゴリズムを開発した。 次に, 対向状態摂動下での有限水平累積報酬の堅牢性を証明するための大域的平滑化アルゴリズムを開発した。 最後に,適応探索を用いた局所的平滑化手法を提案する。 提案したRLロバスト性認証フレームワークを用いて,2つの代表的なアタリゲームにおいて,対戦型トレーニングや数種類の正規化を含む経験的ロバストなRLが得られる6つの手法を評価する。 以上の結果から,RegPGD,RegCVX,Radia lRLは高い信頼性を示す。 さらに,これらのアルゴリズムを敵の攻撃に対して評価することで,認証の厳密さを実証する。

We present the first framework of Certifying Robust Policies for reinforcement learning (CROP) against adversarial state perturbations. We propose two particular types of robustness certification criteria: robustness of per-state actions and lower bound of cumulative rewards. Specifically, we develop a local smoothing algorithm which uses a policy derived from Q-functions smoothed with Gaussian noise over each encountered state to guarantee the robustness of actions taken along this trajectory. Next, we develop a global smoothing algorithm for certifying the robustness of a finite-horizon cumulative reward under adversarial state perturbations. Finally, we propose a local smoothing approach which makes use of adaptive search in order to obtain tight certification bounds for reward. We use the proposed RL robustness certification framework to evaluate six methods that have previously been shown to yield empirically robust RL, including adversarial training and several forms of regularization, on two representative Atari games. We show that RegPGD, RegCVX, and RadialRL achieve high certified robustness among these. Furthermore, we demonstrate that our certifications are often tight by evaluating these algorithms against adversarial attacks.
翻訳日:2021-06-18 15:45:54 公開日:2021-06-17
# フラストレーションに簡単な転送可能性推定

Frustratingly Easy Transferability Estimation ( http://arxiv.org/abs/2106.09362v1 )

ライセンス: Link先を確認
Long-Kai Huang, Ying Wei, Yu Rong, Qiang Yang and Junzhou Huang(参考訳) 伝達可能性の推定は、対象タスクのパフォーマンスを最大化し負の転送を防止するために、事前学習されたモデルと転送対象のレイヤを選択する上で必須のツールである。 既存の推定アルゴリズムは、ターゲットタスクの集中的なトレーニングを必要とするか、あるいはレイヤ間の転送可能性を評価するのに苦労している。 本稿では,TransRateという簡易かつ効率的かつ効果的な転送可能性尺度を提案する。 対象データを単一パスすることで、トランスレートは、事前訓練されたモデルによって抽出された対象例の特徴とそれらのラベルとの相互情報として転送可能性を測定する。 エントロピーの効果的な代替となる符号化率に頼って、効率的な相互情報推定の課題を克服する。 TransRateを理論的に解析し、転送学習後の性能と密接に関連している。 10行のコードで非常に単純であるにもかかわらず、transrateは22の事前訓練されたモデルと16のダウンストリームタスクの広範な評価において、非常によく機能する。

Transferability estimation has been an essential tool in selecting a pre-trained model and the layers of it to transfer, so as to maximize the performance on a target task and prevent negative transfer. Existing estimation algorithms either require intensive training on target tasks or have difficulties in evaluating the transferability between layers. We propose a simple, efficient, and effective transferability measure named TransRate. With single pass through the target data, TransRate measures the transferability as the mutual information between the features of target examples extracted by a pre-trained model and labels of them. We overcome the challenge of efficient mutual information estimation by resorting to coding rate that serves as an effective alternative to entropy. TransRate is theoretically analyzed to be closely related to the performance after transfer learning. Despite its extraordinary simplicity in 10 lines of codes, TransRate performs remarkably well in extensive evaluations on 22 pre-trained models and 16 downstream tasks.
翻訳日:2021-06-18 15:45:32 公開日:2021-06-17
# 深部ニューラルネットワークにおける後方勾配正規化

Backward Gradient Normalization in Deep Neural Networks ( http://arxiv.org/abs/2106.09475v1 )

ライセンス: Link先を確認
Alejandro Cabana and Luis F. Lago-Fern\'andez(参考訳) ニューラルネットワークトレーニングにおける勾配正規化の新しい手法を提案する。 勾配は、ネットワークアーキテクチャ内の特定のポイントで導入された正規化層を使用して、後方通行中に再スケールされる。 これらの正規化ノードは、フォワードアクティビティの伝播に影響しないが、バックプロパゲーション方程式を変更して、消滅や爆発を実験することなく、最も深いネットワーク層に到達する、十分にスケールした勾配流を許容する。 非常に深いニューラルネットワークを用いたテストの結果、新しい手法は勾配ノルムを効果的に制御でき、最深層での重みの更新と、いくつかの実験条件でのネットワーク精度の向上を可能にする。

We introduce a new technique for gradient normalization during neural network training. The gradients are rescaled during the backward pass using normalization layers introduced at certain points within the network architecture. These normalization nodes do not affect forward activity propagation, but modify backpropagation equations to permit a well-scaled gradient flow that reaches the deepest network layers without experimenting vanishing or explosion. Results on tests with very deep neural networks show that the new technique can do an effective control of the gradient norm, allowing the update of weights in the deepest layers and improving network accuracy on several experimental conditions.
翻訳日:2021-06-18 15:45:19 公開日:2021-06-17
# 学生の役割の時間表現を用いた学生集団協調評価モデルの構築

Towards Explainable Student Group Collaboration Assessment Models Using Temporal Representations of Individual Student Roles ( http://arxiv.org/abs/2106.09623v1 )

ライセンス: Link先を確認
Anirudh Som, Sujeong Kim, Bladimir Lopez-Prado, Svati Dhamija, Nonye Alozie, Amir Tamrakar(参考訳) コラボレーションは、STEM(Science, Technology, Engineering and Mathematics)の分野において、学生が成功するために必要なスキルとして認識されている。 しかし,学生人口の増大と教員数の制限により,教師が建設的なフィードバックを提供し,指導的手法による協調的スキルの育成が困難である。 シンプルで説明しやすい機械学習ベースの自動化システムの開発は、この問題を解決するのに役立つ。 本稿では,学生の役割の時間的表現をインプットとして扱う学生グループコラボレーションを評価するために,簡単な時間的cnn深層学習モデルを提案する。 学生グループコラボレーション評価における動的に変化する特徴表現の適用性と,それらが全体のパフォーマンスに与える影響について検討する。 また,学習モデルの意思決定に繋がる重要な時間指標をよりよく理解し,解釈するために,grad-camビジュアライゼーションを用いた。

Collaboration is identified as a required and necessary skill for students to be successful in the fields of Science, Technology, Engineering and Mathematics (STEM). However, due to growing student population and limited teaching staff it is difficult for teachers to provide constructive feedback and instill collaborative skills using instructional methods. Development of simple and easily explainable machine-learning-bas ed automated systems can help address this problem. Improving upon our previous work, in this paper we propose using simple temporal-CNN deep-learning models to assess student group collaboration that take in temporal representations of individual student roles as input. We check the applicability of dynamically changing feature representations for student group collaboration assessment and how they impact the overall performance. We also use Grad-CAM visualizations to better understand and interpret the important temporal indices that led to the deep-learning model's decision.
翻訳日:2021-06-18 15:45:05 公開日:2021-06-17
# 多変量時系列分類のためのマルチモーダルプロトタイプ学習

Multi-Modal Prototype Learning for Interpretable Multivariable Time Series Classification ( http://arxiv.org/abs/2106.09636v1 )

ライセンス: Link先を確認
Gaurav R. Ghosal and Reza Abbasi-Asl(参考訳) 多変量時系列分類問題は、生物学やファイナンスなど、様々な分野において、有病率と複雑性が増している。 ディープラーニング手法はこれらの問題に有効なツールであるが、解釈可能性に欠けることが多い。 本研究では,多変量時系列分類のための新しいモジュール型プロトタイプ学習フレームワークを提案する。 フレームワークの最初の段階では、エンコーダは各変数から独立して特徴を抽出する。 プロトタイプ層は、結果として生じる特徴空間における単一変数のプロトタイプを識別する。 フレームワークの次の段階は、これらの単変数プロトタイプと類似性の観点から、多変数時系列サンプルポイントを表す。 この結果、多変数パターンの本質的に解釈可能な表現となり、プロトタイプ学習を用いて代表例を抽出する。 多変量プロトタイプ。 したがって、我々のフレームワークは個々の変数の有益パターンと変数間の関係を明示的に識別することができる。 組込みパターンを用いたシミュレーションデータセットと、実際の人間の活動認識問題に基づいて、我々のフレームワークを検証する。 本フレームワークは,既存の時系列分類手法に匹敵する,あるいは優れた分類性能を実現する。 シミュレーションされたデータセットでは、モデルが埋め込みパターンと一貫性のある解釈を返すことが分かりました。 さらに、アクティビティ認識データセットで学んだ解釈は、ドメイン知識と一致する。

Multivariable time series classification problems are increasing in prevalence and complexity in a variety of domains, such as biology and finance. While deep learning methods are an effective tool for these problems, they often lack interpretability. In this work, we propose a novel modular prototype learning framework for multivariable time series classification. In the first stage of our framework, encoders extract features from each variable independently. Prototype layers identify single-variable prototypes in the resulting feature spaces. The next stage of our framework represents the multivariable time series sample points in terms of their similarity to these single-variable prototypes. This results in an inherently interpretable representation of multivariable patterns, on which prototype learning is applied to extract representative examples i.e. multivariable prototypes. Our framework is thus able to explicitly identify both informative patterns in the individual variables, as well as the relationships between the variables. We validate our framework on a simulated dataset with embedded patterns, as well as a real human activity recognition problem. Our framework attains comparable or superior classification performance to existing time series classification methods on these tasks. On the simulated dataset, we find that our model returns interpretations consistent with the embedded patterns. Moreover, the interpretations learned on the activity recognition dataset align with domain knowledge.
翻訳日:2021-06-18 15:44:51 公開日:2021-06-17
# 中毒とバックドア コントラスト学習

Poisoning and Backdooring Contrastive Learning ( http://arxiv.org/abs/2106.09667v1 )

ライセンス: Link先を確認
Nicholas Carlini, Andreas Terzis(参考訳) ノイズと未修正のトレーニングデータセット上でのクリップトレーニングのような対比学習方法。 これはデータセットを手動でラベル付けするよりも安く、配布外ロバスト性も向上する。 この慣行がバックドアや毒殺を重大な脅威にしていることを示す。 データセットのわずか0.005%(例:300万のコンセプトキャプションデータセットのたった150イメージ)を毒することで、小さなパッチをオーバーレイしてテストイメージを誤分類させることができる。 ターゲットの毒殺攻撃では、モデルが特定のテスト入力を敵に望まれるラベルで誤って分類し、データセットの0.0001%未満の制御を必要とする(例:300万画像のうち2つ)。 我々の攻撃は、騒がしいインターネットスクレイプのトレーニングが望ましいかどうかに疑問を呈する。

Contrastive learning methods like CLIP train on noisy and uncurated training datasets. This is cheaper than labeling datasets manually, and even improves out-of-distribution robustness. We show that this practice makes backdoor and poisoning attacks a significant threat. By poisoning just 0.005% of a dataset (e.g., just 150 images of the 3 million-example Conceptual Captions dataset), we can cause the model to misclassify test images by overlaying a small patch. Targeted poisoning attacks, whereby the model misclassifies a particular test input with an adversarially-desire d label, are even easier requiring control of less than 0.0001% of the dataset (e.g., just two out of the 3 million images). Our attacks call into question whether training on noisy and uncurated Internet scrapes is desirable.
翻訳日:2021-06-18 15:44:34 公開日:2021-06-17
# Gone Fishing: 魚の埋め込みによるニューラルアクティブラーニング

Gone Fishing: Neural Active Learning with Fisher Embeddings ( http://arxiv.org/abs/2106.09675v1 )

ライセンス: Link先を確認
Jordan T. Ash, Surbhi Goel, Akshay Krishnamurthy, Sham Kakade(参考訳) ディープニューラルネットワークと互換性のある効果的なアクティブな学習アルゴリズムの必要性が高まっている。 古典的な、よく研究されたサンプル選択方法が数多く存在するが、神経モデルの非凸性と内部表現はこれらのアプローチを拡張する方法が不明である。 本稿では、ニューラルネットワークのための実用的で扱いやすい、高性能なアクティブラーニングアルゴリズムであるbaitについて紹介する。 BAITはパラメトリックモデルに対する最大極大推定器(MLE)の理論解析から着想を得ている。 本稿では,MLEの誤差をFisher情報の観点から最適化し,特に最新のハードウェア上での動作に適する線形代数構造を利用して,大規模に効率的に実装できることを示し,サンプルのバッチを選択する。 実験の結果,BAITは分類問題と回帰問題の両方において従来の技術よりも優れており,様々なモデルアーキテクチャで使用可能な柔軟性があることがわかった。

There is an increasing need for effective active learning algorithms that are compatible with deep neural networks. While there are many classic, well-studied sample selection methods, the non-convexity and varying internal representation of neural models make it unclear how to extend these approaches. This article introduces BAIT, a practical, tractable, and high-performing active learning algorithm for neural networks that addresses these concerns. BAIT draws inspiration from the theoretical analysis of maximum likelihood estimators (MLE) for parametric models. It selects batches of samples by optimizing a bound on the MLE error in terms of the Fisher information, which we show can be implemented efficiently at scale by exploiting linear-algebraic structure especially amenable to execution on modern hardware. Our experiments show that BAIT outperforms the previous state of the art on both classification and regression problems, and is flexible enough to be used with a variety of model architectures.
翻訳日:2021-06-18 15:44:21 公開日:2021-06-17
# PEN4Rec:セッションベースのレコメンデーションのための参照進化ネットワーク

PEN4Rec: Preference Evolution Networks for Session-based Recommendation ( http://arxiv.org/abs/2106.09306v1 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Wei Zhou, Xiaoyong Huai, Zhiqi Fang, Songlin Hu(参考訳) セッションベースのレコメンデーションは、匿名セッションにおける過去の行動に基づいて、ユーザが次のアクションを予測することを目的としている。 より良いレコメンデーションのためには、ユーザの好みとダイナミクスを捉えることが不可欠です。 さらに、ユーザの好みは時間とともに動的に進化し、それぞれの好みは独自の進化トラックを持つ。 しかし、従来の作品の多くは好みの進化傾向を無視しており、好みの漂流の影響で容易に妨げられる。 本稿では,セッションベースレコメンデーション(PEN4Rec)のための新しいPreference Evolution Networksを提案する。 特に、第1段階のプロセスは、最近の項目に従って関連する振る舞いを統合する。 次に、第2段階プロセスは、時間とともに進化する嗜好を動的にモデル化し、リッチな嗜好を推測する。 このプロセスは、嗜好進化中の関連するシーケンシャルな行動の効果を強化し、嗜好の漂流による乱れを弱めることができる。 3つのパブリックデータセットに関する広範な実験は、提案モデルの有効性と優位性を示している。

Session-based recommendation aims to predict user the next action based on historical behaviors in an anonymous session. For better recommendations, it is vital to capture user preferences as well as their dynamics. Besides, user preferences evolve over time dynamically and each preference has its own evolving track. However, most previous works neglect the evolving trend of preferences and can be easily disturbed by the effect of preference drifting. In this paper, we propose a novel Preference Evolution Networks for session-based Recommendation (PEN4Rec) to model preference evolving process by a two-stage retrieval from historical contexts. Specifically, the first-stage process integrates relevant behaviors according to recent items. Then, the second-stage process models the preference evolving trajectory over time dynamically and infer rich preferences. The process can strengthen the effect of relevant sequential behaviors during the preference evolution and weaken the disturbance from preference drifting. Extensive experiments on three public datasets demonstrate the effectiveness and superiority of the proposed model.
翻訳日:2021-06-18 15:43:51 公開日:2021-06-17
# 非方向性ネットワークのトラクション・リペル分解

An Attract-Repel Decomposition of Undirected Networks ( http://arxiv.org/abs/2106.09671v1 )

ライセンス: Link先を確認
Alexander Peysakhovich, Leon Bottou(参考訳) ドット積潜在空間埋め込み(Dot product latent space embedded)は、非方向グラフにおける表現学習の一般的な形式である。 ソーシャルネットワーク、共起ネットワーク)。 a が b にリンクされ、b が c にリンクされているが、a が c にリンクされていないような '非推移的' な状況を扱う場合には、このようなモデルでは問題が発生する。 Pepsi (三人称単数 現在形 Pepsis, 現在分詞 Pepsis, 過去形および過去分詞形 Pepsi) 本稿では、類似ノードが引き寄せる潜在属性と、類似ノードが引き寄せる潜在属性のセットと、類似ノードが引き寄せる潜在属性のセットのセットという、AR分解と呼ばれる単純な拡張を示す。 実社会ネットワークにおけるAR分解を実証し, 潜伏するホモフィリーとヘテロフィリーの量を測定できることを示す。 さらに、共起ネットワークに適用して、チームにおける役割を発見し、レシピに代替可能な材料を見つけることもできる。

Dot product latent space embedding is a common form of representation learning in undirected graphs (e.g. social networks, co-occurrence networks). We show that such models have problems dealing with 'intransitive' situations where A is linked to B, B is linked to C but A is not linked to C. Such situations occur in social networks when opposites attract (heterophily) and in co-occurrence networks when there are substitute nodes (e.g. the presence of Pepsi or Coke, but rarely both, in otherwise similar purchase baskets). We present a simple expansion which we call the attract-repel (AR) decomposition: a set of latent attributes on which similar nodes attract and another set of latent attributes on which similar nodes repel. We demonstrate the AR decomposition in real social networks and show that it can be used to measure the amount of latent homophily and heterophily. In addition, it can be applied to co-occurrence networks to discover roles in teams and find substitutable ingredients in recipes.
翻訳日:2021-06-18 15:43:33 公開日:2021-06-17
# 中間CTCによる層プルーニング

Layer Pruning on Demand with Intermediate CTC ( http://arxiv.org/abs/2106.09216v1 )

ライセンス: Link先を確認
Jaesong Lee, Jingu Kang, Shinji Watanabe(参考訳) モバイル/組み込みデバイスにエンドツーエンドの自動音声認識(ASR)モデルをデプロイすることは、デバイス計算能力とエネルギー消費要求が実際に動的に変化するため、難しい作業である。 そこで本研究では,実行時のモデル深度を微調整することなく低減できるctc(connectionist temporal classification)に基づくasrの訓練と刈り取り手法を提案する。 目的を達成するために,中間CTCと確率深度という2つの正規化手法を用いて,刈り込み後に性能が劣化しないモデルを訓練する。 本稿では, 特異ベクトル正準相関解析 (SVCCA) を用いた層挙動の詳細な解析と, プーンセーフな層を見つけるための効率的な戦略について述べる。 提案手法を用いて,Transformer-CTCモデルに対して,各プルーニングサブモデルは同一深度モデルの精度を維持しつつ,オンデマンドで様々な深度でプルーニングを行い,リアルタイム係数を0.005から0.002に改善できることを示す。

Deploying an end-to-end automatic speech recognition (ASR) model on mobile/embedded devices is a challenging task, since the device computational power and energy consumption requirements are dynamically changed in practice. To overcome the issue, we present a training and pruning method for ASR based on the connectionist temporal classification (CTC) which allows reduction of model depth at run-time without any extra fine-tuning. To achieve the goal, we adopt two regularization methods, intermediate CTC and stochastic depth, to train a model whose performance does not degrade much after pruning. We present an in-depth analysis of layer behaviors using singular vector canonical correlation analysis (SVCCA), and efficient strategies for finding layers which are safe to prune. Using the proposed method, we show that a Transformer-CTC model can be pruned in various depth on demand, improving real-time factor from 0.005 to 0.002 on GPU, while each pruned sub-model maintains the accuracy of individually trained model of the same depth.
翻訳日:2021-06-18 15:43:16 公開日:2021-06-17
# 逆トーンマッピングのための深部HDR幻覚

Deep HDR Hallucination for Inverse Tone Mapping ( http://arxiv.org/abs/2106.09486v1 )

ライセンス: Link先を確認
Demetris Marnerides, Thomas Bashford-Rogers, Kurt Debattista(参考訳) 逆トーンマッピング(ITM)法は,低ダイナミックレンジ(LDR)画像から高ダイナミックレンジ(HDR)情報を再構成しようとする。 露光領域のダイナミックレンジを拡大し、露光過誤による情報の欠落を回収しなければならない(幻覚)。 たいていの手法は前者に焦点を当て、比較的成功したが、後者に対する試みは、畳み込みニューラルネットワーク(CNN)に基づくものでさえ、十分な品質を持っていない。 いくつかの作品における塗装品質の低下の主な要因は、損失関数の選択である。 GAN(Generative Adversarial Networks)に基づく研究は、画像合成とLDR塗装の有望な結果を示し、GAN損失が逆トーンマッピングの結果を改善することを示唆している。 本研究は,LDR画像の被曝領域から欠落した情報を幻覚し,その効果を代替のバリエーションと比較する。 提案手法は, 最先端の逆トーンマッピング法と定量的に競合し, 良好な露光領域に対するダイナミックレンジ展開と飽和領域および未露光領域に対する妥当な幻覚を与える。 また,HDRコンテンツを対象とする密度ベース正規化法や,HDR幻覚を対象とするHDRデータ拡張法も提案した。

Inverse Tone Mapping (ITM) methods attempt to reconstruct High Dynamic Range (HDR) information from Low Dynamic Range (LDR) image content. The dynamic range of well-exposed areas must be expanded and any missing information due to over/under-exposure must be recovered (hallucinated). The majority of methods focus on the former and are relatively successful, while most attempts on the latter are not of sufficient quality, even ones based on Convolutional Neural Networks (CNNs). A major factor for the reduced inpainting quality in some works is the choice of loss function. Work based on Generative Adversarial Networks (GANs) shows promising results for image synthesis and LDR inpainting, suggesting that GAN losses can improve inverse tone mapping results. This work presents a GAN-based method that hallucinates missing information from badly exposed areas in LDR images and compares its efficacy with alternative variations. The proposed method is quantitatively competitive with state-of-the-art inverse tone mapping methods, providing good dynamic range expansion for well-exposed areas and plausible hallucinations for saturated and under-exposed areas. A density-based normalisation method, targeted for HDR content, is also proposed, as well as an HDR data augmentation method targeted for HDR hallucination.
翻訳日:2021-06-18 15:42:47 公開日:2021-06-17
# 認知無線ネットワークにおける協調的マルチエージェント強化学習に基づく分散動的スペクトルアクセス

Cooperative Multi-Agent Reinforcement Learning Based Distributed Dynamic Spectrum Access in Cognitive Radio Networks ( http://arxiv.org/abs/2106.09274v1 )

ライセンス: Link先を確認
Xiang Tan, Li Zhou, Haijun Wang, Yuli Sun, Haitao Zhao, Boon-Chong Seet, Jibo Wei and Victor C.M. Leung(参考訳) 5GとInternet of Thingsの開発により、無線デバイスは限られたスペクトル資源を共有する必要がある。 動的スペクトルアクセス(dsa)は、過去のスペクトル割り当てに対する指令制御アプローチによってもたらされた非効率的なスペクトル利用の問題を改善するための有望なパラダイムである。 本稿では,典型的なマルチチャネル認知無線ネットワークにおけるマルチユーザに対する分散DSA問題について検討する。 この問題は分散部分可観測マルコフ決定プロセス(dec-pomdp)として定式化されており,協調型マルチエージェント強化学習(marl)に基づく集中型オフライントレーニングと分散オンライン実行フレームワークを提案する。 我々は,認知的ユーザ毎に状態の部分的可観測性に対処するために,deep recurrent q-network (drqn) を用いる。 最終目標は,認知的ユーザ間の情報交換を調整せずに,認知無線ネットワークの総スループットを分散的に最大化する協調戦略を学習することである。 最後に,提案アルゴリズムを広範囲な実験により様々な設定で検証する。 シミュレーション結果から,提案アルゴリズムが高速に収束し,ほぼ最適性能が得られることを示した。

With the development of the 5G and Internet of Things, amounts of wireless devices need to share the limited spectrum resources. Dynamic spectrum access (DSA) is a promising paradigm to remedy the problem of inefficient spectrum utilization brought upon by the historical command-and-control approach to spectrum allocation. In this paper, we investigate the distributed DSA problem for multi-user in a typical multi-channel cognitive radio network. The problem is formulated as a decentralized partially observable Markov decision process (Dec-POMDP), and we proposed a centralized off-line training and distributed on-line execution framework based on cooperative multi-agent reinforcement learning (MARL). We employ the deep recurrent Q-network (DRQN) to address the partial observability of the state for each cognitive user. The ultimate goal is to learn a cooperative strategy which maximizes the sum throughput of cognitive radio network in distributed fashion without coordination information exchange between cognitive users. Finally, we validate the proposed algorithm in various settings through extensive experiments. From the simulation results, we can observe that the proposed algorithm can converge fast and achieve almost the optimal performance.
翻訳日:2021-06-18 15:42:23 公開日:2021-06-17
# EMOVIE:単純な感情テキスト音声モデルを用いたマンダリン感情音声データセット

EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model ( http://arxiv.org/abs/2106.09317v1 )

ライセンス: Link先を確認
Chenye Cui, Yi Ren, Jinglin Liu, Feiyang Chen, Rongjie Huang, Ming Lei, Zhou Zhao(参考訳) 近年,ニューラル音声合成への関心が高まっている。 ディープニューラルネットワークは、テキスト音声(TTS)タスクによる最先端の結果を達成する一方で、高品質な感情音声データセットの不足と高度な感情的TTSモデルの欠如により、より感情的で表現力のある音声を生成する方法が、研究者にとって新たな課題となっている。 本稿ではまず,音声ファイルを含む9,724のサンプルと人間ラベル付きアノテーションを含むマンダリン感情音声データセットについて紹介し,公開する。 その後,感情音声合成のための簡易かつ効率的なアーキテクチャであるemspeechを提案する。 入力として追加の参照音声を必要とするモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。 実験段階では,まず感情分類タスクを用いてデータセットの有効性を検証する。 次に,提案するデータセット上でモデルをトレーニングし,主観評価を行う。 最後に,感情音声合成タスクにおいて同等の性能を示すことにより,提案モデルの有効性を実証することに成功した。

Recently, there has been an increasing interest in neural speech synthesis. While the deep neural network achieves the state-of-the-art result in text-to-speech (TTS) tasks, how to generate a more emotional and more expressive speech is becoming a new challenge to researchers due to the scarcity of high-quality emotion speech dataset and the lack of advanced emotional TTS model. In this paper, we first briefly introduce and publicly release a Mandarin emotion speech dataset including 9,724 samples with audio files and its emotion human-labeled annotation. After that, we propose a simple but efficient architecture for emotional speech synthesis called EMSpeech. Unlike those models which need additional reference audio as input, our model could predict emotion labels just from the input text and generate more expressive speech conditioned on the emotion embedding. In the experiment phase, we first validate the effectiveness of our dataset by an emotion classification task. Then we train our model on the proposed dataset and conduct a series of subjective evaluations. Finally, by showing a comparable performance in the emotional speech synthesis task, we successfully demonstrate the ability of the proposed model.
翻訳日:2021-06-18 15:42:02 公開日:2021-06-17
# カーネルの特徴選択における非凸性処理--ラプラスカーネルの特性-

Taming Nonconvexity in Kernel Feature Selection---Favorabl e Properties of the Laplace Kernel ( http://arxiv.org/abs/2106.09387v1 )

ライセンス: Link先を確認
Feng Ruan, Keli Liu, Michael I. Jordan(参考訳) カーネルベースの特徴選択は非パラメトリック統計学において重要なツールである。 カーネルに基づく特徴選択の実用的応用は多いが、この方法をサポートする統計理論はほとんど存在しない。 カーネルベースの特徴選択が非凸であることを定義するのに使用される最適化問題の目的関数である。 この文献は、非凸最適化に使用可能な勾配に基づくアルゴリズムが局所的ミニマへの収束を保証できるだけであることから、不一致である \emph{global optima} の統計的性質のみが研究されている。 ラプラス・カーネル(および他の$\ell_1$カーネル)を用いた機能選択の目的が、ユビキタス・ガウス・カーネル(または他の$\ell_2$カーネル)を含む他のカーネルが持っていないことを統計的に保証していることを示す。 目的関数の勾配の急激な特徴づけに基づいて、$\ell_1$ カーネルは $\ell_2$ カーネルを使用するときに現れる好ましくない定常点を排除する。 この知見に則り、グローバルなミニマに到達する必要のない$\ell_1$カーネルベースの特徴選択の統計的保証を確立する。 特に,$n \sim \log p$サンプルを用いた非パラメトリック設定における主効果と階層的相互作用の回復において,$\ell_1$-kernelに基づく特徴選択のモデル選択一貫性を確立する。

Kernel-based feature selection is an important tool in nonparametric statistics. Despite many practical applications of kernel-based feature selection, there is little statistical theory available to support the method. A core challenge is the objective function of the optimization problems used to define kernel-based feature selection are nonconvex. The literature has only studied the statistical properties of the \emph{global optima}, which is a mismatch, given that the gradient-based algorithms available for nonconvex optimization are only able to guarantee convergence to local minima. Studying the full landscape associated with kernel-based methods, we show that feature selection objectives using the Laplace kernel (and other $\ell_1$ kernels) come with statistical guarantees that other kernels, including the ubiquitous Gaussian kernel (or other $\ell_2$ kernels) do not possess. Based on a sharp characterization of the gradient of the objective function, we show that $\ell_1$ kernels eliminate unfavorable stationary points that appear when using an $\ell_2$ kernel. Armed with this insight, we establish statistical guarantees for $\ell_1$ kernel-based feature selection which do not require reaching the global minima. In particular, we establish model-selection consistency of $\ell_1$-kernel-base d feature selection in recovering main effects and hierarchical interactions in the nonparametric setting with $n \sim \log p$ samples.
翻訳日:2021-06-18 15:41:21 公開日:2021-06-17
# プライバシを認識したAIベースのモバイルアプリサービスのためのコード付きフェデレーション学習フレームワーク

Coded Federated Learning Framework for AI-Based Mobile Application Services with Privacy-Awareness ( http://arxiv.org/abs/2106.09261v1 )

ライセンス: Link先を確認
Yuris Mulya Saputra, Diep N. Nguyen, Dinh Thai Hoang, and Eryk Dutkiewicz(参考訳) コンピューティングタスクをコーディングすることで、コード化されたコンピューティングは、連合学習(fl)における混乱する問題を緩和するだけでなく、モバイルユーザ(mus)がモバイルアプリケーションプロバイダ(map)が所有する集中型サーバにアップロード/配信する機密データのプライバシーを保護できる。 しかしながら、これらの利点は、MUs/MAPの限られた計算/通信資源、MAPへのデータ提供におけるMU間の合理性とインセンティブの競合を考慮する必要がある、余分なコーディングコスト/複雑さと通信オーバーヘッド("emph{privacy cost}"と呼ばれる)が伴う。 本稿では、これらの課題に対処するために、プライバシを意識したモバイルアプリケーションサービスのための新しいFLベースのフレームワークを提案する。 特に、MAPはまず、提供されたMUの情報/特徴に基づいて、FLプロセスに最適なMUのセットを決定する。 次に、選択されたMUは、トレーニング可能なローカルデータとプライバシ保護されたコードデータに基づいてMAPに契約を提案することができる。 システム全体の高い学習品質を維持しながらMAPと全てのMUのユーティリティを最大化できる最適契約を求めるために,まず,MUのプライバシコスト,MAPの限られた計算資源,MAPとMU間の非対称情報といったコード付きFLベースの複数のユーティリティ機能を活用したマルチプリンシパル・ワンエージェント契約ベースの問題を開発する。 そして,この問題を等価な低複雑度問題に変換し,それを解決する反復アルゴリズムを開発する。 実世界のデータセットを用いた実験では、ネットワークの社会的福祉、すなわち、参加するすべてのエンティティのトータルユーティリティを、ベースラインメソッドと比較して、プライバシコストを考慮した最大114%向上させながら、トレーニング時間を49%まで短縮し、予測精度を4.6倍まで向上できることが示されています。

By encoding computing tasks, coded computing can not only mitigate straggling problems in federated learning (FL), but also preserve privacy of sensitive data uploaded/contributed by participating mobile users (MUs) to the centralized server, owned by a mobile application provider (MAP). However, these advantages come with extra coding cost/complexity and communication overhead (referred to as \emph{privacy cost}) that must be considered given the limited computing/communicat ions resources at MUs/MAP, the rationality and incentive competition among MUs in contributing data to the MAP. This article proposes a novel coded FL-based framework for a privacy-aware mobile application service to address these challenges. In particular, the MAP first determines a set of the best MUs for the FL process based on MUs' provided information/features . Then, each selected MU can propose a contract to the MAP according to its expected trainable local data and privacy-protected coded data. To find the optimal contracts that can maximize utilities of the MAP and all the participating MUs while maintaining high learning quality of the whole system, we first develop a multi-principal one-agent contract-based problem leveraging coded FL-based multiple utility functions under the MUs' privacy cost, the MAP's limited computing resource, and asymmetric information between the MAP and MUs. Then, we transform the problem into an equivalent low-complexity problem and develop an iterative algorithm to solve it. Experiments with a real-world dataset show that our framework can speed up training time up to 49% and improve prediction accuracy up to 4.6 times while enhancing network's social welfare, i.e., total utility of all participating entities, up to 114% under the privacy cost consideration compared with those of baseline methods.
翻訳日:2021-06-18 15:39:50 公開日:2021-06-17
# スマートコントラクト脆弱性検出:純ニューラルネットワークから解釈可能なグラフ特徴とエキスパートパターン融合へ

Smart Contract Vulnerability Detection: From Pure Neural Network to Interpretable Graph Feature and Expert Pattern Fusion ( http://arxiv.org/abs/2106.09282v1 )

ライセンス: Link先を確認
Zhenguang Liu, Peng Qian, Xiang Wang, Lei Zhu, Qinming He, Shouling Ji(参考訳) スマートコントラクトは数十億ドル相当のデジタルコインを保有している。 スマートコントラクトの脆弱性検出において、従来の手法は専門家の規則に強く依存しているため、精度は低く、スケーラビリティも低い。 最近のディープラーニングアプローチはこの問題を軽減するが、有用な専門家の知識をエンコードすることができない。 本稿では,ディープラーニングとエキスパートパターンの併用を説明可能な方法で検討する。 具体的には、ソースコードから専門家パターンを抽出する自動ツールを開発する。 次に、深いグラフの特徴を抽出するために、コードをセマンティックグラフにキャストします。 その後、グローバルグラフの特徴と局所的な専門家パターンが融合して最終的な予測に近づき、解釈可能な重みを得られる。 実験はethereumとvntチェーンの2つのプラットフォームで利用可能なすべてのスマートコントラクトで実施される。 実験により,本システムは最先端の手法よりも優れていた。 私たちのコードはリリースされます。

Smart contracts hold digital coins worth billions of dollars, their security issues have drawn extensive attention in the past years. Towards smart contract vulnerability detection, conventional methods heavily rely on fixed expert rules, leading to low accuracy and poor scalability. Recent deep learning approaches alleviate this issue but fail to encode useful expert knowledge. In this paper, we explore combining deep learning with expert patterns in an explainable fashion. Specifically, we develop automatic tools to extract expert patterns from the source code. We then cast the code into a semantic graph to extract deep graph features. Thereafter, the global graph feature and local expert patterns are fused to cooperate and approach the final prediction, while yielding their interpretable weights. Experiments are conducted on all available smart contracts with source code in two platforms, Ethereum and VNT Chain. Empirically, our system significantly outperforms state-of-the-art methods. Our code is released.
翻訳日:2021-06-18 15:39:14 公開日:2021-06-17
# 低ランク再パラメータ化による大規模プライベートラーニング

Large Scale Private Learning via Low-rank Reparametrization ( http://arxiv.org/abs/2106.09352v1 )

ライセンス: Link先を確認
Da Yu, Huishuai Zhang, Wei Chen, Jian Yin, Tie-Yan Liu(参考訳) 本研究では,1)個々の勾配を記憶する大きなメモリコスト,2)悪名高い次元依存に苦しむ付加ノイズといった,大きなニューラルネットワークに微分プライベートSGDを適用する際の課題に対処する再パラメータ化手法を提案する。 具体的には、各重み行列を2つの小さな次元の 'emph{gradient-carrier} 行列と \emph{residual weight} 行列で再パラメータ化する。 このような再パラメータ化は、勾配自体を計算せずに投影された勾配を計算できる一方で、前方/後方のプロセスを変更しないと主張している。 差分プライバシーを用いて学習するために、勾配キャリア行列の勾配を摂動させ、ノイズ勾配から元の重みの更新を再構築する \emph{reparametrized gradient perturbation (RGP) を設計する。 重要なのは,線形回帰の下での最適性が厳密に正当化され,深層学習タスクで実証的に検証される勾配キャリア行列を見つけるために,過去の更新を用いることである。 RGPはメモリコストを大幅に削減し、実用性を向上させる。 例えば、bertモデルに差分プライバシを適用して、4つのダウンストリームタスクで平均83.9\%$で$\epsilon=8$という、非プライベートベースラインに比べて5\%$の損失を被るが、プライバシリークのリスクははるかに低いという、最初の例です。

We propose a reparametrization scheme to address the challenges of applying differentially private SGD on large neural networks, which are 1) the huge memory cost of storing individual gradients, 2) the added noise suffering notorious dimensional dependence. Specifically, we reparametrize each weight matrix with two \emph{gradient-carrier} matrices of small dimension and a \emph{residual weight} matrix. We argue that such reparametrization keeps the forward/backward process unchanged while enabling us to compute the projected gradient without computing the gradient itself. To learn with differential privacy, we design \emph{reparametrized gradient perturbation (RGP)} that perturbs the gradients on gradient-carrier matrices and reconstructs an update for the original weight from the noisy gradients. Importantly, we use historical updates to find the gradient-carrier matrices, whose optimality is rigorously justified under linear regression and empirically verified with deep learning tasks. RGP significantly reduces the memory cost and improves the utility. For example, we are the first able to apply differential privacy on the BERT model and achieve an average accuracy of $83.9\%$ on four downstream tasks with $\epsilon=8$, which is within $5\%$ loss compared to the non-private baseline but enjoys much lower privacy leakage risk.
翻訳日:2021-06-18 15:39:00 公開日:2021-06-17
# スピン畳み込みを用いた回転不変グラフニューラルネットワーク

Rotation Invariant Graph Neural Networks using Spin Convolutions ( http://arxiv.org/abs/2106.09575v1 )

ライセンス: Link先を確認
Muhammed Shuaibi, Adeesh Kolluru, Abhishek Das, Aditya Grover, Anuroop Sriram, Zachary Ulissi, C. Lawrence Zitnick(参考訳) 気候変動と戦うために必要なエネルギーブレークスルーの進展は、原子系の効率的なシミュレーションによって著しく加速される。 密度汎関数理論 (DFT) などの第一原理に基づくシミュレーション技術は, 計算コストが高いため, 実用化に限られている。 機械学習アプローチは、DFTを計算的に効率的に近似する可能性があり、実際の問題に対する計算シミュレーションの影響を劇的に増大させる可能性がある。 DFTの近似にはいくつかの課題がある。 原子間の相対的な位置と角度の微妙な変化を正確にモデル化し、回転不変性やエネルギー保存のような制約を課す。 本稿では,グラフニューラルネットワークにおける隣接原子群間の角情報モデリング手法を提案する。 ネットワークのエッジメッセージの回転不変性は、エッジ毎の局所座標フレームと、残りの自由度を超えた新しいスピン畳み込みを用いて実現される。 構造緩和と分子動力学の応用のための2つのモデル変種が提案されている。 最先端の結果は、大規模なopen catalyst 2020データセットで実証されている。 MD17とQM9のデータセットでも比較が行われる。

Progress towards the energy breakthroughs needed to combat climate change can be significantly accelerated through the efficient simulation of atomic systems. Simulation techniques based on first principles, such as Density Functional Theory (DFT), are limited in their practical use due to their high computational expense. Machine learning approaches have the potential to approximate DFT in a computationally efficient manner, which could dramatically increase the impact of computational simulations on real-world problems. Approximating DFT poses several challenges. These include accurately modeling the subtle changes in the relative positions and angles between atoms, and enforcing constraints such as rotation invariance or energy conservation. We introduce a novel approach to modeling angular information between sets of neighboring atoms in a graph neural network. Rotation invariance is achieved for the network's edge messages through the use of a per-edge local coordinate frame and a novel spin convolution over the remaining degree of freedom. Two model variants are proposed for the applications of structure relaxation and molecular dynamics. State-of-the-art results are demonstrated on the large-scale Open Catalyst 2020 dataset. Comparisons are also performed on the MD17 and QM9 datasets.
翻訳日:2021-06-18 15:38:33 公開日:2021-06-17
# 株価予測のためのロバストなディープラーニングモデルの設計と解析

Design and Analysis of Robust Deep Learning Models for Stock Price Prediction ( http://arxiv.org/abs/2106.09664v1 )

ライセンス: Link先を確認
Jaydip Sen and Sidra Mehtab(参考訳) 株価と株価の動きの堅牢かつ正確な予測のための予測モデルを構築することは、解決すべき課題である。 良く知られた効率的な市場仮説は、株価が純粋に確率的であると仮定されるため、効率的な株式市場における将来の株価の正確な予測が不可能であると信じている。 しかし、研究者らによって提案された多くの研究は、洗練されたアルゴリズム、モデルアーキテクチャ、モデルにおける適切な変数の選択を用いて、高い精度で将来の株価を予測できることを実証している。 本章では、インド国立証券取引所(NSE)の多様化部門に上場する株式の将来価格の堅牢かつ正確な予測のために、ディープラーニングアーキテクチャに基づいて構築された予測回帰モデル集を提案する。 Metastockツールは、歴史的株価を2年間(2013-2014)に5分間隔でダウンロードするために使用される。 初年度の記録はモデルを訓練するために使用されるが、残りの記録を用いて試験が行われる。 すべてのモデルの設計アプローチとそのパフォーマンス結果が詳細に示されています。 モデルはまた、その実行時間と予測の精度に基づいて比較される。

Building predictive models for robust and accurate prediction of stock prices and stock price movement is a challenging research problem to solve. The well-known efficient market hypothesis believes in the impossibility of accurate prediction of future stock prices in an efficient stock market as the stock prices are assumed to be purely stochastic. However, numerous works proposed by researchers have demonstrated that it is possible to predict future stock prices with a high level of precision using sophisticated algorithms, model architectures, and the selection of appropriate variables in the models. This chapter proposes a collection of predictive regression models built on deep learning architecture for robust and precise prediction of the future prices of a stock listed in the diversified sectors in the National Stock Exchange (NSE) of India. The Metastock tool is used to download the historical stock prices over a period of two years (2013- 2014) at 5 minutes intervals. While the records for the first year are used to train the models, the testing is carried out using the remaining records. The design approaches of all the models and their performance results are presented in detail. The models are also compared based on their execution time and accuracy of prediction.
翻訳日:2021-06-18 15:38:17 公開日:2021-06-17
# 部分観測ベクトル自己回帰のminimax推定

Minimax Estimation of Partially-Observed Vector AutoRegressions ( http://arxiv.org/abs/2106.09327v1 )

ライセンス: Link先を確認
Guillaume Dalle (CERMICS), Yohann de Castro (ICJ, ECL)(参考訳) 交通ネットワークのような大きな力学系の挙動を理解するためには、例えば個々の車両など、センサーのセットが送信する測定値に依存することがしばしばある。 このような測定は不完全で不正確である可能性が高いため、関心の信号の復元が困難であり、この現象を定量化するために、部分的に観測された状態空間モデルの特性を研究する。 我々の設定では、潜在状態 $X$ は高次元ベクトル自己回帰プロセス $X_t = \theta X_{t-1} + \varepsilon_t$ に従う。 一方、y$は、y_t = \pi_t x_t + \eta_t$の状態からのノイズ分解ランダムサンプルによって与えられる。 いくつかのランダムサンプリング機構について検討し, 遷移行列 $\pi_t$ の分布における空間的, 時間的相関の影響について検討し, まず, 遷移行列 $\theta$ の最小値推定誤差について下限を証明した。 次に,dantzigセレクタに基づくスパース推定器と,その非漸近誤差を上限として,サンプリング機構のほとんどにおいて最適収束率が得られることを示す。 シミュレーション時系列に関する数値実験は,我々の理論的知見を検証し,鉄道データ公開への応用は公共交通機関の交通分析におけるこのモデルの有効性を明らかにする。

To understand the behavior of large dynamical systems like transportation networks, one must often rely on measurements transmitted by a set of sensors, for instance individual vehicles. Such measurements are likely to be incomplete and imprecise, which makes it hard to recover the underlying signal of interest.Hoping to quantify this phenomenon, we study the properties of a partially-observed state-space model. In our setting, the latent state $X$ follows a high-dimensional Vector AutoRegressive process $X_t = \theta X_{t-1} + \varepsilon_t$. Meanwhile, the observations $Y$ are given by a noise-corrupted random sample from the state $Y_t = \Pi_t X_t + \eta_t$. Several random sampling mechanisms are studied, allowing us to investigate the effect of spatial and temporal correlations in the distribution of the sampling matrices $\Pi_t$.We first prove a lower bound on the minimax estimation error for the transition matrix $\theta$. We then describe a sparse estimator based on the Dantzig selector and upper bound its non-asymptotic error, showing that it achieves the optimal convergence rate for most of our sampling mechanisms. Numerical experiments on simulated time series validate our theoretical findings, while an application to open railway data highlights the relevance of this model for public transport traffic analysis.
翻訳日:2021-06-18 15:38:03 公開日:2021-06-17
# ばらばらで密集したディープニューラルネットワークのトレーニングについて:パラメータの低減と同等の性能

On the training of sparse and dense deep neural networks: less parameters, same performance ( http://arxiv.org/abs/2106.09021v1 )

ライセンス: Link先を確認
Lorenzo Chicchi, Lorenzo Giambagli, Lorenzo Buffoni, Timoteo Carletti, Marco Ciavarella, Duccio Fanelli(参考訳) ディープニューラルネットワークは、直接空間における適切な転送作用素の固有値と固有ベクトルに作用することで、相互空間で訓練することができる。 固有値の調整は固有ベクトルを凍結しながらパラメータ空間の実質的な圧縮をもたらす。 この後者は、定義によって計算ニューロンの数でスケールする。 しかし、表示された精度で測定された分類スコアは、同一のアーキテクチャで、訓練可能なパラメータの完全なセット(隣接層の大きさに二次依存)を使用することで、学習が直接空間で実行される場合のそれよりも劣る。 本報告では, giambagli et al {nat>に現れるスペクトル学習法の変種を提案する。 Comm.} 2021年、隣接する各層間のマッピングに2つの固有値セットを利用する。 固有値は、(i)入力ノードの寄与を増大させる、または(ii)ホメオスタティックな可塑性の人工的類似体として解釈するメカニズムで、受信ノードの興奮性を調節するために、自由に調整できる検証可能なノブとして機能する。 トレーニング可能なパラメータの数は依然としてネットワークサイズの線形関数であるが、トレーニングされたデバイスの性能は従来のアルゴリズムよりもはるかに近くなる。 固有ベクトル行列の非自明なブロックに対して適切な分解を用いることで、従来の訓練とスペクトルトレーニングの間の残差を埋めることができる。 それぞれのスペクトルパラメータはノード間重みの集合全体を反映しており、従来の手法で訓練されたホモログと比較して、顕著な分類能力を持つスパースネットワークを効果的に活用する。

Deep neural networks can be trained in reciprocal space, by acting on the eigenvalues and eigenvectors of suitable transfer operators in direct space. Adjusting the eigenvalues, while freezing the eigenvectors, yields a substantial compression of the parameter space. This latter scales by definition with the number of computing neurons. The classification scores, as measured by the displayed accuracy, are however inferior to those attained when the learning is carried in direct space, for an identical architecture and by employing the full set of trainable parameters (with a quadratic dependence on the size of neighbor layers). In this Letter, we propose a variant of the spectral learning method as appeared in Giambagli et al {Nat. Comm.} 2021, which leverages on two sets of eigenvalues, for each mapping between adjacent layers. The eigenvalues act as veritable knobs which can be freely tuned so as to (i) enhance, or alternatively silence, the contribution of the input nodes, (ii) modulate the excitability of the receiving nodes with a mechanism which we interpret as the artificial analogue of the homeostatic plasticity. The number of trainable parameters is still a linear function of the network size, but the performances of the trained device gets much closer to those obtained via conventional algorithms, these latter requiring however a considerably heavier computational cost. The residual gap between conventional and spectral trainings can be eventually filled by employing a suitable decomposition for the non trivial block of the eigenvectors matrix. Each spectral parameter reflects back on the whole set of inter-nodes weights, an attribute which we shall effectively exploit to yield sparse networks with stunning classification abilities, as compared to their homologues trained with conventional means.
翻訳日:2021-06-18 15:37:43 公開日:2021-06-17
# 正方根主成分追跡:チューニングなし無ノイズロバストマトリックス回復

Square Root Principal Component Pursuit: Tuning-Free Noisy Robust Matrix Recovery ( http://arxiv.org/abs/2106.09211v1 )

ライセンス: Link先を確認
Junhui Zhang, Jingkai Yan, John Wright(参考訳) 我々は,ノイズや異常値で破損した観測から低ランク行列を回収するための新しい枠組みである正方根主成分追跡を提案する。 正方根ラッソに触発されたこの新しい定式化は、ノイズレベルに関する事前の知識を必要としない。 正規化パラメータの1つの普遍的な選択が(事前不明な)雑音レベルに比例する再構成誤差を達成するために十分であることを示す。 一方, 従来のPCPのような定式化では, 同様の性能を実現するためにノイズ依存パラメータに依存しており, ノイズレベルが不明なアプリケーションでは展開が困難である。 シミュレーションおよび実データを用いた実験により,本手法の有効性を検証する。 我々のシミュレーションは、正規化パラメータの普遍的な選択は様々なノイズレベルにおいて最適性能に近いという主張を裏付けるものであり、提案手法がここで証明された(ゆるい)バウンドよりも優れていることを示している。

We propose a new framework -- Square Root Principal Component Pursuit -- for low-rank matrix recovery from observations corrupted with noise and outliers. Inspired by the square root Lasso, this new formulation does not require prior knowledge of the noise level. We show that a single, universal choice of the regularization parameter suffices to achieve reconstruction error proportional to the (a priori unknown) noise level. In comparison, previous formulations such as stable PCP rely on noise-dependent parameters to achieve similar performance, and are therefore challenging to deploy in applications where the noise level is unknown. We validate the effectiveness of our new method through experiments on simulated and real datasets. Our simulations corroborate the claim that a universal choice of the regularization parameter yields near optimal performance across a range of noise levels, indicating that the proposed method outperforms the (somewhat loose) bound proved here.
翻訳日:2021-06-18 15:36:54 公開日:2021-06-17
# 伝送遅延と停止制約下での量子化連合学習

Quantized Federated Learning under Transmission Delay and Outage Constraints ( http://arxiv.org/abs/2106.09397v1 )

ライセンス: Link先を確認
Yanmeng Wang, Yanqing Xu, Qingjiang Shi, Tsung-Hui Chang(参考訳) フェデレートラーニング(FL)は、ユーザのプライバシを保護しながら、無線エッジ内の巨大なモバイルデバイスと協調して機械学習モデルをトレーニングする、実行可能な分散学習パラダイムとして認識されている。 flプロセスを促進するために様々な通信方式が提案されているが、その多くは、サーバとモバイルクライアント間の信頼性とロスレスな通信リンクを提供する理想的な無線チャネルを想定している。 残念なことに、訓練遅延の制約や送信電力と帯域幅の制約といった無線リソースが制限された実用的なシステムでは、多数のモデルパラメータの送信は、必然的に量子化エラー(QE)と送信停止(TO)に悩まされる。 本稿では,そのような非理想的無線チャネルについて検討し,クライアントが一様停止確率を持つ場合,fl収束をtoおよびqeによってひどく危うくすることができることを示す最初の分析を行う。 これらの洞察に富んだ結果は、クライアント間で無線リソースと量子化ビットを共同で割り当て、QEを最小化し、クライアントがTO確率を持つようにする、堅牢なFLスキームであるFedTOEを提案する動機となっている。 トランスミッションレイテンシ制約のある深層学習に基づく分類タスクにおいて,feedtoeの優れた性能を示すために,広範な実験結果が得られた。

Federated learning (FL) has been recognized as a viable distributed learning paradigm which trains a machine learning model collaboratively with massive mobile devices in the wireless edge while protecting user privacy. Although various communication schemes have been proposed to expedite the FL process, most of them have assumed ideal wireless channels which provide reliable and lossless communication links between the server and mobile clients. Unfortunately, in practical systems with limited radio resources such as constraint on the training latency and constraints on the transmission power and bandwidth, transmission of a large number of model parameters inevitably suffers from quantization errors (QE) and transmission outage (TO). In this paper, we consider such non-ideal wireless channels, and carry out the first analysis showing that the FL convergence can be severely jeopardized by TO and QE, but intriguingly can be alleviated if the clients have uniform outage probabilities. These insightful results motivate us to propose a robust FL scheme, named FedTOE, which performs joint allocation of wireless resources and quantization bits across the clients to minimize the QE while making the clients have the same TO probability. Extensive experimental results are presented to show the superior performance of FedTOE for a deep learning-based classification task with transmission latency constraints.
翻訳日:2021-06-18 15:36:38 公開日:2021-06-17
# 確率バイアス誘導勾配法

Stochastic Bias-Reduced Gradient Methods ( http://arxiv.org/abs/2106.09481v1 )

ライセンス: Link先を確認
Hilal Asi, Yair Carmon, Arun Jambulapati, Yujia Jin and Aaron Sidford(参考訳) 我々は、任意のリプシッツ強凸関数の最小値$x_\star$の低バイアスで低コストな推定器である確率最適化のための新しいプリミティブを開発する。 特に、ブランシェットとグリンによるマルチレベルモンテカルロ法を用いて、任意の最適確率勾配法をバイアス$\delta$のx_\star$、分散$o(\log(1/\delta))$、期待サンプリングコスト$o(\log(1/\delta))$確率勾配評価の推定値に変換する。 その結果、任意のリプシッツ凸関数のモロー・吉田包絡に対して、安価でほぼ偏りのない勾配推定器を得ることができ、次元フリーなランダム化平滑化が可能となった。 4つの応用を通して推定器の可能性を示す。 まず, 最大n$関数を最小化し, 最近の結果を改良し, 低バウンドアップ対数因子をマッチングする手法を開発した。 第2と第3に、透過的解析を用いた単純なアルゴリズムを用いて、投影効率と勾配効率の最適化のための最先端率を復元する。 最後に, 近似器の改良版では, ほぼ線形時間, 最適利用率, 微分プライベートな非滑らか確率最適化法が得られることを示す。

We develop a new primitive for stochastic optimization: a low-bias, low-cost estimator of the minimizer $x_\star$ of any Lipschitz strongly-convex function. In particular, we use a multilevel Monte-Carlo approach due to Blanchet and Glynn to turn any optimal stochastic gradient method into an estimator of $x_\star$ with bias $\delta$, variance $O(\log(1/\delta))$, and an expected sampling cost of $O(\log(1/\delta))$ stochastic gradient evaluations. As an immediate consequence, we obtain cheap and nearly unbiased gradient estimators for the Moreau-Yoshida envelope of any Lipschitz convex function, allowing us to perform dimension-free randomized smoothing. We demonstrate the potential of our estimator through four applications. First, we develop a method for minimizing the maximum of $N$ functions, improving on recent results and matching a lower bound up logarithmic factors. Second and third, we recover state-of-the-art rates for projection-efficient and gradient-efficient optimization using simple algorithms with a transparent analysis. Finally, we show that an improved version of our estimator would yield a nearly linear-time, optimal-utility, differentially-priva te non-smooth stochastic optimization method.
翻訳日:2021-06-18 15:36:13 公開日:2021-06-17
# フェデレーション学習における最適性と安定性:ゲーム理論的アプローチ

Optimality and Stability in Federated Learning: A Game-theoretic Approach ( http://arxiv.org/abs/2106.09580v1 )

ライセンス: Link先を確認
Kate Donahue and Jon Kleinberg(参考訳) フェデレートラーニング(Federated Learning)は、複数のエージェントがローカルデータのみにアクセスし、グローバルモデルと共同で学習する分散ラーニングパラダイムである。 近年,フェデレーション学習の精度向上だけでなく,総誤差などの社会的良質性に関する確実な保証も目指す研究が急増している。 この研究の一分野はゲーム理論的なアプローチを採っており、特に以前の研究では、フェデレーション学習をヘドニックゲームと見なしており、エラー最小化プレイヤーはフェデレーション連立に配置している。 この過去の研究は、安定した連立分割の存在を証明しているが、これらの安定解がどの程度最適から遠いかなど、幅広い疑問が残る。 本研究では,フェデレーションエージェント(プレイヤー)の平均誤差率によって与えられる最適性の概念を動機付け,定義する。 まず、プレイヤーの最適配置(誤差最小化)を計算するための効率的なアルゴリズムの正確性を示し、証明する。 次に,アレンジメントの安定性と最適性の関係を分析する。 まず、パラメータ空間のある領域において、全ての安定配置が最適であることを示す(アナーキーの価格が 1 に等しい)。 しかし、これはすべての設定に当てはまるものではなく、最適よりも高いコストで安定な配置の例が存在する(AnaarchyのPrice of Anarchy larger than 1)。 最後に、安定性と最適性の間の性能ギャップに対する最初の定数係数を与え、最悪の安定解の総誤差が最適解の総誤差の9倍に満たないことを証明した(アナキリ限界の9倍)。

Federated learning is a distributed learning paradigm where multiple agents, each only with access to local data, jointly learn a global model. There has recently been an explosion of research aiming not only to improve the accuracy rates of federated learning, but also provide certain guarantees around social good properties such as total error. One branch of this research has taken a game-theoretic approach, and in particular, prior work has viewed federated learning as a hedonic game, where error-minimizing players arrange themselves into federating coalitions. This past work proves the existence of stable coalition partitions, but leaves open a wide range of questions, including how far from optimal these stable solutions are. In this work, we motivate and define a notion of optimality given by the average error rates among federating agents (players). First, we provide and prove the correctness of an efficient algorithm to calculate an optimal (error minimizing) arrangement of players. Next, we analyze the relationship between the stability and optimality of an arrangement. First, we show that for some regions of parameter space, all stable arrangements are optimal (Price of Anarchy equal to 1). However, we show this is not true for all settings: there exist examples of stable arrangements with higher cost than optimal (Price of Anarchy greater than 1). Finally, we give the first constant-factor bound on the performance gap between stability and optimality, proving that the total error of the worst stable solution can be no higher than 9 times the total error of an optimal solution (Price of Anarchy bound of 9).
翻訳日:2021-06-18 15:35:27 公開日:2021-06-17
# WaveGrad 2: テキスト音声合成のための反復的リファインメント

WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis ( http://arxiv.org/abs/2106.09660v1 )

ライセンス: Link先を確認
Nanxin Chen, Yu Zhang, Heiga Zen, Ron J. Weiss, Mohammad Norouzi, Najim Dehak, William Chan(参考訳) 本稿では,音声合成のための非自己回帰生成モデルWaveGrad 2を提案する。 WaveGrad 2は、音素列が与えられた波形の対数条件密度の勾配を推定するために訓練される。 モデルは入力音素シーケンスを受け取り、反復的な改良プロセスを通じて音声波形を生成する。 これは、別のモデルによって生成されるメル・スペクトログラムの特徴を条件とする元のwavegrad vocoderとは対照的である。 反復的な精錬プロセスはガウスノイズから始まり、一連の精錬ステップ(例:50ステップ)を通じて徐々にオーディオシーケンスを復元する。 wavegrad 2は、改良ステップの数を調整することによって、推論速度とサンプル品質のトレードオフを自然な方法で提供する。 実験により、このモデルは高忠実度オーディオを生成でき、最先端のニューラルTSシステムの性能に近づいた。 また,異なるモデル構成に関する様々なアブレーション研究についても報告する。 オーディオサンプルはhttps://wavegrad.git hub.io/v2で入手できる。

This paper introduces WaveGrad 2, a non-autoregressive generative model for text-to-speech synthesis. WaveGrad 2 is trained to estimate the gradient of the log conditional density of the waveform given a phoneme sequence. The model takes an input phoneme sequence, and through an iterative refinement process, generates an audio waveform. This contrasts to the original WaveGrad vocoder which conditions on mel-spectrogram features, generated by a separate model. The iterative refinement process starts from Gaussian noise, and through a series of refinement steps (e.g., 50 steps), progressively recovers the audio sequence. WaveGrad 2 offers a natural way to trade-off between inference speed and sample quality, through adjusting the number of refinement steps. Experiments show that the model can generate high fidelity audio, approaching the performance of a state-of-the-art neural TTS system. We also report various ablation studies over different model configurations. Audio samples are available at https://wavegrad.git hub.io/v2.
翻訳日:2021-06-18 15:34:57 公開日:2021-06-17
# (参考訳) 最適化と遅延によるオンライン学習

Online Learning with Optimism and Delay ( http://arxiv.org/abs/2106.06885v3 )

ライセンス: CC BY 4.0
Genevieve Flaspohler, Francesco Orabona, Judah Cohen, Soukayna Mouatadid, Miruna Oprescu, Paulo Orenstein and Lester Mackey(参考訳) リアルタイムの気候や天気予報の需要に触発されて,パラメータチューニングを必要としない楽観的なオンライン学習アルゴリズムを開発し,遅延フィードバックの下で最適な後悔の保証を行う。 我々のアルゴリズム(DORM、DORM+、AdaHedgeD)は、遅延したオンライン学習から楽観的なオンライン学習への新たな還元から始まり、遅延による後悔の罰をいかに楽観的に緩和するかを明らかにします。 この遅延・アズ・オプティミズムの観点と,新しい楽観的学習の分析とを組み合わせることで,その頑健さをヒントの誤りにさらし,遅延の存在下で効果的なヒント戦略を学習する新しいメタアルゴリズムを提案する。 我々は,4つの季節下気候予測課題について,我々のアルゴリズムをベンチマークすることで,最先端の予測モデルと比較して低い後悔を示す。

Inspired by the demands of real-time climate and weather forecasting, we develop optimistic online learning algorithms that require no parameter tuning and have optimal regret guarantees under delayed feedback. Our algorithms -- DORM, DORM+, and AdaHedgeD -- arise from a novel reduction of delayed online learning to optimistic online learning that reveals how optimistic hints can mitigate the regret penalty caused by delay. We pair this delay-as-optimism perspective with a new analysis of optimistic learning that exposes its robustness to hinting errors and a new meta-algorithm for learning effective hinting strategies in the presence of delay. We conclude by benchmarking our algorithms on four subseasonal climate forecasting tasks, demonstrating low regret relative to state-of-the-art forecasting models.
翻訳日:2021-06-18 13:41:44 公開日:2021-06-17
# (参考訳) 潜在相関に基づくマルチビュー学習と自己スーパービジョン:統一的視点

Latent Correlation-Based Multiview Learning and Self-Supervision: A Unifying Perspective ( http://arxiv.org/abs/2106.07115v2 )

ライセンス: CC BY 4.0
Qi Lyu, Xiao Fu, Weiran Wang and Songtao Lu(参考訳) 自然に取得したデータ(画像や音声など)と人工的に生成されたデータ(データサンプルに異なるノイズを追加するなど)の複数のビューは、表現学習の強化に有用であることが証明されている。 自然ビューは、例えば(ディープ)正準相関解析 [(D)CCA] のようなマルチビュー解析ツールによって処理されることが多いが、人工ビューは、SimCLRやBarlow Twinsといった自己教師付き学習(SSL)パラダイムで頻繁に使用される。 どちらのアプローチも、データの埋め込みが高いクロスビュー相関を示すように、ニューラルネットワークの特徴抽出器を学習する。 直感的ではあるが、相関に基づく神経埋め込みの有効性は実証的に検証されるのみである。 この研究は教師なしマルチビュー学習のための理論に基づくフレームワークである。 私たちの開発は、各ビューが共有コンポーネントとプライベートコンポーネントの非線形混合であるマルチビューモデルの提案から始まります。 これにより、学習問題は共有/プライベートコンポーネントの識別と絡み合いに陥る。 このモデルでは、潜在相関最大化はビュー間で共有されたコンポーネント(特定のあいまいさまで)の抽出を保証することが示されている。 さらに、各ビュー内のプライベート情報を適切な正規化設計を用いて共有から確実に切り離すことができる。 この方法は、ダウンストリームクラスタリングなどの一連のタスクでテストされ、いずれも有望なパフォーマンスを示している。 私たちの開発は、様々なDCCAおよびSSLスキームを理解するための統一的な視点も提供します。

Multiple views of data, both naturally acquired (e.g., image and audio) and artificially produced (e.g., via adding different noise to data samples), have proven useful in enhancing representation learning. Natural views are often handled by multiview analysis tools, e.g., (deep) canonical correlation analysis [(D)CCA], while the artificial ones are frequently used in self-supervised learning (SSL) paradigms, e.g., SimCLR and Barlow Twins. Both types of approaches often involve learning neural feature extractors such that the embeddings of data exhibit high cross-view correlations. Although intuitive, the effectiveness of correlation-based neural embedding is only empirically validated. This work puts forth a theory-backed framework for unsupervised multiview learning. Our development starts with proposing a multiview model, where each view is a nonlinear mixture of shared and private components. Consequently, the learning problem boils down to shared/private component identification and disentanglement. Under this model, latent correlation maximization is shown to guarantee the extraction of the shared components across views (up to certain ambiguities). In addition, the private information in each view can be provably disentangled from the shared using proper regularization design. The method is tested on a series of tasks, e.g., downstream clustering, which all show promising performance. Our development also provides a unifying perspective for understanding various DCCA and SSL schemes.
翻訳日:2021-06-18 12:39:50 公開日:2021-06-17
# (参考訳) KDDカップ2021OGB大規模チャレンジレベルグラフトラックの第一位ソリューション [全文訳有]

First Place Solution of KDD Cup 2021 OGB Large-Scale Challenge Graph-Level Track ( http://arxiv.org/abs/2106.08279v2 )

ライセンス: CC BY 4.0
Chengxuan Ying, Mingqi Yang, Shuxin Zheng, Guolin Ke, Shengjie Luo, Tianle Cai, Chenglin Wu, Yuxin Wang, Yanming Shen, Di He(参考訳) 本稿では,KDD Cup 2021 OGB Large-Scale Challenge - PCQM4M-LSC Trackについて述べる。 GraphormerとExpCを基本モデルとして採用しています。 各モデルを8倍のクロスバリデーションでトレーニングし、さらにランダムシードの異なるトレーニングセットと検証セットの組み合わせで2つのグラフマーモデルをトレーニングします。 最後に、これらの18モデルに対して、出力の平均を取ることで、ナイーブアンサンブルを使用します。 我々のチームは,本手法を用いてテストセットで0.1200 MAEを達成し,KDDカップグラフレベルトラックで優勝した。

In this technical report, we present our solution of KDD Cup 2021 OGB Large-Scale Challenge - PCQM4M-LSC Track. We adopt Graphormer and ExpC as our basic models. We train each model by 8-fold cross-validation, and additionally train two Graphormer models on the union of training and validation sets with different random seeds. For final submission, we use a naive ensemble for these 18 models by taking average of their outputs. Using our method, our team MachineLearning achieved 0.1200 MAE on test set, which won the first place in KDD Cup graph-level track.
翻訳日:2021-06-18 12:13:57 公開日:2021-06-17
# (参考訳) 自己スーパービジョンと判別訓練によるスコープ外インテント検出 [全文訳有]

Out-of-Scope Intent Detection with Self-Supervision and Discriminative Training ( http://arxiv.org/abs/2106.08616v2 )

ライセンス: CC BY 4.0
Li-Ming Zhan, Haowen Liang, Bo Liu, Lu Fan, Xiao-Ming Wu, Albert Y.S. Lam(参考訳) タスク指向対話システムでは、スコープ外意図検出が実用上重要である。 外乱発話の分布は訓練段階では任意で未知であるため、既存の手法はガウスの混合のようなデータ分布に対する強い仮定に依存しており、複雑な多段階の訓練手順や、外乱検出のための信頼しきい値選択のような手作りの規則がある。 本稿では,データ分散を前提とせず,余分な後処理やしきい値設定を必要とせず,テストシナリオをシミュレートすることで,スコープ外インテント分類器を完全にエンドツーエンドに訓練する簡単な方法を提案する。 具体的には、インライナー特徴を用いたインライナー特徴を用いた合成アウトレーラを生成し、容易に利用可能なオープンドメインデータセットからスコープ外文をサンプリングすることにより、トレーニング段階で擬似アウトレーラのセットを構築する。 擬似外乱器は、テストタスクに直接適用および一般化可能な識別分類器を訓練するために使用される。 提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。 私たちのコードはhttps://github.com/l iam0949/DCLOOSでリリースされています。

Out-of-scope intent detection is of practical importance in task-oriented dialogue systems. Since the distribution of outlier utterances is arbitrary and unknown in the training stage, existing methods commonly rely on strong assumptions on data distribution such as mixture of Gaussians to make inference, resulting in either complex multi-step training procedures or hand-crafted rules such as confidence threshold selection for outlier detection. In this paper, we propose a simple yet effective method to train an out-of-scope intent classifier in a fully end-to-end manner by simulating the test scenario in training, which requires no assumption on data distribution and no additional post-processing or threshold setting. Specifically, we construct a set of pseudo outliers in the training stage, by generating synthetic outliers using inliner features via self-supervision and sampling out-of-scope sentences from easily available open-domain datasets. The pseudo outliers are used to train a discriminative classifier that can be directly applied to and generalize well on the test task. We evaluate our method extensively on four benchmark dialogue datasets and observe significant improvements over state-of-the-art approaches. Our code has been released at https://github.com/l iam0949/DCLOOS.
翻訳日:2021-06-18 11:55:50 公開日:2021-06-17
# (参考訳) ソフト教師によるエンド・ツー・エンド半教師物体検出 [全文訳有]

End-to-End Semi-Supervised Object Detection with Soft Teacher ( http://arxiv.org/abs/2106.09018v2 )

ライセンス: CC BY 4.0
Mengde Xu, Zheng Zhang, Han Hu, Jianfeng Wang, Lijuan Wang, Fangyun Wei, Xiang Bai, Zicheng Liu(参考訳) 本稿では,従来の複雑な多段階法とは対照的に,終端から終端までの半教師付き物体検出手法を提案する。 エンドツーエンドのトレーニングは、カリキュラム中の擬似ラベル品質を徐々に改善し、より正確な擬似ラベルがオブジェクト検出トレーニングに役立ちます。 また,この枠組みでは,教師ネットワークが生成する分類スコアによってラベルなし境界ボックスの分類損失を重み付けるソフト教師機構と,ボックス回帰学習のための信頼できる擬似ボックスを選択するボックスジッタリング手法という,単純かつ効果的な2つの手法を提案する。 cocoベンチマークでは,提案手法は,様々なラベル付け率,すなわち,従来の手法を大きく上回っている。 1\%,5\%,10\%であった。 さらに,ラベル付きデータの量が比較的大きい場合にも,本手法が有効であることを示す。 例えば、+3.6 mAPで設定されたCOCOの全訓練で訓練された40.9 mAPベースライン検出器を44.5 mAPまで改善することができる。 最先端のSwin Transformerベースのオブジェクト検出器(58.9 mAP on test-dev)では、検出精度は+1.5 mAPで60.4 mAPに達し、インスタンスセグメンテーション精度は+1.2 mAPで改善され、52.4 mAPに達した。

This paper presents an end-to-end semi-supervised object detection approach, in contrast to previous more complex multi-stage methods. The end-to-end training gradually improves pseudo label qualities during the curriculum, and the more and more accurate pseudo labels in turn benefit object detection training. We also propose two simple yet effective techniques within this framework: a soft teacher mechanism where the classification loss of each unlabeled bounding box is weighed by the classification score produced by the teacher network; a box jittering approach to select reliable pseudo boxes for the learning of box regression. On COCO benchmark, the proposed approach outperforms previous methods by a large margin under various labeling ratios, i.e. 1\%, 5\% and 10\%. Moreover, our approach proves to perform also well when the amount of labeled data is relatively large. For example, it can improve a 40.9 mAP baseline detector trained using the full COCO training set by +3.6 mAP, reaching 44.5 mAP, by leveraging the 123K unlabeled images of COCO. On the state-of-the-art Swin Transformer-based object detector (58.9 mAP on test-dev), it can still significantly improve the detection accuracy by +1.5 mAP, reaching 60.4 mAP, and improve the instance segmentation accuracy by +1.2 mAP, reaching 52.4 mAP, pushing the new state-of-the-art.
翻訳日:2021-06-18 11:40:19 公開日:2021-06-17
# アルゴリズムによるコンパイル協調設計:ニューラルネットワークの空間性の統合的視点

Algorithm to Compilation Co-design: An Integrated View of Neural Network Sparsity ( http://arxiv.org/abs/2106.08846v2 )

ライセンス: Link先を確認
Fu-Ming Guo, Austin Huang(参考訳) ニューラルネットワークの計算コスト、推論レイテンシ、メモリフットプリントの削減は、プルーニングとスパーシティの研究モチベーションとしてしばしば引用される。 しかし、これらの利点を運用し、アルゴリズム設計とランタイム実行における正規化によるエンドツーエンドの効果を理解することは、しばしば検討されない。 本稿では,BERT言語モデルのトランスフォーマーブロックの重み付けに対して,構造化および非構造化プルーニングを適用するとともに,TVMコンパイラにおけるブロックスパース表現(BSR)操作を拡張する。 bsr操作の統合により、tvmランタイムの実行はモデル正規化によって引き起こされる構造化パターンスパーシティを活用できる。 このプルーニングアルゴリズムの統合ビューにより、モデリング決定と空間的拡張実行に対する直接的影響の関係を研究できる。 1)sparsityブロックの正規化によるパフォーマンス上のメリットは,bsrによるtvmの拡張によって実現されなければならないこと,また,vanilla pytorchと比較して4倍のスピードアップ,標準のtvmコンパイルと比較して2.2倍のスピードアップ(拡張されたbsrサポートなしで)が実現可能であること,の確認。 2) BERTアテンション重みの場合、このCPU推論コンテキストにおけるエンドツーエンドのブロック間隔の形状は、正方ブロックではなく、線形32x1ブロックである。 性能とブロックサイズ/形状の関係は、タスクスケジューラ最適化とモデル正規化パラメータがどのように相互作用するかが示唆される。

Reducing computation cost, inference latency, and memory footprint of neural networks are frequently cited as research motivations for pruning and sparsity. However, operationalizing those benefits and understanding the end-to-end effect of algorithm design and regularization on the runtime execution is not often examined in depth. Here we apply structured and unstructured pruning to attention weights of transformer blocks of the BERT language model, while also expanding block sparse representation (BSR) operations in the TVM compiler. Integration of BSR operations enables the TVM runtime execution to leverage structured pattern sparsity induced by model regularization. This integrated view of pruning algorithms enables us to study relationships between modeling decisions and their direct impact on sparsity-enhanced execution. Our main findings are: 1) we validate that performance benefits of structured sparsity block regularization must be enabled by the BSR augmentations to TVM, with 4x speedup relative to vanilla PyTorch and 2.2x speedup relative to standard TVM compilation (without expanded BSR support). 2) for BERT attention weights, the end-to-end optimal block sparsity shape in this CPU inference context is not a square block (as in \cite{gray2017gpu}) but rather a linear 32x1 block 3) the relationship between performance and block size / shape is is suggestive of how model regularization parameters interact with task scheduler optimizations resulting in the observed end-to-end performance.
翻訳日:2021-06-18 11:26:46 公開日:2021-06-17
# GNNの表現力に関する統一的視点

A unifying point of view on expressive power of GNNs ( http://arxiv.org/abs/2106.08992v2 )

ライセンス: Link先を確認
Giuseppe Alessio D'Inverno, Monica Bianchini, Maria Lucia Sampoli, Franco Scarselli(参考訳) グラフニューラルネットワーク(GNN)は、グラフ処理のための幅広い種類の接続モデルである。 各ノードとその隣ノードで反復的なメッセージパッシング操作を実行し、順序に関わらず、すべてのメッセージを収集するノードまたはグラフ全体の分類/クラスタリングタスクを解決します。 このクラスに属する様々なモデルの違いにもかかわらず、その多くは局所的な集約機構に基づく同じ計算方式を採用しており、直感的には、局所的な計算フレームワークは主にGNNの表現力に責任がある。 本稿では、Weisfeiler-Lehman検定により、元のGNNモデルで定義された展開等価値と正確に一致するグラフノード上で等価関係が導出されることを示す。 したがって、元の GNN の表現力に関する結果は、穏やかな条件下では、任意の精度で、展開する同値性を尊重するグラフ上の任意の関数を近似できる一般 GNN にまで拡張することができる。

Graph Neural Networks (GNNs) are a wide class of connectionist models for graph processing. They perform an iterative message passing operation on each node and its neighbors, to solve classification/ clustering tasks -- on some nodes or on the whole graph -- collecting all such messages, regardless of their order. Despite the differences among the various models belonging to this class, most of them adopt the same computation scheme, based on a local aggregation mechanism and, intuitively, the local computation framework is mainly responsible for the expressive power of GNNs. In this paper, we prove that the Weisfeiler--Lehman test induces an equivalence relationship on the graph nodes that exactly corresponds to the unfolding equivalence, defined on the original GNN model. Therefore, the results on the expressive power of the original GNNs can be extended to general GNNs which, under mild conditions, can be proved capable of approximating, in probability and up to any precision, any function on graphs that respects the unfolding equivalence.
翻訳日:2021-06-18 11:25:49 公開日:2021-06-17
# 1000層からなるグラフニューラルネットワークのトレーニング

Training Graph Neural Networks with 1000 Layers ( http://arxiv.org/abs/2106.07476v2 )

ライセンス: Link先を確認
Guohao Li, Matthias M\"uller, Bernard Ghanem, Vladlen Koltun(参考訳) ディープグラフニューラルネットワーク(GNN)は、数百万のノードとエッジを持つ大規模グラフデータセットのさまざまなタスクにおいて、優れた結果を得た。 しかし,ノード数,エッジ数,中間的アクティベーション数が多いため,実用化のための深部GNNのトレーニングでは,メモリ複雑性が大きな障害となっている。 gnnのスケーラビリティを改善するために、より小さなノードまたはサブグラフでgnnをトレーニングするためのスマートグラフサンプリングまたはパーティショニング戦略を提案する。 本研究では,GNNのメモリとパラメータ効率を向上させるために,可逆接続,グループ畳み込み,重み付け,平衡モデルについて検討する。 深いネットワークアーキテクチャと組み合わさった可逆接続により、複数のデータセット上の既存のメソッドを大幅に上回る、過パラメータ化されたGNNのトレーニングが可能になる。 我々のモデルであるRevGNN-Deep(それぞれ80のチャネルを持つ1001層)とRevGNN-Wide(それぞれ224のチャネルを持つ448層)は、いずれも単一のコモディティGPUでトレーニングされ、ogbn-oproteinsデータセット上で87.74 \pm 0.13$と8.24 \pm 0.15$のROC-AUCを達成した。 我々の知る限りでは、RevGNN-Deepは文学で最も深いGNNである。 詳細はプロジェクトのwebサイトhttps://www.deepgcns .org/arch/gnn1000を参照してください。

Deep graph neural networks (GNNs) have achieved excellent results on various tasks on increasingly large graph datasets with millions of nodes and edges. However, memory complexity has become a major obstacle when training deep GNNs for practical applications due to the immense number of nodes, edges, and intermediate activations. To improve the scalability of GNNs, prior works propose smart graph sampling or partitioning strategies to train GNNs with a smaller set of nodes or sub-graphs. In this work, we study reversible connections, group convolutions, weight tying, and equilibrium models to advance the memory and parameter efficiency of GNNs. We find that reversible connections in combination with deep network architectures enable the training of overparameterized GNNs that significantly outperform existing methods on multiple datasets. Our models RevGNN-Deep (1001 layers with 80 channels each) and RevGNN-Wide (448 layers with 224 channels each) were both trained on a single commodity GPU and achieve an ROC-AUC of $87.74 \pm 0.13$ and $88.24 \pm 0.15$ on the ogbn-proteins dataset. To the best of our knowledge, RevGNN-Deep is the deepest GNN in the literature by one order of magnitude. Please visit our project website https://www.deepgcns .org/arch/gnn1000 for more information.
翻訳日:2021-06-18 11:25:32 公開日:2021-06-17
# Maxmin-Fair Ranking: Group-Fairness Constraint下での個人フェアネス

Maxmin-Fair Ranking: Individual Fairness under Group-Fairness Constraints ( http://arxiv.org/abs/2106.08652v2 )

ライセンス: Link先を確認
David Garcia-Soriano and Francesco Bonchi(参考訳) グループフェア性制約を課す際に生じる個々人の不公平さを最小化することを目的としたランキングにおける公平性の新たな問題について検討する。 本提案は分布的マックスミンフェアネス理論を基礎とし,最悪の個人が期待できる満足度を最大化するためにランダム化を用いる。 我々は,一般探索問題(ランキングを含むが限定的ではない)のmaxmin-fair分布を求めるために,多項式時間アルゴリズムを考案し,与えられた群-fairness制約を満たしながら,最大値が個人にもたらされることを保証するランキングを生成できることを示す。

We study a novel problem of fairness in ranking aimed at minimizing the amount of individual unfairness introduced when enforcing group-fairness constraints. Our proposal is rooted in the distributional maxmin fairness theory, which uses randomization to maximize the expected satisfaction of the worst-off individuals. We devise an exact polynomial-time algorithm to find maxmin-fair distributions of general search problems (including, but not limited to, ranking), and show that our algorithm can produce rankings which, while satisfying the given group-fairness constraints, ensure that the maximum possible value is brought to individuals.
翻訳日:2021-06-18 11:25:06 公開日:2021-06-17
# 多解連続正規化流れ

Multi-Resolution Continuous Normalizing Flows ( http://arxiv.org/abs/2106.08462v2 )

ライセンス: Link先を確認
Vikram Voleti, Chris Finlay, Adam Oberman, Christopher Pal(参考訳) 近年の研究では、連続正規化フロー(CNF)の観点から、ニューラル正規微分方程式(ODE)が画像の生成モデルとして機能することが示されている。 そのようなモデルは正確な確率計算と可逆生成/密度推定を提供する。 本研究では,粗画像と整合する微細画像を生成するのに必要な追加情報に対する条件分布を特徴付けることにより,そのようなモデルのマルチレゾリューションモデル(mrcnf)を提案する。 ログの可能性を変更できないような解像度間の変換を導入します。 このアプローチは,GPUを1つだけ使用して,高解像度で性能を向上し,パラメータが少なく,様々な画像データセットに対して同等の値が得られることを示す。 さらに, (Multi-Resolution) 連続正規化流れの分布特性について検討し, 他の確率ベース生成モデルと類似していることを見出した。

Recent work has shown that Neural Ordinary Differential Equations (ODEs) can serve as generative models of images using the perspective of Continuous Normalizing Flows (CNFs). Such models offer exact likelihood calculation, and invertible generation/density estimation. In this work we introduce a Multi-Resolution variant of such models (MRCNF), by characterizing the conditional distribution over the additional information required to generate a fine image that is consistent with the coarse image. We introduce a transformation between resolutions that allows for no change in the log likelihood. We show that this approach yields comparable likelihood values for various image datasets, with improved performance at higher resolutions, with fewer parameters, using only 1 GPU. Further, we examine the out-of-distribution properties of (Multi-Resolution) Continuous Normalizing Flows, and find that they are similar to those of other likelihood-based generative models.
翻訳日:2021-06-18 11:24:51 公開日:2021-06-17
# 興味点検出のための画像特徴情報抽出:包括的レビュー

Image Feature Information Extraction for Interest Point Detection: A Comprehensive Review ( http://arxiv.org/abs/2106.07929v2 )

ライセンス: Link先を確認
Junfeng Jing, Tian Gao, Weichuan Zhang, Yongsheng Gao, Changming Sun(参考訳) 関心点検出は、コンピュータビジョンと画像処理における最も基本的かつ重要な問題の1つである。 本稿では,関心点検出のための画像特徴情報(IFI)抽出手法の総合的なレビューを行う。 既存の関心点検出手法が入力画像からIFIを抽出する方法を体系的に紹介するために,関心点検出のためのIFI抽出手法の分類法を提案する。 本分類では,興味点検出のための異なるタイプのIFI抽出手法について議論する。 さらに、既存の関心点検出のためのIFI抽出技術と、これまで議論されていない関心点検出方法に関する未解決の課題を明らかにした。 既存の一般的なデータセットと評価基準を提供し、18の最先端アプローチのパフォーマンスを評価し、議論する。 さらに、興味点検出のためのIFI抽出技術に関する今後の研究の方向性を詳述する。

Interest point detection is one of the most fundamental and critical problems in computer vision and image processing. In this paper, we carry out a comprehensive review on image feature information (IFI) extraction techniques for interest point detection. To systematically introduce how the existing interest point detection methods extract IFI from an input image, we propose a taxonomy of the IFI extraction techniques for interest point detection. According to this taxonomy, we discuss different types of IFI extraction techniques for interest point detection. Furthermore, we identify the main unresolved issues related to the existing IFI extraction techniques for interest point detection and any interest point detection methods that have not been discussed before. The existing popular datasets and evaluation standards are provided and the performances for eighteen state-of-the-art approaches are evaluated and discussed. Moreover, future research directions on IFI extraction techniques for interest point detection are elaborated.
翻訳日:2021-06-18 11:24:36 公開日:2021-06-17
# 合成特徴をもつキャットブースモデルによる中小企業のローンリスク評価

CatBoost model with synthetic features in application to loan risk assessment of small businesses ( http://arxiv.org/abs/2106.07954v2 )

ライセンス: Link先を確認
Liexin Cheng, Haoxue Wang(参考訳) 小さなビジネスに対するローンのリスクは、探究する価値のある複雑な問題でした。 ローンリスクの予測は、社会のためにより多くの仕事を開発することで、起業にほぼ貢献できる。 CatBoost(Categorical Boosting)は強力な機械学習アルゴリズムで、ローンリスクを予測するためにデータセットのような多くのカテゴリ変数を持つデータセットに適している。 本稿では,ローン状況の分類問題に寄与する重要なリスク要因を同定する。 次に、ブーピング型アルゴリズム(特にCatBoost)と従来の人気の高いアルゴリズムのパフォーマンスを比較します。 調査で採用したデータセットは、米国中小企業管理局(SBA)が提供し、非常に大きなサンプルサイズ(899,164の観測と27の特徴)を持っている。 関連研究の文献と比較すると,95.74%の精度,98.59%の良好なAUCが得られる。 データセットの重要な特徴を最大限に活用するために,算術演算に基づく複合機能を開発するための「合成生成」という手法を提案し,その結果,元のcatboostモデルの精度とaucを向上させる。

Loan risk for small business has long been a complex problem worthy of exploring. Predicting the loan risk approximately can benefit entrepreneurship by developing more jobs for the society. CatBoost (Categorical Boosting) is a powerful machine learning algorithm that is suitable for dataset with many categorical variables like the dataset for forecasting loan risk. In this paper, we identify the important risk factors that contribute to loan status classification problem. Then we compare the the performance between boosting-type algorithms(especiall y CatBoost) with other traditional yet popular ones. The dataset we adopt in the research comes from the U.S. Small Business Administration (SBA) and holds a very large sample size (899,164 observations and 27 features). We obtain a high accuracy of 95.74% and well-performed AUC of 98.59% compared with the existent literature of related research. In order to make best use of the important features in the dataset, we propose a technique named "synthetic generation" to develop more combined features based on arithmetic operation, which ends up improving the accuracy and AUC of original CatBoost model.
翻訳日:2021-06-18 11:24:24 公開日:2021-06-17
# ウェアラブル脳波デバイスによるてんかんの長期非侵襲的モニタリングに向けて

Towards Long-term Non-invasive Monitoring for Epilepsy via Wearable EEG Devices ( http://arxiv.org/abs/2106.08008v3 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Andrea Cossettini, Xiaying Wang, Enrico Tabanelli, Giuseppe Tagliavini, Philippe Ryvlin, Luca Benini, Simone Benatti(参考訳) 並列超低消費電力組込みプラットフォーム上での最小数の脳波チャンネルに基づく発作検出アルゴリズムの実装について述べる。 この分析はCHB-MITデータセットに基づいており、異なる分類手法(Support Vector Machines、Random Forest、Extra Trees、AdaBoost)と、誤報を保証しながら感度を最大化するための様々な前処理技術の調査を含んでいる。 全23電極または4チャネルのみを考慮した,グローバルおよび主題固有のアプローチを分析する。 8sウィンドウサイズと主観的アプローチでは,偽陽性はゼロ,感度は100%であった。 これらのアルゴリズムは並列化され、並列超低電力(PULP)プラットフォームに最適化され、300mAhのバッテリーで300hの連続的なモニタリングを可能にする。 これらの結果は、患者と介護者の両方の要件を満たす、安価でウェアラブルで、偽陽性率と高感度の長期的なてんかんモニタリングソリューションの実装への道を開いた。

We present the implementation of seizure detection algorithms based on a minimal number of EEG channels on a parallel ultra-low-power embedded platform. The analyses are based on the CHB-MIT dataset, and include explorations of different classification approaches (Support Vector Machines, Random Forest, Extra Trees, AdaBoost) and different pre/post-processing techniques to maximize sensitivity while guaranteeing no false alarms. We analyze global and subject-specific approaches, considering all 23-electrodes or only 4 temporal channels. For 8s window size and subject-specific approach, we report zero false positives and 100% sensitivity. These algorithms are parallelized and optimized for a parallel ultra-low power (PULP) platform, enabling 300h of continuous monitoring on a 300 mAh battery, in a wearable form factor and power budget. These results pave the way for the implementation of affordable, wearable, long-term epilepsy monitoring solutions with low false-positive rates and high sensitivity, meeting both patient and caregiver requirements.
翻訳日:2021-06-18 11:24:06 公開日:2021-06-17
# 生理学:人間と機械の視覚から物理予測を評価する

Physion: Evaluating Physical Prediction from Vision in Humans and Machines ( http://arxiv.org/abs/2106.08261v2 )

ライセンス: Link先を確認
Daniel M. Bear, Elias Wang, Damian Mrowca, Felix J. Binder, Hsiau-Yu Fish Tung, R.T. Pramod, Cameron Holdaway, Sirui Tao, Kevin Smith, Fan-Yun Sun, Li Fei-Fei, Nancy Kanwisher, Joshua B. Tenenbaum, Daniel L.K. Yamins, Judith E. Fan(参考訳) 機械学習アルゴリズムは、多くの難易度の高いビジュアルタスクに優れているが、現実世界の物理イベントの共通点を予測できるかどうかは不明だ。 本稿では,この性能を正確に測定する視覚的および物理的予測ベンチマークを提案する。 剛体とソフトボディの衝突、安定したマルチオブジェクト構成、ローリングとスライディング、投射運動など、さまざまな物理現象を現実的にシミュレートする私たちのデータセットは、既存のベンチマークよりも包括的な課題を提示しています。 さらに,人間の判断とモデル予測を直接比較できるように,刺激に対する人間の反応を収集した。 アーキテクチャや学習目標,入力出力構造,トレーニングデータなど,さまざまな物理予測を行うアルゴリズムの配列を比較した。 物理状態にアクセス可能なグラフニューラルネットワークが人間の行動を最もよく捉えているのに対して、視覚的な入力のみを受け取るモデルでは、オブジェクト中心の表現や事前学習が最善であるが、人間の正確性には程遠い。 これは、シーンの物理的に意味のある表現を抽出することが、人間のような視覚的予測を達成するための主要なボトルネックであることを示している。 したがって、この物理理解の重要な側面において、我々のベンチマークが改善の領域を特定し、進捗を測定する方法を実証する。

While machine learning algorithms excel at many challenging visual tasks, it is unclear that they can make predictions about commonplace real world physical events. Here, we present a visual and physical prediction benchmark that precisely measures this capability. In realistically simulating a wide variety of physical phenomena -- rigid and soft-body collisions, stable multi-object configurations, rolling and sliding, projectile motion -- our dataset presents a more comprehensive challenge than existing benchmarks. Moreover, we have collected human responses for our stimuli so that model predictions can be directly compared to human judgments. We compare an array of algorithms -- varying in their architecture, learning objective, input-output structure, and training data -- on their ability to make diverse physical predictions. We find that graph neural networks with access to the physical state best capture human behavior, whereas among models that receive only visual input, those with object-centric representations or pretraining do best but fall far short of human accuracy. This suggests that extracting physically meaningful representations of scenes is the main bottleneck to achieving human-like visual prediction. We thus demonstrate how our benchmark can identify areas for improvement and measure progress on this key aspect of physical understanding.
翻訳日:2021-06-18 11:23:49 公開日:2021-06-17
# 合成地震画像データセットにおける塩類セマンティックセグメンテーションのためのデータ拡張サンプルの生成

Generating Data Augmentation samples for Semantic Segmentation of Salt Bodies in a Synthetic Seismic Image Dataset ( http://arxiv.org/abs/2106.08269v2 )

ライセンス: Link先を確認
Luis Felipe Henriques, S\'ergio Colcher, Ruy Luiz Milidi\'u, Andr\'e Bulc\~ao, Pablo Barros(参考訳) 今日では、塩類のセマンティックセグメンテーション(セマンティックセグメンテーション)とも呼ばれ、地球物理学の最も困難な課題となっている。 したがって、大きな塩分を識別することは難しいことで知られており、炭化水素貯水池の特定や掘削経路の計画に不可欠である。 本研究では,2つの生成モデルを訓練し,ソルト体のセグメンテーションのための地震画像データセットにおけるサンプル数を増加させるデータ拡張法を提案する。 提案手法では, 深層学習モデルを用いて, データ拡張のための2組の地震画像パッチと各ソルトマスクを生成する。 最初のモデルは変分オートエンコーダで、ソルトボディマスクのパッチを生成する。 2つ目は条件正規化フローモデルであり、生成したマスクを入力として受信し、関連する地震画像パッチを生成する。 提案手法は, 2つの合成地震画像から得られたデータセットを用いて, セマンティックセグメンテーションのための10種類の最先端モデルの性能を比較して評価する。 提案手法では, 比較モデル全体のIoU平均値が8.57%向上した。 最善の結果はdeeplabv3+モデルで、トレーニング時にiouスコア95.17%を示します。 さらに, 提案手法は6つのデータ拡張法より優れており, 弾性変換によるDAの構成により, 比較において最も重要な9.77%の改善が達成された。 最後に,提案手法は,より小さなコンテキストサイズで得られた結果に匹敵する結果を得ることにより,より広いコンテキストサイズに適応できることを示す。

Nowadays, subsurface salt body localization and delineation, also called semantic segmentation of salt bodies, are among the most challenging geophysicist tasks. Thus, identifying large salt bodies is notoriously tricky and is crucial for identifying hydrocarbon reservoirs and drill path planning. This work proposes a Data Augmentation method based on training two generative models to augment the number of samples in a seismic image dataset for the semantic segmentation of salt bodies. Our method uses deep learning models to generate pairs of seismic image patches and their respective salt masks for the Data Augmentation. The first model is a Variational Autoencoder and is responsible for generating patches of salt body masks. The second is a Conditional Normalizing Flow model, which receives the generated masks as inputs and generates the associated seismic image patches. We evaluate the proposed method by comparing the performance of ten distinct state-of-the-art models for semantic segmentation, trained with and without the generated augmentations, in a dataset from two synthetic seismic images. The proposed methodology yields an average improvement of 8.57% in the IoU metric across all compared models. The best result is achieved by a DeeplabV3+ model variant, which presents an IoU score of 95.17% when trained with our augmentations. Additionally, our proposal outperformed six selected data augmentation methods, and the most significant improvement in the comparison, of 9.77%, is achieved by composing our DA with augmentations from an elastic transformation. At last, we show that the proposed method is adaptable for a larger context size by achieving results comparable to the obtained on the smaller context size.
翻訳日:2021-06-18 11:23:27 公開日:2021-06-17
# 超関係知識グラフ上のクエリ埋め込み

Query Embedding on Hyper-relational Knowledge Graphs ( http://arxiv.org/abs/2106.08166v2 )

ライセンス: Link先を確認
Dimitrios Alivanistos and Max Berrendorf and Michael Cochez and Mikhail Galkin(参考訳) マルチホップ論理推論は知識グラフ(KG)における表現学習の分野で確立された問題である。 これは、ワンホップリンク予測と、他のより複雑な論理クエリの両方を仮定する。 既存のアルゴリズムは古典的な三重項グラフのみで動作するが、現代のkgはハイパーリレーショナルモデリングパラダイムを採用していることが多い。 このパラダイムでは、型付きエッジは、事実に対してきめ細かいコンテキストを提供する修飾子として知られるいくつかのキー-値対を持つ。 クエリでは、このコンテキストは関係の意味を修飾し、通常、応答集合を減少させる。 ハイパーリレーショナルクエリは実世界のkgアプリケーションでしばしば観察されるが、既存の近似クエリ応答のアプローチでは修飾子ペアは使用できない。 本研究では,このギャップを埋めてマルチホップ推論問題をハイパーリレーショナルなKGに拡張し,新しいタイプの複雑なクエリに対処する。 グラフニューラルネットワークの最近の進歩とクエリ埋め込み技術に基づき,ハイパーリレーショナルな結合クエリの埋め込みと応答方法について検討する。 さらに,このような問合せに応答する手法を提案するとともに,各問合せパターンの多様さに対して,問合せ応答を改善する方法を提案する。

Multi-hop logical reasoning is an established problem in the field of representation learning on knowledge graphs (KGs). It subsumes both one-hop link prediction as well as other more complex types of logical queries. Existing algorithms operate only on classical, triple-based graphs, whereas modern KGs often employ a hyper-relational modeling paradigm. In this paradigm, typed edges may have several key-value pairs known as qualifiers that provide fine-grained context for facts. In queries, this context modifies the meaning of relations, and usually reduces the answer set. Hyper-relational queries are often observed in real-world KG applications, and existing approaches for approximate query answering cannot make use of qualifier pairs. In this work, we bridge this gap and extend the multi-hop reasoning problem to hyper-relational KGs allowing to tackle this new type of complex queries. Building upon recent advancements in Graph Neural Networks and query embedding techniques, we study how to embed and answer hyper-relational conjunctive queries. Besides that, we propose a method to answer such queries and demonstrate in our experiments that qualifiers improve query answering on a diverse set of query patterns.
翻訳日:2021-06-18 11:22:58 公開日:2021-06-17
# 根底真理の少ない作物収量の予測:シーズン内予測のための簡易統計モデル

Predicting crop yields with little ground truth: A simple statistical model for in-season forecasting ( http://arxiv.org/abs/2106.08720v2 )

ライセンス: Link先を確認
Nemo Semret(参考訳) 我々は,サブナショナルな「地下真理」情報が存在する場所で機能するように設計された,シーズン内収量予測の完全自動化モデルを提案する。 我々のアプローチは主に衛星データに依存しており、簡単な回帰モデルと組み合わせた注意深い特徴工学が特徴である。 そのため、世界中のほぼどこでも使える。 10種(トウモロコシ、小麦、ソルガム、大麦、ミレットの5穀類、エチオピア、ケニアの2か国)に適用すると、毎年9ヶ月の予測では5\%-10\%、年間3ヶ月の予測では7\%-14\%のRMSEが得られる。 モデルは、今年の最終利回りの日次予測を出力します。 各収穫国ごとに約400万のデータポイントを使用してトレーニングされる。 これらは、歴史的国レベルの年収、収穫の暦、作物の被覆、NDVI、温度、降雨、蒸発散である。

We present a fully automated model for in-season crop yield prediction, designed to work where there is a dearth of sub-national "ground truth" information. Our approach relies primarily on satellite data and is characterized by careful feature engineering combined with a simple regression model. As such, it can work almost anywhere in the world. Applying it to 10 different crop-country pairs (5 cereals -- corn, wheat, sorghum, barley and millet, in 2 countries -- Ethiopia and Kenya), we achieve RMSEs of 5\%-10\% for predictions 9 months into the year, and 7\%-14\% for predictions 3 months into the year. The model outputs daily forecasts for the final yield of the current year. It is trained using approximately 4 million data points for each crop-country pair. These consist of: historical country-level annual yields, crop calendars, crop cover, NDVI, temperature, rainfall, and evapotransporation.
翻訳日:2021-06-18 11:22:41 公開日:2021-06-17
# 神経機能近似を用いたベルマン残差誤差の解析と最適化

Analysis and Optimisation of Bellman Residual Errors with Neural Function Approximation ( http://arxiv.org/abs/2106.08774v2 )

ライセンス: Link先を確認
Martin Gottwald (1), Sven Gronauer (1), Hao Shen (2), Klaus Diepold (1) ((1) Technical University of Munich, (2) fortiss)(参考訳) 近年のDeep Reinforcement Learningは,大規模あるいは連続的な状態空間での課題解決において,ニューラルネットワークの優れた性能を示した。 特定のアプローチの一つは、平均二乗ベルマン誤差関数を最小化することで近似値関数にニューラルネットワークを展開することである。 ディープ強化学習の大きな成功にもかかわらず、ベルマン誤差を最小限に抑える信頼性と効率のよい数値アルゴリズムの開発は、いまだに科学的な関心と実践的な要求を伴っている。 このような課題は、基礎となる最適化問題が非常に非凸であるか、あるいはセミグラディエントアルゴリズムでなされる誤った勾配情報を使用するためである。 本研究では,スムーズな最適化の観点から平均正方形ベルマン誤差と残留勾配の定式化を併用して解析する。 私たちの貢献は2倍です。 まず、誤差関数の臨界点を分析し、ニューラルネットワークの最適化手続きと設計選択に関する技術的な洞察を提供する。 大域的ミニマの存在を仮定し、目的が一定の条件を満たすと、オーバーパラメトリドニューラルネットワークを使用する場合、最適な局所最小マを排除できる。 この解析に基づいて効率的な近似ニュートンアルゴリズムを構築し、局所的に極小に収束するなど、このアルゴリズムの理論的性質を確認することができる。 第2に,連続制御問題を用いた経験的アルゴリズムの実現可能性と一般化能力を示し,臨界点解析の数値検証を行う。 セミグラディエントの短所について概説する。 ニュートンの近似アルゴリズムの恩恵を受けるためには、訓練中に平均二乗ベルマン誤差の完全な微分を考える必要がある。

Recent development of Deep Reinforcement Learning has demonstrated superior performance of neural networks in solving challenging problems with large or even continuous state spaces. One specific approach is to deploy neural networks to approximate value functions by minimising the Mean Squared Bellman Error function. Despite great successes of Deep Reinforcement Learning, development of reliable and efficient numerical algorithms to minimise the Bellman Error is still of great scientific interest and practical demand. Such a challenge is partially due to the underlying optimisation problem being highly non-convex or using incorrect gradient information as done in Semi-Gradient algorithms. In this work, we analyse the Mean Squared Bellman Error from a smooth optimisation perspective combined with a Residual Gradient formulation. Our contribution is two-fold. First, we analyse critical points of the error function and provide technical insights on the optimisation procure and design choices for neural networks. When the existence of global minima is assumed and the objective fulfils certain conditions we can eliminate suboptimal local minima when using over-parametrised neural networks. We can construct an efficient Approximate Newton's algorithm based on our analysis and confirm theoretical properties of this algorithm such as being locally quadratically convergent to a global minimum numerically. Second, we demonstrate feasibility and generalisation capabilities of the proposed algorithm empirically using continuous control problems and provide a numerical verification of our critical point analysis. We outline the short coming of Semi-Gradients. To benefit from an approximate Newton's algorithm complete derivatives of the Mean Squared Bellman error must be considered during training.
翻訳日:2021-06-18 11:22:22 公開日:2021-06-17