このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200412となっている論文です。

PDF登録状況(公開日: 20200412)

TitleAuthorsAbstract論文公表日・翻訳日
# nas-bench-1shot1: ベンチマークと1ショットニューラルネットワーク検索

NAS-Bench-1Shot1: Benchmarking and Dissecting One-shot Neural Architecture Search ( http://arxiv.org/abs/2001.10422v2 )

ライセンス: Link先を確認
Arber Zela, Julien Siems, Frank Hutter(参考訳) ワンショットニューラルアーキテクチャサーチ(NAS)は、NASメソッドを実際に計算可能とする上で重要な役割を担っている。 それでも、これらのウェイトシェアリングアルゴリズムがどのように機能するかは、プロセスのダイナミクスを制御する多くの要因のため、まだ理解されていない。 これらのコンポーネントの科学的研究を可能にするために,最近導入された多くの変種にインスタンス化可能なワンショットNASの汎用フレームワークを導入し,ワンショットNAS手法を安価に評価するために,最近の大規模タブラベンチマークNAS-Bench-101に基づく一般的なベンチマークフレームワークを導入する。 このフレームワークをデモするために、いくつかの最先端のワンショットNAS法を比較し、ハイパーパラメータに対する感度と、ハイパーパラメータのチューニングによる改善方法について検討し、NAS-Bench-101のブラックボックスオプティマイザと比較した。

One-shot neural architecture search (NAS) has played a crucial role in making NAS methods computationally feasible in practice. Nevertheless, there is still a lack of understanding on how these weight-sharing algorithms exactly work due to the many factors controlling the dynamics of the process. In order to allow a scientific study of these components, we introduce a general framework for one-shot NAS that can be instantiated to many recently-introduced variants and introduce a general benchmarking framework that draws on the recent large-scale tabular benchmark NAS-Bench-101 for cheap anytime evaluations of one-shot NAS methods. To showcase the framework, we compare several state-of-the-art one-shot NAS methods, examine how sensitive they are to their hyperparameters and how they can be improved by tuning their hyperparameters, and compare their performance to that of blackbox optimizers for NAS-Bench-101.
翻訳日:2023-01-06 01:58:35 公開日:2020-04-12
# 長期データに基づく深層表現学習:学習可能な埋め込み強化の視点

Deep Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation Perspective ( http://arxiv.org/abs/2002.10826v3 )

ライセンス: Link先を確認
Jialun Liu, Yifan Sun, Chuchu Han, Zhaopeng Dou, Wenhui Li(参考訳) 本稿では,ロングテールデータから深い特徴を学ぶことを検討する。 深い特徴空間において、ヘッドクラスとテールクラスは異なる分布パターンを示すことを観察する。 ヘッドクラスは比較的大きな空間スパンを持ち、テールクラスはクラス内の多様性が欠如しているため、空間スパンがかなり小さい。 この頭と尾の間の不均一な分布は全体の特徴空間を歪め、学習した特徴の識別能力を損なう。 直感的には、特徴空間の歪みを軽減するために、ヘッドクラスから移動することで、テールクラスの分布を拡大することを模索する。 この目的のために、各機能を"機能クラウド"に構築することを提案する。 サンプルがtailクラスに属する場合、その多様性の欠如に対して、対応するfeature cloudは比較的大きな分散範囲を持つことになる。 テールサンプルは、他のクラスから遠方へサンプルをプッシュし、テールクラスのクラス内多様性を回復することができる。 本手法の有効性を確認した人物再同定と顔認識タスクに関する広範囲な評価を行った。

This paper considers learning deep features from long-tailed data. We observe that in the deep feature space, the head classes and the tail classes present different distribution patterns. The head classes have a relatively large spatial span, while the tail classes have significantly small spatial span, due to the lack of intra-class diversity. This uneven distribution between head and tail classes distorts the overall feature space, which compromises the discriminative ability of the learned features. Intuitively, we seek to expand the distribution of the tail classes by transferring from the head classes, so as to alleviate the distortion of the feature space. To this end, we propose to construct each feature into a "feature cloud". If a sample belongs to a tail class, the corresponding feature cloud will have relatively large distribution range, in compensation to its lack of diversity. It allows each tail sample to push the samples from other classes far away, recovering the intra-class diversity of tail classes. Extensive experimental evaluations on person re-identification and face recognition tasks confirm the effectiveness of our method.
翻訳日:2022-12-28 21:45:45 公開日:2020-04-12
# 非中心対称結晶材料の機械学習による予測

Machine Learning based prediction of noncentrosymmetric crystal materials ( http://arxiv.org/abs/2002.11295v2 )

ライセンス: Link先を確認
Yuqi Song, Joseph Lindsay, Yong Zhao, Alireza Nasiri, Steph-Yves Louis, Jie Ling, Ming Hu, Jianjun Hu(参考訳) 非中心対称材料は、レーザー技術、通信システム、量子コンピューティング、サイバーセキュリティなど、多くの重要な応用において重要な役割を果たす。 しかし、新しい非中心対称材料の実験的発見は極めて困難である。 ここでは、ポテンシャル結晶構造の組成が中心対称であるか否かを予測できる機械学習モデルを提案する。 異なる機械学習アルゴリズムを結合したmatminer featurizerパッケージを用いて計算された多種多様な構成特徴を評価した結果、ランダムフォレスト分類器は非中心対称な材料予測に最適な性能を与え、材料プロジェクトから抽出したサンプル82,506でデータセット上で10倍のクロスバリデーションで評価すると、84.8%の精度に達することがわかった。 3つの要素しか持たない材料で訓練されたランダム森林モデルは86.9%の精度を持つ。 MLモデルを用いて, 逆設計エンジンが生成する2000,000個の仮説材料から, 潜在非セントロ対称材料をスクリーニングし, 上位20個の候補非セントロ対称材料に2~4個の要素と上位20個のボレート候補を報告する。

Noncentrosymmetric materials play a critical role in many important applications such as laser technology, communication systems,quantum computing, cybersecurity, and etc. However, the experimental discovery of new noncentrosymmetric materials is extremely difficult. Here we present a machine learning model that could predict whether the composition of a potential crystalline structure would be centrosymmetric or not. By evaluating a diverse set of composition features calculated using matminer featurizer package coupled with different machine learning algorithms, we find that Random Forest Classifiers give the best performance for noncentrosymmetric material prediction, reaching an accuracy of 84.8% when evaluated with 10 fold cross-validation on the dataset with 82,506 samples extracted from Materials Project. A random forest model trained with materials with only 3 elements gives even higher accuracy of 86.9%. We apply our ML model to screen potential noncentrosymmetric materials from 2,000,000 hypothetical materials generated by our inverse design engine and report the top 20 candidate noncentrosymmetric materials with 2 to 4 elements and top 20 borate candidates
翻訳日:2022-12-28 15:45:25 公開日:2020-04-12
# fpga実装によるニューロモルフィックなproto-objectベース動的視覚塩分モデル

A Neuromorphic Proto-Object Based Dynamic Visual Saliency Model with an FPGA Implementation ( http://arxiv.org/abs/2002.11898v3 )

ライセンス: Link先を確認
Jamal Lottier Molin, Chetan Singh Thakur, Ralph Etienne-Cummings, Ernst Niebur(参考訳) 視覚シーンの健全な領域に出席する能力は、ハイレベルな視覚タスク(オブジェクトの検出、追跡、分類など)を実行する生物学的および工学的なシステムにおいて、生まれつきかつ必要な前処理ステップである。 計算効率は、処理帯域幅と速度に関して、視覚刺激の正常な領域に計算資源を割り当てることによって改善される。 本稿では,まず,プロトオブジェクトの概念に基づく神経形態的ボトムアップ動的視覚塩分モデルを提案する。 これは視覚刺激の時間的特性をモデルに組み込むことによって実現され、人間の視覚系の初期段階が時間的情報を抽出する方法と同様である。 このニューロモルフィックモデルは、眼球追跡データを含む一般的なビデオデータセット上での人間の眼の固定を予測する際に、最先端の動的視覚塩分モデルを上回る。 第二に、このモデルが実用的な応用を行うためには、低消費電力、小型、軽量の制約下でリアルタイムに計算を行う能力が必要である。 そこで我々は,Opal Kelly 7350 Kintex-7ボード上で,フィールドプログラマブルゲートアレイによるモデル実装を提案する。 この新しいハードウェア実装により、100MHzのクロックで動作する毎秒最大23.35フレームの処理が可能となり、ソフトウェア実装の26倍の高速化を実現した。

The ability to attend to salient regions of a visual scene is an innate and necessary preprocessing step for both biological and engineered systems performing high-level visual tasks (e.g. object detection, tracking, and classification). Computational efficiency, in regard to processing bandwidth and speed, is improved by only devoting computational resources to salient regions of the visual stimuli. In this paper, we first present a neuromorphic, bottom-up, dynamic visual saliency model based on the notion of proto-objects. This is achieved by incorporating the temporal characteristics of the visual stimulus into the model, similarly to the manner in which early stages of the human visual system extracts temporal information. This neuromorphic model outperforms state-of-the-art dynamic visual saliency models in predicting human eye fixations on a commonly used video dataset with associated eye tracking data. Secondly, for this model to have practical applications, it must be capable of performing its computations in real-time under low-power, small-size, and lightweight constraints. To address this, we introduce a Field-Programmable Gate Array implementation of the model on an Opal Kelly 7350 Kintex-7 board. This novel hardware implementation allows for processing of up to 23.35 frames per second running on a 100 MHz clock - better than 26x speedup from the software implementation.
翻訳日:2022-12-28 07:30:09 公開日:2020-04-12
# 適応潜在空間サンプリングによる効率的な深層表現学習

Efficient Deep Representation Learning by Adaptive Latent Space Sampling ( http://arxiv.org/abs/2004.02757v2 )

ライセンス: Link先を確認
Yuanhan Mo and Shuo Wang and Chengliang Dai and Rui Zhou and Zhongzhao Teng and Wenjia Bai and Yike Guo(参考訳) 教師付きディープラーニングでは,大量のトレーニングサンプルとアノテーション(分類タスク用のラベルクラス,セグメンテーションタスク用のピクセル単位あるいはボクセル単位のラベルマップなど)が必要になります。 ディープニューラルネットワークのトレーニング中、注釈付きサンプルはミニバッチ方式でネットワークに供給され、それらは等しく重要視されることが多い。 しかし、これらのサンプルの勾配の大きさがなくなり始めると、サンプルのいくつかは、訓練中に情報が少なくなる可能性がある。 一方、より高い実用性や硬さのサンプルは、トレーニングプロセスを進め、より多くの搾取を必要とするように要求される。 本稿では,高価なアノテーションの課題とサンプルインフォメーションの喪失に対処するために,トレーニングプロセスに供給される情報サンプルを適応的に選択する新しいトレーニングフレームワークを提案する。 生成モデルにより構築された潜伏空間における硬度認識戦略に基づいて適応選択またはサンプリングを行う。 提案手法を評価するために,画像分類タスクにmnistとcifar-10,生物物理シミュレーションタスクに医用画像データセットivusの3つの異なるデータセットについて実験を行った。 これら3つのデータセットにおいて,提案手法はランダムサンプリング法より優れ,提案手法の有効性を示す。

Supervised deep learning requires a large amount of training samples with annotations (e.g. label class for classification task, pixel- or voxel-wised label map for segmentation tasks), which are expensive and time-consuming to obtain. During the training of a deep neural network, the annotated samples are fed into the network in a mini-batch way, where they are often regarded of equal importance. However, some of the samples may become less informative during training, as the magnitude of the gradient start to vanish for these samples. In the meantime, other samples of higher utility or hardness may be more demanded for the training process to proceed and require more exploitation. To address the challenges of expensive annotations and loss of sample informativeness, here we propose a novel training framework which adaptively selects informative samples that are fed to the training process. The adaptive selection or sampling is performed based on a hardness-aware strategy in the latent space constructed by a generative model. To evaluate the proposed training framework, we perform experiments on three different datasets, including MNIST and CIFAR-10 for image classification task and a medical image dataset IVUS for biophysical simulation task. On all three datasets, the proposed framework outperforms a random sampling method, which demonstrates the effectiveness of proposed framework.
翻訳日:2022-12-22 03:41:33 公開日:2020-04-12
# NNV:ディープラーニングと学習可能なサイバー物理システムのためのニューラルネットワーク検証ツール

NNV: The Neural Network Verification Tool for Deep Neural Networks and Learning-Enabled Cyber-Physical Systems ( http://arxiv.org/abs/2004.05519v1 )

ライセンス: Link先を確認
Hoang-Dung Tran, Xiaodong Yang, Diego Manzanas Lopez, Patrick Musau, Luan Viet Nguyen, Weiming Xiang, Stanley Bak and Taylor T. Johnson(参考訳) 本稿では、ディープニューラルネットワーク(DNN)と学習可能なサイバー物理システム(CPS)のためのセットベースの検証フレームワークであるNNVソフトウェアツールを提案する。 NNVのクルックスは、ポリヘドラ、スターセット、ゾノトープ、抽象ドメイン表現などの様々な集合表現を利用する到達性アルゴリズムの集合である。 NNVは、様々なアクティベーション機能を持つフィードフォワードニューラルネットワーク(FFNN)の安全性と堅牢性を検証するための、正確な(音と完全)および過近似(音)到達性アルゴリズムの両方をサポートしている。 ニューラルネットワークを組み込んだクローズドループ制御システムのような学習可能なcpsでは、nnvはリニアプラントモデルやrelusのような分割線形アクティベーション関数を持つffnnコントローラの到達可能性分析スキームを提供する。 代わりに非線形植物モデルを持つ類似のニューラルネットワーク制御システム(NNCS)では、FFNNコントローラで使用されるスターセット分析と、CORA上に構築された非線形植物力学のためのゾノトープに基づく解析を組み合わせることで、NNVは超近似解析をサポートする。 本稿では,ATS Xuネットワークの安全性検証と,深層学習に基づく適応型クルーズ制御システムの安全性検証の2つの実世界のケーススタディを用いてNNVを評価する。

This paper presents the Neural Network Verification (NNV) software tool, a set-based verification framework for deep neural networks (DNNs) and learning-enabled cyber-physical systems (CPS). The crux of NNV is a collection of reachability algorithms that make use of a variety of set representations, such as polyhedra, star sets, zonotopes, and abstract-domain representations. NNV supports both exact (sound and complete) and over-approximate (sound) reachability algorithms for verifying safety and robustness properties of feed-forward neural networks (FFNNs) with various activation functions. For learning-enabled CPS, such as closed-loop control systems incorporating neural networks, NNV provides exact and over-approximate reachability analysis schemes for linear plant models and FFNN controllers with piecewise-linear activation functions, such as ReLUs. For similar neural network control systems (NNCS) that instead have nonlinear plant models, NNV supports over-approximate analysis by combining the star set analysis used for FFNN controllers with zonotope-based analysis for nonlinear plant dynamics building on CORA. We evaluate NNV using two real-world case studies: the first is safety verification of ACAS Xu networks and the second deals with the safety verification of a deep learning-based adaptive cruise control system.
翻訳日:2022-12-14 05:44:47 公開日:2020-04-12
# 超球弦長分布による空間均一度の測定

Measuring spatial uniformity with the hypersphere chord length distribution ( http://arxiv.org/abs/2004.05692v1 )

ライセンス: Link先を確認
Panagiotis Sidiropoulos(参考訳) データ均一性(data uniformity)は、特徴の欠如、相関、サンプルバイアスなど、いくつかの意味的データ特性に関連する概念である。 本稿では,高次元ユークリッド空間におけるデータ均一性の評価と一様点検出のための新しい尺度を提案する。 空間的均一度尺度は超球面コードとユークリッド距離L2-正規化データの間の同型性に基づいており、これはユークリッド空間において、L2-正規化データは超球面上の点として幾何学的に定義できるという事実によって示唆される。 均一性を評価するために、一様選択点の距離分布と超球面コード長分布との強制接続を用いる。 より具体的には、超球面コード長分布の閉形式表現が再検討され、データ均一性と比較的簡単に結びつくことのできる、この分布の質的で定量的な特性がいくつか調べられる。 実験セクションには、4つの異なる設定での検証が含まれており、実用的なデータサイエンス応用における新しい均一性尺度の可能性を実証している。

Data uniformity is a concept associated with several semantic data characteristics such as lack of features, correlation and sample bias. This article introduces a novel measure to assess data uniformity and detect uniform pointsets on high-dimensional Euclidean spaces. Spatial uniformity measure builds upon the isomorphism between hyperspherical chords and L2-normalised data Euclidean distances, which is implied by the fact that, in Euclidean spaces, L2-normalised data can be geometrically defined as points on a hypersphere. The imposed connection between the distance distribution of uniformly selected points and the hyperspherical chord length distribution is employed to quantify uniformity. More specifically,, the closed-form expression of hypersphere chord length distribution is revisited extended, before examining a few qualitative and quantitative characteristics of this distribution that can be rather straightforwardly linked to data uniformity. The experimental section includes validation in four distinct setups, thus substantiating the potential of the new uniformity measure on practical data-science applications.
翻訳日:2022-12-14 05:44:21 公開日:2020-04-12
# MLCVNet:3Dオブジェクト検出のためのマルチレベルコンテキスト投票ネット

MLCVNet: Multi-Level Context VoteNet for 3D Object Detection ( http://arxiv.org/abs/2004.05679v1 )

ライセンス: Link先を確認
Qian Xie, Yu-Kun Lai, Jing Wu, Zhoutao Wang, Yiming Zhang, Kai Xu, Jun Wang(参考訳) 本稿では,マルチスケール特徴融合とセルフアテンション機構を用いて,多レベル文脈情報を取り込むことにより,3次元物体検出課題を解決する。 既存の3dオブジェクト検出手法のほとんどは、オブジェクト間のコンテキスト情報を考慮せずに、オブジェクトを個別に認識する。 本稿では,最先端のVoteNet上に構築された3次元オブジェクトを相関的に認識するためのMLCVNetを提案する。 我々は3つのコンテキストモジュールを投票の段階と分類段階に導入し,異なるレベルのコンテキスト情報をエンコードする。 具体的には、Patch-to-Patch Context(PPC)モジュールを使用して、対応するオブジェクトセントロイドポイントに対して投票する前に、ポイントパッチ間のコンテキスト情報をキャプチャする。 その後、提案と分類段階の前にオブジェクト間コンテキスト(ooc)モジュールが組み込まれ、オブジェクト候補間のコンテキスト情報をキャプチャする。 最後に、グローバルシーンコンテキスト(gsc)モジュールは、グローバルシーンコンテキストを学ぶように設計されている。 パッチやオブジェクト,シーンレベルでコンテキスト情報をキャプチャすることで,これらを実証する。 本手法は,SUN RGBD と ScanNet の3次元オブジェクト検出データセットに対して,検出精度の向上と,新しい最先端検出性能の実現に有効である。 また、コードはhttps://github.com/nuaaxq/mlcvnetでリリースしています。

In this paper, we address the 3D object detection task by capturing multi-level contextual information with the self-attention mechanism and multi-scale feature fusion. Most existing 3D object detection methods recognize objects individually, without giving any consideration on contextual information between these objects. Comparatively, we propose Multi-Level Context VoteNet (MLCVNet) to recognize 3D objects correlatively, building on the state-of-the-art VoteNet. We introduce three context modules into the voting and classifying stages of VoteNet to encode contextual information at different levels. Specifically, a Patch-to-Patch Context (PPC) module is employed to capture contextual information between the point patches, before voting for their corresponding object centroid points. Subsequently, an Object-to-Object Context (OOC) module is incorporated before the proposal and classification stage, to capture the contextual information between object candidates. Finally, a Global Scene Context (GSC) module is designed to learn the global scene context. We demonstrate these by capturing contextual information at patch, object and scene levels. Our method is an effective way to promote detection accuracy, achieving new state-of-the-art detection performance on challenging 3D object detection datasets, i.e., SUN RGBD and ScanNet. We also release our code at https://github.com/NUAAXQ/MLCVNet.
翻訳日:2022-12-14 05:42:27 公開日:2020-04-12
# 障害物をバイパスするか 上空を飛ぶか? 新規多目的UAV経路計画問題

Bypassing or flying above the obstacles? A novel multi-objective UAV path planning problem ( http://arxiv.org/abs/2004.08279v1 )

ライセンス: Link先を確認
Mahmoud Golabi, Soheila Ghambari, Julien Lepagnot, Laetitia Jourdan, Mathieu Brevilliers, Lhassane Idoumghar(参考訳) 本研究では,衝突のない離散ドローン経路計画問題に対する多目的整数計画モデルを提案する。 本研究は,障害物をバイパスしたり,上空を飛行する可能性を考慮して,経路長,エネルギー消費,最大経路リスクを同時に最小化することを目的とする。 静的環境は3Dグリッドセルとして表現される。 この問題のNP硬度の性質から、クロスオーバーと突然変異演算子をカスタマイズした最先端の進化的多目的最適化(EMO)アルゴリズムを適用し、非支配的な解の集合を求める。 その結果,複数の生成したテストケースの解法において,適用アルゴリズムの有効性が示された。

This study proposes a novel multi-objective integer programming model for a collision-free discrete drone path planning problem. Considering the possibility of bypassing obstacles or flying above them, this study aims to minimize the path length, energy consumption, and maximum path risk simultaneously. The static environment is represented as 3D grid cells. Due to the NP-hardness nature of the problem, several state-of-theart evolutionary multi-objective optimization (EMO) algorithms with customized crossover and mutation operators are applied to find a set of non-dominated solutions. The results show the effectiveness of applied algorithms in solving several generated test cases.
翻訳日:2022-12-14 05:42:04 公開日:2020-04-12
# 連続的利益最大化:制約のないDr-submodular Maximizationの研究

Continuous Profit Maximization: A Study of Unconstrained Dr-submodular Maximization ( http://arxiv.org/abs/2004.05549v1 )

ライセンス: Link先を確認
Jianxiong Guo, Weili Wu(参考訳) 利益の最大化(pm)は、オンラインソーシャルネットワークにおけるバイラルマーケティングの種としてユーザーのサブセットを選択することであり、コストと影響拡大による利益のバランスをとる。 我々はPMを一般的なマーケティング戦略の下で拡張し、整数格子上の領域である連続利益最大化(CPM-MS)問題を形成する。 CPM-MSの目的機能はDr-submodularであるが,非モノトンである。 本論文は,制約のないUDSM(Dr-submodular maximization)問題の典型例であり,その出発点として,既存の研究者とは大きく異なるUDSMを系統的に研究する。 まず, 定数近似保証が得られる格子型二重グリーディアルゴリズムを提案する。 しかし、厳密で非現実的な条件として、目的値の要求は全領域において非負であり、そうでなければ理論的な境界は存在しない。 そこで我々は格子型反復刈り法という手法を提案する。 探索空間を効果的に縮小することができ、近似比を損なうことなく、この小さい領域で非負の目的関数を満たす可能性を大きく高めることができる。 そこで我々は,CPM-MSの目的値の推定の難しさを克服するために,逆サンプリング戦略を採用し,その性能を損なうことなく,ランニングを含む格子ベースの二重グリージーと組み合わせる。 プロセス全体はUDSM問題を解決するための一般的なフレームワーク、特にソーシャルネットワークに適用するためのフレームワークとみなすことができる。 最後に,提案するアルゴリズムの有効性と効率を評価するために,実データを用いた実験を行った。

Profit maximization (PM) is to select a subset of users as seeds for viral marketing in online social networks, which balances between the cost and the profit from influence spread. We extend PM to that under the general marketing strategy, and form continuous profit maximization (CPM-MS) problem, whose domain is on integer lattices. The objective function of our CPM-MS is dr-submodular, but non-monotone. It is a typical case of unconstrained dr-submodular maximization (UDSM) problem, and take it as a starting point, we study UDSM systematically in this paper, which is very different from those existing researcher. First, we introduce the lattice-based double greedy algorithm, which can obtain a constant approximation guarantee. However, there is a strict and unrealistic condition that requiring the objective value is non-negative on the whole domain, or else no theoretical bounds. Thus, we propose a technique, called lattice-based iterative pruning. It can shrink the search space effectively, thereby greatly increasing the possibility of satisfying the non-negative objective function on this smaller domain without losing approximation ratio. Then, to overcome the difficulty to estimate the objective value of CPM-MS, we adopt reverse sampling strategies, and combine it with lattice-based double greedy, including pruning, without losing its performance but reducing its running time. The entire process can be considered as a general framework to solve the UDSM problem, especially for applying to social networks. Finally, we conduct experiments on several real datasets to evaluate the effectiveness and efficiency of our proposed algorithms.
翻訳日:2022-12-14 05:41:53 公開日:2020-04-12
# privedge: ローカルから分散したプライベートトレーニングと予測

PrivEdge: From Local to Distributed Private Training and Prediction ( http://arxiv.org/abs/2004.05574v1 )

ライセンス: Link先を確認
Ali Shahin Shamsabadi, Adria Gascon, Hamed Haddadi and Andrea Cavallaro(参考訳) 機械学習・アズ・ア・サービス(MLaaS)オペレータは、クラウド上でモデルトレーニングと予測を提供する。 MLaaSアプリケーションは、ユーザデータの集中的な収集と集約に依存することが多いため、機密性の高い個人情報を扱う際には、重大なプライバシー上の懸念が生じる可能性がある。 この問題に対処するために,トレーニング用にデータを提供するユーザのプライバシを保護するとともに,予測サービスを使用するユーザのプライバシ保護を行う,プライバシ保護型MLaaSのテクニックであるPrivEdgeを提案する。 PrivEdgeでは、各ユーザが独自にプライベートデータを使用して、トレーニングデータを簡潔に表現するワンクラスの再構成敵ネットワークをローカルにトレーニングする。 明確な方法でモデルパラメータをサービスプロバイダに送ると、プライベート情報が明らかになるため、PrivEdgeは2つの非凝固MLaaSプロバイダのパラメータを秘密に共有し、セキュアなマルチパーティ計算技術を通じて暗号化的にプライベートな予測サービスを提供する。 privedgeのメリットを定量化し,そのパフォーマンスを,プライバシに敏感な3つのイメージベースのタスク – 個人識別,ライタ識別,手書き文字認識 – において,最先端の集中型アーキテクチャと比較する。 実験の結果,プライバシの保護やプライベート画像と非プライベート画像の区別において,privedgeの精度とリコールが向上した。 さらに、画像圧縮とバイアス付きトレーニングデータに対するPrivEdgeの堅牢性を示す。 ソースコードはhttps://github.com/smartcameras/PrivEdgeで入手できる。

Machine Learning as a Service (MLaaS) operators provide model training and prediction on the cloud. MLaaS applications often rely on centralised collection and aggregation of user data, which could lead to significant privacy concerns when dealing with sensitive personal data. To address this problem, we propose PrivEdge, a technique for privacy-preserving MLaaS that safeguards the privacy of users who provide their data for training, as well as users who use the prediction service. With PrivEdge, each user independently uses their private data to locally train a one-class reconstructive adversarial network that succinctly represents their training data. As sending the model parameters to the service provider in the clear would reveal private information, PrivEdge secret-shares the parameters among two non-colluding MLaaS providers, to then provide cryptographically private prediction services through secure multi-party computation techniques. We quantify the benefits of PrivEdge and compare its performance with state-of-the-art centralised architectures on three privacy-sensitive image-based tasks: individual identification, writer identification, and handwritten letter recognition. Experimental results show that PrivEdge has high precision and recall in preserving privacy, as well as in distinguishing between private and non-private images. Moreover, we show the robustness of PrivEdge to image compression and biased training data. The source code is available at https://github.com/smartcameras/PrivEdge.
翻訳日:2022-12-14 05:41:25 公開日:2020-04-12
# 深部ニューラルネットワークを用いたベクトルセンサの位置推定の方向

Direction of Arrival Estimation for a Vector Sensor Using Deep Neural Networks ( http://arxiv.org/abs/2004.05671v1 )

ライセンス: Link先を確認
Jianyuan Yu, William W. Howard, Daniel Tait and R. Michael Buehrer(参考訳) 入射波のすべての電磁界成分を測定するための6つの共役アンテナを備えたセンサアレイであるベクトルセンサは、入射源の到着角度と偏極を推定する上で有利であることが示されている。 線形配列のための機械学習による角度推定はよく研究されているが、ベクトルセンサにも同様の解はない。 本稿では、受信したデータから抽出した共分散行列に基づいて、ソース数を決定し、各ソースの到着角度を推定するニューラルネットワークを提案する。 また、出力角度を対応するソースに一致させるソリューションを提供し、この方法を用いて誤差分布を調べる。 その結果、特に視野が限られている場合、ニューラルネットワークは最大5つのソースで合理的に正確な推定が可能であることがわかった。

A vector sensor, a type of sensor array with six collocated antennas to measure all electromagnetic field components of incident waves, has been shown to be advantageous in estimating the angle of arrival and polarization of the incident sources. While angle estimation with machine learning for linear arrays has been well studied, there has not been a similar solution for the vector sensor. In this paper, we propose neural networks to determine the number of the sources and estimate the angle of arrival of each source, based on the covariance matrix extracted from received data. Also, we provide a solution for matching output angles to corresponding sources and examine the error distributions with this method. The results show that neural networks can achieve reasonably accurate estimation with up to 5 sources, especially if the field-of-view is limited.
翻訳日:2022-12-14 05:40:43 公開日:2020-04-12
# 大規模リアルタイムパーソナライズした類似製品推薦

Large-scale Real-time Personalized Similar Product Recommendations ( http://arxiv.org/abs/2004.05716v1 )

ライセンス: Link先を確認
Zhi Liu, Yan Huang, Jing Gao, Li Chen, Dong Li(参考訳) 類似商品のレコメンデーションは、eコマースで最も一般的なシーンの1つだ。 項目間協調フィルタリングなど多くの推奨アルゴリズムが項目類似度の測定に取り組んでいる。 本稿では,製品類似性とリアルタイムユーザ興味をモデル化するリアルタイムパーソナライズアルゴリズムを提案する。 また,画像類似性に基づく手法,項目間協調フィルタリング,項目2vecなどのベースラインアルゴリズムを導入し,大規模実世界のeコマースデータセットで比較する。 オフラインで良い結果を得るアルゴリズムは、オンラインeコマースウェブサイトでもテストされている。 我々のパーソナライズした手法は、実世界のeコマースシナリオにおいて、アドカート番号を10%改善する。

Similar product recommendation is one of the most common scenes in e-commerce. Many recommendation algorithms such as item-to-item Collaborative Filtering are working on measuring item similarities. In this paper, we introduce our real-time personalized algorithm to model product similarity and real-time user interests. We also introduce several other baseline algorithms including an image-similarity-based method, item-to-item collaborative filtering, and item2vec, and compare them on our large-scale real-world e-commerce dataset. The algorithms which achieve good offline results are also tested on the online e-commerce website. Our personalized method achieves a 10% improvement on the add-cart number in the real-world e-commerce scenario.
翻訳日:2022-12-14 05:39:48 公開日:2020-04-12
# 外来画像翻訳のためのクロスドメイン対応学習

Cross-domain Correspondence Learning for Exemplar-based Image Translation ( http://arxiv.org/abs/2004.05571v1 )

ライセンス: Link先を確認
Pan Zhang, Bo Zhang, Dong Chen, Lu Yuan, Fang Wen(参考訳) 本稿では,特定の領域(意味セグメンテーションマスク,エッジマップ,ポーズキーポイントなど)の入力からフォトリアリスティックな画像を合成する,exemplarベースの画像翻訳のための汎用フレームワークを提案する。 出力は、exemplar内の意味的に対応するオブジェクトと一貫性のあるスタイル(例えば色、テクスチャ)を持つ。 そこで本研究では,両タスクが相互に支援しあうクロスドメイン対応と画像翻訳を共同で学習することを提案する。 異なる領域の画像は、まず、密度の高い対応を確立する中間領域に整列する。 そして、ネットワークは、exemplarにおける意味的に対応するパッチの出現に基づいて画像合成を行う。 いくつかの画像翻訳タスクにおいて,提案手法の有効性を示す。 本手法は画像品質の面で最先端の手法よりも優れており,画像スタイルはセマンティック一貫性に忠実である。 さらに,本手法の応用例を示す。

We present a general framework for exemplar-based image translation, which synthesizes a photo-realistic image from the input in a distinct domain (e.g., semantic segmentation mask, or edge map, or pose keypoints), given an exemplar image. The output has the style (e.g., color, texture) in consistency with the semantically corresponding objects in the exemplar. We propose to jointly learn the crossdomain correspondence and the image translation, where both tasks facilitate each other and thus can be learned with weak supervision. The images from distinct domains are first aligned to an intermediate domain where dense correspondence is established. Then, the network synthesizes images based on the appearance of semantically corresponding patches in the exemplar. We demonstrate the effectiveness of our approach in several image translation tasks. Our method is superior to state-of-the-art methods in terms of image quality significantly, with the image style faithful to the exemplar with semantic consistency. Moreover, we show the utility of our method for several applications
翻訳日:2022-12-14 05:39:16 公開日:2020-04-12
# 共セグメンテーションによる画像コケレトニゼーション

Image Co-skeletonization via Co-segmentation ( http://arxiv.org/abs/2004.05575v1 )

ライセンス: Link先を確認
Koteswar Rao Jerripothula, Jianfei Cai, Jiangbo Lu, Junsong Yuan(参考訳) 近年,画像統合処理の進歩により,個々の処理に対する利点が明らかになっている。 本稿では,コセグメンテーションやコローカライズを目的とした既存の作品とは異なり,画像収集におけるオブジェクトのコネクティブスケルトン抽出として定義される画像コケレトニゼーションという,新たなジョイント処理トピックを探求する。 単一の自然画像におけるオブジェクトのスケルトン化は、オブジェクトに関する事前知識がほとんどないため、難しい問題である。 したがって、画像にまたがる共通性が、コセグメンテーションのような他のジョイント処理問題と同様に役立つことを期待して、オブジェクトのコケルトニゼーションの考え方に頼る。 スケルトンは、セグメント化に優れたクリブルを提供することができ、スケルトン化には、適切なセグメント化が必要であることが観察される。 そこで本稿では,協調作業と協調作業の結合フレームワークを提案する。 これは新しい問題であるため、38のカテゴリにまたがる1.8k近い画像を注釈付けしてベンチマークデータセットを構築する。 大規模実験により, 提案手法は, 弱制御, 教師なし, 教師なしの3つのシナリオにおいて, 有望な結果が得られることを示した。

Recent advances in the joint processing of images have certainly shown its advantages over individual processing. Different from the existing works geared towards co-segmentation or co-localization, in this paper, we explore a new joint processing topic: image co-skeletonization, which is defined as joint skeleton extraction of objects in an image collection. Object skeletonization in a single natural image is a challenging problem because there is hardly any prior knowledge about the object. Therefore, we resort to the idea of object co-skeletonization, hoping that the commonness prior that exists across the images may help, just as it does for other joint processing problems such as co-segmentation. We observe that the skeleton can provide good scribbles for segmentation, and skeletonization, in turn, needs good segmentation. Therefore, we propose a coupled framework for co-skeletonization and co-segmentation tasks so that they are well informed by each other, and benefit each other synergistically. Since it is a new problem, we also construct a benchmark dataset by annotating nearly 1.8k images spread across 38 categories. Extensive experiments demonstrate that the proposed method achieves promising results in all the three possible scenarios of joint-processing: weakly-supervised, supervised, and unsupervised.
翻訳日:2022-12-14 05:39:01 公開日:2020-04-12
# サイバー物理システム開発プロセスのためのワークフロー自動化

Workflow Automation for Cyber Physical System Development Processes ( http://arxiv.org/abs/2004.05654v1 )

ライセンス: Link先を確認
Charles Hartsell and Nagabhushan Mahadevan and Harmon Nine and Ted Bapty and Abhishek Dubey and Gabor Karsai(参考訳) サイバー物理システム(CPS)の開発は、パフォーマンスの向上、コスト削減、システムの自律性向上のために、多くの領域で専門知識を持つ開発者間の密接な相互作用を必要とする。 各エンジニアリング分野は一般的にドメイン固有のモデリング言語に依存しており、分析と実行は適切なツールで自動化されることが多い。 しかし、ヘテロジニアスモデルとツールの統合はしばしば欠如しており、これらのツールの相互運用の負担のほとんどはシステム開発者にある。 この問題を解決するために、複雑なCPS開発プロセスの自動化のためのワークフローモデリング言語を導入し、アシュアランスベースの学習対応CPSツールチェーンでこれらのモデルを実行するためのプラットフォームを実装した。 これらのワークフローモデルは、以前システム開発者が手動で実行した多くの時間を要する統合タスクを自動化することができることを示す、いくつかの例が提供されている。

Development of Cyber Physical Systems (CPSs) requires close interaction between developers with expertise in many domains to achieve ever-increasing demands for improved performance, reduced cost, and more system autonomy. Each engineering discipline commonly relies on domain-specific modeling languages, and analysis and execution of these models is often automated with appropriate tooling. However, integration between these heterogeneous models and tools is often lacking, and most of the burden for inter-operation of these tools is placed on system developers. To address this problem, we introduce a workflow modeling language for the automation of complex CPS development processes and implement a platform for execution of these models in the Assurance-based Learning-enabled CPS (ALC) Toolchain. Several illustrative examples are provided which show how these workflow models are able to automate many time-consuming integration tasks previously performed manually by system developers.
翻訳日:2022-12-14 05:31:48 公開日:2020-04-12
# 単眼視覚慣性オドメトリーにおけるオンライン初期化と時間-時空間キャリブレーション

Online Initialization and Extrinsic Spatial-Temporal Calibration for Monocular Visual-Inertial Odometry ( http://arxiv.org/abs/2004.05534v1 )

ライセンス: Link先を確認
Weibo Huang, Hong Liu, Weiwei Wan(参考訳) 本稿では,最適化に基づく単眼視覚慣性眼振(VIO)をブートストラップするオンライン初期化手法を提案する。 この方法は、カメラとimu間の相対変換(空間的)と時間オフセット(時間的)をオンラインに校正し、初期化段階でのメートル法スケール、速度、重力、ジャイロスコープバイアス、加速度計バイアスの初期値を推定することができる。 時間オフセットの影響を補償するために,カメラと imu ポーズ推定のための2つの短期動作補間アルゴリズムを含む。 さらに、粗いパラメータから細かいパラメータをインクリメンタルに見積もる3段階のプロセスも含まれている。 まず、カメラとIMUの回転差を最小化することにより、外因性回転、ジャイロバイアス、タイムオフセットを推定する。 第2に、補正カメラのポーズを用いて加速度計のバイアスを無視して、計量スケール、重力、外在翻訳を推定する。 第三に、これらの値は加速度計のバイアスと重力の大きさを考慮して洗練される。 システム状態のさらなる最適化のために、時間オフセットを考慮した非線形最適化アルゴリズムを導入し、大域的および局所的な最適化を行う。 公開データセットにおける実験結果から,初期値と外部パラメータ,およびセンサのポーズを,提案手法により正確に推定できることが示唆された。

This paper presents an online initialization method for bootstrapping the optimization-based monocular visual-inertial odometry (VIO). The method can online calibrate the relative transformation (spatial) and time offsets (temporal) among camera and IMU, as well as estimate the initial values of metric scale, velocity, gravity, gyroscope bias, and accelerometer bias during the initialization stage. To compensate for the impact of time offset, our method includes two short-term motion interpolation algorithms for the camera and IMU pose estimation. Besides, it includes a three-step process to incrementally estimate the parameters from coarse to fine. First, the extrinsic rotation, gyroscope bias, and time offset are estimated by minimizing the rotation difference between the camera and IMU. Second, the metric scale, gravity, and extrinsic translation are approximately estimated by using the compensated camera poses and ignoring the accelerometer bias. Third, these values are refined by taking into account the accelerometer bias and the gravitational magnitude. For further optimizing the system states, a nonlinear optimization algorithm, which considers the time offset, is introduced for global and local optimization. Experimental results on public datasets show that the initial values and the extrinsic parameters, as well as the sensor poses, can be accurately estimated by the proposed method.
翻訳日:2022-12-14 05:31:31 公開日:2020-04-12
# 特徴レンズ:変換不変な視覚表現のためのプラグアンドプレイニューラルモジュール

Feature Lenses: Plug-and-play Neural Modules for Transformation-Invariant Visual Representations ( http://arxiv.org/abs/2004.05554v1 )

ライセンス: Link先を確認
Shaohua Li, Xiuchao Sui, Jie Fu, Yong Liu, Rick Siow Mong Goh(参考訳) 畳み込みニューラルネットワーク(cnns)は、回転、スケーリング、照明条件の変化など様々な画像変換の下でも不安定であることが知られている。 変換された画像の特徴と元の画像の特徴とは大きく異なることが観察された。 cnnを変換にもっと不変にするために、我々は、訓練されたモデルに簡単にプラグインできるアドホックモジュールのセットである「機能レンズ」を提案している(「ホストモデル」と呼ばれる)。 個々のレンズは、特定の変換の下での変換画像の特徴を与えられた元の特徴を再構築する。 これらのレンズは様々な変換によって生じる特徴歪みと相反するので、ホストモデルは再トレーニングせずにより堅牢になる。 トレーニングデータに存在しない新しい変換に直面すると、ホストモデルは反復的な更新から解放される。特徴セマンティクスが保存されるため、分類器や検出器のような下流アプリケーションでは、再トレーニングせずに自動的に堅牢性が向上する。 レンズは、レンズ変換された特徴とオリジナル特徴の間の新しい「トップkアクティベーションコントラスト損失」を最小化することで、注釈なしで自己教師付きで訓練される。 ImageNet、MNIST-rot、CIFAR-10で評価された特徴レンズは、ベースライン法よりも明確な利点を示している。

Convolutional Neural Networks (CNNs) are known to be brittle under various image transformations, including rotations, scalings, and changes of lighting conditions. We observe that the features of a transformed image are drastically different from the ones of the original image. To make CNNs more invariant to transformations, we propose "Feature Lenses", a set of ad-hoc modules that can be easily plugged into a trained model (referred to as the "host model"). Each individual lens reconstructs the original features given the features of a transformed image under a particular transformation. These lenses jointly counteract feature distortions caused by various transformations, thus making the host model more robust without retraining. By only updating lenses, the host model is freed from iterative updating when facing new transformations absent in the training data; as feature semantics are preserved, downstream applications, such as classifiers and detectors, automatically gain robustness without retraining. Lenses are trained in a self-supervised fashion with no annotations, by minimizing a novel "Top-K Activation Contrast Loss" between lens-transformed features and original features. Evaluated on ImageNet, MNIST-rot, and CIFAR-10, Feature Lenses show clear advantages over baseline methods.
翻訳日:2022-12-14 05:31:08 公開日:2020-04-12
# 弱体化が強まるとき--脳mriにおける白質高濃度のロバスト定量化

When Weak Becomes Strong: Robust Quantification of White Matter Hyperintensities in Brain MRI scans ( http://arxiv.org/abs/2004.05578v1 )

ライセンス: Link先を確認
Oliver Werner, Kimberlin M.H. van Wijnen, Wiro J. Niessen, Marius de Groot, Meike W. Vernooij, Florian Dubost, Marleen de Bruijne(参考訳) 特定の画像構造の体積を測定するためには、まず、voxel-wise (strong)ラベルでトレーニングされたニューラルネットワークを使用してそれらの構造を分割し、その後、セグメンテーションからボリュームを計算する。 より単純なアプローチは、ボリュームを示すイメージレベル(弱)ラベルに基づいてトレーニングされたニューラルネットワークベースの回帰アプローチを使って、ボリュームを直接予測することです。 本稿では,弱いラベルと強いラベルを最適化したネットワークを比較し,他のデータセットに一般化する能力について検討する。 脳MRIにおける白質超強度(WMH)容積予測実験を行った。 ニューラルネットワークは大規模なローカルデータセットでトレーニングされ、そのパフォーマンスは4つの独立したパブリックデータセットで評価された。 WMHボリュームを反映する弱いラベルのみを用いて最適化されたネットワークは、WMHのボクセルワイドセグメンテーションに最適化されたネットワークよりもWMHボリューム予測に優れていた。 弱いラベルで訓練されたネットワークのアテンションマップは、wmhsを示すものではなく、wmhs周辺の滑らかな輪郭のある領域を強調した。 共同設立者の可能性を正すことで、弱いラベルで訓練されたネットワークは、知覚できないデータを一般化するのにより適した他の有意義な特徴を学ぶことができることを示した。 その結果, セグメンテーションから得られるバイオマーカーを画像化する場合, 中間セグメンテーションステップを解くよりも, 直接的にバイオマーカーを予測するためのトレーニングネットワークがより堅牢な結果をもたらす可能性が示唆された。

To measure the volume of specific image structures, a typical approach is to first segment those structures using a neural network trained on voxel-wise (strong) labels and subsequently compute the volume from the segmentation. A more straightforward approach would be to predict the volume directly using a neural network based regression approach, trained on image-level (weak) labels indicating volume. In this article, we compared networks optimized with weak and strong labels, and study their ability to generalize to other datasets. We experimented with white matter hyperintensity (WMH) volume prediction in brain MRI scans. Neural networks were trained on a large local dataset and their performance was evaluated on four independent public datasets. We showed that networks optimized using only weak labels reflecting WMH volume generalized better for WMH volume prediction than networks optimized with voxel-wise segmentations of WMH. The attention maps of networks trained with weak labels did not seem to delineate WMHs, but highlighted instead areas with smooth contours around or near WMHs. By correcting for possible confounders we showed that networks trained on weak labels may have learnt other meaningful features that are more suited to generalization to unseen data. Our results suggest that for imaging biomarkers that can be derived from segmentations, training networks to predict the biomarker directly may provide more robust results than solving an intermediate segmentation step.
翻訳日:2022-12-14 05:30:18 公開日:2020-04-12
# COVID-19胸部CT画像の自動分類のための残留注意U-Net

Residual Attention U-Net for Automated Multi-Class Segmentation of COVID-19 Chest CT Images ( http://arxiv.org/abs/2004.05645v1 )

ライセンス: Link先を確認
Xiaocong Chen, Lina Yao, Yu Zhang(参考訳) 新型コロナウイルス感染症(COVID-19)は世界中で急速に広がり、公衆衛生や経済に大きな影響を及ぼしている。 しかし、新型コロナウイルスによる肺感染症を効果的に定量化する研究はいまだ残っていない。 診断枠組みの基本的な課題であるセグメンテーションは、CT画像によって測定された新型コロナウイルス感染症の正確な定量化に重要な役割を果たしている。 そこで本研究では,複数の感染症領域の自動分割のための新しいディープラーニングアルゴリズムを提案する。 具体的には、Aggregated Residual Transformationsを用いて、堅牢で表現力のある特徴表現を学習し、ソフトアテンションメカニズムを適用して、モデルの能力を改善し、さまざまな症状を識別する。 パブリックCT画像データセットを用いて,他の競合手法と比較して提案アルゴリズムの有効性を検証する。 実験により,Chest CT画像の自動分割のためのアルゴリズムの優れた性能が示された。 本研究は,ct画像におけるcovid-19肺感染症の定量的診断の基礎となる,深い傾きに基づくセグメンテーションツールを提供する。

The novel coronavirus disease 2019 (COVID-19) has been spreading rapidly around the world and caused significant impact on the public health and economy. However, there is still lack of studies on effectively quantifying the lung infection caused by COVID-19. As a basic but challenging task of the diagnostic framework, segmentation plays a crucial role in accurate quantification of COVID-19 infection measured by computed tomography (CT) images. To this end, we proposed a novel deep learning algorithm for automated segmentation of multiple COVID-19 infection regions. Specifically, we use the Aggregated Residual Transformations to learn a robust and expressive feature representation and apply the soft attention mechanism to improve the capability of the model to distinguish a variety of symptoms of the COVID-19. With a public CT image dataset, we validate the efficacy of the proposed algorithm in comparison with other competing methods. Experimental results demonstrate the outstanding performance of our algorithm for automated segmentation of COVID-19 Chest CT images. Our study provides a promising deep leaning-based segmentation tool to lay a foundation to quantitative diagnosis of COVID-19 lung infection in CT images.
翻訳日:2022-12-14 05:23:39 公開日:2020-04-12
# メタ学習としての事前学習テキスト表現

Pre-training Text Representations as Meta Learning ( http://arxiv.org/abs/2004.05568v1 )

ライセンス: Link先を確認
Shangwen Lv, Yuechen Wang, Daya Guo, Duyu Tang, Nan Duan, Fuqing Zhu, Ming Gong, Linjun Shou, Ryan Ma, Daxin Jiang, Guihong Cao, Ming Zhou, Songlin Hu(参考訳) テキスト表現の事前学習は、多くの自然言語処理タスクにおいて最先端の技術を大幅に改善することが最近示されている。 事前学習の主な目的は、その後のタスクに役立つテキスト表現を学ぶことである。 しかし、既存のアプローチは、言語モデリングの負のログ可能性のようなプロキシの目的を最小化することで最適化される。 本研究では,下流タスクの効果的な学習のために,テキスト表現を学習するモデルの能力を直接最適化する学習アルゴリズムを提案する。 マルチタスク事前学習とモデル非依存なメタ学習の間には,メタトレーニングステップのシーケンスとの間に本質的な関連があることを示す。 BERTの標準マルチタスク学習目的はメタトレインの深さがゼロとなる学習アルゴリズムの特殊な場合である。 提案手法の一般性を検証するために, 教師なし事前学習と教師付き事前学習という2つの設定で検討を行い, 実験結果から, アルゴリズムが改良をもたらし, 様々な下流タスクのより優れた初期化を学習できることが示唆された。

Pre-training text representations has recently been shown to significantly improve the state-of-the-art in many natural language processing tasks. The central goal of pre-training is to learn text representations that are useful for subsequent tasks. However, existing approaches are optimized by minimizing a proxy objective, such as the negative log likelihood of language modeling. In this work, we introduce a learning algorithm which directly optimizes model's ability to learn text representations for effective learning of downstream tasks. We show that there is an intrinsic connection between multi-task pre-training and model-agnostic meta-learning with a sequence of meta-train steps. The standard multi-task learning objective adopted in BERT is a special case of our learning algorithm where the depth of meta-train is zero. We study the problem in two settings: unsupervised pre-training and supervised pre-training with different pre-training objects to verify the generality of our approach.Experimental results show that our algorithm brings improvements and learns better initializations for a variety of downstream tasks.
翻訳日:2022-12-14 05:22:15 公開日:2020-04-12
# 航空画像における密度マップ誘導物体検出

Density Map Guided Object Detection in Aerial Images ( http://arxiv.org/abs/2004.05520v1 )

ライセンス: Link先を確認
Changlin Li and Taojiannan Yang and Sijie Zhu and Chen Chen and Shanyue Guan(参考訳) 高解像度空中画像における物体検出は難しい課題である 1)対象物の大きさの大きな変動、及び 2) オブジェクトの非一様分布。 一般的な解決策は、大きな空中画像を小さな(一様)作物に分割し、各小作物に物体検出を適用することである。 本稿では,これらの課題に対処するためのイメージトリミング戦略について検討する。 具体的には、画像のオブジェクト密度マップが、地図のピクセル強度の観点からオブジェクトの分散方法を示すという観察から着想を得た、密度マップガイドオブジェクト検出ネットワーク(DMNet)を提案する。 画素強度が変化すると、ある領域に物体があるかどうかを判断し、統計的に画像のトリミングのガイダンスを提供する。 dmnetには、密度マップ生成モジュール、画像クロッピングモジュール、オブジェクト検出モジュールの3つの重要なコンポーネントがある。 DMNetは密度マップを生成し、密度強度に基づいてスケール情報を学び、収穫領域を形成する。 大規模な実験により、DMNetはVisionDroneとUAVDTという2つの一般的な空中画像データセットで最先端のパフォーマンスを達成することが示された。

Object detection in high-resolution aerial images is a challenging task because of 1) the large variation in object size, and 2) non-uniform distribution of objects. A common solution is to divide the large aerial image into small (uniform) crops and then apply object detection on each small crop. In this paper, we investigate the image cropping strategy to address these challenges. Specifically, we propose a Density-Map guided object detection Network (DMNet), which is inspired from the observation that the object density map of an image presents how objects distribute in terms of the pixel intensity of the map. As pixel intensity varies, it is able to tell whether a region has objects or not, which in turn provides guidance for cropping images statistically. DMNet has three key components: a density map generation module, an image cropping module and an object detector. DMNet generates a density map and learns scale information based on density intensities to form cropping regions. Extensive experiments show that DMNet achieves state-of-the-art performance on two popular aerial image datasets, i.e. VisionDrone and UAVDT.
翻訳日:2022-12-14 05:21:58 公開日:2020-04-12
# 多時期核融合による衛星画像の建物被害評価

Building Disaster Damage Assessment in Satellite Imagery with Multi-Temporal Fusion ( http://arxiv.org/abs/2004.05525v1 )

ライセンス: Link先を確認
Ethan Weber, Hassan Kan\'e(参考訳) 衛星画像解析者による自動変化検出と災害被害評価は、現在、膨大な労力と手作業を要する手続きである。 自然災害が発生すると、タイムリーな変化検出が命を救う。 本稿では,新たにリリースしたxBDデータセットを用いた損傷評価作業において特に有用な,問題フレーミング,データ処理,トレーニング手順に関する知見を報告する。 私たちの洞察は、xbdのベースラインモデルよりも大幅に改善され、xview2 challenge leaderboardでトップ結果のうちの1つにスコアを付けました。 競争に使用されるコードをリリースします。

Automatic change detection and disaster damage assessment are currently procedures requiring a huge amount of labor and manual work by satellite imagery analysts. In the occurrences of natural disasters, timely change detection can save lives. In this work, we report findings on problem framing, data processing and training procedures which are specifically helpful for the task of building damage assessment using the newly released xBD dataset. Our insights lead to substantial improvement over the xBD baseline models, and we score among top results on the xView2 challenge leaderboard. We release our code used for the competition.
翻訳日:2022-12-14 05:21:41 公開日:2020-04-12
# 歯科用パノラマx線画像からの歯の個別検出と同定 : ポジショニングと距離正規化による検討

Individual Tooth Detection and Identification from Dental Panoramic X-Ray Images via Point-wise Localization and Distance Regularization ( http://arxiv.org/abs/2004.05543v1 )

ライセンス: Link先を確認
Minyoung Chung, Jusang Lee, Sanguk Park, Minkyung Lee, Chae Eun Lee, Jeongjin Lee, Yeong-Gil Shin(参考訳) 歯科用パノラマX線イメージングは、非常に少量の放射線量のために一般的な診断方法である。 歯科医院におけるコンピュータ支援自動診断システムでは, パノラマX線画像からの個々の歯の自動検出と同定が必須である。 本研究では,空間距離正規化損失を導入することにより,ポイントワイズな歯の局在化ニューラルネットワークを提案する。 提案するネットワークは最初, 各歯を識別する全ての解剖学的歯(32点)に対して中心点回帰を行う。 空間距離におけるラプラシアンの正規化損失を考慮し,32点に新たな距離正規化ペナルティを適用した。 その後、パッチベースでカスケードニューラルネットワークを用いて歯箱を個別に局所化する。 最終出力にマルチタスクオフセットトレーニングを用い、ローカライズ精度を向上させる。 既存の歯だけでなく, 欠損歯の局所化に成功し, 高精度な検出と同定が可能となった。 実験結果から, 提案アルゴリズムは, 歯肉検出の精度を最良な方法と比較して15.71%向上させることにより, 最先端の手法よりも優れていることが示された。 同定精度は0.997で、リコール値は0.972であった。 さらに,提案するネットワークでは,歯の有無に関わらず固定32点の先行回帰により,追加の識別アルゴリズムは不要である。

Dental panoramic X-ray imaging is a popular diagnostic method owing to its very small dose of radiation. For an automated computer-aided diagnosis system in dental clinics, automatic detection and identification of individual teeth from panoramic X-ray images are critical prerequisites. In this study, we propose a point-wise tooth localization neural network by introducing a spatial distance regularization loss. The proposed network initially performs center point regression for all the anatomical teeth (i.e., 32 points), which automatically identifies each tooth. A novel distance regularization penalty is employed on the 32 points by considering $L_2$ regularization loss of Laplacian on spatial distances. Subsequently, teeth boxes are individually localized using a cascaded neural network on a patch basis. A multitask offset training is employed on the final output to improve the localization accuracy. Our method successfully localizes not only the existing teeth but also missing teeth; consequently, highly accurate detection and identification are achieved. The experimental results demonstrate that the proposed algorithm outperforms state-of-the-art approaches by increasing the average precision of teeth detection by 15.71% compared to the best performing method. The accuracy of identification achieved a precision of 0.997 and recall value of 0.972. Moreover, the proposed network does not require any additional identification algorithm owing to the preceding regression of the fixed 32 points regardless of the existence of the teeth.
翻訳日:2022-12-14 05:21:09 公開日:2020-04-12
# OpenMix: オープンな世界で新しいビジュアルカテゴリを発見するための知識の復活

OpenMix: Reviving Known Knowledge for Discovering Novel Visual Categories in An Open World ( http://arxiv.org/abs/2004.05551v1 )

ライセンス: Link先を確認
Zhun Zhong, Linchao Zhu, Zhiming Luo, Shaozi Li, Yi Yang, Nicu Sebe(参考訳) 本稿では,非結合クラスからのラベル付きデータからラベル付き視覚データから新しいクラスを発見する問題に取り組む。 既存のメソッドは通常、ラベル付きデータでモデルを事前トレーニングし、教師なしのクラスタリングを通じてラベルなしデータ内の新しいクラスを識別する。 しかし、重要な知識を提供するラベル付きデータは、しばしば第2段階において過小評価される。 課題はラベル付きおよびラベルなしの例は重複しないクラスからのものであるため、それらの間の学習関係を構築するのが困難である。 本研究では,OpenMixを導入して,オープンセットからのラベルなし例と既知のクラスからのラベル付き例を混合し,重複しないラベルと擬似ラベルを同時に結合ラベル分布に混合する。 OpenMixは2つの方法で動的に例を合成する。 まず,ラベル付き例にラベル付き例を組み込んだ混合訓練画像を作成する。 新規クラス発見におけるユニークな事前知識の利点により、生成された擬似ラベルは、元のラベルなし予測よりも信頼性が高い。 その結果、openmixは、間違った擬似ラベルで割り当てられる可能性のあるラベルのないサンプルに、モデルが過剰にフィットすることを防ぐのに役立ちます。 第二に、第1の方法は、高いクラス確率を持つラベルのない例にかなりの精度を持たせることである。 これらのサンプルを信頼性の高いアンカーとして紹介し,ラベルのないサンプルとさらに統合する。 これにより、ラベルのない例でより多くの組み合わせを生成し、新しいクラス間のより細かいオブジェクト関係を活用できます。 3つの分類データセットの実験は、新しいクラス発見における最先端手法よりも優れたOpenMixの有効性を示す。

In this paper, we tackle the problem of discovering new classes in unlabeled visual data given labeled data from disjoint classes. Existing methods typically first pre-train a model with labeled data, and then identify new classes in unlabeled data via unsupervised clustering. However, the labeled data that provide essential knowledge are often underexplored in the second step. The challenge is that the labeled and unlabeled examples are from non-overlapping classes, which makes it difficult to build the learning relationship between them. In this work, we introduce OpenMix to mix the unlabeled examples from an open set and the labeled examples from known classes, where their non-overlapping labels and pseudo-labels are simultaneously mixed into a joint label distribution. OpenMix dynamically compounds examples in two ways. First, we produce mixed training images by incorporating labeled examples with unlabeled examples. With the benefits of unique prior knowledge in novel class discovery, the generated pseudo-labels will be more credible than the original unlabeled predictions. As a result, OpenMix helps to prevent the model from overfitting on unlabeled samples that may be assigned with wrong pseudo-labels. Second, the first way encourages the unlabeled examples with high class-probabilities to have considerable accuracy. We introduce these examples as reliable anchors and further integrate them with unlabeled samples. This enables us to generate more combinations in unlabeled examples and exploit finer object relations among the new classes. Experiments on three classification datasets demonstrate the effectiveness of the proposed OpenMix, which is superior to state-of-the-art methods in novel class discovery.
翻訳日:2022-12-14 05:20:46 公開日:2020-04-12
# 自然言語処理のためのハイブリッド古典量子ワークフロー

A hybrid classical-quantum workflow for natural language processing ( http://arxiv.org/abs/2004.06800v1 )

ライセンス: Link先を確認
Lee J. O'Riordan, Myles Doyle, Fabio Baruffa, Venkatesh Kannan(参考訳) 自然言語処理 (NLP) の問題は古典的な計算ではユビキタスであり、文の意味を推測するために重要な計算資源を必要とすることが多い。 量子コンピューティングハードウェアとシミュレータの出現により、これらのプラットフォーム上でこのような問題を調べる方法を開発する価値がある。 本論文では,NLPタスクの実行に量子コンピューティングモデルを用いることで,コーパスの意味を表現し,与えられた構造文の比較を行う。 量子回路モデルを用いて,大規模コーパスデータセットの符号化,処理,復号化を行うハイブリッドワークフローを開発した。 さらに,本手法の有効性を示す結果と,開発したツールキットをオープンソースソフトウェアスイートとしてリリースする。

Natural language processing (NLP) problems are ubiquitous in classical computing, where they often require significant computational resources to infer sentence meanings. With the appearance of quantum computing hardware and simulators, it is worth developing methods to examine such problems on these platforms. In this manuscript we demonstrate the use of quantum computing models to perform NLP tasks, where we represent corpus meanings, and perform comparisons between sentences of a given structure. We develop a hybrid workflow for representing small and large scale corpus data sets to be encoded, processed, and decoded using a quantum circuit model. In addition, we provide our results showing the efficacy of the method, and release our developed toolkit as an open software suite.
翻訳日:2022-12-14 05:14:22 公開日:2020-04-12
# query 2.0のクレーム駆動トレーニングデータデバッグ

Complaint-driven Training Data Debugging for Query 2.0 ( http://arxiv.org/abs/2004.05722v1 )

ライセンス: Link先を確認
Weiyuan Wu, Lampros Flokas, Eugene Wu, Jiannan Wang(参考訳) 機械学習(ML)の必要性がすべての業界で急速に増加する中、商用データベースプロバイダの間では、モデル推論をSQLクエリに統合する"クエリ2.0"のサポートに対する大きな関心がある。 Query 2.0のデバッグは、トレーニングデータ(間違ったラベル、破損した機能など)のバグによって予期せぬクエリ結果が引き起こされるため、非常に難しい。 そこで本研究では,苦情駆動型トレーニングデータデバッグシステムrainを提案する。 rainでは、クエリの中間出力または最終出力に対する苦情を指定でき、最小のトレーニング例セットを返すことで、削除された場合には苦情が解決される。 私たちの知る限りでは、私たちはこの問題を最初に研究している。 単純解法は指数関数的な数のMLモデルを再訓練する必要がある。 線形再学習ステップを必要とする影響関数に基づく2つの新しいヒューリスティックアプローチを提案する。 本研究では,2つのアプローチの詳細な分析および実証分析を行い,実世界の4つのデータセットを用いてその有効性を評価する。 その結果、rainはすべてのベースラインの中で最も高いrecall@kを達成し、インタラクティブに結果を返す。

As the need for machine learning (ML) increases rapidly across all industry sectors, there is a significant interest among commercial database providers to support "Query 2.0", which integrates model inference into SQL queries. Debugging Query 2.0 is very challenging since an unexpected query result may be caused by the bugs in training data (e.g., wrong labels, corrupted features). In response, we propose Rain, a complaint-driven training data debugging system. Rain allows users to specify complaints over the query's intermediate or final output, and aims to return a minimum set of training examples so that if they were removed, the complaints would be resolved. To the best of our knowledge, we are the first to study this problem. A naive solution requires retraining an exponential number of ML models. We propose two novel heuristic approaches based on influence functions which both require linear retraining steps. We provide an in-depth analytical and empirical analysis of the two approaches and conduct extensive experiments to evaluate their effectiveness using four real-world datasets. Results show that Rain achieves the highest recall@k among all the baselines while still returns results interactively.
翻訳日:2022-12-14 05:14:10 公開日:2020-04-12
# パイプラインの個別公平性

Individual Fairness in Pipelines ( http://arxiv.org/abs/2004.05167v1 )

ライセンス: Link先を確認
Cynthia Dwork, Christina Ilvento, Meena Jagadeesan(参考訳) 個々の公平なコンポーネントから構築されたシステムは、それ自体が公平ではないことがよく理解されている。 本研究では,パイプライン構成下での個々の公正性について検討する。 パイプラインは、通常の逐次的または反復的な構成と異なり、個人が任意の段階でドロップアウトし、その後の段階における分類は個人の残りの「コホート」に依存する。 例えば、企業は新しいプロジェクトのためにチームを雇い、後でチームの最高のパフォーマーをプロモートするかもしれません。 不公平さの度合いが複数の公平なステップで優雅に低下する他の繰り返しの分類設定とは異なり、パイプライン内の不公平さの度合いは、2段階のパイプラインであっても任意である。 実例のパノパリーに導かれ、パイプラインのさまざまなタイプの公平性保証を評価するための厳格なフレームワークを提供します。 na\"{i}ve監査は系統的不公平を明らかにすることができず、公平性を確保するためには、パイプライン内の異なる段階におけるアルゴリズム設計の間に何らかの依存が存在する必要がある。 最後に、後段で柔軟性を許容する構造を提供しています。つまり、初期段階が構築された時点でパイプライン全体をロックする必要がなくなるのです。

It is well understood that a system built from individually fair components may not itself be individually fair. In this work, we investigate individual fairness under pipeline composition. Pipelines differ from ordinary sequential or repeated composition in that individuals may drop out at any stage, and classification in subsequent stages may depend on the remaining "cohort" of individuals. As an example, a company might hire a team for a new project and at a later point promote the highest performer on the team. Unlike other repeated classification settings, where the degree of unfairness degrades gracefully over multiple fair steps, the degree of unfairness in pipelines can be arbitrary, even in a pipeline with just two stages. Guided by a panoply of real-world examples, we provide a rigorous framework for evaluating different types of fairness guarantees for pipelines. We show that na\"{i}ve auditing is unable to uncover systematic unfairness and that, in order to ensure fairness, some form of dependence must exist between the design of algorithms at different stages in the pipeline. Finally, we provide constructions that permit flexibility at later stages, meaning that there is no need to lock in the entire pipeline at the time that the early stage is constructed.
翻訳日:2022-12-14 05:13:54 公開日:2020-04-12
# ランダムウォークに基づくミニバッチ選択ポリシーが知識グラフ補完に及ぼす影響の探索

Exploring Effects of Random Walk Based Minibatch Selection Policy on Knowledge Graph Completion ( http://arxiv.org/abs/2004.05553v1 )

ライセンス: Link先を確認
Bishal Santra, Prakhar Sharma, Sumegh Roychowdhury, Pawan Goyal(参考訳) 本稿では,様々なミニバッチサンプリング手法が知識グラフ補完に与える影響について検討した。 知識グラフ補完(英: Knowledge Graph Completion, KGC)またはリンク予測(リンク予測)は、知識グラフにおける行方不明な事実を予測するタスクである。 kgcモデルは、通常、マージン、ソフトマージンまたはクロスエントロピー損失関数を用いて訓練され、より高いスコアまたは真の事実三重項の確率を割り当てることを促進する。 ミニバッチ勾配降下は、これらの損失関数を最適化してkgcモデルのトレーニングに使用される。 しかし、各ミニバッチは、大きな知識グラフからランダムにサンプリングされたトリプレットのみで構成されているため、ミニバッチで発生するエンティティは、ほとんどの場合、一度だけ発生する。 このため、これらの損失関数は任意のエンティティの他のすべての隣人を無視し、埋め込みはミニバッチのステップで更新される。 本稿では,ランダムに選択された三重項の近縁部分グラフのミニバッチによって生じる損失を最適化するKGCモデルをトレーニングするための,ランダムウォークに基づく新しいミニバッチサンプリング手法を提案する。 サンプリング手法を用いて異なるモデルおよびデータセットに対する実験結果を示し,提案手法がこれらのデータセット/モデルに与える影響について検討した。 具体的には,DB100Kデータセット上での最先端性能を実現する手法を提案する。

In this paper, we have explored the effects of different minibatch sampling techniques in Knowledge Graph Completion. Knowledge Graph Completion (KGC) or Link Prediction is the task of predicting missing facts in a knowledge graph. KGC models are usually trained using margin, soft-margin or cross-entropy loss function that promotes assigning a higher score or probability for true fact triplets. Minibatch gradient descent is used to optimize these loss functions for training the KGC models. But, as each minibatch consists of only a few randomly sampled triplets from a large knowledge graph, any entity that occurs in a minibatch, occurs only once in most cases. Because of this, these loss functions ignore all other neighbors of any entity, whose embedding is being updated at some minibatch step. In this paper, we propose a new random-walk based minibatch sampling technique for training KGC models that optimizes the loss incurred by a minibatch of closely connected subgraph of triplets instead of randomly selected ones. We have shown results of experiments for different models and datasets with our sampling technique and found that the proposed sampling algorithm has varying effects on these datasets/models. Specifically, we find that our proposed method achieves state-of-the-art performance on the DB100K dataset.
翻訳日:2022-12-14 05:13:33 公開日:2020-04-12
# 畳み込みニューラルネットワークのための最小フィルタリングアルゴリズム

Minimal Filtering Algorithms for Convolutional Neural Networks ( http://arxiv.org/abs/2004.05607v1 )

ライセンス: Link先を確認
Aleksandr Cariow and Galina Cariowa(参考訳) 本稿では,畳み込みニューラルネットワークの畳み込み層で実行される基本フィルタリング操作の完全並列ハードウェア実装に関する,リソース効率の高いアルゴリズムソリューションを提案する。 実際、これらの基本演算は、mタップ有限インパルス応答フィルタのインパルス応答を伴う電流データストリームから、スライディングタイムウィンドウによって形成される隣り合うベクトルの2つの内積を計算する。 我々はウィノグラードの最小フィルタリング手法を用いて,m=3,5,7,9,11の基本フィルタリング操作を実現するための完全並列ハードウェア指向アルゴリズムを開発した。 各ケースにおいて提案アルゴリズムの完全並列ハードウェア実装は、単純計算方式の完全並列ハードウェア実装と比較して、組込み乗算器の数を約30%削減する。

In this paper, we present several resource-efficient algorithmic solutions regarding the fully parallel hardware implementation of the basic filtering operation performed in the convolutional layers of convolution neural networks. In fact, these basic operations calculate two inner products of neighboring vectors formed by a sliding time window from the current data stream with an impulse response of the M-tap finite impulse response filter. We used Winograd minimal filtering trick and applied it to develop fully parallel hardware-oriented algorithms for implementing the basic filtering operation for M=3,5,7,9, and 11. A fully parallel hardware implementation of the proposed algorithms in each case gives approximately 30 percent savings in the number of embedded multipliers compared to a fully parallel hardware implementation of the naive calculation methods.
翻訳日:2022-12-14 05:13:11 公開日:2020-04-12
# 不完全な入札カルテルのフラグ付けのための機械学習アプローチ

A Machine Learning Approach for Flagging Incomplete Bid-rigging Cartels ( http://arxiv.org/abs/2004.05629v1 )

ライセンス: Link先を確認
Hannes Wallimann and David Imhof and Martin Huber(参考訳) 提案手法は,不完全な入札リギングカルテルを検出するのに特に有用である。 我々の手法は、スクリーン、すなわち、入札者の入札の分布から得られた統計と、衝突の確率を予測する機械学習を組み合わせる。 方法論上の革新として,各画面の平均,中央値,最大値,最小値などの要約統計を機械学習アルゴリズムの予測器として用いる。 このアプローチは、不完全カルテルにおける競争入札が入札リギングによって生じる統計信号を歪めるという問題に対処する。 本アルゴリズムは,スイスの経験的データに基づく不完全カルテルに適用するための提案手法よりも優れていることを示す。

We propose a new method for flagging bid rigging, which is particularly useful for detecting incomplete bid-rigging cartels. Our approach combines screens, i.e. statistics derived from the distribution of bids in a tender, with machine learning to predict the probability of collusion. As a methodological innovation, we calculate such screens for all possible subgroups of three or four bids within a tender and use summary statistics like the mean, median, maximum, and minimum of each screen as predictors in the machine learning algorithm. This approach tackles the issue that competitive bids in incomplete cartels distort the statistical signals produced by bid rigging. We demonstrate that our algorithm outperforms previously suggested methods in applications to incomplete cartels based on empirical data from Switzerland.
翻訳日:2022-12-14 05:13:02 公開日:2020-04-12
# 代数と統計学のインターフェイスについて

At the Interface of Algebra and Statistics ( http://arxiv.org/abs/2004.05631v1 )

ライセンス: Link先を確認
Tai-Danae Bradley(参考訳) この論文は量子物理学から着想を得て、代数と統計のインターフェイスにある数学的構造を研究する。 出発点は古典的確率論から量子確率論への通路である。 確率分布の量子バージョンは密度作用素であり、辺縁化の量子バージョンは部分トレースと呼ばれる演算であり、辺縁確率分布の量子バージョンは密度作用素を減少させる。 有限集合上のすべての合同確率分布は階数 1 の密度作用素としてモデル化できる。 部分トレースを適用することで、対角線が古典的辺縁確率を回復する還元密度演算子を得る。 一般に、これらの減少密度は1以上のランクを持ち、それらの固有値と固有ベクトルは統計によって制御されるサブシステム相互作用をエンコードする余分な情報を含む。 この情報を復号し、条件付き確率に類似していることを示し、固有ベクトルが元の関節分布に固有の「概念」を捕捉する程度を調査する。 この理論は、これらのアイデアを生かした実験で説明される。 さらに,より理論的応用として,自然言語における包含と概念階層をモデル化するための予備的枠組み,すなわち,言語表現を密度として表現することで議論する。 最後に、この論文の最初のインスピレーションは形式的な概念解析から来ており、線形代数と多くの顕著な平行点が見つかる。 平行線は一致せず、一般的な青写真が圏論で見られる。 自由(co)コンプリートに関する説明と、それらの出現する自由忘れられた随伴が、あるカテゴリー的文脈において、その随伴を持つ射の「固定された点」が興味深い情報をエンコードしていることを強く示唆する。

This thesis takes inspiration from quantum physics to investigate mathematical structure that lies at the interface of algebra and statistics. The starting point is a passage from classical probability theory to quantum probability theory. The quantum version of a probability distribution is a density operator, the quantum version of marginalizing is an operation called the partial trace, and the quantum version of a marginal probability distribution is a reduced density operator. Every joint probability distribution on a finite set can be modeled as a rank one density operator. By applying the partial trace, we obtain reduced density operators whose diagonals recover classical marginal probabilities. In general, these reduced densities will have rank higher than one, and their eigenvalues and eigenvectors will contain extra information that encodes subsystem interactions governed by statistics. We decode this information, and show it is akin to conditional probability, and then investigate the extent to which the eigenvectors capture "concepts" inherent in the original joint distribution. The theory is then illustrated with an experiment that exploits these ideas. Turning to a more theoretical application, we also discuss a preliminary framework for modeling entailment and concept hierarchy in natural language, namely, by representing expressions in the language as densities. Finally, initial inspiration for this thesis comes from formal concept analysis, which finds many striking parallels with the linear algebra. The parallels are not coincidental, and a common blueprint is found in category theory. We close with an exposition on free (co)completions and how the free-forgetful adjunctions in which they arise strongly suggest that in certain categorical contexts, the "fixed points" of a morphism with its adjoint encode interesting information.
翻訳日:2022-12-14 05:12:48 公開日:2020-04-12
# DarkneTZ: 信頼できる実行環境を用いたエッジでのモデルプライバシの実現

DarkneTZ: Towards Model Privacy at the Edge using Trusted Execution Environments ( http://arxiv.org/abs/2004.05703v1 )

ライセンス: Link先を確認
Fan Mo, Ali Shahin Shamsabadi, Kleomenis Katevas, Soteris Demetriou, Ilias Leontiadis, Andrea Cavallaro, Hamed Haddadi(参考訳) 本稿では,エッジデバイスの信頼実行環境(trusted execution environment, tee)をモデルパーティショニングと併用して,ディープニューラルネットワーク(dnn)に対する攻撃面を制限するフレームワークであるdarknetzを提案する。 エッジデバイス(スマートフォンや消費者向けIoTデバイス)は、さまざまなアプリケーション用に事前訓練されたDNNを備えている。 この傾向は、モデルが効果的なメンバーシップ推論攻撃(mias)を通じてトレーニングデータに関する情報をリークできるため、プライバシリスクが伴う。 我々は,CPU実行時間,メモリ使用量,正確な消費電力を含むDarkneTZの性能を,2つの小さな画像分類モデルと6つの画像分類モデルを用いて評価した。 エッジデバイスのTEEのメモリが限られているため、私たちはモデルレイヤをより機密性の高いレイヤ(デバイスTEE内で実行される)と、オペレーティングシステムの信頼できない部分で実行されるレイヤのセットに分割します。 結果から,単一のレイヤが隠されている場合でも,信頼性の高いモデルプライバシを提供し,技術MIAの状態を防御することが可能になる。 TEEを完全に活用する場合、DarkneTZは最大10%のオーバーヘッドでモデル保護を提供する。

We present DarkneTZ, a framework that uses an edge device's Trusted Execution Environment (TEE) in conjunction with model partitioning to limit the attack surface against Deep Neural Networks (DNNs). Increasingly, edge devices (smartphones and consumer IoT devices) are equipped with pre-trained DNNs for a variety of applications. This trend comes with privacy risks as models can leak information about their training data through effective membership inference attacks (MIAs). We evaluate the performance of DarkneTZ, including CPU execution time, memory usage, and accurate power consumption, using two small and six large image classification models. Due to the limited memory of the edge device's TEE, we partition model layers into more sensitive layers (to be executed inside the device TEE), and a set of layers to be executed in the untrusted part of the operating system. Our results show that even if a single layer is hidden, we can provide reliable model privacy and defend against state of the art MIAs, with only 3% performance overhead. When fully utilizing the TEE, DarkneTZ provides model protections with up to 10% overhead.
翻訳日:2022-12-14 05:12:20 公開日:2020-04-12
# 深部集合注意トランスフォーマによる多発肺結節間の関係学習

Relational Learning between Multiple Pulmonary Nodules via Deep Set Attention Transformers ( http://arxiv.org/abs/2004.05640v1 )

ライセンス: Link先を確認
Jiancheng Yang, Haoran Deng, Xiaoyang Huang, Bingbing Ni, Yi Xu(参考訳) 多発性肺結節の診断と治療は臨床的に重要であるが困難である。 結節特性に関する先行研究では,結節間の関係を無視する孤立結節アプローチを複数の結節患者に用いた。 本研究では,mil(multiple instance learning)アプローチを提案し,複数の結節間の関係を学習する利点を実証的に証明する。 同一患者から複数の結節を治療することにより、孤立性結節ボクセル間の臨界関係情報を抽出する。 我々の知る限り、多発性肺結節の関係を学習する最初の研究である。 自然言語処理(NLP)領域の最近の進歩に触発されて,複数のインスタンス学習における典型的なプールベースアグリゲーションを置き換える3D CNNを備えた自己注意変換器を導入した。 LIDC-IDRIデータベースにおける肺結節偽陽性率低下と悪性度分類の広範な実験により,提案法の有効性が検証された。

Diagnosis and treatment of multiple pulmonary nodules are clinically important but challenging. Prior studies on nodule characterization use solitary-nodule approaches on multiple nodular patients, which ignores the relations between nodules. In this study, we propose a multiple instance learning (MIL) approach and empirically prove the benefit to learn the relations between multiple nodules. By treating the multiple nodules from a same patient as a whole, critical relational information between solitary-nodule voxels is extracted. To our knowledge, it is the first study to learn the relations between multiple pulmonary nodules. Inspired by recent advances in natural language processing (NLP) domain, we introduce a self-attention transformer equipped with 3D CNN, named {NoduleSAT}, to replace typical pooling-based aggregation in multiple instance learning. Extensive experiments on lung nodule false positive reduction on LUNA16 database, and malignancy classification on LIDC-IDRI database, validate the effectiveness of the proposed method.
翻訳日:2022-12-14 05:11:49 公開日:2020-04-12
# フローデコーダの正規化による変分オートエンコーダ

Variational Autoencoders with Normalizing Flow Decoders ( http://arxiv.org/abs/2004.05617v1 )

ライセンス: Link先を確認
Rogan Morrow, Wei-Chen Chiu(参考訳) 近年,グローなどのノーマライズフローモデルが,比較的高速なサンプリング速度で高品質な高次元画像を生成することが提案されている。 しかし、本質的に制限的な建築であるため、効果的に訓練するには過度に深くなる必要がある。 本稿では,Glowと基礎となる変分オートエンコーダを組み合わせることで,この問題に対処することを提案する。 提案モデルは画像品質とテスト可能性の面ではglowと競合するが,トレーニングに要する時間がはるかに少ないことを実証する。

Recently proposed normalizing flow models such as Glow have been shown to be able to generate high quality, high dimensional images with relatively fast sampling speed. Due to their inherently restrictive architecture, however, it is necessary that they are excessively deep in order to train effectively. In this paper we propose to combine Glow with an underlying variational autoencoder in order to counteract this issue. We demonstrate that our proposed model is competitive with Glow in terms of image quality and test likelihood while requiring far less time for training.
翻訳日:2022-12-14 05:04:11 公開日:2020-04-12
# 効率的なスパース表現学習のためのFLOPの最小化

Minimizing FLOPs to Learn Efficient Sparse Representations ( http://arxiv.org/abs/2004.05665v1 )

ライセンス: Link先を確認
Biswajit Paria, Chih-Kuan Yeh, Ian E.H. Yen, Ning Xu, Pradeep Ravikumar, Barnab\'as P\'oczos(参考訳) 深層表現学習は、視覚検索、レコメンデーション、識別において最も広く採用されているアプローチの1つとなっている。 しかし、大規模なデータベースからのそのような表現の検索は計算的に難しい。 コンパクト表現の学習に基づく近似法は,局所性に敏感なハッシュ,製品量子化,PCAなど,この問題に対して広く研究されている。 本研究では,コンパクト表現の学習とは対照的に,密度埋め込みと類似する表現能力を持つ高次元およびスパース表現を学習する一方で,密度乗算よりも高速であるスパース行列乗算演算により効率的であることを提案する。 非零エントリが一様に次元に分散されるような埋め込みのスパースによって操作数が二乗的に減少するという重要な知見に従い、検索中に発生する浮動小数点演算(flops)の数の連続緩和を直接最小化する注意深く構築された正規化関数を用いて、そのような分散スパース埋め込みを学ぶための新しいアプローチを提案する。 我々の実験は、我々のアプローチが他のベースラインと競合し、実用的なデータセットに対する速度vs精度のトレードオフをもたらすことを示している。

Deep representation learning has become one of the most widely adopted approaches for visual search, recommendation, and identification. Retrieval of such representations from a large database is however computationally challenging. Approximate methods based on learning compact representations, have been widely explored for this problem, such as locality sensitive hashing, product quantization, and PCA. In this work, in contrast to learning compact representations, we propose to learn high dimensional and sparse representations that have similar representational capacity as dense embeddings while being more efficient due to sparse matrix multiplication operations which can be much faster than dense multiplication. Following the key insight that the number of operations decreases quadratically with the sparsity of embeddings provided the non-zero entries are distributed uniformly across dimensions, we propose a novel approach to learn such distributed sparse embeddings via the use of a carefully constructed regularization function that directly minimizes a continuous relaxation of the number of floating-point operations (FLOPs) incurred during retrieval. Our experiments show that our approach is competitive to the other baselines and yields a similar or better speed-vs-accuracy tradeoff on practical datasets.
翻訳日:2022-12-14 05:04:02 公開日:2020-04-12
# 生成モデルにおけるデータコピー検出のための非パラメトリックテスト

A Non-Parametric Test to Detect Data-Copying in Generative Models ( http://arxiv.org/abs/2004.05675v1 )

ライセンス: Link先を確認
Casey Meehan, Kamalika Chaudhuri, Sanjoy Dasgupta(参考訳) 生成モデルにおける過剰フィッティングの検出は、機械学習において重要な課題である。 本研究では, 生成モデルが記憶し, トレーニングサンプル又はその小さなバリエーションを出力する, {\em{data-copying}} と呼ばれるオーバーフィッティングの形式を定式化する。 トレーニングセット,対象分布から分離したサンプル,およびモデルから生成されたサンプルを用いて,データコピーを検出するための3つのサンプル非パラメトリックテストを行い,いくつかの標準モデルとデータセット上でテストの性能について検討する。 コード \&例については、https://github.com/casey-meehan/data-copyingを参照してください。

Detecting overfitting in generative models is an important challenge in machine learning. In this work, we formalize a form of overfitting that we call {\em{data-copying}} -- where the generative model memorizes and outputs training samples or small variations thereof. We provide a three sample non-parametric test for detecting data-copying that uses the training set, a separate sample from the target distribution, and a generated sample from the model, and study the performance of our test on several canonical models and datasets. For code \& examples, visit https://github.com/casey-meehan/data-copying
翻訳日:2022-12-14 05:03:41 公開日:2020-04-12
# 近似メッセージパッシングと情報ゲイン最大化によるペアワイズ比較のためのアクティブサンプリング

Active Sampling for Pairwise Comparisons via Approximate Message Passing and Information Gain Maximization ( http://arxiv.org/abs/2004.05691v1 )

ライセンス: Link先を確認
Aliaksei Mikhailiuk, Clifford Wilmot, Maria Perez-Ortiz, Dingcheng Yue, Rafal Mantiuk(参考訳) 対数比較データは、画像やビデオの品質評価など、主観的評価実験と多くの領域で発生する。 これらの実験では、観察者は2つの条件の間の好みを表現するよう求められる。 しかし、多くの対数比較プロトコルは正確なスコアを推測するために多くの比較を必要とするが、それぞれの比較が時間を要する場合(例えばビデオ)や高価な場合(例えば医療画像)は不可能である。 これは、最も情報性の高いペアのみを選択するアクティブサンプリングアルゴリズムの使用を動機付けている。 本稿では、近似メッセージパッシングと期待情報の最大化に基づくアクティブサンプリングアルゴリズムASAPを提案する。 後続分布の部分的な更新に依存する既存の方法とは異なり、完全な更新が可能であり、推測されたスコアの精度を大幅に向上させることができる。 このアルゴリズムは、近似メッセージパッシングに基づく推論、情報ゲインの選択的な評価、情報ゲインの逆の最小スパンニングツリーを形成するバッチ内のペアの選択という、計算コストを削減するための3つの手法に依存している。 実データおよび合成データを用いて,ASAPが既存の手法と比較して高い精度で推定スコアを提供することを示す。 また、大規模な実験のためにASAPのオープンソースGPU実装も提供します。

Pairwise comparison data arise in many domains with subjective assessment experiments, for example in image and video quality assessment. In these experiments observers are asked to express a preference between two conditions. However, many pairwise comparison protocols require a large number of comparisons to infer accurate scores, which may be unfeasible when each comparison is time-consuming (e.g. videos) or expensive (e.g. medical imaging). This motivates the use of an active sampling algorithm that chooses only the most informative pairs for comparison. In this paper we propose ASAP, an active sampling algorithm based on approximate message passing and expected information gain maximization. Unlike most existing methods, which rely on partial updates of the posterior distribution, we are able to perform full updates and therefore much improve the accuracy of the inferred scores. The algorithm relies on three techniques for reducing computational cost: inference based on approximate message passing, selective evaluations of the information gain, and selecting pairs in a batch that forms a minimum spanning tree of the inverse of information gain. We demonstrate, with real and synthetic data, that ASAP offers the highest accuracy of inferred scores compared to the existing methods. We also provide an open-source GPU implementation of ASAP for large-scale experiments.
翻訳日:2022-12-14 05:03:30 公開日:2020-04-12
# YouMakeup VQA Challenge: ドメイン特化ビデオにおけるきめ細かいアクション理解を目指して

YouMakeup VQA Challenge: Towards Fine-grained Action Understanding in Domain-Specific Videos ( http://arxiv.org/abs/2004.05573v1 )

ライセンス: Link先を確認
Shizhe Chen, Weiying Wang, Ludan Ruan, Linli Yao, Qin Jin(参考訳) YouMakeup VQA Challenge 2020の目標は、ドメイン固有のビデオ(例えばメイクインストラクショナルビデオ)の詳細なアクション理解のための共通のベンチマークを提供することである。 本稿では,モデルのきめ細かい行動理解能力を評価するための2つの質問応答タスクを提案する。 最初のタスクは \textbf{Facial Image Ordering} で、自然言語で表現されたさまざまなアクションの視覚的効果を顔オブジェクトに理解することを目的としている。 第2のタスクは \textbf{Step Ordering} で、未トリミングビデオとマルチ文テキスト間の相互意味的アライメントを測定することを目的としている。 本稿では,提案する2つのタスクにおける課題ガイドライン,使用するデータセット,ベースラインモデルの性能について述べる。 ベースラインコードとモデルは \url{https://github.com/AIM3-RUC/YouMakeup_Baseline} でリリースされる。

The goal of the YouMakeup VQA Challenge 2020 is to provide a common benchmark for fine-grained action understanding in domain-specific videos e.g. makeup instructional videos. We propose two novel question-answering tasks to evaluate models' fine-grained action understanding abilities. The first task is \textbf{Facial Image Ordering}, which aims to understand visual effects of different actions expressed in natural language to the facial object. The second task is \textbf{Step Ordering}, which aims to measure cross-modal semantic alignments between untrimmed videos and multi-sentence texts. In this paper, we present the challenge guidelines, the dataset used, and performances of baseline models on the two proposed tasks. The baseline codes and models are released at \url{https://github.com/AIM3-RUC/YouMakeup_Baseline}.
翻訳日:2022-12-14 05:02:46 公開日:2020-04-12
# FBNetV2:空間次元とチャネル次元の微分可能なニューラルアーキテクチャ探索

FBNetV2: Differentiable Neural Architecture Search for Spatial and Channel Dimensions ( http://arxiv.org/abs/2004.05565v1 )

ライセンス: Link先を確認
Alvin Wan, Xiaoliang Dai, Peizhao Zhang, Zijian He, Yuandong Tian, Saining Xie, Bichen Wu, Matthew Yu, Tao Xu, Kan Chen, Peter Vajda, Joseph E. Gonzalez(参考訳) 微分可能なニューラルネットワーク探索(DNAS)は、最先端で効率的なニューラルネットワークの設計において大きな成功を収めている。 しかし、ダーツベースのdnaの検索空間は、全ての候補ネットワーク層をメモリ内で明示的にインスタンス化しなければならないため、他の検索方法と比較すると小さい。 このボトルネックに対処するため,我々はメモリと計算効率のよいdna変異 dmaskingnas を提案する。 このアルゴリズムは、従来のdnaよりも最大10,^{14}\times$の検索空間を拡大し、入力解像度とフィルタ数という、その他に非常に高価である空間的およびチャネル的次元の検索をサポートする。 探索空間が拡大するにつれてメモリと計算コストがほぼ一定となるように,特徴マップ再利用のためのマスキング機構を提案する。 さらに,FLOP当たりの有効形状伝搬,パラメータごとの精度を最大化する。 検索されたFBNetV2は、以前のアーキテクチャと比較すると最先端の性能が得られる。 検索コストが最大421$\times$で、DMaskingNAS は MobileNetV3-Small よりも 0.9%高い精度で FLOP を 15% 削減し、同様の精度で FLOP を Efficient-B0 より20% 削減している。 さらに、FBNetV2はMobileNetV3の精度を2.6%上回り、モデルサイズは同等です。 FBNetV2モデルはhttps://github.com/facebookresearch/mobile-visionでオープンソース化されている。

Differentiable Neural Architecture Search (DNAS) has demonstrated great success in designing state-of-the-art, efficient neural networks. However, DARTS-based DNAS's search space is small when compared to other search methods', since all candidate network layers must be explicitly instantiated in memory. To address this bottleneck, we propose a memory and computationally efficient DNAS variant: DMaskingNAS. This algorithm expands the search space by up to $10^{14}\times$ over conventional DNAS, supporting searches over spatial and channel dimensions that are otherwise prohibitively expensive: input resolution and number of filters. We propose a masking mechanism for feature map reuse, so that memory and computational costs stay nearly constant as the search space expands. Furthermore, we employ effective shape propagation to maximize per-FLOP or per-parameter accuracy. The searched FBNetV2s yield state-of-the-art performance when compared with all previous architectures. With up to 421$\times$ less search cost, DMaskingNAS finds models with 0.9% higher accuracy, 15% fewer FLOPs than MobileNetV3-Small; and with similar accuracy but 20% fewer FLOPs than Efficient-B0. Furthermore, our FBNetV2 outperforms MobileNetV3 by 2.6% in accuracy, with equivalent model size. FBNetV2 models are open-sourced at https://github.com/facebookresearch/mobile-vision.
翻訳日:2022-12-14 04:56:09 公開日:2020-04-12
# 重み付け最適化手法を用いた統一DNN重み圧縮フレームワーク

A Unified DNN Weight Compression Framework Using Reweighted Optimization Methods ( http://arxiv.org/abs/2004.05531v1 )

ライセンス: Link先を確認
Tianyun Zhang, Xiaolong Ma, Zheng Zhan, Shanglin Zhou, Minghai Qin, Fei Sun, Yen-Kuang Chen, Caiwen Ding, Makan Fardad and Yanzhi Wang(参考訳) ディープニューラルネットワーク(DNN)の大規模モデルサイズと集約的な計算要求に対処するために、重み付け法が提案され、一般に静的正規化に基づくプルーニングと動的正規化に基づくプルーニングという2つのカテゴリに分類される。 しかし, 従来の手法では, 複雑なワークロードや精度劣化に悩まされており, 後者ではパラメータを調整して, 精度損失を伴わずに所望のプルーニング率を達成するのに長い時間がかかる。 本稿では,指定された制約に縛られた動的に更新された正規化項を持つ統一DNN重み決定フレームワークを提案し,非構造的疎さと異なる種類の構造的疎さを両立させることができる。 また、異なるDNN圧縮タスクを組み合わせるための統合フレームワークにもメソッドを拡張します。

To address the large model size and intensive computation requirement of deep neural networks (DNNs), weight pruning techniques have been proposed and generally fall into two categories, i.e., static regularization-based pruning and dynamic regularization-based pruning. However, the former method currently suffers either complex workloads or accuracy degradation, while the latter one takes a long time to tune the parameters to achieve the desired pruning rate without accuracy loss. In this paper, we propose a unified DNN weight pruning framework with dynamically updated regularization terms bounded by the designated constraint, which can generate both non-structured sparsity and different kinds of structured sparsity. We also extend our method to an integrated framework for the combination of different DNN compression tasks.
翻訳日:2022-12-14 04:55:45 公開日:2020-04-12
# テキスト生成による質問応答モデルの説明

Explaining Question Answering Models through Text Generation ( http://arxiv.org/abs/2004.05569v1 )

ライセンス: Link先を確認
Veronica Latcinnik, Jonathan Berant(参考訳) 大規模な事前学習言語モデル(LM)は、常識と世界知識を必要とするタスクを微調整すると驚くほどうまく機能することが示されている。 しかし、エンドツーエンドアーキテクチャでは、正確な予測を可能にするLMの知識が何であるかを説明することは困難である。 そこで本研究では,LMをベースとした生成器が,後に分類器が質問に答えるために使用するテキスト仮説を生成する,多選択質問応答モデルを提案する。 この仮説は、人間が検査できる微調整lmによって使用される情報への窓を提供する。 このセットアップにおける重要な課題は、モデルに人間にとって意味のある仮説を生成するよう制約する方法である。 私たちはこれに取り組む (a)有意義な仮説を奨励する単純な類似性分類器による共同訓練、及び (b) 繰り返しなしで自然文を奨励する損失関数を追加する。 我々は,本モデルがエンド・ツー・エンドアーキテクチャに匹敵する性能を達成する上で,LMが疑問に答えるために使用する知識を解明する仮説を提示する。

Large pre-trained language models (LMs) have been shown to perform surprisingly well when fine-tuned on tasks that require commonsense and world knowledge. However, in end-to-end architectures, it is difficult to explain what is the knowledge in the LM that allows it to make a correct prediction. In this work, we propose a model for multi-choice question answering, where a LM-based generator generates a textual hypothesis that is later used by a classifier to answer the question. The hypothesis provides a window into the information used by the fine-tuned LM that can be inspected by humans. A key challenge in this setup is how to constrain the model to generate hypotheses that are meaningful to humans. We tackle this by (a) joint training with a simple similarity classifier that encourages meaningful hypotheses, and (b) by adding loss functions that encourage natural text without repetitions. We show on several tasks that our model reaches performance that is comparable to end-to-end architectures, while producing hypotheses that elucidate the knowledge used by the LM for answering the question.
翻訳日:2022-12-14 04:55:16 公開日:2020-04-12
# VGCN-BERT:テキスト分類のためのグラフ埋め込みによるBERTの拡張

VGCN-BERT: Augmenting BERT with Graph Embedding for Text Classification ( http://arxiv.org/abs/2004.05707v1 )

ライセンス: Link先を確認
Zhibin Lu, Pan Du, Jian-Yun Nie(参考訳) 近年,ニューラルネットワークに基づく手法を用いたテキスト分類が進歩している。 特に、BERTのような注意機構を用いたモデルでは、文や文書内の文脈情報をキャプチャする能力があることが示されている。 しかし、言語の語彙に関するグローバルな情報を取得する能力は、より限られている。 後者は Graph Convolutional Networks (GCN) の長所である。 本稿では,BERT と Vocabulary Graph Convolutional Network (VGCN) を組み合わせた VGCN-BERT モデルを提案する。 ローカル情報とグローバル情報はBERTの異なるレイヤを介して相互作用し、相互に影響し、分類のための最終的な表現を構築することができる。 いくつかのテキスト分類データセットの実験において,本手法はBERTとGCNを単独で上回り,従来の研究よりも高い効率性を実現している。

Much progress has been made recently on text classification with methods based on neural networks. In particular, models using attention mechanism such as BERT have shown to have the capability of capturing the contextual information within a sentence or document. However, their ability of capturing the global information about the vocabulary of a language is more limited. This latter is the strength of Graph Convolutional Networks (GCN). In this paper, we propose VGCN-BERT model which combines the capability of BERT with a Vocabulary Graph Convolutional Network (VGCN). Local information and global information interact through different layers of BERT, allowing them to influence mutually and to build together a final representation for classification. In our experiments on several text classification datasets, our approach outperforms BERT and GCN alone, and achieve higher effectiveness than that reported in previous studies.
翻訳日:2022-12-14 04:55:00 公開日:2020-04-12
# ベイズ階層型単語表現学習

Bayesian Hierarchical Words Representation Learning ( http://arxiv.org/abs/2004.07126v1 )

ライセンス: Link先を確認
Oren Barkan, Idan Rejwan, Avi Caciularu, Noam Koenigstein(参考訳) 本稿では,ベイジアン階層型単語表現(BHWR)学習アルゴリズムを提案する。 BHWRは変分ベイズ語表現学習と階層的先行性による意味分類学モデリングの併用を促進する。 関連する単語間で関連情報を伝達することにより、BHWRはこれらの表現の品質を向上させるために分類を利用する。 いくつかの言語データセットの評価は、ベイズ的モデリングにセマンティックな先行性の有無にかかわらず、適切な代替手段よりもBHWRの利点を証明している。 最後に、BHWRが稀な単語に対してより良い表現を生成することを示す。

This paper presents the Bayesian Hierarchical Words Representation (BHWR) learning algorithm. BHWR facilitates Variational Bayes word representation learning combined with semantic taxonomy modeling via hierarchical priors. By propagating relevant information between related words, BHWR utilizes the taxonomy to improve the quality of such representations. Evaluation of several linguistic datasets demonstrates the advantages of BHWR over suitable alternatives that facilitate Bayesian modeling with or without semantic priors. Finally, we further show that BHWR produces better representations for rare words.
翻訳日:2022-12-14 04:54:46 公開日:2020-04-12
# 実演による推論による強化学習

Reinforcement Learning via Reasoning from Demonstration ( http://arxiv.org/abs/2004.05512v1 )

ライセンス: Link先を確認
Lisa Torrey(参考訳) デモは、人間が強化学習エージェントに支援を提供するための魅力的な方法である。 この領域のほとんどのアプローチは、主に行動バイアスの源としてデモを見ている。 しかし、疎遠なタスクでは、人間はデモをより因果知識の源として扱うように見える。 本稿では,人間にインスパイアされた方法でのデモンストレーションの恩恵を受けるエージェントのためのフレームワークを提案する。 この枠組みでは、エージェントは観察を通して因果モデルを構築し、この知識から効果的な強化学習のためのタスクを分解する。 実験結果から,Reasoning from Demonstration (RfD) の基本的な実装は,スパース・リワードタスクに有効であることが示唆された。

Demonstration is an appealing way for humans to provide assistance to reinforcement-learning agents. Most approaches in this area view demonstrations primarily as sources of behavioral bias. But in sparse-reward tasks, humans seem to treat demonstrations more as sources of causal knowledge. This paper proposes a framework for agents that benefit from demonstration in this human-inspired way. In this framework, agents develop causal models through observation, and reason from this knowledge to decompose tasks for effective reinforcement learning. Experimental results show that a basic implementation of Reasoning from Demonstration (RfD) is effective in a range of sparse-reward tasks.
翻訳日:2022-12-14 04:54:39 公開日:2020-04-12
# 深部表現学習の特徴としての勾配

Gradients as Features for Deep Representation Learning ( http://arxiv.org/abs/2004.05529v1 )

ライセンス: Link先を確認
Fangzhou Mu, Yingyu Liang, Yin Li(参考訳) 深層表現学習の課題 - 訓練済みの深層ネットワークを様々なタスクに適応させること- に対処する。 具体的には,勾配に基づく特徴について検討する。 これらの特徴は、入力サンプルが与えられたタスク固有の損失に対するモデルパラメータの勾配である。 私たちの重要なイノベーションは、事前訓練されたネットワークの勾配と活性化の両方を組み込んだ線形モデルの設計です。 本モデルは,基礎となる深層モデルに対して局所線形近似を提供し,重要な理論的知見を考察する。 さらに,実際の勾配を計算せずに,モデルの学習と推論のための効率的なアルゴリズムを提案する。 提案手法は,複数のデータセット上の複数の表現学習タスクと異なるネットワークアーキテクチャを用いて評価される。 強い結果はすべての設定で得られ、理論的な洞察とよく一致しています。

We address the challenging problem of deep representation learning--the efficient adaption of a pre-trained deep network to different tasks. Specifically, we propose to explore gradient-based features. These features are gradients of the model parameters with respect to a task-specific loss given an input sample. Our key innovation is the design of a linear model that incorporates both gradient and activation of the pre-trained network. We show that our model provides a local linear approximation to an underlying deep model, and discuss important theoretical insights. Moreover, we present an efficient algorithm for the training and inference of our model without computing the actual gradient. Our method is evaluated across a number of representation-learning tasks on several datasets and using different network architectures. Strong results are obtained in all settings, and are well-aligned with our theoretical insights.
翻訳日:2022-12-14 04:54:29 公開日:2020-04-12