このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210114となっている論文です。

PDF登録状況(公開日: 20210114)

TitleAuthorsAbstract論文公表日・翻訳日
# 類似度に基づくチャネルマッピングとユーザポジショニングの予測

Similarity-based prediction for channel mapping and user positioning ( http://arxiv.org/abs/2101.05217v2 )

ライセンス: Link先を確認
Luc Le Magoarou (IRT b-com, Hypermedia)(参考訳) 無線ネットワークでは,アップリンクチャネル計測のみに基づく移動体ユーザの基地局での情報収集が興味深い課題である。 実際、ユーザのロケーションへのアクセスとダウンリンクチャネルの予測は、ネットワーク効率を最適化するために特に有用でしょう。 本稿では,これらのタスクを統一的に処理する教師あり機械学習手法を提案する。 これは、ベースステーションが操作中に簡単に取得できるラベル付きデータベースに依存している。 提案手法は,非パラメトリック推定器で初期化した計算効率の良い2層ニューラルネットワークである。 位置決めとチャネルマッピングのタスクの両方において、現実的なチャネルデータで示され、以前提案されていたアプローチよりも低いコストでより良い結果が得られる。

In a wireless network, gathering information at the base station about mobile users based only on uplink channel measurements is an interesting challenge. Indeed, accessing the users locations and predicting their downlink channels would be particularly useful in order to optimize the network efficiency. In this paper, a supervised machine learning approach addressing these tasks in an unified way is proposed. It relies on a labeled database that can be acquired in a simple way by the base station while operating. The proposed regression method can be seen as a computationally efficient two layers neural network initialized with a non-parametric estimator. It is illustrated on realistic channel data, both for the positioning and channel mapping tasks, achieving better results than previously proposed approaches, at a lower cost.
翻訳日:2021-05-25 03:41:22 公開日:2021-01-14
# ロジスティック損失を伴う勾配降下は、いつ補間された2層ネットワークを見つけるのか?

When does gradient descent with logistic loss find interpolating two-layer networks? ( http://arxiv.org/abs/2012.02409v2 )

ライセンス: Link先を確認
Niladri S. Chatterji, Philip M. Long, Peter L. Bartlett(参考訳) ロジスティック損失を用いた二元分類のための有限幅2層平滑reluネットワークの学習について検討した。 勾配降下は,初期損失が十分に小さい場合,トレーニング損失をゼロにすることを示した。 あるクラスタと分離条件を満たし、ネットワークが十分に広い場合には、勾配降下の一段階が損失を十分に減少させ、最初の結果が適用できることを示す。

We study the training of finite-width two-layer smoothed ReLU networks for binary classification using the logistic loss. We show that gradient descent drives the training loss to zero if the initial loss is small enough. When the data satisfies certain cluster and separation conditions and the network is wide enough, we show that one step of gradient descent reduces the loss sufficiently that the first result applies.
翻訳日:2021-05-22 20:46:04 公開日:2021-01-14
# 話者認証と言語識別に関するwav2vec 2.0の探索

Exploring wav2vec 2.0 on speaker verification and language identification ( http://arxiv.org/abs/2012.06185v2 )

ライセンス: Link先を確認
Zhiyun Fan, Meng Li, Shiyu Zhou, Bo Xu(参考訳) Wav2vec 2.0は、音声表現学習のための自己教師型フレームワークである。 プリトレーニングと微調整の2段階のトレーニングプロセスに従い、音声認識タスク、特に超低リソースケースでよく機能する。 本研究では,話者検証と言語識別に自己教師付きフレームワークを拡張しようとする。 まず、wav2vec 2.0が話者と言語に関する情報をキャプチャできることを示す予備実験を行う。 次に,両タスクにおけるwav2vec 2.0の有効性を示す。 話者検証のために、VoxCeleb1データセット上で、EER(Equal Error Rate)の3.61%の新たな最先端結果を得る。 言語識別では,AP17-OLRデータセットの完全長条件で1秒条件で12.02%,EERで3.47%を得る。 最後に,2つのタスクに対するマルチタスク学習による統一モデリングを実現するために,1つのモデルを利用する。

Wav2vec 2.0 is a recently proposed self-supervised framework for speech representation learning. It follows a two-stage training process of pre-training and fine-tuning, and performs well in speech recognition tasks especially ultra-low resource cases. In this work, we attempt to extend self-supervised framework to speaker verification and language identification. First, we use some preliminary experiments to indicate that wav2vec 2.0 can capture the information about the speaker and language. Then we demonstrate the effectiveness of wav2vec 2.0 on the two tasks respectively. For speaker verification, we obtain a new state-of-the-art result, Equal Error Rate (EER) of 3.61% on the VoxCeleb1 dataset. For language identification, we obtain an EER of 12.02% on 1 second condition and an EER of 3.47% on full-length condition of the AP17-OLR dataset. Finally, we utilize one model to achieve the unified modeling by the multi-task learning for the two tasks.
翻訳日:2021-05-11 02:54:38 公開日:2021-01-14
# Friedrichs Learning:ディープラーニングによる部分微分方程式の弱解

Friedrichs Learning: Weak Solutions of Partial Differential Equations via Deep Learning ( http://arxiv.org/abs/2012.08023v2 )

ライセンス: Link先を確認
Fan Chen and Jianguo Huang and Chunmei Wang and Haizhao Yang(参考訳) 本稿では,PDE問題を最小限の最適化問題に変換し,弱解を同定する,PDEの弱解を最小限の定式化によって学習できる新しいディープラーニング手法として,Friedrichs Learningを提案する。 フリードリッヒ学習」という名前は、我々の学習戦略とPDEの対称系に関するフリードリヒス理論の密接な関係を強調するためのものである。 弱い解と弱い定式化におけるテスト関数は、メッシュフリーでディープニューラルネットワークとしてパラメータ化され、それぞれ弱解と最適試験関数を近似する最適解ネットワークにアプローチするように交互に更新される。 有限差分法や有限要素法といった古典的数値解法を適用すれば,様々な次元の正則領域や不規則領域で定義される広範囲のpdesに対して,メッシュフリー法が合理的に優れた解を与える可能性が示唆された。

This paper proposes Friedrichs learning as a novel deep learning methodology that can learn the weak solutions of PDEs via a minmax formulation, which transforms the PDE problem into a minimax optimization problem to identify weak solutions. The name "Friedrichs learning" is for highlighting the close relationship between our learning strategy and Friedrichs theory on symmetric systems of PDEs. The weak solution and the test function in the weak formulation are parameterized as deep neural networks in a mesh-free manner, which are alternately updated to approach the optimal solution networks approximating the weak solution and the optimal test function, respectively. Extensive numerical results indicate that our mesh-free method can provide reasonably good solutions to a wide range of PDEs defined on regular and irregular domains in various dimensions, where classical numerical methods such as finite difference methods and finite element methods may be tedious or difficult to be applied.
翻訳日:2021-05-07 05:07:51 公開日:2021-01-14
# ニューラルボリュームレンダリング:NeRFとそれ以上

Neural Volume Rendering: NeRF And Beyond ( http://arxiv.org/abs/2101.05204v2 )

ライセンス: Link先を確認
Frank Dellaert, Lin Yen-Chen(参考訳) 新型コロナウイルス(COVID-19)のパンデミックや米国での政治的混乱に加え、2020年はミルデンホールらによる印象的なNeRF論文がきっかけとなり、ニューラルボリュームのレンダリングが現場に爆発した年でもあった。 (2020). FrankはGithubのコレクション(Yen-Chen, 2020)で、ブログ投稿(Dellaert, 2020)とYen-Chen(Yen-Chen, 2020)でこう述べている。 本書は関連論文の注釈付き書誌であり,関連するbibtexファイルはリポジトリに掲載した。

Besides the COVID-19 pandemic and political upheaval in the US, 2020 was also the year in which neural volume rendering exploded onto the scene, triggered by the impressive NeRF paper by Mildenhall et al. (2020). Both of us have tried to capture this excitement, Frank on a blog post (Dellaert, 2020) and Yen-Chen in a Github collection (Yen-Chen, 2020). This note is an annotated bibliography of the relevant papers, and we posted the associated bibtex file on the repository.
翻訳日:2021-05-02 07:15:09 公開日:2021-01-14
# 戦略的非保持データを用いた分類

Classification with Strategically Withheld Data ( http://arxiv.org/abs/2012.10203v2 )

ライセンス: Link先を確認
Anilesh K. Krishnaswamy, Haoming Li, David Rein, Hanrui Zhang, and Vincent Conitzer(参考訳) 機械学習のテクニックは、クレジット承認や大学入学などのアプリケーションで有用である。 しかし、そのような文脈でより有利に分類するために、エージェントは、悪いテストスコアのようないくつかの特徴を戦略的に保持することを決定できる。 どのデータが欠けているかは、選択された分類器に依存する。なぜなら、特定の分類器は、特定の特徴値を保持するインセンティブを生み出す可能性があるからである。 我々は,この行動に頑健な分類器を訓練する問題に対処する。 我々は3つの分類法を設計する: {\sc Mincut}, {\sc Hill-Climbing} ({\sc HC}) およびIncentive-Compatible Logistic Regression ({\sc IC-LR})。 データの真の分布が完全に分かっている場合, {\sc Mincut} が最適であることを示す。 しかし、複雑な決定境界を生じさせるため、場合によってはオーバーフィットしがちである。 真理的な分類器(すなわち、戦略的に特徴を隠す動機を持たないもの)の特徴付けに基づいて、我々は収束していることを示す特別なヒルクライミング手順を用いて訓練された、既成の分類器の階層的なアンサンブルからなるより単純な選択肢である {\sc hc} を考案する。 いくつかの理由から、sc Mincut} と {\sc HC} は多くの相補的な情報的特徴を利用するには効果がない。 この目的のために、ロジスティック回帰の修正である {\sc IC-LR} を提示する。 また,本アルゴリズムは実世界のデータセット実験において良好な性能を示し,その相対的性能に関する知見を異なる設定で提示する。

Machine learning techniques can be useful in applications such as credit approval and college admission. However, to be classified more favorably in such contexts, an agent may decide to strategically withhold some of her features, such as bad test scores. This is a missing data problem with a twist: which data is missing {\em depends on the chosen classifier}, because the specific classifier is what may create the incentive to withhold certain feature values. We address the problem of training classifiers that are robust to this behavior. We design three classification methods: {\sc Mincut}, {\sc Hill-Climbing} ({\sc HC}) and Incentive-Compatible Logistic Regression ({\sc IC-LR}). We show that {\sc Mincut} is optimal when the true distribution of data is fully known. However, it can produce complex decision boundaries, and hence be prone to overfitting in some cases. Based on a characterization of truthful classifiers (i.e., those that give no incentive to strategically hide features), we devise a simpler alternative called {\sc HC} which consists of a hierarchical ensemble of out-of-the-box classifiers, trained using a specialized hill-climbing procedure which we show to be convergent. For several reasons, {\sc Mincut} and {\sc HC} are not effective in utilizing a large number of complementarily informative features. To this end, we present {\sc IC-LR}, a modification of Logistic Regression that removes the incentive to strategically drop features. We also show that our algorithms perform well in experiments on real-world data sets, and present insights into their relative performance in different settings.
翻訳日:2021-05-01 18:00:42 公開日:2021-01-14
# 横断歩道のエンド・ツー・エンドの深層構造モデル

End-to-End Deep Structured Models for Drawing Crosswalks ( http://arxiv.org/abs/2012.11585v3 )

ライセンス: Link先を確認
Justin Liang, Raquel Urtasun(参考訳) 本稿では,LiDARとカメラ画像から横断歩道を検出する問題に対処する。 この目標に向けて、複数のLiDARスイープと対応する画像が与えられた場合、両方の入力を地上に投影し、シーンのトップダウンビューを生成する。 次に,畳み込みニューラルネットワークを用いて横断歩道の位置に関する意味的手がかりを抽出する。 その後、これらは自由に利用できる地図(OpenStreetMapsなど)の道路中心線と組み合わせて、最終横断歩道の境界線を引く構造最適化問題を解く。 大都市の横断歩道における実験の結果,96.6%の自動化が達成できた。

In this paper we address the problem of detecting crosswalks from LiDAR and camera imagery. Towards this goal, given multiple LiDAR sweeps and the corresponding imagery, we project both inputs onto the ground surface to produce a top down view of the scene. We then leverage convolutional neural networks to extract semantic cues about the location of the crosswalks. These are then used in combination with road centerlines from freely available maps (e.g., OpenStreetMaps) to solve a structured optimization problem which draws the final crosswalk boundaries. Our experiments over crosswalks in a large city area show that 96.6% automation can be achieved.
翻訳日:2021-04-27 06:29:31 公開日:2021-01-14
# 科学出版における視覚的要約同定のための自己指導型学習

Self-Supervised Learning for Visual Summary Identification in Scientific Publications ( http://arxiv.org/abs/2012.11213v2 )

ライセンス: Link先を確認
Shintaro Yamamoto, Anne Lauscher, Simone Paolo Ponzetto, Goran Glava\v{s}, Shigeo Morishima(参考訳) 科学出版物の視覚的要約を提供することで、読者の情報アクセスが増加し、科学出版物の急増に対応することができる。 それでも、バイオメディカル分野を中心に、ビジュアル出版の要約を提供する努力はほとんど行われていない。 これは主に、堅牢で高パフォーマンスな教師付き学習技術の適用を阻害する、注釈付きゴールド標準の可用性が限られているためである。 これらの問題に対処するために、コンピュータ科学のいくつかの領域をカバーする、論文の要約を視覚的に要約するフィギュアを選択するための新しいベンチマークデータセットを作成する。 さらに,図形キャプション付き図形へのインライン参照のヒューリスティックマッチングに基づく自己教師型学習手法を開発した。 バイオメディカル領域とコンピュータサイエンス領域の両方の実験により、我々のモデルは自己監督されているにも関わらず、注釈付きトレーニングデータに頼らずに芸術の状態を上回り得ることが示された。

Providing visual summaries of scientific publications can increase information access for readers and thereby help deal with the exponential growth in the number of scientific publications. Nonetheless, efforts in providing visual publication summaries have been few and far apart, primarily focusing on the biomedical domain. This is primarily because of the limited availability of annotated gold standards, which hampers the application of robust and high-performing supervised learning techniques. To address these problems we create a new benchmark dataset for selecting figures to serve as visual summaries of publications based on their abstracts, covering several domains in computer science. Moreover, we develop a self-supervised learning approach, based on heuristic matching of inline references to figures with figure captions. Experiments in both biomedical and computer science domains show that our model is able to outperform the state of the art despite being self-supervised and therefore not relying on any annotated training data.
翻訳日:2021-04-27 06:28:10 公開日:2021-01-14
# 円グラフ畳み込みネットワークによる3次元点雲解析のためのロバストカーネルに基づく特徴表現

Robust Kernel-based Feature Representation for 3D Point Cloud Analysis via Circular Graph Convolutional Network ( http://arxiv.org/abs/2012.12215v4 )

ライセンス: Link先を確認
Seung Hwan Jung, Minyoung Chung, and Yeong-Gil Shin(参考訳) ポイントクラウドの特徴ディスクリプタは、3dポイントクラウドの登録や部分セグメンテーションなど、いくつかのアプリケーションで使用されている。 局所幾何学的特徴の識別表現の学習は、正確に点雲解析を行う上で最も重要なタスクである。 しかし、回転やスケール不変ディスクリプタの開発は困難である。 これまでのほとんどの研究では、ローテーションを無視したり、最適なスケールパラメータを経験的に研究している。 本稿では,回転,密度,スケールの変動に頑健な局所特徴記述法を提案する。 さらに,局所記述子の表現を改善するために,グローバルアグリゲーション手法を提案する。 まず、カーネルを各点の周りに通常の方向に配置する。 正規ベクトルの符号問題を避けるために、有界平面における対称核点分布を用いる。 各カーネルポイントから、まず、角度と距離に基づいて、複数のスケールと回転にロバストな空間空間から特徴空間への点を投影した。 その後,グローバルアグリゲーション法により得られた局所カーネル点構造と長距離グローバルコンテキストを考慮し,グラフ畳み込みを行う。 ベンチマークデータセット(modelnet40およびshapenetpart)上で提案する記述子を用いて,3dポイントクラウドにおける登録,分類,部分セグメンテーションの性能評価を行った。 提案手法は,登録タスクの回転と翻訳エラーの70$\%を削減し,最先端の手法と比較して優れた性能を示した。 また,単純で低次元のアーキテクチャを用いた分類と部分セグメンテーションにおいて同等の性能を示した。

Feature descriptors of point clouds are used in several applications, such as registration and part segmentation of 3D point clouds. Learning discriminative representations of local geometric features is unquestionably the most important task for accurate point cloud analyses. However, it is challenging to develop rotation or scale-invariant descriptors. Most previous studies have either ignored rotations or empirically studied optimal scale parameters, which hinders the applicability of the methods for real-world datasets. In this paper, we present a new local feature description method that is robust to rotation, density, and scale variations. Moreover, to improve representations of the local descriptors, we propose a global aggregation method. First, we place kernels aligned around each point in the normal direction. To avoid the sign problem of the normal vector, we use a symmetric kernel point distribution in the tangential plane. From each kernel point, we first projected the points from the spatial space to the feature space, which is robust to multiple scales and rotation, based on angles and distances. Subsequently, we perform graph convolutions by considering local kernel point structures and long-range global context, obtained by a global aggregation method. We experimented with our proposed descriptors on benchmark datasets (i.e., ModelNet40 and ShapeNetPart) to evaluate the performance of registration, classification, and part segmentation on 3D point clouds. Our method showed superior performances when compared to the state-of-the-art methods by reducing 70$\%$ of the rotation and translation errors in the registration task. Our method also showed comparable performance in the classification and part-segmentation tasks with simple and low-dimensional architectures.
翻訳日:2021-04-26 07:29:43 公開日:2021-01-14
# BaPipe: DNNトレーニングのためのバランスの取れたパイプライン並列性の探索

BaPipe: Exploration of Balanced Pipeline Parallelism for DNN Training ( http://arxiv.org/abs/2012.12544v2 )

ライセンス: Link先を確認
Letian Zhao, Rui Xu, Tianqi Wang, Teng Tian, Xiaotian Wang, Wei Wu, Chio-in Ieong, Xi Jin(参考訳) ディープラーニングアルゴリズムの複雑さが増大するにつれて、ディープニューラルネットワーク(DNN)のサイズは急速に大きくなる。 DNNトレーニングの計算と記憶の要求を満たすため、モデル並列性に基づく分散ディープラーニングが広く認識されている。 本稿では,dnn分散トレーニングのためのパイプライン並列化トレーニング手法とバランスの取れた分割戦略を自動的に探索する,パイプライン並列化トレーニングフレームワークbapipeを提案する。 bapipeでは、各アクセラレータがネットワークの異なる部分の前方伝播と後方伝播を計算し、バッチ内パイプライン並列化戦略を実行する。 BaPipeでは、DNNモデルのパラメータと、アクセラレータクラスタの計算、メモリ、通信リソースを考慮した、新たなロードバランシング自動探索戦略を採用している。 我々は、GPUクラスタ上でVGG-16、ResNet-50、GNMTなどの異なるDNNを訓練し、異なるFPGAクラスタのパフォーマンスをシミュレートした。 最先端のデータ並列性とパイプライン並列化フレームワークと比較して、BaPipeは様々なプラットフォームで最大3.2倍のスピードアップと4倍のメモリ削減を提供する。

The size of deep neural networks (DNNs) grows rapidly as the complexity of the machine learning algorithm increases. To satisfy the requirement of computation and memory of DNN training, distributed deep learning based on model parallelism has been widely recognized. We propose a new pipeline parallelism training framework, BaPipe, which can automatically explore pipeline parallelism training methods and balanced partition strategies for DNN distributed training. In BaPipe, each accelerator calculates the forward propagation and backward propagation of different parts of networks to implement the intra-batch pipeline parallelism strategy. BaPipe uses a new load balancing automatic exploration strategy that considers the parameters of DNN models and the computation, memory, and communication resources of accelerator clusters. We have trained different DNNs such as VGG-16, ResNet-50, and GNMT on GPU clusters and simulated the performance of different FPGA clusters. Compared with state-of-the-art data parallelism and pipeline parallelism frameworks, BaPipe provides up to 3.2x speedup and 4x memory reduction in various platforms.
翻訳日:2021-04-25 18:03:56 公開日:2021-01-14
# 確率論的推論・プログラミング・概念形成のための矛盾する基礎

Paraconsistent Foundations for Probabilistic Reasoning, Programming and Concept Formation ( http://arxiv.org/abs/2012.14474v2 )

ライセンス: Link先を確認
Ben Goertzel(参考訳) 4値のパラ一貫性真理値(ここでは「pビット」と呼ばれる)は、確率論的論理と確率的プログラミングと概念形成の高度AI関連形式の概念的、数学的、実践的な基礎として機能する。 まず,CD(Constructible Duality)論理に従って動作している4値のp-bitsの平均値と再正規化がPLN(Probabilistic Logic Networks)の強度と信頼性の真理値をもたらすことを示す。 次に、Curry-Howard対応のバリエーションを使用して、これらのパラ一貫性と確率論理を依存型ベースのプログラミング言語での使用に適した確率型にマッピングする。 ザック・ウェーバーのソライトパラドックスのパラ一貫性解析は、概念境界のパラ一貫性・確率的・ファジィ解析へと拡張され、形式的概念分析による概念形成のパラ一貫性バージョンが提示され、パラ一貫性確率分布の相対エントロピーの観点からファジィ特性値次数の定義に基づいている。 これらの一般的な点は、共通知識メタグラフの多元的更新を中心にしたOpenCog AGIフレームワークにおける確率論的推論とプログラミング、概念形成の実現を参照して、具体化される。

It is argued that 4-valued paraconsistent truth values (called here "p-bits") can serve as a conceptual, mathematical and practical foundation for highly AI-relevant forms of probabilistic logic and probabilistic programming and concept formation. First it is shown that appropriate averaging-across-sit uations and renormalization of 4-valued p-bits operating in accordance with Constructible Duality (CD) logic yields PLN (Probabilistic Logic Networks) strength-and-confide nce truth values. Then variations on the Curry-Howard correspondence are used to map these paraconsistent and probabilistic logics into probabilistic types suitable for use within dependent type based programming languages. Zach Weber's paraconsistent analysis of the sorites paradox is extended to form a paraconsistent / probabilistic / fuzzy analysis of concept boundaries; and a paraconsistent version of concept formation via Formal Concept Analysis is presented, building on a definition of fuzzy property-value degrees in terms of relative entropy on paraconsistent probability distributions. These general points are fleshed out via reference to the realization of probabilistic reasoning and programming and concept formation in the OpenCog AGI framework which is centered on collaborative multi-algorithm updating of a common knowledge metagraph.
翻訳日:2021-04-19 11:05:27 公開日:2021-01-14
# 勾配重み付きノルムを用いた境界基底計算

Border Basis Computation with Gradient-Weighted Norm ( http://arxiv.org/abs/2101.00401v2 )

ライセンス: Link先を確認
Hiroshi Kera(参考訳) 多項式の正規化は、消滅するイデアルの近似基底計算において重要な役割を果たす。 コンピュータ代数において、多項式をその係数ノルムで正規化する係数正規化は最も一般的な方法である。 本研究では,機械学習の最近の成果に触発された,消滅するイデアルの近似境界基底計算のための勾配重み付き正規化を提案する。 勾配重み付き正規化のデータ依存的性質は、従来の係数正規化では達成できない入力点のスケーリングにおける摂動に対する安定性や一貫性の向上といった強力な性質をもたらす。 若干の修正を加えれば、係数正規化を伴うアルゴリズムの解析は勾配重み付き正規化で引き続き機能し、時間複雑性は変わらない。 また、勾配重み付きノルムに基づく係数ノルムの上界も提供し、係数ノルムの観点から、勾配重み付き正規化による近似境界ベースを議論することができる。

Normalization of polynomials plays an essential role in the approximate basis computation of vanishing ideals. In computer algebra, coefficient normalization, which normalizes a polynomial by its coefficient norm, is the most common method. In this study, we propose gradient-weighted normalization for the approximate border basis computation of vanishing ideals, inspired by the recent results in machine learning. The data-dependent nature of gradient-weighted normalization leads to powerful properties such as better stability against perturbation and consistency in the scaling of input points, which cannot be attained by the conventional coefficient normalization. With a slight modification, the analysis of algorithms with coefficient normalization still works with gradient-weighted normalization and the time complexity does not change. We also provide an upper bound on the coefficient norm based on the gradient-weighted norm, which allows us to discuss the approximate border bases with gradient-weighted normalization from the perspective of the coefficient norm.
翻訳日:2021-04-13 07:13:03 公開日:2021-01-14
# (参考訳) dame-flame: 因果推論の高速解釈可能なマッチングを提供するPythonライブラリ [全文訳有]

dame-flame: A Python Library Providing Fast Interpretable Matching for Causal Inference ( http://arxiv.org/abs/2101.01867v2 )

ライセンス: CC BY-SA 4.0
Neha R. Gupta (1), Vittorio Orlandi (1), Chia-Rui Chang (2), Tianyu Wang (1), Marco Morucci (1), Pritam Dey (1), Thomas J. Howell (1), Xian Sun (1), Angikar Ghosal (1), Sudeepa Roy (1), Cynthia Rudin (1), Alexander Volfovsky (1) ((1) Duke University, (2) Harvard University)(参考訳) dame-flameは、離散共変量を含むデータセットで観測因果推論のマッチングを実行するpythonパッケージである。 このパッケージはDAME(Dynamic almost Matching Exactly)アルゴリズムとFLAME(Fast Large-Scale Near Matching Exactly)アルゴリズムを実装しており、コバリアイトのサブセットで処理と制御ユニットをマッチングする。 マッチしたグループは、マッチが共変量(例えば、確率スコアではなく)で作られ、高品質であることから解釈可能であり、機械学習は、マッチするべき共変量を決定するために使用される。 DAMEは、できるだけ多くの共変数上のユニットにマッチする最適化問題を解き、重要な共変数上のマッチを優先順位付けする。 FLAMEは、より高速な後方特徴選択手順により、DAMEが発見した解を近似する。 このパッケージは、アルゴリズムを特定のアプリケーションに適用するためのいくつかの調整可能なパラメータを提供し、マッチング後の治療効果を計算できる。 これらのパラメータの説明、治療効果の推定の詳細、その他の例は、https://almost-match ing-exactly.github.i o/DAME-FLAME-Python- Package/のドキュメントにある。

dame-flame is a Python package for performing matching for observational causal inference on datasets containing discrete covariates. This package implements the Dynamic Almost Matching Exactly (DAME) and Fast Large-Scale Almost Matching Exactly (FLAME) algorithms, which match treatment and control units on subsets of the covariates. The resulting matched groups are interpretable, because the matches are made on covariates (rather than, for instance, propensity scores), and high-quality, because machine learning is used to determine which covariates are important to match on. DAME solves an optimization problem that matches units on as many covariates as possible, prioritizing matches on important covariates. FLAME approximates the solution found by DAME via a much faster backward feature selection procedure. The package provides several adjustable parameters to adapt the algorithms to specific applications, and can calculate treatment effects after matching. Descriptions of these parameters, details on estimating treatment effects, and further examples, can be found in the documentation at https://almost-match ing-exactly.github.i o/DAME-FLAME-Python- Package/
翻訳日:2021-04-11 07:39:27 公開日:2021-01-14
# (参考訳) 3次元畳み込みニューラルネットワークによる精液運動の予測 [全文訳有]

Predicting Semen Motility using three-dimensional Convolutional Neural Networks ( http://arxiv.org/abs/2101.02888v2 )

ライセンス: CC BY 4.0
Priyansi, Biswaroop Bhattacharjee, Junaid Rahim(参考訳) 精液分析を行うための手動およびコンピュータ支援の手法は時間を要するため、広範囲のトレーニングが必要であり、人的ミスを起こしやすい。 ビデオを用いた古典的機械学習と深層学習を用いた精液分析は良好な結果を得た。 最先端の手法では、通常の畳み込みニューラルネットワークを使用して、提供されたサンプルのビデオの品質評価を行う。 本稿では,三次元畳み込みニューラルネットワークを用いて精液サンプルの微視的映像から精子の運動性を予測する,深層学習に基づくアプローチを提案する。 我々は85名の被験者から収集した精液の映像データと表表データからなるVISEMデータセットを利用する。 はるかに少ないデータポイントから良い結果を得ることができました。 本モデルにより, 深層学習に基づく自動精液分析は, 肥育とIVF実験室において有用かつ効果的なツールとなる可能性が示唆された。

Manual and computer aided methods to perform semen analysis are time-consuming, requires extensive training and prone to human error. The use of classical machine learning and deep learning based methods using videos to perform semen analysis have yielded good results. The state-of-the-art method uses regular convolutional neural networks to perform quality assessments on a video of the provided sample. In this paper we propose an improved deep learning based approach using three-dimensional convolutional neural networks to predict sperm motility from microscopic videos of the semen sample. We make use of the VISEM dataset that consists of video and tabular data of semen samples collected from 85 participants. We were able to achieve good results from significantly less data points. Our models indicate that deep learning based automatic semen analysis may become a valuable and effective tool in fertility and IVF labs.
翻訳日:2021-04-10 08:41:06 公開日:2021-01-14
# (参考訳) Pix2Pixアルゴリズムを用いた任意マスクからの合成氷河SAR画像の生成 [全文訳有]

Synthetic Glacier SAR Image Generation from Arbitrary Masks Using Pix2Pix Algorithm ( http://arxiv.org/abs/2101.03252v2 )

ライセンス: CC BY 4.0
Rosanna Dietrich-Sussner, Amirabbas Davari, Thorsten Seehaus, Matthias Braun, Vincent Christlein, Andreas Maier, Christian Riess(参考訳) 教師あり機械学習は、適切なテスト結果を得るために大量のラベル付きデータを必要とする。 しかし、合成開口レーダ(SAR)の画像を含むリモートセンシング画像上で正確なラベル付きセグメンテーションマップを生成するのは退屈で、非常に主観的である。 本研究では,Pix2pixアルゴリズムを用いて合成SAR画像を生成することにより,限られたトレーニングデータの問題を軽減することを提案する。 このアルゴリズムは、入力の構造を保ちながら、条件付き生成逆数ネットワーク(cGAN)を用いて人工画像を生成する。 この場合、入力はセグメンテーションマスクであり、そこから対応する合成SAR画像を生成する。 異なるモデルを示し,比較研究を行い,sar画像の説得力のある氷河を定性的・定量的に合成する手法を実証した。

Supervised machine learning requires a large amount of labeled data to achieve proper test results. However, generating accurately labeled segmentation maps on remote sensing imagery, including images from synthetic aperture radar (SAR), is tedious and highly subjective. In this work, we propose to alleviate the issue of limited training data by generating synthetic SAR images with the pix2pix algorithm. This algorithm uses conditional Generative Adversarial Networks (cGANs) to generate an artificial image while preserving the structure of the input. In our case, the input is a segmentation mask, from which a corresponding synthetic SAR image is generated. We present different models, perform a comparative study and demonstrate that this approach synthesizes convincing glaciers in SAR images with promising qualitative and quantitative results.
翻訳日:2021-04-10 05:28:08 公開日:2021-01-14
# ネットワークエッジにおける最適サービス配置のための拡張インデックスポリシーの学習

Learning Augmented Index Policy for Optimal Service Placement at the Network Edge ( http://arxiv.org/abs/2101.03641v2 )

ライセンス: Link先を確認
Guojun Xiong, Rahul Singh, Jian Li(参考訳) 私たちは、ネットワークエッジにおけるサービス配置の問題を考慮し、意思決定者は、顧客の要求を満たすためにエッジにホストするn$サービスを選択する必要があります。 当社の目標は、顧客に対する平均的なサービスデリバリレイテンシを最小化する、適応型アルゴリズムの設計です。 我々は,システム状態が各サービスに対して,現在エッジで待機している顧客数を説明することで,システム状態が付与されるマルコフ決定プロセス(MDP)として,この問題に対処する。 しかし、この$N$-services MDPの解決には次元の呪いがあるため計算コストがかかる。 この課題を克服するために、単一サービスMDPの最適ポリシーは、魅力的なしきい値構造を持ち、Whittleインデックスポリシーの理論に基づく顧客の要求数関数として、各サービスのWhittleインデックスを明示的に導出することを示した。 要求到着率とサービス提供率は通常不明であり、おそらく時間変化があるため、学習不足の少ない最適ポリシーの構造を完全に活用する効率的な学習拡張アルゴリズムを開発する。 そのうちの1つは UCB-Whittle であり、不確実性に直面した楽観主義の原理に依存している。 第2のアルゴリズムであるQ-learning-Whittleは、2時間スケール確率近似を用いて、各サービスのQ-learningイテレーションを利用する。 学習後悔を分析し,Q-learning-Whittleの収束特性を解析することにより, UCB-Whittleの非漸近性能を特徴付ける。 シミュレーションの結果,提案手法は優れた経験的性能を示した。

We consider the problem of service placement at the network edge, in which a decision maker has to choose between $N$ services to host at the edge to satisfy the demands of customers. Our goal is to design adaptive algorithms to minimize the average service delivery latency for customers. We pose the problem as a Markov decision process (MDP) in which the system state is given by describing, for each service, the number of customers that are currently waiting at the edge to obtain the service. However, solving this $N$-services MDP is computationally expensive due to the curse of dimensionality. To overcome this challenge, we show that the optimal policy for a single-service MDP has an appealing threshold structure, and derive explicitly the Whittle indices for each service as a function of the number of requests from customers based on the theory of Whittle index policy. Since request arrival and service delivery rates are usually unknown and possibly time-varying, we then develop efficient learning augmented algorithms that fully utilize the structure of optimal policies with a low learning regret. The first of these is UCB-Whittle, and relies upon the principle of optimism in the face of uncertainty. The second algorithm, Q-learning-Whittle, utilizes Q-learning iterations for each service by using a two time scale stochastic approximation. We characterize the non-asymptotic performance of UCB-Whittle by analyzing its learning regret, and also analyze the convergence properties of Q-learning-Whittle. Simulation results show that the proposed policies yield excellent empirical performance.
翻訳日:2021-04-08 08:19:27 公開日:2021-01-14
# 階層型Echo状態ネットワークにおける複数時間スケールのエクスプロイト

Exploiting Multiple Timescales in Hierarchical Echo State Networks ( http://arxiv.org/abs/2101.04223v2 )

ライセンス: Link先を確認
Luca Manneschi, Matthew O. A. Ellis, Guido Gigante, Andrew C. Lin, Paolo Del Giudice, Eleni Vasilaki(参考訳) エコー状態ネットワーク(esns)はリニア出力重みのトレーニングのみを必要とする強力なリザーバコンピューティング形態であり、内部リザーバはランダムに結合したニューロンで形成されている。 正しくスケールされた接続行列により、ニューロンの活動はエコー状態の性質を示し、特定の時間スケールで入力ダイナミクスに応答する。 ネットワークの時間スケールを調整することは特定のタスクを扱うのに必要であり、効率的な表現のために複数の時間スケールを必要とする環境もある。 ここでは、階層型ESNにおける時間スケールについて検討し、貯水池を異なる性質を持つ2つの小さな連結貯水池に分割する。 3つの異なるタスク (NARMA10, 揮発性環境における再構成タスク, psMNIST) に対して, 各パーティションのハイパーパラメータを選択して, 異なる時間スケールにフォーカスすることにより, 単一ESNよりも大幅な性能向上を実現する。 線形解析により、第1分割の時間スケールが第2のよりもはるかに短い(典型的には最適動作条件に対応する)という仮定の下で、第1分割から第2への入力信号の効果的な表現の観点から分割のフィードフォワード結合を解釈し、即時入力信号をその時間微分の重み付け結合に拡張する。 さらに,時間によるバックプロパゲーションのオンライン近似である勾配降下最適化手法を用いて,ハイパーパラメータを最適化するデータ駆動手法を提案する。 本研究は,オンライン学習規則の適用を,検討対象のすべてのタスクに適用した。

Echo state networks (ESNs) are a powerful form of reservoir computing that only require training of linear output weights whilst the internal reservoir is formed of fixed randomly connected neurons. With a correctly scaled connectivity matrix, the neurons' activity exhibits the echo-state property and responds to the input dynamics with certain timescales. Tuning the timescales of the network can be necessary for treating certain tasks, and some environments require multiple timescales for an efficient representation. Here we explore the timescales in hierarchical ESNs, where the reservoir is partitioned into two smaller linked reservoirs with distinct properties. Over three different tasks (NARMA10, a reconstruction task in a volatile environment, and psMNIST), we show that by selecting the hyper-parameters of each partition such that they focus on different timescales, we achieve a significant performance improvement over a single ESN. Through a linear analysis, and under the assumption that the timescales of the first partition are much shorter than the second's (typically corresponding to optimal operating conditions), we interpret the feedforward coupling of the partitions in terms of an effective representation of the input signal, provided by the first partition to the second, whereby the instantaneous input signal is expanded into a weighted combination of its time derivatives. Furthermore, we propose a data-driven approach to optimise the hyper-parameters through a gradient descent optimisation method that is an online approximation of backpropagation through time. We demonstrate the application of the online learning rule across all the tasks considered.
翻訳日:2021-04-04 14:34:43 公開日:2021-01-14
# Smooth Wasserstein Distance から Dual Sobolev Norm へ:実証近似と統計的応用

From Smooth Wasserstein Distance to Dual Sobolev Norm: Empirical Approximation and Statistical Applications ( http://arxiv.org/abs/2101.04039v2 )

ライセンス: Link先を確認
Sloan Nietert, Ziv Goldfeld, Kengo Kato(参考訳) 統計的距離、すなわち確率分布間の差測度は確率論、統計学、機械学習においてユビキタスである。 データから距離を推定する際の次元の呪いに対処するため、ガウス核との畳み込みによって測定された分布の局所的不規則性を平滑化することを提案した。 滑らかな枠組みの高次元への拡張性に動機づけられ、任意の $p\geq 1$ に対して、ガウスのスムースである $p$-wasserstein 距離 $\mathsf{w}_p^{(\sigma)}$ の構造的および統計的挙動を詳細に研究した。 まず、$\mathsf{w}_p^{(\sigma)}$ は、古典的な$\mathsf{w}_p$ と位相的に等価で、$\sigma$ の摂動に関して安定な計量構造を持つことを示すことから始める。 統計的な問題に移行して、$\hat{\mu}_n$ の漸近的性質を探索し、$\hat{\mu}_n$ は$n$ i.d の経験的分布である。 サンプルは$\mu$。 この目的のために、$\mathsf{W}_p^{(\sigma)}$が$p$2次滑らかな双対ソボレフノルム$\mathsf{d}_p^{(\sigma)}$で制御されていることを証明している。 {\mathsf{d}_p^{(\sigma)}(\hat{\mu}_n,\mu)$ はガウスの滑らかなソボレフ関数によってインデックスづけされた経験的過程の上限と一致するので、経験的過程理論による解析に有利である。 任意の次元$d$ において、$\sqrt{n}\mathsf{d}_p^{(\sigma)}(\hat{\mu}_n,\mu)$ の極限分布を導出する。 上記の境界を通じて、パラメトリックな経験的収束率は$n^{-1/2}$で$\mathsf{w}_p^{(\sigma)}$であり、$d \geq 3$のとき$n^{-1/d}$が$smoothed $\mathsf{w}_p$であるのとは対照的である。 アプリケーションとして、2サンプルテストと最小距離推定の漸近保証を提供する。 p=2$ の場合、さらに $\mathsf{d}_2^{(\sigma)}$ を最大平均不一致として表現できることを示す。

Statistical distances, i.e., discrepancy measures between probability distributions, are ubiquitous in probability theory, statistics and machine learning. To combat the curse of dimensionality when estimating these distances from data, recent work has proposed smoothing out local irregularities in the measured distributions via convolution with a Gaussian kernel. Motivated by the scalability of the smooth framework to high dimensions, we conduct an in-depth study of the structural and statistical behavior of the Gaussian-smoothed $p$-Wasserstein distance $\mathsf{W}_p^{(\sigma)}$, for arbitrary $p\geq 1$. We start by showing that $\mathsf{W}_p^{(\sigma)}$ admits a metric structure that is topologically equivalent to classic $\mathsf{W}_p$ and is stable with respect to perturbations in $\sigma$. Moving to statistical questions, we explore the asymptotic properties of $\mathsf{W}_p^{(\sigma)}(\hat{\mu}_n,\mu)$, where $\hat{\mu}_n$ is the empirical distribution of $n$ i.i.d. samples from $\mu$. To that end, we prove that $\mathsf{W}_p^{(\sigma)}$ is controlled by a $p$th order smooth dual Sobolev norm $\mathsf{d}_p^{(\sigma)}$. Since $\mathsf{d}_p^{(\sigma)}(\hat{\mu}_n,\mu)$ coincides with the supremum of an empirical process indexed by Gaussian-smoothed Sobolev functions, it lends itself well to analysis via empirical process theory. We derive the limit distribution of $\sqrt{n}\mathsf{d}_p^{(\sigma)}(\hat{\mu}_n,\mu)$ in all dimensions $d$, when $\mu$ is sub-Gaussian. Through the aforementioned bound, this implies a parametric empirical convergence rate of $n^{-1/2}$ for $\mathsf{W}_p^{(\sigma)}$, contrasting the $n^{-1/d}$ rate for unsmoothed $\mathsf{W}_p$ when $d \geq 3$. As applications, we provide asymptotic guarantees for two-sample testing and minimum distance estimation. When $p=2$, we further show that $\mathsf{d}_2^{(\sigma)}$ can be expressed as a maximum mean discrepancy.
翻訳日:2021-04-04 14:28:22 公開日:2021-01-14
# BERTの非線形性と通信性

Of Non-Linearity and Commutativity in BERT ( http://arxiv.org/abs/2101.04547v3 )

ライセンス: Link先を確認
Sumu Zhao, Damian Pascual, Gino Brunner, Roger Wattenhofer(参考訳) 本研究では、トランスフォーマーアーキテクチャ、特にその最も有名な変種BERTについて、新たな洞察を提供する。 まず,変圧器の異なる要素の非線形性の度合いを測定する手法を提案する。 次に,モデルパラメータの2/3を含むトランスフォーワード内のフィードフォワードネットワーク(ffn)に着目し,これまでにはあまり注目されていない。 FFNは非効率で重要なアーキテクチャ要素であり、性能の劣化なしには単に注目ブロックに置き換えることはできない。 さらに, BERT層間の相互作用について検討し, 階層構造を示す一方で, ファジィな方法で特徴を抽出することを示した。 以上の結果から,BERTは層可換性に対して帰納的偏りがあることが示唆された。 これは、リカレントおよび重み共有トランスモデルの性能向上の正当性を提供する。

In this work we provide new insights into the transformer architecture, and in particular, its best-known variant, BERT. First, we propose a method to measure the degree of non-linearity of different elements of transformers. Next, we focus our investigation on the feed-forward networks (FFN) inside transformers, which contain 2/3 of the model parameters and have so far not received much attention. We find that FFNs are an inefficient yet important architectural element and that they cannot simply be replaced by attention blocks without a degradation in performance. Moreover, we study the interactions between layers in BERT and show that, while the layers exhibit some hierarchical structure, they extract features in a fuzzy manner. Our results suggest that BERT has an inductive bias towards layer commutativity, which we find is mainly due to the skip connections. This provides a justification for the strong performance of recurrent and weight-shared transformer models.
翻訳日:2021-04-04 01:54:07 公開日:2021-01-14
# CityFlow-NL:自然言語記述による都市規模の自動車の追跡と検索

CityFlow-NL: Tracking and Retrieval of Vehicles at City Scale by Natural Language Descriptions ( http://arxiv.org/abs/2101.04741v2 )

ライセンス: Link先を確認
Qi Feng, Vitaly Ablavsky, Stan Sclaroff(参考訳) 自然言語(NL)の記述は、都市規模の交通パターンや車両関連の出来事を理解し、検出するために構築されたシステムと対話する最も便利または唯一の方法である。 本稿では,広く採用されているCityFlow Benchmarkを拡張し,車載目標の自然言語記述とCityFlow-NL Benchmarkの導入について述べる。 CityFlow-NLには5000以上のユニークかつ正確なNL記述が含まれており、私たちの知る限り、NL記述データセットによる最大規模のトラッキングを実現している。 さらに、データセットは、マルチオブジェクト追跡、nl記述による検索、イベントの時間的局在の交点の研究を容易にする。

Natural Language (NL) descriptions can be the most convenient or the only way to interact with systems built to understand and detect city scale traffic patterns and vehicle-related events. In this paper, we extend the widely adopted CityFlow Benchmark with natural language descriptions for vehicle targets and introduce the CityFlow-NL Benchmark. The CityFlow-NL contains more than 5,000 unique and precise NL descriptions of vehicle targets, making it the largest-scale tracking with NL descriptions dataset to our knowledge. Moreover, the dataset facilitates research at the intersection of multi-object tracking, retrieval by NL descriptions, and temporal localization of events.
翻訳日:2021-04-04 01:42:42 公開日:2021-01-14
# (参考訳) EEC:継続的な学習のための画像のエンコードと再生の学習 [全文訳有]

EEC: Learning to Encode and Regenerate Images for Continual Learning ( http://arxiv.org/abs/2101.04904v2 )

ライセンス: CC BY 4.0
Ali Ayub, Alan R. Wagner(参考訳) 継続的な学習に対する2つの障害は、データの保存における破滅的な忘れとメモリ制限である。 これらの課題に対処するため,ニューラルスタイルトランスファーを用いてオートエンコーダを訓練し,画像のエンコードと保存を行う,認知に触発された新しいアプローチを提案する。 新しいタスクのトレーニング中に、破滅的な忘れ物を避けるために、符号化されたエピソードからの再構成画像を再生する。 再構成画像の損失関数を重み付けし、分類器訓練時の効果を低減し、画像劣化に対処する。 システムがメモリが切れると、符号化されたエピソードはセンタロイドと共分散行列に変換され、分類器のトレーニング中に擬似画像を生成するために使用され、メモリを少なくして分類器の性能を安定させる。 ベンチマークデータセットの最先端手法に比べて,分類精度は13~17%向上し,ストレージスペースは78%削減した。

The two main impediments to continual learning are catastrophic forgetting and memory limitations on the storage of data. To cope with these challenges, we propose a novel, cognitively-inspired approach which trains autoencoders with Neural Style Transfer to encode and store images. During training on a new task, reconstructed images from encoded episodes are replayed in order to avoid catastrophic forgetting. The loss function for the reconstructed images is weighted to reduce its effect during classifier training to cope with image degradation. When the system runs out of memory the encoded episodes are converted into centroids and covariance matrices, which are used to generate pseudo-images during classifier training, keeping classifier performance stable while using less memory. Our approach increases classification accuracy by 13-17% over state-of-the-art methods on benchmark datasets, while requiring 78% less storage space.
翻訳日:2021-04-03 20:18:39 公開日:2021-01-14
# (参考訳) EventAnchor:ラケットスポーツビデオのイベントアノテーションにおけるヒューマンインタラクションの削減 [全文訳有]

EventAnchor: Reducing Human Interactions in Event Annotation of Racket Sports Videos ( http://arxiv.org/abs/2101.04954v2 )

ライセンス: CC BY 4.0
Dazhen Deng, Jiang Wu, Jiachen Wang, Yihong Wu, Xiao Xie, Zheng Zhou, Hui Zhang, Xiaolong Zhang, Yingcai Wu(参考訳) ラケットスポーツ(テニスや卓球など)の人気は、表記分析などのデータ分析に対する高い需要をプレイヤーのパフォーマンスにもたらしている。 スポーツビデオはそのような分析に多くの利点をもたらすが、スポーツビデオから正確な情報を取得することは困難である。 本稿では,コンピュータビジョンアルゴリズムをサポートしたラケットスポーツビデオのインタラクティブアノテーションを容易にするデータ分析フレームワークであるEventAnchorを提案する。 我々のアプローチでは、コンピュータビジョンにおける機械学習モデルを使用して、ユーザーがビデオ(例えば、コートのボールバウンシング)から重要なイベントを取得するのを助け、データアノテーションのためのインタラクティブなツールセットを提供する。 このフレームワークに基づくテーブルテニスアノテーションシステムの評価研究は、関心のあるオブジェクトに対する単純なアノテーションタスクとドメイン知識を必要とする複雑なアノテーションタスクでのユーザパフォーマンスが大幅に向上していることを示している。

The popularity of racket sports (e.g., tennis and table tennis) leads to high demands for data analysis, such as notational analysis, on player performance. While sports videos offer many benefits for such analysis, retrieving accurate information from sports videos could be challenging. In this paper, we propose EventAnchor, a data analysis framework to facilitate interactive annotation of racket sports video with the support of computer vision algorithms. Our approach uses machine learning models in computer vision to help users acquire essential events from videos (e.g., serve, the ball bouncing on the court) and offers users a set of interactive tools for data annotation. An evaluation study on a table tennis annotation system built on this framework shows significant improvement of user performances in simple annotation tasks on objects of interest and complex annotation tasks requiring domain knowledge.
翻訳日:2021-04-03 17:57:03 公開日:2021-01-14
# (参考訳) MRI画像、脳病変、ディープラーニング

MRI Images, Brain Lesions and Deep Learning ( http://arxiv.org/abs/2101.05091v2 )

ライセンス: CC BY 4.0
Darwin Castillo, Vasudevan Lakshminarayanan, Maria J. Rodriguez-Alvarez(参考訳) 医療用脳画像解析はコンピュータ支援/補助診断(CAD)システムにおいて必要なステップである。 過去数年間のハードウェアとソフトウェアの進歩は、様々な病気の分類と分類の改善につながった。 本稿では,脳梗塞や脱髄疾患の脳mri画像の白質高血圧(wmhs)の分類,同定,検出を可能にするシステムとアルゴリズムに関する論文を概説する。 選択基準として,文献ネットワークを用いた。 総計140件の文書の中から,本研究の主な目的を扱った38の論文を選定した。 改訂された文書の分析と議論に基づき、虚血性病変と脱髄性病変の分節化の精度と信頼性を最大化するために、深層学習の新しいモデルの研究と提案が絶え間なく進められている。 指標付きモデル(Dice Score, DSC: 0.99)が発見されたが、小さなデータセットの使用と再現性の欠如により、実用的な応用はほとんどなかった。 したがって,CAD開発と臨床環境における完全活用のギャップを克服するために,多分野の研究グループを確立することが主な目的である。

Medical brain image analysis is a necessary step in Computer Assisted /Aided Diagnosis (CAD) systems. Advancements in both hardware and software in the past few years have led to improved segmentation and classification of various diseases. In the present work, we review the published literature on systems and algorithms that allow for classification, identification, and detection of White Matter Hyperintensities (WMHs) of brain MRI images specifically in cases of ischemic stroke and demyelinating diseases. For the selection criteria, we used the bibliometric networks. Out of a total of 140 documents we selected 38 articles that deal with the main objectives of this study. Based on the analysis and discussion of the revised documents, there is constant growth in the research and proposal of new models of deep learning to achieve the highest accuracy and reliability of the segmentation of ischemic and demyelinating lesions. Models with indicators (Dice Score, DSC: 0.99) were found, however with little practical application due to the uses of small datasets and lack of reproducibility. Therefore, the main conclusion is to establish multidisciplinary research groups to overcome the gap between CAD developments and their complete utilization in the clinical environment.
翻訳日:2021-03-30 13:33:29 公開日:2021-01-14
# Marathiテキスト分類のためのディープラーニングモデルの実験的評価

Experimental Evaluation of Deep Learning models for Marathi Text Classification ( http://arxiv.org/abs/2101.04899v2 )

ライセンス: Link先を確認
Atharva Kulkarni, Meet Mandhane, Manali Likhitkar, Gayatri Kshirsagar, Jayashree Jagdale, Raviraj Joshi(参考訳) マラーティー語(marathi language)は、インドで使われている言語の一つ。 主にマハラシュトラ人によって話されている。 過去10年間で、オンラインプラットフォームでの言語の使用は大幅に増加した。 しかし,マラタイ語テキストに対する自然言語処理(NLP)手法の研究はあまり注目されていない。 マラティー語は形態学的に豊かな言語であり、デヴァナガリ文字の変種を書体で用いている。 この作業は、Marathiテキスト分類の利用可能なリソースとモデルに関する包括的な概要を提供することを目的としている。 CNN, LSTM, ULMFiT, BERTをベースとした2つのテキスト分類データセットの評価を行い, 比較分析を行った。 FacebookとIndicNLPによる事前訓練されたマラタイの高速テキスト単語埋め込みは、単語ベースモデルと組み合わせて使用される。 CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。 我々は,マラティアNLPの領域における研究と実験に焦点を当てた論文を期待する。

The Marathi language is one of the prominent languages used in India. It is predominantly spoken by the people of Maharashtra. Over the past decade, the usage of language on online platforms has tremendously increased. However, research on Natural Language Processing (NLP) approaches for Marathi text has not received much attention. Marathi is a morphologically rich language and uses a variant of the Devanagari script in the written form. This works aims to provide a comprehensive overview of available resources and models for Marathi text classification. We evaluate CNN, LSTM, ULMFiT, and BERT based models on two publicly available Marathi text classification datasets and present a comparative analysis. The pre-trained Marathi fast text word embeddings by Facebook and IndicNLP are used in conjunction with word-based models. We show that basic single layer models based on CNN and LSTM coupled with FastText embeddings perform on par with the BERT based models on the available datasets. We hope our paper aids focused research and experiments in the area of Marathi NLP.
翻訳日:2021-03-30 08:07:42 公開日:2021-01-14
# (参考訳) 軽量多情報融合ネットワークによる画像デブラリング [全文訳有]

Image deblurring based on lightweight multi-information fusion network ( http://arxiv.org/abs/2101.05403v1 )

ライセンス: CC BY 4.0
Yanni Zhang, Yiming Liu, Qiang Li, Miao Qi, Dahong Xu, Jun Kong, Jianzhong Wang(参考訳) 近年,深層学習による画像の劣化がよく研究されている。 しかし、ディープラーニングフレームワークで詳細な画像特徴を利用するには、常に大量のパラメータを必要とするため、必然的にネットワークは高い計算負担に悩まされる。 この問題を解決するために,画像デブロアリングのための軽量多情報融合ネットワーク(LMFN)を提案する。 提案するLMFNはエンコーダデコーダアーキテクチャとして設計されている。 符号化段階では、大量の情報損失を伴わずに、多次元情報抽出・融合のための様々な小規模空間に画像特徴を縮小する。 そして、復号段階で蒸留網を用い、十分な軽量さを維持しながら残差学習の恩恵を受けられるようにした。 一方, 蒸留モジュールと特徴チャネル間の情報融合戦略は, 注意機構によって行われる。 提案手法で異なる情報を融合することにより,提案ネットワークは,パラメータの少ない最先端画像のデブロアリングを達成でき,既存の手法よりも複雑なモデルで優れる。

Recently, deep learning based image deblurring has been well developed. However, exploiting the detailed image features in a deep learning framework always requires a mass of parameters, which inevitably makes the network suffer from high computational burden. To solve this problem, we propose a lightweight multiinformation fusion network (LMFN) for image deblurring. The proposed LMFN is designed as an encoder-decoder architecture. In the encoding stage, the image feature is reduced to various smallscale spaces for multi-scale information extraction and fusion without a large amount of information loss. Then, a distillation network is used in the decoding stage, which allows the network benefit the most from residual learning while remaining sufficiently lightweight. Meanwhile, an information fusion strategy between distillation modules and feature channels is also carried out by attention mechanism. Through fusing different information in the proposed approach, our network can achieve state-of-the-art image deblurring result with smaller number of parameters and outperforms existing methods in model complexity.
翻訳日:2021-03-29 11:17:58 公開日:2021-01-14
# (参考訳) DAIL:顔認識のためのデータセット認識と不変学習 [全文訳有]

DAIL: Dataset-Aware and Invariant Learning for Face Recognition ( http://arxiv.org/abs/2101.05419v1 )

ライセンス: CC BY 4.0
Gaoang Wang, Lin Chen, Tianqiang Liu, Mingwei He, and Jiebo Luo(参考訳) 顔認識の性能向上のためには、通常大規模なトレーニングデータセットが必要である。 認識性能を改善するためのシンプルで効果的な方法は、トレーニングで複数のデータセットを組み合わせることで、可能な限り大きなデータセットを使用することである。 しかし、2つの大きな問題により、異なるデータセットをナイーブに結合するのは問題であり、面倒です。 まず、同じ人物が異なるデータセットに現れる可能性があり、異なるデータセット間でアイデンティティが重複する問題が発生する。 トレーニング中に異なるデータセットで同じ人を異なるクラスとして扱い、バックプロパゲーションに影響を与え、非表現埋め込みを生成する。 一方、手動でラベルをクリーニングする作業は、特に何百万もの画像と何千ものアイデンティティがある場合、人的努力を要する可能性がある。 第2に、異なるデータセットが異なる状況で収集されるため、異なるドメイン分布が生まれる。 データセットを組み合わせることで、さまざまなデータセットにまたがるドメイン不変の埋め込みを学ぶのが難しくなる。 本稿では、上記の課題を解決するために、dail: dataset-aware and invariant learningを提案する。 本稿では,同一人物が複数データセットに出現した場合のペナルティを低減し,複数データセットのトレーニングにおけるデータセット認識損失を解消する。 これはデータセット認識項による修正ソフトマックス損失で容易に達成できる。 第2の問題を解決するために、データセット不変学習に勾配反転層を用いた領域適応を用いる。 提案手法は,lfw,cfp-fp,agesb-30 などの顔認証セットにおいて最先端の結果を得るだけでなく,実用化にも大きなメリットがある。

To achieve good performance in face recognition, a large scale training dataset is usually required. A simple yet effective way to improve recognition performance is to use a dataset as large as possible by combining multiple datasets in the training. However, it is problematic and troublesome to naively combine different datasets due to two major issues. First, the same person can possibly appear in different datasets, leading to an identity overlapping issue between different datasets. Naively treating the same person as different classes in different datasets during training will affect back-propagation and generate non-representative embeddings. On the other hand, manually cleaning labels may take formidable human efforts, especially when there are millions of images and thousands of identities. Second, different datasets are collected in different situations and thus will lead to different domain distributions. Naively combining datasets will make it difficult to learn domain invariant embeddings across different datasets. In this paper, we propose DAIL: Dataset-Aware and Invariant Learning to resolve the above-mentioned issues. To solve the first issue of identity overlapping, we propose a dataset-aware loss for multi-dataset training by reducing the penalty when the same person appears in multiple datasets. This can be readily achieved with a modified softmax loss with a dataset-aware term. To solve the second issue, domain adaptation with gradient reversal layers is employed for dataset invariant learning. The proposed approach not only achieves state-of-the-art results on several commonly used face recognition validation sets, including LFW, CFP-FP, and AgeDB-30, but also shows great benefit for practical use.
翻訳日:2021-03-29 11:08:01 公開日:2021-01-14
# (参考訳) TSQA: 言語シナリオに基づく質問応答 [全文訳有]

TSQA: Tabular Scenario Based Question Answering ( http://arxiv.org/abs/2101.11429v1 )

ライセンス: CC BY 4.0
Xiao Li, Yawei Sun, Gong Cheng(参考訳) シナリオベースの質問応答(SQA)が研究の関心を集めている。 SQAは、よく研究されている機械読解(MRC)と比較すると、より困難なタスクである: シナリオは読み込むためのテキストパスだけでなく、テーブルのような構造化されたデータ、すなわち表シナリオベースの質問応答(TSQA)も含む。 TSQAのAI応用、例えば高校の試験で複数の選択質問に答えるには、複数のセルでデータを合成し、答えを推測するためにテーブルとテキストとドメイン知識を組み合わせる必要がある。 本研究を支援するため,GeoTSQAを構築した。 このデータセットには、地理領域の表のシナリオによってコンテキスト化された1万個の実質問が含まれている。 この課題を解決するため、新しいテーブル・トゥ・テキスト・ジェネレータであるTTGenを用いて最先端のMRC手法を拡張した。 様々な合成表データから文を生成し、最も有用な文で下流のMCC法をフィードする。 その文のランク付けモデルは、シナリオ、質問、ドメイン知識の情報を融合します。 提案手法はGeoTSQAの様々な強力なベースライン法より優れている。

Scenario-based question answering (SQA) has attracted an increasing research interest. Compared with the well-studied machine reading comprehension (MRC), SQA is a more challenging task: a scenario may contain not only a textual passage to read but also structured data like tables, i.e., tabular scenario based question answering (TSQA). AI applications of TSQA such as answering multiple-choice questions in high-school exams require synthesizing data in multiple cells and combining tables with texts and domain knowledge to infer answers. To support the study of this task, we construct GeoTSQA. This dataset contains 1k real questions contextualized by tabular scenarios in the geography domain. To solve the task, we extend state-of-the-art MRC methods with TTGen, a novel table-to-text generator. It generates sentences from variously synthesized tabular data and feeds the downstream MRC method with the most useful sentences. Its sentence ranking model fuses the information in the scenario, question, and domain knowledge. Our approach outperforms a variety of strong baseline methods on GeoTSQA.
翻訳日:2021-03-29 10:50:18 公開日:2021-01-14
# (参考訳) 臨床テキストからの医用コード予測のための説明可能なCNNアプローチ [全文訳有]

An Explainable CNN Approach for Medical Codes Prediction from Clinical Text ( http://arxiv.org/abs/2101.11430v1 )

ライセンス: CC BY 4.0
Shu Yuan Hu and Fei Teng(参考訳) 方法: 集中治療室(ICU)における臨床テキストに基づくCNNによる自動ICD符号化手法を開発した。 私たちは、各ラベルのローカルおよび低レベルな特徴を学習できる、浅く広い注意の畳み込みメカニズム(swam)を考え出しました。 モデル設計の背後にある重要な考え方は、各コードと相関する臨床テキストに情報スニペットが存在することを探ることであり、我々は「情報スニペット」と「畳み込みフィルタ」の対応があることを推測する。 結果: ICU医療記録のオープンアクセスデータセットMIMIC-IIIについて検討した。 このアプローチは、ミームiiiデータセット上でのtop-50メディカルコード予測の結果を大きく上回っている。 我々は、この改善をswamと分類し、ワイドアーキテクチャにより、異なるコードのユニークな特徴をより広範囲に学習できるモデル能力を与え、アブレーション実験によって証明する。 さらに、異なる符号間の性能不均衡を手動で解析し、特定の符号の学習の難しさを決定する特徴を予備的に結論付ける。 結論:我々は,マルチラベル文書分類のための説明可能なcnnアプローチであるswamを提案する。広層畳み込み層を用いて各ラベルの局所的および低レベルな特徴を学習し,icd-9コード予測タスクの以前の指標に対して強力な改善を行い,内部力学の十分な説明を提供する。

Method: We develop CNN-based methods for automatic ICD coding based on clinical text from intensive care unit (ICU) stays. We come up with the Shallow and Wide Attention convolutional Mechanism (SWAM), which allows our model to learn local and low-level features for each label. The key idea behind our model design is to look for the presence of informative snippets in the clinical text that correlated with each code, and we infer that there exists a correspondence between "informative snippet" and convolution filter. Results: We evaluate our approach on MIMIC-III, an open-access dataset of ICU medical records. Our approach substantially outperforms previous results on top-50 medical code prediction on MIMIC-III dataset. We attribute this improvement to SWAM, by which the wide architecture gives the model ability to more extensively learn the unique features of different codes, and we prove it by ablation experiment. Besides, we perform manual analysis of the performance imbalance between different codes, and preliminary conclude the characteristics that determine the difficulty of learning specific codes. Conclusions: We present SWAM, an explainable CNN approach for multi-label document classification, which employs a wide convolution layer to learn local and low-level features for each label, yields strong improvements over previous metrics on the ICD-9 code prediction task, while providing satisfactory explanations for its internal mechanics.
翻訳日:2021-03-29 10:35:00 公開日:2021-01-14
# (参考訳) 連合学習: 機会と課題 [全文訳有]

Federated Learning: Opportunities and Challenges ( http://arxiv.org/abs/2101.05428v1 )

ライセンス: CC BY 4.0
Priyanka Mary Mammen(参考訳) Federated Learning(FL)は、2016年にGoogleが最初に導入したコンセプトで、複数のデバイスが中央サーバーの監督下でプライベートデータを共有せずに機械学習モデルを共同で学習する。 これは、医療、金融などの重要なドメインにおいて、他の組織やデバイスとプライベートなユーザー情報を共有するリスクがある多くの機会を提供する。 FLはローカルデータをプライベートに保つための有望な機械学習(ML)技術であるように見えるが、他のMLモデルのような攻撃にも脆弱である。 flドメインへの関心が高まる中、本報告では連合学習の機会と課題について述べる。

Federated Learning (FL) is a concept first introduced by Google in 2016, in which multiple devices collaboratively learn a machine learning model without sharing their private data under the supervision of a central server. This offers ample opportunities in critical domains such as healthcare, finance etc, where it is risky to share private user information to other organisations or devices. While FL appears to be a promising Machine Learning (ML) technique to keep the local data private, it is also vulnerable to attacks like other ML models. Given the growing interest in the FL domain, this report discusses the opportunities and challenges in federated learning.
翻訳日:2021-03-29 10:20:04 公開日:2021-01-14
# (参考訳) マルチモーダル脳MRI画像変換のための統一的条件分散フレームワーク [全文訳有]

A Unified Conditional Disentanglement Framework for Multimodal Brain MR Image Translation ( http://arxiv.org/abs/2101.05434v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Georges El Fakhri, Jonghye Woo(参考訳) マルチモーダルMRIは、組織状態を調査し、様々な疾患を特徴づけるために相補的で臨床的に関連のある情報を提供する。 しかし, 定量的解析が要求される一方で, 研究計画の限界により, 同一課題から十分に多くのモダリティを得ることは困難である。 本研究では,任意のモダリティを入力モダリティから合成する統一条件付き不等角化フレームワークを提案する。 本手法は,モダリティ非依存エンコーダを用いてモダリティ不変な解剖学的特徴を抽出し,条件付きデコーダでターゲットモダリティを生成することができる。 我々は,BraTS'18データベースから,T1強調,T1強調,T2強調,FLAIRMRIの4つのMRIモダリティについて検討し,比較法よりも優れた合成品質を示す。 また,合成データを用いて腫瘍の分節処理を行った結果について報告する。

Multimodal MRI provides complementary and clinically relevant information to probe tissue condition and to characterize various diseases. However, it is often difficult to acquire sufficiently many modalities from the same subject due to limitations in study plans, while quantitative analysis is still demanded. In this work, we propose a unified conditional disentanglement framework to synthesize any arbitrary modality from an input modality. Our framework hinges on a cycle-constrained conditional adversarial training approach, where it can extract a modality-invariant anatomical feature with a modality-agnostic encoder and generate a target modality with a conditioned decoder. We validate our framework on four MRI modalities, including T1-weighted, T1 contrast enhanced, T2-weighted, and FLAIR MRI, from the BraTS'18 database, showing superior performance on synthesis quality over the comparison methods. In addition, we report results from experiments on a tumor segmentation task carried out with synthesized data.
翻訳日:2021-03-29 10:10:58 公開日:2021-01-14
# (参考訳) 2サイクル拘束型VAE-GANによる磁気共鳴画像合成 [全文訳有]

Dual-cycle Constrained Bijective VAE-GAN For Tagged-to-Cine Magnetic Resonance Image Synthesis ( http://arxiv.org/abs/2101.05439v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Aaron Carass, Maureen Stone, Georges El Fakhri, Jonghye Woo(参考訳) MRI(Tagged magnetic resonance imaging)は、運動器官の組織変形を測定するために広く用いられるイメージング技術である。 タグ付けされたMRIの内在性低解剖学的解像度のため、高分解能のcine MRIの別のマッチングセットが、同じ走査セッションで取得され、組織セグメンテーションが促進され、時間とコストが増大する。 そこで本研究では, タグ付きMR画像合成を実現するために, 二サイクル拘束型単目的VAE-GANアプローチを提案する。 本手法は, 自己エンコーダバックボーンに周期再構成を制約した逆行訓練を施し, タグ付けしたMR画像から, 高精度でリアルなシネMR画像を得る。 健常者20名から1,768名,416名,1,560名の被験者に依存しないタギングmriとシネmriのペアスライスを用いて,比較法よりも優れた性能を示すフレームワークをトレーニングし,検証し,検証した。 提案手法は,移動解析のためのワークフローを維持しながら,余分な取得時間とコストを削減できる可能性がある。

Tagged magnetic resonance imaging (MRI) is a widely used imaging technique for measuring tissue deformation in moving organs. Due to tagged MRI's intrinsic low anatomical resolution, another matching set of cine MRI with higher resolution is sometimes acquired in the same scanning session to facilitate tissue segmentation, thus adding extra time and cost. To mitigate this, in this work, we propose a novel dual-cycle constrained bijective VAE-GAN approach to carry out tagged-to-cine MR image synthesis. Our method is based on a variational autoencoder backbone with cycle reconstruction constrained adversarial training to yield accurate and realistic cine MR images given tagged MR images. Our framework has been trained, validated, and tested using 1,768, 416, and 1,560 subject-independent paired slices of tagged and cine MRI from twenty healthy subjects, respectively, demonstrating superior performance over the comparison methods. Our method can potentially be used to reduce the extra acquisition time and cost, while maintaining the same workflow for further motion analyses.
翻訳日:2021-03-29 10:01:31 公開日:2021-01-14
# (参考訳) セグメンテーションのための自己指導型学習 [全文訳有]

Self-Supervised Learning for Segmentation ( http://arxiv.org/abs/2101.05456v1 )

ライセンス: CC BY-SA 4.0
Abhinav Dhere, Jayanthi Sivaswamy(参考訳) 自己教師付き学習は、大規模なデータセットからの移動学習に有効な代用として出現している。 この研究では、腎臓分節を用いてこのアイデアを探求する。 腎臓の解剖学的非対称性は、自己教師付き学習による腎臓分画の効果的なプロキシタスクを定義するために利用される。 siamese convolutional neural network (cnn)は、与えられた1対の腎臓切片をctボリュームから同一または異なる側面の腎臓に分類するために使用される。 この知識は、セグメンテーションネットワークのエンコーダとしてシアムCNNの1つの枝を用いて、もう1つの深いCNNを用いて腎臓のセグメンテーションのために転送される。 腹部領域のCT(Computed tomography)スキャンを含む公開データセットの評価結果は,従来訓練されていたネットワークと比較して,性能の向上と高速収束が期待できることを示している。 トレーニングで追加のデータ/拡張アノテーションや拡張が使用されていない点が注目に値する。

Self-supervised learning is emerging as an effective substitute for transfer learning from large datasets. In this work, we use kidney segmentation to explore this idea. The anatomical asymmetry of kidneys is leveraged to define an effective proxy task for kidney segmentation via self-supervised learning. A siamese convolutional neural network (CNN) is used to classify a given pair of kidney sections from CT volumes as being kidneys of the same or different sides. This knowledge is then transferred for the segmentation of kidneys using another deep CNN using one branch of the siamese CNN as the encoder for the segmentation network. Evaluation results on a publicly available dataset containing computed tomography (CT) scans of the abdominal region shows that a boost in performance and fast convergence can be had relative to a network trained conventionally from scratch. This is notable given that no additional data/expensive annotations or augmentation were used in training.
翻訳日:2021-03-29 09:29:02 公開日:2021-01-14
# (参考訳) 連結設計ニューラルネットワークのための多重分類器アプローチ [全文訳有]

A Multiple Classifier Approach for Concatenate-Designed Neural Networks ( http://arxiv.org/abs/2101.05457v1 )

ライセンス: CC BY 4.0
Ka-Hou Chan, Sio-Kei Im and Wei Ke(参考訳) 本稿では,resnet や densenet などの結合型ニューラルネットワークの性能を向上させるために,最終分類器の圧力を軽減するために,多重分類器法を提案する。 ネットワークセット間で生成された特徴を収集する分類器の設計を行い、分類器の構成層とアクティベーション関数を示し、各分類器の分類スコアを算出する。 ソフトマックス正規化の代わりにL2正規化法を用いて分類器スコアを得る。 また,収束性を高める条件も決定する。 その結果,提案した分類器は実験事例の精度を著しく向上させることができ,本手法が元のモデルよりも優れた性能を示すだけでなく,より高速な収束を実現することを示す。 さらに、分類器は汎用的で、すべての分類関連連結設計ネットワークモデルに適用できる。

This article introduces a multiple classifier method to improve the performance of concatenate-designed neural networks, such as ResNet and DenseNet, with the purpose to alleviate the pressure on the final classifier. We give the design of the classifiers, which collects the features produced between the network sets, and present the constituent layers and the activation function for the classifiers, to calculate the classification score of each classifier. We use the L2 normalization method to obtain the classifier score instead of the Softmax normalization. We also determine the conditions that can enhance convergence. As a result, the proposed classifiers are able to improve the accuracy in the experimental cases significantly, and show that the method not only has better performance than the original models, but also produces faster convergence. Moreover, our classifiers are general and can be applied to all classification related concatenate-designed network models.
翻訳日:2021-03-29 09:24:00 公開日:2021-01-14
# (参考訳) マルチタスクビューにおけるテキスト拡張 [全文訳有]

Text Augmentation in a Multi-Task View ( http://arxiv.org/abs/2101.05469v1 )

ライセンス: CC BY 4.0
Jason Wei, Chengyu Huang, Shiqi Xu, Soroush Vosoughi(参考訳) 従来のデータ拡張は、トレーニングを主とするオンライン方式で、原サンプルに強く類似した拡張例を生成することで、入力分布のカバレッジを向上させることを目的としている。 本稿では,データ拡張のマルチタスクビュー(MTV)という別の視点を提案する。 MTVデータ拡張では、トレーニング中に原サンプルと増分サンプルの両方を実質的に重み付けし、増分サンプルが原データに似なければならないという制約を緩和し、より強力な増分レベルを適用できるようにする。 3つのベンチマークテキスト分類データセットにおける4つの共通データ拡張技術を用いた実験では、mtvが従来の拡張よりも高い、より堅牢なパフォーマンス改善をもたらすことが判明した。

Traditional data augmentation aims to increase the coverage of the input distribution by generating augmented examples that strongly resemble original samples in an online fashion where augmented examples dominate training. In this paper, we propose an alternative perspective -- a multi-task view (MTV) of data augmentation -- in which the primary task trains on original examples and the auxiliary task trains on augmented examples. In MTV data augmentation, both original and augmented samples are weighted substantively during training, relaxing the constraint that augmented examples must resemble original data and thereby allowing us to apply stronger levels of augmentation. In empirical experiments using four common data augmentation techniques on three benchmark text classification datasets, we find that the MTV leads to higher and more robust performance improvements than traditional augmentation.
翻訳日:2021-03-29 09:05:20 公開日:2021-01-14
# (参考訳) 実用的adamに向けて:非凸性、収束理論、ミニバッチ加速

Towards Practical Adam: Non-Convexity, Convergence Theory, and Mini-Batch Acceleration ( http://arxiv.org/abs/2101.05471v1 )

ライセンス: CC BY 4.0
Congliang Chen, Li Shen, Fangyu Zou, Wei Liu(参考訳) アダムは、深層ニューラルネットワークを訓練するための最も影響力のある適応確率アルゴリズムの1つであり、いくつかの単純な反例を通じて単純な凸設定においても発散することが指摘されている。 例えば、適応学習率の低下、大きなバッチサイズの採用、時間的非相関技法の導入、類似のサロゲートである \textit{etc を求めるなどである。 これはAdam型アルゴリズムの収束を促進するためである。 既存の手法とは対照的に,ベース学習率と歴史的2次モーメントの組み合わせのパラメータにのみ依存し,大規模な非凸確率最適化を解くためのジェネリック・アダムのグローバル収束を保証する,チェックが容易な条件を導入する。 この十分条件と組み合わされた観測は、アダムの発散に関するより深い解釈を与える。 一方,ミニバッチと分散Adamは理論上の保証なく広く利用されているため,分散システムのバッチサイズやノード数がAdamの収束にどのように影響するかを解析した結果,ミニバッチと分散Adamは,より大きなミニバッチサイズあるいはより多くのノードを用いて線形に加速可能であることが理論的に示されている。 最終的に、一般的なAdamとミニバッチAdamを、反例を解決するのに十分な条件で適用し、さまざまな実世界のデータセット上で複数の異なるニューラルネットワークをトレーニングする。 実験結果は理論解析と全く一致している。

Adam is one of the most influential adaptive stochastic algorithms for training deep neural networks, which has been pointed out to be divergent even in the simple convex setting via a few simple counterexamples. Many attempts, such as decreasing an adaptive learning rate, adopting a big batch size, incorporating a temporal decorrelation technique, seeking an analogous surrogate, \textit{etc.}, have been tried to promote Adam-type algorithms to converge. In contrast with existing approaches, we introduce an alternative easy-to-check sufficient condition, which merely depends on the parameters of the base learning rate and combinations of historical second-order moments, to guarantee the global convergence of generic Adam for solving large-scale non-convex stochastic optimization. This observation coupled with this sufficient condition gives much deeper interpretations on the divergence of Adam. On the other hand, in practice, mini-Adam and distributed-Adam are widely used without theoretical guarantee, we further give an analysis on how will the batch size or the number of nodes in the distributed system will affect the convergence of Adam, which theoretically shows that mini-batch and distributed Adam can be linearly accelerated by using a larger mini-batch size or more number of nodes. At last, we apply the generic Adam and mini-batch Adam with a sufficient condition for solving the counterexample and training several different neural networks on various real-world datasets. Experimental results are exactly in accord with our theoretical analysis.
翻訳日:2021-03-29 08:56:27 公開日:2021-01-14
# (参考訳) ビデオキャプションのための視覚特徴の探索と加重付加融合 [全文訳有]

Exploration of Visual Features and their weighted-additive fusion for Video Captioning ( http://arxiv.org/abs/2101.05806v1 )

ライセンス: CC BY 4.0
Praveen S V, Akhilesh Bharadwaj, Harsh Raj, Janhavi Dadhania, Ganesh Samarth C.A, Nikhil Pareek, S R M Prasanna(参考訳) ビデオキャプションは、自然言語を使ってビデオ内のイベントを記述するモデルに挑戦する一般的なタスクである。 本研究では、最先端の畳み込みニューラルネットワークから得られる様々な視覚的特徴表現の高レベルな意味的コンテキストを捉える能力について検討する。 本稿では,変換器エンコーダにメモリを組み込んだキャプションモデルであるメモリ拡張エンコーダ(waftm)を用いた重み付き加法融合トランスについて紹介する。 本稿では,ワードピーストークン化と一般的な強化アルゴリズムを適用した性能向上を示す。 最後に、我々のモデルを2つのデータセットでベンチマークし、MSVDで92.4のCIDEr、ActivityNet Captions Datasetで0.091のMETEORを得る。

Video captioning is a popular task that challenges models to describe events in videos using natural language. In this work, we investigate the ability of various visual feature representations derived from state-of-the-art convolutional neural networks to capture high-level semantic context. We introduce the Weighted Additive Fusion Transformer with Memory Augmented Encoders (WAFTM), a captioning model that incorporates memory in a transformer encoder and uses a novel method, to fuse features, that ensures due importance is given to more significant representations. We illustrate a gain in performance realized by applying Word-Piece Tokenization and a popular REINFORCE algorithm. Finally, we benchmark our model on two datasets and obtain a CIDEr of 92.4 on MSVD and a METEOR of 0.091 on the ActivityNet Captions Dataset.
翻訳日:2021-03-29 08:54:57 公開日:2021-01-14
# (参考訳) 訓練済み言語モデルを用いたヒンディー語における敵意検出 [全文訳有]

Hostility Detection in Hindi leveraging Pre-Trained Language Models ( http://arxiv.org/abs/2101.05494v1 )

ライセンス: CC BY-SA 4.0
Ojasv Kamal, Adarsh Kumar and Tejas Vaidhya(参考訳) ソーシャルプラットフォーム上の敵対的コンテンツはますます増えている。 これにより、敵のポストを適切に検出する必要があるため、それらに取り組むための適切なアクションが取られる。 オンラインでの敵対的コンテンツの問題を解決するために、最近英語で多くの作業が行われてきたが、インド語での同様の研究は見つからない。 本稿では、ソーシャルメディア(Twitter、Facebookなど)を分類するための移動学習に基づくアプローチを提案する。 ヒンディー・デヴァナガリ(Hindi Devanagari)は、ホステリーまたはノンホスティル(Non-Hostile)の登場人物。 敵の投稿はさらに分析され、憎しみ、フェイク、デファメーション、攻撃的かどうかが判断される。 本稿では,HindiデータとHostile-Non攻撃タスクを併用した注意ベース事前学習モデルを用いて,その特徴をサブタスク分類に活用する。 このアプローチを通じて、アンサンブルや複雑な前処理なしに、堅牢で一貫したモデルを確立する。 CONSTRAINT-2021 Shared Task on hostile post detectionでは,重み付きF1スコアを用いて,第3走者に対して極めて良好に動作している。

Hostile content on social platforms is ever increasing. This has led to the need for proper detection of hostile posts so that appropriate action can be taken to tackle them. Though a lot of work has been done recently in the English Language to solve the problem of hostile content online, similar works in Indian Languages are quite hard to find. This paper presents a transfer learning based approach to classify social media (i.e Twitter, Facebook, etc.) posts in Hindi Devanagari script as Hostile or Non-Hostile. Hostile posts are further analyzed to determine if they are Hateful, Fake, Defamation, and Offensive. This paper harnesses attention based pre-trained models fine-tuned on Hindi data with Hostile-Non hostile task as Auxiliary and fusing its features for further sub-tasks classification. Through this approach, we establish a robust and consistent model without any ensembling or complex pre-processing. We have presented the results from our approach in CONSTRAINT-2021 Shared Task on hostile post detection where our model performs extremely well with 3rd runner up in terms of Weighted Fine-Grained F1 Score.
翻訳日:2021-03-29 08:19:02 公開日:2021-01-14
# (参考訳) ECOL:コンテンツ、事前知識、ソース情報を用いた早期の新型コロナウイルス検出 [全文訳有]

ECOL: Early Detection of COVID Lies Using Content, Prior Knowledge and Source Information ( http://arxiv.org/abs/2101.05499v1 )

ライセンス: CC BY 4.0
Ipek Baris and Zeyd Boukhers(参考訳) ソーシャルメディアプラットフォームは偽ニュースの拡散に弱いため、医療分野におけるパニックや誤った薬物などの悪影響を引き起こす。 したがって、広く広まる前に、早期に偽ニュースを自動的に検出することが重要である。 本稿では,フェイクニュースの早期発見のためのモデルに,コンテンツ情報,事前知識,情報源の信頼性を取り入れた影響を分析する。 BERT言語モデルと外部ソース,すなわちSimple English Wikipediaとソース信頼性タグを用いて,これらの特徴をモデル化するフレームワークを提案する。 CONSTRAINTデータセットに関する実験では、医療領域におけるフェイクニュースの早期検出のためにこれらの機能を統合するメリットが示された。

Social media platforms are vulnerable to fake news dissemination, which causes negative consequences such as panic and wrong medication in the healthcare domain. Therefore, it is important to automatically detect fake news in an early stage before they get widely spread. This paper analyzes the impact of incorporating content information, prior knowledge, and credibility of sources into models for the early detection of fake news. We propose a framework modeling those features by using BERT language model and external sources, namely Simple English Wikipedia and source reliability tags. The conducted experiments on CONSTRAINT datasets demonstrated the benefit of integrating these features for the early detection of fake news in the healthcare domain.
翻訳日:2021-03-29 08:09:08 公開日:2021-01-14
# (参考訳) 分離埋め込み推定のための関節次元の低減 [全文訳有]

Joint Dimensionality Reduction for Separable Embedding Estimation ( http://arxiv.org/abs/2101.05500v1 )

ライセンス: CC BY 4.0
Yanjun Li, Bihan Wen, Hao Cheng and Yoram Bresler(参考訳) 異なるソースからのデータの低次元埋め込みは、マルチモーダル機械学習、マルチメディア情報検索、バイオインフォマティクスにおいて重要な役割を果たす。 本稿では,異なるモダリティや異なる種類のエンティティからのデータを表す2つの特徴ベクトルに対して,線形埋め込みを学習する教師付き次元減少法を提案する。 また, より効率的な特徴選択法を提案し, 先行して適用可能な共同次元削減法を提案する。 これらの特徴に真の線形埋め込みが存在すると仮定すると、学習線形埋め込みにおける誤差の解析は、ある技術的条件が満たされ、サンプル数が十分に大きい場合に、次元減少法が真の埋め込みを正確に推定する理論的保証を与える。 得られたサンプルの複雑性結果は数値実験によって反映される。 提案手法を遺伝子ダイザイゼ関連に応用し,次元縮小された特徴ベクトルに対するカーネル回帰を用いた未知の関連を予測した。 提案手法は,他の次元減少法と比較し,遺伝子・退化関連を予測するための両線形回帰の最先端手法と比較した。

Low-dimensional embeddings for data from disparate sources play critical roles in multi-modal machine learning, multimedia information retrieval, and bioinformatics. In this paper, we propose a supervised dimensionality reduction method that learns linear embeddings jointly for two feature vectors representing data of different modalities or data from distinct types of entities. We also propose an efficient feature selection method that complements, and can be applied prior to, our joint dimensionality reduction method. Assuming that there exist true linear embeddings for these features, our analysis of the error in the learned linear embeddings provides theoretical guarantees that the dimensionality reduction method accurately estimates the true embeddings when certain technical conditions are satisfied and the number of samples is sufficiently large. The derived sample complexity results are echoed by numerical experiments. We apply the proposed dimensionality reduction method to gene-disease association, and predict unknown associations using kernel regression on the dimension-reduced feature vectors. Our approach compares favorably against other dimensionality reduction methods, and against a state-of-the-art method of bilinear regression for predicting gene-disease associations.
翻訳日:2021-03-29 07:58:40 公開日:2021-01-14
# (参考訳) プライバシ保存型多人数機械学習における重み付けによる信頼性チェック [全文訳有]

Reliability Check via Weight Similarity in Privacy-Preserving Multi-Party Machine Learning ( http://arxiv.org/abs/2101.05504v1 )

ライセンス: CC BY 4.0
Kennedy Edemacu, Beakcheol Jang, Jong Wook Kim(参考訳) マルチパーティ機械学習は、複数の参加者が共同で機械学習モデルをトレーニングし、プライベートなデータを共有することなく共通の学習目標を達成するパラダイムである。 このパラダイムは最近、関連するプライバシー問題に対処するための研究コミュニティから多くの注目を集めている。 本研究は,データプライバシ,モデルプライバシ,およびプライバシ保存マルチパーティ機械学習に関連するデータ品質の懸念,すなわち,データとモデルプライバシを保証しながら参加者のデータ品質をチェックするために,プライバシ保存協調学習のためのスキームを提案する。 特に,重み類似性(weight similarity)と呼ばれる新しい指標を提案し,参加者が信頼できる参加者(良質なデータを保持する)として分類できるかどうかを確認する。 モデルとデータのプライバシの問題は、我々のスキームに準同型暗号化を統合し、暗号化された重みをアップロードすることで解決されます。 提案手法の分析および実験により,精度が向上し,データとモデルのプライバシが保証された。

Multi-party machine learning is a paradigm in which multiple participants collaboratively train a machine learning model to achieve a common learning objective without sharing their privately owned data. The paradigm has recently received a lot of attention from the research community aimed at addressing its associated privacy concerns. In this work, we focus on addressing the concerns of data privacy, model privacy, and data quality associated with privacy-preserving multi-party machine learning, i.e., we present a scheme for privacy-preserving collaborative learning that checks the participants' data quality while guaranteeing data and model privacy. In particular, we propose a novel metric called weight similarity that is securely computed and used to check whether a participant can be categorized as a reliable participant (holds good quality data) or not. The problems of model and data privacy are tackled by integrating homomorphic encryption in our scheme and uploading encrypted weights, which prevent leakages to the server and malicious participants, respectively. The analytical and experimental evaluations of our scheme demonstrate that it is accurate and ensures data and model privacy.
翻訳日:2021-03-29 07:12:26 公開日:2021-01-14
# (参考訳) 勾配推定バイアスを劇的に低減したディープコンブネットへの平衡伝播 [全文訳有]

Scaling Equilibrium Propagation to Deep ConvNets by Drastically Reducing its Gradient Estimator Bias ( http://arxiv.org/abs/2101.05536v1 )

ライセンス: CC BY 4.0
Axel Laborieux, Maxence Ernoult, Benjamin Scellier, Yoshua Bengio, Julie Grollier and Damien Querlioz(参考訳) Equilibrium Propagation (EP) は、その強力な理論的保証と学習ルールの空間における局所性から、学習専用のエネルギー効率の高いハードウェアの設計を促進する、生物学的にインスパイアされたBackproagation Through Time (BPTT) の一種である。 しかし実際には、EPはMNISTよりも難しい視覚タスクにスケールしない。 本研究では, 有限ヌード法に固有のEPの勾配推定の偏りが, この現象の原因となり, 異なる前方および後方接続を持つアーキテクチャを含む, EPによる深部ConvNetsのトレーニングを可能にすることを示す。 これらの結果は、深層ニューラルネットワークのエラー勾配を計算するスケーラブルなアプローチとしてEPを強調し、ハードウェア実装を動機付けている。

Equilibrium Propagation (EP) is a biologically-inspire d counterpart of Backpropagation Through Time (BPTT) which, owing to its strong theoretical guarantees and the locality in space of its learning rule, fosters the design of energy-efficient hardware dedicated to learning. In practice, however, EP does not scale to visual tasks harder than MNIST. In this work, we show that a bias in the gradient estimate of EP, inherent in the use of finite nudging, is responsible for this phenomenon and that cancelling it allows training deep ConvNets by EP, including architectures with distinct forward and backward connections. These results highlight EP as a scalable approach to compute error gradients in deep neural networks, thereby motivating its hardware implementation.
翻訳日:2021-03-29 06:44:41 公開日:2021-01-14
# (参考訳) DICE:条件付き冗長逆推定によるディープアンサンブルの多様性

DICE: Diversity in Deep Ensembles via Conditional Redundancy Adversarial Estimation ( http://arxiv.org/abs/2101.05544v1 )

ライセンス: CC BY 4.0
Alexandre Rame and Matthieu Cord(参考訳) メンバー間の多様性のおかげで、ディープアンサンブルは単一のネットワークよりもパフォーマンスが良い。 最近のアプローチは、多様性を高めるために予測を定式化するが、同時に個々のメンバのパフォーマンスを劇的に低下させる。 本稿では,深層アンサンブルの学習戦略は,アンサンブルの多様性と個々のアキュラシーのトレードオフに対処する必要があると論じる。 情報理論の議論と、条件付き相互情報のニューラルな推定の最近の進歩を活用して、DICEと呼ばれる新しいトレーニング基準を導入し、特徴間の素早い相関を減らして多様性を高める。 主な考え方は、メンバーのペアから抽出された機能は、条件付き冗長さを伴わずに、ターゲットクラス予測に有用な情報を共有することである。 したがって,情報ボトルネックを伴う分類損失に加えて,特徴が互いに条件付きで予測可能であることも防止できる。 クラス情報を保護しながら、同時エラーを減らします。 例えば、DICEで訓練された5つのネットワークのアンサンブルは、独立して訓練された7つのネットワークのアンサンブルと一致する。 さらに, 校正, 不確実性推定, 分布外検出, オンライン共蒸留の結果を解析した。

Deep ensembles perform better than a single network thanks to the diversity among their members. Recent approaches regularize predictions to increase diversity; however, they also drastically decrease individual members' performances. In this paper, we argue that learning strategies for deep ensembles need to tackle the trade-off between ensemble diversity and individual accuracies. Motivated by arguments from information theory and leveraging recent advances in neural estimation of conditional mutual information, we introduce a novel training criterion called DICE: it increases diversity by reducing spurious correlations among features. The main idea is that features extracted from pairs of members should only share information useful for target class prediction without being conditionally redundant. Therefore, besides the classification loss with information bottleneck, we adversarially prevent features from being conditionally predictable from each other. We manage to reduce simultaneous errors while protecting class information. We obtain state-of-the-art accuracy results on CIFAR-10/100: for example, an ensemble of 5 networks trained with DICE matches an ensemble of 7 networks trained independently. We further analyze the consequences on calibration, uncertainty estimation, out-of-distribution detection and online co-distillation.
翻訳日:2021-03-29 06:20:36 公開日:2021-01-14
# (参考訳) エンティティリンクにおける事前の時間性について [全文訳有]

On the Temporality of Priors in Entity Linking ( http://arxiv.org/abs/2101.05593v1 )

ライセンス: CC BY 4.0
Renato Stoffalette Joao(参考訳) エンティティリンクは、テキストの語彙的曖昧さを扱う自然言語処理の基本的なタスクである。 エンティティリンクアプローチにおける重要なコンポーネントは、参照からエンティティへの事前確率である。 エンティティリンクには多くの作業があるが、既存のアプローチでは、時間的側面、特にエンティティの事前確率の時間的側面を明示的に考慮していない。 この事前確率は本質的に時間的であり、エンティティリンクシステムの性能に影響を与えると仮定する。 本稿では,テキストとkbの時間的妥当性に対するエンティティリンク性能に対する事前の影響を体系的に検討する。

Entity linking is a fundamental task in natural language processing which deals with the lexical ambiguity in texts. An important component in entity linking approaches is the mention-to-entity prior probability. Even though there is a large number of works in entity linking, the existing approaches do not explicitly consider the time aspect, specifically the temporality of an entity's prior probability. We posit that this prior probability is temporal in nature and affects the performance of entity linking systems. In this paper we systematically study the effect of the prior on the entity linking performance over the temporal validity of both texts and KBs.
翻訳日:2021-03-29 06:19:02 公開日:2021-01-14
# (参考訳) Better Together -- 既製エンティティリンクシステムの結果を組み合わせるためのアンサンブル学習者 [全文訳有]

Better Together -- An Ensemble Learner for Combining the Results of Ready-made Entity Linking Systems ( http://arxiv.org/abs/2101.05634v1 )

ライセンス: CC BY 4.0
Renato Stoffalette Jo\~ao and Pavlos Fafalios and Stefan Dietze(参考訳) エンティティリンク(el)は、テキスト中のエンティティ参照を自動的に識別し、wikipediaのような参照知識ベースで対応するエンティティに解決するタスクである。 過去10年間、多数のELシステムとパイプラインが利用可能となり、個々のシステムのパフォーマンスはコーパス、言語、ドメインによって大きく異なる。 リンクのパフォーマンスは、同じテキストコーパス内の異なる参照の間でも異なり、例えば、ELのいくつかのアプローチは、短い表面のフォームを扱うのがより適しており、他の方法は、より多くのコンテキスト情報が利用可能であればより良く機能する。 この目的のために,同一コーパス上の異なるELシステムから得られた結果を利用して,個々の強みを評価ベースで活用することで,性能を最適化できると主張している。 本稿では,複数の既製elシステムの出力を,各メンションベースで正しいリンクを予測して活用する教師あり方式を提案する。 既存の真理データセットと3つの最先端ELシステムを用いて得られた実験結果から,提案手法の有効性と,個々のELシステムとベースライン法を著しく上回る能力が示された。

Entity linking (EL) is the task of automatically identifying entity mentions in text and resolving them to a corresponding entity in a reference knowledge base like Wikipedia. Throughout the past decade, a plethora of EL systems and pipelines have become available, where performance of individual systems varies heavily across corpora, languages or domains. Linking performance varies even between different mentions in the same text corpus, where, for instance, some EL approaches are better able to deal with short surface forms while others may perform better when more context information is available. To this end, we argue that performance may be optimised by exploiting results from distinct EL systems on the same corpus, thereby leveraging their individual strengths on a per-mention basis. In this paper, we introduce a supervised approach which exploits the output of multiple ready-made EL systems by predicting the correct link on a per-mention basis. Experimental results obtained on existing ground truth datasets and exploiting three state-of-the-art EL systems show the effectiveness of our approach and its capacity to significantly outperform the individual EL systems as well as a set of baseline methods.
翻訳日:2021-03-29 06:12:20 公開日:2021-01-14
# (参考訳) 悪意のあるコード検出:LSTMによるトレース出力解析 [全文訳有]

Malicious Code Detection: Run Trace Output Analysis by LSTM ( http://arxiv.org/abs/2101.05646v1 )

ライセンス: CC BY 4.0
Cengiz Acarturk, Melih Sirlanci, Pinar Gurkan Balikcioglu, Deniz Demirci, Nazenin Sahin, Ozge Acar Kucuk(参考訳) 悪意あるソフトウェア脅威とその検出は、日々のICTアプリケーションの拡張により情報セキュリティのサブドメインとして重要になっている。 アンチマルウェアシステムの設計と開発における大きな課題は、検出のカバレッジ、特に多形性およびメタモルフィックなマルウェアを効率的に検出できる動的解析手法の開発である。 本研究では,Long Short-Term Memory (LSTM) を用いてラントレース出力を分析し,悪意のあるコードを検出する手法を提案する。 悪質で良質な Portable Executable (PE) ファイルのラントレースモデルを開発した。 PEファイルの動的解析から得られたトレース出力からデータセットを作成した。 得られたデータセットは、シーケンスとして命令形式で、シーケンスモデル(ISM)としてインストラクション(Instruction)と呼ばれた。 最初のデータセットを基本ブロックに分割することで、BSM(Basic Block as a Sequence Model)と呼ばれる第2のデータセットを得た。 実験の結果、ISMは87.51%、偽陽性率は18.34%、BSMは99.26%、偽陽性率は2.62%であった。

Malicious software threats and their detection have been gaining importance as a subdomain of information security due to the expansion of ICT applications in daily settings. A major challenge in designing and developing anti-malware systems is the coverage of the detection, particularly the development of dynamic analysis methods that can detect polymorphic and metamorphic malware efficiently. In the present study, we propose a methodological framework for detecting malicious code by analyzing run trace outputs by Long Short-Term Memory (LSTM). We developed models of run traces of malicious and benign Portable Executable (PE) files. We created our dataset from run trace outputs obtained from dynamic analysis of PE files. The obtained dataset was in the instruction format as a sequence and was called Instruction as a Sequence Model (ISM). By splitting the first dataset into basic blocks, we obtained the second one called Basic Block as a Sequence Model (BSM). The experiments showed that the ISM achieved an accuracy of 87.51% and a false positive rate of 18.34%, while BSM achieved an accuracy of 99.26% and a false positive rate of 2.62%.
翻訳日:2021-03-29 05:57:05 公開日:2021-01-14
# (参考訳) ネットワークパラメータの学習可能な繰り返しによるCNNの再スケーリング [全文訳有]

Rescaling CNN through Learnable Repetition of Network Parameters ( http://arxiv.org/abs/2101.05650v1 )

ライセンス: CC BY 4.0
Arnav Chavan, Udbhav Bamba, Rishabh Tiwari, Deepak Gupta(参考訳) より深く広いCNNは、ディープラーニングタスクのパフォーマンスを向上させることが知られている。 しかし、ほとんどのネットワークはパラメータの増加ごとに性能が向上しない。 本稿では,より深いモデルで観測される利得が,単に最適化パラメータの追加によるものなのか,あるいはネットワークの物理サイズが果たす役割があるのかを検討する。 さらに,学習可能なパラメータ繰り返しに基づくcnnの新たな再スケーリング戦略を提案する。 この戦略に基づき、パラメータ数を変更することなくcnnをリスケールし、重みの学習可能な共有によってパラメータ数を変更することなく任意のモデルのパフォーマンスが大幅に向上することを示す。 小ベースネットワークが再スケールされると、より深いネットワークの最適化パラメータの6%以下で、より深いネットワークに匹敵するパフォーマンスを提供できることを示す。 重み共有の関連性はさらに、グループ同変CNNの例を通して強調される。 正規CNNに対するグループ同変CNNによる分類問題に対する顕著な改善は、部分的には同値性の追加によるものであり、その一部は学習可能なネットワーク重みの反復によるものであることを示す。 rot-MNISTデータセットの場合、現状の回転同値法によって報告された相対的な利得の最大40%は、単に学習された重みの繰り返しによるものである可能性があることを示す。

Deeper and wider CNNs are known to provide improved performance for deep learning tasks. However, most such networks have poor performance gain per parameter increase. In this paper, we investigate whether the gain observed in deeper models is purely due to the addition of more optimization parameters or whether the physical size of the network as well plays a role. Further, we present a novel rescaling strategy for CNNs based on learnable repetition of its parameters. Based on this strategy, we rescale CNNs without changing their parameter count, and show that learnable sharing of weights itself can provide significant boost in the performance of any given model without changing its parameter count. We show that small base networks when rescaled, can provide performance comparable to deeper networks with as low as 6% of optimization parameters of the deeper one. The relevance of weight sharing is further highlighted through the example of group-equivariant CNNs. We show that the significant improvements obtained with group-equivariant CNNs over the regular CNNs on classification problems are only partly due to the added equivariance property, and part of it comes from the learnable repetition of network weights. For rot-MNIST dataset, we show that up to 40% of the relative gain reported by state-of-the-art methods for rotation equivariance could actually be due to just the learnt repetition of weights.
翻訳日:2021-03-29 05:39:15 公開日:2021-01-14
# (参考訳) 超複雑情報に基づく自然刺激型特徴選択手法 [全文訳有]

A Nature-Inspired Feature Selection Approach based on Hypercomplex Information ( http://arxiv.org/abs/2101.05652v1 )

ライセンス: CC BY 4.0
Gustavo H. de Rosa, Jo\~ao Paulo Papa, Xin-She Yang(参考訳) 与えられたモデルの特徴の選択は最適化タスクに変換できる。 その背景にある基本的な考え方は、いくつかの基準に従って最も適切な機能のサブセットを見つけることである。 自然に着想を得た最適化は、複雑な適合関数を扱う際に説得力があるが分かりやすい解決策を作ることでこの問題を軽減できる。 さらに、四元数や八元数といった新しい数学的表現は、高次元空間を扱うために使われている。 この文脈では、超複素数を実数値解にマッピングし、sgmoid関数によってブール超キューブに転送する超複素数に基づく特徴選択にメタヒューリスティック最適化フレームワークを導入する。 意図された超複素機能選択は、いくつかのメタヒューリスティックアルゴリズムと超複素表現でテストされ、いくつかの最先端のアプローチに匹敵する結果が得られる。 提案手法によって得られた良い結果は,特徴選択研究において有望なツールとなる。

Feature selection for a given model can be transformed into an optimization task. The essential idea behind it is to find the most suitable subset of features according to some criterion. Nature-inspired optimization can mitigate this problem by producing compelling yet straightforward solutions when dealing with complicated fitness functions. Additionally, new mathematical representations, such as quaternions and octonions, are being used to handle higher-dimensional spaces. In this context, we are introducing a meta-heuristic optimization framework in a hypercomplex-based feature selection, where hypercomplex numbers are mapped to real-valued solutions and then transferred onto a boolean hypercube by a sigmoid function. The intended hypercomplex feature selection is tested for several meta-heuristic algorithms and hypercomplex representations, achieving results comparable to some state-of-the-art approaches. The good results achieved by the proposed approach make it a promising tool amongst feature selection research.
翻訳日:2021-03-29 05:32:26 公開日:2021-01-14
# (参考訳) テンソルに基づく複素関数グラフ理論の定式化

A Tensor-Based Formulation of Hetero-functional Graph Theory ( http://arxiv.org/abs/2101.07220v1 )

ライセンス: CC BY-SA 4.0
Amro M. Farid, Dakota Thompson, Prabhat Hegde and Wester Schoonenberg(参考訳) 近年,大規模フレキシブルエンジニアリングシステムの構造を数学的にモデル化する手段としてヘテロファンクショナルグラフ理論 (HFGT) が開発されている。 その点において、ネットワーク科学とモデルベースのシステム工学の融合と知的に類似している。 前者については、行列に基づく定量的解析をサポートするために、データ構造として複数のグラフに依存する。 一方、HFGTは、システム形式、システム機能、システム概念を含むモデルベースのシステム工学で見られる概念的および存在論的構成の不均一性を明示的に具現化している。 それらの基礎において、これらの異なる概念構成は二次元関係よりも多次元を示唆する。 本稿では、ヘテロ汎関数グラフ理論の最も重要な部分のいくつかをテンソルベースで初めて扱う。 特に、「システムの概念」、ヘテロファンクショナルな隣接行列、ヘテロファンクショナルなインシデントテンソルに対処する。 この研究で記述されたテンソルベースの定式化は、HFGTとMBSEのその存在論的基礎との間に強い結びつきを与える。 最後に、テンソルベースの定式化はhfgtと多層ネットワークの関係の理解を促進する。

Recently, hetero-functional graph theory (HFGT) has developed as a means to mathematically model the structure of large flexible engineering systems. In that regard, it intellectually resembles a fusion of network science and model-based systems engineering. With respect to the former, it relies on multiple graphs as data structures so as to support matrix-based quantitative analysis. In the meantime, HFGT explicitly embodies the heterogeneity of conceptual and ontological constructs found in model-based systems engineering including system form, system function, and system concept. At their foundation, these disparate conceptual constructs suggest multi-dimensional rather than two-dimensional relationships. This paper provides the first tensor-based treatment of some of the most important parts of hetero-functional graph theory. In particular, it addresses the "system concept", the hetero-functional adjacency matrix, and the hetero-functional incidence tensor. The tensor-based formulation described in this work makes a stronger tie between HFGT and its ontological foundations in MBSE. Finally, the tensor-based formulation facilitates an understanding of the relationships between HFGT and multi-layer networks.
翻訳日:2021-03-29 05:15:52 公開日:2021-01-14
# (参考訳) マスイベント追跡のためのインフォメーションツイート識別について [全文訳有]

On Informative Tweet Identification For Tracking Mass Events ( http://arxiv.org/abs/2101.05656v1 )

ライセンス: CC BY 4.0
Renato Stoffalette Jo\~ao(参考訳) twitterは、イベントをリアルタイムでコミュニケーションし、議論するための重要なチャンネルとして広く利用されている。 このような大きなイベントでは、多くの非形式的ツイートが多くのユーザによって急速に公開され、イベントをフォローすることが困難になる。 本稿では,対象イベントに関連するツイートを自動的に識別する機械学習手法を用いて,この問題に対処する。 我々は,手作りの豊富な機能セットを持つ従来のアプローチと,自動学習された機能を備えた最先端のアプローチの両方について検討する。 さらに,手作り機能と自動学習機能の両方を活用したハイブリッドモデルを提案する。 実世界の事象の大規模データセットを用いた実験により,後者の手法は前者よりも著しく優れており,提案モデルが最も優れており,大量事象の追跡に有効なメカニズムが示唆されている。

Twitter has been heavily used as an important channel for communicating and discussing about events in real-time. In such major events, many uninformative tweets are also published rapidly by many users, making it hard to follow the events. In this paper, we address this problem by investigating machine learning methods for automatically identifying informative tweets among those that are relevant to a target event. We examine both traditional approaches with a rich set of handcrafted features and state of the art approaches with automatically learned features. We further propose a hybrid model that leverages both the handcrafted features and the automatically learned ones. Our experiments on several large datasets of real-world events show that the latter approaches significantly outperform the former and our proposed model performs the best, suggesting highly effective mechanisms for tracking mass events.
翻訳日:2021-03-29 05:14:47 公開日:2021-01-14
# (参考訳) 事前学習されたシーケンス・ツー・シーケンスモデルを用いたテキストランク付けのための拡張型モノドゥオデザインパターン [全文訳有]

The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models ( http://arxiv.org/abs/2101.05667v1 )

ライセンス: CC BY 4.0
Ronak Pradeep, Rodrigo Nogueira, and Jimmy Lin(参考訳) 本研究では,複数のドメインのアドホック検索タスクに対して実証的に検証された,"Expando-Mono-Duo&quo t;と呼ばれるテキストランキング問題に対処する設計パターンを提案する。 基本となる設計は、標準のマルチステージランキングアーキテクチャ内で事前訓練されたシーケンスからシーケンスへのモデルに依存しています。 拡張(Expando)とは、逆インデックス化の前にテキストのキーワード表現を豊かにする文書拡張技法である。 モノ」と「デュオ」は、キーワード検索を用いて検索した初期候補を再参照するポイントワイズモデルとペアワイズモデルに基づいて、リランクパイプライン内のコンポーネントを指す。 我々は、MS MARCOパスと文書ランキングタスク、TREC 2020 Deep Learning Track、そして設計を検証するTREC-COVIDチャレンジの実験的結果を示す。 これらすべてのタスクにおいて、ターゲットタスクからのトレーニングデータを活用しないゼロショットアプローチを用いる場合、最先端技術に近い有効性を達成する。 複製性をサポートするため、設計パターンの実装はPyserini IRツールキットとPyGaggleニューラルリグレードライブラリでオープンソース化されている。

We propose a design pattern for tackling text ranking problems, dubbed "Expando-Mono-Duo&quo t;, that has been empirically validated for a number of ad hoc retrieval tasks in different domains. At the core, our design relies on pretrained sequence-to-sequence models within a standard multi-stage ranking architecture. "Expando" refers to the use of document expansion techniques to enrich keyword representations of texts prior to inverted indexing. "Mono" and "Duo" refer to components in a reranking pipeline based on a pointwise model and a pairwise model that rerank initial candidates retrieved using keyword search. We present experimental results from the MS MARCO passage and document ranking tasks, the TREC 2020 Deep Learning Track, and the TREC-COVID challenge that validate our design. In all these tasks, we achieve effectiveness that is at or near the state of the art, in some cases using a zero-shot approach that does not exploit any training data from the target task. To support replicability, implementations of our design pattern are open-sourced in the Pyserini IR toolkit and PyGaggle neural reranking library.
翻訳日:2021-03-29 05:03:04 公開日:2021-01-14
# (参考訳) ゲーミフィケーションのパーソナライズを自動化する - ユーザとそれ以上に [全文訳有]

Automating Gamification Personalization: To the User and Beyond ( http://arxiv.org/abs/2101.05718v1 )

ライセンス: CC BY 4.0
Luiz Rodrigues, Armando M. Toda, Wilk Oliveira, Paula T. Palomino, Julita Vassileva, Seiji Isotani(参考訳) パーソナライズされたゲーミフィケーションは、ユーザに関する知識を探索し、一大ゲーミフィケーションを改善するためにゲーミフィケーションデザインをカスタマイズする。 調整プロセスでは、ユーザとコンテキストの特性(例えば、実施すべきアクティビティや地理的位置など)を同時に考慮する必要がある。 そのため、ゲーミフィケーションのパーソナライズを自動化するツールが必要である。 こうした特徴のどれが適切か、どのように仕組むかという問題は、オープンな質問であり、必要な自動化ツールが欠如している。 私たちはこれらの問題に2つのステップで取り組んだ。 まず,様々な学習活動タイプ (LAT) に最も有用と考えられるゲーム要素について,参加者の意見を収集し,探索的研究を行った。 そこで,本稿では,条件付き決定木による意見のモデル化を行った。 第2に,第1段階の製品として,ゲーミフィケーションパーソナライゼーションの自動化の問題に対処する,パーソナライズされたゲーミフィケーションデザイン(使用するゲーム要素)を提案するレコメンデーションシステムを実装した。 i) LAT, 地理的位置, その他のユーザ特性がユーザの嗜好に影響を及ぼすことを示す実証的証拠, i) ユーザやコンテキストに合わせたゲーミフィケーションデザインを同時に定義できること, 3) パーソナライズされたゲーミフィケーションデザインに関心のある人に技術支援を提供すること。 主な意味は,ゲーミフィケーションデザインの定義において,人口動態,ゲーム関連特性,地理的位置情報,LAT,および異なる種類の情報(ユーザとコンテキスト特性)の相互作用が考慮されるべきであり,また,ゲーミフィケーションデザインのパーソナライズも,レコメンデーションシステムによる支援によって改善できるということである。

Personalized gamification explores knowledge about the users to tailor gamification designs to improve one-size-fits-all gamification. The tailoring process should simultaneously consider user and contextual characteristics (e.g., activity to be done and geographic location), which leads to several occasions to tailor. Consequently, tools for automating gamification personalization are needed. The problems that emerge are that which of those characteristics are relevant and how to do such tailoring are open questions, and that the required automating tools are lacking. We tackled these problems in two steps. First, we conducted an exploratory study, collecting participants' opinions on the game elements they consider the most useful for different learning activity types (LAT) via survey. Then, we modeled opinions through conditional decision trees to address the aforementioned tailoring process. Second, as a product from the first step, we implemented a recommender system that suggests personalized gamification designs (which game elements to use), addressing the problem of automating gamification personalization. Our findings i) present empirical evidence that LAT, geographic locations, and other user characteristics affect users' preferences, ii) enable defining gamification designs tailored to user and contextual features simultaneously, and iii) provide technological aid for those interested in designing personalized gamification. The main implications are that demographics, game-related characteristics, geographic location, and LAT to be done, as well as the interaction between different kinds of information (user and contextual characteristics), should be considered in defining gamification designs and that personalizing gamification designs can be improved with aid from our recommender system.
翻訳日:2021-03-29 04:34:47 公開日:2021-01-14
# (参考訳) Scared into Action: Partisanship and Fear are associateds to Public Health Directives

Scared into Action: How Partisanship and Fear are Associated with Reactions to Public Health Directives ( http://arxiv.org/abs/2101.05365v1 )

ライセンス: CC BY 4.0
Mike Lindow, David DeFranza, Arul Mishra, Himanshu Mishra(参考訳) 政治的イデオロギーの違いは、地域指導層からの党派間コミュニケーションの成功の障害としてますます現れています。 例えば、最近の実証研究では、保守派は新型コロナウイルス(covid-19)の健康指令に順守する可能性が低いことが示されている。 この行動は過去の研究と直接矛盾しており、保守派はよりルールを遵守し、損失を避け、リベラル派よりも予防動機が強いことを示している。 私たちは、新型コロナウイルス(covid-19)の避難命令中に、プレスリリースや何百万というツイート、小売、食料品店、職場、公園、交通機関の地域移動を捉えたモビリティデータから収集された洞察を用いて、最近の経験的発見と過去の研究とを区別する。 ウイルスに対する恐怖感が強まると、保守派は保健指導に固執する。 この現象をよりよく理解するために、政府と市民のコミュニケーションを分析し、地方政府と連邦政府からのプレスリリースと新型コロナウイルスの感染者が確認されたことで、twitter上での恐怖の表情が高まることを見出します。

Differences in political ideology are increasingly appearing as an impediment to successful bipartisan communication from local leadership. For example, recent empirical findings have shown that conservatives are less likely to adhere to COVID-19 health directives. This behavior is in direct contradiction to past research which indicates that conservatives are more rule abiding, prefer to avoid loss, and are more prevention-motivated than liberals. We reconcile this disconnect between recent empirical findings and past research by using insights gathered from press releases, millions of tweets, and mobility data capturing local movement in retail, grocery, workplace, parks, and transit domains during COVID-19 shelter-in-place orders. We find that conservatives adhere to health directives when they express more fear of the virus. In order to better understand this phenomenon, we analyze both official and citizen communications and find that press releases from local and federal government, along with the number of confirmed COVID-19 cases, lead to an increase in expressions of fear on Twitter.
翻訳日:2021-03-29 04:05:38 公開日:2021-01-14
# (参考訳) $\text{O}^2$PF:Oversampling via Optimum-Path Forest for Breast Cancer Detection [全文訳有]

$\text{O}^2$PF: Oversampling via Optimum-Path Forest for Breast Cancer Detection ( http://arxiv.org/abs/2101.05775v1 )

ライセンス: CC BY 4.0
Leandro Aparecido Passos, Danilo Samuel Jodas, Luiz C. F. Ribeiro, Thierry Pinheiro, Jo\~ao P. Papa(参考訳) 乳がんは最も致命的な病気の一つであり、世界中で女性を苦しめている。 従来の検出方法はタスクの有効性を示しているが、通常は低い精度を示し、専門家にかなりの時間と努力を要求する。 そのため、早期検出が可能なコンピュータ支援診断システム(CAD)が非常に望ましい。 過去10年間、データから重要な情報を抽出し、それについて推論できるため、機械学習ベースの技術はこの文脈において最重要だった。 しかし、これらのアプローチはいまだに不均衡なデータ、特に健康な人のサンプルの数が患者数よりかなり多い医療上の問題に悩まされている。 そこで本稿では,教師なし最適パスフォレストアルゴリズムに基づくデータオーバーサンプリング手法である$\text{O}^2$PFを提案する。 フルオーバーサンプリングシナリオで行われた実験では,3つの乳がんを考慮した3つの確立されたオーバーサンプリング手法と,医療問題データセットのための3つの汎用タスクを比較したモデルの有用性が示されている。

Breast cancer is among the most deadly diseases, distressing mostly women worldwide. Although traditional methods for detection have presented themselves as valid for the task, they still commonly present low accuracies and demand considerable time and effort from professionals. Therefore, a computer-aided diagnosis (CAD) system capable of providing early detection becomes hugely desirable. In the last decade, machine learning-based techniques have been of paramount importance in this context, since they are capable of extracting essential information from data and reasoning about it. However, such approaches still suffer from imbalanced data, specifically on medical issues, where the number of healthy people samples is, in general, considerably higher than the number of patients. Therefore this paper proposes the $\text{O}^2$PF, a data oversampling method based on the unsupervised Optimum-Path Forest Algorithm. Experiments conducted over the full oversampling scenario state the robustness of the model, which is compared against three well-established oversampling methods considering three breast cancer and three general-purpose tasks for medical issues datasets.
翻訳日:2021-03-29 04:04:35 公開日:2021-01-14
# (参考訳) メタヒューリスティック駆動による深いボルツマン機械へのアプローチ [全文訳有]

A Metaheuristic-Driven Approach to Fine-Tune Deep Boltzmann Machines ( http://arxiv.org/abs/2101.05795v1 )

ライセンス: CC BY 4.0
Leandro Aparecido Passos, Jo\~ao Paulo Papa(参考訳) ディープ・ボルツマン・マシン(dbms)のようなディープラーニング技術は、様々な領域に関する優れた結果のために、近年多くの注目を集めている。 これらのテクニックの主な欠点の1つは、最終的な結果に大きな影響を与えるため、ハイパーパラメータの選択である。 本研究は,swarm intelligenceやメモリ,進化に基づくアプローチなど,バックグラウンドの異なるメタヒューリスティック最適化手法を用いて,ディープボルツマンマシンのハイパーパラメータを微調整する問題に対処する。 バイナリ画像再構成のための3つの公開データセットで行われた実験は、メタヒューリスティックな手法が妥当な結果を得ることができることを示した。

Deep learning techniques, such as Deep Boltzmann Machines (DBMs), have received considerable attention over the past years due to the outstanding results concerning a variable range of domains. One of the main shortcomings of these techniques involves the choice of their hyperparameters, since they have a significant impact on the final results. This work addresses the issue of fine-tuning hyperparameters of Deep Boltzmann Machines using metaheuristic optimization techniques with different backgrounds, such as swarm intelligence, memory- and evolutionary-based approaches. Experiments conducted in three public datasets for binary image reconstruction showed that metaheuristic techniques can obtain reasonable results.
翻訳日:2021-03-29 03:36:51 公開日:2021-01-14
# (参考訳) AutoMLによる新生植物:自動機械学習ツールの約束を評価する [全文訳有]

A Neophyte With AutoML: Evaluating the Promises of Automatic Machine Learning Tools ( http://arxiv.org/abs/2101.05840v1 )

ライセンス: CC BY 4.0
Oleg Bezrukavnikov and Rhema Linder(参考訳) 本稿では,機械学習(ML)の経験がほとんどない人の視点から,最新の自動機械学習(AutoML)ツールについて論じる。 ML技術の使用を簡素化し、民主化するために作られたAutoMLツールは、使いやすくも開発中のツールも数多くある。 私たちの立場では、MLは使いやすく、より多くの人に利用可能であるべきです。 これまでの研究では、直感的なAutoMLツールの必要性が特定されていた。 この作業は、automlツールが実際にその目標を達成した方法を理解することを目的としている。 エンドユーザー体験とシステム性能を評価するために,3つのAutoMLツールを評価した。 バンクデータの競合データセットからモデルを作成することで、ツールを評価します。 彼らのパフォーマンスと経験の詳細を報告します。 このプロセスはAutoMLツールの最先端に関するユニークな理解を提供する。 最後に,これらの経験を活かして,今後のautomlツールが機械学習の新生物のユーザエクスペリエンスをどのように改善できるかを議論する。

This paper discusses modern Auto Machine Learning (AutoML) tools from the perspective of a person with little prior experience in Machine Learning (ML). There are many AutoML tools both ready-to-use and under development, which are created to simplify and democratize usage of ML technologies in everyday life. Our position is that ML should be easy to use and available to a greater number of people. Prior research has identified the need for intuitive AutoML tools. This work seeks to understand how well AutoML tools have achieved that goal in practice. We evaluate three AutoML Tools to evaluate the end-user experience and system performance. We evaluate the tools by having them create models from a competition dataset on banking data. We report on their performance and the details of our experience. This process provides a unique understanding of the state of the art of AutoML tools. Finally, we use these experiences to inform a discussion on how future AutoML tools can improve the user experience for neophytes of Machine Learning.
翻訳日:2021-03-29 03:24:49 公開日:2021-01-14
# (参考訳) 量子決定理論に基づく人間の意思決定の主観的モデル [全文訳有]

A Subjective Model of Human Decision Making Based on Quantum Decision Theory ( http://arxiv.org/abs/2101.05851v1 )

ライセンス: CC BY 4.0
Chenda Zhang, Hedvig Kjellstr\"om(参考訳) 人間の意思決定のコンピュータモデリングは、例えば、持続可能な輸送、都市開発、オンラインレコメンデーションシステムにとって非常に重要である。 本稿では,異なるリスク,ゲイン,タイムプレッシャーの下でのバイナリゲーム中の個体の挙動を予測するモデルを提案する。 このモデルは量子決定理論(qdt)に基づいており、古典的な累積予測理論(cpt)では説明されず、意思決定の非合理的かつ主観的な側面をモデル化できることが示されている。 2つの異なるデータセットの実験により、私たちのQDTベースのアプローチは、CPTベースのアプローチとフィードフォワードニューラルネットワークやランダムフォレストのようなデータ駆動アプローチの両方より優れています。

Computer modeling of human decision making is of large importance for, e.g., sustainable transport, urban development, and online recommendation systems. In this paper we present a model for predicting the behavior of an individual during a binary game under different amounts of risk, gain, and time pressure. The model is based on Quantum Decision Theory (QDT), which has been shown to enable modeling of the irrational and subjective aspects of the decision making, not accounted for by the classical Cumulative Prospect Theory (CPT). Experiments on two different datasets show that our QDT-based approach outperforms both a CPT-based approach and data driven approaches such as feed-forward neural networks and random forests.
翻訳日:2021-03-29 03:12:14 公開日:2021-01-14
# (参考訳) アルゴリズム的モノカルチャーと社会福祉

Algorithmic Monoculture and Social Welfare ( http://arxiv.org/abs/2101.05853v1 )

ライセンス: CC BY 4.0
Jon Kleinberg, Manish Raghavan(参考訳) 雇用、貸付、その他のドメインにおけるハイステイクな意思決定の応募者に対するアルゴリズムの適用が増えているため、多くの意思決定者が同じアルゴリズムに依存するアルゴリズム的モノカルチャーの影響が懸念されている。 この懸念は農業の類推を呼び起こし、モノカルチャーのシステムは予期せぬショックから深刻な危害のリスクを負う。 ここでは,一群の意思決定エージェントによる1つのアルゴリズム上の一文化的な収束が,たとえアルゴリズムが単独のエージェントに対してより正確であったとしても,エージェント全体の収集によってなされる決定の全体的な品質を低下させることによって,アルゴリズム的一文化の危険性がより深くなることを示す。 したがって、モノカルチャーのリスクを明らかにするために予期せぬショックは不要であり、「通常の」操作下であっても正確さを損なう可能性がある。 この結果は最小限の仮定に依拠し、一組の代替品の複数の雑音推定を用いたシステム解析のための確率的フレームワークの開発にかかわる。

As algorithms are increasingly applied to screen applicants for high-stakes decisions in employment, lending, and other domains, concerns have been raised about the effects of algorithmic monoculture, in which many decision-makers all rely on the same algorithm. This concern invokes analogies to agriculture, where a monocultural system runs the risk of severe harm from unexpected shocks. Here we show that the dangers of algorithmic monoculture run much deeper, in that monocultural convergence on a single algorithm by a group of decision-making agents, even when the algorithm is more accurate for any one agent in isolation, can reduce the overall quality of the decisions being made by the full collection of agents. Unexpected shocks are therefore not needed to expose the risks of monoculture; it can hurt accuracy even under "normal" operations, and even for algorithms that are more accurate when used by only a single decision-maker. Our results rely on minimal assumptions, and involve the development of a probabilistic framework for analyzing systems that use multiple noisy estimates of a set of alternatives.
翻訳日:2021-03-29 02:59:28 公開日:2021-01-14
# (参考訳) 分散モバイルサービスのためのパーソナライズドモデルにおけるプライバシ保護 [全文訳有]

Preserving Privacy in Personalized Models for Distributed Mobile Services ( http://arxiv.org/abs/2101.05855v1 )

ライセンス: CC BY 4.0
Akanksha Atrey, Prashant Shenoy, David Jensen(参考訳) モバイルデバイスのユビキタス性は、ユーザに対してパーソナライズされたコンテキスト対応コンテンツを提供するモバイルサービスの急増につながった。 現代のモバイルサービスは、スマートフォンのようなエンドデバイスと、クラウドに存在するリモートサーバの間で分散している。 このようなサービスは、将来のコンテキストを予測し、コンテキスト固有のレコメンデーションのコンテンツを事前にフェッチする能力によって成長します。 ロケーションのような将来のコンテキストを予測するための一般的な方法は、機械学習(ML)モデルである。 コンテキスト予測における最近の研究は、個々のユーザに対してパーソナライズされたモデルを学習して、ユーザのモバイル行動に対する予測やレコメンデーションを調整するmlモデルパーソナライズに焦点を当てている。 パーソナライズされたモデルの使用はモバイルサービスの有効性を高めるが、パーソナライズされたモデルは各ユーザ固有のコンテキスト動作をエンコードするため、プライバシリスクを増大させると主張する。 これらのプライバシリスクを実証するために,属性推論に基づくプライバシ攻撃をいくつか提示するとともに,上位3つの予測に対して,最大78%の有効性でプライバシを漏洩する可能性を示す。 私たちは、デバイスとクラウドのリソースを活用してMLモデルをパーソナライズし、ユーザのプライバシリークのリスクを最小限に抑える、コンテキスト対応モバイルサービスのためのプライバシ保護パーソナライズシステムであるPelicanを紹介します。 位置認識型モバイルサービスにおいて,現実のトレースを用いてPlicanを評価し,プライバシリークを最大75%低減できることを示す。

The ubiquity of mobile devices has led to the proliferation of mobile services that provide personalized and context-aware content to their users. Modern mobile services are distributed between end-devices, such as smartphones, and remote servers that reside in the cloud. Such services thrive on their ability to predict future contexts to pre-fetch content of make context-specific recommendations. An increasingly common method to predict future contexts, such as location, is via machine learning (ML) models. Recent work in context prediction has focused on ML model personalization where a personalized model is learned for each individual user in order to tailor predictions or recommendations to a user's mobile behavior. While the use of personalized models increases efficacy of the mobile service, we argue that it increases privacy risk since a personalized model encodes contextual behavior unique to each user. To demonstrate these privacy risks, we present several attribute inference-based privacy attacks and show that such attacks can leak privacy with up to 78% efficacy for top-3 predictions. We present Pelican, a privacy-preserving personalization system for context-aware mobile services that leverages both device and cloud resources to personalize ML models while minimizing the risk of privacy leakage for users. We evaluate Pelican using real world traces for location-aware mobile services and show that Pelican can substantially reduce privacy leakage by up to 75%.
翻訳日:2021-03-29 02:58:07 公開日:2021-01-14
# (参考訳) 材料指紋分類 [全文訳有]

Materials Fingerprinting Classification ( http://arxiv.org/abs/2101.05808v1 )

ライセンス: CC BY 4.0
Adam Spannaus, Kody J. H. Law, Piotr Luszczek, Farzana Nasrin, Cassie Putman Micucci, Peter K. Liaw, Louis J. Santodonato, David J. Keffer, Vasileios Maroulas(参考訳) 多くの種類の材料の重要な進歩は、原子のアイデンティティと3次元座標からなる実験から得られた大きなデータセットが利用可能になったことで達成できる。 数百万の原子からなるデータセットを日常的に生成する原子プローブトモグラフィ(APT)のような局所原子構造を可視化する方法は、この目標を実現するための重要なステップである。 しかし、最先端のapt機器は、元素型に関する情報を提供するノイズやスパースデータセットを生成するが、原子構造はあいまいであり、それに続く材料発見の価値を制限している。 材料指紋処理の応用は、トポロジカルデータ解析と組み合わせた機械学習アルゴリズムであり、APTデータセットからこれまでにないような構造情報を抽出する手段を提供する。 概念実証として、物質指紋は、ボディセンター立方体(BCC)とフェイスセンター立方体(FCC)結晶構造を含む高エントロピー合金APTデータセットに適用される。 任意の原子を中心とする局所原子構成はトポロジカルディスクリプタに割り当てられ、データセットに固有のノイズがあるにもかかわらず、ほぼ完全な精度でbccまたはfcc格子として特徴づけることができる。 この指紋の同定の成功は、複雑な材料の既存のデータセットから化学順序などのニュアンス情報を抽出するアルゴリズムの開発において重要な第一歩である。

Significant progress in many classes of materials could be made with the availability of experimentally-deriv ed large datasets composed of atomic identities and three-dimensional coordinates. Methods for visualizing the local atomic structure, such as atom probe tomography (APT), which routinely generate datasets comprised of millions of atoms, are an important step in realizing this goal. However, state-of-the-art APT instruments generate noisy and sparse datasets that provide information about elemental type, but obscure atomic structures, thus limiting their subsequent value for materials discovery. The application of a materials fingerprinting process, a machine learning algorithm coupled with topological data analysis, provides an avenue by which here-to-fore unprecedented structural information can be extracted from an APT dataset. As a proof of concept, the material fingerprint is applied to high-entropy alloy APT datasets containing body-centered cubic (BCC) and face-centered cubic (FCC) crystal structures. A local atomic configuration centered on an arbitrary atom is assigned a topological descriptor, with which it can be characterized as a BCC or FCC lattice with near perfect accuracy, despite the inherent noise in the dataset. This successful identification of a fingerprint is a crucial first step in the development of algorithms which can extract more nuanced information, such as chemical ordering, from existing datasets of complex materials.
翻訳日:2021-03-29 02:38:15 公開日:2021-01-14
# (参考訳) 表現型と遺伝的特徴の結合を利用した癌分類におけるグラフニューラルネットワークの比較 [全文訳有]

Comparisons of Graph Neural Networks on Cancer Classification Leveraging a Joint of Phenotypic and Genetic Features ( http://arxiv.org/abs/2101.05866v1 )

ライセンス: CC BY 4.0
David Oniani, Chen Wang, Yiqing Zhao, Andrew Wen, Hongfang Liu, Feichen Shen(参考訳) がんは毎年何百万人もの死者を負っている。 がん治療の進歩は大きいが, がん治療の改善には多くの課題があり, 適切な治療計画を選択する上では適切ながん患者層化が必須であり, がん患者は異質な遺伝子組換えと表現型の違いが知られている。 本研究は, がん患者を対象としたEHR(Electronic Healthrecords, EHRs)および遺伝子検査報告から抽出可能な, 深部表現型の特徴を基礎として, 各種画像ニューラルネットワーク(GNNs)を用いて, 表現型および遺伝的特徴の結合をがんのタイプ分類に利用した。 マヨクリニック癌データセットにモデルを適用し、微調整した。 報告された精度,精度,リコール,F1値,および疾患分類に基づくスルーF1スコアを用いて評価を行った。 評価結果から,GNNのベースラインモデルの平均成績は,平均値が0.849対0.772,精度が0.858対0.794,リコールが0.843対0.759,F1scoreが0.843対0.855であった。 GNN、ChebNet、GraphSAGE、TAGCNは最高のパフォーマンスを示し、GATは最悪のパフォーマンスを示した。 我々は,AGNN,ChebNet,GAT,GC N,GIN,GraphSAGE,SGC, TAGCNを含む8つのGNNモデルをマイノクリニック癌データセットに適用・比較し,その性能および比較を行った。

Cancer is responsible for millions of deaths worldwide every year. Although significant progress hasbeen achieved in cancer medicine, many issues remain to be addressed for improving cancer therapy.Appropriate cancer patient stratification is the prerequisite for selecting appropriate treatment plan, ascancer patients are of known heterogeneous genetic make-ups and phenotypic differences. In thisstudy, built upon deep phenotypic characterizations extractable from Mayo Clinic electronic healthrecords (EHRs) and genetic test reports for a collection of cancer patients, we evaluated variousgraph neural networks (GNNs) leveraging a joint of phenotypic and genetic features for cancer typeclassification. Models were applied and fine-tuned on the Mayo Clinic cancer disease dataset. Theassessment was done through the reported accuracy, precision, recall, and F1 values as well as throughF1 scores based on the disease class. Per our evaluation results, GNNs on average outperformed thebaseline models with mean statistics always being higher that those of the baseline models (0.849 vs0.772 for accuracy, 0.858 vs 0.794 for precision, 0.843 vs 0.759 for recall, and 0.843 vs 0.855 for F1score). Among GNNs, ChebNet, GraphSAGE, and TAGCN showed the best performance, while GATshowed the worst. We applied and compared eight GNN models including AGNN, ChebNet, GAT,GCN, GIN, GraphSAGE, SGC, and TAGCN on the Mayo Clinic cancer disease dataset and assessedtheir performance as well as compared them with each other and with more conventional machinelearning models such as decision tree, gradient boosting, multi-layer perceptron, naive bayes, andrandom forest which we used as the baselines.
翻訳日:2021-03-29 02:21:26 公開日:2021-01-14
# (参考訳) ソーシャルメディアにおけるサルカム検出のための解釈可能な多頭セルフアテンションモデル [全文訳有]

Interpretable Multi-Head Self-Attention model for Sarcasm Detection in social media ( http://arxiv.org/abs/2101.05875v1 )

ライセンス: CC BY 4.0
Ramya Akula, Ivan Garibay(参考訳) サルカズム(英: Sarcasm)は、しばしば、言葉の反対の言葉を伝えるために使われる言語表現であり、通常、侮辱や侮辱の意図に非常に不快な表現である。 sarcastic expressionの曖昧さは、sarcasmの発見を非常に困難にしている。 本研究では,様々なソーシャルネットワークプラットフォームやオンラインメディアからのテキスト会話における皮肉を検出することに焦点を当てた。 そこで本研究では,マルチヘッドセルフアテンションとゲートリカレントユニットを用いた解釈可能な深層学習モデルを開発した。 マルチヘッド自己保持モジュールは、入力から重要なサーカシックキューワードを特定するのに役立ち、繰り返しユニットはこれらのキューワード間の長距離依存関係を学習し、入力テキストをよりよく分類する。 ソーシャルネットワーキングプラットフォームやオンラインメディアから得られた複数のデータセットに対して,最先端の成果を得ることによるアプローチの有効性を示す。 提案手法を用いて訓練されたモデルは容易に解釈でき、最終分類スコアに寄与する入力テキスト中のサーカシックな手がかりを識別できる。 本モデルの有効性と解釈性を示すために,いくつかのサンプル入力テキストで学習した注意重みを可視化した。

Sarcasm is a linguistic expression often used to communicate the opposite of what is said, usually something that is very unpleasant with an intention to insult or ridicule. Inherent ambiguity in sarcastic expressions, make sarcasm detection very difficult. In this work, we focus on detecting sarcasm in textual conversations from various social networking platforms and online media. To this end, we develop an interpretable deep learning model using multi-head self-attention and gated recurrent units. Multi-head self-attention module aids in identifying crucial sarcastic cue-words from the input, and the recurrent units learn long-range dependencies between these cue-words to better classify the input text. We show the effectiveness of our approach by achieving state-of-the-art results on multiple datasets from social networking platforms and online media. Models trained using our proposed approach are easily interpretable and enable identifying sarcastic cues in the input text which contribute to the final classification score. We visualize the learned attention weights on few sample input texts to showcase the effectiveness and interpretability of our model.
翻訳日:2021-03-29 02:10:02 公開日:2021-01-14
# (参考訳) fNIRSニューロイメージングデータにおけるグラム角縫合場を用いた深層学習に基づく3次タスク分類システム [全文訳有]

A Deep Learning Based Ternary Task Classification System Using Gramian Angular Summation Field in fNIRS Neuroimaging Data ( http://arxiv.org/abs/2101.05891v1 )

ライセンス: CC BY 4.0
Sajila D. Wickramaratne and Md Shaad Mahmud(参考訳) 機能近赤外分光法(FNIRS)は、血流パターンを研究するために用いられる非侵襲的、経済的手法である。 これらのパターンは、被験者が実行しているタスクの分類に使用できる。 現在、ほとんどの分類システムは、タスクの分類に単純な機械学習ソリューションを使用している。 これらの従来の機械学習手法は実装や解釈が容易であり、通常、低い精度でネットワークトレーニングの前に複雑な前処理フェーズを経る。 提案手法は,生のfNIRS時系列データをGramian Angular Summation Fieldを用いた画像に変換する。 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)ベースのアーキテクチャは、メンタル算術、運動画像、アイドル状態などのタスク分類に使用される。 さらに、従来の分類器の性能に影響を与える特徴選択段階を排除できる。 このシステムは、データセットの他の方法よりも87.14%高い分類精度を示した。

Functional near-infrared spectroscopy (fNIRS) is a non-invasive, economical method used to study its blood flow pattern. These patterns can be used to classify tasks a subject is performing. Currently, most of the classification systems use simple machine learning solutions for the classification of tasks. These conventional machine learning methods, which are easier to implement and interpret, usually suffer from low accuracy and undergo a complex preprocessing phase before network training. The proposed method converts the raw fNIRS time series data into an image using Gramian Angular Summation Field. A Deep Convolutional Neural Network (CNN) based architecture is then used for task classification, including mental arithmetic, motor imagery, and idle state. Further, this method can eliminate the feature selection stage, which affects the traditional classifiers' performance. This system obtained 87.14% average classification accuracy higher than any other method for the dataset.
翻訳日:2021-03-29 01:55:46 公開日:2021-01-14
# (参考訳) fNIRSを用いた脳活動パターン認識のための3方向LSTM分類 [全文訳有]

A Ternary Bi-Directional LSTM Classification for Brain Activation Pattern Recognition Using fNIRS ( http://arxiv.org/abs/2101.05892v1 )

ライセンス: CC BY 4.0
Sajila D. Wickramaratne and MD Shaad Mahmud(参考訳) 機能近赤外分光法(FNIRS)は、脳の血流パターンを研究するために用いられる非侵襲的で低コストな方法である。 このようなパターンは、被験者によって行われる分類を可能にします。 最近の研究では、ほとんどの分類システムはタスクの分類に従来の機械学習アルゴリズムを使用している。 実装が容易なこれらの手法は、通常、低い精度に悩まされる。 さらに、従来の機械学習手法を実装する前に、データ準備に複雑な前処理フェーズが必要である。 提案システムは,2方向LSTMに基づくディープラーニングアーキテクチャを用いて,fNIRSデータを用いたメンタル算術,運動画像,アイドル状態を含むタスク分類を行う。 さらに、このシステムは従来のアプローチよりも前処理を少なくし、81.48\%の精度を得ながら時間と計算資源を節約する。

Functional near-infrared spectroscopy (fNIRS) is a non-invasive, low-cost method used to study the brain's blood flow pattern. Such patterns can enable us to classify performed by a subject. In recent research, most classification systems use traditional machine learning algorithms for the classification of tasks. These methods, which are easier to implement, usually suffer from low accuracy. Further, a complex pre-processing phase is required for data preparation before implementing traditional machine learning methods. The proposed system uses a Bi-Directional LSTM based deep learning architecture for task classification, including mental arithmetic, motor imagery, and idle state using fNIRS data. Further, this system will require less pre-processing than the traditional approach, saving time and computational resources while obtaining an accuracy of 81.48\%, which is considerably higher than the accuracy obtained using conventional machine learning algorithms for the same data set.
翻訳日:2021-03-29 01:50:06 公開日:2021-01-14
# (参考訳) ロボットが絵を描き、伝える:視覚的なマルチモーダル記述生成を目指して [全文訳有]

Enabling Robots to Draw and Tell: Towards Visually Grounded Multimodal Description Generation ( http://arxiv.org/abs/2101.12338v1 )

ライセンス: CC BY 4.0
Ting Han, Sina Zarrie{\ss}(参考訳) 社会的に有能なロボットは、それらを取り囲む世界を知覚し、人間的な方法でそれを伝達する能力を備えるべきである。 そのような能力を示す代表的スキルには、画像記述の生成と視覚的に接地した参照表現が含まれる。 NLGコミュニティでは、これらの生成タスクは非対話的および言語のみの設定で大きく研究されている。 しかしながら、対面インタラクションでは、人間がコミュニケーションするために複数のモダリティをデプロイし、自然言語や手ジェスチャーなどのモダリティをシームレスに統合する。 ロボットが音声やスケッチ/ジェスチャーで知覚するものを記述できるようにするため,視覚的なシーンや実生活オブジェクト,すなわち視覚的に座屈したマルチモーダルな記述生成を記述するために,手書きのスケッチ/手書きのジェスチャーとともに自然言語を生成するタスクをモデル化することを提案する。 本稿では,タスクの課題と評価指標について論じるとともに,自然言語処理やコンピュータビジョン領域における最近の進歩から,視覚的基盤のNLG,分布意味論,写真に基づくスケッチ生成などの関連トピックが広く研究されている。

Socially competent robots should be equipped with the ability to perceive the world that surrounds them and communicate about it in a human-like manner. Representative skills that exhibit such ability include generating image descriptions and visually grounded referring expressions. In the NLG community, these generation tasks are largely investigated in non-interactive and language-only settings. However, in face-to-face interaction, humans often deploy multiple modalities to communicate, forming seamless integration of natural language, hand gestures and other modalities like sketches. To enable robots to describe what they perceive with speech and sketches/gestures, we propose to model the task of generating natural language together with free-hand sketches/hand gestures to describe visual scenes and real life objects, namely, visually-grounded multimodal description generation. In this paper, we discuss the challenges and evaluation metrics of the task, and how the task can benefit from progress recently made in the natural language processing and computer vision realms, where related topics such as visually grounded NLG, distributional semantics, and photo-based sketch generation have been extensively studied.
翻訳日:2021-03-29 01:41:41 公開日:2021-01-14
# (参考訳) 破損したデータソースによる自己重み付きロバストフェデレーション学習 [全文訳有]

Auto-weighted Robust Federated Learning with Corrupted Data Sources ( http://arxiv.org/abs/2101.05880v1 )

ライセンス: CC BY 4.0
Shenghui Li, Edith Ngai, Fanghua Ye, and Thiemo Voigt(参考訳) フェデレーション学習は、大規模な参加者で統計モデルを学習し、データをローカルクライアントに保持することで、コミュニケーション効率とプライバシ保護のトレーニングプロセスを提供する。 しかしながら、平均損失関数をナビゲート的に最小化する標準的なフェデレート学習技術は、外れ値や体系的な不正ラベル、さらには敵からのデータの破損に対して脆弱である。 さらに、ユーザデータのプライバシーの懸念が高まるため、サービスプロバイダがデータサンプルの品質を検証することは、しばしば禁止されている。 本稿では、グローバルモデルとローカル更新の重みを共同で学習し、破損したデータソースに対して堅牢性を提供する新しいアプローチであるAuto-weighted Robust Federated Learning (arfl)を提案する。 我々は,堅牢なフェデレーション学習の目的の定義を導いてくれる予測者およびクライアントの重み付けに関して,期待されるリスクに拘束された学習を実証する。 この重み付けは、クライアントの実証的な損失と最高のpクライアントの平均的な損失(p平均)を比較し、クライアントを著しく高い損失で下降させ、グローバルモデルへの貢献度を下げることができる。 破損したクライアントのデータを良質なクライアントと異なる方法で分散した場合,このアプローチが堅牢性を実現することを示す。 目的関数を最適化するために,ブロックワイズ最小化パラダイムに基づく通信効率のよいアルゴリズムを提案する。 異なるディープニューラルネットワークモデルを考慮した複数のベンチマークデータセット(cifar-10, femnist, shakespeare)について実験を行った。 その結果,ラベルシャッフルやラベルフリップ,ノイズの多い機能など,さまざまなシナリオに対して堅牢で,ほとんどのシナリオで最先端の手法よりも優れていることがわかった。

Federated learning provides a communication-effici ent and privacy-preserving training process by enabling learning statistical models with massive participants while keeping their data in local clients. However, standard federated learning techniques that naively minimize an average loss function are vulnerable to data corruptions from outliers, systematic mislabeling, or even adversaries. In addition, it is often prohibited for service providers to verify the quality of data samples due to the increasing concern of user data privacy. In this paper, we address this challenge by proposing Auto-weighted Robust Federated Learning (arfl), a novel approach that jointly learns the global model and the weights of local updates to provide robustness against corrupted data sources. We prove a learning bound on the expected risk with respect to the predictor and the weights of clients, which guides the definition of the objective for robust federated learning. The weights are allocated by comparing the empirical loss of a client with the average loss of the best p clients (p-average), thus we can downweight the clients with significantly high losses, thereby lower their contributions to the global model. We show that this approach achieves robustness when the data of corrupted clients is distributed differently from benign ones. To optimize the objective function, we propose a communication-effici ent algorithm based on the blockwise minimization paradigm. We conduct experiments on multiple benchmark datasets, including CIFAR-10, FEMNIST and Shakespeare, considering different deep neural network models. The results show that our solution is robust against different scenarios including label shuffling, label flipping and noisy features, and outperforms the state-of-the-art methods in most scenarios.
翻訳日:2021-03-29 01:29:31 公開日:2021-01-14
# 機械支援スクリプトキュレーション

Machine-Assisted Script Curation ( http://arxiv.org/abs/2101.05400v1 )

ライセンス: Link先を確認
Manuel R. Ciosici, Joseph Cummings, Mitchell DeHaven, Alex Hedges, Yash Kankanampati, Dong-Ho Lee, Ralph Weischedel, Marjorie Freedman(参考訳) 本稿では,機械支援スクリプトキュレーター(masc)について述べる。 mascで作成されたスクリプトには、(1)より大きな複雑なイベントを構成するサブイベントの英語記述、(2)各イベントのイベントタイプ、(3)複数のサブイベントに参加すると期待されるエンティティの記録、(4)サブイベント間の時間的シーケンシングが含まれる。 MASCはスクリプト作成プロセスの一部を自動化し、イベントタイプ、Wikidataへのリンク、忘れられたかもしれないサブイベントを提案する。 これらの自動化が、ケーススタディのスクリプトでスクリプトライターにどのように役立つかを説明する。

We describe Machine-Aided Script Curator (MASC), a system for human-machine collaborative script authoring. Scripts produced with MASC include (1) English descriptions of sub-events that comprise a larger, complex event; (2) event types for each of those events; (3) a record of entities expected to participate in multiple sub-events; and (4) temporal sequencing between the sub-events. MASC automates portions of the script creation process with suggestions for event types, links to Wikidata, and sub-events that may have been forgotten. We illustrate how these automations are useful to the script writer with a few case-study scripts.
翻訳日:2021-03-29 00:59:10 公開日:2021-01-14
# ニューラルネットワークはハッシュエンコーダとして振る舞う:実証的研究

Neural networks behave as hash encoders: An empirical study ( http://arxiv.org/abs/2101.05490v1 )

ライセンス: Link先を確認
Fengxiang He, Shiye Lei, Jianmin Ji, Dacheng Tao(参考訳) relu様のアクティベーションを持つニューラルネットワークの入力空間を複数の線形領域に分割し、それぞれに含まれるrelu様アクティベーションの特定のアクティベーションパターンに対応する。 1) 決定性: ほぼすべての線形領域は、少なくとも1つのトレーニング例を含む。 したがって、ほとんどすべてのトレーニング例を、一意なアクティベーションパターンで表現することができ、これは {\it neural code} によってパラメータ化されます。 (2) {\it カテゴリ化}: ニューラルネットワークによると、$k$-means、$k$-nn、ロジスティックレグレッションのような単純なアルゴリズムは、トレーニングとテストデータの両方において、かなり優れたパフォーマンスを達成できます。 これらのエンコーディング特性は、"it normal neural network well-trained for classification") が、余分な努力なしにハッシュエンコーダとして振る舞うことを驚くほど示唆している。 さらに、符号化特性は異なるシナリオで可変性を示す。 さらなる実験により、 {\it model size}、 {\it training hours}、 {\it training sample size}、 {\it regularization}、 {\it label noise} は符号化特性の形成に寄与するが、最初の3つの影響は支配的であることが示されている。 次に, {model size} で拡張された空間,トレーニング時間,サンプルサイズ,符号化特性を表す「itアクティベーションハッシュ位相図」を定義し,これらを「it under-expressive regime」,「it critically-expressiv e regime」,「it enough-expressive regime」の3つの正準領域に分けた。 ソースコードパッケージは \url{https://github.com/L eavesLei/activation- code} で入手できる。

The input space of a neural network with ReLU-like activations is partitioned into multiple linear regions, each corresponding to a specific activation pattern of the included ReLU-like activations. We demonstrate that this partition exhibits the following encoding properties across a variety of deep learning models: (1) {\it determinism}: almost every linear region contains at most one training example. We can therefore represent almost every training example by a unique activation pattern, which is parameterized by a {\it neural code}; and (2) {\it categorization}: according to the neural code, simple algorithms, such as $K$-Means, $K$-NN, and logistic regression, can achieve fairly good performance on both training and test data. These encoding properties surprisingly suggest that {\it normal neural networks well-trained for classification behave as hash encoders without any extra efforts.} In addition, the encoding properties exhibit variability in different scenarios. {Further experiments demonstrate that {\it model size}, {\it training time}, {\it training sample size}, {\it regularization}, and {\it label noise} contribute in shaping the encoding properties, while the impacts of the first three are dominant.} We then define an {\it activation hash phase chart} to represent the space expanded by {model size}, training time, training sample size, and the encoding properties, which is divided into three canonical regions: {\it under-expressive regime}, {\it critically-expressiv e regime}, and {\it sufficiently-express ive regime}. The source code package is available at \url{https://github.com/L eavesLei/activation- code}.
翻訳日:2021-03-29 00:58:58 公開日:2021-01-14
# Persuasive Natural Language Generation -- 文献レビュー

Persuasive Natural Language Generation -- A Literature Review ( http://arxiv.org/abs/2101.05786v1 )

ライセンス: Link先を確認
Sebastian Duerr, Peter A. Gloor(参考訳) 本稿では,自然言語生成(NLG)による説得的テキストの自動検出と生成に焦点をあてる。 テキストにおける説得力の自動識別に関するこれまでの研究を延長し,ビジネスに焦点を絞った5つのカテゴリー(便宜性,言語能力,論理的議論,信頼性,ツール,データセット)における説得力の決定要因の概念化を通じて生成的側面に焦点を当てた。 これにより、NLGは既存のメッセージの説得力を高めることができる。 前回の研究では、上記の5つのカテゴリのそれぞれで重要な側面が示されている。 NLGをさらに研究するための研究課題が開発されている。 このレビューには77の論文の分析が含まれており、既存の知識体系を概説し、この研究分野の着実な進歩を示している。

This literature review focuses on the use of Natural Language Generation (NLG) to automatically detect and generate persuasive texts. Extending previous research on automatic identification of persuasion in text, we concentrate on generative aspects through conceptualizing determinants of persuasion in five business-focused categories: benevolence, linguistic appropriacy, logical argumentation, trustworthiness, tools and datasets. These allow NLG to increase an existing message's persuasiveness. Previous research illustrates key aspects in each of the above mentioned five categories. A research agenda to further study persuasive NLG is developed. The review includes analysis of seventy-seven articles, outlining the existing body of knowledge and showing the steady progress in this research field.
翻訳日:2021-03-29 00:58:22 公開日:2021-01-14
# ラベルコントラスト符号化に基づくグラフ分類のためのグラフニューラルネットワーク

Label Contrastive Coding based Graph Neural Network for Graph Classification ( http://arxiv.org/abs/2101.05486v1 )

ライセンス: Link先を確認
Yuxiang Ren, Jiyang Bai, and Jiawei Zhang(参考訳) グラフ分類は、異なる領域の多くのアプリケーションにおいて重要な研究課題である。 グラフ分類モデルを学習するために、最も広く使用される監視コンポーネントは、分類損失(例えば、ソフトマックスやマージン損失と共に、クロスエントロピー損失)と共に出力層である。 実際、インスタンス間の識別情報はよりきめ細かなものであり、グラフ分類のタスクに役立ちます。 本稿では,ラベル情報をより効果的かつ包括的に活用するための,ラベルコントラスト符号化に基づくグラフニューラルネットワーク(LCGNN)を提案する。 LCGNNは依然としてクラス識別性を確保するために分類損失を使用している。 一方、LCGNNは自己教師付き学習から派生したラベルコントラスト損失を利用して、インスタンスレベルのクラス内コンパクト性とクラス間分離性を促進する。 対照的な学習を促進するため、LCGNNは動的ラベルメモリバンクとモーメント更新エンコーダを導入した。 8つのベンチマークグラフデータセットによる広範な評価は、LCGNNが最先端のグラフ分類モデルより優れていることを示している。 また,LCGNNはラベル情報を総合的に活用するため,トレーニングデータが少ないため,LCGNNの競争性能が向上することを確認した。

Graph classification is a critical research problem in many applications from different domains. In order to learn a graph classification model, the most widely used supervision component is an output layer together with classification loss (e.g.,cross-entropy loss together with softmax or margin loss). In fact, the discriminative information among instances are more fine-grained, which can benefit graph classification tasks. In this paper, we propose the novel Label Contrastive Coding based Graph Neural Network (LCGNN) to utilize label information more effectively and comprehensively. LCGNN still uses the classification loss to ensure the discriminability of classes. Meanwhile, LCGNN leverages the proposed Label Contrastive Loss derived from self-supervised learning to encourage instance-level intra-class compactness and inter-class separability. To power the contrastive learning, LCGNN introduces a dynamic label memory bank and a momentum updated encoder. Our extensive evaluations with eight benchmark graph datasets demonstrate that LCGNN can outperform state-of-the-art graph classification models. Experimental results also verify that LCGNN can achieve competitive performance with less training data because LCGNN exploits label information comprehensively.
翻訳日:2021-03-29 00:57:46 公開日:2021-01-14
# 普遍確率モデルによるインスタンス依存ラベルノイズの処理

Tackling Instance-Dependent Label Noise via a Universal Probabilistic Model ( http://arxiv.org/abs/2101.05467v1 )

ライセンス: Link先を確認
Qizhou Wang, Bo Han, Tongliang Liu, Gang Niu, Jian Yang, Chen Gong(参考訳) データ量の劇的な増加は、誤ったラベルアノテーションなどのデータ品質を著しく低下させることが多く、ディープニューラルネットワーク(DNN)を堅牢にトレーニングする上で大きな課題となる。 ラベルノイズを持つ既存の学習 \mbox{methods} は、アドホックなヒューリスティックを使うか、特定のノイズ仮定に制限される。 しかし、事例依存ラベルノイズのようなより一般的な状況は、ラベルの破損過程に焦点をあてる研究が乏しいため、完全には調査されていない。 本稿では,インスタンスを混乱と矛盾のインスタンスに分類することにより,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。 結果モデルはdnnによって実現され、交互最適化アルゴリズムを用いてトレーニング手順が達成される。 合成ラベルノイズと実世界のラベルノイズを併用したデータセット実験により,提案手法が最先端の手法に比べてロバスト性に大きな改善をもたらすことを確認した。

The drastic increase of data quantity often brings the severe decrease of data quality, such as incorrect label annotations, which poses a great challenge for robustly training Deep Neural Networks (DNNs). Existing learning \mbox{methods} with label noise either employ ad-hoc heuristics or restrict to specific noise assumptions. However, more general situations, such as instance-dependent label noise, have not been fully explored, as scarce studies focus on their label corruption process. By categorizing instances into confusing and unconfusing instances, this paper proposes a simple yet universal probabilistic model, which explicitly relates noisy labels to their instances. The resultant model can be realized by DNNs, where the training procedure is accomplished by employing an alternating optimization algorithm. Experiments on datasets with both synthetic and real-world label noise verify that the proposed method yields significant improvements on robustness over state-of-the-art counterparts.
翻訳日:2021-03-29 00:57:28 公開日:2021-01-14
# 凸平滑化オートエンコーダ-最適輸送モデル

Convex Smoothed Autoencoder-Optimal Transport model ( http://arxiv.org/abs/2101.05679v1 )

ライセンス: Link先を確認
Aratrika Mustafi(参考訳) 生成モデリングは教師なし機械学習の鍵となるツールであり、近年は星級の成功を収めている。 このような大きな成功にもかかわらず、GAN(Generative Adversarial Networks)やVAE(VAE)のような最高の生成モデルでさえ、独自の欠点、モード崩壊、モード混合が2つの最も顕著な問題である。 本稿では,観測データに類似したサンプルを生成可能で,モード崩壊やモード混合を伴わない新しい生成モデルを開発した。 本モデルは,最近提案されたae-ot(autoencoder-op timal transport)モデルに着想を得て,ae-otモデル自体が直面する問題,特にサンプル生成アルゴリズムに対処し,改良を試みている。 本論文では,非滑らかなブレニエポテンシャルを滑らかに推定し,不連続な最適輸送マップをスムーズな最適輸送マップ推定で近似する際の誤差に関する理論的結果も明らかにした。

Generative modelling is a key tool in unsupervised machine learning which has achieved stellar success in recent years. Despite this huge success, even the best generative models such as Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs) come with their own shortcomings, mode collapse and mode mixture being the two most prominent problems. In this paper we develop a new generative model capable of generating samples which resemble the observed data, and is free from mode collapse and mode mixture. Our model is inspired by the recently proposed Autoencoder-Optimal Transport (AE-OT) model and tries to improve on it by addressing the problems faced by the AE-OT model itself, specifically with respect to the sample generation algorithm. Theoretical results concerning the bound on the error in approximating the non-smooth Brenier potential by its smoothed estimate, and approximating the discontinuous optimal transport map by a smoothed optimal transport map estimate have also been established in this paper.
翻訳日:2021-03-29 00:57:12 公開日:2021-01-14
# FabricNet: Ensemble ConvNetsを用いたファイバ認識アーキテクチャ

FabricNet: A Fiber Recognition Architecture Using Ensemble ConvNets ( http://arxiv.org/abs/2101.05564v1 )

ライセンス: Link先を確認
Abu Quwsar Ohi, M. F. Mridha, Md. Abdul Hamid, Muhammad Mostafa Monowar, Faris A Kateb(参考訳) 織物は繊維繊維からなる平面材である。 繊維は植物、動物、鉱物など多くの天然資源から作られており、合成も可能である。 特定の布地は、複雑な製造工程を通過する異なる種類の繊維を含むことができる。 繊維の識別は通常化学検査と顕微鏡検査によって行われる。 しかしながら、これらのテストプロセスは複雑であり、時間を要する。 本稿では,画像ベース繊維認識システムの先駆的アプローチであるFabricNetを提案する。 FabricNetは、布の表面画像のみを利用することで、大規模な繊維を認識できる。 認識システムは、クラスベースアンサンブル畳み込みニューラルネットワーク(CNN)アーキテクチャの異なるカテゴリを用いて構築される。 本実験は50種類の繊維繊維を識別する実験である。 この実験には、これまでの研究成果よりもはるかに多くのユニークな繊維が含まれています。 我々は、inception、resnet、vgg、mobilenet、dungnet、xceptionを含む人気のあるcnnアーキテクチャを実験する。 最後に、実験の結果、FabricNetは84%、F1スコア90%の精度で最先端のCNNアーキテクチャより優れていることが示された。

Fabric is a planar material composed of textile fibers. Textile fibers are generated from many natural sources; including plants, animals, minerals, and even, it can be synthetic. A particular fabric may contain different types of fibers that pass through a complex production process. Fiber identification is usually carried out through chemical tests and microscopic tests. However, these testing processes are complicated as well as time-consuming. We propose FabricNet, a pioneering approach for the image-based textile fiber recognition system, which may have a revolutionary impact from individual to the industrial fiber recognition process. The FabricNet can recognize a large scale of fibers by only utilizing a surface image of fabric. The recognition system is constructed using a distinct category of class-based ensemble convolutional neural network (CNN) architecture. The experiment is conducted on recognizing 50 different types of textile fibers. This experiment includes a significantly large number of unique textile fibers than previous research endeavors to the best of our knowledge. We experiment with popular CNN architectures that include Inception, ResNet, VGG, MobileNet, DenseNet, and Xception. Finally, the experimental results demonstrate that FabricNet outperforms the state-of-the-art popular CNN architectures by reaching an accuracy of 84% and F1-score of 90%.
翻訳日:2021-03-29 00:56:53 公開日:2021-01-14
# 協調エージェントのロバスト性評価

Evaluating the Robustness of Collaborative Agents ( http://arxiv.org/abs/2101.05507v1 )

ライセンス: Link先を確認
Paul Knott, Micah Carroll, Sam Devlin, Kamil Ciosek, Katja Hofmann, A. D. Dragan and Rohin Shah(参考訳) 深層強化学習によって訓練されたエージェントが、現実的な環境で人間と一緒に働くためには、エージェントが \emph{robust} であることを保証する必要がある。 現実世界は非常に多様であり、人間の行動はしばしばエージェントの配置に応じて変化するため、エージェントはトレーニング中に見たことのない新しい状況に遭遇する可能性が高い。 平均的なトレーニングやバリデーションの報酬を基準として頼りにできない場合、堅牢性を効果的に評価するにはどうすればよいのか? ソフトウェア工学における \emph{unit testing} の実践から着想を得ています。 具体的には、人間と協調するAIエージェントを設計する際には、設計者は \emph{possible partner behavior} と \emph{possible state encounter} の潜在的なエッジケースを探し、これらのエッジケースにおけるエージェントの振る舞いが妥当であることを示すテストを書くべきである。 本手法をOvercooked-AI環境のための単体テストスイートの構築に適用し,このテストスイートを使用して,堅牢性向上のための3つの提案を評価する。 テストスイートは、平均的なバリデーション報酬のみに注目して、一般には明らかにされていないこれらの提案の効果に関する重要な洞察を提供する。

In order for agents trained by deep reinforcement learning to work alongside humans in realistic settings, we will need to ensure that the agents are \emph{robust}. Since the real world is very diverse, and human behavior often changes in response to agent deployment, the agent will likely encounter novel situations that have never been seen during training. This results in an evaluation challenge: if we cannot rely on the average training or validation reward as a metric, then how can we effectively evaluate robustness? We take inspiration from the practice of \emph{unit testing} in software engineering. Specifically, we suggest that when designing AI agents that collaborate with humans, designers should search for potential edge cases in \emph{possible partner behavior} and \emph{possible states encountered}, and write tests which check that the behavior of the agent in these edge cases is reasonable. We apply this methodology to build a suite of unit tests for the Overcooked-AI environment, and use this test suite to evaluate three proposals for improving robustness. We find that the test suite provides significant insight into the effects of these proposals that were generally not revealed by looking solely at the average validation reward.
翻訳日:2021-03-29 00:56:06 公開日:2021-01-14
# 畳み込みオートエンコーダを用いたパラメトリゼーション時間依存PDEの非侵入的代理モデル

Non-intrusive surrogate modeling for parametrized time-dependent PDEs using convolutional autoencoders ( http://arxiv.org/abs/2101.05555v1 )

ライセンス: Link先を確認
Stefanos Nikolopoulos, Ioannis Kalogeris, Vissarion Papadopoulos(参考訳) 本研究は、複合システムの予測モデリングのための機械学習技術に基づく非侵襲的な代理モデリングスキームを、パラメータ化時間依存PDEによって記述する。 これらの問題に対して、典型的な有限要素アプローチは、PDEの時空間離散化と、各時間ステップにおける対応する方程式の線形系の解を含む。 その代わり、提案手法は畳み込みオートエンコーダとフィードフォワードニューラルネットワークを併用して、問題のパラメトリック空間から解空間への低コストで正確なマッピングを確立する。 この目的のために、パラメータ値の少ないセットに対してFEMを介して高忠実度モデルを解くことにより、時間履歴応答データを収集する。 そして、このデータセットに畳み込みオートエンコーダを適用することにより、このエンコーダにより高次元解行列の低次元表現を提供し、デコーダにより再構成マップを得る。 エンコーダによって与えられる潜在表現を用いて、フィードフォワードニューラルネットワークは、問題のパラメトリック空間から各解行列の圧縮バージョンへの点のマッピングを効率的に行う。 このように、新しいパラメータ値でのシステムのエンコードされた応答はニューラルネットワークによって与えられ、応答全体がデコーダによって配信される。 このアプローチは、システムの制御方程式を逐次的に定式化し、段階的に解く必要性を効果的に回避し、結果として大幅なコスト削減と、繰り返しモデル評価や「リアルタイム」計算を必要とする問題に対する理想的な方法のレンダリングを実現する。 モンテカルロ法で解かれた時間依存型pdesの確率解析について, 精巧な手法が実証されているが, 感度解析, 設計最適化など他の類似問題にも容易に適用できる。

This work presents a non-intrusive surrogate modeling scheme based on machine learning technology for predictive modeling of complex systems, described by parametrized time-dependent PDEs. For these problems, typical finite element approaches involve the spatiotemporal discretization of the PDE and the solution of the corresponding linear system of equations at each time step. Instead, the proposed method utilizes a convolutional autoencoder in conjunction with a feed forward neural network to establish a low-cost and accurate mapping from the problem's parametric space to its solution space. For this purpose, time history response data are collected by solving the high-fidelity model via FEM for a reduced set of parameter values. Then, by applying the convolutional autoencoder to this data set, a low-dimensional representation of the high-dimensional solution matrices is provided by the encoder, while the reconstruction map is obtained by the decoder. Using the latent representation given by the encoder, a feed-forward neural network is efficiently trained to map points from the problem's parametric space to the compressed version of the respective solution matrices. This way, the encoded response of the system at new parameter values is given by the neural network, while the entire response is delivered by the decoder. This approach effectively bypasses the need to serially formulate and solve the system's governing equations at each time increment, thus resulting in a significant cost reduction and rendering the method ideal for problems requiring repeated model evaluations or 'real-time' computations. The elaborated methodology is demonstrated on the stochastic analysis of time-dependent PDEs solved with the Monte Carlo method, however, it can be straightforwardly applied to other similar-type problems, such as sensitivity analysis, design optimization, etc.
翻訳日:2021-03-29 00:55:44 公開日:2021-01-14
# 高次ネットワークにおける信号処理:livin' on the edge... and beyond

Signal Processing on Higher-Order Networks: Livin' on the Edge ... and Beyond ( http://arxiv.org/abs/2101.05510v1 )

ライセンス: Link先を確認
Michael T. Schaub and Yu Zhu and Jean-Baptiste Seby and T. Mitchell Roddenberry and Santiago Segarra(参考訳) 本稿では,高次ネットワーク上での信号処理の新たな話題の実践的扱いについて述べる。 離散的およびグラフ的信号処理からの類似性を引き合いに出し、多進関係を組み込む高次ネットワークの2つの一般的な抽象化である単純複体とハイパーグラフのデータを処理するためのビルディングブロックを紹介し、それらの処理に必要な概念を特に強調する。 これらの概念を活用し、これら2つの多進関係構造の表現において、フーリエ解析、信号分節化、信号補間、ノード埋め込み、およびニューラルネットワークによる非線形処理について論じる。 本稿では, 単純錯体の特殊構造を利用して, グラフ信号処理におけるラプラス行列の望ましい性質を一般化する多関係演算子Hodge Laplacian行列を用いた信号処理に着目した。 ハイパーグラフの場合、行列とテンソル表現の両方を示し、一方を採用する際のトレードオフについて議論する。 また, 実践者への情報提供と新たな研究者の貢献の動機付けの両面において, 限界と潜在的な研究の道筋を強調する。

This tutorial paper presents a didactic treatment of the emerging topic of signal processing on higher-order networks. Drawing analogies from discrete and graph signal processing, we introduce the building blocks for processing data on simplicial complexes and hypergraphs, two common abstractions of higher-order networks that can incorporate polyadic relationships.We provide basic introductions to simplicial complexes and hypergraphs, making special emphasis on the concepts needed for processing signals on them. Leveraging these concepts, we discuss Fourier analysis, signal denoising, signal interpolation, node embeddings, and non-linear processing through neural networks in these two representations of polyadic relational structures. In the context of simplicial complexes, we specifically focus on signal processing using the Hodge Laplacian matrix, a multi-relational operator that leverages the special structure of simplicial complexes and generalizes desirable properties of the Laplacian matrix in graph signal processing. For hypergraphs, we present both matrix and tensor representations, and discuss the trade-offs in adopting one or the other. We also highlight limitations and potential research avenues, both to inform practitioners and to motivate the contribution of new researchers to the area.
翻訳日:2021-03-29 00:55:04 公開日:2021-01-14
# Entangled Kernels -- 分離性を超えて

Entangled Kernels -- Beyond Separability ( http://arxiv.org/abs/2101.05514v1 )

ライセンス: Link先を確認
Riikka Huusari, Hachem Kadri(参考訳) 演算子評価カーネル学習の問題点を考察し、よく知られた分離可能なカーネルを超える可能性を検討する。 部分トレースや絡み合いといった量子コンピューティングの分野からツールや概念を借用し、演算子値のカーネルに対する新しい見解を提案し、セパラブルカーネルや変換可能なカーネルを含む、これまで知られていた演算子値のカーネルを包含する一般的なカーネルファミリーを定義する。 この枠組みでは、分離不能なエンタングルカーネルと呼ばれる演算子値カーネルの新たなクラスを導入する。 そこで本稿では,演算子値カーネルへのカーネルアライメントの新たな拡張に基づき,絡み合ったカーネルを学習する2段階アルゴリズムを提案する。 本アルゴリズムは,次元の縮小を監督するアプリケーションを用いて,人工データと実データの両方を用いたマルチアウトプット回帰の有効性を示す。

We consider the problem of operator-valued kernel learning and investigate the possibility of going beyond the well-known separable kernels. Borrowing tools and concepts from the field of quantum computing, such as partial trace and entanglement, we propose a new view on operator-valued kernels and define a general family of kernels that encompasses previously known operator-valued kernels, including separable and transformable kernels. Within this framework, we introduce another novel class of operator-valued kernels called entangled kernels that are not separable. We propose an efficient two-step algorithm for this framework, where the entangled kernel is learned based on a novel extension of kernel alignment to operator-valued kernels. We illustrate our algorithm with an application to supervised dimensionality reduction, and demonstrate its effectiveness with both artificial and real data for multi-output regression.
翻訳日:2021-03-29 00:54:42 公開日:2021-01-14
# 安定性を保証した物理認識確率モデル秩序の低減

Physics-aware, probabilistic model order reduction with guaranteed stability ( http://arxiv.org/abs/2101.05834v1 )

ライセンス: Link先を確認
Sebastian Kaltenbach, Phaedon-Stelios Koutsourelakis(参考訳) 高次元, 微粒, マルチスケールの力学系から得られた(少量の)時系列データから, 細粒系の長期的進化だけでなく, 異なる初期条件下での挙動も予測可能な, 有効で低次元, 粗粒の動的モデルを学習するための生成フレームワークを提案する。 物理アプリケーション(例えば)で発生するきめ細かいモデルをターゲットにしています。 分子動力学(分子動力学、エージェントベースモデル) 強い非定常であるが、それらの平衡への遷移は未知の遅い過程によって制御される。 ドメイン知識に基づくアプローチは、時間的に遅い特徴を特定する物理的洞察に大きく依存しており、学習力学の長期的な安定性を強制することができない。 一方、純粋に統計的なフレームワークは解釈可能性に欠けており、ドメイン知識を注入できないため、大量の高価なシミュレーションデータ(長いトラジェクトリと複数のトラジェクトリ)に依存している。 提案した生成フレームワークは, 複素平面上において, 遅延, 遅い過程, およびデータへの依存を減らし誘導バイアスを緩和する物理動機付潜伏変数の中間層を柔軟に利用することにより, 上記のデシラタを実現する。 既存のスキームとは対照的に、細かな記述から射影作用素の事前定義を必要とせず、次元の縮小とモデル推定のタスクを同時に扱う。 トレーニングデータに含まれない事象の確率的長期予測を作成した粒子力学の大規模物理系において,その有効性と精度を示す。

Given (small amounts of) time-series' data from a high-dimensional, fine-grained, multiscale dynamical system, we propose a generative framework for learning an effective, lower-dimensional, coarse-grained dynamical model that is predictive of the fine-grained system's long-term evolution but also of its behavior under different initial conditions. We target fine-grained models as they arise in physical applications (e.g. molecular dynamics, agent-based models), the dynamics of which are strongly non-stationary but their transition to equilibrium is governed by unknown slow processes which are largely inaccessible by brute-force simulations. Approaches based on domain knowledge heavily rely on physical insight in identifying temporally slow features and fail to enforce the long-term stability of the learned dynamics. On the other hand, purely statistical frameworks lack interpretability and rely on large amounts of expensive simulation data (long and multiple trajectories) as they cannot infuse domain knowledge. The generative framework proposed achieves the aforementioned desiderata by employing a flexible prior on the complex plane for the latent, slow processes, and an intermediate layer of physics-motivated latent variables that reduces reliance on data and imbues inductive bias. In contrast to existing schemes, it does not require the a priori definition of projection operators from the fine-grained description and addresses simultaneously the tasks of dimensionality reduction and model estimation. We demonstrate its efficacy and accuracy in multiscale physical systems of particle dynamics where probabilistic, long-term predictions of phenomena not contained in the training data are produced.
翻訳日:2021-03-29 00:54:17 公開日:2021-01-14
# 機械学習によるボース・アインシュタイン凝縮体のダークソリトン検出

Machine-learning enhanced dark soliton detection in Bose-Einstein condensates ( http://arxiv.org/abs/2101.05404v1 )

ライセンス: Link先を確認
Shangjie Guo, Amilson R. Fritsch, Craig Greenberg, I. B. Spielman, Justyna P. Zwolak(参考訳) コールド原子実験のほとんどのデータは画像から得られており、その分析は、データに存在する可能性のあるパターンの先入観によって制限される。 コールド原子の画像におけるパターン認識の一般的なタスクに拡張可能な手法を用いて、暗黒ソリトン(BECの局所密度低下として現れる)を検出するという明確なケースに焦点を当てる。 幅広いパラメータにわたってソリトンダイナミクスを研究するには、大規模なデータセットの分析が必要である。 本稿では,深層畳み込みニューラルネットワークを用いた原子ボース・アインシュタイン凝縮体(becs)の局所的な励起を識別する自動分類・位置決めシステムについて述べる。 さらに、機械学習研究のために、我々のラベル付きデータセットであるdark solitons(ダークソリトン)をオープンに公開しています。

Most data in cold-atom experiments comes from images, the analysis of which is limited by our preconceptions of the patterns that could be present in the data. We focus on the well-defined case of detecting dark solitons -- appearing as local density depletions in a BEC -- using a methodology that is extensible to the general task of pattern recognition in images of cold atoms. Studying soliton dynamics over a wide range of parameters requires the analysis of large datasets, making the existing human-inspection-bas ed methodology a significant bottleneck. Here we describe an automated classification and positioning system for identifying localized excitations in atomic Bose-Einstein condensates (BECs) utilizing deep convolutional neural networks to eliminate the need for human image examination. Furthermore, we openly publish our labeled dataset of dark solitons, the first of its kind, for further machine learning research.
翻訳日:2021-03-29 00:53:46 公開日:2021-01-14
# 深層学習と合成画像を用いたビジョンベースオン軌道近似操作パイプライン

A Pipeline for Vision-Based On-Orbit Proximity Operations Using Deep Learning and Synthetic Imagery ( http://arxiv.org/abs/2101.05661v1 )

ライセンス: Link先を確認
Carson Schubert, Kevin Black, Daniel Fonseka, Abhimanyu Dhir, Jacob Deutsch, Nihal Dhamani, Gavin Martin, Maruthi Akella(参考訳) ディープラーニングは、過去10年間で画像処理の黄金の標準となっている。 同時に、宇宙船間の近接操作に依存する衛星サービスやデブリ除去といった軌道活動への関心が高まっている。 しかし、現在2つの重要な課題が、ビジョンベースの軌道上の近接操作にディープラーニングを使用する上で大きな障壁となっている。 第一に、これらの手法の効率的な実装は、データキュレーション、トレーニング、評価を効率化するモデル開発のための効果的なシステムに依存している。 第2に、ラベル付きトレーニングデータ(ターゲット宇宙船の画像)の不足は、堅牢なディープラーニングモデルの作成を妨げる。 本稿では,on-orbitビジュアルナビゲーションアプリケーション用に開発された,オープンソースのディープラーニングパイプラインを提案する。 私たちの作業の中核は、モデル開発プロセスのすべての段階を相互接続するクラウドアーキテクチャの上に構築された2つのカスタムソフトウェアツールで構成されています。 最初のツールはオープンソースの3DグラフィックツールセットであるBlenderを利用して、設定可能なモデルポーズ(配置と向き)、照明条件、背景、そして一般的に観察される空間内画像収差によるラベル付き合成トレーニングデータを生成する。 第2のツールは、効果的なデータセットのキュレーションとモデルトレーニングのためのプラグインベースのフレームワークで、メタデータ生成やすべてのプロジェクトへのリモートストレージアクセスといった共通機能を提供し、プロジェクト固有のコードを完全に独立させる。 合成画像生成やモデルトレーニングといった、時間を要するグラフィック集約的なプロセスは、任意のスコープや予算にスケールし、任意のマシンから最大のデータセットやモデルの開発を可能にするクラウドベースの計算リソース上で実行される。 提案されたシステムはテキサス宇宙研究所で使われ、開発速度と品質に顕著な利点がある。

Deep learning has become the gold standard for image processing over the past decade. Simultaneously, we have seen growing interest in orbital activities such as satellite servicing and debris removal that depend on proximity operations between spacecraft. However, two key challenges currently pose a major barrier to the use of deep learning for vision-based on-orbit proximity operations. Firstly, efficient implementation of these techniques relies on an effective system for model development that streamlines data curation, training, and evaluation. Secondly, a scarcity of labeled training data (images of a target spacecraft) hinders creation of robust deep learning models. This paper presents an open-source deep learning pipeline, developed specifically for on-orbit visual navigation applications, that addresses these challenges. The core of our work consists of two custom software tools built on top of a cloud architecture that interconnects all stages of the model development process. The first tool leverages Blender, an open-source 3D graphics toolset, to generate labeled synthetic training data with configurable model poses (positions and orientations), lighting conditions, backgrounds, and commonly observed in-space image aberrations. The second tool is a plugin-based framework for effective dataset curation and model training; it provides common functionality like metadata generation and remote storage access to all projects while giving complete independence to project-specific code. Time-consuming, graphics-intensive processes such as synthetic image generation and model training run on cloud-based computational resources which scale to any scope and budget and allow development of even the largest datasets and models from any machine. The presented system has been used in the Texas Spacecraft Laboratory with marked benefits in development speed and quality.
翻訳日:2021-03-29 00:53:29 公開日:2021-01-14
# DeFlow: 条件付きデータから複雑な画像の劣化を学習する

DeFlow: Learning Complex Image Degradations from Unpaired Data with Conditional Flows ( http://arxiv.org/abs/2101.05796v1 )

ライセンス: Link先を確認
Valentin Wolf, Andreas Lugmayr, Martin Danelljan, Luc Van Gool, Radu Timofte(参考訳) ペアデータを得ることの難しさは、実世界のアプリケーションで画像復元と強化モデルを学ぶ上で、依然として大きなボトルネックとなっている。 現在の戦略は、実環境に現れるノイズや劣化をモデル化することで、現実的なトレーニングデータを合成することを目的としている。 非ペアデータから確率的画像劣化を学習するDeFlowを提案する。 本手法は,条件付き正規化フローのための未経験学習定式化に基づく。 共有フローエンコーダ・デコーダネットワークの潜在空間における劣化過程をモデル化する。 これにより,境界分布の負の対数類似度を最小化することで,クリーン入力による雑音像の条件分布を学習することができる。 共同画像復元と超解像におけるDeFlowの定式化を検証した。 deflowによって生成された合成データでトレーニングされたモデルは、以前の3つのデータセットの学習可能なアプローチよりも優れています。

The difficulty of obtaining paired data remains a major bottleneck for learning image restoration and enhancement models for real-world applications. Current strategies aim to synthesize realistic training data by modeling noise and degradations that appear in real-world settings. We propose DeFlow, a method for learning stochastic image degradations from unpaired data. Our approach is based on a novel unpaired learning formulation for conditional normalizing flows. We model the degradation process in the latent space of a shared flow encoder-decoder network. This allows us to learn the conditional distribution of a noisy image given the clean input by solely minimizing the negative log-likelihood of the marginal distributions. We validate our DeFlow formulation on the task of joint image restoration and super-resolution. The models trained with the synthetic data generated by DeFlow outperform previous learnable approaches on all three datasets.
翻訳日:2021-03-29 00:53:07 公開日:2021-01-14
# シフト等分散がメトリクス学習にどのように影響するか

How Shift Equivariance Impacts Metric Learning for Instance Segmentation ( http://arxiv.org/abs/2101.05846v1 )

ライセンス: Link先を確認
Josef Lorenz Rumberger, Xiaoyan Yu, Peter Hirsch, Melanie Dohmen, Vanessa Emanuela Guarino, Ashkan Mokarian, Lisa Mais, Jan Funke, Dagmar Kainmueller(参考訳) メトリックラーニングは、インスタンスセグメンテーションタスクの解決に適することに関する相反する評価を受けている。 使用済みのcnnのシフト等価性と、それぞれが同一に見えるオブジェクトを識別できないため、理論的に欠陥があるとして却下されている。 しかし, 様々な作業の成果が得られたことが示されており, タイル境界における不連続性が観察されているタイル・アンド・スティッチ・アプローチの文脈において, 実践的な問題が主に報告されている。 これまでのところ、どちらの問題も徹底的な形式分析を行っていない。 本研究では、エンコーダデコーダ型cnnのシフト同分散特性の包括的形式的解析を行い、同一視対象に対してメトリック学習を行うことで何が達成可能で何ができないかを明らかにした。 特に、$d$-dimensionalイメージを入力とする標準的なエンコーダ-デコーダネットワークが、$l$のプーリング層と$f$のプーリング係数を持ち、最大$f^{dl}$の類似オブジェクトを識別する能力を持つことを証明し、この上限が達成可能であることを示す。 さらに,標準的なバッチサイズ1を仮定してタイル・ストッチ方式で不連続を避けるためには,トレーニング出力ウィンドウサイズを厳密にf^l$以上と組み合わせて有効な畳み込みを採用する必要があるが,テスト時にはステッチする前に,タイルサイズを$n\cdot f^l$に設定し,$n\geq 1$で設定する必要がある。 これらの理論的な知見を補うために,合成データを用いた経験的結果を示す洞察に富んだ特別な事例を数多く検討する。

Metric learning has received conflicting assessments concerning its suitability for solving instance segmentation tasks. It has been dismissed as theoretically flawed due to the shift equivariance of the employed CNNs and their respective inability to distinguish same-looking objects. Yet it has been shown to yield state of the art results for a variety of tasks, and practical issues have mainly been reported in the context of tile-and-stitch approaches, where discontinuities at tile boundaries have been observed. To date, neither of the reported issues have undergone thorough formal analysis. In our work, we contribute a comprehensive formal analysis of the shift equivariance properties of encoder-decoder-styl e CNNs, which yields a clear picture of what can and cannot be achieved with metric learning in the face of same-looking objects. In particular, we prove that a standard encoder-decoder network that takes $d$-dimensional images as input, with $l$ pooling layers and pooling factor $f$, has the capacity to distinguish at most $f^{dl}$ same-looking objects, and we show that this upper limit can be reached. Furthermore, we show that to avoid discontinuities in a tile-and-stitch approach, assuming standard batch size 1, it is necessary to employ valid convolutions in combination with a training output window size strictly greater than $f^l$, while at test-time it is necessary to crop tiles to size $n\cdot f^l$ before stitching, with $n\geq 1$. We complement these theoretical findings by discussing a number of insightful special cases for which we show empirical results on synthetic data.
翻訳日:2021-03-29 00:52:57 公開日:2021-01-14
# ニューラル近似器による最適エネルギー形成

Optimal Energy Shaping via Neural Approximators ( http://arxiv.org/abs/2101.05537v1 )

ライセンス: Link先を確認
Stefano Massaroli, Michael Poli, Federico Califano, Jinkyoo Park, Atsushi Yamashita and Hajime Asama(参考訳) 古典的受動率に基づく制御手法の強化として最適エネルギー整形を導入する。 受動性理論の有望な特徴は、安定性と共に、伝統的に与えられたタスクの実行に沿って直感的なパフォーマンスチューニングであると言われている。 しかしながら、受動的制御フレームワーク内での性能を調整するための体系的なアプローチはまだ開発されていない。 タスクに依存したパフォーマンスメトリックを定義すると、ニューラルネットワークと勾配に基づく最適化に依存する反復的な手順によって最適解が体系的に得られる。 提案手法は状態制御タスクに対して検証される。

We introduce optimal energy shaping as an enhancement of classical passivity-based control methods. A promising feature of passivity theory, alongside stability, has traditionally been claimed to be intuitive performance tuning along the execution of a given task. However, a systematic approach to adjust performance within a passive control framework has yet to be developed, as each method relies on few and problem-specific practical insights. Here, we cast the classic energy-shaping control design process in an optimal control framework; once a task-dependent performance metric is defined, an optimal solution is systematically obtained through an iterative procedure relying on neural networks and gradient-based optimization. The proposed method is validated on state-regulation tasks.
翻訳日:2021-03-29 00:52:23 公開日:2021-01-14
# TUDublin team at Constraint@AAAI2021 -- COVID-19 Fake News Detection

TUDublin team at Constraint@AAAI2021 -- COVID19 Fake News Detection ( http://arxiv.org/abs/2101.05701v1 )

ライセンス: Link先を確認
Elena Shushkevich and John Cardiff(参考訳) この論文は、TUDublinチームによるConstraint@AAAI2021 - COVID19 Fake News Detection Challengeへの参加に焦点を当てている。 現在、偽ニュース検出の問題はパンデミックに関連して、これまで以上に深刻になっている。 偽ニュースの数が急速に増えており、covid-19に関する偽情報の拡散を緊急に防止するためのaiツールの開発が求められている。 この研究の主な目標は、新型コロナウイルス(COVID-19)のコンテキストにおいて、ソーシャルメディアからのメッセージのバイナリ分類をリアルまたはフェイクニュースとして実行するモデルを作ることだった。 私たちのチームは、双方向の長期記憶、サポートベクターマシン、ロジスティック回帰、ナイーブベイ、ロジスティック回帰とナイーブベイの組み合わせからなるアンサンブルを構築しました。 このモデルによって 0.94 f1-score を達成できたが、これは最高の結果の 5\% 以内である。

The paper is devoted to the participation of the TUDublin team in Constraint@AAAI2021 - COVID19 Fake News Detection Challenge. Today, the problem of fake news detection is more acute than ever in connection with the pandemic. The number of fake news is increasing rapidly and it is necessary to create AI tools that allow us to identify and prevent the spread of false information about COVID-19 urgently. The main goal of the work was to create a model that would carry out a binary classification of messages from social media as real or fake news in the context of COVID-19. Our team constructed the ensemble consisting of Bidirectional Long Short Term Memory, Support Vector Machine, Logistic Regression, Naive Bayes and a combination of Logistic Regression and Naive Bayes. The model allowed us to achieve 0.94 F1-score, which is within 5\% of the best result.
翻訳日:2021-03-29 00:52:13 公開日:2021-01-14
# SICKNL:オランダの自然言語推論のためのデータセット

SICKNL: A Dataset for Dutch Natural Language Inference ( http://arxiv.org/abs/2101.05716v1 )

ライセンス: Link先を確認
Gijs Wijnholds, Michael Moortgat(参考訳) オランダ語で自然言語推論を対象とするデータセットSICK-NL(可読信号)を提案する。 SICK-NLは、Marelli等のSICKデータセットを翻訳して得られる。 (2014年)英語からオランダ語へ。 並列推論データセットを持つことで、英語とオランダ語の単言語NLPモデルと多言語NLPモデルを比較することができる。 本稿では,翻訳プロセスのモチベーションと詳細化を図り,元のSICKデータセットとオランダのSICK-NLのベースライン評価を行い,オランダ語のスキップグラム埋め込みと文脈的埋め込みモデルからインスピレーションを得た。 さらに, 翻訳で発生する2つの現象をカプセル化し, 意味論に影響を与えない構文再構成をオランダのモデルがいかにうまく捉えたかを検証する。 主な発見は、すべてのモデルがSICK-NLよりもSICK-NLの方がパフォーマンスが悪く、オランダのデータセットが英語のオリジナルよりも難しいことを示しています。 ストレステストの結果、モデルはオランダ語で単語の順序の自由を完全に捉えておらず、将来の体系的な研究を保証している。

We present SICK-NL (read: signal), a dataset targeting Natural Language Inference in Dutch. SICK-NL is obtained by translating the SICK dataset of Marelli et al. (2014)from English into Dutch. Having a parallel inference dataset allows us to compare both monolingual and multilingual NLP models for English and Dutch on the two tasks. In the paper, we motivate and detail the translation process, perform a baseline evaluation on both the original SICK dataset and its Dutch incarnation SICK-NL, taking inspiration from Dutch skipgram embeddings and contextualised embedding models. In addition, we encapsulate two phenomena encountered in the translation to formulate stress tests and verify how well the Dutch models capture syntactic restructurings that do not affect semantics. Our main finding is all models perform worse on SICK-NL than on SICK, indicating that the Dutch dataset is more challenging than the English original. Results on the stress tests show that models don't fully capture word order freedom in Dutch, warranting future systematic studies.
翻訳日:2021-03-29 00:51:59 公開日:2021-01-14
# OrigamiSet1.0: Origami分類と難易度推定のための2つの新しいデータセット

OrigamiSet1.0: Two New Datasets for Origami Classification and Difficulty Estimation ( http://arxiv.org/abs/2101.05470v1 )

ライセンス: Link先を確認
Daniel Ma, Gerald Friedland, Mario Michael Krell(参考訳) 折り紙は研究にますます関連性が増している。 しかし、まだ公開データセットはなく、機械学習でこのトピックについての研究は行われていません。 マルチメディアコモンズや他のデータベースの画像を用いた折り紙データセットを構築した。 折り紙画像の分類と難易度推定の2つのサブセットから構成される。 分類のための16000枚の画像(折り紙の半分、その他の物体の半分)と難易度推定用の1509枚の画像を取得し、それぞれ3つのカテゴリに分けて評価した(容易: 764, 中: 427, 複雑: 318)。 データはhttps://github.com/m ultimedia-berkeley/o risetからダウンロードできる。 最後に、機械学習のベースラインを提供します。

Origami is becoming more and more relevant to research. However, there is no public dataset yet available and there hasn't been any research on this topic in machine learning. We constructed an origami dataset using images from the multimedia commons and other databases. It consists of two subsets: one for classification of origami images and the other for difficulty estimation. We obtained 16000 images for classification (half origami, half other objects) and 1509 for difficulty estimation with $3$ different categories (easy: 764, intermediate: 427, complex: 318). The data can be downloaded at: https://github.com/m ultimedia-berkeley/O riSet. Finally, we provide machine learning baselines.
翻訳日:2021-03-29 00:51:27 公開日:2021-01-14
# 混合畳み込みと相互融合による高精度カモフラージュ物体検出に向けて

Towards Accurate Camouflaged Object Detection with Mixture Convolution and Interactive Fusion ( http://arxiv.org/abs/2101.05687v1 )

ライセンス: Link先を確認
Bo Dong, Mingchen Zhuge, Yongxiong Wang, Hongbo Bi, Geng Chen(参考訳) カモフラージュされた物体検出(COD)は、近ごろコンピュータビジョンの分野で研究が進められている。 実際には, 深層学習に基づくCODの成功は, (i) 豊かな文脈情報を提供する非常に大きな受容場, (ii) 正確なCODのためにリッチな多段階特徴を集約する効果的な融合戦略の2つの重要な要因によって決定される。 そこで,本論文では,大規模受容場と効果的な特徴融合を統一フレームワークに統合した,新しい深層学習に基づくcodアプローチを提案する。 具体的には、バックボーンネットワークからまずマルチレベル特徴を抽出する。 得られた特徴は、複数の非対称な畳み込み層と2つの拡張畳み込み層を利用して、大きな受容場からリッチなコンテキスト特徴を抽出する、提案された二重ブランチ混合畳み込みモジュールに供給される。 最後に、特殊設計の多層インタラクティブフュージョンモジュールを用いて特徴を融合させ、各モジュールは、効果的な特徴フュージョンのための機能相互作用とともに、アテンション機構を用いる。 本手法は,広い受容領域からリッチなコンテキスト情報を集約する効果的な融合戦略を用いて,迷彩物体を検出する。 これらの設計はすべてCODの要件を満たしており、カモフラージュされた物体の正確な検出を可能にする。 広範に使用されているベンチマークデータセットに対する大規模な実験により,本手法は精度よく偽造対象を検出し,最先端の手法より優れていることが示された。

Camouflaged object detection (COD), which aims to identify the objects that conceal themselves into the surroundings, has recently drawn increasing research efforts in the field of computer vision. In practice, the success of deep learning based COD is mainly determined by two key factors, including (i) A significantly large receptive field, which provides rich context information, and (ii) An effective fusion strategy, which aggregates the rich multi-level features for accurate COD. Motivated by these observations, in this paper, we propose a novel deep learning based COD approach, which integrates the large receptive field and effective feature fusion into a unified framework. Specifically, we first extract multi-level features from a backbone network. The resulting features are then fed to the proposed dual-branch mixture convolution modules, each of which utilizes multiple asymmetric convolutional layers and two dilated convolutional layers to extract rich context features from a large receptive field. Finally, we fuse the features using specially-designed multi-level interactive fusion modules, each of which employs an attention mechanism along with feature interaction for effective feature fusion. Our method detects camouflaged objects with an effective fusion strategy, which aggregates the rich context information from a large receptive field. All of these designs meet the requirements of COD well, allowing the accurate detection of camouflaged objects. Extensive experiments on widely-used benchmark datasets demonstrate that our method is capable of accurately detecting camouflaged objects and outperforms the state-of-the-art methods.
翻訳日:2021-03-29 00:50:31 公開日:2021-01-14
# ステレオカメラシステムのキャリブレーション:2つのパラメータセットの必要性

Stereo camera system calibration: the need of two sets of parameters ( http://arxiv.org/abs/2101.05725v1 )

ライセンス: Link先を確認
Riccardo Beschi, Xiao Feng, Stefania Melillo, Leonardo Parisi, Lorena Postiglione(参考訳) ステレオカメラシステムによるシーンの再構築は、2段階のプロセスであり、まず異なるカメラからの画像をマッチングしてポイント・ツー・ポイント対応のセットを特定し、3次元の現実世界で実際に再構築する。 システムの性能は、最適結果を保証するために慎重に設計する必要があるキャリブレーション手順に強く依存している。 3つの異なるキャリブレーション手法を実装し,その性能を19のデータセットで比較した。 本研究は,画像ノイズのため,1組のパラメータが,対応の同定と3次元再構成において高い精度を達成するには不十分であることを示す実験的な証拠を示す。 2つの異なるパラメータを推定するためにシステムを2回キャリブレーションすることを提案する。カメラの2次元空間で定義された量を扱う際に使用される再投影誤差を最小化し、実際の3次元空間で定義された量を扱う際に使用される復元誤差を最小化する。

The reconstruction of a scene via a stereo-camera system is a two-steps process, where at first images from different cameras are matched to identify the set of point-to-point correspondences that then will actually be reconstructed in the three dimensional real world. The performance of the system strongly relies of the calibration procedure, which has to be carefully designed to guarantee optimal results. We implemented three different calibration methods and we compared their performance over 19 datasets. We present the experimental evidence that, due to the image noise, a single set of parameters is not sufficient to achieve high accuracy in the identification of the correspondences and in the 3D reconstruction at the same time. We propose to calibrate the system twice to estimate two different sets of parameters: the one obtained by minimizing the reprojection error that will be used when dealing with quantities defined in the 2D space of the cameras, and the one obtained by minimizing the reconstruction error that will be used when dealing with quantities defined in the real 3D world.
翻訳日:2021-03-29 00:50:04 公開日:2021-01-14
# 自動スレッショルドカンニーエッジ検出による文脈認識画像の逆摂動抑制

Context-Aware Image Denoising with Auto-Threshold Canny Edge Detection to Suppress Adversarial Perturbation ( http://arxiv.org/abs/2101.05833v1 )

ライセンス: Link先を確認
Li-Yun Wang, Yeganeh Jalalpour, Wu-chi Feng(参考訳) 本稿では,適応的な画像平滑化技術と色低減技術を組み合わせて,対向画像からの摂動を除去する新しい文脈認識画像復調アルゴリズムを提案する。 適応画像平滑化は、自動閾値キャニーエッジ検出を用いて達成され、より多くのエッジ特徴を保持するぼやけた画像を生成するために使用される正確なエッジマップを生成する。 提案アルゴリズムでは,カラーリダクション手法を用いて,代表色のみを用いて画像の再構成を行う。 この手法により,画像に対する対向摂動の影響を低減することができる。 また,分類精度に関する実験データについても論じる。 提案手法は, 敵の攻撃による敵の摂動を低減し, 深部畳み込みニューラルネットワークモデルの堅牢性を向上することを示した。

This paper presents a novel context-aware image denoising algorithm that combines an adaptive image smoothing technique and color reduction techniques to remove perturbation from adversarial images. Adaptive image smoothing is achieved using auto-threshold canny edge detection to produce an accurate edge map used to produce a blurred image that preserves more edge features. The proposed algorithm then uses color reduction techniques to reconstruct the image using only a few representative colors. Through this technique, the algorithm can reduce the effects of adversarial perturbations on images. We also discuss experimental data on classification accuracy. Our results showed that the proposed approach reduces adversarial perturbation in adversarial attacks and increases the robustness of the deep convolutional neural network models.
翻訳日:2021-03-29 00:49:46 公開日:2021-01-14
# リカレントニューラルネットワークの量子化について

On the quantization of recurrent neural networks ( http://arxiv.org/abs/2101.05453v1 )

ライセンス: Link先を確認
Jian Li, Raziel Alvarez(参考訳) ニューラルネットワークの整数量子化は、整数の精度を減らし、正準ニューラルネットワーク定式化の高精度計算の近似として定義することができる。 機械学習(ML)システムの効率的なデプロイと実行、メモリ消費の削減、通常より高速な計算の活用において重要な役割を果たしている。 本研究では,Long Short-Term Memory(LSTM)ニューラルネットワークトポロジーのための整数のみの量子化戦略を提案する。 私たちの量子化戦略は正確です(例) 量子化後のトレーニングでうまく機能し、効率的かつ高速に実行でき(8ビット整数重みとほとんど8ビットアクティベーションを利用する)、様々なハードウェアをターゲットにすることができる(一般的なcpuアーキテクチャで利用可能な命令セットと利用可能なニューラルネットワークアクセラレータを活用することで)。

Integer quantization of neural networks can be defined as the approximation of the high precision computation of the canonical neural network formulation, using reduced integer precision. It plays a significant role in the efficient deployment and execution of machine learning (ML) systems, reducing memory consumption and leveraging typically faster computations. In this work, we present an integer-only quantization strategy for Long Short-Term Memory (LSTM) neural network topologies, which themselves are the foundation of many production ML systems. Our quantization strategy is accurate (e.g. works well with quantization post-training), efficient and fast to execute (utilizing 8 bit integer weights and mostly 8 bit activations), and is able to target a variety of hardware (by leveraging instructions sets available in common CPU architectures, as well as available neural accelerators).
翻訳日:2021-03-29 00:49:19 公開日:2021-01-14
# 脳波認識のための4次元注意型ニューラルネットワーク

4D Attention-based Neural Network for EEG Emotion Recognition ( http://arxiv.org/abs/2101.05484v1 )

ライセンス: Link先を確認
Guowen Xiao, Mengwen Ye, Bowen Xu, Zhendi Chen, Quansheng Ren(参考訳) 脳波(EEG)の感情認識は脳-コンピュータインターフェース分野において重要な課題である。 近年,多くの深層学習手法が提案されているが,脳波信号の異なる領域に含まれる情報を十分に活用することは依然として困難である。 本稿では,脳波の感情認識のための4次元アテンションベースニューラルネットワーク(4D-aNN)を提案する。 まず、生の脳波信号を4次元空間スペクトル時間表現に変換する。 そして、提案した4D-aNNは、異なる脳領域と周波数帯域の重みを適応的に割り当てるスペクトル及び空間的注意機構を採用し、4D表現のスペクトル及び空間情報を扱うために畳み込みニューラルネットワーク(CNN)を利用する。 さらに、時間的注意機構を双方向長短記憶(LSTM)に統合し、4次元表現の時間的依存関係を探索する。 本モデルは,物体内分割下でのSEEDデータセットの最先端性能を実現する。 実験の結果,脳波の感情認識における異なる領域における注意機構の有効性が示された。

Electroencephalograp h (EEG) emotion recognition is a significant task in the brain-computer interface field. Although many deep learning methods are proposed recently, it is still challenging to make full use of the information contained in different domains of EEG signals. In this paper, we present a novel method, called four-dimensional attention-based neural network (4D-aNN) for EEG emotion recognition. First, raw EEG signals are transformed into 4D spatial-spectral-tem poral representations. Then, the proposed 4D-aNN adopts spectral and spatial attention mechanisms to adaptively assign the weights of different brain regions and frequency bands, and a convolutional neural network (CNN) is utilized to deal with the spectral and spatial information of the 4D representations. Moreover, a temporal attention mechanism is integrated into a bidirectional Long Short-Term Memory (LSTM) to explore temporal dependencies of the 4D representations. Our model achieves state-of-the-art performance on the SEED dataset under intra-subject splitting. The experimental results have shown the effectiveness of the attention mechanisms in different domains for EEG emotion recognition.
翻訳日:2021-03-29 00:49:04 公開日:2021-01-14
# BiGCN: 双方向低パスフィルタリンググラフニューラルネットワーク

BiGCN: A Bi-directional Low-Pass Filtering Graph Neural Network ( http://arxiv.org/abs/2101.05519v1 )

ライセンス: Link先を確認
Zhixian Chen, Tengfei Ma, Zhihua Jin, Yangqiu Song, Yang Wang(参考訳) グラフ畳み込みネットワークはグラフ構造化データにおいて大きな成功を収めた。 多くのグラフ畳み込みネットワークは、グラフ信号の低パスフィルタと見なすことができる。 本稿では,グラフニューラルネットワークを双方向低域通過フィルタとして表現する新しいモデルBiGCNを提案する。 具体的には、元のグラフ構造情報だけでなく、特徴間の潜在相関も考慮するので、BiGCNは元のグラフと潜在特徴連結グラフの両方と共に信号をフィルタリングすることができる。 我々のモデルは、多くのベンチマークデータセット、特にノード機能にノイズを追加する場合のノード分類とリンク予測のタスクにおいて、従来のグラフニューラルネットワークよりも優れています。

Graph convolutional networks have achieved great success on graph-structured data. Many graph convolutional networks can be regarded as low-pass filters for graph signals. In this paper, we propose a new model, BiGCN, which represents a graph neural network as a bi-directional low-pass filter. Specifically, we not only consider the original graph structure information but also the latent correlation between features, thus BiGCN can filter the signals along with both the original graph and a latent feature-connection graph. Our model outperforms previous graph neural networks in the tasks of node classification and link prediction on most of the benchmark datasets, especially when we add noise to the node features.
翻訳日:2021-03-29 00:48:50 公開日:2021-01-14
# エンドツーエンド音声認識における単語レベルの信頼度評価

An evaluation of word-level confidence estimation for end-to-end automatic speech recognition ( http://arxiv.org/abs/2101.05525v1 )

ライセンス: Link先を確認
Dan Oneata, Alexandru Caranica, Adriana Stan, Horia Cucu(参考訳) 予測の信頼性(あるいは不確実性)の定量化は、下流タスクの堅牢性と有用性を改善するため、自動システムの非常に望ましい特性である。 本稿では,エンドツーエンド自動音声認識(ASR)の信頼性評価について検討する。 従来の研究は格子ベースのASRに対する信頼度尺度に対処してきたが、現在の機械学習研究は主に非構造化ディープラーニングに対する信頼度尺度に焦点を当てている。 しかし, ASR システムは, より深いエンド・ツー・エンドの手法で構築されつつあるため, この文脈で信頼性対策を開発するための作業はほとんどない。 このギャップを埋めるために、よく知られた4つの音声データセットに対して、一般的な信頼度手法の広範なベンチマークを提供する。 既存の手法を適用する上で克服される課題は、構造化データ(シーケンス)に取り組み、予測(トークンではなくワード)よりも粗いレベルで信頼を得る、という2つです。 以上の結果から,ロジットを学習温度でスケーリングし,予測分布の負のエントロピーとして信頼度を推定し,最後に単語レベルでの総和プールを行うことで,強いベースラインが得られることが示唆された。

Quantifying the confidence (or conversely the uncertainty) of a prediction is a highly desirable trait of an automatic system, as it improves the robustness and usefulness in downstream tasks. In this paper we investigate confidence estimation for end-to-end automatic speech recognition (ASR). Previous work has addressed confidence measures for lattice-based ASR, while current machine learning research mostly focuses on confidence measures for unstructured deep learning. However, as the ASR systems are increasingly being built upon deep end-to-end methods, there is little work that tries to develop confidence measures in this context. We fill this gap by providing an extensive benchmark of popular confidence methods on four well-known speech datasets. There are two challenges we overcome in adapting existing methods: working on structured data (sequences) and obtaining confidences at a coarser level than the predictions (words instead of tokens). Our results suggest that a strong baseline can be obtained by scaling the logits by a learnt temperature, followed by estimating the confidence as the negative entropy of the predictive distribution and, finally, sum pooling to aggregate at word level.
翻訳日:2021-03-29 00:48:19 公開日:2021-01-14
# 有効な変数選択のための凝集型階層クラスタリング

Agglomerative Hierarchical Clustering for Selecting Valid Instrumental Variables ( http://arxiv.org/abs/2101.05774v1 )

ライセンス: Link先を確認
Nicolas Apfel and Xiaoran Liang(参考訳) 本稿では,集合的階層的クラスタリング法とハンセン・サーガンオーソライゼーションテストを組み合わせることで,多数の候補機器からIV推定のための有効な機器を選択するための機器変数(IV)選択手法を提案する。 一部の楽器は、排他制限に失敗する可能性があるという意味で無効である。 複数のルールの下では,oracle の選択と推定結果を実現できることを示す。 従来のiv選択法と比較して,弱い計器問題に対して効果的に対処できるという利点があり,複数の内因性レグレプターや異種治療効果がある場合にも容易に拡張できる。 モンテカルロシミュレーションを行い,本手法の性能について検討し,ハードしきい値法 (ht) と信頼区間法 (cim) の2つの既存手法と比較した。 シミュレーションの結果,全ての楽器が強い場合, 単一および複数の内因性回帰器の設定において, オラクルの選択と推定結果が得られた。 また,提案手法は,HTやCIMよりも優れた,いくつかの候補楽器が弱い場合にも有効である。 本手法を,米国における移民の賃金に対する影響の推定に適用する。

We propose an instrumental variable (IV) selection procedure which combines the agglomerative hierarchical clustering method and the Hansen-Sargan overidentification test for selecting valid instruments for IV estimation from a large set of candidate instruments. Some of the instruments may be invalid in the sense that they may fail the exclusion restriction. We show that under the plurality rule, our method can achieve oracle selection and estimation results. Compared to the previous IV selection methods, our method has the advantages that it can deal with the weak instruments problem effectively, and can be easily extended to settings where there are multiple endogenous regressors and heterogenous treatment effects. We conduct Monte Carlo simulations to examine the performance of our method, and compare it with two existing methods, the Hard Thresholding method (HT) and the Confidence Interval method (CIM). The simulation results show that our method achieves oracle selection and estimation results in both single and multiple endogenous regressors settings in large samples when all the instruments are strong. Also, our method works well when some of the candidate instruments are weak, outperforming HT and CIM. We apply our method to the estimation of the effect of immigration on wages in the US.
翻訳日:2021-03-29 00:47:59 公開日:2021-01-14
# 制御スイングのすべり面を囲むこと

Enclosing the Sliding Surfaces of a Controlled Swing ( http://arxiv.org/abs/2101.05418v1 )

ライセンス: Link先を確認
Luc Jaulin (Robex, Lab-STICC), Beno\^it Desrochers (DGA-TN)(参考訳) サイバー物理システムに連続しないコントローラを実装する場合、閉ループシステムの進化は、主にコントローラ内部の条件文のために、軌道に沿って断片的に微分できない場合がある。 これはシステムを傷つけるよりも、望ましくないおしゃべり効果をもたらす可能性がある。 この行動はシミュレーションでも観察が難しい。 本稿では、状態軌道が2つの異なる挙動の間を無期限に跳躍するように、全ての状態の集合に対応するすべり面を特徴づける区間的アプローチを提案する。 近年の厚み集合の概念は、集合列の不確かさをすべて考慮し、与えられた階層のハイブリッドシステムのすべり面の外部近似を効率的に計算できることを示している。 子どものスイングの制御器の検証への応用は,アプローチの原理を説明するものであると考えられる。

When implementing a non-continuous controller for a cyber-physical system, it may happen that the evolution of the closed-loop system is not anymore piecewise differentiable along the trajectory, mainly due to conditional statements inside the controller. This may lead to some unwanted chattering effects than may damage the system. This behavior is difficult to observe even in simulation. In this paper, we propose an interval approach to characterize the sliding surface which corresponds to the set of all states such that the state trajectory may jump indefinitely between two distinct behaviors. We show that the recent notion of thick sets will allows us to compute efficiently an outer approximation of the sliding surface of a given class of hybrid system taking into account all set-membership uncertainties. An application to the verification of the controller of a child swing is considered to illustrate the principle of the approach.
翻訳日:2021-03-29 00:47:39 公開日:2021-01-14
# 新型コロナウイルス診断改善のための多段階交流学習フレームワーク

A Multi-Stage Attentive Transfer Learning Framework for Improving COVID-19 Diagnosis ( http://arxiv.org/abs/2101.05410v1 )

ライセンス: Link先を確認
Yi Liu, Shuiwang Ji(参考訳) CTは新型コロナウイルスの診断に有望なアプローチである。 機械学習手法は、ラベル付きCT画像からモデルをトレーニングし、ケースが正か負かを予測するために用いられる。 しかし、正確なモデルをトレーニングするための公開データや大規模CTデータはない。 本研究では、新型コロナウイルスの診断を改善するための多段階学習フレームワークを提案する。 提案フレームワークは,複数のソースタスクと異なるドメインのデータから知識を学習することで,正確な診断モデルを訓練する3つの段階から構成される。 本稿では,肺CT画像のマルチスケール表現を学習するための自己教師付き学習手法を提案する。 本手法は,肺全体から意味情報を取り込み,各肺領域の機能を強調し,より優れた表現学習を行う。 次に,提案手法を移動学習フレームワークの最終段階に統合し,同じCT画像から得られた複雑なパターンを再利用する。 自己意識(ATTN)と畳み込み操作を統合したベースモデルを用いる。 実験の結果,attnを用いたネットワークはattnのないネットワークよりも転送学習による性能向上を誘導することがわかった。 これは畳み込みよりも移動性が高いことを示している。 また,提案手法は,いくつかのベースライン法よりも優れていることを示す。

Computed tomography (CT) imaging is a promising approach to diagnosing the COVID-19. Machine learning methods can be employed to train models from labeled CT images and predict whether a case is positive or negative. However, there exists no publicly-available and large-scale CT data to train accurate models. In this work, we propose a multi-stage attentive transfer learning framework for improving COVID-19 diagnosis. Our proposed framework consists of three stages to train accurate diagnosis models through learning knowledge from multiple source tasks and data of different domains. Importantly, we propose a novel self-supervised learning method to learn multi-scale representations for lung CT images. Our method captures semantic information from the whole lung and highlights the functionality of each lung region for better representation learning. The method is then integrated to the last stage of the proposed transfer learning framework to reuse the complex patterns learned from the same CT images. We use a base model integrating self-attention (ATTNs) and convolutional operations. Experimental results show that networks with ATTNs induce greater performance improvement through transfer learning than networks without ATTNs. This indicates attention exhibits higher transferability than convolution. Our results also show that the proposed self-supervised learning method outperforms several baseline methods.
翻訳日:2021-03-29 00:46:42 公開日:2021-01-14
# AVGCN:人間の注意によるグラフ畳み込みネットワークを用いた軌道予測

AVGCN: Trajectory Prediction using Graph Convolutional Networks Guided by Human Attention ( http://arxiv.org/abs/2101.05682v1 )

ライセンス: Link先を確認
Congcong Liu, Yuying Chen, Ming Liu, Bertram E. Shi(参考訳) 歩行者の軌道予測は、特に混み合ったシーンでは、重要だが困難な作業である。 異なる近隣住民の重要性を推定するための注意機構の導入は,群集の大きさの異なるシーンにおける正確な軌道予測に重要であることを示唆する。 本研究では,人間の注意に基づくグラフ畳み込みネットワーク(GCN)を用いた軌跡予測のための新しい手法であるAVGCNを提案する(Aは注意を表し,Vは視野制約を表す)。 まず,近隣の歩行者の重要性を推定するアテンションネットワークを,鳥の視線視線による群集ナビゲーションタスクの実行時に収集した視線データを用いて訓練する。 次に,歩行者の視野の制約によって調節される注意重みを,gcnを用いて近隣からの情報を効率的に集約する軌道予測ネットワークに組み込む。 AVGCNはまた、変動軌道予測を利用して歩行者軌道の確率的性質を考察している。 本手法は,いくつかの軌道予測ベンチマークにおいて最先端性能を達成し,検討したベンチマークにおいて平均予測誤差が最も低い。

Pedestrian trajectory prediction is a critical yet challenging task, especially for crowded scenes. We suggest that introducing an attention mechanism to infer the importance of different neighbors is critical for accurate trajectory prediction in scenes with varying crowd size. In this work, we propose a novel method, AVGCN, for trajectory prediction utilizing graph convolutional networks (GCN) based on human attention (A denotes attention, V denotes visual field constraints). First, we train an attention network that estimates the importance of neighboring pedestrians, using gaze data collected as subjects perform a bird's eye view crowd navigation task. Then, we incorporate the learned attention weights modulated by constraints on the pedestrian's visual field into a trajectory prediction network that uses a GCN to aggregate information from neighbors efficiently. AVGCN also considers the stochastic nature of pedestrian trajectories by taking advantage of variational trajectory prediction. Our approach achieves state-of-the-art performance on several trajectory prediction benchmarks, and the lowest average prediction error over all considered benchmarks.
翻訳日:2021-03-29 00:46:26 公開日:2021-01-14
# マルチエージェント環境におけるインスタンス認識予測ナビゲーション

Instance-Aware Predictive Navigation in Multi-Agent Environments ( http://arxiv.org/abs/2101.05893v1 )

ライセンス: Link先を確認
Jinkun Cao, Xin Wang, Trevor Darrell, Fisher Yu(参考訳) 本研究では,動的マルチエージェント環境における運転ポリシーのエンドツーエンド学習を実現することを目的とする。 オブジェクトレベルでの将来のイベントの予測と予測は、インフォームドドライブの判断に不可欠である。 本稿では,エージェント間のインタラクションと将来のシーン構造を予測するインスタンス対応予測制御(ipc)手法を提案する。 本研究では,ego-vehicleの選択された動作系列に基づいて,ego-centric viewにおけるエージェント間のインタラクションを推定するマルチインスタンス・イベント予測モジュールを提案する。 各ステップでアクションを決定するために、予測モジュール出力に基づいて、起こりうるアクションシーケンスを繰り返しサンプリングすることで、安全な未来の状態に導くアクションシーケンスを求める。 シーンレベルとインスタンスレベルの両方で予測された状態をうまく活用するためのシーケンシャルなアクションサンプリング戦略を設計する。 提案手法は, CARLAマルチエージェント運転シミュレーション環境において, 専門家による実証を伴わず, 説明性の向上とサンプル効率の向上を図ったものである。

In this work, we aim to achieve efficient end-to-end learning of driving policies in dynamic multi-agent environments. Predicting and anticipating future events at the object level are critical for making informed driving decisions. We propose an Instance-Aware Predictive Control (IPC) approach, which forecasts interactions between agents as well as future scene structures. We adopt a novel multi-instance event prediction module to estimate the possible interaction among agents in the ego-centric view, conditioned on the selected action sequence of the ego-vehicle. To decide the action at each step, we seek the action sequence that can lead to safe future states based on the prediction module outputs by repeatedly sampling likely action sequences. We design a sequential action sampling strategy to better leverage predicted states on both scene-level and instance-level. Our method establishes a new state of the art in the challenging CARLA multi-agent driving simulation environments without expert demonstration, giving better explainability and sample efficiency.
翻訳日:2021-03-29 00:46:09 公開日:2021-01-14
# 分子機能に基づく機械学習の機能削減:遺伝子コア

Feature reduction for machine learning on molecular features: The GeneScore ( http://arxiv.org/abs/2101.05546v1 )

ライセンス: Link先を確認
Alexander Denker, Anastasia Steshina, Theresa Grooss, Frank Ueckert, Sylvia N\"urnberg(参考訳) バイオメディカルデータの機械学習解析における特徴量削減の概念であるGeneScoreを提案する。 専門家の知識を使って、GeneScoreは異なる分子データ型を単一のスコアに統合する。 SNV, Indel, CNV, 遺伝子融合および遺伝子発現データからがん物質を分類する際, GeneScore はバイナリマトリックスよりも優れていることを示す。 GeneScoreは、使用した分子データの特徴に関する科学知識を活用しながら、最先端の分析を容易にする簡単な方法である。

We present the GeneScore, a concept of feature reduction for Machine Learning analysis of biomedical data. Using expert knowledge, the GeneScore integrates different molecular data types into a single score. We show that the GeneScore is superior to a binary matrix in the classification of cancer entities from SNV, Indel, CNV, gene fusion and gene expression data. The GeneScore is a straightforward way to facilitate state-of-the-art analysis, while making use of the available scientific knowledge on the nature of molecular data features used.
翻訳日:2021-03-29 00:45:52 公開日:2021-01-14
# 時間に基づくCAN侵入検出ベンチマーク

Time-Based CAN Intrusion Detection Benchmark ( http://arxiv.org/abs/2101.05781v1 )

ライセンス: Link先を確認
Deborah H. Blevins (1), Pablo Moriano (2), Robert A. Bridges (2), Miki E. Verma (2), Michael D. Iannacone (2), Samuel C Hollifield (2) ((1) University of Kentucky, (2) Oak Ridge National Laboratory)(参考訳) 現代の車両は、制御エリアネットワーク(CAN)を介して通信する数百の電子制御ユニット(ECU)で構成される複雑なサイバー物理システムである。 この継承された複雑さは、メッセージインジェクション攻撃に弱いCAN攻撃面を拡張した。 これらのインジェクションは、バス上のメッセージの全体的なタイミング特性を変化させ、悪意のあるメッセージを検出するために、時間ベースの侵入検知システム(IDS)が提案されている。 しかしながら、時間ベースのIDSは通常、非現実的なラベル付き攻撃を伴う低忠実度データセットでトレーニングされ、テストされる。 これにより、IDSを評価し、比較し、検証する作業が困難になります。 ここでは、新たに公開されたROADデータセットに対する4つの時間ベースのIDSの詳細とベンチマークを行う。 その結果,メッセージタイミング分布を明示的に推定することで仮説テストを行う手法は,分布関連統計の異常を求める手法よりも低い性能を示すことがわかった。 特に、これらの「分配非依存」ベースの手法は、精度再呼び出し曲線 (auc-pr) の下で少なくとも55%の面積で「分配ベース」手法を上回っている。 我々は,これらの手法の詳細を提供し,実際の高度な攻撃を伴うデータセット上でテストした場合に結果を報告することにより,CAN時刻ベースIDSの知識体系を拡張した。 最後に, 軽量ハードウェアを用いたアフターマーケット用プラグイン検出器を開発し, ほぼすべての車両に最高の性能のIDS法を展開できることを確認した。

Modern vehicles are complex cyber-physical systems made of hundreds of electronic control units (ECUs) that communicate over controller area networks (CANs). This inherited complexity has expanded the CAN attack surface which is vulnerable to message injection attacks. These injections change the overall timing characteristics of messages on the bus, and thus, to detect these malicious messages, time-based intrusion detection systems (IDSs) have been proposed. However, time-based IDSs are usually trained and tested on low-fidelity datasets with unrealistic, labeled attacks. This makes difficult the task of evaluating, comparing, and validating IDSs. Here we detail and benchmark four time-based IDSs against the newly published ROAD dataset, the first open CAN IDS dataset with real (non-simulated) stealthy attacks with physically verified effects. We found that methods that perform hypothesis testing by explicitly estimating message timing distributions have lower performance than methods that seek anomalies in a distribution-related statistic. In particular, these "distribution-agnosti c" based methods outperform "distribution-based&q uot; methods by at least 55% in area under the precision-recall curve (AUC-PR). Our results expand the body of knowledge of CAN time-based IDSs by providing details of these methods and reporting their results when tested on datasets with real advanced attacks. Finally, we develop an after-market plug-in detector using lightweight hardware, which can be used to deploy the best performing IDS method on nearly any vehicle.
翻訳日:2021-03-29 00:45:36 公開日:2021-01-14
# 知識グラフ埋め込みの継続的な学習

Continual Learning of Knowledge Graph Embeddings ( http://arxiv.org/abs/2101.05850v1 )

ライセンス: Link先を確認
Angel Daruna, Mehul Gupta, Mohan Sridharan, and Sonia Chernova(参考訳) 近年,ロボット工学応用における意味知識の表現と推論に分散(神経)表現を用いた手法が復活している。 しかし、ロボットはしばしば以前には知られていなかった概念を観察するが、これらの表現は通常、全ての概念は優先順位として知られており、新しい情報を組み込むには全ての概念を学ぶ必要があると仮定する。 我々の研究は、これらの表現の静的仮定を緩和し、一連の連続学習手法の原理を活用することで、漸進的な知識グラフの埋め込み問題に取り組む。 いくつかの知識グラフと埋め込み表現を用いた実験的な評価を通じて、セマンティクス駆動型ロボット工学を適切な知識グラフ埋め込み法に適合させる実践者のトレードオフに関する洞察を提供する。

In recent years, there has been a resurgence in methods that use distributed (neural) representations to represent and reason about semantic knowledge for robotics applications. However, while robots often observe previously unknown concepts, these representations typically assume that all concepts are known a priori, and incorporating new information requires all concepts to be learned afresh. Our work relaxes the static assumptions of these representations to tackle the incremental knowledge graph embedding problem by leveraging principles of a range of continual learning methods. Through an experimental evaluation with several knowledge graphs and embedding representations, we provide insights about trade-offs for practitioners to match a semantics-driven robotics application to a suitable continual knowledge graph embedding method.
翻訳日:2021-03-29 00:45:15 公開日:2021-01-14
# Cocktail Edge Caching: エンサンブルラーニングによるコンテンツ人気傾向の動的傾向

Cocktail Edge Caching: Ride Dynamic Trends of Content Popularity with Ensemble Learning ( http://arxiv.org/abs/2101.05885v1 )

ライセンス: Link先を確認
Tongyu Zong, Chen Li, Yuanyuan Lei, Guangyu Li, Houwei Cao, Yong Liu(参考訳) エッジキャッシングは、新興のコンテンツリッチアプリケーションを促進する上で重要な役割を果たす。 しかし、特に非常にダイナミックなコンテンツの人気と不均一なキャッシング設定が、多くの新しい課題に直面している。 本稿では,アンサンブル学習による動的人気と不均一性に対処するCocktail Edge Cachingを提案する。 すべてのキャッシュシナリオに対して、単一の支配的なキャッシュポリシを見つける代わりに、構成的なキャッシュポリシのアンサンブルを使用して、キャッシュを制御するための最高のパフォーマンスポリシーを適応的に選択します。 この目標に向けて、我々はまず、LFUおよびLRUポリシーの異なるバリエーションが異なるキャッシングシナリオにおいて相補的な性能を持つことを示す公式な分析と実験を通して示す。 さらに,LSTMに基づく時系列解析によりLFU/LRUを向上させる新しいキャッシングアルゴリズムを開発した。 最後に,並列仮想キャッシュ上での仮想ヒット率に応じて,ベースキャッシングポリシを適応的に結合する深層強化学習エージェントを開発した。 2つの大きなビデオストリーミングプラットフォームからの実際のコンテンツ要求によって駆動される広範な実験を通じて、CECは、すべての単一ポリシーを一貫して上回るだけでなく、その堅牢性も向上することを示した。 cecは、配置のための計算オーバーヘッドが低い異なるキャッシングシナリオによく一般化することができる。

Edge caching will play a critical role in facilitating the emerging content-rich applications. However, it faces many new challenges, in particular, the highly dynamic content popularity and the heterogeneous caching configurations. In this paper, we propose Cocktail Edge Caching, that tackles the dynamic popularity and heterogeneity through ensemble learning. Instead of trying to find a single dominating caching policy for all the caching scenarios, we employ an ensemble of constituent caching policies and adaptively select the best-performing policy to control the cache. Towards this goal, we first show through formal analysis and experiments that different variations of the LFU and LRU policies have complementary performance in different caching scenarios. We further develop a novel caching algorithm that enhances LFU/LRU with deep recurrent neural network (LSTM) based time-series analysis. Finally, we develop a deep reinforcement learning agent that adaptively combines base caching policies according to their virtual hit ratios on parallel virtual caches. Through extensive experiments driven by real content requests from two large video streaming platforms, we demonstrate that CEC not only consistently outperforms all single policies, but also improves the robustness of them. CEC can be well generalized to different caching scenarios with low computation overheads for deployment.
翻訳日:2021-03-29 00:45:01 公開日:2021-01-14
# ニーズマイニング:ソーシャルメディアからニーズを引き出すデジタルサポートを設計する

Needmining: Designing Digital Support to Elicit Needs from Social Media ( http://arxiv.org/abs/2101.06146v1 )

ライセンス: Link先を確認
Niklas K\"uhl and Gerhard Satzger(参考訳) 今日のビジネスは、競争の激しい市場で成功するために革新を迫られる高いプレッシャーに直面している。 しかし、成功したイノベーションは通常、顧客ニーズの識別と分析を必要とします。 従来の確立されたニーズの明確化手法は、価値ある洞察を提供する能力が実証されている一方で、自動化やスケーラビリティが欠如しており、高価で時間がかかります。 本稿では,新しいデータソースを利用することで,利用者のニーズを自動的に識別し,定量化する手法を提案する。 これらの投稿には、著者のニーズ、要求、および要求に関する貴重な情報が含まれている可能性がある。 我々は、デザイン科学研究(dsr)の方法論を適用し、イノベーションプロセスのデジタル化、特に顧客ニーズの明確化のためのデジタルサポートを提供するための設計知識とアーティファクトを追加する。 われわれは、自動化された、迅速で、スケーラブルな、ソーシャルメディアからの需要喚起が実現可能かどうかを調査したい。 私たちは、データソースとしてのTwitterと、アプリケーションドメインとしてのe-mobilityに集中しています。 第1の設計サイクルにおいて、実際に顧客のニーズを表すソーシャルメディア投稿を識別する可能性を示す手法を考案し、実装し、評価する。 2つ目のサイクルでは、このアーティファクトの上に構築し、必要な情報を定量化し、その実現可能性を証明する。 第3に,開発手法をエンドユーザーソフトウェアアーティファクトに統合し,産業用ユースケースにおけるユーザビリティをテストする。 そこで本研究では,知識体に新たな知識誘発手法を付加し,イノベーションマネジメントのための具体的ツールを提案する。

Today's businesses face a high pressure to innovate in order to succeed in highly competitive markets. Successful innovations, though, typically require the identification and analysis of customer needs. While traditional, established need elicitation methods are time-proven and have demonstrated their capabilities to deliver valuable insights, they lack automation and scalability and, thus, are expensive and time-consuming. In this article, we propose an approach to automatically identify and quantify customer needs by utilizing a novel data source: Users voluntarily and publicly expose information about themselves via social media, as for instance Facebook or Twitter. These posts may contain valuable information about the needs, wants, and demands of their authors. We apply a Design Science Research (DSR) methodology to add design knowledge and artifacts for the digitalization of innovation processes, in particular to provide digital support for the elicitation of customer needs. We want to investigate whether automated, speedy, and scalable need elicitation from social media is feasible. We concentrate on Twitter as a data source and on e-mobility as an application domain. In a first design cycle we conceive, implement and evaluate a method to demonstrate the feasibility of identifying those social media posts that actually express customer needs. In a second cycle, we build on this artifact to additionally quantify the need information elicited, and prove its feasibility. Third, we integrate both developed methods into an end-user software artifact and test usability in an industrial use case. Thus, we add new methods for need elicitation to the body of knowledge, and introduce concrete tooling for innovation management in practice.
翻訳日:2021-03-29 00:44:41 公開日:2021-01-14
# ランダム初期化学習オプティマイザを用いた学習オプティマイザの学習

Training Learned Optimizers with Randomly Initialized Learned Optimizers ( http://arxiv.org/abs/2101.07367v1 )

ライセンス: Link先を確認
Luke Metz, C. Daniel Freeman, Niru Maheswaranathan, Jascha Sohl-Dickstein(参考訳) 学習されたオプティマイザは、特定のタスクのAdam~\citep{kingma2014adam}のような手作りのオプティマイザよりもパフォーマンスが向上する。 現在の作業では、学習したオプティマイザのメタトレーニング(または'outer-training')は、手設計のオプティマイザまたは手設計のオプティマイザ \citep{metz2020tasks} によって訓練されたオプティマイザによって実行される。 ランダムに初期化して学習したオプティマイザの集団は、そのプロセスのどの部分でも手作りのオプティマイザを使わずに、オンラインでスクラッチから学習することができる。 人口ベーストレーニングの形式は、この自己学習の組織化に使用される。 ランダムに初期化されるオプティマイザは、最初は遅く進行するが、改善するにつれてポジティブなフィードバックループを経験し、トレーニング自体において急速に効果的になる。 このタイプのフィードバックループは、オプティマイザが自らを改善すれば、機械学習の将来において重要かつ強力なものになると考えています。 これらの手法は性能向上への道筋を提供するだけでなく、研究と工学の努力を和らげる。

Learned optimizers are increasingly effective, with performance exceeding that of hand designed optimizers such as Adam~\citep{kingma2014adam} on specific tasks \citep{metz2019understandin g}. Despite the potential gains available, in current work the meta-training (or `outer-training') of the learned optimizer is performed by a hand-designed optimizer, or by an optimizer trained by a hand-designed optimizer \citep{metz2020tasks}. We show that a population of randomly initialized learned optimizers can be used to train themselves from scratch in an online fashion, without resorting to a hand designed optimizer in any part of the process. A form of population based training is used to orchestrate this self-training. Although the randomly initialized optimizers initially make slow progress, as they improve they experience a positive feedback loop, and become rapidly more effective at training themselves. We believe feedback loops of this type, where an optimizer improves itself, will be important and powerful in the future of machine learning. These methods not only provide a path towards increased performance, but more importantly relieve research and engineering effort.
翻訳日:2021-03-29 00:44:17 公開日:2021-01-14
# テキスト分析・生成における逆機械学習

Adversarial Machine Learning in Text Analysis and Generation ( http://arxiv.org/abs/2101.08675v1 )

ライセンス: Link先を確認
Izzat Alsmadi(参考訳) 敵対的機械学習の研究分野は、ここ数年で大きな関心を集めている。 機械学習者やモデルは、許容できる精度、効率等で主目的を達成できれば安全である。 同時に、異なるタイプの攻撃や敵の攻撃に抵抗することができる。 本稿では,テキスト分析と生成を専門とする対人機械学習の側面と研究動向について述べる。 本稿は,ganアルゴリズム,モデル,攻撃の種類,これらの攻撃に対する防御など,この分野の主要な研究動向を要約する。

The research field of adversarial machine learning witnessed a significant interest in the last few years. A machine learner or model is secure if it can deliver main objectives with acceptable accuracy, efficiency, etc. while at the same time, it can resist different types and/or attempts of adversarial attacks. This paper focuses on studying aspects and research trends in adversarial machine learning specifically in text analysis and generation. The paper summarizes main research trends in the field such as GAN algorithms, models, types of attacks, and defense against those attacks.
翻訳日:2021-03-29 00:43:53 公開日:2021-01-14
# 信号時相論理による電子商取引ランキング信号の解析

Analysis of E-commerce Ranking Signals via Signal Temporal Logic ( http://arxiv.org/abs/2101.05415v1 )

ライセンス: Link先を確認
Tommaso Dreossi (Amazon Search), Giorgio Ballardin (Amazon Search), Parth Gupta (Amazon Search), Jan Bakus (Amazon Search), Yu-Hsiang Lin (Amazon Search), Vamsi Salaka (Amazon Search)(参考訳) モデルランキングの学習によって得られた文書の時間的位置を信号と見なすことができる。 信号は、時間経過やユーザの振る舞いに応じて文書のドロップや上昇といった有用な情報を運ぶ。 本研究では,STL(Signal Temporal Logic)と呼ばれる論理形式を用いて,所定の公式に従って文書の動作を特徴付けることを提案する。 分析の結果、興味深い文書の挙動はstl式により容易に形式化・検出できることがわかった。 私たちは10万の製品信号のデータセットでアイデアを検証する。 提示されたフレームワークを通じて、コールドスタート、ウォームスタート、スパイクなどの興味深いパターンを発見し、それらがモデルのランク付けにどのように影響するかを調べます。

The timed position of documents retrieved by learning to rank models can be seen as signals. Signals carry useful information such as drop or rise of documents over time or user behaviors. In this work, we propose to use the logic formalism called Signal Temporal Logic (STL) to characterize document behaviors in ranking accordingly to the specified formulas. Our analysis shows that interesting document behaviors can be easily formalized and detected thanks to STL formulas. We validate our idea on a dataset of 100K product signals. Through the presented framework, we uncover interesting patterns, such as cold start, warm start, spikes, and inspect how they affect our learning to ranks models.
翻訳日:2021-03-29 00:43:45 公開日:2021-01-14
# 最適ネットワークオンライン変化点局所化

Optimal network online change point localisation ( http://arxiv.org/abs/2101.05477v1 )

ライセンス: Link先を確認
Yi Yu, Oscar Hernan Madrid Padilla, Daren Wang and Alessandro Rinaldo(参考訳) オンラインネットワーク変化点検出の問題点について検討する。 この設定では、独立したベルヌーイネットワークの集合を順次収集し、変更点が発生したときにその下層分布が変化する。 目標は、変更点をできるだけ早く検出することであり、もし存在すれば、偽アラームの数や可能性の制約を受ける。 In this paper, on the detection delay, we establish a minimax lower bound and two upper bounds based on NP-hard algorithms and polynomial-time algorithms, i.e., \[ \mbox{detection delay} \begin{cases} \gtrsim \log(1/\alpha) \frac{\max\{r^2/n, \, 1\}}{\kappa_0^2 n \rho},\\ \lesssim \log(\Delta/\alpha) \frac{\max\{r^2/n, \, \log(r)\}}{\kappa_0^2 n \rho}, & \mbox{with NP-hard algorithms},\\ \lesssim \log(\Delta/\alpha) \frac{r}{\kappa_0^2 n \rho}, & \mbox{with polynomial-time algorithms}, \end{cases} \] where $\kappa_0, n, \rho, r$ and $\alpha$ are the normalised jump size, network size, entrywise sparsity, rank sparsity and the overall Type-I error upper bound. すべてのモデルパラメータは、変更点の位置である$\Delta$として変更することができる。 多項式時間アルゴリズムは,2種類のタイプi誤り制御を高速に検出するために設計した新しい手法である。 第1は、変更点がない場合の偽アラームの全体的な確率を制御し、第2は、第1の偽アラームの期待時刻の下限を特定することに基づく。 提案手法は,異なるシナリオと前述のType-Iエラー制御形態において,最先端の手法よりも優れていることを示す。

We study the problem of online network change point detection. In this setting, a collection of independent Bernoulli networks is collected sequentially, and the underlying distributions change when a change point occurs. The goal is to detect the change point as quickly as possible, if it exists, subject to a constraint on the number or probability of false alarms. In this paper, on the detection delay, we establish a minimax lower bound and two upper bounds based on NP-hard algorithms and polynomial-time algorithms, i.e., \[ \mbox{detection delay} \begin{cases} \gtrsim \log(1/\alpha) \frac{\max\{r^2/n, \, 1\}}{\kappa_0^2 n \rho},\\ \lesssim \log(\Delta/\alpha) \frac{\max\{r^2/n, \, \log(r)\}}{\kappa_0^2 n \rho}, & \mbox{with NP-hard algorithms},\\ \lesssim \log(\Delta/\alpha) \frac{r}{\kappa_0^2 n \rho}, & \mbox{with polynomial-time algorithms}, \end{cases} \] where $\kappa_0, n, \rho, r$ and $\alpha$ are the normalised jump size, network size, entrywise sparsity, rank sparsity and the overall Type-I error upper bound. All the model parameters are allowed to vary as $\Delta$, the location of the change point, diverges. The polynomial-time algorithms are novel procedures that we propose in this paper, designed for quick detection under two different forms of Type-I error control. The first is based on controlling the overall probability of a false alarm when there are no change points, and the second is based on specifying a lower bound on the expected time of the first false alarm. Extensive experiments show that, under different scenarios and the aforementioned forms of Type-I error control, our proposed approaches outperform state-of-the-art methods.
翻訳日:2021-03-29 00:43:34 公開日:2021-01-14
# テキストからのコヒーレントな自然発話とジェスチャーの生成

Generating coherent spontaneous speech and gesture from text ( http://arxiv.org/abs/2101.05684v1 )

ライセンス: Link先を確認
Simon Alexanderson, \'Eva Sz\'ekely, Gustav Eje Henter, Taras Kucherenko, Jonas Beskow(参考訳) 人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む。 機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した: 音声側では、テキストから音声への変換システムは、書き起こされていない音声を素材として、非常に説得力のある自発的な音声を生成することができるようになった。 動作側では、確率論的モーションジェネレーション法が、生き生きとした音声駆動の3Dジェスチャーを合成できるようになった。 本稿では,これら2つの最先端技術を初めてコヒーレントな方法で統合する。 具体的には,テキスト入力から音声と全身ジェスチャーの両方を生成できる単一話者音声とモーションキャプチャデータセットで学習した概念実証システムを示す。 モーションキャプチャデータと同一人物からの自発音声の録音を訓練した音声合成から,先行した音声とジェスチャ生成のアプローチとは対照的に,全身ジェスチャを生成する。 ジェスチャー空間とテキスト-音声のアライメントを可視化し、https://simonalexand erson.github.io/iva2 020のデモビデオを通して結果を示す。

Embodied human communication encompasses both verbal (speech) and non-verbal information (e.g., gesture and head movements). Recent advances in machine learning have substantially improved the technologies for generating synthetic versions of both of these types of data: On the speech side, text-to-speech systems are now able to generate highly convincing, spontaneous-sounding speech using unscripted speech audio as the source material. On the motion side, probabilistic motion-generation methods can now synthesise vivid and lifelike speech-driven 3D gesticulation. In this paper, we put these two state-of-the-art technologies together in a coherent fashion for the first time. Concretely, we demonstrate a proof-of-concept system trained on a single-speaker audio and motion-capture dataset, that is able to generate both speech and full-body gestures together from text input. In contrast to previous approaches for joint speech-and-gesture generation, we generate full-body gestures from speech synthesis trained on recordings of spontaneous speech from the same person as the motion-capture data. We illustrate our results by visualising gesture spaces and text-speech-gesture alignments, and through a demonstration video at https://simonalexand erson.github.io/IVA2 020 .
翻訳日:2021-03-29 00:42:55 公開日:2021-01-14
# 貯留層計算における可塑性ルールの役割

Unveiling the role of plasticity rules in reservoir computing ( http://arxiv.org/abs/2101.05848v1 )

ライセンス: Link先を確認
Guillermo B. Morales, Claudio R. Mirasso and Miguel C. Soriano(参考訳) Reservoir Computing(RC)は、リカレントニューラルネットワークの高計算能力と高速で簡単なトレーニング手法を組み合わせた機械学習における魅力的なアプローチである。 同様に、RC人工ネットワークへのニューロインスパイアされた塑性規則の実装が成功し、オリジナルのモデルの性能が向上した。 本論文では, RCの性能向上につながる変化に対して, 塑性規則が果たす役割を解析する。 この目的のために、我々はRCモデルのパラダイム的な例であるEcho State Networkでシナプス的および非シナプス的可塑性規則を実装した。 非線形時系列予測タスクをテストした結果,すべてのプラスチックモデルの性能向上は,貯水池の対相関の低下や,活動空間で類似した入力を分離する個々のニューロンの能力の大幅な増加と関連していることが示された。 ここでは, プラスチック学習における異なる段階の研究を通して, 観察された改善について新たな知見を与える。 貯水池の動力学の観点からは、最適性能はいわゆる不安定な縁近くで起こることが示されている。 また, この結果から, 可塑性の異なる形態(シナプス的および非シナプス的規則)を組み合わせることで, 予測タスクの性能を向上し, 単一可塑性モデルよりも優れた結果が得られることを示した。

Reservoir Computing (RC) is an appealing approach in Machine Learning that combines the high computational capabilities of Recurrent Neural Networks with a fast and easy training method. Likewise, successful implementation of neuro-inspired plasticity rules into RC artificial networks has boosted the performance of the original models. In this manuscript, we analyze the role that plasticity rules play on the changes that lead to a better performance of RC. To this end, we implement synaptic and non-synaptic plasticity rules in a paradigmatic example of RC model: the Echo State Network. Testing on nonlinear time series prediction tasks, we show evidence that improved performance in all plastic models are linked to a decrease of the pair-wise correlations in the reservoir, as well as a significant increase of individual neurons ability to separate similar inputs in their activity space. Here we provide new insights on this observed improvement through the study of different stages on the plastic learning. From the perspective of the reservoir dynamics, optimal performance is found to occur close to the so-called edge of instability. Our results also show that it is possible to combine different forms of plasticity (namely synaptic and non-synaptic rules) to further improve the performance on prediction tasks, obtaining better results than those achieved with single-plasticity models.
翻訳日:2021-03-29 00:42:36 公開日:2021-01-14