このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210502となっている論文です。

PDF登録状況(公開日: 20210502)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) シルベスターソルバを用いたデータ駆動重み初期化 [全文訳有]

Data-driven Weight Initialization with Sylvester Solvers ( http://arxiv.org/abs/2105.10335v1 )

ライセンス: CC BY 4.0
Debasmit Das, Yash Bhalgat and Fatih Porikli(参考訳) 本研究では,ディープニューラルネットワークのパラメータを初期化するためのデータ駆動方式を提案する。 これは、変換された標準分布からサンプリングすることでパラメータをランダムに初期化する従来のアプローチとは対照的である。 このような方法は、トレーニングデータを使用して、より情報のある初期化を生成しない。 本手法では,各層が入力アクティベーションを用いて初期化される逐次的層分割アプローチを用いる。 初期化は、ユーザ定義の潜時符号によりさらに制約される入力アクティベーションの符号化と復号化の損失を最小化する最適化問題である。 最適化問題はよく知られたシルベスター方程式に再構成され、高速で効率的な勾配なし解を持つ。 データ駆動方式は,訓練開始前と訓練終了後の両方において,ランダム初期化法と比較して性能が向上する。 提案手法は,特にショットや微調整の設定において有効であることを示す。 本稿では,時間複雑性と異なる潜在符号が認識性能に与える影響について解析を行った。

In this work, we propose a data-driven scheme to initialize the parameters of a deep neural network. This is in contrast to traditional approaches which randomly initialize parameters by sampling from transformed standard distributions. Such methods do not use the training data to produce a more informed initialization. Our method uses a sequential layer-wise approach where each layer is initialized using its input activations. The initialization is cast as an optimization problem where we minimize a combination of encoding and decoding losses of the input activations, which is further constrained by a user-defined latent code. The optimization problem is then restructured into the well-known Sylvester equation, which has fast and efficient gradient-free solutions. Our data-driven method achieves a boost in performance compared to random initialization methods, both before start of training and after training is over. We show that our proposed method is especially effective in few-shot and fine-tuning settings. We conclude this paper with analyses on time complexity and the effect of different latent codes on the recognition performance.
翻訳日:2021-05-29 20:57:36 公開日:2021-05-02
# (参考訳) 合成開口レーダ画像のデスペックリングのための深層学習手法 : 動向と展望 [全文訳有]

Deep Learning Methods For Synthetic Aperture Radar Image Despeckling: An Overview Of Trends And Perspectives ( http://arxiv.org/abs/2012.05508v2 )

ライセンス: CC BY 4.0
Giulia Fracastoro, Enrico Magli, Giovanni Poggi, Giuseppe Scarpa, Diego Valsesia, Luisa Verdoliva(参考訳) 合成開口レーダ(sar)画像は、スペックル(speckle)と呼ばれる空間的関連と信号依存のノイズによって影響を受ける。 このようなノイズを除去し、下流の画像処理タスクの精度を向上させるために、デスペックリングは重要なタスクである。 最初のデスペックリング手法は1970年代まで遡り、その後いくつかのモデルベースのアルゴリズムが開発されてきた。 この分野は、画像処理における逆問題に優れたパフォーマンスをもたらす強力なディープラーニングモデルが利用可能になったことで、注目を集めている。 本稿では,sarデスペックリングに適用する深層学習手法に関する文献を調査し,教師ありアプローチと近年の自己教師ありアプローチの両方をカバーする。 本稿では,最有望な研究線を認識すること,深層モデルの成功を制限した要因を特定すること,SAR の深層学習の可能性を完全に活用する手法を提案することを目的として,既存手法の批判的分析を行う。

Synthetic aperture radar (SAR) images are affected by a spatially-correlated and signal-dependent noise called speckle, which is very severe and may hinder image exploitation. Despeckling is an important task that aims at removing such noise, so as to improve the accuracy of all downstream image processing tasks. The first despeckling methods date back to the 1970's, and several model-based algorithms have been developed in the subsequent years. The field has received growing attention, sparkled by the availability of powerful deep learning models that have yielded excellent performance for inverse problems in image processing. This paper surveys the literature on deep learning methods applied to SAR despeckling, covering both the supervised and the more recent self-supervised approaches. We provide a critical analysis of existing methods with the objective to recognize the most promising research lines, to identify the factors that have limited the success of deep models, and to propose ways forward in an attempt to fully exploit the potential of deep learning for SAR despeckling.
翻訳日:2021-05-15 20:57:51 公開日:2021-05-02
# (参考訳) 海底画像におけるカニの物体検出 [全文訳有]

Object detection for crabs in top-view seabed imagery ( http://arxiv.org/abs/2105.02964v1 )

ライセンス: CC BY-SA 4.0
Vlad Velici, Adam Pr\"ugel-Bennett(参考訳) 本報告では, カニの異なる種の水中画像のデータベースと, カニの空中画像, 最後にはpascal vocデータセットに対する物体検出の応用について述べる。 このモデルは畳み込みネットワークベースとLong Short-Term Memory検出器に基づくエンドツーエンドのオブジェクト検出ニューラルネットワークである。

This report presents the application of object detection on a database of underwater images of different species of crabs, as well as aerial images of sea lions and finally the Pascal VOC dataset. The model is an end-to-end object detection neural network based on a convolutional network base and a Long Short-Term Memory detector.
翻訳日:2021-05-11 09:01:20 公開日:2021-05-02
# (参考訳) ランドカバーマッピングのための注意喚起時空間分割 [全文訳有]

Attention-augmented Spatio-Temporal Segmentation for Land Cover Mapping ( http://arxiv.org/abs/2105.02963v1 )

ライセンス: CC BY 4.0
Rahul Ghosh, Praveen Ravirathinam, Xiaowei Jia, Chenxi Lin, Zhenong Jin, Vipin Kumar(参考訳) 大規模な地球観測衛星データの利用は、土地利用と土地被覆マッピングに大きな機会をもたらす。 しかし, 様々な土地被覆クラスの存在, 騒音データ, 適切なラベルの欠如などにより, マッピングの取り組みは困難である。 また、それぞれの土地被覆クラスは、典型的には独自の時間パターンを持ち、特定の期間にのみ識別できる。 本稿では,UNet構造に双方向LSTMとアテンション機構を組み込んだ新しいアーキテクチャを導入し,衛星データの空間的・時間的特性を両立させ,各土地被覆のユニークな時間的パターンをよりよく同定する。 世界中の複数地域で作物をマッピングする手法の評価を行った。 我々は,複数の土地被覆クラスを含む実世界の2つのデータセットを定量的に,質的に比較した。 また,注意重みを可視化し,騒音の緩和と識別における有効性について検討した。

The availability of massive earth observing satellite data provide huge opportunities for land use and land cover mapping. However, such mapping effort is challenging due to the existence of various land cover classes, noisy data, and the lack of proper labels. Also, each land cover class typically has its own unique temporal pattern and can be identified only during certain periods. In this article, we introduce a novel architecture that incorporates the UNet structure with Bidirectional LSTM and Attention mechanism to jointly exploit the spatial and temporal nature of satellite data and to better identify the unique temporal patterns of each land cover. We evaluate this method for mapping crops in multiple regions over the world. We compare our method with other state-of-the-art methods both quantitatively and qualitatively on two real-world datasets which involve multiple land cover classes. We also visualise the attention weights to study its effectiveness in mitigating noise and identifying discriminative time period.
翻訳日:2021-05-11 08:52:28 公開日:2021-05-02
# (参考訳) 工学的機械学習システムに関するソフトウェア工学的視点--最先端の技術と課題

A Software Engineering Perspective on Engineering Machine Learning Systems: State of the Art and Challenges ( http://arxiv.org/abs/2012.07919v2 )

ライセンス: CC BY-SA 4.0
G\"orkem Giray(参考訳) コンテキスト: 機械学習(ML)の進歩は、アルゴリズムが人間によってハードコーディングされる従来のソフトウェア開発の視点から、データから学習することで実現されたMLシステムへとシフトする。 したがって、我々は、ソフトウェアシステムの開発方法を再考し、これらの新しいタイプのシステムに必要な特異性を検討する必要がある。 目的: 本研究の目的は, 工学MLシステムにおけるソフトウェア工学(SE)研究の現状を体系的に同定し, 分析し, 要約し, 合成することである。 方法: 体系的文献レビュー(SLR)を行った。 本研究は,SE会場から141の学習プールを体系的に選定し,これらのデータを用いて定量的,質的な分析を行った。 結果: MLシステムの非決定論的性質は、エンジニアリングMLシステムのすべてのSE側面を複雑にする。 2018年以降、関心が高まっているものの、seのどの側面も成熟したツールやテクニックを持っていないことが判明した。 テストは研究者の間では最も人気のある分野だ。 mlシステムをテストしても、実験的な証明が弱いツールプロトタイプとソリューションプロポーザルはいくつかしかない。 MLシステムエンジニアリングの課題の多くは、調査やインタビューを通じて特定された。 研究者はこれらの課題をさらに理解し、解決策を提案するために、理想的には工業環境で実験とケーススタディを実施する必要がある。 結論: 結果は,(1)MLシステム工学の課題を予見する実践者,(2)潜在的な研究課題を特定する研究者や学者,(3)SEコースを設計・更新し,MLシステム工学をカバーしている教育者に対して有効である。

Context: Advancements in machine learning (ML) lead to a shift from the traditional view of software development, where algorithms are hard-coded by humans, to ML systems materialized through learning from data. Therefore, we need to revisit our ways of developing software systems and consider the particularities required by these new types of systems. Objective: The purpose of this study is to systematically identify, analyze, summarize, and synthesize the current state of software engineering (SE) research for engineering ML systems. Method: I performed a systematic literature review (SLR). I systematically selected a pool of 141 studies from SE venues and then conducted a quantitative and qualitative analysis using the data extracted from these studies. Results: The non-deterministic nature of ML systems complicates all SE aspects of engineering ML systems. Despite increasing interest from 2018 onwards, the results reveal that none of the SE aspects have a mature set of tools and techniques. Testing is by far the most popular area among researchers. Even for testing ML systems, engineers have only some tool prototypes and solution proposals with weak experimental proof. Many of the challenges of ML systems engineering were identified through surveys and interviews. Researchers should conduct experiments and case studies, ideally in industrial environments, to further understand these challenges and propose solutions. Conclusion: The results may benefit (1) practitioners in foreseeing the challenges of ML systems engineering; (2) researchers and academicians in identifying potential research questions; and (3) educators in designing or updating SE courses to cover ML systems engineering.
翻訳日:2021-05-08 18:35:12 公開日:2021-05-02
# AIリスク懐疑論

AI Risk Skepticism ( http://arxiv.org/abs/2105.02704v1 )

ライセンス: Link先を確認
Roman V. Yampolskiy(参考訳) 本研究では,AIリスクに関する懐疑論を調査し,他の科学懐疑論と類似点を示す。 まず、さまざまなタイプのAIリスク懐疑論を分類し、その根本原因を分析します。 結論として,少なくとも人工知能研究者の間では,aiリスク懐疑論の低減に成功している可能性がある介入アプローチを提案する。

In this work, we survey skepticism regarding AI risk and show parallels with other types of scientific skepticism. We start by classifying different types of AI Risk skepticism and analyze their root causes. We conclude by suggesting some intervention approaches, which may be successful in reducing AI risk skepticism, at least amongst artificial intelligence researchers.
翻訳日:2021-05-07 13:18:08 公開日:2021-05-02
# (参考訳) MarkerPose: 正確なステレオポース推定のためのロバストなリアルタイム平面目標追跡 [全文訳有]

MarkerPose: Robust Real-time Planar Target Tracking for Accurate Stereo Pose Estimation ( http://arxiv.org/abs/2105.00368v1 )

ライセンス: CC BY 4.0
Jhacson Meza, Lenny A. Romero, Andres G. Marrugo(参考訳) 近年は注目マーカーレスポーズ推定が注目されているが、マーカーベースのアプローチは制御された環境条件下でも精度が低い。 したがって、ロボット工学やバイオメディカル応用など多くの分野で使用されているが、主に古典的なアプローチによって実装されているため、異なる環境下での信頼性の高いパフォーマンスには多くのヒューリスティックやパラメータチューニングが必要となる。 本研究では,3つの円の平面目標とステレオビジョンシステムに基づく,ロバストでリアルタイムなポーズ推定システムであるmarkerposeを提案する。 MarkerPoseは高精度なポーズ推定アプリケーションを目的としている。 本手法は,マーカー点検出のための2つの深層ニューラルネットワークからなる。 ピクセルレベルの精度キーポイントの同定と分類のためのスーパーポイントライクネットワークと,サブピクセルレベルの精度キーポイント検出のための軽量な楕円型セグメンテーションネットワークであるellipsegnetを紹介する。 マーカーのポーズはステレオ三角測量によって推定される。 目標点検出は、低い照明条件と動きのぼやき条件にロバストである。 我々は,ロボットアームを用いた従来のコンピュータビジョン技術に基づく検出手法と比較した。 その結果,従来の手法よりも精度が高いことがわかった。 最後に,高精度なポーズ推定が要求される3次元自由手超音波システムにおいて,マーカーポスが適合することを示す。 コードはPythonとC++でhttps://github.com/j hacsonmeza/MarkerPos e>で入手できる。

Despite the attention marker-less pose estimation has attracted in recent years, marker-based approaches still provide unbeatable accuracy under controlled environmental conditions. Thus, they are used in many fields such as robotics or biomedical applications but are primarily implemented through classical approaches, which require lots of heuristics and parameter tuning for reliable performance under different environments. In this work, we propose MarkerPose, a robust, real-time pose estimation system based on a planar target of three circles and a stereo vision system. MarkerPose is meant for high-accuracy pose estimation applications. Our method consists of two deep neural networks for marker point detection. A SuperPoint-like network for pixel-level accuracy keypoint localization and classification, and we introduce EllipSegNet, a lightweight ellipse segmentation network for sub-pixel-level accuracy keypoint detection. The marker's pose is estimated through stereo triangulation. The target point detection is robust to low lighting and motion blur conditions. We compared MarkerPose with a detection method based on classical computer vision techniques using a robotic arm for validation. The results show our method provides better accuracy than the classical technique. Finally, we demonstrate the suitability of MarkerPose in a 3D freehand ultrasound system, which is an application where highly accurate pose estimation is required. Code is available in Python and C++ at <https://github.com/j hacsonmeza/MarkerPos e>.
翻訳日:2021-05-05 05:20:09 公開日:2021-05-02
# (参考訳) センサ配置による知覚改善:自律走行車用マルチライダーシステムの設計 [全文訳有]

Improving Perception via Sensor Placement: Designing Multi-LiDAR Systems for Autonomous Vehicles ( http://arxiv.org/abs/2105.00373v1 )

ライセンス: CC BY 4.0
Sharad Chitlangia, Zuxin Liu, Akhil Agnihotri, Ding Zhao(参考訳) 近年、自動運転車におけるLiDARの認識性能向上への関心が高まっている。 既存の研究のほとんどは、ポイントクラウドデータを処理するための新しいモデルアーキテクチャの開発に重点を置いているが、最適なセンシングの観点から問題を研究している。 この目的のために、LiDAR構成の知覚領域内におけるレイトレーシングに基づく高速な評価関数とともに、最大センシングのためのLiDAR配置を最適化するために、確率的占有グリッド(POG)に基づく簡易な情報理論サロゲートコストメトリックを提案する。 本稿では,サロゲート関数と共通物体検出性能指標との相関関係を示す。 本手法の有効性を,carlaシミュレータに基づくロバストで再現可能なデータ収集・抽出フレームワークを用いて検証することにより実証する。 以上の結果から,センサ配置は3次元点クラウドによる物体検出において重要な要素であり,最先端の認識アルゴリズムでは10%程度の性能変化が生じる可能性が示唆された。 我々は、LiDAR配置を用いて知覚のパフォーマンスを向上させる最初の研究の1つだと信じている。

Recent years have witnessed an increasing interest in improving the perception performance of LiDARs on autonomous vehicles. While most of the existing works focus on developing novel model architectures to process point cloud data, we study the problem from an optimal sensing perspective. To this end, together with a fast evaluation function based on ray tracing within the perception region of a LiDAR configuration, we propose an easy-to-compute information-theoreti c surrogate cost metric based on Probabilistic Occupancy Grids (POG) to optimize LiDAR placement for maximal sensing. We show a correlation between our surrogate function and common object detection performance metrics. We demonstrate the efficacy of our approach by verifying our results in a robust and reproducible data collection and extraction framework based on the CARLA simulator. Our results confirm that sensor placement is an important factor in 3D point cloud-based object detection and could lead to a variation of performance by 10% ~ 20% on the state-of-the-art perception algorithms. We believe that this is one of the first studies to use LiDAR placement to improve the performance of perception.
翻訳日:2021-05-05 05:09:53 公開日:2021-05-02
# (参考訳) 物理知能AIモデルによる自動車排出予測:予備結果 [全文訳有]

Vehicle Emissions Prediction with Physics-Aware AI Models: Preliminary Results ( http://arxiv.org/abs/2105.00375v1 )

ライセンス: CC BY 4.0
Harish Panneer Selvam, Yan Li, Pengyue Wang, William F. Northrop, Shashi Shekhar(参考訳) 本稿では,車載診断(OBD)データセットと物理に基づく排出予測モデルを用いて,正確な計算効率の高いAI(Artificial Intelligence)手法を開発することを目的とする。 気候変動を引き起こし、人間の健康に影響を及ぼすため、社会的な重要性が問題となっている。 obdデータは高次物理学モデルに必要な十分なパラメータを含まないため、この問題は難しい。 逆に、関連する研究により、OBDデータを使用する場合、低次物理モデルは予測精度が低いことが示されている。 本稿では、分散ウィンドウ共起パターン検出法を用いて、OBDデータセットからの放射値を予測するための時空間変動を考慮したAIモデルを開発する。 地方公共交通機関の実世界のobdデータを用いた事例研究を行った。 その結果,提案手法は非ai低次物理モデルよりも予測精度が約65%向上し,ベースラインモデルよりも約35%精度が向上した。

Given an on-board diagnostics (OBD) dataset and a physics-based emissions prediction model, this paper aims to develop an accurate and computational-effici ent AI (Artificial Intelligence) method that predicts vehicle emissions. The problem is of societal importance because vehicular emissions lead to climate change and impact human health. This problem is challenging because the OBD data does not contain enough parameters needed by high-order physics models. Conversely, related work has shown that low-order physics models have poor predictive accuracy when using available OBD data. This paper uses a divergent window co-occurrence pattern detection method to develop a spatiotemporal variability-aware AI model for predicting emission values from the OBD datasets. We conducted a case study using real-world OBD data from a local public transportation agency. Results show that the proposed AI method has approximately 65% improved predictive accuracy than a non-AI low-order physics model and is approximately 35% more accurate than a baseline model.
翻訳日:2021-05-05 04:55:37 公開日:2021-05-02
# (参考訳) anatomy-guided parallel bottleneck transformer network による根管治療の自動評価 [全文訳有]

Anatomy-Guided Parallel Bottleneck Transformer Network for Automated Evaluation of Root Canal Therapy ( http://arxiv.org/abs/2105.00381v1 )

ライセンス: CC BY 4.0
Yunxiang Li, Guodong Zeng, Yifan Zhang, Jun Wang, Qianni Zhang, Qun Jin, Lingling Sun, Qisi Lian, Neng Xia, Ruizi Peng, Kai Tang, Yaqi Wang, Shuai Wang(参考訳) 目的:X線画像における根管充填結果の正確な評価は根管治療において重要なステップであり,歯根の尖部領域境界と根管の充填したグスタパーチャの先端との相対的な位置、および歯根の形状などに基づいて,歯根の正しい充填, 埋入, 過剰充填と分類する。 方法:新しい解剖誘導型トランスフォーマー診断ネットワークを提案する。 正確な解剖学的特徴を得るために, ファジィ境界を分節する多項式曲線フィッティングセグメンテーションを提案する。 そして,最終評価のための分類ネットワークとして,並列ボトルネックトランスフォーマネットワーク(pbt-net)を導入した。 結果と結論:我々の数値実験により,我々の解剖誘導PBT-Netは,ベースライン分類網と比較して40 %から85 %の精度向上を実現している。 SOTAセグメンテーションネットワークと比較すると、ASDは我々のフィッティングセグメンテーションによって30.3\%削減される。 意義: 多項式曲線フィッティングセグメンテーションは、非常にファジィな境界に対して大きなセグメンテーション効果を持つ。 事前知識誘導分類ネットワークは根管治療の評価に非常に適している。 そして、新しい並列ボトルネックトランスフォーマは、自己着脱を実現するために一般的に設計されており、ほとんどのバックボーンネットワークで広く使われる。

Objective: Accurate evaluation of the root canal filling result in X-ray image is a significant step for the root canal therapy, which is based on the relative position between the apical area boundary of tooth root and the top of filled gutta-percha in root canal as well as the shape of the tooth root and so on to classify the result as correct-filling, under-filling or over-filling. Methods: We propose a novel anatomy-guided Transformer diagnosis network. For obtaining accurate anatomy-guided features, a polynomial curve fitting segmentation is proposed to segment the fuzzy boundary. And a Parallel Bottleneck Transformer network (PBT-Net) is introduced as the classification network for the final evaluation. Results, and conclusion: Our numerical experiments show that our anatomy-guided PBT-Net improves the accuracy from 40\% to 85\% relative to the baseline classification network. Comparing with the SOTA segmentation network indicates that the ASD is significantly reduced by 30.3\% through our fitting segmentation. Significance: Polynomial curve fitting segmentation has a great segmentation effect for extremely fuzzy boundaries. The prior knowledge guided classification network is suitable for the evaluation of root canal therapy greatly. And the new proposed Parallel Bottleneck Transformer for realizing self-attention is general in design, facilitating a broad use in most backbone networks.
翻訳日:2021-05-05 04:47:59 公開日:2021-05-02
# (参考訳) OR-Net:部分観測によるデータ補完のポイントワイズ関係推論 [全文訳有]

OR-Net: Pointwise Relational Inference for Data Completion under Partial Observation ( http://arxiv.org/abs/2105.00397v1 )

ライセンス: CC BY 4.0
Qianyu Feng, Linchao Zhu, Bang Zhang, Pan Pan, Yi Yang(参考訳) 現代のデータ駆動手法は通常、適用性を制限する大規模なデータセットを全面的に監視する。 しかし、測定誤差やデータ取得問題などの制約のある実際のシステムでは、通常は不完全なデータを取得する。 データ補完は注目されているが、基礎となるデータパターンと相対性理論はまだ未開発である。 現在、潜在変数モデルのファミリーは、境界分布を適合させることで、観測変数よりも深い潜在変数を学習することができる。 私たちが知る限り、現在の方法では、部分的観測下でのデータ相対性理論を知覚できない。 不完全データをモデル化することを目的として、この研究は不完全データを埋めるために関係推論を使用する。 具体的には, 部分的観測値と潜在変数上の実合同分布を近似し, 対象を推定することを期待する。 そこで,本研究では,全相関ネットワーク (or-net) を提案する。一方,部分的観測における文脈点間に内的関係を構築し,他方では観測データ点との相互関係を学習することにより,見当たらない対象を推定する。 さらに, 物理構造が観察可能であるか否かに関わらず, 提案手法を様々なシナリオに一般化できることが判明した。 提案するor-netは,関数回帰,mnistおよびcelebaデータセットの画像補完,および観測されたポーズに条件付けられた逐次運動生成など,様々なモダリティのデータ補完タスクに対して十分に一般化できることが実証された。

Contemporary data-driven methods are typically fed with full supervision on large-scale datasets which limits their applicability. However, in the actual systems with limitations such as measurement error and data acquisition problems, people usually obtain incomplete data. Although data completion has attracted wide attention, the underlying data pattern and relativity are still under-developed. Currently, the family of latent variable models allows learning deep latent variables over observed variables by fitting the marginal distribution. As far as we know, current methods fail to perceive the data relativity under partial observation. Aiming at modeling incomplete data, this work uses relational inference to fill in the incomplete data. Specifically, we expect to approximate the real joint distribution over the partial observation and latent variables, thus infer the unseen targets respectively. To this end, we propose Omni-Relational Network (OR-Net) to model the pointwise relativity in two aspects: (i) On one hand, the inner relationship is built among the context points in the partial observation; (ii) On the other hand, the unseen targets are inferred by learning the cross-relationship with the observed data points. It is further discovered that the proposed method can be generalized to different scenarios regardless of whether the physical structure can be observed or not. It is demonstrated that the proposed OR-Net can be well generalized for data completion tasks of various modalities, including function regression, image completion on MNIST and CelebA datasets, and also sequential motion generation conditioned on the observed poses.
翻訳日:2021-05-05 04:29:37 公開日:2021-05-02
# (参考訳) スパースサンプリング体制におけるモデル発見 [全文訳有]

Model discovery in the sparse sampling regime ( http://arxiv.org/abs/2105.00400v1 )

ライセンス: CC BY 4.0
Gert-Jan Both, Georges Tod, Remy Kusters(参考訳) 海洋力学や気象予報のような複雑な力学系の物理的理解と予測を改善するために、粗い観測とオフグリッドのサンプル観測から解釈可能なモデルを特定することが最重要となる。 本研究では,センサ間の間隔が大きく,サンプルがグリッド上に配置されていない場合,偏微分方程式のモデル発見をディープラーニングがいかに改善できるかを検討する。 本稿では,物理情報付きニューラルネットワークの補間と自動微分の活用により,従来のスプライン補間法や数値微分法と比較して,データとその時空間微分の適合性が向上することを示す。 その結果、深層学習に基づくモデル発見は、データの特性長さスケールや高いノイズレベルの存在からセンサーを離れて配置した場合でも、基礎となる方程式を回復することができる。 我々は, 合成データと実験データの両方について, (非) 線形移流, 反応, 拡散などの物理過程の組み合わせが正しく同定されるという主張を述べる。

To improve the physical understanding and the predictions of complex dynamic systems, such as ocean dynamics and weather predictions, it is of paramount interest to identify interpretable models from coarsely and off-grid sampled observations. In this work, we investigate how deep learning can improve model discovery of partial differential equations when the spacing between sensors is large and the samples are not placed on a grid. We show how leveraging physics informed neural network interpolation and automatic differentiation, allow to better fit the data and its spatiotemporal derivatives, compared to more classic spline interpolation and numerical differentiation techniques. As a result, deep learning-based model discovery allows to recover the underlying equations, even when sensors are placed further apart than the data's characteristic length scale and in the presence of high noise levels. We illustrate our claims on both synthetic and experimental data sets where combinations of physical processes such as (non)-linear advection, reaction, and diffusion are correctly identified.
翻訳日:2021-05-05 04:13:37 公開日:2021-05-02
# (参考訳) PAN++: 任意形テキストの効率的なエンドツーエンドスポッティングを目指す [全文訳有]

PAN++: Towards Efficient and Accurate End-to-End Spotting of Arbitrarily-Shaped Text ( http://arxiv.org/abs/2105.00405v1 )

ライセンス: CC BY 4.0
Wenhai Wang, Enze Xie, Xiang Li, Xuebo Liu, Ding Liang, Zhibo Yang, Tong Lu, Chunhua Shen(参考訳) シーンテキストの検出と認識はここ数年よく研究されてきた。 進歩にもかかわらず、任意の形のテキストの効率的かつ正確なエンドツーエンドスポッティングは依然として困難である。 本研究では,自然シーンにおける任意の形状のテキストを効率よく検出・認識する,PAN++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを提案する。 PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。 既存のシーンテキスト表現と体系的に比較することにより、カーネル表現は任意の形のテキストを記述できるだけでなく、隣接したテキストを適切に区別できることを示す。 さらに、ピクセルベースの表現として、カーネル表現は、リアルタイムアプリケーションに非常に親しみやすい単一の完全な畳み込みネットワークによって予測できる。 カーネル表現の利点を生かして,1)積み重ねられた特徴ピラミッド拡張モジュール(FPEM)からなる計算効率の良い特徴強調ネットワーク,2)Pixel Aggregation(PA)と連携した軽量検出ヘッド,3)Masked RoIを用いた効率的な注意に基づく認識ヘッドを設計する。 カーネル表現と調整済みコンポーネントの恩恵を受けることにより,競合精度を維持しつつ高い推論速度を実現する。 大規模な実験により,本手法の優位性を示した。 例えば、提案されているpan++は、全テキストデータセット上で64.9 fpsのエンドツーエンドテキストスポッティングf-measureを29.2 fpsで達成する。 コードはhttps://git.io/pan.c om/で入手できる。

Scene text detection and recognition have been well explored in the past few years. Despite the progress, efficient and accurate end-to-end spotting of arbitrarily-shaped text remains challenging. In this work, we propose an end-to-end text spotting framework, termed PAN++, which can efficiently detect and recognize text of arbitrary shapes in natural scenes. PAN++ is based on the kernel representation that reformulates a text line as a text kernel (central region) surrounded by peripheral pixels. By systematically comparing with existing scene text representations, we show that our kernel representation can not only describe arbitrarily-shaped text but also well distinguish adjacent text. Moreover, as a pixel-based representation, the kernel representation can be predicted by a single fully convolutional network, which is very friendly to real-time applications. Taking the advantages of the kernel representation, we design a series of components as follows: 1) a computationally efficient feature enhancement network composed of stacked Feature Pyramid Enhancement Modules (FPEMs); 2) a lightweight detection head cooperating with Pixel Aggregation (PA); and 3) an efficient attention-based recognition head with Masked RoI. Benefiting from the kernel representation and the tailored components, our method achieves high inference speed while maintaining competitive accuracy. Extensive experiments show the superiority of our method. For example, the proposed PAN++ achieves an end-to-end text spotting F-measure of 64.9 at 29.2 FPS on the Total-Text dataset, which significantly outperforms the previous best method. Code will be available at: https://git.io/PAN.
翻訳日:2021-05-05 03:56:34 公開日:2021-05-02
# (参考訳) TE-ESN:不規則サンプリング時系列データに基づく予測のための時間符号化エコー状態ネットワーク [全文訳有]

TE-ESN: Time Encoding Echo State Network for Prediction Based on Irregularly Sampled Time Series Data ( http://arxiv.org/abs/2105.00412v1 )

ライセンス: CC BY 4.0
Chenxi Sun and Shenda Hong and Moxian Song and Yanxiu Zhou and Yongyue Sun and Derun Cai and Hongyan Li(参考訳) 不規則サンプリング時系列(ISTS)に基づく予測は、現実世界の応用において広く懸念されている。 より正確な予測のために、この手法はより多くのデータ特性を把握できた。 通常の時系列とは異なり、ISTSはシリーズ内の不規則な時間間隔とシリーズ間のサンプリング率が異なる。 しかし,既存の手法では,これら2つの特性をモデル化する際に,時系列に新たな依存関係を人工的に導入し,時系列間の関係をバイアス的に学習するため,最適以下に予測できる。 本稿では,新しい時間符号化(te)機構を提案する。 teは時間情報を複素領域の時間ベクトルとして埋め込むことができる。 絶対距離と異なるサンプリング率の相対距離の性質を持ち、istの2つの不規則性を表現するのに役立つ。 一方,TE-ESN(Time Encoding Echo State Network)と呼ばれる新しいモデル構造を構築した。 ISTSデータを処理できる最初のESNベースのモデルである。 さらにTE-ESNは、長い短期記憶とシリーズ融合を組み込んで水平と垂直の関係を把握できる。 1つのカオスシステムと3つの実世界のデータセットの実験は、TE-ESNがすべてのベースラインよりも優れた性能を示し、より優れた貯水性を持っていることを示している。

Prediction based on Irregularly Sampled Time Series (ISTS) is of wide concern in the real-world applications. For more accurate prediction, the methods had better grasp more data characteristics. Different from ordinary time series, ISTS is characterised with irregular time intervals of intra-series and different sampling rates of inter-series. However, existing methods have suboptimal predictions due to artificially introducing new dependencies in a time series and biasedly learning relations among time series when modeling these two characteristics. In this work, we propose a novel Time Encoding (TE) mechanism. TE can embed the time information as time vectors in the complex domain. It has the the properties of absolute distance and relative distance under different sampling rates, which helps to represent both two irregularities of ISTS. Meanwhile, we create a new model structure named Time Encoding Echo State Network (TE-ESN). It is the first ESNs-based model that can process ISTS data. Besides, TE-ESN can incorporate long short-term memories and series fusion to grasp horizontal and vertical relations. Experiments on one chaos system and three real-world datasets show that TE-ESN performs better than all baselines and has better reservoir property.
翻訳日:2021-05-05 03:17:42 公開日:2021-05-02
# (参考訳) VQA_Datasetsとアプローチに関する調査 [全文訳有]

A survey on VQA_Datasets and Approaches ( http://arxiv.org/abs/2105.00421v1 )

ライセンス: CC BY 4.0
Yeyun Zou, Qiyu Xie(参考訳) 視覚的質問応答(VQA)は、コンピュータビジョンと自然言語処理の両方の技法を組み合わせたタスクである。 ビジュアルに含まれる情報に応じて、テキストベースの質問に答えるモデルが必要となる。 近年、VQAの研究分野が拡大している。 VQAに焦点を当てた科学図の推論能力とVQAについても研究が進められている。 一方で、よりマルチモーダルな特徴融合機構が提案されている。 本稿では,VQAタスクに提案されている既存のデータセット,メトリクス,モデルについてレビューし,分析する。

Visual question answering (VQA) is a task that combines both the techniques of computer vision and natural language processing. It requires models to answer a text-based question according to the information contained in a visual. In recent years, the research field of VQA has been expanded. Research that focuses on the VQA, examining the reasoning ability and VQA on scientific diagrams, has also been explored more. Meanwhile, more multimodal feature fusion mechanisms have been proposed. This paper will review and analyze existing datasets, metrics, and models proposed for the VQA task.
翻訳日:2021-05-05 03:06:14 公開日:2021-05-02
# (参考訳) 連成形成によるマルチエージェントルーティングとスケジューリング [全文訳有]

Multi-Agent Routing and Scheduling Through Coalition Formation ( http://arxiv.org/abs/2105.00451v1 )

ライセンス: CC BY 4.0
Luca Capezzuto, Danesh Tarapore, Sarvapali D. Ramchurn(参考訳) 災害対応などのリアルタイムドメインのタスク割り当てでは、多数のタスクを実行するために限られた数のエージェントが広域に展開され、それぞれに前提条件、利益、タイムウインドウ、ワークロードがある。 時間的ペナルティを最小化しながら利益を最大化するためには、エージェントは連立の形成、解散、改革によって協力する必要がある。 本稿では,この問題をMARSC (Multi-Agent Routing and Scheduling through Coalition Formation) と命名し,タイムウインドウを用いたチームオリエンテーリング問題を一般化したことを示す。 我々は,バイナリ整数プログラムと,それを解決するためのいつでもスケーラブルなヒューリスティックを提案する。 ロンドン消防団の記録を使って,347588タスクのデータセットと,消防士の動員をシミュレートするテストフレームワークを作成しました。 最大150のエージェントと3000のタスクを持つ問題では、リアルタイムシステムで一般的に使用される最初期のdeadline firstアプローチよりも3.25倍のソリューションを見つけます。 この結果は,MARSC問題に対する最初の大規模ベンチマークとなる。

In task allocation for real-time domains, such as disaster response, a limited number of agents is deployed across a large area to carry out numerous tasks, each with its prerequisites, profit, time window and workload. To maximize profits while minimizing time penalties, agents need to cooperate by forming, disbanding and reforming coalitions. In this paper, we name this problem Multi-Agent Routing and Scheduling through Coalition formation (MARSC) and show that it generalizes the important Team Orienteering Problem with Time Windows. We propose a binary integer program and an anytime and scalable heuristic to solve it. Using public London Fire Brigade records, we create a dataset with 347588 tasks and a test framework that simulates the mobilization of firefighters. In problems with up to 150 agents and 3000 tasks, our heuristic finds solutions up to 3.25 times better than the Earliest Deadline First approach commonly used in real-time systems. Our results constitute the first large-scale benchmark for the MARSC problem.
翻訳日:2021-05-05 02:47:17 公開日:2021-05-02
# (参考訳) マルチコントラスト情報を用いたMR画像の教師なし異常検出 [全文訳有]

Unsupervised Anomaly Detection in MR Images using Multi-Contrast Information ( http://arxiv.org/abs/2105.00463v1 )

ライセンス: CC BY 4.0
Byungjai Kim, Kinam Kwon, Changheun Oh, and Hyunwook Park(参考訳) 医用画像における異常検出は、疾患の関連バイオマーカーを正常な組織と区別することである。 深い教師付き学習法は、様々な検出タスクにおいてポテンシャルを示してきたが、そのパフォーマンスは、注釈付き異常データの収集が制限され、労働集約的な医療画像分野で制限される。 したがって、教師なし異常検出は、未ラベルの正常画像のみをトレーニングデータとして利用する臨床実践に有効なツールである。 本稿では,マルチコントラストMRI(Multi-Contrast MRI)における画素ワイド異常検出のための教師なし学習フレームワークを開発した。 このフレームワークは、ガウス混合モデル(gmm)による特徴生成と密度推定の2つのステップを持つ。 この特徴は、コントラストmriで正常な組織特性を効果的に捉えるコントラスト変換の学習を通して得られる。 この機能は、マルチコントラスト画像の低次元表現である別の特徴と協調的に使用される。 GMMを用いた密度推定では、結合学習過程を中断する特異性問題に対処するために、単純だが効率的な方法が導入された。 提案手法は従来の異常検出手法よりも優れている。 マルチコントラストMRIの異常検出における提案手法の有効性を定量的,定性的に検証した。

Anomaly detection in medical imaging is to distinguish the relevant biomarkers of diseases from those of normal tissues. Deep supervised learning methods have shown potentials in various detection tasks, but its performances would be limited in medical imaging fields where collecting annotated anomaly data is limited and labor-intensive. Therefore, unsupervised anomaly detection can be an effective tool for clinical practices, which uses only unlabeled normal images as training data. In this paper, we developed an unsupervised learning framework for pixel-wise anomaly detection in multi-contrast magnetic resonance imaging (MRI). The framework has two steps of feature generation and density estimation with Gaussian mixture model (GMM). A feature is derived through the learning of contrast-to-contrast translation that effectively captures the normal tissue characteristics in multi-contrast MRI. The feature is collaboratively used with another feature that is the low-dimensional representation of multi-contrast images. In density estimation using GMM, a simple but efficient way is introduced to handle the singularity problem which interrupts the joint learning process. The proposed method outperforms previous anomaly detection approaches. Quantitative and qualitative analyses demonstrate the effectiveness of the proposed method in anomaly detection for multi-contrast MRI.
翻訳日:2021-05-05 02:36:16 公開日:2021-05-02
# (参考訳) DRIVE:高次元ゲノミクスデータとインプットラベルを用いた癌のドライバ同定のための機械学習 [全文訳有]

DRIVE: Machine Learning to Identify Drivers of Cancer with High-Dimensional Genomic Data & Imputed Labels ( http://arxiv.org/abs/2105.00469v1 )

ライセンス: CC BY 4.0
Adnan Akbar, Andrey Solovyev, John W Cassidy, Nirmesh Patel, Harry W Clifford(参考訳) がんの成長を促進する突然変異の同定は、臨床意思決定と正確な腫瘍学において鍵となる。 ドライバーの変異は選択的に有利であり、発生の可能性も高まるため、現在周波数ベースの統計モデルが好まれている。 これらの方法は稀で低頻度のドライバ突然変異には適していない。 これに対処する別のアプローチは機能的インパクトスコア(英語版)によるものであるが、このアプローチを用いる手法は偽陽性の傾向が高い。 本稿では,統計モデルと機能的影響に基づく手法の両方のパワーを用いた,ドライバ変異同定のための新しい組み合わせ手法を提案する。 最初の結果から,この手法は精度において最先端の手法よりも優れており,受信特性曲線(AU-ROC)の下での面積に匹敵する性能を提供する。 このような機械学習に基づくデータ駆動システムは、近い将来、精度オンコロジーの不可欠な部分になるだろうと考えています。

Identifying the mutations that drive cancer growth is key in clinical decision making and precision oncology. As driver mutations confer selective advantage and thus have an increased likelihood of occurrence, frequency-based statistical models are currently favoured. These methods are not suited to rare, low frequency, driver mutations. The alternative approach to address this is through functional-impact scores, however methods using this approach are highly prone to false positives. In this paper, we propose a novel combination method for driver mutation identification, which uses the power of both statistical modelling and functional-impact based methods. Initial results show this approach outperforms the state-of-the-art methods in terms of precision, and provides comparable performance in terms of area under receiver operating characteristic curves (AU-ROC). We believe that data-driven systems based on machine learning, such as these, will become an integral part of precision oncology in the near future.
翻訳日:2021-05-05 02:15:06 公開日:2021-05-02
# (参考訳) 因果知識構造を用いたイベント引数抽出 [全文訳有]

Event Argument Extraction using Causal Knowledge Structures ( http://arxiv.org/abs/2105.00477v1 )

ライセンス: CC BY 4.0
Debanjana Kar, Sudeshna Sarkar, Pawan Goyal(参考訳) イベント引数抽出(event argument extraction)とは、特定の興味のあるイベントに対して、構造化されていないテキストから構造化情報を抽出するタスクである。 既存の研究は、ReasonやAfter Effectsといった因果イベントの議論を抽出する能力に乏しい。 さらに、既存の作業のほとんどは、このタスクを文レベルでモデル化し、コンテキストをローカルスコープに制限します。 短いテキストには有効かもしれないが、ニュース記事などの長いテキストには、イベントの議論がイベントトリガーを含むものと同じ文で必ずしも発生しないことがしばしば観察されている。 文間の議論散乱の問題に取り組むため、このタスクではグローバルコンテキストの使用が必須となる。 本研究では,文書レベルのイベント情報を融合し,複雑なイベント引数の抽出を支援する外部知識支援手法を提案する。 我々は、wikipediaからconceptnetと句から関連するイベント因果構造を抽出することにより、イベント注釈付きデータセットのための因果ネットワークを構築する。 双方向トランスフォーマエンコーダで抽出されたイベント因果特性を用いて,長距離の相互関係を効果的に捉える。 本稿では,定性解析と定量的解析の両面から提案手法の有効性を報告する。 本研究は,インド語5言語におけるイベントアノテートデータセットについて述べる。 このデータセットは、エンティティタイプ(時間、場所など)の引数と、より複雑な引数タイプ(Reason、After-Effectなど)をラベル付けすることで、タスクをさらに複雑にする。 提案手法は5言語すべてで最先端のパフォーマンスを実現する。 私たちの仕事は言語固有の機能に依存しないので、他の言語にも簡単に拡張できます。

Event Argument extraction refers to the task of extracting structured information from unstructured text for a particular event of interest. The existing works exhibit poor capabilities to extract causal event arguments like Reason and After Effects. Furthermore, most of the existing works model this task at a sentence level, restricting the context to a local scope. While it may be effective for short spans of text, for longer bodies of text such as news articles, it has often been observed that the arguments for an event do not necessarily occur in the same sentence as that containing an event trigger. To tackle the issue of argument scattering across sentences, the use of global context becomes imperative in this task. In our work, we propose an external knowledge aided approach to infuse document-level event information to aid the extraction of complex event arguments. We develop a causal network for our event-annotated dataset by extracting relevant event causal structures from ConceptNet and phrases from Wikipedia. We use the extracted event causal features in a bi-directional transformer encoder to effectively capture long-range inter-sentence dependencies. We report the effectiveness of our proposed approach through both qualitative and quantitative analysis. In this task, we establish our findings on an event annotated dataset in 5 Indian languages. This dataset adds further complexity to the task by labelling arguments of entity type (like Time, Place) as well as more complex argument types (like Reason, After-Effect). Our approach achieves state-of-the-art performance across all the five languages. Since our work does not rely on any language-specific features, it can be easily extended to other languages.
翻訳日:2021-05-05 02:08:47 公開日:2021-05-02
# (参考訳) RパッケージBiDAGによるベイズネットワークのベイズ構造学習とサンプリング [全文訳有]

Bayesian structure learning and sampling of Bayesian networks with the R package BiDAG ( http://arxiv.org/abs/2105.00488v1 )

ライセンス: CC BY 4.0
Polina Suter and Jack Kuipers and Giusi Moffa and Niko Beerenwinkel(参考訳) RパッケージBiDAGはマルコフ連鎖モンテカルロ法(MCMC)を実装し、ベイズネットワークの構造学習とサンプリングを行う。 このパッケージには、最大 a posteriori (map) グラフを検索し、データが与えられた後続分布からグラフをサンプリングするツールが含まれている。 構造学習への新しいハイブリッドアプローチは、大きなグラフで推論を可能にする。 最初のステップでは,PCアルゴリズムを用いて,あるいは事前知識に基づいて,検索スペースの削減を定義する。 2番目のステップでは、反復順序MCMCスキームが制限された探索空間内で最適化し、MAPグラフを推定する。 後部分布からのサンプリングは順序または分割MCMCを用いて行う。 モデルとアルゴリズムは離散データと連続データの両方を扱うことができる。 BiDAGパッケージはまた、動的ベイズネットワークの構造学習とサンプリングのためのMCMCスキームの実装も提供する。

The R package BiDAG implements Markov chain Monte Carlo (MCMC) methods for structure learning and sampling of Bayesian networks. The package includes tools to search for a maximum a posteriori (MAP) graph and to sample graphs from the posterior distribution given the data. A new hybrid approach to structure learning enables inference in large graphs. In the first step, we define a reduced search space by means of the PC algorithm or based on prior knowledge. In the second step, an iterative order MCMC scheme proceeds to optimize within the restricted search space and estimate the MAP graph. Sampling from the posterior distribution is implemented using either order or partition MCMC. The models and algorithms can handle both discrete and continuous data. The BiDAG package also provides an implementation of MCMC schemes for structure learning and sampling of dynamic Bayesian networks.
翻訳日:2021-05-05 01:58:18 公開日:2021-05-02
# (参考訳) 深層強化学習のためのCurious ExplorationとReturn-based Memory Restoration [全文訳有]

Curious Exploration and Return-based Memory Restoration for Deep Reinforcement Learning ( http://arxiv.org/abs/2105.00499v1 )

ライセンス: CC BY 4.0
Saeed Tafazzol, Erfan Fathi, Mahdi Rezaei, Ehsan Asali(参考訳) 報酬工学と報酬関数の設計は、複雑な環境でエージェントを訓練するための非自明なタスクである。 さらに、不正確な報酬関数は、効率的で最適化された行動に遠く及ばない偏った行動につながる可能性がある。 本稿では,ハーフフィールドオフセンス領域における2連成功/障害報酬関数を用いた目標達成のための単一エージェントのトレーニングに焦点をあてる。 この研究の主な利点として、このエージェントは環境についての仮定がなく、これは強化学習エージェントの元々の定式化にのみ従うことを意味する。 このような報酬関数を使用する主な課題は、ポジティブな報酬信号のスパース性が高いことである。 この問題に対処するために、我々は単純な予測に基づく探索戦略(Curious Exploration)と、より貴重な記憶を記憶する傾向にあるReturn-based Memory Restoration(RMR)技術を使用する。 提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。 実験の結果,ベースライン法を含む最近のソリューションの多くは,複雑なサッカー領域において学習や実行に失敗していることがわかった。 しかし,提案手法は最適動作に容易に収束することができる。 トレーニングされたエージェントのパフォーマンスを示すビデオは、http://bit.ly/hfo_bi nary_rewardで閲覧できます。

Reward engineering and designing an incentive reward function are non-trivial tasks to train agents in complex environments. Furthermore, an inaccurate reward function may lead to a biased behaviour which is far from an efficient and optimised behaviour. In this paper, we focus on training a single agent to score goals with binary success/failure reward function in Half Field Offense domain. As the major advantage of this research, the agent has no presumption about the environment which means it only follows the original formulation of reinforcement learning agents. The main challenge of using such a reward function is the high sparsity of positive reward signals. To address this problem, we use a simple prediction-based exploration strategy (called Curious Exploration) along with a Return-based Memory Restoration (RMR) technique which tends to remember more valuable memories. The proposed method can be utilized to train agents in environments with fairly complex state and action spaces. Our experimental results show that many recent solutions including our baseline method fail to learn and perform in complex soccer domain. However, the proposed method can converge easily to the nearly optimal behaviour. The video presenting the performance of our trained agent is available at http://bit.ly/HFO_Bi nary_Reward.
翻訳日:2021-05-05 01:36:35 公開日:2021-05-02
# (参考訳) ネットワーク型パブリックグッズゲームにおけるアルトリズムデザイン [全文訳有]

Altruism Design in Networked Public Goods Games ( http://arxiv.org/abs/2105.00505v1 )

ライセンス: CC BY 4.0
Sixie Yu, David Kempe, Yevgeniy Vorobeychik(参考訳) 多くの集団意思決定設定は、個人の利害から行動し、共通の利益を促進するエージェント間の戦略的緊張を特徴としている。 パンデミックの間、マスクを着用したり、投票したり、ワクチンを接種したりする。 ネットワーク化された公共財ゲームはこの緊張関係を捉え、ネットワークはエージェント間の戦略的相互依存をコーディングする。 公共グッズゲームの伝統的なモデルは、利他的な動機がエージェントの判断に重要な役割を果たすことが長年知られているにもかかわらず、個人の利害のみを動機とする。 本稿では,エージェントが他者の福祉から得ていると考えられる利益を,利他的グラフによって媒介するユーティリティ関数に用語を付加することにより,利他的動機を考慮し,公共財ゲームの新たな拡張を提案する。 最も重要なことは、利他主義は不変ではなく、むしろ共通の利益を促進するためのレバーであると考えることである。 我々の中心的なアルゴリズム問題は、望まれる公開財ゲーム投資プロファイルを達成するために、利他主義ネットワークを変更することの計算複雑性に関するものである。 まず,主幹が利他的ネットワークを微妙に修正できる場合,線形計画を用いてこの問題を解決できることを示す。 この問題は、校長の行動が全てまたは全くない場合、一般には難題となるが、いくつかの扱いやすい特別な場合を示す。

Many collective decision-making settings feature a strategic tension between agents acting out of individual self-interest and promoting a common good. These include wearing face masks during a pandemic, voting, and vaccination. Networked public goods games capture this tension, with networks encoding strategic interdependence among agents. Conventional models of public goods games posit solely individual self-interest as a motivation, even though altruistic motivations have long been known to play a significant role in agents' decisions. We introduce a novel extension of public goods games to account for altruistic motivations by adding a term in the utility function that incorporates the perceived benefits an agent obtains from the welfare of others, mediated by an altruism graph. Most importantly, we view altruism not as immutable, but rather as a lever for promoting the common good. Our central algorithmic question then revolves around the computational complexity of modifying the altruism network to achieve desired public goods game investment profiles. We first show that the problem can be solved using linear programming when a principal can fractionally modify the altruism network. While the problem becomes in general intractable if the principal's actions are all-or-nothing, we exhibit several tractable special cases.
翻訳日:2021-05-05 01:27:46 公開日:2021-05-02
# (参考訳) 逆プリトレーニングトランスによる擬似優先項目による逐次推薦の強化 [全文訳有]

Augmenting Sequential Recommendation with Pseudo-Prior Items via Reversely Pre-training Transformer ( http://arxiv.org/abs/2105.00522v1 )

ライセンス: CC BY 4.0
Zhiwei Liu, Ziwei Fan, Yu Wang, Philip S. Yu(参考訳) 逐次レコメンデーションはアイテムシーケンスを時系列的にモデル化することで進化するパターンを特徴付ける。 重要なターゲットはアイテム遷移の相関を捉えることである。 トランスフォーマーの最近の発展は、コミュニティに効果的なシーケンスエンコーダである \textit{e.g.} SASRec と BERT4Rec を設計させるきっかけとなった。 しかし、これらのトランスフォーマーベースのモデルは、短いシーケンスでは性能の悪い \textit{i,e} というコールドスタート問題に苦しむことを観察する。 そこで本論文では,元の逐次相関を保ちつつ,短い系列を補うことを提案する。 本稿では,textbf{A}ugmenting \textbf{S}equential \textbf{Re}commendation with \textbf{P}seudo-prior items~(ASReP)を紹介する。 まず、逆方向のシーケンスを持つ変圧器を事前訓練し、先行項目を予測する。 そして、この変換器を用いて、短いシーケンスの開始時に製造された歴史的アイテムを生成する。 最後に、次の項目を予測するために、これらの拡張シーケンスを使用して変換器を微調整する。 実世界の2つのデータセットの実験は、ASRePの有効性を検証する。 コードは \url{https://github.com/d ygrec/asrep} で入手できる。

Sequential Recommendation characterizes the evolving patterns by modeling item sequences chronologically. The essential target of it is to capture the item transition correlations. The recent developments of transformer inspire the community to design effective sequence encoders, \textit{e.g.,} SASRec and BERT4Rec. However, we observe that these transformer-based models suffer from the cold-start issue, \textit{i.e.,} performing poorly for short sequences. Therefore, we propose to augment short sequences while still preserving original sequential correlations. We introduce a new framework for \textbf{A}ugmenting \textbf{S}equential \textbf{Re}commendation with \textbf{P}seudo-prior items~(ASReP). We firstly pre-train a transformer with sequences in a reverse direction to predict prior items. Then, we use this transformer to generate fabricated historical items at the beginning of short sequences. Finally, we fine-tune the transformer using these augmented sequences from the time order to predict the next item. Experiments on two real-world datasets verify the effectiveness of ASReP. The code is available on \url{https://github.com/D yGRec/ASReP}.
翻訳日:2021-05-05 01:05:18 公開日:2021-05-02
# (参考訳) 部分観測可能な環境におけるアクティブな支援計画 [全文訳有]

Planning for Proactive Assistance in Environments with Partial Observability ( http://arxiv.org/abs/2105.00525v1 )

ライセンス: CC BY 4.0
Anagha Kulkarni, Siddharth Srivastava and Subbarao Kambhampati(参考訳) 本稿では,共通の環境下で共存する工場フロアのような環境において,人間に積極的なタスク支援を提供するAIエージェントの動作を合成する問題に対処する。 要求された援助と異なり、人間は積極的援助を期待していないため、エージェントは、人がその援助が彼女のタスクにどう影響するかを知ることが不可欠である。 これは、人間がAIエージェントの能力について完全な知識を持っていないり、アクティビティの完全な可観測性を持っていない場合、難しくなります。 したがって、我々の \textit{proactive assistant} は以下の3つの原則によって導かれる: \textbf{(1)} その活動は人間の目標に対するコストを減少させる; \textbf{(2)} 人間は彼女のコストの潜在的な削減を認識することができる; \textbf{(3)} その活動は彼女の目標を達成するための全体のコスト(時間/資源)を最適化する。 経験的評価とユーザスタディを通して,本手法の有用性を実証する。

This paper addresses the problem of synthesizing the behavior of an AI agent that provides proactive task assistance to a human in settings like factory floors where they may coexist in a common environment. Unlike in the case of requested assistance, the human may not be expecting proactive assistance and hence it is crucial for the agent to ensure that the human is aware of how the assistance affects her task. This becomes harder when there is a possibility that the human may neither have full knowledge of the AI agent's capabilities nor have full observability of its activities. Therefore, our \textit{proactive assistant} is guided by the following three principles: \textbf{(1)} its activity decreases the human's cost towards her goal; \textbf{(2)} the human is able to recognize the potential reduction in her cost; \textbf{(3)} its activity optimizes the human's overall cost (time/resources) of achieving her goal. Through empirical evaluation and user studies, we demonstrate the usefulness of our approach.
翻訳日:2021-05-05 00:55:36 公開日:2021-05-02
# (参考訳) CDRに基づく軌道:ピンポンハンドオーバのフィルタリング [全文訳有]

CDR Based Trajectories: Tentative for Filtering Ping-pong Handover ( http://arxiv.org/abs/2105.00526v1 )

ライセンス: CC BY 4.0
Joonas L\~omps, Artjom Lind, Amnir Hadaci(参考訳) コールディテール・レコード(cdr)とカバレッジエリアのロケーションが組み合わさって、オペレーターは顧客の位置や移動に関する驚くほどの量の情報を提供する。 アンテナカバー領域の非静的かつ重なり合う性質のため、ハンドオーバルールにより、地理的に近接した携帯電話が異なるアンテナに接続される状況が一般的である。 これにより,CDRデータから抽出した軌跡のピンポンハンドオーバ現象が,移動パターンの理解において誤解を招く可能性がある。 正確な軌道を再構築するには、データセットに現れるハンドオーバの数を減らす必要がある。 本文は,CDRに基づく軌道からピンポンハンドオーバをフィルタリングする新しい手法を提案する。 主に,CDRデータから抽出した被覆領域と再構成軌道の異なる特徴とパラメータを活かしたアンカーモデルに基づく。 この手法を用いることで,トラジェクタのピンポンハンドオーバノイズを著しく低減できるため,顧客の移動パターンをより正確に再構成できる。

Call Detail Records (CDRs) coupled with the coverage area locations provide the operator with an incredible amount of information on its customers' whereabouts and movement. Due to the non-static and overlapping nature of the antenna coverage area there commonly exist situations where cellphones geographically close to each other can be connected to different antennas due to handover rule - the operator hands over a certain cellphone to another antenna to spread the load between antennas. Hence, this aspect introduces a ping-pong handover phenomena in the trajectories extracted from the CDR data which can be misleading in understanding the mobility pattern. To reconstruct accurate trajectories it is a must to reduce the number of those handovers appearing in the dataset. This letter presents a novel approach for filtering ping-pong handovers from CDR based trajectories. Primarily, the approach is based on anchors model utilizing different features and parameters extracted from the coverage areas and reconstructed trajectories mined from the CDR data. Using this methodology we can significantly reduce the ping-pong handover noise in the trajectories, which gives a more accurate reconstruction of the customers' movement pattern.
翻訳日:2021-05-05 00:42:22 公開日:2021-05-02
# (参考訳) IoTセンサにおける睡眠時無呼吸検出のための1D-CNNに基づくディープラーニング技術 [全文訳有]

A 1D-CNN Based Deep Learning Technique for Sleep Apnea Detection in IoT Sensors ( http://arxiv.org/abs/2105.00528v1 )

ライセンス: CC BY 4.0
Arlene John, Barry Cardiff, and Deepu John(参考訳) IoT(Internet of Things)による健康モニタリングのためのウェアラブルセンサーは、個人医療のコスト削減と生活の質向上に広く利用されている。 呼吸の異常な減少または停止を特徴とする睡眠時無呼吸症候群は、個人の睡眠の質に大きな影響を及ぼす。 本稿では,ウェアラブルデバイスから取得した心電図(ECG)信号から呼吸時無呼吸検出のための新しい手法を提案する。 1次元畳み込みニューラルネットワークを用いて睡眠時無呼吸イベントの特徴抽出と検出を行う。 提案手法は99.56%の精度と96.05%の感度を示す。 このモデルはいくつかの低分解能アパネ検出法より優れる。 提案するモデルの複雑さを解析する。 また,ウェアラブルIoTデバイスにおける資源要求を低減するため,モデルプルーニングとバイナライゼーションの実現可能性も分析した。 80\%の散布モデルでは97.34%の精度と86.48%の感度を示した。 双対化モデルは精度75.59%、感度63.23%であった。 また, 患者固有の要求に適合する既存モデルの再訓練の可能性を分析するため, 低複雑性患者固有モデルの性能も検討した。 患者固有のモデルは平均97.79%、感度92.23%であった。 この作業のソースコードは公開されています。

Internet of Things (IoT) enabled wearable sensors for health monitoring are widely used to reduce the cost of personal healthcare and improve quality of life. The sleep apnea-hypopnea syndrome, characterized by the abnormal reduction or pause in breathing, greatly affects the quality of sleep of an individual. This paper introduces a novel method for apnea detection (pause in breathing) from electrocardiogram (ECG) signals obtained from wearable devices. The novelty stems from the high resolution of apnea detection on a second-by-second basis, and this is achieved using a 1-dimensional convolutional neural network for feature extraction and detection of sleep apnea events. The proposed method exhibits an accuracy of 99.56% and a sensitivity of 96.05%. This model outperforms several lower resolution state-of-the-art apnea detection methods. The complexity of the proposed model is analyzed. We also analyze the feasibility of model pruning and binarization to reduce the resource requirements on a wearable IoT device. The pruned model with 80\% sparsity exhibited an accuracy of 97.34% and a sensitivity of 86.48%. The binarized model exhibited an accuracy of 75.59% and sensitivity of 63.23%. The performance of low complexity patient-specific models derived from the generic model is also studied to analyze the feasibility of retraining existing models to fit patient-specific requirements. The patient-specific models on average exhibited an accuracy of 97.79% and sensitivity of 92.23%. The source code for this work is made publicly available.
翻訳日:2021-05-05 00:35:11 公開日:2021-05-02
# (参考訳) 構造的・非構造的プルーニングによるデータ不均一性下での個人化フェデレーション学習 [全文訳有]

Personalized Federated Learning by Structured and Unstructured Pruning under Data Heterogeneity ( http://arxiv.org/abs/2105.00562v1 )

ライセンス: CC BY 4.0
Saeed Vahidian and Mahdi Morafah and Bill Lin(参考訳) flの伝統的なアプローチは、中央サーバのオーケストレーションの下で多くのクライアントの助けを借りて、単一のグローバルモデルを協調的に学習しようとするものである。 しかし、単一のグローバルモデルを学ぶことは、データの不均一性の下でflに参加するすべてのクライアントにとってうまくいかないかもしれない。 したがって,グローバルモデルのパーソナライズは,統計的不均一性やデータの非IID分布に伴う課題を扱う上で重要である。 従来の作業とは異なり、この作業では、クライアントレベルの目的からパーソナライズされたモデルを得るための新しいアプローチを提案する。 これにより、中央サーバのデータやモデルトレーニングのソースに留まらず、統計的に異質な状況下であっても、すべてのクライアントがフェデレーションに参加するモチベーションが向上する。 このパーソナライゼーションを実現するために,ハイブリッド・プルーニング(構造化および非構造化プルーニングの組み合わせ)と非構造化プルーニングを適用し,クライアント毎に小さなサブネットワークを見つける。 異なるベンチマークで様々な実験を行い、類似したデータ(ラベル)を持つクライアントが同様のパラメータを共有するのを観察した。 各クライアントのサブネットワークを見つけることで...

The traditional approach in FL tries to learn a single global model collaboratively with the help of many clients under the orchestration of a central server. However, learning a single global model might not work well for all clients participating in the FL under data heterogeneity. Therefore, the personalization of the global model becomes crucial in handling the challenges that arise with statistical heterogeneity and the non-IID distribution of data. Unlike prior works, in this work we propose a new approach for obtaining a personalized model from a client-level objective. This further motivates all clients to participate in federation even under statistical heterogeneity in order to improve their performance, instead of merely being a source of data and model training for the central server. To realize this personalization, we leverage finding a small subnetwork for each client by applying hybrid pruning (combination of structured and unstructured pruning), and unstructured pruning. Through a range of experiments on different benchmarks, we observed that the clients with similar data (labels) share similar personal parameters. By finding a subnetwork for each client ...
翻訳日:2021-05-05 00:26:48 公開日:2021-05-02
# (参考訳) 遅延強化タスクのためのInferNet:時間的クレジット割り当て問題に対処する [全文訳有]

InferNet for Delayed Reinforcement Tasks: Addressing the Temporal Credit Assignment Problem ( http://arxiv.org/abs/2105.00568v1 )

ライセンス: CC BY-SA 4.0
Markel Sanz Ausin, Hamoon Azizsoltani, Song Ju, Yeo Jin Kim, Min Chi(参考訳) 一時的信用割り当て問題(CAP)は、AIにおけるよく知られた課題である。 強化学習(Reinforcement Learning, RL)、特にDeep RLは、即時報酬が利用可能であればうまく機能するが、遅延報酬のみが利用可能である場合や、報酬関数がうるさい場合は失敗することがある。 そこで本研究では,遅延報酬から即時報酬を推測するために明示的に学習するニューラルネットワークに基づくアルゴリズムinfernetにcapを委譲することを提案する。 InferNetの有効性は、2つのオンラインRLタスク(GridWorldと40のAtariゲーム)と2つのオフラインRLタスク(GridWorldと実生活のSepsis処理タスク)で評価された。 すべてのタスクにおいて、InferNetの推論された報酬の有効性は、2つの設定で即時と遅延した報酬と比較される。 以上の結果から,InferNetの有効性は,従来のRLシミュレーション環境から実世界のRL問題,オンラインおよびオフライン学習まで,幅広いRLタスクにおいて,時間的CAPを解くための効果的なアドオン機構であることがわかった。

The temporal Credit Assignment Problem (CAP) is a well-known and challenging task in AI. While Reinforcement Learning (RL), especially Deep RL, works well when immediate rewards are available, it can fail when only delayed rewards are available or when the reward function is noisy. In this work, we propose delegating the CAP to a Neural Network-based algorithm named InferNet that explicitly learns to infer the immediate rewards from the delayed rewards. The effectiveness of InferNet was evaluated on two online RL tasks: a simple GridWorld and 40 Atari games; and two offline RL tasks: GridWorld and a real-life Sepsis treatment task. For all tasks, the effectiveness of using the InferNet inferred rewards is compared against the immediate and the delayed rewards with two settings: with noisy rewards and without noise. Overall, our results show that the effectiveness of InferNet is robust against noisy reward functions and is an effective add-on mechanism for solving temporal CAP in a wide range of RL tasks, from classic RL simulation environments to a real-world RL problem and for both online and offline learning.
翻訳日:2021-05-05 00:12:14 公開日:2021-05-02
# (参考訳) 多言語マスキング言語モデリングのための大規模トランスフォーマー [全文訳有]

Larger-Scale Transformers for Multilingual Masked Language Modeling ( http://arxiv.org/abs/2105.00572v1 )

ライセンス: CC BY 4.0
Naman Goyal, Jingfei Du, Myle Ott, Giri Anantharaman, Alexis Conneau(参考訳) 近年,言語間理解のための言語間モデルの事前学習の有効性が実証されている。 本研究では, 3.5B と 10.7B のパラメータを持つ多言語マスキング言語モデルについて述べる。 XLM-R XLとXLM-R XXLはXLM-Rよりも1.8%、XNLIの平均精度は2.4%向上した。 また、GLUEベンチマークの英語タスクのRoBERTa-Largeモデルを平均0.3%上回り、99以上の言語を扱う。 このことは、事前訓練されたモデルにより、高リソース言語の性能と低リソース言語の性能を両立させることができることを示唆している。 コードとモデルを公開しています。

Recent work has demonstrated the effectiveness of cross-lingual language model pretraining for cross-lingual understanding. In this study, we present the results of two larger multilingual masked language models, with 3.5B and 10.7B parameters. Our two new models dubbed XLM-R XL and XLM-R XXL outperform XLM-R by 1.8% and 2.4% average accuracy on XNLI. Our model also outperforms the RoBERTa-Large model on several English tasks of the GLUE benchmark by 0.3% on average while handling 99 more languages. This suggests pretrained models with larger capacity may obtain both strong performance on high-resource languages while greatly improving low-resource languages. We make our code and models publicly available.
翻訳日:2021-05-04 23:58:31 公開日:2021-05-02
# (参考訳) アイデアマイニングにCRISP-DMを適用する:テキストデータセットを用いたアイデア生成のためのデータマイニングプロセス [全文訳有]

Adapting CRISP-DM for Idea Mining: A Data Mining Process for Generating Ideas Using a Textual Dataset ( http://arxiv.org/abs/2105.00574v1 )

ライセンス: CC BY 4.0
W. Y. Ayele(参考訳) データマイニングプロジェクトマネージャは、標準的なデータマイニングプロセスモデルを使用することでメリットを享受できる。 データマイニング(CRISP-DM)におけるデファクトや最も一般的なクロスインダストリー・スタンダード・プロセスモデルなどの標準的なプロセスモデルを使用することの利点は、コストと時間を削減できる。 また、標準モデルは知識伝達を促進し、ベストプラクティスを再利用し、知識要件を最小化する。 一方で、出版物、特許、ソーシャルメディアデータ、様々な形式の文書など、成長を続けるテキストデータの可能性を解き放つためには、デジタルイノベーションがますます必要とされている。 さらに、最先端の機械学習ツールや技術の導入により、アイデアの活用が可能になる。 新しく有用なアイデアを生み出すための構造化されていないテキストデータの処理は、アイデアマイニング(idea mining)と呼ばれる。 アイデアマイニングに関する既存の文献は、標準的なデータマイニングプロセスモデルの利用を単に見落としているに過ぎない。 そこで本研究では,アイデアマイニング(CRISP-IM)のための再利用可能なモデルであるCRISP-DMを提案する。 CRISP-IMの設計と開発は、設計科学のアプローチに従って行われる。 CRISP-IMは、動的トピックモデリング(DTM)、教師なし機械学習、そしてその後の学術論文のデータセットの統計分析を通じて、アイデア生成を容易にする。 適応されたCRISP-IMは、学術文献データセットや時間的に組織された特許やその他のドメインのテキストデータセットを使用して、アイデアを導き出すトレンドを特定するプロセスのガイドに使用することができる。 CRISP-IMのポスト評価は今後の研究に残されている。

Data mining project managers can benefit from using standard data mining process models. The benefits of using standard process models for data mining, such as the de facto and the most popular, Cross-Industry-Stand ard-Process model for Data Mining (CRISP-DM) are reduced cost and time. Also, standard models facilitate knowledge transfer, reuse of best practices, and minimize knowledge requirements. On the other hand, to unlock the potential of ever-growing textual data such as publications, patents, social media data, and documents of various forms, digital innovation is increasingly needed. Furthermore, the introduction of cutting-edge machine learning tools and techniques enable the elicitation of ideas. The processing of unstructured textual data to generate new and useful ideas is referred to as idea mining. Existing literature about idea mining merely overlooks the utilization of standard data mining process models. Therefore, the purpose of this paper is to propose a reusable model to generate ideas, CRISP-DM, for Idea Mining (CRISP-IM). The design and development of the CRISP-IM are done following the design science approach. The CRISP-IM facilitates idea generation, through the use of Dynamic Topic Modeling (DTM), unsupervised machine learning, and subsequent statistical analysis on a dataset of scholarly articles. The adapted CRISP-IM can be used to guide the process of identifying trends using scholarly literature datasets or temporally organized patent or any other textual dataset of any domain to elicit ideas. The ex-post evaluation of the CRISP-IM is left for future study.
翻訳日:2021-05-04 23:51:13 公開日:2021-05-02
# (参考訳) backdoorl: 競争強化学習に対するバックドア攻撃 [全文訳有]

BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning ( http://arxiv.org/abs/2105.00579v1 )

ライセンス: CC BY 4.0
Lun Wang, Zaynah Javed, Xian Wu, Wenbo Guo, Xinyu Xing, Dawn Song(参考訳) 近年,深層強化学習(rl)システムにおけるバックドア攻撃の可能性が確認されている。 しかし、既存の攻撃ではエージェントの観察を任意に修正し、アプリケーションの範囲をAtariゲームのような単純なRLシステムに制限する必要がある。 本稿では,複数のエージェントを含む複雑なRLシステムにバックドア攻撃を移行し,エージェントの観察を直接操作することなくバックドアを起動する可能性を探る。 概念実証として, 敵エージェントが, 2人の対戦型rlシステムにおいて, 相手エージェントのバックドアを自力で起動できることを実証する。 4つの競争環境におけるBACKDOORLの試作と評価を行った。 その結果, バックドアが作動すると, 有効でない場合と比較して, 勝利率は17%から37%に低下することがわかった。

Recent research has confirmed the feasibility of backdoor attacks in deep reinforcement learning (RL) systems. However, the existing attacks require the ability to arbitrarily modify an agent's observation, constraining the application scope to simple RL systems such as Atari games. In this paper, we migrate backdoor attacks to more complex RL systems involving multiple agents and explore the possibility of triggering the backdoor without directly manipulating the agent's observation. As a proof of concept, we demonstrate that an adversary agent can trigger the backdoor of the victim agent with its own action in two-player competitive RL systems. We prototype and evaluate BACKDOORL in four competitive environments. The results show that when the backdoor is activated, the winning rate of the victim drops by 17% to 37% compared to when not activated.
翻訳日:2021-05-04 23:33:39 公開日:2021-05-02
# (参考訳) 遠隔操作支援のための視覚誘導潜伏動作の学習 [全文訳有]

Learning Visually Guided Latent Actions for Assistive Teleoperation ( http://arxiv.org/abs/2105.00580v1 )

ライセンス: CC BY 4.0
Siddharth Karamcheti, Albert J. Zhai, Dylan P. Losey, Dorsa Sadigh(参考訳) 人間(特に身体障害者)は、高次元の器用なロボットを制御することが難しい。 先行研究は、人間の低次元入力(例えばジョイスティック)を補助遠隔操作のための複雑な高次元ロボットアクションにマッピングする埋め込み関数の学習を探求するが、中心となる問題は、利用可能な低次元入力よりも多くの高次元アクションが存在することである。 正しい動作を抽出し、人間のコントローラーを最大限に支援するには、ロボットは、例えば、コーヒーカップと相互作用する際にジョイスティックを押下することは、ナイフと相互作用する場合とは異なる動作を示す。 本研究では,視覚入力への潜在埋め込みを条件とした補助ロボットを開発した。 ビジュアルエンコーダのスペクトルを探索し、少量の安価で簡単に収集可能な構造化データに事前訓練されたオブジェクト検出器を組み込むことで、(現在の状況を認識し、)新しいオブジェクトやタスクに制御埋め込みを一般化する。 高次元の物理ロボットアームを用いたユーザスタディでは、参加者はこのアプローチを利用して見えない物体で新しいタスクを実行する。 以上の結果から,構造化された視覚表現は少ないショット性能を向上し,主観的にユーザにより好まれることが示唆された。

It is challenging for humans -- particularly those living with physical disabilities -- to control high-dimensional, dexterous robots. Prior work explores learning embedding functions that map a human's low-dimensional inputs (e.g., via a joystick) to complex, high-dimensional robot actions for assistive teleoperation; however, a central problem is that there are many more high-dimensional actions than available low-dimensional inputs. To extract the correct action and maximally assist their human controller, robots must reason over their context: for example, pressing a joystick down when interacting with a coffee cup indicates a different action than when interacting with knife. In this work, we develop assistive robots that condition their latent embeddings on visual inputs. We explore a spectrum of visual encoders and show that incorporating object detectors pretrained on small amounts of cheap, easy-to-collect structured data enables i) accurately and robustly recognizing the current context and ii) generalizing control embeddings to new objects and tasks. In user studies with a high-dimensional physical robot arm, participants leverage this approach to perform new tasks with unseen objects. Our results indicate that structured visual representations improve few-shot performance and are subjectively preferred by users.
翻訳日:2021-05-04 23:22:09 公開日:2021-05-02
# 自己指導型学習における特徴劣化について

On Feature Decorrelation in Self-Supervised Learning ( http://arxiv.org/abs/2105.00470v1 )

ライセンス: Link先を確認
Tianyu Hua, Wenxiao Wang, Zihui Xue, Yue Wang, Sucheng Ren, Hang Zhao(参考訳) 自己教師あり表現学習(self-supervised representation learning)において、最先端のアプローチのほとんどを支える共通のアイデアは、事前定義された拡張に対して表現の堅牢性を強化することである。 このアイデアの潜在的な問題は、完全に崩壊した解(すなわち、一定の特徴)の存在であり、通常は慎重に選択された実装の詳細によって暗黙的に避けられる。 本研究では,最近のアプローチから最も一般的なコンポーネントを含む比較的簡潔なフレームワークについて検討する。 完全崩壊の存在を検証し、通常見過ごされる別の到達可能な崩壊パターン、すなわち次元崩壊を発見する。 我々は、次元の崩壊を軸間の強い相関と結び付け、そのような関係を特徴デコリレーション(すなわち共分散行列の標準化)の強い動機とみなす。 非教師付き計量としての相関の能力と特徴的デコレーションによる利得を実証的に検証し、この洞察の重要性と可能性を明らかにする。

In self-supervised representation learning, a common idea behind most of the state-of-the-art approaches is to enforce the robustness of the representations to predefined augmentations. A potential issue of this idea is the existence of completely collapsed solutions (i.e., constant features), which are typically avoided implicitly by carefully chosen implementation details. In this work, we study a relatively concise framework containing the most common components from recent approaches. We verify the existence of complete collapse and discover another reachable collapse pattern that is usually overlooked, namely dimensional collapse. We connect dimensional collapse with strong correlations between axes and consider such connection as a strong motivation for feature decorrelation (i.e., standardizing the covariance matrix). The capability of correlation as an unsupervised metric and the gains from feature decorrelation are verified empirically to highlight the importance and the potential of this insight.
翻訳日:2021-05-04 14:23:52 公開日:2021-05-02
# MathBERT:数学式理解のための事前学習モデル

MathBERT: A Pre-Trained Model for Mathematical Formula Understanding ( http://arxiv.org/abs/2105.00377v1 )

ライセンス: Link先を確認
Shuai Peng, Ke Yuan, Liangcai Gao, Zhi Tang(参考訳) bertのような大規模な事前学習されたモデルは、様々な自然言語処理(nlp)タスクで大きな成功を収めていますが、数学関連のタスクにそれらを適用することは依然として課題です。 現在の事前学習モデルは、公式とその文脈の間の構造的特徴と意味的対応を無視している。 これらの問題に対処するため,数式とそれに対応する文脈を併用した新しい事前学習モデルである「textbf{MathBERT}」を提案する。 また、式の意味レベルの構造的特徴をさらに捉えるために、演算木(opt)から抽出されたマスク式サブ構造(式の意味的構造表現)を予測するために、新しい事前学習タスクが設計されている。 我々は,数学情報検索,公式トピック分類,公式見出し生成など,3つの下流タスクについて様々な実験を行い,MathBERTの性能を評価する。 実験の結果、MathBERTはこれらの3つのタスクで既存のメソッドよりも大幅に優れていた。 さらに, この事前学習モデルは, 式の意味レベル構造情報を効果的に捉えることを定性的に示す。 我々の知る限りでは、MathBERTは数学式理解のための最初の事前学習モデルである。

Large-scale pre-trained models like BERT, have obtained a great success in various Natural Language Processing (NLP) tasks, while it is still a challenge to adapt them to the math-related tasks. Current pre-trained models neglect the structural features and the semantic correspondence between formula and its context. To address these issues, we propose a novel pre-trained model, namely \textbf{MathBERT}, which is jointly trained with mathematical formulas and their corresponding contexts. In addition, in order to further capture the semantic-level structural features of formulas, a new pre-training task is designed to predict the masked formula substructures extracted from the Operator Tree (OPT), which is the semantic structural representation of formulas. We conduct various experiments on three downstream tasks to evaluate the performance of MathBERT, including mathematical information retrieval, formula topic classification and formula headline generation. Experimental results demonstrate that MathBERT significantly outperforms existing methods on all those three tasks. Moreover, we qualitatively show that this pre-trained model effectively captures the semantic-level structural information of formulas. To the best of our knowledge, MathBERT is the first pre-trained model for mathematical formula understanding.
翻訳日:2021-05-04 14:22:33 公開日:2021-05-02
# ディープフェイク検出のためのAIモデルの公正性の検討

An Examination of Fairness of AI Models for Deepfake Detection ( http://arxiv.org/abs/2105.00558v1 )

ライセンス: Link先を確認
Loc Trinh, Yan Liu(参考訳) 近年の研究では、人種や性別などの保護されたクラスに基づいてディープラーニングモデルを判別できることが示されている。 本研究では,保護サブグループ間のディープフェイクデータセットおよび検出モデルにおけるバイアスを評価する。 人種と性別のバランスの取れた顔データセットを用いて、3つの人気のディープフェイク検出器を調べ、人種間での予測性能に大きな差異を見出した。 より詳しく見ると、広く使われているfaceforensics++データセットは、圧倒的に白人の被験者で構成されており、その大半は女性白人である。 ディープフェイクの人種分布を調査したところ、ポジティブなトレーニング信号としてディープフェイクを作るのに使われた方法は、人の顔が別の人種や性別の別の人に置き換わるときに、"不規則"な顔を生み出す傾向があることが判明した。 これにより、検出器は前景の顔と偽物の相関関係を学習する。 さらに、Face X-RaysのBlended Image (BI)データセットで検出器を訓練すると、これらの検出器は特定の人種的サブグループ(主に女性アジア人)に対して体系的に識別される。

Recent studies have demonstrated that deep learning models can discriminate based on protected classes like race and gender. In this work, we evaluate bias present in deepfake datasets and detection models across protected subgroups. Using facial datasets balanced by race and gender, we examine three popular deepfake detectors and find large disparities in predictive performances across races, with up to 10.7% difference in error rate between subgroups. A closer look reveals that the widely used FaceForensics++ dataset is overwhelmingly composed of Caucasian subjects, with the majority being female Caucasians. Our investigation of the racial distribution of deepfakes reveals that the methods used to create deepfakes as positive training signals tend to produce "irregular" faces - when a person's face is swapped onto another person of a different race or gender. This causes detectors to learn spurious correlations between the foreground faces and fakeness. Moreover, when detectors are trained with the Blended Image (BI) dataset from Face X-Rays, we find that those detectors develop systematic discrimination towards certain racial subgroups, primarily female Asians.
翻訳日:2021-05-04 14:22:14 公開日:2021-05-02
# インテリジェントな会話型Android ERICAによる聞き取りと求人面接

Intelligent Conversational Android ERICA Applied to Attentive Listening and Job Interview ( http://arxiv.org/abs/2105.00403v1 )

ライセンス: Link先を確認
Tatsuya Kawahara, Koji Inoue, Divesh Lala(参考訳) スマートフォンアシスタントとスマートスピーカーにおける音声対話システム(SDS)の成功に続いて、多数のコミュニケーションロボットが開発・商業化されている。 ヒューマンマシンインタフェースとして設計された従来のSDSと比較して,ロボットとのインタラクションは,人間同型性や身体的存在のため,人間と会話するよりは近いと考えられる。 対話の目的や課題は情報検索ではなく、会話そのものである。 人間レベルの「長く深い」会話を実現するために、我々はインテリジェントな会話型android ericaを開発した。 ERICAには,注意深い聞き取り,面接,スピードデートなど,いくつかのソーシャルインタラクションタスクを設定した。 自発的かつ漸進的な複数発話を可能にするため,RTP(transition-rele vance place)予測に基づいて頑健なターンテイクモデルを実装し,IPUに基づく予測ではなく,時間フレームの予測に基づいて様々なバックチャネルを生成する。 我々は、部分的な繰り返しと焦点単語に対する質問と評価応答を併用したオープンドメイン注意聴取システムを実現した。 40人の高齢者が会話を分解することなく5~7分間の会話を行った。 また、WOZ設定と比較された。 また,基本的な質問のセットと,質問の動的生成を伴う面接システムも実現している。 学生でも評価され、有望な結果を示している。

Following the success of spoken dialogue systems (SDS) in smartphone assistants and smart speakers, a number of communicative robots are developed and commercialized. Compared with the conventional SDSs designed as a human-machine interface, interaction with robots is expected to be in a closer manner to talking to a human because of the anthropomorphism and physical presence. The goal or task of dialogue may not be information retrieval, but the conversation itself. In order to realize human-level "long and deep" conversation, we have developed an intelligent conversational android ERICA. We set up several social interaction tasks for ERICA, including attentive listening, job interview, and speed dating. To allow for spontaneous, incremental multiple utterances, a robust turn-taking model is implemented based on TRP (transition-relevanc e place) prediction, and a variety of backchannels are generated based on time frame-wise prediction instead of IPU-based prediction. We have realized an open-domain attentive listening system with partial repeats and elaborating questions on focus words as well as assessment responses. It has been evaluated with 40 senior people, engaged in conversation of 5-7 minutes without a conversation breakdown. It was also compared against the WOZ setting. We have also realized a job interview system with a set of base questions followed by dynamic generation of elaborating questions. It has also been evaluated with student subjects, showing promising results.
翻訳日:2021-05-04 14:20:58 公開日:2021-05-02
# 3次元全身皮膚テクスチャメッシュにおける色素性皮膚病変の検出と経時的追跡

Detection and Longitudinal Tracking of Pigmented Skin Lesions in 3D Total-Body Skin Textured Meshes ( http://arxiv.org/abs/2105.00374v1 )

ライセンス: Link先を確認
Mengliu Zhao, Jeremy Kawahara, Sajjad Shamanian, Kumar Abhishek, Priyanka Chandrashekar, Ghassan Hamarneh(参考訳) 3次元全身皮膚表面スキャンによる皮膚病変の検出と追跡のための自動的アプローチを提案する。 被検体の取得した3Dメッシュは、2Dテクスチャ画像にラップされず、トレーニングされた領域畳み込みニューラルネットワーク(R-CNN)が2Dドメイン内の病変をローカライズする。 これらの検出された皮膚病変を被験者の3d面にマッピングし、複数回の撮影では、メッシュ対間の解剖学的対応と病変間の測地線距離を経時的病変追跡アルゴリズムで活用する。 提案手法を3つのデータソースを用いて評価した。 まず、公共のFAUSTデータセットから人体の3Dメッシュを、さまざまなポーズ、テクスチャ、病変の画像で拡張する。 第2に, ハンドヘルド構造光3Dスキャナーを用いて, 複数の合成皮膚病変を有し, 形状, サイズ, 色が異なるマネキンを画像化した。 最後に、200人の被験者の有色(テキスト)肌を3dスキャンした公開データセットである3dbodytexを用いた。 有色皮膚病変を含むために人間の眼に現れた部位を手作業で注釈し,異なるポーズで撮影された同じ被験者に発生する病変のサブセットを追跡した。 以上の結果から, 訓練されたR-CNNは, ヒトのアノテータと同等の性能で病変を検出することが示唆された。 病変追跡アルゴリズムは,異なるポーズで画像化した被験者に対して,対応する病変のペアを同定する際に平均80%の精度を達成する。 現在,3次元全身皮膚病変の大規模データセットは存在しないため,10個のマネキンメッシュと25,000以上の3DBodyTexマニュアルアノテーションを公開し,全身皮膚病変解析のさらなる研究を期待する。

We present an automated approach to detect and longitudinally track skin lesions on 3D total-body skin surfaces scans. The acquired 3D mesh of the subject is unwrapped to a 2D texture image, where a trained region convolutional neural network (R-CNN) localizes the lesions within the 2D domain. These detected skin lesions are mapped back to the 3D surface of the subject and, for subjects imaged multiple times, the anatomical correspondences among pairs of meshes and the geodesic distances among lesions are leveraged in our longitudinal lesion tracking algorithm. We evaluated the proposed approach using three sources of data. Firstly, we augmented the 3D meshes of human subjects from the public FAUST dataset with a variety of poses, textures, and images of lesions. Secondly, using a handheld structured light 3D scanner, we imaged a mannequin with multiple synthetic skin lesions at selected location and with varying shapes, sizes, and colours. Finally, we used 3DBodyTex, a publicly available dataset composed of 3D scans imaging the colored (textured) skin of 200 human subjects. We manually annotated locations that appeared to the human eye to contain a pigmented skin lesion as well as tracked a subset of lesions occurring on the same subject imaged in different poses. Our results, on test subjects annotated by three human annotators, suggest that the trained R-CNN detects lesions at a similar performance level as the human annotators. Our lesion tracking algorithm achieves an average accuracy of 80% when identifying corresponding pairs of lesions across subjects imaged in different poses. As there currently is no other large-scale publicly available dataset of 3D total-body skin lesions, we publicly release the 10 mannequin meshes and over 25,000 3DBodyTex manual annotations, which we hope will further research on total-body skin lesion analysis.
翻訳日:2021-05-04 14:18:34 公開日:2021-05-02
# 希少欠陥の自動検査:GP-WGANと高速化R-CNNに基づくフレームワーク

Automatic Visual Inspection of Rare Defects: A Framework based on GP-WGAN and Enhanced Faster R-CNN ( http://arxiv.org/abs/2105.00447v1 )

ライセンス: Link先を確認
Masoud Jalayer, Reza Jalayer, Amin Kaboli, Carlotta Orsenigo, Carlo Vercellis(参考訳) 半導体やファウントリーなどの産業では、視覚検査のプロセスを自動視覚検査(Automatic Visual Inspection, AVI)システムに移行し、コスト、ミス、人間の専門家への依存を減らす傾向にある。 本稿では,AVIシステムのための2段階故障診断フレームワークを提案する。 第1段階では、実サンプルに基づいて新しいサンプルを合成する生成モデルが設計されている。 提案アルゴリズムは,実際のサンプルからオブジェクトを抽出し,ランダムにブレンドし,新しいサンプルを生成し,画像処理の性能を向上させる。 第2段階では、より高速なR-CNN、特徴ピラミッドネットワーク(FPN)、Residual Networkに基づく改良されたディープラーニングアーキテクチャを提案し、拡張データセット上でオブジェクト検出を行う。 アルゴリズムの性能は2つの多クラスデータセットで検証され評価される。 種々の不均衡性について行った実験結果は,提案手法が他の解よりも優れていることを示している。

A current trend in industries such as semiconductors and foundry is to shift their visual inspection processes to Automatic Visual Inspection (AVI) systems, to reduce their costs, mistakes, and dependency on human experts. This paper proposes a two-staged fault diagnosis framework for AVI systems. In the first stage, a generation model is designed to synthesize new samples based on real samples. The proposed augmentation algorithm extracts objects from the real samples and blends them randomly, to generate new samples and enhance the performance of the image processor. In the second stage, an improved deep learning architecture based on Faster R-CNN, Feature Pyramid Network (FPN), and a Residual Network is proposed to perform object detection on the enhanced dataset. The performance of the algorithm is validated and evaluated on two multi-class datasets. The experimental results performed over a range of imbalance severities demonstrate the superiority of the proposed framework compared to other solutions.
翻訳日:2021-05-04 14:18:04 公開日:2021-05-02
# pyBKT: ベイジアン知識追跡モデルのアクセシブルPythonライブラリ

pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models ( http://arxiv.org/abs/2105.00385v1 )

ライセンス: Link先を確認
Anirudhan Badrinath, Frederic Wang, Zachary Pardos(参考訳) 認知的熟達度推定のモデルであるベイズ知識追跡は、適応学習研究の目玉であり、デプロイされた知的学習システム(ITS)の不可欠な構成要素である。 本稿では,知識追跡モデル研究の簡単な歴史と,文献からのモデル拡張のアクセス性と計算効率のよいライブラリpyBKTを紹介する。 このライブラリは、データ生成、適合、予測、クロスバリデーションルーチンを提供すると同時に、典型的なチューターログデータセットフォーマットを取り込むためのデータヘルパーインターフェイスをシンプルに利用します。 さまざまなデータセットサイズでランタイムを評価し、過去の実装と比較する。 さらに、シミュレーションデータを用いてモデルの健全性チェックを行い、EMパラメータ学習の精度を評価し、実世界のデータを用いて予測を検証し、pyBKTがサポートするモデル変種と、当初導入した論文の結果を比較した。 このライブラリはオープンソースであり、知識のトレースを研究や実践のコミュニティによりアクセスしやすくし、過去のアプローチの複製を容易にすることでこの分野の進歩を促進する目的でオープンライセンスである。

Bayesian Knowledge Tracing, a model used for cognitive mastery estimation, has been a hallmark of adaptive learning research and an integral component of deployed intelligent tutoring systems (ITS). In this paper, we provide a brief history of knowledge tracing model research and introduce pyBKT, an accessible and computationally efficient library of model extensions from the literature. The library provides data generation, fitting, prediction, and cross-validation routines, as well as a simple to use data helper interface to ingest typical tutor log dataset formats. We evaluate the runtime with various dataset sizes and compare to past implementations. Additionally, we conduct sanity checks of the model using experiments with simulated data to evaluate the accuracy of its EM parameter learning and use real-world data to validate its predictions, comparing pyBKT's supported model variants with results from the papers in which they were originally introduced. The library is open source and open license for the purpose of making knowledge tracing more accessible to communities of research and practice and to facilitate progress in the field through easier replication of past approaches.
翻訳日:2021-05-04 14:16:52 公開日:2021-05-02
# AirMixML: プライバシを保護したエッジ機械学習のためのオーバーザエアデータ混在

AirMixML: Over-the-Air Data Mixup for Inherently Privacy-Preserving Edge Machine Learning ( http://arxiv.org/abs/2105.00395v1 )

ライセンス: Link先を確認
Yusuke Koda and Jihong Park and Mehdi Bennis and Praneeth Vepakomma and Ramesh Raskar(参考訳) 無線チャネルは、受信した信号をチャネルノイズによって歪め、複数の信号を空中で重ね合わせることで、本質的にプライバシーを守ることができる。 そこで本稿では,これらの自然歪みと重畳を無線チャネルで利用することにより,ネットワークエッジにおける新たなプライバシ保護機械学習(ML)フレームワークを提案する。 AirMixMLでは、複数のワーカーがプライベートデータサンプルのアナログ変調信号をエッジサーバに送信し、受信したノイズと重畳されたサンプルを使用してMLモデルをトレーニングする。 AirMixMLは、ミックスアップデータ拡張を使用したモデルトレーニングと一致し、生のデータサンプルと同等の精度を実現している。 プライバシの観点からは、AirMixMLは、各ワーカーのプライベートサンプル情報のサーバでの開示を制限する差分プライベート(DP)メカニズムであり、ワーカーの送信パワーはプライバシ開示レベルを決定する。 本研究では,チャネル反転後に与えられた大域的電力スケーリング係数に対して,重畳信号に対する各作業者の局所電力寄与をディリクレ分散比 {\alpha} で制御する分数的チャネル反転電力制御 (pc) 法, {\alpha}-dirichlet mixup pc (dirmix({\alpha})-pc) を開発した。 数学的には,対象のDPレベルを保証するために,局所的なPC要因とグローバルなPC要因の関係を明らかにするクローズドフォーム表現を導出する。 シミュレーションにより,dirmix({\alpha})-pc設計ガイドラインを提供し,精度,プライバシ,エネルギー効率を向上させる。 最後に、DirMix({\alpha})-PCを用いたAirMixMLは、重ね合わせでもPCでもないプライバシ違反ベースラインと比較して、妥当な精度が得られることを示した。

Wireless channels can be inherently privacy-preserving by distorting the received signals due to channel noise, and superpositioning multiple signals over-the-air. By harnessing these natural distortions and superpositions by wireless channels, we propose a novel privacy-preserving machine learning (ML) framework at the network edge, coined over-the-air mixup ML (AirMixML). In AirMixML, multiple workers transmit analog-modulated signals of their private data samples to an edge server who trains an ML model using the received noisy-and superpositioned samples. AirMixML coincides with model training using mixup data augmentation achieving comparable accuracy to that with raw data samples. From a privacy perspective, AirMixML is a differentially private (DP) mechanism limiting the disclosure of each worker's private sample information at the server, while the worker's transmit power determines the privacy disclosure level. To this end, we develop a fractional channel-inversion power control (PC) method, {\alpha}-Dirichlet mixup PC (DirMix({\alpha})-PC), wherein for a given global power scaling factor after channel inversion, each worker's local power contribution to the superpositioned signal is controlled by the Dirichlet dispersion ratio {\alpha}. Mathematically, we derive a closed-form expression clarifying the relationship between the local and global PC factors to guarantee a target DP level. By simulations, we provide DirMix({\alpha})-PC design guidelines to improve accuracy, privacy, and energy-efficiency. Finally, AirMixML with DirMix({\alpha})-PC is shown to achieve reasonable accuracy compared to a privacy-violating baseline with neither superposition nor PC.
翻訳日:2021-05-04 14:16:33 公開日:2021-05-02
# 時空間ダイナミクス学習のための物理のハードエンコーディング

Hard Encoding of Physics for Learning Spatiotemporal Dynamics ( http://arxiv.org/abs/2105.00557v1 )

ライセンス: Link先を確認
Chengping Rao, Hao Sun, Yang Liu(参考訳) 非線形時空間力学系のモデリングは主に偏微分方程式(PDE)に依存している。 しかし、気候システム、生化学反応、疫学など、未調査の多くのプロセスにおけるPDEの明示的な定式化は、非常に限られた測定データしか得られていない、不確実または部分的には分かっていない。 この課題に取り組むために,既知の物理知識を強制的にエンコードし,データ駆動型学習を容易にする新しいディープラーニングアーキテクチャを提案する。 物理の強制的符号化機構は、ペナルティに基づく物理情報学習とは根本的に異なるが、ネットワークが与えられた物理に厳格に従うことを保証している。 非線形アクティベーション関数の代わりに、モデルの非線形性を達成するための新しい要素的積演算を提案する。 数値実験により、結果として得られる物理エンコード学習パラダイムは、データ駆動モデリングのための最先端モデルと比較して、データノイズ/スカルシティと一般化性に対して著しく頑健であることが示される。

Modeling nonlinear spatiotemporal dynamical systems has primarily relied on partial differential equations (PDEs). However, the explicit formulation of PDEs for many underexplored processes, such as climate systems, biochemical reaction and epidemiology, remains uncertain or partially unknown, where very limited measurement data is yet available. To tackle this challenge, we propose a novel deep learning architecture that forcibly encodes known physics knowledge to facilitate learning in a data-driven manner. The coercive encoding mechanism of physics, which is fundamentally different from the penalty-based physics-informed learning, ensures the network to rigorously obey given physics. Instead of using nonlinear activation functions, we propose a novel elementwise product operation to achieve the nonlinearity of the model. Numerical experiment demonstrates that the resulting physics-encoded learning paradigm possesses remarkable robustness against data noise/scarcity and generalizability compared with some state-of-the-art models for data-driven modeling.
翻訳日:2021-05-04 14:16:01 公開日:2021-05-02
# 差の合成差

Synthesized Difference in Differences ( http://arxiv.org/abs/2105.00455v1 )

ライセンス: Link先を確認
Eric V. Strobl, Thomas A. Lasko(参考訳) ランダム化臨床試験 (Randomized Clinical trials, RCTs) は、臨床集団全体のサンプリングを防ぐために厳格な除外基準を課す。 観測データセットは包括的だが、欠点がある。 差分(DD)は治療前後の結果を比較することにより観察データとの相違を解消する。 しかし、このアルゴリズムは、時間にまたがるシフトを結合する場合に実際に適用できないパラレルスロープの仮定を必要とする。 本稿では,追加のRCTデータを用いてDDの条件付きバージョンを線形に調整することにより,正しい(おそらくは非並列な)勾配を推定するSynthesized difference in differences (SDD)を提案する。 このアルゴリズムは、rctが患者の大半を除外した場合でも、複数の合成データセットと実際のデータセットにわたる技術性能の状態を実現できる。

Randomized clinical trials (RCTs) eliminate confounding but impose strict exclusion criteria that prevent sampling of the entire clinical population. Observational datasets are more inclusive but suffer from confounding. Difference in Differences (DD) eliminates confounding from observational data by comparing outcomes before and after treatment administration. However, the algorithm requires a parallel slopes assumption that may not apply in practice when confounding shifts across time. In this paper, we propose Synthesized Difference in Differences (SDD) that infers the correct (possibly non-parallel) slopes by linearly adjusting a conditional version of DD using additional RCT data. The algorithm achieves state of the art performance across multiple synthetic and real datasets even when the RCT excludes the majority of patients.
翻訳日:2021-05-04 14:12:35 公開日:2021-05-02
# ニューラルネットワークの勾配降下訓練における普遍的スケーリング則

Universal scaling laws in the gradient descent training of neural networks ( http://arxiv.org/abs/2105.00507v1 )

ライセンス: Link先を確認
Maksim Velikanov and Dmitry Yarotsky(参考訳) 勾配降下によって訓練されたニューラルネットワークの最適化軌道に関する現在の理論結果は、通常、損失値の厳密だがゆるい境界を持つ。 本研究では,異なるアプローチを採り,学習の軌跡を,大きな訓練時間において明示的な漸近性によって特徴づけることができることを示す。 特に、損失の漸近展開における先行項は、データ次元、活性化関数の滑らかさ、近似される関数のクラスを通してのみ表現される指数 $\xi$ で表されるパワーローム $l(t) \sim t^{-\xi}$ として振る舞う。 この結果は,期待損失に基づいて学習した大規模ネットワークの線形化進化を表す積分作用素のスペクトル解析に基づく。 重要なのは、私たちが採用するテクニックは、例えばgaussianのような、特定の形式のデータ分散を必要としないことです。

Current theoretical results on optimization trajectories of neural networks trained by gradient descent typically have the form of rigorous but potentially loose bounds on the loss values. In the present work we take a different approach and show that the learning trajectory can be characterized by an explicit asymptotic at large training times. Specifically, the leading term in the asymptotic expansion of the loss behaves as a power law $L(t) \sim t^{-\xi}$ with exponent $\xi$ expressed only through the data dimension, the smoothness of the activation function, and the class of function being approximated. Our results are based on spectral analysis of the integral operator representing the linearized evolution of a large network trained on the expected loss. Importantly, the techniques we employ do not require specific form of a data distribution, for example Gaussian, thus making our findings sufficiently universal.
翻訳日:2021-05-04 14:12:18 公開日:2021-05-02
# 逆グラフニューラルネットワークを用いた脳グラフ超解法と機能的脳結合性への応用

Brain Graph Super-Resolution Using Adversarial Graph Neural Network with Application to Functional Brain Connectivity ( http://arxiv.org/abs/2105.00425v1 )

ライセンス: Link先を確認
Megi Isallari and Islem Rekik(参考訳) 脳画像解析は近年、異なる解像度で取得されたニューロイメージングデータセットの増殖によって大きく進歩している。 脳画像の超解像の研究は近年急速に進展しているが、非ユークリッドグラフデータの複雑な性質のため、脳グラフの超解像はいまだに不十分である。 本稿では,N < N' のノードを持つ低分解能(LR)グラフから N' ノードを持つ高分解能(HR)脳グラフを自動的に生成する,最初のディープグラフ超解法(GSR)フレームワークを提案する。 まず、GSR問題をノード機能埋め込み学習タスクとして定式化する。 HRノードの埋め込みが学習されると、新しいグラフU-Netアーキテクチャに基づいた集約ルールによって、脳ROI間の相互接続強度が導出される。 グラフU-Netは通常、グラフの埋め込みは主にノード属性に依存するノード中心アーキテクチャであるが、グラフトポロジに基づいてノード特徴の埋め込みを行うグラフ中心アーキテクチャを提案する。 次に、GSR層と2つのグラフ畳み込みネットワーク層で低分解能脳グラフ構造とノード内容の超解法により、U-Netアーキテクチャの対称性を破り、HRグラフへのノード埋め込みをさらに学習する。 第三に、接地構造と予測されたHR脳グラフの間の領域シフトを扱うために、各分布を整列するために逆正則化を組み込む。 提案する agsr-net フレームワークは,低分解能脳グラフから高分解能機能脳グラフを予測できる。 agsr-netコードはgithubのhttps://github.com/b asiralab/agsr-netで入手できる。

Brain image analysis has advanced substantially in recent years with the proliferation of neuroimaging datasets acquired at different resolutions. While research on brain image super-resolution has undergone a rapid development in the recent years, brain graph super-resolution is still poorly investigated because of the complex nature of non-Euclidean graph data. In this paper, we propose the first-ever deep graph super-resolution (GSR) framework that attempts to automatically generate high-resolution (HR) brain graphs with N' nodes (i.e., anatomical regions of interest (ROIs)) from low-resolution (LR) graphs with N nodes where N < N'. First, we formalize our GSR problem as a node feature embedding learning task. Once the HR nodes' embeddings are learned, the pairwise connectivity strength between brain ROIs can be derived through an aggregation rule based on a novel Graph U-Net architecture. While typically the Graph U-Net is a node-focused architecture where graph embedding depends mainly on node attributes, we propose a graph-focused architecture where the node feature embedding is based on the graph topology. Second, inspired by graph spectral theory, we break the symmetry of the U-Net architecture by super-resolving the low-resolution brain graph structure and node content with a GSR layer and two graph convolutional network layers to further learn the node embeddings in the HR graph. Third, to handle the domain shift between the ground-truth and the predicted HR brain graphs, we incorporate adversarial regularization to align their respective distributions. Our proposed AGSR-Net framework outperformed its variants for predicting high-resolution functional brain graphs from low-resolution ones. Our AGSR-Net code is available on GitHub at https://github.com/b asiralab/AGSR-Net.
翻訳日:2021-05-04 14:10:40 公開日:2021-05-02
# grnn:生成回帰ニューラルネットワーク -- 連合学習のためのデータ漏洩攻撃

GRNN: Generative Regression Neural Network -- A Data Leakage Attack for Federated Learning ( http://arxiv.org/abs/2105.00529v1 )

ライセンス: Link先を確認
Hanchi Ren, Jingjing Deng and Xianghua Xie(参考訳) データプライバシーは、機械学習においてますます重要になっている。 暗号(正則暗号、微分プライバシーなど)など、この問題に取り組むために多くのアプローチが開発されている。 コラボレーショントレーニング(セキュアなマルチパーティ計算、分散学習、フェデレーション学習)。 これらの技術はデータ暗号化やセキュアな局所計算に特に重点を置いている。 中間情報を第三者に転送して最終結果を計算する。 グラディエント交換は、ディープラーニングにおいて協調的に堅牢なモデルをトレーニングするための安全な方法であると考えられている。 しかし、最近の研究では、共有勾配からセンシティブな情報を回収できることが示されている。 特にGAN(Generative Adversarial Networks)は,これらの情報の回復に有効であることが示されている。 しかし、GANベースの技術は、一般的にプライバシーを守らない学習では利用できないクラスラベルのような追加情報を必要とする。 本稿では,フェデレーション学習(fl)システムにおいて,画像ベースのプライバシデータは,提案する生成型回帰ニューラルネットワーク(grnn)によってのみ,共有勾配から完全に復元可能であることを示す。 回帰問題として攻撃を定式化し、勾配間の距離を最小化し、生成モデルの2つの分岐を最適化する。 本手法は,複数の画像分類タスクで評価する。 その結果,提案したGRNNは安定性,強靭性,高精度で最先端の手法より優れていた。 また、大域的FLモデルへの収束要求も持たない。 さらに,顔再同定による情報漏洩についても述べる。 本研究ではいくつかの防衛戦略についても論じている。

Data privacy has become an increasingly important issue in machine learning. Many approaches have been developed to tackle this issue, e.g., cryptography (Homomorphic Encryption, Differential Privacy, etc.) and collaborative training (Secure Multi-Party Computation, Distributed Learning and Federated Learning). These techniques have a particular focus on data encryption or secure local computation. They transfer the intermediate information to the third-party to compute the final result. Gradient exchanging is commonly considered to be a secure way of training a robust model collaboratively in deep learning. However, recent researches have demonstrated that sensitive information can be recovered from the shared gradient. Generative Adversarial Networks (GAN), in particular, have shown to be effective in recovering those information. However, GAN based techniques require additional information, such as class labels which are generally unavailable for privacy persevered learning. In this paper, we show that, in Federated Learning (FL) system, image-based privacy data can be easily recovered in full from the shared gradient only via our proposed Generative Regression Neural Network (GRNN). We formulate the attack to be a regression problem and optimise two branches of the generative model by minimising the distance between gradients. We evaluate our method on several image classification tasks. The results illustrate that our proposed GRNN outperforms state-of-the-art methods with better stability, stronger robustness, and higher accuracy. It also has no convergence requirement to the global FL model. Moreover, we demonstrate information leakage using face re-identification. Some defense strategies are also discussed in this work.
翻訳日:2021-05-04 14:10:09 公開日:2021-05-02
# 数十億ドル規模の事前訓練Eコマース製品知識グラフモデル

Billion-scale Pre-trained E-commerce Product Knowledge Graph Model ( http://arxiv.org/abs/2105.00388v1 )

ライセンス: Link先を確認
Wen Zhang, Chi-Man Wong, Ganqiang Ye, Bo Wen, Wei Zhang, Huajun Chen(参考訳) 近年、知識グラフは、人々の生活を大いに促進するオンラインショッピングなど、知識を必要とする多くのタスクを強化し、統一的な方法でデータを整理するために広く応用されている。 オンラインショッピングプラットフォームのバックボーンとして、アイテムレコメンデーションなどのさまざまなアイテム知識サービスのための10億規模のeコマース製品ナレッジグラフを構築しました。 しかし、そのような知識サービスは通常、退屈なデータ選択と知識注入のためのモデル設計を含んでおり、不適切な結果をもたらす可能性がある。 そこで本研究では,10億規模のeコマース製品知識グラフを対象とした事前学習型知識グラフモデル(PKGM)を提案する。 特に、PKGMはサーベイリング中に知識グラフを完成させ、知識グラフの共通不完全性問題を克服できる。 我々は,PKGMを項目分類,同一項目識別,レコメンデーションを含む3つの知識関連タスクでテストする。 実験の結果,pkgmは各タスクの性能を向上できた。

In recent years, knowledge graphs have been widely applied to organize data in a uniform way and enhance many tasks that require knowledge, for example, online shopping which has greatly facilitated people's life. As a backbone for online shopping platforms, we built a billion-scale e-commerce product knowledge graph for various item knowledge services such as item recommendation. However, such knowledge services usually include tedious data selection and model design for knowledge infusion, which might bring inappropriate results. Thus, to avoid this problem, we propose a Pre-trained Knowledge Graph Model (PKGM) for our billion-scale e-commerce product knowledge graph, providing item knowledge services in a uniform way for embedding-based models without accessing triple data in the knowledge graph. Notably, PKGM could also complete knowledge graphs during servicing, thereby overcoming the common incompleteness issue in knowledge graphs. We test PKGM in three knowledge-related tasks including item classification, same item identification, and recommendation. Experimental results show PKGM successfully improves the performance of each task.
翻訳日:2021-05-04 14:06:55 公開日:2021-05-02
# 画像分類のための部分空間表現学習

Subspace Representation Learning for Few-shot Image Classification ( http://arxiv.org/abs/2105.00379v1 )

ライセンス: Link先を確認
Ting-Yao Hu, Zhi-Qi Cheng, Alexander G. Hauptmann(参考訳) 本稿では,少数の画像分類タスクに対処する部分空間表現学習(SRL)フレームワークを提案する。 局所CNN特徴空間内の部分空間を利用して画像を表現し、重み付き部分空間距離(WSD)に応じて2つの画像間の類似度を測定する。 K画像が各クラスで利用できる場合、Kショット情報を集約するテンプレート部分空間として、プロトタイプ部分空間(PS)と識別部分空間(DS)の2種類を開発する。 SRLフレームワークに基づいて,ベクトルから部分空間表現への距離学習手法を拡張した。 以前の作品では大域的なベクトル表現が採用されていたが、部分空間表現を用いることで、画像内の空間構造や多様性を効果的に保存することができる。 miniimagenet,tieredi magenet,caltech-ucsd birds-200-2011 (cub) の3つのベンチマークデータセットにおいて,srlフレームワークの有効性を実証し,本手法のこれまでの最新データと比較した性能と性能を実験的に示した。

In this paper, we propose a subspace representation learning (SRL) framework to tackle few-shot image classification tasks. It exploits a subspace in local CNN feature space to represent an image, and measures the similarity between two images according to a weighted subspace distance (WSD). When K images are available for each class, we develop two types of template subspaces to aggregate K-shot information: the prototypical subspace (PS) and the discriminative subspace (DS). Based on the SRL framework, we extend metric learning based techniques from vector to subspace representation. While most previous works adopted global vector representation, using subspace representation can effectively preserve the spatial structure, and diversity within an image. We demonstrate the effectiveness of the SRL framework on three public benchmark datasets: MiniImageNet, TieredImageNet and Caltech-UCSD Birds-200-2011 (CUB), and the experimental results illustrate competitive/superior performance of our method compared to the previous state-of-the-art.
翻訳日:2021-05-04 14:03:41 公開日:2021-05-02
# パターン分類のための均等分布型センタロイドの生成とフレーム特性

Generation and frame characteristics of predefined evenly-distributed class centroids for pattern classification ( http://arxiv.org/abs/2105.00401v1 )

ライセンス: Link先を確認
Haiping Hu, Yingying Yan, Qiuyu Zhu, Guohui Zheng(参考訳) 事前定義された等分散クラスセントロイド(PEDCC)は、CNN分類器、分類オートエンコーダ、クラスタリング、半教師付き学習などのパターン分類のモデルやアルゴリズムで広く利用することができる。 その基本的な考え方は、単位超球面上に均等に分布するクラス中心を、クラス間距離を最大化するために事前に定義することである。 PEDCCを生成する以前の方法は、電荷モデルに基づく反復アルゴリズム、すなわち、各中心の初期値(電荷位置)を正規分布からランダムに設定し、同じ極性の電荷間の反発力の助けを借りて電荷位置を反復的に更新する。 アルゴリズムによって生成されたクラスセンターは、理論的に均等に分散された点でいくつかのエラーを発生し、生成時間が長くなる。 本稿では高次元空間における正則多面体とn次元超球面上の点の均等分布を利用してPEDCCを数学的に生成する。 次に,pedccで形成したフレームの基本および広範な特性について考察した。 最後に、実験により、新しいアルゴリズムは反復法よりも高速であるだけでなく、位置の正確さも示している。 本論文の数学的解析と実験結果は,解釈可能な教師なし・教師なし学習,インクリメンタル学習,不確実性解析など,パターン認識の分野における鍵となる問題を解くために,pedccを用いた理論的手法を提供する。

Predefined evenly-distributed class centroids (PEDCC) can be widely used in models and algorithms of pattern classification, such as CNN classifiers, classification autoencoders, clustering, and semi-supervised learning, etc. Its basic idea is to predefine the class centers, which are evenly-distributed on the unit hypersphere in feature space, to maximize the inter-class distance. The previous method of generating PEDCC uses an iterative algorithm based on a charge model, that is, the initial values of various centers (charge positions) are randomly set from the normal distribution, and the charge positions are updated iteratively with the help of the repulsive force between charges of the same polarity. The class centers generated by the algorithm will produce some errors with the theoretically evenly-distributed points, and the generation time will be longer. This paper takes advantage of regular polyhedron in high-dimensional space and the evenly distribution of points on the n dimensional hypersphere to generate PEDCC mathematically. Then, we discussed the basic and extensive characteristics of the frames formed by PEDCC. Finally, experiments show that new algorithm is not only faster than the iterative method, but also more accurate in position. The mathematical analysis and experimental results of this paper can provide a theoretical tool for using PEDCC to solve the key problems in the field of pattern recognition, such as interpretable supervised/unsupervi sed learning, incremental learning, uncertainty analysis and so on.
翻訳日:2021-05-04 14:03:21 公開日:2021-05-02
# イベントカメラのフィードバック制御

Feedback control of event cameras ( http://arxiv.org/abs/2105.00409v1 )

ライセンス: Link先を確認
Tobi Delbruck, Rui Graca, Marcin Paluch(参考訳) ダイナミックビジョンセンサイベントカメラは、明るさ変化イベントの可変データレートストリームを生成する。 画素レベルのイベント生成は閾値、帯域幅、屈折周期バイアス電流パラメータ設定によって制御される。 アプリケーション要件に合うようにバイアスを調整する必要があり、最適な設定は多くの要因に依存します。 本稿では,バイアスの自動制御に向けた第一歩として,事象率と雑音を測定する固定ステップフィードバックコントローラを提案する。 コントローラは、しきい値及び耐火物周期制御を用いて許容範囲内のイベントレートを規制し、帯域制御を用いてノイズを規制する。 実験はモデルの有効性とフィードバック制御を示す。

Dynamic vision sensor event cameras produce a variable data rate stream of brightness change events. Event production at the pixel level is controlled by threshold, bandwidth, and refractory period bias current parameter settings. Biases must be adjusted to match application requirements and the optimal settings depend on many factors. As a first step towards automatic control of biases, this paper proposes fixed-step feedback controllers that use measurements of event rate and noise. The controllers regulate the event rate within an acceptable range using threshold and refractory period control, and regulate noise using bandwidth control. Experiments demonstrate model validity and feedback control.
翻訳日:2021-05-04 14:02:56 公開日:2021-05-02
# SE-HarrisとeSUSAN:メガピクセル解像度CeleX-Vカメラを用いた非同期イベントベースコーナー検出

SE-Harris and eSUSAN: Asynchronous Event-Based Corner Detection Using Megapixel Resolution CeleX-V Camera ( http://arxiv.org/abs/2105.00480v1 )

ライセンス: Link先を確認
Jinjian Li, Chuandong Guo, Li Su, Xiangyu Wang, Quan Hu(参考訳) イベントカメラは、超高時間分解能と低レイテンシを備えた、マイクロ秒単位のニューロモルフィックな視覚センサである。 画像フレームの代わりに、イベントカメラは正確なタイムスタンプでピクセル単位の強度変化の非同期イベントストリームを生成する。 結果として得られたスパースデータ構造は、イベントストリームに多くの従来のコンピュータビジョン技術を適用することを妨げ、イベントカメラが提供する情報を活用するために特定のアルゴリズムを設計すべきである。 本研究では,従来のsusan(smallest univalue segment assimilating nucleus)アルゴリズムに触発されたコーナー検出アルゴリズムesusanを提案する。 提案したeSUSANは、タイムスタンプ間の類似性に基づいて、円核から一値セグメント同化核を抽出し、核領域の画素数でコーナーイベントを識別する。 さらに、eSUSANは最高解像度のイベントカメラであるCeleX-Vに適用できるほど高速である。 また,eSUSANに基づいて,指数減衰に基づく適応正規化を用いて活動事象の局所的な表面を迅速に構築するSE-Harris角検出器と,eSUSANによって同定された角を改良するイベントベースハリス検出器を提案する。 提案アルゴリズムを公開データセットとCeleX-Vデータを用いて評価した。 eSUSANとSE-Harrisはどちらも、精度と追跡性能を維持しながら、既存のアルゴリズムよりも高いリアルタイム性能を示す。

Event cameras are novel neuromorphic vision sensors with ultrahigh temporal resolution and low latency, both in the order of microseconds. Instead of image frames, event cameras generate an asynchronous event stream of per-pixel intensity changes with precise timestamps. The resulting sparse data structure impedes applying many conventional computer vision techniques to event streams, and specific algorithms should be designed to leverage the information provided by event cameras. We propose a corner detection algorithm, eSUSAN, inspired by the conventional SUSAN (smallest univalue segment assimilating nucleus) algorithm for corner detection. The proposed eSUSAN extracts the univalue segment assimilating nucleus from the circle kernel based on the similarity across timestamps and distinguishes corner events by the number of pixels in the nucleus area. Moreover, eSUSAN is fast enough to be applied to CeleX-V, the event camera with the highest resolution available. Based on eSUSAN, we also propose the SE-Harris corner detector, which uses adaptive normalization based on exponential decay to quickly construct a local surface of active events and the event-based Harris detector to refine the corners identified by eSUSAN. We evaluated the proposed algorithms on a public dataset and CeleX-V data. Both eSUSAN and SE-Harris exhibit higher real-time performance than existing algorithms while maintaining high accuracy and tracking performance.
翻訳日:2021-05-04 14:02:47 公開日:2021-05-02
# 残差強調型マルチハイパーグラフニューラルネットワーク

Residual Enhanced Multi-Hypergraph Neural Network ( http://arxiv.org/abs/2105.00490v1 )

ライセンス: Link先を確認
Jing Huang, Xiaolin Huang and Jie Yang(参考訳) ハイパーグラフは、様々な研究領域でうまく採用されているエンティティ間の高次相関をモデル化するためのグラフの一般化データ構造である。 一方、ハイパーグラフニューラルネットワーク(HGNN)は現在、ハイパーグラフ表現学習のデファクト手法である。 しかし、HGNNは単一ハイパーグラフ学習を目標としており、マルチモーダルデータセットと向き合う場合、事前連結アプローチを用いて、マルチモーダルハイパーグラフの相互相関を最適以下に活用する。 HGNNはまた、レイヤーが積み重ねられたときにパフォーマンスが大幅に低下する過度な問題にも悩まされている。 これらの問題を解決するために,各ハイパーグラフからマルチモーダル情報を効果的に融合させるだけでなく,hgnnに関連する過剰スムーシング問題を回避できる,拡張されたマルチハイパーグラフニューラルネットワークを提案する。 我々は,NTUとModelNet40データセットの2つの3Dベンチマーク実験を行い,複数の最先端手法との比較を行った。 実験の結果,残差ハイパーグラフ畳み込みとマルチフュージョンアーキテクチャの両方がベースモデルの性能を向上し,コンビネーションモデルが新たな最先端を実現することが示された。 コードは \url{https://github.com/o neforward/resmhgnn} で入手できる。

Hypergraphs are a generalized data structure of graphs to model higher-order correlations among entities, which have been successfully adopted into various research domains. Meanwhile, HyperGraph Neural Network (HGNN) is currently the de-facto method for hypergraph representation learning. However, HGNN aims at single hypergraph learning and uses a pre-concatenation approach when confronting multi-modal datasets, which leads to sub-optimal exploitation of the inter-correlations of multi-modal hypergraphs. HGNN also suffers the over-smoothing issue, that is, its performance drops significantly when layers are stacked up. To resolve these issues, we propose the Residual enhanced Multi-Hypergraph Neural Network, which can not only fuse multi-modal information from each hypergraph effectively, but also circumvent the over-smoothing issue associated with HGNN. We conduct experiments on two 3D benchmarks, the NTU and the ModelNet40 datasets, and compare against multiple state-of-the-art methods. Experimental results demonstrate that both the residual hypergraph convolutions and the multi-fusion architecture can improve the performance of the base model and the combined model achieves a new state-of-the-art. Code is available at \url{https://github.com/O neForward/ResMHGNN}.
翻訳日:2021-05-04 14:02:24 公開日:2021-05-02
# decomposable sequenceタスクのエンド・ツー・エンドモデルのための検索可能な隠れ中間子

Searchable Hidden Intermediates for End-to-End Models of Decomposable Sequence Tasks ( http://arxiv.org/abs/2105.00573v1 )

ライセンス: Link先を確認
Siddharth Dalmia, Brian Yan, Vikas Raunak, Florian Metze and Shinji Watanabe(参考訳) シーケンスタスクのエンドツーエンドアプローチは、ますます人気が高まっている。 しかし、音声翻訳のような複雑なシーケンスタスクでは、サブタスクで訓練された複数のモデルをカスケードするシステムは優れていることが示されており、カスケードされたシステムの構成性が学習を単純化し、高度な検索能力を可能にすることを示唆している。 本研究では,分割されたサブタスクを用いたシーケンスモデルの中間段階における探索可能な隠れ表現の学習に構成性を利用するエンドツーエンドフレームワークを提案する。 これらの隠れた中間層はビームサーチを使って全体的な性能を向上させることができ、ネットワークの中間段階で外部モデルを組み込んでドメイン外データに再スコアリングしたり適応することもできる。 提案手法の一例は、音声認識サブタスクから検索可能な隠れ中間子を抽出する音声翻訳用マルチデコーダモデルである。 このモデルは前述の利点を示し、フィッシャー・コールホームの2つのテストセットで+6と+3 bleu、英語とフランス語の must-c のテストセットで+3と+4 bleu を上回っている。

End-to-end approaches for sequence tasks are becoming increasingly popular. Yet for complex sequence tasks, like speech translation, systems that cascade several models trained on sub-tasks have shown to be superior, suggesting that the compositionality of cascaded systems simplifies learning and enables sophisticated search capabilities. In this work, we present an end-to-end framework that exploits compositionality to learn searchable hidden representations at intermediate stages of a sequence model using decomposed sub-tasks. These hidden intermediates can be improved using beam search to enhance the overall performance and can also incorporate external models at intermediate stages of the network to re-score or adapt towards out-of-domain data. One instance of the proposed framework is a Multi-Decoder model for speech translation that extracts the searchable hidden intermediates from a speech recognition sub-task. The model demonstrates the aforementioned benefits and outperforms the previous state-of-the-art by around +6 and +3 BLEU on the two test sets of Fisher-CallHome and by around +3 and +4 BLEU on the English-German and English-French test sets of MuST-C.
翻訳日:2021-05-04 13:58:30 公開日:2021-05-02
# 自動走行車の駐車シナリオにおける高精度LiDAR支援制御モジュール

A LiDAR Assisted Control Module with High Precision in Parking Scenarios for Autonomous Driving Vehicle ( http://arxiv.org/abs/2105.00398v1 )

ライセンス: Link先を確認
Xin Xu, Yu Dong, Fan Zhu(参考訳) 自動運転は近年、非常に有望なものとなっている。 一般には、waymo、baidu、cruiseなどからロボタクシーが配達されている。 自動運転車には明るい未来があることは間違いないが、robotaxiのような製品にはまだ長い道のりがあることを認めなければならない。 一方、より複雑なシナリオでは、自律運転は人間を確実に上回る可能性がある。 例えば、人間は対話的なタスク(自律運転システムは通常そうではないが)が得意だが、厳密な精度の要求のあるタスクには無能であることが多い。 本稿では,人間が運転できない実世界の産業シナリオを紹介する。 この作業では、エゴ車両は静止側距離(すなわち、静止側距離)を維持する必要があった。 3? <=5cm)であった。 この課題に対処するため、我々はBaidu Apolloの制御モジュールをオープンソース自動運転システムから再設計しました。 正確には3つ? <=2cm) 位置決めモジュールを部分的に置き換えるため, 誤差フィードバックシステムを構築した。 その後,制御モジュールを徹底的に検討し,さらに精度を高めるためにリアルタイムキャリブレーションアルゴリズムを追加した。 また、制御パラメータを微調整するシミュレーションを構築した。 これらの作業が終わった後、結果は奨励され、エンドツーエンドの側方精度が3であることを示します。 <=5cm。 さらに,apolloモジュールを上回っていただけでなく,特別に訓練された高度に経験された人間テストドライバーをも上回っていた。

Autonomous driving has been quite promising in recent years. The public has seen Robotaxi delivered by Waymo, Baidu, Cruise, and so on. While autonomous driving vehicles certainly have a bright future, we have to admit that it is still a long way to go for products such as Robotaxi. On the other hand, in less complex scenarios autonomous driving may have the potentiality to reliably outperform humans. For example, humans are good at interactive tasks (while autonomous driving systems usually do not), but we are often incompetent for tasks with strict precision demands. In this paper, we introduce a real-world, industrial scenario of which human drivers are not capable. The task required the ego vehicle to keep a stationary lateral distance (i.e. 3? <= 5 centimeters) with respect to a reference. To address this challenge, we redesigned the control module from Baidu Apollo open-source autonomous driving system. A precise (3? <= 2 centimeters) Error Feedback System was first built to partly replace the localization module. Then we investigated the control module thoroughly and added a real-time calibration algorithm to gain extra precision. We also built a simulation to fine-tune the control parameters. After all those works, the results are encouraging, showing that an end-to-end lateral precision with 3? <= 5 centimeters has been achieved. Further, we show that the results not only outperformed original Apollo modules but also beat specially trained and highly experienced human test drivers.
翻訳日:2021-05-04 13:54:33 公開日:2021-05-02
# BI-REC:対話型ビジネスインテリジェンスのためのガイドデータ分析

BI-REC: Guided Data Analysis for Conversational Business Intelligence ( http://arxiv.org/abs/2105.00467v1 )

ライセンス: Link先を確認
Venkata Vamsikrishna Meduri, Abdul Quamar, Chuan Lei, Vasilis Efthymiou, Fatma Ozcan(参考訳) ビジネスインテリジェンス(BI)アプリケーションへの会話インターフェースは、小さなステップで自然言語ダイアログを使用してデータ分析を可能にする。 データへのアクセスを民主化するために対話型BIの力を真に解き放つためには、システムはデータ分析を効果的かつ継続的にサポートする必要がある。 本稿では,BIアプリケーションのための対話型レコメンデーションシステムBI-RECを提案する。 データ解析の空間をBIパターンで定義し、OLAP立方体定義から抽出したリッチな意味情報を付加し、グラフSAGEを用いて学習したグラフ埋め込みを用いて解析状態のコンパクトな表現を作成する。 有効なBIパターン推薦のための検索空間を探索するための2段階のアプローチを提案する。 最初のステップでは、事前クエリログを使用してマルチクラス分類器をトレーニングし、BI操作(例: {\em Drill-Down} または {\em Roll-up})とユーザが興味を持っている尺度で次のハイレベル動作を予測する。 2番目のステップでは、協調フィルタリングを使用して、ハイレベルなアクションを実際のBIパターンレコメンデーションに洗練する。 この2段階のアプローチは、巨大な検索空間を分割して征服するだけでなく、より少ないトレーニングデータも必要とします。 実験の結果,BI-RECはBIパターン推奨の精度が83%,予測のレイテンシが2倍に向上することがわかった。 さらに,BI-RECは,複数の異なる分析タスクに対して,91.90%の精度でレコメンデーションを提供することを示した。

Conversational interfaces to Business Intelligence (BI) applications enable data analysis using a natural language dialog in small incremental steps. To truly unleash the power of conversational BI to democratize access to data, a system needs to provide effective and continuous support for data analysis. In this paper, we propose BI-REC, a conversational recommendation system for BI applications to help users accomplish their data analysis tasks. We define the space of data analysis in terms of BI patterns, augmented with rich semantic information extracted from the OLAP cube definition, and use graph embeddings learned using GraphSAGE to create a compact representation of the analysis state. We propose a two-step approach to explore the search space for useful BI pattern recommendations. In the first step, we train a multi-class classifier using prior query logs to predict the next high-level actions in terms of a BI operation (e.g., {\em Drill-Down} or {\em Roll-up}) and a measure that the user is interested in. In the second step, the high-level actions are further refined into actual BI pattern recommendations using collaborative filtering. This two-step approach allows us to not only divide and conquer the huge search space, but also requires less training data. Our experimental evaluation shows that BI-REC achieves an accuracy of 83% for BI pattern recommendations and up to 2X speedup in latency of prediction compared to a state-of-the-art baseline. Our user study further shows that BI-REC provides recommendations with a precision@3 of 91.90% across several different analysis tasks.
翻訳日:2021-05-04 13:54:14 公開日:2021-05-02
# CARL-DTN:遅延耐性ネットワークにおける文脈適応型強化学習に基づくルーティングアルゴリズム

CARL-DTN: Context Adaptive Reinforcement Learning based Routing Algorithm in Delay Tolerant Network ( http://arxiv.org/abs/2105.00544v1 )

ライセンス: Link先を確認
Fuad Yimer Yesuf and M. Prathap(参考訳) delay/disruption- tolerance networks(dtn)という用語は、モビリティや停止、スケジュールされた連絡先が経験される可能性のある、長い遅延、断続的、断続的な接続ネットワークの全てのタイプを記述し、カバーするために考案された。 この環境は、頻繁なネットワーク分割、断続接続、大または可変遅延、非対称データレート、低伝送信頼性によって特徴づけられる。 DTNではルーティングプロトコルが開発されている。 しかし、これらのルーティングアルゴリズムは特定の仮定に基づいて設計されている。 この仮定は、既存のアルゴリズムを特定の環境シナリオに適合させる。 異なるルーティングアルゴリズムは、異なるリレーノード選択基準を使用してレプリケーションノードを選択する。 メッセージが頻繁に転送されると、過剰なパケットロスと大きなバッファとネットワークオーバーヘッドが発生します。 一方、頻度の低い伝送は、配送率の低下につながる。 DTNでは、デリバリ比率とオーバーヘッドの間にトレードオフがあります。 本研究では,コンテキスト適応型強化学習に基づくルーティング(CARL-DTN)プロトコルを提案し,リアルタイム密度に基づいてメッセージの最適な複製を決定する。 ルーティングプロトコルでは, ファジィ論理を用いたリアルタイム物理コンテキスト, ソーシャルタイ強度, リアルタイムメッセージコンテキストを併用する。 マルチホップ転送確率は、Qラーニングアルゴリズムを用いてノード間の遭遇確率を推定し、割引報酬によって近隣で利用可能なノードについて学習することにより、リレーノードの選択にも考慮される。 提案プロトコルの性能は様々なシミュレーションシナリオに基づいて評価される。 その結果,提案プロトコルの性能は,メッセージ配信率とオーバーヘッドの面で向上した。

The term Delay/Disruption-Tol erant Networks (DTN) invented to describe and cover all types of long-delay, disconnected, intermittently connected networks, where mobility and outages or scheduled contacts may be experienced. This environment is characterized by frequent network partitioning, intermittent connectivity, large or variable delay, asymmetric data rate, and low transmission reliability. There have been routing protocols developed in DTN. However, those routing algorithms are design based upon specific assumptions. The assumption makes existing algorithms suitable for specific environment scenarios. Different routing algorithm uses different relay node selection criteria to select the replication node. Too Frequently forwarding messages can result in excessive packet loss and large buffer and network overhead. On the other hand, less frequent transmission leads to a lower delivery ratio. In DTN there is a trade-off off between delivery ratio and overhead. In this study, we proposed context-adaptive reinforcement learning based routing(CARL-DTN) protocol to determine optimal replicas of the message based on the real-time density. Our routing protocol jointly uses a real-time physical context, social-tie strength, and real-time message context using fuzzy logic in the routing decision. Multi-hop forwarding probability is also considered for the relay node selection by employing Q-Learning algorithm to estimate the encounter probability between nodes and to learn about nodes available in the neighbor by discounting reward. The performance of the proposed protocol is evaluated based on various simulation scenarios. The result shows that the proposed protocol has better performance in terms of message delivery ratio and overhead.
翻訳日:2021-05-04 13:53:47 公開日:2021-05-02
# 高次元意思決定, 上下界と下界

High Dimensional Decision Making, Upper and Lower Bounds ( http://arxiv.org/abs/2105.00545v1 )

ライセンス: Link先を確認
Farzad Pourbabaee(参考訳) 意思決定者の効用は、アクション $a\in A \subset \mathbb{R}^d$ と世界のペイオフ関連状態 $\theta\in \Theta$ に依存する。 新しい情報を取得する価値は、期待される最大効用前とポスト情報獲得の差として定義できる。 本稿では, (sub)-guassian process とgeneric chaining の理論のツールを用いて,情報の期待値が $d \to \infty$ となるという漸近的な結果を見出す。

A decision maker's utility depends on her action $a\in A \subset \mathbb{R}^d$ and the payoff relevant state of the world $\theta\in \Theta$. One can define the value of acquiring new information as the difference between the maximum expected utility pre- and post information acquisition. In this paper, I find asymptotic results on the expected value of information as $d \to \infty$, by using tools from the theory of (sub)-Guassian processes and generic chaining.
翻訳日:2021-05-04 13:52:35 公開日:2021-05-02
# raddet: ダイナミックロードユーザのためのレンジアジマス・ドップラーに基づくレーダ物体検出

RADDet: Range-Azimuth-Dopple r based Radar Object Detection for Dynamic Road Users ( http://arxiv.org/abs/2105.00363v1 )

ライセンス: Link先を確認
Ao Zhang, Farzan Erlik Nowruzi, Robert Laganiere(参考訳) 自動車レーダを用いた物体検出は,カメラによるアプローチと比較して,ディープラーニングモデルでは研究されていない。 これは、公開レーダデータセットの欠如による可能性がある。 本論文では,トラダデータを含む新しいレーダーデータセットを,動的道路利用者のためのテンソル上のバウンディングボックス,カテゴリラベル,およびデカルト的バード・アイ・ビュー・レンジマップ上の2dバウンディングボックスとともに収集する。 データセットを構築するために,インスタンスワイズ自動アノテーション手法を提案する。 さらに,Range-Azimuth-Doppl erに基づく多クラスオブジェクト検出深層学習モデルを提案する。 このアルゴリズムは1段のアンカーベース検出器で、それぞれレンジ・アジマス・ドップラー領域とカルテシアン領域の3次元境界ボックスと2次元境界ボックスを生成する。 提案アルゴリズムは3次元境界ボックス予測では0.3のIOUで56.3%AP、2次元境界ボックス予測では0.5のIOUで51.6%APを達成した。 私たちのデータセットとコードはhttps://github.com/Z hangAoCanada/RADDet. git.comで参照できます。

Object detection using automotive radars has not been explored with deep learning models in comparison to the camera based approaches. This can be attributed to the lack of public radar datasets. In this paper, we collect a novel radar dataset that contains radar data in the form of Range-Azimuth-Dopple r tensors along with the bounding boxes on the tensor for dynamic road users, category labels, and 2D bounding boxes on the Cartesian Bird-Eye-View range map. To build the dataset, we propose an instance-wise auto-annotation method. Furthermore, a novel Range-Azimuth-Dopple r based multi-class object detection deep learning model is proposed. The algorithm is a one-stage anchor-based detector that generates both 3D bounding boxes and 2D bounding boxes on Range-Azimuth-Dopple r and Cartesian domains, respectively. Our proposed algorithm achieves 56.3% AP with IOU of 0.3 on 3D bounding box predictions, and 51.6% with IOU of 0.5 on 2D bounding box prediction. Our dataset and the code can be found at https://github.com/Z hangAoCanada/RADDet. git.
翻訳日:2021-05-04 13:49:51 公開日:2021-05-02
# データアソシエーションを伴わない学習データアソシエーション:ニューラル代入予測へのEMアプローチ

Learning data association without data association: An EM approach to neural assignment prediction ( http://arxiv.org/abs/2105.00369v1 )

ライセンス: Link先を確認
Michael Burke, Subramanian Ramamoorthy(参考訳) データアソシエーションは効果的な多目的追跡の基本的な構成要素である。 データアソシエーションに対する現在のアプローチは、ゲーティングや距離ベースのコスト行列に依存する代入問題、あるいは検出による追跡問題に対するデータアソシエーションの課題を相殺する傾向がある。 後者は典型的には教師付き学習問題として定式化され、オブジェクト認識のためのモデルを訓練するために、追跡対象のアイデンティティに関する情報をラベル付けする必要がある。 本稿では,ラベル付け情報を必要としないデータアソシエーションのためのニューラルモデルをトレーニングするための予測最大化手法を提案する。 ここで、シンクホーンネットワークは、軌道観測の限界確率を最大化する割り当て行列を予測するために訓練される。 重要なことに、提案手法を用いてトレーニングされたネットワークは、下流追跡アプリケーションで再利用することができる。

Data association is a fundamental component of effective multi-object tracking. Current approaches to data-association tend to frame this as an assignment problem relying on gating and distance-based cost matrices, or offset the challenge of data association to a problem of tracking by detection. The latter is typically formulated as a supervised learning problem, and requires labelling information about tracked object identities to train a model for object recognition. This paper introduces an expectation maximisation approach to train neural models for data association, which does not require labelling information. Here, a Sinkhorn network is trained to predict assignment matrices that maximise the marginal likelihood of trajectory observations. Importantly, networks trained using the proposed approach can be re-used in downstream tracking applications.
翻訳日:2021-05-04 13:49:30 公開日:2021-05-02
# AG-CUResNeSt: 大腸ポリープ分画の新しい方法

AG-CUResNeSt: A Novel Method for Colon Polyp Segmentation ( http://arxiv.org/abs/2105.00402v1 )

ライセンス: Link先を確認
Dinh Viet Sang, Tran Quang Chung, Phan Ngoc Lan, Dao Viet Hang, Dao Van Long, Nguyen Thi Thuy(参考訳) 大腸癌は最も一般的な悪性腫瘍であり、高リスク大腸ポリープから発生することがある。 大腸内視鏡検査はポリープの検出と除去に有効なスクリーニングツールである。 しかし, 臨床実践における欠如率は, さまざまな要因により比較的高い。 この手法は、大腸ポリープ検出改善のための貴重な洞察を提供する自動ポリープ分割モデルの恩恵を受けることができる。 しかし,ポリプのサイズ,形状,テクスチャ,色の違いから,正確なセグメンテーションはいまだに困難である。 本稿では、堅牢なResNeStバックボーンとアテンションゲートを用いて結合ユニセットを強化するAG-CUResNeStと呼ばれる新しいニューラルネットワークアーキテクチャを提案する。 ネットワークは多レベル特徴を効果的に組み合わせて正確なポリプセグメンテーションを得ることができる。 評価実験の結果,提案手法は既存手法と比較して精度が高いことがわかった。

Colorectal cancer is among the most common malignancies and can develop from high-risk colon polyps. Colonoscopy is an effective screening tool to detect and remove polyps, especially in the case of precancerous lesions. However, the missing rate in clinical practice is relatively high due to many factors. The procedure could benefit greatly from automatic polyp segmentation models, which provide valuable insights for colon polyp detection improvement. However, precise segmentation is still challenging due to the variation of polyps in size, shape, texture, and color. This paper proposes a novel neural network architecture called AG-CUResNeSt, which enhances Coupled UNets using the robust ResNeSt backbone and attention gates. The network is capable of effectively combining multi-level features to yield accurate polyp segmentation. Experimental results on five popular benchmark datasets show that our proposed method achieves state-of-the-art accuracy compared to existing methods.
翻訳日:2021-05-04 13:49:17 公開日:2021-05-02
# 説明可能な空間特徴抽出を用いた双方向多層RNNによる手術ジェスチャー認識

Surgical Gesture Recognition Based on Bidirectional Multi-Layer Independently RNN with Explainable Spatial Feature Extraction ( http://arxiv.org/abs/2105.00460v1 )

ライセンス: Link先を確認
Dandan Zhang, Ruoxi Wang, Benny Lo(参考訳) 最小侵襲手術は主に一連のサブタスクで構成され、基本的なジェスチャーやコンテキストに分解することができる。 自律神経手術の前提条件として、外科的ジェスチャー認識は、動作計画と意思決定を支援し、手術ロボットの制御品質を改善するためにコンテキスト認識知識を構築する。 本研究は,説明可能な特徴抽出プロセスを用いた効果的な手術用ジェスチャー認識手法の開発を目的としている。 本稿では,VGGアーキテクチャに基づいて構築されたディープ畳み込みニューラルネットワーク(DCNN)モデルの微調整により空間特徴抽出を行うとともに,双方向多層RNN(BML-indRNN)モデルを提案する。 dcnnのブラックボックス効果を解消するために、勾配重み付けクラスアクティベーションマッピング(grad-cam)を用いる。 外科的ジェスチャー分類結果と強い関係を持つ外科画像の領域を示すことで、説明可能な結果を提供することができる。 提案手法は, JIGSAWSデータベースから得られたデータを用いて, 縫合タスクに基づいて評価した。 提案手法を検証するために比較研究を行った。 その結果,提案手法に基づく縫合作業の精度は87.13%であり,最先端のアルゴリズムよりも優れていた。

Minimally invasive surgery mainly consists of a series of sub-tasks, which can be decomposed into basic gestures or contexts. As a prerequisite of autonomic operation, surgical gesture recognition can assist motion planning and decision-making, and build up context-aware knowledge to improve the surgical robot control quality. In this work, we aim to develop an effective surgical gesture recognition approach with an explainable feature extraction process. A Bidirectional Multi-Layer independently RNN (BML-indRNN) model is proposed in this paper, while spatial feature extraction is implemented via fine-tuning of a Deep Convolutional Neural Network(DCNN) model constructed based on the VGG architecture. To eliminate the black-box effects of DCNN, Gradient-weighted Class Activation Mapping (Grad-CAM) is employed. It can provide explainable results by showing the regions of the surgical images that have a strong relationship with the surgical gesture classification results. The proposed method was evaluated based on the suturing task with data obtained from the public available JIGSAWS database. Comparative studies were conducted to verify the proposed framework. Results indicated that the testing accuracy for the suturing task based on our proposed method is 87.13%, which outperforms most of the state-of-the-art algorithms.
翻訳日:2021-05-04 13:49:04 公開日:2021-05-02
# サブガウシアンスパースglmの方向性fdr制御

Directional FDR Control for Sub-Gaussian Sparse GLMs ( http://arxiv.org/abs/2105.00393v1 )

ライセンス: Link先を確認
Chang Cui, Jinzhu Jia, Yijun Xiao, Huiming Zhang(参考訳) 高次元スパース一般化線形モデル (GLMs) は、サンプルの数と変数の次元が大きく、変数の次元もサンプルの数よりも早く増加するという設定で現れる。 偽発見率 (FDR) の制御は, GLM の粗末なペナル化推定を行い, 統計的に有意な非ゼロな結果の少数を同定することを目的としている。 精度行列推定のためのCLIME法を用いて, 脱バイアスラッソ推定器を構築し, スパースGLMの極小レートオラクル不等式を用いて漸近正規性を証明する。 実際には、各回帰係数の肯定性と否定性を正確に判断することがしばしば必要であり、これは、予測変数が残りの変数に条件付きで応答変数と正あるいは負の関係があるかどうかを決定する。 偏り推定器を用いて複数の試験手順を確立する。 軽度条件下では,提案した偏り統計は,予め特定された意味レベルで,方向FDRと方向偽発見変数を漸近的に制御できることを示す。 さらに、我々の多重検定法は1の統計的パワーをほぼ達成できることを示すことができる。 また,本手法を2サンプル問題に拡張し,2サンプルテスト統計値を提案する。 適切な条件下では、2つのサンプル問題の特定重要度レベルで方向fdr制御と方向fdv制御を漸近的に達成することができる。 いくつかの数値シミュレーションにより提案手法のFDR制御効果が検証され,古典的ノックオフ法よりも優れた結果が得られた。

High-dimensional sparse generalized linear models (GLMs) have emerged in the setting that the number of samples and the dimension of variables are large, and even the dimension of variables grows faster than the number of samples. False discovery rate (FDR) control aims to identify some small number of statistically significantly nonzero results after getting the sparse penalized estimation of GLMs. Using the CLIME method for precision matrix estimations, we construct the debiased-Lasso estimator and prove the asymptotical normality by minimax-rate oracle inequalities for sparse GLMs. In practice, it is often needed to accurately judge each regression coefficient's positivity and negativity, which determines whether the predictor variable is positively or negatively related to the response variable conditionally on the rest variables. Using the debiased estimator, we establish multiple testing procedures. Under mild conditions, we show that the proposed debiased statistics can asymptotically control the directional (sign) FDR and directional false discovery variables at a pre-specified significance level. Moreover, it can be shown that our multiple testing procedure can approximately achieve a statistical power of 1. We also extend our methods to the two-sample problems and propose the two-sample test statistics. Under suitable conditions, we can asymptotically achieve directional FDR control and directional FDV control at the specified significance level for two-sample problems. Some numerical simulations have successfully verified the FDR control effects of our proposed testing procedures, which sometimes outperforms the classical knockoff method.
翻訳日:2021-05-04 13:46:53 公開日:2021-05-02
# 非同期マルチエージェント強化学習によるバスバンチ低減

Reducing Bus Bunching with Asynchronous Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2105.00376v1 )

ライセンス: Link先を確認
Jiawei Wang and Lijun Sun(参考訳) バスシステムは持続可能な都市交通の重要な要素である。 しかし、旅客需要や交通状況のかなりの不確実性から、バスの運行は自然に不安定であり、バスフラッキングはバスの信頼性や効率を損なう一般的な現象となっている。 交通制御におけるマルチエージェント強化学習(MARL)の最近の進歩にもかかわらず、トリッキー非同期特性によるバスフリート制御に焦点を当てた研究はほとんどなく、バスが停留所に到着してエージェントが同時に動作しない場合にのみ制御アクションが発生する。 本研究では,経路レベルのバス群制御を非同期マルチエージェント強化学習(ASMR)問題として定式化し,非同期問題を扱うために古典的アクター・クリティカルアーキテクチャを拡張した。 具体的には,グラフアテンションニューラルネットワークを用いて政策評価のための帰納的学習を行う,他のエージェントの限界貢献を効果的に近似する新たな批判ネットワークを設計する。 批評家の構造は、egoエージェントがそのポリシーをより効率的に最適化するのに役立つ。 提案手法は,現実のバスサービスと,スマートカードデータに基づく実際の乗客需要に関するものである。 提案手法は従来のヘッドウェイ制御法と既存のMARL法の両方より優れていることを示す。

The bus system is a critical component of sustainable urban transportation. However, due to the significant uncertainties in passenger demand and traffic conditions, bus operation is unstable in nature and bus bunching has become a common phenomenon that undermines the reliability and efficiency of bus services. Despite recent advances in multi-agent reinforcement learning (MARL) on traffic control, little research has focused on bus fleet control due to the tricky asynchronous characteristic -- control action only happens when a bus arrives at a bus stop and thus agents do not act simultaneously. In this study, we formulate route-level bus fleet control as an asynchronous multi-agent reinforcement learning (ASMR) problem and extend the classical actor-critic architecture to handle the asynchronous issue. Specifically, we design a novel critic network to effectively approximate the marginal contribution for other agents, in which graph attention neural network is used to conduct inductive learning for policy evaluation. The critic structure also helps the ego agent optimize its policy more efficiently. We evaluate the proposed framework on real-world bus services and actual passenger demand derived from smart card data. Our results show that the proposed model outperforms both traditional headway-based control methods and existing MARL methods.
翻訳日:2021-05-04 13:43:37 公開日:2021-05-02
# コルモゴロフ重ね合わせ定理の構造化証明

A structured proof of the Kolmogorov superposition theorem ( http://arxiv.org/abs/2105.00408v1 )

ライセンス: Link先を確認
S. Dzhenzher and A. Skopenkov(参考訳) ヒルベルトの重ね合わせに関する13番目の問題を解くために、以下の有名な結果のよく知られた証明をよく構造化した詳細な説明を示す。 2変数の関数については、次の通りである。 コルモゴロフの定理。 連続関数 $\varphi_1,\ldots,\v arphi_5 : [\,0,1\,]\to [\,0,1\,]^2\to\mathbb R$ が任意の連続関数 $f に対して [\,0,3\,]\to\mathbb R$ が存在して、任意の $x,y\in [\,0,1\,]$ に対して$f(x,y)=\sum\limits_{k=1}^5 h\left(\varphi_k(x)+\sqrt{2}\,\varphi_k(y)\right ).$$$ 証明は、特定の連続関数の学生にのみ親しむことができる。

We present a well-structured detailed exposition of a well-known proof of the following celebrated result solving Hilbert's 13th problem on superpositions. For functions of 2 variables the statement is as follows. Kolmogorov Theorem. There are continuous functions $\varphi_1,\ldots,\v arphi_5 : [\,0, 1\,]\to [\,0,1\,]$ such that for any continuous function $f: [\,0,1\,]^2\to\mathbb R$ there is a continuous function $h: [\,0,3\,]\to\mathbb R$ such that for any $x,y\in [\,0, 1\,]$ we have $$f(x,y)=\sum\limits_{k=1}^5 h\left(\varphi_k(x)+\sqrt{2}\,\varphi_k(y)\right ).$$ The proof is accessible to non-specialists, in particular, to students familiar with only basic properties of continuous functions.
翻訳日:2021-05-04 13:43:15 公開日:2021-05-02
# プロキシを用いたスマートインバータ制御:Chance-Constrained DNNに基づくアプローチ

Controlling Smart Inverters using Proxies: A Chance-Constrained DNN-based Approach ( http://arxiv.org/abs/2105.00429v1 )

ライセンス: Link先を確認
Sarthak Gupta and Vassilis Kekatos and Ming Jin(参考訳) 不確実性の下でスケールでのインバータの調整は、配電網に再生可能エネルギーを統合するデシデラタムである。 負荷要求や太陽光発電が頻繁に測定されない限り、近似グリッド条件やプロキシを制御したインバータが重要な仕様となる。 ディープニューラルネットワーク(dnn)は最適なインバータスケジュールを学習できるが、実現可能性の保証はほとんど不可能である。 計算済みの最適電力フロー(OPF)ソリューションを模倣するためにDNNを訓練するのではなく、DNNベースのインバータポリシーをOPFに統合する。 提案したDNNは、平均電圧偏差を抑える2つのOPF代替手段と、確率制約の凸制限として訓練される。 トレーニングされたDNNは、現在のグリッド条件の部分的、ノイズ、あるいはプロキシ記述子によって駆動される。 これは、観測不能なフィードアに対してOPFを解決しなければならない場合に重要である。 DNN重みは、バックプロパゲーションと、ネットワークモデルが知られていると仮定した交流電力流方程式の微分によって訓練される。 さもなくば勾配のない変種が用いられる。 後者は、インバータが電力フローソルバまたは供給者のデジタル双対にのみアクセス可能なアグリゲータによって制御される場合に関係する。 数値テストでは、dnnベースのインバータ制御スキームと最適インバータセットポイントを最適性と実現可能性の観点から比較する。

Coordinating inverters at scale under uncertainty is the desideratum for integrating renewables in distribution grids. Unless load demands and solar generation are telemetered frequently, controlling inverters given approximate grid conditions or proxies thereof becomes a key specification. Although deep neural networks (DNNs) can learn optimal inverter schedules, guaranteeing feasibility is largely elusive. Rather than training DNNs to imitate already computed optimal power flow (OPF) solutions, this work integrates DNN-based inverter policies into the OPF. The proposed DNNs are trained through two OPF alternatives that confine voltage deviations on the average and as a convex restriction of chance constraints. The trained DNNs can be driven by partial, noisy, or proxy descriptors of the current grid conditions. This is important when OPF has to be solved for an unobservable feeder. DNN weights are trained via back-propagation and upon differentiating the AC power flow equations assuming the network model is known. Otherwise, a gradient-free variant is put forth. The latter is relevant when inverters are controlled by an aggregator having access only to a power flow solver or a digital twin of the feeder. Numerical tests compare the DNN-based inverter control schemes with the optimal inverter setpoints in terms of optimality and feasibility.
翻訳日:2021-05-04 13:42:35 公開日:2021-05-02
# 誰が敵の移動を怖がる?

Who's Afraid of Adversarial Transferability? ( http://arxiv.org/abs/2105.00433v1 )

ライセンス: Link先を確認
Ziv Katzir, Yuval Elovici(参考訳) 敵対的トランスファービリティ、すなわち、敵対的摂動が複数の学習モデルを同時に騙す能力は、長年、敵対的機械学習の「大きな悪い狼」であった。 攻撃モデルのパラメータやトレーニングデータに関する事前の知識を必要としないトランスファービリティベースの攻撃が成功したことは、機械学習モデルが現実のシステムに固有のセキュリティ脅威をもたらすことを暗示している。 しかし, この領域で実施した研究はすべて, 伝達可能性を確率的特性として考慮し, 予め定義された評価セットを前提として, 対象モデルを見誤る可能性のある敵例の割合を推定しようとした。 その結果、これらの研究は現実の敵がしばしば攻撃失敗のコストに非常に敏感であるという事実を無視した。 この感度を見越すと、実際には現実のトランスファービリティに基づく攻撃はあり得ないが、トランスファービリティの脅威に対する過大な認識がもたらされたと我々は論じる。 理論的推論と一連の経験的結果を組み合わせることで、ブラックボックス設定で特定のターゲットモデルに特定の敵のサンプルが転送可能であるかどうかを予測できないことを示し、攻撃失敗のコストに敏感な敵に対する実生活攻撃ツールとしての敵の移動可能性の有効性を疑問視する。

Adversarial transferability, namely the ability of adversarial perturbations to simultaneously fool multiple learning models, has long been the "big bad wolf" of adversarial machine learning. Successful transferability-base d attacks requiring no prior knowledge of the attacked model's parameters or training data have been demonstrated numerous times in the past, implying that machine learning models pose an inherent security threat to real-life systems. However, all of the research performed in this area regarded transferability as a probabilistic property and attempted to estimate the percentage of adversarial examples that are likely to mislead a target model given some predefined evaluation set. As a result, those studies ignored the fact that real-life adversaries are often highly sensitive to the cost of a failed attack. We argue that overlooking this sensitivity has led to an exaggerated perception of the transferability threat, when in fact real-life transferability-base d attacks are quite unlikely. By combining theoretical reasoning with a series of empirical results, we show that it is practically impossible to predict whether a given adversarial example is transferable to a specific target model in a black-box setting, hence questioning the validity of adversarial transferability as a real-life attack tool for adversaries that are sensitive to the cost of a failed attack.
翻訳日:2021-05-04 13:42:12 公開日:2021-05-02
# パッケージ検出における機械学習手法の解析

Analysis of Machine Learning Approaches to Packing Detection ( http://arxiv.org/abs/2105.00473v1 )

ライセンス: Link先を確認
Charles-Henry Bertrand Van Ouytsel, Thomas Given-Wilson, Jeremy Minet, Julian Roussieau, Axel Legay(参考訳) パッキング(packing)は、マルウェアがプログラムの内容や動作を隠すために広く使われている難読化技術である。 以前の多くの研究は、プログラムが満員であるかどうかを検出する方法を模索した。 本研究は,エントロピー解析や構文シグネチャ,最近では様々な特徴を用いた機械学習分類器など,幅広いアプローチを含む。 しかし、どのアルゴリズムがベストなのか、最も重要な機能なのか、堅牢な結果は示されていない。 正確さ、コスト、一般化能力、その他の測定方法がすべて妥当であるため、結果をどう評価するかを考えると、これは複雑です。 この研究は、119の機能を使って11の異なる機械学習アプローチを探索する。どの機能がパッキング検出に最も重要なのか、どのアルゴリズムが最高のパフォーマンスを提供するのか、どのアルゴリズムが最も経済的か。

Packing is an obfuscation technique widely used by malware to hide the content and behavior of a program. Much prior research has explored how to detect whether a program is packed. This research includes a broad variety of approaches such as entropy analysis, syntactic signatures and more recently machine learning classifiers using various features. However, no robust results have indicated which algorithms perform best, or which features are most significant. This is complicated by considering how to evaluate the results since accuracy, cost, generalization capabilities, and other measures are all reasonable. This work explores eleven different machine learning approaches using 119 features to understand: which features are most significant for packing detection; which algorithms offer the best performance; and which algorithms are most economical.
翻訳日:2021-05-04 13:41:49 公開日:2021-05-02
# 応用可能性領域の活用をめざして--逆境学習に応用した化学情報学からの教訓

Intriguing Usage of Applicability Domain: Lessons from Cheminformatics Applied to Adversarial Learning ( http://arxiv.org/abs/2105.00495v1 )

ライセンス: Link先を確認
Luke Chang, Katharina Dost, Kaiqi Zhao, Ambra Demontis, Fabio Roli, Gill Dobbie, J\"org Wicker(参考訳) 機械学習モデルを敵の攻撃から守ることは依然として課題である。 異なる防御法が提案されているが、そのほとんどは特定のMLモデルや敵攻撃に適合しているため、その有効性と適用性は極めて限られている。 定量的構造-活性関係(QSAR)モデルは、既知の効果を持つ非常に限られた量の化合物で訓練されているため、化学領域全体の生物活動を予測するのに苦労する。 この問題は、モデルに不適な化合物を拒絶するApplicability Domain (AD)と呼ばれるテクニックによって緩和される。 敵の例は、モデルが分類することを学ばない盲点を利用する故意に作られた入力であり、敵の防御はこれらの盲点をカバーすることによって分類器をより堅牢にしようとする。 ADと対人防御には明らかな類似点がある。 適用可能性: 異常値、すなわち、モデルの意図されたユースケースに適合しない入力、信頼性: トレーニングデータから遠く離れたサンプル、そして決定可能性: 予測が近隣の予測と矛盾するサンプル。 本稿では、実証分析により、MLモデルの脆弱性を敵例に効果的に還元する方法を示す。

Defending machine learning models from adversarial attacks is still a challenge: none of the robust models is utterly immune to adversarial examples to date. Different defences have been proposed; however, most of them are tailored to particular ML models and adversarial attacks, therefore their effectiveness and applicability are strongly limited. A similar problem plagues cheminformatics: Quantitative Structure-Activity Relationship (QSAR) models struggle to predict biological activity for the entire chemical space because they are trained on a very limited amount of compounds with known effects. This problem is relieved with a technique called Applicability Domain (AD), which rejects the unsuitable compounds for the model. Adversarial examples are intentionally crafted inputs that exploit the blind spots which the model has not learned to classify, and adversarial defences try to make the classifier more robust by covering these blind spots. There is an apparent similarity between AD and adversarial defences. Inspired by the concept of AD, we propose a multi-stage data-driven defence that is testing for: Applicability: abnormal values, namely inputs not compliant with the intended use case of the model; Reliability: samples far from the training data; and Decidability: samples whose predictions contradict the predictions of their neighbours.It can be applied to any classification model and is not limited to specific types of adversarial attacks. With an empirical analysis, this paper demonstrates how Applicability Domain can effectively reduce the vulnerability of ML models to adversarial examples.
翻訳日:2021-05-04 13:41:35 公開日:2021-05-02
# 横走跳躍戦略の発見

Discovering Diverse Athletic Jumping Strategies ( http://arxiv.org/abs/2105.00371v1 )

ライセンス: Link先を確認
Zhiqi Yin, Zeshi Yang, Michiel van de Panne, KangKang Yin(参考訳) 本稿では,ハイジャンプなどの運動スキルの多様で自然な運動戦略の発見を可能にする枠組みを提案する。 これらの戦略は物理ベースの文字の制御ポリシーとして実現される。 タスク目標と初期文字設定が与えられた場合,物理シミュレーションと深部強化学習(DRL)を組み合わせることで,自動制御ポリシトレーニングの出発点となる。 現実的な人間の動作の学習を容易にするため,自然ポーズのサブ空間に動作を制約するP-VAE(Pose Variational Autoencoder)を提案する。 動作模倣法とは対照的に、サンプル効率のよいベイズ多様性探索(BDS)アルゴリズムにより、初期文字状態を調べることによって、様々な新しい戦略が自然に現れる。 新たなポリシーを促進する最適化の第2段階は、発見されたユニークな戦略をさらに強化することができる。 提案手法は,運動例のないハイジャンプや障害物ジャンプなどの運動跳躍動作の多様かつ斬新な戦略を,先行研究よりも少ない報酬工学で発見することを可能にする。

We present a framework that enables the discovery of diverse and natural-looking motion strategies for athletic skills such as the high jump. The strategies are realized as control policies for physics-based characters. Given a task objective and an initial character configuration, the combination of physics simulation and deep reinforcement learning (DRL) provides a suitable starting point for automatic control policy training. To facilitate the learning of realistic human motions, we propose a Pose Variational Autoencoder (P-VAE) to constrain the actions to a subspace of natural poses. In contrast to motion imitation methods, a rich variety of novel strategies can naturally emerge by exploring initial character states through a sample-efficient Bayesian diversity search (BDS) algorithm. A second stage of optimization that encourages novel policies can further enrich the unique strategies discovered. Our method allows for the discovery of diverse and novel strategies for athletic jumping motions such as high jumps and obstacle jumps with no motion examples and less reward engineering than prior work.
翻訳日:2021-05-04 13:37:00 公開日:2021-05-02
# ランダムエッジグラフニューラルネットワークのためのメタラーニングによる高速電力制御適応

Fast Power Control Adaptation via Meta-Learning for Random Edge Graph Neural Networks ( http://arxiv.org/abs/2105.00459v1 )

ライセンス: Link先を確認
Ivana Nikoloska and Osvaldo Simeone(参考訳) 分散無線ネットワークにおける電力制御は、任意の干渉グラフの平均和率の最大化として定式化されると複雑な確率的最適化問題を引き起こす。 近年、グラフニューラルネットワーク(GNN)を利用したデータ駆動設計手法を導入し、電力制御ポリシマッピングチャネル状態情報(CSI)を電力ベクトルに効率的にパラメータ化している。 ランダムエッジGNN(REGNN)として知られる特定のGNNアーキテクチャは、空間重みがチャネル係数に結びついている非線形グラフ畳み込みアーキテクチャを定義し、チャネル条件への直接適応を可能にする。 本稿では,電力制御政策の時間変動トポロジへの高速適応を実現するための高レベル問題について検討する。 そこで我々は,新しいネットワーク構成への数ショット適応を最適化するために,複数のトポロジのデータに一階のメタラーニングを適用した。

Power control in decentralized wireless networks poses a complex stochastic optimization problem when formulated as the maximization of the average sum rate for arbitrary interference graphs. Recent work has introduced data-driven design methods that leverage graph neural network (GNN) to efficiently parametrize the power control policy mapping channel state information (CSI) to the power vector. The specific GNN architecture, known as random edge GNN (REGNN), defines a non-linear graph convolutional architecture whose spatial weights are tied to the channel coefficients, enabling a direct adaption to channel conditions. This paper studies the higher-level problem of enabling fast adaption of the power control policy to time-varying topologies. To this end, we apply first-order meta-learning on data from multiple topologies with the aim of optimizing for a few-shot adaptation to new network configurations.
翻訳日:2021-05-04 13:36:44 公開日:2021-05-02
# 対向タスク拡張によるクロスドメインFew-Shot分類

Cross-Domain Few-Shot Classification via Adversarial Task Augmentation ( http://arxiv.org/abs/2104.14385v2 )

ライセンス: Link先を確認
Haoqing Wang, Zhi-Hong Deng(参考訳) ほとんどショットの分類は、各クラスからラベル付きサンプルがほとんどない未確認のクラスを認識することを目的としている。 多くのメタラーニングモデルは、タスク共有誘導バイアス(meta-knowledge)を精巧に設計し、そのようなタスクを解決し、印象的なパフォーマンスを達成する。 しかし、トレーニングタスクとテストタスクの間にドメインシフトが存在する場合、得られた帰納的バイアスはドメイン全体に一般化できず、メタラーニングモデルの性能が低下する。 本研究では,タスク強化による帰納的バイアスの堅牢性の向上を目指す。 具体的には,ソースタスクの分散に関する最悪の問題について考察し,帰納的バイアス適応型「チャリング」タスクを生成できる逆タスク拡張手法を提案する。 本手法は,様々なメタラーニングモデルのためのシンプルなプラグイン・アンド・プレイモジュールとして利用でき,ドメイン間の一般化能力を向上させることができる。 我々は,mini-imagenet, cub, cars, places, plantae, cropdiseases, eurosat, isic, chestxの9つの少数ショット分類データセットを用いて,クロスドメイン環境で広範な実験を行う。 実験結果から,メタラーニングモデルのドメインシフト下での分類性能を効果的に向上し,既存手法よりも優れることが示された。 私たちのコードはhttps://github.com/H aoqing-Wang/CDFSL-AT Aで利用可能です。

Few-shot classification aims to recognize unseen classes with few labeled samples from each class. Many meta-learning models for few-shot classification elaborately design various task-shared inductive bias (meta-knowledge) to solve such tasks, and achieve impressive performance. However, when there exists the domain shift between the training tasks and the test tasks, the obtained inductive bias fails to generalize across domains, which degrades the performance of the meta-learning models. In this work, we aim to improve the robustness of the inductive bias through task augmentation. Concretely, we consider the worst-case problem around the source task distribution, and propose the adversarial task augmentation method which can generate the inductive bias-adaptive 'challenging' tasks. Our method can be used as a simple plug-and-play module for various meta-learning models, and improve their cross-domain generalization capability. We conduct extensive experiments under the cross-domain setting, using nine few-shot classification datasets: mini-ImageNet, CUB, Cars, Places, Plantae, CropDiseases, EuroSAT, ISIC and ChestX. Experimental results show that our method can effectively improve the few-shot classification performance of the meta-learning models under domain shift, and outperforms the existing works. Our code is available at https://github.com/H aoqing-Wang/CDFSL-AT A.
翻訳日:2021-05-04 10:48:03 公開日:2021-05-02