このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210524)

# i-Pulse: 物流組織における従業員エンゲージメントのためのNLPに基づく新しいアプローチ

i-Pulse: A NLP based novel approach for employee engagement in logistics organization ( http://arxiv.org/abs/2106.07341v1 )

ライセンス: Link先を確認
Rachit Garg, Arvind W Kiwelekar, Laxman D Netak, Akshay Ghodake(参考訳) ほとんどの物流・貨物運送組織は、いずれにせよ、中核的な価値を持っていると主張している。 従業員の関与は、会社のコアな環境価値のほとんどすべてに影響を与える広大な構造である。 企業間の関係や従業員の関与に関する理論的知識はほとんどない。 本稿では,研究文献をもとに,より深い自然言語処理概念を実践することにより,物流組織における従業員の関与に関する洞察を得るための新しいアプローチを提案する。 intelligent pulse(i-pulse)と呼ばれる人工知能を利用するこのソリューションは、数百、数千のパルスサーベイコメントを評価し、従業員からのフィードバックのアクション可能な洞察と要点を提供する。 I-Pulseはステークホルダーが自分たちの組織に新しい考え方を取り入れ、従業員のエンゲージメント、維持、効率に強力な影響を与えるのを手助けします。 本研究は, 研究者や実践者を対象にした研究である。

Although most logistics and freight forwarding organizations, in one way or another, claim to have core values. The engagement of employees is a vast structure that affects almost every part of the company's core environmental values. There is little theoretical knowledge about the relationship between firms and the engagement of employees. Based on research literature, this paper aims to provide a novel approach for insight around employee engagement in a logistics organization by implementing deep natural language processing concepts. The artificial intelligence-enabled solution named Intelligent Pulse (I-Pulse) can evaluate hundreds and thousands of pulse survey comments and provides the actionable insights and gist of employee feedback. I-Pulse allows the stakeholders to think in new ways in their organization, helping them to have a powerful influence on employee engagement, retention, and efficiency. This study is of corresponding interest to researchers and practitioners.
翻訳日:2021-06-20 16:03:08 公開日:2021-05-24
# (参考訳) 潜時空間アーク治療最適化 [全文訳有]

Latent Space Arc Therapy Optimization ( http://arxiv.org/abs/2106.05846v1 )

ライセンス: CC BY 4.0
Noah Bice, Mohamad Fakhreddine, Ruiqi Li, Dan Nguyen, Christopher Kabat, Pamela Myers, Niko Papanikolaou, and Neil Kirby(参考訳) 体積変調アーク治療計画は高次元非凸最適化において難しい問題である。 伝統的に、フルエンスマップ最適化インフォームドセグメント初期化のようなヒューリスティックスは、局所最適解を用いて、合理的な出発点から全弧治療計画空間の探索を開始する。 これらのルーチンは、臨床的に十分な放射線治療計画を約10分で作成できるように、アークセラピーの最適化を促進する。 しかし、現在の最適化アルゴリズムは初期化点付近の解を好んでおり、計画過パラメータ化のため必要以上に遅い。 本研究では、教師なし深層学習による治療計画の有効次元を減らし、アーク治療過度パラメータ化に取り組む。 最適化エンジンは低次元アーク表現に基づいて構築され、より高速な計画時間を実現する。

Volumetric modulated arc therapy planning is a challenging problem in high-dimensional, non-convex optimization. Traditionally, heuristics such as fluence-map-optimiza tion-informed segment initialization use locally optimal solutions to begin the search of the full arc therapy plan space from a reasonable starting point. These routines facilitate arc therapy optimization such that clinically satisfactory radiation treatment plans can be created in about 10 minutes. However, current optimization algorithms favor solutions near their initialization point and are slower than necessary due to plan overparameterization . In this work, arc therapy overparameterization is addressed by reducing the effective dimension of treatment plans with unsupervised deep learning. An optimization engine is then built based on low-dimensional arc representations which facilitates faster planning times.
翻訳日:2021-06-15 14:51:54 公開日:2021-05-24
# (参考訳) Eコマースにおけるレコメンダシステムのユーザ表現 [全文訳有]

One4all User Representation for Recommender Systems in E-commerce ( http://arxiv.org/abs/2106.00573v1 )

ライセンス: CC BY 4.0
Kyuyong Shin, Hanock Kwak, Kyung-Min Kim, Minkyu Kim, Young-Jin Park, Jisu Jeong, Seungjae Jung(参考訳) 大規模事前学習による汎用表現学習は,様々な機械学習分野で有望な成果を示している。 電子商取引の分野では、汎用的な目的、すなわち全てを表現することの目的は、ユーザのプロファイリング、ターゲティング、レコメンデーションタスクなどの広範囲な下流タスクに対する効率的なアプリケーションである。 本稿では,提案したモデルであるShopperBERTとスクラッチから学習する2つの学習戦略の一般化可能性について,系統的に比較する。 ShopperBERTは2年以上にわたって収集された0.8Bのユーザ行動から79.2Mパラメータを持つ9つのプレテキストタスクを学習し、ユーザ埋め込みを生成する。 その結果,組込み方式を用いたMLPは,6タスク中5タスクにおいて,スクラッチからトレーニングしたより複雑なモデルよりも優れていた。 具体的には、プレトレーニングされた埋め込みは、タスク固有の教師付き特徴と強いベースラインよりも優れており、コールドスタート問題の補助データセットを学習する。 また,事前学習した特徴の計算効率と組込み可視化も示す。

General-purpose representation learning through large-scale pre-training has shown promising results in the various machine learning fields. For an e-commerce domain, the objective of general-purpose, i.e., one for all, representations would be efficient applications for extensive downstream tasks such as user profiling, targeting, and recommendation tasks. In this paper, we systematically compare the generalizability of two learning strategies, i.e., transfer learning through the proposed model, ShopperBERT, vs. learning from scratch. ShopperBERT learns nine pretext tasks with 79.2M parameters from 0.8B user behaviors collected over two years to produce user embeddings. As a result, the MLPs that employ our embedding method outperform more complex models trained from scratch for five out of six tasks. Specifically, the pre-trained embeddings have superiority over the task-specific supervised features and the strong baselines, which learn the auxiliary dataset for the cold-start problem. We also show the computational efficiency and embedding visualization of the pre-trained features.
翻訳日:2021-06-06 09:34:44 公開日:2021-05-24
# SalientSleepNet:スリープステージングのためのマルチモーダルサルエント波検出ネットワーク

SalientSleepNet: Multimodal Salient Wave Detection Network for Sleep Staging ( http://arxiv.org/abs/2105.13864v1 )

ライセンス: Link先を確認
Ziyu Jia, Youfang Lin, Jing Wang, Xuehui Wang, Peiyi Xie and Yingbin Zhang(参考訳) 睡眠ステージングは睡眠アセスメントと病気の診断に欠かせない。 睡眠段階を分類する試みは高い評価を得たが,1) 多モード睡眠データから塩分波を効果的に抽出する方法,2)睡眠段階間での多スケール遷移規則の捉え方,3)睡眠段階における特定のモードの重要な役割を適応的に把握する方法,などが課題である。 そこで本研究では,睡眠ステージングのためのマルチモーダルサルエント波検出ネットワークであるsalientsleepnetを提案する。 具体的には、SalientSleepNetは、コンピュータビジョンにおける有能なオブジェクト検出のために提案された$\rm U^2$-Netアーキテクチャに基づく、時間的完全畳み込みネットワークである。 主に2つの独立な$\rm U^2$-likeストリームで構成され、それぞれ多モードデータから有意な特徴を抽出する。 一方、マルチスケール抽出モジュールは、睡眠ステージ間のマルチスケール遷移ルールをキャプチャするように設計されている。 また、特定の睡眠段階における多モードデータから貴重な情報を適応的に取得する多モードアテンションモジュールを提案する。 2つのデータセットの実験は、SalientSleepNetが最先端のベースラインを上回っていることを示している。 このモデルは、既存のディープニューラルネットワークモデルと比較してパラメータが最小である点に注意が必要だ。

Sleep staging is fundamental for sleep assessment and disease diagnosis. Although previous attempts to classify sleep stages have achieved high classification performance, several challenges remain open: 1) How to effectively extract salient waves in multimodal sleep data; 2) How to capture the multi-scale transition rules among sleep stages; 3) How to adaptively seize the key role of specific modality for sleep staging. To address these challenges, we propose SalientSleepNet, a multimodal salient wave detection network for sleep staging. Specifically, SalientSleepNet is a temporal fully convolutional network based on the $\rm U^2$-Net architecture that is originally proposed for salient object detection in computer vision. It is mainly composed of two independent $\rm U^2$-like streams to extract the salient features from multimodal data, respectively. Meanwhile, the multi-scale extraction module is designed to capture multi-scale transition rules among sleep stages. Besides, the multimodal attention module is proposed to adaptively capture valuable information from multimodal data for the specific sleep stage. Experiments on the two datasets demonstrate that SalientSleepNet outperforms the state-of-the-art baselines. It is worth noting that this model has the least amount of parameters compared with the existing deep neural network models.
翻訳日:2021-06-06 08:55:16 公開日:2021-05-24
# モバイルデバイス上での省エネルギーcnn推定のためのインメモリアナログコンピューティングコプロセッサ

An In-Memory Analog Computing Co-Processor for Energy-Efficient CNN Inference on Mobile Devices ( http://arxiv.org/abs/2105.13904v1 )

ライセンス: Link先を確認
Mohammed Elbtity, Abhishek Singh, Brendan Reidy, Xiaochen Guo, Ramtin Zand(参考訳) 本稿では,不揮発性メモリアレイ内のシナプス挙動とアクティベーション機能の両方を実現するインメモリアナログコンピューティング(IMAC)アーキテクチャを提案する。 スピン軌道トルク磁気抵抗ランダムアクセスメモリ(SOT-MRAM)装置を利用してシグモダルニューロンと双対シナプスを実現する。 まず、提案したIMACアーキテクチャを用いて、従来の混合信号およびデジタル実装と比較して、桁違いの性能向上を実現する多層パーセプトロン(MLP)分類器を実現する。 次に,モバイルプロセッサ上での畳み込みニューラルネットワーク (cnns) の推論において,完全接続層 (fc) を実現するためのコプロセッサとしてimacが設計され,畳み込み層がcpuで実行されるようにした。 CPU-IMACアーキテクチャの性能とエネルギー消費を評価するために,アーキテクチャレベルの解析モデルを開発した。 MNIST と CIFAR-10 パターン認識タスクでは CPU-IMAC ベースの LeNet と VGG CNN モデルに対する6.5% と10% の省エネ効果が示されている。

In this paper, we develop an in-memory analog computing (IMAC) architecture realizing both synaptic behavior and activation functions within non-volatile memory arrays. Spin-orbit torque magnetoresistive random-access memory (SOT-MRAM) devices are leveraged to realize sigmoidal neurons as well as binarized synapses. First, it is shown the proposed IMAC architecture can be utilized to realize a multilayer perceptron (MLP) classifier achieving orders of magnitude performance improvement compared to previous mixed-signal and digital implementations. Next, a heterogeneous mixed-signal and mixed-precision CPU-IMAC architecture is proposed for convolutional neural networks (CNNs) inference on mobile processors, in which IMAC is designed as a co-processor to realize fully-connected (FC) layers whereas convolution layers are executed in CPU. Architecture-level analytical models are developed to evaluate the performance and energy consumption of the CPU-IMAC architecture. Simulation results exhibit 6.5% and 10% energy savings for CPU-IMAC based realizations of LeNet and VGG CNN models, for MNIST and CIFAR-10 pattern recognition tasks, respectively.
翻訳日:2021-06-06 08:54:51 公開日:2021-05-24
# aristotle曰く: “幸福は活動状態だ” -- スマートウォッチによる体感による気分予測

Aristotle Said "Happiness is a State of Activity" -- Predicting Mood through Body Sensing with Smartwatches ( http://arxiv.org/abs/2105.15029v1 )

ライセンス: Link先を確認
P. A. Gloor, A. Fronzetti Colladon, F. Grippa, P. Budner, J. Eirich(参考訳) スマートウォッチに接続された体感アプリケーションを用いて,アクティベーションと幸福の状態を計測し,予測する。 市販のスマートウォッチのセンサーを通じて、個人の気分状態を収集し、加速度、心拍数、光レベルデータ、位置などの体感データと、スマートウォッチに接続されたスマートフォンに組み込まれたGPSセンサーを介して相関する。 われわれはスマートウォッチのユーザーの気分を1日7週間に4回調査した。 幸福と活性化の両方が心拍数と光のレベルと負の相関関係にあることがわかった。 週末はより活発に動き、活性化が弱くなると、人々はより幸せになる傾向にある。 また, 良心・神経症が低く, 積極性が高い人は, より幸せになる傾向が見られた。 さらに、より多くのアクティベーションを、経験への開放性が低くなり、より高い一致性と良心性によって予測できる。 最後に、人々の地理的座標を追跡することは、幸福と活性化を予測する上で重要な役割を果たす可能性がある。 本提案手法は,チームワークの改善とソーシャルネットワーク分析の併用を目的とした,自動気分追跡システム構築に向けた第一歩である。

We measure and predict states of Activation and Happiness using a body sensing application connected to smartwatches. Through the sensors of commercially available smartwatches we collect individual mood states and correlate them with body sensing data such as acceleration, heart rate, light level data, and location, through the GPS sensor built into the smartphone connected to the smartwatch. We polled users on the smartwatch for seven weeks four times per day asking for their mood state. We found that both Happiness and Activation are negatively correlated with heart beats and with the levels of light. People tend to be happier when they are moving more intensely and are feeling less activated during weekends. We also found that people with a lower Conscientiousness and Neuroticism and higher Agreeableness tend to be happy more frequently. In addition, more Activation can be predicted by lower Openness to experience and higher Agreeableness and Conscientiousness. Lastly, we find that tracking people's geographical coordinates might play an important role in predicting Happiness and Activation. The methodology we propose is a first step towards building an automated mood tracking system, to be used for better teamwork and in combination with social network analysis studies.
翻訳日:2021-06-06 08:54:30 公開日:2021-05-24
# (参考訳) グラフ畳み込みネットワークを用いた空間相関を考慮した異種データ融合とその大気質予測への応用

Heterogeneous Data Fusion Considering Spatial Correlations using Graph Convolutional Networks and its Application in Air Quality Prediction ( http://arxiv.org/abs/2105.13125v1 )

ライセンス: CC BY 4.0
Zhengjing Ma, Gang Mei, Salvatore Cuomo, Francesco Piccialli(参考訳) 不均質なデータは、いくつかの観測の将来の傾向を予測するいくつかのモデルの入力として一般的に採用されている。 既存の予測モデルは、通常、異種データの矛盾や不完全性を無視する一方で、(1)監視点間の空間的相関や(2)研究領域全体の予測を考慮しない。 本稿では,複数の監視点から収集した不均質データをグラフ畳み込みネットワーク(gcns)を用いて融合して観測結果の今後の傾向を予測し,その効果を空気質予測シナリオに適用することで評価する深層学習手法を提案する。 提案手法の背後にある基本的な考え方は,(1)収集した異種データを,その空間的相関関係に基づいて監視点の位置に基づいて融合し,(2)局所情報よりもグローバル情報に基づく予測を行うことである。 提案手法では,まず,提案する rbf-based fusion 法を用いて融合行列を組み立てる。第2に,融合データに基づいて,予測モデルの入力として空間的および時間的に相関したデータを構成し,最後に,時空間グラフ畳み込みネットワーク(stgcn)を用いて観測の今後の傾向を予測する。 大気質予測の応用シナリオでは,(1)rbfに基づく核融合法に基づく融合データの性能が良好な一貫性を達成し,(2)融解データに基づく予測モデルの性能が生データに基づくものよりも優れていること,(3)stgcnモデルが全てのベースラインモデルと比較して最高の性能を達成することが観察された。 提案手法は,研究領域に散在する複数のモニタリングポイントから連続した異種データを収集するシナリオに適用できる。

Heterogeneous data are commonly adopted as the inputs for some models that predict the future trends of some observations. Existing predictive models typically ignore the inconsistencies and imperfections in heterogeneous data while also failing to consider the (1) spatial correlations among monitoring points or (2) predictions for the entire study area. To address the above problems, this paper proposes a deep learning method for fusing heterogeneous data collected from multiple monitoring points using graph convolutional networks (GCNs) to predict the future trends of some observations and evaluates its effectiveness by applying it in an air quality predictions scenario. The essential idea behind the proposed method is to (1) fuse the collected heterogeneous data based on the locations of the monitoring points with regard to their spatial correlations and (2) perform prediction based on global information rather than local information. In the proposed method, first, we assemble a fusion matrix using the proposed RBF-based fusion approach; second, based on the fused data, we construct spatially and temporally correlated data as inputs for the predictive model; finally, we employ the spatiotemporal graph convolutional network (STGCN) to predict the future trends of some observations. In the application scenario of air quality prediction, it is observed that (1) the fused data derived from the RBF-based fusion approach achieve satisfactory consistency; (2) the performances of the prediction models based on fused data are better than those based on raw data; and (3) the STGCN model achieves the best performance when compared to those of all baseline models. The proposed method is applicable for similar scenarios where continuous heterogeneous data are collected from multiple monitoring points scattered across a study area.
翻訳日:2021-05-29 15:56:00 公開日:2021-05-24
# エッジでの継続的な学習:スマートフォンデバイスでのリアルタイムトレーニング

Continual Learning at the Edge: Real-Time Training on Smartphone Devices ( http://arxiv.org/abs/2105.13127v1 )

ライセンス: Link先を確認
Lorenzo Pellegrini, Vincenzo Lomonaco, Gabriele Graffieti, Davide Maltoni(参考訳) パーソナライズされた学習のためのオンデバイストレーニングは、難しい研究課題である。 個人ユーザのニーズに合うように、エッジの深い予測モデルに迅速に適応できることが不可欠です。 しかし、エッジへの適応は、学習プロセスの効率性と持続可能性、およびシフトするデータ分布の下での作業能力にいくつかの疑問をもたらす。 実際、新しく入手可能なデータのみに予測モデルを微調整すると、それまでの知識の突然の消去である壊滅的な忘れることになる。 本稿では,リアルタイムのデバイス上でのパーソナライゼーションを実現するために,ネイティブandroidアプリケーション上でar1*(hybrid continual learning strategy)の実装と展開について詳述する。 我々のベンチマークはCORe50データセットの拡張に基づいており、ソリューションの有効性と有効性を示している。

On-device training for personalized learning is a challenging research problem. Being able to quickly adapt deep prediction models at the edge is necessary to better suit personal user needs. However, adaptation on the edge poses some questions on both the efficiency and sustainability of the learning process and on the ability to work under shifting data distributions. Indeed, naively fine-tuning a prediction model only on the newly available data results in catastrophic forgetting, a sudden erasure of previously acquired knowledge. In this paper, we detail the implementation and deployment of a hybrid continual learning strategy (AR1*) on a native Android application for real-time on-device personalization without forgetting. Our benchmark, based on an extension of the CORe50 dataset, shows the efficiency and effectiveness of our solution.
翻訳日:2021-05-28 16:42:34 公開日:2021-05-24
# 都市バスの静止位置推定のためのマルチモーダルコンテキストセンシング:60秒未満の正確な時間予測に向けて

Exploiting Multi-modal Contextual Sensing for City-bus's Stay Location Characterization: Towards Sub-60 Seconds Accurate Arrival Time Prediction ( http://arxiv.org/abs/2105.13131v1 )

ライセンス: Link先を確認
Ratna Mandal, Prasenjit Karmakar, Soumyajit Chatterjee, Debaleen Das Spandan, Shouvit Pradhan, Sujoy Saha, Sandip Chakraborty and Subrata Nandi(参考訳) インテリジェントシティ交通システムは、スマートシティの中核となるインフラのひとつだ。 このようなインフラの真の創発は、公共バスのような都市全体の交通機関に関する情報を通勤者にリアルタイムに提供することにある。 しかし、公共バスなどの交通システムの事前情報をリアルタイムに提供することは、公共バスが停車する場所が異なるため、本質的に困難である。 単純な要因はgpsのようなユニモーダルな情報源から抽出されるが、これらの場所は不規則に見えるが、インドの半都会の都市、ドゥルガプールの720kmの公共バスのgpsトレイルを徹底的に分析した結果、他の細かな文脈的特徴がこれらの場所を正確に特徴付けることが判明した。 そこで我々は,通勤者のスマートフォンを用いたマルチモーダルセンシングから滞在場所を抽出・特徴付けするシステムbustopを開発した。 このマルチモーダル情報を使用して、BuStopは、システムが異なるスタンスロケーションタイプを区別できるように、一連の粒度のコンテキスト特徴を抽出する。 収集したデータセットを用いたBuStopの徹底的な分析により,通常のバス停,ランダムなアドホック停止,交通渋滞による停止,急激な曲がり角の停止など,さまざまな場所の特定に高い精度で動作することが示された。 また,バストップ上に概念実証システムを構築し,各バス停における予定到着時刻の予測におけるフレームワークの可能性を解析した。 その後のPoCフレームワークの解析では、テストデータセットのシミュレーションを通じて、静止位置を特徴づけることによって、地上の到着時刻から60秒未満のずれでより正確な到着時刻予測が可能になることが示されている。

Intelligent city transportation systems are one of the core infrastructures of a smart city. The true ingenuity of such an infrastructure lies in providing the commuters with real-time information about citywide transports like public buses, allowing her to pre-plan the travel. However, providing prior information for transportation systems like public buses in real-time is inherently challenging because of the diverse nature of different stay-locations that a public bus stops. Although straightforward factors stay duration, extracted from unimodal sources like GPS, at these locations look erratic, a thorough analysis of public bus GPS trails for 720km of bus travels at the city of Durgapur, a semi-urban city in India, reveals that several other fine-grained contextual features can characterize these locations accurately. Accordingly, we develop BuStop, a system for extracting and characterizing the stay locations from multi-modal sensing using commuters' smartphones. Using this multi-modal information BuStop extracts a set of granular contextual features that allow the system to differentiate among the different stay-location types. A thorough analysis of BuStop using the collected dataset indicates that the system works with high accuracy in identifying different stay locations like regular bus stops, random ad-hoc stops, stops due to traffic congestion stops at traffic signals, and stops at sharp turns. Additionally, we also develop a proof-of-concept setup on top of BuStop to analyze the potential of the framework in predicting expected arrival time, a critical piece of information required to pre-plan travel, at any given bus stop. Subsequent analysis of the PoC framework, through simulation over the test dataset, shows that characterizing the stay-locations indeed helps make more accurate arrival time predictions with deviations less than 60s from the ground-truth arrival time.
翻訳日:2021-05-28 16:37:33 公開日:2021-05-24
# (参考訳) 強い回転障害を有する画像の半教師付き学習:ナノ粒子ライブラリーの組み立て [全文訳有]

Semi-supervised learning of images with strong rotational disorder: assembling nanoparticle libraries ( http://arxiv.org/abs/2105.11475v1 )

ライセンス: CC BY 4.0
Maxim Ziatdinov, Muammer Yusuf Yaman, Yongtao Liu, David Ginger, and Sergei V. Kalinin(参考訳) 光、電子、走査型プローブ顕微鏡の拡散は、細胞、バクテリア、花粉、ナノ粒子、原子、分子など多様な物体の大量のイメージングデータを生み出す。 ほとんどの場合、実験データストリームには、画像内の任意の回転と変換を持つ画像が含まれている。 同時に、多くの場合、ラベル付きデータの少量は、事前に公表された結果、画像コレクション、カタログ、さらには理論モデルとして利用可能である。 本稿では,弱向き障害を持つラベル付きデータの小さなサブセットから,より強固な方向(および位置)障害を持つ大きなラベル付きデータセット,すなわちラベル付き部分とラベル付き部分の分布シフトが存在する場合でも,少数の例が与えられた画像データの分類を一般化する手法を開発した。 このアプローチは、データの回転(および変換)不変な連続潜時表現を学習するエンコーダ・デコーダ「ブロック」と、データを有限個の離散クラスにエンコードする分類器からなる半教師付き回転不変変分オートエンコーダ(ss-rVAE)モデルに基づいている。 訓練されたss-rVAEの分類部は回転不変性(および翻訳不変性)を継承し、モデルの他の部分とは独立に展開することができる。 ss-rvaeの性能は、既知の変動要因を持つ合成データセットを用いて示される。 さらに, ナノ粒子の実験データ集合に適用し, ナノ粒子ライブラリを作成し, データの変動の物理的要因を規定した表現を整理する。 結果はhttps://github.com/z iatdinovmax/semi-sup ervised-vae-nanopart iclesで再現できる。

The proliferation of optical, electron, and scanning probe microscopies gives rise to large volumes of imaging data of objects as diversified as cells, bacteria, pollen, to nanoparticles and atoms and molecules. In most cases, the experimental data streams contain images having arbitrary rotations and translations within the image. At the same time, for many cases, small amounts of labeled data are available in the form of prior published results, image collections, and catalogs, or even theoretical models. Here we develop an approach that allows generalizing from a small subset of labeled data with a weak orientational disorder to a large unlabeled dataset with a much stronger orientational (and positional) disorder, i.e., it performs a classification of image data given a small number of examples even in the presence of a distribution shift between the labeled and unlabeled parts. This approach is based on the semi-supervised rotationally invariant variational autoencoder (ss-rVAE) model consisting of the encoder-decoder "block" that learns a rotationally (and translationally) invariant continuous latent representation of data and a classifier that encodes data into a finite number of discrete classes. The classifier part of the trained ss-rVAE inherits the rotational (and translational) invariances and can be deployed independently of the other parts of the model. The performance of the ss-rVAE is illustrated using the synthetic data sets with known factors of variation. We further demonstrate its application for experimental data sets of nanoparticles, creating nanoparticle libraries and disentangling the representations defining the physical factors of variation in the data. The code reproducing the results is available at https://github.com/z iatdinovmax/Semi-Sup ervised-VAE-nanopart icles.
翻訳日:2021-05-27 07:28:34 公開日:2021-05-24
# (参考訳) 記号式検証のための欠陥データセット [全文訳有]

A Flawed Dataset for Symbolic Equation Verification ( http://arxiv.org/abs/2105.11479v1 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) Arabshahi, Singh, and Anandkumar (2018) は記号方程式の検証と方程式完成のタスクのための記号方程式のデータセットを作成する方法を提案する。 残念ながら、提案する手法を使って構築されたデータセットは、2つの深刻な欠陥に悩まされる。 まず、手続きが生成できる真の方程式のクラスは非常に限定的である。 第二に、真と偽の方程式は完全に異なる方法で生成されるので、容易に識別できる人工的な特徴がある可能性が高い。 さらに、それらが考慮する方程式のクラスにおいて、極めて信頼性の高い方程式検証の問題を解く非常に単純な確率的手続きが存在する。 したがって、aiシステムのテストベッドとして一般にこの問題の有用性は疑わしい。

Arabshahi, Singh, and Anandkumar (2018) propose a method for creating a dataset of symbolic mathematical equations for the tasks of symbolic equation verification and equation completion. Unfortunately, a dataset constructed using the method they propose will suffer from two serious flaws. First, the class of true equations that the procedure can generate will be very limited. Second, because true and false equations are generated in completely different ways, there are likely to be artifactual features that allow easy discrimination. Moreover, over the class of equations they consider, there is an extremely simple probabilistic procedure that solves the problem of equation verification with extremely high reliability. The usefulness of this problem in general as a testbed for AI systems is therefore doubtful.
翻訳日:2021-05-27 07:12:29 公開日:2021-05-24
# (参考訳) オブジェクトベースカメラポーズ推定のための3次元認識楕円予測 [全文訳有]

3D-Aware Ellipse Prediction for Object-Based Camera Pose Estimation ( http://arxiv.org/abs/2105.11494v1 )

ライセンス: CC BY 4.0
Matthieu Zins, Gilles Simon, Marie-Odile Berger(参考訳) 本稿では,視聴条件に頑健で,シーンの詳細なモデルを必要としない粗いカメラポーズ計算手法を提案する。 この方法は、ロボット工学や拡張現実のアプリケーションをあらゆる環境、特に正確な3dモデルや膨大な真実データがない環境で簡単に展開することの必要性が増している。 観察条件に関係なく、物体を確実に検出する深層学習技術を活用する。 以前の研究では、楕円雲によってオブジェクトのシーンの幾何学を抽象化することで、様々なアプリケーションのニーズに十分正確にカメラのポーズを計算できることを示した。 これらの手法は有望ではあるが、画像オブジェクトの近似として検出境界ボックスに取り付けられた楕円を用いている。 本稿では、さらに一歩進んで、3次元楕円体と直交する物体の楕円近似を視点投影の観点から検出する学習法を提案する。 実験により,提案手法により計算結果の精度が著しく向上し,検出ボックスの境界のばらつきに対してより堅牢であることが確認された。 これは、データ取得のトレーニングという観点で、非常に少ない労力で達成されます -- 数百のキャリブレーションされた画像のうち、手動のオブジェクトアノテーションが必要なのは3つだけです。 コードとモデルはhttps://github.com/z insmatt/3D-Aware-Ell ipses-for-Visual-Loc alizationで公開されている。

In this paper, we propose a method for coarse camera pose computation which is robust to viewing conditions and does not require a detailed model of the scene. This method meets the growing need of easy deployment of robotics or augmented reality applications in any environments, especially those for which no accurate 3D model nor huge amount of ground truth data are available. It exploits the ability of deep learning techniques to reliably detect objects regardless of viewing conditions. Previous works have also shown that abstracting the geometry of a scene of objects by an ellipsoid cloud allows to compute the camera pose accurately enough for various application needs. Though promising, these approaches use the ellipses fitted to the detection bounding boxes as an approximation of the imaged objects. In this paper, we go one step further and propose a learning-based method which detects improved elliptic approximations of objects which are coherent with the 3D ellipsoid in terms of perspective projection. Experiments prove that the accuracy of the computed pose significantly increases thanks to our method and is more robust to the variability of the boundaries of the detection boxes. This is achieved with very little effort in terms of training data acquisition -- a few hundred calibrated images of which only three need manual object annotation. Code and models are released at https://github.com/z insmatt/3D-Aware-Ell ipses-for-Visual-Loc alization.
翻訳日:2021-05-27 07:05:40 公開日:2021-05-24
# (参考訳) 連続時間状態空間モデルのクラスに対するログ類似度勾配の偏りのない推定 [全文訳有]

Unbiased Estimation of the Gradient of the Log-Likelihood for a Class of Continuous-Time State-Space Models ( http://arxiv.org/abs/2105.11522v1 )

ライセンス: CC BY 4.0
Marco Ballesio and Ajay Jasra(参考訳) 本稿では,連続時間状態空間モデルのクラスに対する静的パラメータ推定について検討する。 本研究の目的は,モデルに関連する確率過程を時間内に離散化しなければならない場合でも,非偏りである対数類似度(スコア関数)の勾配の非偏り推定を行うことである。 この目的を達成するために、第2レベルのランダム化 \cite{jacob2} において、新しい結合条件付き粒子フィルタ (ccpf) を含む \emph{doubly randomized scheme} (例:~\cite{ub_mcmcmc, ub_grad}) を適用する。 提案手法は,確率的勾配ランジュバン降下のような勾配に基づく推定アルゴリズムの適用を促進する。 本稿では,確率勾配降下(SGD)の文脈における方法論をいくつかの数値例で説明し,Rhee \&Glynn estimator \cite{rhee,vihola} と比較する。

In this paper, we consider static parameter estimation for a class of continuous-time state-space models. Our goal is to obtain an unbiased estimate of the gradient of the log-likelihood (score function), which is an estimate that is unbiased even if the stochastic processes involved in the model must be discretized in time. To achieve this goal, we apply a \emph{doubly randomized scheme} (see, e.g.,~\cite{ub_mcmc, ub_grad}), that involves a novel coupled conditional particle filter (CCPF) on the second level of randomization \cite{jacob2}. Our novel estimate helps facilitate the application of gradient-based estimation algorithms, such as stochastic-gradient Langevin descent. We illustrate our methodology in the context of stochastic gradient descent (SGD) in several numerical examples and compare with the Rhee \& Glynn estimator \cite{rhee,vihola}.
翻訳日:2021-05-27 06:43:59 公開日:2021-05-24
# (参考訳) サンプル選択バイアス下におけるロバストフェアネスアウェア学習 [全文訳有]

Robust Fairness-aware Learning Under Sample Selection Bias ( http://arxiv.org/abs/2105.11570v1 )

ライセンス: CC BY 4.0
Wei Du and Xintao Wu(参考訳) 多くの機械学習アルゴリズムの基本的な前提は、トレーニングデータとテストデータが同じ分布から引き出されることである。 しかし、この仮定はトレーニングデータとテストデータの間のサンプル選択バイアスのため、実世界ではしばしば破られる。 これまでの研究は、バイアスのあるトレーニングデータを改良し、テストデータにマッチさせ、強化されたトレーニングデータに基づいて分類モデルを構築することに焦点を当てている。 しかし、構築された分類モデルの公平性をどのように達成するかは未定である。 本稿では,サンプル選択バイアス下でのロバストで公平な学習の枠組みを提案する。 本フレームワークは, 偏差補正のための回帰推定手法と, 予測精度に頑健性を実現するための最小ロバスト推定手法を採用する。 さらに、最小限の最適化では、テストデータに対するモデルの公平性を保証する最悪の場合において、フェアネスが達成される。 テストデータが利用可能で利用できない場合、サンプル選択バイアスを処理する2つのアルゴリズムを更に開発する。 2つの実世界のデータセットについて実験を行い,実効性と公平性指標の両方の観点からその効果を実証した。

The underlying assumption of many machine learning algorithms is that the training data and test data are drawn from the same distributions. However, the assumption is often violated in real world due to the sample selection bias between the training and test data. Previous research works focus on reweighing biased training data to match the test data and then building classification models on the reweighed training data. However, how to achieve fairness in the built classification models is under-explored. In this paper, we propose a framework for robust and fair learning under sample selection bias. Our framework adopts the reweighing estimation approach for bias correction and the minimax robust estimation approach for achieving robustness on prediction accuracy. Moreover, during the minimax optimization, the fairness is achieved under the worst case, which guarantees the model's fairness on test data. We further develop two algorithms to handle sample selection bias when test data is both available and unavailable. We conduct experiments on two real-world datasets and the experimental results demonstrate its effectiveness in terms of both utility and fairness metrics.
翻訳日:2021-05-27 06:08:49 公開日:2021-05-24
# (参考訳) 高通過変調畳み込みニューラルネットワークによるパンシャーピング [全文訳有]

Pan-sharpening via High-pass Modification Convolutional Neural Network ( http://arxiv.org/abs/2105.11576v1 )

ライセンス: CC BY 4.0
Jiaming Wang, Zhenfeng Shao, Xiao Huang, Tao Lu, Ruiqian Zhang, Jiayi Ma(参考訳) 既存の深層学習に基づくパンシャープ法は, スペクトル歪みや空間テクスチャの不十分さなど, 広く認知されている問題が多く, ハイパス修正ブロックに基づく新しいパンシャープ型畳み込みニューラルネットワークを提案する。 従来の手法と異なり,提案ブロックはハイパス情報を学習するために設計されており,マルチスペクトル画像の各帯域における空間情報を高める。 視覚的に強調された画像の生成を容易にするため,知覚損失関数を提案し,近赤外空間における高レベル特徴に基づくモデルをさらに最適化する。 実験は, 定量的および定性的に, 最先端のパン研削法と比較して, 提案手法の優れた性能を示す。 提案されたモデルはhttps://github.com/j iaming-wang/HMBでオープンソース化されている。

Most existing deep learning-based pan-sharpening methods have several widely recognized issues, such as spectral distortion and insufficient spatial texture enhancement, we propose a novel pan-sharpening convolutional neural network based on a high-pass modification block. Different from existing methods, the proposed block is designed to learn the high-pass information, leading to enhance spatial information in each band of the multi-spectral-resol ution images. To facilitate the generation of visually appealing pan-sharpened images, we propose a perceptual loss function and further optimize the model based on high-level features in the near-infrared space. Experiments demonstrate the superior performance of the proposed method compared to the state-of-the-art pan-sharpening methods, both quantitatively and qualitatively. The proposed model is open-sourced at https://github.com/j iaming-wang/HMB.
翻訳日:2021-05-27 05:49:09 公開日:2021-05-24
# Deep Descriptive Clustering

Deep Descriptive Clustering ( http://arxiv.org/abs/2105.11549v1 )

ライセンス: Link先を確認
Hongjing Zhang, Ian Davidson(参考訳) 説明可能なクラスタリングに関する最近の作業は、機能が解釈可能な時にクラスタを記述することを可能にする。 しかし、現代の機械学習の多くは、ディープラーニングが使用される画像、テキスト、グラフなどの複雑なデータに焦点を当てているが、データの生の特徴は解釈できない。 本稿では,解釈可能なタグを用いた説明を同時に生成しながら,複雑なデータに対してクラスタリングを行うための新しい設定を提案する。 本稿では,記号データに基づく説明を生成しながら,複雑なデータに対する準記号表現学習を行う深層記述クラスタリングを提案する。 我々は,入力に対する経験的分布とクラスタリング目的のための誘導的クラスタリングラベルとの相互情報を最大化することにより,よいクラスタを形成する。 各クラスタに対して簡潔で直交的な記述を生成する整数線形プログラミングを解いて説明を生成する。 最後に,クラスタリングと説明モジュールの一貫性を最大化するために,自己生成制約による新たなペアワイズ損失を提案することにより,より優れたクラスタリングを説明できる。 公開データを用いた実験の結果,我々のモデルは,高品質なクラスタレベルの説明を提供しながら,クラスタ性能における競合ベースラインを上回っていることがわかった。

Recent work on explainable clustering allows describing clusters when the features are interpretable. However, much modern machine learning focuses on complex data such as images, text, and graphs where deep learning is used but the raw features of data are not interpretable. This paper explores a novel setting for performing clustering on complex data while simultaneously generating explanations using interpretable tags. We propose deep descriptive clustering that performs sub-symbolic representation learning on complex data while generating explanations based on symbolic data. We form good clusters by maximizing the mutual information between empirical distribution on the inputs and the induced clustering labels for clustering objectives. We generate explanations by solving an integer linear programming that generates concise and orthogonal descriptions for each cluster. Finally, we allow the explanation to inform better clustering by proposing a novel pairwise loss with self-generated constraints to maximize the clustering and explanation module's consistency. Experimental results on public data demonstrate that our model outperforms competitive baselines in clustering performance while offering high-quality cluster-level explanations.
翻訳日:2021-05-26 14:29:09 公開日:2021-05-24
# ガウス過程モデルのスケーラブルなクロス検証損失

Scalable Cross Validation Losses for Gaussian Process Models ( http://arxiv.org/abs/2105.11535v1 )

ライセンス: Link先を確認
Martin Jankowiak, Geoff Pleiss(参考訳) 本稿では, 交差バリデーションと近接トランケーションを利用したガウス過程(GP)モデルの簡易かつスケーラブルな学習法を提案する。 二進分類と多クラス分類に対応するために、p\`olya-gamma の補助変数と変分推論を利用する。 スケーラブルなgp回帰と分類のための様々な代替手法との比較を行った結果,本手法は高速なトレーニングと優れた予測性能を提供することがわかった。 良い予測性能は、結果の予測分布の非パラメトリックな性質と、モデルの誤識別に対する堅牢性をもたらすクロスバリデーション損失に遡ることができると論じる。

We introduce a simple and scalable method for training Gaussian process (GP) models that exploits cross-validation and nearest neighbor truncation. To accommodate binary and multi-class classification we leverage P\`olya-Gamma auxiliary variables and variational inference. In an extensive empirical comparison with a number of alternative methods for scalable GP regression and classification, we find that our method offers fast training and excellent predictive performance. We argue that the good predictive performance can be traced to the non-parametric nature of the resulting predictive distributions as well as to the cross-validation loss, which provides robustness against model mis-specification.
翻訳日:2021-05-26 14:28:19 公開日:2021-05-24
# TRACE:オフライン手書きテキストのラインレベルストローク回復のための微分可能なアプローチ

TRACE: A Differentiable Approach to Line-level Stroke Recovery for Offline Handwritten Text ( http://arxiv.org/abs/2105.11559v1 )

ライセンス: Link先を確認
Taylor Archibald, Mason Poggemann, Aaron Chan, Tony Martinez(参考訳) ストローク順序と速度は、署名検証、手書き認識、手書き合成の分野において有用な特徴である。 オフラインの手書きテキストからこれらの機能を復元することは、困難でよく検討された問題である。 TRACE (Trajectory Recovery by an Adaptively-trained Convolutional Encoder) と呼ばれる新しいモデルを提案する。 TRACEは、畳み込みリカレントニューラルネットワーク(CRNN)を使用して、多くの文字を持つオフライン手書きテキストの長い行から時間的ストローク情報を推論し、予測と基底真理点を整合させる、微分可能なアプローチである。 TRACEは、任意の幅のテキスト行全体をエンドツーエンドでトレーニングする最初のシステムであり、動的例えの使用を必要としない。 さらに、システムは事前処理を行うイメージを必要とせず、予測も後処理も必要としない。 その結果、回収された軌道は微分可能であり、オフライン手書きテキストの合成を含む他のタスクの損失関数として使用できる。 オフラインデータからのトレースから得られた時間的ストローク情報を手書き合成に利用し,iamオンライン手書きデータセット上で訓練されたストロークストロークリカバリシステムの最初のベンチマークを確立できることを実証する。

Stroke order and velocity are helpful features in the fields of signature verification, handwriting recognition, and handwriting synthesis. Recovering these features from offline handwritten text is a challenging and well-studied problem. We propose a new model called TRACE (Trajectory Recovery by an Adaptively-trained Convolutional Encoder). TRACE is a differentiable approach that uses a convolutional recurrent neural network (CRNN) to infer temporal stroke information from long lines of offline handwritten text with many characters and dynamic time warping (DTW) to align predictions and ground truth points. TRACE is perhaps the first system to be trained end-to-end on entire lines of text of arbitrary width and does not require the use of dynamic exemplars. Moreover, the system does not require images to undergo any pre-processing, nor do the predictions require any post-processing. Consequently, the recovered trajectory is differentiable and can be used as a loss function for other tasks, including synthesizing offline handwritten text. We demonstrate that temporal stroke information recovered by TRACE from offline data can be used for handwriting synthesis and establish the first benchmarks for a stroke trajectory recovery system trained on the IAM online handwriting dataset.
翻訳日:2021-05-26 14:26:22 公開日:2021-05-24
# 非線形力学系学習のための近最適オフライン・ストリーミングアルゴリズム

Near-optimal Offline and Streaming Algorithms for Learning Non-Linear Dynamical Systems ( http://arxiv.org/abs/2105.11558v1 )

ライセンス: Link先を確認
Prateek Jain, Suhas S Kowshik, Dheeraj Nagaraj, Praneeth Netrapalli(参考訳) ベクトル値の非線形力学系 $x_{t+1} = \phi(a^* x_t) + \eta_t$, ここで、$\eta_t$ は偏りのないノイズであり、$\phi : \mathbb{r} \to \mathbb{r}$ はある拡張性を満たす既知のリンク関数である。 目標は、1つの軌道から$A^*$を学習することであり、$X_1,\cdots,X_T$ of {\em dependent or correlation} sampleである。 この問題は、$\phi$ が同一であり、非混合系においても最適な誤差率を持つ線形の場合においてよく研究されているが、非線形の場合の既存の結果は混合系でのみ成り立つ。 In this work, we improve existing results for learning nonlinear systems in a number of ways: a) we provide the first offline algorithm that can learn non-linear dynamical systems without the mixing assumption, b) we significantly improve upon the sample complexity of existing results for mixing systems, c) in the much harder one-pass, streaming setting we study a SGD with Reverse Experience Replay ($\mathsf{SGD-RER}$) method, and demonstrate that for mixing systems, it achieves the same sample complexity as our offline algorithm, d) we justify the expansivity assumption by showing that for the popular ReLU link function -- a non-expansive but easy to learn link function with i.i.d. サンプル -- どのメソッドも動的システムから指数関数的に多くのサンプル(x_t$の次元で)を必要とします。 私たちは結果を検証します。 シミュレーションと、SGDの単純適用が極めて準最適であることを示す。 実際、我々の研究は相関データの場合、データ内の依存構造のために設計された特殊なメソッドが標準のsgdベースのメソッドを大幅に上回ることを示している。

We consider the setting of vector valued non-linear dynamical systems $X_{t+1} = \phi(A^* X_t) + \eta_t$, where $\eta_t$ is unbiased noise and $\phi : \mathbb{R} \to \mathbb{R}$ is a known link function that satisfies certain {\em expansivity property}. The goal is to learn $A^*$ from a single trajectory $X_1,\cdots,X_T$ of {\em dependent or correlated} samples. While the problem is well-studied in the linear case, where $\phi$ is identity, with optimal error rates even for non-mixing systems, existing results in the non-linear case hold only for mixing systems. In this work, we improve existing results for learning nonlinear systems in a number of ways: a) we provide the first offline algorithm that can learn non-linear dynamical systems without the mixing assumption, b) we significantly improve upon the sample complexity of existing results for mixing systems, c) in the much harder one-pass, streaming setting we study a SGD with Reverse Experience Replay ($\mathsf{SGD-RER}$) method, and demonstrate that for mixing systems, it achieves the same sample complexity as our offline algorithm, d) we justify the expansivity assumption by showing that for the popular ReLU link function -- a non-expansive but easy to learn link function with i.i.d. samples -- any method would require exponentially many samples (with respect to dimension of $X_t$) from the dynamical system. We validate our results via. simulations and demonstrate that a naive application of SGD can be highly sub-optimal. Indeed, our work demonstrates that for correlated data, specialized methods designed for the dependency structure in data can significantly outperform standard SGD based methods.
翻訳日:2021-05-26 14:21:54 公開日:2021-05-24
# 脳腫瘍切片形成のための知識蒸留法の実験

Experimenting with Knowledge Distillation techniques for performing Brain Tumor Segmentation ( http://arxiv.org/abs/2105.11486v1 )

ライセンス: Link先を確認
Ashwin Nalwade, Jackie Kisa(参考訳) マルチモーダルMRI(Multi-modal magnetic resonance imaging)は、ヒト脳を解析するための重要な方法である。 通常は、疾患の診断や、治療に関する貴重な決定(例えば、脳のグリオーマの検査など)に使用される。 重症度と検出の程度が異なるため、グリオーマの適切な診断は現代の医学において最も困難で重要な分析課題の一つである。 私たちの主な焦点は、マルチモーダルMRIスキャンで脳腫瘍のセグメント化を行うための様々なアプローチに取り組むことです。 現在、トレーニングに使用されるデータの量、変動性は常に優れたモデルの開発に不可欠であると考えられている。 したがって、我々は知識蒸留技術の実験もしたい。

Multi-modal magnetic resonance imaging (MRI) is a crucial method for analyzing the human brain. It is usually used for diagnosing diseases and for making valuable decisions regarding the treatments - for instance, checking for gliomas in the human brain. With varying degrees of severity and detection, properly diagnosing gliomas is one of the most daunting and significant analysis tasks in modern-day medicine. Our primary focus is on working with different approaches to perform the segmentation of brain tumors in multimodal MRI scans. Now, the quantity, variability of the data used for training has always been considered to be crucial for developing excellent models. Hence, we also want to experiment with Knowledge Distillation techniques.
翻訳日:2021-05-26 14:19:10 公開日:2021-05-24
# 不確実性を考慮した信号時間論理

Uncertainty-Aware Signal Temporal logic ( http://arxiv.org/abs/2105.11545v1 )

ライセンス: Link先を確認
Nasim Baharisangari, Jean-Rapha\"el Gaglione, Daniel Neider, Ufuk Topcu, Zhe Xu(参考訳) 時間論理推論は、時間論理公式の形式でデータからシステム行動の形式的記述を抽出する過程である。 既存の時間論理推論手法はデータの不確かさをほとんど無視しており、実際の展開においてそのような手法の適用性は限られている。 本稿では,まずシステムの軌跡に関連する不確実性について検討し,その不確実性を区間軌跡の形で表現する。 そこで本研究では,不確実性認識信号時相論理(stl)の2つの推論手法を提案する。 有限個の軌跡を分類する代わりに、区間軌跡内の無限個の軌跡を分類する。 第1のアプローチでは、区間軌道に関してstl公式のロバストな意味論を取り入れ、区間軌道によってstl公式が満たされたり破られたりする限界を定量化する。 第2のアプローチは、最初の学習アルゴリズムに依存し、決定木を利用してSTL式を推論し、与えられたシステムの振る舞いを分類する。 提案手法は,STL式を推定する際の最悪ケースロバスト性を最適化することにより,非分離データに対しても有効である。 最後に,提案アルゴリズムの性能を2つのケーススタディで評価し,提案アルゴリズムは,サンプリングベースベースラインアルゴリズムと比較して最大4桁の計算時間を削減できることを示した(合計800のサンプリングトラジェクタを持つデータセットの場合)。

Temporal logic inference is the process of extracting formal descriptions of system behaviors from data in the form of temporal logic formulas. The existing temporal logic inference methods mostly neglect uncertainties in the data, which results in limited applicability of such methods in real-world deployments. In this paper, we first investigate the uncertainties associated with trajectories of a system and represent such uncertainties in the form of interval trajectories. We then propose two uncertainty-aware signal temporal logic (STL) inference approaches to classify the undesired behaviors and desired behaviors of a system. Instead of classifying finitely many trajectories, we classify infinitely many trajectories within the interval trajectories. In the first approach, we incorporate robust semantics of STL formulas with respect to an interval trajectory to quantify the margin at which an STL formula is satisfied or violated by the interval trajectory. The second approach relies on the first learning algorithm and exploits the decision tree to infer STL formulas to classify behaviors of a given system. The proposed approaches also work for non-separable data by optimizing the worst-case robustness in inferring an STL formula. Finally, we evaluate the performance of the proposed algorithms in two case studies, where the proposed algorithms show reductions in the computation time by up to four orders of magnitude in comparison with the sampling-based baseline algorithms (for a dataset with 800 sampled trajectories in total).
翻訳日:2021-05-26 14:14:59 公開日:2021-05-24
# オンライン制約K平均による教師なし視覚表現学習

Unsupervised Visual Representation Learning by Online Constrained K-Means ( http://arxiv.org/abs/2105.11527v1 )

ライセンス: Link先を確認
Qi Qian, Yuanhong Xu, Juhua Hu, Hao Li, Rong Jin(参考訳) クラスタ識別は教師なし表現学習に有効なプリテキストタスクであり、クラスタリングと識別の2つのフェーズで構成されることが多い。 クラスタリングは、各インスタンスに識別における表現の学習に使用される擬似ラベルを割り当てることである。 多くの一般的なクラスタリングメソッド(k-meansなど)は、データ全体にわたって複数のイテレーションを行うバッチモードで実行する必要があるため、主な課題はクラスタリングにある。 近年,表現学習のためのバランスの取れたオンラインクラスタリング手法,すなわちSwaVが提案されている。 しかし、割り当てはデータの小さなサブセットでのみ最適化され、サブ最適にすることができる。 これらの課題に対処するために,距離メトリック学習の観点からクラスタリングに基づく表現学習の目的について検討する。 そこで本研究では,オンライン \textbf{Co}nstrained \textbf{K}-m\textbf{e}ans (\textbf{CoKe}) を用いたクラスタリングに基づく新しいプリテキストタスクを提案する。 各クラスタが全く同じサイズであるバランスの取れたクラスタリングと比較すると、クラスタの最小サイズのみを制約して、固有のデータ構造を柔軟にキャプチャします。 さらに重要なことに、オンライン割り当て手法は、グローバル最適化にアプローチするための理論的保証を持っています。 最後に、2つの分散低減戦略を提案し、異なる拡張のためにクラスタリングを堅牢にする。 インスタンスの表現を保持することなく、データはコークスのオンラインモードでアクセスされ、各イテレーションのインスタンスの単一のビューは、2つのビューに依存するコントラスト学習メソッドよりも優れたパフォーマンスを示すのに十分である。 ImageNetの大規模な実験により提案手法の有効性が検証された。 コードはリリースされる。

Cluster discrimination is an effective pretext task for unsupervised representation learning, which often consists of two phases: clustering and discrimination. Clustering is to assign each instance a pseudo label that will be used to learn representations in discrimination. The main challenge resides in clustering since many prevalent clustering methods (e.g., k-means) have to run in a batch mode that goes multiple iterations over the whole data. Recently, a balanced online clustering method, i.e., SwAV, is proposed for representation learning. However, the assignment is optimized within only a small subset of data, which can be suboptimal. To address these challenges, we first investigate the objective of clustering-based representation learning from the perspective of distance metric learning. Based on this, we propose a novel clustering-based pretext task with online \textbf{Co}nstrained \textbf{K}-m\textbf{e}ans (\textbf{CoKe}) to learn representations and relations between instances simultaneously. Compared with the balanced clustering that each cluster has exactly the same size, we only constrain the minimum size of clusters to flexibly capture the inherent data structure. More importantly, our online assignment method has a theoretical guarantee to approach the global optimum. Finally, two variance reduction strategies are proposed to make the clustering robust for different augmentations. Without keeping representations of instances, the data is accessed in an online mode in CoKe while a single view of instances at each iteration is sufficient to demonstrate a better performance than contrastive learning methods relying on two views. Extensive experiments on ImageNet verify the efficacy of our proposal. Code will be released.
翻訳日:2021-05-26 14:14:02 公開日:2021-05-24
# 事前学習型視覚言語表現によるより良い視覚対話エージェントの学習

Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation ( http://arxiv.org/abs/2105.11541v1 )

ライセンス: Link先を確認
Tao Tu, Qing Ping, Govind Thattai, Gokhan Tur, Prem Natarajan(参考訳) なんだって? プレイヤーaがyes/noの質問(質問者)のシーケンスを質問し、プレイヤーb(oracle)の回答に基づいて画像中の対象オブジェクトの最終的な推測(ゲッセ)を行う2人のプレイヤーによるビジュアルダイアログ推測ゲームである。 QuestionerとOracleの間のこのダイアログ履歴に基づいて、Guesserはターゲットオブジェクトの最終的な推測を行う。 以前のベースラインのOracleモデルは、モデルに視覚的な情報をエンコードしておらず、色、形、関係などに関する複雑な質問を完全には理解できません。 Guesserの既存の作業のほとんどは、ダイアログ履歴全体をエンコードし、GuesserモデルをGuessWhatのスクラッチからトレーニングしています! データセット。 言語エンコーダは長い歴史や推測を忘れがちなので、これは問題です。 オブジェクトの視覚的な接地を学ぶという点では、データは疎い。 Questionerの以前の研究は、状態追跡メカニズムをモデルに導入していたが、従来の視覚言語的な洞察を持たないソフト中間体として学習されている。 これらのギャップを埋めるため,本論文では,事前学習されたビジョン言語モデルであるvilbert上に構築された,vilbertベースのoracle, guesser,そして questionerを提案する。 対象物内および対象物間の問合せを考慮すべく,両方向のバックグラウンド/ターゲット融合機構をVilbert-Oracleに導入する。 本稿では,一ターン参照表現の理解において,ビルベルトの力を最大限活用するための状態推定器を提案する。 実験の結果,提案したモデルは,Oracle,Guesser,End- to-End Questionerでそれぞれ7%,10%,12%,それぞれ有意なパフォーマンスを示した。

GuessWhat?! is a two-player visual dialog guessing game where player A asks a sequence of yes/no questions (Questioner) and makes a final guess (Guesser) about a target object in an image, based on answers from player B (Oracle). Based on this dialog history between the Questioner and the Oracle, a Guesser makes a final guess of the target object. Previous baseline Oracle model encodes no visual information in the model, and it cannot fully understand complex questions about color, shape, relationships and so on. Most existing work for Guesser encode the dialog history as a whole and train the Guesser models from scratch on the GuessWhat?! dataset. This is problematic since language encoder tend to forget long-term history and the GuessWhat?! data is sparse in terms of learning visual grounding of objects. Previous work for Questioner introduces state tracking mechanism into the model, but it is learned as a soft intermediates without any prior vision-linguistic insights. To bridge these gaps, in this paper we propose Vilbert-based Oracle, Guesser and Questioner, which are all built on top of pretrained vision-linguistic model, Vilbert. We introduce two-way background/target fusion mechanism into Vilbert-Oracle to account for both intra and inter-object questions. We propose a unified framework for Vilbert-Guesser and Vilbert-Questioner, where state-estimator is introduced to best utilize Vilbert's power on single-turn referring expression comprehension. Experimental results show that our proposed models outperform state-of-the-art models significantly by 7%, 10%, 12% for Oracle, Guesser and End-to-End Questioner respectively.
翻訳日:2021-05-26 14:13:12 公開日:2021-05-24
# shd360:360{\deg}ビデオにおける人間検出のためのベンチマークデータセット

SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg} Videos ( http://arxiv.org/abs/2105.11578v1 )

ライセンス: Link先を確認
Yi Zhang, Lu Zhang, Jing Zhang, Kang Wang, Wassim Hamidouche, Olivier Deforges(参考訳) dynamic 360{\deg} 没入型ビデオにおけるsalient human detection (shd)は、拡張現実におけるロボット工学、人間間および対象間のインタラクションなど、さまざまな応用において非常に重要である。 しかし、360{\deg}のビデオSHDは、大規模な全方位ビデオとリッチアノテーションを備えたデータセットが不足しているため、コンピュータビジョンコミュニティではほとんど議論されていない。 そこで本研究では,3,403個の全方位ビデオフレームから4K解像度で一様にサンプリングされた6,268個のキーフレームに対して,6レベルの階層的アノテーションを提供する。 具体的には、収集された各キーフレームにはスーパークラス、サブクラス、関連する属性(例えば幾何学的歪み)、バウンディングボックス、ピクセル単位のオブジェクト/インスタンス単位のマスクがラベル付けされる。 その結果、私たちのSHD360には16,238の正解な人間の実例が含まれています。 360{\deg} shdの手法は今のところ提案されていないので,sod(state-of-the-ar t salient object detection)アプローチをscd360に体系的にベンチマークし,広範な実験結果から得られた問題点を考察した。 提案するデータセットとベンチマークが、360{\deg}パノラマデータに向けて人間中心の研究を進めるための出発点となることを願っています。 私たちのデータセットとベンチマークはhttps://github.com/P anoAsh/SHD360で公開されます。

Salient human detection (SHD) in dynamic 360{\deg} immersive videos is of great importance for various applications such as robotics, inter-human and human-object interaction in augmented reality. However, 360{\deg} video SHD has been seldom discussed in the computer vision community due to a lack of datasets with large-scale omnidirectional videos and rich annotations. To this end, we propose SHD360, the first 360{\deg} video SHD dataset collecting various real-life daily scenes, providing six-level hierarchical annotations for 6,268 key frames uniformly sampled from 37,403 omnidirectional video frames at 4K resolution. Specifically, each collected key frame is labeled with a super-class, a sub-class, associated attributes (e.g., geometrical distortion), bounding boxes and per-pixel object-/instance-lev el masks. As a result, our SHD360 contains totally 16,238 salient human instances with manually annotated pixel-wise ground truth. Since so far there is no method proposed for 360{\deg} SHD, we systematically benchmark 11 representative state-of-the-art salient object detection (SOD) approaches on our SHD360, and explore key issues derived from extensive experimenting results. We hope our proposed dataset and benchmark could serve as a good starting point for advancing human-centric researches towards 360{\deg} panoramic data. Our dataset and benchmark will be publicly available at https://github.com/P anoAsh/SHD360.
翻訳日:2021-05-26 14:12:22 公開日:2021-05-24
# rrライラ星分類器のための情報ベイズモデル選択

Informative Bayesian model selection for RR Lyrae star classifiers ( http://arxiv.org/abs/2105.11531v1 )

ライセンス: Link先を確認
F. P\'erez-Galarce, K. Pichara, P. Huijse, M. Catelan, D. Mery(参考訳) 機械学習は変光星の自動分類において重要な役割を担い、過去10年間にいくつかの分類器が提案されてきた。 これらの分類器はいくつかの天文学カタログで印象的な性能を発揮している。 しかし、いくつかの科学論文では、トレーニングデータには複数のバイアス源が含まれていることも示されている。 したがって、トレーニングデータに属さないオブジェクトに対するこれらの分類器の性能は不確かであり、おそらく間違ったモデルを選択することになる。 さらに、これは誤解を招く分類器の配置を引き起こす。 後者の例は、バイアス付き予測を伴うオープンソースのラベル付きカタログの作成である。 本稿では,変光星分類器を評価するための情報的限界確率に基づく手法を開発する。 我々は、RRリレー星の物理記述子に基づく決定論的ルールを収集し、バイアスを軽減するために、これらのルールを限界推定に導入する。 我々は,rr lyraes分類を訓練したベイズロジスティック回帰を用いて実験を行い,ペナルティモデルの評価においても従来の非インフォーマティブなクロスバリデーション戦略を上回ることを発見した。 本手法は、天文学的知識を用いた機械学習モデルを評価するための、より厳格な代替手段を提供する。 このアプローチから、変光星の他のクラスへの応用やアルゴリズムの改良が開発される。

Machine learning has achieved an important role in the automatic classification of variable stars, and several classifiers have been proposed over the last decade. These classifiers have achieved impressive performance in several astronomical catalogues. However, some scientific articles have also shown that the training data therein contain multiple sources of bias. Hence, the performance of those classifiers on objects not belonging to the training data is uncertain, potentially resulting in the selection of incorrect models. Besides, it gives rise to the deployment of misleading classifiers. An example of the latter is the creation of open-source labelled catalogues with biased predictions. In this paper, we develop a method based on an informative marginal likelihood to evaluate variable star classifiers. We collect deterministic rules that are based on physical descriptors of RR Lyrae stars, and then, to mitigate the biases, we introduce those rules into the marginal likelihood estimation. We perform experiments with a set of Bayesian Logistic Regressions, which are trained to classify RR Lyraes, and we found that our method outperforms traditional non-informative cross-validation strategies, even when penalized models are assessed. Our methodology provides a more rigorous alternative to assess machine learning models using astronomical knowledge. From this approach, applications to other classes of variable stars and algorithmic improvements can be developed.
翻訳日:2021-05-26 13:59:25 公開日:2021-05-24
# コミュニケーション効率からの語彙学習バイアスの出現と転落

The advent and fall of a vocabulary learning bias from communicative efficiency ( http://arxiv.org/abs/2105.11519v1 )

ライセンス: Link先を確認
David Carrera-Casado and Ramon Ferrer-i-Cancho(参考訳) 十分に幼い子どもが新しい単語に遭遇すると、語彙に語が存在しない意味にアタッチする傾向があることはよく知られている。 これまでの研究では,戦略は情報理論の観点から最適であることが示されている。 しかし、情報理論モデルは、高齢者や多言語話者における語彙学習バイアスの弱さを説明せず、zipfの意味周波数法則、すなわち単語の意味の数と頻度の間の非線形関係を再現するものではない。 ここでは、その法則を再現するためにチャネルされるモデルの一般化を考える。 新たなモデルの解析により,高齢者や多言語系におけるバイアスの弱化や消失に伴い,バイアスが一貫して消失する相空間の領域が明らかになった。 ディープラーニング時代において、このモデルは将来の実験研究のための透明な低次元ツールであり、Zipfのランク周波数法則の起源に光を当てるために設計された理論フレームワークの予測力を示す。

It is well-known that, when sufficiently young children encounter a new word, they tend to attach it to a meaning that does not have a word yet in their lexicon. In previous research, the strategy was shown to be optimal from an information theoretic standpoint. However, the information theoretic model employed neither explains the weakening of that vocabulary learning bias in older children or polylinguals nor reproduces Zipf's meaning-frequency law, namely the non-linear relationship between the number of meanings of a word and its frequency. Here we consider a generalization of the model that is channeled to reproduce that law. The analysis of the new model reveals regions of the phase space where the bias disappears consistently with the weakening or loss of the bias in older children or polylinguals. In the deep learning era, the model is a transparent low-dimensional tool for future experimental research and illustrates the predictive power of a theoretical framework originally designed to shed light on the origins of Zipf's rank-frequency law.
翻訳日:2021-05-26 13:55:11 公開日:2021-05-24
# PTSDの予測モデリングのための脳構造の弾性形状解析

Elastic Shape Analysis of Brain Structures for Predictive Modeling of PTSD ( http://arxiv.org/abs/2105.11547v1 )

ライセンス: Link先を確認
Yuexuan Wu, Suprateek Kundu, Jennifer S. Stevens, Negar Fani, Anuj Srivastava(参考訳) 精神疾患の予測と分類における脳形態学の重要性に関する証拠が増えている。 しかし、現在の形状アプローチの大半は、皮質下構造の複雑さをうまく捉えられない頂点解析に大きく依存している。 さらに、過去の研究にはこれらの構造と露出要因の間の相互作用は含まれていない。 このような相互作用による予測モデリングはPTSDのような異種性精神疾患に最も関心があり、外傷暴露は脳の形状と相互作用し行動に影響を与える。 本稿では,脳の部分構造を連続的パラメータ化曲面として表現し,弾性形状メトリクスを用いて形状差を定量化することにより,これらの制約を克服する包括的枠組みを提案する。 弾性形状測定値を用いて皮質下データの形状要約を計算し,個々の形状を主スコアで表現する。 これらの表現は、これらのPCが変化するときの変化をローカライズする視覚化ツールを可能にする。 その後、これらのPC、補助露光変数、およびそれらの相互作用は回帰モデリングに使用される。 本手法は,脳部分構造の形状を用いてptsdの臨床測定値を予測することを目的として,grady trauma projectのデータに適用する。 解析の結果, 弾性形状解析における予測力は, 頂点ワイド形状解析や体積解析など, 広く用いられている手法よりも有意に大きかった。 ptsdの重症度の変化に関連する脳の形状の局所的な変形を特定するのに役立った。 私たちの知る限りでは、これは1つの傘の下で前処理ステップをシームレスに統合して精度を高め、自然に脳の形状と余変量との相互作用を考慮し、臨床結果のモデル化において優れた予測性能が得られる最初の脳形状分析アプローチの1つです。

There is increasing evidence on the importance of brain morphology in predicting and classifying mental disorders. However, the vast majority of current shape approaches rely heavily on vertex-wise analysis that may not successfully capture complexities of subcortical structures. Additionally, the past works do not include interactions between these structures and exposure factors. Predictive modeling with such interactions is of paramount interest in heterogeneous mental disorders such as PTSD, where trauma exposure interacts with brain shape changes to influence behavior. We propose a comprehensive framework that overcomes these limitations by representing brain substructures as continuous parameterized surfaces and quantifying their shape differences using elastic shape metrics. Using the elastic shape metric, we compute shape summaries of subcortical data and represent individual shapes by their principal scores. These representations allow visualization tools that help localize changes when these PCs are varied. Subsequently, these PCs, the auxiliary exposure variables, and their interactions are used for regression modeling. We apply our method to data from the Grady Trauma Project, where the goal is to predict clinical measures of PTSD using shapes of brain substructures. Our analysis revealed considerably greater predictive power under the elastic shape analysis than widely used approaches such as vertex-wise shape analysis and even volumetric analysis. It helped identify local deformations in brain shapes related to change in PTSD severity. To our knowledge, this is one of the first brain shape analysis approaches that can seamlessly integrate the pre-processing steps under one umbrella for improved accuracy and are naturally able to account for interactions between brain shape and additional covariates to yield superior predictive performance when modeling clinical outcomes.
翻訳日:2021-05-26 13:53:16 公開日:2021-05-24
# 可視化と推論によるハイパーパラメータチューニング

Guided Hyperparameter Tuning Through Visualization and Inference ( http://arxiv.org/abs/2105.11516v1 )

ライセンス: Link先を確認
Hyekang Joo, Calvin Bao, Ishan Sen, Furong Huang, and Leilani Battle(参考訳) ディープラーニングの実践者にとって、モデルのパフォーマンスを最適化するためのハイパーパラメータチューニングは計算コストの高いタスクである。 ビジュアライゼーションはハイパーパラメータの設定をモデル全体のパフォーマンスに関連付けるのに役立つが、次の実験でハイパーパラメータの設定を導くには、依然としてかなりの手作業による検査が必要である。 そこで本研究では,深層学習の実践者がハイパーパラメータをより効率的に探索し,チューニングし,最適化することが可能な可視化システムを提案する。 重要なアイデアは、予測機構を使ってより最適なハイパーパラメータ値を直接提案することである。 そして、このメカニズムを現在のディープラーニングの可視化プラクティスと統合します。 さらに、モデルハイパーパラメータのコンテキストにおける選択されたパフォーマンスメトリックの分散の分析は、特定のハイパーパラメータがパフォーマンスメトリックに与える影響を示している。 私たちはこのツールをディープラーニングモデルビルダーに関するユーザスタディで評価し、私たちの参加者はツールの採用にほとんど問題がなく、ワークフローの一部として作業しています。

For deep learning practitioners, hyperparameter tuning for optimizing model performance can be a computationally expensive task. Though visualization can help practitioners relate hyperparameter settings to overall model performance, significant manual inspection is still required to guide the hyperparameter settings in the next batch of experiments. In response, we present a streamlined visualization system enabling deep learning practitioners to more efficiently explore, tune, and optimize hyperparameters in a batch of experiments. A key idea is to directly suggest more optimal hyperparameter values using a predictive mechanism. We then integrate this mechanism with current visualization practices for deep learning. Moreover, an analysis on the variance in a selected performance metric in the context of the model hyperparameters shows the impact that certain hyperparameters have on the performance metric. We evaluate the tool with a user study on deep learning model builders, finding that our participants have little issue adopting the tool and working with it as part of their workflow.
翻訳日:2021-05-26 13:50:06 公開日:2021-05-24
# InSARコヒーレンス時系列を用いた深層学習に基づく損傷マッピング

Deep Learning-based Damage Mapping with InSAR Coherence Time Series ( http://arxiv.org/abs/2105.11544v1 )

ライセンス: Link先を確認
Oliver L. Stephenson, Tobias K\"ohne, Eric Zhan, Brent E. Cahill, Sang-Ho Yun, Zachary E. Ross, Mark Simons(参考訳) 衛星リモートセンシングは,自然災害後の被害の迅速なマッピングにおいて,その役割を担っている。 特に、合成開口レーダー(SAR)は地球の表面を撮像し、すべての気象条件、昼夜の損傷を地図化することができる。 しかし、現在のSARの損傷マッピング手法は、地球表面の他の変化から損傷を分離するのに苦労している。 本研究では,自然災害による地球表面性状の異常な変化を検出するために,深層学習とsar観測のフルタイム履歴を組み合わせた新しい損傷マッピング手法を提案する。 我々は、インターフェロメトリSARコヒーレンス時系列を用いて地球表面の変化を定量化し、これらのコヒーレンス時系列上の確率的異常検出器としてリカレントニューラルネットワーク(RNN)を用いる。 RNNはまず、事前のコヒーレンス時系列に基づいて訓練され、その後、事前のSAR画像と後的なSAR画像のコヒーレンス分布の確率分布を予測する。 予測と観測された共同事象のコヒーレンスの違いは、損傷の識別に対する信頼度を測る指標となる。 本手法では,イベント前におけるコヒーレンスの局所的挙動に基づいて,各場所ごとにカスタマイズされた損傷検出しきい値を選択することができる。 本研究では,sentinel-1 sar取得の複数年時系列を用いた3つの地震の被害予測手法を提案する。 本手法は, コヒーレンス損失を損傷プロキシとして用いる場合と比較して, 観察された損傷と量的改善との良好な一致を示した。

Satellite remote sensing is playing an increasing role in the rapid mapping of damage after natural disasters. In particular, synthetic aperture radar (SAR) can image the Earth's surface and map damage in all weather conditions, day and night. However, current SAR damage mapping methods struggle to separate damage from other changes in the Earth's surface. In this study, we propose a novel approach to damage mapping, combining deep learning with the full time history of SAR observations of an impacted region in order to detect anomalous variations in the Earth's surface properties due to a natural disaster. We quantify Earth surface change using time series of Interferometric SAR coherence, then use a recurrent neural network (RNN) as a probabilistic anomaly detector on these coherence time series. The RNN is first trained on pre-event coherence time series, and then forecasts a probability distribution of the coherence between pre- and post-event SAR images. The difference between the forecast and observed co-event coherence provides a measure of the confidence in the identification of damage. The method allows the user to choose a damage detection threshold that is customized for each location, based on the local behavior of coherence through time before the event. We apply this method to calculate estimates of damage for three earthquakes using multi-year time series of Sentinel-1 SAR acquisitions. Our approach shows good agreement with observed damage and quantitative improvement compared to using pre- to co-event coherence loss as a damage proxy.
翻訳日:2021-05-26 13:49:40 公開日:2021-05-24
# 相互情報の適応的局所カーネル定式化と地震後建物被害推定への応用

Adaptive Local Kernels Formulation of Mutual Information with Application to Active Post-Seismic Building Damage Inference ( http://arxiv.org/abs/2105.11492v1 )

ライセンス: Link先を確認
Mohamadreza Sheibani, Ge Ou(参考訳) トレーニングデータの豊富さは、様々な教師付き学習アプリケーションでは保証されない。 これらの状況の1つは地震後の建物の地域的被害評価である。 各建物の損傷ラベルを問い合わせるには、専門家による徹底的な検査が必要である。 実践的なアプローチは、逐次学習方式で最も情報性の高い建物をサンプリングすることである。 能動的学習法は、一般化誤差を最大に低減できる最も有益な事例を推奨する。 相互情報の情報理論尺度(MI)は,プール型サンプル選択シナリオにおけるサンプルの有効性を評価する上で,最も有効な基準の一つである。 しかし、標準MIアルゴリズムの計算複雑性は、この手法の大規模データセットへの利用を妨げている。 計算コストを削減するためにローカルカーネル戦略が提案されたが、この戦略の当初の定式化ではカーネルのラベルへの適応性は考慮されなかった。 本稿では、標準miアルゴリズムの計算複雑性を高めつつ、観測された出力データへのカーネルの適合性を可能にする適応型局所カーネル方法論を開発した。 提案手法はgaussian process regression (gpr) フレームワークを用いて,各ラベルクエリの後にカーネルハイパーパラメータを最大推定値を用いて更新する手法である。 逐次学習手順では、更新されたハイパーパラメータをMIカーネル行列で使用してサンプル提案性能を向上させることができる。 この利点は、2018年アンカレッジ地震(AK)のシミュレーションで実証されている。 提案アルゴリズムは,トレーニングデータが少なく,GPRが許容できる性能に到達可能であるが,計算要求は標準的なローカルカーネル戦略よりも低いままである。

The abundance of training data is not guaranteed in various supervised learning applications. One of these situations is the post-earthquake regional damage assessment of buildings. Querying the damage label of each building requires a thorough inspection by experts, and thus, is an expensive task. A practical approach is to sample the most informative buildings in a sequential learning scheme. Active learning methods recommend the most informative cases that are able to maximally reduce the generalization error. The information theoretic measure of mutual information (MI) is one of the most effective criteria to evaluate the effectiveness of the samples in a pool-based sample selection scenario. However, the computational complexity of the standard MI algorithm prevents the utilization of this method on large datasets. A local kernels strategy was proposed to reduce the computational costs, but the adaptability of the kernels to the observed labels was not considered in the original formulation of this strategy. In this article, an adaptive local kernels methodology is developed that allows for the conformability of the kernels to the observed output data while enhancing the computational complexity of the standard MI algorithm. The proposed algorithm is developed to work on a Gaussian process regression (GPR) framework, where the kernel hyperparameters are updated after each label query using the maximum likelihood estimation. In the sequential learning procedure, the updated hyperparameters can be used in the MI kernel matrices to improve the sample suggestion performance. The advantages are demonstrated on a simulation of the 2018 Anchorage, AK, earthquake. It is shown that while the proposed algorithm enables GPR to reach acceptable performance with fewer training data, the computational demands remain lower than the standard local kernels strategy.
翻訳日:2021-05-26 13:45:20 公開日:2021-05-24
# ブースト決定木を用いたデータからの時間論理特性の推定

Inferring Temporal Logic Properties from Data using Boosted Decision Trees ( http://arxiv.org/abs/2105.11508v1 )

ライセンス: Link先を確認
Erfan Aasi, Cristian Ioan Vasile, Mahroo Bahreinian, Calin Belta(参考訳) ロボットや自動運転車のような多くの自律システムは、複雑な環境でのリアルタイム意思決定を伴い、限られたデータから将来の結果を予測する必要がある。 さらに、彼らの決定は、安全で信頼できる共存のために人間に解釈されることがますます求められている。 本論文は, 解釈可能な学習型ロボット制御への第一歩である。 時系列データから時間論理構造を持つバイナリ分類器を生成するために,逐次式と予測学習という新たな学習問題を導入する。 分類器は、その満足度に対する信号時間論理(STL)公式と予測器のペアとして表現される。 インクリメンタルプロパティは、時間とともに現れるプレフィックス信号のラベルの予測を提供する。 本研究では,弱いが計算コストが安い学習者を活用して,予測と実行時の性能を向上させる決定木アルゴリズムを提案する。 本アルゴリズムの有効性と分類精度を,自律走行および海軍監視事例研究で評価した。

Many autonomous systems, such as robots and self-driving cars, involve real-time decision making in complex environments, and require prediction of future outcomes from limited data. Moreover, their decisions are increasingly required to be interpretable to humans for safe and trustworthy co-existence. This paper is a first step towards interpretable learning-based robot control. We introduce a novel learning problem, called incremental formula and predictor learning, to generate binary classifiers with temporal logic structure from time-series data. The classifiers are represented as pairs of Signal Temporal Logic (STL) formulae and predictors for their satisfaction. The incremental property provides prediction of labels for prefix signals that are revealed over time. We propose a boosted decision-tree algorithm that leverages weak, but computationally inexpensive, learners to increase prediction and runtime performance. The effectiveness and classification accuracy of our algorithms are evaluated on autonomous-driving and naval surveillance case studies.
翻訳日:2021-05-26 13:44:35 公開日:2021-05-24
# ディープニューラルネットワークによるハイブリッド分析とモデリングのための補正ソース項アプローチ

Deep neural network enabled corrective source term approach to hybrid analysis and modeling ( http://arxiv.org/abs/2105.11521v1 )

ライセンス: Link先を確認
Sindre Stenen Blakseth and Adil Rasheed and Trond Kvamsdal and Omer San(参考訳) ハイブリッド分析モデリング(Hybrid Analysis and Modeling, HAM)は、物理に基づくモデリング(PBM)とデータ駆動モデリング(DDM)を組み合わせて、一般化可能で信頼性が高く、正確で、計算効率が良く、自己進化的なモデルを作成することを目的とした、新しいモデリングパラダイムである。 本稿では,深層ニューラルネットワーク(DNN)によって生成された補正元項を用いて,PBMモデルの制御方程式を強化するHAM -- Corrective Source Term Approach (CoSTA) -- の新たなアプローチを紹介し,正当化し,実証する。 一次元の熱拡散に関する一連の数値実験において、CoSTAは一般的に、DDMとPBMのモデルに匹敵する精度(しばしば予測誤差を桁違いに減少させる)で優れ、純粋なDDMよりも良く一般化する。 costaは柔軟性と強固な理論的基盤のため、pbmとddmの両方で新たな開発を活用するためのモジュラーフレームワークを提供しており、pbmパラダイムにおけるdnn生成のソース用語の解釈可能性によって、データ駆動技術が以前は純粋なpbmのために予約されていた高スループットアプリケーションに入るための扉を開く可能性がある。

Hybrid Analysis and Modeling (HAM) is an emerging modeling paradigm which aims to combine physics-based modeling (PBM) and data-driven modeling (DDM) to create generalizable, trustworthy, accurate, computationally efficient and self-evolving models. Here, we introduce, justify and demonstrate a novel approach to HAM -- the Corrective Source Term Approach (CoSTA) -- which augments the governing equation of a PBM model with a corrective source term generated by a deep neural network (DNN). In a series of numerical experiments on one-dimensional heat diffusion, CoSTA is generally found to outperform comparable DDM and PBM models in terms of accuracy -- often reducing predictive errors by several orders of magnitude -- while also generalizing better than pure DDM. Due to its flexible but solid theoretical foundation, CoSTA provides a modular framework for leveraging novel developments within both PBM and DDM, and due to the interpretability of the DNN-generated source term within the PBM paradigm, CoSTA can be a potential door-opener for data-driven techniques to enter high-stakes applications previously reserved for pure PBM.
翻訳日:2021-05-26 13:44:10 公開日:2021-05-24
# (参考訳) ネガティブ学習による深部視覚異常検出 [全文訳有]

Deep Visual Anomaly detection with Negative Learning ( http://arxiv.org/abs/2105.11058v1 )

ライセンス: CC BY 4.0
Jin-Ha Lee, Marcella Astrid, Muhammad Zaigham Zaheer, Seung-Ik Lee(参考訳) 深層畳み込みに基づくアーキテクチャの学習能力の向上に伴い、このようなモデルの様々な応用が提案されている。 異常検出の分野では、深層学習の改善が、データ収集の労働集約的特徴を自動化しようとする研究者の新たな探究の新たな可能性を開いた。 まず、データ収集の観点からは、特定の環境に存在する可能性のあるすべての異常を予測できない。 第二に、異常の可能性を制限すると仮定すると、モデルをトレーニングするためにこれらのシナリオをすべて記録することは難しいでしょう。 第三に、大量の異常データを記録できたとしても、このデータをピクセルやフレームレベルでアノテートするのは手間がかかります。 正規データのみに基づいてトレーニングされた生成モデルを用いた1クラス分類の提案により、様々なアプローチがこの問題に対処している。 このような方法では、通常のデータのみを使用し、十分に利用でき、重要な人間の入力を必要としない。 しかし、これらは通常のデータのみで訓練され、テスト時には、入力として異常なデータが与えられた場合、通常に見える出力を生成することがある。 これは生成モデルの幻覚特性によって起こる。 次に、これらのシステムはトレーニング中に異常な例を使用しないように設計されている。 本稿では,非常に少数のラベル付き異常データをトレーニング中の正規データと比較することにより,異常検出の強化に負の学習概念を用いる,負の学習を伴う異常検出(ADNL)を提案する。 その考え方は、与えられた少量の異常例を用いて生成モデルの再構成能力を制限することである。 このようにして、ネットワークは正規データを再構築するだけでなく、異常の分布から遠く離れた正規分布を包含する。

With the increase in the learning capability of deep convolution-based architectures, various applications of such models have been proposed over time. In the field of anomaly detection, improvements in deep learning opened new prospects of exploration for the researchers whom tried to automate the labor-intensive features of data collection. First, in terms of data collection, it is impossible to anticipate all the anomalies that might exist in a given environment. Second, assuming we limit the possibilities of anomalies, it will still be hard to record all these scenarios for the sake of training a model. Third, even if we manage to record a significant amount of abnormal data, it's laborious to annotate this data on pixel or even frame level. Various approaches address the problem by proposing one-class classification using generative models trained on only normal data. In such methods, only the normal data is used, which is abundantly available and doesn't require significant human input. However, these are trained with only normal data and at the test time, given abnormal data as input, may often generate normal-looking output. This happens due to the hallucination characteristic of generative models. Next, these systems are designed to not use abnormal examples during the training. In this paper, we propose anomaly detection with negative learning (ADNL), which employs the negative learning concept for the enhancement of anomaly detection by utilizing a very small number of labeled anomaly data as compared with the normal data during training. The idea is to limit the reconstruction capability of a generative model using the given a small amount of anomaly examples. This way, the network not only learns to reconstruct normal data but also encloses the normal distribution far from the possible distribution of anomalies.
翻訳日:2021-05-26 05:22:10 公開日:2021-05-24
# (参考訳) MultiFair: 機械学習におけるマルチグループフェアネス [全文訳有]

MultiFair: Multi-Group Fairness in Machine Learning ( http://arxiv.org/abs/2105.11069v1 )

ライセンス: CC BY 4.0
Jian Kang, Tiankai Xie, Xintao Wu, Ross Maciejewski, Hanghang Tong(参考訳) データマイニングや機械学習では、アルゴリズム的公平性がますます重要になってきており、最も基本的な概念の1つがグループフェアネスである。 グループフェアネスに関する既存の研究の大部分は、主に、複数のセンシティブな属性(例えば、性別、人種、結婚状態など)が共存しているにもかかわらず、単一のセンシティブな属性に対する嫌悪感に焦点を当てている。 現実世界では普通です。 このようにして、関心のあるすべての敏感な属性に対して公平な学習結果を保証する方法を同時に開発する必要がある。 本稿では,複数の興味を持つ属性によって形成された集団間で,代表的集団フェアネス尺度である統計パリティが保証される機械学習(multifair)における多集団フェアネスについて検討する。 相互情報最小化問題として定式化し,それを解決するための汎用的なエンドツーエンドアルゴリズムフレームワークを提案する。 鍵となるアイデアは、学習結果と繊細な属性の間の変動分布と、変動分布と元の分布の間の密度比を考える相互情報の変動表現を活用することである。 提案するフレームワークは,他の統計的フェアネス概念を含む様々な設定に一般化可能であり,グラデーションに基づくオプティマイザを備えた任意の学習タスクを処理可能である。 3つの実世界のデータセットにおける公平な分類タスクにおける経験的評価は,提案手法が分類精度にほとんど影響を与えず,効果的に分類結果を識別できることを実証する。

Algorithmic fairness is becoming increasingly important in data mining and machine learning, and one of the most fundamental notions is group fairness. The vast majority of the existing works on group fairness, with a few exceptions, primarily focus on debiasing with respect to a single sensitive attribute, despite the fact that the co-existence of multiple sensitive attributes (e.g., gender, race, marital status, etc.) in the real-world is commonplace. As such, methods that can ensure a fair learning outcome with respect to all sensitive attributes of concern simultaneously need to be developed. In this paper, we study multi-group fairness in machine learning (MultiFair), where statistical parity, a representative group fairness measure, is guaranteed among demographic groups formed by multiple sensitive attributes of interest. We formulate it as a mutual information minimization problem and propose a generic end-to-end algorithmic framework to solve it. The key idea is to leverage a variational representation of mutual information, which considers the variational distribution between learning outcomes and sensitive attributes, as well as the density ratio between the variational and the original distributions. Our proposed framework is generalizable to many different settings, including other statistical notions of fairness, and could handle any type of learning task equipped with a gradient-based optimizer. Empirical evaluations in the fair classification task on three real-world datasets demonstrate that our proposed framework can effectively debias the classification results with minimal impact to the classification accuracy.
翻訳日:2021-05-26 05:07:30 公開日:2021-05-24
# (参考訳) AFT近似器としてのハイブリッドMKNF知識ベース用固定点演算子 [全文訳有]

Alternating Fixpoint Operator for Hybrid MKNF Knowledge Bases as an Approximator of AFT ( http://arxiv.org/abs/2105.11071v1 )

ライセンス: CC BY 4.0
Fangfang Liu and Jia-huai You(参考訳) 近似不動点理論(AFT)は、ビラティクス上の作用素の固定点の研究のための代数的フレームワークを提供し、様々な論理プログラムや非単調言語に対する意味論のキャラクタリゼーションにその応用を見出した。 本稿では、Knorr et al による交互固定点作用素という、このタイプの別の応用について述べる。 ハイブリッドMKNF知識ベースのための十分に確立されたセマンティクスの研究は、事実、AFTの擬似近似であり、AFTの抽象化の力により、十分に確立されたセマンティクスだけでなく、2値のセマンティクス、ハイブリッドMKNF知識ベースのための3値のセマンティクスを特徴付ける。 さらに,これらの知識ベースに対する近似器の改良を行い,Knorrらにより定式化された情報よりも最も安定した固定点が情報豊かであることを示す。 建設だ これにより、確立されたセマンティクスの計算が改善される。 この研究は、ハイブリッドMKNF知識基盤の文脈で生じる矛盾に対処するため、誘導された製品ビラティキにおける一貫性と一貫性のないペアをサポートするAFTの拡張の上に構築されている。 この研究のこの部分は、元の AFT を対称近似器から任意の近似器へ一般化すると考えることができる。

Approximation fixpoint theory (AFT) provides an algebraic framework for the study of fixpoints of operators on bilattices and has found its applications in characterizing semantics for various classes of logic programs and nonmonotonic languages. In this paper, we show one more application of this kind: the alternating fixpoint operator by Knorr et al. for the study of the well-founded semantics for hybrid MKNF knowledge bases is in fact an approximator of AFT in disguise, which, thanks to the power of abstraction of AFT, characterizes not only the well-founded semantics but also two-valued as well as three-valued semantics for hybrid MKNF knowledge bases. Furthermore, we show an improved approximator for these knowledge bases, of which the least stable fixpoint is information richer than the one formulated from Knorr et al.'s construction. This leads to an improved computation for the well-founded semantics. This work is built on an extension of AFT that supports consistent as well as inconsistent pairs in the induced product bilattice, to deal with inconsistencies that arise in the context of hybrid MKNF knowledge bases. This part of the work can be considered generalizing the original AFT from symmetric approximators to arbitrary approximators.
翻訳日:2021-05-26 04:33:22 公開日:2021-05-24
# (参考訳) 空中物体検出のための指向性RepPoint [全文訳有]

Oriented RepPoints for Aerial Object Detection ( http://arxiv.org/abs/2105.11111v1 )

ライセンス: CC BY 4.0
Wentong Li, Jianke Zhu(参考訳) 向き付けられた境界ボックスとは対照的に、点集合表現は任意の向き、大きなアスペクト比、空中画像の密度分布を持つインスタンスの詳細な構造を捉える大きな可能性を持つ。 しかし、従来のポイントセットに基づくアプローチは、ポイントツーポイントの監督を用いて固定位置で手作りされており、細粒度特徴抽出の柔軟性を損なう。 これらの制約に対処するため,本論文では,オブジェクト指向RepPointsという,空中物体検出のための新しいアプローチを提案する。 具体的には,任意の向きの物体の幾何学的・空間的情報を捉え,空間的・意味的なシナリオで自動的に物体上に配置できる適応点の組を採用することを提案する。 教師付き学習を容易にするために,適応点を配向境界ボックスに明示的にマッピングする指向変換関数を提案する。 さらに,向き付けされた物体検出のポテンシャルに関して代表項目を選択できる訓練用点集合標本を選択するための効果的な品質評価手法を提案する。 さらに, 接地箱の外側の異常点をペナライズするための空間制約を提案する。 重なり比に着目した従来の評価メートル法マップに加えて,従来の指向性物体検出研究では無視される方向精度を測定するための新しいメートル法maoeを提案する。 DOTA、HRSC2016、UCAS-AODを含む3つの広く利用されているデータセットの実験により、提案手法が有効であることを実証した。

In contrast to the oriented bounding boxes, point set representation has great potential to capture the detailed structure of instances with the arbitrary orientations, large aspect ratios and dense distribution in aerial images. However, the conventional point set-based approaches are handcrafted with the fixed locations using points-to-points supervision, which hurts their flexibility on the fine-grained feature extraction. To address these limitations, in this paper, we propose a novel approach to aerial object detection, named Oriented RepPoints. Specifically, we suggest to employ a set of adaptive points to capture the geometric and spatial information of the arbitrary-oriented objects, which is able to automatically arrange themselves over the object in a spatial and semantic scenario. To facilitate the supervised learning, the oriented conversion function is proposed to explicitly map the adaptive point set into an oriented bounding box. Moreover, we introduce an effective quality assessment measure to select the point set samples for training, which can choose the representative items with respect to their potentials on orientated object detection. Furthermore, we suggest a spatial constraint to penalize the outlier points outside the ground-truth bounding box. In addition to the traditional evaluation metric mAP focusing on overlap ratio, we propose a new metric mAOE to measure the orientation accuracy that is usually neglected in the previous studies on oriented object detection. Experiments on three widely used datasets including DOTA, HRSC2016 and UCAS-AOD demonstrate that our proposed approach is effective.
翻訳日:2021-05-26 03:22:07 公開日:2021-05-24
# (参考訳) 自己組織化ネットワークは有界階層言語を処理できる [全文訳有]

Self-Attention Networks Can Process Bounded Hierarchical Languages ( http://arxiv.org/abs/2105.11115v1 )

ライセンス: CC BY 4.0
Shunyu Yao, Binghui Peng, Christos Papadimitriou, Karthik Narasimhan(参考訳) NLPの性能は優れていたが、最近、$\mathsf{Dyck}_k$のような階層構造を持つ形式言語を処理するために、自己注意型ネットワークが制限されていることが証明された。 このことは、形式言語には弱すぎるモデルで自然言語をよく近似できる、あるいは自然言語における階層と再帰の役割が制限されるかもしれないことを示唆している。 自己アテンションネットワークが$\mathsf{Dyck}_{k, D}$, $\mathsf{Dyck}_{k}$のサブセットを$D$で束縛し、自然言語の有界階層構造をよりよく捉えることができることを証明することによって、この意味を証明できる。 具体的には、$d+1$のレイヤと$o(\log k)$のメモリサイズ(層当たりトークン)のハードアテンションネットワークを構築し、$\mathsf{dyck}_{k, d}$を認識し、2つのレイヤと$o(\log k)$のメモリサイズを持つソフトアテンションネットワークで$\mathsf{dyck}_{k, d}$を生成する。 実験により、$\mathsf{Dyck}_{k, D}$でトレーニングされた自己注意ネットワークは、ほぼ完全な精度でより長い入力を一般化し、また、繰り返しネットワークよりも自己注意ネットワークの理論的利点を検証する。

Despite their impressive performance in NLP, self-attention networks were recently proved to be limited for processing formal languages with hierarchical structure, such as $\mathsf{Dyck}_k$, the language consisting of well-nested parentheses of $k$ types. This suggested that natural language can be approximated well with models that are too weak for formal languages, or that the role of hierarchy and recursion in natural language might be limited. We qualify this implication by proving that self-attention networks can process $\mathsf{Dyck}_{k, D}$, the subset of $\mathsf{Dyck}_{k}$ with depth bounded by $D$, which arguably better captures the bounded hierarchical structure of natural language. Specifically, we construct a hard-attention network with $D+1$ layers and $O(\log k)$ memory size (per token per layer) that recognizes $\mathsf{Dyck}_{k, D}$, and a soft-attention network with two layers and $O(\log k)$ memory size that generates $\mathsf{Dyck}_{k, D}$. Experiments show that self-attention networks trained on $\mathsf{Dyck}_{k, D}$ generalize to longer inputs with near-perfect accuracy, and also verify the theoretical memory advantage of self-attention networks over recurrent networks.
翻訳日:2021-05-26 02:47:24 公開日:2021-05-24
# (参考訳) 不均一文脈における虐待言語検出:データセット収集と監視注意の役割 [全文訳有]

Abusive Language Detection in Heterogeneous Contexts: Dataset Collection and the Role of Supervised Attention ( http://arxiv.org/abs/2105.11119v1 )

ライセンス: CC BY 4.0
Hongyu Gong, Alberto Valido, Katherine M. Ingram, Giulia Fanti, Suma Bhat, Dorothy L. Espelage(参考訳) 乱用言語は、オンラインソーシャルプラットフォームにおいて大きな問題である。 既存の乱用言語検出技術は、不均一な乱用言語パターンを含むコメントに特に適していない。 これは、乱用言語における不均一性を明示的に注釈するデータセットの欠如によるものである。 この課題に対処するため、YouTubeから11,000以上のコメントで、乱用言語の注釈付きデータセットを提供する。 このデータセットでは、コメント全体と各コメントを構成する個々の文を別々に注釈付けすることで、不均一性を説明できる。 次に,マルチタスク学習を用いた乱用コンテンツの検出と分類に教師付き注意機構を用いたアルゴリズムを提案する。 従来の手法を異種コンテンツに適用することの課題と,最先端手法に対する提案手法の性能比較について実証的な実証を行った。

Abusive language is a massive problem in online social platforms. Existing abusive language detection techniques are particularly ill-suited to comments containing heterogeneous abusive language patterns, i.e., both abusive and non-abusive parts. This is due in part to the lack of datasets that explicitly annotate heterogeneity in abusive language. We tackle this challenge by providing an annotated dataset of abusive language in over 11,000 comments from YouTube. We account for heterogeneity in this dataset by separately annotating both the comment as a whole and the individual sentences that comprise each comment. We then propose an algorithm that uses a supervised attention mechanism to detect and categorize abusive content using multi-task learning. We empirically demonstrate the challenges of using traditional techniques on heterogeneous content and the comparative gains in performance of the proposed approach over state-of-the-art methods.
翻訳日:2021-05-26 01:44:00 公開日:2021-05-24
# (参考訳) 差分プライバシー下における帯域のカスケード [全文訳有]

Cascading Bandit under Differential Privacy ( http://arxiv.org/abs/2105.11126v1 )

ライセンス: CC BY 4.0
Kun Wang, Jing Dong, Baoxiang Wang, Shuai Li, Shuo Shao(参考訳) 本稿では,カスケード包帯における \emph{differential privacy (DP) と \emph{local differential privacy (LDP) について検討する。 dp の下では、任意に小さい $\xi$ に対して $\epsilon$-indisting uishability と $\mathcal{o}((\frac{\log t}{\epsilon})^{1+\xi}) の後悔を保証するアルゴリズムを提案する。 これは以前の $\mathcal{O}(\frac{\log^3 T}{\epsilon})$ regret よりも大幅に改善されている。 $\epsilon$,$\delta$) -LDPの下で、プライバシー予算$\epsilon$とエラー確率$\delta$の間のトレードオフを通じて$K^2$依存を緩和し、$\mathcal{O}(\frac{K\log (1/\delta) \log T}{\epsilon^2})$の後悔を得る。 この結果は、組成の分析によりガウス機構とラプラス機構の両方が成り立つ。 結果は組合せ半帯域まで及んでいる。 DP および LDP カスケードバンドのそれぞれ下限を示す。 広範な実験は私たちの理論的な発見と一致している。

This paper studies \emph{differential privacy (DP)} and \emph{local differential privacy (LDP)} in cascading bandits. Under DP, we propose an algorithm which guarantees $\epsilon$-indisting uishability and a regret of $\mathcal{O}((\frac{\log T}{\epsilon})^{1+\xi})$ for an arbitrarily small $\xi$. This is a significant improvement from the previous work of $\mathcal{O}(\frac{\log^3 T}{\epsilon})$ regret. Under ($\epsilon$,$\delta$ )-LDP, we relax the $K^2$ dependence through the tradeoff between privacy budget $\epsilon$ and error probability $\delta$, and obtain a regret of $\mathcal{O}(\frac{K\log (1/\delta) \log T}{\epsilon^2})$, where $K$ is the size of the arm subset. This result holds for both Gaussian mechanism and Laplace mechanism by analyses on the composition. Our results extend to combinatorial semi-bandit. We show respective lower bounds for DP and LDP cascading bandits. Extensive experiments corroborate our theoretic findings.
翻訳日:2021-05-26 01:20:15 公開日:2021-05-24
# (参考訳) 機械読解モデルにおける逆攻撃による統計的バイアスの解明 [全文訳有]

Using Adversarial Attacks to Reveal the Statistical Bias in Machine Reading Comprehension Models ( http://arxiv.org/abs/2105.11136v1 )

ライセンス: CC BY 4.0
Jieyu Lin, Jiajie Zou and Nai Ding(参考訳) 事前学習された言語モデルは、多くのMachine Reading Comprehension (MRC)タスクで人間レベルのパフォーマンスを達成したが、これらのモデルが本当に言語を理解しているのか、データセットの統計的バイアスを利用して質問に答えているのかは不明だ。 本稿では,mrcモデルに対する単純かつ効果的な手法を示し,モデル内の統計的バイアスを明らかにする。 提案手法を RACE データセットに適用し,各 MRC 質問に対する回答を 4 つの選択肢から選択する。 BERT、ALBERT、RoBERTaなど、事前訓練済みの言語モデルでは、これらのオプションが問題に無関係である場合でも、いくつかのオプションに対して一貫した優先順位を示す。 これらの無関係な選択肢に干渉すると、RCモデルの性能は人間レベルの性能からチャンスレベルの性能まで低下させることができる。 しかし、人間読者はこれらの無関係な選択肢の影響を受けていない。 最後に,モデルの統計的バイアスを大幅に低減できる拡張トレーニング手法を提案する。

Pre-trained language models have achieved human-level performance on many Machine Reading Comprehension (MRC) tasks, but it remains unclear whether these models truly understand language or answer questions by exploiting statistical biases in datasets. Here, we demonstrate a simple yet effective method to attack MRC models and reveal the statistical biases in these models. We apply the method to the RACE dataset, for which the answer to each MRC question is selected from 4 options. It is found that several pre-trained language models, including BERT, ALBERT, and RoBERTa, show consistent preference to some options, even when these options are irrelevant to the question. When interfered by these irrelevant options, the performance of MRC models can be reduced from human-level performance to the chance-level performance. Human readers, however, are not clearly affected by these irrelevant options. Finally, we propose an augmented training method that can greatly reduce models' statistical biases.
翻訳日:2021-05-26 00:47:58 公開日:2021-05-24
# (参考訳) harmless but useful: beyond separable equal constraints in datalog+/ [全文訳有]

Harmless but Useful: Beyond Separable Equality Constraints in Datalog+/- ( http://arxiv.org/abs/2105.11147v1 )

ライセンス: CC BY 4.0
Luigi Bellomarini, Emanuel Sallinger(参考訳) オントロジークエリ応答は、関心領域を表すスキーマ制約の存在下でクエリに応答する問題である。 Datalog+/は、タプル生成依存性(TGD)や平等生成依存性(EGD)など、スキーマ制約のための共通言語である。 TGDとEGDの相互作用は、Warded Datalog+/-のようなトラクタブルなDatalog+/fragmentsにEGDを追加する際のクエリ応答の不決定性や難解性をもたらす。 TGDとEGDの相互作用を制限し、トラクタビリティ、特に分離可能なEGDの導入によって、制約の集合が満たされる限り、クエリ応答にEGDを無関係にする試みがある。 扱いやすいが、分離可能なegdは表現力に制限がある。 より一般的な EGD クラスを提案し、これは '`harmless'' と呼ばれ、分離可能な EGD をサブセットし、より広範な問題のクラスをモデル化することができる。 分離可能なegdとは異なり、harmless egdは基底的平等制約を強制するだけでなく、tgdsで存在量化によって導入されたラベル付きヌルを接地または改名することでクエリ応答を特殊化する。 無害なEGDは、EGDの存在下で得られた答えがTGDで得られたものよりも一般的でない場合に捕獲する。 制約の集合が無害なegdを含むかどうかを判断する理論的問題は決定不能である。 我々は,無害なegdを特徴付ける十分な構文条件に寄与する。 我々は、無害なEGDを持つWarded Datalog+/-に注目し、そのような断片的なクエリ応答は決定可能であり、PTIMEはデータ複雑性において決定可能であると論じる。 我々は,無害なEGDを用いたWarded Datalog+/-における問合せ応答のためのチェイスベース手法について検討した。

Ontological query answering is the problem of answering queries in the presence of schema constraints representing the domain of interest. Datalog+/- is a common family of languages for schema constraints, including tuple-generating dependencies (TGDs) and equality-generating dependencies (EGDs). The interplay of TGDs and EGDs leads to undecidability or intractability of query answering when adding EGDs to tractable Datalog+/- fragments, like Warded Datalog+/-, for which, in the sole presence of TGDs, query answering is PTIME in data complexity. There have been attempts to limit the interaction of TGDs and EGDs and guarantee tractability, in particular with the introduction of separable EGDs, to make EGDs irrelevant for query answering as long as the set of constraints is satisfied. While being tractable, separable EGDs have limited expressive power. We propose a more general class of EGDs, which we call ``harmless'', that subsume separable EGDs and allow to model a much broader class of problems. Unlike separable EGDs, harmless EGDs, besides enforcing ground equality constraints, specialize the query answer by grounding or renaming the labelled nulls introduced by existential quantification in the TGDs. Harmless EGDs capture the cases when the answer obtained in the presence of EGDs is less general than the one obtained with TGDs only. We conclude that the theoretical problem of deciding whether a set of constraints contains harmless EGDs is undecidable. We contribute a sufficient syntactic condition characterizing harmless EGDs, broad and useful in practice. We focus on Warded Datalog+/- with harmless EGDs and argue that, in such fragment, query answering is decidable and PTIME in data complexity. We study chase-based techniques for query answering in Warded Datalog+/- with harmless EGDs, conducive to an efficient algorithm to be implemented in state-of-the-art reasoners.
翻訳日:2021-05-26 00:33:18 公開日:2021-05-24
# (参考訳) 入力摂動とサブセット走査を用いた皮膚科領域の分布外検出 [全文訳有]

Out-of-Distribution Detection in Dermatology using Input Perturbation and Subset Scanning ( http://arxiv.org/abs/2105.11160v1 )

ライセンス: CC BY 4.0
Hannah Kim, Girmaw Abebe Tadesse, Celia Cintas, Skyler Speakman, Kush Varshney(参考訳) 近年のディープラーニングの進歩は、皮膚疾患の自動分類の開発にブレークスルーをもたらした。 皮膚科領域におけるこれらのモデルへの関心が高まる中、入力データ分布シフトに対するロバスト性などの側面に取り組むことが重要である。 現在の皮膚疾患モデルでは、異なるハードウェア装置からの検査サンプルや、トレーニングサンプルからの配布外(OOD)である未知の疾患サンプルに対して、誤った推論を行うことが可能であり、このため、決定する前にこれらのOODサンプルを検出するための、単純で効果的なアプローチを提案する。 この検出は潜伏空間表現(例えば、事前訓練された皮膚疾患分類器の内部層の活性化)の走査によって行われる。 入力サンプルはまた、OODサンプルの発散を最大化するために摂動することもできる。 1)異なるプロトコルから収集したサンプルを同定し,2)未知の疾患クラスからのサンプルを検出する。 さらに,提案手法の性能評価を行い,他の最先端手法と比較する。 さらに、データ駆動皮膚科学の応用は、ほとんどのデータセットが皮膚トーン分布のバイアスを被っていると報告されているため、人種および民族間の臨床ケアの格差を深くする可能性がある。 そこで本研究では,これらのOOD検出手法の皮膚音に対する公平性についても検討した。 実験の結果、OODサンプルの検出において複数のデータセット間で競合性能が得られ、これらのサンプルを推測する前により効果的な転送学習手法を設計するために(将来的に)使用できることがわかった。

Recent advances in deep learning have led to breakthroughs in the development of automated skin disease classification. As we observe an increasing interest in these models in the dermatology space, it is crucial to address aspects such as the robustness towards input data distribution shifts. Current skin disease models could make incorrect inferences for test samples from different hardware devices and clinical settings or unknown disease samples, which are out-of-distribution (OOD) from the training samples.To this end, we propose a simple yet effective approach that detect these OOD samples prior to making any decision. The detection is performed via scanning in the latent space representation (e.g., activations of the inner layers of any pre-trained skin disease classifier). The input samples could also perturbed to maximise divergence of OOD samples. We validate our ODD detection approach in two use cases: 1) identify samples collected from different protocols, and 2) detect samples from unknown disease classes. Additionally, we evaluate the performance of the proposed approach and compare it with other state-of-the-art methods. Furthermore, data-driven dermatology applications may deepen the disparity in clinical care across racial and ethnic groups since most datasets are reported to suffer from bias in skin tone distribution. Therefore, we also evaluate the fairness of these OOD detection methods across different skin tones. Our experiments resulted in competitive performance across multiple datasets in detecting OOD samples, which could be used (in the future) to design more effective transfer learning techniques prior to inferring on these samples.
翻訳日:2021-05-25 23:27:00 公開日:2021-05-24
# (参考訳) コンテキスト保存テキストの簡易化 [全文訳有]

Context-Preserving Text Simplification ( http://arxiv.org/abs/2105.11178v1 )

ライセンス: CC BY 4.0
Christina Niklaus, Matthias Cetto, Andr\'e Freitas, Siegfried Handschuh(参考訳) 本稿では,複雑な英語文を意味的階層に再帰的に分割,再現する,文脈保存型テキスト簡易化(ts)手法を提案する。 言語学的に原則化された変換パターンの集合を用いて、入力文は、修辞的関係を通じてリンクされる中心文と付随する文脈の形式で階層的な表現に変換される。 したがって,従来提案されていた文分割アプローチとは対照的に,TS手法では,出力中の分解成分の意味的関係を保っている。 RST-DTに含まれるアノテーションとの比較分析により,分割文間の文脈的階層を89%の精度で捉え,それらの間に保持される修辞関係の分類において平均69%の精度で到達できることが示された。

We present a context-preserving text simplification (TS) approach that recursively splits and rephrases complex English sentences into a semantic hierarchy of simplified sentences. Using a set of linguistically principled transformation patterns, input sentences are converted into a hierarchical representation in the form of core sentences and accompanying contexts that are linked via rhetorical relations. Hence, as opposed to previously proposed sentence splitting approaches, which commonly do not take into account discourse-level aspects, our TS approach preserves the semantic relationship of the decomposed constituents in the output. A comparative analysis with the annotations contained in the RST-DT shows that we are able to capture the contextual hierarchy between the split sentences with a precision of 89% and reach an average precision of 69% for the classification of the rhetorical relations that hold between them.
翻訳日:2021-05-25 23:05:49 公開日:2021-05-24
# (参考訳) スマートモバイル顕微鏡:完全自動デジタル化に向けて [全文訳有]

Smart mobile microscopy: towards fully-automated digitization ( http://arxiv.org/abs/2105.11179v1 )

ライセンス: CC BY-SA 4.0
A. Kornilova, I. Kirilenko, D. Iarosh, V. Kutuev, M. Strutovsky(参考訳) モバイル顕微鏡は、光学顕微鏡の能力と拡散、機能、そしてモバイルデバイスのコンピューティングリソースの増大の組み合わせから生まれた、新しく形成された分野である。 顕微鏡、多数のコンピュータビジョン法、モバイルデバイスを定期的に検査するシステムを構築するというアイデアにもかかわらず、結果として得られた実装は、標本のデジタル化を制御する資格のあるオペレーターの存在を必要とする。 本稿では,この制約を克服する課題に対処し,標本に関する最も重要な視覚情報の自動デジタル化を目的とした,‘smart’ 移動型顕微鏡のコンセプトを提案する。 我々は、自動顕微鏡セットアップ制御と、オートフォーカス、インフォーカスフィルタリング、フォーカススタックといった古典的なテクニックを組み合わせることで、これを実行します。

Mobile microscopy is a newly formed field that emerged from a combination of optical microscopy capabilities and spread, functionality, and ever-increasing computing resources of mobile devices. Despite the idea of creating a system that would successfully merge a microscope, numerous computer vision methods, and a mobile device is regularly examined, the resulting implementations still require the presence of a qualified operator to control specimen digitization. In this paper, we address the task of surpassing this constraint and present a ``smart'' mobile microscope concept aimed at automatic digitization of the most valuable visual information about the specimen. We perform this through combining automated microscope setup control and classic techniques such as auto-focusing, in-focus filtering, and focus-stacking -- adapted and optimized as parts of a mobile cross-platform library.
翻訳日:2021-05-25 22:37:47 公開日:2021-05-24
# (参考訳) 油-水流パターン同定のためのファジィ推論システム [全文訳有]

Fuzzy inference system application for oil-water flow patterns identification ( http://arxiv.org/abs/2105.11181v1 )

ライセンス: CC BY 4.0
Yuyan Wu, Haimin Guo, Hongwei Song, Rui Deng(参考訳) 石油産業の継続的な発展により、石油とガスの長距離輸送が一般的となった。 水平井戸の重力差と高度にずれた井戸(非垂直井戸)により、パイプラインの底面の水相はパイプラインのスケーリングと腐食を引き起こす。 スケーリングと腐食により輸送プロセスが困難になり、輸送コストが大幅に増加する。 したがって, 油水二相流パターンの研究は, 石油生産にとって非常に重要である。 本稿では,ファジィ推論システムを用いて流体の流れパターンを予測し,予測結果を取得し,BPニューラルネットワークの予測結果と比較する。 その結果,ファジィ推論システムの予測結果は,bpニューラルネットワークの予測結果よりも正確かつ信頼性が高いことがわかった。 同時に、リアルタイム監視を実現し、エラー制御を少なくする。 実験の結果,非垂直井戸の全生産検層プロセスにおいて,ファジィ推論システムを用いて流動パターンを予測すれば,製造設備の安全運転を確保しつつ,生産コストを大幅に削減できることがわかった。

With the continuous development of the petroleum industry, long-distance transportation of oil and gas has been the norm. Due to gravity differentiation in horizontal wells and highly deviated wells (non-vertical wells), the water phase at the bottom of the pipeline will cause scaling and corrosion in the pipeline. Scaling and corrosion will make the transportation process difficult, and transportation costs will be considerably increased. Therefore, the study of the oil-water two-phase flow pattern is of great importance to oil production. In this paper, a fuzzy inference system is used to predict the flow pattern of the fluid, get the prediction result, and compares it with the prediction result of the BP neural network. From the comparison of the results, we found that the prediction results of the fuzzy inference system are more accurate and reliable than the prediction results of the BP neural network. At the same time, it can realize real-time monitoring and has less error control. Experimental results demonstrate that in the entire production logging process of non-vertical wells, the use of a fuzzy inference system to predict fluid flow patterns can greatly save production costs while ensuring the safe operation of production equipment.
翻訳日:2021-05-25 22:15:08 公開日:2021-05-24
# (参考訳) コンピュータ断層撮影による肺塞栓症の診断 : 深層学習技術を用いた検討 [全文訳有]

Pulmonary embolism identification in computerized tomography pulmonary angiography scans with deep learning technologies in COVID-19 patients ( http://arxiv.org/abs/2105.11187v1 )

ライセンス: CC BY 4.0
Chairi Kiourt, Georgios Feretzakis, Konstantinos Dalamarinis, Dimitris Kalles, Georgios Pantos, Ioannis Papadopoulos, Spyros Kouris, George Ioannakis, Evangelos Loupelis, Aikaterini Sakagianni(参考訳) 本研究の主な目的は、新型コロナウイルス患者のCTPA-Scansにおける肺塞栓症の診断に最先端の深層学習アプローチを利用し、そのパフォーマンスを初期評価し、最終的には高速トラックプロトタイプソリューション(システム)を提供することである。 我々は、モデル精度と高速トレーニングを組み合わせるために、トランスファーラーニングアプローチを通じて最も人気のある畳み込みニューラルネットワークアーキテクチャを採用し、評価した。 さらに,肺塞栓領域(関心領域)の局在化(対象検出)において,最も人気のある一段階検出モデルの一つを利用した。 いずれのアプローチもCTPA-Scanデータセットを用いてトレーニングし,673個のCTPA-Scan画像に1,465個のバウンディングボックスをアノテートした。 肺塞栓症分類における91%の妥当性を検証し,最先端画像分類モデルの簡易評価を行った。 また, 50%のiou閾値下での肺塞栓症局在に対する対象検出モデルでは, 平均で約68%の精度を示した。 どちらのアプローチも、将来の研究のためのトレーニングパイプライン全体(ソースコードによるステップバイステッププロセス)を提供しています。 本研究では,CTPA-Scans画像における肺塞栓症同定のための最も正確かつ高速な深層学習モデルについて,COVID-19感染患者の分類と局所化(物体検出)アプローチを用いて紹介する。 本研究は,肺塞栓症の診断精度を向上させるために,分類モデルと物体検出モデルを組み合わせた地域研究コミュニティのための高速追跡ソリューション(システム)を提供する。

The main objective of this work is to utilize state-of-the-art deep learning approaches for the identification of pulmonary embolism in CTPA-Scans for COVID-19 patients, provide an initial assessment of their performance and, ultimately, provide a fast-track prototype solution (system). We adopted and assessed some of the most popular convolutional neural network architectures through transfer learning approaches, to strive to combine good model accuracy with fast training. Additionally, we exploited one of the most popular one-stage object detection models for the localization (through object detection) of the pulmonary embolism regions-of-interests . The models of both approaches are trained on an original CTPA-Scan dataset, where we annotated of 673 CTPA-Scan images with 1,465 bounding boxes in total, highlighting pulmonary embolism regions-of-interests . We provide a brief assessment of some state-of-the-art image classification models by achieving validation accuracies of 91% in pulmonary embolism classification. Additionally, we achieved a precision of about 68% on average in the object detection model for the pulmonary embolism localization under 50% IoU threshold. For both approaches, we provide the entire training pipelines for future studies (step by step processes through source code). In this study, we present some of the most accurate and fast deep learning models for pulmonary embolism identification in CTPA-Scans images, through classification and localization (object detection) approaches for patients infected by COVID-19. We provide a fast-track solution (system) for the research community of the area, which combines both classification and object detection models for improving the precision of identifying pulmonary embolisms.
翻訳日:2021-05-25 22:00:54 公開日:2021-05-24
# (参考訳) チャットボットの人的評価のための基準基準に向けて:調査 [全文訳有]

Towards Standard Criteria for human evaluation of Chatbots: A Survey ( http://arxiv.org/abs/2105.11197v1 )

ライセンス: CC BY 4.0
Hongru Liang and Huaqing Li(参考訳) 人間の評価は、Chatbotのパフォーマンスをテストする必要がある。 しかし、オフセット設定は、非常に多様な基準のために、信頼性とレプリケーションの問題に苦しめられている。 標準の基準と正確な定義を考え出すのは時期尚早です。 そこで我々はChatbotsの人間評価に関する105の論文を網羅的に調査した。 このことから、正確な定義とともに5つの基準基準を提案する。

Human evaluation is becoming a necessity to test the performance of Chatbots. However, off-the-shelf settings suffer the severe reliability and replication issues partly because of the extremely high diversity of criteria. It is high time to come up with standard criteria and exact definitions. To this end, we conduct a through investigation of 105 papers involving human evaluation for Chatbots. Deriving from this, we propose five standard criteria along with precise definitions.
翻訳日:2021-05-25 21:39:59 公開日:2021-05-24
# (参考訳) 国規模でのオイルパーム密度のマッピング:アクティブラーニングアプローチ [全文訳有]

Mapping oil palm density at country scale: An active learning approach ( http://arxiv.org/abs/2105.11207v1 )

ライセンス: CC BY 4.0
Andr\'es C. Rodr\'iguez, Stefano D'Aronco, Konrad Schindler, Jan D.Wegner(参考訳) オイルパームの正確なマッピングは、その過去と将来の環境への影響を理解する上で重要である。 大規模解析のために,画素当たりの樹木密度を推定することにより,パームの地図化と計数を行う。 これにより、例えば異なるプランティングパターンに関して、きめ細かい分析が可能になる。 そこで我々は,Sentinel-2衛星画像から大規模にオイルパーム密度を推定し,マレーシアとインドネシアの完全な地図を作成するための,新しいアクティブな深層学習手法を提案する。 パーム密度の回帰が難しいのは、大きな領域のすべての関連する地理的条件をカバーする代表的参照データが必要であることである。 特に密度推定では、参照データの生成には個々の木を数えることが含まれる。 ラベル付けの労力を低く抑えるために,ラベル付けすべき最も関連性の高いサンプルを自動的に選択するアクティブラーニング(AL)アプローチを提案する。 本手法は,認識モデルの不確かさとサンプル間の多様性を推定し,関連するサンプルのバッチ全体を1回のイテレーションで取得することを可能にする。 さらに,本アルゴリズムは線形計算複雑性を持ち,大規模領域の並列化が容易である。 我々は,インドネシアとマレーシアの全地域と,2017年と2019年の2年間において,最初のオイルパーム密度マップを10,$mの地中サンプリング距離 (GSD) で計算した。 マップの平均絶対誤差は$\pm$7.3 tree/$ha$であり、独立した検証セットから推定される。 また、国内の異なる州間の密度変動を分析し、それを公式な推計と比較する。 われわれの推計によると、インドネシアでは合計で1.2億ドルのオイルパームが1500万ドル、マレーシアでは0.5億ドルのオイルパームが6億ドルのパームをカバーしている。

Accurate mapping of oil palm is important for understanding its past and future impact on the environment. We propose to map and count oil palms by estimating tree densities per pixel for large-scale analysis. This allows for fine-grained analysis, for example regarding different planting patterns. To that end, we propose a new, active deep learning method to estimate oil palm density at large scale from Sentinel-2 satellite images, and apply it to generate complete maps for Malaysia and Indonesia. What makes the regression of oil palm density challenging is the need for representative reference data that covers all relevant geographical conditions across a large territory. Specifically for density estimation, generating reference data involves counting individual trees. To keep the associated labelling effort low we propose an active learning (AL) approach that automatically chooses the most relevant samples to be labelled. Our method relies on estimates of the epistemic model uncertainty and of the diversity among samples, making it possible to retrieve an entire batch of relevant samples in a single iteration. Moreover, our algorithm has linear computational complexity and is easily parallelisable to cover large areas. We use our method to compute the first oil palm density map with $10\,$m Ground Sampling Distance (GSD) , for all of Indonesia and Malaysia and for two different years, 2017 and 2019. The maps have a mean absolute error of $\pm$7.3 trees/$ha$, estimated from an independent validation set. We also analyse density variations between different states within a country and compare them to official estimates. According to our estimates there are, in total, $>1.2$ billion oil palms in Indonesia covering $>$15 million $ha$, and $>0.5$ billion oil palms in Malaysia covering $>6$ million $ha$.
翻訳日:2021-05-25 21:10:51 公開日:2021-05-24
# (参考訳) 低遅延IoTアプリケーションのための状態情報交換を考慮した分散ハイブリッドMAC設計

Decentralized, Hybrid MAC Design with Reduced State Information Exchange for Low-Delay IoT Applications ( http://arxiv.org/abs/2105.11213v1 )

ライセンス: CC BY 4.0
Avinash Mohan, Arpan Chattopadhyay, Shivam Vinayak Vatsa, and Anurag Kumar(参考訳) 我々は,複数のコロケーションノードが時間スロット無線チャネルを共有するシステムを検討し, (i) 平均遅延が低く, (ii) 分散制御(中央スケジューラが存在しない), (iii) 状態情報や制御信号の明示的な交換を必要としないmacを求める。 このようなMACプロトコルの設計は、光トラフィックにおける競合アクセスと、大量のトラフィックにおけるスケジュールアクセスの必要性を念頭に置いておく必要がある。 まず、既存の分散化ハイブリッドMACであるZMACの単純な拡張であるEZMACを提案する。 次に、部分的に観測された制約付きキューイングネットワークにおける遅延とスループットの最適性に関する結果から、QZMACと呼ぶ別の分散MACプロトコルを開発した。 QZMACの短期的公正性を改善する手法を提案し解析し、得られた修正アルゴリズムはQZMACよりも優れた公正性を有することを示した。 遅延を低減するために開発された理論は、異なる交通タイプ(例えば、バッチ到着)で%動作し、送信エラーや高速フェーディングが存在する場合にも機能する。 時間クリティカルなトラフィック(例えば、アラーム)と隠れたノードを扱う拡張についても論じる。 クリアチャネルアセスメント(CCA)のエラー処理などの実践的な実装問題について概説する。 我々は、CC2420ベースのCrossbow telosB motesからなるテストベッド上でQZMACを実装し、2.4GHz ISM帯上のContikiオペレーティングシステム上で6TiSCH通信スタックを実行する。 最後に、シミュレーションを用いて、両プロトコルがZMACよりも平均遅延をはるかに低く達成し、QZMACは、この設定において達成可能な最小限の遅延、すなわち集中的な完全知識スケジューラに非常に近い平均遅延を提供することを示す。

We consider a system of several collocated nodes sharing a time slotted wireless channel, and seek a MAC that (i) provides low mean delay, (ii) has distributed control (i.e., there is no central scheduler), and (iii) does not require explicit exchange of state information or control signals. The design of such MAC protocols must keep in mind the need for contention access at light traffic, and scheduled access in heavy traffic, leading to the long-standing interest in hybrid, adaptive MACs. We first propose EZMAC, a simple extension of an existing decentralized, hybrid MAC called ZMAC. Next, motivated by our results on delay and throughput optimality in partially observed, constrained queuing networks, we develop another decentralized MAC protocol that we term QZMAC. A method to improve the short-term fairness of QZMAC is proposed and analysed, and the resulting modified algorithm is shown to possess better fairness properties than QZMAC. The theory developed to reduce delay is also shown to work %with different traffic types (batch arrivals, for example) and even in the presence of transmission errors and fast fading. Extensions to handle time critical traffic (alarms, for example) and hidden nodes are also discussed. Practical implementation issues, such as handling Clear Channel Assessment (CCA) errors, are outlined. We implement and demonstrate the performance of QZMAC on a test bed consisting of CC2420 based Crossbow telosB motes, running the 6TiSCH communication stack on the Contiki operating system over the 2.4GHz ISM band. Finally, using simulations, we show that both protocols achieve mean delays much lower than those achieved by ZMAC, and QZMAC provides mean delays very close to the minimum achievable in this setting, i.e., that of the centralized complete knowledge scheduler.
翻訳日:2021-05-25 20:42:14 公開日:2021-05-24
# (参考訳) カプセルネットワークを用いたhater-o-genius攻撃分類 [全文訳有]

Hater-O-Genius Aggression Classification using Capsule Networks ( http://arxiv.org/abs/2105.11219v1 )

ライセンス: CC BY 4.0
Parth Patwa, Srinivas PYKL, Amitava Das, Prerana Mukherjee, Viswanath Pulabaigari(参考訳) ソーシャルメディアでヘイトスピーチを投稿することは、当時の最も困難な社会問題の一つだ。 ソーシャルメディアには様々な反社会的行動がある。 多くは攻撃的な行動であり、ソーシャルメディアユーザーの社会的生活や精神的健康に影響を及ぼすなど、多くの社会問題を引き起こしている。 本稿では,アグレッシブツイートを自動的に識別し分類するエンドツーエンドアンサンブルベースのアーキテクチャを提案する。 ツイートは、Covertly Aggressive、Overtly Aggressive、Non-Aggressiveの3つのカテゴリに分類される。 提案アーキテクチャは,機能埋め込みを効果的に特徴付けることができる小型サブネットワークの集合体である。 それぞれの小さなサブネットワークがユニークな特徴を学習できることを定性的に証明する。 我々の最良のモデルはCapsule Networksのアンサンブルであり、Facebookのテストセットで65.2%のF1スコアを獲得し、TRAC-2018の勝者よりもパフォーマンスが0.95%向上した。 コードとモデルの重み付けはhttps://github.com/p arthpatwa/Hater-O-Ge nius-Aggression-usin g-Capsule-Networksで公開されている。

Contending hate speech in social media is one of the most challenging social problems of our time. There are various types of anti-social behavior in social media. Foremost of them is aggressive behavior, which is causing many social issues such as affecting the social lives and mental health of social media users. In this paper, we propose an end-to-end ensemble-based architecture to automatically identify and classify aggressive tweets. Tweets are classified into three categories - Covertly Aggressive, Overtly Aggressive, and Non-Aggressive. The proposed architecture is an ensemble of smaller subnetworks that are able to characterize the feature embeddings effectively. We demonstrate qualitatively that each of the smaller subnetworks is able to learn unique features. Our best model is an ensemble of Capsule Networks and results in a 65.2% F1 score on the Facebook test set, which results in a performance gain of 0.95% over the TRAC-2018 winners. The code and the model weights are publicly available at https://github.com/p arthpatwa/Hater-O-Ge nius-Aggression-Clas sification-using-Cap sule-Networks.
翻訳日:2021-05-25 20:40:51 公開日:2021-05-24
# (参考訳) 制約グラフを用いた距離超過長関係抽出 [全文訳有]

Distantly-Supervised Long-Tailed Relation Extraction Using Constraint Graphs ( http://arxiv.org/abs/2105.11225v1 )

ライセンス: CC BY 4.0
Tianming Liang, Yang Liu, Xiaoyan Liu, Gaurav Sharma and Maozu Guo(参考訳) ラベルノイズとロングテール分布は、遠方の教師付き関係抽出における2つの大きな課題である。 近年の研究は注目度が高かったが、ロングテール関係の問題にはほとんど注意が払われていない。 本稿では,関係ラベル間の依存関係をモデル化するための制約グラフを提案する。 さらに,2つの課題を同時に扱うために,新しい制約グラフに基づく関係抽出フレームワーク(CGRE)を提案する。 CGREは、グラフ畳み込みネットワーク(GCN)を用いて、データリッチな関係ノードからデータ貧弱な関係ノードへ情報を伝達し、長い関係の表現学習を促進する。 さらにノイズ免疫を改善するため、CGREに制約対応アテンションモジュールを設計し、制約情報を統合する。 ベンチマークデータセットを用いた実験結果から,提案手法は,先行手法と比較して有意な改善が得られた。

Label noise and long-tailed distributions are two major challenges in distantly supervised relation extraction. Recent studies have shown great progress on denoising, but pay little attention to the problem of long-tailed relations. In this paper, we introduce constraint graphs to model the dependencies between relation labels. On top of that, we further propose a novel constraint graph-based relation extraction framework(CGRE) to handle the two challenges simultaneously. CGRE employs graph convolution networks (GCNs) to propagate information from data-rich relation nodes to data-poor relation nodes, and thus boosts the representation learning of long-tailed relations. To further improve the noise immunity, a constraint-aware attention module is designed in CGRE to integrate the constraint information. Experimental results on a widely-used benchmark dataset indicate that our approach achieves significant improvements over the previous methods for both denoising and long-tailed relation extraction.
翻訳日:2021-05-25 20:34:31 公開日:2021-05-24
# (参考訳) 協調圧縮によるコンパクトcnnを目指して [全文訳有]

Towards Compact CNNs via Collaborative Compression ( http://arxiv.org/abs/2105.11228v1 )

ライセンス: CC BY 4.0
Yuchao Li, Shaohui Lin, Jianzhuang Liu, Qixiang Ye, Mengdi Wang, Fei Chao, Fan Yang, Jincheng Ma, Qi Tian, Rongrong Ji(参考訳) チャネルプルーニングとテンソル分解は畳み込みニューラルネットワーク圧縮において大きな注目を集めている。 しかし、これらの2つの手法は伝統的に分離された方法で展開され、高い圧縮速度を追求する際にかなりの精度が低下する。 本稿では,チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮し,モデルの疎度と低ランク性を同時に学習する協調圧縮(CC)方式を提案する。 具体的には,まずネットワークの各レイヤの圧縮感度を調査し,次に圧縮率の決定問題を最適化問題に変換するグローバル圧縮率最適化を提案する。 その後,冗長圧縮単位を段階的に除去するマルチステップヒューリスティック圧縮を提案する。 提案手法は,過去のデータセットやバックボーンアーキテクチャよりも優れた性能向上を示す。 例えば、ResNet-50では48.4%のパラメータを削除して52.9%のFLOP削減を実現しています。

Channel pruning and tensor decomposition have received extensive attention in convolutional neural network compression. However, these two techniques are traditionally deployed in an isolated manner, leading to significant accuracy drop when pursuing high compression rates. In this paper, we propose a Collaborative Compression (CC) scheme, which joints channel pruning and tensor decomposition to compress CNN models by simultaneously learning the model sparsity and low-rankness. Specifically, we first investigate the compression sensitivity of each layer in the network, and then propose a Global Compression Rate Optimization that transforms the decision problem of compression rate into an optimization problem. After that, we propose multi-step heuristic compression to remove redundant compression units step-by-step, which fully considers the effect of the remaining compression space (i.e., unremoved compression units). Our method demonstrates superior performance gains over previous ones on various datasets and backbone architectures. For example, we achieve 52.9% FLOPs reduction by removing 48.4% parameters on ResNet-50 with only a Top-1 accuracy drop of 0.56% on ImageNet 2012.
翻訳日:2021-05-25 20:12:59 公開日:2021-05-24
# (参考訳) テストサイズ検出のためのFew-Shot Upsampling [全文訳有]

Few-Shot Upsampling for Protest Size Detection ( http://arxiv.org/abs/2105.11260v1 )

ライセンス: CC BY 4.0
Andrew Halterman, Benjamin J. Radford(参考訳) 粗い文書ラベルをきめ細かいラベルやスパンに「アップサンプリング」するという社会科学研究における共通問題に対して,新しいタスクとデータセットを提案する。 質問に答える形式で問題を提起し、回答はきめ細かいラベルを提供する。 米国では抗議デモやデモで、抗議参加者に関する桁違いな情報、非常に細かい例のサンプル、英語のニューステキストのみを収集し、群衆の大きさを正確に特定する。 ルールベースおよび質問応答モデルによるゼロショット結果,少数の文書に微調整された少数ショットモデル,粗ラベル文書のより大きなセットを用いた弱い教師付きモデルなど,いくつかのベースラインモデルを評価した。 我々のルールベースモデルは、当初ゼロショット事前訓練されたトランスフォーマー言語モデルよりも優れているが、25例の非常に小さなサブセットのさらなる微調整は、サンプル外性能を大幅に向上させる。 また,ルールベースアプローチと同様に動作する粗ラベルのみに対して,トランスフォーマースパンを微調整する手法を示す。 この研究は、集団行動の原因と成功を理解するデータを生成する社会科学者の能力に寄与する。

We propose a new task and dataset for a common problem in social science research: "upsampling" coarse document labels to fine-grained labels or spans. We pose the problem in a question answering format, with the answers providing the fine-grained labels. We provide a benchmark dataset and baselines on a socially impactful task: identifying the exact crowd size at protests and demonstrations in the United States given only order-of-magnitude information about protest attendance, a very small sample of fine-grained examples, and English-language news text. We evaluate several baseline models, including zero-shot results from rule-based and question-answering models, few-shot models fine-tuned on a small set of documents, and weakly supervised models using a larger set of coarsely-labeled documents. We find that our rule-based model initially outperforms a zero-shot pre-trained transformer language model but that further fine-tuning on a very small subset of 25 examples substantially improves out-of-sample performance. We also demonstrate a method for fine-tuning the transformer span on only the coarse labels that performs similarly to our rule-based approach. This work will contribute to social scientists' ability to generate data to understand the causes and successes of collective action.
翻訳日:2021-05-25 19:53:58 公開日:2021-05-24
# (参考訳) 単言語翻訳メモリを用いたニューラルマシン翻訳 [全文訳有]

Neural Machine Translation with Monolingual Translation Memory ( http://arxiv.org/abs/2105.11269v1 )

ライセンス: CC BY 4.0
Deng Cai and Yan Wang and Huayang Li and Wai Lam and Lemao Liu(参考訳) 以前の研究は、翻訳メモリ(tm)がニューラルマシン翻訳(nmt)の性能を向上させることを証明した。 バイリンガルコーパスをtmとして使用し、メモリ検索にソース側類似性検索を用いる既存の作業とは対照的に、単言語メモリを用いた学習可能なメモリ検索をクロスリンガル方式で行う新しいフレームワークを提案する。 私たちのフレームワークにはユニークな利点があります。 まず、クロスランガルメモリレトリバーにより、豊富なモノリンガルデータがTMとなる。 第二に、メモリレトリバーとNMTモデルは、最終的な翻訳目標に対して共同最適化できる。 実験により,提案手法は大幅な改善が得られた。 注目すべきは、バイリンガルTMを用いて、強力なTM強化NMTベースラインを上回ります。 単言語データを活用する能力を持つモデルでは、低リソースとドメイン適応シナリオの有効性も示します。

Prior work has proved that Translation memory (TM) can boost the performance of Neural Machine Translation (NMT). In contrast to existing work that uses bilingual corpus as TM and employs source-side similarity search for memory retrieval, we propose a new framework that uses monolingual memory and performs learnable memory retrieval in a cross-lingual manner. Our framework has unique advantages. First, the cross-lingual memory retriever allows abundant monolingual data to be TM. Second, the memory retriever and NMT model can be jointly optimized for the ultimate translation goal. Experiments show that the proposed method obtains substantial improvements. Remarkably, it even outperforms strong TM-augmented NMT baselines using bilingual TM. Owning to the ability to leverage monolingual data, our model also demonstrates effectiveness in low-resource and domain adaptation scenarios.
翻訳日:2021-05-25 19:44:15 公開日:2021-05-24
# (参考訳) Talk Markup Language(TalkML)の紹介:産業音声インタフェースへのソーシャルインテリジェンスの導入 [全文訳有]

Introducing the Talk Markup Language (TalkML):Adding a little social intelligence to industrial speech interfaces ( http://arxiv.org/abs/2105.11294v1 )

ライセンス: CC BY-SA 4.0
Peter Wallis(参考訳) Siriのようなバーチャルパーソナルアシスタントは大きな可能性を秘めているが、このような開発は人間の音声を理解するための計算装置の作り方に関する根本的な問題となっている。 自然言語理解は、ai研究のより残念な失敗の1つであり、コンピュータ科学者が言語の性質について理解できないものがあります。 もちろん哲学者や言語学者は言語について全く異なる考え方をしており、この論文は我々が他の分野からアイデアを取り入れ、それを実践した方法について説明している。 この仕事の背景は、言語を行動として真剣に捉え、会話分析のテクニックを使って、人々が実際に言語で何をしているかを見ることである。 観察によると、人間同士のコミュニケーションは、情報伝達だけでなく、社会関係の管理に関するものである(場面に関係している)。 これは1つ主張するが、実装するにはメカニズムが必要である。 ここで説明するメカニズムは、意図的な言語の概念 - 意図的に考え、話し、他人に認識する - に基づいており、協力して助けを求められている。 私たちが強いられる方法は、人間を話題にし続けるという、現在ある問題の解決策を指し示します。 このアプローチは,タスク完了とは無関係にユーザ満足度を大幅に向上させることに成功した。 Talk Markup Language(TalkML)はVoiceXMLに代わる草案であり、入力がなく、認識されていない音声イベントに対してデフォルト動作を提供することにより、対話のスクリプティングを大幅に単純化する。

Virtual Personal Assistants like Siri have great potential but such developments hit the fundamental problem of how to make computational devices that understand human speech. Natural language understanding is one of the more disappointing failures of AI research and it seems there is something we computer scientists don't get about the nature of language. Of course philosophers and linguists think quite differently about language and this paper describes how we have taken ideas from other disciplines and implemented them. The background to the work is to take seriously the notion of language as action and look at what people actually do with language using the techniques of Conversation Analysis. The observation has been that human communication is (behind the scenes) about the management of social relations as well as the (foregrounded) passing of information. To claim this is one thing but to implement it requires a mechanism. The mechanism described here is based on the notion of language being intentional - we think intentionally, talk about them and recognise them in others - and cooperative in that we are compelled to help out. The way we are compelled points to a solution to the ever present problem of keeping the human on topic. The approach has led to a recent success in which we significantly improve user satisfaction independent of task completion. Talk Markup Language (TalkML) is a draft alternative to VoiceXML that, we propose, greatly simplifies the scripting of interaction by providing default behaviours for no input and not recognised speech events.
翻訳日:2021-05-25 19:27:51 公開日:2021-05-24
# (参考訳) DaN+:デンマークのNested Named Entitiesと語彙正規化 [全文訳有]

DaN+: Danish Nested Named Entities and Lexical Normalization ( http://arxiv.org/abs/2105.11301v1 )

ライセンス: CC BY 4.0
Barbara Plank, Kristian N{\o}rgaard Jensen and Rob van der Goot(参考訳) 本稿では、デンマークのネスト付き名前付きエンティティ(NE)のための新しいマルチドメインコーパスとアノテーションガイドラインであるDaN+を紹介し、低リソース言語のための言語間クロスドメイン学習の研究を支援する。 我々は,NERタスクをモデル化する3つの戦略を実証的に評価した。 ドイツ語からの変換能力と言語内アノテーションをスクラッチから比較する。 言語特異的対多言語BERTについて検討し, 語彙正規化がNERに与える影響について検討した。 以上の結果から,1)多ラベル復号化と競合するマルチタスク学習,2) BERTベースのNERモデルはドメインシフトに敏感であり,3) 言語内BERTと語彙正規化は最小標準データにおいて最も有用であることが示唆された。 結果として、ドメイン外セットアップは依然として困難であり、ニュースのパフォーマンスは急速に高まります。 これは言語間伝達のクロスドメイン評価の重要性を強調している。

This paper introduces DaN+, a new multi-domain corpus and annotation guidelines for Danish nested named entities (NEs) and lexical normalization to support research on cross-lingual cross-domain learning for a less-resourced language. We empirically assess three strategies to model the two-layer Named Entity Recognition (NER) task. We compare transfer capabilities from German versus in-language annotation from scratch. We examine language-specific versus multilingual BERT, and study the effect of lexical normalization on NER. Our results show that 1) the most robust strategy is multi-task learning which is rivaled by multi-label decoding, 2) BERT-based NER models are sensitive to domain shifts, and 3) in-language BERT and lexical normalization are the most beneficial on the least canonical data. Our results also show that an out-of-domain setup remains challenging, while performance on news plateaus quickly. This highlights the importance of cross-domain evaluation of cross-lingual transfer.
翻訳日:2021-05-25 19:08:13 公開日:2021-05-24
# (参考訳) 19世紀英語のニューラル言語モデル [全文訳有]

Neural Language Models for Nineteenth-Century English ( http://arxiv.org/abs/2105.11321v1 )

ライセンス: CC BY 4.0
Kasra Hosseini, Kaspar Beelen, Giovanni Colavizza, Mariona Coll Ardanuy(参考訳) 1760-1900年に出版され、約510億のトークンで構成された、英語で書籍の巨大な歴史的データセットでトレーニングされた4種類のニューラル言語モデルを示す。 言語モデルアーキテクチャには静的 (word2vec と fastText) とコンテキスト化モデル (BERT と Flair) がある。 各アーキテクチャについて、データセット全体を使用してモデルインスタンスをトレーニングしました。 さらに、2つの静的モデルのために1850年以前に公開されたテキストの別々のインスタンスと、bertの異なるタイムスライスを考慮した4つのインスタンスをトレーニングした。 私たちのモデルは、パフォーマンスを継続的に改善する様々な下流タスクで既に使われています。 本稿では,モデルがどのように作成され,再利用の可能性について概説する。

We present four types of neural language models trained on a large historical dataset of books in English, published between 1760-1900 and comprised of ~5.1 billion tokens. The language model architectures include static (word2vec and fastText) and contextualized models (BERT and Flair). For each architecture, we trained a model instance using the whole dataset. Additionally, we trained separate instances on text published before 1850 for the two static models, and four instances considering different time slices for BERT. Our models have already been used in various downstream tasks where they consistently improved performance. In this paper, we describe how the models have been created and outline their reuse potential.
翻訳日:2021-05-25 18:51:05 公開日:2021-05-24
# (参考訳) IITP at AILA 2019: System Report for Artificial Intelligence for Legal Assistance Shared Task [全文訳有]

IITP at AILA 2019: System Report for Artificial Intelligence for Legal Assistance Shared Task ( http://arxiv.org/abs/2105.11347v1 )

ライセンス: CC BY 4.0
Baban Gain, Dibyanayan Bandyopadhyay, Arkadipta De, Tanik Saikh, Asif Ekbal(参考訳) 本稿では、AILA 2019(Artificial Intelligence for Legal Assistance)という共有タスクへの参加の一環として、我々のシステムについて説明する。 これは、情報検索評価フォーラムの2019年の統合イベントである。 このトラックの結果は、インドの司法システムの作業プロセスの自動化に役立つだろう。 司法制度のあらゆる段階(下級から上級まで)における手作業の手続きと文書は、本質的に非常に複雑である。 このトラックの一部として作られたシステムは、法律実務者を助けるだろう。 一般人にとっても役に立ちます。 この種のトラックはまた、司法領域における自然言語処理(NLP)の研究の道を開く。 このトラックは、次の2つの問題を定義している。 タスク1: ある状況に関する関連する事前の事例を特定する タスク2: ある状況に関する最も関連する法令を特定する。 私たちは両方とも取り組んだ。 提案手法はBM25とDoc2Vecに基づいている。 タスクオーガナイザが宣言した結果によると、タスク1とタスク2では、それぞれ3番目と控えめな位置にあります。

In this article, we present a description of our systems as a part of our participation in the shared task namely Artificial Intelligence for Legal Assistance (AILA 2019). This is an integral event of Forum for Information Retrieval Evaluation-2019. The outcomes of this track would be helpful for the automation of the working process of the Indian Judiciary System. The manual working procedures and documentation at any level (from lower to higher court) of the judiciary system are very complex in nature. The systems produced as a part of this track would assist the law practitioners. It would be helpful for common men too. This kind of track also opens the path of research of Natural Language Processing (NLP) in the judicial domain. This track defined two problems such as Task 1: Identifying relevant prior cases for a given situation and Task 2: Identifying the most relevant statutes for a given situation. We tackled both of them. Our proposed approaches are based on BM25 and Doc2Vec. As per the results declared by the task organizers, we are in 3rd and a modest position in Task 1 and Task 2 respectively.
翻訳日:2021-05-25 18:44:57 公開日:2021-05-24
# (参考訳) テクスチャ背景の小さな3次元物体の再構成

Reconstructing Small 3D Objects in front of a Textured Background ( http://arxiv.org/abs/2105.11352v1 )

ライセンス: CC BY 4.0
Petr Hruby and Tomas Pajdla(参考訳) テクスチャ化された背景の前を移動する小さな物体の完全な3次元再構成手法を提案する。 運動から多体構造の特定の変化であり、2つの物体のみを専門とする。 シーンは2つのオブジェクトの相対的なポーズが変化するいくつかの静的な設定でキャプチャされる。 各静的な構成を個別に再構築し、シーンの他の構成をキャプチャする複数のカメラのポーズを見つけ、ポイントを局所的に分割する。 そして、局所的なセグメンテーション結果を組み合わせて、その復元結果をシーンのモデルにマージする。 実物を用いた実験では, 両面から3次元オブジェクトを再構成する際に, 現実的な利点があることが示されている。 この設定では、我々の手法は最先端の手法よりも優れている。 我々はこの手法を3D再構築パイプラインCOLMAPの状態に統合する。

We present a technique for a complete 3D reconstruction of small objects moving in front of a textured background. It is a particular variation of multibody structure from motion, which specializes to two objects only. The scene is captured in several static configurations between which the relative pose of the two objects may change. We reconstruct every static configuration individually and segment the points locally by finding multiple poses of cameras that capture the scene's other configurations. Then, the local segmentation results are combined, and the reconstructions are merged into the resulting model of the scene. In experiments with real artifacts, we show that our approach has practical advantages when reconstructing 3D objects from all sides. In this setting, our method outperforms the state-of-the-art. We integrate our method into the state of the art 3D reconstruction pipeline COLMAP.
翻訳日:2021-05-25 18:40:30 公開日:2021-05-24
# (参考訳) U-Netのトリラナーアンサンブルを用いた脳腫瘍切除 [全文訳有]

Brain tumour segmentation using a triplanar ensemble of U-Nets ( http://arxiv.org/abs/2105.11356v1 )

ライセンス: CC BY 4.0
Vaanathi Sundaresan, Ludovica Griffanti, Mark Jenkinson(参考訳) グリオーマは、その外観と脳MR画像上の位置の両方において、その特徴に大きく変化しており、堅牢な腫瘍の分節は非常に困難であり、手動の分節においても高いレーザー間変動をもたらす。 本研究では,これらの腫瘍とそのサブ領域の正確なセグメンテーションのために,独立した腫瘍コア予測モジュールを備えたトリプラナーアンサンブルネットワークを提案する。 腫瘍部分領域に対するmiccai brain tumor segmentation (brats) challenge validation datasetの評価を行った結果, 腫瘍(et)と腫瘍コア(tc)のいずれにおいても, dice類似度係数0.77を得た。 全腫瘍領域 (wt) では0.89のサイス値を達成し,brats'17-19の上位の方法に匹敵する値を得た。 提案手法は,BraTS'20テストデータセットにおいて,ET,WT,TCの各領域の平均Dice値は0.81,0.89,0.84であり,BraTS'20チャレンジでは5位(第10位)であった。

Gliomas appear with wide variation in their characteristics both in terms of their appearance and location on brain MR images, which makes robust tumour segmentation highly challenging, and leads to high inter-rater variability even in manual segmentations. In this work, we propose a triplanar ensemble network, with an independent tumour core prediction module, for accurate segmentation of these tumours and their sub-regions. On evaluating our method on the MICCAI Brain Tumor Segmentation (BraTS) challenge validation dataset, for tumour sub-regions, we achieved a Dice similarity coefficient of 0.77 for both enhancing tumour (ET) and tumour core (TC). In the case of the whole tumour (WT) region, we achieved a Dice value of 0.89, which is on par with the top-ranking methods from BraTS'17-19. Our method achieved an evaluation score that was the equal 5th highest value (with our method ranking in 10th place) in the BraTS'20 challenge, with mean Dice values of 0.81, 0.89 and 0.84 on ET, WT and TC regions respectively on the BraTS'20 unseen test dataset.
翻訳日:2021-05-25 18:39:30 公開日:2021-05-24
# (参考訳) ddr-net:division and downsampling mixed network for diffeomorphic image registration [全文訳有]

DDR-Net: Dividing and Downsampling Mixed Network for Diffeomorphic Image Registration ( http://arxiv.org/abs/2105.11361v1 )

ライセンス: CC BY 4.0
Ankita Joshi, Yi Hong(参考訳) 深い微分型登録は、特にメモリ制限の観点から、高次元画像において重要な課題に直面している。 既存のアプローチでは、オリジナルイメージのサンプルダウンや、おおよその変換、あるいはモデルサイズを削減している。 近似や不十分なモデルのキャパシティにおける情報損失は、高次元画像(例えば3d医療データ)の登録精度の妨げとなる。 本稿では,画像情報のほとんどを複数のスケールで保存する汎用アーキテクチャであるddr-net(dispartment and downsampling mixed registration network)を提案する。 DDR-Netは、入力をダウンサンプリングすることでグローバルコンテキストを活用し、入力画像の分割チャンクからの局所的な詳細を利用する。 この設計は、ネットワークの入力サイズとメモリコストを削減し、一方、グローバル情報とローカル情報を融合することにより、DDR-Netは最終的な変形場の粗いレベルと細いレベルのアライメントを得る。 我々は3つの公開データセット(OASIS, IBSR18, 3DIRCADB-01)上でDDR-Netを評価し, 既存のアプローチよりも優れていることを示す。

Deep diffeomorphic registration faces significant challenges for high-dimensional images, especially in terms of memory limits. Existing approaches either downsample original images, or approximate underlying transformations, or reduce model size. The information loss during the approximation or insufficient model capacity is a hindrance to the registration accuracy for high-dimensional images, e.g., 3D medical volumes. In this paper, we propose a Dividing and Downsampling mixed Registration network (DDR-Net), a general architecture that preserves most of the image information at multiple scales. DDR-Net leverages the global context via downsampling the input and utilizes the local details from divided chunks of the input images. This design reduces the network input size and its memory cost; meanwhile, by fusing global and local information, DDR-Net obtains both coarse-level and fine-level alignments in the final deformation fields. We evaluate DDR-Net on three public datasets, i.e., OASIS, IBSR18, and 3DIRCADB-01, and the experimental results demonstrate our approach outperforms existing approaches.
翻訳日:2021-05-25 18:26:22 公開日:2021-05-24
# (参考訳) 株価変動を模倣して、強化学習オプション価格にできるのか? [全文訳有]

Can we imitate stock price behavior to reinforcement learn option price? ( http://arxiv.org/abs/2105.11376v1 )

ライセンス: CC BY 4.0
Xin Jin(参考訳) 本稿では,強化学習オプション価格に基礎となる在庫の価格変動を模倣する枠組みを提案する。 株式価格データのアクセス可能な特徴を用いて、主要投資家の意思決定による株価変動をモデル化するための非決定論的マルコフ決定プロセスを構築する。 しかし、株式市場における信号対雑音比の低さと不安定さは、行動(主に投資家の決定)を行った後に状態遷移(価格変化)を決定し、現在の状態(スポット価格)に基づいて行動を決定することが困難となる。 これらの課題を克服するために、アクションによって導かれる状態遷移の予測分布を計算するために、ベイジアンディープニューラルネットワークを利用する。 さらに、政策を定式化するための状態-行動関係を探求する代わりに、主投資家の連続的な意思決定を確率的に模倣するエピソードベースの状態-行動関係を求める。 提案アルゴリズムは,ベイズ型深層ニューラルネットワークを用いて,主幹投資家の決定をシミュレーションした株価経路にマップする。 最終的に、最適なオプション価格は、基盤のシミュレーション価格経路よりも、動的にヘッジされたポートフォリオの累積リスク調整されたリターンを最大化することで学習される。

This paper presents a framework of imitating the price behavior of the underlying stock for reinforcement learning option price. We use accessible features of the equities pricing data to construct a non-deterministic Markov decision process for modeling stock price behavior driven by principal investor's decision making. However, low signal-to-noise ratio and instability that appear immanent in equity markets pose challenges to determine the state transition (price change) after executing an action (principal investor's decision) as well as decide an action based on current state (spot price). In order to conquer these challenges, we resort to a Bayesian deep neural network for computing the predictive distribution of the state transition led by an action. Additionally, instead of exploring a state-action relationship to formulate a policy, we seek for an episode based visible-hidden state-action relationship to probabilistically imitate principal investor's successive decision making. Our algorithm then maps imitative principal investor's decisions to simulated stock price paths by a Bayesian deep neural network. Eventually the optimal option price is reinforcement learned through maximizing the cumulative risk-adjusted return of a dynamically hedged portfolio over simulated price paths of the underlying.
翻訳日:2021-05-25 18:18:35 公開日:2021-05-24
# (参考訳) VANiLLa : 大規模自然言語における動詞解答 [全文訳有]

VANiLLa : Verbalized Answers in Natural Language at Large Scale ( http://arxiv.org/abs/2105.11407v1 )

ライセンス: CC BY 4.0
Debanjali Biswas, Mohnish Dubey, Md Rashad Al Hasan Rony and Jens Lehmann(参考訳) 近年,知識グラフに関する質問回答(KGQA)の分野では,大きな進展があった。 すべての顕著な進歩にもかかわらず、現在のKGQAデータセットは、質問コンテキストを組み込んだ全文ではなく、正式なクエリの直接出力結果としてのみ回答を提供する。 コヒーレントな回答文を質問の語彙で達成するためには、テンプレートベースの動詞化は、通常、より優れた回答表現のために使用される。 したがって、機械学習アプローチへの道を開くことはできるが、この分野では機械学習モデルを強化するデータセットが不足している。 したがって、自然言語文の回答を提供することにより、このギャップを減らすことを目的としたVANiLLaデータセットを提供する。 このデータセットの回答文は、3つの事実よりも構文上、意味的に質問に近い。 我々のデータセットは、CSQAとSimpleQuestionsWikid ataデータセットから適応された100万以上の簡単な質問で構成され、セミオートマチックなフレームワークを用いて生成される。 また、現在最先端の自然言語生成(NLG)アーキテクチャから適応した複数のベースラインモデルに基づくデータセットのトレーニング結果も提示する。 このデータセットは、研究者が言語化に答えるために適切な方法論やアーキテクチャを見つけることに集中できると考えている。

In the last years, there have been significant developments in the area of Question Answering over Knowledge Graphs (KGQA). Despite all the notable advancements, current KGQA datasets only provide the answers as the direct output result of the formal query, rather than full sentences incorporating question context. For achieving coherent answers sentence with the question's vocabulary, template-based verbalization so are usually employed for a better representation of answers, which in turn require extensive expert intervention. Thus, making way for machine learning approaches; however, there is a scarcity of datasets that empower machine learning models in this area. Hence, we provide the VANiLLa dataset which aims at reducing this gap by offering answers in natural language sentences. The answer sentences in this dataset are syntactically and semantically closer to the question than to the triple fact. Our dataset consists of over 100k simple questions adapted from the CSQA and SimpleQuestionsWikid ata datasets and generated using a semi-automatic framework. We also present results of training our dataset on multiple baseline models adapted from current state-of-the-art Natural Language Generation (NLG) architectures. We believe that this dataset will allow researchers to focus on finding suitable methodologies and architectures for answer verbalization.
翻訳日:2021-05-25 17:49:48 公開日:2021-05-24
# (参考訳) Skew Orthogonal Convolutions [全文訳有]

Skew Orthogonal Convolutions ( http://arxiv.org/abs/2105.11417v1 )

ライセンス: CC BY 4.0
Sahil Singla and Soheil Feizi(参考訳) Lipschitzの制約による畳み込みニューラルネットワークのトレーニングは、証明可能な対向的堅牢性、解釈可能な勾配、安定したトレーニングなどに有用である。 1-Lipschitzネットワークは、各層に1-Lipschitz制約を課すことで設計できるが、そのようなネットワークをトレーニングするには、勾配が消えるのを防ぐために、各層が勾配標準保存(GNP)が必要である。 しかし、既存のGNP畳み込みは訓練の遅さに悩まされ、精度を大幅に低下させ、近似に保証を与えない。 本研究では、行列が {\it Skew-Symmetric} であるとき、その指数関数は {\it orthogonal} 行列である、という数学的性質を用いた GNP 畳み込み層である 'methodnamebold\ (\methoddabv) を提案する。 この特性を利用するために、まずジャコビアンがスキュー対称である畳み込みフィルタを構築する。 次に、ヤコビアン指数関数のテイラー級数展開を用いて直交である \methodabv\ 層を構成する。 methodabvを効率的に実装するために、テイラー級数から有限個の項を保持し、近似誤差の証明可能な保証を与える。 CIFAR-10 と CIFAR-100 を用いた実験により,既成のリプシッツ,大規模な畳み込みニューラルネットワークを従来よりも大幅に高速に学習し,精度の高い精度と信頼性の高い精度を両立させることができた。

Training convolutional neural networks with a Lipschitz constraint under the $l_{2}$ norm is useful for provable adversarial robustness, interpretable gradients, stable training, etc. While 1-Lipschitz networks can be designed by imposing a 1-Lipschitz constraint on each layer, training such networks requires each layer to be gradient norm preserving (GNP) to prevent gradients from vanishing. However, existing GNP convolutions suffer from slow training, lead to significant reduction in accuracy and provide no guarantees on their approximations. In this work, we propose a GNP convolution layer called \methodnamebold\ (\methodabv) that uses the following mathematical property: when a matrix is {\it Skew-Symmetric}, its exponential function is an {\it orthogonal} matrix. To use this property, we first construct a convolution filter whose Jacobian is Skew-Symmetric. Then, we use the Taylor series expansion of the Jacobian exponential to construct the \methodabv\ layer that is orthogonal. To efficiently implement \methodabv, we keep a finite number of terms from the Taylor series and provide a provable guarantee on the approximation error. Our experiments on CIFAR-10 and CIFAR-100 show that \methodabv\ allows us to train provably Lipschitz, large convolutional neural networks significantly faster than prior works while achieving significant improvements for both standard and certified robust accuracies.
翻訳日:2021-05-25 17:36:00 公開日:2021-05-24
# (参考訳) 集団計数のための多層注意神経回路網 [全文訳有]

Multi-Level Attentive Convoluntional Neural Network for Crowd Counting ( http://arxiv.org/abs/2105.11422v1 )

ライセンス: CC BY 4.0
Mengxiao Tian, Hao Guo, Chengjiang Long(参考訳) 最近、群衆のカウントはますます注目を浴びている。 特に高密度環境の技術は重要な研究内容となり,高濃度の群集が存在するための適切な手法は最適ではない。 本稿では,クラウドカウントのためのマルチレベル注意型畳み込みニューラルネットワーク(MLAttnCNN)を提案する。 我々は、複数の異なるスケールをプールに応用した高レベルのコンテキスト情報を抽出し、多層アテンションモジュールを用いて異なる層の特徴を強化し、より効率的なマルチスケール特徴融合を実現し、拡張畳み込みと1ドル1セントの畳み込みでより正確な密度マップを生成することができる。 利用可能な3つの公開データセットに関する広範な実験により、提案したネットワークは最先端のアプローチに優れた性能を発揮することが示された。

Recently the crowd counting has received more and more attention. Especially the technology of high-density environment has become an important research content, and the relevant methods for the existence of extremely dense crowd are not optimal. In this paper, we propose a multi-level attentive Convolutional Neural Network (MLAttnCNN) for crowd counting. We extract high-level contextual information with multiple different scales applied in pooling, and use multi-level attention modules to enrich the characteristics at different layers to achieve more efficient multi-scale feature fusion, which is able to be used to generate a more accurate density map with dilated convolutions and a $1\times 1$ convolution. The extensive experiments on three available public datasets show that our proposed network achieves outperformance to the state-of-the-art approaches.
翻訳日:2021-05-25 17:02:22 公開日:2021-05-24
# (参考訳) 結核(tb)菌の検出と計数を自動化するための設計 [全文訳有]

Design to automate the detection and counting of Tuberculosis(TB) bacilli ( http://arxiv.org/abs/2105.11432v1 )

ライセンス: CC BY-SA 4.0
Dinesh Jackson Samuel and Rajesh Kanna Baskaran(参考訳) 結核は感染性疾患であり、世界でも主要な死因の一つである。 結核の一般的な診断方法は、顕微鏡検査、結核皮膚検査、培養方法、酵素結合免疫測定法(ELISA)および電子鼻システムである。 世界保健機関(WHO)は結核の早期診断に標準的な顕微鏡検査を推奨している。 顕微鏡検査では,スプートゥムスメアの視野 (fov) をtb bacilli の存在条件として検討し,fov 当たり tb bacilli 数を数えて重症度を報告した。 このプロセスは、経験豊富なスタッフが1本のスミアを検査するのに、集中度が高くなる時間を要する。 高評価国の熟練技術者は、過負荷、疲労、顕微鏡の質低下につながる可能性がある。 そこで, 結核菌の検出のためのコンピュータ支援システムを提案し, 感度と特異性の向上を図った。 TBバシリの数を検出・カウントする手作業は、大幅に最小化されている。 従来の顕微鏡から100倍の倍率でziehl-neelsen染色顕微鏡画像を取得し、検出システムへ送信する。 当初、TBバシリのセグメンテーションはRGBしきい値とソーヴォーラの適応しきい値アルゴリズムを用いて行われた。 非TBバシリを粗いレベルセグメンテーションから除去するために、TBバシリの特徴のみを抽出するために、面積、周縁、凸殻、主軸長及び偏心性などの形状記述子を用いる。 最後に、生成した境界ボックスを用いてTBバシリをカウントして重大度を報告する。

Tuberculosis is a contagious disease which is one of the leading causes of death, globally. The general diagnosis methods for tuberculosis include microscopic examination, tuberculin skin test, culture method, enzyme linked immunosorbent assay (ELISA) and electronic nose system. World Health Organization (WHO) recommends standard microscopic examination for early diagnosis of tuberculosis. In microscopy, the technician examines field of views (FOVs) in sputum smear for presence of any TB bacilli and counts the number of TB bacilli per FOV to report the level of severity. This process is time consuming with an increased concentration for an experienced staff to examine a single sputum smear. The examination demands for skilled technicians in high-prevalence countries which may lead to overload, fatigue and diminishes the quality of microscopy. Thus, a computer assisted system is proposed and designed for the detection of tuberculosis bacilli to assist pathologists with increased sensitivity and specificity. The manual efforts in detecting and counting the number of TB bacilli is greatly minimized. The system obtains Ziehl-Neelsen stained microscopic images from conventional microscope at 100x magnification and passes the data to the detection system. Initially the segmentation of TB bacilli was done using RGB thresholding and Sauvola's adaptive thresholding algorithm. To eliminate the non-TB bacilli from coarse level segmentation, shape descriptors like area, perimeter, convex hull, major axis length and eccentricity are used to extract only the TB bacilli features. Finally, the TB bacilli are counted using the generated bounding boxes to report the level of severity.
翻訳日:2021-05-25 16:46:38 公開日:2021-05-24
# (参考訳) 1次複雑度を持つ2次更新 [全文訳有]

2nd-order Updates with 1st-order Complexity ( http://arxiv.org/abs/2105.11439v1 )

ライセンス: CC BY 4.0
Michael F. Zimmer(参考訳) これは長い間、関数の二次情報(f$)を効率的に計算して数値近似を支援することを目標としてきた。 ここで、基礎物理学と数値近似のみを用いて、そのような情報は${\cal o}(n)$ のコストで正確に得られることが示され、ここでは$n$ はパラメータ空間の次元が $f$ である。 本稿では,この2次情報を利用するアルゴリズム({\em VA-Flow})を開発し,擬似コードを示す。 これは、逆キネマティクス(IK)と勾配降下(GD)の2種類の問題に適用される。 IK アプリケーションでは、アルゴリズムは高速で堅牢であり、特異点の近くでも滑らかな振る舞いをもたらすことが示されている。 gd の場合、コスト関数は多項式によって局所的に記述されるので、アルゴリズムは非常にうまく機能する。

It has long been a goal to efficiently compute and use second order information on a function ($f$) to assist in numerical approximations. Here it is shown how, using only basic physics and a numerical approximation, such information can be accurately obtained at a cost of ${\cal O}(N)$ complexity, where $N$ is the dimensionality of the parameter space of $f$. In this paper, an algorithm ({\em VA-Flow}) is developed to exploit this second order information, and pseudocode is presented. It is applied to two classes of problems, that of inverse kinematics (IK) and gradient descent (GD). In the IK application, the algorithm is fast and robust, and is shown to lead to smooth behavior even near singularities. For GD the algorithm also works very well, provided the cost function is locally well-described by a polynomial.
翻訳日:2021-05-25 16:39:49 公開日:2021-05-24
# (参考訳) luvHarris:イベントカメラのための実用的なコーナー検出器 [全文訳有]

luvHarris: A Practical Corner Detector for Event-cameras ( http://arxiv.org/abs/2105.11443v1 )

ライセンス: CC BY 4.0
Arren Glover, Aiko Dinale, Leandro De Souza Rosa, Simeon Bamford, and Chiara Bartolozzi(参考訳) 過去数年間、イベント駆動型コンピュータビジョンがよりアクセスしやすくなってきたため、イベントカメラにコーナー検出手法が提案されてきた。 現在の最先端技術は、実用性を考慮した場合、満足のいく精度かリアルタイム性能のいずれかであり、制約のない環境でのライブカメラを用いたランダムな動きである。 本稿では,harrisアルゴリズムを高精度に利用するが,イベントスループットが向上したルックアップイベントハリス(luvharris)という,コーナー検出を行う新たな手法を提案する。 本手法は,1.特定の調律パラメータを取り除きハリス演算に適する新しい「threshold ordinal event-surface」,2. 計算負荷を最小化し計算重畳み込みを「as-as-possible」のみ行うハリスアルゴリズムの実装という2つの大きな貢献がある。 計算資源が利用可能である場合のみ。 その結果、実用的でリアルタイムで堅牢なコーナー検出器が、現在の最先端の速度で2.6\times$以上動作し、リアルタイムに高解像度イベントカメラを使用する場合の必要性が高まる。 本稿では,提案手法について考察し,計算性能と検出精度の観点からアルゴリズムを最先端技術と比較し,提案手法の有効性について考察する。

There have been a number of corner detection methods proposed for event cameras in the last years, since event-driven computer vision has become more accessible. Current state-of-the-art have either unsatisfactory accuracy or real-time performance when considered for practical use; random motion using a live camera in an unconstrained environment. In this paper, we present yet another method to perform corner detection, dubbed look-up event-Harris (luvHarris), that employs the Harris algorithm for high accuracy but manages an improved event throughput. Our method has two major contributions, 1. a novel "threshold ordinal event-surface" that removes certain tuning parameters and is well suited for Harris operations, and 2. an implementation of the Harris algorithm such that the computational load per-event is minimised and computational heavy convolutions are performed only 'as-fast-as-possible& #x27;, i.e. only as computational resources are available. The result is a practical, real-time, and robust corner detector that runs more than $2.6\times$ the speed of current state-of-the-art; a necessity when using high-resolution event-camera in real-time. We explain the considerations taken for the approach, compare the algorithm to current state-of-the-art in terms of computational performance and detection accuracy, and discuss the validity of the proposed approach for event cameras.
翻訳日:2021-05-25 16:27:25 公開日:2021-05-24
# (参考訳) Task-Adaptive Pre-Trained BERTによる数学KCの分類 [全文訳有]

Classifying Math KCs via Task-Adaptive Pre-Trained BERT ( http://arxiv.org/abs/2105.11343v1 )

ライセンス: CC BY-SA 4.0
Jia Tracy Shen, Michiharu Yamashita, Ethan Prihar, Neil Heffernan, Xintao Wu, Sean McGrew, Dongwon Lee(参考訳) 適切な知識コンポーネント(kcs)をラベル付けした教育コンテンツは、教師やコンテンツオーガナイザにとって特に有用である。 しかし、手動で教育コンテンツをラベル付けすることは、労働集約的で誤りやすい。 この課題に対処するために、先行研究は、限られた成功を収めた自動ラベル教育コンテンツに対する機械学習ベースのソリューションを提案した。 In this work, we significantly improve prior research by (1) expanding the input types to include KC descriptions, instructional video titles, and problem descriptions (i.e., three types of prediction task), (2) doubling the granularity of the prediction from 198 to 385 KC labels (i.e., more practical setting but much harder multinomial classification problem), (3) improving the prediction accuracies by 0.5-2.3% using Task-adaptive Pre-trained BERT, outperforming six baselines, and (4) proposing a simple evaluation measure by which we can recover 56-73% of mispredicted KC labels. 実験のすべてのコードとデータセットは:https://github.com/ tbs17/tapt-bert

Educational content labeled with proper knowledge components (KCs) are particularly useful to teachers or content organizers. However, manually labeling educational content is labor intensive and error-prone. To address this challenge, prior research proposed machine learning based solutions to auto-label educational content with limited success. In this work, we significantly improve prior research by (1) expanding the input types to include KC descriptions, instructional video titles, and problem descriptions (i.e., three types of prediction task), (2) doubling the granularity of the prediction from 198 to 385 KC labels (i.e., more practical setting but much harder multinomial classification problem), (3) improving the prediction accuracies by 0.5-2.3% using Task-adaptive Pre-trained BERT, outperforming six baselines, and (4) proposing a simple evaluation measure by which we can recover 56-73% of mispredicted KC labels. All codes and data sets in the experiments are available at:https://github.co m/tbs17/TAPT-BERT
翻訳日:2021-05-25 15:47:36 公開日:2021-05-24
# 言語モデルによる真の少数ショット学習

True Few-Shot Learning with Language Models ( http://arxiv.org/abs/2105.11447v1 )

ライセンス: Link先を確認
Ethan Perez, Douwe Kiela, Kyunghyun Cho(参考訳) 事前訓練された言語モデル(LM)は、いくつかの例から学ぶ場合でも、多くのタスクでうまく機能するが、事前の作業では、ハイパーパラメータ、訓練目的、自然言語テンプレート(prompts)など、学習のさまざまな側面をチューニングするために、多くの保留例を使用している。 ここでは,そのような実例が利用できない場合のLMの少数ショット能力を評価し,これを真の少数ショット学習と呼ぶ。 2つのモデル選択基準(クロスバリデーションと最小記述長)をテストし、実数ショット設定でlmプロンプトとハイパーパラメータを選択する。 平均的に、両者はランダム選択を極端に上回り、ホールドアウト例に基づいて、非常に低パフォーマンスな選択を行う。 さらに、選択基準は、ランダムに選択されたモデルよりも著しく悪いモデルを好むことが多い。 選択中のモデルの真の性能の不確実性や,選択に使用する計算量やサンプル数の変化を考慮した場合においても,同様の結果が得られる。 全体として, 先行研究は, モデル選択の難しさから, lmsの真の少数ショット能力を大幅に過大評価したことが示唆された。

Pretrained language models (LMs) perform well on many tasks even when learning from a few examples, but prior work uses many held-out examples to tune various aspects of learning, such as hyperparameters, training objectives, and natural language templates ("prompts"). Here, we evaluate the few-shot ability of LMs when such held-out examples are unavailable, a setting we call true few-shot learning. We test two model selection criteria, cross-validation and minimum description length, for choosing LM prompts and hyperparameters in the true few-shot setting. On average, both marginally outperform random selection and greatly underperform selection based on held-out examples. Moreover, selection criteria often prefer models that perform significantly worse than randomly-selected ones. We find similar results even when taking into account our uncertainty in a model's true performance during selection, as well as when varying the amount of computation and number of examples used for selection. Overall, our findings suggest that prior work significantly overestimated the true few-shot ability of LMs given the difficulty of few-shot model selection.
翻訳日:2021-05-25 15:33:20 公開日:2021-05-24
# Sim-to-Realの粗大化:ワークスペース全体のサブミリメートル精度

Coarse-to-Fine for Sim-to-Real: Sub-Millimetre Precision Across the Workspace ( http://arxiv.org/abs/2105.11283v1 )

ライセンス: Link先を確認
Eugene Valassakis, Norman Di Palo and Edward Johns(参考訳) 深層学習によるロボット操作のための制御ポリシをトレーニングする場合、sim-to-real転送は大きなデータ要求を満たすのに役立つ。 本稿では,ゼロショット・シム・トゥ・リアル(0-shot sim-to-real)の課題について,高精度な制御,サブミリメートル誤差耐性,フルワークスペースの一般化の両面から検討する。 このフレームワークでは,まずはポーズ推定に基づく古典的な動作計画から始まり,画像からアクションへのマッピングとドメインランダム化によるシミュレーションのトレーニングを行うエンドツーエンドコントローラへと遷移する。 このようにして,作業空間全体にわたってコントローラを一般化し,視覚ベースのエンドツーエンド制御の汎用性と堅牢性を維持しながら,高精度な制御を実現する。 さまざまなタスクにおける実世界実験では,両世界のベストを生かしたフレームワークが,純粋に動作計画手法や純粋に学習に基づく手法をはるかに上回っていることが示されている。 さらに、画像センサのモダリティや画像特徴表現の違いなど、正確なsim-to-real転送のためのベストプラクティスに関するさまざまな質問に答える。

When training control policies for robot manipulation via deep learning, sim-to-real transfer can help satisfy the large data requirements. In this paper, we study the problem of zero-shot sim-to-real when the task requires both highly precise control, with sub-millimetre error tolerance, and full workspace generalisation. Our framework involves a coarse-to-fine controller, where trajectories initially begin with classical motion planning based on pose estimation, and transition to an end-to-end controller which maps images to actions and is trained in simulation with domain randomisation. In this way, we achieve precise control whilst also generalising the controller across the workspace and keeping the generality and robustness of vision-based, end-to-end control. Real-world experiments on a range of different tasks show that, by exploiting the best of both worlds, our framework significantly outperforms purely motion planning methods, and purely learning-based methods. Furthermore, we answer a range of questions on best practices for precise sim-to-real transfer, such as how different image sensor modalities and image feature representations perform.
翻訳日:2021-05-25 15:32:41 公開日:2021-05-24
# ニューラルマシン翻訳における言語モデルの不信感の防止

Prevent the Language Model from being Overconfident in Neural Machine Translation ( http://arxiv.org/abs/2105.11098v1 )

ライセンス: Link先を確認
Mengqi Miao, Fandong Meng, Yijin Liu, Xiao-Hua Zhou, Jie Zhou(参考訳) neural machine translation(nmt)モデルは、基本的には、ソース文と部分翻訳の両方で条件付けられたジョイント言語モデルである。 したがって、NMTモデルは、部分翻訳のみに基づいて次のトークンを予測する言語モデル(LM)のメカニズムを自然に含んでいる。 その成功にもかかわらず、nmtは未だに幻覚の問題に苦しんでおり、不適切な翻訳を生み出している。 主な理由は、nmtが部分翻訳に過度に注意を払っている一方、ソース文はある程度無視されているためである。 そこで,各トークンについて,NMTモデルからLMの予測確率を減じて計算したNMTとLMのマージンを定義する。 マージンは、lmの過信頼度と負に相関する。 そこで本研究では,lmの過信防止のためのマージンを最大化するためのマージンベーストークンレベル目標(mto)とマージンベース文レベル目標(mso)を提案する。 WMT14英語-ドイツ語、WMT19中国語-英語、WMT14英語-フランス語翻訳タスクの実験では、Transformerベースラインと比較して、それぞれ1.36, 1.50, 0.63BLEUの改善が見られた。 人間の評価は、我々のアプローチが翻訳精度と流布度を改善することをさらに確認する。

The Neural Machine Translation (NMT) model is essentially a joint language model conditioned on both the source sentence and partial translation. Therefore, the NMT model naturally involves the mechanism of the Language Model (LM) that predicts the next token only based on partial translation. Despite its success, NMT still suffers from the hallucination problem, generating fluent but inadequate translations. The main reason is that NMT pays excessive attention to the partial translation while neglecting the source sentence to some extent, namely overconfidence of the LM. Accordingly, we define the Margin between the NMT and the LM, calculated by subtracting the predicted probability of the LM from that of the NMT model for each token. The Margin is negatively correlated to the overconfidence degree of the LM. Based on the property, we propose a Margin-based Token-level Objective (MTO) and a Margin-based Sentencelevel Objective (MSO) to maximize the Margin for preventing the LM from being overconfident. Experiments on WMT14 English-to-German, WMT19 Chinese-to-English, and WMT14 English-to-French translation tasks demonstrate the effectiveness of our approach, with 1.36, 1.50, and 0.63 BLEU improvements, respectively, compared to the Transformer baseline. The human evaluation further verifies that our approaches improve translation adequacy as well as fluency.
翻訳日:2021-05-25 15:31:46 公開日:2021-05-24
# One2Set: 異なるキーワードをセットとして生成する

One2Set: Generating Diverse Keyphrases as a Set ( http://arxiv.org/abs/2105.11134v1 )

ライセンス: Link先を確認
Jiacheng Ye, Tao Gui, Yichao Luo, Yige Xu, Qi Zhang(参考訳) 近年,訓練中に複数のキーフレーズを予め定義された順序で連結することで,キーフレーズ生成(kg)の課題に顕著な進歩を遂げている。 しかし、キーフレーズは本質的に順序列ではなく順序集合である。 事前定義された順序を設定すると、トレーニング中に誤ったバイアスが発生し、キーフレーズ間の順序のシフトを高いペナルティにすることができる。 本研究では,キーフレーズを結合する順序を事前に定義することなく,新しい学習パラダイムone2setを提案する。 このパラダイムを適合させるために, 学習制御符号の固定セットを条件として利用し, キーフレーズのセットを並列に生成する新しいモデルを提案する。 トレーニング中に各予測値と目標値が一致しないという問題を解決するため,両部マッチングによる目標割当機構を提案し,その多様性を大幅に向上させ,生成したキーフレーズの重複率を低減する。 複数のベンチマークによる実験結果から,本手法が最先端手法を著しく上回っていることが示された。

Recently, the sequence-to-sequence models have made remarkable progress on the task of keyphrase generation (KG) by concatenating multiple keyphrases in a predefined order as a target sequence during training. However, the keyphrases are inherently an unordered set rather than an ordered sequence. Imposing a predefined order will introduce wrong bias during training, which can highly penalize shifts in the order between keyphrases. In this work, we propose a new training paradigm One2Set without predefining an order to concatenate the keyphrases. To fit this paradigm, we propose a novel model that utilizes a fixed set of learned control codes as conditions to generate a set of keyphrases in parallel. To solve the problem that there is no correspondence between each prediction and target during training, we propose a $K$-step target assignment mechanism via bipartite matching, which greatly increases the diversity and reduces the duplication ratio of generated keyphrases. The experimental results on multiple benchmarks demonstrate that our approach significantly outperforms the state-of-the-art methods.
翻訳日:2021-05-25 15:31:24 公開日:2021-05-24
# コモンセンス生成のための検索強化モデル

Retrieval Enhanced Model for Commonsense Generation ( http://arxiv.org/abs/2105.11174v1 )

ライセンス: Link先を確認
Han Wang, Yang Liu, Chenguang Zhu, Linjun Shou, Ming Gong, Yichong Xu, Michael Zeng(参考訳) コモンセンス生成は、提供された概念を用いて日常的なシナリオを記述するもっともらしい文を生成するための課題である。 常識知識と構成一般化能力に対する推論の要件は、強力な事前学習言語生成モデルさえもパズルである。 本稿では,コモンセンス生成のための事前学習と微調整の両方を強化するために,検索手法を用いた新しいフレームワークを提案する。 プロトタイプ文候補を概念マッチングで検索し,補助入力として利用する。 微調整のために、訓練可能な文検索器でさらにパフォーマンスを高めます。 提案手法は, 大規模CommonGenベンチマークを用いて, 最新の成果を実証する。

Commonsense generation is a challenging task of generating a plausible sentence describing an everyday scenario using provided concepts. Its requirement of reasoning over commonsense knowledge and compositional generalization ability even puzzles strong pre-trained language generation models. We propose a novel framework using retrieval methods to enhance both the pre-training and fine-tuning for commonsense generation. We retrieve prototype sentence candidates by concept matching and use them as auxiliary input. For fine-tuning, we further boost its performance with a trainable sentence retriever. We demonstrate experimentally on the large-scale CommonGen benchmark that our approach achieves new state-of-the-art results.
翻訳日:2021-05-25 15:31:07 公開日:2021-05-24
# 再現性レポート:ポストホック説明によるヘイトスピーチ分類の文脈化

Reproducibility Report: Contextualizing Hate Speech Classifiers with Post-hoc Explanation ( http://arxiv.org/abs/2105.11412v1 )

ライセンス: Link先を確認
Kiran Purohit, Owais Iqbal and Ankan Mullick(参考訳) 本報告では, ML再現性チャレンジ2020の範囲内で, ポストホック説明紙を用いた文脈的ヘイトスピーチ分類器の評価を行った。 本研究は,本論文を構成する2つの側面,すなわち方法自体と提案結果の有効性に焦点を当てる。 以下の節では,論文,関連研究,アルゴリズムフレームワーク,実験および評価について述べる。

The presented report evaluates Contextualizing Hate Speech Classifiers with Post-hoc Explanation paper within the scope of ML Reproducibility Challenge 2020. Our work focuses on both aspects constituting the paper: the method itself and the validity of the stated results. In the following sections, we have described the paper, related works, algorithmic frameworks, our experiments and evaluations.
翻訳日:2021-05-25 15:30:58 公開日:2021-05-24
# ユーザ生成データから副作用を抽出するためのラベルなしデータによるビュー蒸留

View Distillation with Unlabeled Data for Extracting Adverse Drug Effects from User-Generated Data ( http://arxiv.org/abs/2105.11354v1 )

ライセンス: Link先を確認
Payam Karisani, Jinho D. Choi, Li Xiong(参考訳) 本稿では,ソーシャルメディアデータ中の逆薬物反応(ADR)を識別するための多層トランスフォーマーに基づくアルゴリズムを提案する。 本モデルは,文書から2つのビューを抽出するために,問題の性質と文脈単語埋め込みの特性に依存する。 次に、各ビューに分類器をトレーニングし、ラベルのない文書のセットをラベル付けし、他のビューで新しい分類器のイニシャライザとして使用する。 最後に、各ビューにおける初期化分類器は、初期トレーニング例を使用してさらに訓練される。 我々は、我々のモデルを、利用可能な最大のADRデータセットで評価した。 実験によれば、このモデルはドメイン固有のデータに基づいて事前学習されたトランスフォーマーベースのモデルを大幅に上回っている。

We present an algorithm based on multi-layer transformers for identifying Adverse Drug Reactions (ADR) in social media data. Our model relies on the properties of the problem and the characteristics of contextual word embeddings to extract two views from documents. Then a classifier is trained on each view to label a set of unlabeled documents to be used as an initializer for a new classifier in the other view. Finally, the initialized classifier in each view is further trained using the initial training examples. We evaluated our model in the largest publicly available ADR dataset. The experiments testify that our model significantly outperforms the transformer-based models pretrained on domain-specific data.
翻訳日:2021-05-25 15:29:43 公開日:2021-05-24
# 封建階層強化学習によるルームクリアランス

Room Clearance with Feudal Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2105.11328v1 )

ライセンス: Link先を確認
Henry Charlesworth, Adrian Millea, Eddie Pottrill, Rich Riley(参考訳) 強化学習(rl)は、システムと環境との試行錯誤による自律的な学習を可能にする汎用フレームワークである。 近年、RLと表現力のある高容量ニューラルネットワークモデルを組み合わせることで、さまざまな領域で顕著なパフォーマンスを実現している。 しかし、実世界の問題にしばしば必要とされる大きな状態と行動空間を扱うことは依然として大きな課題である。 本稿では,rl研究を軍事分析に有用な方向に進めるためのシナリオを構築するためのツールとして,新たなシミュレーション環境「ギャンビット」を提案する。 この環境を使用することで、ブルーエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから切り離され(そして明確に保たれる)なければならない、抽象的で単純化されたルームクリアランスシナリオに焦点をあてます。 我々は,階層型階層型rlのマルチエージェント版を実装し,上位レベルの指揮官が命令に従うために単に学習しなければならない下位レベルの複数のエージェントに命令を送るコマンド階層を導入する。 この方法でタスクを分解することで、比較した標準的なベースラインRLアルゴリズムよりもはるかに効率的に複数のエージェントの調整を必要とする多くの非自明なフロアプランを解決できることがわかった。 次に、エージェントの報酬関数(例えば、エージェントの報酬関数)の優先順位によって、定性的に異なる振る舞いがどのように現れるかを探る。 素早く建物を片付け 民の救済を優先して)

Reinforcement learning (RL) is a general framework that allows systems to learn autonomously through trial-and-error interaction with their environment. In recent years combining RL with expressive, high-capacity neural network models has led to impressive performance in a diverse range of domains. However, dealing with the large state and action spaces often required for problems in the real world still remains a significant challenge. In this paper we introduce a new simulation environment, "Gambit", designed as a tool to build scenarios that can drive RL research in a direction useful for military analysis. Using this environment we focus on an abstracted and simplified room clearance scenario, where a team of blue agents have to make their way through a building and ensure that all rooms are cleared of (and remain clear) of enemy red agents. We implement a multi-agent version of feudal hierarchical RL that introduces a command hierarchy where a commander at the higher level sends orders to multiple agents at the lower level who simply have to learn to follow these orders. We find that breaking the task down in this way allows us to solve a number of non-trivial floorplans that require the coordination of multiple agents much more efficiently than the standard baseline RL algorithms we compare with. We then go on to explore how qualitatively different behaviour can emerge depending on what we prioritise in the agent's reward function (e.g. clearing the building quickly vs. prioritising rescuing civilians).
翻訳日:2021-05-25 15:29:17 公開日:2021-05-24
# 随時学習によるロバスト学習

Robust learning with anytime-guaranteed feedback ( http://arxiv.org/abs/2105.11135v1 )

ライセンス: Link先を確認
Matthew J. Holland(参考訳) 重み付けされたデータ分布の下では、確率的勾配に基づく学習アルゴリズムの多くは、パフォーマンス保証がほとんどないポイントでクエリされたフィードバックによって駆動される。 ここでは、スムーズな目的のために、確率勾配の低次モーメント境界のみを必要としながら、高い確率誤差境界を許容する修正「常にオンラインからバッチ」機構について検討する。 この変換を用いることで、パフォーマンス分析のタスクを効果的に後悔制御に還元し、既存の後悔境界(有界な勾配の場合)を堅牢化し、直接的な方法で活用できる、幅広い「任意の時間ロバスト」手順を導出することができる。 直接帰結として,全ての問合せ点がガウス以下の誤り境界を形式的に楽しむ確率勾配に基づくアルゴリズムが実装され,実際に実世界のデータアプリケーションにおいて顕著な利得を示す。

Under data distributions which may be heavy-tailed, many stochastic gradient-based learning algorithms are driven by feedback queried at points with almost no performance guarantees on their own. Here we explore a modified "anytime online-to-batch" ; mechanism which for smooth objectives admits high-probability error bounds while requiring only lower-order moment bounds on the stochastic gradients. Using this conversion, we can derive a wide variety of "anytime robust" procedures, for which the task of performance analysis can be effectively reduced to regret control, meaning that existing regret bounds (for the bounded gradient case) can be robustified and leveraged in a straightforward manner. As a direct takeaway, we obtain an easily implemented stochastic gradient-based algorithm for which all queried points formally enjoy sub-Gaussian error bounds, and in practice show noteworthy gains on real-world data applications.
翻訳日:2021-05-25 15:27:46 公開日:2021-05-24
# 分散回帰に対する不確かさの定量化

Uncertainty quantification for distributed regression ( http://arxiv.org/abs/2105.11425v1 )

ライセンス: Link先を確認
Valeriy Avanesov(参考訳) データセットのサイズは増え続けており、Kernel Ridge Regressionのようなよく研究されている学習テクニックが適用不可能で、深刻な計算上の課題を呈している。 分割と分割は一般的な修正であり、データセットを結合しないパーティションに分割し、ローカルな推定値を取得して平均化することを提案している。 本研究では,平均推定値の不確かさを定量化するためのデータ駆動手法を提案する。 すなわち、与えられた決定論的予測セット上で平均推定値によって得られた予測に対して、同時に要素信頼帯を構成する。 この新しいアプローチは、カーネルリッジ回帰が特別な場合である幅広い基礎学習者に対する厳密な理論的保証を特徴としている。 また,本解析の副産物として,分割・対数Kernel Ridge回帰に対するsup-norm整合結果を得る。 シミュレーション研究は理論的な結果を支持する。

The ever-growing size of the datasets renders well-studied learning techniques, such as Kernel Ridge Regression, inapplicable, posing a serious computational challenge. Divide-and-conquer is a common remedy, suggesting to split the dataset into disjoint partitions, obtain the local estimates and average them, it allows to scale-up an otherwise ineffective base approach. In the current study we suggest a fully data-driven approach to quantify uncertainty of the averaged estimator. Namely, we construct simultaneous element-wise confidence bands for the predictions yielded by the averaged estimator on a given deterministic prediction set. The novel approach features rigorous theoretical guaranties for a wide class of base learners with Kernel Ridge regression being a special case. As a by-product of our analysis we also obtain a sup-norm consistency result for the divide-and-conquer Kernel Ridge Regression. The simulation study supports the theoretical findings.
翻訳日:2021-05-25 15:27:30 公開日:2021-05-24
# Taylorが後に保存:Taylor表現を用いたビデオ予測の混乱

Taylor saves for later: disentanglement for video prediction using Taylor representation ( http://arxiv.org/abs/2105.11062v1 )

ライセンス: Link先を確認
Ting Pan and Zhuqing Jiang and Jianan Han and Shiping Wen and Aidong Men and Haiying Wang(参考訳) ビデオ予測は、気象学やロボットシステムにおける幅広い応用の課題である。 既存の作業は、短期的および長期的な予測性能のトレードオフに失敗し、ビデオフレーム内で堅牢な潜在力学則を抽出する。 本稿では,新しい再帰予測モジュール(taylorcell)と残差モジュールを用いて,ビデオフレームのテイラー特徴と残差特徴を分離する2分岐型seq-to-seq深層モデルを提案する。 TaylorCell はビデオフレームの高次元特徴を有限テイラー級数に拡張し、潜在法則を記述する。 TaylorCell では,Taylor 予測ユニット (TPU) とメモリ補正ユニット (MCU) を提案する。 TPUは、最初の入力フレームのデリバティブ情報を使用して、将来のフレームを予測する。 MCUは過去のフレームの情報をすべて蒸留し、予測されたテイラー特徴をTPUから補正する。 それに応じて、残余モジュールは、テイラー特徴に相補的な残余特徴を抽出する。 3つのジェネラリストデータセット (moving mnist, taxibj, human 3.6) について,本モデルが最先端モデルを上回るか,あるいは到達し,アブレーション実験により長期予測におけるモデルの有効性が実証された。

Video prediction is a challenging task with wide application prospects in meteorology and robot systems. Existing works fail to trade off short-term and long-term prediction performances and extract robust latent dynamics laws in video frames. We propose a two-branch seq-to-seq deep model to disentangle the Taylor feature and the residual feature in video frames by a novel recurrent prediction module (TaylorCell) and residual module. TaylorCell can expand the video frames' high-dimensional features into the finite Taylor series to describe the latent laws. In TaylorCell, we propose the Taylor prediction unit (TPU) and the memory correction unit (MCU). TPU employs the first input frame's derivative information to predict the future frames, avoiding error accumulation. MCU distills all past frames' information to correct the predicted Taylor feature from TPU. Correspondingly, the residual module extracts the residual feature complementary to the Taylor feature. On three generalist datasets (Moving MNIST, TaxiBJ, Human 3.6), our model outperforms or reaches state-of-the-art models, and ablation experiments demonstrate the effectiveness of our model in long-term prediction.
翻訳日:2021-05-25 15:27:17 公開日:2021-05-24
# 早鳥が寄生虫を捕まえる: 早期のライフサイクル欠陥予測装置

The Early Bird Catches the Worm: Better Early Life Cycle Defect Predictors ( http://arxiv.org/abs/2105.11082v1 )

ライセンス: Link先を確認
N.C. Shrikanth and Tim Menzies(参考訳) 研究者が利用可能なすべてのデータを分析するために急ぐ前に、まず、ある小さな領域で情報が最も密集しているかどうかを確認する必要がある。 なぜなら、240のgithubプロジェクトでは、そのデータ ``clumps''' の情報はプロジェクトの初期の部分に向けられているからです。 実際、最初の150コミットから学んだ欠陥予測モデルも、最先端の代替案よりもうまく機能しています。 この初期のライフサイクルデータだけで、モデルを(数ヶ月ではなく数週間で)非常に迅速に構築できます。 また、数百のソフトウェアプロジェクトに一般化するシンプルなモデル(2つの機能のみ)を見つけることができます。 この経験に基づいて、ソフトウェアエンジニアリングの欠陥予測モデルを一般化する以前の作業は、本質的に単純なプロセスが必然的に複雑であったかもしれないと警告する。 さらに, 後生サイクルデータに着目した先行研究は, 比較的非形式的な領域から結論が導かれたため, 再検討する必要がある。 レプリケーション: 当社のデータとスクリプトはすべて、https://github.com/s naraya7/early-defect -prediction-tseでオンラインです。

Before researchers rush to reason across all available data, they should first check if the information is densest within some small region. We say this since, in 240 GitHub projects, we find that the information in that data ``clumps'' towards the earliest parts of the project. In fact, a defect prediction model learned from just the first 150 commits works as well, or better than state-of-the-art alternatives. Using just this early life cycle data, we can build models very quickly (using weeks, not months, of CPU time). Also, we can find simple models (with just two features) that generalize to hundreds of software projects. Based on this experience, we warn that prior work on generalizing software engineering defect prediction models may have needlessly complicated an inherently simple process. Further, prior work that focused on later-life cycle data now needs to be revisited since their conclusions were drawn from relatively uninformative regions. Replication note: all our data and scripts are online at https://github.com/s naraya7/early-defect -prediction-tse.
翻訳日:2021-05-25 15:24:26 公開日:2021-05-24
# FedScale: フェデレーション学習のベンチマークモデルとシステムパフォーマンス

FedScale: Benchmarking Model and System Performance of Federated Learning ( http://arxiv.org/abs/2105.11367v1 )

ライセンス: Link先を確認
Fan Lai, Yinwei Dai, Xiangfeng Zhu, Mosharaf Chowdhury(参考訳) FedScaleは、スケーラブルで包括的で再現可能なフェデレーションラーニング(FL)研究を促進するための、挑戦的で現実的なベンチマークデータセットである。 FedScaleデータセットは大規模で、画像分類、オブジェクト検出、言語モデリング、音声認識、強化学習など、さまざまな重要なFLタスクを含んでいる。 各データセットに対して,実データ分割と評価指標を用いた統一評価プロトコルを提供する。 現実的なFLを大規模に再現する必要性に応えるため,FL実験とモデル評価のプロセスを簡素化し,標準化するための効率的な評価プラットフォームを構築した。 我々の評価プラットフォームはフレキシブルなAPIを提供し、新しいFLアルゴリズムを実装し、開発者の最小限の努力で新しい実行バックエンドを含む。 最後に,これらのデータセットについて詳細なベンチマーク実験を行う。 実験の結果,FedScaleはシステムの不均一性を意識した協調最適化と,現実的なFL特性下での統計的効率に関する重要な課題を呈し,今後の研究に有益であることを示す。 fedscaleは寛容なライセンスを持つオープンソースであり、積極的にメンテナンスされています。

We present FedScale, a diverse set of challenging and realistic benchmark datasets to facilitate scalable, comprehensive, and reproducible federated learning (FL) research. FedScale datasets are large-scale, encompassing a diverse range of important FL tasks, such as image classification, object detection, language modeling, speech recognition, and reinforcement learning. For each dataset, we provide a unified evaluation protocol using realistic data splits and evaluation metrics. To meet the pressing need for reproducing realistic FL at scale, we have also built an efficient evaluation platform to simplify and standardize the process of FL experimental setup and model evaluation. Our evaluation platform provides flexible APIs to implement new FL algorithms and include new execution backends with minimal developer efforts. Finally, we perform indepth benchmark experiments on these datasets. Our experiments suggest that FedScale presents significant challenges of heterogeneity-aware co-optimizations of the system and statistical efficiency under realistic FL characteristics, indicating fruitful opportunities for future research. FedScale is open-source with permissive licenses and actively maintained, and we welcome feedback and contributions from the community.
翻訳日:2021-05-25 15:24:08 公開日:2021-05-24
# 機械学習による3次元物体検出のための高レベルカメラ-LiDAR融合

High-level camera-LiDAR fusion for 3D object detection with machine learning ( http://arxiv.org/abs/2105.11060v1 )

ライセンス: Link先を確認
Gustavo A. Salazar-Gomez, Miguel A. Saavedra-Ruiz, Victor A. Romero-Cano(参考訳) 本稿では,自動運転などの応用において重要な3次元物体検出問題に取り組む。 我々のフレームワークは、モノクロカメラとLiDARデータを組み合わせた機械学習(ML)パイプラインを使用して、動くプラットフォームの周囲の3D空間における車両を検出する。 State-Of-The-Art (SOTA) 2Dオブジェクト検出器によって生成されたフラストレーション領域の提案を使用して、LiDAR点雲を潜在的に個々のオブジェクトを表すポイントクラスタに分割する。 移動プラットフォーム周囲の車両を囲む3次元境界ボックスのパラメータを推定するための全体的パイプラインの一部として,古典的MLアルゴリズムの性能を評価する。 その結果、検証セットの効率良く正確な推定が可能となり、全体の精度は87.1%となった。

This paper tackles the 3D object detection problem, which is of vital importance for applications such as autonomous driving. Our framework uses a Machine Learning (ML) pipeline on a combination of monocular camera and LiDAR data to detect vehicles in the surrounding 3D space of a moving platform. It uses frustum region proposals generated by State-Of-The-Art (SOTA) 2D object detectors to segment LiDAR point clouds into point clusters which represent potentially individual objects. We evaluate the performance of classical ML algorithms as part of an holistic pipeline for estimating the parameters of 3D bounding boxes which surround the vehicles around the moving platform. Our results demonstrate an efficient and accurate inference on a validation set, achieving an overall accuracy of 87.1%.
翻訳日:2021-05-25 15:22:49 公開日:2021-05-24
# airnet: 空気上でのニューラルネットワークの伝送

AirNet: Neural Network Transmission over the Air ( http://arxiv.org/abs/2105.11166v1 )

ライセンス: Link先を確認
Mikolaj Jankowski, Deniz Gunduz, Krystian Mikolajczyk(参考訳) 多くの新興エッジアプリケーションの最先端性能はディープニューラルネットワーク(DNN)によって達成されている。 多くの場合、これらのDNNは位置と時間に敏感であり、特定のDNNのパラメータは、時間に敏感な推論タスクを実行するために、エッジサーバからエッジデバイスに迅速かつ効率的に配信されなければならない。 本稿では,DNNの効率的な無線配信を可能にする新しいトレーニングおよびアナログ伝送手法であるAirNetを紹介する。 まず,dnnをノイズインジェクションで訓練し,無線チャネルノイズに対応する。 また,伝送に必要なチャネル帯域幅を削減し,さらに大きなモデルから知識蒸留を行い,チャネルの摂動にも拘わらず良好な性能を実現するため,プルーニングを用いる。 本研究では,同じ帯域幅と電力制約下でのディジタル代替品と比較して,AirNetはテスト精度が有意に高いことを示す。 また、チャネル品質による優雅な劣化を示し、正確なチャネル推定の要求を低減させる。

State-of-the-art performance for many emerging edge applications is achieved by deep neural networks (DNNs). Often, these DNNs are location and time sensitive, and the parameters of a specific DNN must be delivered from an edge server to the edge device rapidly and efficiently to carry out time-sensitive inference tasks. We introduce AirNet, a novel training and analog transmission method that allows efficient wireless delivery of DNNs. We first train the DNN with noise injection to counter the wireless channel noise. We also employ pruning to reduce the channel bandwidth necessary for transmission, and perform knowledge distillation from a larger model to achieve satisfactory performance, despite the channel perturbations. We show that AirNet achieves significantly higher test accuracy compared to digital alternatives under the same bandwidth and power constraints. It also exhibits graceful degradation with channel quality, which reduces the requirement for accurate channel estimation.
翻訳日:2021-05-25 15:22:37 公開日:2021-05-24
# 正規化強化学習のためのポリシーミラーディッセンス:線形収束を用いた一般化フレームワーク

Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence ( http://arxiv.org/abs/2105.11066v1 )

ライセンス: Link先を確認
Wenhao Zhan, Shicong Cen, Baihe Huang, Yuxin Chen, Jason D. Lee, Yuejie Chi(参考訳) 大規模最適化手法によって価値関数を最大化することで関心の政策を学習する政策最適化は、現代強化学習(RL)の中心にある。 価値の最大化に加えて、探索を奨励する必要性や、安全性、資源、運用上の制約による学習方針の構造的特性の確保など、他の実践的な考察も一般的である。 これらの考慮は、ターゲット値関数を構造的動機付け正規化項で拡張する正規化 RL を利用することで、しばしば説明できる。 本稿では、無限水平割引マルコフ決定過程に着目し、正規化RLを解くための一般化ポリシーミラー降下(GPMD)アルゴリズムを提案する。 ポリシーミラー降下ラン(2021)の一般化として,提案アルゴリズムは一般の凸正則化器のクラスと,使用中の正則化器の認識におけるブレグマン分散の幅広いファミリーに対応している。 正規化器が強い凸性と滑らかさを欠いている場合でも,このアルゴリズムは,次元フリーな方法で,全学習率に対して線形収束することを示す。 さらに、この線形収束機能は、不十分なポリシー評価と不完全なポリシー更新に直面して確実に安定している。 GPMDの適用性と魅力を相関させる数値実験を行った。

Policy optimization, which learns the policy of interest by maximizing the value function via large-scale optimization techniques, lies at the heart of modern reinforcement learning (RL). In addition to value maximization, other practical considerations arise commonly as well, including the need of encouraging exploration, and that of ensuring certain structural properties of the learned policy due to safety, resource and operational constraints. These considerations can often be accounted for by resorting to regularized RL, which augments the target value function with a structure-promoting regularization term. Focusing on an infinite-horizon discounted Markov decision process, this paper proposes a generalized policy mirror descent (GPMD) algorithm for solving regularized RL. As a generalization of policy mirror descent Lan (2021), the proposed algorithm accommodates a general class of convex regularizers as well as a broad family of Bregman divergence in cognizant of the regularizer in use. We demonstrate that our algorithm converges linearly over an entire range of learning rates, in a dimension-free fashion, to the global solution, even when the regularizer lacks strong convexity and smoothness. In addition, this linear convergence feature is provably stable in the face of inexact policy evaluation and imperfect policy updates. Numerical experiments are provided to corroborate the applicability and appealing performance of GPMD.
翻訳日:2021-05-25 15:22:24 公開日:2021-05-24
# structurelm: フォーム理解のための構造事前学習

StructuralLM: Structural Pre-training for Form Understanding ( http://arxiv.org/abs/2105.11210v1 )

ライセンス: Link先を確認
Chenliang Li, Bin Bi, Ming Yan, Wei Wang, Songfang Huang, Fei Huang and Luo Si(参考訳) 大きな事前学習された言語モデルは、下流のnlpタスクで微調整された場合、最先端の結果を得る。 しかし、主にテキストのみの表現にフォーカスする一方で、画像理解において重要なセルレベルのレイアウト情報を無視している。 本稿では,スキャンされた文書からセル情報とレイアウト情報を共同で活用する新しい事前学習手法であるstructurelmを提案する。 具体的には、セルとレイアウト情報の相互作用を最大限に活用するための2つの新しい設計を事前訓練する: 1)各セルを意味単位とし、2)細胞の位置を分類する。 事前訓練されたstructurelmは、フォーム理解(78.95から85.14)、文書視覚的質問応答(72.59から83.94)、文書画像分類(94.43から96.08)など、下流タスクのさまざまなタイプの新しい結果を達成する。

Large pre-trained language models achieve state-of-the-art results when fine-tuned on downstream NLP tasks. However, they almost exclusively focus on text-only representation, while neglecting cell-level layout information that is important for form image understanding. In this paper, we propose a new pre-training approach, StructuralLM, to jointly leverage cell and layout information from scanned documents. Specifically, we pre-train StructuralLM with two new designs to make the most of the interactions of cell and layout information: 1) each cell as a semantic unit; 2) classification of cell positions. The pre-trained StructuralLM achieves new state-of-the-art results in different types of downstream tasks, including form understanding (from 78.95 to 85.14), document visual question answering (from 72.59 to 83.94) and document image classification (from 94.43 to 96.08).
翻訳日:2021-05-25 15:21:04 公開日:2021-05-24
# 求人投稿におけるプライバシ関連エンティティの特定

De-identification of Privacy-related Entities in Job Postings ( http://arxiv.org/abs/2105.11223v1 )

ライセンス: Link先を確認
Kristian N{\o}rgaard Jensen, Mike Zhang, Barbara Plank(参考訳) 身元特定は、人物名、電子メール、連絡先データなどのプライバシー関連エンティティをテキストで検出するタスクである。 医学領域内ではよく研究されている。 プライバシ保護データ処理が多くのドメインで要求されているため、非識別技術の必要性が高まっている。 本稿では,仕事の投稿に焦点をあてる。 JobStackは、Stackoverflow上のジョブの空白における個人データの非特定のための新しいコーパスである。 本稿では,Long-Short Term Memory(LSTM)モデルとTransformerモデルを比較し,ベースラインを導入する。 これらのベースラインを改善するため,マルチタスク学習によるコンテキスト埋め込みと遠隔関連補助データを用いた実験を行った。 以上の結果から,補助データによる識別性能の向上が示唆された。 驚いたことに、バニラBERTはStackoverflowの他の部分でトレーニングされたBERTモデルよりも効果的であることが判明した。

De-identification is the task of detecting privacy-related entities in text, such as person names, emails and contact data. It has been well-studied within the medical domain. The need for de-identification technology is increasing, as privacy-preserving data handling is in high demand in many domains. In this paper, we focus on job postings. We present JobStack, a new corpus for de-identification of personal data in job vacancies on Stackoverflow. We introduce baselines, comparing Long-Short Term Memory (LSTM) and Transformer models. To improve upon these baselines, we experiment with contextualized embeddings and distantly related auxiliary data via multi-task learning. Our results show that auxiliary data improves de-identification performance. Surprisingly, vanilla BERT turned out to be more effective than a BERT model trained on other portions of Stackoverflow.
翻訳日:2021-05-25 15:20:50 公開日:2021-05-24
# 異種グラフニューラルネットワークを用いた言語間テキスト分類

Cross-lingual Text Classification with Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2105.11246v1 )

ライセンス: Link先を確認
Ziyun Wang, Xuan Liu, Peiji Yang, Shixing Liu, Zhisheng Wang(参考訳) 言語間のテキスト分類は、ソース言語上の分類器を訓練し、その知識をターゲット言語に伝達することを目的としている。 最近の多言語事前訓練言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらすが、意味的類似性を超えた要因を考えることは稀であり、いくつかの言語ペア間での性能劣化を引き起こす。 本稿では,グラフ畳み込みネットワーク (GCN) を用いた言語間テキスト分類のための,言語内および言語間における異種情報の統合方法を提案する。 特に、文書や単語をノードとして扱うことで異質なグラフを構築し、音声の役割や意味的類似性、文書翻訳など、異なる関係を持つノードをリンクする。 広範な実験により,我々のグラフベース手法は,すべてのタスクにおいて最先端モデルを大幅に上回っており,トランスレータなどの外部ツールが使用できない低リソース環境において,ベースラインよりも一貫したパフォーマンス向上を実現していることが示された。

Cross-lingual text classification aims at training a classifier on the source language and transferring the knowledge to target languages, which is very useful for low-resource languages. Recent multilingual pretrained language models (mPLM) achieve impressive results in cross-lingual classification tasks, but rarely consider factors beyond semantic similarity, causing performance degradation between some language pairs. In this paper we propose a simple yet effective method to incorporate heterogeneous information within and across languages for cross-lingual text classification using graph convolutional networks (GCN). In particular, we construct a heterogeneous graph by treating documents and words as nodes, and linking nodes with different relations, which include part-of-speech roles, semantic similarity, and document translations. Extensive experiments show that our graph-based method significantly outperforms state-of-the-art models on all tasks, and also achieves consistent performance gain over baselines in low-resource settings where external tools like translators are unavailable.
翻訳日:2021-05-25 15:20:37 公開日:2021-05-24
# PTR: テキスト分類規則付きプロンプトチューニング

PTR: Prompt Tuning with Rules for Text Classification ( http://arxiv.org/abs/2105.11259v1 )

ライセンス: Link先を確認
Xu Han, Weilin Zhao, Ning Ding, Zhiyuan Liu, Maosong Sun(参考訳) 微調整された事前学習言語モデル(plm)は、ほとんどすべてのnlpタスクで素晴らしいパフォーマンスを達成しました。 PLMを微調整するための追加のプロンプトを使用することで、PLMに分散された豊富な知識をさらに刺激し、下流のタスクに役立てることができる。 プラットチューニングは、感情分類や自然言語推論のようないくつかのクラス分類タスクにおいて有望な結果を得た。 しかし、多くの言語プロンプトを手動で設計するのは面倒で誤りです。 自動生成プロンプトの場合、非フェウショットシナリオでの有効性を検証するのも高価で時間がかかります。 したがって、多くのクラス分類タスクに迅速に対処することは困難である。 そこで本研究では,多クラステキスト分類のためのプロンプトチューニング(ptr)を提案し,複数のサブプロンプトを用いたプロンプトの構築に論理ルールを適用する。 このように、ptrは各クラスの事前知識をプロンプトチューニングにエンコードすることができる。 関係分類, 典型的な多クラス分類タスクについて実験を行い, ベンチマークの結果から, PTRが既存の最先端のベースラインを大幅に上回ることを示す。 このことは、PTRが複雑な分類タスクにPLMを利用するための有望なアプローチであることを示している。

Fine-tuned pre-trained language models (PLMs) have achieved awesome performance on almost all NLP tasks. By using additional prompts to fine-tune PLMs, we can further stimulate the rich knowledge distributed in PLMs to better serve downstream task. Prompt tuning has achieved promising results on some few-class classification tasks such as sentiment classification and natural language inference. However, manually designing lots of language prompts is cumbersome and fallible. For those auto-generated prompts, it is also expensive and time-consuming to verify their effectiveness in non-few-shot scenarios. Hence, it is challenging for prompt tuning to address many-class classification tasks. To this end, we propose prompt tuning with rules (PTR) for many-class text classification, and apply logic rules to construct prompts with several sub-prompts. In this way, PTR is able to encode prior knowledge of each class into prompt tuning. We conduct experiments on relation classification, a typical many-class classification task, and the results on benchmarks show that PTR can significantly and consistently outperform existing state-of-the-art baselines. This indicates that PTR is a promising approach to take advantage of PLMs for those complicated classification tasks.
翻訳日:2021-05-25 15:20:21 公開日:2021-05-24
# twitterテキストマイニングによる組織的リーダーシップスタイルの評価

Assessing perceived organizational leadership styles through twitter text mining ( http://arxiv.org/abs/2105.11276v1 )

ライセンス: Link先を確認
A. La Bella, A. Fronzetti Colladon, E. Battistoni, S. Castellan, M. Francucci(参考訳) 組織的リーダシップのスタイルを評価するために,サポートベクタマシンに基づくテキスト分類ツールを提案する。 われわれは51日間にわたってTwitterのデータを収集し、2015年のForbes Global 2000ランキングで最初の30のイタリアの組織に関連する。 企業リーダーのコミュニケーションを各企業の利害関係者間の対話とともに分析し、リーダーシップのスタイルやディメンジョンとの関連性について理解した。 リーダーシッププロファイルを評価するため、2007年にBarchiesi氏とLa Bella氏が開発した10要素モデルを紹介した。 ソーシャルメディアの相互作用から生まれる企業におけるリーダーシップ能力の迅速な評価を可能にするため、我々は提案するアプローチの独特さを維持している。 また、特定のイベントが発生したときに企業がどのように対応し、コミュニケーションを管理するかを示し、ステークホルダーの反応を評価するためにも使用できる。

We propose a text classification tool based on support vector machines for the assessment of organizational leadership styles, as appearing to Twitter users. We collected Twitter data over 51 days, related to the first 30 Italian organizations in the 2015 ranking of Forbes Global 2000-out of which we selected the five with the most relevant volumes of tweets. We analyzed the communication of the company leaders, together with the dialogue among the stakeholders of each company, to understand the association with perceived leadership styles and dimensions. To assess leadership profiles, we referred to the 10-factor model developed by Barchiesi and La Bella in 2007. We maintain the distinctiveness of the approach we propose, as it allows a rapid assessment of the perceived leadership capabilities of an enterprise, as they emerge from its social media interactions. It can also be used to show how companies respond and manage their communication when specific events take place, and to assess their stakeholder's reactions.
翻訳日:2021-05-25 15:20:04 公開日:2021-05-24
# robeczech: czech roberta : 単言語文脈化言語表現モデル

RobeCzech: Czech RoBERTa, a monolingual contextualized language representation model ( http://arxiv.org/abs/2105.11314v1 )

ライセンス: Link先を確認
Milan Straka, Jakub N\'aplava, Jana Strakov\'a, David Samuel(参考訳) チェコ語データに基づく単言語ロベルタ言語表現モデルであるrobeczechを提案する。 RoBERTaは、堅牢に最適化されたTransformerベースの事前トレーニングアプローチである。 我々は,RobeCzechが多言語およびチェコ語で訓練された文脈言語表現モデルよりもかなり優れており,評価された5つのNLPタスクすべてにおいて,最先端の言語表現モデルよりも優れており,そのうち4つが最先端の成果であることを示した。 RobeCzechモデルはhttps://hdl.handle.n et/11234/1-3691とhttps://huggingface. co/ufal/robeczech-ba seで公開されている。

We present RobeCzech, a monolingual RoBERTa language representation model trained on Czech data. RoBERTa is a robustly optimized Transformer-based pretraining approach. We show that RobeCzech considerably outperforms equally-sized multilingual and Czech-trained contextualized language representation models, surpasses current state of the art in all five evaluated NLP tasks and reaches state-of-theart results in four of them. The RobeCzech model is released publicly at https://hdl.handle.n et/11234/1-3691 and https://huggingface. co/ufal/robeczech-ba se.
翻訳日:2021-05-25 15:19:49 公開日:2021-05-24
# チェコ語分析を用いたBERTによる発音復元

Diacritics Restoration using BERT with Analysis on Czech language ( http://arxiv.org/abs/2105.11408v1 )

ライセンス: Link先を確認
Jakub N\'aplava, Milan Straka, Jana Strakov\'a(参考訳) 我々は,コンテキスト化された埋め込み,すなわちbertに基づくダイアクリティカルス復元のための新しいアーキテクチャを提案し,ダイアクリティカルスを持つ12言語で評価した。 さらに,形態学的に豊かなチェコ語について詳細な誤り解析を行った。 特に、すべての誤予測を手動で注釈付けし、その約44%が実際には誤りではなく、もっともらしい変種(19%)か、誤ったデータのシステム修正(25%)であることを示した。 最後に、実際のエラーを詳細に分類する。 コードはhttps://github.com/u fal/bert-diacritics- restorationでリリースします。

We propose a new architecture for diacritics restoration based on contextualized embeddings, namely BERT, and we evaluate it on 12 languages with diacritics. Furthermore, we conduct a detailed error analysis on Czech, a morphologically rich language with a high level of diacritization. Notably, we manually annotate all mispredictions, showing that roughly 44% of them are actually not errors, but either plausible variants (19%), or the system corrections of erroneous data (25%). Finally, we categorize the real errors in detail. We release the code at https://github.com/u fal/bert-diacritics- restoration.
翻訳日:2021-05-25 15:19:37 公開日:2021-05-24
# 分割関数の推定:定量的研究

Partition Function Estimation: A Quantitative Study ( http://arxiv.org/abs/2105.11132v1 )

ライセンス: Link先を確認
Durgesh Agrawal and Yash Pote and Kuldeep S Meel(参考訳) 確率的グラフィカルモデルは、不確実性の下で推論する必要があるいくつかの現実シナリオの強力なモデリングツールとして登場した。 グラフィカルモデルの分割関数は関心の中心であり、その計算はいくつかの確率的推論タスクの鍵となる。 パーティション関数の計算における#P-hardnessを考えると、見積もりの質と実行時の振る舞いに関する様々な保証とともに、長年にわたっていくつかの技術が提案されてきた。 本稿では,18の手法に関する調査と,その挙動に関する厳密な実証的研究を,広範囲なベンチマークで実施することを目的とする。 正確な技術は近似技術と同じくらい効率的であるので、拡張性を高めた近似技術の設計の機会を楽観的に捉えて結論づける。 仮想ベストソルバーと最高のパフォーマンスツールとの等級差の観測により,ポートフォリオソルバーの開発に焦点をあてた,エキサイティングな研究ラインを構想した。

Probabilistic graphical models have emerged as a powerful modeling tool for several real-world scenarios where one needs to reason under uncertainty. A graphical model's partition function is a central quantity of interest, and its computation is key to several probabilistic reasoning tasks. Given the #P-hardness of computing the partition function, several techniques have been proposed over the years with varying guarantees on the quality of estimates and their runtime behavior. This paper seeks to present a survey of 18 techniques and a rigorous empirical study of their behavior across an extensive set of benchmarks. Our empirical study draws up a surprising observation: exact techniques are as efficient as the approximate ones, and therefore, we conclude with an optimistic view of opportunities for the design of approximate techniques with enhanced scalability. Motivated by the observation of an order of magnitude difference between the Virtual Best Solver and the best performing tool, we envision an exciting line of research focused on the development of portfolio solvers.
翻訳日:2021-05-25 15:19:03 公開日:2021-05-24
# 論証的XAI:調査

Argumentative XAI: A Survey ( http://arxiv.org/abs/2105.11266v1 )

ライセンス: Link先を確認
Kristijonas \v{C}yras, Antonio Rago, Emanuele Albini, Pietro Baroni, Francesca Toni(参考訳) 説明可能なAI(XAI)は何十年にもわたって研究され、AI自体とともに、近年では前例のない成長を遂げている。 XAIに対する様々なアプローチの中で、その弁証的性格は説明活動の基本的な望ましい特徴と合致しているように見えるため、AIと社会科学の両方で議論モデルが提唱されている。 本稿では,計算論の分野の手法を用いて構築したxaiアプローチについて概説する。 本稿では,異なる種類の説明(イントリンシックとポストホック)に着目した文献,議論に基づく説明が展開される異なるモデル,異なる形態の配信,異なる議論フレームワークについて概説する。 今後の作業のロードマップも公開しています。

Explainable AI (XAI) has been investigated for decades and, together with AI itself, has witnessed unprecedented growth in recent years. Among various approaches to XAI, argumentative models have been advocated in both the AI and social science literature, as their dialectical nature appears to match some basic desirable features of the explanation activity. In this survey we overview XAI approaches built using methods from the field of computational argumentation, leveraging its wide array of reasoning abstractions and explanation delivery methods. We overview the literature focusing on different types of explanation (intrinsic and post-hoc), different models with which argumentation-based explanations are deployed, different forms of delivery, and different argumentation frameworks they use. We also lay out a roadmap for future work.
翻訳日:2021-05-25 15:18:49 公開日:2021-05-24
# マルチモーダル深層学習の最近の進歩と動向

Recent Advances and Trends in Multimodal Deep Learning: A Review ( http://arxiv.org/abs/2105.11087v1 )

ライセンス: Link先を確認
Jabeen Summaira, Xi Li, Amin Muhammad Shoib, Songyuan Li and Jabbar Abdul(参考訳) Deep Learningは幅広いアプリケーションを実装しており、近年はますます人気が高まっている。 マルチモーダル深層学習の目標は、様々なモダリティを用いて情報を処理およびリンクできるモデルを作成することである。 一助学習のための広範な発展にもかかわらず、人間の学習のあらゆる側面をカバーすることはできない。 マルチモーダル学習は、様々な感覚が情報の処理に関わったときに、理解し、よりよく分析するのに役立つ。 本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。 過去および現在のベースラインアプローチの詳細な分析と、マルチモーダルディープラーニングアプリケーションにおける最近の進歩に関する詳細な研究が提供されている。 様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。 これらのアプリケーションで使用されるアーキテクチャやデータセットも、評価指標とともに議論されている。 最後に、各ドメインに関する主要な課題と将来の研究方向性を別々に強調する。

Deep Learning has implemented a wide range of applications and has become increasingly popular in recent years. The goal of multimodal deep learning is to create models that can process and link information using various modalities. Despite the extensive development made for unimodal learning, it still cannot cover all the aspects of human learning. Multimodal learning helps to understand and analyze better when various senses are engaged in the processing of information. This paper focuses on multiple types of modalities, i.e., image, video, text, audio, body gestures, facial expressions, and physiological signals. Detailed analysis of past and current baseline approaches and an in-depth study of recent advancements in multimodal deep learning applications has been provided. A fine-grained taxonomy of various multimodal deep learning applications is proposed, elaborating on different applications in more depth. Architectures and datasets used in these applications are also discussed, along with their evaluation metrics. Last, main issues are highlighted separately for each domain along with their possible future research directions.
翻訳日:2021-05-25 15:12:42 公開日:2021-05-24
# レイアウトグラフによるブックカバーデザインに向けて

Towards Book Cover Design via Layout Graphs ( http://arxiv.org/abs/2105.11088v1 )

ライセンス: Link先を確認
Wensheng Zhang, Yan Zheng, Taiga Miyazono, Seiichi Uchida, Brian Kenji Iwana(参考訳) 本カバーは故意に設計され、本の導入を提供する。 しかし、通常、カバー画像の設計と作成には専門的なスキルが必要となる。 そこで本研究では,使い易いレイアウトグラフに基づいて書籍の表紙を作成できる生成ニューラルネットワークを提案する。 レイアウトグラフには、テキスト、自然シーンオブジェクト、固体カラースペースなどのオブジェクトが含まれている。 このレイアウトグラフは、グラフ畳み込みニューラルネットワークを使用して埋め込み、マスク提案生成器とバウンディングボックス生成器で使用し、オブジェクト提案生成器で満たされる。 次に、オブジェクトを1つのイメージにコンパイルし、敵対的トレーニング、知覚的トレーニング、再構築の組み合わせを用いてネットワーク全体をトレーニングする。 最後に、スタイル保持ネットワーク(srnet)を使用して学習したフォントスタイルを所望のテキストに転送する。 提案手法を用いることで, コントロールが容易で, 独特な書籍カバーが可能となる。

Book covers are intentionally designed and provide an introduction to a book. However, they typically require professional skills to design and produce the cover images. Thus, we propose a generative neural network that can produce book covers based on an easy-to-use layout graph. The layout graph contains objects such as text, natural scene objects, and solid color spaces. This layout graph is embedded using a graph convolutional neural network and then used with a mask proposal generator and a bounding-box generator and filled using an object proposal generator. Next, the objects are compiled into a single image and the entire network is trained using a combination of adversarial training, perceptual training, and reconstruction. Finally, a Style Retention Network (SRNet) is used to transfer the learned font style onto the desired text. Using the proposed method allows for easily controlled and unique book covers.
翻訳日:2021-05-25 15:12:30 公開日:2021-05-24
# FineAction: 時間的アクションローカライゼーションのためのフィンドビデオデータセット

FineAction: A Fined Video Dataset for Temporal Action Localization ( http://arxiv.org/abs/2105.11107v1 )

ライセンス: Link先を確認
Yi Liu, Limin Wang, Xiao Ma, Yali Wang, Yu Qiao(参考訳) 既存のベンチマークデータセットであるTHUMOS14とActivityNetでは、時間的アクションローカライゼーション技術が大きな成功を収めている。 しかし、アクションのソースがシングルすぎること、THUMOS14にのみスポーツカテゴリが存在すること、ActivityNetとHACSセグメンツに不確実な境界を持つ粗いインスタンスが提案生成と行動予測に干渉することなど、いくつかの問題が存在する。 時間的行動ローカライゼーションを新たなレベルに引き上げるために,既存のビデオデータセットやWebビデオから収集した大規模ビデオデータセットであるFineActionを開発した。 全体として、このデータセットは、106のアクションカテゴリにまたがる約17kの未トリミングビデオに、139kの細かなアクションインスタンスを密に注釈付けしている。 FineActionは、既存のアクションローカライゼーションデータセットと比較して境界の不確実性を低減するために、アクションカテゴリと高品質アノテーションをより詳細に定義している。 本研究は,データセット上での時間的行動の定位を示す代表的な手法を体系的に検討し,さらに分析することで興味深い知見を得た。 実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。 このデータセットは将来的に公開され、FineActionが時間的行動ローカライゼーションに向けた研究を進めることを期待します。 データセットのWebサイトはhttps://deeperaction .github.io/fineactio n/です。

On the existing benchmark datasets, THUMOS14 and ActivityNet, temporal action localization techniques have achieved great success. However, there are still existing some problems, such as the source of the action is too single, there are only sports categories in THUMOS14, coarse instances with uncertain boundaries in ActivityNet and HACS Segments interfering with proposal generation and behavior prediction. To take temporal action localization to a new level, we develop FineAction, a new large-scale fined video dataset collected from existing video datasets and web videos. Overall, this dataset contains 139K fined action instances densely annotated in almost 17K untrimmed videos spanning 106 action categories. FineAction has a more fined definition of action categories and high-quality annotations to reduce the boundary uncertainty compared to the existing action localization datasets. We systematically investigate representative methods of temporal action localization on our dataset and obtain some interesting findings with further analysis. Experimental results reveal that our FineAction brings new challenges for action localization on fined and multi-label instances with shorter duration. This dataset will be public in the future and we hope our FineAction could advance research towards temporal action localization. Our dataset website is at https://deeperaction .github.io/fineactio n/.
翻訳日:2021-05-25 15:12:16 公開日:2021-05-24
# 野生の大規模顔認識のための動的クラスキュー

Dynamic Class Queue for Large Scale Face Recognition In the Wild ( http://arxiv.org/abs/2105.11113v1 )

ライセンス: Link先を確認
Bi Li, Teng Xi, Gang Zhang, Haocheng Feng, Junyu Han, Jingtuo Liu, Errui Ding, Wenyu Liu(参考訳) 大規模な顔データセットを使って差別表現を学ぶことは、現実世界のアプリケーションには不可欠だが、それでも難しい。 困難は多くの側面で生じており、この研究はリソース制約と長い尾のクラス分布の計算に焦点を当てている。 近年,ディープニューラルネットワークを用いた分類に基づく表現学習とよく設計された損失の認識性能が向上している。 しかし、コンピュータとメモリのコストは、トレーニングセット内のアイデンティティ(クラス)の数まで線形にスケールし、学習プロセスは不均衡なクラスに悩まされる。 本研究では,これら2つの問題に対処するための動的クラスキュー(DCQ)を提案する。 具体的には、トレーニング中の各イテレーションに対して、認識のためのクラスのサブセットを動的に選択し、そのクラス重みをキューに格納したオンザフライで動的に生成する。 イテレーション毎にクラスの一部のみが選択されるため、計算要件が削減される。 モデル並列のない単一サーバを使用することで、大規模なデータセットにおいて、クラスの10%がすべてのクラスと同じパフォーマンスを達成するのに十分であることを示す。 さらに、クラス重みは、数ショットの方法で動的に生成され、わずかなインスタンスしか持たない末尾クラスに適している。 最大の公開データセットであるMegaface Challenge2(MF2)では、672KのIDを持ち、そのうち88%が10インスタンス未満である。 コードはhttps://github.com/b ilylee/DCQで入手できる。

Learning discriminative representation using large-scale face datasets in the wild is crucial for real-world applications, yet it remains challenging. The difficulties lie in many aspects and this work focus on computing resource constraint and long-tailed class distribution. Recently, classification-based representation learning with deep neural networks and well-designed losses have demonstrated good recognition performance. However, the computing and memory cost linearly scales up to the number of identities (classes) in the training set, and the learning process suffers from unbalanced classes. In this work, we propose a dynamic class queue (DCQ) to tackle these two problems. Specifically, for each iteration during training, a subset of classes for recognition are dynamically selected and their class weights are dynamically generated on-the-fly which are stored in a queue. Since only a subset of classes is selected for each iteration, the computing requirement is reduced. By using a single server without model parallel, we empirically verify in large-scale datasets that 10% of classes are sufficient to achieve similar performance as using all classes. Moreover, the class weights are dynamically generated in a few-shot manner and therefore suitable for tail classes with only a few instances. We show clear improvement over a strong baseline in the largest public dataset Megaface Challenge2 (MF2) which has 672K identities and over 88% of them have less than 10 instances. Code is available at https://github.com/b ilylee/DCQ
翻訳日:2021-05-25 15:11:52 公開日:2021-05-24
# ドメイン一般化のためのフーリエベースフレームワーク

A Fourier-based Framework for Domain Generalization ( http://arxiv.org/abs/2105.11120v1 )

ライセンス: Link先を確認
Qinwei Xu, Ruipeng Zhang, Ya Zhang, Yanfeng Wang, Qi Tian(参考訳) 現代のディープニューラルネットワークは、トレーニングデータから異なる分布下でのテストデータを評価すると、パフォーマンス劣化に悩まされる。 ドメインの一般化は、複数のソースドメインから伝達可能な知識を学習することでこの問題に対処することを目的としている。 本稿では,新しいフーリエに基づく領域一般化の視点を提案する。 フーリエ位相情報は高レベルセマンティクスを含み、ドメインシフトの影響は容易には受けない、というのが主な前提である。 本研究では、2つの画像の振幅スペクトルを線形に補間する振幅混合と呼ばれる新しいフーリエ型データ拡張戦略を開発する。 オリジナル画像と拡張画像から引き起こされる予測の間には、共教師正則化と呼ばれる二重形式の一貫性損失がさらに導入される。 3つのベンチマーク実験により,提案手法は領域一般化のための最先端性能を実現することができることを示した。

Modern deep neural networks suffer from performance degradation when evaluated on testing data under different distributions from training data. Domain generalization aims at tackling this problem by learning transferable knowledge from multiple source domains in order to generalize to unseen target domains. This paper introduces a novel Fourier-based perspective for domain generalization. The main assumption is that the Fourier phase information contains high-level semantics and is not easily affected by domain shifts. To force the model to capture phase information, we develop a novel Fourier-based data augmentation strategy called amplitude mix which linearly interpolates between the amplitude spectrums of two images. A dual-formed consistency loss called co-teacher regularization is further introduced between the predictions induced from original and augmented images. Extensive experiments on three benchmarks have demonstrated that the proposed method is able to achieve state-of-the-arts performance for domain generalization.
翻訳日:2021-05-25 15:11:28 公開日:2021-05-24
# 分離id表現の操作による顔匿名化

Face Anonymization by Manipulating Decoupled Identity Representation ( http://arxiv.org/abs/2105.11137v1 )

ライセンス: Link先を確認
Tianxiang Ma, Dongze Li, Wei Wang, Jing Dong(参考訳) 近年、人間の生体情報に対するプライバシー保護が注目され、顔の匿名化が重要な役割を担っている。 本稿では,顔画像の識別情報をわずかな修正で漏洩から保護する手法を提案する。 具体的には,条件付きマルチスケール・リコンストラクション(cmr)の損失とアイデンティティ損失を訓練した生成的敵ネットワークのパワーを利用して,他の顔属性からアイデンティティ表現を分離する。 本研究は,本モデルの不連続性を回避し,元の画像との類似性を可能な限り維持しつつ,対面匿名化の目標を達成するための効果的な匿名化手法,すなわち匿名識別生成(aig)を提案する。 定量的および定性的な結果は,視覚的品質と匿名化の成功率の両方において,SOTAよりも優れていることを示す。

Privacy protection on human biological information has drawn increasing attention in recent years, among which face anonymization plays an importance role. We propose a novel approach which protects identity information of facial images from leakage with slightest modification. Specifically, we disentangle identity representation from other facial attributes leveraging the power of generative adversarial networks trained on a conditional multi-scale reconstruction (CMR) loss and an identity loss. We evaulate the disentangle ability of our model, and propose an effective method for identity anonymization, namely Anonymous Identity Generation (AIG), to reach the goal of face anonymization meanwhile maintaining similarity to the original image as much as possible. Quantitative and qualitative results demonstrate our method's superiority compared with the SOTAs on both visual quality and anonymization success rate.
翻訳日:2021-05-25 15:11:14 公開日:2021-05-24
# 人間中心関係セグメンテーション:データセットと解法

Human-centric Relation Segmentation: Dataset and Solution ( http://arxiv.org/abs/2105.11168v1 )

ライセンス: Link先を確認
Si Liu, Zitian Wang, Yulu Gao, Lejian Ren, Yue Liao, Guanghui Ren, Bo Li, Shuicheng Yan(参考訳) ビジョンと言語理解の技術は目覚ましい進歩を遂げていますが、現在、非常に細かい詳細に関わる問題をうまく処理することは困難です。 例えば、ロボットが「少女の左手に本を持ってこい」と言われたとき、少女が左右に1冊の本を持っていると、既存の方法のほとんどは失敗する。 本研究では,Human-centric relation segmentation (HRS) というタスクを,HOI-detのきめ細かいケースとして紹介する。 HRSは、人間と周囲の実体の関係を予測し、ピクセルレベルのマスクとして表される関係関連した人間の部分を特定することを目的としている。 上記の例の場合、当社のhrsタスクは、この本の3重項<girl [left hand], hold, book>と精密なセグメンテーションマスクという形式で結果を生成します。 このタスクには、17,122の高解像度画像と、141のオブジェクトカテゴリ、23の関連カテゴリ、25のセマンティックヒューマン部分を含む、密接な注釈付きエンティティセグメンテーションと関係を含む、新しいPerson In Context(PIC)データセットが収集されている。 また,HRSタスクの解決策として,同時マッチング・セグメンテーション(SMS)フレームワークを提案する。 I I Outputs of the three branches are fused to produce the final HRS results。 PICとV-COCOデータセットの大規模な実験により、提案手法はベースラインを36FPSの推論速度で上回ることを示した。

Vision and language understanding techniques have achieved remarkable progress, but currently it is still difficult to well handle problems involving very fine-grained details. For example, when the robot is told to "bring me the book in the girl's left hand", most existing methods would fail if the girl holds one book respectively in her left and right hand. In this work, we introduce a new task named human-centric relation segmentation (HRS), as a fine-grained case of HOI-det. HRS aims to predict the relations between the human and surrounding entities and identify the relation-correlated human parts, which are represented as pixel-level masks. For the above exemplar case, our HRS task produces results in the form of relation triplets <girl [left hand], hold, book> and exacts segmentation masks of the book, with which the robot can easily accomplish the grabbing task. Correspondingly, we collect a new Person In Context (PIC) dataset for this new task, which contains 17,122 high-resolution images and densely annotated entity segmentation and relations, including 141 object categories, 23 relation categories and 25 semantic human parts. We also propose a Simultaneous Matching and Segmentation (SMS) framework as a solution to the HRS task. I Outputs of the three branches are fused to produce the final HRS results. Extensive experiments on PIC and V-COCO datasets show that the proposed SMS method outperforms baselines with the 36 FPS inference speed.
翻訳日:2021-05-25 15:10:59 公開日:2021-05-24
# SiamRCR:ビジュアルオブジェクト追跡のための相互分類と回帰

SiamRCR: Reciprocal Classification and Regression for Visual Object Tracking ( http://arxiv.org/abs/2105.11237v1 )

ライセンス: Link先を確認
Jinlong Peng, Zhengkai Jiang, Yueyang Gu, Yang Wu, Yabiao Wang, Ying Tai, Chengjie Wang, Weiyao Lin(参考訳) 最近、ほとんどのシアムネットワークベースのトラッカーは、オブジェクト分類とバウンディングボックスレグレッションを通じてターゲットを見つける。 一般に、最終予測として最大分類信頼度を持つ境界ボックスを選択する。 この戦略は、分類と回帰の正確な相違により、正しい結果を見逃す可能性がある。 本稿では,SiamRCRと呼ばれる新しいサイムズ追跡アルゴリズムを提案し,この問題をシンプルで軽量で効果的な解で解決する。 分類と回帰枝の間の相互リンクを構築し、ポジティブなサンプルごとに損失を動的に再重み付けすることができる。 さらに,局所化精度を予測するために局所化枝を追加し,推定中に回帰支援リンクの代替として機能するようにした。 このブランチはトレーニングと推論をより一貫性を持たせる。 GOT-10k, LaSOT, TrackingNet, OTB-2015, VOT-2018, VOT-2019におけるSiamRCRの有効性と, 最先端の競合製品に対する優位性を示した。 さらに、siamrcrは65fpsで動作し、リアルタイムの要求をはるかに上回っています。

Recently, most siamese network based trackers locate targets via object classification and bounding-box regression. Generally, they select the bounding-box with maximum classification confidence as the final prediction. This strategy may miss the right result due to the accuracy misalignment between classification and regression. In this paper, we propose a novel siamese tracking algorithm called SiamRCR, addressing this problem with a simple, light and effective solution. It builds reciprocal links between classification and regression branches, which can dynamically re-weight their losses for each positive sample. In addition, we add a localization branch to predict the localization accuracy, so that it can work as the replacement of the regression assistance link during inference. This branch makes the training and inference more consistent. Extensive experimental results demonstrate the effectiveness of SiamRCR and its superiority over the state-of-the-art competitors on GOT-10k, LaSOT, TrackingNet, OTB-2015, VOT-2018 and VOT-2019. Moreover, our SiamRCR runs at 65 FPS, far above the real-time requirement.
翻訳日:2021-05-25 15:10:27 公開日:2021-05-24
# LineCounter: 計数による手書きテキスト行分割学習

LineCounter: Learning Handwritten Text Line Segmentation by Counting ( http://arxiv.org/abs/2105.11307v1 )

ライセンス: Link先を確認
Deng Li, Yue Wu, and Yicong Zhou(参考訳) 手書きテキストラインセグメンテーション(HTLS)は、手書きテキスト認識のような多くの高レベルの文書処理タスクにおいて、低レベルだが重要なタスクである。 深層学習における意味的セグメンテーションや物体検出の用語でしばしば定式化される。 しかし、どちらの定式化も重大な欠点がある。 前者は、隣接するセグメントを分割/マージする重い後処理を必要とし、後者は、高密度または湾曲したテキストで失敗する。 本稿では,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。 この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。 さらに,Line Countingの定式化を通じてHTLSを実行するディープニューラルネットワーク(DNN)モデルLineCounterを提案する。 今回の3つの公開データセット(ICDAR2013-HSC, HIT-MW, VML-AHTE)に関する大規模な実験は、LineCounterが最先端のHTLSアプローチより優れていることを示している。 ソースコードはhttps://github.com/l eedeng/line-counterで入手できる。

Handwritten Text Line Segmentation (HTLS) is a low-level but important task for many higher-level document processing tasks like handwritten text recognition. It is often formulated in terms of semantic segmentation or object detection in deep learning. However, both formulations have serious shortcomings. The former requires heavy post-processing of splitting/merging adjacent segments, while the latter may fail on dense or curved texts. In this paper, we propose a novel Line Counting formulation for HTLS -- that involves counting the number of text lines from the top at every pixel location. This formulation helps learn an end-to-end HTLS solution that directly predicts per-pixel line number for a given document image. Furthermore, we propose a deep neural network (DNN) model LineCounter to perform HTLS through the Line Counting formulation. Our extensive experiments on the three public datasets (ICDAR2013-HSC, HIT-MW, and VML-AHTE) demonstrate that LineCounter outperforms state-of-the-art HTLS approaches. Source code is available at https://github.com/L eedeng/Line-Counter.
翻訳日:2021-05-25 15:09:50 公開日:2021-05-24
# 局所的なキネマティック誘導スケルトンレットと教師付きハッシング・バイ・アナリシスモデルを用いたリアルタイムヒューマンアクション認識

Real-time Human Action Recognition Using Locally Aggregated Kinematic-Guided Skeletonlet and Supervised Hashing-by-Analysis Model ( http://arxiv.org/abs/2105.11312v1 )

ライセンス: Link先を確認
Bin Sun, Dehui Kong, Shaofan Wang, Lichun Wang, Baocai Yin(参考訳) 3D行動認識は3D骨格関節からなる行動配列の分類として言及される。 多くの研究は3D行動認識に特化しているが、主に複雑な調音、大量のノイズ、実装効率の低下という3つの問題に悩まされている。 これらの問題に対処するために,局所的に集約されたキネマティック誘導骨格(LAKS)と教師付きハッシュ・バイ・アナリシス(SHA)モデルを統合することで,リアルタイムな3次元行動認識フレームワークを提案する。 まず,スケルトンレットを,運動原理でグループ化された関節オフセットのいくつかの組み合わせとして定義し,その後,分解相と局所凝集相からなるLAKSを用いて動作シーケンスを表現した。 デノナイジングフェーズは、ノイズの多い動作データを検出し、その中の全ての特徴を対応する前のフレームの特徴に置き換えて調整する一方、局所集約フェーズは、シーケンスのすべてのオフセット特徴に対してスケルレットのオフセット特徴とそのクラスタ中心の差を合計する。 最後に、スパース表現とハッシュモデルを組み合わせて、高い効率を維持しながら認識精度を向上させることを目的としたSHAモデルを提案する。 MSRAction3D, UTKinectAction3DおよびFlorence3DActionデータセットの実験結果から, 提案手法は認識精度と実装効率の両方において最先端の手法より優れていることが示された。

3D action recognition is referred to as the classification of action sequences which consist of 3D skeleton joints. While many research work are devoted to 3D action recognition, it mainly suffers from three problems: highly complicated articulation, a great amount of noise, and a low implementation efficiency. To tackle all these problems, we propose a real-time 3D action recognition framework by integrating the locally aggregated kinematic-guided skeletonlet (LAKS) with a supervised hashing-by-analysis (SHA) model. We first define the skeletonlet as a few combinations of joint offsets grouped in terms of kinematic principle, and then represent an action sequence using LAKS, which consists of a denoising phase and a locally aggregating phase. The denoising phase detects the noisy action data and adjust it by replacing all the features within it with the features of the corresponding previous frame, while the locally aggregating phase sums the difference between an offset feature of the skeletonlet and its cluster center together over all the offset features of the sequence. Finally, the SHA model which combines sparse representation with a hashing model, aiming at promoting the recognition accuracy while maintaining a high efficiency. Experimental results on MSRAction3D, UTKinectAction3D and Florence3DAction datasets demonstrate that the proposed method outperforms state-of-the-art methods in both recognition accuracy and implementation efficiency.
翻訳日:2021-05-25 15:09:32 公開日:2021-05-24
# 視覚言語事前学習による医用画像とテキストのマルチモーダル理解と生成

Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training ( http://arxiv.org/abs/2105.11333v1 )

ライセンス: Link先を確認
Jong Hak Moon, Hyungyung Lee, Woncheol Shin, Edward Choi(参考訳) 近年, BERTアーキテクチャをマルチモーダル事前学習対象に拡張することにより, 画像キャプションや視覚質問応答など, 多様な視覚言語マルチモーダルタスクにおいて, 印象的な性能を示す研究が数多く行われている。 本研究では,医学領域におけるマルチモーダル表現学習タスクの幅広いセットについて,放射線画像と非構造レポートを用いて検討する。 本研究では,視覚言語理解タスク(画像検索,疾患分類,医用視覚質問応答)と視覚言語生成タスク(レポート生成)の一般化性能を最大化するために,新しいマルチモーダルアテンションマスキングスキームを組み合わせたトランスフォーマティブアーキテクチャ(medvill)を採用する医用視覚言語学習者を提案する。 2つの胸部x線画像データセット(mimic-cxrとopen-i)を用いた4つの下流タスクについて,提案手法を厳密に評価することにより,タスク固有のアーキテクチャを含む各種ベースラインに対するmedvillの下流タスク性能を実証した。

Recently a number of studies demonstrated impressive performance on diverse vision-language multi-modal tasks such as image captioning and visual question answering by extending the BERT architecture with multi-modal pre-training objectives. In this work we explore a broad set of multi-modal representation learning tasks in the medical domain, specifically using radiology images and the unstructured report. We propose Medical Vision Language Learner (MedViLL) which adopts a Transformer-based architecture combined with a novel multimodal attention masking scheme to maximize generalization performance for both vision-language understanding tasks (image-report retrieval, disease classification, medical visual question answering) and vision-language generation task (report generation). By rigorously evaluating the proposed model on four downstream tasks with two chest X-ray image datasets (MIMIC-CXR and Open-I), we empirically demonstrate the superior downstream task performance of MedViLL against various baselines including task-specific architectures.
翻訳日:2021-05-25 15:09:01 公開日:2021-05-24
# 大規模属性オブジェクト合成

Large-Scale Attribute-Object Compositions ( http://arxiv.org/abs/2105.11373v1 )

ライセンス: Link先を確認
Filip Radenovic, Animesh Sinha, Albert Gordo, Tamara Berg, Dhruv Mahajan(参考訳) 本研究では,画像からの属性オブジェクト合成の予測方法と,学習データから欠落した未知の合成への一般化について検討する。 私たちの知る限りでは、これはこの問題に関する数十万の作曲を含む最初の大規模な研究である。 私たちは、ハッシュタグを使ってInstagramの画像でフレームワークをトレーニングします。 ノイズの多いアノテーションや目に見えない構成を扱うために、データ収集とモデリングのために慎重に設計する。 最後に,分類器の構成学習は,個々の属性とオブジェクト予測の後期融合,特に目立たない属性とオブジェクトのペアの場合よりも優れていることを示す。

We study the problem of learning how to predict attribute-object compositions from images, and its generalization to unseen compositions missing from the training data. To the best of our knowledge, this is a first large-scale study of this problem, involving hundreds of thousands of compositions. We train our framework with images from Instagram using hashtags as noisy weak supervision. We make careful design choices for data collection and modeling, in order to handle noisy annotations and unseen compositions. Finally, extensive evaluations show that learning to compose classifiers outperforms late fusion of individual attribute and object predictions, especially in the case of unseen attribute-object pairs.
翻訳日:2021-05-25 15:08:40 公開日:2021-05-24
# 注意誘導型テンポラルコヒーレントビデオオブジェクトマッチング

Attention-guided Temporal Coherent Video Object Matting ( http://arxiv.org/abs/2105.11427v1 )

ライセンス: Link先を確認
Yunke Zhang, Chi Wang, Miaomiao Cui, Peiran Ren, Xuansong Xie, Xian-sheng Hua, Hujun Bao, Qixing Huang, Weiwei Xu(参考訳) 本稿では,時間的コヒーレントなマッティング結果を実現するための,新しい深層学習に基づくビデオオブジェクトマッティング手法を提案する。 その鍵となるコンポーネントは注意に基づくテンポラリアグリゲーションモジュールであり、ビデオマッティングネットワークにおけるイメージマッティングネットワークの強みを最大化する。 このモジュールは、特徴空間における時間軸に沿って隣接する画素の時間相関を計算し、動き雑音に対して堅牢である。 また,注目度をトレーニングする新たな損失項を設計し,映像のマッチング性能を大幅に向上させる。 さらに,最先端のビデオオブジェクトセグメンテーションネットワークをユーザアノテーションの少ないキーフレームで微調整することで,トリマップ生成問題を効果的に解決する方法を示す。 ビデオマッティングとtrimap生成ネットワークのトレーニングを容易にするために,80のトレーニングと28の検証用前景ビデオクリップを備えた大規模ビデオマッティングデータセットを構築した。 実験結果から, 外観変化, 閉塞, 高速動作を特徴とする, 高品質なアルファマットを製作できることが示唆された。 私たちのコードとデータセットはhttps://github.com/y unkezhang/TCVOMで確認できます。

This paper proposes a novel deep learning-based video object matting method that can achieve temporally coherent matting results. Its key component is an attention-based temporal aggregation module that maximizes image matting networks' strength for video matting networks. This module computes temporal correlations for pixels adjacent to each other along the time axis in feature space to be robust against motion noises. We also design a novel loss term to train the attention weights, which drastically boosts the video matting performance. Besides, we show how to effectively solve the trimap generation problem by fine-tuning a state-of-the-art video object segmentation network with a sparse set of user-annotated keyframes. To facilitate video matting and trimap generation networks' training, we construct a large-scale video matting dataset with 80 training and 28 validation foreground video clips with ground-truth alpha mattes. Experimental results show that our method can generate high-quality alpha mattes for various videos featuring appearance change, occlusion, and fast motion. Our code and dataset can be found at https://github.com/y unkezhang/TCVOM
翻訳日:2021-05-25 15:08:30 公開日:2021-05-24
# SAT:2Dセマンティックスによる3D視覚グラウンドトレーニング

SAT: 2D Semantics Assisted Training for 3D Visual Grounding ( http://arxiv.org/abs/2105.11450v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Songyang Zhang, Liwei Wang, Jiebo Luo(参考訳) 3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。 点雲はスパースでノイズがあり、2D画像と比較して意味情報が少ない。 これら固有の制限により、3Dの視覚的接地問題はより困難になる。 本研究では,訓練段階における2次元イメージセマンティクスを活用した2次元セマンティクス支援トレーニング(sat)を提案する。 主なアイデアは、リッチでクリーンな2dオブジェクト表現と対応するオブジェクトまたは言及エンティティの間の補助的なアライメントを3dシーンで学ぶことである。 SATは2Dオブジェクトセマンティクス(オブジェクトラベル、画像特徴、幾何学的特徴)をトレーニングの余分な入力として扱うが、推論中にそのような入力を必要としない。 トレーニングにおいて2Dセマンティクスを効果的に活用することにより,Nr3Dデータセットの精度を37.7%から49.2%に向上させる。 私たちのアプローチは、nr3dでは+10.4%、sr3dでは+9.9%、scanrefでは+5.6%という、複数の3dビジュアル接地データセット上で大きなマージンでアートの状態を上回っている。

3D visual grounding aims at grounding a natural language description about a 3D scene, usually represented in the form of 3D point clouds, to the targeted object region. Point clouds are sparse, noisy, and contain limited semantic information compared with 2D images. These inherent limitations make the 3D visual grounding problem more challenging. In this study, we propose 2D Semantics Assisted Training (SAT) that utilizes 2D image semantics in the training stage to ease point-cloud-language joint representation learning and assist 3D visual grounding. The main idea is to learn auxiliary alignments between rich, clean 2D object representations and the corresponding objects or mentioned entities in 3D scenes. SAT takes 2D object semantics, i.e., object label, image feature, and 2D geometric feature, as the extra input in training but does not require such inputs during inference. By effectively utilizing 2D semantics in training, our approach boosts the accuracy on the Nr3D dataset from 37.7% to 49.2%, which significantly surpasses the non-SAT baseline with the identical network architecture and inference input. Our approach outperforms the state of the art by large margins on multiple 3D visual grounding datasets, i.e., +10.4% absolute accuracy on Nr3D, +9.9% on Sr3D, and +5.6% on ScanRef.
翻訳日:2021-05-25 15:08:13 公開日:2021-05-24
# 編集部紹介:言葉とネットワークの力

Editorial introduction: The power of words and networks ( http://arxiv.org/abs/2105.11263v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon, P. Gloor, D. F. Iezzi(参考訳) フロイトに拠れば、「言葉は元々魔法であり、今日まで古代の魔力の多くを維持してきた」。 言葉で言えば、行動は変化し、問題は解決される。 言葉の使い方は、意図、目標、価値を明らかにします。 テキスト分析のための新しいツールは、単語の魔力を理解するのに役立つ。 この力は、もしそれがソーシャルネットワーク、すなわち研究と組み合わされば、乗算される。 社会ユニット間の関係を分析しました International Journal of Information Managementの「Combining Social Network Analysis and Text Mining: from Theory to Practice」という特別号には、テキストマイニングとソーシャルネットワーク分析の分野における異質で革新的な研究が含まれている。 それは、理論的、実証的、方法論的基礎においてまだ遅れているこれらの分野の交差点での仕事を豊かにすることを目的としている。 この特別号に含める9つの記事は、ビジネスアプリケーションを持つ方法とツールを全て提示している。 これらはこの論説の序文で要約されている。

According to Freud "words were originally magic and to this day words have retained much of their ancient magical power". By words, behaviors are transformed and problems are solved. The way we use words reveals our intentions, goals and values. Novel tools for text analysis help understand the magical power of words. This power is multiplied, if it is combined with the study of social networks, i.e. with the analysis of relationships among social units. This special issue of the International Journal of Information Management, entitled "Combining Social Network Analysis and Text Mining: from Theory to Practice", includes heterogeneous and innovative research at the nexus of text mining and social network analysis. It aims to enrich work at the intersection of these fields, which still lags behind in theoretical, empirical, and methodological foundations. The nine articles accepted for inclusion in this special issue all present methods and tools that have business applications. They are summarized in this editorial introduction.
翻訳日:2021-05-25 15:07:43 公開日:2021-05-24
# 対人訓練とプレトレーニングによるOOD一般化の改善

Improved OOD Generalization via Adversarial Training and Pre-training ( http://arxiv.org/abs/2105.11144v1 )

ライセンス: Link先を確認
Mingyang Yi, Lu Hou, Jiacheng Sun, Lifeng Shang, Xin Jiang, Qun Liu, Zhi-Ming Ma(参考訳) 近年,out-of-distribution (ood)データを一般化したモデルを学ぶことが,機械学習コミュニティの注目を集めている。 本稿では、ワッサースタイン距離によるOOD一般化を定義した後、入力摂動に頑健なモデルがOODデータによく一般化されることを理論的に示す。 従来, 対人学習が入力ロバスト性の向上に寄与していたことから, 理論的には, 対人学習モデルがOODデータに過剰なリスクを収束させ, 画像分類と自然言語理解の両タスクで実証的に検証した。 さらに, 入力摂動に頑健な事前学習モデルが, 下流OODデータ上での一般化により良い初期化をもたらすことを理論的に示す。 実証的には、微調整後、敵の事前訓練によるこのより良い初期化モデルもまた、OOD一般化をより良くする。

Recently, learning a model that generalizes well on out-of-distribution (OOD) data has attracted great attention in the machine learning community. In this paper, after defining OOD generalization via Wasserstein distance, we theoretically show that a model robust to input perturbation generalizes well on OOD data. Inspired by previous findings that adversarial training helps improve input-robustness, we theoretically show that adversarially trained models have converged excess risk on OOD data, and empirically verify it on both image classification and natural language understanding tasks. Besides, in the paradigm of first pre-training and then fine-tuning, we theoretically show that a pre-trained model that is more robust to input perturbation provides a better initialization for generalization on downstream OOD data. Empirically, after fine-tuning, this better-initialized model from adversarial pre-training also has better OOD generalization.
翻訳日:2021-05-25 15:06:06 公開日:2021-05-24
# 勾配降下近似を用いた最適化共形分類

Optimized conformal classification using gradient descent approximation ( http://arxiv.org/abs/2105.11255v1 )

ライセンス: Link先を確認
Anthony Bellotti(参考訳) コンフォーマル予測は、ユーザ定義の信頼性レベルで予測を行うアルゴリズムの重要なクラスである。 単純なポイント予測ではなく、予測セットを出力することでこれを実現できます。 共形予測器は、データの交換可能性のみを仮定して、その予測の精度が信頼レベルに達することが保証されるという意味で有効である。 精度が保証されるので、予測セットの効率を通して共形予測器の性能を測定する。 通常、共形予測器は基礎となる機械学習アルゴリズムに基づいて構築されるため、その予測能力はこのアルゴリズムから継承される。 しかし、基礎となる機械学習アルゴリズムは予測効率を最小化するために訓練されていないため、結果の共形予測器は準最適であり、この目的に十分対応していない可能性がある。 そこで本研究では,最大予測効率でコンフォーメーション予測器を直接学習する手法を最適化目標として検討し,特にインダクティブコンフォーメーション予測器の分類に焦点をあてる。 これを行うために、共形予測器は微分可能な目的関数と最適化に用いる勾配降下によって近似される。 得られたパラメータ推定結果は、適切な帰納的共形予測器に渡され、有効な予測セットが与えられる。 提案手法を実世界の複数のデータセットで検証し,提案手法が有望であることを確認し,ほとんどの場合,ベースライン共形予測器に対する予測効率を向上させる。

Conformal predictors are an important class of algorithms that allow predictions to be made with a user-defined confidence level. They are able to do this by outputting prediction sets, rather than simple point predictions. The conformal predictor is valid in the sense that the accuracy of its predictions is guaranteed to meet the confidence level, only assuming exchangeability in the data. Since accuracy is guaranteed, the performance of a conformal predictor is measured through the efficiency of the prediction sets. Typically, a conformal predictor is built on an underlying machine learning algorithm and hence its predictive power is inherited from this algorithm. However, since the underlying machine learning algorithm is not trained with the objective of minimizing predictive efficiency it means that the resulting conformal predictor may be sub-optimal and not aligned sufficiently to this objective. Hence, in this study we consider an approach to train the conformal predictor directly with maximum predictive efficiency as the optimization objective, and we focus specifically on the inductive conformal predictor for classification. To do this, the conformal predictor is approximated by a differentiable objective function and gradient descent used to optimize it. The resulting parameter estimates are then passed to a proper inductive conformal predictor to give valid prediction sets. We test the method on several real world data sets and find that the method is promising and in most cases gives improved predictive efficiency against a baseline conformal predictor.
翻訳日:2021-05-25 15:05:47 公開日:2021-05-24
# 位置センシンググラフニューラルネットワーク : ノード相対位置を積極的に学習する

Position-Sensing Graph Neural Networks: Proactively Learning Nodes Relative Positions ( http://arxiv.org/abs/2105.11346v1 )

ライセンス: Link先を確認
Zhenyue Qin and Saeed Anwar and Dongwoo Kim and Yang Liu and Pan Ji and Tom Gedeon(参考訳) 既存のグラフニューラルネットワーク(GNN)は、メッセージパッシングとアグリゲーションのフレームワークを使用してノードの埋め込みを学ぶ。 このようなGNNはグラフ内のグラフノード間の相対的な位置を学習することができない。 gnnにノードの位置を認識させるため、いくつかのノードはアンカーとして設定される。 そして、ノードからアンカーまでの距離を使って、GNNはノード間の相対的な位置を推測することができる。 しかし、P-GNNは任意にアンカーを選択し、位置認識と特徴抽出を妥協させる。 この妥協を排除するために、均等分布と非対称アンカーの選択が不可欠であることを示す。 一方,グラフ内のすべてのノードの埋め込みを集約できるアンカーの選択はnpハードであることが示されている。 したがって、決定論的アプローチで効率的なアルゴリズムを考案することは事実上不可能である。 位置認識とNP完全性を回避するために,位置認識グラフニューラルネットワーク(PSGNN)を提案する。 実験は、最先端gnnに対するpsgnnの有効性を検証し、安定したスケーラビリティを保ちながら、様々な合成および実世界のグラフデータセットのパフォーマンスを大幅に向上させる。 特に、PSGNNは、ペアワイズノード分類で14%以上、既存の最先端位置認識手法でリンク予測で18%以上、AUCを14%以上押し上げている。 私たちのソースコードは、https://github.com/Z henyueQin/PSGNNで公開されています。

Most existing graph neural networks (GNNs) learn node embeddings using the framework of message passing and aggregation. Such GNNs are incapable of learning relative positions between graph nodes within a graph. To empower GNNs with the awareness of node positions, some nodes are set as anchors. Then, using the distances from a node to the anchors, GNNs can infer relative positions between nodes. However, P-GNNs arbitrarily select anchors, leading to compromising position-awareness and feature extraction. To eliminate this compromise, we demonstrate that selecting evenly distributed and asymmetric anchors is essential. On the other hand, we show that choosing anchors that can aggregate embeddings of all the nodes within a graph is NP-hard. Therefore, devising efficient optimal algorithms in a deterministic approach is practically not feasible. To ensure position-awareness and bypass NP-completeness, we propose Position-Sensing Graph Neural Networks (PSGNNs), learning how to choose anchors in a back-propagatable fashion. Experiments verify the effectiveness of PSGNNs against state-of-the-art GNNs, substantially improving performance on various synthetic and real-world graph datasets while enjoying stable scalability. Specifically, PSGNNs on average boost AUC more than 14% for pairwise node classification and 18% for link prediction over the existing state-of-the-art position-aware methods. Our source code is publicly available at: https://github.com/Z henyueQin/PSGNN
翻訳日:2021-05-25 15:05:22 公開日:2021-05-24
# GMAC: Actor-Critic Frameworkの分布的展望

GMAC: A Distributional Perspective on Actor-Critic Framework ( http://arxiv.org/abs/2105.11366v1 )

ライセンス: Link先を確認
Daniel Wontae Nam, Younghoon Kim, Chan Y. Park(参考訳) 本稿では,分布不安定性,行動型制限,およびサンプルと統計の衝突に対する解決策として,アクタ批判の分布的枠組みを考案する。 複数のベルマン演算の下で正しい値分布を学習するSR($\lambda$)と呼ばれる新しいサンプル置換アルゴリズムから生成した多段階ベルマン目標分布とCram\'er距離を最小化する手法を提案する。 ガウス混合モデルによる値分布のパラメータ化は、GMACと呼ばれる手法の効率と性能をさらに向上させる。 本稿では,gmacが値分布の正しい表現を捉え,アーケード学習環境 (ale) とパイブルレット環境を用いた離散的および連続的行動空間において,計算コストの低い従来のアクター・クリティック法の性能を向上させることを実証的に示す。

In this paper, we devise a distributional framework on actor-critic as a solution to distributional instability, action type restriction, and conflation between samples and statistics. We propose a new method that minimizes the Cram\'er distance with the multi-step Bellman target distribution generated from a novel Sample-Replacement algorithm denoted SR($\lambda$), which learns the correct value distribution under multiple Bellman operations. Parameterizing a value distribution with Gaussian Mixture Model further improves the efficiency and the performance of the method, which we name GMAC. We empirically show that GMAC captures the correct representation of value distributions and improves the performance of a conventional actor-critic method with low computational cost, in both discrete and continuous action spaces using Arcade Learning Environment (ALE) and PyBullet environment.
翻訳日:2021-05-25 15:04:59 公開日:2021-05-24
# 対処できるアクション:AI計画のための依存型

Actions You Can Handle: Dependent Types for AI Plans ( http://arxiv.org/abs/2105.11267v1 )

ライセンス: Link先を確認
Alasdair Hill, Ekaterina Komendantskaya, Matthew L. Daggitt and Ronald P. A. Petrick(参考訳) AIの検証は、エンジニアリング、アルゴリズム、およびプログラミング言語コンポーネントを持つ課題である。 例えば、AIプランナーは自律エージェントのアクションをモデル化するためにデプロイされる。 それらのアルゴリズムは、特定のプロパティのセットが与えられたら、これらのプロパティを満たす一連のアクションを見つける。 aiプランナーはアルゴリズムやエンジニアリングの観点から成熟したツールだが、プログラミング言語として制限がある。 決定可能で効率的な自動検索は言語の構文に制限を伴い、高階プロパティの使用や再帰を禁止している。 本稿では,AIプランナが作成したプランを依存型言語Agdaに組み込む手法を提案する。

Verification of AI is a challenge that has engineering, algorithmic and programming language components. For example, AI planners are deployed to model actions of autonomous agents. They comprise a number of searching algorithms that, given a set of specified properties, find a sequence of actions that satisfy these properties. Although AI planners are mature tools from the algorithmic and engineering points of view, they have limitations as programming languages. Decidable and efficient automated search entails restrictions on the syntax of the language, prohibiting use of higher-order properties or recursion. This paper proposes a methodology for embedding plans produced by AI planners into dependently-typed language Agda, which enables users to reason about and verify more general and abstract properties of plans, and also provides a more holistic programming language infrastructure for modelling plan execution.
翻訳日:2021-05-25 15:03:32 公開日:2021-05-24
# 複数のエージェントに対する識別不能商品のプロパム配分

PROPm Allocations of Indivisible Goods to Multiple Agents ( http://arxiv.org/abs/2105.11348v1 )

ライセンス: Link先を確認
Artem Baklanov, Pranav Garimidi, Vasilis Gkatzelis, Daniel Schoepflin(参考訳) 本稿では,エージェント群間の不特定商品の集合を適切に割り当てる古典的問題を考察し,PROPmとして知られる近似比例性の概念に焦点をあてる。 以前の研究は、最大5つのエージェントを含むインスタンスに対して、この公平性の概念を満たすアロケーションが存在することを示したが、これは一般に真実であることを示すには至らなかった。 この結果を拡張して、エージェントや商品の数によらず、すべてのインスタンスに対して PROPm 割り当てが保証されていることを示す。 我々の証明は構成的であり、そのような割り当てを計算するアルゴリズムを提供し、以前の仕事とは異なり、このアルゴリズムの実行時間はエージェント数と商品数の両方において多項式である。

We study the classic problem of fairly allocating a set of indivisible goods among a group of agents, and focus on the notion of approximate proportionality known as PROPm. Prior work showed that there exists an allocation that satisfies this notion of fairness for instances involving up to five agents, but fell short of proving that this is true in general. We extend this result to show that a PROPm allocation is guaranteed to exist for all instances, independent of the number of agents or goods. Our proof is constructive, providing an algorithm that computes such an allocation and, unlike prior work, the running time of this algorithm is polynomial in both the number of agents and the number of goods.
翻訳日:2021-05-25 15:03:20 公開日:2021-05-24
# プロセスのセマンティックオートコンプリートによるモデリングの強化

Augmenting Modelers with Semantic Autocompletion of Processes ( http://arxiv.org/abs/2105.11385v1 )

ライセンス: Link先を確認
Maayan Goldstein and Cecilia Gonzalez-Alvarez(参考訳) ビジネスプロセスモデラーは、常に利用可能ではないかもしれないドメインに関する専門知識と知識を持つ必要があります。 したがって、既存のプロセスのコレクションをマイニングし、彼らが構築している新しいプロセスに追加する要素を推奨するツールの恩恵を受けることができる。 本稿では,サブプロセスの意味的類似性に基づく設計時のプロセス自動補完手法を提案する。 サブプロセスをテキストの段落に変換して数値ベクトルとしてエンコードすることで、意味的に類似した要素を見つけ出し、次に次の要素を推奨する。 これを実現するために、自然言語をベクトルとして埋め込む最先端技術を利用する。 当社のアプローチをオープンソースおよびプロプライエタリなデータセット上で評価し,さまざまなドメインのプロセスに対して正確性を示す。

Business process modelers need to have expertise and knowledge of the domain that may not always be available to them. Therefore, they may benefit from tools that mine collections of existing processes and recommend element(s) to be added to a new process that they are constructing. In this paper, we present a method for process autocompletion at design time, that is based on the semantic similarity of sub-processes. By converting sub-processes to textual paragraphs and encoding them as numerical vectors, we can find semantically similar ones, and thereafter recommend the next element. To achieve this, we leverage a state-of-the-art technique for embedding natural language as vectors. We evaluate our approach on open source and proprietary datasets and show that our technique is accurate for processes in various domains.
翻訳日:2021-05-25 15:03:08 公開日:2021-05-24
# 教師なし音声認識

Unsupervised Speech Recognition ( http://arxiv.org/abs/2105.11084v1 )

ライセンス: Link先を確認
Alexei Baevski, Wei-Ning Hsu, Alexis Conneau, Michael Auli(参考訳) 近年の急速な進歩にもかかわらず、現在の音声認識システムは、この技術を世界中で話されている少数の言語に制限するラベル付きトレーニングデータを必要とする。 本稿では,ラベル付きデータなしで音声認識モデルを訓練するwav2vec-Uについて述べる。 自己教師付き音声表現を用いてラベルなし音声を分割し,これらの表現から対人訓練により音素へのマッピングを学ぶ。 正しい表現が私たちの方法の成功の鍵です。 これまでの最も優れた教師なしの作業と比較すると、wav2vec-UはTIMITベンチマークの音素誤り率を26.1から11.3に下げる。 より大きな英語のLibrispeechベンチマークでは、wav2vec-Uは、わずか2年前の960時間のラベル付きデータに基づいてトレーニングされた最も優れたシステムに匹敵する5.9の単語エラー率を達成した。 また、kyrgyz、swahili、tatarといった低リソース言語を含む9つの言語も実験しています。

Despite rapid progress in the recent past, current speech recognition systems still require labeled training data which limits this technology to a small fraction of the languages spoken around the globe. This paper describes wav2vec-U, short for wav2vec Unsupervised, a method to train speech recognition models without any labeled data. We leverage self-supervised speech representations to segment unlabeled audio and learn a mapping from these representations to phonemes via adversarial training. The right representations are key to the success of our method. Compared to the best previous unsupervised work, wav2vec-U reduces the phoneme error rate on the TIMIT benchmark from 26.1 to 11.3. On the larger English Librispeech benchmark, wav2vec-U achieves a word error rate of 5.9 on test-other, rivaling some of the best published systems trained on 960 hours of labeled data from only two years ago. We also experiment on nine other languages, including low-resource languages such as Kyrgyz, Swahili and Tatar.
翻訳日:2021-05-25 15:02:57 公開日:2021-05-24
# 輪郭探索と信頼性推定のためのエントロピーに基づく適応設計

Entropy-based adaptive design for contour finding and estimating reliability ( http://arxiv.org/abs/2105.11357v1 )

ライセンス: Link先を確認
D. Austin Cole, Robert B. Gramacy, James E. Warner, Geoffrey F. Bomarito, Patrick E. Leser, William P. Leser(参考訳) 信頼性分析において、故障確率を推定する手法は、しばしばモデル評価に関連するコストによって制限される。 MFIS(Multifidelity importance sample)のようなこれらの手法の多くは、予測を迅速に生成するためにガウス過程(GP)のような計算効率のよい代理モデルに依存している。 GP適合の質、特に障害領域近傍では、これらの戦略に対して正確に予測された障害を供給するのに役立っている。 我々は,mfisと組み合わせることで,より正確な故障確率推定と高い信頼度を提供するエントロピーに基づくgp適応設計を提案する。 我々は,既存の輪郭探索方式と比較して,複数の障害領域を識別する戦略が優れていることを示す。 そして、精度を犠牲にすることなく、メソッドをバッチ選択に拡張します。 例としては、ベンチマークデータや、アメリカ航空宇宙局(nasa)の宇宙服の衝撃損傷シミュレータへの応用がある。

In reliability analysis, methods used to estimate failure probability are often limited by the costs associated with model evaluations. Many of these methods, such as multifidelity importance sampling (MFIS), rely upon a computationally efficient, surrogate model like a Gaussian process (GP) to quickly generate predictions. The quality of the GP fit, particularly in the vicinity of the failure region(s), is instrumental in supplying accurately predicted failures for such strategies. We introduce an entropy-based GP adaptive design that, when paired with MFIS, provides more accurate failure probability estimates and with higher confidence. We show that our greedy data acquisition strategy better identifies multiple failure regions compared to existing contour-finding schemes. We then extend the method to batch selection, without sacrificing accuracy. Illustrative examples are provided on benchmark data as well as an application to an impact damage simulator for National Aeronautics and Space Administration (NASA) spacesuits.
翻訳日:2021-05-25 15:02:21 公開日:2021-05-24
# Convolutional Attentive Adversarial Networkを用いた教師なしビデオ要約

Unsupervised Video Summarization with a Convolutional Attentive Adversarial Network ( http://arxiv.org/abs/2105.11131v1 )

ライセンス: Link先を確認
Guoqiang Liang, Yanbing Lv, Shucheng Li, Shizhou Zhang, Yanning Zhang(参考訳) ビデオデータの爆発的増加に伴い、ビデオ要約は、メインストーリーを伝えながらフレームの最小サブセットを探そうとしており、最もホットなトピックの1つとなっている。 今日では、特に深層学習の出現以降、教師付き学習技術によって大きな成果が得られている。 しかし、大規模なビデオデータセットに対する人間のアノテーションの収集は非常に高価で困難である。 この問題に対処するため,我々は,教師なしの方法で深層要約器を構築することを主目的とする畳み込み型注意逆ネットワーク (caan) を提案する。 生成的対向ネットワークでは,本フレームワークはジェネレータと識別器から構成される。 前者はビデオのすべてのフレームで重要なスコアを予測し、後者はスコアの重み付けされたフレーム特徴と元のフレーム特徴を区別しようとする。 具体的には、ビデオのグローバル表現を抽出するために完全畳み込みシーケンスネットワークと、正規化重要度スコアを出力する注意ベースネットワークを用いる。 パラメータを学習するために,目的関数は3つの損失関数から成り,フレームレベルの重要度スコア予測を協調的に導くことができる。 提案手法を検証するために, SumMe と TVSum の2つの公開ベンチマーク実験を行った。 その結果,提案手法の他の非教師なし手法に対する優位性を示した。 我々の手法は、公開された教師付きアプローチよりも優れています。

With the explosive growth of video data, video summarization, which attempts to seek the minimum subset of frames while still conveying the main story, has become one of the hottest topics. Nowadays, substantial achievements have been made by supervised learning techniques, especially after the emergence of deep learning. However, it is extremely expensive and difficult to collect human annotation for large-scale video datasets. To address this problem, we propose a convolutional attentive adversarial network (CAAN), whose key idea is to build a deep summarizer in an unsupervised way. Upon the generative adversarial network, our overall framework consists of a generator and a discriminator. The former predicts importance scores for all frames of a video while the latter tries to distinguish the score-weighted frame features from original frame features. Specifically, the generator employs a fully convolutional sequence network to extract global representation of a video, and an attention-based network to output normalized importance scores. To learn the parameters, our objective function is composed of three loss functions, which can guide the frame-level importance score prediction collaboratively. To validate this proposed method, we have conducted extensive experiments on two public benchmarks SumMe and TVSum. The results show the superiority of our proposed method against other state-of-the-art unsupervised approaches. Our method even outperforms some published supervised approaches.
翻訳日:2021-05-25 14:59:04 公開日:2021-05-24
# 手術をシミュレートした術後脳空洞分節の自己教師あり学習戦略

A self-supervised learning strategy for postoperative brain cavity segmentation simulating resections ( http://arxiv.org/abs/2105.11239v1 )

ライセンス: Link先を確認
Fernando P\'erez-Garc\'ia, Reuben Dorent, Michele Rizzi, Francesco Cardinale, Valerio Frazzini, Vincent Navarro, Caroline Essert, Ir\`ene Ollivier, Tom Vercauteren, Rachel Sparks, John S. Duncan and S\'ebastien Ourselin(参考訳) 脳切除腔(RC)の正確なセグメンテーションは術後分析と経過観察に有効である。 畳み込みニューラルネットワーク(CNN)は最先端の画像セグメンテーション技術であるが、トレーニングには大きな注釈付きデータセットを必要とする。 3d医療画像のアノテーションは時間を要するもので、高度に訓練されたレートラーを必要とし、高いレート間変動に苦しむ可能性がある。 自己教師付き学習戦略は、ラベルのないデータをトレーニングに活用することができる。 術前磁気共鳴画像(MRI)から切除をシミュレートするアルゴリズムを開発した。 RCセグメンテーションのための3次元CNNの自己指導訓練をシミュレーション法を用いて行った。 難治性てんかん430例の術前MRI430例と術前MRI268例からなるEPISURGを切除した。 20,33,19,133名からなるEPISURGの3つのアノテートデータセットおよびアノテート画像に基づいて,本モデルを微調整した。 4つのデータセットごとに81.7 (16.4), 82.4 (36.4), 74.9 (24.2) 、80.5 (18.7) のDiceスコア係数(DSC) の中央値を得た。 微調整後、DSCは89.2 (13.3)、84.1 (19.8)、80.2 (20.1)、85.2 (10.8)であった。 比較対象は, 前回の研究では, 84.0 (9.9) であった。 そこで本研究では,シミュレーションrcsを用いた3次元cnnの自己教師あり学習法を提案する。 本手法は, 組織, 病理, モダリティの異なるデータに対してよく一般化する。 ソースコード、セグメンテーションモデル、EPISURGデータセットはhttps://github.com/f epegar/ressegijcars. orgで公開されている。

Accurate segmentation of brain resection cavities (RCs) aids in postoperative analysis and determining follow-up treatment. Convolutional neural networks (CNNs) are the state-of-the-art image segmentation technique, but require large annotated datasets for training. Annotation of 3D medical images is time-consuming, requires highly-trained raters, and may suffer from high inter-rater variability. Self-supervised learning strategies can leverage unlabeled data for training. We developed an algorithm to simulate resections from preoperative magnetic resonance images (MRIs). We performed self-supervised training of a 3D CNN for RC segmentation using our simulation method. We curated EPISURG, a dataset comprising 430 postoperative and 268 preoperative MRIs from 430 refractory epilepsy patients who underwent resective neurosurgery. We fine-tuned our model on three small annotated datasets from different institutions and on the annotated images in EPISURG, comprising 20, 33, 19 and 133 subjects. The model trained on data with simulated resections obtained median (interquartile range) Dice score coefficients (DSCs) of 81.7 (16.4), 82.4 (36.4), 74.9 (24.2) and 80.5 (18.7) for each of the four datasets. After fine-tuning, DSCs were 89.2 (13.3), 84.1 (19.8), 80.2 (20.1) and 85.2 (10.8). For comparison, inter-rater agreement between human annotators from our previous study was 84.0 (9.9). We present a self-supervised learning strategy for 3D CNNs using simulated RCs to accurately segment real RCs on postoperative MRI. Our method generalizes well to data from different institutions, pathologies and modalities. Source code, segmentation models and the EPISURG dataset are available at https://github.com/f epegar/ressegijcars .
翻訳日:2021-05-25 14:58:41 公開日:2021-05-24
# コンピュータビジョン支援細胞学の現状と展望 体系的な文献レビュー

What is the State of the Art of Computer Vision-Assisted Cytology? A Systematic Literature Review ( http://arxiv.org/abs/2105.11277v1 )

ライセンス: Link先を確認
Andr\'e Vict\'oria Matias, Jo\~ao Gustavo Atkinson Amorim, Luiz Antonio Buschetto Macarini, Allan Cerentini, Alexandre Sherlley Casimiro Onofre, Fabiana Botelho de Miranda Onofre, Felipe Perozzo Dalto\'e, Marcelo Ricardo Stemmer, Aldo von Wangenheim(参考訳) 細胞診は、幅広い病態の診断を支援するために、低コストで非侵襲的な診断法である。 コンピュータビジョン技術は, 試験内容の量的, 客観的な記述を自動的に生成することにより, 誤診断の可能性を最小化し, 分析に要する時間を短縮することができる。 現在,細胞診に応用されているコンピュータビジョン技術の現状を明らかにするために,システム文献レビューを行った。 我々は過去5年間に出版された論文を分析した。 最初の検索は2020年9月に行われ、431の記事を掲載した。 包括的/排他的基準を適用した後,157の論文が残され,本研究領域に存在する傾向と問題点を考察し,コンピュータビジョン手法,染色技術,評価指標,使用済みデータセットとコンピュータコードの可用性を強調した。 その結果,本研究で最も多く用いられている手法は深層学習ベース(70論文)であり,古典的コンピュータビジョンのみを用いたもの(101論文)は少ない。 分類と物体検出に最も頻繁に用いられる指標は精度(33論文と5論文)であり、セグメンテーションではサイス類似度係数(38論文)であった。 染色技術に関しては、パパニコラウーが最も多く採用され(130紙)、続いてh&e(20紙)とファールゲン(5紙)が続いた。 論文で使用された12のデータセットが公開されており、dtu/herlevデータセットが最も使われている。 結論として,多くの染色に対して高品質なデータセットがまだ存在せず,ほとんどの研究は日常的な臨床診断ルーチンに適用できるほど成熟していない。 また,深層学習に基づくアプローチを選択手法として採用する傾向もみられた。

Cytology is a low-cost and non-invasive diagnostic procedure employed to support the diagnosis of a broad range of pathologies. Computer Vision technologies, by automatically generating quantitative and objective descriptions of examinations' contents, can help minimize the chances of misdiagnoses and shorten the time required for analysis. To identify the state-of-art of computer vision techniques currently applied to cytology, we conducted a Systematic Literature Review. We analyzed papers published in the last 5 years. The initial search was executed in September 2020 and resulted in 431 articles. After applying the inclusion/exclusion criteria, 157 papers remained, which we analyzed to build a picture of the tendencies and problems present in this research area, highlighting the computer vision methods, staining techniques, evaluation metrics, and the availability of the used datasets and computer code. As a result, we identified that the most used methods in the analyzed works are deep learning-based (70 papers), while fewer works employ classic computer vision only (101 papers). The most recurrent metric used for classification and object detection was the accuracy (33 papers and 5 papers), while for segmentation it was the Dice Similarity Coefficient (38 papers). Regarding staining techniques, Papanicolaou was the most employed one (130 papers), followed by H&E (20 papers) and Feulgen (5 papers). Twelve of the datasets used in the papers are publicly available, with the DTU/Herlev dataset being the most used one. We conclude that there still is a lack of high-quality datasets for many types of stains and most of the works are not mature enough to be applied in a daily clinical diagnostic routine. We also identified a growing tendency towards adopting deep learning-based approaches as the methods of choice.
翻訳日:2021-05-25 14:58:09 公開日:2021-05-24
# Fed-NILM: プライバシー保護のためのフェデレーション学習に基づく非侵入負荷モニタリング手法

Fed-NILM: A Federated Learning-based Non-Intrusive Load Monitoring Method for Privacy-Protection ( http://arxiv.org/abs/2105.11085v1 )

ライセンス: Link先を確認
Haijin Wang, Caomingzhe Si, Junhua Zhao(参考訳) non-intrusive load monitoring (nilm) は全負荷をアプライアンスレベルの負荷信号に分解する。 NILMを実現するために多くのディープラーニングベースの手法が開発されており、ディープニューラルネットワーク(DNN)のトレーニングにはさまざまな種類のアプライアンスを含む大量の負荷データが必要である。 負荷が不十分で有望なモデル性能を期待できるローカルデータ所有者にとって、効果的なnilm共同モデリングの伝導性はますます重要になっている。 ローカルデータ所有者の協力の下で、データ交換と集中型データストレージは、消費者プライバシ侵害のリスクを高める可能性がある。 潜在的なリスクを排除するため,Fed-NILM ap-plying Federated Learning (FL) と呼ばれる新しいNILM法を提案する。 Fed-NILMでは、ロードデータの代わりにローカルパラメータをローカルデータ所有者間で共有する。 大域モデルは、パラメータの平均を重み付けして得られる。 実験では、Fed-NILMは2つの実世界のデータセットで検証される。 また,feed-nilmと局地的に訓練されたnilmと中央訓練されたnilmの比較は,住宅と産業の両方のシナリオで実施されている。 実験の結果,Fed-NILMは局所的に訓練されたNILMよりも優れており,プライバシ保護を伴わない負荷データセット全体をトレーニングしたNILMに近似していることがわかった。

Non-intrusive load monitoring (NILM) decomposes the total load reading into appliance-level load signals. Many deep learning-based methods have been developed to accomplish NILM, and the training of deep neural networks (DNN) requires massive load data containing different types of appliances. For local data owners with inadequate load data but expect to accomplish a promising model performance, the conduction of effective NILM co-modelling is increasingly significant. While during the cooperation of local data owners, data exchange and centralized data storage may increase the risk of power consumer privacy breaches. To eliminate the potential risks, a novel NILM method named Fed-NILM ap-plying Federated Learning (FL) is proposed in this paper. In Fed-NILM, local parameters instead of load data are shared among local data owners. The global model is obtained by weighted averaging the parameters. In the experiments, Fed-NILM is validated on two real-world datasets. Besides, a comparison of Fed-NILM with locally-trained NILMs and the centrally-trained one is conducted in both residential and industrial scenarios. The experimental results show that Fed-NILM outperforms locally-trained NILMs and approximate the centrally-trained NILM which is trained on the entire load dataset without privacy preservation.
翻訳日:2021-05-25 14:54:09 公開日:2021-05-24
# ローゴ拡散を用いたオートエンコーダ特徴マップへのロバストな透かし

Robust Watermarking using Diffusion of Logo into Autoencoder Feature Maps ( http://arxiv.org/abs/2105.11095v1 )

ライセンス: Link先を確認
Maedeh Jamali, Nader Karim, Pejman Khadivi, Shahram Shirani, Shadrokh Samavi(参考訳) 近年、デジタルコンテンツは劇的に成長し、著作権への関心が高まっている。 画像透かしは著作権保護の最も一般的な方法の1つと考えられている。 画像処理にディープニューラルネットワークを適用する最近の進歩により、これらのネットワークは画像透かしにも使われている。 堅牢性と非知覚性は、透かしの方法の2つの困難な特徴であり、それらの間のトレードオフを満足させるべきである。 本稿では,透かしのためのエンドツーエンドネットワークを提案する。 画像の内容に基づいて,畳み込みニューラルネットワーク(CNN)を用いて埋め込み強度を制御する。 動的埋め込みは、ネットワークが透かし付き画像の視覚品質に最も影響を及ぼすのに役立ちます。 異なる画像処理攻撃をネットワーク層としてシミュレートし、モデルのロバスト性を向上させる。 本手法は,入力画像と同じ大きさのマトリクスを作成するために,透かし文字列を再現するブラインド透かし手法である。 入力画像にウォーターマークデータを拡散させる代わりに、我々はデータを特徴空間に注入し、ネットワークに様々な攻撃に対する堅牢性を高める領域でこれを強制する。 実験の結果, 提案手法は最先端アルゴリズムと比較して, インセプティビリティとロバスト性において優れていることがわかった。

Digital contents have grown dramatically in recent years, leading to increased attention to copyright. Image watermarking has been considered one of the most popular methods for copyright protection. With the recent advancements in applying deep neural networks in image processing, these networks have also been used in image watermarking. Robustness and imperceptibility are two challenging features of watermarking methods that the trade-off between them should be satisfied. In this paper, we propose to use an end-to-end network for watermarking. We use a convolutional neural network (CNN) to control the embedding strength based on the image content. Dynamic embedding helps the network to have the lowest effect on the visual quality of the watermarked image. Different image processing attacks are simulated as a network layer to improve the robustness of the model. Our method is a blind watermarking approach that replicates the watermark string to create a matrix of the same size as the input image. Instead of diffusing the watermark data into the input image, we inject the data into the feature space and force the network to do this in regions that increase the robustness against various attacks. Experimental results show the superiority of the proposed method in terms of imperceptibility and robustness compared to the state-of-the-art algorithms.
翻訳日:2021-05-25 14:53:48 公開日:2021-05-24
# Dorylus: 数十億のエッジグラフ上でのGNNトレーニング

Dorylus: Affordable, Scalable, and Accurate GNN Training over Billion-Edge Graphs ( http://arxiv.org/abs/2105.11118v1 )

ライセンス: Link先を確認
John Thorpe, Yifan Qiao, Jonathan Eyolfson, Shen Teng, Guanzhou Hu, Zhihao Jia, Jinliang Wei, Keval Vora, Ravi Netravali, Miryung Kim, Guoqing Harry Xu(参考訳) グラフニューラルネットワーク(GNN)は、構造化グラフデータの深層学習を可能にする。 主要なgnnトレーニングの障害は2つある: 1)多くのgpuを持つハイエンドサーバに依存しており、購入とメンテナンスに費用がかかる、2)gpu上のメモリ制限は今日の10億エッジグラフではスケールできない。 本稿では,GNNを学習するための分散システムDorylusについて述べる。 ユニークなことに、dorylusはサーバーレスコンピューティングを利用して、低コストでスケーラビリティを向上させることができる。 私たちの設計を導く重要な洞察は、計算の分離です。 計算分離により、グラフとテンソル並列タスクが完全に重複し、Lambdaが生み出すネットワーク遅延を効果的に隠蔽する、深い境界付き非同期パイプラインを構築することができる。 数千のLambdaスレッドの助けを借りて、DrylusはGNNトレーニングを10億のエッジグラフにスケールする。 現在、大規模なグラフでは、CPUサーバはGPUサーバーよりも最高のパフォーマンスを提供する。 CPUサーバ上でLambdaを使用すると、CPUサーバでのトレーニングよりも最大2.75倍パフォーマンスが向上する。 具体的には、dorylusは1.22倍高速で、大規模なスパースグラフ用のgpuサーバより4.83倍安くなる。 Dorylusは既存のサンプリングベースシステムに比べて最大3.8倍高速、10.7倍安価である。

A graph neural network (GNN) enables deep learning on structured graph data. There are two major GNN training obstacles: 1) it relies on high-end servers with many GPUs which are expensive to purchase and maintain, and 2) limited memory on GPUs cannot scale to today's billion-edge graphs. This paper presents Dorylus: a distributed system for training GNNs. Uniquely, Dorylus can take advantage of serverless computing to increase scalability at a low cost. The key insight guiding our design is computation separation. Computation separation makes it possible to construct a deep, bounded-asynchronous pipeline where graph and tensor parallel tasks can fully overlap, effectively hiding the network latency incurred by Lambdas. With the help of thousands of Lambda threads, Dorylus scales GNN training to billion-edge graphs. Currently, for large graphs, CPU servers offer the best performance-per-doll ar over GPU servers. Just using Lambdas on top of CPU servers offers up to 2.75x more performance-per-doll ar than training only with CPU servers. Concretely, Dorylus is 1.22x faster and 4.83x cheaper than GPU servers for massive sparse graphs. Dorylus is up to 3.8x faster and 10.7x cheaper compared to existing sampling-based systems.
翻訳日:2021-05-25 14:53:30 公開日:2021-05-24
# 関係認識を用いた不均一グラフ表現学習

Heterogeneous Graph Representation Learning with Relation Awareness ( http://arxiv.org/abs/2105.11122v1 )

ライセンス: Link先を確認
Le Yu, Leilei Sun, Bowen Du, Chuanren Liu, Weifeng Lv, Hui Xiong(参考訳) ヘテロジニアスグラフでの表現学習は、ノード分類やリンク予測など、様々な下流タスクを容易にする意味のあるノード表現を得ることを目的としている。 既存の異種グラフ学習法は主にノード表現の伝播機構に従って開発されている。 よりきめ細かいノード表現の学習を改善するための関係の役割を研究する努力はほとんどない。 実際、関係のセマンティック表現を共同学習し、異なる関係タイプについてノード表現を識別することが重要である。 そこで本稿では,R-HGNNという新しい関係認識不均質グラフニューラルネットワークを提案し,関係認識特性を考慮し,不均一グラフ上のノード表現をきめ細かいレベルで学習する。 具体的には、専用グラフ畳み込みコンポーネントは、まず各関係固有グラフから一意なノード表現を別々に学習するように設計されている。 そして、異なる関係をまたいだノード表現の相互作用を改善するために、相互関係メッセージパッシングモジュールを開発する。 また、関係表現を階層的に学習し、ノード表現学習プロセスを導くために使用される関係意味論をキャプチャする。 さらに、集合関係認識ノード表現に対して意味融合モジュールを学習関係表現を伴うコンパクト表現に提示する。 最後に,様々なグラフ学習タスクについて広範囲な実験を行い,実験結果から,既存の手法を一貫して上回っていることを示す。

Representation learning on heterogeneous graphs aims to obtain meaningful node representations to facilitate various downstream tasks, such as node classification and link prediction. Existing heterogeneous graph learning methods are primarily developed by following the propagation mechanism of node representations. There are few efforts on studying the role of relations for improving the learning of more fine-grained node representations. Indeed, it is important to collaboratively learn the semantic representations of relations and discern node representations with respect to different relation types. To this end, in this paper, we propose a novel Relation-aware Heterogeneous Graph Neural Network, namely R-HGNN, to learn node representations on heterogeneous graphs at a fine-grained level by considering relation-aware characteristics. Specifically, a dedicated graph convolution component is first designed to learn unique node representations from each relation-specific graph separately. Then, a cross-relation message passing module is developed to improve the interactions of node representations across different relations. Also, the relation representations are learned in a layer-wise manner to capture relation semantics, which are used to guide the node representation learning process. Moreover, a semantic fusing module is presented to aggregate relation-aware node representations into a compact representation with the learned relation representations. Finally, we conduct extensive experiments on a variety of graph learning tasks, and experimental results demonstrate that our approach consistently outperforms existing methods among all the tasks.
翻訳日:2021-05-25 14:53:11 公開日:2021-05-24
# 拡散過程の背後にある時間進化するコミュニティ状態を発見するための動的ホークスプロセス

Dynamic Hawkes Processes for Discovering Time-evolving Communities' States behind Diffusion Processes ( http://arxiv.org/abs/2105.11152v1 )

ライセンス: Link先を確認
Maya Okawa, Tomoharu Iwata, Yusuke Tanaka, Hiroyuki Toda, Takeshi Kurashima, Hisashi Kashima(参考訳) 感染症の発生、社会ネットワーク活動、犯罪などのイベントのシーケンスはユビキタスであり、そのようなイベントに関するデータは、コミュニティ(例えば地域、オンラインユーザグループ)間の基盤となる拡散過程に関する重要な情報を提供する。 拡散過程のモデル化と将来の事象の予測は、流行制御、ウイルスマーケティング、予測ポリシングなど多くのアプリケーションにおいて不可欠である。 ホークスプロセスは拡散過程をモデル化するための中心的なツールを提供する。 しかし、それぞれのコミュニティが過去のイベントの影響を受けやすいように制御するトリガーカーネルパラメータは、時間とともに静的であると仮定される。 現実の世界では、拡散過程は過去の影響だけでなく、人々の病気に対する認識や人々の現在の関心など、地域社会の現在の(時を経る)状態にも依存する。 本稿では,拡散過程の背後にあるコミュニティ状態の基盤となるダイナミクスを捉え,そのダイナミクスに基づいて事象の発生を予測できる,新しいホークス過程モデルを提案する。 具体的には、ニューラルネットワークの混合によってこれらの隠れたダイナミクスを符号化する潜在動的関数をモデル化する。 次に、潜在動的関数とその積分を用いてトリガーカーネルを設計する。 提案手法はDHP(Dynamic Hawkes Processes)と呼ばれ、時間進化するコミュニティの状態の複雑な表現を学習するための柔軟な方法を提供する。 4つの実世界のイベントデータセットに対する大規模な実験により、DHPは5つの広く採用されているイベント予測方法より優れていることが示された。

Sequences of events including infectious disease outbreaks, social network activities, and crimes are ubiquitous and the data on such events carry essential information about the underlying diffusion processes between communities (e.g., regions, online user groups). Modeling diffusion processes and predicting future events are crucial in many applications including epidemic control, viral marketing, and predictive policing. Hawkes processes offer a central tool for modeling the diffusion processes, in which the influence from the past events is described by the triggering kernel. However, the triggering kernel parameters, which govern how each community is influenced by the past events, are assumed to be static over time. In the real world, the diffusion processes depend not only on the influences from the past, but also the current (time-evolving) states of the communities, e.g., people's awareness of the disease and people's current interests. In this paper, we propose a novel Hawkes process model that is able to capture the underlying dynamics of community states behind the diffusion processes and predict the occurrences of events based on the dynamics. Specifically, we model the latent dynamic function that encodes these hidden dynamics by a mixture of neural networks. Then we design the triggering kernel using the latent dynamic function and its integral. The proposed method, termed DHP (Dynamic Hawkes Processes), offers a flexible way to learn complex representations of the time-evolving communities' states, while at the same time it allows to computing the exact likelihood, which makes parameter learning tractable. Extensive experiments on four real-world event datasets show that DHP outperforms five widely adopted methods for event prediction.
翻訳日:2021-05-25 14:52:50 公開日:2021-05-24
# グローバルロバスト性を検証したセキュリティ分類器の学習

Learning Security Classifiers with Verified Global Robustness Properties ( http://arxiv.org/abs/2105.11363v1 )

ライセンス: Link先を確認
Yizheng Chen, Shiqi Wang, Yue Qin, Xiaojing Liao, Suman Jana, David Wagner(参考訳) 近年の研究では、ほとんどの入力に対する回避攻撃のクラスを確実に排除できるが、全ての入力は排除できる局所ロバスト性を持つ分類器を訓練する方法が提案されている。 データ分散シフトは、マルウェア検出のためにしばしば観測されるセキュリティアプリケーションで非常に一般的であるため、ローカルロバスト性は、分類器のデプロイ時に、そのプロパティが見えない入力を保持することを保証できない。 したがって、全ての入力を保持するグローバルロバスト性(局所ロバスト性よりも厳格に強い)を強制することがより望ましい。 本稿では,グローバルロバスト性特性を満たす分類器を訓練するためのフレームワークとツールを提案する。 我々は,セキュリティ分類器に適したグローバルロバスト性の概念を新たに定義する。 我々は,グローバルなロバスト性特性を強制する新しいブースターフィッカトレーニングフレームワークを設計した。 我々は、論理規則の集合として分類器を構成し、その特性を検証するために新しい検証器を設計する。 学習アルゴリズムでは, 昇圧器は分類器の容量を増加させ, 固定器は反例誘導型インダクティブ合成の後, 検証されたグローバルロバスト性特性を強制する。 我々の知る限りでは、これまで達成された唯一の大域的堅牢性は単調性である。 これまでのいくつかの研究でグローバルロバスト性が定義されているが、そのトレーニング技術はグローバルロバスト性が証明されていない。 比較として,3つのセキュリティデータセットに対して異なるグローバルロバスト性特性,さらには複数のプロパティを同時に満たすように分類器を訓練し,分類器の性能に少なからぬ影響を与えることを示した。 例えば、twitterのスパムアカウント分類器をトレーニングして、5つのグローバルなロバスト性特性を満たし、5.4%の真の陽性率と0.1%の偽陽性率で、いかなる特性も満たさないベースラインのxgboostモデルと比較します。

Recent works have proposed methods to train classifiers with local robustness properties, which can provably eliminate classes of evasion attacks for most inputs, but not all inputs. Since data distribution shift is very common in security applications, e.g., often observed for malware detection, local robustness cannot guarantee that the property holds for unseen inputs at the time of deploying the classifier. Therefore, it is more desirable to enforce global robustness properties that hold for all inputs, which is strictly stronger than local robustness. In this paper, we present a framework and tools for training classifiers that satisfy global robustness properties. We define new notions of global robustness that are more suitable for security classifiers. We design a novel booster-fixer training framework to enforce global robustness properties. We structure our classifier as an ensemble of logic rules and design a new verifier to verify the properties. In our training algorithm, the booster increases the classifier's capacity, and the fixer enforces verified global robustness properties following counterexample guided inductive synthesis. To the best of our knowledge, the only global robustness property that has been previously achieved is monotonicity. Several previous works have defined global robustness properties, but their training techniques failed to achieve verified global robustness. In comparison, we show that we can train classifiers to satisfy different global robustness properties for three security datasets, and even multiple properties at the same time, with modest impact on the classifier's performance. For example, we train a Twitter spam account classifier to satisfy five global robustness properties, with 5.4% decrease in true positive rate, and 0.1% increase in false positive rate, compared to a baseline XGBoost model that doesn't satisfy any property.
翻訳日:2021-05-25 14:51:54 公開日:2021-05-24
# 化学反応ニューラルネットワークを用いたバイオマス熱分解の自律動力学モデル

Autonomous Kinetic Modeling of Biomass Pyrolysis using Chemical Reaction Neural Networks ( http://arxiv.org/abs/2105.11397v1 )

ライセンス: Link先を確認
Weiqi Ji, Franz Richter, Michael J. Gollner, Sili Deng(参考訳) 森林, 草, 作物などのバイオマスの燃焼過程のモデル化は, 森林および都市火災のモデル化と予測に不可欠である。 その重要性にもかかわらず、固体燃料の燃焼はあまり理解されておらず、これはほとんどの固体燃料の未知の化学反応によるものである。 ほとんどの利用可能な運動モデルは、化学的な洞察と長年の経験を必要とする専門家の知識に基づいて構築された。 本稿では,最近開発された化学反応ニューラルネットワーク (crnn) を用いた熱重力解析器 (tga) 実験データからバイオマス熱分解速度モデルを自律的に発見する枠組みを提案する。 この手法は、TGAデータの残留質量を予測するために、CRNNモデルをニューラル常微分方程式の枠組みに組み込んだ。 ニューラルネットワークに基づくモデルの柔軟性に加えて、学習されたCRNNモデルは、質量作用法則やアレニウス法則などの基本的な物理法則をニューラルネットワーク構造に組み込むことで、完全に解釈可能である。 学習されたCRNNモデルは古典的なバイオマス化学速度論的モデルに変換され、化学的な洞察の抽出と大規模火災シミュレーションへの速度論的モデルの統合が促進される。 セルロースの熱分解および酸化予測におけるフレームワークの有効性を実証した。 この成功例は、山火事燃料や工業用ポリマーのような固体燃料の迅速かつ自律的な化学動力学モデリングの可能性を開く。

Modeling the burning processes of biomass such as wood, grass, and crops is crucial for the modeling and prediction of wildland and urban fire behavior. Despite its importance, the burning of solid fuels remains poorly understood, which can be partly attributed to the unknown chemical kinetics of most solid fuels. Most available kinetic models were built upon expert knowledge, which requires chemical insights and years of experience. This work presents a framework for autonomously discovering biomass pyrolysis kinetic models from thermogravimetric analyzer (TGA) experimental data using the recently developed chemical reaction neural networks (CRNN). The approach incorporated the CRNN model into the framework of neural ordinary differential equations to predict the residual mass in TGA data. In addition to the flexibility of neural-network-based models, the learned CRNN model is fully interpretable, by incorporating the fundamental physics laws, such as the law of mass action and Arrhenius law, into the neural network structure. The learned CRNN model can then be translated into the classical forms of biomass chemical kinetic models, which facilitates the extraction of chemical insights and the integration of the kinetic model into large-scale fire simulations. We demonstrated the effectiveness of the framework in predicting the pyrolysis and oxidation of cellulose. This successful demonstration opens the possibility of rapid and autonomous chemical kinetic modeling of solid fuels, such as wildfire fuels and industrial polymers.
翻訳日:2021-05-25 14:51:22 公開日:2021-05-24
# 能動学習のための適応ラベル認識のコスト精度

Cost-Accuracy Aware Adaptive Labeling for Active Learning ( http://arxiv.org/abs/2105.11418v1 )

ライセンス: Link先を確認
Ruijiang Gao, Maytal Saar-tsechansky(参考訳) 従来の能動学習アルゴリズムでは、与えられた固定コストでノイズレスラベルを生成する単一ラベルを仮定し、予算制約の下で与えられた分類器の最高の一般化性能を達成する。 しかし、実際の多くの設定では、異なるラベルには異なるラベルのコストがあり、異なるラベルの精度が得られる。 さらに、与えられたラベル付け者は、異なるインスタンスに対して異なるラベル付け精度を示すことができる。 この設定は、様々なコストと精度を持つ多様なラベル付きでアクティブな学習と呼ばれ、多くの重要な実際の設定で発生する。 したがって、異なるインスタンスのラベル付け精度、ラベル付けコスト、およびトレーニングインスタンスのインフォメーション性を効果的にトレードオフする方法を理解することは、最も低いラベル付けコストで最高の一般化性能を達成するために有益である。 本稿では,ラベルノイズによる学習の一般化バウンダリを用いて,より低コストでより高度な一般化精度を実現するための,インスタンス,ラベル(およびそれに対応するコストとラベル付け精度)を選択するための新しいアルゴリズムを提案する。 提案アルゴリズムは,5つのUCIおよび実際のクラウドソーシングデータセット上での最先端のパフォーマンスを示す。

Conventional active learning algorithms assume a single labeler that produces noiseless label at a given, fixed cost, and aim to achieve the best generalization performance for given classifier under a budget constraint. However, in many real settings, different labelers have different labeling costs and can yield different labeling accuracies. Moreover, a given labeler may exhibit different labeling accuracies for different instances. This setting can be referred to as active learning with diverse labelers with varying costs and accuracies, and it arises in many important real settings. It is therefore beneficial to understand how to effectively trade-off between labeling accuracy for different instances, labeling costs, as well as the informativeness of training instances, so as to achieve the best generalization performance at the lowest labeling cost. In this paper, we propose a new algorithm for selecting instances, labelers (and their corresponding costs and labeling accuracies), that employs generalization bound of learning with label noise to select informative instances and labelers so as to achieve higher generalization accuracy at a lower cost. Our proposed algorithm demonstrates state-of-the-art performance on five UCI and a real crowdsourcing dataset.
翻訳日:2021-05-25 14:51:02 公開日:2021-05-24
# アービタージュフリーニューラル-SDE市場モデル

Arbitrage-free neural-SDE market models ( http://arxiv.org/abs/2105.11053v1 )

ライセンス: Link先を確認
Samuel N. Cohen and Christoph Reisinger and Sheng Wang(参考訳) 液状バニラオプションのモデリングジョイントダイナミクスは、液状デリバティブの調停フリー価格設定とオプショントレードブックのリスク管理に不可欠である。 本稿では,金融制約に配慮した欧州オプション書の非パラメトリックモデルを開発し,実際に実装可能である。 静的な(あるいはモデルに依存しない)仲裁から解放された価格に対する状態空間を導出し、ストックとオプション価格の離散時系列データからモデルを学習する推論問題を研究する。 我々は、ニューラルネットワークをモデル付きSDEシステムのドリフトと拡散の関数近似器として使用し、非軌道条件が保存されるようにニューラルネットワークに制約を課す。 特に,線形不等式の集合を満たすことが保証される <textit{neural SDE} モデルを校正する手法を提案する。 ヘストン確率的局所ボラティリティモデルから得られたデータを用いて数値実験によるアプローチを検証する。

Modelling joint dynamics of liquid vanilla options is crucial for arbitrage-free pricing of illiquid derivatives and managing risks of option trade books. This paper develops a nonparametric model for the European options book respecting underlying financial constraints and while being practically implementable. We derive a state space for prices which are free from static (or model-independent) arbitrage and study the inference problem where a model is learnt from discrete time series data of stock and option prices. We use neural networks as function approximators for the drift and diffusion of the modelled SDE system, and impose constraints on the neural nets such that no-arbitrage conditions are preserved. In particular, we give methods to calibrate \textit{neural SDE} models which are guaranteed to satisfy a set of linear inequalities. We validate our approach with numerical experiments using data generated from a Heston stochastic local volatility model.
翻訳日:2021-05-25 14:50:16 公開日:2021-05-24
# フェデレーショングラフ学習 --位置用紙-

Federated Graph Learning -- A Position Paper ( http://arxiv.org/abs/2105.11099v1 )

ライセンス: Link先を確認
Huanding Zhang, Tao Shen, Fei Wu, Mingyang Yin, Hongxia Yang, Chao Wu(参考訳) グラフニューラルネットワーク(GNN)は多くの分野で成功し、実業界における様々な研究や応用を導出した。 しかし、いくつかのプライバシーに敏感なシナリオ(金融や医療など)では、gnnモデルのトレーニングは分散データサイロによる課題の中心に直面している。 フェデレートラーニング(FL)は、分散GNNトレーニングのための合理的なソリューションであるデータを分散化しつつ、共有モデルを協調的にトレーニングできる新興技術である。 これをFGL(Federated Graph Learning)と呼ぶ。 FGLは近年注目されているが、FGLの定義と課題はまだ未解決のままである。 本稿では,その特徴を明らかにするための分類について述べる。 グラフデータをクライアント間で分散する方法を考慮し、グラフ間FL、グラフ間FL、グラフ構造FLの4種類のFGLを提案し、グラフ内FLをさらに水平と垂直に分割する。 各種類のFGLについて、定式化と応用について詳細な議論を行い、潜在的な課題を提案する。

Graph neural networks (GNN) have been successful in many fields, and derived various researches and applications in real industries. However, in some privacy sensitive scenarios (like finance, healthcare), training a GNN model centrally faces challenges due to the distributed data silos. Federated learning (FL) is a an emerging technique that can collaboratively train a shared model while keeping the data decentralized, which is a rational solution for distributed GNN training. We term it as federated graph learning (FGL). Although FGL has received increasing attention recently, the definition and challenges of FGL is still up in the air. In this position paper, we present a categorization to clarify it. Considering how graph data are distributed among clients, we propose four types of FGL: inter-graph FL, intra-graph FL and graph-structured FL, where intra-graph is further divided into horizontal and vertical FGL. For each type of FGL, we make a detailed discussion about the formulation and applications, and propose some potential challenges.
翻訳日:2021-05-25 14:49:17 公開日:2021-05-24
# (参考訳) 対話システムとシミュレータのためのユニバーサルNLGの実現に向けて [全文訳有]

Towards a Universal NLG for Dialogue Systems and Simulators with Future Bridging ( http://arxiv.org/abs/2105.10267v2 )

ライセンス: CC BY 4.0
Philipp Ennen, Yen-Ting Lin, Ali Girayhan Ozbay, Ferdinando Insalata, Maolin Li, Ye Tian, Sepehr Jalali, Da-shan Shiu(参考訳) 対話システムパイプラインにおいて、自然言語生成部(NLG)は、対話方向と内容とを対応する自然言語実現に変換する。 対話システムにおける最近のトレンドは、まず大きなデータセットを事前学習し、次にアプリケーション固有の特徴にアノテートされたデータセットを使用して教師付きで微調整することである。 新しい振る舞いはカスタムアノテーションから学ぶことができるが、必要な努力はトレーニングセットの量を大幅に制限し、アプリケーション固有の性質は再利用を制限する。 データ駆動型アプローチの最近の成功を踏まえ、対話システムとシミュレーターのための新しいブリッジングNLG(FBNLG)の概念を提案する。 重要なステップは、FBNLGが将来のユーザまたはシステム発話を受け入れて、現在のコンテキストをブリッジすることです。 future bridgingはアノテーションのないデータセット上での自己教師付きトレーニングを可能にし、システムの他の部分からnlgのトレーニングを分離する。 大量のデータセットで事前訓練されたFBNLGは、最小適応力で古典的または新しい対話シナリオに適用される。 FBNLG のプロトタイプを評価したところ,今後のブリッジングはタスク指向およびチャット対話のための汎用的な数ショット NLG への有効なアプローチであることがわかった。

In a dialogue system pipeline, a natural language generation (NLG) unit converts the dialogue direction and content to a corresponding natural language realization. A recent trend for dialogue systems is to first pre-train on large datasets and then fine-tune in a supervised manner using datasets annotated with application-specific features. Though novel behaviours can be learned from custom annotation, the required effort severely bounds the quantity of the training set, and the application-specific nature limits the reuse. In light of the recent success of data-driven approaches, we propose the novel future bridging NLG (FBNLG) concept for dialogue systems and simulators. The critical step is for an FBNLG to accept a future user or system utterance to bridge the present context towards. Future bridging enables self supervised training over annotation-free datasets, decoupled the training of NLG from the rest of the system. An FBNLG, pre-trained with massive datasets, is expected to apply in classical or new dialogue scenarios with minimal adaptation effort. We evaluate a prototype FBNLG to show that future bridging can be a viable approach to a universal few-shot NLG for task-oriented and chit-chat dialogues.
翻訳日:2021-05-25 11:23:37 公開日:2021-05-24
# DAVOS: Adversarial Domain Adaptationによる半スーパービジョンビデオオブジェクトセグメンテーション

DAVOS: Semi-Supervised Video Object Segmentation via Adversarial Domain Adaptation ( http://arxiv.org/abs/2105.10201v2 )

ライセンス: Link先を確認
Jinshuo Zhang, Zhicheng Wang, Songyan Zhang, Gang Wei(参考訳) ドメインシフトは常にビデオオブジェクトセグメンテーション(VOS)の主要な問題のひとつであり、不慣れなデータセットでテストした場合、モデルは変性に悩まされる。 近年,通常不足しているテストデータのアノテーションを微調整することで,トレーニングデータ(ソースドメイン)とテストデータ(ターゲットドメイン)のパフォーマンスギャップを狭めるために,多くのオンライン手法が出現している。 本稿では,まず,vosタスクに逆ドメイン適応を導入することで,ソースドメインの教師付きトレーニングと対象ドメインの教師なしトレーニングを行うことにより,ドメインシフトに取り組む新しい手法を提案する。 コンボリューション層で外観と動作特性を融合させ,動作分岐に監督を加えることで,DAVIS2016における最先端性能を82.6%,教師付きトレーニング後のIoUスコアを82.6%で達成する。 一方,FBMS59 や Youtube-Object に適用した場合,追加アノテーションを使わずに,ドメイン適応戦略によりトレーニングモデルの性能が著しく向上する。

Domain shift has always been one of the primary issues in video object segmentation (VOS), for which models suffer from degeneration when tested on unfamiliar datasets. Recently, many online methods have emerged to narrow the performance gap between training data (source domain) and test data (target domain) by fine-tuning on annotations of test data which are usually in shortage. In this paper, we propose a novel method to tackle domain shift by first introducing adversarial domain adaptation to the VOS task, with supervised training on the source domain and unsupervised training on the target domain. By fusing appearance and motion features with a convolution layer, and by adding supervision onto the motion branch, our model achieves state-of-the-art performance on DAVIS2016 with 82.6% mean IoU score after supervised training. Meanwhile, our adversarial domain adaptation strategy significantly raises the performance of the trained model when applied on FBMS59 and Youtube-Object, without exploiting extra annotations.
翻訳日:2021-05-25 11:09:07 公開日:2021-05-24
# 病理組織学的大腸癌核検索のための共同トリプルトオートエンコーダ

Joint Triplet Autoencoder for Histopathological Colon Cancer Nuclei Retrieval ( http://arxiv.org/abs/2105.10262v2 )

ライセンス: Link先を確認
Satya Rajendra Singh, Shiv Ram Dubey, Shruthi MS, Sairathan Ventrapragada, Saivamshi Salla Dasharatha(参考訳) ディープラーニングは視覚的なタスクのパフォーマンスを大幅に改善した。 画像検索は、クエリ画像のためのデータベースから視覚的に類似した画像を抽出するタスクである。 画像のランク付けのために特徴マッチングを行う。 画像を表現するために、過去に様々な手作りの特徴が導出されている。 近年,バイオメディカル画像解析の分野におけるデータからの自動特徴学習に深層学習の力が活用されている。 autoencoderとsiamese networksは、潜在空間(すなわち特徴や埋め込み)を学ぶための2つのディープラーニングモデルである。 Autoencoderは、潜在空間からのイメージの再構成に基づいて動作する。 siamese networkは三重項を用いてクラス内類似性とクラス間類似性を学ぶ。 さらに、Autoencoderは教師なし、Siameseネットワークは教師なしである。 本稿では、自動エンコーダフレームワークにおける三重項学習を容易にすることで、JTANet(Joint Triplet Autoencoder Network)を提案する。 シャムネットワークの教師付き学習とオートエンコーダの教師なし学習とを共同で行う。 さらに、オートエンコーダのエンコーダネットワークは、シャムネットワークと共有され、シャムコーダネットワークと呼ばれる。 これらの特徴は、訓練されたSiamcoderネットワークを用いて抽出される。 病理組織学的常在性大腸癌データを用いて実験を行った。 病理組織像から大腸癌核検索のためのオートエンコーダとシームズモデルに対して提案したJTANetモデルを用いて有望な性能を観察した。

Deep learning has shown a great improvement in the performance of visual tasks. Image retrieval is the task of extracting the visually similar images from a database for a query image. The feature matching is performed to rank the images. Various hand-designed features have been derived in past to represent the images. Nowadays, the power of deep learning is being utilized for automatic feature learning from data in the field of biomedical image analysis. Autoencoder and Siamese networks are two deep learning models to learn the latent space (i.e., features or embedding). Autoencoder works based on the reconstruction of the image from latent space. Siamese network utilizes the triplets to learn the intra-class similarity and inter-class dissimilarity. Moreover, Autoencoder is unsupervised, whereas Siamese network is supervised. We propose a Joint Triplet Autoencoder Network (JTANet) by facilitating the triplet learning in autoencoder framework. A joint supervised learning for Siamese network and unsupervised learning for Autoencoder is performed. Moreover, the Encoder network of Autoencoder is shared with Siamese network and referred as the Siamcoder network. The features are extracted by using the trained Siamcoder network for retrieval purpose. The experiments are performed over Histopathological Routine Colon Cancer dataset. We have observed the promising performance using the proposed JTANet model against the Autoencoder and Siamese models for colon cancer nuclei retrieval in histopathological images.
翻訳日:2021-05-25 11:08:47 公開日:2021-05-24
# インクリメンタル学習を用いた広範学習システムのためのリッジ解の低メモリ化

Low-Memory Implementations of Ridge Solutions for Broad Learning System with Incremental Learning ( http://arxiv.org/abs/2105.10424v2 )

ライセンス: Link先を確認
Hufei Zhu(参考訳) 既存の低メモリのBLS実装では、記憶の効率的な利用を実現するために、大きな行列を保存・反転する必要がない。 しかし、既存の低メモリのBLS実装では、インクリメンタルラーニング中に出力重みの一般化された逆あるいはリッジ解を得ることができなくなり、元のBLSで使用される非常に小さなリッジパラメータの下では動作できないため、メモリの効率的な使用のための価格としてテスト精度を犠牲にしている。 したがって、低メモリのBLS実装は、非常に小さなリッジパラメータの下で動作し、インクリメンタル学習の過程で出力重みに対する一般化された逆あるいはリッジ解を計算する必要がある。 本稿では、まず、最近提案された再帰的および平方根BLSアルゴリズムと、最近提案された追加ノード上の平方根BLSアルゴリズムの低メモリ実装について、各再帰における入力やノードのバッチを単純に処理することで、提案する。 Since the recursive BLS implementation includes the recursive updates of the inverse matrix that may introduce numerical instabilities after a large number of iterations, and needs the extra computational load to decompose the inverse matrix into the Cholesky factor when cooperating with the proposed low-memory implementation of the square-root BLS algorithm on added nodes, we only improve the low-memory implementations of the square-root BLS algorithms on added inputs and nodes, to propose the full lowmemory implementation of the square-root BLS algorithm. 提案した低メモリのBLS実装はすべて、インクリメンタルラーニングの過程で出力重み付けのリッジ解を計算し、そのほとんどは非常に小さなリッジパラメータの下で動作することができる。

The existing low-memory BLS implementation proposed recently avoids the need for storing and inverting large matrices, to achieve efficient usage of memories. However, the existing low-memory BLS implementation sacrifices the testing accuracy as a price for efficient usage of memories, since it can no longer obtain the generalized inverse or ridge solution for the output weights during incremental learning, and it cannot work under the very small ridge parameter that is utilized in the original BLS. Accordingly, it is required to develop the low-memory BLS implementations, which can work under very small ridge parameters and compute the generalized inverse or ridge solution for the output weights in the process of incremental learning. In this paper, firstly we propose the low-memory implementations for the recently proposed recursive and square-root BLS algorithms on added inputs and the recently proposed squareroot BLS algorithm on added nodes, by simply processing a batch of inputs or nodes in each recursion. Since the recursive BLS implementation includes the recursive updates of the inverse matrix that may introduce numerical instabilities after a large number of iterations, and needs the extra computational load to decompose the inverse matrix into the Cholesky factor when cooperating with the proposed low-memory implementation of the square-root BLS algorithm on added nodes, we only improve the low-memory implementations of the square-root BLS algorithms on added inputs and nodes, to propose the full lowmemory implementation of the square-root BLS algorithm. All the proposed low-memory BLS implementations compute the ridge solution for the output weights in the process of incremental learning, and most of them can work under very small ridge parameters.
翻訳日:2021-05-25 11:08:27 公開日:2021-05-24
# 部分情報を用いた公平かつ効率的な資源配分

Fair and Efficient Resource Allocation with Partial Information ( http://arxiv.org/abs/2105.10064v2 )

ライセンス: Link先を確認
Daniel Halpern and Nisarg Shah(参考訳) 我々は, 不可分品を添加剤に分配する基本的な問題について検討した。 我々は、それぞれのエージェントから、彼女の最高評価ではなく、最も好まれる商品のランキングのみを引用することを検討する。 1つの善で近似的な最大シェア保証、そして2つの広く研究された公正の概念を達成するのに必要な$k$の値を特徴づける。 また,公平性要件の欠如によって生じる社会福祉の乗算的損失についても分析した。

We study the fundamental problem of allocating indivisible goods to agents with additive preferences. We consider eliciting from each agent only a ranking of her $k$ most preferred goods instead of her full cardinal valuations. We characterize the value of $k$ needed to achieve envy-freeness up to one good and approximate maximin share guarantee, two widely studied fairness notions. We also analyze the multiplicative loss in social welfare incurred due to the lack of full information with and without the fairness requirements.
翻訳日:2021-05-25 11:07:59 公開日:2021-05-24
# エルゴード型 it\^o 拡散の機械学習における不変統計量の誤差境界

Error Bounds of the Invariant Statistics in Machine Learning of Ergodic It\^o Diffusions ( http://arxiv.org/abs/2105.10102v2 )

ライセンス: Link先を確認
He Zhang, John Harlim, Xiantao Li(参考訳) 本稿では,エルゴディックIt\^o拡散の機械学習の理論的基盤について考察する。 その目的は、確率微分方程式(SDE)の基礎系が教師付き回帰フレームワークを用いて経験的に推定されるとき、不変統計量の収束特性を理解することである。 エルゴード型マルコフ鎖の摂動理論と線形応答理論を用いて、ドリフト係数と拡散係数の学習における誤差に関する1点および2点不変統計量の誤差の線形依存を導出する。 さらに,この線形依存結果を達成するには,学習一般化誤差の通常の$l^2$-normのキャラクタリゼーションが不十分であることを示す。 このような線形依存結果の十分な条件は、基礎となるSDEの解の存在を保証する通常の線形成長条件のような、ドリフト係数の特定の特性を保持する仮説空間における一様リプシッツと一貫した推定器を生成する学習アルゴリズムによって得られる。 本稿では、カーネルベーススペクトル回帰法とReLUアクティベーション関数を持つ浅層ランダムニューラルネットワークの2つのよく理解された学習アルゴリズムについて検討する。

This paper studies the theoretical underpinnings of machine learning of ergodic It\^o diffusions. The objective is to understand the convergence properties of the invariant statistics when the underlying system of stochastic differential equations (SDEs) is empirically estimated with a supervised regression framework. Using the perturbation theory of ergodic Markov chains and the linear response theory, we deduce a linear dependence of the errors of one-point and two-point invariant statistics on the error in the learning of the drift and diffusion coefficients. More importantly, our study shows that the usual $L^2$-norm characterization of the learning generalization error is insufficient for achieving this linear dependence result. We find that sufficient conditions for such a linear dependence result are through learning algorithms that produce a uniformly Lipschitz and consistent estimator in the hypothesis space that retains certain characteristics of the drift coefficients, such as the usual linear growth condition that guarantees the existence of solutions of the underlying SDEs. We examine these conditions on two well-understood learning algorithms: the kernel-based spectral regression method and the shallow random neural networks with the ReLU activation function.
翻訳日:2021-05-25 11:07:15 公開日:2021-05-24