このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210621となっている論文です。

PDF登録状況(公開日: 20210621)

TitleAuthorsAbstract論文公表日・翻訳日
# 医療・保険分野での患者埋め込み

Patient Embeddings in Healthcare and Insurance Applications ( http://arxiv.org/abs/2107.03913v1 )

ライセンス: Link先を確認
Pavel Blinov, Vladimir Kokh(参考訳) 本稿では,医療領域における概念と患者表現の問題について考察する。 我々は,Electronic Health Records (EHRs) の患者履歴を,トランスフォーマーベースニューラルネットワークモデルを用いた教師なしセットアップで埋め込みを学習するICD概念の時間的シーケンスとして提示する。 モデルトレーニングは6年間に100万人の患者の履歴を収集して行われた。 このようなモデルの予測力は、いくつかのベースライン法と比較して評価される。 MIMIC-IIIデータに対する一連の実験は、同様のシステムと比較して提示されたモデルの利点を示している。 さらに,概念関係に関して得られた埋め込み空間を分析し,医療領域からの知識が患者埋め込みの形で保険スコアリングの実務課題にどのように移行できるかを示す。

The paper researches the problem of concept and patient representations in the medical domain. We present the patient histories from Electronic Health Records (EHRs) as temporal sequences of ICD concepts for which embeddings are learned in an unsupervised setup with a transformer-based neural network model. The model training was performed on the collection of one million patients' histories in 6 years. The predictive power of such a model is assessed in comparison with several baseline methods. A series of experiments on the MIMIC-III data show the advantage of the presented model compared to a similar system. Further, we analyze the obtained embedding space with regards to concept relations and show how knowledge from the medical domain can be successfully transferred to the practical task of insurance scoring in the form of patient embeddings.
翻訳日:2021-07-11 11:32:18 公開日:2021-06-21
# (参考訳) 説明可能なAIを用いた適応型サイバーセキュリティのためのゼロショット学習手法 [全文訳有]

Zero-shot learning approach to adaptive Cybersecurity using Explainable AI ( http://arxiv.org/abs/2106.14647v1 )

ライセンス: CC BY 4.0
Dattaraj Rao, Shraddha Mane(参考訳) サイバーセキュリティは、攻撃のパターンが常に変化するドメインであり、サイバーセキュリティシステムを新しい攻撃に対処するためにより適応させ、適切な行動に分類する方法が必要です。 本稿では,セキュリティ情報やイベント管理 (SIEM) や侵入検知 (IDS) といったサイバーセキュリティシステムで直面するアラーム浸水問題に対処する新たなアプローチを提案する。 機械学習(ml)にゼロショット学習法を適用し,機械学習モデルによって生成された異常の予測を行う。 このアプローチは、SIEMで生成されたアラームラベルを自動的に検出し、特定の攻撃タイプと関連付けることができる。 このアプローチでは、攻撃に関する事前の知識がなければ、それを識別し、分類に寄与する特徴を解読し、説明可能なaiを使用して、特定のカテゴリで攻撃をバケット化しようとする。 説明は、サイバー攻撃の予測に影響を与える特徴と、どの程度の程度について、測定可能な要因を与えてくれる。 ゲーム理論に基づいて生成されたこれらの説明は、特定の予測への影響に基づいて特定の特徴にクレジットを割り当てるために使用される。 本稿では,このクレジットの割り当てを用いて,新たな攻撃を特徴的影響に基づく特定のクラスに分類するゼロショット手法を提案する。 その結果得られたシステムは、通常のフローから攻撃トラフィックを分離し、攻撃に寄与する機能に基づいて攻撃のラベルを自動生成する。 これらの自動生成ラベルはSIEMアナリストに提示することができ、攻撃の性質を把握できるほど直感的である。 我々は、このアプローチをネットワークフローデータセットに適用し、ipスイープ、サービス拒否、リモートからローカルなど、特定の攻撃タイプの結果を示す。 Paperは2021年6月のITI-Madrasで、デプロイ可能なAIに関する第1回会議で発表された。

Cybersecurity is a domain where there is constant change in patterns of attack, and we need ways to make our Cybersecurity systems more adaptive to handle new attacks and categorize for appropriate action. We present a novel approach to handle the alarm flooding problem faced by Cybersecurity systems like security information and event management (SIEM) and intrusion detection (IDS). We apply a zero-shot learning method to machine learning (ML) by leveraging explanations for predictions of anomalies generated by a ML model. This approach has huge potential to auto detect alarm labels generated in SIEM and associate them with specific attack types. In this approach, without any prior knowledge of attack, we try to identify it, decipher the features that contribute to classification and try to bucketize the attack in a specific category - using explainable AI. Explanations give us measurable factors as to what features influence the prediction of a cyber-attack and to what degree. These explanations generated based on game-theory are used to allocate credit to specific features based on their influence on a specific prediction. Using this allocation of credit, we propose a novel zero-shot approach to categorize novel attacks into specific new classes based on feature influence. The resulting system demonstrated will get good at separating attack traffic from normal flow and auto-generate a label for attacks based on features that contribute to the attack. These auto-generated labels can be presented to SIEM analyst and are intuitive enough to figure out the nature of attack. We apply this approach to a network flow dataset and demonstrate results for specific attack types like ip sweep, denial of service, remote to local, etc. Paper was presented at the first Conference on Deployable AI at IIT-Madras in June 2021.
翻訳日:2021-07-04 22:12:47 公開日:2021-06-21
# (参考訳) 条件付き生成逆数ネットワークによるレーダ後方散乱からの森林バイオマス予測マップの構築 [全文訳有]

Constructing Forest Biomass Prediction Maps from Radar Backscatter by Sequential Regression with a Conditional Generative Adversarial Network ( http://arxiv.org/abs/2106.15020v1 )

ライセンス: CC BY 4.0
Sara Bj\"ork, Stian Normann Anfinsen, Erik N{\ae}sset, Terje Gobakken and Eliakimu Zahabu(参考訳) 本稿では,合成開口レーダ(SAR)強度画像から地上バイオマス(AGB)予測マップを構築する。 目的は、限られた量のagb in situ測定で訓練されたsar強度に基づく従来の回帰モデルを改善することである。 収集には費用がかかるが、空中レーザー走査(ALS)センサーのデータはAGBと高い相関関係にある。 そこで本研究では,ALSデータに基づくAGB予測をSARデータの応答変数として逐次モデリング方式で提案する。 これにより、トレーニングデータの量が劇的に増加する。 SAR強度とALS予測AGBの回帰関数をモデル化するために,条件付き生成逆数ネットワーク(cGAN)の利用を提案する。 Pix2Pix畳み込みニューラルネットワーク。 これにより、既存のALSベースの AGB 予測マップのレクリエーションが可能になる。 同じ領域で訓練された従来の非逐次回帰モデルから得られたALSベースのAGB予測に対して、生成したALSベースのAGB予測を質的かつ定量的に評価する。 その結果,提案アーキテクチャは実際のデータの特徴を捉えていることがわかった。 これは、ALS誘導生成モデルを使用することが、SAR強度からのAGB予測に有望な道であることを示唆している。 この領域に関するさらなる研究は、AGBの大規模かつ低コストな予測を提供する可能性を持っている。

This paper studies construction of above-ground biomass (AGB) prediction maps from synthetic aperture radar (SAR) intensity images. The purpose is to improve traditional regression models based on SAR intensity, trained with a limited amount of AGB in situ measurements. Although it is costly to collect, data from airborne laser scanning (ALS) sensors are highly correlated with AGB. Therefore, we propose using AGB predictions based on ALS data as surrogate response variables for SAR data in a sequential modelling fashion. This increases the amount of training data dramatically. To model the regression function between SAR intensity and ALS-predicted AGB we propose to utilise a conditional generative adversarial network (cGAN), i.e. the Pix2Pix convolutional neural network. This enables the recreation of existing ALS-based AGB prediction maps. The generated synthesised ALS-based AGB predictions are evaluated qualitatively and quantitatively against ALS-based AGB predictions retrieved from a traditional non-sequential regression model trained in the same area. Results show that the proposed architecture manages to capture characteristics of the actual data. This suggests that the use of ALS-guided generative models is a promising avenue for AGB prediction from SAR intensity. Further research on this area has the potential of providing both large-scale and low-cost predictions of AGB.
翻訳日:2021-07-04 22:06:21 公開日:2021-06-21
# 消費者向けデバイスでリアルタイムaiにリーチする方法 プログラマブルでカスタムなアーキテクチャのためのソリューション

How to Reach Real-Time AI on Consumer Devices? Solutions for Programmable and Custom Architectures ( http://arxiv.org/abs/2106.15021v1 )

ライセンス: Link先を確認
Stylianos I. Venieris and Ioannis Panopoulos and Ilias Leontiadis and Iakovos S. Venieris(参考訳) ディープニューラルネットワーク(DNN)の先例のない性能は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらしている。 それでも、大きな計算コスト、複数のパフォーマンス目標、ハードウェアの不均一性、そして高い精度の必要性は、野生の様々な組み込みデバイスとモバイルデバイスをまたいだdnnのデプロイに重大な問題をもたらします。 そのため、消費者デバイスにまたがって最先端のディープラーニングアルゴリズムが主流であるのをまだ見ていない。 本稿では,効率的なAIシステムのための設計手法の配列を提示することにより,ゲーム変更の可能性に対する予備的な回答を提供する。 まず、プログラム可能なプロセッサとカスタムアクセラレータの両方を対象として、主要な障害を調べます。 次に,クロススタックアプローチによるリアルタイムパフォーマンスを実現するための多様な手法を提案する。 これらはモデル、システム、ハードウェアレベルの技術、それらの組み合わせにまたがる。 本研究は,モバイルハードウェアを過大評価しないAIシステムの実例を示すとともに,推論精度を向上させる方法を示す。 さらに,マルチDNNシステムなどの次世代AIアプリケーションにおいて,カスタムASICおよびFPGAベースのアクセラレータが実現可能な要素であることを示す。 これらの結果は、より堅牢で効率的な方法で、ディープラーニングの最新の進歩をユーザに近づけるために、さまざまなクロススタックソリューションを最もうまく組み合わせる方法に関する、さらなる調査の必要性を浮き彫りにしている。

The unprecedented performance of deep neural networks (DNNs) has led to large strides in various Artificial Intelligence (AI) inference tasks, such as object and speech recognition. Nevertheless, deploying such AI models across commodity devices faces significant challenges: large computational cost, multiple performance objectives, hardware heterogeneity and a common need for high accuracy, together pose critical problems to the deployment of DNNs across the various embedded and mobile devices in the wild. As such, we have yet to witness the mainstream usage of state-of-the-art deep learning algorithms across consumer devices. In this paper, we provide preliminary answers to this potentially game-changing question by presenting an array of design techniques for efficient AI systems. We start by examining the major roadblocks when targeting both programmable processors and custom accelerators. Then, we present diverse methods for achieving real-time performance following a cross-stack approach. These span model-, system- and hardware-level techniques, and their combination. Our findings provide illustrative examples of AI systems that do not overburden mobile hardware, while also indicating how they can improve inference accuracy. Moreover, we showcase how custom ASIC- and FPGA-based accelerators can be an enabling factor for next-generation AI applications, such as multi-DNN systems. Collectively, these results highlight the critical need for further exploration as to how the various cross-stack solutions can be best combined in order to bring the latest advances in deep learning close to users, in a robust and efficient manner.
翻訳日:2021-07-04 19:46:51 公開日:2021-06-21
# 3次元LiDARセマンティックセグメンテーションのための知覚認識型マルチセンサフュージョン

Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation ( http://arxiv.org/abs/2106.15277v1 )

ライセンス: Link先を確認
Zhuangwei Zhuang, Rong Li, Yuanqing Li, Kui Jia, Qicheng Wang, Mingkui Tan(参考訳) 3dlidar(light detection and ranging)ベースのセマンティックセグメンテーションは、自動運転やロボティクスなど、多くのアプリケーションのシーン理解において重要である。 例えば、RGBカメラとLiDARを備えた自動運転車では、さまざまなセンサーから補完情報を融合して、堅牢で正確なセグメンテーションを行うことが不可欠である。 しかし、既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない可能性がある。 本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討し,RGB画像からの外観情報と点雲からの空間深度情報という2つのモードからの知覚情報を利用する。 この目的のために、最初にカメラ座標に点雲を投影し、RGB画像の空間深度情報を提供する。 そこで本研究では,2つのモダリティから特徴を分離して抽出し,その特徴を効果的な残留型融合モジュールで融合する2ストリームネットワークを提案する。 さらに,この2つのモードの知覚的差異を計測するために,追加の知覚認識損失を提案する。 2つのベンチマークデータセットに対する大規模な実験は,本手法の優位性を示している。 例えば、nuScenesでは、PMFはmIoUで最先端の手法よりも0.8%優れています。

3D LiDAR (light detection and ranging) based semantic segmentation is important in scene understanding for many applications, such as auto-driving and robotics. For example, for autonomous cars equipped with RGB cameras and LiDAR, it is crucial to fuse complementary information from different sensors for robust and accurate segmentation. Existing fusion-based methods, however, may not achieve promising performance due to the vast difference between two modalities. In this work, we investigate a collaborative fusion scheme called perception-aware multi-sensor fusion (PMF) to exploit perceptual information from two modalities, namely, appearance information from RGB images and spatio-depth information from point clouds. To this end, we first project point clouds to the camera coordinates to provide spatio-depth information for RGB images. Then, we propose a two-stream network to extract features from the two modalities, separately, and fuse the features by effective residual-based fusion modules. Moreover, we propose additional perception-aware losses to measure the great perceptual difference between the two modalities. Extensive experiments on two benchmark data sets show the superiority of our method. For example, on nuScenes, our PMF outperforms the state-of-the-art method by 0.8% in mIoU.
翻訳日:2021-07-04 19:46:27 公開日:2021-06-21
# 定量的サセプティビリティマッピングのためのCNNにおけるパディングの改善

Improved Padding in CNNs for Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2106.15331v1 )

ライセンス: Link先を確認
Juan Liu(参考訳) 近年,背景領域の除去,フィールド・トゥ・ソース・インバージョン,単一ステップのQSM再構成など,QSMデータ処理のためのディープラーニング手法が提案されている。 しかしながら、畳み込みニューラルネットワーク(cnns)で使用される従来のパディング機構は、特にqsmバックグラウンドフィールドの削除や、関心量の境界で非常に大きな値を持つ全フィールドからの推論を必要とする1ステップのqsmにおいて、空間的アーティファクトを導入することができる。 そこで本研究では,隣接する有効ボクセルを用いて,ニューラルネットワークのボリューム境界における特徴マップの無効ボクセルを推定する改良パディング手法を提案する。 シミュレーションおよびin-vivoデータを用いた研究により,提案パディングにより推定精度が大幅に向上し,背景フィールド除去,フィールド・ソース・インバージョン,シングルステップQSM再構成といったタスクにおける成果の成果が削減された。

Recently, deep learning methods have been proposed for quantitative susceptibility mapping (QSM) data processing: background field removal, field-to-source inversion, and single-step QSM reconstruction. However, the conventional padding mechanism used in convolutional neural networks (CNNs) can introduce spatial artifacts, especially in QSM background field removal and single-step QSM which requires inference from total fields with extreme large values at the edge boundaries of volume of interest. To address this issue, we propose an improved padding technique which utilizes the neighboring valid voxels to estimate the invalid voxels of feature maps at volume boundaries in the neural networks. Studies using simulated and in-vivo data show that the proposed padding greatly improves estimation accuracy and reduces artifacts in the results in the tasks of background field removal, field-to-source inversion, and single-step QSM reconstruction.
翻訳日:2021-07-04 19:45:12 公開日:2021-06-21
# 自己認識型アンサンブル変換器:地球系モデルのためのニューラルネットワークにおけるアンサンブル相互作用の表現

Self-Attentive Ensemble Transformer: Representing Ensemble Interactions in Neural Networks for Earth System Models ( http://arxiv.org/abs/2106.13924v1 )

ライセンス: Link先を確認
Tobias Sebastian Finn(参考訳) 地球系モデルからのデータを校正し、後処理する必要がある。 ニューラルネットワークを用いた新しいメンバーバイメンバーポストプロセッシング手法を提案する。 私は、アンサンブルデータ同化と自己アテンションからアイデアをブリッジし、その結果、自己アテンション型アンサンブルトランスフォーマーとなる。 ここでは、アンサンブル部材間の相互作用を付加物および動的自己着脱部品として表現する。 概念実証として、グローバルECMWFアンサンブル予測は、ERA5の再解析から2m温度場に回帰される。 アンサンブル変換器は、アンサンブル拡散を校正し、アンサンブルから追加情報を抽出できることを実証する。 さらに、アンサンブル変換器は、多変量及び空間コヒーレントアンサンブル部材を直接出力する。 したがって、自己組織化とトランスフォーマー技術は、ニューラルネットワークによるアンサンブルデータのメンバごとの後処理に欠けている部分である。

Ensemble data from Earth system models has to be calibrated and post-processed. I propose a novel member-by-member post-processing approach with neural networks. I bridge ideas from ensemble data assimilation with self-attention, resulting into the self-attentive ensemble transformer. Here, interactions between ensemble members are represented as additive and dynamic self-attentive part. As proof-of-concept, global ECMWF ensemble forecasts are regressed to 2-metre-temperature fields from the ERA5 reanalysis. I demonstrate that the ensemble transformer can calibrate the ensemble spread and extract additional information from the ensemble. Furthermore, the ensemble transformer directly outputs multivariate and spatially-coherent ensemble members. Therefore, self-attention and the transformer technique can be a missing piece for a member-by-member post-processing of ensemble data with neural networks.
翻訳日:2021-07-04 19:44:54 公開日:2021-06-21
# boggart: モデルに依存しない取り込み処理によるレトロスペクティブビデオ分析の促進

Boggart: Accelerating Retrospective Video Analytics via Model-Agnostic Ingest Processing ( http://arxiv.org/abs/2106.15315v1 )

ライセンス: Link先を確認
Neil Agarwal, Ravi Netravali(参考訳) ビデオデータセット上での振り返りクエリへの迅速な応答は、考慮すべきフレームの数が多く、それぞれに畳み込みニューラルネットワーク(convolutional neural network:cnns)を実行するコストが高いため、難しい。 自然な解決策は、ビデオが取り込まれる前に必要な計算のサブセットを実行することである。 しかし、既存のIngest-timeシステムは、将来のクエリで使用される特定のCNNの知識を必要とする。 本稿では,モデルに依存しない方法で摂食速度を向上するリフレクションビデオ解析システムBoggartを提案する。 我々の根底にある洞察は、従来のコンピュータビジョン(CV)アルゴリズムは、幅広いCNNで多様なクエリを高速化するために使用できる計算を行うことができるということである。 そのためにboggartは、さまざまなモーショントラッキングアルゴリズムを慎重に採用して、潜在的なオブジェクトとそのフレーム間の軌跡を識別している。 そこでBogart氏は,クエリ時に,目的とする精度を満たすために必要な最小のCNN結果のサンプル収集に,(1)CV-とCNN生成出力間の不一致を効率的に検出するクラスタリング戦略,(2)各トラジェクトリに沿って標本化結果を安全に拡張するための精度保存伝搬手法のセット,という,いくつかの新しい手法を用いた。 多くのビデオ、CNN、クエリにわたって、Boggartは、CNNを使用して(フレームの3〜54%で)常に精度の目標を満たしている。

Delivering fast responses to retrospective queries on video datasets is difficult due to the large number of frames to consider and the high costs of running convolutional neural networks (CNNs) on each one. A natural solution is to perform a subset of the necessary computations ahead of time, as video is ingested. However, existing ingest-time systems require knowledge of the specific CNN that will be used in future queries -- a challenging requisite given the evergrowing space of CNN architectures and training datasets/methodologi es. This paper presents Boggart, a retrospective video analytics system that delivers ingest-time speedups in a model-agnostic manner. Our underlying insight is that traditional computer vision (CV) algorithms are capable of performing computations that can be used to accelerate diverse queries with wide-ranging CNNs. Building on this, at ingest-time, Boggart carefully employs a variety of motion tracking algorithms to identify potential objects and their trajectories across frames. Then, at query-time, Boggart uses several novel techniques to collect the smallest sample of CNN results required to meet the target accuracy: (1) a clustering strategy to efficiently unearth the inevitable discrepancies between CV- and CNN-generated outputs, and (2) a set of accuracy-preserving propagation techniques to safely extend sampled results along each trajectory. Across many videos, CNNs, and queries Boggart consistently meets accuracy targets while using CNNs sparingly (on 3-54% of frames).
翻訳日:2021-07-04 19:44:43 公開日:2021-06-21
# 長期的関連学習

Long short-term relevance learning ( http://arxiv.org/abs/2106.12694v1 )

ライセンス: Link先を確認
Bram van de Weg, Lars Greve, Bojana Rosic(参考訳) 従来の長期記憶(LSTM)ニューラルネットワークにおいて、事前知識と測定の不確実性を組み込むため、ネットワークアーキテクチャに効率的なスパースベイズ訓練アルゴリズムを導入している。 提案手法は,従来のLSTM法とは対照的に,関連する神経接続を自動的に決定し,適応する。 その柔軟性のため、新しいLSTMスキームは過度に適合する傾向が低く、したがってより小さなデータセットを用いて時間依存の解を近似することができる。 構造非線形有限要素応用において,自己制御フレームワークは適切なネットワークアーキテクチャとサイズに関する事前知識を必要とせず,合理的な計算コストで精度を満足できることを示す。

To incorporate prior knowledge as well as measurement uncertainties in the traditional long short term memory (LSTM) neural networks, an efficient sparse Bayesian training algorithm is introduced to the network architecture. The proposed scheme automatically determines relevant neural connections and adapts accordingly, in contrast to the classical LSTM solution. Due to its flexibility, the new LSTM scheme is less prone to overfitting, and hence can approximate time dependent solutions by use of a smaller data set. On a structural nonlinear finite element application we show that the self-regulating framework does not require prior knowledge of a suitable network architecture and size, while ensuring satisfying accuracy at reasonable computational cost.
翻訳日:2021-06-25 15:18:12 公開日:2021-06-21
# ユーティリティ型足場によるピアノ練習の最適化

Optimizing piano practice with a utility-based scaffold ( http://arxiv.org/abs/2106.12937v1 )

ライセンス: Link先を確認
Alexandra Moringen, S\"oren R\"uttgers, Luisa Zintgraf, Jason Friedman, Helge Ritter(参考訳) ピアノを弾くことを学ぶ典型的な部分は、手の調整、正しい姿勢、正しいタイミングといったスキルの個々の次元に焦点を当てた一連の練習単位の進行である。 理想的には、ピアノを弾くことを学ぶ学習者の進歩を最大化するために、特定の練習方法に焦点を当てるべきである。 私たちはそれぞれ異なる学習をしており、ピアノの練習タスクやメソッドには選択肢がたくさんあるので、練習タスクのセットは人間の学習者に動的に適応すべきである。 しかし、人間教師が個々の実践を指導することは、時間がかかり、費用がかかり、常に利用できるとは限らないため、必ずしも実現可能であるとは限らない。 代わりに、いわゆるプラクティスモードであるプラクティスメソッドの領域で最適化することを提案します。 提案した最適化プロセスは,学習者のスキルと学習履歴を考慮に入れたものである。 本稿では、最も期待できる実用性(すなわちピアノ演奏スキルの向上)を持つ練習モードを選択することにより、学習プロセスを通じて学習者を導くためのモデリングフレームワークを提案する。 そこで本研究では,ガウス過程に基づく人間学習者実用モデルを提案し,シミュレーション学習者の実例としてモデル学習とその実践足場への適用例を示す。

A typical part of learning to play the piano is the progression through a series of practice units that focus on individual dimensions of the skill, such as hand coordination, correct posture, or correct timing. Ideally, a focus on a particular practice method should be made in a way to maximize the learner's progress in learning to play the piano. Because we each learn differently, and because there are many choices for possible piano practice tasks and methods, the set of practice tasks should be dynamically adapted to the human learner. However, having a human teacher guide individual practice is not always feasible since it is time consuming, expensive, and not always available. Instead, we suggest to optimize in the space of practice methods, the so-called practice modes. The proposed optimization process takes into account the skills of the individual learner and their history of learning. In this work we present a modeling framework to guide the human learner through the learning process by choosing practice modes that have the highest expected utility (i.e., improvement in piano playing skill). To this end, we propose a human learner utility model based on a Gaussian process, and exemplify the model training and its application for practice scaffolding on an example of simulated human learners.
翻訳日:2021-06-25 14:59:47 公開日:2021-06-21
# 自己教師付き学習を用いたコヒーレント・超解像レーダビームフォーミング

Coherent, super resolved radar beamforming using self-supervised learning ( http://arxiv.org/abs/2106.13085v1 )

ライセンス: Link先を確認
Itai Orr, Moshik Cohen, Harel Damari, Meir Halachmi, Zeev Zalevsky(参考訳) 高解像度のレーダーセンサーは、自動運転車のニーズと規制を満たすために必要である。 しかし、現在のレーダーシステムは角分解能が限られており、技術的ギャップが生じる。 物理的なチャネルの数を増やし、システムの複雑さを高め、感度の高いキャリブレーションプロセスが必要となり、ハードウェアの故障に対する堅牢性が低下し、コストが高まることで、角分解能を改善する業界と学術のトレンド。 自己監視(r2-s2)を用いたレーダ信号再構成(radar signal reconstruction)という別の手法を提案し,物理チャネル数を増加させることなく,レーダアレイの角分解能を大幅に向上させる。 R2-S2は、複雑なレンジドップラーレーダーデータを入力として使用するディープニューラルネットワーク(DNN)を、複数のデータ表現空間で動作するロス関数を用いて自己教師付き手法で訓練したアルゴリズム群である。 晴天・雨天時の都市・高速道路環境における実際のデータセットを用いて,角分解能の4倍の改善を実証した。

High resolution automotive radar sensors are required in order to meet the high bar of autonomous vehicles needs and regulations. However, current radar systems are limited in their angular resolution causing a technological gap. An industry and academic trend to improve angular resolution by increasing the number of physical channels, also increases system complexity, requires sensitive calibration processes, lowers robustness to hardware malfunctions and drives higher costs. We offer an alternative approach, named Radar signal Reconstruction using Self Supervision (R2-S2), which significantly improves the angular resolution of a given radar array without increasing the number of physical channels. R2-S2 is a family of algorithms which use a Deep Neural Network (DNN) with complex range-Doppler radar data as input and trained in a self-supervised method using a loss function which operates in multiple data representation spaces. Improvement of 4x in angular resolution was demonstrated using a real-world dataset collected in urban and highway environments during clear and rainy weather conditions.
翻訳日:2021-06-25 14:55:43 公開日:2021-06-21
# 人工知能による次世代Bitcoin価格予測

Next-Day Bitcoin Price Forecast Based on Artificial intelligence Methods ( http://arxiv.org/abs/2106.12961v1 )

ライセンス: Link先を確認
Liping Yang(参考訳) 近年、bitcoinの価格予測は研究者や投資家の関心を惹きつけている。 しかし、これまでの研究の正確性は十分ではない。 機械学習とディープラーニングの手法はこの領域で強い予測能力があることが証明されている。 本稿では,Ensemble Empirical Mode Decomposition (EEMD) とLong Short-term memory (LSTM) というディープラーニング手法を組み合わせて,翌日のBitcoin価格予測の問題を調査する手法を提案する。

In recent years, Bitcoin price prediction has attracted the interest of researchers and investors. However, the accuracy of previous studies is not well enough. Machine learning and deep learning methods have been proved to have strong prediction ability in this area. This paper proposed a method combined with Ensemble Empirical Mode Decomposition (EEMD) and a deep learning method called long short-term memory (LSTM) to research the problem of next-day Bitcoin price forecast.
翻訳日:2021-06-25 14:52:52 公開日:2021-06-21
# 知能機械学習による支配的動的過程の客観的発見

Objective discovery of dominant dynamical processes with intelligible machine learning ( http://arxiv.org/abs/2106.12963v1 )

ライセンス: Link先を確認
Bryan E. Kaiser, Juan A. Saenz, Maike Sonnewald, and Daniel Livescu(参考訳) ビッグデータの出現は、気候科学から医学まで、自然現象の発見に大きな可能性を秘めています。 既存の理論は、しばしば簡潔にサルエント現象を記述できず、進歩は、探索を誘導し焦点を合わせるための動的レジームのアドホックな定義に大きく依存している。 本稿では,動的レジームの同定を最適化問題として定式化する形式的定義を提案し,その目的関数を提案する。 さらに,事前知識やアドホックな定義の必要性を排除した教師なし学習フレームワークを提案する。その代わりに,ユーザは適切なクラスタリングと次元削減アルゴリズムのみを選択する必要があり,この選択は,提案した目的関数を用いてガイドすることができる。 海洋力学, 腫瘍血管新生, 乱流境界層から引き出された問題を用いて, その適用性を示す。 我々の手法は、物理科学を前進させる可能性を秘め、動的システム内でセレンディピティーな発見を可能にする、偏見のないデータ探索への一歩である。

The advent of big data has vast potential for discovery in natural phenomena ranging from climate science to medicine, but overwhelming complexity stymies insight. Existing theory is often not able to succinctly describe salient phenomena, and progress has largely relied on ad hoc definitions of dynamical regimes to guide and focus exploration. We present a formal definition in which the identification of dynamical regimes is formulated as an optimization problem, and we propose an intelligible objective function. Furthermore, we propose an unsupervised learning framework which eliminates the need for a priori knowledge and ad hoc definitions; instead, the user need only choose appropriate clustering and dimensionality reduction algorithms, and this choice can be guided using our proposed objective function. We illustrate its applicability with example problems drawn from ocean dynamics, tumor angiogenesis, and turbulent boundary layers. Our method is a step towards unbiased data exploration that allows serendipitous discovery within dynamical systems, with the potential to propel the physical sciences forward.
翻訳日:2021-06-25 14:47:36 公開日:2021-06-21
# (参考訳) 深いガウスのプロセス: サーベイ [全文訳有]

Deep Gaussian Processes: A Survey ( http://arxiv.org/abs/2106.12135v1 )

ライセンス: CC0 1.0
Kalvik Jakkala(参考訳) ガウス過程はベイズ学習における主要なアプローチの一つである。 このアプローチは大きな成功を収めた多くの問題に適用されているが、いくつかの基本的な制限がある。 文学における複数の方法がこれらの制限に対処している。 しかし、現時点では、そのトピックに関する包括的な調査は行われていない。 既存の調査のほとんどは、ガウス過程とその微分の特定の変種のみに焦点を当てている。 この調査では、ガウス過程を使うためのコアモチベーション、数学的定式化、制限、そしてその制限に対処するために長年に渡り栄えてきた研究テーマについて詳述する。 さらに、特に研究分野として、深層ガウス過程(dgps)があり、過去10年間で大幅に改善されている。 この研究分野の最前線を前進させた重要な出版物を概説する。 最後に,今後の課題と研究の方向性に関する簡単な議論が最後に提示される。

Gaussian processes are one of the dominant approaches in Bayesian learning. Although the approach has been applied to numerous problems with great success, it has a few fundamental limitations. Multiple methods in literature have addressed these limitations. However, there has not been a comprehensive survey of the topics as of yet. Most existing surveys focus on only one particular variant of Gaussian processes and their derivatives. This survey details the core motivations for using Gaussian processes, their mathematical formulations, limitations, and research themes that have flourished over the years to address said limitations. Furthermore, one particular research area is Deep Gaussian Processes (DGPs), it has improved substantially in the past decade. The significant publications that advanced the forefront of this research area are outlined in their survey. Finally, a brief discussion on open problems and research directions for future work is presented at the end.
翻訳日:2021-06-25 04:02:09 公開日:2021-06-21
# (参考訳) 食生活評価のためのビジョンベースアプローチのレビュー [全文訳有]

A Review of the Vision-based Approaches for Dietary Assessment ( http://arxiv.org/abs/2106.11776v1 )

ライセンス: CC BY 4.0
Ghalib Tahir and Chu Kiong Loo(参考訳) 現代の世界では肥満などの食事関連の問題が懸念されている。 現在の傾向が続くと、肥満は高血圧、不規則な血糖値、心臓発作のリスクの増加といった他の慢性疾患と関連しているため、一般的に生活の質が著しく影響を受ける可能性が高い。 これらの問題の主な原因は、生活習慣の悪い選択と不健康な食事習慣であり、砂糖、脂肪、炭水化物など一部の食品群に重点を置いている。 この点において、コンピュータによる食品認識は、食事摂取量を評価し、人々がより健康的な選択をするのに役立つ自動視覚ベースの方法を提供する。 そこで,本論文では,食品認識のための視覚的手法について,その精度,性能,および既存のモデルを評価するための一般的な食品データベースの利用について概説する。 この作業は、この分野における今後の課題をさらに強調することを目的としている。 食品認識のための標準ベンチマークの開発と連続学習手法を用いた新しい高品質な研究が推奨されている。

Dietary-related problems such as obesity are a growing concern in todays modern world. If the current trend continues, it is most likely that the quality of life, in general, is significantly affected since obesity is associated with other chronic diseases such as hypertension, irregular blood sugar levels, and increased risk of heart attacks. The primary cause of these problems is poor lifestyle choices and unhealthy dietary habits, with emphasis on a select few food groups such as sugars, fats, and carbohydrates. In this regard, computer-based food recognition offers automatic visual-based methods to assess dietary intake and help people make healthier choices. Thus, the following paper presents a brief review of visual-based methods for food recognition, including their accuracy, performance, and the use of popular food databases to evaluate existing models. The work further aims to highlight future challenges in this area. New high-quality studies for developing standard benchmarks and using continual learning methods for food recognition are recommended.
翻訳日:2021-06-24 07:01:28 公開日:2021-06-21
# (参考訳) 深層学習への取り組み

Dive into Deep Learning ( http://arxiv.org/abs/2106.11342v1 )

ライセンス: CC BY-SA 4.0
Aston Zhang, Zachary C. Lipton, Mu Li, Alexander J. Smola(参考訳) このオープンソースの本は、ディープラーニングをアプローチ可能にし、読者にコンセプト、コンテキスト、コードを教える試みを示しています。 書籍全体はjupyter notebooksに書き込まれており、展示物や数学、インタラクティブな例を自己完結したコードにシームレスに統合している。 私たちの目標は、(i)誰もが自由に利用できるリソースを提供することです。(ii)実際に応用機械学習科学者になるための道のりの出発点を提供するのに十分な技術的深さを提供すること(iii)実際に問題を解決する方法を示す実行可能なコードを含むこと(iv)私たちとコミュニティの双方による迅速な更新を可能にすること(v)技術的な詳細を対話的に議論し、質問に答えるフォーラムによって補完されることです。

This open-source book represents our attempt to make deep learning approachable, teaching readers the concepts, the context, and the code. The entire book is drafted in Jupyter notebooks, seamlessly integrating exposition figures, math, and interactive examples with self-contained code. Our goal is to offer a resource that could (i) be freely available for everyone; (ii) offer sufficient technical depth to provide a starting point on the path to actually becoming an applied machine learning scientist; (iii) include runnable code, showing readers how to solve problems in practice; (iv) allow for rapid updates, both by us and also by the community at large; (v) be complemented by a forum for interactive discussion of technical details and to answer questions.
翻訳日:2021-06-24 06:35:45 公開日:2021-06-21
# (参考訳) 要約データセットをどの程度知っていますか? [全文訳有]

How well do you know your summarization datasets? ( http://arxiv.org/abs/2106.11388v1 )

ライセンス: CC BY 4.0
Priyam Tejaswin, Dhruv Naik, Pengfei Liu(参考訳) 最先端の要約システムは、Webから取り除かれた大量のデータセットに基づいて訓練され、評価される。 その傾向にもかかわらず、基盤となる特性(データノイズ、要約の複雑さなど)についてはほとんどわかっていません。 これらのデータセットがシステムパフォーマンスやROUGEのような自動メトリクスの信頼性にどのように影響するか。 本研究では,3つの一般的な要約データセットから600個のサンプルを手動で解析する。 本研究は,様々なノイズタイプ(事実や実体を欠く)と要約難度(抽出的,抽象的)をキャプチャする6クラス型タイポロジーによって駆動される。 私たちは27の最先端の要約モデルと5つの一般的なメトリクスを徹底的に分析し、主要な洞察を報告します。 2) モデルの性能とメトリクスの信頼性は, サンプルの複雑さに依存する。 3) 忠実な要約は,参照の多様性が乏しいため,スコアが低いことが多い。 コード、注釈付きデータ、モデル出力をリリースします。

State-of-the-art summarization systems are trained and evaluated on massive datasets scraped from the web. Despite their prevalence, we know very little about the underlying characteristics (data noise, summarization complexity, etc.) of these datasets, and how these affect system performance and the reliability of automatic metrics like ROUGE. In this study, we manually analyze 600 samples from three popular summarization datasets. Our study is driven by a six-class typology which captures different noise types (missing facts, entities) and degrees of summarization difficulty (extractive, abstractive). We follow with a thorough analysis of 27 state-of-the-art summarization models and 5 popular metrics, and report our key insights: (1) Datasets have distinct data quality and complexity distributions, which can be traced back to their collection process. (2) The performance of models and reliability of metrics is dependent on sample complexity. (3) Faithful summaries often receive low scores because of the poor diversity of references. We release the code, annotated data and model outputs.
翻訳日:2021-06-24 06:33:02 公開日:2021-06-21
# (参考訳) 中分解能衛星画像を用いたスラムマッピング:マルチスペクトルデータとグレイレベルの共起行列法の比較解析 [全文訳有]

Mapping Slums with Medium Resolution Satellite Imagery: a Comparative Analysis of Multi-Spectral Data and Grey-level Co-occurrence Matrix Techniques ( http://arxiv.org/abs/2106.11395v1 )

ライセンス: CC BY 4.0
Agatha C. H. de Mattos, Gavin McArdle, Michela Bertolotto(参考訳) 人口は世界のスラムに10億人以上いると推定されている。 しかし、スラム領域の位置を検出する最先端技術は高解像度の衛星画像を用いており、取得と処理に費用がかかる。 その結果、研究者は自由でオープンな中分解能衛星画像の利用に目を向け始めた。 しかし、これらの画像データでどのデータ準備と機械学習アプローチが最も適しているかについては、明確なコンセンサスがない。 本稿では,空間分解能10mのラベル付きSentinel-2画像からなるオープンアクセスデータセット上で,マルチスペクトルデータとグレーレベルの共起行列特徴抽出の2つの手法を評価する。 両手法を標準相関林分類器と組み合わせた。 その結果, 灰色レベルの共起行列は4都市ごとのマルチスペクトルデータよりも優れていた。 スラムクラスの平均精度は97%であり、結合点の平均交点率は94%であり、マルチスペクトルデータは75%と64%であった。 これらの結果から,10m以上の解像度を持つオープンアクセス衛星画像は,都市内のスラムの検出など開発目標の追跡に適している可能性が示唆された。

The UN-Habitat estimates that over one billion people live in slums around the world. However, state-of-the-art techniques to detect the location of slum areas employ high-resolution satellite imagery, which is costly to obtain and process. As a result, researchers have started to look at utilising free and open-access medium resolution satellite imagery. Yet, there is no clear consensus on which data preparation and machine learning approaches are the most appropriate to use with such imagery data. In this paper, we evaluate two techniques (multi-spectral data and grey-level co-occurrence matrix feature extraction) on an open-access dataset consisting of labelled Sentinel-2 images with a spatial resolution of 10 meters. Both techniques were paired with a canonical correlation forests classifier. The results show that the grey-level co-occurrence matrix performed better than multi-spectral data for all four cities. It had an average accuracy for the slum class of 97% and a mean intersection over union of 94%, while multi-spectral data had 75% and 64% for the respective metrics. These results indicate that open-access satellite imagery with a resolution of at least 10 meters may be suitable for keeping track of development goals such as the detection of slums in cities.
翻訳日:2021-06-24 06:12:53 公開日:2021-06-21
# (参考訳) proのように学ぶ: 理論から大きさへの規範 [全文訳有]

Learn Like The Pro: Norms from Theory to Size Neural Computation ( http://arxiv.org/abs/2106.11409v1 )

ライセンス: CC BY 4.0
Margaret Trautner and Ziwei Li and Sai Ravela(参考訳) ニューラルネットワークの最適設計は多くのアプリケーションにおいて重要な問題である。 本稿では, 非線形非線形性を持つ力学系が, それらをエミュレートする神経系の設計にどう影響するかを考察する。 本稿では,学習力学の近平衡挙動を定量化する学習可能性尺度とその関連特徴について述べる。 参照システムの等価パラメータ推定メトリックとニューラルネットワークの学習可能性の同等性は、ネットワーク構造の境界を確立する。 このようにして、理論からの規範は、神経構造のよい最初の推測を提供し、さらにデータに適応するかもしれない。 提案手法ではトレーニングデータもトレーニングデータも不要である。 これは、連続あるいは離散時間多項式ダイナミクスを模倣する乗算ノードを持つニューラルネットワークのクラスに対する正確なサイズを示す。 また、シミュレーションによる評価と整合する古典的なフィードフォワードネットワークに対して、比較的狭いサイズ制限を提供する。

The optimal design of neural networks is a critical problem in many applications. Here, we investigate how dynamical systems with polynomial nonlinearities can inform the design of neural systems that seek to emulate them. We propose a Learnability metric and its associated features to quantify the near-equilibrium behavior of learning dynamics. Equating the Learnability of neural systems with equivalent parameter estimation metric of the reference system establishes bounds on network structure. In this way, norms from theory provide a good first guess for neural structure, which may then further adapt with data. The proposed approach neither requires training nor training data. It reveals exact sizing for a class of neural networks with multiplicative nodes that mimic continuous- or discrete-time polynomial dynamics. It also provides relatively tight lower size bounds for classical feed-forward networks that is consistent with simulated assessments.
翻訳日:2021-06-24 06:02:37 公開日:2021-06-21
# (参考訳) 帰納的論理プログラミングを用いたモデルに基づく階層型強化学習 [全文訳有]

Interpretable Model-based Hierarchical Reinforcement Learning using Inductive Logic Programming ( http://arxiv.org/abs/2106.11417v1 )

ライセンス: CC BY 4.0
Duo Xu, Faramarz Fekri(参考訳) 近年、深層強化学習は幅広いアプリケーションで大きな成功を収めている。 しかし、データ効率と解釈性の欠如が有名である。 データ効率は環境とのインタラクションが高価であるため重要である。 さらに、解釈可能性はブラックボックススタイルの深層RLモデルの透明性を高め、ユーザからの信頼を得ることができる。 本研究では,シンボリックrlを用いた新しい階層型フレームワークを提案する。シンボリック遷移モデルを用いて,データ効率を向上させるとともに,学習方針の解釈可能性を導入する。 このフレームワークは、ハイレベルエージェント、サブタスクソルバ、シンボル遷移モデルで構成される。 状態遷移に関する事前の知識を仮定することなく、私たちはインダクティブ論理プログラミング(ILP)を採用して、シンボル状態遷移のルールを学び、解釈可能性を導入し、学習した振る舞いをユーザに理解できるようにする。 実験の結果,提案手法は従来手法に比べて約30~40\%のデータ効率が向上することを確認した。

Recently deep reinforcement learning has achieved tremendous success in wide ranges of applications. However, it notoriously lacks data-efficiency and interpretability. Data-efficiency is important as interacting with the environment is expensive. Further, interpretability can increase the transparency of the black-box-style deep RL models and hence gain trust from the users. In this work, we propose a new hierarchical framework via symbolic RL, leveraging a symbolic transition model to improve the data-efficiency and introduce the interpretability for learned policy. This framework consists of a high-level agent, a subtask solver and a symbolic transition model. Without assuming any prior knowledge on the state transition, we adopt inductive logic programming (ILP) to learn the rules of symbolic state transitions, introducing interpretability and making the learned behavior understandable to users. In empirical experiments, we confirmed that the proposed framework offers approximately between 30\% to 40\% more data efficiency over previous methods.
翻訳日:2021-06-24 05:50:53 公開日:2021-06-21
# (参考訳) 強固な強化学習のためのポリシー平滑化 [全文訳有]

Policy Smoothing for Provably Robust Reinforcement Learning ( http://arxiv.org/abs/2106.11420v1 )

ライセンス: CC BY 4.0
Aounon Kumar, Alexander Levine and Soheil Feizi(参考訳) ディープニューラルネットワーク(DNN)モデルに対する証明可能な対角ロバスト性の研究は、主に画像分類などの静的教師付き学習タスクに焦点を当てている。 しかし、DNNは強化学習(RL)のような現実世界の適応的なタスクで広く使われており、RLシステムは敵の攻撃に対して脆弱である。 敵RLの鍵となる課題は、攻撃者が以前の時間ステップでエージェントが使用する防衛戦略に適応し、将来のステップで攻撃を強化することである。 本研究では、入力のノルム有界逆摂動に対するRLの証明可能な堅牢性について検討する。 我々は,スムージングに基づく証明可能な防御に着目し,エージェントが各時間ステップでガウスノイズを観測に付加し,その入力の敵対的摂動に対する感受性を低下させる政策平滑化を提案する。 我々の主な理論的貢献は、ある時点での対向摂動が、現在の観測と過去の観測と状態の確率関数であり、また、以前に観察された行動であるナイマン・ピアソン・レムマの適応版を証明することである。 この補題を用いて,画像分類の静的設定におけるランダム化スムース化によるロバストネス証明をRLの動的設定に適用する。 我々は、平滑化ポリシーによって得られる総報酬が、入力の通常の境界付き逆摂動の下で一定の閾値を下回らないことを保証した証明書を生成する。 解析結果から得られたバウンダリを達成できる最悪のケース設定を構築することで,証明書が厳密であることを示す。 本手法は, 複雑な環境において, 敵攻撃に対する有効性を示す有意義な証明を得られることを示す。

The study of provable adversarial robustness for deep neural network (DNN) models has mainly focused on static supervised learning tasks such as image classification. However, DNNs have been used extensively in real-world adaptive tasks such as reinforcement learning (RL), making RL systems vulnerable to adversarial attacks. The key challenge in adversarial RL is that the attacker can adapt itself to the defense strategy used by the agent in previous time-steps to strengthen its attack in future steps. In this work, we study the provable robustness of RL against norm-bounded adversarial perturbations of the inputs. We focus on smoothing-based provable defenses and propose policy smoothing where the agent adds a Gaussian noise to its observation at each time-step before applying the policy network to make itself less sensitive to adversarial perturbations of its inputs. Our main theoretical contribution is to prove an adaptive version of the Neyman-Pearson Lemma where the adversarial perturbation at a particular time can be a stochastic function of current and previous observations and states as well as previously observed actions. Using this lemma, we adapt the robustness certificates produced by randomized smoothing in the static setting of image classification to the dynamic setting of RL. We generate certificates that guarantee that the total reward obtained by the smoothed policy will not fall below a certain threshold under a norm-bounded adversarial perturbation of the input. We show that our certificates are tight by constructing a worst-case setting that achieves the bounds derived in our analysis. In our experiments, we show that this method can yield meaningful certificates in complex environments demonstrating its effectiveness against adversarial attacks.
翻訳日:2021-06-24 05:32:14 公開日:2021-06-21
# (参考訳) Z2同期化のためのTAP自由エネルギーの局所凸性とAMP収束

Local convexity of the TAP free energy and AMP convergence for Z2-synchronization ( http://arxiv.org/abs/2106.11428v1 )

ライセンス: CC BY 4.0
Michael Celentano, Zhou Fan, Song Mei(参考訳) 我々は,高次元ベイズモデルのプロトタイプ例として,Z2同期化のためのTAPアプローチを用いた平均場変動ベイズ推定について検討した。 任意の信号強度$\lambda > 1$(弱回復しきい値)に対して、ベイズ後法の平均に近いタップ自由エネルギー汎関数の局所的な最小化が存在することを示す。 さらに、この最小化器の局所近傍におけるTAP自由エネルギーは強い凸である。 したがって、自然勾配/ミラー希薄アルゴリズムは、近似メッセージパッシング(amp)の有限個のイテレートによって得られる局所初期化から、この最小化への線形収束を達成することができる。 これにより、タップ自由エネルギーの最小化による高次元の変分推論の厳密な基礎が得られる。 また、AMPの有限サンプル収束を解析し、AMPは任意の$\lambda > 1$のTAP最小値において漸近的に安定であり、十分に大きな$\lambda$のスペクトル初期化からこの最小値に線型収束することを示す。 このような保証は状態進化解析によって得られる結果よりも強く、無限サンプル極限における固定数のAMP反復のみを記述する。 この証明は、kac-rice 公式と sudakov-fernique gaussian comparison inequality を組み合わせることで、局所近傍における強い凸性と安定性条件を満たす臨界点の複雑性を分析する。

We study mean-field variational Bayesian inference using the TAP approach, for Z2-synchronization as a prototypical example of a high-dimensional Bayesian model. We show that for any signal strength $\lambda > 1$ (the weak-recovery threshold), there exists a unique local minimizer of the TAP free energy functional near the mean of the Bayes posterior law. Furthermore, the TAP free energy in a local neighborhood of this minimizer is strongly convex. Consequently, a natural-gradient/mir ror-descent algorithm achieves linear convergence to this minimizer from a local initialization, which may be obtained by a finite number of iterates of Approximate Message Passing (AMP). This provides a rigorous foundation for variational inference in high dimensions via minimization of the TAP free energy. We also analyze the finite-sample convergence of AMP, showing that AMP is asymptotically stable at the TAP minimizer for any $\lambda > 1$, and is linearly convergent to this minimizer from a spectral initialization for sufficiently large $\lambda$. Such a guarantee is stronger than results obtainable by state evolution analyses, which only describe a fixed number of AMP iterations in the infinite-sample limit. Our proofs combine the Kac-Rice formula and Sudakov-Fernique Gaussian comparison inequality to analyze the complexity of critical points that satisfy strong convexity and stability conditions within their local neighborhoods.
翻訳日:2021-06-24 04:58:44 公開日:2021-06-21
# (参考訳) 後方サンプリングによるインスタンス最適圧縮センシング

Instance-Optimal Compressed Sensing via Posterior Sampling ( http://arxiv.org/abs/2106.11438v1 )

ライセンス: CC BY 4.0
Ajil Jalal and Sushrut Karmalkar and Alexandros G. Dimakis and Eric Price(参考訳) 我々は、前者の支持が空間全体である場合(例えばスパースベクトルではなく)であっても、既知の事前分布から引き出された信号の圧縮センシングの計測複雑性を特徴付ける。 ガウス計測と信号のemph{any}事前分布について,後方サンプリング推定器が最適に近い回復保証を実現することを示す。 さらに、この結果は、分布推定(例えば、可逆生成モデルからの)がワッサーシュタイン距離の真の分布に近い限り、モデルミスマッチに対して堅牢である。 本稿では,Langevin dynamics を用いた深部生成前駆体の後方サンプリング推定器を実装し,MAP よりも精度の高い推定値が得られることを実証的に見出した。

We characterize the measurement complexity of compressed sensing of signals drawn from a known prior distribution, even when the support of the prior is the entire space (rather than, say, sparse vectors). We show for Gaussian measurements and \emph{any} prior distribution on the signal, that the posterior sampling estimator achieves near-optimal recovery guarantees. Moreover, this result is robust to model mismatch, as long as the distribution estimate (e.g., from an invertible generative model) is close to the true distribution in Wasserstein distance. We implement the posterior sampling estimator for deep generative priors using Langevin dynamics, and empirically find that it produces accurate estimates with more diversity than MAP.
翻訳日:2021-06-24 04:57:17 公開日:2021-06-21
# 単語埋め込みとそれ以上の会員推論

Membership Inference on Word Embedding and Beyond ( http://arxiv.org/abs/2106.11384v1 )

ライセンス: Link先を確認
Saeed Mahloujifar, Huseyin A. Inan, Melissa Chase, Esha Ghosh, Marcello Hasegawa(参考訳) テキスト処理のコンテキストでは、ほとんどのMLモデルは単語の埋め込みに基づいている。 これらの埋め込み自身は、機密データを含む可能性のある、いくつかのデータセットでトレーニングされている。 ある場合には、このトレーニングは独立して行われ、ある場合には、より大きなタスク固有のモデルのトレーニングの一部として行われる。 いずれの場合も,センシティブな情報漏洩を理解する手段として,組込み層に基づくメンバシップ推論攻撃を検討すべきである。 しかし、少々意外なことに、単語埋め込みに対するメンバーシップ推論攻撃や、これらの埋め込みを使用する他の自然言語処理(nlp)タスクへの影響は、比較的未検討のままである。 本研究では,現実の仮定下でのブラックボックスメンバーシップ推論攻撃に対して,単語埋め込みが脆弱であることを示す。 さらに,このリークは,埋め込み層が攻撃者に露出していない場合でも,分類とテキスト生成という2つの主要なNLPアプリケーションを通して持続することを示す。 我々のMI攻撃は分類器モデルとLSTMに基づく言語モデルに対して高い攻撃精度が得られることを示す。 実際、我々の攻撃はテキスト生成モデルに対するより安価なメンバシップ推論攻撃であり、ターゲットモデルの知識やシャドーモデルとしてのテキスト生成モデルの高価なトレーニングを必要としない。

In the text processing context, most ML models are built on word embeddings. These embeddings are themselves trained on some datasets, potentially containing sensitive data. In some cases this training is done independently, in other cases, it occurs as part of training a larger, task-specific model. In either case, it is of interest to consider membership inference attacks based on the embedding layer as a way of understanding sensitive information leakage. But, somewhat surprisingly, membership inference attacks on word embeddings and their effect in other natural language processing (NLP) tasks that use these embeddings, have remained relatively unexplored. In this work, we show that word embeddings are vulnerable to black-box membership inference attacks under realistic assumptions. Furthermore, we show that this leakage persists through two other major NLP applications: classification and text-generation, even when the embedding layer is not exposed to the attacker. We show that our MI attack achieves high attack accuracy against a classifier model and an LSTM-based language model. Indeed, our attack is a cheaper membership inference attack on text-generative models, which does not require the knowledge of the target model or any expensive training of text-generative models as shadow models.
翻訳日:2021-06-23 15:17:51 公開日:2021-06-21
# 分類信頼しきい値を用いたインクリメンタル深層ニューラルネットワーク学習

Incremental Deep Neural Network Learning using Classification Confidence Thresholding ( http://arxiv.org/abs/2106.11437v1 )

ライセンス: Link先を確認
Justin Leo and Jugal Kalita(参考訳) 分類のための現代のニューラルネットワークのほとんどは、未知の概念を考慮していない。 トレーニングされたニューラルネットワークは通常、既知のクラスを閉じた例でのみ、非現実的なシナリオでテストされる。 より現実的なモデルを開発するために、オープンセット環境で働くという概念が導入された。 これは、独自のアーキテクチャと初期トレーニングされたデータセットを持つモデルがテストフェーズ中に未知のクラスを識別し、新しいクラスの証拠が検出された場合、自律的に自身を更新できるインクリメンタル学習の概念につながる。 インクリメンタル・ラーニングで発生する問題として、分類器の繰り返し再訓練におけるリソースの非効率使用や、時間とともに複数のクラスに対する分類精度の低下が挙げられる。 新しいクラスをインスタンス化するこのプロセスは、エラーを発生させるため、必要に応じて何度も繰り返される。 これらの問題に対処するため,本研究では,素数ニューラルネットワークに対する分類信頼度閾値アプローチを提案する。 リーンメソッドは、ニューラルネットワークの再トレーニングで使用されるリソースを削減するためにも使用される。 提案手法は,新しいクラスに関連する限られた数のサンプルが露出しても,ネットワークが段階的に新しいクラスを学習できる,という考え方に基づいている。 この方法は、ネットワークアーキテクチャを最小限変更することなく、既存のほとんどのニューラルネットワークに適用することができる。

Most modern neural networks for classification fail to take into account the concept of the unknown. Trained neural networks are usually tested in an unrealistic scenario with only examples from a closed set of known classes. In an attempt to develop a more realistic model, the concept of working in an open set environment has been introduced. This in turn leads to the concept of incremental learning where a model with its own architecture and initial trained set of data can identify unknown classes during the testing phase and autonomously update itself if evidence of a new class is detected. Some problems that arise in incremental learning are inefficient use of resources to retrain the classifier repeatedly and the decrease of classification accuracy as multiple classes are added over time. This process of instantiating new classes is repeated as many times as necessary, accruing errors. To address these problems, this paper proposes the Classification Confidence Threshold approach to prime neural networks for incremental learning to keep accuracies high by limiting forgetting. A lean method is also used to reduce resources used in the retraining of the neural network. The proposed method is based on the idea that a network is able to incrementally learn a new class even when exposed to a limited number samples associated with the new class. This method can be applied to most existing neural networks with minimal changes to network architecture.
翻訳日:2021-06-23 15:17:08 公開日:2021-06-21
# f-Domain-Adversarial Learning:理論とアルゴリズム

f-Domain-Adversarial Learning: Theory and Algorithms ( http://arxiv.org/abs/2106.11344v1 )

ライセンス: Link先を確認
David Acuna, Guojun Zhang, Marc T. Law, Sanja Fidler(参考訳) 教師なしドメイン適応(unsupervised domain adaptation)は、トレーニング中にモデルが対象ドメイン内のラベルなしデータと関連するラベル付きデータセットにアクセスする多くの機械学習アプリケーションで使用される。 本稿では,新規かつ汎用的なドメイン・アドバイザリ・フレームワークを提案する。 具体的には、f-divergencesの変分的特徴に基づく分布間の不一致の新しい尺度を利用する領域適応のための新しい一般化を導出する。 これはベンダビッドらの理論結果から回復する。 (2010a)は、特殊な事例であり、実際に用いられる相違を支持する。 この境界に基づいて,ganinらによる元来の敵対的訓練法において,鍵補正を導入する新しいアルゴリズムフレームワークを導出する。 (2016). このフレームワークで過去数年間に導入された多くのレギュラライザやアドホックな目的が、最先端のドメイン攻撃メソッドに匹敵するパフォーマンスを達成するために必要とされないことを示している。 実世界自然言語とコンピュータビジョンデータセットを用いた実験分析により,本フレームワークは既存のベースラインを上回っており,これまでドメイン・アドバーサル・ラーニングでは考慮されていなかったf-divergencesの最良の結果を得ることができた。

Unsupervised domain adaptation is used in many machine learning applications where, during training, a model has access to unlabeled data in the target domain, and a related labeled dataset. In this paper, we introduce a novel and general domain-adversarial framework. Specifically, we derive a novel generalization bound for domain adaptation that exploits a new measure of discrepancy between distributions based on a variational characterization of f-divergences. It recovers the theoretical results from Ben-David et al. (2010a) as a special case and supports divergences used in practice. Based on this bound, we derive a new algorithmic framework that introduces a key correction in the original adversarial training method of Ganin et al. (2016). We show that many regularizers and ad-hoc objectives introduced over the last years in this framework are then not required to achieve performance comparable to (if not better than) state-of-the-art domain-adversarial methods. Experimental analysis conducted on real-world natural language and computer vision datasets show that our framework outperforms existing baselines, and obtains the best results for f-divergences that were not considered previously in domain-adversarial learning.
翻訳日:2021-06-23 15:16:21 公開日:2021-06-21
# Photozilla:20枚の写真スタイルのための大規模写真データセットとビジュアル埋め込み

Photozilla: A Large-Scale Photography Dataset and Visual Embedding for 20 Photography Styles ( http://arxiv.org/abs/2106.11359v1 )

ライセンス: Link先を確認
Trisha Singhal, Junhua Liu, Lucienne T. M. Blessing, Kwan Hui Lim(参考訳) ソーシャルメディアプラットフォームの出現は、視覚応用のブームを巻き起こしたデジタル写真の発展の触媒となった。 このモチベーションにより、10種類の異なる写真スタイルに属する990k以上の画像を含む大規模データセット「photozilla」を導入する。 データセットは、3つの分類モデルのトレーニングに使用され、イメージを関連するスタイルに自動的に分類する。 デジタル写真が急速に進化するにつれて、新しいタイプの写真スタイルが指数関数的に登場してきた。 その上で、トレーニングされた分類モデルをベースアーキテクチャとして使用し、25のトレーニングサンプルで未知のスタイルを適応・分類する、新しいシームズベースのネットワークを提案する。 10種類の異なる写真スタイルを識別できる精度は68%以上である。 このデータセットはhttps://trisha025.gi thub.io/Photozilla/で見ることができる。

The advent of social media platforms has been a catalyst for the development of digital photography that engendered a boom in vision applications. With this motivation, we introduce a large-scale dataset termed 'Photozilla', which includes over 990k images belonging to 10 different photographic styles. The dataset is then used to train 3 classification models to automatically classify the images into the relevant style which resulted in an accuracy of ~96%. With the rapid evolution of digital photography, we have seen new types of photography styles emerging at an exponential rate. On that account, we present a novel Siamese-based network that uses the trained classification models as the base architecture to adapt and classify unseen styles with only 25 training samples. We report an accuracy of over 68% for identifying 10 other distinct types of photography styles. This dataset can be found at https://trisha025.gi thub.io/Photozilla/
翻訳日:2021-06-23 15:16:03 公開日:2021-06-21
# ニューラルネットワーク翻訳のためのフレーズレベルアクティブラーニング

Phrase-level Active Learning for Neural Machine Translation ( http://arxiv.org/abs/2106.11375v1 )

ライセンス: Link先を確認
Junjie Hu and Graham Neubig(参考訳) ニューラルネットワーク翻訳(NMT)はドメインシフトに敏感である。 本稿では、ドメイン内データの翻訳に所定の予算を費やすことができるアクティブな学習環境でこの問題に対処し、新たに翻訳されたデータに基づいて、事前学習されたドメイン外NMTモデルを徐々に微調整する。 nmtの既存のアクティブ学習方法は、不確実性スコアに基づいて文を選択するのが普通であるが、これらの方法は、文中の1つか2つのキーフレーズだけが有益である場合でも、全文のコストのかかる翻訳を必要とする。 この制限に対処するため,全文ではなく個々の句を選択したPBMT時代から,過去の研究を再検討した。 しかし、これらのフレーズを pbmt システムに組み込むのは比較的簡単であったが、nmt システムでは、新しいドメイン特有の文の構造的性質を捉えるために、完全なシーケンスで訓練する必要がある。 これらのハードルを克服するために、人間の翻訳者へのルーティングのための新しい領域において、未解読データから全文と個々の句を選択することを提案する。 ドイツ語と英語の翻訳タスクでは、アクティブラーニングアプローチは不確実性に基づく文選択法よりも一貫した改善を達成し、強力なアクティブラーニングベースラインよりも1.2 bleuスコアまで改善した。

Neural machine translation (NMT) is sensitive to domain shift. In this paper, we address this problem in an active learning setting where we can spend a given budget on translating in-domain data, and gradually fine-tune a pre-trained out-of-domain NMT model on the newly translated data. Existing active learning methods for NMT usually select sentences based on uncertainty scores, but these methods require costly translation of full sentences even when only one or two key phrases within the sentence are informative. To address this limitation, we re-examine previous work from the phrase-based machine translation (PBMT) era that selected not full sentences, but rather individual phrases. However, while incorporating these phrases into PBMT systems was relatively simple, it is less trivial for NMT systems, which need to be trained on full sequences to capture larger structural properties of sentences unique to the new domain. To overcome these hurdles, we propose to select both full sentences and individual phrases from unlabelled data in the new domain for routing to human translators. In a German-English translation task, our active learning approach achieves consistent improvements over uncertainty-based sentence selection methods, improving up to 1.2 BLEU score over strong active learning baselines.
翻訳日:2021-06-23 15:15:09 公開日:2021-06-21
# 深層強化学習のための強調アルゴリズム

Emphatic Algorithms for Deep Reinforcement Learning ( http://arxiv.org/abs/2106.11779v1 )

ライセンス: Link先を確認
Ray Jiang, Tom Zahavy, Zhongwen Xu, Adam White, Matteo Hessel, Charles Blundell, Hado van Hasselt(参考訳) オフポリシー学習は、異なる行動方針によって生み出された経験から、行動の可能なポリシーについて学ぶことができる。 時間差(td)学習アルゴリズムは、関数近似やオフポリシーサンプリングと組み合わせると不安定になる可能性がある。 強調時間差(ETD($\lambda$))アルゴリズムは、TD($\lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。 本稿では,強調的手法を深層強化学習エージェントに適用する。 本稿では,ETD($\lambda$)をフォワード・ビュー・マルチステップ・リターンを用いた一般的な強化学習アルゴリズムに適用することにより,性能が低下することを示す。 次に,このようなアルゴリズムの文脈で使用する新しい強調的アルゴリズムを導出し,td法の不安定さを強調するように設計された小さな問題に対して,それらに注目すべき利点があることを実証する。 最後に,アーケード学習環境から旧来のatariゲームに対して,これらのアルゴリズムを大規模に適用した場合の性能向上を観察した。

Off-policy learning allows us to learn about possible policies of behavior from experience generated by a different behavior policy. Temporal difference (TD) learning algorithms can become unstable when combined with function approximation and off-policy sampling - this is known as the ''deadly triad''. Emphatic temporal difference (ETD($\lambda$)) algorithm ensures convergence in the linear case by appropriately weighting the TD($\lambda$) updates. In this paper, we extend the use of emphatic methods to deep reinforcement learning agents. We show that naively adapting ETD($\lambda$) to popular deep reinforcement learning algorithms, which use forward view multi-step returns, results in poor performance. We then derive new emphatic algorithms for use in the context of such algorithms, and we demonstrate that they provide noticeable benefits in small problems designed to highlight the instability of TD methods. Finally, we observed improved performance when applying these algorithms at scale on classic Atari games from the Arcade Learning Environment.
翻訳日:2021-06-23 15:11:46 公開日:2021-06-21
# 関節移動物体検出・分割のための時空間多タスク学習変換器

Spatio-Temporal Multi-Task Learning Transformer for Joint Moving Object Detection and Segmentation ( http://arxiv.org/abs/2106.11401v1 )

ライセンス: Link先を確認
Eslam Mohamed and Ahmed El-Sallab(参考訳) 移動物体は自動運転タスクにおいて特に重要である。 移動対象の検出は、移動対象のセグメンテーションとして、移動対象のピクセルをセグメント化したり、移動対象のバウンディングボックスを生成したりすることができる。 本稿では,トランスフォーマーをベースとしたマルチタスク学習アーキテクチャを提案する。 タスクに対する動作の特徴の重要性から、全体のセットアップは時空間の時空間集約に基づいている。 我々は、初期の共有エンコーダと遅延共有エンコーダ-デコーダトランスの両方で、個々のタスクアーキテクチャとmtl設定のパフォーマンスを評価する。 後者では、共有モデルから専用のタスクを抽出できる、新しいタスククエリデコーダ変換器を提案する。 提案手法の評価には, KITTI MOD [29] データセットを用いる。 その結果、各タスクネットワーク上で1.5%のmAP改善、2%のIoU改善、移動オブジェクトセグメンテーションが得られた。

Moving objects have special importance for Autonomous Driving tasks. Detecting moving objects can be posed as Moving Object Segmentation, by segmenting the object pixels, or Moving Object Detection, by generating a bounding box for the moving targets. In this paper, we present a Multi-Task Learning architecture, based on Transformers, to jointly perform both tasks through one network. Due to the importance of the motion features to the task, the whole setup is based on a Spatio-Temporal aggregation. We evaluate the performance of the individual tasks architecture versus the MTL setup, both with early shared encoders, and late shared encoder-decoder transformers. For the latter, we present a novel joint tasks query decoder transformer, that enables us to have tasks dedicated heads out of the shared model. To evaluate our approach, we use the KITTI MOD [29] data set. Results show1.5% mAP improvement for Moving Object Detection, and 2%IoU improvement for Moving Object Segmentation, over the individual tasks networks.
翻訳日:2021-06-23 15:10:44 公開日:2021-06-21
# MODETR:トランスを用いた移動物体検出

MODETR: Moving Object Detection with Transformers ( http://arxiv.org/abs/2106.11422v1 )

ライセンス: Link先を確認
Eslam Mohamed, Ahmad El-Sallab(参考訳) 移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。 MODは通常、2ストリームの畳み込みアーキテクチャによって処理され、空間的特徴と運動的特徴の相互関係を考慮せずに外観と動きの手がかりの両方を組み込む。 本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。 本稿では,空間的および動作的モダリティを両立するマルチストリームトランスコーダからなる移動物体検出トランスフォーマーネットワークと,集合予測を用いた移動物体バウンディングボックスを生成するオブジェクトトランスフォーマーデコーダを提案する。 アーキテクチャ全体は、双方向の損失を使ってエンドツーエンドでトレーニングされる。 トランスフォーマーモデルにモーションキューを組み込む方法として,2ストリームのRGBと光フロー(OF)法,シーケンス情報を利用するマルチストリームアーキテクチャなどが検討されている。 時間情報を組み込むため,DeTRにおける空間的位置エンコーディング(SPE)を拡張するための時間的位置エンコーディング(TPE)手法を提案する。 スピードと時間のバランスをとりながら、2つのアーキテクチャ上の選択を検討します。 ネットワークを評価するために,KITTI MOD [6]データセット上でMODタスクを実行する。 以上の結果から,MOD用トランスフォーマーネットワークの5 5% mAP が得られた。 さらに、提案したTPEエンコーディングは、SPEベースラインに対して10%のmAP改善を提供する。

Moving Object Detection (MOD) is a crucial task for the Autonomous Driving pipeline. MOD is usually handled via 2-stream convolutional architectures that incorporates both appearance and motion cues, without considering the inter-relations between the spatial or motion features. In this paper, we tackle this problem through multi-head attention mechanisms, both across the spatial and motion streams. We propose MODETR; a Moving Object DEtection TRansformer network, comprised of multi-stream transformer encoders for both spatial and motion modalities, and an object transformer decoder that produces the moving objects bounding boxes using set predictions. The whole architecture is trained end-to-end using bi-partite loss. Several methods of incorporating motion cues with the Transformer model are explored, including two-stream RGB and Optical Flow (OF) methods, and multi-stream architectures that take advantage of sequence information. To incorporate the temporal information, we propose a new Temporal Positional Encoding (TPE) approach to extend the Spatial Positional Encoding(SPE) in DETR. We explore two architectural choices for that, balancing between speed and time. To evaluate the our network, we perform the MOD task on the KITTI MOD [6] data set. Results show significant 5% mAP of the Transformer network for MOD over the state-of-the art methods. Moreover, the proposed TPE encoding provides 10% mAP improvement over the SPE baseline.
翻訳日:2021-06-23 15:10:26 公開日:2021-06-21
# SurRenderソフトウェアを用いた宇宙応用のための画像シミュレーション

Image simulation for space applications with the SurRender software ( http://arxiv.org/abs/2106.11322v1 )

ライセンス: Link先を確認
J\'er\'emy Lebreton, Roland Brochard, Matthieu Baudry, Gr\'egory Jonniaux, Adrien Hadj Salah, Keyvan Kanani, Matthieu Le Goff, Aurore Masson, Nicolas Ollagnier, Paolo Panicucci, Amsha Proag, Cyril Robin(参考訳) 視覚に基づくナビゲーションのための画像処理アルゴリズムは、信頼できる画像シミュレーション能力を必要とする。 本稿では,従来のレンダリングエンジンが空間アプリケーションに不可欠な制約を提示する理由を説明する。 我々はAirbus SurRenderソフトウェアv7を紹介し、非常に強力な宇宙画像シミュレータを実現する機能の詳細を提供する。 私たちは、SurRenderがコンピュータビジョンソリューションの開発プロセスの中心にあることを示し、月や太陽系の探査から軌道上のランデブーや惑星ロボットまで、さまざまなユースケースのレンダリング画像の一連のイラストを提供している。

Image Processing algorithms for vision-based navigation require reliable image simulation capacities. In this paper we explain why traditional rendering engines may present limitations that are potentially critical for space applications. We introduce Airbus SurRender software v7 and provide details on features that make it a very powerful space image simulator. We show how SurRender is at the heart of the development processes of our computer vision solutions and we provide a series of illustrations of rendered images for various use cases ranging from Moon and Solar System exploration, to in orbit rendezvous and planetary robotics.
翻訳日:2021-06-23 15:08:05 公開日:2021-06-21
# Trinity: 複雑な空間データセットのためのノーコードAIプラットフォーム

Trinity: A No-Code AI platform for complex spatial datasets ( http://arxiv.org/abs/2106.11756v1 )

ライセンス: Link先を確認
C.V.Krishnakumar Iyer, Feili Hou, Henry Wang, Yonghong Wang, Kay Oh, Swetava Ganguli, Vipul Pandey(参考訳) 本稿では,機械学習研究者と非技術領域の専門家の両方が,さまざまな複雑な問題を解決するために,ドメイン固有の信号やデータセットを実験可能にすることを目的として,trinityと呼ばれる非コード人工知能(ai)プラットフォームを提案する。 この多様な問題を解決する汎用性は、複雑な時空間データセットを変換して、標準的なディープラーニングモデル、この場合、畳み込みニューラルネットワーク(cnns)によって利用しやすくし、標準的な方法で異なる問題を定式化する能力を与えることによって達成される。 セマンティクスのセグメンテーション。 複雑な機能エンジニアリング、ディープラーニングカーネル、スケーラブルなデータ処理メカニズムのデリバティブをホストする機能ストアである直感的なユーザインターフェースによって、Trinityは、ドメインの専門家がビジネスクリティカルな問題を解決する上で、科学者やエンジニアとステージを共有するための強力なプラットフォームを提供する。 迅速なプロトタイピングと迅速な実験を可能にし、モデルの構築とデプロイを標準化することで、生産までの時間を短縮する。 本稿では,Trinityとその設計の背景にある私たちのモチベーションとサンプルアプリケーションを展示することで,AIを用いたバーを低くするというアイデアを動機づける。

We present a no-code Artificial Intelligence (AI) platform called Trinity with the main design goal of enabling both machine learning researchers and non-technical geospatial domain experts to experiment with domain-specific signals and datasets for solving a variety of complex problems on their own. This versatility to solve diverse problems is achieved by transforming complex Spatio-temporal datasets to make them consumable by standard deep learning models, in this case, Convolutional Neural Networks (CNNs), and giving the ability to formulate disparate problems in a standard way, eg. semantic segmentation. With an intuitive user interface, a feature store that hosts derivatives of complex feature engineering, a deep learning kernel, and a scalable data processing mechanism, Trinity provides a powerful platform for domain experts to share the stage with scientists and engineers in solving business-critical problems. It enables quick prototyping, rapid experimentation and reduces the time to production by standardizing model building and deployment. In this paper, we present our motivation behind Trinity and its design along with showcasing sample applications to motivate the idea of lowering the bar to using AI.
翻訳日:2021-06-23 15:07:57 公開日:2021-06-21
# Cogment: 分散マルチアクタトレーニング、デプロイ、運用のためのオープンソースフレームワーク

Cogment: Open Source Framework For Distributed Multi-actor Training, Deployment & Operations ( http://arxiv.org/abs/2106.11345v1 )

ライセンス: Link先を確認
AI Redefined, Sai Krishna Gottipati, Sagar Kurandwad, Clod\'eric Mars, Gregory Szriftgiser and Fran\c{c}ois Chabot(参考訳) AIエージェントのトレーニングのために直接人間を巻き込むことは、強化学習と人間のループ学習のいくつかの進歩のおかげで、勢いを増している。 人間はエージェントに報酬を与えることができ、タスクを実証したり、カリキュラムを設計したり、環境の中で振る舞うことができるが、これらの利点は建築、機能設計、エンジニアリングの複雑さも伴う。 本稿では,人間同士のコラボレーションタイポロジーとトレーニングアプローチをサポートするためにアクタ形式を導入する,オープンソースのフレームワークであるcogmentを提案する。 また、分散マイクロサービスアーキテクチャのおかげで、最初からスケーラブルであり、前述の複雑さに対するソリューションを提供する。

Involving humans directly for the benefit of AI agents' training is getting traction thanks to several advances in reinforcement learning and human-in-the-loop learning. Humans can provide rewards to the agent, demonstrate tasks, design a curriculum, or act in the environment, but these benefits also come with architectural, functional design and engineering complexities. We present Cogment, a unifying open-source framework that introduces an actor formalism to support a variety of humans-agents collaboration typologies and training approaches. It is also scalable out of the box thanks to a distributed micro service architecture, and offers solutions to the aforementioned complexities.
翻訳日:2021-06-23 15:07:13 公開日:2021-06-21
# ユニバーサルlshカーネルによる効率的な推論

Efficient Inference via Universal LSH Kernel ( http://arxiv.org/abs/2106.11426v1 )

ライセンス: Link先を確認
Zichang Liu, Benjamin Coleman, Anshumali Shrivastava(参考訳) 大規模機械学習モデルは様々なタスクで前例のないパフォーマンスを達成し、go-toテクニックとして進化してきた。 しかしながら、リソース制約環境にこれらの計算およびメモリ空腹モデルをデプロイすると、新たな課題が生じる。 本研究では,単純なハッシュ計算とアグリゲーションで推論手順を近似できる数列の簡潔な集合である,数学的に証明可能なRepresenter Sketchを提案する。 Representer Sketch はカーネル文学から人気のある Representer Theorem を基礎にしており、量子化、反復的プルーニング、知識蒸留といった一般的なアプローチを超越した効率的な推論問題に対する基本的な代替手段を提供する。 ニューラルネットワーク関数はその重み付けされたカーネル密度表現に変換され、スケッチアルゴリズムで非常に効率的に推定できる。 実験により,Representer Sketchはストレージ要件の最大114倍,計算複雑性の59倍を精度の低下なく達成できることを示した。

Large machine learning models achieve unprecedented performance on various tasks and have evolved as the go-to technique. However, deploying these compute and memory hungry models on resource constraint environments poses new challenges. In this work, we propose mathematically provable Representer Sketch, a concise set of count arrays that can approximate the inference procedure with simple hashing computations and aggregations. Representer Sketch builds upon the popular Representer Theorem from kernel literature, hence the name, providing a generic fundamental alternative to the problem of efficient inference that goes beyond the popular approach such as quantization, iterative pruning and knowledge distillation. A neural network function is transformed to its weighted kernel density representation, which can be very efficiently estimated with our sketching algorithm. Empirically, we show that Representer Sketch achieves up to 114x reduction in storage requirement and 59x reduction in computation complexity without any drop in accuracy.
翻訳日:2021-06-23 15:07:02 公開日:2021-06-21
# フィードバックシェーピング:コンテンツ作成を育むためのモデリングアプローチ

Feedback Shaping: A Modeling Approach to Nurture Content Creation ( http://arxiv.org/abs/2106.11312v1 )

ライセンス: Link先を確認
Ye Tu, Chun Lo, Yiping Yuan, Shaunak Chatterjee(参考訳) ソーシャルメディアプラットフォームは、newsfeedのようなレコメンデーションシステムを通じて、コンテンツクリエーターとコンテンツ消費者をまとめる。 このようなレコメンデーションシステムの焦点は、コンテンツ消費者の好みをモデル化し、体験を最適化することにある。 しかし、高品質なコンテンツが持続的なエンゲージメントと会話のシードを形成し、既存のコンテンツを維持しながら新しい消費者を引き付けるため、クリエイターの利益を優先することでコンテンツ創造を育むことは同様に重要である。 本研究では,コンテンツ消費者からのフィードバックがクリエーターにインセンティブを与えるかを予測するためのモデリング手法を提案する。 そして、このモデルを利用して、フィードバック分布を再構築することで、コンテンツクリエーターのニュースフィード体験を最適化し、よりアクティブなコンテンツエコシステムを生み出します。 実際に、消費者とクリエーターの両方のユーザエクスペリエンスのバランスと、オンラインA/Bテストと強力なネットワーク効果のバランスについて論じる。 我々は、LinkedInのニュースフィードに展開されたユースケースを提示し、消費者の経験を損なうことなく、コンテンツ作成を大幅に改善するためにこのアプローチを使用した。

Social media platforms bring together content creators and content consumers through recommender systems like newsfeed. The focus of such recommender systems has thus far been primarily on modeling the content consumer preferences and optimizing for their experience. However, it is equally critical to nurture content creation by prioritizing the creators' interests, as quality content forms the seed for sustainable engagement and conversations, bringing in new consumers while retaining existing ones. In this work, we propose a modeling approach to predict how feedback from content consumers incentivizes creators. We then leverage this model to optimize the newsfeed experience for content creators by reshaping the feedback distribution, leading to a more active content ecosystem. Practically, we discuss how we balance the user experience for both consumers and creators, and how we carry out online A/B tests with strong network effects. We present a deployed use case on the LinkedIn newsfeed, where we used this approach to improve content creation significantly without compromising the consumers' experience.
翻訳日:2021-06-23 15:05:18 公開日:2021-06-21
# biadam: 高速適応二レベル最適化手法

BiAdam: Fast Adaptive Bilevel Optimization Methods ( http://arxiv.org/abs/2106.11396v1 )

ライセンス: Link先を確認
Feihu Huang and Heng Huang(参考訳) 双レベル最適化は最近、ハイパーパラメータ最適化やポリシー最適化といった多くの応用のために機械学習への関心が高まっている。 近年,二段階問題を解くための手法が提案されているが,適応学習率は考慮されていない。 このギャップを埋めるため,本論文では,外問題が非凸で内的問題が強凸であるような2レベル最適化問題を解くための高速かつ効果的な適応手法を提案する。 具体的には、基本運動量法に基づく高速単ループbiadamアルゴリズムを提案する。これは$\epsilon$-stationar y pointを求めるために$\tilde{o}(\epsilon^{-4})$のサンプル複雑性を達成する。 同時に,分散還元手法を用いてビアダムアルゴリズムの高速化版 (VR-BiAdam) を提案し,この手法は$\tilde{O}(\epsilon^{-3})$の最もよく知られたサンプル複雑性に到達した。 導関数を推定する際の計算をさらに削減するため、ヘッセン逆数を避けることで高速な単ループ確率近似ビアダムアルゴリズム(saBiAdam)を提案し、大きなバッチを伴わずに$\tilde{O}(\epsilon^{-4})$のサンプル複雑性を実現する。 さらに、SaBiAdamアルゴリズムの高速化版(VR-saBiAdam)を提示し、このアルゴリズムは最もよく知られたサンプルの複雑さを$\tilde{O}(\epsilon^{-3})$とする。 適応行列の統一化をsuper-adam \citep{huang2021super} として手法に適用し,様々な適応学習率について検討した。 さらに,本フレームワークでは,モーメントと分散低減手法を柔軟に利用することができる。 特に,制約付きおよび制約なしの2レベル最適化のための有用な収束解析フレームワークを提供する。 まず,適応学習率を用いた適応的二段階最適化手法について検討する。

Bilevel optimization recently has attracted increased interest in machine learning due to its many applications such as hyper-parameter optimization and policy optimization. Although some methods recently have been proposed to solve the bilevel problems, these methods do not consider using adaptive learning rates. To fill this gap, in the paper, we propose a class of fast and effective adaptive methods for solving bilevel optimization problems that the outer problem is possibly nonconvex and the inner problem is strongly-convex. Specifically, we propose a fast single-loop BiAdam algorithm based on the basic momentum technique, which achieves a sample complexity of $\tilde{O}(\epsilon^{-4})$ for finding an $\epsilon$-stationar y point. At the same time, we propose an accelerated version of BiAdam algorithm (VR-BiAdam) by using variance reduced technique, which reaches the best known sample complexity of $\tilde{O}(\epsilon^{-3})$. To further reduce computation in estimating derivatives, we propose a fast single-loop stochastic approximated BiAdam algorithm (saBiAdam) by avoiding the Hessian inverse, which still achieves a sample complexity of $\tilde{O}(\epsilon^{-4})$ without large batches. We further present an accelerated version of saBiAdam algorithm (VR-saBiAdam), which also reaches the best known sample complexity of $\tilde{O}(\epsilon^{-3})$. We apply the unified adaptive matrices to our methods as the SUPER-ADAM \citep{huang2021super}, which including many types of adaptive learning rates. Moreover, our framework can flexibly use the momentum and variance reduced techniques. In particular, we provide a useful convergence analysis framework for both the constrained and unconstrained bilevel optimization. To the best of our knowledge, we first study the adaptive bilevel optimization methods with adaptive learning rates.
翻訳日:2021-06-23 15:03:34 公開日:2021-06-21
# Encoder-Decoder Architectures for Clinically Relevant Coronary Artery Segmentation

Encoder-Decoder Architectures for Clinically Relevant Coronary Artery Segmentation ( http://arxiv.org/abs/2106.11447v1 )

ライセンス: Link先を確認
Jo\~ao Louren\c{c}o Silva, Miguel Nobre Menezes, Tiago Rodrigues, Beatriz Silva, Fausto J. Pinto, Arlindo L. Oliveira(参考訳) 冠動脈x線アンギオグラフィーは冠動脈疾患の診断と治療において重要な臨床手順であり、毎年全世界の死亡者の約16%を占めている。 しかし,これらの手法で得られた画像は解像度が低く,コントラストが低く,病変の検出や評価が困難である。 正確な冠動脈セグメンテーションはこれらの問題を緩和するだけでなく、関連する解剖学的特徴を抽出し、定量的手法によるさらなる分析を可能にする。 冠状動脈の自動分節法は以前から提案されてきたが, 従来のアプローチでは非最適分節基準を用いており, 有用性は低い。 ほとんどの方法は主要な血管のみを分割し、残りの血管から重要な情報を破棄するか、冠動脈全体をコントラスト情報に基づいて分割し、診断に関係のない血管を含むノイズを発生させる。 臨床関連性に応じて,より適合した臨床基準と分節血管を採用する。 また,カテーテル・セグメンテーションも同時に実施し,カテーテルの既知の直径のスケール因子による診断に有用であり,良好な結果が得られていない課題である。 最適アプローチを導出するために,焦点損失と一般化されたダイス損失の組み合わせを訓練したエンコーダ・デコーダアーキテクチャを広範囲に比較検討した。 efficientnet と unet++ のアーキテクチャに基づき,新しいデコーダアーキテクチャを用いた効率良く高性能なセグメンテーションモデル,動脈およびカテーテルクラスで平均 dice スコア 0.8904 と 0.7526 をそれぞれ達成した efficientunet++ と平均一般化 dice スコア 0.9234 のラインを提案する。

Coronary X-ray angiography is a crucial clinical procedure for the diagnosis and treatment of coronary artery disease, which accounts for roughly 16% of global deaths every year. However, the images acquired in these procedures have low resolution and poor contrast, making lesion detection and assessment challenging. Accurate coronary artery segmentation not only helps mitigate these problems, but also allows the extraction of relevant anatomical features for further analysis by quantitative methods. Although automated segmentation of coronary arteries has been proposed before, previous approaches have used non-optimal segmentation criteria, leading to less useful results. Most methods either segment only the major vessel, discarding important information from the remaining ones, or segment the whole coronary tree based mostly on contrast information, producing a noisy output that includes vessels that are not relevant for diagnosis. We adopt a better-suited clinical criterion and segment vessels according to their clinical relevance. Additionally, we simultaneously perform catheter segmentation, which may be useful for diagnosis due to the scale factor provided by the catheter's known diameter, and is a task that has not yet been performed with good results. To derive the optimal approach, we conducted an extensive comparative study of encoder-decoder architectures trained on a combination of focal loss and a variant of generalized dice loss. Based on the EfficientNet and the UNet++ architectures, we propose a line of efficient and high-performance segmentation models using a new decoder architecture, the EfficientUNet++, whose best-performing version achieved average dice scores of 0.8904 and 0.7526 for the artery and catheter classes, respectively, and an average generalized dice score of 0.9234.
翻訳日:2021-06-23 15:03:03 公開日:2021-06-21
# NLPにおける人種・ラシズム・反ラシズムの実態調査

A Survey of Race, Racism, and Anti-Racism in NLP ( http://arxiv.org/abs/2106.11410v1 )

ライセンス: Link先を確認
Anjalie Field, Su Lin Blodgett, Zeerak Waseem, Yulia Tsvetkov(参考訳) 人種と言語の間には厳密な結びつきがあるにもかかわらず、NLPの研究と開発において人種を考える研究はほとんどない。 本研究は,人種に言及したACLアンソロジーから79の論文を調査した。 これらの論文は、NLPモデル開発の全段階における人種関連バイアスのさまざまなタイプを明らかにし、NLPシステムが人種的階層を維持できるかを積極的に検討する必要があることを明らかにする。 しかし、人種とNLPの研究における永続的なギャップは残る: 人種はニッチなトピックとしてサイロ化され、多くのNLPタスクで無視されている; ほとんどの作業は、歴史的人種差別によって生じる違いを補強するリスクを負う、固定された単一次元変数としてレースを運用し、歴史的に疎外された人々の声は、NLP文学においてほとんど欠落している。 NLP研究の実践において、NLP文学が人種をどう、どのように考えていないか、特に関連分野と比較することで、包括的かつ人種的正義を求める。

Despite inextricable ties between race and language, little work has considered race in NLP research and development. In this work, we survey 79 papers from the ACL anthology that mention race. These papers reveal various types of race-related bias in all stages of NLP model development, highlighting the need for proactive consideration of how NLP systems can uphold racial hierarchies. However, persistent gaps in research on race and NLP remain: race has been siloed as a niche topic and remains ignored in many NLP tasks; most work operationalizes race as a fixed single-dimensional variable with a ground-truth label, which risks reinforcing differences produced by historical racism; and the voices of historically marginalized people are nearly absent in NLP literature. By identifying where and how NLP literature has and has not considered race, especially in comparison to related fields, our work calls for inclusion and racial justice in NLP research practices.
翻訳日:2021-06-23 15:01:57 公開日:2021-06-21
# オンライン競技におけるチームスキルアグリゲーションの評価

Evaluating Team Skill Aggregation in Online Competitive Games ( http://arxiv.org/abs/2106.11397v1 )

ライセンス: Link先を確認
Arman Dehpanah, Muheeb Faizan Ghori, Jonathan Gemmell, Bamshad Mobasher(参考訳) オンライン競争ゲームの主な目標の1つは、公正な試合を保証することでプレイヤーのエンゲージメントを高めることである。 これらのゲームはバランスのとれたマッチアップを作成するためにレーティングシステムを使用する。 レーティングシステムは、統計的推定を利用してプレイヤーのスキルを評価し、スキルレーティングを使用してプレイヤーのランクを予測する。 個々の選手のスキル評価は、チームのスキルレベルを計算するために集計することができる。 研究はしばしば、スキル推定の精度とマッチアップの公平性を改善することを目的としているが、チームのスキルレベルがメンバーのスキルレベルからどのように計算されるかについては、あまり注目されていない。 本稿では,2つの新しい集計法を提案し,研究文献で広く用いられている標準手法と比較する。 本稿では,これらの手法が評価システムの予測性能に与える影響を網羅的に分析する。 elo,glicko,trueskill という3つの人気評価システムを用いて,10万以上のバトルロイヤルとヘッドツーヘッドマッチを含む3つの実世界データセットで実験を行った。 評価の結果,テストケースの大部分ではMAX法が他の2手法よりも優れていることが示され,チーム全体のパフォーマンスは最も熟練したメンバーのパフォーマンスによって決定されることが示された。 本研究の結果は,スキルや戦略,目標といった選手の行動のさまざまな側面をカバーする,チームのパフォーマンスを計算するための,より精巧な手法を考案する必要性を強調した。

One of the main goals of online competitive games is increasing player engagement by ensuring fair matches. These games use rating systems for creating balanced match-ups. Rating systems leverage statistical estimation to rate players' skills and use skill ratings to predict rank before matching players. Skill ratings of individual players can be aggregated to compute the skill level of a team. While research often aims to improve the accuracy of skill estimation and fairness of match-ups, less attention has been given to how the skill level of a team is calculated from the skill level of its members. In this paper, we propose two new aggregation methods and compare them with a standard approach extensively used in the research literature. We present an exhaustive analysis of the impact of these methods on the predictive performance of rating systems. We perform our experiments using three popular rating systems, Elo, Glicko, and TrueSkill, on three real-world datasets including over 100,000 battle royale and head-to-head matches. Our evaluations show the superiority of the MAX method over the other two methods in the majority of the tested cases, implying that the overall performance of a team is best determined by the performance of its most skilled member. The results of this study highlight the necessity of devising more elaborated methods for calculating a team's performance -- methods covering different aspects of players' behavior such as skills, strategy, or goals.
翻訳日:2021-06-23 15:00:37 公開日:2021-06-21
# GAIA:あなたのニーズを満たすオブジェクト検出の伝達学習システム

GAIA: A Transfer Learning System of Object Detection that Fits Your Needs ( http://arxiv.org/abs/2106.11346v1 )

ライセンス: Link先を確認
Xingyuan Bu, Junran Peng, Junjie Yan, Tieniu Tan, Zhaoxiang Zhang(参考訳) 近年,大規模データセットの事前学習による伝達学習は,コンピュータビジョンや自然言語処理において重要な役割を担っている。 しかしながら、特定のレイテンシの制約や特殊なデータ分散など、特有の要求を持つアプリケーションシナリオが数多く存在するため、タスク毎の要求に対して大規模な事前トレーニングを利用するのは非常に高価である。 本稿では,物体検出の領域に着目し,不均一な下流ニーズに応じて,自動かつ効率的にカスタマイズされたソリューションを生成できるGAIAというトランスファー学習システムを提案する。 GAIAは、強力なトレーニング済みウェイトを提供し、レイテンシ制約や指定されたデータドメインなどの下流要求に適合するモデルを選択し、タスクにデータポイントをほとんど持たない実践者のために関連するデータを収集する。 GAIAでは、COCO、Objects365、Open Images、Caltech、CityPersons、UODBなど、KITTI、VOC、WiderFace、DOTA、Clipart、Comicなどを含むデータセットの集合体である。 COCOを例にとると、GAIAは16msから53msまでの幅広いレイテンシをカバーするモデルを効率的に生成し、笛や鐘なしでAPを38.2から46.5に生成できる。 オブジェクト検出のコミュニティのすべての実践者のために、GAIAはhttps://github.com/G AIA-vision.comでリリースされた。

Transfer learning with pre-training on large-scale datasets has played an increasingly significant role in computer vision and natural language processing recently. However, as there exist numerous application scenarios that have distinctive demands such as certain latency constraints and specialized data distributions, it is prohibitively expensive to take advantage of large-scale pre-training for per-task requirements. In this paper, we focus on the area of object detection and present a transfer learning system named GAIA, which could automatically and efficiently give birth to customized solutions according to heterogeneous downstream needs. GAIA is capable of providing powerful pre-trained weights, selecting models that conform to downstream demands such as latency constraints and specified data domains, and collecting relevant data for practitioners who have very few datapoints for their tasks. With GAIA, we achieve promising results on COCO, Objects365, Open Images, Caltech, CityPersons, and UODB which is a collection of datasets including KITTI, VOC, WiderFace, DOTA, Clipart, Comic, and more. Taking COCO as an example, GAIA is able to efficiently produce models covering a wide range of latency from 16ms to 53ms, and yields AP from 38.2 to 46.5 without whistles and bells. To benefit every practitioner in the community of object detection, GAIA is released at https://github.com/G AIA-vision.
翻訳日:2021-06-23 15:00:17 公開日:2021-06-21
# FDeblur-GAN:生成逆数ネットワークを用いた指紋のデブロリング

FDeblur-GAN: Fingerprint Deblurring using Generative Adversarial Network ( http://arxiv.org/abs/2106.11354v1 )

ライセンス: Link先を確認
Amol S. Joshi, Ali Dabouei, Jeremy Dawson, Nasser M. Nasrabadi(参考訳) 犯罪現場、モバイルカメラ、または低品質センサーから取得した指紋画像を扱う一方で、画像のぼやけや歪みのために、自動識別システムがアイデンティティを検証することが困難になる。 本稿では,cGAN(Productrative Adversarial Networks)とスタックGANのマルチステージフレームワークに基づく指紋除去モデルFDeblur-GANを提案する。 さらに、2つの補助的なサブネットワークをデブロアリングタスクのモデルに統合する。 最初のサブネットワークはリッジ抽出モデルである。 リッジマップを生成するために追加され、指紋情報とminutiaeがデブラリングプロセスに保存され、モデルが誤ったminutiaeを生成するのを防ぐ。 第2のサブネットワークは、生成プロセス中に生成元がID情報を保存するのを助ける検証器である。 ぼやけた指紋と対応するリッジマップのデータベースを使用して、ディープネットワークは入力されたぼやけたサンプルから青ざめることを学ぶ。 提案手法を2つの異なる指紋マッチングアルゴリズムと組み合わせて評価する。 指紋データベースの精度は95.18%で, 汚れた指紋と地面の真理の指紋を一致させる作業を行った。

While working with fingerprint images acquired from crime scenes, mobile cameras, or low-quality sensors, it becomes difficult for automated identification systems to verify the identity due to image blur and distortion. We propose a fingerprint deblurring model FDeblur-GAN, based on the conditional Generative Adversarial Networks (cGANs) and multi-stage framework of the stack GAN. Additionally, we integrate two auxiliary sub-networks into the model for the deblurring task. The first sub-network is a ridge extractor model. It is added to generate ridge maps to ensure that fingerprint information and minutiae are preserved in the deblurring process and prevent the model from generating erroneous minutiae. The second sub-network is a verifier that helps the generator to preserve the ID information during the generation process. Using a database of blurred fingerprints and corresponding ridge maps, the deep network learns to deblur from the input blurry samples. We evaluate the proposed method in combination with two different fingerprint matching algorithms. We achieved an accuracy of 95.18% on our fingerprint database for the task of matching deblurred and ground truth fingerprints.
翻訳日:2021-06-23 14:59:51 公開日:2021-06-21
# Twitterによる食事補助副次事象信号の検出における深層学習モデル

Deep Learning Models in Detection of Dietary Supplement Adverse Event Signals from Twitter ( http://arxiv.org/abs/2106.11403v1 )

ライセンス: Link先を確認
Yefeng Wang, Yunpeng Zhao, Jiang Bian, Rui Zhang(参考訳) 目的: 本研究の目的は,twitterから食事補助関連有害事象(ds aes)の信号を検出する深層学習パイプラインを開発することである。 資料と方法: DSとAEの両方に言及した2012年から2018年までの247,807ツイートを得た。 我々は2000のランダムに選択されたツイートに生物医学的実体と関係を注釈した。 概念抽出タスクでは,従来の単語埋め込みとSVM, CRF, LSTM-CRF分類器の性能をBERTモデルと比較した。 関係抽出タスクでは,GloVeベクトルとCNN分類器をBERTモデルと比較した。 我々は、DS AE信号を検出するためにエンドツーエンドのディープラーニングパイプラインを組み立て、DSナレッジベース(iDISK)から既知のDS AEと比較するために、各タスクで最高のパフォーマンスモデルを選択した。 結果: どちらのタスクでも、BERTベースのモデルは従来の単語埋め込みよりも優れていた。 最も優れた概念抽出モデルはBioBERTモデルであり、それぞれ0.8646、0.8497、0.7104のF1スコアを持つサプリメント、症状、身体器官の実体を識別できる。 最高のパフォーマンス関係抽出モデルは、目的とAEの関係をそれぞれ0.8335と0.7538のF1スコアで識別できるBERTモデルである。 エンドツーエンドパイプラインは、それぞれ0.7459と0,7414のF1スコアでDS表示とDS AEを抽出することができた。 iDISKと比較して、既知のDS-AEと新しいDS-AEの両方を見つけることができた。 結論:BioBERTベースのディープラーニングパイプラインを用いて,TwitterからDS AE信号を検出する可能性を実証した。

Objective: The objective of this study is to develop a deep learning pipeline to detect signals on dietary supplement-related adverse events (DS AEs) from Twitter. Material and Methods: We obtained 247,807 tweets ranging from 2012 to 2018 that mentioned both DS and AE. We annotated biomedical entities and relations on 2,000 randomly selected tweets. For the concept extraction task, we compared the performance of traditional word embeddings with SVM, CRF and LSTM-CRF classifiers to BERT models. For the relation extraction task, we compared GloVe vectors with CNN classifiers to BERT models. We chose the best performing models in each task to assemble an end-to-end deep learning pipeline to detect DS AE signals and compared the results to the known DS AEs from a DS knowledge base (i.e., iDISK). Results: In both tasks, the BERT-based models outperformed traditional word embeddings. The best performing concept extraction model is the BioBERT model that can identify supplement, symptom, and body organ entities with F1-scores of 0.8646, 0.8497, and 0.7104, respectively. The best performing relation extraction model is the BERT model that can identify purpose and AE relations with F1-scores of 0.8335 and 0.7538, respectively. The end-to-end pipeline was able to extract DS indication and DS AEs with an F1-score of 0.7459 and 0,7414, respectively. Comparing to the iDISK, we could find both known and novel DS-AEs. Conclusion: We have demonstrated the feasibility of detecting DS AE signals from Twitter with a BioBERT-based deep learning pipeline.
翻訳日:2021-06-23 14:52:19 公開日:2021-06-21
# hi-behrt:マルチモーダル縦型電子健康記録による臨床事象の正確な予測のための階層的トランスフォーマーモデル

Hi-BEHRT: Hierarchical Transformer-based model for accurate prediction of clinical events using multimodal longitudinal electronic health records ( http://arxiv.org/abs/2106.11360v1 )

ライセンス: Link先を確認
Yikuan Li, Mohammad Mamouei, Gholamreza Salimi-Khorshidi, Shishir Rao, Abdelaali Hassaine, Dexter Canoy, Thomas Lukasiewicz, and Kazem Rahimi(参考訳) 電子健康記録は患者の軌跡の全体像を示している。 その可用性の向上は、それらを活用し、幅広い病気の正確なリスク予測モデルを開発するという、新たな期待を喚起している。 医療記録と患者の成果の複雑な相互関係を考えると、ディープラーニングモデルは、この目標を達成するための明確なメリットを示している。 しかし、これらのモデルの鍵となる制限は長いシーケンスを処理する能力である。 医学的遭遇の歴史全体を捉えることは、より正確な予測につながると期待されているが、何十年もの間収集され、複数のリソースから収集された記録は、必然的に既存のディープラーニングアーキテクチャの受容領域を超える可能性がある。 これにより、重要な長期的な依存関係が失われる可能性がある。 このギャップに対処するため,階層型トランスフォーマーベースモデルであるHi-BEHRTを提案する。 Hi-BEHRTは、マルチモーダルな大規模リンク型電子健康記録を用いて、5年間の心不全、糖尿病、慢性腎臓病、脳卒中リスク予測において、最先端のBEHRT 1%から5%、レシーバー操作特性(AUROC)曲線下の領域では3%から6%、精度リコール(AUPRC)曲線下の領域では3%から6%(AUROC)および3%から11%(AUPRC)を超える。 また,階層型トランスフォーマーの事前トレーニングは十分に確立されていないため,EHRを用いたHi-BEHRTの効果的なエンドツーエンドコントラスト事前トレーニング戦略を提供し,比較的少ないトレーニングデータセットによる臨床イベントの予測における転送性を向上させる。

Electronic health records represent a holistic overview of patients' trajectories. Their increasing availability has fueled new hopes to leverage them and develop accurate risk prediction models for a wide range of diseases. Given the complex interrelationships of medical records and patient outcomes, deep learning models have shown clear merits in achieving this goal. However, a key limitation of these models remains their capacity in processing long sequences. Capturing the whole history of medical encounters is expected to lead to more accurate predictions, but the inclusion of records collected for decades and from multiple resources can inevitably exceed the receptive field of the existing deep learning architectures. This can result in missing crucial, long-term dependencies. To address this gap, we present Hi-BEHRT, a hierarchical Transformer-based model that can significantly expand the receptive field of Transformers and extract associations from much longer sequences. Using a multimodal large-scale linked longitudinal electronic health records, the Hi-BEHRT exceeds the state-of-the-art BEHRT 1% to 5% for area under the receiver operating characteristic (AUROC) curve and 3% to 6% for area under the precision recall (AUPRC) curve on average, and 3% to 6% (AUROC) and 3% to 11% (AUPRC) for patients with long medical history for 5-year heart failure, diabetes, chronic kidney disease, and stroke risk prediction. Additionally, because pretraining for hierarchical Transformer is not well-established, we provide an effective end-to-end contrastive pre-training strategy for Hi-BEHRT using EHR, improving its transferability on predicting clinical events with relatively small training dataset.
翻訳日:2021-06-23 14:51:37 公開日:2021-06-21
# ConvDySAT: 自己注意と畳み込みニューラルネットワークによる動的グラフによるディープニューラル表現学習

ConvDySAT: Deep Neural Representation Learning on Dynamic Graphs via Self-Attention and Convolutional Neural Networks ( http://arxiv.org/abs/2106.11430v1 )

ライセンス: Link先を確認
Ahmad Hafez, Atulya Praphul, Yousef Jaradt, Ezani Godwin(参考訳) 時間グラフでのノード表現の学習は、実単語の動的グラフを効率的に学習するための基本的なステップである。 実世界のグラフは、エッジの重みの変更、ノードの削除と追加、エッジの出現と消失など、時間とともに継続的に進化する性質を持ち、従来のグラフ表現学習手法は一般的に静的グラフに焦点を当てていた。 本稿では,DySATにおける構造的・時間的進化を表現する手法である自己認識機構を用いた畳み込みニューラルネットワークの強化により,最先端の動的手法の一つであるDySATの強化としてConvDySATを提案する。 本研究では,通信ネットワークとレーティングネットワークの単一ステップリンク予測を行い,様々な手法によるConvDySATの性能向上を示す実験結果を得た。

Learning node representations on temporal graphs is a fundamental step to learn real-word dynamic graphs efficiently. Real-world graphs have the nature of continuously evolving over time, such as changing edges weights, removing and adding nodes and appearing and disappearing of edges, while previous graph representation learning methods focused generally on static graphs. We present ConvDySAT as an enhancement of DySAT, one of the state-of-the-art dynamic methods, by augmenting convolution neural networks with the self-attention mechanism, the employed method in DySAT to express the structural and temporal evolution. We conducted single-step link prediction on a communication network and rating network, Experimental results show significant performance gains for ConvDySAT over various state-of-the-art methods.
翻訳日:2021-06-23 14:51:03 公開日:2021-06-21
# 透明性のためのチューリングテスト

A Turing Test for Transparency ( http://arxiv.org/abs/2106.11394v1 )

ライセンス: Link先を確認
Felix Biessmann and Viktor Treu(参考訳) 説明可能な人工知能(XAI)の中心的な目標は、人間とAIのインタラクションにおける信頼関係を改善することである。 例えば、人間が間違った予測をより効率的に特定できるようにすることで、説明が機械学習(ML)モデルの予測をより正確に評価するのに役立つという仮説がある。 しかし、最近の実証的な証拠は、説明が反対の効果を持つことを示している: ML予測の説明を提示する場合、人間がML予測を信頼する傾向がしばしばある。 実験的な証拠は、この効果がいかに直感的、あるいは人間、AIや説明が現れるかに起因することを示唆している。 この効果はXAIの目的に挑戦し、透明なAI手法の責任ある使用には、人間が人間の説明から生成された機械を区別する能力を考慮する必要があることを示唆している。 本稿では、チューリングの模倣ゲームであるTuring Test for Transparencyに基づくXAI手法の定量化について述べる。 人間の尋問者は、説明が人間によるものなのか、またはxai方式なのかを判断する。 この二項分類タスクにおいて、人間によって検出できないXAI手法の説明は、試験に合格している。 このような説明を検出することは、人間とAIの相互作用における信頼関係の評価と校正の要件である。 我々は,基本MLモデルやXAIアプローチであっても,ほとんどの参加者が機械による説明と人間を区別することができないことを示す,クラウドソーステキスト分類タスクの実験結果を示した。 透明MLの応用における結果の倫理的・実践的意義について論じる。

A central goal of explainable artificial intelligence (XAI) is to improve the trust relationship in human-AI interaction. One assumption underlying research in transparent AI systems is that explanations help to better assess predictions of machine learning (ML) models, for instance by enabling humans to identify wrong predictions more efficiently. Recent empirical evidence however shows that explanations can have the opposite effect: When presenting explanations of ML predictions humans often tend to trust ML predictions even when these are wrong. Experimental evidence suggests that this effect can be attributed to how intuitive, or human, an AI or explanation appears. This effect challenges the very goal of XAI and implies that responsible usage of transparent AI methods has to consider the ability of humans to distinguish machine generated from human explanations. Here we propose a quantitative metric for XAI methods based on Turing's imitation game, a Turing Test for Transparency. A human interrogator is asked to judge whether an explanation was generated by a human or by an XAI method. Explanations of XAI methods that can not be detected by humans above chance performance in this binary classification task are passing the test. Detecting such explanations is a requirement for assessing and calibrating the trust relationship in human-AI interaction. We present experimental results on a crowd-sourced text classification task demonstrating that even for basic ML models and XAI approaches most participants were not able to differentiate human from machine generated explanations. We discuss ethical and practical implications of our results for applications of transparent ML.
翻訳日:2021-06-23 14:47:42 公開日:2021-06-21
# ロバストで異種なオッズ比:未処理品の価格感度の推定

Robust and Heterogenous Odds Ratio: Estimating Price Sensitivity for Unbought Items ( http://arxiv.org/abs/2106.11389v1 )

ライセンス: Link先を確認
Jean Pauphilet(参考訳) 問題定義: 介入に対する不均一な応答のマイニングは、例えば治療や価格のパーソナライズなど、データ駆動操作において重要なステップである。 トランザクションレベルのデータから価格感度を推定する方法を検討する。 因果推論の用語では, (a) 処理に対する応答(商品を購入するかどうか)が二元的であり, (b) 処理課題が部分的に観察されている場合(また, 購入品についてのみ全情報が利用できる場合)に不均一な処理効果を推定する。 方法と結果: 医学・社会科学における治療効果の尺度である異種オッズ比を推定するための再帰的パーティショニング手法を提案する。 我々は,部分的に観察された治療課題があっても頑健な推論を可能にするために,対向的計算ステップを統合した。 我々は,合成データに関する方法論を検証し,政治学,医学,収益管理の3つのケーススタディに適用する。 管理的意味:我々の頑健な異種確率比推定方法は、患者や顧客の不均一性を定量化し、介入をパーソナライズするためのシンプルで直感的なツールであり、多くの収益管理データに中心的な制限を課す。

Problem definition: Mining for heterogeneous responses to an intervention is a crucial step for data-driven operations, for instance to personalize treatment or pricing. We investigate how to estimate price sensitivity from transaction-level data. In causal inference terms, we estimate heterogeneous treatment effects when (a) the response to treatment (here, whether a customer buys a product) is binary, and (b) treatment assignments are partially observed (here, full information is only available for purchased items). Methodology/Results: We propose a recursive partitioning procedure to estimate heterogeneous odds ratio, a widely used measure of treatment effect in medicine and social sciences. We integrate an adversarial imputation step to allow for robust inference even in presence of partially observed treatment assignments. We validate our methodology on synthetic data and apply it to three case studies from political science, medicine, and revenue management. Managerial Implications: Our robust heterogeneous odds ratio estimation method is a simple and intuitive tool to quantify heterogeneity in patients or customers and personalize interventions, while lifting a central limitation in many revenue management data.
翻訳日:2021-06-23 14:47:17 公開日:2021-06-21
# 腹部ct画像からの肝・病変分画に対するコンテキストアウェアポリアンネット

Context-aware PolyUNet for Liver and Lesion Segmentation from Abdominal CT Images ( http://arxiv.org/abs/2106.11330v1 )

ライセンス: Link先を確認
Liping Zhang and Simon Chun-Ho Yu(参考訳) 肝腫瘍疾患の診断・評価を補助するために,ct画像からの肝・病変の正確な分割が臨床において非常に要求される。 しかし,造影CTボリュームからの自動肝・病変分画は,画像のコントラスト,解像度,品質の多様性のために極めて困難である。 従来の2dスライス・バイ・スライスまたは3dボリューム・バイ・ボリュームセグメンテーションのためのunetベースの方法は、十分な空間的コンテキストを持たないか、高いgpu計算コストに苦しむかのいずれかであり、性能に制限がある。 これらの課題に対処するために,肝と病変の正確なセグメンテーションのための新しい文脈対応PolyUNetを提案する。 構造的多様性と連続するt-adjacentスライスを共同研究し、gpuメモリ消費の過負荷を回避しつつ、特徴表現力と空間的コンテキスト情報を高める。 さらに,ズームアウト・インと2段階のリファインメント戦略を用いて,無関係なコンテキストを除外し,細粒度セグメント化のための特定領域に着目した。 MICCAI 2017 Liver tumor Segmentation (LiTS) Challengeでは,1つのモデルを用いた全てのタスクにおいて,肝セグメンテーション,病変のセグメンテーション,病変検出,腫瘍の重み付けをそれぞれ3〜3ドル,12~3ドル,2~2ドル,5~3ドルと非常に競争力のある成績を収めた。

Accurate liver and lesion segmentation from computed tomography (CT) images are highly demanded in clinical practice for assisting the diagnosis and assessment of hepatic tumor disease. However, automatic liver and lesion segmentation from contrast-enhanced CT volumes is extremely challenging due to the diversity in contrast, resolution, and quality of images. Previous methods based on UNet for 2D slice-by-slice or 3D volume-by-volume segmentation either lack sufficient spatial contexts or suffer from high GPU computational cost, which limits the performance. To tackle these issues, we propose a novel context-aware PolyUNet for accurate liver and lesion segmentation. It jointly explores structural diversity and consecutive t-adjacent slices to enrich feature expressive power and spatial contextual information while avoiding the overload of GPU memory consumption. In addition, we utilize zoom out/in and two-stage refinement strategy to exclude the irrelevant contexts and focus on the specific region for the fine-grained segmentation. Our method achieved very competitive performance at the MICCAI 2017 Liver Tumor Segmentation (LiTS) Challenge among all tasks with a single model and ranked the $3^{rd}$, $12^{th}$, $2^{nd}$, and $5^{th}$ places in the liver segmentation, lesion segmentation, lesion detection, and tumor burden estimation, respectively.
翻訳日:2021-06-23 14:46:51 公開日:2021-06-21
# BEyond Observation: ObjectNavのアプローチ

BEyond observation: an approach for ObjectNav ( http://arxiv.org/abs/2106.11379v1 )

ライセンス: Link先を確認
Daniel V. Ruiz, Eduardo Todt(参考訳) 自動化の台頭とともに、無人車両は商業製品や科学研究のトピックとしてホットな話題となった。 組み込みシステム、制御理論、経路計画、同時ローカライゼーションとマッピング(slam)、シーン再構成、パターン認識を包含する多分野のロボット工学分野を構成する。 本研究では,センサデータ融合と最先端機械学習アルゴリズムが,ビジュアルセマンティックナビゲーション(Visual Semantic Navigation)と呼ばれるEmbodied Artificial Intelligence(E-AI)タスクをどのように実行できるかを探索する。 このタスク、すなわちobject-goal navigation(objectnav )は、エゴセントリックな視覚観察を使用して、環境を事前に知らずにターゲットセマンティクスクラスに属するオブジェクトに到達する自律的なナビゲーションで構成される。 提案手法は,ミニバル相とテストスタンダード相のHabitat Challenge 2021 ObjectNavで4位に達した。

With the rise of automation, unmanned vehicles became a hot topic both as commercial products and as a scientific research topic. It composes a multi-disciplinary field of robotics that encompasses embedded systems, control theory, path planning, Simultaneous Localization and Mapping (SLAM), scene reconstruction, and pattern recognition. In this work, we present our exploratory research of how sensor data fusion and state-of-the-art machine learning algorithms can perform the Embodied Artificial Intelligence (E-AI) task called Visual Semantic Navigation. This task, a.k.a Object-Goal Navigation (ObjectNav) consists of autonomous navigation using egocentric visual observations to reach an object belonging to the target semantic class without prior knowledge of the environment. Our method reached fourth place on the Habitat Challenge 2021 ObjectNav on the Minival phase and the Test-Standard Phase.
翻訳日:2021-06-23 14:46:14 公開日:2021-06-21
# スタイルGANと知覚微細化を用いた正規化アバター合成

Normalized Avatar Synthesis Using StyleGAN and Perceptual Refinement ( http://arxiv.org/abs/2106.11423v1 )

ライセンス: Link先を確認
Huiwen Luo, Koki Nagano, Han-Wei Kung, Mclean Goldwhite, Qingguo Xu, Zejian Wang, Lingyu Wei, Liwen Hu, Hao Li(参考訳) 我々は,1枚の制約のない写真から人物の正規化された3Dアバターをデジタル化する,非常に堅牢なGANベースのフレームワークを提案する。 入力画像は笑顔でもよいし、極端な照明条件下でも撮影できるが、この方法では、中性表現における人の顔の質の高いテクスチャモデルと、拡散照明条件下での皮膚テクスチャを確実に生成することができる。 カットエッジ3D顔再構成法は、GANベースのデコーダと組み合わされた非線形の変形可能な顔モデルを用いて、人の類似性と詳細を捉えるが、仮想環境との統合のために、面白くアニメーションフレンドリーなアバターを作成するのに欠かせないアルベドテクスチャを持つ中立な頭部モデルを生成する。 既存の方法の課題は、トレーニングの欠如と、正規化された3D顔を含む真実データである。 この問題に対する二段階アプローチを提案する。 まず, 非線形形状の顔モデルをStyleGAN2ネットワークに埋め込むことにより, 高度に頑健な3次元顔生成を実現する。 これにより、詳細な顔のアセットを生成できます。 この推論に続いて、生成された資産を正規化として使用し、正規化された顔の限られた訓練サンプルに対処する知覚的洗練ステップが続く。 さらに,光度計と慎重に選択された写真を組み合わせた正規化顔データセットを導入し,拡散照明条件下で中性表現を持つ偽人物を生成する。 提案したデータセットは,最先端のGANベースの3次元顔再構成法よりも2桁少ない被写体を含むが,非常に困難な入力画像に対して高品質な正規化顔モデルを作成することが可能であり,現状よりも優れた性能を示すことができる。

We introduce a highly robust GAN-based framework for digitizing a normalized 3D avatar of a person from a single unconstrained photo. While the input image can be of a smiling person or taken in extreme lighting conditions, our method can reliably produce a high-quality textured model of a person's face in neutral expression and skin textures under diffuse lighting condition. Cutting-edge 3D face reconstruction methods use non-linear morphable face models combined with GAN-based decoders to capture the likeness and details of a person but fail to produce neutral head models with unshaded albedo textures which is critical for creating relightable and animation-friendly avatars for integration in virtual environments. The key challenges for existing methods to work is the lack of training and ground truth data containing normalized 3D faces. We propose a two-stage approach to address this problem. First, we adopt a highly robust normalized 3D face generator by embedding a non-linear morphable face model into a StyleGAN2 network. This allows us to generate detailed but normalized facial assets. This inference is then followed by a perceptual refinement step that uses the generated assets as regularization to cope with the limited available training samples of normalized faces. We further introduce a Normalized Face Dataset, which consists of a combination photogrammetry scans, carefully selected photographs, and generated fake people with neutral expressions in diffuse lighting conditions. While our prepared dataset contains two orders of magnitude less subjects than cutting edge GAN-based 3D facial reconstruction methods, we show that it is possible to produce high-quality normalized face models for very challenging unconstrained input images, and demonstrate superior performance to the current state-of-the-art.
翻訳日:2021-06-23 14:46:00 公開日:2021-06-21
# 音声イベント表現は他の音声タスクに一般化するのか? 音声伝達学習における事例研究

Do sound event representations generalize to other audio tasks? A case study in audio transfer learning ( http://arxiv.org/abs/2106.11335v1 )

ライセンス: Link先を確認
Anurag Kumar, Yun Wang, Vamsi Krishna Ithapu, Christian Fuegen(参考訳) 転送学習は、複数の関連する学習問題を横断する効率的な情報伝達に不可欠である。 シンプルで効果的なトランスファーラーニングアプローチは、機能抽出のために大規模タスクでトレーニングされたディープニューラルネットワークを利用する。 このような表現は、下流のタスクを学習するために使われる。 本稿では,大規模音響イベント検出データセット上で学習したニューラルネットワークから得られた音声表現の転送学習能力について検討する。 我々は,これらの表現を,単純な線形分類器転送機構を用いて,他の幅広い音声タスクに対して構築し,評価する。 このような単純な線形転送は、下流タスクで高い性能を達成するのに十分強力であることを示す。 また、このような効率的な情報伝達を可能にする音響イベント表現の属性に関する洞察を提供する。

Transfer learning is critical for efficient information transfer across multiple related learning problems. A simple, yet effective transfer learning approach utilizes deep neural networks trained on a large-scale task for feature extraction. Such representations are then used to learn related downstream tasks. In this paper, we investigate transfer learning capacity of audio representations obtained from neural networks trained on a large-scale sound event detection dataset. We build and evaluate these representations across a wide range of other audio tasks, via a simple linear classifier transfer mechanism. We show that such simple linear transfer is already powerful enough to achieve high performance on the downstream tasks. We also provide insights into the attributes of sound event representations that enable such efficient information transfer.
翻訳日:2021-06-23 14:44:28 公開日:2021-06-21
# コミュニケーションによる分散ヒューリスティックなマルチエージェントパス探索

Distributed Heuristic Multi-Agent Path Finding with Communication ( http://arxiv.org/abs/2106.11365v1 )

ライセンス: Link先を確認
Ziyuan Ma, Yudong Luo, Hang Ma(参考訳) 大規模ロボットシステムにはMAPF(Multi-Agent Path Finding)が不可欠である。 近年,部分観測可能な環境下での分散警察の学習に強化学習(RL)を適用している。 衝突のない政策を得るための根本的な課題は、エージェントが混雑した状況に対処するために協力を学ぶ必要があることである。 本稿では, エージェントがグラフ畳み込みによって協調するMAPFのための新しい学習手法を提供するために, 深層Q-ラーニングとコミュニケーションを組み合わせる。 長期的目標指向タスクにおいてRLアルゴリズムを導くため,既存の作業のように特定の経路を使用するのではなく,単一ソースからの最短経路の選択をヒューリスティックなガイダンスとして組み込む。 本手法は,各エージェントを独立に扱い,単一エージェントの観点からモデルを訓練する。 最終訓練されたポリシーは、分散実行のために各エージェントに適用される。 システム全体がトレーニング中に分散し、カリキュラム学習戦略の下でトレーニングされる。 障害物の多い環境における経験的評価は, 平均ステップが低く, 高い成功率を示す。

Multi-Agent Path Finding (MAPF) is essential to large-scale robotic systems. Recent methods have applied reinforcement learning (RL) to learn decentralized polices in partially observable environments. A fundamental challenge of obtaining collision-free policy is that agents need to learn cooperation to handle congested situations. This paper combines communication with deep Q-learning to provide a novel learning based method for MAPF, where agents achieve cooperation via graph convolution. To guide RL algorithm on long-horizon goal-oriented tasks, we embed the potential choices of shortest paths from single source as heuristic guidance instead of using a specific path as in most existing works. Our method treats each agent independently and trains the model from a single agent's perspective. The final trained policy is applied to each agent for decentralized execution. The whole system is distributed during training and is trained under a curriculum learning strategy. Empirical evaluation in obstacle-rich environment indicates the high success rate with low average step of our method.
翻訳日:2021-06-23 14:44:21 公開日:2021-06-21
# サンプルの硬さ - サンプルの硬さを使ってディープラーニングモデルを保護する-

Hardness of Samples Is All You Need: Protecting Deep Learning Models Using Hardness of Samples ( http://arxiv.org/abs/2106.11424v1 )

ライセンス: Link先を確認
Amir Mahdi Sadeghzadeh, Faezeh Dehghan, Amir Mohammad Sobhanian, and Rasool Jalili(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)ベースの分類器がモデル抽出攻撃に対して脆弱であることが示されている。 モデル抽出攻撃において、敵はターゲット分類器を利用して、いくつかの基準に関してターゲット分類器を模倣する代理分類器を作成する。 本稿では,試料の硬さ度を調査し,モデル抽出攻撃試料の硬さ度ヒストグラムと正常試料の硬さ度ヒストグラムとを区別できることを示す。 通常のサンプルは、ターゲット分類器のトレーニングデータ分布から来る。 DNNに基づく分類器の訓練プロセスはいくつかのエポックで行われているので、この過程をサブクラス化器のシーケンスと見なすことができ、各サブクラス化器はエポックの最後に生成される。 サンプルの硬度度を計算するためにサブ分類器のシーケンスを用いる。 サンプルの硬度度と分類器出力の信頼度の関係について検討する。 本稿では,モデル抽出攻撃のサンプルシーケンスを検出するために,Hardness-Oriented Detection Approach (HODA)を提案する。 その結果, HODAは, 100個の攻撃サンプルを見るだけで, モデル抽出攻撃のサンプルシーケンスを高い成功率で検出できることがわかった。 また, 対向例の硬度度を調べた結果, 対向例の硬度ヒストグラムが正常試料の硬度ヒストグラムとは異なることが明らかとなった。

Several recent studies have shown that Deep Neural Network (DNN)-based classifiers are vulnerable against model extraction attacks. In model extraction attacks, an adversary exploits the target classifier to create a surrogate classifier imitating the target classifier with respect to some criteria. In this paper, we investigate the hardness degree of samples and demonstrate that the hardness degree histogram of model extraction attacks samples is distinguishable from the hardness degree histogram of normal samples. Normal samples come from the target classifier's training data distribution. As the training process of DNN-based classifiers is done in several epochs, we can consider this process as a sequence of subclassifiers so that each subclassifier is created at the end of an epoch. We use the sequence of subclassifiers to calculate the hardness degree of samples. We investigate the relation between hardness degree of samples and the trust in the classifier outputs. We propose Hardness-Oriented Detection Approach (HODA) to detect the sample sequences of model extraction attacks. The results demonstrate that HODA can detect the sample sequences of model extraction attacks with a high success rate by only watching 100 attack samples. We also investigate the hardness degree of adversarial examples and indicate that the hardness degree histogram of adversarial examples is distinct from the hardness degree histogram of normal samples.
翻訳日:2021-06-23 14:43:43 公開日:2021-06-21
# レドックスフロー電池のパラメータ推定のための物理制約深部ニューラルネットワーク法

Physics-constrained deep neural network method for estimating parameters in a redox flow battery ( http://arxiv.org/abs/2106.11451v1 )

ライセンス: Link先を確認
QiZhi He, Panos Stinis, Alexandre Tartakovsky(参考訳) 本稿では,vanadium redox flow battery (vrfb) のゼロ次元(0d)モデルにおけるパラメータ推定のための物理制約付き深層ニューラルネットワーク (pcdnn) 法を提案する。 このアプローチでは,モデルパラメータを操作条件の関数として近似するためにディープニューラルネットワーク(DNN)を用いる。 この方法では,パラメータ学習過程における物理制約としてVRFB計算モデルを統合し,パラメータ推定とセル電圧予測の精度を高めることができる。 実験データセットを用いて,pcdnn法を用いて様々な動作条件のモデルパラメータを推定し,従来の逆法で推定した0次元モデル予測と比較して電圧の0次元モデル予測を改善した。 また,PCDNNの手法は,DNN訓練に使用しない操作条件のパラメータ値を推定する汎用性を向上することを示した。

In this paper, we present a physics-constrained deep neural network (PCDNN) method for parameter estimation in the zero-dimensional (0D) model of the vanadium redox flow battery (VRFB). In this approach, we use deep neural networks (DNNs) to approximate the model parameters as functions of the operating conditions. This method allows the integration of the VRFB computational models as the physical constraints in the parameter learning process, leading to enhanced accuracy of parameter estimation and cell voltage prediction. Using an experimental dataset, we demonstrate that the PCDNN method can estimate model parameters for a range of operating conditions and improve the 0D model prediction of voltage compared to the 0D model prediction with constant operation-condition- independent parameters estimated with traditional inverse methods. We also demonstrate that the PCDNN approach has an improved generalization ability for estimating parameter values for operating conditions not used in the DNN training.
翻訳日:2021-06-23 14:43:20 公開日:2021-06-21
# テンソル学習に基づくFD-MIMOシステムのためのプレコーダコードブック

Tensor Learning-based Precoder Codebooks for FD-MIMO Systems ( http://arxiv.org/abs/2106.11374v1 )

ライセンス: Link先を確認
Keerthana Bhogi, Chiranjib Saha, and Harpreet S. Dhillon(参考訳) 本稿では、テンソル学習を用いて、送信機(Tx)のUPAアンテナを用いたFDマルチインプット多重出力(MIMO)システムにおいて、プリコーディングのための低複雑さコードブックを設計するための効率的な手順を開発する。 特に,統計的チャネルモデルを用いる代わりに,機械学習の基礎を持つモデルフリーのデータ駆動アプローチを用いて,周囲の伝搬条件に適応するコードブックを生成する。 我々はFD-MIMOチャネルのテンソル表現を使用し、その特性を利用してチャネルプリコーダの量子化バージョンを設計する。 2つの低次元プリコーダのKronecker Product(KP)の関数として最適プリコーダの最もよい表現は、チャネルのテンソル分解から得られるUPAの水平次元と垂直次元に対応する。 次に、このプリコーダを定量化し、チャネル状態情報(CSI)の量子化による相互情報の損失を最小化するように製品コードブックを設計する。 重要な技術的貢献は、プリコーダ上の制約を利用して、製品コードブックの設計問題を、CPM(Cartesian Product Grassmann manifold)上の教師なしクラスタリング問題に還元することである。 このコードブックは、CPMで$K$-meansクラスタリングを実行することで、効率的に見つけることができる。 CPM 上の適切な誘導距離計量を用いて、製品コードブックの構成は、水平次元と垂直次元に対応する因子多様体上の最適遠心点集合を見つけるのに等価であることを示す。 提案した設計基準のコードブック学習能力と,設計したコードブックの魅力的な性能を示すため,シミュレーション結果を示した。

This paper develops an efficient procedure for designing low-complexity codebooks for precoding in a full-dimension (FD) multiple-input multiple-output (MIMO) system with a uniform planar array (UPA) antenna at the transmitter (Tx) using tensor learning. In particular, instead of using statistical channel models, we utilize a model-free data-driven approach with foundations in machine learning to generate codebooks that adapt to the surrounding propagation conditions. We use a tensor representation of the FD-MIMO channel and exploit its properties to design quantized version of the channel precoders. We find the best representation of the optimal precoder as a function of Kronecker Product (KP) of two low-dimensional precoders, respectively corresponding to the horizontal and vertical dimensions of the UPA, obtained from the tensor decomposition of the channel. We then quantize this precoder to design product codebooks such that an average loss in mutual information due to quantization of channel state information (CSI) is minimized. The key technical contribution lies in exploiting the constraints on the precoders to reduce the product codebook design problem to an unsupervised clustering problem on a Cartesian Product Grassmann manifold (CPM), where the cluster centroids form a finite-sized precoder codebook. This codebook can be found efficiently by running a $K$-means clustering on the CPM. With a suitable induced distance metric on the CPM, we show that the construction of product codebooks is equivalent to finding the optimal set of centroids on the factor manifolds corresponding to the horizontal and vertical dimensions. Simulation results are presented to demonstrate the capability of the proposed design criterion in learning the codebooks and the attractive performance of the designed codebooks.
翻訳日:2021-06-23 14:41:04 公開日:2021-06-21
# (参考訳) ROPE:グラフ情報抽出のための順序等変位置符号化 [全文訳有]

ROPE: Reading Order Equivariant Positional Encoding for Graph-based Document Information Extraction ( http://arxiv.org/abs/2106.10786v1 )

ライセンス: CC BY 4.0
Chen-Yu Lee, Chun-Liang Li, Chu Wang, Renshen Wang, Yasuhisa Fujii, Siyang Qin, Ashok Popat and Tomas Pfister(参考訳) 単語の自然読解順序は形式的な文書からの情報抽出に不可欠である。 文書の空間レイアウトパターンをモデル化するグラフ畳み込みネットワーク(gcns)の最近の進歩にもかかわらず、与えられた単語レベルのノード表現の読み出し順序をグラフでキャプチャする能力は限られている。 本稿では,文書中の単語の逐次的提示を識別する新しい位置符号化手法である,読み順序等変位置符号化(ROPE)を提案する。 ROPEは、単語レベルのグラフ接続が与えられた対象単語に対して、隣接する単語に対して独自の読み順序コードを生成する。 公開FUNSDデータセットと大規模支払データセット上で,単語ラベリングと単語グループ化を含む2つの基本文書エンティティ抽出タスクについて検討した。 ROPEは既存のGCNを最大8.4%のスコアで継続的に改善することを示す。

Natural reading orders of words are crucial for information extraction from form-like documents. Despite recent advances in Graph Convolutional Networks (GCNs) on modeling spatial layout patterns of documents, they have limited ability to capture reading orders of given word-level node representations in a graph. We propose Reading Order Equivariant Positional Encoding (ROPE), a new positional encoding technique designed to apprehend the sequential presentation of words in documents. ROPE generates unique reading order codes for neighboring words relative to the target word given a word-level graph connectivity. We study two fundamental document entity extraction tasks including word labeling and word grouping on the public FUNSD dataset and a large-scale payment dataset. We show that ROPE consistently improves existing GCNs with a margin up to 8.4% F1-score.
翻訳日:2021-06-23 05:43:37 公開日:2021-06-21
# (参考訳) 分散クラスタリングアルゴリズムに基づく大規模画像分割 [全文訳有]

Large-scale image segmentation based on distributed clustering algorithms ( http://arxiv.org/abs/2106.10795v1 )

ライセンス: CC BY 4.0
Ran Lu, Aleksandar Zlateski and H. Sebastian Seung(参考訳) 3次元画像セグメンテーションへの多くのアプローチは、画像領域へのスーパーボクセルの階層的クラスタリングに基づいている。 ここでは,膨大な数のスーパーボクセルを扱う分散アルゴリズムについて述べる。 アルゴリズムは再帰的に機能し、領域は複数のワーカーによって独立に処理されるチャンクに分割される。 再帰的手続きの各ラウンドにおいて、すべての次元のチャンクサイズは、1つのチャンクがイメージ全体を包含するまで倍増する。 最終的な結果はチャンキングスキームとは明確に独立しており、イメージ全体がチャンクに分割せずに処理されたのと同じである。 これは、隣接する一対の領域がある統計的性質(例えば)によってスコアされるため、自明ではない。 平均または中央値はインターフェースの親和性であり、インターフェイスは任意に多くのチャンクにわたって拡張される。 トリックは、チャンク境界に触れる領域のマージ決定を遅らせ、その領域がチャンク内に完全に含まれた後のみ、後続のラウンドで完了することである。 本研究では3次元電子顕微鏡脳画像から得られた135億超語彙間の1.5兆のエッジを持つ親和性グラフをクラスタリングしてアルゴリズムを実証する。

Many approaches to 3D image segmentation are based on hierarchical clustering of supervoxels into image regions. Here we describe a distributed algorithm capable of handling a tremendous number of supervoxels. The algorithm works recursively, the regions are divided into chunks that are processed independently in parallel by multiple workers. At each round of the recursive procedure, the chunk size in all dimensions are doubled until a single chunk encompasses the entire image. The final result is provably independent of the chunking scheme, and the same as if the entire image were processed without division into chunks. This is nontrivial because a pair of adjacent regions is scored by some statistical property (e.g. mean or median) of the affinities at the interface, and the interface may extend over arbitrarily many chunks. The trick is to delay merge decisions for regions that touch chunk boundaries, and only complete them in a later round after the regions are fully contained within a chunk. We demonstrate the algorithm by clustering an affinity graph with over 1.5 trillion edges between 135 billion supervoxels derived from a 3D electron microscopic brain image.
翻訳日:2021-06-23 05:35:10 公開日:2021-06-21
# (参考訳) cd-sgd:圧縮と遅延補償を伴う分布確率勾配降下 [全文訳有]

CD-SGD: Distributed Stochastic Gradient Descent with Compression and Delay Compensation ( http://arxiv.org/abs/2106.10796v1 )

ライセンス: CC BY 4.0
Enda Yu, Dezun Dong, Yemao Xu, Shuo Ouyang, Xiangke Liao(参考訳) コミュニケーションのオーバーヘッドが分散トレーニングの鍵となる課題です。 グラディエント圧縮は、通信トラフィックを減らすために広く使われている手法である。 パイプラインのような並列通信機構手法と組み合わせると、勾配圧縮技術は通信オーバーヘッドの影響を大幅に軽減することができる。 しかし, 勾配圧縮技術には2つの問題が存在する。 まず、勾配圧縮により計算コストが増大し、次のトレーニングイテレーションが遅れる。 第二に、勾配圧縮は通常収束精度の低下につながる。

Communication overhead is the key challenge for distributed training. Gradient compression is a widely used approach to reduce communication traffic. When combining with parallel communication mechanism method like pipeline, gradient compression technique can greatly alleviate the impact of communication overhead. However, there exists two problems of gradient compression technique to be solved. Firstly, gradient compression brings in extra computation cost, which will delay the next training iteration. Secondly, gradient compression usually leads to the decrease of convergence accuracy.
翻訳日:2021-06-23 05:13:34 公開日:2021-06-21
# (参考訳) ToAlign: 教師なしドメイン適応のためのタスク指向アライメント [全文訳有]

ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2106.10812v1 )

ライセンス: CC BY 4.0
Guoqiang Wei, Cuiling Lan, Wenjun Zeng, Zhibo Chen(参考訳) 教師なし領域適応分類は、ラベルなし対象領域の分類性能を改善することを目的としている。 ドメインシフトの悪影響を軽減するために、多くのアプローチが機能空間のソースドメインとターゲットドメインを調整する。 しかし、機能は通常、ドメインアライメントを積極的に分類タスクに役立てることなくアライメント全体として取り込まれ、サブ最適解へと導かれる。 より良い適応のためにどのサブフィーチャを調整すべきかは未検討です。 本稿では、教師なしドメイン適応(UDA)のための効果的なタスク指向アライメント(ToAlign)を提案する。 本稿では,ドメイン間で整列すべき特徴について検討し,ドメインアライメントを積極的に分類に役立てるために,その分類課題から引き起こされる事前知識の指導の下で,特徴分解とアライメントを行うことを提案する。 特に、ソースドメインの機能を、整列すべきタスク関連/識別機能と、分類メタ知識に基づいて回避/無視されるべきタスク関連機能に明示的に分解する。 さまざまなドメイン適応設定における様々なベンチマーク(office-home、visda-2017、domainnetなど)の広範な実験結果から、toalignは最先端のパフォーマンスを達成するのに役立つ。

Unsupervised domain adaptive classification intends to improve theclassification performance on unlabeled target domain. To alleviate the adverse effect of domain shift, many approaches align the source and target domains in the feature space. However, a feature is usually taken as a whole for alignment without explicitly making domain alignment proactively serve the classification task, leading to sub-optimal solution. What sub-feature should be aligned for better adaptation is under-explored. In this paper, we propose an effective Task-oriented Alignment (ToAlign) for unsupervised domain adaptation (UDA). We study what features should be aligned across domains and propose to make the domain alignment proactively serve classification by performing feature decomposition and alignment under the guidance of the prior knowledge induced from the classification taskitself. Particularly, we explicitly decompose a feature in the source domain intoa task-related/discrim inative feature that should be aligned, and a task-irrelevant feature that should be avoided/ignored, based on the classification meta-knowledge. Extensive experimental results on various benchmarks (e.g., Office-Home, Visda-2017, and DomainNet) under different domain adaptation settings demonstrate theeffectiveness of ToAlign which helps achieve the state-of-the-art performance.
翻訳日:2021-06-23 04:54:41 公開日:2021-06-21
# (参考訳) 直列グラフ生成のための構造スパースR-CNN [全文訳有]

Structured Sparse R-CNN for Direct Scene Graph Generation ( http://arxiv.org/abs/2106.10815v1 )

ライセンス: CC BY 4.0
Yao Teng, Limin Wang(参考訳) シーングラフ生成(SGG)とは、画像内の関係を持つエンティティペアを検出することである。 既存のSGGアプローチでは、このタスクをオブジェクト検出、関係グラフの構築、あるいは密度とスパースの関係予測に分解するために、多段階パイプラインを使用することが多い。 そこで本研究では,SGGを直接セット予測の観点から,構造スパースR-CNN(Structured Sparse R-CNN)と呼ばれる,単純な,スパースで統一された関係検出フレームワークを提案する。 提案手法の鍵となるのは,学習可能な三重項クエリと構造化三重項検出器のセットである。 特に、三重項クエリは、エンティティペアの位置、カテゴリ、それらの関係に関する一般的な事前をエンコードし、その後の改良のために関係検出の最初の推測を提供する。 三重項検出器はカスケードされた動的ヘッド設計を示し、関係検出の結果を徐々に洗練する。 さらに,構造化スパースr-cnnの訓練難易度を緩和するために,シャム語スパースr-cnnからの知識蒸留に基づく緩和・強化トレーニング戦略を提案する。 また,不均衡データ分布に対する適応焦点パラメータと平均ロジット法を提案する。 我々は,ビジュアルゲノムとオープンイメージの2つのベンチマークで実験を行い,本手法が最先端の性能を実現することを示す。 一方、三重項検出器の設計および訓練戦略における構造モデリングの知見を提供するため、深部アブレーション研究を行っている。

Scene graph generation (SGG) is to detect entity pairs with their relations in an image. Existing SGG approaches often use multi-stage pipelines to decompose this task into object detection, relation graph construction, and dense or dense-to-sparse relation prediction. Instead, from a perspective on SGG as a direct set prediction, this paper presents a simple, sparse, and unified framework for relation detection, termed as Structured Sparse R-CNN. The key to our method is a set of learnable triplet queries and structured triplet detectors which could be jointly optimized from the training set in an end-to-end manner. Specifically, the triplet queries encode the general prior for entity pair locations, categories, and their relations, and provide an initial guess of relation detection for subsequent refinement. The triplet detector presents a cascaded dynamic head design to progressively refine the results of relation detection. In addition, to relieve the training difficulty of Structured Sparse R-CNN, we propose a relaxed and enhanced training strategy based on knowledge distillation from a Siamese Sparse R-CNN. We also propose adaptive focusing parameter and average logit approach for imbalance data distribution. We perform experiments on two benchmarks: Visual Genome and Open Images, and the results demonstrate that our method achieves the state-of-the-art performance. Meanwhile, we perform in-depth ablation studies to provide insights on our structured modeling in triplet detector design and training strategies.
翻訳日:2021-06-23 04:35:49 公開日:2021-06-21
# (参考訳) 自動運転のための3次元物体検出:調査 [全文訳有]

3D Object Detection for Autonomous Driving: A Survey ( http://arxiv.org/abs/2106.10823v1 )

ライセンス: CC BY 4.0
Rui Qian, Xin Lai, Xirong Li(参考訳) 自動運転は、人間を深刻な事故から守る最も有望な治療法の1つである。 この目的のために、3次元物体検出は、特に経路計画、動き予測、衝突回避等のために、そのような認識システムの中核となる基礎となる。 一般に、対応する3Dポイントクラウドを持つステレオ画像やモノクル画像は、既に3Dオブジェクト検出の標準的なレイアウトであり、その中の1つが正確な深度情報を提供するようになってきている。 既存の試みにもかかわらず、点雲上の3dオブジェクト検出は、自然による点雲のばらつきや不規則さ、カメラビューとライダーバードの眼の視差によるモダリティ相乗効果、オクルージョン、遠距離でのスケール変動などにより、まだ初期段階にある。 近年,3次元物体検出において大きな進歩がみられ,このビジョン課題に対処するために大量の文献が研究されている。 そこで本研究では,センサ,基本,最新の最先端検出手法など,その長所と短所を網羅する分野の最新動向を総合的に概観する。 さらに,一般的な公開データセットについて,メトリクスを導入し,定量的比較を行う。 今後の研究の道筋は、調査対象の作品を深く分析した結果、公平に特定されるだろう。 最後に、本論文をまとめる。

Autonomous driving is regarded as one of the most promising remedies to shield human beings from severe crashes. To this end, 3D object detection serves as the core basis of such perception system especially for the sake of path planning, motion prediction, collision avoidance, etc. Generally, stereo or monocular images with corresponding 3D point clouds are already standard layout for 3D object detection, out of which point clouds are increasingly prevalent with accurate depth information being provided. Despite existing efforts, 3D object detection on point clouds is still in its infancy due to high sparseness and irregularity of point clouds by nature, misalignment view between camera view and LiDAR bird's eye of view for modality synergies, occlusions and scale variations at long distances, etc. Recently, profound progress has been made in 3D object detection, with a large body of literature being investigated to address this vision task. As such, we present a comprehensive review of the latest progress in this field covering all the main topics including sensors, fundamentals, and the recent state-of-the-art detection methods with their pros and cons. Furthermore, we introduce metrics and provide quantitative comparisons on popular public datasets. The avenues for future work are going to be judiciously identified after an in-deep analysis of the surveyed works. Finally, we conclude this paper.
翻訳日:2021-06-23 04:16:20 公開日:2021-06-21
# (参考訳) Two-Stream Consensus Network: HACS Challenge 2021 Weakly Supervised Learning Track [全文訳有]

Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track ( http://arxiv.org/abs/2106.10829v1 )

ライセンス: CC BY-SA 4.0
Yuanhao Zhai, Le Wang, David Doermann, Junsong Yuan(参考訳) 本報告では,弱教師付き学習トラックであるhacs temporal action localization challenge 2021の解法を提案する。 弱い監督による時間的行動ローカライゼーションの目標は、ビデオレベルのラベルのみを与えられた未編集ビデオに対する関心の行動の時間的特定と分類である。 この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。 TSCNは、2ストリームベースモデルのトレーニング手順と擬似基底真理学習手順で構成される。 ベースモデルトレーニングは、擬似基底真理が生成される融合に基づいて、単一のモダリティ(すなわち、RGBまたは光フロー)に基づいて信頼できる予測を予測し、ベースモデルをトレーニングするための監督として使用することを奨励する。 HACS v1.1.1データセットでは、特徴抽出I3Dモデルを微調整することなく、検証セットで22.20%、平均mAPで21.68%を達成する。 私たちのソリューションはこの課題で2位にランクインし、この方法が将来の学術研究のベースラインとなることを願っています。

This technical report presents our solution to the HACS Temporal Action Localization Challenge 2021, Weakly-Supervised Learning Track. The goal of weakly-supervised temporal action localization is to temporally locate and classify action of interest in untrimmed videos given only video-level labels. We adopt the two-stream consensus network (TSCN) as the main framework in this challenge. The TSCN consists of a two-stream base model training procedure and a pseudo ground truth learning procedure. The base model training encourages the model to predict reliable predictions based on single modality (i.e., RGB or optical flow), based on the fusion of which a pseudo ground truth is generated and in turn used as supervision to train the base models. On the HACS v1.1.1 dataset, without fine-tuning the feature-extraction I3D models, our method achieves 22.20% on the validation set and 21.68% on the testing set in terms of average mAP. Our solution ranked the 2rd in this challenge, and we hope our method can serve as a baseline for future academic research.
翻訳日:2021-06-23 02:47:11 公開日:2021-06-21
# (参考訳) エッジデバイスを用いたディープニューラルネットワークの能動的学習 [全文訳有]

Active Learning for Deep Neural Networks on Edge Devices ( http://arxiv.org/abs/2106.10836v1 )

ライセンス: CC BY-SA 4.0
Yuya Senzaki, Christian Hamelain(参考訳) エッジデバイス上のディープニューラルネットワーク(DNN)アプリケーションを扱う場合、モデルを継続的に更新することが重要である。 実際のデータでモデルを更新するのは理想的ですが、ラベリングや通信コストといった制限のため、それらすべてを使用することは必ずしも可能ではありません。 したがって、デバイス上のトレーニング(すなわちアクティブラーニング)に使用するデータをフィルタリングして選択する必要がある。 本稿では,エッジデバイス上でのDNNの実用的なアクティブラーニング問題を定式化し,この問題に対処するための一般的なタスク非依存フレームワークを提案する。 このフレームワークは低計算資源で動かすのに十分軽量であるが、サブモジュラー特性により理論的に保証されるソリューションを提供する。 このフレームワークにより、従来のアクティブラーニング研究で提案された手法を含め、データ選択基準を柔軟に設定できる。 我々は,実生活シナリオをシミュレートする実践的な環境で,分類タスクとオブジェクト検出タスクの両方に対するアプローチを評価する。 本研究の結果から,提案するフレームワークは,実機上で実行しながら,両方のタスクにおいて他の手法よりも優れていた。

When dealing with deep neural network (DNN) applications on edge devices, continuously updating the model is important. Although updating a model with real incoming data is ideal, using all of them is not always feasible due to limits, such as labeling and communication costs. Thus, it is necessary to filter and select the data to use for training (i.e., active learning) on the device. In this paper, we formalize a practical active learning problem for DNNs on edge devices and propose a general task-agnostic framework to tackle this problem, which reduces it to a stream submodular maximization. This framework is light enough to be run with low computational resources, yet provides solutions whose quality is theoretically guaranteed thanks to the submodular property. Through this framework, we can configure data selection criteria flexibly, including using methods proposed in previous active learning studies. We evaluate our approach on both classification and object detection tasks in a practical setting to simulate a real-life scenario. The results of our study show that the proposed framework outperforms all other methods in both tasks, while running at a practical speed on real devices.
翻訳日:2021-06-23 02:41:43 公開日:2021-06-21
# (参考訳) 注意に注意を払う:多言語および多ドメインシーケンスモデリングにおける頭部選択 [全文訳有]

Pay Better Attention to Attention: Head Selection in Multilingual and Multi-Domain Sequence Modeling ( http://arxiv.org/abs/2106.10840v1 )

ライセンス: CC BY 4.0
Hongyu Gong, Yun Tang, Juan Pino, Xian Li(参考訳) マルチヘッドアテンションは、各アテンションヘッドが入力シーケンスの異なる部分からサルエント情報を収集するので、シーケンスモデリングの強力なメカニズムとなる。 多言語および多ドメイン学習はシーケンスモデリングの一般的なシナリオであり、正の転送を最大化し、言語とドメイン間の負の転送を緩和することが重要な課題である。 本稿では,非選択的な注意共有が,すべての言語やドメインにまたがる優れた一般化を実現するためのサブ最適であることを示す。 さらに,多言語およびマルチドメインシーケンスモデリングにおけるパラメータ共有と特殊化を容易にするための注意共有戦略を提案する。 我々のアプローチは、それらの干渉を軽減するために、異なる言語やドメインの共有および専門的な注意ヘッドを自動的に学習する。 提案手法は, 音声認識, テキスト間変換, 音声間翻訳など様々なタスクで評価され, マルチヘッド注意に基づく系列モデルにおいて, 一貫して向上をもたらす。 音声からテキストへの翻訳では、多言語環境では平均で$+2.0$ bleu、多言語環境では$3$よりも$2.0$ bleuとなる。

Multi-head attention has each of the attention heads collect salient information from different parts of an input sequence, making it a powerful mechanism for sequence modeling. Multilingual and multi-domain learning are common scenarios for sequence modeling, where the key challenge is to maximize positive transfer and mitigate negative transfer across languages and domains. In this paper, we find that non-selective attention sharing is sub-optimal for achieving good generalization across all languages and domains. We further propose attention sharing strategies to facilitate parameter sharing and specialization in multilingual and multi-domain sequence modeling. Our approach automatically learns shared and specialized attention heads for different languages and domains to mitigate their interference. Evaluated in various tasks including speech recognition, text-to-text and speech-to-text translation, the proposed attention sharing strategies consistently bring gains to sequence models built upon multi-head attention. For speech-to-text translation, our approach yields an average of $+2.0$ BLEU over $13$ language directions in multilingual setting and $+2.0$ BLEU over $3$ domains in multi-domain setting.
翻訳日:2021-06-23 02:21:01 公開日:2021-06-21
# (参考訳) ファウショット学習のための訓練可能なクラスプロトタイプ [全文訳有]

Trainable Class Prototypes for Few-Shot Learning ( http://arxiv.org/abs/2106.10846v1 )

ライセンス: CC BY 4.0
Jianyi Li and Guizhong Liu(参考訳) メトリック学習は、プロトタイプの品質がアルゴリズムにおいて重要な役割を果たす数少ないショット学習に広く使われている方法である。 本稿では,メタトレーニングとタスクトレーニングの枠組みにおいて,距離測定のためのトレーニング可能なプロトタイプを提案する。 また、エピソジックメタトレーニングがもたらした欠点を避けるために、自己教師付き学習に基づく非エピソジックメタトレーニングを採用する。 全体として,移動可能な特徴抽出器を自己教師付き学習によりメタトレーニングし,計量分類のための試作機を訓練する。 さらに、メタトレーニングとタスクトレーニングの両方で単純な注意機構が使用される。 本手法は,標準的な数ショットの視覚的分類データセット上で確立された多種多様な数ショットタスクにおける最先端の性能を,教師なし数ショット学習法と比較して約20%向上する。

Metric learning is a widely used method for few shot learning in which the quality of prototypes plays a key role in the algorithm. In this paper we propose the trainable prototypes for distance measure instead of the artificial ones within the meta-training and task-training framework. Also to avoid the disadvantages that the episodic meta-training brought, we adopt non-episodic meta-training based on self-supervised learning. Overall we solve the few-shot tasks in two phases: meta-training a transferable feature extractor via self-supervised learning and training the prototypes for metric classification. In addition, the simple attention mechanism is used in both meta-training and task-training. Our method achieves state-of-the-art performance in a variety of established few-shot tasks on the standard few-shot visual classification dataset, with about 20% increase compared to the available unsupervised few-shot learning methods.
翻訳日:2021-06-23 02:02:35 公開日:2021-06-21
# (参考訳) CUDA-GR: Gaze Redirection のための制御不能なドメイン適応 [全文訳有]

CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze Redirection ( http://arxiv.org/abs/2106.10852v1 )

ライセンス: CC BY 4.0
Swati Jindal, Xin Eric Wang(参考訳) 視線方向転換の目的は、画像中の視線を所望の方向に操作することである。 しかし、既存の手法は知覚的に妥当な画像を生成するのに不十分である。 生成的対向ネットワークの進歩は、フォトリアリスティック画像の生成において優れた結果を示している。 しかし、異なる画像属性に対してより細かいコントロールを提供する能力は依然として欠けている。 このような微調整制御を可能にするためには、非常に費用がかかる訓練データに対する根拠真理アノテーションを得る必要がある。 本稿では,ラベル付きソースドメインから視線表現を外し,ラベル付き対象ドメインに転送する,教師なしドメイン適応フレームワークであるcuda-grを提案する。 本手法は,人物の外観情報を保存しながら視線方向のきめ細かい制御を可能にする。 対象領域で生成された画像ラベルペアは,知識伝達に有効であり,下流タスクの性能を向上できることを示す。 ベンチマークデータセットの大規模な実験により,提案手法は定量評価と定性評価の両方において最先端技術より優れていることが示された。

The aim of gaze redirection is to manipulate the gaze in an image to the desired direction. However, existing methods are inadequate in generating perceptually reasonable images. Advancement in generative adversarial networks has shown excellent results in generating photo-realistic images. Though, they still lack the ability to provide finer control over different image attributes. To enable such fine-tuned control, one needs to obtain ground truth annotations for the training data which can be very expensive. In this paper, we propose an unsupervised domain adaptation framework, called CUDA-GR, that learns to disentangle gaze representations from the labeled source domain and transfers them to an unlabeled target domain. Our method enables fine-grained control over gaze directions while preserving the appearance information of the person. We show that the generated image-labels pairs in the target domain are effective in knowledge transfer and can boost the performance of the downstream tasks. Extensive experiments on the benchmarking datasets show that the proposed method can outperform state-of-the-art techniques in both quantitative and qualitative evaluation.
翻訳日:2021-06-23 01:47:16 公開日:2021-06-21
# (参考訳) ロボット協調における環境の重要性について [全文訳有]

On the Importance of Environments in Human-Robot Coordination ( http://arxiv.org/abs/2106.10853v1 )

ライセンス: CC BY 4.0
Matthew C. Fontaine, Ya-Chuan Hsu, Yulun Zhang, Bryon Tjakana and Stefanos Nikolaidis(参考訳) 人間と協力するロボットを研究するとき、焦点は、人間のチームメイトと協力的なタスクでうまく協調するロボットポリシーであった。 しかし,協調行動に対する環境の影響にはあまり注目されていない。 多様な行動をもたらす環境を網羅的に探索するため,(1) 人間が許可した環境とスタイリスティックに類似した環境,(2) ロボットチームによる解決が保証される環境,(3) 調整措置に関して多様な環境の手続き的生成のための枠組みを提案する。 我々は,Overcookedベンチマークドメインの手続き的に生成された環境をシミュレーションとオンラインユーザスタディにより分析する。 その結果、ロボットが同じ計画アルゴリズムを実行している場合でも、環境は質的に異なる出現行動と、協調流速指標の統計的に有意な差異をもたらすことがわかった。

When studying robots collaborating with humans, much of the focus has been on robot policies that coordinate fluently with human teammates in collaborative tasks. However, less emphasis has been placed on the effect of the environment on coordination behaviors. To thoroughly explore environments that result in diverse behaviors, we propose a framework for procedural generation of environments that are (1) stylistically similar to human-authored environments, (2) guaranteed to be solvable by the human-robot team, and (3) diverse with respect to coordination measures. We analyze the procedurally generated environments in the Overcooked benchmark domain via simulation and an online user study. Results show that the environments result in qualitatively different emerging behaviors and statistically significant differences in collaborative fluency metrics, even when the robot runs the same planning algorithm.
翻訳日:2021-06-23 01:26:50 公開日:2021-06-21
# (参考訳) argfuse:ドキュメントレベルのイベント引数集約のための弱い教師付きフレームワーク [全文訳有]

ArgFuse: A Weakly-Supervised Framework for Document-Level Event Argument Aggregation ( http://arxiv.org/abs/2106.10862v1 )

ライセンス: CC BY-SA 4.0
Debanjana Kar, Sudeshna Sarkar, Pawan Goyal(参考訳) 既存の情報抽出フレームワーク(Wadden et al., 2019; Veysehet al., 2020)のほとんどは文レベルのタスクに重点を置いており、ある文書から統合された情報を取得できない。 長文記録から正確な文書レベルの情報フレームを生成するために,情報集約や引数集約というタスクを導入する。 具体的には、文レベルで抽出された無関係で冗長な引数の言及をフィルタリングし、文書レベルの情報フレームを描画する。 既存の研究の大部分は、文書レベルのイベント引数抽出(Yang et al., 2018a; Zheng et al., 2019a)と、教師付き手法を用いた有能な実体識別(Jain et al., 2020)の関連課題を解決するために観察されている。 大量のラベル付きデータからの依存性を取り除くために,弱い教師付き手法を用いて情報集約のタスクを探索する。 特に,マルチシーブを用いた抽出アルゴリズムを提案する。これは低リソース環境で効率的に働くために,アクティブな学習戦略を採用している。 このタスクのために、我々は131のドキュメント情報フレームからなる独自のテストデータセットを注釈付けし、新しいドメインのさらなる研究のためにコードとデータセットをリリースした。 私たちの知る限りでは、このタスクのベースラインとなる結果を英語で最初に確立しました。 私たちのデータとコードはhttps://github.com/D ebanjanaKar/ArgFuse. comで公開されています。

Most of the existing information extraction frameworks (Wadden et al., 2019; Veysehet al., 2020) focus on sentence-level tasks and are hardly able to capture the consolidated information from a given document. In our endeavour to generate precise document-level information frames from lengthy textual records, we introduce the task of Information Aggregation or Argument Aggregation. More specifically, our aim is to filter irrelevant and redundant argument mentions that were extracted at a sentence level and render a document level information frame. Majority of the existing works have been observed to resolve related tasks of document-level event argument extraction (Yang et al., 2018a; Zheng et al., 2019a) and salient entity identification (Jain et al.,2020) using supervised techniques. To remove dependency from large amounts of labelled data, we explore the task of information aggregation using weakly-supervised techniques. In particular, we present an extractive algorithm with multiple sieves which adopts active learning strategies to work efficiently in low-resource settings. For this task, we have annotated our own test dataset comprising of 131 document information frames and have released the code and dataset to further research prospects in this new domain. To the best of our knowledge, we are the first to establish baseline results for this task in English. Our data and code are publicly available at https://github.com/D ebanjanaKar/ArgFuse.
翻訳日:2021-06-23 01:05:32 公開日:2021-06-21
# (参考訳) 多クラス分類における便益オーバーフィッティング:全ての道路が補間に繋がる

Benign Overfitting in Multiclass Classification: All Roads Lead to Interpolation ( http://arxiv.org/abs/2106.10865v1 )

ライセンス: CC0 1.0
Ke Wang, Vidya Muthukumar, Christos Thrampoulidis(参考訳) 過剰パラメータモデルの"良質な過剰フィッティング"に関する文献は、ほとんどが回帰やバイナリ分類に制限されているが、現代の機械学習の成功事例は多クラスで記録されている。 この相違により、多クラス線形分類における良性過剰適合について検討した。 特に,分離可能なデータに対する一般的なトレーニングアルゴリズムを考察する: (i) クロスエントロピー損失を伴う経験的リスク最小化 (erm) マルチクラスサポートベクターマシン (svm) ソリューションに収束する; (ii) 最小二乗損失を持つerm ミンノルム補間 (mni) ソリューションに収束する; (iii) 1対全svm分類器。 まず、3つのアルゴリズムすべてが、トレーニングデータを補間し、同じ精度を持つ分類器に繋がる簡単な条件を提供する。 ガウス混合または多項ロジスティックモデルからデータが生成される場合、この条件は十分に有効パラメータ化される。 第2に、MNI分類器の精度に基づいて新しい誤差境界を導出し、3つのトレーニングアルゴリズムが十分な過パラメータ化の下で良性オーバーフィットすることを示した。 最終的に、我々の分析は、典型的なマージンベース境界が適用される領域を超えて、SVMソリューションに良い一般化が可能であることを示している。

The growing literature on "benign overfitting" in overparameterized models has been mostly restricted to regression or binary classification settings; however, most success stories of modern machine learning have been recorded in multiclass settings. Motivated by this discrepancy, we study benign overfitting in multiclass linear classification. Specifically, we consider the following popular training algorithms on separable data: (i) empirical risk minimization (ERM) with cross-entropy loss, which converges to the multiclass support vector machine (SVM) solution; (ii) ERM with least-squares loss, which converges to the min-norm interpolating (MNI) solution; and, (iii) the one-vs-all SVM classifier. First, we provide a simple sufficient condition under which all three algorithms lead to classifiers that interpolate the training data and have equal accuracy. When the data is generated from Gaussian mixtures or a multinomial logistic model, this condition holds under high enough effective overparameterization . Second, we derive novel error bounds on the accuracy of the MNI classifier, thereby showing that all three training algorithms lead to benign overfitting under sufficient overparameterization . Ultimately, our analysis shows that good generalization is possible for SVM solutions beyond the realm in which typical margin-based bounds apply.
翻訳日:2021-06-23 00:53:05 公開日:2021-06-21
# (参考訳) シーケンス・ツー・シーケンス・アテンションを用いた終端クメール光文字認識 [全文訳有]

An End-to-End Khmer Optical Character Recognition using Sequence-to-Sequence with Attention ( http://arxiv.org/abs/2106.10875v1 )

ライセンス: CC BY 4.0
Rina Buoy and Sokchea Kor and Nguonly Taing(参考訳) 本稿では,Khmer光文字認識(OCR)タスクのための終端から終端までの深部畳み込みリカレントニューラルネットワークソリューションを提案する。 提案手法は,アテンション機構を備えたSeq2Seqアーキテクチャを用いている。 エンコーダは、残差畳み込みブロックの層とゲート再帰ユニット(GRU)の層を介して入力されたテキストライン画像から視覚的特徴を抽出する。 特徴は1つのコンテキストベクトルと1つの文字をデコードするためにデコーダに供給される隠された状態列にエンコードされ、特別な終止符(EOS)トークンに到達するまで1つの文字をデコードする。 注意機構により、ターゲットキャラクタを予測しながら、デコーダネットワークが入力画像の一部を適応的に選択することができる。 Seq2Seq Khmer OCRネットワークは、7つの共通のKhmerフォントのための大量のコンピュータ生成テキストラインイメージに基づいて訓練された。 提案モデルの性能は、文字誤り率 (cer) を1%と3%とすることで、3000画像テストセットでkhmer言語における最先端のtesseract ocrエンジンを上回った。

This paper presents an end-to-end deep convolutional recurrent neural network solution for Khmer optical character recognition (OCR) task. The proposed solution uses a sequence-to-sequence (Seq2Seq) architecture with attention mechanism. The encoder extracts visual features from an input text-line image via layers of residual convolutional blocks and a layer of gated recurrent units (GRU). The features are encoded in a single context vector and a sequence of hidden states which are fed to the decoder for decoding one character at a time until a special end-of-sentence (EOS) token is reached. The attention mechanism allows the decoder network to adaptively select parts of the input image while predicting a target character. The Seq2Seq Khmer OCR network was trained on a large collection of computer-generated text-line images for seven common Khmer fonts. The proposed model's performance outperformed the state-of-art Tesseract OCR engine for Khmer language on the 3000-images test set by achieving a character error rate (CER) of 1% vs 3%.
翻訳日:2021-06-23 00:50:52 公開日:2021-06-21
# (参考訳) ビデオからの感情駆動エンゲージメント測定 [全文訳有]

Affect-driven Engagement Measurement from Videos ( http://arxiv.org/abs/2106.10882v1 )

ライセンス: CC BY 4.0
Ali Abedi and Shehroz Khan(参考訳) 教育と介入プログラムにおいて、個人の関与はプログラムの完成に成功するための主要な要因として認識されている。 参加者のエンゲージメントの自動測定は、インストラクターがプログラム目標を満たし、プログラム配信を個別化するための有用な情報を提供する。 本稿では,仮想学習プログラムにおける映像ベースエンゲージメント測定の新しい手法を提案する。 本研究では,連続する映像フレームから抽出したヴァレンスと覚醒の連続値と,新たな潜在的感情的特徴ベクトルと行動的特徴を用いたエンゲージメント測定を提案する。 深層学習に基づく時間モデルと従来の機械学習に基づく非時間モデルはそれぞれ、フレームレベルとビデオレベルの特徴に基づいてトレーニングされ、検証される。 従来の集中型学習に加えて,分散連合学習環境において提案手法を実装し,参加度測定におけるモデルパーソナライゼーションの効果について検討した。 オンライン学習プログラムにおける学生のビデオを含む2つのビデオエンゲージメント測定データセットであるDAiSEEとEmotiWについて,提案手法の性能評価を行った。 実験の結果,DAiSEEデータセットでは,最先端のエンゲージメントレベルの分類精度が63.3%,復調平均2乗誤差が0.0673であった。 本研究は,エンゲージメント測定における影響状態の導入効果を示す。 本研究は,エンゲージメントの分野における心理学的概念に基づく実験結果から得られた知見を解釈する。

In education and intervention programs, person's engagement has been identified as a major factor in successful program completion. Automatic measurement of person's engagement provides useful information for instructors to meet program objectives and individualize program delivery. In this paper, we present a novel approach for video-based engagement measurement in virtual learning programs. We propose to use affect states, continuous values of valence and arousal extracted from consecutive video frames, along with a new latent affective feature vector and behavioral features for engagement measurement. Deep learning-based temporal, and traditional machine-learning-bas ed non-temporal models are trained and validated on frame-level, and video-level features, respectively. In addition to the conventional centralized learning, we also implement the proposed method in a decentralized federated learning setting and study the effect of model personalization in engagement measurement. We evaluated the performance of the proposed method on the only two publicly available video engagement measurement datasets, DAiSEE and EmotiW, containing videos of students in online learning programs. Our experiments show a state-of-the-art engagement level classification accuracy of 63.3% and correctly classifying disengagement videos in the DAiSEE dataset and a regression mean squared error of 0.0673 on the EmotiW dataset. Our ablation study shows the effectiveness of incorporating affect states in engagement measurement. We interpret the findings from the experimental results based on psychology concepts in the field of engagement.
翻訳日:2021-06-23 00:42:58 公開日:2021-06-21
# (参考訳) 第18回合理性と知識の理論的側面に関する会議

Proceedings Eighteenth Conference on Theoretical Aspects of Rationality and Knowledge ( http://arxiv.org/abs/2106.10886v1 )

ライセンス: CC BY 4.0
Joseph Halpern (Cornell University), Andr\'es Perea (Maastricht University)(参考訳) TARKカンファレンス(Theoretical aspects of Rationality and Knowledge)は、コンピュータ科学、人工知能、ゲーム理論、決定論、哲学、論理学、言語学、認知科学など、様々な分野の研究者を集結させることを目的とした年次会議である。 その目標は、合理性と知識に関する推論を含む学際的な問題の理解を深めることである。 関心の対象は、知識、信念、認識と不確実性、境界的合理性と資源境界推論、常識認識的推論、認識論理、認識論的ゲーム理論、知識と行動、知識とその他の精神状態に関する推論の応用、信念の修正、マルチエージェントシステムの基礎などである。 これらの手続には、2021年6月25日から6月27日にかけて北京の清華大学で開催された第8回合理性・知識の理論的側面に関する会議(TARK 2021)で提出された論文が含まれている。

The TARK conference (Theoretical Aspects of Rationality and Knowledge) is a biannual conference that aims to bring together researchers from a wide variety of fields, including computer science, artificial intelligence, game theory, decision theory, philosophy, logic, linguistics, and cognitive science. Its goal is to further our understanding of interdisciplinary issues involving reasoning about rationality and knowledge. Topics of interest include, but are not limited to, semantic models for knowledge, belief, awareness and uncertainty, bounded rationality and resource-bounded reasoning, commonsense epistemic reasoning, epistemic logic, epistemic game theory, knowledge and action, applications of reasoning about knowledge and other mental states, belief revision, and foundations of multi-agent systems. These proceedings contain the papers that have been accepted for presentation at the Eighteenth Conference on Theoretical Aspects of Rationality and Knowledge (TARK 2021), held between June 25 and June 27, 2021, at Tsinghua University at Beijing, China.
翻訳日:2021-06-23 00:21:55 公開日:2021-06-21
# (参考訳) 領域前変換を用いたLSTMニューラルネットを用いた脳腫瘍の分類 [全文訳有]

Brain tumor grade classification Using LSTM Neural Networks with Domain Pre-Transforms ( http://arxiv.org/abs/2106.10889v1 )

ライセンス: CC BY 4.0
Maedeh Sadat Fasihi (1) and Wasfy B. Mikhael (1) ((1) Department of Electrical Engineering and Computer Science, University of Central Florida, Orlando, FL)(参考訳) 画像分類手法の性能は、特に医療データに特筆すべき手頃な価格の高品質なアノテーションに依存している。 そこで本研究では,手作り機能の組み合わせによる画像分類の弱さを緩和する手法を提案する。 我々は,これらの手作り特徴とlong short-term memory (lstm) 分類器の統合は,分類精度の弱いラベルの悪影響を低減できると仮定した。 提案アルゴリズムは,WaveletおよびDiscrete Cosine Transform (DCT)領域におけるデータの適切なドメイン表現を選択することに基づく。 この情報はLSTMネットワークに送信され、データのシーケンシャルを考慮に入れられる。 提案手法の有効性を示すため,提案手法は脳腫瘍の分類を行い,256 x 256の解像度で技術性能の状態を達成した。 また,各コンポーネントが性能に与える影響を解析するための総合的な実験を行った。

The performance of image classification methodsheavily relies on the high-quality annotations, which are noteasily affordable, particularly for medical data. To alleviate thislimitation, in this study, we propose a weakly supervised imageclassification method based on combination of hand-craftedfeatures . We hypothesize that integration of these hand-craftedfeatures alongside Long short-term memory (LSTM) classifiercan reduce the adverse effects of weak labels in classificationaccura cy. Our proposed algorithm is based on selecting theappropriate domain representations of the data in Wavelet andDiscrete Cosine Transform (DCT) domains. This informationis then fed into LSTM network to account for the sequentialnature of the data. The proposed efficient, low dimensionalfeatures exploit the power of shallow deep learning modelsto achieve higher performance with lower computational cost.In order to show efficacy of the proposed strategy, we haveexperimented classification of brain tumor grades and achievedthe state of the art performance with the resolution of 256 x 256. We also conducted a comprehensive set of experiments toanalyze the effect of each component on the performance.
翻訳日:2021-06-23 00:20:57 公開日:2021-06-21
# (参考訳) STEP-EZ:Syntax Tree Guided semantic ExPlanation for Explainable Zero-shot Modeling of Clinical depression symptoms from text [全文訳有]

STEP-EZ: Syntax Tree guided semantic ExPlanation for Explainable Zero-shot modeling of clinical depression symptoms from text ( http://arxiv.org/abs/2106.10928v1 )

ライセンス: CC BY 4.0
Nawshad Farruque, Randy Goebel, Osmar Zaiane, Sudhakar Sivapalan(参考訳) 我々は,ZSL(Zero-Shot Learning)の様々なアプローチと,データ不足のトレーニングで有名な,重要な教師付き学習課題の説明可能性に焦点をあてる。 Depression Symptoms Detection (DSD) from text (英語) まず、ZSLモデリングの様々な構成要素の総合的な合成と、臨床医の助けを借りて、地上の真理サンプルの分析と抑うつ症状の手がかりのキュレーションプロセスから始める。 次に、様々な最先端ZSLモデルの精度と、タスクの潜在的な拡張について分析する。 さらに,ZSLを階層的テキストベース説明機構に用いるためのフレームワークをスケッチし,Syntax Tree-Guided Semantic Explanation (STEP) と呼ぶ。 最後に,提案する説明可能性指標(ei)を用いて,zslモデルを用いて合理的な正確性と説明可能性を達成する実験をまとめる。 この研究は、我々の知る限り、DSDタスクにおけるZSLモデルの有効性を、精度と説明可能性の両方の観点から徹底的に探求する最初の成果である。

We focus on exploring various approaches of Zero-Shot Learning (ZSL) and their explainability for a challenging yet important supervised learning task notorious for training data scarcity, i.e. Depression Symptoms Detection (DSD) from text. We start with a comprehensive synthesis of different components of our ZSL modeling and analysis of our ground truth samples and Depression symptom clues curation process with the help of a practicing clinician. We next analyze the accuracy of various state-of-the-art ZSL models and their potential enhancements for our task. Further, we sketch a framework for the use of ZSL for hierarchical text-based explanation mechanism, which we call, Syntax Tree-Guided Semantic Explanation (STEP). Finally, we summarize experiments from which we conclude that we can use ZSL models and achieve reasonable accuracy and explainability, measured by a proposed Explainability Index (EI). This work is, to our knowledge, the first work to exhaustively explore the efficacy of ZSL models for DSD task, both in terms of accuracy and explainability.
翻訳日:2021-06-23 00:14:52 公開日:2021-06-21
# (参考訳) GRAND: グラフ神経拡散 [全文訳有]

GRAND: Graph Neural Diffusion ( http://arxiv.org/abs/2106.10934v1 )

ライセンス: CC BY 4.0
Benjamin Paul Chamberlain, James Rowbottom, Maria Gorinova, Stefan Webb, Emanuele Rossi and Michael M. Bronstein(参考訳) 本稿では,グラフ上の深層学習を連続拡散プロセスとしてアプローチし,グラフニューラルネットワーク(GNN)を基礎となるPDEの判断として扱うグラフニューラルネットワーク拡散(GRAND)を提案する。 本モデルでは,層構造とトポロジーは時間演算子と空間演算子の離散化選択に対応している。 我々のアプローチは、ディープ、オーバースムーシング、ボトルネックといったグラフ学習モデルの共通点に対処できる幅広いGNNのクラスを原則的に開発することを可能にする。 我々のモデルの成功の鍵はデータの摂動に対する安定性であり、暗黙的および明示的な離散化スキームの両方に対処する。 GRANDの線形および非線形バージョンを開発し、多くの標準グラフベンチマークで競合する結果を得る。

We present Graph Neural Diffusion (GRAND) that approaches deep learning on graphs as a continuous diffusion process and treats Graph Neural Networks (GNNs) as discretisations of an underlying PDE. In our model, the layer structure and topology correspond to the discretisation choices of temporal and spatial operators. Our approach allows a principled development of a broad new class of GNNs that are able to address the common plights of graph learning models such as depth, oversmoothing, and bottlenecks. Key to the success of our models are stability with respect to perturbations in the data and this is addressed for both implicit and explicit discretisation schemes. We develop linear and nonlinear versions of GRAND, which achieve competitive results on many standard graph benchmarks.
翻訳日:2021-06-22 23:56:00 公開日:2021-06-21
# (参考訳) ヘッドキーポイント定位に基づくハードハット装着検出 [全文訳有]

Hard hat wearing detection based on head keypoint localization ( http://arxiv.org/abs/2106.10944v1 )

ライセンス: CC BY 4.0
Bartosz W\'ojcik, Mateusz \.Zarski, Kamil Ksi\k{a}\.zek, Jaros{\l}aw Adam Miszczak, Miros{\l}aw Jan Skibniewski(参考訳) 近年,視覚に基づく建設現場の安全システム,特に個人用防護具に関して,深層学習手法に注目が集まっている。 しかし、こうした注目にもかかわらず、いまだに労働者とヘルメットの関係を確立する信頼できる方法がない。 この問題に対処するため,本論文では,ディープラーニング,オブジェクト検出,ヘッドキーポイントのローカライゼーション,ルールベース推論の簡単な組み合わせを提案する。 テストでは、このソリューションは、異なるインスタンスの相対的なバウンディングボックス位置と、ハードハット着用者と非着用者の直接検出に基づいて、以前の方法を超えた。 その結果,新しい深層学習手法と人間の解釈可能なルールベースシステムを組み合わせることで,信頼性が高く,手動の現場監視をうまく模倣できる解が得られることがわかった。 この作業は、完全に自律的な建設現場の安全システム開発における次のステップであり、この地域にはまだ改善の余地があることを示している。

In recent years, a lot of attention is paid to deep learning methods in the context of vision-based construction site safety systems, especially regarding personal protective equipment. However, despite all this attention, there is still no reliable way to establish the relationship between workers and their hard hats. To answer this problem a combination of deep learning, object detection and head keypoint localization, with simple rule-based reasoning is proposed in this article. In tests, this solution surpassed the previous methods based on the relative bounding box position of different instances, as well as direct detection of hard hat wearers and non-wearers. The results show that the conjunction of novel deep learning methods with humanly-interpretabl e rule-based systems can result in a solution that is both reliable and can successfully mimic manual, on-site supervision. This work is the next step in the development of fully autonomous construction site safety systems and shows that there is still room for improvement in this area.
翻訳日:2021-06-22 23:33:51 公開日:2021-06-21
# (参考訳) 軌道推定のための混合密度ネットワークを用いた複数物体追跡 [全文訳有]

Multiple Object Tracking with Mixture Density Networks for Trajectory Estimation ( http://arxiv.org/abs/2106.10950v1 )

ライセンス: CC BY 4.0
Andreu Girbau, Xavier Gir\'o-i-Nieto, Ignasi Rius, Ferran Marqu\'es(参考訳) 複数の物体追跡は、軌道情報で緩和される可能性のあるいくつかの課題に直面している。 物体の後方の位置を知ることは、隠蔽、再識別、アイデンティティスイッチングといった状況の曖昧化と解決に役立つ。 本研究では, 軌道推定が追跡の重要な要因となり得ることを示すとともに, 既存のオブジェクトトラッカに追加可能な汎用モジュールとして, 再帰混合密度ネットワークに基づく軌道推定器trajeを提案する。 複数の軌道仮説を提供するため,本手法ではビーム探索を用いる。 また,同じ推定軌道に依存して,閉塞発生後の軌道の再構築を提案する。 traje を centertrack [63] と tracktor [3] という2つの技術追跡アルゴリズムに統合した。 MOTChallenge 2017テストセットでのそれぞれのパフォーマンスは、MOTAスコアで6.3と0.3ポイント、IDF1で1.8と3.1ポイント向上し、CenterTrack+TrajE構成の新たな状態が設定されている。

Multiple object tracking faces several challenges that may be alleviated with trajectory information. Knowing the posterior locations of an object helps disambiguating and solving situations such as occlusions, re-identification, and identity switching. In this work, we show that trajectory estimation can become a key factor for tracking, and present TrajE, a trajectory estimator based on recurrent mixture density networks, as a generic module that can be added to existing object trackers. To provide several trajectory hypotheses, our method uses beam search. Also, relying on the same estimated trajectory, we propose to reconstruct a track after an occlusion occurs. We integrate TrajE into two state of the art tracking algorithms, CenterTrack [63] and Tracktor [3]. Their respective performances in the MOTChallenge 2017 test set are boosted 6.3 and 0.3 points in MOTA score, and 1.8 and 3.1 in IDF1, setting a new state of the art for the CenterTrack+TrajE configuration
翻訳日:2021-06-22 23:12:31 公開日:2021-06-21
# (参考訳) 重み付き時系列のロバストモデリングのためのスプリケート結合パレート分布 [全文訳有]

Spliced Binned-Pareto Distribution for Robust Modeling of Heavy-tailed Time Series ( http://arxiv.org/abs/2106.10952v1 )

ライセンス: CC BY 4.0
Elena Ehrlich, Laurent Callot, Fran\c{c}ois-Xavier Aubet(参考訳) 本研究は,非定常シナリオにおいて,重み付き雑音を伴う時系列を頑健かつ正確にモデル化する新しい手法を提案する。 多くの実用的な応用時系列は、古典的予測モデルの性能に大きな影響を及ぼす重み付きノイズを持ち、特に、極端な事象の分布を正確にモデル化することは、正確な時系列異常検出を行うために不可欠である。 本研究では,極端観測に頑健で,完全な分布を正確にモデル化できるスプリケード・ビンテッド・パレート分布を提案する。 本手法は,テールヘビーネスなどの分布の高次モーメントにおける時間依存性の把握を可能にする。 提案手法の尾部推定のロバスト性と精度を,twitter上の他の最先端の技術手法であるカウント時系列と比較した。

This work proposes a novel method to robustly and accurately model time series with heavy-tailed noise, in non-stationary scenarios. In many practical application time series have heavy-tailed noise that significantly impacts the performance of classical forecasting models; in particular, accurately modeling a distribution over extreme events is crucial to performing accurate time series anomaly detection. We propose a Spliced Binned-Pareto distribution which is both robust to extreme observations and allows accurate modeling of the full distribution. Our method allows the capture of time dependencies in the higher order moments of the distribution such as the tail heaviness. We compare the robustness and the accuracy of the tail estimation of our method to other state of the art methods on Twitter mentions count time series.
翻訳日:2021-06-22 22:54:14 公開日:2021-06-21
# (参考訳) グラフを用いたテキスト要約のための抽出的アプローチ [全文訳有]

Extractive approach for text summarisation using graphs ( http://arxiv.org/abs/2106.10955v1 )

ライセンス: CC BY 4.0
Kastriot Kadriu and Milenko Obradovic(参考訳) 自然言語処理は、そのデジタル表現によってテキストを理解することを目的としている重要な分野である。 本稿では,抽出手法を用いてテキスト要約問題の解法に用いるグラフ関連アルゴリズムについて検討する。 文の類似度を測定するために,文重なりと編集距離の2つの指標を検討した。

Natural language processing is an important discipline with the aim of understanding text by its digital representation, that due to the diverse way we write and speak, is often not accurate enough. Our paper explores different graph-related algorithms that can be used in solving the text summarization problem using an extractive approach. We consider two metrics: sentence overlap and edit distance for measuring sentence similarity.
翻訳日:2021-06-22 22:47:59 公開日:2021-06-21
# (参考訳) 接触型ロボットマニピュレーションの枠組みに向けて [全文訳有]

Towards a Framework for Changing-Contact Robot Manipulation ( http://arxiv.org/abs/2106.10969v1 )

ライセンス: CC BY 4.0
Saif Sidhik, Mohan Sridharan, Dirk Ruiken(参考訳) 多くのロボット操作タスクは、ロボットが物体や表面と接触し破ることを必要とする。 このような接触ロボット操作タスクのダイナミクスは、接触や破損時に不連続であり、他の場所で連続する。 これらの不連続性は、そのようなタスクに対して単一の動的モデルや制御戦略の構築と使用を困難にする。 本稿では,このような接触操作タスクの円滑なダイナミクスと制御のためのフレームワークを提案する。 任意の目標運動軌跡に対して、このフレームワークはいつ接触が起こるかの予測を漸進的に改善する。 この予測と衝突力に関するモデルにより、運動列の速度プロファイルが$C^\infty$滑らかになるように修正され、衝撃に対する所望の力を達成する。 このフレームワークは,連続接触タスクのためのハイブリッド力移動可変インピーダンス制御を用いて実装する。 異なる特性の表面の遷移を伴う複数の接触変化を含むスライディングタスクの図解的文脈における我々の枠組みを実験的に評価した。

Many robot manipulation tasks require the robot to make and break contact with objects and surfaces. The dynamics of such changing-contact robot manipulation tasks are discontinuous when contact is made or broken, and continuous elsewhere. These discontinuities make it difficult to construct and use a single dynamics model or control strategy for any such task. We present a framework for smooth dynamics and control of such changing-contact manipulation tasks. For any given target motion trajectory, the framework incrementally improves its prediction of when contacts will occur. This prediction and a model relating approach velocity to impact force modify the velocity profile of the motion sequence such that it is $C^\infty$ smooth, and help achieve a desired force on impact. We implement this framework by building on our hybrid force-motion variable impedance controller for continuous contact tasks. We experimentally evaluate our framework in the illustrative context of sliding tasks involving multiple contact changes with transitions between surfaces of different properties.
翻訳日:2021-06-22 22:41:31 公開日:2021-06-21
# (参考訳) 二重コントラスト学習による介入型ビデオグラウンディング [全文訳有]

Interventional Video Grounding with Dual Contrastive Learning ( http://arxiv.org/abs/2106.11013v1 )

ライセンス: CC BY 4.0
Guoshun Nan, Rui Qiao, Yao Xiao, Jun Liu, Sicong Leng, Hao Zhang, Wei Lu(参考訳) video groundingは、特定のテキストクエリのために、未検索の動画から瞬間をローカライズすることを目的としている。 既存のアプローチは、様々な可能性ベースのマッチングや回帰戦略、すなわちP(Y|X)との視覚的刺激と言語刺激のアライメントに焦点を当てている。 その結果、これらのモデルは、データセットの選択バイアスにより、言語とビデオの特徴の間に急激な相関が生じる可能性がある。 1) モデルとデータの背後にある因果関係を明らかにするために,まず, バックドア調整を利用して, 構造的因果モデル(SCM)とdo-calculus P(Y|do(X))に基づいて選択バイアスを分解する介入ビデオグラウンドディング(IVG)という, 因果推論の観点から, 新たなパラダイムを提案する。 そして、データセットから直接サンプリングできないため、観測されていない共同創設者を近似する単純で効果的な方法を提案する。 2) 検索とビデオクリップ間の相互情報(MI)を最大化してテキストとビデオの整合性を向上する2つのコントラスト学習手法 (DCL) を導入し, 対象モーメントの開始/終了フレームと映像内の他のフレーム間のMIを用いて, より情報的な視覚表現を学習する。 3つの標準ベンチマークの実験は、我々のアプローチの有効性を示している。

Video grounding aims to localize a moment from an untrimmed video for a given textual query. Existing approaches focus more on the alignment of visual and language stimuli with various likelihood-based matching or regression strategies, i.e., P(Y|X). Consequently, these models may suffer from spurious correlations between the language and video features due to the selection bias of the dataset. 1) To uncover the causality behind the model and data, we first propose a novel paradigm from the perspective of the causal inference, i.e., interventional video grounding (IVG) that leverages backdoor adjustment to deconfound the selection bias based on structured causal model (SCM) and do-calculus P(Y|do(X)). Then, we present a simple yet effective method to approximate the unobserved confounder as it cannot be directly sampled from the dataset. 2) Meanwhile, we introduce a dual contrastive learning approach (DCL) to better align the text and video by maximizing the mutual information (MI) between query and video clips, and the MI between start/end frames of a target moment and the others within a video to learn more informative visual representations. Experiments on three standard benchmarks show the effectiveness of our approaches.
翻訳日:2021-06-22 22:27:29 公開日:2021-06-21
# (参考訳) オンライン予測課題に対するニューラル制御微分方程式 [全文訳有]

Neural Controlled Differential Equations for Online Prediction Tasks ( http://arxiv.org/abs/2106.11028v1 )

ライセンス: CC BY 4.0
James Morrill, Patrick Kidger, Lingyi Yang, Terry Lyons(参考訳) ニューラル制御微分方程式(Neural Control differential equations、Neural CDEs)は、リカレントニューラルネットワーク(RNN)の連続的拡張であり、不規則時系列のモデリング機能において最先端(SOTA)性能を達成する。 離散データを連続的に解釈するために、現在の実装はデータの非因果補間に依存している。 これは、全時系列が事前に観測されている場合は問題ないが、ニューラルネットワークcdは、リアルタイムに予測を行う必要がある \textit{online prediction tasks} での使用には適していないことを意味する。 ここでは,この制限を正す方法を示す。 まず,神経cdの補間スキームが有界性や一意性など,いくつかの理論的条件を明らかにする。 第二に、これらの条件に対処する新しいスキームの導入を動機付け、特に測定可能性(オンライン予測)と滑らかさ(速度)を提供する。 第三に、MIMIC-IVの医療データベースからの3つの連続監視タスクに対して、オンラインのNeural CDEモデルを実証的にベンチマークします。

Neural controlled differential equations (Neural CDEs) are a continuous-time extension of recurrent neural networks (RNNs), achieving state-of-the-art (SOTA) performance at modelling functions of irregular time series. In order to interpret discrete data in continuous time, current implementations rely on non-causal interpolations of the data. This is fine when the whole time series is observed in advance, but means that Neural CDEs are not suitable for use in \textit{online prediction tasks}, where predictions need to be made in real-time: a major use case for recurrent networks. Here, we show how this limitation may be rectified. First, we identify several theoretical conditions that interpolation schemes for Neural CDEs should satisfy, such as boundedness and uniqueness. Second, we use these to motivate the introduction of new schemes that address these conditions, offering in particular measurability (for online prediction), and smoothness (for speed). Third, we empirically benchmark our online Neural CDE model on three continuous monitoring tasks from the MIMIC-IV medical database: we demonstrate improved performance on all tasks against ODE benchmarks, and on two of the three tasks against SOTA non-ODE benchmarks.
翻訳日:2021-06-22 22:09:29 公開日:2021-06-21
# (参考訳) 解析的トラクタブルベイズ深部Q-Learning [全文訳有]

Analytically Tractable Bayesian Deep Q-Learning ( http://arxiv.org/abs/2106.11086v1 )

ライセンス: CC BY 4.0
Luong Ha, Nguyen and James-A. Goulet(参考訳) 強化学習(Reinforcement Learning, RL)は、DQN(Deep Q-learning)を用いて、ビデオゲームのベンチマークで人間のパフォーマンスに到達できたデモ以来、関心が高まっている。 このような複雑な環境でニューラルネットワークをトレーニングするための現在のコンセンサスは、勾配に基づく最適化に依存している。 代替のベイズ深層学習法は存在するが、ほとんどは勾配に基づく最適化に依存しており、通常はatariゲーム環境のようなベンチマークではスケールしない。 さらに、これらのアプローチのどれも、ニューラルネットワークを定義する重みとバイアスの分析的推論を実行できない。 本稿では, 時間差Q-ラーニングフレームワークを用いて, 閉形式解析法を用いてニューラルネットワークのパラメータを学習可能な, 抽出可能な近似ガウス推論(TAGI)と互換性を持たせる方法について述べる。 オン・オフ・ポリティクス強化学習手法を用いた実験を通じて,我々は,tagi が高パラメータを削減しつつ,勾配に基づく最適化を必要とせず,バックプロパゲーション学習ネットワークに匹敵する性能に到達できることを実証した。

Reinforcement learning (RL) has gained increasing interest since the demonstration it was able to reach human performance on video game benchmarks using deep Q-learning (DQN). The current consensus for training neural networks on such complex environments is to rely on gradient-based optimization. Although alternative Bayesian deep learning methods exist, most of them still rely on gradient-based optimization, and they typically do not scale on benchmarks such as the Atari game environment. Moreover none of these approaches allow performing the analytical inference for the weights and biases defining the neural network. In this paper, we present how we can adapt the temporal difference Q-learning framework to make it compatible with the tractable approximate Gaussian inference (TAGI), which allows learning the parameters of a neural network using a closed-form analytical method. Throughout the experiments with on- and off-policy reinforcement learning approaches, we demonstrate that TAGI can reach a performance comparable to backpropagation-trai ned networks while using fewer hyperparameters, and without relying on gradient-based optimization.
翻訳日:2021-06-22 21:50:43 公開日:2021-06-21
# (参考訳) 双方向コントラストデータ強化による質問応答ペアのランク付け [全文訳有]

Learning to Rank Question Answer Pairs with Bilateral Contrastive Data Augmentation ( http://arxiv.org/abs/2106.11096v1 )

ライセンス: CC BY 4.0
Yang Deng, Wenxuan Zhang, Wai Lam(参考訳) 本研究では,既存のラベル付きデータとランク付けされた質問応答ペアの性能向上を目的とした,新しい,かつ使いやすいデータ拡張戦略,すなわちバイラテラル生成(BiG)を提案する。 具体的には、疑似陽性QAペアを、元のデータセットから限定された正のQAペアを微調整した2つの事前学習された生成モデルと、質問生成モデルと回答生成モデルとの対比して、擬陽性QAペアを合成する。 拡張データセットでは,質問応答ペアのランク付けを学ぶための,対照的なトレーニング目標をデザインする。 TREC-QA,WikiQA,AntiQ UEの3つのベンチマークデータセットによる実験結果から,既存のラベル付きデータをフル活用してランキングモデルの性能を大幅に改善し,異なるランキングモデルに容易に適用できることが示唆された。

In this work, we propose a novel and easy-to-apply data augmentation strategy, namely Bilateral Generation (BiG), with a contrastive training objective for improving the performance of ranking question answer pairs with existing labeled data. In specific, we synthesize pseudo-positive QA pairs in contrast to the original negative QA pairs with two pre-trained generation models, one for question generation, the other for answer generation, which are fine-tuned on the limited positive QA pairs from the original dataset. With the augmented dataset, we design a contrastive training objective for learning to rank question answer pairs. Experimental results on three benchmark datasets, namely TREC-QA, WikiQA, and ANTIQUE, show that our method significantly improves the performance of ranking models by making full use of existing labeled data and can be easily applied to different ranking models.
翻訳日:2021-06-22 21:37:38 公開日:2021-06-21
# (参考訳) 教師なし特徴選択のための低ランク辞書学習 [全文訳有]

Low-rank Dictionary Learning for Unsupervised Feature Selection ( http://arxiv.org/abs/2106.11102v1 )

ライセンス: CC BY 4.0
Mohsen Ghassemi Parsa, Hadi Zare, Mehdi Ghatee(参考訳) 生物学、コンピュータビジョン、ソーシャルネットワークなど、現実世界の応用には多くの高次元データが存在する。 効率的な学習技術とモデルの複雑さの低減を目的として,高次元データ課題に対処すべく,特徴選択手法が考案された。 これらのデータセットのラベル付けが難しいため、データの重要な特性を考慮し、教師なし設定における特徴選択プロセスには様々なアプローチがある。 本稿では,辞書学習のアイデアを低ランク表現に適用し,教師なしの新たな特徴選択手法を提案する。 低ランク表現による辞書学習は,新しい表現の提供を可能にするだけでなく,特徴相関も維持する。 次に、スペクトル分析を用いてサンプル類似性を保存する。 最後に、教師なし特徴選択のための統一目的関数は、$\ell_{2,1}$-norm正規化によってスパース的に提案される。 さらに, 最適化問題を解くために, 効率的な数値アルゴリズムを考案した。 本稿では,様々な適用領域の標準データセットに基づいて提案手法の性能を示す。 実験の結果,提案手法が最先端アルゴリズムよりも優れていることがわかった。

There exist many high-dimensional data in real-world applications such as biology, computer vision, and social networks. Feature selection approaches are devised to confront with high-dimensional data challenges with the aim of efficient learning technologies as well as reduction of models complexity. Due to the hardship of labeling on these datasets, there are a variety of approaches on feature selection process in an unsupervised setting by considering some important characteristics of data. In this paper, we introduce a novel unsupervised feature selection approach by applying dictionary learning ideas in a low-rank representation. Dictionary learning in a low-rank representation not only enables us to provide a new representation, but it also maintains feature correlation. Then, spectral analysis is employed to preserve sample similarities. Finally, a unified objective function for unsupervised feature selection is proposed in a sparse way by an $\ell_{2,1}$-norm regularization. Furthermore, an efficient numerical algorithm is designed to solve the corresponding optimization problem. We demonstrate the performance of the proposed method based on a variety of standard datasets from different applied domains. Our experimental findings reveal that the proposed method outperforms the state-of-the-art algorithm.
翻訳日:2021-06-22 21:27:54 公開日:2021-06-21
# (参考訳) 乱流の壁模型の科学的多エージェント強化学習 [全文訳有]

Scientific multi-agent reinforcement learning for wall-models of turbulent flows ( http://arxiv.org/abs/2106.11144v1 )

ライセンス: CC BY 4.0
H. Jane Bae, Petros Koumoutsakos(参考訳) 空力設計と天気予報に重要な乱流シミュレーションの予測能力は、乱流モデルの選択に対するヒンジである。 実験やシミュレーションからのデータの豊富さと機械学習の出現は、これらのモデリング努力を後押ししている。 しかし, 乱流のシミュレーションは, ヒューリスティックスや教師付き学習が不可能なため, 壁近傍の力学をモデル化できないままである。 大規模シミュレーション(LES)のための壁モデル発見のために,科学的なマルチエージェント強化学習(SciMARL)を導入することで,この問題に対処する。 SciMARLでは、離散化ポイントはLESクロージャモデルの提供を学ぶ協調エージェントとしても機能する。 エージェントは制限されたデータを使って自己学習し、極値レイノルズ数と以前には見つからなかったジオメトリに一般化する。 本シミュレーションは,鍵フロー量を再現しながら,完全解決シミュレーションよりも計算コストを数桁削減する。 我々は,SciMARLが乱流シミュレーションの新たな能力を生み出すと考えている。

The predictive capabilities of turbulent flow simulations, critical for aerodynamic design and weather prediction, hinge on the choice of turbulence models. The abundance of data from experiments and simulations and the advent of machine learning have provided a boost to these modeling efforts. However, simulations of turbulent flows remain hindered by the inability of heuristics and supervised learning to model the near-wall dynamics. We address this challenge by introducing scientific multi-agent reinforcement learning (SciMARL) for the discovery of wall models for large-eddy simulations (LES). In SciMARL, discretization points act also as cooperating agents that learn to supply the LES closure model. The agents self-learn using limited data and generalize to extreme Reynolds numbers and previously unseen geometries. The present simulations reduce by several orders of magnitude the computational cost over fully-resolved simulations while reproducing key flow quantities. We believe that SciMARL creates new capabilities for the simulation of turbulent flows.
翻訳日:2021-06-22 20:59:46 公開日:2021-06-21
# (参考訳) FP-Age:野生における顔面年齢推定のための顔解析注意の活用 [全文訳有]

FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild ( http://arxiv.org/abs/2106.11145v1 )

ライセンス: CC BY 4.0
Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic(参考訳) 画像に基づく年齢推定は、顔画像から人の年齢を予測することを目的としている。 様々な現実世界のアプリケーションで使われている。 エンドツーエンドのディープモデルは、ベンチマークデータセットの年齢推定において驚くべき結果を得たが、そのパフォーマンスは、頭ポーズ、表情、オクルージョンの大きなバリエーションに起因する課題のために、まだ改善の余地が残っていない。 そこで本研究では,頭部のポーズや非剛性変形によらず,不整合顔画像から最も情報性の高い顔成分に焦点を合わせることを学習するために,顔のセマンティクスを年齢推定に明示的に組み込む,シンプルかつ効果的な手法を提案する。 この目的のために,異なるスケールで意味情報を学習するための顔解析ベースのネットワークと,これらの意味的特徴を年齢推定に活用するための新しい顔解析アテンションモジュールを設計する。 本手法を評価するために,imdb-cleanと呼ばれる新しい大規模ベンチマークも導入した。 このデータセットは、制約付きクラスタリング手法を用いて、ノイズの多いIMDB-WIKIデータセットを半自動クリーニングすることで作成される。 IMDB-Cleanおよび他のベンチマークデータセットに関する総合的な実験を通じて、データセット内およびクロスデータセット評価プロトコルの下で、我々の手法が既存の年齢推定手法を一貫して上回り、新しい最先端性能を実現することを示す。 私たちの知識を最大限に活用するために,本研究は,顔分析の注意を活用して意味認識年齢推定を実現する最初の試みを示す。

Image-based age estimation aims to predict a person's age from facial images. It is used in a variety of real-world applications. Although end-to-end deep models have achieved impressive results for age estimation on benchmark datasets, their performance in-the-wild still leaves much room for improvement due to the challenges caused by large variations in head pose, facial expressions, and occlusions. To address this issue, we propose a simple yet effective method to explicitly incorporate facial semantics into age estimation, so that the model would learn to correctly focus on the most informative facial components from unaligned facial images regardless of head pose and non-rigid deformation. To this end, we design a face parsing-based network to learn semantic information at different scales and a novel face parsing attention module to leverage these semantic features for age estimation. To evaluate our method on in-the-wild data, we also introduce a new challenging large-scale benchmark called IMDB-Clean. This dataset is created by semi-automatically cleaning the noisy IMDB-WIKI dataset using a constrained clustering method. Through comprehensive experiment on IMDB-Clean and other benchmark datasets, under both intra-dataset and cross-dataset evaluation protocols, we show that our method consistently outperforms all existing age estimation methods and achieves a new state-of-the-art performance. To the best of our knowledge, our work presents the first attempt of leveraging face parsing attention to achieve semantic-aware age estimation, which may be inspiring to other high level facial analysis tasks.
翻訳日:2021-06-22 20:44:54 公開日:2021-06-21
# (参考訳) チームワークにおけるカリキュラム駆動型マルチエージェント学習と暗黙コミュニケーションの役割 [全文訳有]

Curriculum-Driven Multi-Agent Learning and the Role of Implicit Communication in Teamwork ( http://arxiv.org/abs/2106.11156v1 )

ライセンス: CC BY 4.0
Niko A. Grupen, Daniel D. Lee, Bart Selman(参考訳) 難解なマルチエージェントコーディネーションタスクを解決するためのカリキュラム駆動型学習戦略を提案する。 本手法は,動物コミュニケーションの研究に触発され,自然界におけるコミュニケーションプロトコルの広帯域化を支援する2つの簡単な設計特徴(相互報酬と分散化)が示された。 創発的コミュニケーションをスペクトルとして解釈することの重要性を強調する。 トロイダルな連続空間追従回避環境を導入し, ナイーブな分散学習がうまく機能しないことを示す。 次に,マルチエージェント学習のためのカリキュラム駆動型戦略を提案する。 追従回避実験により,本手法は分散的追従者に対して,優れた回避策のコーディネートと捕捉の学習を可能にし,高度な解析政策を著しく上回ることを示す。 Instantaneous Coordinationのような影響に基づく尺度を含む追加の定量的分析を通じて、創発的な暗黙的なコミュニケーションは、より優れた調整レベルを実現する上で大きな役割を果たす。

We propose a curriculum-driven learning strategy for solving difficult multi-agent coordination tasks. Our method is inspired by a study of animal communication, which shows that two straightforward design features (mutual reward and decentralization) support a vast spectrum of communication protocols in nature. We highlight the importance of similarly interpreting emergent communication as a spectrum. We introduce a toroidal, continuous-space pursuit-evasion environment and show that naive decentralized learning does not perform well. We then propose a novel curriculum-driven strategy for multi-agent learning. Experiments with pursuit-evasion show that our approach enables decentralized pursuers to learn to coordinate and capture a superior evader, significantly outperforming sophisticated analytical policies. We argue through additional quantitative analysis -- including influence-based measures such as Instantaneous Coordination -- that emergent implicit communication plays a large role in enabling superior levels of coordination.
翻訳日:2021-06-22 20:21:18 公開日:2021-06-21
# (参考訳) 時空間ダイナミクス学習のための完全畳み込みネットワークにおける境界条件の影響 [全文訳有]

Effects of boundary conditions in fully convolutional networks for learning spatio-temporal dynamics ( http://arxiv.org/abs/2106.11160v1 )

ライセンス: CC BY 4.0
Antonio Alguacil andr Gon\c{c}alves Pinto and Michael Bauerheim and Marc C. Jacob and St\'ephane Moreau(参考訳) 境界条件の正確なモデリングは計算物理学において重要である。 物理学関連の問題に対するサロゲートとしてのニューラルネットワークの利用がますます増えているため、境界条件処理の理解が向上し、そのネットワーク精度への影響が高まる。 本稿では,リカレントタスクに適用される完全畳み込みネットワークの文脈において,境界条件(パディング,空間的コンテキストの改善,物理境界の明示的エンコーディング)を課すいくつかの戦略について検討する。 これらの戦略は、偏微分方程式によってモデル化された2つの時空間発展問題、すなわち、音波の2次元伝播(双曲PDE)と熱方程式(放物PDE)に基づいて評価される。 このような繰り返しタスクにおける境界実装における精度と安定性の両面で高い感度を示す。 次に、最適なパディング戦略の選択がデータセマンティクスに直接関連していることが示される。 さらに、追加の入力空間コンテキストや明示的な物理ベースのルールを含めることで、特に多数の再帰に対してバウンダリの扱いがより良くなり、より堅牢で安定したニューラルネットワークが実現され、そのようなネットワークの設計と汎用性が促進される。

Accurate modeling of boundary conditions is crucial in computational physics. The ever increasing use of neural networks as surrogates for physics-related problems calls for an improved understanding of boundary condition treatment, and its influence on the network accuracy. In this paper, several strategies to impose boundary conditions (namely padding, improved spatial context, and explicit encoding of physical boundaries) are investigated in the context of fully convolutional networks applied to recurrent tasks. These strategies are evaluated on two spatio-temporal evolving problems modeled by partial differential equations: the 2D propagation of acoustic waves (hyperbolic PDE) and the heat equation (parabolic PDE). Results reveal a high sensitivity of both accuracy and stability on the boundary implementation in such recurrent tasks. It is then demonstrated that the choice of the optimal padding strategy is directly linked to the data semantics. Furthermore, the inclusion of additional input spatial context or explicit physics-based rules allows a better handling of boundaries in particular for large number of recurrences, resulting in more robust and stable neural networks, while facilitating the design and versatility of such networks.
翻訳日:2021-06-22 20:01:10 公開日:2021-06-21
# (参考訳) スペクトルグラフ埋め込みと確率マッチングを用いた3次元形状登録 [全文訳有]

3D Shape Registration Using Spectral Graph Embedding and Probabilistic Matching ( http://arxiv.org/abs/2106.11166v1 )

ライセンス: CC BY 4.0
Avinash Sharma, Radu Horaud and Diana Mateus(参考訳) 本稿では3次元形状登録の問題に対処し,スペクトルグラフ理論と確率マッチングに基づく新しい手法を提案する。 3D形状解析の課題は、追跡、認識、登録などである。 3dデータを単一のフレームワークで分析することは、異なる取得デバイスで収集されたデータの大きな変動性を考慮すると、依然として難しい課題である。 3次元形状登録は、このような困難な形状解析タスクである。 この章の主な貢献は、スペクトルグラフマッチング法をラプラシアン埋め込みと組み合わせることで、非常に大きなグラフに拡張することである。 グラフの埋め込み表現は次元還元によって得られるので、既存のスペクトルベース法は容易には適用できないと主張する。 We discuss solutions for the exact and inexact graph isomorphism problems and recall the main spectral properties of the combinatorial graph Laplacian; We provide a novel analysis of the commute-time embedding that allows us to interpret the latter in terms of the PCA of a graph, and to select the appropriate dimension of the associated embedded metric space; We derive a unit hyper-sphere normalization for the commute-time embedding that allows us to register two shapes with different samplings; We propose a novel method to find the eigenvalue-eigenvect or ordering and the eigenvector signs using the eigensignature (histogram) which is invariant to the isometric shape deformations and fits well in the spectral graph matching framework, and we present a probabilistic shape matching formulation using an expectation maximization point registration algorithm which alternates between aligning the eigenbases and finding a vertex-to-vertex assignment.

We address the problem of 3D shape registration and we propose a novel technique based on spectral graph theory and probabilistic matching. The task of 3D shape analysis involves tracking, recognition, registration, etc. Analyzing 3D data in a single framework is still a challenging task considering the large variability of the data gathered with different acquisition devices. 3D shape registration is one such challenging shape analysis task. The main contribution of this chapter is to extend the spectral graph matching methods to very large graphs by combining spectral graph matching with Laplacian embedding. Since the embedded representation of a graph is obtained by dimensionality reduction we claim that the existing spectral-based methods are not easily applicable. We discuss solutions for the exact and inexact graph isomorphism problems and recall the main spectral properties of the combinatorial graph Laplacian; We provide a novel analysis of the commute-time embedding that allows us to interpret the latter in terms of the PCA of a graph, and to select the appropriate dimension of the associated embedded metric space; We derive a unit hyper-sphere normalization for the commute-time embedding that allows us to register two shapes with different samplings; We propose a novel method to find the eigenvalue-eigenvect or ordering and the eigenvector signs using the eigensignature (histogram) which is invariant to the isometric shape deformations and fits well in the spectral graph matching framework, and we present a probabilistic shape matching formulation using an expectation maximization point registration algorithm which alternates between aligning the eigenbases and finding a vertex-to-vertex assignment.
翻訳日:2021-06-22 19:47:08 公開日:2021-06-21
# (参考訳) TNT:Few-Shotビデオ分類のためのトランスダクティブ推論付きテキストコンディションネットワーク [全文訳有]

TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification ( http://arxiv.org/abs/2106.11173v1 )

ライセンス: CC BY 4.0
Andr\'es Villa, Juan-Manuel Perez-Rua, Vladimir Araujo, Juan Carlos Niebles, Victor Escorcia, Alvaro Soto(参考訳) 近年,ショット学習への関心が高まっている。 既存の努力は画像分類に重点を置いており、より挑戦的な数発のビデオ分類問題に焦点をあてる試みはほとんどない。 これらの試みはビデオの時間次元を効果的に活用し、低データ体制での学習を改善することを目的としている。 しかし、彼らはビデオの重要な特徴をほとんど無視しており、これはわずかな写真認識に不可欠であり、ビデオにはリッチなテキスト記述が伴うことが多い。 本稿では,これらのテキスト記述を,少数の映像分類モデルの訓練において特権情報として利用することを提案する。 具体的には,テキストベースのタスクコンディショナを定式化し,ビデオ機能をマイナショット学習タスクに適用する。 私たちのモデルは、クエリサンプルとテキスト記述をサポートしたトランスダクティブな設定に従い、サポートセットクラスのプロトタイプを更新し、モデルのタスク適応能力をさらに向上します。 提案モデルは,ビデオアクション分類において,4つの難解なベンチマークで最先端のパフォーマンスを得る。

Recently, few-shot learning has received increasing interest. Existing efforts have been focused on image classification, with very few attempts dedicated to the more challenging few-shot video classification problem. These few attempts aim to effectively exploit the temporal dimension in videos for better learning in low data regimes. However, they have largely ignored a key characteristic of video which could be vital for few-shot recognition, that is, videos are often accompanied by rich text descriptions. In this paper, for the first time, we propose to leverage these human-provided textual descriptions as privileged information when training a few-shot video classification model. Specifically, we formulate a text-based task conditioner to adapt video features to the few-shot learning task. Our model follows a transductive setting where query samples and support textual descriptions can be used to update the support set class prototype to further improve the task-adaptation ability of the model. Our model obtains state-of-the-art performance on four challenging benchmarks in few-shot video action classification.
翻訳日:2021-06-22 19:20:57 公開日:2021-06-21
# (参考訳) 分布ロバスト最適化による複素自由一般化 [全文訳有]

Complexity-Free Generalization via Distributionally Robust Optimization ( http://arxiv.org/abs/2106.11180v1 )

ライセンス: CC BY 4.0
Henry Lam, Yibo Zeng(参考訳) データ駆動最適化と機械学習の一般化限界を得るための確立されたアプローチは、主に仮説クラスの機能的複雑性に依存する経験的リスク最小化(erm)のソリューションに基づいている。 本稿では,分散ロバスト最適化 (distributionally robust optimization,dro) という,最近のデータ駆動型最適化フレームワークと,統計的不確かさをキャプチャする曖昧性集合の概念から,これらの解の境界を得るための代替経路を提案する。 ERMの仮説クラス複雑性とは対照的に、我々のDRO境界はあいまいな集合の幾何と真の損失関数との整合性に依存する。 特に、DRO距離計量として最大平均差分法を用いる場合、我々の分析は、我々の知識の最も良いところは、真の損失関数にのみ依存する文献における最初の一般化であり、仮説クラス上の任意の複雑性測度や境界を全く含まないことを意味する。

Established approaches to obtain generalization bounds in data-driven optimization and machine learning mostly build on solutions from empirical risk minimization (ERM), which depend crucially on the functional complexity of the hypothesis class. In this paper, we present an alternate route to obtain these bounds on the solution from distributionally robust optimization (DRO), a recent data-driven optimization framework based on worst-case analysis and the notion of ambiguity set to capture statistical uncertainty. In contrast to the hypothesis class complexity in ERM, our DRO bounds depend on the ambiguity set geometry and its compatibility with the true loss function. Notably, when using maximum mean discrepancy as a DRO distance metric, our analysis implies, to the best of our knowledge, the first generalization bound in the literature that depends solely on the true loss function, entirely free of any complexity measures or bounds on the hypothesis class.
翻訳日:2021-06-22 19:04:41 公開日:2021-06-21
# (参考訳) ファジィルール分類器のオートエンコーダの微調整について [全文訳有]

On fine-tuning of Autoencoders for Fuzzy rule classifiers ( http://arxiv.org/abs/2106.11182v1 )

ライセンス: CC BY 4.0
Rahul Kumar Sevakula, Nishchal Kumar Verma, Hisao Ishibuchi(参考訳) 近年のDeep Neural Networksの発見により、画像分類や音声分類といった非常に複雑な問題に、理論的および経験的正当性を改良して対処できるようになった。 本稿では,ファジィルール分類器(FRC)にオートエンコーダを組み込む新しい手法を提案する。 積み重ねられたオートエンコーダは、データ間の複雑な非線形関係を学習し、FRCのために構築されたフレームワークにより、システムに専門家の知識を入力することができる。 さらに,FRCの分類とルール削減性能を改善するために,オートエンコーダの4つの新しい微調整手法を提案する。 提案されたフレームワークは、5つの実世界のベンチマークデータセットでテストされている。 従来の15以上の研究と10倍のクロスバリデーション性能を比較した結果,提案手法がFRCの構築に有効であることが示唆された。

Recent discoveries in Deep Neural Networks are allowing researchers to tackle some very complex problems such as image classification and audio classification, with improved theoretical and empirical justifications. This paper presents a novel scheme to incorporate the use of autoencoders in Fuzzy rule classifiers (FRC). Autoencoders when stacked can learn the complex non-linear relationships amongst data, and the proposed framework built towards FRC can allow users to input expert knowledge to the system. This paper further introduces four novel fine-tuning strategies for autoencoders to improve the FRC's classification and rule reduction performance. The proposed framework has been tested across five real-world benchmark datasets. Elaborate comparisons with over 15 previous studies, and across 10-fold cross validation performance, suggest that the proposed methods are capable of building FRCs which can provide state of the art accuracies.
翻訳日:2021-06-22 18:45:35 公開日:2021-06-21
# (参考訳) 共変量シフト下でのオーサシップ検証のための自己校正型ニューラル確率モデル [全文訳有]

Self-Calibrating Neural-Probabilistic Model for Authorship Verification Under Covariate Shift ( http://arxiv.org/abs/2106.11196v1 )

ライセンス: CC BY 4.0
Benedikt Boenninghoff, Dorothea Kolossa, Robert M. Nickel(参考訳) 著者検証(AV)における2つの根本的な問題に対処している。 2つの論争のあるテキストのトピックのバリエーションは、ほとんどのAVシステムにとって大きなエラーの原因である。 また、深層学習av機構によって発生する確率推定値は、各トレーニングデータにおける実際のケースカウントと一致しない。 そのため、確率推定の校正が不十分である。 我々は、このフレームワークをPAN 2020からベイズ因子スコアリング(BFS)と不確実性適応層(UAL)に拡張して、両方の問題に対処しています。 2020/21 PAN AV共有タスクデータを用いた実験により,提案手法は局所的変動に対する感度を著しく低減し,システムキャリブレーションを大幅に改善することを示した。

We are addressing two fundamental problems in authorship verification (AV): Topic variability and miscalibration. Variations in the topic of two disputed texts are a major cause of error for most AV systems. In addition, it is observed that the underlying probability estimates produced by deep learning AV mechanisms oftentimes do not match the actual case counts in the respective training data. As such, probability estimates are poorly calibrated. We are expanding our framework from PAN 2020 to include Bayes factor scoring (BFS) and an uncertainty adaptation layer (UAL) to address both problems. Experiments with the 2020/21 PAN AV shared task data show that the proposed method significantly reduces sensitivities to topical variations and significantly improves the system's calibration.
翻訳日:2021-06-22 18:20:43 公開日:2021-06-21
# (参考訳) 対照的な学習はショートカットソリューションを避けることができるか? [全文訳有]

Can contrastive learning avoid shortcut solutions? ( http://arxiv.org/abs/2106.11230v1 )

ライセンス: CC BY 4.0
Joshua Robinson, Li Sun, Ke Yu, Kayhan Batmanghelich, Stefanie Jegelka, Suvrit Sra(参考訳) コントラスト学習によって学習される表現の一般化は、データのどの特徴が抽出されるかに大きく依存する。 しかし,どの特徴が抽出されるか,すなわち「ショートカット」によって下流タスクのパフォーマンスに悪影響を及ぼす行動,すなわち重要な予測的特徴を不注意に抑制することで,コントラスト損失が必ずしも十分なガイドとなるとは限らない。 特徴抽出は、いわゆるインスタンス識別タスクの難しさ(すなわち、類似点のペアと類似点のペアを区別するタスク)に影響されていることがわかった。 ハードペアはいくつかの機能表現を改善するが、以前よく表現された機能を抑圧するコストで改善される。 提案手法は, より広い範囲の予測的特徴を捉えるために, 対照的なモデルを導出するために, 正および負のサンプルを修正するための暗黙的特徴修正(IFM)を提案する。 経験的に、IMMは特徴抑制を低減し、その結果、視力や医用画像のタスクの性能が向上する。 コードは \url{https://github.com/j oshr17/ifm} で入手できる。

The generalization of representations learned via contrastive learning depends crucially on what features of the data are extracted. However, we observe that the contrastive loss does not always sufficiently guide which features are extracted, a behavior that can negatively impact the performance on downstream tasks via "shortcuts", i.e., by inadvertently suppressing important predictive features. We find that feature extraction is influenced by the difficulty of the so-called instance discrimination task (i.e., the task of discriminating pairs of similar points from pairs of dissimilar ones). Although harder pairs improve the representation of some features, the improvement comes at the cost of suppressing previously well represented features. In response, we propose implicit feature modification (IFM), a method for altering positive and negative samples in order to guide contrastive models towards capturing a wider variety of predictive features. Empirically, we observe that IFM reduces feature suppression, and as a result improves performance on vision and medical imaging tasks. The code is available at: \url{https://github.com/j oshr17/IFM}.
翻訳日:2021-06-22 18:09:00 公開日:2021-06-21
# (参考訳) VertexShuffleの360度ビデオ超解法への応用 [全文訳有]

Applying VertexShuffle Toward 360-Degree Video Super-Resolution on Focused-Icosahedral- Mesh ( http://arxiv.org/abs/2106.11253v1 )

ライセンス: CC BY 4.0
Na Li and Yao Liu(参考訳) 360度画像/ビデオ、拡張現実(AR)、仮想現実(VR)の出現に伴い、球面信号の分析と処理の需要は大幅に増大する。 しかし、球面信号から投影される平面信号に多くの労力が費やされ、例えばいくつかの問題を引き起こした。 ピクセルの無駄 歪み 近年の球面cnnの進歩により、球面信号を直接解析する可能性が開けている。 しかし、非常に大きな帯域幅の要求のため、現実世界のアプリケーションの状況に対処できないようなフルメッシュに注意を払っている。 360度ビデオストリーミングと保存計算に関連する帯域浪費問題に対処するため,我々はFocused Icosahedral Meshを用いて小さな領域を表現し,球状コンテンツを集中メッシュ領域に回転させる行列を構築した。 また,ugscnn で導入された meshconv transpose 操作と比較して,性能と効率を著しく改善できる新しい頂点シャッフル動作を提案した。 さらに,提案手法を超解像モデルに適用し,360度データの球面画素のメッシュ表現を直接操作する球面超解像モデルを提案する。 モデルを評価するために,高解像度の360度ビデオの集合を収集し,球面画像データセットを生成する。 提案する球面超解像モデルは,単純なmeshconv転置操作を用いたベースライン球面超解像モデルと比較して,性能と推論時間の両方において有意な利点があることを示す。 要約すると、我々のモデルは360度入力において優れた超解像性能を達成し、メッシュ上で16x頂点を超解像すると平均32.79dBPSNRを達成する。

With the emerging of 360-degree image/video, augmented reality (AR) and virtual reality (VR), the demand for analysing and processing spherical signals get tremendous increase. However, plenty of effort paid on planar signals that projected from spherical signals, which leading to some problems, e.g. waste of pixels, distortion. Recent advances in spherical CNN have opened up the possibility of directly analysing spherical signals. However, they pay attention to the full mesh which makes it infeasible to deal with situations in real-world application due to the extremely large bandwidth requirement. To address the bandwidth waste problem associated with 360-degree video streaming and save computation, we exploit Focused Icosahedral Mesh to represent a small area and construct matrices to rotate spherical content to the focused mesh area. We also proposed a novel VertexShuffle operation that can significantly improve both the performance and the efficiency compared to the original MeshConv Transpose operation introduced in UGSCNN. We further apply our proposed methods on super resolution model, which is the first to propose a spherical super-resolution model that directly operates on a mesh representation of spherical pixels of 360-degree data. To evaluate our model, we also collect a set of high-resolution 360-degree videos to generate a spherical image dataset. Our experiments indicate that our proposed spherical super-resolution model achieves significant benefits in terms of both performance and inference time compared to the baseline spherical super-resolution model that uses the simple MeshConv Transpose operation. In summary, our model achieves great super-resolution performance on 360-degree inputs, achieving 32.79 dB PSNR on average when super-resoluting 16x vertices on the mesh.
翻訳日:2021-06-22 17:36:15 公開日:2021-06-21
# (参考訳) 階層学習:共変量シフト下での学習改善のための汎用統計手法 [全文訳有]

Stratified Learning: a general-purpose statistical method for improved learning under Covariate Shift ( http://arxiv.org/abs/2106.11211v1 )

ライセンス: CC BY 4.0
Maximilian Autenrieth, David A. van Dyk, Roberto Trotta, David C. Stenning(参考訳) 共変量シフトは、ラベル付きトレーニング(ソース)データが共変量分布の系統的差異のためにラベル付き(ターゲット)データの代表でない場合に発生する。 共変量シフトの対象となるソースデータに基づいて訓練された教師付きモデルは、対象データに対する一般化の低さに悩まされる可能性がある。 本稿では,共変量シフト条件下での学習を改善するための新しい,統計的に原理化された理論的正当化手法を提案する。 条件付けにより,共変量シフトの効果を低減あるいは完全に排除できることを示した。 実際には、推定された傾向スコアに基づいてデータを分割して構築したサブグループ(階層)に学習者を適合させることで、バランスの取れた共変量と大幅に改良された目標予測へと導かれる。 本研究では,観測宇宙論における現代研究問題に対する汎用的手法の有効性を実証し,さらに,共変量シフト文学で広く研究されている最先端の重み付け手法とのマッチングあるいは性能比較を行った。 Sloan Data Sky Survey (SDSS) データから, 更新された「超新星光度分類チャレンジ」に関する最良のAUC (0.958) を取得し, 既存の銀河赤方偏移の条件密度推定を改善する。

Covariate shift arises when the labelled training (source) data is not representative of the unlabelled (target) data due to systematic differences in the covariate distributions. A supervised model trained on the source data subject to covariate shift may suffer from poor generalization on the target data. We propose a novel, statistically principled and theoretically justified method to improve learning under covariate shift conditions, based on propensity score stratification, a well-established methodology in causal inference. We show that the effects of covariate shift can be reduced or altogether eliminated by conditioning on propensity scores. In practice, this is achieved by fitting learners on subgroups ("strata") constructed by partitioning the data based on the estimated propensity scores, leading to balanced covariates and much-improved target prediction. We demonstrate the effectiveness of our general-purpose method on contemporary research questions in observational cosmology, and on additional benchmark examples, matching or outperforming state-of-the-art importance weighting methods, widely studied in the covariate shift literature. We obtain the best reported AUC (0.958) on the updated "Supernovae photometric classification challenge" and improve upon existing conditional density estimation of galaxy redshift from Sloan Data Sky Survey (SDSS) data.
翻訳日:2021-06-22 17:07:51 公開日:2021-06-21
# 破壊ロバスト能動的学習

Corruption Robust Active Learning ( http://arxiv.org/abs/2106.11220v1 )

ライセンス: Link先を確認
Yifang Chen, Simon S. Du, Kevin Jamieson(参考訳) 未知のラベル破壊下での2値分類のためのストリーミングベースのアクティブラーニングに関する理論的研究を行う。 この設定では、学習者がサンプルを観察するたびに、相手はラベルを破損するか否かを判定する。 まず,不正な腐敗設定(特別な場合として誤特定設定を含む)において,仮説除去閾値をわずかに拡大することで,古典的ロバストカルフレームワークが(当然のことながら)非腐敗設定とほぼ同じラベル複雑性保証を達成できることを示す。 しかし、このアルゴリズムは一般的な腐敗設定では失敗する可能性がある。 この欠点を解決するために, 汚職の有無を仮定することなく, 確実に正しいアルゴリズムを提案する。 さらに、このアルゴリズムは分解されていない設定(ロバストカルによって達成される)におけるminimaxラベルの複雑さを享受し、破損した設定で$\mathcal{o}(\varepsilon + \frac{c_{\mathrm{total}}}{n})$を達成するために$\tilde{\mathcal{o}}(c_{\mathrm{total}})$を追加するだけで$\mathcal{o}(\varepsilon + \frac{c_{\mathrm{total}}}{n})$となる。

We conduct theoretical studies on streaming-based active learning for binary classification under unknown adversarial label corruptions. In this setting, every time before the learner observes a sample, the adversary decides whether to corrupt the label or not. First, we show that, in a benign corruption setting (which includes the misspecification setting as a special case), with a slight enlargement on the hypothesis elimination threshold, the classical RobustCAL framework can (surprisingly) achieve nearly the same label complexity guarantee as in the non-corrupted setting. However, this algorithm can fail in the general corruption setting. To resolve this drawback, we propose a new algorithm which is provably correct without any assumptions on the presence of corruptions. Furthermore, this algorithm enjoys the minimax label complexity in the non-corrupted setting (which is achieved by RobustCAL) and only requires $\tilde{\mathcal{O}}(C_{\mathrm{total}})$ additional labels in the corrupted setting to achieve $\mathcal{O}(\varepsilon + \frac{C_{\mathrm{total}}}{n})$, where $\varepsilon$ is the target accuracy, $C_{\mathrm{total}}$ is the total number of corruptions and $n$ is the total number of unlabeled samples.
翻訳日:2021-06-22 16:04:54 公開日:2021-06-21
# 3次元シミュレーションのための境界グラフニューラルネットワーク

Boundary Graph Neural Networks for 3D Simulations ( http://arxiv.org/abs/2106.11299v1 )

ライセンス: Link先を確認
Andreas Mayr, Sebastian Lehner, Arno Mayrhofer, Christoph Kloss, Sepp Hochreiter, Johannes Brandstetter(参考訳) データの豊富さは、機械学習を自然科学と工学に大きな勢いを与えている。 しかし,シミュレーションによる物理過程のモデル化はいまだに困難である。 そのための鍵となる問題は、幾何学的境界の正しい取り扱いである。 三角形化された幾何学的境界は工学的応用において非常に一般的であるが、サイズや向きに関する不均一性のため、機械学習のアプローチによってモデル化することは極めて困難である。 本研究では,境界条件に対処するグラフ構造を動的に修正する境界グラフニューラルネットワーク(BGNN)を提案する。 境界グラフ構造はエッジの変更、ノード機能の拡張、仮想ノードの動的挿入によって構築される。 新しいBGNNは、産業機械の標準部品であるホッパーと回転ドラムの複雑な3次元粒状フロープロセスで試験される。 高価で複雑な離散要素法により得られた正確なシミュレーションを用いて,BGNNを計算効率,粒子流の予測精度,混合エントロピーの観点から評価した。 複雑な境界が存在する場合でも、bgnnは数十万のシミュレーション時間ステップにわたってシミュレーションの不確かさの中で正確に3dの粒状流れを再現することができ、最も顕著なのは、手作りの条件や制約を使わずに、幾何学的対象に完全に留まります。

The abundance of data has given machine learning huge momentum in natural sciences and engineering. However, the modeling of simulated physical processes remains difficult. A key problem in doing so is the correct handling of geometric boundaries. While triangularized geometric boundaries are very common in engineering applications, they are notoriously difficult to model by machine learning approaches due to their heterogeneity with respect to size and orientation. In this work, we introduce Boundary Graph Neural Networks (BGNNs), which dynamically modify graph structures to address boundary conditions. Boundary graph structures are constructed via modifying edges, augmenting node features, and dynamically inserting virtual nodes. The new BGNNs are tested on complex 3D granular flow processes of hoppers and rotating drums which are standard parts of industrial machinery. Using precise simulations that are obtained by an expensive and complex discrete element method, BGNNs are evaluated in terms of computational efficiency as well as prediction accuracy of particle flows and mixing entropies. Even if complex boundaries are present, BGNNs are able to accurately reproduce 3D granular flows within simulation uncertainties over hundreds of thousands of simulation timesteps, and most notably particles completely stay within the geometric objects without using handcrafted conditions or restrictions.
翻訳日:2021-06-22 16:04:22 公開日:2021-06-21
# DiGS : 無向点雲に対する拡散誘導形暗黙的ニューラル表現

DiGS : Divergence guided shape implicit neural representation for unoriented point clouds ( http://arxiv.org/abs/2106.10811v1 )

ライセンス: Link先を確認
Yizhak Ben-Shabat, Chamin Hewa Koneputugodage, Stephen Gould(参考訳) ニューラル形状表現は近年,形状解析や再構成作業に有効であることが示されている。 既存のニューラルネットワーク手法では、形状の暗黙のレベルセットを学ぶために点座標と対応する正規ベクトルを必要とする。 通常のベクトルは生のデータとして提供されないことが多いため、前処理段階として近似と再配向が必要であり、どちらもノイズを引き起こす可能性がある。 本稿では,通常のベクトルを入力として必要としない分岐誘導型形状表現学習手法を提案する。 距離関数の発散にソフト制約を組み込むことは、各点における未知の正規に一致する勾配を確実に指向する滑らかな解を好んでおり、場合によっては、基底真理正規ベクトルを直接使用するアプローチよりもさらに優れていることを示す。 さらに,所望の解への収束をさらに向上する正弦波形状表現ネットワークの幾何学的初期化手法を提案する。 本研究では, 面再構成作業における提案手法の有効性を評価し, 他の非オブジェクト指向手法と比較して最先端性能, 指向性手法と比較してオンパー性能を示す。

Neural shape representations have recently shown to be effective in shape analysis and reconstruction tasks. Existing neural network methods require point coordinates and corresponding normal vectors to learn the implicit level sets of the shape. Normal vectors are often not provided as raw data, therefore, approximation and reorientation are required as pre-processing stages, both of which can introduce noise. In this paper, we propose a divergence guided shape representation learning approach that does not require normal vectors as input. We show that incorporating a soft constraint on the divergence of the distance function favours smooth solutions that reliably orients gradients to match the unknown normal at each point, in some cases even better than approaches that use ground truth normal vectors directly. Additionally, we introduce a novel geometric initialization method for sinusoidal shape representation networks that further improves convergence to the desired solution. We evaluate the effectiveness of our approach on the task of surface reconstruction and show state-of-the-art performance compared to other unoriented methods and on-par performance compared to oriented methods.
翻訳日:2021-06-22 16:02:44 公開日:2021-06-21
# visual probing:自己教師あり画像表現を説明する認知フレームワーク

Visual Probing: Cognitive Framework for Explaining Self-Supervised Image Representations ( http://arxiv.org/abs/2106.11054v1 )

ライセンス: Link先を確認
Witold Oleszkiewicz, Dominika Basaj, Igor Sieradzki, Micha{\l} G\'orszczak, Barbara Rychalska, Koryna Lewandowska, Tomasz Trzci\'nski, Bartosz Zieli\'nski(参考訳) 近年,画像表現学習のための自己指導的手法が,完全教師付き競争相手に対して同等以上の結果をもたらす一方で,自己指導的アプローチの遅れを説明するための取り組みが遅れている。 本研究では,これまで自然言語処理に用いられてきた探索作業を活用することで,自己教師型モデルを記述するための新しい視覚探索フレームワークを提案する。 探索タスクは、画像部分間の意味関係に関する知識を必要とする。 そこで本研究では,視覚における自然言語の類似語(視覚語,文脈,分類)を得るための体系的アプローチを提案する。 本提案は,marrの視覚計算理論とテクスチャ,形状,線などの特徴を基礎としている。 自己指導型表現の文脈において,これらのアナログの有効性と適用性を示す。 私たちの重要な発見は、言語とビジョンの関係が、データモダリティとは無関係に、機械学習モデルがどのように機能するかを発見するための、効果的で直感的なツールになり得ることを示しています。 我々の研究は、より説明しやすく透明なAIへの多くの研究経路を開く。

Recently introduced self-supervised methods for image representation learning provide on par or superior results to their fully supervised competitors, yet the corresponding efforts to explain the self-supervised approaches lag behind. Motivated by this observation, we introduce a novel visual probing framework for explaining the self-supervised models by leveraging probing tasks employed previously in natural language processing. The probing tasks require knowledge about semantic relationships between image parts. Hence, we propose a systematic approach to obtain analogs of natural language in vision, such as visual words, context, and taxonomy. Our proposal is grounded in Marr's computational theory of vision and concerns features like textures, shapes, and lines. We show the effectiveness and applicability of those analogs in the context of explaining self-supervised representations. Our key findings emphasize that relations between language and vision can serve as an effective yet intuitive tool for discovering how machine learning models work, independently of data modality. Our work opens a plethora of research pathways towards more explainable and transparent AI.
翻訳日:2021-06-22 16:02:27 公開日:2021-06-21
# VIMPAC:masked Token予測とコントラスト学習によるビデオ事前学習

VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning ( http://arxiv.org/abs/2106.11250v1 )

ライセンス: Link先を確認
Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal(参考訳) ビデオ理解は、グローバルコンテンツの知覚と、その内部接続(例えば因果関係、運動、時空間対応)のモデル化に依存している。 これらの相互作用を学習するために、VQ-VAEを介して生成された離散化ビデオトークンにマスク列予測事前学習タスクを適用する。 テキストトークンがより独立した言語とは異なり、隣接するビデオトークンには強い相関関係(例えば、連続するビデオフレームは、通常非常によく似ている)があるため、個々のトークンを均一にマスキングすることは、有用な表現を学ぶのに難しすぎる。 この問題に対処するため,我々は空間領域と時間領域の両方に隣接する映像トークンをマスキングするブロックサイドマスキング戦略を提案する。 また、ビデオクリップが同じビデオからサンプリングされているかどうかを予測して、グローバルコンテンツをさらに捉えるために、強調なしのコントラスト学習手法も追加する。 未作成のビデオでモデルを事前トレーニングし、トレーニング済みのモデルがいくつかのビデオ理解データセット(例えば、ssv2, dive48)で最新結果に到達できることを示します。 最後に,モデルのスケーラビリティと事前学習手法の設計について詳細に分析する。 コードはhttps://github.com/a irsplay/vimpacでリリースされる。

Video understanding relies on perceiving the global content and modeling its internal connections (e.g., causality, movement, and spatio-temporal correspondence). To learn these interactions, we apply a mask-then-predict pre-training task on discretized video tokens generated via VQ-VAE. Unlike language, where the text tokens are more independent, neighboring video tokens typically have strong correlations (e.g., consecutive video frames usually look very similar), and hence uniformly masking individual tokens will make the task too trivial to learn useful representations. To deal with this issue, we propose a block-wise masking strategy where we mask neighboring video tokens in both spatial and temporal domains. We also add an augmentation-free contrastive learning method to further capture the global content by predicting whether the video clips are sampled from the same video. We pre-train our model on uncurated videos and show that our pre-trained model can reach state-of-the-art results on several video understanding datasets (e.g., SSV2, Diving48). Lastly, we provide detailed analyses on model scalability and pre-training method design. Code is released at https://github.com/a irsplay/vimpac.
翻訳日:2021-06-22 16:01:53 公開日:2021-06-21
# Adam and Training StrategiesはBNNの最適化にどのように役立つか?

How Do Adam and Training Strategies Help BNNs Optimization? ( http://arxiv.org/abs/2106.11309v1 )

ライセンス: Link先を確認
Zechun Liu, Zhiqiang Shen, Shichao Li, Koen Helwegen, Dong Huang, Kwang-Ting Cheng(参考訳) ベストパフォーマンスバイナリニューラルネットワーク(bnns)は通常、adam最適化とその多段階トレーニング変種を使用して達成される。 しかしながら、私たちの知る限りでは、AdamがBNN最適化のためのSGDや特定のトレーニング戦略をサポートする分析的説明など、他の最適化よりも優れている理由を調査する研究はほとんどない。 そこで本稿では,まずbnnにおける勾配と重みの軌跡について,訓練過程において検討する。 我々は,BNNの活性化飽和により死亡する重量を再活性化するために,アダムの2階運動量の正規化効果を示す。 適応学習率戦略により、AdamはBNNの粗い損失面を処理し、より高い一般化能力でより良い最適に到達できる。 さらに,二元ネットワークにおける実値重みの興味をそそる役割を検証し,bnn最適化の安定性と遅延性に及ぼす重み減衰の影響を明らかにする。 広範な実験と分析を通じて、既存のadamベースの最適化に基づいて、最先端のreactnetと同じアーキテクチャを使用してimagenetデータセット上で70.5%のtop-1精度を達成し、1.1%の精度を達成するシンプルなトレーニングスキームを導出する。 コードとモデルはhttps://github.com/l iuzechun/AdamBNN.com で入手できる。

The best performing Binary Neural Networks (BNNs) are usually attained using Adam optimization and its multi-step training variants. However, to the best of our knowledge, few studies explore the fundamental reasons why Adam is superior to other optimizers like SGD for BNN optimization or provide analytical explanations that support specific training strategies. To address this, in this paper we first investigate the trajectories of gradients and weights in BNNs during the training process. We show the regularization effect of second-order momentum in Adam is crucial to revitalize the weights that are dead due to the activation saturation in BNNs. We find that Adam, through its adaptive learning rate strategy, is better equipped to handle the rugged loss surface of BNNs and reaches a better optimum with higher generalization ability. Furthermore, we inspect the intriguing role of the real-valued weights in binary networks, and reveal the effect of weight decay on the stability and sluggishness of BNN optimization. Through extensive experiments and analysis, we derive a simple training scheme, building on existing Adam-based optimization, which achieves 70.5% top-1 accuracy on the ImageNet dataset using the same architecture as the state-of-the-art ReActNet while achieving 1.1% higher accuracy. Code and models are available at https://github.com/l iuzechun/AdamBNN.
翻訳日:2021-06-22 16:01:30 公開日:2021-06-21
# 生涯知覚分類のための不確かさ規則化を伴う反復的ネットワークプルーニング

Iterative Network Pruning with Uncertainty Regularization for Lifelong Sentiment Classification ( http://arxiv.org/abs/2106.11197v1 )

ライセンス: Link先を確認
Binzong Geng, Min Yang, Fajie Yuan, Shupeng Wang, Xiang Ao, Ruifeng Xu(参考訳) 生涯学習能力は、web上の意見情報の連続的なストリームを処理する感情分類器にとって不可欠である。 しかし、インクリメンタルに利用可能な情報の継続的なトレーニングが必然的に破滅的な忘れや干渉をもたらすため、深層ニューラルネットワークでは生涯学習の実行は簡単ではない。 本稿では,ネットワークプルーニングと重み正規化の原理を生かした,不確実性正則化手法(IPRLS)を用いた新規な反復型ネットワークプルーニングを提案する。 IPRLSは、不確実な正規化を反復的に行うことにより、単一BERTモデルを複数のドメインからの連続的な到着データに適応し、破滅的な忘れと干渉を避けることができる。 具体的には,大規模深層ネットワークにおける冗長パラメータの除去に反復的プルーニング法を応用し,新たなタスクの学習にフリードアップ空間を活用し,破滅的な忘れる問題に取り組む。 新しいタスクを学習する際に古いタスクを固定する代わりに、ベイジアンオンライン学習フレームワークに基づく不確実な正規化を使用して、BERTにおける古いタスクの重みの更新を制限する。 新しいタスクを学ぶことで、過去のタスクのパフォーマンスが向上します。 さらに,タスク固有の低次元残差関数をBERTの各層に並列に提案し,新しいタスクを学習する際に,基地局のBERTネットワークに格納された知識が失われやすいようにした。 16のポピュラーレビューコーパスに関する広範囲な実験により、iprls法が生涯の感情分類の強いベースラインを上回ることが示されている。 再現性のために、コードとデータをhttps://github.com/s iat-nlp/IPRLSに送信します。

Lifelong learning capabilities are crucial for sentiment classifiers to process continuous streams of opinioned information on the Web. However, performing lifelong learning is non-trivial for deep neural networks as continually training of incrementally available information inevitably results in catastrophic forgetting or interference. In this paper, we propose a novel iterative network pruning with uncertainty regularization method for lifelong sentiment classification (IPRLS), which leverages the principles of network pruning and weight regularization. By performing network pruning with uncertainty regularization in an iterative manner, IPRLS can adapta single BERT model to work with continuously arriving data from multiple domains while avoiding catastrophic forgetting and interference. Specifically, we leverage an iterative pruning method to remove redundant parameters in large deep networks so that the freed-up space can then be employed to learn new tasks, tackling the catastrophic forgetting problem. Instead of keeping the old-tasks fixed when learning new tasks, we also use an uncertainty regularization based on the Bayesian online learning framework to constrain the update of old tasks weights in BERT, which enables positive backward transfer, i.e. learning new tasks improves performance on past tasks while protecting old knowledge from being lost. In addition, we propose a task-specific low-dimensional residual function in parallel to each layer of BERT, which makes IPRLS less prone to losing the knowledge saved in the base BERT network when learning a new task. Extensive experiments on 16 popular review corpora demonstrate that the proposed IPRLS method sig-nificantly outperforms the strong baselines for lifelong sentiment classification. For reproducibility, we submit the code and data at:https://github.co m/siat-nlp/IPRLS.
翻訳日:2021-06-22 16:00:24 公開日:2021-06-21
# TCIC: イメージキャプションのためのクロス言語とビジョンを学ぶコンセプト

TCIC: Theme Concepts Learning Cross Language and Vision for Image Captioning ( http://arxiv.org/abs/2106.10936v1 )

ライセンス: Link先を確認
Zhihao Fan, Zhongyu Wei, Siyuan Wang, Ruize Wang, Zejun Li, Haijun Shan, Xuanjing Huang(参考訳) 既存の画像キャプションの研究は、通常、低レベルの事実(オブジェクトと関係)を持つシーングラフを使用して画像を表現するが、高レベルのセマンティクスを捉えない。 本稿では,高レベルなクロスモダリティセマンティクスを表現するために,テーマ概念を取り入れたテーマ概念拡張画像キャプション(tcic)フレームワークを提案する。 実際には、テーマ概念をメモリベクトルとしてモデル化し、そのベクトルを画像キャプションに組み込むために、テーマノード(ttn)付きトランスフォーマを提案する。 画像とキャプションの両方からテーマ概念が学習可能であることを考慮し,TTNに基づく表現学習のための2つの設定を提案する。 視覚面では、TTNはシーングラフに基づく特徴とテーマ概念の両方を視覚表現学習の入力として扱うように構成されている。 言語面では、TTNはキャプションとテーマの概念の両方をテキスト表現の再構成の入力として扱うように構成されている。 どちらの設定も、同じトランスフォーマーベースのデコーダでターゲットキャプションを生成する。 学習中,画像から学習したテーマ概念の表現と対応するキャプションを連携させ,相互モダリティ学習を強制する。 また,MS COCOを用いた実験結果から,提案手法の有効性が示された。

Existing research for image captioning usually represents an image using a scene graph with low-level facts (objects and relations) and fails to capture the high-level semantics. In this paper, we propose a Theme Concepts extended Image Captioning (TCIC) framework that incorporates theme concepts to represent high-level cross-modality semantics. In practice, we model theme concepts as memory vectors and propose Transformer with Theme Nodes (TTN) to incorporate those vectors for image captioning. Considering that theme concepts can be learned from both images and captions, we propose two settings for their representations learning based on TTN. On the vision side, TTN is configured to take both scene graph based features and theme concepts as input for visual representation learning. On the language side, TTN is configured to take both captions and theme concepts as input for text representation re-construction. Both settings aim to generate target captions with the same transformer-based decoder. During the training, we further align representations of theme concepts learned from images and corresponding captions to enforce the cross-modality learning. Experimental results on MS COCO show the effectiveness of our approach compared to some state-of-the-art models.
翻訳日:2021-06-22 15:59:54 公開日:2021-06-21
# 事前トレーニングは非ロバスト性も伝達する

Pre-training also Transfers Non-Robustness ( http://arxiv.org/abs/2106.10989v1 )

ライセンス: Link先を確認
Jiaming Zhang, Jitao Sang, Qi Yi, Huiwen Dong, Jian Yu(参考訳) 事前トレーニングによって、多くのタスクで最先端の成果が得られました。 一般化への貢献は認められているが,本研究では,事前学習は事前学習モデルから微調整モデルへの非ロバスト性も伝達することを示した。 画像分類を例として,まず各種データセットとネットワークバックボーンの実験を行い,ロバスト性に影響を与える要因について検討した。 さらに, 微調整モデルと標準モデルの違いを調べた結果, 非破壊性移行の原因を明らかにすることができた。 最後に,ターゲットタスクとソースタスクの違いを定式化することにより,ロバストな事前学習ソリューションを提案する。 その結果, 損耗を緩和し, 一般化を保ち, 有効性を検証した。

Pre-training has enabled many state-of-the-art results on many tasks. In spite of its recognized contribution to generalization, we observed in this study that pre-training also transfers the non-robustness from pre-trained model into the fine-tuned model. Using image classification as an example, we first conducted experiments on various datasets and network backbones to explore the factors influencing robustness. Further analysis is conducted on examining the difference between the fine-tuned model and standard model to uncover the reason leading to the non-robustness transfer. Finally, we introduce a simple robust pre-training solution by regularizing the difference between target and source tasks. Results validate the effectiveness in alleviating non-robustness and preserving generalization.
翻訳日:2021-06-22 15:58:12 公開日:2021-06-21
# 仮想アシスタントのための識別エンティティ認識言語モデル

A Discriminative Entity-Aware Language Model for Virtual Assistants ( http://arxiv.org/abs/2106.11292v1 )

ライセンス: Link先を確認
Mandana Saebi, Ernest Pusateri, Aaksha Meghawat, Christophe Van Gysel(参考訳) 仮想アシスタント(VA)では,高品質な自動音声認識(ASR)が不可欠である。 しかし、ASRは名前付きエンティティを含むVAリクエストではよく機能しない。 本研究は、実世界の知識と矛盾する名前付きエンティティ上の多くのASRエラーを観察することから始める。 従来の差別的なn-gram言語モデリングアプローチを拡張して、エンティティの型関係とエンティティ-エンティティの関係をキャプチャする機能を用いて、知識グラフ(KG)から現実世界の知識を取り入れます。 提案手法を効率的な格子再構成法により適用し, あまり普及しないエンティティをカバーする合成テストセットに対して, 25%以上の相対文誤り率削減を実現し, 均一サンプルVAテストセット上での劣化を最小限に抑えた。

High-quality automatic speech recognition (ASR) is essential for virtual assistants (VAs) to work well. However, ASR often performs poorly on VA requests containing named entities. In this work, we start from the observation that many ASR errors on named entities are inconsistent with real-world knowledge. We extend previous discriminative n-gram language modeling approaches to incorporate real-world knowledge from a Knowledge Graph (KG), using features that capture entity type-entity and entity-entity relationships. We apply our model through an efficient lattice rescoring process, achieving relative sentence error rate reductions of more than 25% on some synthesized test sets covering less popular entities, with minimal degradation on a uniformly sampled VA test set.
翻訳日:2021-06-22 15:57:42 公開日:2021-06-21
# OptiDICE:定常分布補正推定によるオフライン政策最適化

OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation ( http://arxiv.org/abs/2106.10783v1 )

ライセンス: Link先を確認
Jongmin Lee, Wonseok Jeon, Byung-Jun Lee, Joelle Pineau, Kee-Eung Kim(参考訳) エージェントは,データからのみポリシーを最適化することを目的としたオフライン強化学習(RL)を,環境の相互作用を伴わずに検討する。 オフラインRLでは、データ収集に使用される行動ポリシーから最適化された対象ポリシーの偏りから生じる、分散シフトが主な困難の原因となる。 これは通常、アクション値の過大評価を引き起こし、ブートストラップを使用するモデルフリーアルゴリズムに深刻な問題を引き起こす。 この問題を軽減するために、事前のオフラインRLアルゴリズムは、アクション値の過小評価を促進する高度な技術を使用しており、適切に調整する必要がある追加のハイパーパラメータが導入された。 本稿では,より原理化された方法で過大評価を防止するオフラインRLアルゴリズムを提案する。 我々のアルゴリズムであるOptiDICEは、最適ポリシーの定常分布補正を直接推定し、従来のオフラインRLアルゴリズムとは異なり、ポリシーの勾配に依存しない。 オフラインRLのための広範なベンチマークデータセットを用いて、OptiDICEが最先端の手法と競合することを示す。

We consider the offline reinforcement learning (RL) setting where the agent aims to optimize the policy solely from the data without further environment interactions. In offline RL, the distributional shift becomes the primary source of difficulty, which arises from the deviation of the target policy being optimized from the behavior policy used for data collection. This typically causes overestimation of action values, which poses severe problems for model-free algorithms that use bootstrapping. To mitigate the problem, prior offline RL algorithms often used sophisticated techniques that encourage underestimation of action values, which introduces an additional set of hyperparameters that need to be tuned properly. In this paper, we present an offline RL algorithm that prevents overestimation in a more principled way. Our algorithm, OptiDICE, directly estimates the stationary distribution corrections of the optimal policy and does not rely on policy-gradients, unlike previous offline RL algorithms. Using an extensive set of benchmark datasets for offline RL, we show that OptiDICE performs competitively with the state-of-the-art methods.
翻訳日:2021-06-22 15:56:04 公開日:2021-06-21
# 影響最大化問題としてのグラフニューラルネットワークの逆攻撃

Adversarial Attack on Graph Neural Networks as An Influence Maximization Problem ( http://arxiv.org/abs/2106.10785v1 )

ライセンス: Link先を確認
Jiaqi Ma, Junwei Deng, Qiaozhu Mei(参考訳) グラフニューラルネットワーク(GNN)が注目されている。 現実世界のアプリケーションに広範にGNNが展開されているため、特に現実的な環境では、敵攻撃下でのGNNの堅牢性を理解する必要がある。 本研究では,モデルパラメータやモデル予測へのアクセスを伴わずに,少数のノードの機能を摂動することで,GNNを限定的で現実的な設定で攻撃する問題について検討する。 我々の形式解析は、このタイプの攻撃と、グラフ上の影響最大化問題との間の関係を描いている。 この接続は、GNNに対する敵攻撃問題に対する理解を深めるだけでなく、効果的で実用的な攻撃戦略のグループを提案することができる。 実験により,提案手法が3種類のgnnモデルの性能を著しく低下させ,ベースライン攻撃戦略を上回ることを確認した。

Graph neural networks (GNNs) have attracted increasing interests. With broad deployments of GNNs in real-world applications, there is an urgent need for understanding the robustness of GNNs under adversarial attacks, especially in realistic setups. In this work, we study the problem of attacking GNNs in a restricted and realistic setup, by perturbing the features of a small set of nodes, with no access to model parameters and model predictions. Our formal analysis draws a connection between this type of attacks and an influence maximization problem on the graph. This connection not only enhances our understanding on the problem of adversarial attack on GNNs, but also allows us to propose a group of effective and practical attack strategies. Our experiments verify that the proposed attack strategies significantly degrade the performance of three popular GNN models and outperform baseline adversarial attack strategies.
翻訳日:2021-06-22 15:55:47 公開日:2021-06-21
# オープンセットラベルノイズは固有ラベルノイズに対するロバスト性を改善する

Open-set Label Noise Can Improve Robustness Against Inherent Label Noise ( http://arxiv.org/abs/2106.10891v1 )

ライセンス: Link先を確認
Hongxin Wei, Lue Tao, Renchunzi Xie, Bo An(参考訳) 雑音ラベルによる学習は、弱い教師付き学習において事実上困難な問題である。 既存の文献では、閉集合ノイズと同様に、開集合ノイズは一般化には有毒であると考えられている。 本稿では, オープンセットノイズラベルが非毒性であり, 固有ノイズラベルに対するロバスト性にもメリットがあることを実証的に示す。 本研究では, 動的雑音ラベル(ODNL)を用いたオープンセットサンプルをトレーニングに導入することにより, 簡便かつ効果的な正則化を提案する。 ODNLでは、ニューラルネットワークの余分な容量を、クリーンなデータからの学習パターンに干渉しない方法で大きく消費することができる。 sgdノイズのレンズを通して, 本手法によるノイズはランダム指向性, コンフリクトフリー, バイアスドであり, モデルがより安定な平準に収束し, 分散インスタンス上で保守的予測を強制するのに役立つことを示す。 各種雑音ラベルを用いたベンチマークデータセットの広範な実験結果から,提案手法が既存のロバストアルゴリズムの性能を向上させるだけでなく,ラベルノイズ設定においても分散検出タスクの大幅な改善を実現することが示された。

Learning with noisy labels is a practically challenging problem in weakly supervised learning. In the existing literature, open-set noises are always considered to be poisonous for generalization, similar to closed-set noises. In this paper, we empirically show that open-set noisy labels can be non-toxic and even benefit the robustness against inherent noisy labels. Inspired by the observations, we propose a simple yet effective regularization by introducing Open-set samples with Dynamic Noisy Labels (ODNL) into training. With ODNL, the extra capacity of the neural network can be largely consumed in a way that does not interfere with learning patterns from clean data. Through the lens of SGD noise, we show that the noises induced by our method are random-direction, conflict-free and biased, which may help the model converge to a flat minimum with superior stability and enforce the model to produce conservative predictions on Out-of-Distribution instances. Extensive experimental results on benchmark datasets with various types of noisy labels demonstrate that the proposed method not only enhances the performance of many existing robust algorithms but also achieves significant improvement on Out-of-Distribution detection tasks even in the label noise setting.
翻訳日:2021-06-22 15:55:31 公開日:2021-06-21
# バンディットのリミテッドメモリサブサンプリング戦略について

On Limited-Memory Subsampling Strategies for Bandits ( http://arxiv.org/abs/2106.10935v1 )

ライセンス: Link先を確認
Dorian Baudry (Inria, CRIStAL, CNRS), Yoan Russac (DI-ENS, CNRS, VALDA), Olivier Capp\'e (DI-ENS, CNRS, VALDA)(参考訳) 近年,サブサンプリングに基づく非パラメトリックバンディットアルゴリズムへの関心が高まっている。 しかし、これらのアプローチの欠点は、ランダムなサブサンプリングによる追加の複雑さと、報酬の全履歴の保存である。 最初の貢献は、baudryらの最近の研究で提案された、単純な決定論的サブサンプリングルールを示すことです。 (2020) は 'last-block subsampling' という名前で、一パラメータ指数関数族において漸近的に最適である。 さらに,これらの保証は,アルゴリズムメモリを時間軸の多対数関数に制限する場合にも有効であることを示す。 これらの発見は、特にアーム分布が時間とともに進化する非定常シナリオにおいて、新しい視点を開く。 本稿では,近年の観測結果のみをサブサンプリングに用い,既知の急激な変化を前提とした最適後悔保証を実現するアルゴリズムの変種を提案する。 大規模な数値シミュレーションは、特に変化が報酬の手段に影響を与えているだけでなく、このアプローチの利点を強調している。

There has been a recent surge of interest in nonparametric bandit algorithms based on subsampling. One drawback however of these approaches is the additional complexity required by random subsampling and the storage of the full history of rewards. Our first contribution is to show that a simple deterministic subsampling rule, proposed in the recent work of Baudry et al. (2020) under the name of ''last-block subsampling'', is asymptotically optimal in one-parameter exponential families. In addition, we prove that these guarantees also hold when limiting the algorithm memory to a polylogarithmic function of the time horizon. These findings open up new perspectives, in particular for non-stationary scenarios in which the arm distributions evolve over time. We propose a variant of the algorithm in which only the most recent observations are used for subsampling, achieving optimal regret guarantees under the assumption of a known number of abrupt changes. Extensive numerical simulations highlight the merits of this approach, particularly when the changes are not only affecting the means of the rewards.
翻訳日:2021-06-22 15:55:06 公開日:2021-06-21
# 対数尺度を用いた属性選択

Attribute Selection using Contranominal Scales ( http://arxiv.org/abs/2106.10978v1 )

ライセンス: Link先を確認
Dominik D\"urrschnabel, Maren Koyda, Gerd Stumme(参考訳) 形式的概念分析(FCA)は、概念を導出して格子に並べることでバイナリデータを解析することができる。 FCAの主な目的の1つは、人間がデータにカプセル化されている情報を理解できるようにすることである。 そのような格子の大きさは、高次元の対数スケールに同型である対応する形式的文脈における部分文脈の数に依存する。 本研究では,与えられた形式的文脈のすべての対数スケールの計算を可能にするアルゴリズムであるcontrafinderを提案する。 このアルゴリズムを応用して、適切な属性サブセットの選択により、形式的文脈における対数スケールの数を減少させる新しいアプローチであるデルタ調整を導入する。 コンテキストのデルタ調整は、出現するサブセミ格子のサイズを小さくし、含意集合が意味のある意味に制限されることを実証する。 これは分類タスクによって関連する知識について評価される。 したがって,提案手法は重要な概念構造を保ちながら理解性を強く向上させる。

Formal Concept Analysis (FCA) allows to analyze binary data by deriving concepts and ordering them in lattices. One of the main goals of FCA is to enable humans to comprehend the information that is encapsulated in the data; however, the large size of concept lattices is a limiting factor for the feasibility of understanding the underlying structural properties. The size of such a lattice depends on the number of subcontexts in the corresponding formal context that are isomorphic to a contranominal scale of high dimension. In this work, we propose the algorithm ContraFinder that enables the computation of all contranominal scales of a given formal context. Leveraging this algorithm, we introduce delta-adjusting, a novel approach in order to decrease the number of contranominal scales in a formal context by the selection of an appropriate attribute subset. We demonstrate that delta-adjusting a context reduces the size of the hereby emerging sub-semilattice and that the implication set is restricted to meaningful implications. This is evaluated with respect to its associated knowledge by means of a classification task. Hence, our proposed technique strongly improves understandability while preserving important conceptual structures.
翻訳日:2021-06-22 15:54:51 公開日:2021-06-21
# BernNet: Bernstein近似による任意グラフスペクトルフィルタの学習

BernNet: Learning Arbitrary Graph Spectral Filters via Bernstein Approximation ( http://arxiv.org/abs/2106.10994v1 )

ライセンス: Link先を確認
Mingguo He, Zhewei Wei, Zengfeng Huang, Hongteng Xu(参考訳) GPR-GNNやChebyNetといった代表的グラフニューラルネットワークの多くは、グラフスペクトルフィルタによる近似グラフ畳み込みである。 しかし、既存の作業は事前に定義されたフィルタの重みを適用したり、必要な制約なしにそれらを学習する。 これらの問題を克服するために、任意のグラフスペクトルフィルタを設計、学習するための単純かつ効果的なスキームを提供する理論的なサポートを持つ新しいグラフニューラルネットワークである$\textit{BernNet}$を提案する。 特に、グラフの正規化ラプラシアンスペクトル上のフィルターに対して、ベルンネットはそれを順序-$K$バーンスタイン多項式近似により推定し、ベルンシュタイン基底の係数を設定することによってスペクトル特性を設計する。 さらに、観測されたグラフとその関連信号に基づいて係数(および対応するフィルタ重み)を学習し、データに特化したベルネットを実現する。 実験により,BernNetは複雑なバンドリジェクションやコムフィルタを含む任意のスペクトルフィルタを学習でき,実世界のグラフモデリングタスクにおいて優れた性能が得られることを示した。

Many representative graph neural networks, $e.g.$, GPR-GNN and ChebyNet, approximate graph convolutions with graph spectral filters. However, existing work either applies predefined filter weights or learns them without necessary constraints, which may lead to oversimplified or ill-posed filters. To overcome these issues, we propose $\textit{BernNet}$, a novel graph neural network with theoretical support that provides a simple but effective scheme for designing and learning arbitrary graph spectral filters. In particular, for any filter over the normalized Laplacian spectrum of a graph, our BernNet estimates it by an order-$K$ Bernstein polynomial approximation and designs its spectral property by setting the coefficients of the Bernstein basis. Moreover, we can learn the coefficients (and the corresponding filter weights) based on observed graphs and their associated signals and thus achieve the BernNet specialized for the data. Our experiments demonstrate that BernNet can learn arbitrary spectral filters, including complicated band-rejection and comb filters, and it achieves superior performance in real-world graph modeling tasks.
翻訳日:2021-06-22 15:54:34 公開日:2021-06-21
# ResDMDを用いたDecadal Forecasts: Residual DMD Neural Network

Decadal Forecasts with ResDMD: a Residual DMD Neural Network ( http://arxiv.org/abs/2106.11111v1 )

ライセンス: Link先を確認
Eduardo Rodrigues, Bianca Zadrozny, Campbell Watson, David Gold(参考訳) 運用予測センターは、より気候に耐性のある社会のための長期的な意思決定を支援するために、デカダル(1-10年)予測システムに投資している。 以前に採用されていた手法は、線形力学モデルにデータに適合する動的モード分解(dmd)アルゴリズム(線形逆モデルとしても知られる)である。 DMDは通常、ランダムノイズを持つ線形系として真の力学における非線形項を近似するが、非線形項をニューラルネットワークとして明示的に表現するDMDの拡張について検討する。 我々の重み初期化により、ネットワークはトレーニング前に賢明な結果を生成し、データが利用可能になるとトレーニング後の予測を改善することができる。 本稿では,地球規模の海面温度をシミュレーションするアーキテクチャについて評価し,現状の動的モデルであるCFSv2による標準DMDと季節予測と比較する。

Operational forecasting centers are investing in decadal (1-10 year) forecast systems to support long-term decision making for a more climate-resilient society. One method that has previously been employed is the Dynamic Mode Decomposition (DMD) algorithm - also known as the Linear Inverse Model - which fits linear dynamical models to data. While the DMD usually approximates non-linear terms in the true dynamics as a linear system with random noise, we investigate an extension to the DMD that explicitly represents the non-linear terms as a neural network. Our weight initialization allows the network to produce sensible results before training and then improve the prediction after training as data becomes available. In this short paper, we evaluate the proposed architecture for simulating global sea surface temperatures and compare the results with the standard DMD and seasonal forecasts produced by the state-of-the-art dynamical model, CFSv2.
翻訳日:2021-06-22 15:54:14 公開日:2021-06-21
# GraphMixup: 自己教師型コンテキスト予測によるグラフ上のクラス不均衡ノード分類の改善

GraphMixup: Improving Class-Imbalanced Node Classification on Graphs by Self-supervised Context Prediction ( http://arxiv.org/abs/2106.11133v1 )

ライセンス: Link先を確認
Lirong Wu, Haitao Lin, Zhangyang Gao, Cheng Tan, Stan.Z.Li(参考訳) 近年、グラフニューラルネットワーク(GNN)によるノード分類タスクの処理で大きな成功を収めている。 しかし、既存のGNNの多くは、異なるクラスのノードサンプルが平衡であるという仮定に基づいているが、多くの実世界のグラフでは、クラス不均衡の問題が存在する。 この場合、GNN分類器を生データで直接訓練すると、これらの少数クラスのサンプルが不足し、結果として準最適性能が得られる。 本稿では,グラフ上のクラス不均衡ノード分類を改善するための新しいミックスアップベースフレームワークであるgraphmixupを提案する。 しかし、入力空間や埋め込み空間で直接ミックスアップを行うと、マイノリティクラスが極端に分散しているため、ドメイン外のサンプルを生成する可能性があるため、機能ミックスアップをセマンティックレベルで実行できるようにセマンティックな関係空間を構築する。 さらに,2つの文脈に基づく自己教師付き手法を適用し,グラフ構造における局所的情報と大域的情報の両方をキャプチャし,グラフデータのためのエッジミックスアップを提案する。 最後に,これらのマイノリティクラスをミックスアップすることで生成するサンプル数を適応的に決定する機構である \emph{reinforcement mixup} を開発した。 3つの実世界のデータセットに関する広範な実験は、graphmixupがクラス不均衡なノード分類タスクに真に奨励的な結果をもたらすことを示している。

Recent years have witnessed great success in handling node classification tasks with Graph Neural Networks (GNNs). However, most existing GNNs are based on the assumption that node samples for different classes are balanced, while for many real-world graphs, there exists the problem of class imbalance, i.e., some classes may have much fewer samples than others. In this case, directly training a GNN classifier with raw data would under-represent samples from those minority classes and result in sub-optimal performance. This paper presents GraphMixup, a novel mixup-based framework for improving class-imbalanced node classification on graphs. However, directly performing mixup in the input space or embedding space may produce out-of-domain samples due to the extreme sparsity of minority classes; hence we construct semantic relation spaces that allows the Feature Mixup to be performed at the semantic level. Moreover, we apply two context-based self-supervised techniques to capture both local and global information in the graph structure and then propose Edge Mixup specifically for graph data. Finally, we develop a \emph{Reinforcement Mixup} mechanism to adaptively determine how many samples are to be generated by mixup for those minority classes. Extensive experiments on three real-world datasets show that GraphMixup yields truly encouraging results for class-imbalanced node classification tasks.
翻訳日:2021-06-22 15:53:57 公開日:2021-06-21
# 時空間的注意機構を持つ方向ベースシーケンス・ツー・シーケンスモデルを用いた都市規模道路網の車両軌道予測

Vehicle Trajectory Prediction in City-scale Road Networks using a Direction-based Sequence-to-Sequence Model with Spatiotemporal Attention Mechanisms ( http://arxiv.org/abs/2106.11175v1 )

ライセンス: Link先を確認
Yuebing Liang, Zhan Zhao(参考訳) 都市規模での車両の軌道予測は、車両ナビゲーション、交通管理、位置ベースの推奨など、様々な位置情報ベースのアプリケーションにとって非常に重要である。 既存の方法は通常、軌跡をグリッドセル、道路セグメントまたは意図セットのシーケンスとして表現する。 セルベースの表現は道路網構造を無視し、他の2つは都市規模の道路網の分析において効率が低いため、いずれも理想的ではない。 さらに、ほとんどのモデルはすぐに次の位置を予測することに集中しており、長いシーケンスで一般化することは困難である。 これらの問題を解決するために,D-LSTM (Direction-based Long Short-Term Memory) と呼ばれる新しいシーケンス・ツー・シーケンスモデルを提案する。 さらに,道路ネットワークにおける動的空間依存性を捕捉する空間的注意機構と,軌道データにおける短期的および長期的時間依存性を捕捉するスライディングコンテキストウィンドウを備えた時間的注意機構を導入する。 2つの実世界の大規模タクシー軌道データセットに基づく大規模な実験により、D-LSTMは既存の車両軌道予測手法よりも優れており、提案手法の有効性と時空間注意機構の有効性が検証された。

Trajectory prediction of vehicles at the city scale is of great importance to various location-based applications such as vehicle navigation, traffic management, and location-based recommendations. Existing methods typically represent a trajectory as a sequence of grid cells, road segments or intention sets. None of them is ideal, as the cell-based representation ignores the road network structures and the other two are less efficient in analyzing city-scale road networks. In addition, most models focus on predicting the immediate next position, and are difficult to generalize for longer sequences. To address these problems, we propose a novel sequence-to-sequence model named D-LSTM (Direction-based Long Short-Term Memory), which represents each trajectory as a sequence of intersections and associated movement directions, and then feeds them into a LSTM encoder-decoder network for future trajectory generation. Furthermore, we introduce a spatial attention mechanism to capture dynamic spatial dependencies in road networks, and a temporal attention mechanism with a sliding context window to capture both short- and long-term temporal dependencies in trajectory data. Extensive experiments based on two real-world large-scale taxi trajectory datasets show that D-LSTM outperforms the existing state-of-the-art methods for vehicle trajectory prediction, validating the effectiveness of the proposed trajectory representation method and spatiotemporal attention mechanisms.
翻訳日:2021-06-22 15:53:32 公開日:2021-06-21
# 基底関数展開を用いたDeep ODE-Netの圧縮

Compressing Deep ODE-Nets using Basis Function Expansions ( http://arxiv.org/abs/2106.10820v1 )

ライセンス: Link先を確認
Alejandro Queiruga, N. Benjamin Erichson, Liam Hodgkinson, Michael W. Mahoney(参考訳) 最近導入された常微分方程式ネットワーク(ODE-Net)のクラスは、ディープラーニングと動的システムの間の実りある関係を確立する。 本研究では,基底関数の線形結合を用いて,重みを連続深さ関数として定式化する。 この視点によって、ほぼ最先端のパフォーマンスを維持しながら、再トレーニングすることなく、基礎の変更を通じて重み付けを圧縮できるのです。 結果として、推論時間とメモリフットプリントの両方が削減され、計算環境間の迅速かつ厳密な適応が可能になる。 さらに,本フレームワークは,関数投影を用いた有意義な連続時間バッチ正規化レイヤを実現する。 a)畳み込み単位を用いた画像分類タスクと(b)変換器エンコーダ単位を用いた文タグ付けタスクに連続深度モデルを適用することにより、基底関数圧縮の性能を示す。

The recently-introduced class of ordinary differential equation networks (ODE-Nets) establishes a fruitful connection between deep learning and dynamical systems. In this work, we reconsider formulations of the weights as continuous-depth functions using linear combinations of basis functions. This perspective allows us to compress the weights through a change of basis, without retraining, while maintaining near state-of-the-art performance. In turn, both inference time and the memory footprint are reduced, enabling quick and rigorous adaptation between computational environments. Furthermore, our framework enables meaningful continuous-in-time batch normalization layers using function projections. The performance of basis function compression is demonstrated by applying continuous-depth models to (a) image classification tasks using convolutional units and (b) sentence-tagging tasks using transformer encoder units.
翻訳日:2021-06-22 15:51:59 公開日:2021-06-21
# ガウス過程をもつODEのベイズ推定

Bayesian inference of ODEs with Gaussian processes ( http://arxiv.org/abs/2106.10905v1 )

ライセンス: Link先を確認
Pashupati Hegde, \c{C}a\u{g}atay Y{\i}ld{\i}z, Harri L\"ahdesm\"aki, Samuel Kaski, Markus Heinonen(参考訳) 最近の機械学習の進歩により、データから直接未知の連続時間系のダイナミクスのブラックボックス推定が提案されている。 しかし、初期の研究は近似ODE解や点推定に基づいている。 ガウス過程を用いて未知のode系の後方をデータから直接推定する,新しいベイズ非パラメトリックモデルを提案する。 ベクトル場の後方を表すために分離された関数サンプリングを用いたばらばらな変分推論を導出する。 また、任意に長い軌道からの効率的な推論を可能にする確率的射撃増強も導入する。 この手法はベクトル場後部演算の利点を示し、予測不確実性スコアは複数のODE学習タスクにおける代替手法よりも優れている。

Recent machine learning advances have proposed black-box estimation of unknown continuous-time system dynamics directly from data. However, earlier works are based on approximative ODE solutions or point estimates. We propose a novel Bayesian nonparametric model that uses Gaussian processes to infer posteriors of unknown ODE systems directly from data. We derive sparse variational inference with decoupled functional sampling to represent vector field posteriors. We also introduce a probabilistic shooting augmentation to enable efficient inference from arbitrarily long trajectories. The method demonstrates the benefit of computing vector field posteriors, with predictive uncertainty scores outperforming alternative methods on multiple ODE learning tasks.
翻訳日:2021-06-22 15:51:48 公開日:2021-06-21
# Affine-invariant Integrated Rank-Weighted Depth: Definition, Properties and Finite Sample Analysis

Affine-Invariant Integrated Rank-Weighted Depth: Definition, Properties and Finite Sample Analysis ( http://arxiv.org/abs/2106.11068v1 )

ライセンス: Link先を確認
Guillaume Staerman, Pavlo Mozharovskyi, St\'ephan Cl\'emen\c{c}on(参考訳) 統計深度の概念は、$\mathbb{R}^d$と$d\geq 2$の観測の中心的な順序を決定するので、多変量データの量子とランクを定義し、様々な統計的なタスクにそれらを使用することができる(\textit{e.g})。 推論、仮説検証)。 多くの奥行き関数は、論文において \cite{tukey75} の独創的寄与から提案されているのに対し、それらのすべてが不定値確率分布に対する分位関数の概念をエミュレートするのに望ましい性質を持っているわけではない。 本稿では、もともと \cite{IRW} で導入された \textit{integrated rank-weighted} statistics depth (IRW depth in Short form) の拡張を提案し、これにより、 \cite{ZuoS00a} で詳述された命名法に列挙された4つの鍵公理を全て満たす。 Affine-Invariant IRW depth (AI-IRW, 略してAI-IRW) と呼ばれる変種は、任意の点 $x\in \mathbb{R}^d$ に深さ値を与えるのに$X$が最も可変な方向を考慮に入れ、研究中の$d$次元ランダムベクトル $X$ の共分散/精度行列を含む。 このAI-IRW深度のサンプリング版の精度を漸近的観点から検討した。 すなわち、AI-IRW深さの統計的対向に対する集中結果が証明される。 理論解析の他,異常検出への応用も検討され,数値計算結果が提示され,我々が提案する深さ関数の妥当性に関する強い実証的証拠が得られる。

Because it determines a center-outward ordering of observations in $\mathbb{R}^d$ with $d\geq 2$, the concept of statistical depth permits to define quantiles and ranks for multivariate data and use them for various statistical tasks (\textit{e.g.} inference, hypothesis testing). Whereas many depth functions have been proposed \textit{ad-hoc} in the literature since the seminal contribution of \cite{Tukey75}, not all of them possess the properties desirable to emulate the notion of quantile function for univariate probability distributions. In this paper, we propose an extension of the \textit{integrated rank-weighted} statistical depth (IRW depth in abbreviated form) originally introduced in \cite{IRW}, modified in order to satisfy the property of \textit{affine-invariance}, fulfilling thus all the four key axioms listed in the nomenclature elaborated by \cite{ZuoS00a}. The variant we propose, referred to as the Affine-Invariant IRW depth (AI-IRW in short), involves the covariance/precision matrices of the (supposedly square integrable) $d$-dimensional random vector $X$ under study, in order to take into account the directions along which $X$ is most variable to assign a depth value to any point $x\in \mathbb{R}^d$. The accuracy of the sampling version of the AI-IRW depth is investigated from a nonasymptotic perspective. Namely, a concentration result for the statistical counterpart of the AI-IRW depth is proved. Beyond the theoretical analysis carried out, applications to anomaly detection are considered and numerical results are displayed, providing strong empirical evidence of the relevance of the depth function we propose here.
翻訳日:2021-06-22 15:51:40 公開日:2021-06-21
# Nested Variational Inference

Nested Variational Inference ( http://arxiv.org/abs/2106.11302v1 )

ライセンス: Link先を確認
Heiko Zimmermann, Hao Wu, Babak Esmaeili, Jan-Willem van de Meent(参考訳) nested variational inference (nvi) は、各レベルの入れ子レベルでの前方または逆のkl発散を最小化することにより、入れ子の重要性スプリマーの提案を学習する手法群である。 NVIは、多くの一般的な重要なサンプリング戦略に適用でき、中間密度を学習するためのメカニズムを提供しており、サンプルをガイドするヒューリスティックとして機能する。 実験では,NVI を (a) 学習したアニール経路を用いて多モード分布からのサンプルに適用し, (b) 隠れマルコフモデルにおける将来の観測可能性と (c) 階層的な深層生成モデルにおける償却推論を行うためのヒューリスティックスを学習した。 我々は,ネスト目標の最適化が,ログ平均重量と有効サンプルサイズの観点から,サンプル品質の向上につながることを観察した。

We develop nested variational inference (NVI), a family of methods that learn proposals for nested importance samplers by minimizing an forward or reverse KL divergence at each level of nesting. NVI is applicable to many commonly-used importance sampling strategies and provides a mechanism for learning intermediate densities, which can serve as heuristics to guide the sampler. Our experiments apply NVI to (a) sample from a multimodal distribution using a learned annealing path (b) learn heuristics that approximate the likelihood of future observations in a hidden Markov model and (c) to perform amortized inference in hierarchical deep generative models. We observe that optimizing nested objectives leads to improved sample quality in terms of log average weight and effective sample size.
翻訳日:2021-06-22 15:51:05 公開日:2021-06-21
# DNNにおける視覚概念のゲーム理論分類

A Game-Theoretic Taxonomy of Visual Concepts in DNNs ( http://arxiv.org/abs/2106.10938v1 )

ライセンス: Link先を確認
Xu Cheng, Chuntung Chu, Yi Zheng, Jie Ren, Quanshi Zhang(参考訳) 本稿では,DNNが新たな視点から,異なる複雑さの視覚概念をエンコードする方法を再考する。 画像中のピクセル間のゲーム理論的多階間相互作用 対象の分類学的分類とテクスチャと形状の認知的分類以外にも、視覚概念の新しい分類法を提供し、概念の複雑さの観点から形状とテクスチャのエンコーディングを解釈するのに役立つ。 このように、多階間相互作用に基づき、テクスチャを符号化するdnnの3つの特徴的な信号処理挙動を見出す。 また,dnnが形状をエンコードする柔軟性はテクスチャのエンコーディングの柔軟性よりも低いことを発見した。 さらに,dnnが異常サンプルをエンコードする方法を分析し,ネットワークアーキテクチャが相互作用に与える影響について検討する。 さらに,実世界のアプリケーションにおけるマルチオーダーインタラクションの重要な役割を明らかにする。 コードは、論文が受け入れられたときにリリースされる。

In this paper, we rethink how a DNN encodes visual concepts of different complexities from a new perspective, i.e. the game-theoretic multi-order interactions between pixels in an image. Beyond the categorical taxonomy of objects and the cognitive taxonomy of textures and shapes, we provide a new taxonomy of visual concepts, which helps us interpret the encoding of shapes and textures, in terms of concept complexities. In this way, based on multi-order interactions, we find three distinctive signal-processing behaviors of DNNs encoding textures. Besides, we also discover the flexibility for a DNN to encode shapes is lower than the flexibility of encoding textures. Furthermore, we analyze how DNNs encode outlier samples, and explore the impacts of network architectures on interactions. Additionally, we clarify the crucial role of the multi-order interactions in real-world applications. The code will be released when the paper is accepted.
翻訳日:2021-06-22 15:48:28 公開日:2021-06-21
# 分類器決定の一般的な説明枠組みにおける条件付き生成モデルの活用

Leveraging Conditional Generative Models in a General Explanation Framework of Classifier Decisions ( http://arxiv.org/abs/2106.10947v1 )

ライセンス: Link先を確認
Martin Charachon, Paul-Henry Courn\`ede, C\'eline Hudelot and Roberto Ardon(参考訳) 分類器の決定を人間に理解可能な説明を提供することは、日々のタスクでの使用に対する信頼を生み出すために不可欠である。 視覚的説明図を作成することでこの問題に対処する研究は多いが、しばしばノイズや不正確な結果を与え、問題となる分類器とは無関係なヒューリスティック正規化を強制する。 本稿では,これらの限界を克服する視覚説明問題の新たな一般的展望を提案する。 2つの条件付き生成モデルを用いて得られた2つの生成画像間の差分として視覚的な説明を生成できることを示す。 両方の生成モデルは分類器を用いて訓練され、データベースは以下の特性を強制する: (i) 第一生成器によって生成されたすべての画像は入力画像と同様に分類されるが、第二生成器の出力は反対に分類される。 (ii)生成画像は、実画像の分布に属する。 3)入力画像と対応する生成画像との距離は最小限であり、生成された要素間の差が研究された分類器の関連情報のみを明らかにする。 対称的および巡回的制約を用いて, 2つの異なる近似と一般定式化の実装を示す。 実験により,3つの公開データセットにおける最先端技術に対する大幅な改善が示された。 特に、分類器に影響を与える領域の局在は人間のアノテーションと一致している。

Providing a human-understandable explanation of classifiers' decisions has become imperative to generate trust in their use for day-to-day tasks. Although many works have addressed this problem by generating visual explanation maps, they often provide noisy and inaccurate results forcing the use of heuristic regularization unrelated to the classifier in question. In this paper, we propose a new general perspective of the visual explanation problem overcoming these limitations. We show that visual explanation can be produced as the difference between two generated images obtained via two specific conditional generative models. Both generative models are trained using the classifier to explain and a database to enforce the following properties: (i) All images generated by the first generator are classified similarly to the input image, whereas the second generator's outputs are classified oppositely. (ii) Generated images belong to the distribution of real images. (iii) The distances between the input image and the corresponding generated images are minimal so that the difference between the generated elements only reveals relevant information for the studied classifier. Using symmetrical and cyclic constraints, we present two different approximations and implementations of the general formulation. Experimentally, we demonstrate significant improvements w.r.t the state-of-the-art on three different public data sets. In particular, the localization of regions influencing the classifier is consistent with human annotations.
翻訳日:2021-06-22 15:48:15 公開日:2021-06-21
# 太陽電池モジュールのエレクトロルミネッセンス画像におけるセルレベル異常のセグメンテーション

Segmentation of cell-level anomalies in electroluminescence images of photovoltaic modules ( http://arxiv.org/abs/2106.10962v1 )

ライセンス: Link先を確認
Urtzi Otamendi and I\~nigo Martinez and Marco Quartulli and Igor G. Olaizola and Elisabeth Viles and Werther Cambarau(参考訳) 太陽光発電(pv)プラントの運転・保守(o&m)において、故障の早期同定は生産性の維持とコンポーネントの寿命の延長に不可欠である。 全ての欠陥のうち、細胞レベルの異常は深刻な故障を引き起こし、長期的には周囲のPVモジュールに影響を及ぼす可能性がある。 これらの微細な欠陥は通常、高空間分解能エレクトロルミネッセンス(EL)イメージングで捉えられる。 このような画像を取得することの難しさはデータの入手を制限した。 この作業では、この制限を超えるために、複数のデータリソースと拡張テクニックが使われています。 現在最先端検出法は、個々のPVセル画像からほとんど低レベル情報を抽出し、利用可能なトレーニングデータによってその性能を調整している。 本稿では,elイメージを介して太陽電池モジュール全体からセルレベルの異常を検出し,検出し,セグメント化する,エンドツーエンドのディープラーニングパイプラインを提案する。 提案したモジュールパイプラインは,1.オブジェクト検出(Modified Faster-RNN),2.イメージ分類(EfficientNet),3.弱教師付きセグメンテーション(autoencoder)という3つのディープラーニング技術を組み合わせた。 パイプラインのモジュール性は、ディープラーニングモデルを最先端のさらなる改善にアップグレードし、パイプラインを新たな機能へと拡張することを可能にする。

In the operation & maintenance (O&M) of photovoltaic (PV) plants, the early identification of failures has become crucial to maintain productivity and prolong components' life. Of all defects, cell-level anomalies can lead to serious failures and may affect surrounding PV modules in the long run. These fine defects are usually captured with high spatial resolution electroluminescence (EL) imaging. The difficulty of acquiring such images has limited the availability of data. For this work, multiple data resources and augmentation techniques have been used to surpass this limitation. Current state-of-the-art detection methods extract barely low-level information from individual PV cell images, and their performance is conditioned by the available training data. In this article, we propose an end-to-end deep learning pipeline that detects, locates and segments cell-level anomalies from entire photovoltaic modules via EL images. The proposed modular pipeline combines three deep learning techniques: 1. object detection (modified Faster-RNN), 2. image classification (EfficientNet) and 3. weakly supervised segmentation (autoencoder). The modular nature of the pipeline allows to upgrade the deep learning models to the further improvements in the state-of-the-art and also extend the pipeline towards new functionalities.
翻訳日:2021-06-22 15:47:55 公開日:2021-06-21
# SHREC 2021:野生における骨格に基づく手指ジェスチャー認識の追跡

SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild ( http://arxiv.org/abs/2106.10980v1 )

ライセンス: Link先を確認
Ariel Caputo, Andrea Giachetti, Simone Soso, Deborah Pintani, Andrea D'Eusanio, Stefano Pini, Guido Borghi, Alessandro Simoni, Roberto Vezzani, Rita Cucchiara, Andrea Ranieri, Franca Giannini, Katia Lupinetti, Marina Monti, Mehran Maghoumi, Joseph J. LaViola Jr, Minh-Quan Le, Hai-Dang Nguyen, Minh-Triet Tran(参考訳) ジェスチャー認識は、複合現実環境、タッチレス公共キオスク、エンタテインメントシステムなど、さまざまなアプリケーションシナリオにおける新しいインタラクションパラダイムを可能にする基本的なツールである。 手の動きの認識は、ローコストトラッカー(Ultraleap)とMRヘッドセット(Hololens、Oculus Quest)またはビデオ処理ソフトウェアモジュール(例)によって提供されるソフトウェアによって推定される手骨格のストリームから直接行うことができる。 Google Mediapipe)。 最近のスケルトンによるジェスチャーとアクション認識の進歩にもかかわらず、多くのベンチマークがオンライン認識をテストせず、限定的な辞書を使用するため、様々なジェスチャを広く認識するための実世界シナリオにおいて、現在の最先端技術がいかにうまく機能するかは不明である。 これはSHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wildの提案の動機となった。 このコンテストのために、異なるタイプと期間を含む異種ジェスチャーを用いた新しいデータセットを作成しました。 これらのジェスチャーは、オンライン認識シナリオ内のシーケンス内で見つける必要がある。 本稿では,4つの研究グループによって提案されている簡単なベースライン手法と比較して,課題課題を提示する手法の性能を示す。

Gesture recognition is a fundamental tool to enable novel interaction paradigms in a variety of application scenarios like Mixed Reality environments, touchless public kiosks, entertainment systems, and more. Recognition of hand gestures can be nowadays performed directly from the stream of hand skeletons estimated by software provided by low-cost trackers (Ultraleap) and MR headsets (Hololens, Oculus Quest) or by video processing software modules (e.g. Google Mediapipe). Despite the recent advancements in gesture and action recognition from skeletons, it is unclear how well the current state-of-the-art techniques can perform in a real-world scenario for the recognition of a wide set of heterogeneous gestures, as many benchmarks do not test online recognition and use limited dictionaries. This motivated the proposal of the SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild. For this contest, we created a novel dataset with heterogeneous gestures featuring different types and duration. These gestures have to be found inside sequences in an online recognition scenario. This paper presents the result of the contest, showing the performances of the techniques proposed by four research groups on the challenging task compared with a simple baseline method.
翻訳日:2021-06-22 15:47:35 公開日:2021-06-21
# 対数サンプルの画素への埋め込み

Delving into the pixels of adversarial samples ( http://arxiv.org/abs/2106.10996v1 )

ライセンス: Link先を確認
Blerta Lindqvist(参考訳) 対人攻撃に関する広範な研究にもかかわらず、対人攻撃が画像画素に与える影響は分かっていない。 画像ピクセルが敵の攻撃によってどのように影響を受けるかを知ることは、敵の防御力を高める可能性がある。 強い攻撃が転送されない事例に触発された私たちは、画素レベルでの敵の例を調べ、逆の攻撃が画像画素値にどのように影響するかを精査する。 我々は、いくつかのImageNetアーキテクチャ、InceptionV3、VGG19、ResNet50、およびいくつかの強力な攻撃について検討する。 攻撃は分類器のアーキテクチャによってピクセルレベルで異なる効果を持つことがわかった。 特に、入力前処理は、攻撃がピクセルに与える影響において、これまで見過ごされていた役割を担っている。 ピクセルレベルの検査の知見に基づいて、我々は最も強い攻撃を検知する新しい方法を見つける。

Despite extensive research into adversarial attacks, we do not know how adversarial attacks affect image pixels. Knowing how image pixels are affected by adversarial attacks has the potential to lead us to better adversarial defenses. Motivated by instances that we find where strong attacks do not transfer, we delve into adversarial examples at pixel level to scrutinize how adversarial attacks affect image pixel values. We consider several ImageNet architectures, InceptionV3, VGG19 and ResNet50, as well as several strong attacks. We find that attacks can have different effects at pixel level depending on classifier architecture. In particular, input pre-processing plays a previously overlooked role in the effect that attacks have on pixels. Based on the insights of pixel-level examination, we find new ways to detect some of the strongest current attacks.
翻訳日:2021-06-22 15:47:14 公開日:2021-06-21
# グレースフル劣化と関連分野

Graceful Degradation and Related Fields ( http://arxiv.org/abs/2106.11119v1 )

ライセンス: Link先を確認
Jack Dymond(参考訳) 機械学習モデルが、トレーニング対象の分布外にあるデータに遭遇すると、不適切な振る舞いをする傾向があり、最も顕著なのは、誤った予測における過度な自信である。 このような行動は、現実世界の機械学習システムに破壊的な影響を与える。 この分野では、優雅な分解は、この分散データに遭遇するモデル性能の最適化を指す。 この研究は、優雅な劣化の定義と議論であり、どのようにデプロイされた視覚システムに適用できるかを示す。 この後、関連する分野の調査が行われ、優雅な分解問題をアクティブかつパッシブなアプローチに分割する。 受動的アプローチでは、優雅な劣化は自己完結した方法でモデルによって処理され達成され、アクティブアプローチでは、疫学的不確実性に遭遇するとモデルが更新される。 この研究は問題の重要性を伝え、優雅な劣化を認識した機械学習戦略の開発を促進することを目的としている。

When machine learning models encounter data which is out of the distribution on which they were trained they have a tendency to behave poorly, most prominently over-confidence in erroneous predictions. Such behaviours will have disastrous effects on real-world machine learning systems. In this field graceful degradation refers to the optimisation of model performance as it encounters this out-of-distribution data. This work presents a definition and discussion of graceful degradation and where it can be applied in deployed visual systems. Following this a survey of relevant areas is undertaken, novelly splitting the graceful degradation problem into active and passive approaches. In passive approaches, graceful degradation is handled and achieved by the model in a self-contained manner, in active approaches the model is updated upon encountering epistemic uncertainties. This work communicates the importance of the problem and aims to prompt the development of machine learning strategies that are aware of graceful degradation.
翻訳日:2021-06-22 15:47:01 公開日:2021-06-21
# 最適ソースタスク性能は目標タスクに対する最適事前学習を示唆するか?

Does Optimal Source Task Performance Imply Optimal Pre-training for a Target Task? ( http://arxiv.org/abs/2106.11174v1 )

ライセンス: Link先を確認
Steven Gutstein, Brent Lance and Sanjay Shakkottai(参考訳) トレーニング済みのディープネットは一般的に、ニューラルネットワークのアキュラシーとトレーニング時間を改善するために使用される。 一般に、最適なソースタスク性能のためのネットの事前トレーニングは、任意の目標タスクを学習するための最善の準備であると仮定される。 これは一般的には正しくない。 最適なパフォーマンスの前に、ソースタスクのトレーニングを止めることは、新しいタスクを学ぶのに適したトレーニング済みのネットを作ることができる。 この効果を実証する実験を複数実施し,トレーニング量と学習率の影響について検討した。 さらに、これは、ソースタスクの再学習にまで及ぶ学習能力の全般的な喪失を反映していることを示す。

Pre-trained deep nets are commonly used to improve accuracies and training times for neural nets. It is generally assumed that pre-training a net for optimal source task performance best prepares it to learn an arbitrary target task. This is generally not true. Stopping source task training, prior to optimal performance, can create a pre-trained net better suited for learning a new task. We performed several experiments demonstrating this effect, as well as the influence of amount of training and of learning rate. Additionally, we show that this reflects a general loss of learning ability that even extends to relearning the source task
翻訳日:2021-06-22 15:46:46 公開日:2021-06-21
# 対照的なマルチモーダルクラスタリング

Contrastive Multi-Modal Clustering ( http://arxiv.org/abs/2106.11193v1 )

ライセンス: Link先を確認
Jie Xu, Huayi Tang, Yazhou Ren, Xiaofeng Zhu, Lifang He(参考訳) 複数のモダリティやビューから補完的な情報を探索するマルチモーダルクラスタリングは、人々の注目を集めている。 しかし、既存の研究はクラスタリングのための複数のモーダルの高レベルな意味情報を抽出することに集中することは滅多にない。 本稿では,コントラスト学習を通じてハイレベルな意味情報をマイニングできるコントラスト型マルチモーダルクラスタリング(cmmc)を提案する。 具体的には、我々のフレームワークは3つの部分から構成される。 1) 複数のオートエンコーダを最適化し、各モダリティの多様性を維持し、補完的情報を学習する。 2) 異なるモダリティから共通する高レベルな意味的特徴を学習するために,特徴対照モジュールを提案する。 (3) ラベルコントラストモジュールは,全てのモダリティに対して一貫したクラスタ割り当てを学習することを目的としている。 提案するマルチモーダルコントラスト学習により,高レベル特徴の相互情報が最大化され,低レベル潜在特徴の多様性が維持される。 さらに,学習したハイレベルな意味的特徴を活用するために,クラスタ割り当てを微調整する最大マッチング問題を解いて擬似ラベルを生成する。 CMMCはスケーラビリティに優れ、最先端のマルチモーダルクラスタリング手法よりも優れた性能を示す。

Multi-modal clustering, which explores complementary information from multiple modalities or views, has attracted people's increasing attentions. However, existing works rarely focus on extracting high-level semantic information of multiple modalities for clustering. In this paper, we propose Contrastive Multi-Modal Clustering (CMMC) which can mine high-level semantic information via contrastive learning. Concretely, our framework consists of three parts. (1) Multiple autoencoders are optimized to maintain each modality's diversity to learn complementary information. (2) A feature contrastive module is proposed to learn common high-level semantic features from different modalities. (3) A label contrastive module aims to learn consistent cluster assignments for all modalities. By the proposed multi-modal contrastive learning, the mutual information of high-level features is maximized, while the diversity of the low-level latent features is maintained. In addition, to utilize the learned high-level semantic features, we further generate pseudo labels by solving a maximum matching problem to fine-tune the cluster assignments. Extensive experiments demonstrate that CMMC has good scalability and outperforms state-of-the-art multi-modal clustering methods.
翻訳日:2021-06-22 15:46:36 公開日:2021-06-21
# Multi-VAE:マルチビュークラスタリングのためのディスタングル・ビュー・コモンとビュー・カラー・ビジュアル表現の学習

Multi-VAE: Learning Disentangled View-common and View-peculiar Visual Representations for Multi-view Clustering ( http://arxiv.org/abs/2106.11232v1 )

ライセンス: Link先を確認
Jie Xu, Yazhou Ren, Huayi Tang, Xiaorong Pu, Xiaofeng Zhu, Ming Zeng, Lifang He(参考訳) 長期的かつ重要な研究課題であるマルチビュークラスタリングは、多様な視点から補完的な情報をマイニングすることに焦点を当てている。 しかし、既存の研究はしばしば複数のビューの表現を融合させたり、共通の特徴空間におけるクラスタリングを処理したりする。 この問題に対処するために,不整合視覚表現を学習し,VAEベースのマルチビュークラスタリングフレームワーク(Multi-VAE)を提案する。 具体的には、生成モデルにおいて、ビュー共通変数と複数のビュー並列変数を定義する。 ビュー-共通変数の先行は、複数のビューの共通クラスタ係数を抽出するために導入された、およそ離散的なGumbel Softmax分布に従う。 一方、ビュー・ペキュリアル変数の事前は、各ビューの特徴的な視覚因子を表すために使われる連続ガウス分布に従う。 ビュー・共通表現とビュー・ペキュリオア表現とを分離する相互情報容量を制御することにより、複数のビューの連続視覚情報を分離することができ、それらの共通離散クラスタ情報を効果的にマイニングすることができる。 実験結果から,マルチVAEは,最先端の手法と比較して,クラスタリング性能が優れている一方で,不整合かつ説明可能な視覚表現を享受できることが示された。

Multi-view clustering, a long-standing and important research problem, focuses on mining complementary information from diverse views. However, existing works often fuse multiple views' representations or handle clustering in a common feature space, which may result in their entanglement especially for visual representations. To address this issue, we present a novel VAE-based multi-view clustering framework (Multi-VAE) by learning disentangled visual representations. Concretely, we define a view-common variable and multiple view-peculiar variables in the generative model. The prior of view-common variable obeys approximately discrete Gumbel Softmax distribution, which is introduced to extract the common cluster factor of multiple views. Meanwhile, the prior of view-peculiar variable follows continuous Gaussian distribution, which is used to represent each view's peculiar visual factors. By controlling the mutual information capacity to disentangle the view-common and view-peculiar representations, continuous visual information of multiple views can be separated so that their common discrete cluster information can be effectively mined. Experimental results demonstrate that Multi-VAE enjoys the disentangled and explainable visual representations, while obtaining superior clustering performance compared with state-of-the-art methods.
翻訳日:2021-06-22 15:46:19 公開日:2021-06-21
# tokenlearner: 8つの学習トークンで画像やビデオに何ができるか?

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? ( http://arxiv.org/abs/2106.11297v1 )

ライセンス: Link先を確認
Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova(参考訳) 本稿では,適応的に学習された一握りのトークンに依存し,画像と映像の理解タスクの両方に適用可能な,新しい視覚表現学習を提案する。 視覚データに重要なトークンをマイニングするために、手作業で設計した分割戦略を頼りにし、大量のサンプルパッチを処理します。 これにより、効率良く効果的に重要な視覚的トークンを発見でき、ビデオの長い時間軸、画像内の空間的コンテンツといった、これらのトークン間のペアワイズな注意のモデリングが可能になる。 本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。 重要なことは、トークンが適応しているため、計算量を大幅に削減して競争結果を得る。

In this paper, we introduce a novel visual representation learning which relies on a handful of adaptively learned tokens, and which is applicable to both image and video understanding tasks. Instead of relying on hand-designed splitting strategies to obtain visual tokens and processing a large number of densely sampled patches for attention, our approach learns to mine important tokens in visual data. This results in efficiently and effectively finding a few important visual tokens and enables modeling of pairwise attention between such tokens, over a longer temporal horizon for videos, or the spatial content in images. Our experiments demonstrate strong performance on several challenging benchmarks for both image and video recognition tasks. Importantly, due to our tokens being adaptive, we accomplish competitive results at significantly reduced compute amount.
翻訳日:2021-06-22 15:45:55 公開日:2021-06-21
# 総生成:人間の顔、手、体、自然の場面を生成するためのサイクル生成敵ネットワークのサイクル

Total Generate: Cycle in Cycle Generative Adversarial Networks for Generating Human Faces, Hands, Bodies, and Natural Scenes ( http://arxiv.org/abs/2106.10876v1 )

ライセンス: Link先を確認
Hao Tang, Nicu Sebe(参考訳) 本稿では,人間の顔,手,体,自然のシーンを生成するための,C2GAN(Cycle in Cycle Generative Adversarial Network)を提案する。 提案するC2GANは,入力画像データとガイダンスデータの相互利用を対話的に探索するクロスモーダルモデルである。 C2GANは2つの異なるジェネレータ、すなわち画像生成ジェネレータと誘導生成ジェネレータを含む。 両方のジェネレータは相互に接続され、エンドツーエンドの方法で訓練され、3つのサイクルサブネット、すなわち1つの画像生成サイクルと2つの誘導生成サイクルを明示的に形成する。 各サイクルは入力ドメインの再構築を目標とし、同時に他のサイクルの生成に関わる有用なアウトプットを生成する。 このように、サイクルは、画像とガイダンスの両方から補完的な情報を暗黙的に提供し、サイクル全体に追加の監督的勾配をもたらし、モデル全体のより堅牢な最適化を容易にする。 4つのガイド付き画像から画像への変換サブタスクの広範な結果から、提案したC2GANは最先端のモデルと比較してよりリアルな画像を生成するのに有効であることが示された。 コードはhttps://github.com/h a0tang/c2ganで入手できる。

We propose a novel and unified Cycle in Cycle Generative Adversarial Network (C2GAN) for generating human faces, hands, bodies, and natural scenes. Our proposed C2GAN is a cross-modal model exploring the joint exploitation of the input image data and guidance data in an interactive manner. C2GAN contains two different generators, i.e., an image-generation generator and a guidance-generation generator. Both generators are mutually connected and trained in an end-to-end fashion and explicitly form three cycled subnets, i.e., one image generation cycle and two guidance generation cycles. Each cycle aims at reconstructing the input domain and simultaneously produces a useful output involved in the generation of another cycle. In this way, the cycles constrain each other implicitly providing complementary information from both image and guidance modalities and bringing an extra supervision gradient across the cycles, facilitating a more robust optimization of the whole model. Extensive results on four guided image-to-image translation subtasks demonstrate that the proposed C2GAN is effective in generating more realistic images compared with state-of-the-art models. The code is available at https://github.com/H a0Tang/C2GAN.
翻訳日:2021-06-22 15:45:43 公開日:2021-06-21
# 公共カメラのトラップ画像から動物を見つけることができるのか?

Can poachers find animals from public camera trap images? ( http://arxiv.org/abs/2106.11236v1 )

ライセンス: Link先を確認
Sara Beery, Elizabeth Bondi(参考訳) 感度の高い高目標種を含むカメラトラップデータの位置を保護するため、多くの生態学者は、データを公開する際にカメラの緯度と経度をランダムに無視する。 例えば、ネットワーク内の各カメラに対して、真のカメラ位置の半径1km以内のランダムな位置をパブリッシュすることができる。 本稿では,カメラトラップ位置のプライバシーを維持するためのジオ・オブファシケーションの堅牢性について検討し,いくつかの単純で直感的なヒューリスティックと一般公開されたサテライト・ラスタを用いて,カメラを含む可能性のある領域を87%(ランダム・オブファシケーションが1km以内であれば)削減できることを示し,ジオ・オブファシケーションが従来考えられていたよりも有効でないことを示す。

To protect the location of camera trap data containing sensitive, high-target species, many ecologists randomly obfuscate the latitude and longitude of the camera when publishing their data. For example, they may publish a random location within a 1km radius of the true camera location for each camera in their network. In this paper, we investigate the robustness of geo-obfuscation for maintaining camera trap location privacy, and show via a case study that a few simple, intuitive heuristics and publicly available satellite rasters can be used to reduce the area likely to contain the camera by 87% (assuming random obfuscation within 1km), demonstrating that geo-obfuscation may be less effective than previously believed.
翻訳日:2021-06-22 15:45:22 公開日:2021-06-21
# 損失のない予測のための損失圧縮

Lossy Compression for Lossless Prediction ( http://arxiv.org/abs/2106.10800v1 )

ライセンス: Link先を確認
Yann Dubois, Benjamin Bloem-Reddy, Karen Ullrich, Chris J. Maddison(参考訳) ほとんどのデータは自動的に収集され、アルゴリズムによってのみ表示される。 しかし、データ圧縮機は、ダウンストリームタスクを実行するアルゴリズムに必要な情報だけでなく、知覚的忠実性を保持する。 本稿では,データ拡張などの一連の変換の下で不変な全ての予測タスクにおいて,高い性能を確保するために必要なビットレートを特徴付ける。 この理論に基づき, 神経圧縮機の訓練のための教師なし目標を設計できる。 これらの目的を用いて,8つのデータセット上のjpegと比較して,実質的なレート削減(imagenet上で1000\times$以上)を実現する汎用イメージ圧縮器を,下流の分類性能を低下させることなくトレーニングする。

Most data is automatically collected and only ever "seen" by algorithms. Yet, data compressors preserve perceptual fidelity rather than just the information needed by algorithms performing downstream tasks. In this paper, we characterize the bit-rate required to ensure high performance on all predictive tasks that are invariant under a set of transformations, such as data augmentations. Based on our theory, we design unsupervised objectives for training neural compressors. Using these objectives, we train a generic image compressor that achieves substantial rate savings (more than $1000\times$ on ImageNet) compared to JPEG on 8 datasets, without decreasing downstream classification performance.
翻訳日:2021-06-22 15:41:29 公開日:2021-06-21
# 乗算を伴わない乗算行列

Multiplying Matrices Without Multiplying ( http://arxiv.org/abs/2106.10860v1 )

ライセンス: Link先を確認
Davis Blalock, John Guttag(参考訳) 行列の乗算は機械学習における最も基本的で計算集約的な操作の1つである。 その結果,行列乗法を効率的に近似する研究が盛んに行われている。 本稿では,既存の手法よりも優れた学習アルゴリズムを提案する。 様々なドメインの何百もの行列を用いた実験では、正確な行列積よりも100\times$が速く、現在の近似メソッドよりも10\times$が速いことが示されている。 1つの行列が事前に知られているという一般的な場合、我々の手法は、乗法がゼロとなるという興味深い性質を持つ。 これらの結果から,本手法のコアオペレーションであるhash,平均化,バイトシャッフルの混合は,近年研究やハードウェア投資が盛んに行われているスカラー量子化行列製品よりも,マシンラーニングにとって有望なビルディングブロックである可能性が示唆された。

Multiplying matrices is among the most fundamental and compute-intensive operations in machine learning. Consequently, there has been significant work on efficiently approximating matrix multiplies. We introduce a learning-based algorithm for this task that greatly outperforms existing methods. Experiments using hundreds of matrices from diverse domains show that it often runs $100\times$ faster than exact matrix products and $10\times$ faster than current approximate methods. In the common case that one matrix is known ahead of time, our method also has the interesting property that it requires zero multiply-adds. These results suggest that a mixture of hashing, averaging, and byte shuffling$-$the core operations of our method$-$could be a more promising building block for machine learning than the sparsified, factorized, and/or scalar quantized matrix products that have recently been the focus of substantial research and hardware investment.
翻訳日:2021-06-22 15:41:19 公開日:2021-06-21
# 構成データに関する因果的視点

A causal view on compositional data ( http://arxiv.org/abs/2106.11234v1 )

ライセンス: Link先を確認
Elisabeth Ailer, Christian L. M\"uller, Niki Kilbertus(参考訳) 多くの科学データセットは自然に構成されている。 重要な例としては、生態学における種数、地質学における岩石組成、大規模テキストコーパスにおけるトピック組成、分子生物学におけるシークエンシング数データなどがある。 ここでは,合成が原因として作用するインストゥルメンタル変数設定において,合成データの因果的視点を示す。 全体としては、介入の観点から構成的原因の解釈に特に注目し、実践者にとっての潜在的な落とし穴を微妙に明確化する。 現代の高次元マイクロバイオームシークエンシングデータをタイムリーな応用事例として分析した結果, 多様性や豊かさといった1次元情報理論的な要約統計は, 生態学的データから因果的結論を導き出すには不十分であることが明らかとなった。 代わりに,合成サンプル空間の特殊構造を考慮した統計データ変換と回帰手法を用いて,多変量代替案を提唱する。 合成データと半合成データの比較分析では,提案手法の利点と限界が示された。 我々は,本フレームワークが,構成データの文脈における原因影響推定に有用な出発点となることを示唆する。

Many scientific datasets are compositional in nature. Important examples include species abundances in ecology, rock compositions in geology, topic compositions in large-scale text corpora, and sequencing count data in molecular biology. Here, we provide a causal view on compositional data in an instrumental variable setting where the composition acts as the cause. Throughout, we pay particular attention to the interpretation of compositional causes from the viewpoint of interventions and crisply articulate potential pitfalls for practitioners. Focusing on modern high-dimensional microbiome sequencing data as a timely illustrative use case, our analysis first reveals that popular one-dimensional information-theoreti c summary statistics, such as diversity and richness, may be insufficient for drawing causal conclusions from ecological data. Instead, we advocate for multivariate alternatives using statistical data transformations and regression techniques that take the special structure of the compositional sample space into account. In a comparative analysis on synthetic and semi-synthetic data we show the advantages and limitations of our proposal. We posit that our framework may provide a useful starting point for cause-effect estimation in the context of compositional data.
翻訳日:2021-06-22 15:40:45 公開日:2021-06-21
# 神経マーチングキューブ

Neural Marching Cubes ( http://arxiv.org/abs/2106.11272v1 )

ライセンス: Link先を確認
Zhiqin Chen, Hao Zhang(参考訳) 我々は、離散化された暗黙の場から三角形メッシュを抽出するデータ駆動型アプローチであるNeural Marching Cubes (NMC)を紹介する。 古典的mcは、個々の立方体に分離された粗いテッセレーションテンプレートによって定義される。 より洗練されたテッセルレーションが提案されているが、それぞれの立方体における頂点位置と局所メッシュ位相を決定する際には、トリリニアリティのようなヒューリスティックな仮定を行う。 原則として、これらのアプローチでは、近くの立方体(例えばシャープエッジ)間の一貫性や依存関係を明らかにする幾何学的特徴を再構築することはできない。 これらの課題に対処するために、我々は、幾何学的特徴の保存に適したテッセルレーションテンプレートを設計し、頂点位置とメッシュトポロジをトレーニングメッシュから学習し、近くの立方体からのコンテキスト情報を考慮し、ディープラーニングの観点からMCを再キャストする。 ニューラルネットワークと互換性のある出力トライアングルメッシュを表現するために,簡単な3次元畳み込みネットワークをトレーニングに利用できるコンパクトなキューブパラメタライゼーションを開発した。 設計に適合する各立方体におけるすべての位相的ケースは, 表現を用いて容易に抽出できることを示し, 結果のテッセルレーションは, いくつかの設計ガイドラインに従うことで, 自然かつ効率的に得られることを示す。 さらに,ネットワークは受容領域が限定された局所的な特徴を学習し,新しい形状や新しいデータセットを一般化する。 定量的および定性的な比較により, 神経MCアプローチの評価を行った。 特に,我々のネットワークがエッジやコーナーなどの鋭い特徴を回復できることを実証する。 ネットワークはまた、従来のアプローチよりも正確なローカルメッシュトポロジを再構築する。

We introduce Neural Marching Cubes (NMC), a data-driven approach for extracting a triangle mesh from a discretized implicit field. Classical MC is defined by coarse tessellation templates isolated to individual cubes. While more refined tessellations have been proposed, they all make heuristic assumptions, such as trilinearity, when determining the vertex positions and local mesh topologies in each cube. In principle, none of these approaches can reconstruct geometric features that reveal coherence or dependencies between nearby cubes (e.g., a sharp edge), as such information is unaccounted for, resulting in poor estimates of the true underlying implicit field. To tackle these challenges, we re-cast MC from a deep learning perspective, by designing tessellation templates more apt at preserving geometric features, and learning the vertex positions and mesh topologies from training meshes, to account for contextual information from nearby cubes. We develop a compact per-cube parameterization to represent the output triangle mesh, while being compatible with neural processing, so that a simple 3D convolutional network can be employed for the training. We show that all topological cases in each cube that are applicable to our design can be easily derived using our representation, and the resulting tessellations can also be obtained naturally and efficiently by following a few design guidelines. In addition, our network learns local features with limited receptive fields, hence it generalizes well to new shapes and new datasets. We evaluate our neural MC approach by quantitative and qualitative comparisons to all well-known MC variants. In particular, we demonstrate the ability of our network to recover sharp features such as edges and corners, a long-standing issue of MC and its variants. Our network also reconstructs local mesh topologies more accurately than previous approaches.
翻訳日:2021-06-22 15:40:27 公開日:2021-06-21
# 注意に基づく環境複雑度知覚のためのニューラルネットワーク

Attention-based Neural Network for Driving Environment Complexity Perception ( http://arxiv.org/abs/2106.11277v1 )

ライセンス: Link先を確認
Ce Zhang, Azim Eskandarian, Xuelai Du(参考訳) 環境認識は自動運転車(AV)の安全性に不可欠である。 既存のAV認識アルゴリズムは周囲の環境の複雑さを研究せず、環境の複雑さパラメータを含まない。 本稿では,周囲の運転環境の複雑さを予測できる新しい注意型ニューラルネットワークモデルを提案する。 提案モデルでは、自然な運転映像と対応する車両動力学パラメータを入力とする。 Yolo-v3オブジェクト検出アルゴリズム、ヒートマップ生成アルゴリズム、CNNベースの特徴抽出器、および特徴抽出のためのビデオおよび時系列車両のダイナミックスデータ入力のための注目ベースの特徴抽出器で構成される。 提案アルゴリズムの出力は環境複雑性パラメータである。 berkeley deepdriveデータセット(bddデータセット)と主観的にラベル付けされた環境複雑性レベルは、アルゴリズムを評価するためのモデルトレーニングと検証に使用される。 提案する注目型ネットワークは,周囲環境の複雑さを分類する平均分類精度91.22%を達成する。 環境複雑性レベルを正確に予測し、将来のAVの環境知覚研究に適用できることが証明された。

Environment perception is crucial for autonomous vehicle (AV) safety. Most existing AV perception algorithms have not studied the surrounding environment complexity and failed to include the environment complexity parameter. This paper proposes a novel attention-based neural network model to predict the complexity level of the surrounding driving environment. The proposed model takes naturalistic driving videos and corresponding vehicle dynamics parameters as input. It consists of a Yolo-v3 object detection algorithm, a heat map generation algorithm, CNN-based feature extractors, and attention-based feature extractors for both video and time-series vehicle dynamics data inputs to extract features. The output from the proposed algorithm is a surrounding environment complexity parameter. The Berkeley DeepDrive dataset (BDD Dataset) and subjectively labeled surrounding environment complexity levels are used for model training and validation to evaluate the algorithm. The proposed attention-based network achieves 91.22% average classification accuracy to classify the surrounding environment complexity. It proves that the environment complexity level can be accurately predicted and applied for future AVs' environment perception studies.
翻訳日:2021-06-22 15:39:55 公開日:2021-06-21
# UniTTS:音声スタイル制御のための統一埋め込み空間の残差学習

UniTTS: Residual Learning of Unified Embedding Space for Speech Style Control ( http://arxiv.org/abs/2106.11171v1 )

ライセンス: Link先を確認
Minsu Kang, Sungjae Kim and Injung Kim(参考訳) 干渉を避けるために重なり合うスタイル属性を学習し、制御する新しい高忠実表現型音声合成モデルUniTTSを提案する。 UniTTSは、属性の適用前後の音素埋め込み間の残差によって、単一の統合埋め込み空間における複数のスタイル属性を表す。 提案手法は, 話者IDと感情の差異を付加する際の冗長性を最小化し, 話者IDと感情に基づいて持続時間, ピッチ, エネルギーを予測できるため, 話者IDや感情などのクリーンな分離が難しい複数の属性を制御するのに有効である。 実験の結果,提案手法は複数の属性を同時に学習し,再分離が容易であることがわかった。 同様に、UniTTSは複数のスタイル属性を制御する高忠実度音声信号を合成した。 合成音声サンプルはhttps://jackson-kang .github.io/paper_wor ks/UniTTS/demosで表示される。

We propose a novel high-fidelity expressive speech synthesis model, UniTTS, that learns and controls overlapping style attributes avoiding interference. UniTTS represents multiple style attributes in a single unified embedding space by the residuals between the phoneme embeddings before and after applying the attributes. The proposed method is especially effective in controlling multiple attributes that are difficult to separate cleanly, such as speaker ID and emotion, because it minimizes redundancy when adding variance in speaker ID and emotion, and additionally, predicts duration, pitch, and energy based on the speaker ID and emotion. In experiments, the visualization results exhibit that the proposed methods learned multiple attributes harmoniously in a manner that can be easily separated again. As well, UniTTS synthesized high-fidelity speech signals controlling multiple style attributes. The synthesized speech samples are presented at https://jackson-kang .github.io/paper_wor ks/UniTTS/demos.
翻訳日:2021-06-22 15:39:38 公開日:2021-06-21
# Out of Context: アスペクトベースの知覚分析のコンテキストモデリングのための新しいキュー

Out of Context: A New Clue for Context Modeling of Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2106.10816v1 )

ライセンス: Link先を確認
Bowen Xing and Ivor W. Tsang(参考訳) アスペクトベースの感情分析(ABSA)は、与えられた側面に関してレビューで表現された感情を予測することを目的としている。 ABSAの中核は、コンテキストと与えられたアスペクト間の相互作用をモデル化し、アスペクト関連の情報を抽出することである。 先行研究では、コンテキストと与えられたアスペクトの関係を捉えるために、注意機構と依存グラフネットワークが一般的である。 そして、コンテキスト隠れ状態の重み付き和は、分類器に供給される最後の表現として使用される。 しかし、与えられたアスペクトに関連する情報は、既に破棄され、既存のモデルのコンテキストモデリングプロセスに悪質な情報が保持される可能性がある。 この問題はその後のモジュールでは解決できず、2つの理由がある: 第一に、その操作はエンコーダが生成したコンテキスト隠れ状態上で行われ、その値はエンコーダの後に変更できない; 第二に、既存のエンコーダは与えられたアスペクトではなくコンテキストのみを考える。 この問題に対処するために、与えられたアスペクトはコンテキストモデリングプロセスにおけるコンテキストからの新しい手がかりと見なすべきである。 ソリューションとしては、アスペクト対応LSTMと3つのアスペクト対応BERTという、異なるバックボーンに基づくアスペクト対応コンテキストエンコーダを設計する。 それらはABSAタスク用に調整されたアスペクト対応の隠れ状態の生成に特化している。 これらのアスペクト対応コンテキストエンコーダでは、与えられたアスペクトのセマンティクスが情報フローの制御に使用される。 これにより、アスペクト関連情報を保持でき、生成した隠れ状態においてアスペクト関連情報を除外することができる。 我々は,いくつかのベンチマークデータセットに対して経験的解析を行い,提案するアスペクト認識コンテキストエンコーダの有効性と利点を実証した。

Aspect-based sentiment analysis (ABSA) aims to predict the sentiment expressed in a review with respect to a given aspect. The core of ABSA is to model the interaction between the context and given aspect to extract the aspect-related information. In prior work, attention mechanisms and dependency graph networks are commonly adopted to capture the relations between the context and given aspect. And the weighted sum of context hidden states is used as the final representation fed to the classifier. However, the information related to the given aspect may be already discarded and adverse information may be retained in the context modeling processes of existing models. This problem cannot be solved by subsequent modules and there are two reasons: first, their operations are conducted on the encoder-generated context hidden states, whose value cannot change after the encoder; second, existing encoders only consider the context while not the given aspect. To address this problem, we argue the given aspect should be considered as a new clue out of context in the context modeling process. As for solutions, we design several aspect-aware context encoders based on different backbones: an aspect-aware LSTM and three aspect-aware BERTs. They are dedicated to generate aspect-aware hidden states which are tailored for ABSA task. In these aspect-aware context encoders, the semantics of the given aspect is used to regulate the information flow. Consequently, the aspect-related information can be retained and aspect-irrelevant information can be excluded in the generated hidden states. We conduct extensive experiments on several benchmark datasets with empirical analysis, demonstrating the efficacies and advantages of our proposed aspect-aware context encoders.
翻訳日:2021-06-22 15:37:15 公開日:2021-06-21
# 協調学習による遠隔教師付き関係抽出の促進

Empower Distantly Supervised Relation Extraction with Collaborative Adversarial Training ( http://arxiv.org/abs/2106.10835v1 )

ライセンス: Link先を確認
Tao Chen, Haochen Shi, Liyuan Liu, Siliang Tang, Jian Shao, Zhigang Chen, Yueting Zhuang(参考訳) 近年の遠隔監視(DS)関係抽出(RE)の進歩に伴い,マルチインスタンス学習(MIL)を活用してノイズの多いDSから高品質な監視を抽出するために注目が集まっている。 ここではラベルノイズを超えてDS-MILの重要なボトルネックをその低データ利用であると同定する:MILによって高品質な監視が洗練されているため、MILは大量のトレーニングインスタンスを放棄し、データ利用が低くなり、モデルトレーニングが豊富な監視を妨げます。 本稿では,仮想対人訓練(VAT)と対人訓練(AT)を異なるレベルで協調するデータ利用を改善するための協調対人訓練を提案する。 特に、VATはラベルなしなので、MILによって放棄されたインスタンスをリサイクルするためにインスタンスレベルのVATを使用します。 さらに,ATをバッグレベルで展開し,MILが取得した高品質な監視の可能性を最大限に活用する。 提案手法は,従来の技術状況に一貫した改善(約5絶対AUCスコア)をもたらし,データ利用問題の重要性と本手法の有効性を検証した。

With recent advances in distantly supervised (DS) relation extraction (RE), considerable attention is attracted to leverage multi-instance learning (MIL) to distill high-quality supervision from the noisy DS. Here, we go beyond label noise and identify the key bottleneck of DS-MIL to be its low data utilization: as high-quality supervision being refined by MIL, MIL abandons a large amount of training instances, which leads to a low data utilization and hinders model training from having abundant supervision. In this paper, we propose collaborative adversarial training to improve the data utilization, which coordinates virtual adversarial training (VAT) and adversarial training (AT) at different levels. Specifically, since VAT is label-free, we employ the instance-level VAT to recycle instances abandoned by MIL. Besides, we deploy AT at the bag-level to unleash the full potential of the high-quality supervision got by MIL. Our proposed method brings consistent improvements (~ 5 absolute AUC score) to the previous state of the art, which verifies the importance of the data utilization issue and the effectiveness of our method.
翻訳日:2021-06-22 15:36:50 公開日:2021-06-21
# cil: 遠隔教師付き関係抽出のためのコントラストインスタンス学習フレームワーク

CIL: Contrastive Instance Learning Framework for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2106.10855v1 )

ライセンス: Link先を確認
Tao Chen, Haizhou Shi, Siliang Tang, Zhigang Chen, Fei Wu, Yueting Zhuang(参考訳) 関係抽出(RE)タスクにDSが導入されて以来,遠距離監視(DS)から発生するトレーニングデータからノイズを除去する旅が始まっている。 過去10年間、研究者たちはmulti-instance learning(mil)フレームワークを使って、文の袋から最も信頼できる特徴を見つける。 MILバッグのパターンはDSノイズを大幅に低減させるが、データセットの他の多くの有用な文の特徴を表現できない。 多くの場合、これらの文の特徴は重いコストで追加の文レベルの人間のアノテーションによってのみ取得できる。 したがって、遠隔監視型REモデルの性能は制限される。 本稿では、典型的なmilフレームワークを超えて、新しいコントラストインスタンス学習(cil)フレームワークを提案する。 具体的には、初期MILをリレーショナルトリプルエンコーダと各インスタンスに対する負のペアに対する制約正のペアとみなす。 提案手法の有効性を実験的に検証し, 提案手法をNYT10, GDS, KBPで比較検討した。

The journey of reducing noise from distant supervision (DS) generated training data has been started since the DS was first introduced into the relation extraction (RE) task. For the past decade, researchers apply the multi-instance learning (MIL) framework to find the most reliable feature from a bag of sentences. Although the pattern of MIL bags can greatly reduce DS noise, it fails to represent many other useful sentence features in the datasets. In many cases, these sentence features can only be acquired by extra sentence-level human annotation with heavy costs. Therefore, the performance of distantly supervised RE models is bounded. In this paper, we go beyond typical MIL framework and propose a novel contrastive instance learning (CIL) framework. Specifically, we regard the initial MIL as the relational triple encoder and constraint positive pairs against negative pairs for each instance. Experiments demonstrate the effectiveness of our proposed framework, with significant improvements over the previous methods on NYT10, GDS and KBP.
翻訳日:2021-06-22 15:36:29 公開日:2021-06-21
# トランスフォーマーに基づく自然言語処理手法を用いた広告テキスト分類

Ad Text Classification with Transformer-Based Natural Language Processing Methods ( http://arxiv.org/abs/2106.10899v1 )

ライセンス: Link先を確認
Umut \"Ozdil, B\"u\c{s}ra Arslan, D. Emre Ta\c{s}ar, G\"ok\c{c}e Polat,\c{S}\"ukr\"u Ozan(参考訳) 本研究では,オンライン広告プラットフォーム上で生成した広告テキストをセクター的に自動分類するための自然言語処理(NLP)手法を提案する。 当社のデータセットは、12のセクターから約21,000のラベル付き広告テキストで構成されています。 本研究では,最近自然言語処理文献におけるテキスト分類などの分野で用いられているトランスフォーマに基づく言語モデルであるbertモデルからの双方向エンコーダ表現を用いた。 トルコ語のための事前訓練されたBERTモデルを用いて得られた分類効率を詳細に示す。

In this study, a natural language processing-based (NLP-based) method is proposed for the sector-wise automatic classification of ad texts created on online advertising platforms. Our data set consists of approximately 21,000 labeled advertising texts from 12 different sectors. In the study, the Bidirectional Encoder Representations from Transformers (BERT) model, which is a transformer-based language model that is recently used in fields such as text classification in the natural language processing literature, was used. The classification efficiencies obtained using a pre-trained BERT model for the Turkish language are shown in detail.
翻訳日:2021-06-22 15:36:16 公開日:2021-06-21
# アスペクト感情三重項抽出のための明示的インタラクションネットワーク

Explicit Interaction Network for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2106.11148v1 )

ライセンス: Link先を確認
Peiyi Wang, Lianzhe Huang, Tianyu Liu, Damai Dai, Runxin Xu, Houfeng Wang, Baobao Chang and Zhifang Sui(参考訳) Aspect Sentiment Triplet extract (ASTE) は、目標、感情の極性、文章からの感情を説明する意見を認識することを目的としている。 ASTEは自然に3つの原子サブタスク(ターゲット検出、意見検出、感情分類)に分けられる。 我々は、適切なサブタスクの組み合わせ、ターゲット-オピニオン対の合成特徴抽出、サブタスク間の相互作用が成功の鍵となると論じている。 しかしながら、事前の作業は、‘一対一’や‘一対一’の状況では失敗するか、あるいは欠陥のあるサブタスクの定式化、サブ最適な特徴表現、あるいはサブタスクの相互作用の欠如によって、存在しない感情三重項を導出することがある。 本稿では,ASTEを人間の認知に則した目標対人共同検出と感情分類サブタスクに分割し,シーケンスエンコーダとテーブルエンコーダを提案する。 テーブルエンコーダはトークンペアレベルで感情を抽出し、ターゲットと意見の合成特徴を容易に捉えることができる。 サブタスク間の明示的なインタラクションを確立するために、テーブル表現を用いてシーケンスエンコーディングをガイドし、シーケンス機能をテーブルエンコーダに注入する。 実験の結果,本モデルは6種類のasteデータセットにおいて最先端の手法よりも優れていることがわかった。

Aspect Sentiment Triplet Extraction (ASTE) aims to recognize targets, their sentiment polarities and opinions explaining the sentiment from a sentence. ASTE could be naturally divided into 3 atom subtasks, namely target detection, opinion detection and sentiment classification. We argue that the proper subtask combination, compositional feature extraction for target-opinion pairs, and interaction between subtasks would be the key to success. Prior work, however, may fail on `one-to-many' or `many-to-one' situations, or derive non-existent sentiment triplets due to defective subtask formulation, sub-optimal feature representation or the lack of subtask interaction. In this paper, we divide ASTE into target-opinion joint detection and sentiment classification subtasks, which is in line with human cognition, and correspondingly propose sequence encoder and table encoder. Table encoder extracts sentiment at token-pair level, so that the compositional feature between targets and opinions can be easily captured. To establish explicit interaction between subtasks, we utilize the table representation to guide the sequence encoding, and inject the sequence features back into the table encoder. Experiments show that our model outperforms state-of-the-art methods on six popular ASTE datasets.
翻訳日:2021-06-22 15:36:08 公開日:2021-06-21
# 特徴白化による解釈可能な顔操作検出

Interpretable Face Manipulation Detection via Feature Whitening ( http://arxiv.org/abs/2106.10834v1 )

ライセンス: Link先を確認
Yingying Hua, Daichi Zhang, Pengju Wang, Shiming Ge(参考訳) なぜ私たちは、操作された顔に対するディープニューラルネットワークの検出を信頼すべきなのか? 理由を理解することは、検出モデルの公平性、信頼性、プライバシ、信頼性を改善する上で重要である。 本研究では,信頼できる正確な推論を実現するための,解釈可能な顔操作検出手法を提案する。 このアプローチは、フィーチャーホワイトニングモジュールを埋め込むことで、顔操作検出プロセスを透明にする可能性がある。 このモジュールは、機能のデコレーションと機能制約によってディープネットワークの内部動作メカニズムを緩和することを目的としている。 実験結果から,提案手法は検出精度とモデル解釈可能性のバランスをとることができることがわかった。

Why should we trust the detections of deep neural networks for manipulated faces? Understanding the reasons is important for users in improving the fairness, reliability, privacy and trust of the detection models. In this work, we propose an interpretable face manipulation detection approach to achieve the trustworthy and accurate inference. The approach could make the face manipulation detection process transparent by embedding the feature whitening module. This module aims to whiten the internal working mechanism of deep networks through feature decorrelation and feature constraint. The experimental results demonstrate that our proposed approach can strike a balance between the detection accuracy and the model interpretability.
翻訳日:2021-06-22 15:32:26 公開日:2021-06-21
# データモードを経由するロバストプール

Robust Pooling through the Data Mode ( http://arxiv.org/abs/2106.10850v1 )

ライセンス: Link先を確認
Ayman Mukhaimar, Ruwan Tennakoon, Chow Yin Lai, Reza Hoseinnezhad, AlirezaBab-Hadiashar (参考訳) ポイントクラウドデータから学習するタスクは、データにノイズや異常が発生することが多いため、常に困難である。 このような不正確性は、最先端のディープラーニングネットワークのパフォーマンスと、オブジェクトの分類やセグメンテーション能力に大きな影響を与える可能性がある。 堅牢なディープラーニングアプローチはいくつかあるが、リアルタイムアプリケーションには計算コストがかかりすぎる。 本稿では,ネットワークのロバスト性を大幅に向上し,最先端のアプローチよりもはるかに高速な,新しいロバストプール層を含むディープラーニングソリューションを提案する。 提案するプール層では,クラスタがモデルを示すため,RANSACとヒストグラムという2つの手法を用いて,モデム/クラスタのデータを探す。 プール層をポイントベースやグラフベースのニューラルネットワークなどのフレームワークにテストし,ロバストな最先端手法に比べて堅牢性が向上した。

The task of learning from point cloud data is always challenging due to the often occurrence of noise and outliers in the data. Such data inaccuracies can significantly influence the performance of state-of-the-art deep learning networks and their ability to classify or segment objects. While there are some robust deep learning approaches, they are computationally too expensive for real-time applications. This paper proposes a deep learning solution that includes a novel robust pooling layer which greatly enhances network robustness and performs significantly faster than state-of-the-art approaches. The proposed pooling layer looks for data a mode/cluster using two methods, RANSAC, and histogram, as clusters are indicative of models. We tested the pooling layer into frameworks such as Point-based and graph-based neural networks, and the tests showed enhanced robustness as compared to robust state-of-the-art methods.
翻訳日:2021-06-22 15:32:18 公開日:2021-06-21
# 360の世界で動く:パノラマのパララックスを1つのパノラマから合成する

Moving in a 360 World: Synthesizing Panoramic Parallaxes from a Single Panorama ( http://arxiv.org/abs/2106.10859v1 )

ライセンス: Link先を確認
Ching-Yu Hsu, Cheng Sun, Hwann-Tzong Chen(参考訳) パララックスを有効とする新規パノラマビュー合成への最初の手法である全方位ニューラルラミアンスフィールド(omninerf)を提案する。 近年のビュー合成研究は、視野の限られた視点画像に焦点をあて、特定の条件下での撮影に十分な画像を必要とする。 逆に、OmniNeRFは訓練データとして単一の正方形画像が与えられた未知視点のパノラマ画像を生成することができる。 そこで本研究では,仮想カメラ位置の異なる2dパノラマ座標と3dワールドを相互に投影することにより,単一のrgb-dパノラマを増強することを提案する。 これにより、カメラ位置から新しい視野角を推定するために、固定中心における全方位視野角からの可視画素を収集した全方位ニューラルラミアンスフィールドを最適化することができる。 その結果、提案したOmniNeRFは、パララックス効果を示す新しいパノラマビューの説得力のあるレンダリングを実現する。 合成および実世界の両方のデータセットに対する提案の有効性を示す。

We present Omnidirectional Neural Radiance Fields (OmniNeRF), the first method to the application of parallax-enabled novel panoramic view synthesis. Recent works for novel view synthesis focus on perspective images with limited field-of-view and require sufficient pictures captured in a specific condition. Conversely, OmniNeRF can generate panorama images for unknown viewpoints given a single equirectangular image as training data. To this end, we propose to augment the single RGB-D panorama by projecting back and forth between a 3D world and different 2D panoramic coordinates at different virtual camera positions. By doing so, we are able to optimize an Omnidirectional Neural Radiance Field with visible pixels collecting from omnidirectional viewing angles at a fixed center for the estimation of new viewing angles from varying camera positions. As a result, the proposed OmniNeRF achieves convincing renderings of novel panoramic views that exhibit the parallax effect. We showcase the effectiveness of each of our proposals on both synthetic and real-world datasets.
翻訳日:2021-06-22 15:32:01 公開日:2021-06-21
# インスタンスレベルシーケンス学習による知識蒸留

Knowledge Distillation via Instance-level Sequence Learning ( http://arxiv.org/abs/2106.10885v1 )

ライセンス: Link先を確認
Haoran Zhao, Xin Sun, Junyu Dong, Zihe Dong and Qiong Li(参考訳) 近年,教師ネットワークから一般知識を抽出して学生ネットワークを指導する蒸留手法が提案されている。 既存の手法のほとんどは、データから一様にサンプリングされたランダムなミニバッチのシーケンスを入力して、教師ネットワークから生徒に知識を伝達する。 代わりに、我々は、意味のあるシーケンスで順序付けられたサンプルを用いて、コンパクトな学生ネットワークを徐々にガイドすべきであると主張する。 これにより、教師と生徒ネットワーク間の特徴表現のギャップを段階的に橋渡しすることができる。 本研究では,事例レベルのシーケンス学習による知識蒸留フレームワークのカリキュラムを提供する。 学生ネットワークの次のトレーニングフェーズのカリキュラムを作成するために、初期のエポックの学生ネットワークをスナップショットとして採用している。 CIFAR-10, CIFAR-100, SVHN, CINIC-10データセットについて広範な実験を行った。 いくつかの最先端のメソッドと比較して、我々のフレームワークは、少ないイテレーションで最高のパフォーマンスを実現します。

Recently, distillation approaches are suggested to extract general knowledge from a teacher network to guide a student network. Most of the existing methods transfer knowledge from the teacher network to the student via feeding the sequence of random mini-batches sampled uniformly from the data. Instead, we argue that the compact student network should be guided gradually using samples ordered in a meaningful sequence. Thus, it can bridge the gap of feature representation between the teacher and student network step by step. In this work, we provide a curriculum learning knowledge distillation framework via instance-level sequence learning. It employs the student network of the early epoch as a snapshot to create a curriculum for the student network's next training phase. We carry out extensive experiments on CIFAR-10, CIFAR-100, SVHN and CINIC-10 datasets. Compared with several state-of-the-art methods, our framework achieves the best performance with fewer iterations.
翻訳日:2021-06-22 15:31:48 公開日:2021-06-21
# 信頼誘導放射線学報告

Confidence-Guided Radiology Report Generation ( http://arxiv.org/abs/2106.10887v1 )

ライセンス: Link先を確認
Yixin Wang, Zihao Lin, Jiang Tian, zhongchao shi, Yang Zhang, Jianping Fan, Zhiqiang He(参考訳) 医療画像は臨床における診断と治療において重要な役割を担っている。 画像の自動キャプションの大幅な進歩に触発されて,医療画像の放射線学レポートを作成するための様々なディープラーニング(DL)アーキテクチャが提案されている。 しかし、モデル不確実性(すなわち、レポート生成におけるモデル信頼性/信頼)は未解決の問題である。 本稿では,放射線学レポート作成作業における視覚的不確実性とテキスト的不確実性の両方を明確に定量化する手法を提案する。 このようなマルチモーダル不確実性は、レポートレベルと文レベルの両方でモデルの信頼性スコアを十分に捉えることができ、より包括的なモデル最適化を達成するために損失を重くするためにさらに活用される。 実験結果から,提案手法は放射線レポート生成に信頼性の高い信頼性スコアを与えることが可能であり,提案手法はより包括的なモデル最適化を実現することができ,パブリック放射線レポートデータセットにおける最新性能が得られている。

Medical imaging plays a pivotal role in diagnosis and treatment in clinical practice. Inspired by the significant progress in automatic image captioning, various deep learning (DL)-based architectures have been proposed for generating radiology reports for medical images. However, model uncertainty (i.e., model reliability/confiden ce on report generation) is still an under-explored problem. In this paper, we propose a novel method to explicitly quantify both the visual uncertainty and the textual uncertainty for the task of radiology report generation. Such multi-modal uncertainties can sufficiently capture the model confidence scores at both the report-level and the sentence-level, and thus they are further leveraged to weight the losses for achieving more comprehensive model optimization. Our experimental results have demonstrated that our proposed method for model uncertainty characterization and estimation can provide more reliable confidence scores for radiology report generation, and our proposed uncertainty-weighted losses can achieve more comprehensive model optimization and result in state-of-the-art performance on a public radiology report dataset.
翻訳日:2021-06-22 15:31:36 公開日:2021-06-21
# ピアノ:磁気共鳴画像を用いたパラメトリック手骨モデル

PIANO: A Parametric Hand Bone Model from Magnetic Resonance Imaging ( http://arxiv.org/abs/2106.10893v1 )

ライセンス: Link先を確認
Yuwei Li, Minye Wu, Yuyao Zhang, Lan Xu, Jingyi Yu(参考訳) ハンドモデリングは没入型VR/AR、アクション理解、あるいは人間の医療にとって重要である。 既存のパラメトリックモデルでは、骨のような解剖学的特性をモデル化することなく、手の形、ポーズ、テクスチャのみが説明されている。 本稿では,MRIデータから人手の最初のパラメトリック骨モデルであるPIANOについて述べる。 我々のPIANOモデルは生物学的に正確で、アニメーション化が容易で、微分可能であり、外面のみに基づく従来の手モデルよりも、データ駆動方式で内手運動構造のより解剖学的に精密なモデリングを実現する。 さらに、当社のPIANOモデルはニューラルネットワーク層に適用して、きめ細かい意味喪失によるトレーニングを可能にすることで、データ駆動の手骨解剖学およびMRIやRGB画像からのセマンティック理解の新しいタスクを開放する。 モデルを公開しています。

Hand modeling is critical for immersive VR/AR, action understanding, or human healthcare. Existing parametric models account only for hand shape, pose, or texture, without modeling the anatomical attributes like bone, which is essential for realistic hand biomechanics analysis. In this paper, we present PIANO, the first parametric bone model of human hands from MRI data. Our PIANO model is biologically correct, simple to animate, and differentiable, achieving more anatomically precise modeling of the inner hand kinematic structure in a data-driven manner than the traditional hand models based on the outer surface only. Furthermore, our PIANO model can be applied in neural network layers to enable training with a fine-grained semantic loss, which opens up the new task of data-driven fine-grained hand bone anatomic and semantic understanding from MRI or even RGB images. We make our model publicly available.
翻訳日:2021-06-22 15:31:20 公開日:2021-06-21
# Crop-Transform-Paste :視覚追跡のための自己監督型学習

Crop-Transform-Paste : Self-Supervised Learning for Visual Tracking ( http://arxiv.org/abs/2106.10900v1 )

ライセンス: Link先を確認
Xin Li, Wenjie Pei, Zikun Zhou, Zhenyu He, Huchuan Lu, Ming-Hsuan Yang(参考訳) ビジュアルトラッキングのためのディープラーニングベースの手法は大きな進歩を遂げているが、これらのスキームは十分なトレーニングのために大規模で高品質な注釈付きデータを必要とする。 本研究では,視覚追跡のための自己教師あり学習について検討する。 本研究では,対象物の外観変化や背景変化など,追跡中の各種シーン変動をシミュレートして十分なトレーニングデータを合成できる作物変換・ペースト操作を開発した。 オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカは人間のアノテーションなしでルーチン的にトレーニングすることができる。 視覚表現学習を個別のステップとして行う典型的な自己教師学習方法とは異なり、提案した自己教師学習機構は既存のトラッキングフレームワークにシームレスに統合してトレーニングを行うことができる。 広範な実験により,1) マイショット追跡シナリオにおける教師付き学習よりも良好な性能を実現すること,2) 設計による物体変形, 咬合, 背景クラッタなどの様々な追跡課題を対処できること, 3) 教師付き学習と組み合わせることで, とくにマイショット追跡シナリオにおいて有効であること, が示されている。

While deep-learning based methods for visual tracking have achieved substantial progress, these schemes entail large-scale and high-quality annotated data for sufficient training. To eliminate expensive and exhaustive annotation, we study self-supervised learning for visual tracking. In this work, we develop the Crop-Transform-Paste operation, which is able to synthesize sufficient training data by simulating various kinds of scene variations during tracking, including appearance variations of objects and background changes. Since the object state is known in all synthesized data, existing deep trackers can be trained in routine ways without human annotation. Different from typical self-supervised learning methods performing visual representation learning as an individual step, the proposed self-supervised learning mechanism can be seamlessly integrated into any existing tracking framework to perform training. Extensive experiments show that our method 1) achieves favorable performance than supervised learning in few-shot tracking scenarios; 2) can deal with various tracking challenges such as object deformation, occlusion, or background clutter due to its design; 3) can be combined with supervised learning to further boost the performance, particularly effective in few-shot tracking scenarios.
翻訳日:2021-06-22 15:31:06 公開日:2021-06-21
# 安全な胆嚢摘出のための外科データサイエンス : 肝嚢胞解剖学の分節化と安全性の批判的視点の評価

Surgical data science for safe cholecystectomy: a protocol for segmentation of hepatocystic anatomy and assessment of the critical view of safety ( http://arxiv.org/abs/2106.10916v1 )

ライセンス: Link先を確認
Pietro Mascagni and Deepak Alapatt, Alain Garcia, Nariaki Okamoto, Armine Vardazaryan, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy(参考訳) 最小侵襲画像ガイド下手術は視力に大きく依存する。 したがって、外科的ビデオ解析のための深層学習モデルは、腹腔鏡下胆嚢摘出術(LC)における安全性(CVS)のクリティカルビューを評価するなどの視覚的タスクをサポートし、外科的安全性と効率に寄与する可能性がある。 しかし、これらのモデルの性能、信頼性、再現性は、開発で使用されるデータの品質とアノテーションに大きく依存する。 本稿では,肝嚢胞性解剖学とCVS基準の整合性アノテーションを促進するためのプロトコル,チェックリスト,視覚例を提案する。 アノテーションガイドラインの共有は、パフォーマンスの汎用性を評価するための信頼できるマルチセントリックデータセットの構築に役立ち、手術ビデオ解析のためのディープラーニングモデルの臨床的翻訳を促進できると考えています。

Minimally invasive image-guided surgery heavily relies on vision. Deep learning models for surgical video analysis could therefore support visual tasks such as assessing the critical view of safety (CVS) in laparoscopic cholecystectomy (LC), potentially contributing to surgical safety and efficiency. However, the performance, reliability and reproducibility of such models are deeply dependent on the quality of data and annotations used in their development. Here, we present a protocol, checklists, and visual examples to promote consistent annotation of hepatocystic anatomy and CVS criteria. We believe that sharing annotation guidelines can help build trustworthy multicentric datasets for assessing generalizability of performance, thus accelerating the clinical translation of deep learning models for surgical video analysis.
翻訳日:2021-06-22 15:30:44 公開日:2021-06-21
# きめ細かい視覚分類のための層間ナビゲーション畳み込みニューラルネットワーク

Cross-layer Navigation Convolutional Neural Network for Fine-grained Visual Classification ( http://arxiv.org/abs/2106.10920v1 )

ライセンス: Link先を確認
Chenyu Guo, Jiyang Xie, Kongming Liang, Xian Sun, Zhanyu Ma(参考訳) きめ細かい視覚分類(FGVC)は、同じスーパークラスのオブジェクトのサブクラス(例えば、鳥類の種類、車のモデル)を分類することを目的としている。 FGVCタスクにとって重要な解決策は、地域からターゲットの識別的微妙な情報を見つけることである。 従来のFGVCモデルは、高度な特徴、すなわち認識に高レベルな意味情報を使うことを好んでおり、低レベルな情報を使用することはめったにない。 しかし,より詳細な情報を含む低レベル情報も性能向上に寄与することが判明した。 そこで本稿では,機能融合のための階層間ナビゲーション畳み込みニューラルネットワークを提案する。 まず、バックボーンネットワークによって抽出された特徴マップを、高レベルから低レベルまで順次畳み込み長短期記憶モデルに入力して特徴集約を行う。 次に,高レベルの意味情報と低レベルのテクスチャ特徴をリンクしながら,特徴融合後の注意機構を用いて空間情報とチャネル情報を抽出し,FGVCの識別領域をよりよく特定する。 実験では、cub-200-2011、stanford-cars、およびfgvc-aircraftデータセットを含む3つの一般的なfgvcデータセットを用いて評価を行い、他の参照したfgvc法と比較することにより、この方法が優れた結果が得られることを示すことにより、提案手法の優越性を示す。

Fine-grained visual classification (FGVC) aims to classify sub-classes of objects in the same super-class (e.g., species of birds, models of cars). For the FGVC tasks, the essential solution is to find discriminative subtle information of the target from local regions. TraditionalFGVC models preferred to use the refined features,i.e., high-level semantic information for recognition and rarely use low-level in-formation. However, it turns out that low-level information which contains rich detail information also has effect on improving performance. Therefore, in this paper, we propose cross-layer navigation convolutional neural network for feature fusion. First, the feature maps extracted by the backbone network are fed into a convolutional long short-term memory model sequentially from high-level to low-level to perform feature aggregation. Then, attention mechanisms are used after feature fusion to extract spatial and channel information while linking the high-level semantic information and the low-level texture features, which can better locate the discriminative regions for the FGVC. In the experiments, three commonly used FGVC datasets, including CUB-200-2011, Stanford-Cars, andFGVC-Aircraft datasets, are used for evaluation and we demonstrate the superiority of the proposed method by comparing it with other referred FGVC methods to show that this method achieves superior results.
翻訳日:2021-06-22 15:30:30 公開日:2021-06-21
# 自動運転の100万シーン:ONCEデータセット

One Million Scenes for Autonomous Driving: ONCE Dataset ( http://arxiv.org/abs/2106.11037v1 )

ライセンス: Link先を確認
Jiageng Mao, Minzhe Niu, Chenhan Jiang, Hanxue Liang, Xiaodan Liang, Yamin Li, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Jie Yu, Hang Xu, Chunjing Xu(参考訳) 自動運転における現在の認識モデルは、未発見のケースをカバーし、ロングテール問題に対処するために注釈付きデータの大量に依存することで悪名高い。 一方、ラベルのない大規模収集データや漸進的に自己学習する強力な認識モデルからの学習は注目され、自動運転における次世代の産業レベルの強力で堅牢な認識モデルの解決策となりうる。 しかし、研究コミュニティは一般的に、これらの重要な現実世界のシーンデータの不十分さに悩まされ、将来の3D知覚のための完全/半自己管理手法の探求を妨げている。 本稿では,自動運転シナリオにおける3次元物体検出のためのONCEデータセットについて紹介する。 ONCEデータセットは100万のLiDARシーンと700万の対応するカメライメージで構成されている。 データは、利用可能な最大の3D自動運転データセット(例)よりも20倍長い144時間の運転時間から選択される。 ヌッセン (nuscenes) とウェイモ (waymo) は、様々な地域、期間、気象条件にまたがって収集される。 3次元検出のためのラベルなしデータの利用に関する今後の研究を容易にするため、ONCEデータセット上で様々な自己監督的および半監督的手法を再現し評価するベンチマークも提供する。 これらの手法を広範囲に分析し,使用データの規模に関連する性能に関する貴重な知見を提供する。 データ、コード、その他の情報はhttps://once-for-aut o-driving.github.io/ index.htmlで確認できる。

Current perception models in autonomous driving have become notorious for greatly relying on a mass of annotated data to cover unseen cases and address the long-tail problem. On the other hand, learning from unlabeled large-scale collected data and incrementally self-training powerful recognition models have received increasing attention and may become the solutions of next-generation industry-level powerful and robust perception models in autonomous driving. However, the research community generally suffered from data inadequacy of those essential real-world scene data, which hampers the future exploration of fully/semi/self-supe rvised methods for 3D perception. In this paper, we introduce the ONCE (One millioN sCenEs) dataset for 3D object detection in the autonomous driving scenario. The ONCE dataset consists of 1 million LiDAR scenes and 7 million corresponding camera images. The data is selected from 144 driving hours, which is 20x longer than the largest 3D autonomous driving dataset available (e.g. nuScenes and Waymo), and it is collected across a range of different areas, periods and weather conditions. To facilitate future research on exploiting unlabeled data for 3D detection, we additionally provide a benchmark in which we reproduce and evaluate a variety of self-supervised and semi-supervised methods on the ONCE dataset. We conduct extensive analyses on those methods and provide valuable observations on their performance related to the scale of used data. Data, code, and more information are available at https://once-for-aut o-driving.github.io/ index.html.
翻訳日:2021-06-22 15:30:05 公開日:2021-06-21
# CataNet:白内障手術期間の予測

CataNet: Predicting remaining cataract surgery duration ( http://arxiv.org/abs/2106.11048v1 )

ライセンス: Link先を確認
Andr\'es Marafioti, Michel Hayoz, Mathias Gallardo, Pablo M\'arquez Neila, Sebastian Wolf, Martin Zinkernagel, and Raphael Sznitman(参考訳) 白内障手術は、世界中で毎年1000万回以上実施されている視力保護手術である。 外科的病棟や手術室の組織化を効果的に行うことは,このような治療を日常的な臨床医療で行う上で重要である。 この文脈では、手術中の残りの手術期間(rsd)を推定することは患者のスループットとワークフローを合理化する1つの方法である。 そこで本研究では, 外科医の経験と手術の現段階の2つの要素を併用して, rsdをリアルタイムに予測する白内障手術の方法であるcatanetを提案する。 CataNetを最先端のRSD推定法と比較し、位相や経験が考慮されていない場合でも性能が向上することを示した。 この改善について検討し、CataNetの機能抽出器に経過時間を統合する方法として、重要な貢献者がいることを示す。

Cataract surgery is a sight saving surgery that is performed over 10 million times each year around the world. With such a large demand, the ability to organize surgical wards and operating rooms efficiently is critical to delivery this therapy in routine clinical care. In this context, estimating the remaining surgical duration (RSD) during procedures is one way to help streamline patient throughput and workflows. To this end, we propose CataNet, a method for cataract surgeries that predicts in real time the RSD jointly with two influential elements: the surgeon's experience, and the current phase of the surgery. We compare CataNet to state-of-the-art RSD estimation methods, showing that it outperforms them even when phase and experience are not considered. We investigate this improvement and show that a significant contributor is the way we integrate the elapsed time into CataNet's feature extractor.
翻訳日:2021-06-22 15:29:43 公開日:2021-06-21
# CLIP2Video: Image CLIPによるビデオテキスト検索のマスタリング

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP ( http://arxiv.org/abs/2106.11097v1 )

ライセンス: Link先を確認
Han Fang, Pengfei Xiong, Luhui Xu, Yu Chen(参考訳) 本稿では,CLIP2ビデオネットワークを用いて,画像言語による事前学習モデルをエンドツーエンドでビデオテキスト検索に転送する。 ビデオと言語学習の領域における主要なアプローチは、大規模なビデオテキストデータセットからビデオと言語間の時空間的特徴とマルチモーダルな相互作用を抽出しようとすることである。 これらと異なり、事前訓練された画像言語モデルを活用し、画像テキストの共学習とビデオフレームとビデオテキストの時間的関係の強化による2段階のフレームワークとして単純化し、比較的小さなデータセットでトレーニングすることができる。 具体的には,コントラスト・ランゲージ・イメージ・プリトレーニング(clip)モデルが捉えた空間的意味論に基づき,ファインテンポラルビデオフレームにおける動きをキャプチャする時間的差分ブロックと,ビデオクリップやフレーズのトークンを再認識し,マルチモーダル相関を向上させる時間的アライメントブロックを含む。 我々は,MSR-VTT,MSVD,VATEXにおける検索精度の新たな記録を含む,大規模なテキスト・ビデオ・ビデオ・ビデオ・テキストの検索ベンチマークにおいて,徹底的なアブレーション研究を行い,最先端のパフォーマンスを達成する。

We present CLIP2Video network to transfer the image-language pre-training model to video-text retrieval in an end-to-end manner. Leading approaches in the domain of video-and-language learning try to distill the spatio-temporal video features and multi-modal interaction between videos and languages from a large-scale video-text dataset. Different from them, we leverage pretrained image-language model, simplify it as a two-stage framework with co-learning of image-text and enhancing temporal relations between video frames and video-text respectively, make it able to train on comparatively small datasets. Specifically, based on the spatial semantics captured by Contrastive Language-Image Pretraining (CLIP) model, our model involves a Temporal Difference Block to capture motions at fine temporal video frames, and a Temporal Alignment Block to re-align the tokens of video clips and phrases and enhance the multi-modal correlation. We conduct thorough ablation studies, and achieve state-of-the-art performance on major text-to-video and video-to-text retrieval benchmarks, including new records of retrieval accuracy on MSR-VTT, MSVD and VATEX.
翻訳日:2021-06-22 15:29:28 公開日:2021-06-21
# BVLOSドローンの障害物検出

Obstacle Detection for BVLOS Drones ( http://arxiv.org/abs/2106.11098v1 )

ライセンス: Link先を確認
Jan Moros Esteban(参考訳) 欧州連合(EU)に新たな規制が導入されることで、Beyond Visual Line Of Sight(BVLOS)ドローンの未来が開花する。 これによりBEASTプロジェクトは、これらの規制と安全性に焦点を当てた自律型セキュリティドローンの開発を目的としている。 この技術論文では、このプロジェクトにおけるモジュールの最初のステップについて記述し、障害検出を中心に回転することで、フェールセーフランディングで回避できるようにする。 ディープラーニングを利用した物体検出手法は,様々なデータ拡張手法やyolov3,yolov5の比較など,その性能を最大化するための様々な実験が行われている。 実験の結果,オブジェクト検出はこの問題を解決するための有望なアプローチであるが,実際のアプリケーションでの利用にはより多くのデータが必要であると結論づけた。

With the introduction of new regulations in the European Union, the future of Beyond Visual Line Of Sight (BVLOS) drones is set to bloom. This led to the creation of the theBEAST project, which aims to create an autonomous security drone, with focus on those regulations and on safety. This technical paper describes the first steps of a module within this project, which revolves around detecting obstacles so they can be avoided in a fail-safe landing. A deep learning powered object detection method is the subject of our research, and various experiments are held to maximize its performance, such as comparing various data augmentation techniques or YOLOv3 and YOLOv5. According to the results of the experiments, we conclude that although object detection is a promising approach to resolve this problem, more volume of data is required for potential usage in a real-life application.
翻訳日:2021-06-22 15:28:59 公開日:2021-06-21
# ノイズラベルを用いたロバストな医用画像分割のための有効監督

Distilling effective supervision for robust medical image segmentation with noisy labels ( http://arxiv.org/abs/2106.11099v1 )

ライセンス: Link先を確認
Jialin Shi and Ji Wu(参考訳) 医用画像セグメンテーションタスクにおけるディープラーニング手法の成功にもかかわらず、人間レベルのパフォーマンスは、高い品質のアノテーションを持つ大量のトレーニングデータに依存している。 実際、ラベルノイズを伴う低品質アノテーションが存在するため、学習モデルの最適化性能が低下する。 雑音ラベルを用いたセグメンテーション学習には,画素単位の雑音ロバストトレーニングと画像レベルの雑音ロバストトレーニングの2つの特徴がある。 本研究では,画素レベルと画像レベルの両方から効果的な監督情報を蒸留することにより,ノイズラベルによるセグメント化に対処する新しい枠組みを提案する。 特に,各画素の不確かさを画素単位の雑音推定として明確に推定し,元のラベルと擬似ラベルの両方を用いて画素単位の頑健な学習を提案する。 さらに,画素レベル学習の補足として,より多くの情報に対応するための画像レベルロバスト学習法を提案する。 シミュレーションデータと実世界のノイズデータセットの両方について広範な実験を行う。 その結果, ノイズラベルによる医用画像のセグメンテーションにおいて, 最先端のベースラインと比較した。

Despite the success of deep learning methods in medical image segmentation tasks, the human-level performance relies on massive training data with high-quality annotations, which are expensive and time-consuming to collect. The fact is that there exist low-quality annotations with label noise, which leads to suboptimal performance of learned models. Two prominent directions for segmentation learning with noisy labels include pixel-wise noise robust training and image-level noise robust training. In this work, we propose a novel framework to address segmenting with noisy labels by distilling effective supervision information from both pixel and image levels. In particular, we explicitly estimate the uncertainty of every pixel as pixel-wise noise estimation, and propose pixel-wise robust learning by using both the original labels and pseudo labels. Furthermore, we present an image-level robust learning method to accommodate more information as the complements to pixel-level learning. We conduct extensive experiments on both simulated and real-world noisy datasets. The results demonstrate the advantageous performance of our method compared to state-of-the-art baselines for medical image segmentation with noisy labels.
翻訳日:2021-06-22 15:28:46 公開日:2021-06-21
# SODA10M: 自律運転のための大規模物体検出ベンチマークを目指して

SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving ( http://arxiv.org/abs/2106.11118v1 )

ライセンス: Link先を確認
Jianhua Han, Xiwen Liang, Hang Xu, Kai Chen, Lanqing Hong, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Chunjing Xu, Xiaodan Liang(参考訳) 本稿では,実世界で進化し,進化し,スケーラブルな自動運転システムを実現することを目指して,これまでで1番目かつ最大のベンチマークである生データから学習することにより,異なる自己教師あり・半教師ありアプローチの評価を標準化する大規模ベンチマークを提案する。 既存の自動運転システムは、安全を確保するために広範囲の注釈データを使用して訓練された「完璧な」視覚知覚モデル(例えば、検出)に大きく依存している。 しかしながら、堅牢な自動運転システムを展開する場合、すべてのシナリオや状況(例えば、夜間、極端な天候、都市)のインスタンスを精巧にラベルするのは現実的ではない。 近年の自己教師型・半教師型学習の強力な進歩により,大規模未ラベルデータとラベル付きデータの少ないデータを協調的に活用することにより,堅牢な検出モデルを学ぶことが期待できる。 既存のデータセット(例えば、KITTI、Waymo)は、少量のデータしか提供しないか、あるいは完全なアノテーションで限られたドメインをカバーするため、大規模な事前訓練モデルの探索を妨げている。 そこで我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークを公開し,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。 多様性を改善するため、画像は天候、期間、場所の異なる32都市で、フレームごとに10秒ごとに収集される。 我々は,既存の監視状態検出モデル,一般的な自己監視型および半監督型アプローチの広範な実験と深い分析を行い,今後のモデルの開発方法についての知見を提供する。 データと最新情報はhttps://soda-2d.gith ub.ioで公開されている。

Aiming at facilitating a real-world, ever-evolving and scalable autonomous driving system, we present a large-scale benchmark for standardizing the evaluation of different self-supervised and semi-supervised approaches by learning from raw data, which is the first and largest benchmark to date. Existing autonomous driving systems heavily rely on `perfect' visual perception models (e.g., detection) trained using extensive annotated data to ensure the safety. However, it is unrealistic to elaborately label instances of all scenarios and circumstances (e.g., night, extreme weather, cities) when deploying a robust autonomous driving system. Motivated by recent powerful advances of self-supervised and semi-supervised learning, a promising direction is to learn a robust detection model by collaboratively exploiting large-scale unlabeled data and few labeled data. Existing dataset (e.g., KITTI, Waymo) either provides only a small amount of data or covers limited domains with full annotation, hindering the exploration of large-scale pre-trained models. Here, we release a Large-Scale Object Detection benchmark for Autonomous driving, named as SODA10M, containing 10 million unlabeled images and 20K images labeled with 6 representative object categories. To improve diversity, the images are collected every ten seconds per frame within 32 different cities under different weather conditions, periods and location scenes. We provide extensive experiments and deep analyses of existing supervised state-of-the-art detection models, popular self-supervised and semi-supervised approaches, and some insights about how to develop future models. The data and more up-to-date information have been released at https://soda-2d.gith ub.io.
翻訳日:2021-06-22 15:28:29 公開日:2021-06-21
# OadTR: トランスフォーマーによるオンラインアクション検出

OadTR: Online Action Detection with Transformers ( http://arxiv.org/abs/2106.11149v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Zhiwu Qing, Yuanjie Shao, Zhengrong Zuo, Changxin Gao, Nong Sang(参考訳) 最近のオンライン行動検出のアプローチは、長い時間的構造を捉えるためにrecurrent neural network (rnn)を適用する傾向がある。 しかし、rnnはパラレル主義や勾配消失に苦しむため、最適化することは困難である。 本稿では,OadTRというトランスフォーマーをベースとした新しいエンコーダデコーダフレームワークを提案する。 タスクトークンを付加したエンコーダは、歴史的観測間の関係とグローバルな相互作用をキャプチャすることを目的としている。 デコーダは、期待される将来のクリップ表現を集約して補助情報を抽出する。 したがって、oadtrは、過去の情報をエンコードし、将来の状況を同時に予測することで、現在の行動を認識することができる。 提案するOadTRをHDD,TVSeries,THUMOS1 4の3つの挑戦的データセットで評価した。 実験の結果,OadTRは現在のRNNベースアプローチよりも高いトレーニングと推論速度を実現し,mAPとmcAPの両面で最先端の手法よりも優れていた。 コードはhttps://github.com/w angxiang1230/oadtrで入手できる。

Most recent approaches for online action detection tend to apply Recurrent Neural Network (RNN) to capture long-range temporal structure. However, RNN suffers from non-parallelism and gradient vanishing, hence it is hard to be optimized. In this paper, we propose a new encoder-decoder framework based on Transformers, named OadTR, to tackle these problems. The encoder attached with a task token aims to capture the relationships and global interactions between historical observations. The decoder extracts auxiliary information by aggregating anticipated future clip representations. Therefore, OadTR can recognize current actions by encoding historical information and predicting future context simultaneously. We extensively evaluate the proposed OadTR on three challenging datasets: HDD, TVSeries, and THUMOS14. The experimental results show that OadTR achieves higher training and inference speeds than current RNN based approaches, and significantly outperforms the state-of-the-art methods in terms of both mAP and mcAP. Code is available at https://github.com/w angxiang1230/OadTR.
翻訳日:2021-06-22 15:28:00 公開日:2021-06-21
# 畳み込みニューラルネットワークを用いたCNNによる植物被覆自動推定

Automatic Plant Cover Estimation with CNNs Automatic Plant Cover Estimation with Convolutional Neural Networks ( http://arxiv.org/abs/2106.11154v1 )

ライセンス: Link先を確認
Matthias K\"orschens, Paul Bodesheim, Christine R\"omermann, Solveig Franziska Bucher, Mirco Migliavacca, Josephine Ulrich, Joachim Denzler(参考訳) 植物の環境変化に対する反応のモニタリングは植物生物多様性研究に不可欠である。 しかし、現在はまだ現場の植物学者によって手作業で行われている。 この研究は非常に精力的であり、得られたデータは植物被覆を推定する標準的な方法に従っており、通常は主観的であり、粗い時間分解能を有する。 植物群落の構成と9種の草本植物の種被覆に着目し, 画像から関連データを自動的に抽出するために, 畳み込みニューラルネットワーク(CNN)を用いたアプローチを検討する。 そこで本研究では,いくつかの標準CNNアーキテクチャと事前学習手法について検討する。 我々は、平均絶対誤差5.16%のカスタムCNNを用いて、より高解像度の画像分解能で過去のアプローチより優れていることを発見した。 これらの調査に加えて,植物被覆画像の時間的側面に基づく誤差解析も行った。 この分析は、咬合や時間的変化によって引き起こされる可能性のある誤分類など、自動アプローチの問題点がどこにあるのかを洞察する。

Monitoring the responses of plants to environmental changes is essential for plant biodiversity research. This, however, is currently still being done manually by botanists in the field. This work is very laborious, and the data obtained is, though following a standardized method to estimate plant coverage, usually subjective and has a coarse temporal resolution. To remedy these caveats, we investigate approaches using convolutional neural networks (CNNs) to automatically extract the relevant data from images, focusing on plant community composition and species coverages of 9 herbaceous plant species. To this end, we investigate several standard CNN architectures and different pretraining methods. We find that we outperform our previous approach at higher image resolutions using a custom CNN with a mean absolute error of 5.16%. In addition to these investigations, we also conduct an error analysis based on the temporal aspect of the plant cover images. This analysis gives insight into where problems for automatic approaches lie, like occlusion and likely misclassifications caused by temporal changes.
翻訳日:2021-06-22 15:27:45 公開日:2021-06-21
# 効率的なビデオオブジェクト検出のための時間的早期出力

Temporal Early Exits for Efficient Video Object Detection ( http://arxiv.org/abs/2106.11208v1 )

ライセンス: Link先を確認
Amin Sabet, Jonathon Hare, Bashir Al-Hashimi, Geoff V. Merrett(参考訳) 画像に基づく物体検出器をビデオ領域に転送することは、資源制約下では依然として困難である。 しかし、監視のようなアプリケーションから非常にゆっくりと変化するシーンを扱う場合、オーバーヘッドはかなり大きい。 本稿では,フレーム単位のビデオオブジェクト検出の計算量を削減するため,時間的早期出口を提案する。 計算オーバーヘッドの少ない複数の時間的早期出口モジュールをバックボーンネットワークの初期層に挿入し、連続するフレーム間の意味的差異を特定する。 完全な計算は、フレームが前のフレームに意味的変化を持つと認識される場合にのみ必要であり、さもないと、前のフレームからの検出結果が再利用される。 CDnet上での実験により,本手法は,mAPの2.2\%を許容できる既存の手法と比較して,フレーム単位の動画オブジェクト検出の計算複雑性と実行を最大34 \times$まで大幅に低減することが示された。

Transferring image-based object detectors to the domain of video remains challenging under resource constraints. Previous efforts utilised optical flow to allow unchanged features to be propagated, however, the overhead is considerable when working with very slowly changing scenes from applications such as surveillance. In this paper, we propose temporal early exits to reduce the computational complexity of per-frame video object detection. Multiple temporal early exit modules with low computational overhead are inserted at early layers of the backbone network to identify the semantic differences between consecutive frames. Full computation is only required if the frame is identified as having a semantic change to previous frames; otherwise, detection results from previous frames are reused. Experiments on CDnet show that our method significantly reduces the computational complexity and execution of per-frame video object detection up to $34 \times$ compared to existing methods with an acceptable reduction of 2.2\% in mAP.
翻訳日:2021-06-22 15:27:29 公開日:2021-06-21
# スポーツ選手の再識別のためのビデオ歩行認識におけるアームスイングの判別

The Arm-Swing Is Discriminative in Video Gait Recognition for Athlete Re-Identification ( http://arxiv.org/abs/2106.11280v1 )

ライセンス: Link先を確認
Yapkan Choi, Yeshwanth Napolean, Jan C. van Gemert(参考訳) 本稿では,長距離走行イベントにおける映像人物再識別の属性として,走行歩行を評価する。 歩行認識は、カメラ間検索タスクにおける外観に基づくアプローチと比較して競争性能が向上し、歩行特徴と外観特徴が相補的であることを示す。 歩行の場合、走行中のアームスイングは、胴部の曖昧さのため、二元歩行シルエットを使用すると区別がつかない。 我々は,人間の意味解析を用いて,胴体が取り残されている部分歩行シルエットを作成することを提案する。 胴体を外すことで、前や斜めの角度で腕のスイングがより見えるようになり、腕のスイングがある程度個人的なものであるというヒントが得られる。 実験では、キャンパスランでの3.2%の地図の増加と、カシアbの前方および後方の4.8%の精度の向上が示されている。

In this paper we evaluate running gait as an attribute for video person re-identification in a long-distance running event. We show that running gait recognition achieves competitive performance compared to appearance-based approaches in the cross-camera retrieval task and that gait and appearance features are complementary to each other. For gait, the arm swing during running is less distinguishable when using binary gait silhouettes, due to ambiguity in the torso region. We propose to use human semantic parsing to create partial gait silhouettes where the torso is left out. Leaving out the torso improves recognition results by allowing the arm swing to be more visible in the frontal and oblique viewing angles, which offers hints that arm swings are somewhat personal. Experiments show an increase of 3.2% mAP on the CampusRun and increased accuracy with 4.8% in the frontal and rear view on CASIA-B, compared to using the full body silhouettes.
翻訳日:2021-06-22 15:27:14 公開日:2021-06-21
# 対話型画像-映像合成のためのオブジェクトダイナミクスの理解

Understanding Object Dynamics for Interactive Image-to-Video Synthesis ( http://arxiv.org/abs/2106.11303v1 )

ライセンス: Link先を確認
Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj\"orn Ommer(参考訳) 静的なシーンをローカルにポーキングする効果は何でしょうか? 本稿では,局所的な操作によって自然に見えるグローバルな調音をピクセルレベルで学習する手法を提案する。 トレーニングには、動くオブジェクトのビデオのみが必要だが、物理的なシーンの基本的な操作に関する情報は必要ない。 生成モデルは、ユーザのインタラクションに対する応答として自然オブジェクトのダイナミクスを推測し、異なるオブジェクトボディ領域間の相互関係について学習する。 オブジェクトの静的イメージとピクセルの局所的なポーキングが与えられた場合、アプローチは時間とともにオブジェクトがどのように変形するかを予測する。 ビデオ予測に関する既存の研究とは対照的に、任意のリアルなビデオを合成するのではなく、変形の局所的インタラクティブ制御を可能にする。 我々のモデルは特定のオブジェクトカテゴリに限定されず、新しい未発見のオブジェクトインスタンスにダイナミクスを転送できる。 多様なオブジェクトに対する大規模な実験は、一般的なビデオ予測フレームワークと比較して、我々のアプローチの有効性を示す。 プロジェクトページはhttps://bit.ly/3cxfa 2l。

What would be the effect of locally poking a static scene? We present an approach that learns naturally-looking global articulations caused by a local manipulation at a pixel level. Training requires only videos of moving objects but no information of the underlying manipulation of the physical scene. Our generative model learns to infer natural object dynamics as a response to user interaction and learns about the interrelations between different object body regions. Given a static image of an object and a local poking of a pixel, the approach then predicts how the object would deform over time. In contrast to existing work on video prediction, we do not synthesize arbitrary realistic videos but enable local interactive control of the deformation. Our model is not restricted to particular object categories and can transfer dynamics onto novel unseen object instances. Extensive experiments on diverse objects demonstrate the effectiveness of our approach compared to common video prediction frameworks. Project page is available at https://bit.ly/3cxfA 2L .
翻訳日:2021-06-22 15:26:56 公開日:2021-06-21
# 小さな自己監督モデル改善のための簡易蒸留ベースライン

Simple Distillation Baselines for Improving Small Self-supervised Models ( http://arxiv.org/abs/2106.11304v1 )

ライセンス: Link先を確認
Jindong Gu, Wei Liu, Yonglong Tian(参考訳) 大きな自己監督型モデルが監督型モデルのパフォーマンスに匹敵する一方で、小型モデルはいまだに苦戦している。 本報告では,SimDis と呼ばれる蒸留による小型自己監督モデルの改良のための簡易ベースラインについて検討する。 具体的には,オフライン蒸留ベースラインを新たに確立し,計算オーバーヘッドを最小限にして同様の性能を実現するオンライン蒸留ベースラインを提案する。 これらのベースラインが今後の研究に役立つことを願っている。 https://github.com/j indonggu/simdis/

While large self-supervised models have rivalled the performance of their supervised counterparts, small models still struggle. In this report, we explore simple baselines for improving small self-supervised models via distillation, called SimDis. Specifically, we present an offline-distillation baseline, which establishes a new state-of-the-art, and an online-distillation baseline, which achieves similar performance with minimal computational overhead. We hope these baselines will provide useful experience for relevant future research. Code is available at: https://github.com/J indongGu/SimDis/
翻訳日:2021-06-22 15:26:42 公開日:2021-06-21
# 複数点集合の高速同時重力アライメント

Fast Simultaneous Gravitational Alignment of Multiple Point Sets ( http://arxiv.org/abs/2106.11308v1 )

ライセンス: Link先を確認
Vladislav Golyanik and Soshi Shimada and Christian Theobalt(参考訳) 入力に対して偏りのない複数の非順序点集合の同時的剛性アライメントの問題が近年注目され, 信頼性の高い手法がいくつか提案されている。 ノイズや異常値のクラスタ化に対して極めて堅牢だが、現在のアプローチでは高度な初期化スキームが必要であり、大きなポイントセットにはスケールしない。 本稿では,複数点集合の同時登録のための新しいレジリエントな手法を提案し,後者を相互誘導力場内で厳格に動く粒子群として解釈する。 改良された物理法則と2^D-ツリーによる大域的多重連結点相互作用(Dは空間次元)の加速によるシミュレーションにより、我々のMulti-Body Gravitational Approach(MBGA)は、従来の手法(10^5点以上)よりも大きな点集合をサポートしながら、ノイズや欠落データに対して堅牢である。 様々な実験環境では、MBGAは精度と実行時間の観点から、いくつかの基準点セットアライメントアプローチより優れていることが示されている。 結果の再現性を促進するために、私たちのソースコードをコミュニティに公開しています。

The problem of simultaneous rigid alignment of multiple unordered point sets which is unbiased towards any of the inputs has recently attracted increasing interest, and several reliable methods have been newly proposed. While being remarkably robust towards noise and clustered outliers, current approaches require sophisticated initialisation schemes and do not scale well to large point sets. This paper proposes a new resilient technique for simultaneous registration of multiple point sets by interpreting the latter as particle swarms rigidly moving in the mutually induced force fields. Thanks to the improved simulation with altered physical laws and acceleration of globally multiply-linked point interactions with a 2^D-tree (D is the space dimensionality), our Multi-Body Gravitational Approach (MBGA) is robust to noise and missing data while supporting more massive point sets than previous methods (with 10^5 points and more). In various experimental settings, MBGA is shown to outperform several baseline point set alignment approaches in terms of accuracy and runtime. We make our source code available for the community to facilitate the reproducibility of the results.
翻訳日:2021-06-22 15:26:33 公開日:2021-06-21
# 長文映像理解に向けて

Towards Long-Form Video Understanding ( http://arxiv.org/abs/2106.11310v1 )

ライセンス: Link先を確認
Chao-Yuan Wu, Philipp Kr\"ahenb\"uhl(参考訳) 私たちの世界は、絶え間ない視覚刺激の流れを提供しますが、今日の視覚システムは、数秒でパターンを正確に認識するだけです。 これらのシステムは現在のことを理解しているが、過去や将来の出来事ではコンテキスト化できない。 本稿では,長大な映像理解について考察する。 本稿では,長文ビデオのモデリングと大規模データセット評価プロトコルの開発を行うフレームワークを提案する。 現状の短期モデルでは長期の作業に制限があることを示す。 オブジェクト中心のトランスフォーマーに基づく新しいビデオ認識アーキテクチャは、7つの多様なタスクで大幅に向上する。 また、AVAデータセットにおいて、同等の最先端をパフォーマンスします。

Our world offers a never-ending stream of visual stimuli, yet today's vision systems only accurately recognize patterns within a few seconds. These systems understand the present, but fail to contextualize it in past or future events. In this paper, we study long-form video understanding. We introduce a framework for modeling long-form videos and develop evaluation protocols on large-scale datasets. We show that existing state-of-the-art short-term models are limited for long-form tasks. A novel object-centric transformer-based video recognition architecture performs significantly better on 7 diverse tasks. It also outperforms comparable state-of-the-art on the AVA dataset.
翻訳日:2021-06-22 15:26:11 公開日:2021-06-21
# ロバストネスは公正性を改善するか? 単語置換ロバスト性を用いたテキスト分類の公平性へのアプローチ

Does Robustness Improve Fairness? Approaching Fairness with Word Substitution Robustness Methods for Text Classification ( http://arxiv.org/abs/2106.10826v1 )

ライセンス: Link先を確認
Yada Pruksachatkun and Satyapriya Krishna and Jwala Dhamala and Rahul Gupta and Kai-Wei Chang(参考訳) コホート全体のモデル結果の格差を減らす既存のバイアス緩和手法は、データの強化、モデルの埋め込みの偏り解消、トレーニング中の公平性に基づく最適化目標の追加に重点を置いている。 単語置換ロバストネス法は,素早い特徴や同義語置換がモデル予測に与える影響を低減するために開発されている。 最終目標は異なるが、どちらも入力の特定の変更に対して同じ予測を行うようモデルに促すことを目指している。 本稿では,複数のテキスト分類タスクにおけるオッズと機会の平等性を改善するための単語置換ロバストネス手法の有用性について検討する。 我々は,認定ロバストネス法が公平性を改善し,ロバストネスとバイアス緩和法の両方をトレーニング結果に用いた場合,双方が改善するのを確認した。

Existing bias mitigation methods to reduce disparities in model outcomes across cohorts have focused on data augmentation, debiasing model embeddings, or adding fairness-based optimization objectives during training. Separately, certified word substitution robustness methods have been developed to decrease the impact of spurious features and synonym substitutions on model predictions. While their end goals are different, they both aim to encourage models to make the same prediction for certain changes in the input. In this paper, we investigate the utility of certified word substitution robustness methods to improve equality of odds and equality of opportunity on multiple text classification tasks. We observe that certified robustness methods improve fairness, and using both robustness and bias mitigation methods in training results in an improvement in both fronts
翻訳日:2021-06-22 15:26:04 公開日:2021-06-21
# ソフトウェア工学における会話エージェント:調査,分類,課題

Conversational Agents in Software Engineering: Survey, Taxonomy and Challenges ( http://arxiv.org/abs/2106.10901v1 )

ライセンス: Link先を確認
Quim Motger, Xavier Franch and Jordi Marco(参考訳) 人-コンピュータ相互作用の分野における自然言語インタフェースの利用は、専門の科学・産業研究を通じて激しい研究が進められている。 この分野での最新のコントリビューションは、リカレントニューラルネットワークやコンテキスト認識戦略の可能性、ユーザ中心の設計アプローチといったディープラーニングアプローチを含む、コミュニティの関心を、会話エージェントやチャットボットとして知られるソフトウェアベースの対話システムへと引き戻すものだ。 それにもかかわらず、この分野の新規性を考えると、関連するすべての研究の観点をカバーする会話エージェントの研究の現状に関する、一般的な文脈に依存しない概要が欠落している。 本稿では,この文脈に動機づけられ,二次研究の体系的文献レビューを通して,対話型エージェント研究の現状について概説する。 本研究は,最近の文献から得られた知識を,様々な領域,研究の焦点,文脈において明確に提示することで,徹底的な視点を育むように設計されている。 そこで本研究では,対話エージェントの分野における異なる次元の包括的分類法を提案し,研究者を支援するとともに,自然言語インタフェースの分野における今後の研究の基盤となることを期待する。

The use of natural language interfaces in the field of human-computer interaction is undergoing intense study through dedicated scientific and industrial research. The latest contributions in the field, including deep learning approaches like recurrent neural networks, the potential of context-aware strategies and user-centred design approaches, have brought back the attention of the community to software-based dialogue systems, generally known as conversational agents or chatbots. Nonetheless, and given the novelty of the field, a generic, context-independent overview on the current state of research of conversational agents covering all research perspectives involved is missing. Motivated by this context, this paper reports a survey of the current state of research of conversational agents through a systematic literature review of secondary studies. The conducted research is designed to develop an exhaustive perspective through a clear presentation of the aggregated knowledge published by recent literature within a variety of domains, research focuses and contexts. As a result, this research proposes a holistic taxonomy of the different dimensions involved in the conversational agents' field, which is expected to help researchers and to lay the groundwork for future research in the field of natural language interfaces.
翻訳日:2021-06-22 15:25:49 公開日:2021-06-21
# iDARTS:確率的命令勾配を用いた微分可能なアーキテクチャ探索

iDARTS: Differentiable Architecture Search with Stochastic Implicit Gradients ( http://arxiv.org/abs/2106.10784v1 )

ライセンス: Link先を確認
Miao Zhang, Steven Su, Shirui Pan, Xiaojun Chang, Ehsan Abbasnejad, Reza Haffari(参考訳) \textit{Differentiable ARchiTecture Search} (DARTS)は、その効率性と単純さから、最近、ニューラルアーキテクチャサーチ(NAS)の主流となっている。 勾配に基づく双レベル最適化により、DARTSは重み共有スーパーネットにおける内部モデル重みと外部アーキテクチャパラメータを交互に最適化する。 学習したアーキテクチャのスケーラビリティと品質に対する重要な課題は、インナーループ最適化による差別化の必要性である。 DARTSのいくつかの致命的な要因、すなわちアーキテクチャ勾配について多くの議論がなされてきた。 過度に緩やかに 注目は減りました 本稿では,暗黙の関数定理に基づくDARTSの過次計算に取り組み,インナーループ最適化の解にのみ依存し,最適化経路に非依存であることを示す。 さらに計算要求を減らし,微分可能なNASに対する確率的過次近似を定式化し,iDARTSという手法を用いたアーキテクチャ最適化が定常点に収束することを理論的に示す。 2つのNASベンチマーク検索空間と共通のNAS検索空間に関する総合的な実験により,提案手法の有効性が検証された。 アーキテクチャは、ベースラインメソッドによって学習された大きなマージンで、パフォーマンスを向上します。

\textit{Differentiable ARchiTecture Search} (DARTS) has recently become the mainstream of neural architecture search (NAS) due to its efficiency and simplicity. With a gradient-based bi-level optimization, DARTS alternately optimizes the inner model weights and the outer architecture parameter in a weight-sharing supernet. A key challenge to the scalability and quality of the learned architectures is the need for differentiating through the inner-loop optimisation. While much has been discussed about several potentially fatal factors in DARTS, the architecture gradient, a.k.a. hypergradient, has received less attention. In this paper, we tackle the hypergradient computation in DARTS based on the implicit function theorem, making it only depends on the obtained solution to the inner-loop optimization and agnostic to the optimization path. To further reduce the computational requirements, we formulate a stochastic hypergradient approximation for differentiable NAS, and theoretically show that the architecture optimization with the proposed method, named iDARTS, is expected to converge to a stationary point. Comprehensive experiments on two NAS benchmark search spaces and the common NAS search space verify the effectiveness of our proposed method. It leads to architectures outperforming, with large margins, those learned by the baseline methods.
翻訳日:2021-06-22 15:23:57 公開日:2021-06-21
# LSTMを用いた経路重み付けによるグラフ注意ネットワーク

Graph Attention Networks with LSTM-based Path Reweighting ( http://arxiv.org/abs/2106.10866v1 )

ライセンス: Link先を確認
Jianpeng Chen, Yujing Wang, Ming Zeng, Zongyi Xiang, Yazhou Ren(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データのマイニングに広く利用されている。 しかし、従来のGNNは、過度なスムース、非破壊性、過度に適合する問題に悩まされている。 これらの弱点を解決するために,新しいgnnソリューション,すなわちlstmベースのパス重み付け(pr-gat)を用いたグラフアテンションネットワークを設計した。 PR-GATは自動的に複数のホップ情報を集約し、重要な経路をハイライトし、ノイズを除去する。 さらに,PR-GATにおけるランダムパスサンプリングをデータ拡張に活用する。 拡張データは、対応するラベルの分布を予測するために使用される。 最後に,PR-GATが過度なスムース,非ロバスト性,過度な適合の問題を緩和できることを示す。 7つのデータセットのうち5つが最先端の精度であり、他の2つのデータセットが競合する精度である。 7つのデータセットの平均精度は、文献の最高のSOTAよりも0.55%向上している。

Graph Neural Networks (GNNs) have been extensively used for mining graph-structured data with impressive performance. However, traditional GNNs suffer from over-smoothing, non-robustness and over-fitting problems. To solve these weaknesses, we design a novel GNN solution, namely Graph Attention Network with LSTM-based Path Reweighting (PR-GAT). PR-GAT can automatically aggregate multi-hop information, highlight important paths and filter out noises. In addition, we utilize random path sampling in PR-GAT for data augmentation. The augmented data is used for predicting the distribution of corresponding labels. Finally, we demonstrate that PR-GAT can mitigate the issues of over-smoothing, non-robustness and overfitting. We achieve state-of-the-art accuracy on 5 out of 7 datasets and competitive accuracy for other 2 datasets. The average accuracy of 7 datasets have been improved by 0.5\% than the best SOTA from literature.
翻訳日:2021-06-22 15:23:38 公開日:2021-06-21
# FedCM: クライアントレベルのモメンタムによるフェデレーション学習

FedCM: Federated Learning with Client-level Momentum ( http://arxiv.org/abs/2106.10874v1 )

ライセンス: Link先を確認
Jing Xu, Sen Wang, Liwei Wang, Andrew Chi-Chih Yao(参考訳) Federated Learningは、データ共有なしでモデルトレーニングを可能にする分散機械学習アプローチである。 本稿では,実世界のフェデレーション学習アプリケーションにおいて,部分的参加とクライアントの不均一性の問題に取り組むために,クライアントレベルモメンタム(fedcm)を用いたフェデレーション平均化手法を提案する。 FedCMは、以前の通信ラウンドにおけるグローバルな勾配情報を集約し、モーメントのような用語でクライアントの勾配降下を修正し、バイアスを効果的に補正し、局所的なSGDの安定性を向上させる。 fedcmの利点を強調するために理論的分析を行う。 また,feedcmが様々なタスクにおいて優れた性能を達成し,クライアント数,参加率,クライアントの不均一性といったさまざまなレベルに対して堅牢であることを実証した。

Federated Learning is a distributed machine learning approach which enables model training without data sharing. In this paper, we propose a new federated learning algorithm, Federated Averaging with Client-level Momentum (FedCM), to tackle problems of partial participation and client heterogeneity in real-world federated learning applications. FedCM aggregates global gradient information in previous communication rounds and modifies client gradient descent with a momentum-like term, which can effectively correct the bias and improve the stability of local SGD. We provide theoretical analysis to highlight the benefits of FedCM. We also perform extensive empirical studies and demonstrate that FedCM achieves superior performance in various tasks and is robust to different levels of client numbers, participation rate and client heterogeneity.
翻訳日:2021-06-22 15:23:25 公開日:2021-06-21
# ポジティブデータとラベルなしデータによるフェデレーション学習

Federated Learning with Positive and Unlabeled Data ( http://arxiv.org/abs/2106.10904v1 )

ライセンス: Link先を確認
Xinyang Lin, Hanting Chen, Yixing Xu, Chao Xu, Xiaolin Gui, Yiping Deng, Yunhe Wang(参考訳) 我々は、各クライアントがリソースと時間の制限のためにデータセットのごく一部のみをラベル付けするフェデレーション環境で、正およびラベルなし(PU)データから学習する問題を調査する。 負のクラスが単一のクラスで構成されている従来のPU学習の設定とは異なり、フェデレートされた設定でクライアントによって識別できない負のサンプルは、クライアントに未知の複数のクラスから来ることがある。 そのため、この状況では既存のPU学習手法をほとんど適用できない。 そこで,本研究では,ラベル付きデータを他のクライアントで活用することで,複数の否定クラスが想定されるリスクを最小限に抑えるための新しいフレームワーク,federated learning with positive and unlabeled data (fedpu)を提案する。 理論上、提案されたfeedpu は完全教師付きモデルの $c\sqrt{c}$ times (ここで $c$ はクラス数を表す) 以下の一般化を実現できることを証明している。 実証実験により、FedPUは前向きなデータしか利用できない従来の学習方法よりもはるかに優れた性能が得られることが示された。

We study the problem of learning from positive and unlabeled (PU) data in the federated setting, where each client only labels a little part of their dataset due to the limitation of resources and time. Different from the settings in traditional PU learning where the negative class consists of a single class, the negative samples which cannot be identified by a client in the federated setting may come from multiple classes which are unknown to the client. Therefore, existing PU learning methods can be hardly applied in this situation. To address this problem, we propose a novel framework, namely Federated learning with Positive and Unlabeled data (FedPU), to minimize the expected risk of multiple negative classes by leveraging the labeled data in other clients. We theoretically prove that the proposed FedPU can achieve a generalization bound which is no worse than $C\sqrt{C}$ times (where $C$ denotes the number of classes) of the fully-supervised model. Empirical experiments show that the FedPU can achieve much better performance than conventional learning methods which can only use positive data.
翻訳日:2021-06-22 15:23:11 公開日:2021-06-21
# 測度保存ニューラルネットワークの近似能力

Approximation capabilities of measure-preserving neural networks ( http://arxiv.org/abs/2106.10911v1 )

ライセンス: Link先を確認
Aiqing Zhu, Pengzhan Jin, Yifa Tang(参考訳) 測定保存ニューラルネットワークはよく発達した可逆モデルであるが、近似能力は未探索のままである。 本稿では,測度保存ニューラルネットワークを用いた測度保存マップの一般的な条件を厳格に確立する。 d\geq 2$ のコンパクトな $u \subset \r^d$ に対して、すべての測度保存写像 $\psi: u\to \r^d$ は単射で有界であり、測度保存ニューラルネットワークによって $l^p$-norm で近似できる。 具体的には、$\pm 1$ のジャコビアン行列式を持つ微分可能写像は測度保存、単射、$u$ 上の有界であり、従って近似性を持つ。

Measure-preserving neural networks are well-developed invertible models, however, the approximation capabilities remain unexplored. This paper rigorously establishes the general sufficient conditions for approximating measure-preserving maps using measure-preserving neural networks. It is shown that for compact $U \subset \R^D$ with $D\geq 2$, every measure-preserving map $\psi: U\to \R^D$ which is injective and bounded can be approximated in the $L^p$-norm by measure-preserving neural networks. Specifically, the differentiable maps with $\pm 1$ determinants of Jacobians are measure-preserving, injective and bounded on $U$, thus hold the approximation property.
翻訳日:2021-06-22 15:22:54 公開日:2021-06-21
# 電気自動車充電需要の時空間予測

Deep Spatio-Temporal Forecasting of Electrical Vehicle Charging Demand ( http://arxiv.org/abs/2106.10940v1 )

ライセンス: Link先を確認
Frederik Boe H\"uttel, Inon Peled, Filipe Rodrigues and Francisco C. Pereira(参考訳) 電気自動車は、上昇傾向を逆転させる低炭素排出ソリューションを提供することができる。 しかし、これは需要を満たすのに使用されるエネルギーが緑色であることが要求される。 この要件を満たすためには、充電需要の正確な予測が不可欠である。 短期および長期の充電需要予測は、電力網の最適化と将来のインフラ拡張を可能にするだろう。 本稿では,電気自動車の充電需要を予測するために,公開データを利用することを提案する。 充電ステーション間の複雑な空間的時間的相関をモデル化するために、時間的グラフ畳み込みモデルは相関を捉えるのに最も適していると論じる。 提案した時間グラフ畳み込みネットワークは,他の予測手法と比較して,短期および長期予測において最も正確な予測を提供する。

Electric vehicles can offer a low carbon emission solution to reverse rising emission trends. However, this requires that the energy used to meet the demand is green. To meet this requirement, accurate forecasting of the charging demand is vital. Short and long-term charging demand forecasting will allow for better optimisation of the power grid and future infrastructure expansions. In this paper, we propose to use publicly available data to forecast the electric vehicle charging demand. To model the complex spatial-temporal correlations between charging stations, we argue that Temporal Graph Convolution Models are the most suitable to capture the correlations. The proposed Temporal Graph Convolutional Networks provide the most accurate forecasts for short and long-term forecasting compared with other forecasting methods.
翻訳日:2021-06-22 15:22:34 公開日:2021-06-21
# フレンドリーなトレーニング:ニューラルネットワークがデータに適応して学習を容易にする

Friendly Training: Neural Networks Can Adapt Data To Make Learning Easier ( http://arxiv.org/abs/2106.10974v1 )

ライセンス: Link先を確認
Simone Marullo, Matteo Tiezzi, Marco Gori, Stefano Melacci(参考訳) この10年間で、Deep Learningの成功に動機づけられた科学コミュニティは、ニューラルネットワークの学習手順をより効果的にするためのいくつかのアプローチを提案した。 学習機械にトレーニングデータを提供する方法に焦点を合わせると、確率的勾配に基づく最適化の古典的なランダムな選択と、データを整理するキュリキュラを考案するより複雑なテクニックを区別し、トレーニングセットの複雑さを徐々に増すことができる。 本稿では,前述した手法と異なり,モデルが学習基準を満たすのを助けるために,トレーニング例を変更することを含む,フレンドリートレーニングという新しいトレーニング手順を提案する。 このモデルは、トレーニング手順の特定の段階で分類するのが難しい例を単純化することが許されている。 データ変換は、トレーニング中に徐々に影響を減らし、完全に消滅するまで、開発計画によって制御されます。 ある意味では、これは敵の例、すなわち敵の訓練に対する堅牢性を高めるために一般的に行われていることとは逆である。 複数のデータセットに関する実験を行い、特に深い畳み込みアーキテクチャにおいて、インフォームドデータ選択ルーチンとランダム選択に関して、フレンドリーなトレーニングが改善をもたらすことを示した。 その結果,入力データの適応は学習を安定させ,ネットワークの一般化スキルを向上させるための有効な方法であることが示唆された。

In the last decade, motivated by the success of Deep Learning, the scientific community proposed several approaches to make the learning procedure of Neural Networks more effective. When focussing on the way in which the training data are provided to the learning machine, we can distinguish between the classic random selection of stochastic gradient-based optimization and more involved techniques that devise curricula to organize data, and progressively increase the complexity of the training set. In this paper, we propose a novel training procedure named Friendly Training that, differently from the aforementioned approaches, involves altering the training examples in order to help the model to better fulfil its learning criterion. The model is allowed to simplify those examples that are too hard to be classified at a certain stage of the training procedure. The data transformation is controlled by a developmental plan that progressively reduces its impact during training, until it completely vanishes. In a sense, this is the opposite of what is commonly done in order to increase robustness against adversarial examples, i.e., Adversarial Training. Experiments on multiple datasets are provided, showing that Friendly Training yields improvements with respect to informed data sub-selection routines and random selection, especially in deep convolutional architectures. Results suggest that adapting the input data is a feasible way to stabilize learning and improve the generalization skills of the network.
翻訳日:2021-06-22 15:22:24 公開日:2021-06-21
# 転炉学習によるシェールガス生産予測の改善に向けて

Towards Better Shale Gas Production Forecasting Using Transfer Learning ( http://arxiv.org/abs/2106.11051v1 )

ライセンス: Link先を確認
Omar S. Alolayan, Samuel J. Raymond, Justin B. Montgomery and John R. Williams(参考訳) ディープニューラルネットワークは、転送学習を利用することで、限られたサンプル井戸数を持つ郡でより正確なシェールガス生産予測を生成することができる。 本稿では、隣接する郡で訓練された他のディープニューラルネットワークモデルから得られた知識を、関心のある郡に転送する方法を提供する。 この論文は、テキサス・バーネットとペンシルバニア・マーセルス・シェール・フォーメーションから17郡にまたがる6000以上のシェールガス井戸のデータを使って、トランスファーラーニングの能力をテストする。 その結果,Arps減少曲線モデルと比較すると,予測誤差は11%から47%に減少した。

Deep neural networks can generate more accurate shale gas production forecasts in counties with a limited number of sample wells by utilizing transfer learning. This paper provides a way of transferring the knowledge gained from other deep neural network models trained on adjacent counties into the county of interest. The paper uses data from more than 6000 shale gas wells across 17 counties from Texas Barnett and Pennsylvania Marcellus shale formations to test the capabilities of transfer learning. The results reduce the forecasting error between 11% and 47% compared to the widely used Arps decline curve model.
翻訳日:2021-06-22 15:22:02 公開日:2021-06-21
# ユニモーダル教師によるマルチモーダル学習の改善

Improving Multi-Modal Learning with Uni-Modal Teachers ( http://arxiv.org/abs/2106.11059v1 )

ライセンス: Link先を確認
Chenzhuang Du, Tingle Li, Yichen Liu, Zixin Wen, Tianyu Hua, Yue Wang, Hang Zhao(参考訳) マルチモーダル表現の学習は,実世界のロボット応用に向けた重要なステップであり,そのために様々なマルチモーダル融合モデルが開発されている。 しかし, 既存のモデルでは, ほとんどが共同学習に基づくモデルであり, それぞれのモダリティの劣等な表現の学習に苦しむことが多い。 この問題モダリティの失敗を命名し、融合法におけるモダリティの不均衡と共通の目的の暗黙のバイアスは、各モダリティのエンコーダが十分な特徴学習を妨げると仮定する。 そこで本研究では, 融合目的とユニモーダル蒸留を組み合わせたマルチモーダル学習法であるuni-modal teacherを提案する。 提案手法は各モードの表現を劇的に改善するだけでなく,全体のマルチモーダルタスク性能も向上することを示す。 我々の方法は、ほとんどのマルチモーダル融合アプローチに効果的に一般化することができる。 我々は、VGGSound音声視覚分類タスクにおいて3%以上の改善を達成し、NYU深度V2 RGB-D画像セグメンテーションタスクの性能を改善した。

Learning multi-modal representations is an essential step towards real-world robotic applications, and various multi-modal fusion models have been developed for this purpose. However, we observe that existing models, whose objectives are mostly based on joint training, often suffer from learning inferior representations of each modality. We name this problem Modality Failure, and hypothesize that the imbalance of modalities and the implicit bias of common objectives in fusion method prevent encoders of each modality from sufficient feature learning. To this end, we propose a new multi-modal learning method, Uni-Modal Teacher, which combines the fusion objective and uni-modal distillation to tackle the modality failure problem. We show that our method not only drastically improves the representation of each modality, but also improves the overall multi-modal task performance. Our method can be effectively generalized to most multi-modal fusion approaches. We achieve more than 3% improvement on the VGGSound audio-visual classification task, as well as improving performance on the NYU depth V2 RGB-D image segmentation task.
翻訳日:2021-06-22 15:21:51 公開日:2021-06-21
# 相互作用系の条件付きニューラルリレーショナル推論

Conditional Neural Relational Inference for Interacting Systems ( http://arxiv.org/abs/2106.11083v1 )

ライセンス: Link先を確認
Joao A. Candido Ramos, Lionel Blond\'e, St\'ephane Armand and Alexandros Kalousis(参考訳) この研究では、類似しているが異なる相互作用するオブジェクトのグループのダイナミクスをモデル化することを学びたい。 これらの群は、ベクトル記述によって捕獲される特異性を示すいくつかの一般的な物理法則に従う。 ベクトル記述を前提として,任意の群から条件付き生成を行うことができるモデルを開発した。 軌道完了のみ可能で、軌道ダイナミクスの一部を生成時の入力として提供する必要がある以前の力学系の学習と異なり、私たちは生成時間の軌跡へのアクセスのない条件付きベクトルのみを使用して生成する。 我々は,人間の歩行,特に病的歩行のモデル化において,モデルを評価する。

In this work, we want to learn to model the dynamics of similar yet distinct groups of interacting objects. These groups follow some common physical laws that exhibit specificities that are captured through some vectorial description. We develop a model that allows us to do conditional generation from any such group given its vectorial description. Unlike previous work on learning dynamical systems that can only do trajectory completion and require a part of the trajectory dynamics to be provided as input in generation time, we do generation using only the conditioning vector with no access to generation time's trajectories. We evaluate our model in the setting of modeling human gait and, in particular pathological human gait.
翻訳日:2021-06-22 15:21:31 公開日:2021-06-21
# 跳躍パターン可視化による多変量データ記述

Multivariate Data Explanation by Jumping Emerging Patterns Visualization ( http://arxiv.org/abs/2106.11112v1 )

ライセンス: Link先を確認
M\'ario Popolin Neto and Fernando V. Paulovich(参考訳) visual analytics (va)のツールやテクニックは、より優れた分類モデルの構築、モデル決定の解釈、監査結果の支援に役立つことが示されている。 異なる方向において、VAは予測ではなく、分類モデルを記述的なメカニズムに変換するために最近応用されている。 データパターンの代理としてそのようなモデルを使用し、データによって表される現象を理解するためにモデルを視覚化する。 非常に有用で刺激的なアプローチがいくつか提案されているが、単純な解釈を促進するために低複雑な分類モデルを使用することを選択し、複雑なデータパターンを捉えるための制限を提示している。 本稿では,多変量データセットにおけるパターンの識別と視覚的解釈を支援する新しいVA法であるVAX(multiVariate dAta eXplanation)を提案する。 既存の類似のアプローチとは異なり、VAXはJumping Emerging Patternsという概念を使って、複数の多様化したパターンを特定し、集約し、データ変数のロジックの組み合わせを通して説明を生成する。 複雑な多変量データセットを解釈するvaxのポテンシャルは、異なるシナリオをカバーする2つの実世界のデータセットを用いた研究によって実証される。

Visual Analytics (VA) tools and techniques have shown to be instrumental in supporting users to build better classification models, interpret model decisions and audit results. In a different direction, VA has recently been applied to transform classification models into descriptive mechanisms instead of predictive. The idea is to use such models as surrogates for data patterns, visualizing the model to understand the phenomenon represented by the data. Although very useful and inspiring, the few proposed approaches have opted to use low complex classification models to promote straightforward interpretation, presenting limitations to capture intricate data patterns. In this paper, we present VAX (multiVariate dAta eXplanation), a new VA method to support the identification and visual interpretation of patterns in multivariate data sets. Unlike the existing similar approaches, VAX uses the concept of Jumping Emerging Patterns to identify and aggregate several diversified patterns, producing explanations through logic combinations of data variables. The potential of VAX to interpret complex multivariate datasets is demonstrated through study-cases using two real-world data sets covering different scenarios.
翻訳日:2021-06-22 15:21:18 公開日:2021-06-21
# ニューラルネットワーク最適化のためのマトリックス符号化ネットワーク

Matrix Encoding Networks for Neural Combinatorial Optimization ( http://arxiv.org/abs/2106.11113v1 )

ライセンス: Link先を確認
Yeong-Dae Kwon, Jinho Choo, Iljoo Yoon, Minah Park, Duwon Park, Youngjune Gwon(参考訳) 機械学習(ML)は組合せ最適化(CO)問題を解決するのに役立つ。 一般的なアプローチは、与えられたCO問題のパラメータをニューラルネットで計算し、優れた解を探すための有用な情報を抽出することである。 実用上重要な多くのco問題は、2つの群間の関係を定量化するパラメータの行列形式で特定できる。 しかし、現在ではそのような行列式関係データを入力として取り込むニューラルネットモデルはない。 その結果、この種のCO問題はMLエンジニアには届かなかった。 本稿では,マトリクス符号化ネットワーク(matnet)を紹介し,そのような複雑なco問題のパラメータの処理にどの程度便利かを示す。 MatNetに基づくエンドツーエンドモデルを用いて、非対称走行セールスマン(ATSP)とフレキシブルフローショップ(FFSP)の問題を最初期のニューラルネットワークとして解決する。 特に、私たちがMatchNetでテストしたFFSPのクラスでは、現在知られているどのメソッド(神経か、そうでないか)よりもはるかに優れた経験的パフォーマンスを示します。

Machine Learning (ML) can help solve combinatorial optimization (CO) problems better. A popular approach is to use a neural net to compute on the parameters of a given CO problem and extract useful information that guides the search for good solutions. Many CO problems of practical importance can be specified in a matrix form of parameters quantifying the relationship between two groups of items. There is currently no neural net model, however, that takes in such matrix-style relationship data as an input. Consequently, these types of CO problems have been out of reach for ML engineers. In this paper, we introduce Matrix Encoding Network (MatNet) and show how conveniently it takes in and processes parameters of such complex CO problems. Using an end-to-end model based on MatNet, we solve asymmetric traveling salesman (ATSP) and flexible flow shop (FFSP) problems as the earliest neural approach. In particular, for a class of FFSP we have tested MatNet on, we demonstrate a far superior empirical performance to any methods (neural or not) known to date.
翻訳日:2021-06-22 15:21:00 公開日:2021-06-21
# 正則化は必要なすべてだ:単純なニューラルネットワークは表データに優れている

Regularization is all you Need: Simple Neural Nets can Excel on Tabular Data ( http://arxiv.org/abs/2106.11189v1 )

ライセンス: Link先を確認
Arlind Kadra, Marius Lindauer, Frank Hutter, Josif Grabocka(参考訳) タブラルデータセットはディープラーニングのための最後の"不整合キャッスル"であり、Gradient-Boosted Decision Treeのような従来のMLメソッドは、最近の特殊なニューラルネットワークアーキテクチャに対してさえ強く機能している。 本稿では,ニューラルネットワークの性能向上の鍵は,多数の現代的な正規化手法の結合と同時適用を再考することにある,という仮説を立てる。 その結果,正則化器が適用すべき決定とその補助パラメータに対して共同最適化を行い,各データセットに対する13の正則化手法の最適組み合わせ/カクテルを探索することにより,平板多層パーセプトロン(MLP)ネットワークの正則化を提案する。 我々は,MLPの正規化カクテルが40の表付きデータセットからなる大規模実証研究に与える影響を実証的に評価し,(i)高度に規則化されたプレーンなMLが最近の最先端の専門的ニューラルネットワークアーキテクチャを著しく上回り,(ii)XGBoostのような強力なML手法よりも優れていることを示す。

Tabular datasets are the last "unconquered castle" for deep learning, with traditional ML methods like Gradient-Boosted Decision Trees still performing strongly even against recent specialized neural architectures. In this paper, we hypothesize that the key to boosting the performance of neural networks lies in rethinking the joint and simultaneous application of a large set of modern regularization techniques. As a result, we propose regularizing plain Multilayer Perceptron (MLP) networks by searching for the optimal combination/cocktail of 13 regularization techniques for each dataset using a joint optimization over the decision on which regularizers to apply and their subsidiary hyperparameters. We empirically assess the impact of these regularization cocktails for MLPs on a large-scale empirical study comprising 40 tabular datasets and demonstrate that (i) well-regularized plain MLPs significantly outperform recent state-of-the-art specialized neural network architectures, and (ii) they even outperform strong traditional ML methods, such as XGBoost.
翻訳日:2021-06-22 15:20:44 公開日:2021-06-21
# AOMD:ソーシャルメディア上での攻撃的ミーム検出のためのアナロジー対応アプローチ

AOMD: An Analogy-aware Approach to Offensive Meme Detection on Social Media ( http://arxiv.org/abs/2106.11229v1 )

ライセンス: Link先を確認
Lanyu Shang, Yang Zhang, Yuheng Zha, Yingxi Chen, Christina Youn, Dong Wang(参考訳) 本稿では,オンラインソーシャルメディア上でのアグレッシブ・アナロジー・ミームの検出において,視覚コンテンツとミームのテキスト・字幕を併用してアグレッシブ情報を伝達する重要な課題について述べる。 既存の攻撃的ミーム検出ソリューションは、しばしばミームの視覚的内容とテキスト的内容の間の暗黙的な関係を無視し、攻撃的類似ミームを特定するのに不十分である。 攻撃的アナロジーミームを正確に検出する上で2つの重要な課題が存在する: i) ミームによって暗黙的に伝達されるアナロジーを捉えることは自明ではない; i) ミーム内の異なるデータモダリティ間で複雑なアナロジーを効果的に整合させることも困難である。 このような課題に対処するため,我々は,ミームのマルチモーダルな内容から暗黙的な類似を学習し,攻撃的類似を効果的に検出する,深層学習に基づくAOMD(Analogy-aware Offensive Meme Detection)フレームワークを開発した。 オンラインソーシャルメディアから2つの実世界のデータセット上でAOMDを評価する。 評価結果から,AOMDは,攻撃的アナログミームをより正確に検出することにより,最先端のベースラインと比較して高い性能向上を達成することが示された。

This paper focuses on an important problem of detecting offensive analogy meme on online social media where the visual content and the texts/captions of the meme together make an analogy to convey the offensive information. Existing offensive meme detection solutions often ignore the implicit relation between the visual and textual contents of the meme and are insufficient to identify the offensive analogy memes. Two important challenges exist in accurately detecting the offensive analogy memes: i) it is not trivial to capture the analogy that is often implicitly conveyed by a meme; ii) it is also challenging to effectively align the complex analogy across different data modalities in a meme. To address the above challenges, we develop a deep learning based Analogy-aware Offensive Meme Detection (AOMD) framework to learn the implicit analogy from the multi-modal contents of the meme and effectively detect offensive analogy memes. We evaluate AOMD on two real-world datasets from online social media. Evaluation results show that AOMD achieves significant performance gains compared to state-of-the-art baselines by detecting offensive analogy memes more accurately.
翻訳日:2021-06-22 15:20:21 公開日:2021-06-21
# 遅延フィードバックによる円滑な逐次最適化

Smooth Sequential Optimisation with Delayed Feedback ( http://arxiv.org/abs/2106.11294v1 )

ライセンス: Link先を確認
Srivas Chennu, Jamie Martin, Puli Liyanagama, Phil Mohr(参考訳) フィードバックの確率的遅延は、マルチアームのバンディットを用いた不安定な逐次学習につながる。 近年,経験的ベイズ縮小はバンディット学習における報酬推定を改善することが示されている。 本稿では,遅延フィードバックと非定常報酬による不完全な知識に対処するため,窓付き累積入力からの報酬推定を円滑に見積もる,新しい縮小適応を提案する。 数値シミュレーションを用いて, この適応が収縮の利点を保ち, 報酬推定の安定性を50%以上向上させることを示した。 提案手法は, 最善の腕への治療割り当ての変動を最大3.8倍削減し, 統計的精度を最大8%改善し, 37%の偽陽性率を低下させる。 これらの利点は、速度と適応の安定性の間のトレードオフを制御し、ループ内シーケンシャル最適化を容易にする。

Stochastic delays in feedback lead to unstable sequential learning using multi-armed bandits. Recently, empirical Bayesian shrinkage has been shown to improve reward estimation in bandit learning. Here, we propose a novel adaptation to shrinkage that estimates smoothed reward estimates from windowed cumulative inputs, to deal with incomplete knowledge from delayed feedback and non-stationary rewards. Using numerical simulations, we show that this adaptation retains the benefits of shrinkage, and improves the stability of reward estimation by more than 50%. Our proposal reduces variability in treatment allocations to the best arm by up to 3.8x, and improves statistical accuracy - with up to 8% improvement in true positive rates and 37% reduction in false positive rates. Together, these advantages enable control of the trade-off between speed and stability of adaptation, and facilitate human-in-the-loop sequential optimisation.
翻訳日:2021-06-22 15:19:58 公開日:2021-06-21
# datalog$^\neg$による解消可能な推論

Defeasible Reasoning via Datalog$^\neg$ ( http://arxiv.org/abs/2106.10946v1 )

ライセンス: Link先を確認
Michael J. Maher(参考訳) 我々は,datalog$^\neg$ プログラムに難解な理論をコンパイルする問題に対処する。 このコンパイルの正確性は、defeasible logic $dl(\partial_{||})$ に対して証明するが、我々が使用する技法は、他の多くのdefeasible logicに適用される。 $dl(\partial_{||})$の構造的性質は、他の相反論理と比較して、論理における相反する理論の帰結の効率的な実装と/または近似をサポートする。 私たちはまた、不完全なdatalog$^\neg$の実装に適応するために、論理プログラムの構造的特性もよく研究しました。

We address the problem of compiling defeasible theories to Datalog$^\neg$ programs. We prove the correctness of this compilation, for the defeasible logic $DL(\partial_{||})$, but the techniques we use apply to many other defeasible logics. Structural properties of $DL(\partial_{||})$ are identified that support efficient implementation and/or approximation of the conclusions of defeasible theories in the logic, compared with other defeasible logics. We also use previously well-studied structural properties of logic programs to adapt to incomplete Datalog$^\neg$ implementations.
翻訳日:2021-06-22 15:18:57 公開日:2021-06-21
# バイリンガル音声合成のための非ネイティブ英語語彙生成

Non-native English lexicon creation for bilingual speech synthesis ( http://arxiv.org/abs/2106.10870v1 )

ライセンス: Link先を確認
Arun Baby, Pranav Jawale, Saranya Vinnaitherthan, Sumukh Badam, Nagaraj Adiga, Sharath Adavanne(参考訳) バイリンガル英語話者は彼らの言語の1つとして英語を話します。 彼らの英語は非ネイティブであり、彼らの会話はコードミキシング方式である。 非ネイティブな英語話者に対するバイリンガルテキスト音声(TTS)システムの知性は、非ネイティブな話者が使用する音素配列をキャプチャする語彙に依存する。 しかし、非ネイティブな英語語彙が欠如しているため、既存のバイリンガル TTS システムは、母語語彙に加えて、広く利用できる英語語彙を使用している。 音声中の非ネイティブ英語発音とテキスト中のネイティブ英語語彙の矛盾により、このようなTSシステムにおける合成音声の理解性が著しく低下する。 本論文は、話者の母国語が非母国英語の発音に強い影響を与えるという知識に動機付けられている。 本稿では,母語英語の語彙を非母語バージョンにマッピングするために,音素アライメントに対する文字に基づく規則を得るための汎用的手法を提案する。 このようなマッピングの有効性は、提案した規則と無条件で訓練されたバイリンガル (インド英語とヒンディー語) TTS システムを比較して検討する。 主観評価の結果,非母語英語レキシコン規則で学習したバイリンガルttsシステムは,6%の絶対的嗜好改善が得られた。

Bilingual English speakers speak English as one of their languages. Their English is of a non-native kind, and their conversations are of a code-mixed fashion. The intelligibility of a bilingual text-to-speech (TTS) system for such non-native English speakers depends on a lexicon that captures the phoneme sequence used by non-native speakers. However, due to the lack of non-native English lexicon, existing bilingual TTS systems employ native English lexicons that are widely available, in addition to their native language lexicon. Due to the inconsistency between the non-native English pronunciation in the audio and native English lexicon in the text, the intelligibility of synthesized speech in such TTS systems is significantly reduced. This paper is motivated by the knowledge that the native language of the speaker highly influences non-native English pronunciation. We propose a generic approach to obtain rules based on letter to phoneme alignment to map native English lexicon to their non-native version. The effectiveness of such mapping is studied by comparing bilingual (Indian English and Hindi) TTS systems trained with and without the proposed rules. The subjective evaluation shows that the bilingual TTS system trained with the proposed non-native English lexicon rules obtains a 6% absolute improvement in preference.
翻訳日:2021-06-22 15:18:44 公開日:2021-06-21
# 抽象幾何計算11:信号機における傾斜射撃部隊同期

Abstract Geometrical Computation 11: Slanted Firing Squad Synchronisation on Signal Machines ( http://arxiv.org/abs/2106.11176v1 )

ライセンス: Link先を確認
J\'er\^ome Durand-Lose and Aur\'elien Emmanuel(参考訳) セルオートマトン上での発射部隊同期は、その範囲を事前に知ることなく、有限個のセルの動的同期である。 これは無限の速度を持つ信号と見なすことができる。 提案された構成の多くは信号機の連続的な設定に自然に変換され、水平線上に蓄積したフラクタルフィギュアを生成する。 同期的に、時空図で。 信号機は抽象幾何学計算と呼ばれる一連の論文で研究されている。 本稿では,任意の非無限斜面上で同期・蓄積可能な信号機を設計する。 斜面は初期配置で符号化される。 これは、各ノードがツリーの展開の仕方を計算するような無限木を構築することによって行われる。 抽象幾何学計算の関心は、連続空間からの新たな困難に対処しながら、離散空間の制約を取り除くことである。 特に本論文は,信号機械モデルにおける計算可能集積線のさらなる研究のための基本的なツールを提供することを目的とする。

Firing Squad Synchronisation on Cellular Automata is the dynamical synchronisation of finitely many cells without any prior knowledge of their range. This can be conceived as a signal with an infinite speed. Most of the proposed constructions naturally translate to the continuous setting of signal machines and generate fractal figures with an accumulation on a horizontal line, i.e. synchronously, in the space-time diagram. Signal machines are studied in a series of articles named Abstract Geometrical Computation. In the present article, we design a signal machine that is able to synchronise/accumula te on any non-infinite slope. The slope is encoded in the initial configuration. This is done by constructing an infinite tree such that each node computes the way the tree expands. The interest of Abstract Geometrical computation is to do away with the constraint of discrete space, while tackling new difficulties from continuous space. The interest of this paper in particular is to provide basic tools for further study of computable accumulation lines in the signal machine model.
翻訳日:2021-06-22 15:18:21 公開日:2021-06-21
# 低ランク・スパースプリデント注入による教師なし深層学習

Unsupervised Deep Learning by Injecting Low-Rank and Sparse Priors ( http://arxiv.org/abs/2106.10923v1 )

ライセンス: Link先を確認
Tomoya Sakai(参考訳) 深層ニューラルネットワークがスパーシティ誘導優先から学べるとしたらどうだろう? ネットワークがレイヤーモジュール(CNN、RNNなど)を組み合わせることで設計される場合、エンジニアは、注釈付きトレーニングデータセット以外の既存のよく知られたルールや事前知識といった誘導バイアスをあまり利用しない。 我々は、ネットワークが教師なしの方法で高次元データの性質を簡潔に捉えることを奨励するために、深層学習に疎結合に先立って採用することに注力する。 非微分可能空間誘導ノルムを損失関数として使用するために、それらの近位写像を自動微分フレームワークにプラグインする。 背景減算のためのu-netの教師なし学習を低ランクとスパースプリミティブを用いて実演する。 U-Netは、アノテーションなしでトレーニングシーケンスで動くオブジェクトを学習し、テストシーケンスで前景オブジェクトを正常に検出できる。

What if deep neural networks can learn from sparsity-inducing priors? When the networks are designed by combining layer modules (CNN, RNN, etc), engineers less exploit the inductive bias, i.e., existing well-known rules or prior knowledge, other than annotated training data sets. We focus on employing sparsity-inducing priors in deep learning to encourage the network to concisely capture the nature of high-dimensional data in an unsupervised way. In order to use non-differentiable sparsity-inducing norms as loss functions, we plug their proximal mappings into the automatic differentiation framework. We demonstrate unsupervised learning of U-Net for background subtraction using low-rank and sparse priors. The U-Net can learn moving objects in a training sequence without any annotation, and successfully detect the foreground objects in test sequences.
翻訳日:2021-06-22 15:17:08 公開日:2021-06-21
# 画像再構成不確かさによるMRI画像品質の推定

Estimating MRI Image Quality via Image Reconstruction Uncertainty ( http://arxiv.org/abs/2106.10992v1 )

ライセンス: Link先を確認
Richard Shaw, Carole H. Sudre, Sebastien Ourselin, M. Jorge Cardoso(参考訳) 医用画像解析における品質管理(qc)は時間と労力がかかり、自動化手法への関心が高まる。 しかし、アルゴリズム処理に適した品質と見なされるものは、視覚品質の知覚指標とは異なる可能性がある。 本研究では,画像再構成の観点からMR画像の品質評価を行う。 我々は,不確実性モデルを用いてベイジアンCNNを訓練し,ノイズデータからクリーンな画像を復元し,予測の不確実性を評価する。 このフレームワークにより、データの破損を学習可能かつ非学習可能なコンポーネントに分割し、予測の不確実性を画像の達成可能な回復の推定として解釈することができる。 したがって,視覚評価における品質制御は,アルゴリズム処理における品質制御と同一視できない。 我々は,人工物回収と不確実性予測,灰白質セグメンテーションを組み合わせたマルチタスク実験において,このステートメントを検証する。 この視覚的品質とアルゴリズム的品質の区別を認識することは、下流のタスクによって、‘visual quality’の理由だけで、少ないデータを排除することができるという影響をもたらす。

Quality control (QC) in medical image analysis is time-consuming and laborious, leading to increased interest in automated methods. However, what is deemed suitable quality for algorithmic processing may be different from human-perceived measures of visual quality. In this work, we pose MR image quality assessment from an image reconstruction perspective. We train Bayesian CNNs using a heteroscedastic uncertainty model to recover clean images from noisy data, providing measures of uncertainty over the predictions. This framework enables us to divide data corruption into learnable and non-learnable components and leads us to interpret the predictive uncertainty as an estimation of the achievable recovery of an image. Thus, we argue that quality control for visual assessment cannot be equated to quality control for algorithmic processing. We validate this statement in a multi-task experiment combining artefact recovery with uncertainty prediction and grey matter segmentation. Recognising this distinction between visual and algorithmic quality has the impact that, depending on the downstream task, less data can be excluded based on ``visual quality" reasons alone.
翻訳日:2021-06-22 15:16:54 公開日:2021-06-21
# 移動ロボットにおけるLiDARによる人物検出のための領域とモダリティギャップ

Domain and Modality Gaps for LiDAR-based Person Detection on Mobile Robots ( http://arxiv.org/abs/2106.11239v1 )

ライセンス: Link先を確認
Dan Jia and Alexander Hermans and Bastian Leibe(参考訳) 人検出は人混みの環境での移動ロボットにとって重要なタスクであり、LiDARセンサーは正確な深度測定と視野の広さから、このタスクを約束している。 本稿では,移動ロボットのシナリオ(例)に着目した既存のLiDARに基づく人検出装置について検討する。 サービスロボットまたはソーシャルロボット) 運転シナリオと比較して、人がより頻繁に、より近い範囲で観察される。 最近リリースされたjackrabbotデータセットと,3dおよび2dlidarセンサ(centerpointとdr-spaam)に基づく最先端検出器を用いて,一連の実験を行った。 これらの実験は、3Dと2DのLiDARセンサー間のモダリティのギャップと同様に、運転と移動ロボットのシナリオ間の領域ギャップを取り巻く。 ドメインギャップのために、私たちは、運転データセットに事前訓練された検出器が、現在トレーニング済みのモデルがないモバイルロボットのシナリオにおいて、優れたパフォーマンスを達成することができるかどうかを理解することを目的としています。 モダリティギャップについては、性能、ランタイム、ローカライゼーション精度、レンジに対する堅牢性、混雑性など、様々な側面から、3Dまたは2D LiDARを使用する検出器を比較する。 実験の結果は,LiDARに基づく人物検出の実践的洞察を与え,関連する移動ロボットの設計と応用に関する情報決定を容易にする。

Person detection is a crucial task for mobile robots navigating in human-populated environments and LiDAR sensors are promising for this task, given their accurate depth measurements and large field of view. This paper studies existing LiDAR-based person detectors with a particular focus on mobile robot scenarios (e.g. service robot or social robot), where persons are observed more frequently and in much closer ranges, compared to the driving scenarios. We conduct a series of experiments, using the recently released JackRabbot dataset and the state-of-the-art detectors based on 3D or 2D LiDAR sensors (CenterPoint and DR-SPAAM respectively). These experiments revolve around the domain gap between driving and mobile robot scenarios, as well as the modality gap between 3D and 2D LiDAR sensors. For the domain gap, we aim to understand if detectors pretrained on driving datasets can achieve good performance on the mobile robot scenarios, for which there are currently no trained models readily available. For the modality gap, we compare detectors that use 3D or 2D LiDAR, from various aspects, including performance, runtime, localization accuracy, robustness to range and crowdedness. The results from our experiments provide practical insights into LiDAR-based person detection and facilitate informed decisions for relevant mobile robot designs and applications.
翻訳日:2021-06-22 15:16:37 公開日:2021-06-21
# EML Online Speech Activity Detection for the Fearless Steps Challenge-III

EML Online Speech Activity Detection for the Fearless Steps Challenge Phase-III ( http://arxiv.org/abs/2106.11075v1 )

ライセンス: Link先を確認
Omid Ghahabi, Volker Fischer(参考訳) 音声中の音声セグメントを同定する音声活動検出(sad)は、ほとんどの音声技術応用の主要な部分である。 ロバストSADは通常、信号対雑音比 (SNR) の異なる雑音条件下では困難である。 Fearless Stepsチャレンジは、SADを含むさまざまな音声処理タスクのために、NASAのアポロ11号ミッションからそのようなデータを最近提供した。 ほとんどのオーディオ録音は、チャンネル内およびチャンネル間で異なる種類のノイズレベルによって劣化する。 本稿では,この課題の最新段階のEMLオンラインアルゴリズムについて述べる。 提案アルゴリズムは教師なしと教師なしの両方で訓練でき、約0.1秒毎に実行時に音声ラベルと非音声ラベルを割り当てる。 実験の結果,単一のcpuマシンを用いて,実時間係数約0.002で開発・評価データセットの競合精度を示した。

Speech Activity Detection (SAD), locating speech segments within an audio recording, is a main part of most speech technology applications. Robust SAD is usually more difficult in noisy conditions with varying signal-to-noise ratios (SNR). The Fearless Steps challenge has recently provided such data from the NASA Apollo-11 mission for different speech processing tasks including SAD. Most audio recordings are degraded by different kinds and levels of noise varying within and between channels. This paper describes the EML online algorithm for the most recent phase of this challenge. The proposed algorithm can be trained both in a supervised and unsupervised manner and assigns speech and non-speech labels at runtime approximately every 0.1 sec. The experimental results show a competitive accuracy on both development and evaluation datasets with a real-time factor of about 0.002 using a single CPU machine.
翻訳日:2021-06-22 15:15:46 公開日:2021-06-21
# 敵対的な例は強い毒を作る

Adversarial Examples Make Strong Poisons ( http://arxiv.org/abs/2106.10807v1 )

ライセンス: Link先を確認
Liam Fowl, Micah Goldblum, Ping-yeh Chiang, Jonas Geiping, Wojtek Czaja, Tom Goldstein(参考訳) 敵対的な機械学習の文献は、テストデータに対する回避攻撃と、トレーニングデータに対する中毒攻撃に分けられる。 本研究では,前訓練モデルに対する攻撃を意図した攻撃例が,近年の中毒対策よりもデータ中毒に有効であることを示す。 以上の結果から,自然ベース画像の原ラベルを割り当てた例では,自然画像の分類器の訓練には使用できないことが示唆された。 さらに、敵の例が敵のクラスラベルに割り当てられると、それらはトレーニングに役立ちます。 これは、敵の例が `wrong' ラベル(ネットワークによるが人間ではない)と同様に有用な意味的内容を含んでいることを示唆している。 本手法は,データセットのセキュアなリリースにおいて,既存の中毒法よりも極めて効果的であり,この形式のデータ難読化の研究を促進するために,ImageNetの有毒バージョンである ImageNet-P をリリースする。

The adversarial machine learning literature is largely partitioned into evasion attacks on testing data and poisoning attacks on training data. In this work, we show that adversarial examples, originally intended for attacking pre-trained models, are even more effective for data poisoning than recent methods designed specifically for poisoning. Our findings indicate that adversarial examples, when assigned the original label of their natural base image, cannot be used to train a classifier for natural images. Furthermore, when adversarial examples are assigned their adversarial class label, they are useful for training. This suggests that adversarial examples contain useful semantic content, just with the ``wrong'' labels (according to a network, but not a human). Our method, adversarial poisoning, is substantially more effective than existing poisoning methods for secure dataset release, and we release a poisoned version of ImageNet, ImageNet-P, to encourage research into the strength of this form of data obfuscation.
翻訳日:2021-06-22 15:12:30 公開日:2021-06-21
# Pandaのデモ: かなり監視されたエンティティマッチングシステム

Demonstration of Panda: A Weakly Supervised Entity Matching System ( http://arxiv.org/abs/2106.10821v1 )

ライセンス: Link先を確認
Renzhi Wu, Prem Sakala, Peng Li, Xu Chu, Yeye He(参考訳) エンティティマッチング(em)は、同じ現実世界のエンティティを参照する1つ以上の関係においてタプルペアを識別する問題を指す。 Supervised Machine Learning(ML)アプローチ、特にディープラーニングベースのアプローチは、通常、最先端のマッチング結果を達成する。 しかし、これらのアプローチには多くのラベル付き例が必要であり、マッチングと非マッチングペアという形でラベル付けには高価で時間がかかる。 本稿では,EM用に設計された弱教師付きシステムであるPandaを紹介する。 Panda は Snorkel と同じラベリング関数の抽象化を用いており、ラベル付け関数 (LF) は大量のラベルを迅速かつ安価に生成できるユーザが提供するプログラムであり、ラベル付けモデルを使って正確な最終的な予測を生成することができる。 Pandaは、ユーザがEM用のLFを開発するのをサポートするため、モダンなブラウザアーキテクチャで動く統合開発環境(IDE)を提供する。 PandaのIDEは、汎用プログラミングにおいてVisual StudioやEclipseのようなIDEが優れているのと同じように、EMタスクのコンテキストにおけるLFの開発、デバッグ、ライフサイクル管理を容易にする。 PandaのIDEには、スマートデータサンプリング、EMユーティリティ関数の組み込みライブラリ、自動生成されたLF、LFのビジュアルデバッギング、最後にEM固有のラベルモデルなど、EM用に構築された多くの新機能が含まれている。 このデモでは、Panda IDEが弱い監督力を使って高品質なEMソリューションの開発を大幅に加速できることを示す。

Entity matching (EM) refers to the problem of identifying tuple pairs in one or more relations that refer to the same real world entities. Supervised machine learning (ML) approaches, and deep learning based approaches in particular, typically achieve state-of-the-art matching results. However, these approaches require many labeled examples, in the form of matching and non-matching pairs, which are expensive and time-consuming to label. In this paper, we introduce Panda, a weakly supervised system specifically designed for EM. Panda uses the same labeling function abstraction as Snorkel, where labeling functions (LF) are user-provided programs that can generate large amounts of (somewhat noisy) labels quickly and cheaply, which can then be combined via a labeling model to generate accurate final predictions. To support users developing LFs for EM, Panda provides an integrated development environment (IDE) that lives in a modern browser architecture. Panda's IDE facilitates the development, debugging, and life-cycle management of LFs in the context of EM tasks, similar to how IDEs such as Visual Studio or Eclipse excel in general-purpose programming. Panda's IDE includes many novel features purpose-built for EM, such as smart data sampling, a builtin library of EM utility functions, automatically generated LFs, visual debugging of LFs, and finally, an EM-specific labeling model. We show in this demo that Panda IDE can greatly accelerate the development of high-quality EM solutions using weak supervision.
翻訳日:2021-06-22 15:12:14 公開日:2021-06-21
# BanditMF:マルチArmed Bandit-based Matrix Factorization Recommender System

BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender System ( http://arxiv.org/abs/2106.10898v1 )

ライセンス: Link先を確認
Shenghao Xu(参考訳) マルチアームバンディット(MAB)は、探索と搾取のバランスをとるための原則的オンライン学習手法であり、複数の状況で行動する学習を伴わない優れたパフォーマンスと低フィードバック学習のため、レコメンダシステムなどのアプリケーションに広く注目を集めている。 同様に、リコメンダシステム内では、コラボレーティブフィルタリング(cf)はおそらくリコメンダシステムにおいて最も早く、最も影響力のある方法である。 重要なことは、新しいユーザーと推奨アイテムのプールが、レコメンデーターシステムに対処する必要がある課題だ。 協調フィルタリングでは、従来の方法はモデルをオフラインでトレーニングし、オンラインテストを実行するが、このアプローチでは、いわゆる \textit{cold start}と呼ばれるユーザの好みの動的な変更を処理できない。 では、効果的な情報がないユーザに対して、効果的にアイテムを推奨する方法? 上記の問題に対処するため、BanditMFというマルチアームバンディットに基づく協調フィルタリング推薦システムが提案されている。 BanditMF は,(1) 有効情報の不足条件下での協調フィルタリングにおけるコールドスタート問題の解法,(2) ユーザと関係する未知のパラメータを独立に推定し,ユーザ間の相関を無視することによる,強い関係領域におけるバンディットアルゴリズムの最適部分問題の解法,という2つの課題に対処するように設計されている。

Multi-armed bandits (MAB) provide a principled online learning approach to attain the balance between exploration and exploitation.Due to the superior performance and low feedback learning without the learning to act in multiple situations, Multi-armed Bandits drawing widespread attention in applications ranging such as recommender systems. Likewise, within the recommender system, collaborative filtering (CF) is arguably the earliest and most influential method in the recommender system. Crucially, new users and an ever-changing pool of recommended items are the challenges that recommender systems need to address. For collaborative filtering, the classical method is training the model offline, then perform the online testing, but this approach can no longer handle the dynamic changes in user preferences which is the so-called \textit{cold start}. So how to effectively recommend items to users in the absence of effective information? To address the aforementioned problems, a multi-armed bandit based collaborative filtering recommender system has been proposed, named BanditMF. BanditMF is designed to address two challenges in the multi-armed bandits algorithm and collaborative filtering: (1) how to solve the cold start problem for collaborative filtering under the condition of scarcity of valid information, (2) how to solve the sub-optimal problem of bandit algorithms in strong social relations domains caused by independently estimating unknown parameters associated with each user and ignoring correlations between users.
翻訳日:2021-06-22 15:11:46 公開日:2021-06-21
# ウェアラブルを用いた強制的身体中心反復行動の予測検出

Anticipatory Detection of Compulsive Body-focused Repetitive Behaviors with Wearables ( http://arxiv.org/abs/2106.10970v1 )

ライセンス: Link先を確認
Benjamin Lucas Searle, Dimitris Spathis, Marios Constantinides, Daniele Quercia, Cecilia Mascolo(参考訳) 身体に焦点をあてた反復行動(BFRBs)は、顔の触覚やスキンピッキングのような手動行動であり、早期に特定され治療されない場合、その外見を損なう可能性がある。 自動検出技術はまだ未開発であり、以前の研究は単一のモード(例えばモーション)を持つウェアラブルに限られていた。 本稿では,モーションセンサと方向センサ,心拍センサを組み合わせたマルチセンサによるbfrb検出手法を提案する。 被験者 (N=10) がBFRBの誘導作業に曝露される可能性調査を行い, 380分間の信号の解析を行い, 感度, クロスバリデーション法, 観察窓の評価を行った。 モデルでは, bfrbs の識別において auc > 0.90 を達成し, 1-min ではなく windows 5 分前の観察ではより顕著であった。 bfrbsを予防するためにジャスト・イン・タイムの介入を設計する場合,検出タイミングだけでなく,モデルもコンテキスト認識が必要であることがわかった。

Body-focused repetitive behaviors (BFRBs), like face-touching or skin-picking, are hand-driven behaviors which can damage one's appearance, if not identified early and treated. Technology for automatic detection is still under-explored, with few previous works being limited to wearables with single modalities (e.g., motion). Here, we propose a multi-sensory approach combining motion, orientation, and heart rate sensors to detect BFRBs. We conducted a feasibility study in which participants (N=10) were exposed to BFRBs-inducing tasks, and analyzed 380 mins of signals under an extensive evaluation of sensing modalities, cross-validation methods, and observation windows. Our models achieved an AUC > 0.90 in distinguishing BFRBs, which were more evident in observation windows 5 mins prior to the behavior as opposed to 1-min ones. In a follow-up qualitative survey, we found that not only the timing of detection matters but also models need to be context-aware, when designing just-in-time interventions to prevent BFRBs.
翻訳日:2021-06-22 15:11:19 公開日:2021-06-21
# ディープラーニング推薦システムのためのデータ最適化

Data Optimisation for a Deep Learning Recommender System ( http://arxiv.org/abs/2106.11218v1 )

ライセンス: Link先を確認
Gustav Hertz, Sandhya Sachidanandan, Bal\'azs T\'oth, Emil S. J{\o}rgensen and Martin Tegn\'er(参考訳) 本稿では,レコメンデーションシステムにおけるユーザデータの収集に関するプライバシー保護要件を提案する。 私たちの研究の目的は2つある。 まず、データ収集の制限がRNNベースのレコメンデーションのテスト品質を損なうかどうかを問う。 検証性能は利用可能なトレーニングデータの量に依存するか検討する。 この目的のために私たちは、トップkの精度、カタログのカバレッジ、ノベルティの組み合わせを使っています。 第2に,二次データソースを使用することで,最小限のデータで品質を向上できるかどうかを問う。 この目的のために知識伝達を提案し,データの購入行動間の類似性を測定する表現を構築する。 これにより、どのソースドメインが最も貢献するかの判断を下すことができる。 以上の結果から, トレーニングサイズが臨界点を超えると, テスト性能が飽和していることが示唆された。 また、異なるパフォーマンス指標とデータの特性の相互作用についても論じる。 さらに, (ii) 購買行動の測定には, 当社の表現が有意であることを示す。 特に、同様の測定値に従って関連するソースドメインを選択すると、セカンダリデータを利用して検証性能を向上できることを示す。

This paper advocates privacy preserving requirements on collection of user data for recommender systems. The purpose of our study is twofold. First, we ask if restrictions on data collection will hurt test quality of RNN-based recommendations. We study how validation performance depends on the available amount of training data. We use a combination of top-K accuracy, catalog coverage and novelty for this purpose, since good recommendations for the user is not necessarily captured by a traditional accuracy metric. Second, we ask if we can improve the quality under minimal data by using secondary data sources. We propose knowledge transfer for this purpose and construct a representation to measure similarities between purchase behaviour in data. This to make qualified judgements of which source domain will contribute the most. Our results show that (i) there is a saturation in test performance when training size is increased above a critical point. We also discuss the interplay between different performance metrics, and properties of data. Moreover, we demonstrate that (ii) our representation is meaningful for measuring purchase behaviour. In particular, results show that we can leverage secondary data to improve validation performance if we select a relevant source domain according to our similarly measure.
翻訳日:2021-06-22 15:10:31 公開日:2021-06-21
# 密度U-netセグメンテーションを用いた磁気共鳴エラストグラフィーによる前立腺領域の生体内粘弾性の完全自動定量

Fully automated quantification of in vivo viscoelasticity of prostate zones using magnetic resonance elastography with Dense U-net segmentation ( http://arxiv.org/abs/2106.11284v1 )

ライセンス: Link先を確認
Nader Aldoj, Federico Biavati, Marc Dewey, Anja Hennemuth, Patrick Asbach, Ingolf Sack(参考訳) 粘弾性測定のための磁気共鳴エラストグラフィー(MRE)は、特に前立腺などの異種臓器において、適切な組織セグメント化に大きく依存する。 前立腺の粒子力学的特性を自動集計するために,MREデータで解剖学的および粘弾性情報を抽出するのに十分かどうかを検討した。 良性前立腺肥大症(BPH)または前立腺癌(PCa)の40例について,T2強調MRI(T2w),拡散強調MRI(DWI),MREベースの断層撮影(T2w,DWI,見かけ拡散係数(ADC),MRE大,せん断波速度,損失角マップ)を用いて検討した。 これらのデータの組み合わせは、30例の前立腺全層(pg)、中枢部(cz)、末梢部(pz)の手動分割マスクを用いた密集したu-netを訓練し、10例で検証するために用いられた。 味覚スコア (DS) , 感度, 特異度, ハウスドルフ距離を測定した。 我々は、MRE大域写像のみ(DS, PG: 0.93$\pm$0.04, CZ: 0.95$\pm$0.03, PZ: 0.77$\pm$0.05)は、T2wとDWI_b(DS, PG: 0.91$\pm$0.04, CZ: 0.91$\pm$0.06, PZ: 0.63$\pm$0.16)またはT2w単独(DS, PG: 0.92$\pm$0.03, CZ: 0.91$\pm$0.04, PZ: 0.65$\pm$0.08)よりも精度が高かった。 自動集計mre値は接地値と違いなかった(p>0.05)。 結論:MREとDense U-netのセグメンテーションを組み合わせることで、手動解析なしで定量的イメージングマーカーを集計し、他のMRIシーケンスとは独立して、PCaの検出と分類に寄与することができる。

Magnetic resonance elastography (MRE) for measuring viscoelasticity heavily depends on proper tissue segmentation, especially in heterogeneous organs such as the prostate. Using trained network-based image segmentation, we investigated if MRE data suffice to extract anatomical and viscoelastic information for automatic tabulation of zonal mechanical properties of the prostate. Overall, 40 patients with benign prostatic hyperplasia (BPH) or prostate cancer (PCa) were examined with three magnetic resonance imaging (MRI) sequences: T2-weighted MRI (T2w), diffusion-weighted imaging (DWI), and MRE-based tomoelastography yielding six independent sets of imaging data per patient (T2w, DWI, apparent diffusion coefficient (ADC), MRE magnitude, shear wave speed, and loss angle maps). Combinations of these data were used to train Dense U-nets with manually segmented masks of the entire prostate gland (PG), central zone (CZ), and peripheral zone (PZ) in 30 patients and to validate them in 10 patients. Dice score (DS), sensitivity, specificity, and Hausdorff distance were determined. We found that segmentation based on MRE magnitude maps alone (DS, PG: 0.93$\pm$0.04, CZ: 0.95$\pm$0.03, PZ: 0.77$\pm$0.05) was more accurate than magnitude maps combined with T2w and DWI_b (DS, PG: 0.91$\pm$0.04, CZ: 0.91$\pm$0.06, PZ: 0.63$\pm$0.16) or T2w alone (DS, PG: 0.92$\pm$0.03, CZ: 0.91$\pm$0.04, PZ: 0.65$\pm$0.08). Automatically tabulated MRE values were not different from ground-truth values (P>0.05). In conclusion: MRE combined with Dense U-net segmentation allows tabulation of quantitative imaging markers without manual analysis and independent of other MRI sequences and can thus contribute to PCa detection and classification.
翻訳日:2021-06-22 15:10:15 公開日:2021-06-21
# DisenHAN: Recommendationのための不均一グラフ注意ネットワーク

DisenHAN: Disentangled Heterogeneous Graph Attention Network for Recommendation ( http://arxiv.org/abs/2106.10879v1 )

ライセンス: Link先を確認
Yifan Wang, Suyao Tang, Yuntong Lei, Weiping Song, Sheng Wang, Ming Zhang(参考訳) 不均一な情報ネットワークは、ユーザとイテムのインタラクションにおいてリッチなコンテキスト情報をモデル化できるため、レコメンデータシステムにおいて、スパーシリティやコールドスタートの問題を軽減するために広く利用されている。 グラフニューラルネットワークは、グラフ上の伝播を通じて、このリッチなコンテキスト情報をエンコードすることができる。 しかし、既存の異種グラフニューラルネットワークは、異なる側面から生じる潜在因子の絡み合いを無視している。 さらに、既存のアプローチのメタパスは、パス内のリッチなセマンティック情報を見渡すために、ノードペア間のパスまたはサイド情報を接続するように単純化されている。 本稿では,ヘテロジニアス情報ネットワークにおいて,異なる局面から異質なユーザ/項目表現を学習するtop-n$レコメンデーションのための,新たな異種グラフアテンションネットワークdisenhanを提案する。 特に,メタリレーションを用いてノード間の高次接続を分解し,メタリレーションの主要な側面を反復的に識別できるアンタングル埋め込み伝搬層を提案する。 本モデルでは,対象ユーザ/項目の各メタ関係から対応するアスペクト特徴を集約する。 埋め込み伝搬の異なるレイヤにより、DisenHANは協調フィルタリング効果を意味的に捉えることができる。 3つの実世界のデータセットに関する広範な実験は、disenhanが最先端のアプローチを一貫して上回っていることを示している。 さらに,洞察に富んだケーススタディと可視化により,学習した不連続表現の有効性と解釈可能性を示す。

Heterogeneous information network has been widely used to alleviate sparsity and cold start problems in recommender systems since it can model rich context information in user-item interactions. Graph neural network is able to encode this rich context information through propagation on the graph. However, existing heterogeneous graph neural networks neglect entanglement of the latent factors stemming from different aspects. Moreover, meta paths in existing approaches are simplified as connecting paths or side information between node pairs, overlooking the rich semantic information in the paths. In this paper, we propose a novel disentangled heterogeneous graph attention network DisenHAN for top-$N$ recommendation, which learns disentangled user/item representations from different aspects in a heterogeneous information network. In particular, we use meta relations to decompose high-order connectivity between node pairs and propose a disentangled embedding propagation layer which can iteratively identify the major aspect of meta relations. Our model aggregates corresponding aspect features from each meta relation for the target user/item. With different layers of embedding propagation, DisenHAN is able to explicitly capture the collaborative filtering effect semantically. Extensive experiments on three real-world datasets show that DisenHAN consistently outperforms state-of-the-art approaches. We further demonstrate the effectiveness and interpretability of the learned disentangled representations via insightful case studies and visualization.
翻訳日:2021-06-22 15:06:17 公開日:2021-06-21
# scmaシステムのためのディープラーニングに基づくアクティブユーザ検出

Deep Learning-Based Active User Detection for Grant-free SCMA Systems ( http://arxiv.org/abs/2106.11198v1 )

ライセンス: Link先を確認
Thushan Sivalingam, Samad Ali, Nurul Huda Mahmood, Nandana Rajatheva, and Matti Latva-Aho(参考訳) 大量機械型通信(mMTC)における伝送遅延と信号のオーバヘッドを低減するため, グラントフリーなランダムアクセスとアップリンク非直交多重アクセス(NOMA)が導入されている。 本稿では,mMTCアップリンクフレームワークにおける助成不要スパースコード多重アクセス(SCMA)システムのための,グループベースディープニューラルネットワークアクティブユーザ検出(AUD)方式を2つ提案する。 提案するオードスキームは非線形写像、すなわち多次元符号帳構造とチャネル特性を学習する。 これは、デバイスアクティビティのスパース構造をトレーニングデータセットに組み込んだ受信信号を通じて実現される。 さらに、オフライン事前訓練モデルでは、チャネル状態情報やデバイス間隔レベルの事前知識を必要とせず、アクティブなデバイスを検出することができる。 シミュレーションの結果,提案手法は複数のアクティブデバイスにおいて,信号から雑音比の範囲に対する従来のAUD方式に比べて検出確率が2倍以上であることがわかった。

Grant-free random access and uplink non-orthogonal multiple access (NOMA) have been introduced to reduce transmission latency and signaling overhead in massive machine-type communication (mMTC). In this paper, we propose two novel group-based deep neural network active user detection (AUD) schemes for the grant-free sparse code multiple access (SCMA) system in mMTC uplink framework. The proposed AUD schemes learn the nonlinear mapping, i.e., multi-dimensional codebook structure and the channel characteristic. This is accomplished through the received signal which incorporates the sparse structure of device activity with the training dataset. Moreover, the offline pre-trained model is able to detect the active devices without any channel state information and prior knowledge of the device sparsity level. Simulation results show that with several active devices, the proposed schemes obtain more than twice the probability of detection compared to the conventional AUD schemes over the signal to noise ratio range of interest.
翻訳日:2021-06-22 15:05:54 公開日:2021-06-21
# 機械学習による区間不確かさ伝播の最適化とビブロ音響モデルへの応用

Machine Learning based optimization for interval uncertainty propagation with application to vibro-acoustic models ( http://arxiv.org/abs/2106.11215v1 )

ライセンス: Link先を確認
Alice Cicirello and Filippo Giunta(参考訳) 2つの非侵入的不確実性伝播手法が,区間変数として定義されたパラメータを持つ高価な決定論的計算機モデルによって記述された工学系の性能解析のために提案される。 これらの手法は機械学習に基づく最適化戦略、いわゆるベイズ最適化を用いて、各間隔変数が範囲によって独立に異なるときに得られる可能な応答の集合に対して、ジェネリック応答変数の上下境界を評価する。 ガウス過程回帰モデルを用いて応答変数自体の確率論的記述を開発することにより、区間変数の全ての組み合わせに対する応答関数を評価できないことに起因する知識の欠如が説明される。 この統計モデルを更新するために, 確立された獲得関数を用いて少数のシミュレーションを選択し, 応答境界を評価する反復手順を開発した。 両方のアプローチで、初期トレーニングデータセットが定義される。 1つのアプローチは、応答変数の上下境界を別々に評価するために2つの異なるトレーニングデータセットを反復的に構築する一方で、もう1つは反復的に1つのトレーニングデータセットを構築する。 その結果、2つのアプローチは各イテレーションで異なる有界推定を生成する。 上と下の境界応答は、後部分布の平均関数から得られる点推定として表現される。 さらに、決定論的シミュレーションが実行されていない区間変数の組み合わせに対して、これらの推定値が得られると、各推定値に対する信頼区間がエンジニアと効果的に通信するために提供される。 最後に,予測された境界推定が満足できるものと考えられるかどうかを評価するための条件を定義するために,二つの指標が提案されている。

Two non-intrusive uncertainty propagation approaches are proposed for the performance analysis of engineering systems described by expensive-to-evaluat e deterministic computer models with parameters defined as interval variables. These approaches employ a machine learning based optimization strategy, the so-called Bayesian optimization, for evaluating the upper and lower bounds of a generic response variable over the set of possible responses obtained when each interval variable varies independently over its range. The lack of knowledge caused by not evaluating the response function for all the possible combinations of the interval variables is accounted for by developing a probabilistic description of the response variable itself by using a Gaussian Process regression model. An iterative procedure is developed for selecting a small number of simulations to be evaluated for updating this statistical model by using well-established acquisition functions and to assess the response bounds. In both approaches, an initial training dataset is defined. While one approach builds iteratively two distinct training datasets for evaluating separately the upper and lower bounds of the response variable, the other builds iteratively a single training dataset. Consequently, the two approaches will produce different bound estimates at each iteration. The upper and lower bound responses are expressed as point estimates obtained from the mean function of the posterior distribution. Moreover, a confidence interval on each estimate is provided for effectively communicating to engineers when these estimates are obtained for a combination of the interval variables for which no deterministic simulation has been run. Finally, two metrics are proposed to define conditions for assessing if the predicted bound estimates can be considered satisfactory.
翻訳日:2021-06-22 15:05:40 公開日:2021-06-21
# 弱教師付き音響イベント検出のための親和性混合

Affinity Mixup for Weakly Supervised Sound Event Detection ( http://arxiv.org/abs/2106.11233v1 )

ライセンス: Link先を確認
Mohammad Rasool Izadi, Robert Stevenson, Laura N. Kloepper(参考訳) 弱教師付き音声イベント検出問題は、弱ラベル付きデータセットにおける音響イベントの存在とそれらに対応する開始点と終了点を予測するタスクである。 弱いデータセットは、各トレーニングサンプル(短い記録)を1つ以上の現在ソースに関連付ける。 畳み込み層とリカレント層のみに依存するネットワークは、記録中の複数のフレームに直接関連できない。 注意とグラフニューラルネットワークに動機づけられ,時間レベルの類似性を取り入れたアフィニティミックスアップの概念を導入し,フレーム間を接続する。 この正規化技法は適応親和性行列を用いて異なる層に特徴を混合する。 提案するアフィニティ・ミックスアップ・ネットワークは、最先端技術によるイベントF1スコアを8.2\%$で改善する。

The weakly supervised sound event detection problem is the task of predicting the presence of sound events and their corresponding starting and ending points in a weakly labeled dataset. A weak dataset associates each training sample (a short recording) to one or more present sources. Networks that solely rely on convolutional and recurrent layers cannot directly relate multiple frames in a recording. Motivated by attention and graph neural networks, we introduce the concept of an affinity mixup to incorporate time-level similarities and make a connection between frames. This regularization technique mixes up features in different layers using an adaptive affinity matrix. Our proposed affinity mixup network improves over state-of-the-art techniques event-F1 scores by $8.2\%$.
翻訳日:2021-06-22 15:05:17 公開日:2021-06-21
# スケールでのセキュアな分散トレーニング

Secure Distributed Training at Scale ( http://arxiv.org/abs/2106.11257v1 )

ライセンス: Link先を確認
Eduard Gorbunov, Alexander Borzunov, Michael Diskin, Max Ryabinin(参考訳) ディープラーニングの最も難しい問題は、ボランティアコンピューティングや連合学習の場合のように、多くの独立した当事者の協力によって解決することができる。 これらのセットアップは、計算リソースの提供や分散データセットのトレーニングのために、多数のピアに依存する。 残念ながら、このようなシステムの参加者は必ずしも信頼できない。 任意の参加者は、意図的であれ、誤ってであれ、不正なアップデートを送信することによって、トレーニング全体の障害を回避できる。 このようなピアの存在下でのトレーニングには、ビザンチン耐性を持つ特別な分散トレーニングアルゴリズムが必要である。 これらのアルゴリズムは、冗長な通信を導入したり、すべての更新を信頼できるサーバに渡すことで効率を犠牲にすることが多い。 その結果、モデルが数十億のパラメータを持つ大規模分散ディープラーニングにそのようなアルゴリズムを適用することは不可能である。 本稿では,通信効率を重視したセキュア(ビザンチン耐性)分散トレーニングのための新しいプロトコルを提案する。 我々は、このプロトコルを厳格に分析し、特に、ビザンツとシビルの攻撃に対する抵抗の理論的限界を提供し、通信オーバーヘッドが極端であることを示す。 実効性を示すために,ビザンチン攻撃者の存在下で,画像分類と言語モデルに関する大規模実験を行った。

Some of the hardest problems in deep learning can be solved with the combined effort of many independent parties, as is the case for volunteer computing and federated learning. These setups rely on high numbers of peers to provide computational resources or train on decentralized datasets. Unfortunately, participants in such systems are not always reliable. Any single participant can jeopardize the entire training run by sending incorrect updates, whether deliberately or by mistake. Training in presence of such peers requires specialized distributed training algorithms with Byzantine tolerance. These algorithms often sacrifice efficiency by introducing redundant communication or passing all updates through a trusted server. As a result, it can be infeasible to apply such algorithms to large-scale distributed deep learning, where models can have billions of parameters. In this work, we propose a novel protocol for secure (Byzantine-tolerant) decentralized training that emphasizes communication efficiency. We rigorously analyze this protocol: in particular, we provide theoretical bounds for its resistance against Byzantine and Sybil attacks and show that it has a marginal communication overhead. To demonstrate its practical effectiveness, we conduct large-scale experiments on image classification and language modeling in presence of Byzantine attackers.
翻訳日:2021-06-22 15:05:07 公開日:2021-06-21
# 構成的フェデレーション学習:分散ロバスト平均化とメタ学習への応用

Compositional Federated Learning: Applications in Distributionally Robust Averaging and Meta Learning ( http://arxiv.org/abs/2106.11264v1 )

ライセンス: Link先を確認
Feihu Huang, Junyi Li, Heng Huang(参考訳) 本稿では,分散的頑健なフェデレーション学習やモデル非依存型メタ学習(maml)といった階層構造を持つ多くの機械学習問題で頻繁に発生する新しい構成的フェデレーション学習(fl)フレームワークの解法として有効かつ効率的な構成的フェデレーション学習(comfedl)アルゴリズムを提案する。 さらに,いくつかの穏やかな条件下でのcomfedlアルゴリズムの収束解析を行い,$t$ が反復数を表す場合の$o(\frac{1}{\sqrt{t}})$ の高速収束率を達成することを証明した。 我々の知る限り、我々のアルゴリズムは、合成確率最適化で連合学習を橋渡しする最初の試みである。 特に、分布的に堅牢なFL(ミニマックス最適化問題)をKL分散正規化を用いて単純な合成最適化問題に変換する。 同時に,まず分布非依存maml問題(すなわちミニマックス最適化問題)を単純な合成最適化問題に変換する。 最後に、分布的に堅牢なFLとMAMLの2つの機械学習タスクを適用し、アルゴリズムの有効性を実証する。

In the paper, we propose an effective and efficient Compositional Federated Learning (ComFedL) algorithm for solving a new compositional Federated Learning (FL) framework, which frequently appears in many machine learning problems with a hierarchical structure such as distributionally robust federated learning and model-agnostic meta learning (MAML). Moreover, we study the convergence analysis of our ComFedL algorithm under some mild conditions, and prove that it achieves a fast convergence rate of $O(\frac{1}{\sqrt{T}})$, where $T$ denotes the number of iteration. To the best of our knowledge, our algorithm is the first work to bridge federated learning with composition stochastic optimization. In particular, we first transform the distributionally robust FL (i.e., a minimax optimization problem) into a simple composition optimization problem by using KL divergence regularization. At the same time, we also first transform the distribution-agnosti c MAML problem (i.e., a minimax optimization problem) into a simple composition optimization problem. Finally, we apply two popular machine learning tasks, i.e., distributionally robust FL and MAML to demonstrate the effectiveness of our algorithm.
翻訳日:2021-06-22 15:04:48 公開日:2021-06-21
# (参考訳) 自然度解析を用いた視覚立体視品質評価のためのマルチタスク畳み込みニューラルネットワーク [全文訳有]

A Multi-task convolutional neural network for blind stereoscopic image quality assessment using naturalness analysis ( http://arxiv.org/abs/2106.09303v3 )

ライセンス: CC BY 4.0
Salima Bourbia, Ayoub Karine, Aladine Chetouani, Mohammed El Hassouni(参考訳) 本稿では,新しいマルチタスク深層学習手法を用いた視覚ステレオ画像品質評価(NR-SIQA)の問題に対処する。 立体視の分野では、情報は両眼現象と同様に左右の視点の間でかなり分布する。 本研究では,これらの特徴を統合し,畳み込みニューラルネットワークによる参照のない立体画像の品質を推定する。 本手法は,ステレオ画像に適応した自然度解析に基づく特徴量予測と,その品質予測の2つのタスクを主課題とする。 前者、いわゆる補助タスクは、品質予測を改善するために、より堅牢で関連する機能を見つけることを目的としている。 そこで我々は,複雑なウェーブレット領域における自然シーン統計モデルを用いて自然性に基づく特徴量を計算する。 立体画像間の統計的依存関係を捉えることができる。 LIVE PHASE I と LIVE PHASE II のデータベース上で実験を行った。 その結果,最新技術との比較において,本手法の妥当性が示された。 私たちのコードはhttps://github.com/b ourbia-salima/multit ask-cnn-nrsiqa_2021で利用可能です。

This paper addresses the problem of blind stereoscopic image quality assessment (NR-SIQA) using a new multi-task deep learning based-method. In the field of stereoscopic vision, the information is fairly distributed between the left and right views as well as the binocular phenomenon. In this work, we propose to integrate these characteristics to estimate the quality of stereoscopic images without reference through a convolutional neural network. Our method is based on two main tasks: the first task predicts naturalness analysis based features adapted to stereo images, while the second task predicts the quality of such images. The former, so-called auxiliary task, aims to find more robust and relevant features to improve the quality prediction. To do this, we compute naturalness-based features using a Natural Scene Statistics (NSS) model in the complex wavelet domain. It allows to capture the statistical dependency between pairs of the stereoscopic images. Experiments are conducted on the well known LIVE PHASE I and LIVE PHASE II databases. The results obtained show the relevance of our method when comparing with those of the state-of-the-art. Our code is available online on https://github.com/B ourbia-Salima/multit ask-cnn-nrsiqa_2021.
翻訳日:2021-06-22 12:26:32 公開日:2021-06-21
# (参考訳) ヘイトスピーチ検出のためのデータセット構築のための情報検索手法 [全文訳有]

An Information Retrieval Approach to Building Datasets for Hate Speech Detection ( http://arxiv.org/abs/2106.09775v2 )

ライセンス: CC BY 4.0
Md Mustafizur Rahman, Dinesh Balakrishnan, Dhiraj Murthy, Mucahid Kutlu, Matthew Lease(参考訳) ヘイトスピーチ検出のためのベンチマークデータセットの構築にはいくつかの課題がある。 第一に、ヘイトスピーチは比較的稀である - 例えば、Twitter投稿の3\%未満はヘイトフル \citep{founta2018large} である。 一般的な方法は、既知の‘hate words’を含むツイートに注釈を付けるだけであるが、これは現実世界の関心現象を部分的に捉えたバイアス付きベンチマークをもたらす。 2つめの課題は、ヘイトスピーチの定義が非常に可変で主観的である傾向があることである。 ヘイトスピーチの様々な先行概念を持つアノテーションは、互いに同意するだけでなく、特定のラベル付けガイドラインに従うのにも苦労する。 我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。 この接続は、IRテストコレクションを作成するための確立された方法論が、ヘイトスピーチ検出のためのより良いベンチマークデータセットを作成するために有用である可能性を示唆している。 まず,アノテートすべきツイートをインテリジェントかつ効率的に選択するために,"em pooling} と "em active learning" という確立されたir技術を適用する。 第二に、アノテーションの一貫性と値の両方を改善するために、 {\em Task decomposition} \cite{Zhang-sigir14} と {\em annotator rationale} \cite{mcdonnell16-hcomp} の技法を適用する。 上記のテクニックを使用して、新しいベンチマークデータセット\footnote{We will release the dataset upon Publish} を作成し、共有する。 以前のデータセットよりも広い範囲をカバーするヘイトスピーチ検出のために。 また,これらより広い形態の憎悪に対して,既存の検出モデルの精度が劇的に低下することを示した。 収集された注釈器の合理化はラベル付け決定に対する文書化されたサポートを提供するだけでなく、モデリングにおける二重スーパービジョンおよび/または説明生成のためのエキサイティングな将来の作業機会を生み出す。

Building a benchmark dataset for hate speech detection presents several challenges. Firstly, because hate speech is relatively rare -- e.g., less than 3\% of Twitter posts are hateful \citep{founta2018large} -- random sampling of tweets to annotate is inefficient in capturing hate speech. A common practice is to only annotate tweets containing known ``hate words'', but this risks yielding a biased benchmark that only partially captures the real-world phenomenon of interest. A second challenge is that definitions of hate speech tend to be highly variable and subjective. Annotators having diverse prior notions of hate speech may not only disagree with one another but also struggle to conform to specified labeling guidelines. Our key insight is that the rarity and subjectivity of hate speech are akin to that of relevance in information retrieval (IR). This connection suggests that well-established methodologies for creating IR test collections might also be usefully applied to create better benchmark datasets for hate speech detection. Firstly, to intelligently and efficiently select which tweets to annotate, we apply established IR techniques of {\em pooling} and {\em active learning}. Secondly, to improve both consistency and value of annotations, we apply {\em task decomposition} \cite{Zhang-sigir14} and {\em annotator rationale} \cite{mcdonnell16-hcomp} techniques. Using the above techniques, we create and share a new benchmark dataset\footnote{We will release the dataset upon publication.} for hate speech detection with broader coverage than prior datasets. We also show a dramatic drop in accuracy of existing detection models when tested on these broader forms of hate. Collected annotator rationales not only provide documented support for labeling decisions but also create exciting future work opportunities for dual-supervision and/or explanation generation in modeling.
翻訳日:2021-06-22 12:17:37 公開日:2021-06-21
# (参考訳) BinarizedAttack: グラフベースの異常検出に対する構造的攻撃 [全文訳有]

BinarizedAttack: Structural Poisoning Attacks to Graph-based Anomaly Detection ( http://arxiv.org/abs/2106.09989v2 )

ライセンス: CC BY 4.0
Yulin Zhu, Yuni Lai, Kaifa Zhao, Xiapu Luo, Mingquan Yuan, Jian Ren, Kai Zhou(参考訳) グラフに基づく異常検出(GAD)は,グラフの強力な表現能力と近年のグラフマイニング技術の進歩により普及しつつある。 しかし、これらのGADツールは、データ間の関係を活用できるというユニークな利点のために、新たな攻撃面を公開する。 つまり、攻撃者はこれらの関係(すなわちグラフの構造)を操作でき、いくつかのターゲットノードが検出を回避できる。 本稿では,この脆弱性を,代表的な回帰型gadシステムであるoddballに対して,新しい種類の標的構造中毒攻撃を設計することで活用する。 特に,二段階最適化問題としてオッドボールに対する攻撃を定式化し,離散領域において問題を効率的に解くことが重要な技術的課題である。 勾配降下に基づくBinarizedAttackと呼ばれる新しい攻撃手法を提案する。 先行技術と比較して、BinarizedAttackは勾配情報をうまく利用でき、組合せ最適化問題の解決に特に適している。 さらに,BinarizedAttackの攻撃伝達性を他の表現学習に基づくGADシステムへの攻撃に利用して検討する。 我々は,攻撃者の予算を制限したグラフに基づく異常検出ツールの回避にbinarizedattackが有効であることを示すとともに,black-box transfer attack設定ではbinarizedattackも効果的にテストされ,特にgadシステムによって学習されたノード埋め込みを著しく変えることができることを示した。 我々の研究は、グラフデータに依存するセキュリティ分析ツールに対する新たなタイプの攻撃を研究するための扉を開く。

Graph-based Anomaly Detection (GAD) is becoming prevalent due to the powerful representation abilities of graphs as well as recent advances in graph mining techniques. These GAD tools, however, expose a new attacking surface, ironically due to their unique advantage of being able to exploit the relations among data. That is, attackers now can manipulate those relations (i.e., the structure of the graph) to allow some target nodes to evade detection. In this paper, we exploit this vulnerability by designing a new type of targeted structural poisoning attacks to a representative regression-based GAD system termed OddBall. Specially, we formulate the attack against OddBall as a bi-level optimization problem, where the key technical challenge is to efficiently solve the problem in a discrete domain. We propose a novel attack method termed BinarizedAttack based on gradient descent. Comparing to prior arts, BinarizedAttack can better use the gradient information, making it particularly suitable for solving combinatorial optimization problems. Furthermore, we investigate the attack transferability of BinarizedAttack by employing it to attack other representation-learn ing-based GAD systems. Our comprehensive experiments demonstrate that BinarizedAttack is very effective in enabling target nodes to evade graph-based anomaly detection tools with limited attackers' budget, and in the black-box transfer attack setting, BinarizedAttack is also tested effective and in particular, can significantly change the node embeddings learned by the GAD systems. Our research thus opens the door to studying a new type of attack against security analytic tools that rely on graph data.
翻訳日:2021-06-22 11:55:49 公開日:2021-06-21
# ランダム林からの重要度評価--特徴化と拡張

Importance measures derived from random forests: characterisation and extension ( http://arxiv.org/abs/2106.09473v2 )

ライセンス: Link先を確認
Antonio Sutera(参考訳) 今日では、新しい技術、特に人工知能が社会にますます定着しています。 ビッグデータ分析と機械学習(人工知能の2つのサブフィールド)は、多くのアプリケーション分野(医学、コミュニケーション、金融など)における最近の多くのブレークスルーの中核であり、その中には日々の生活(ソーシャルネットワーク、コンピュータ、スマートフォンなど)に強く関係しているものも含まれる。 機械学習では、大きなデータセットのおかげで、計算の複雑さが増大する価格で、大きな改善がなされることが多い。 現在、最も先進的な機械学習アルゴリズムによって構築された最先端モデルは通常、非常に効率的で利益を上げながら非常に複雑になった。 彼らの複雑さは、これらのモデルが解釈や正当化ができない予測や決定を提供するブラックボックスとして一般的に見られる程度である。 それでも、これらのモデルが自律的に使われているか、あるいは単純な意思決定支援ツールとして使われているかは、健康と人間の命がかかっている機械学習アプリケーションですでに使われている。 したがって、予測や決定を詳細に理解することなく、これらのモデルから生じるすべてのことを盲目的に信じないことは明らかである。 したがって、この論文は、いわゆるツリーベース手法である機械学習アルゴリズムの特定のファミリーによって構築されたモデルの解釈可能性を改善することを目的としている。 これらのモデルを解釈するためにいくつかのメカニズムが提案されており、その理解を改善し、特性を研究し、制限を定義するためにこの論文に沿っている。

Nowadays new technologies, and especially artificial intelligence, are more and more established in our society. Big data analysis and machine learning, two sub-fields of artificial intelligence, are at the core of many recent breakthroughs in many application fields (e.g., medicine, communication, finance, ...), including some that are strongly related to our day-to-day life (e.g., social networks, computers, smartphones, ...). In machine learning, significant improvements are usually achieved at the price of an increasing computational complexity and thanks to bigger datasets. Currently, cutting-edge models built by the most advanced machine learning algorithms typically became simultaneously very efficient and profitable but also extremely complex. Their complexity is to such an extent that these models are commonly seen as black-boxes providing a prediction or a decision which can not be interpreted or justified. Nevertheless, whether these models are used autonomously or as a simple decision-making support tool, they are already being used in machine learning applications where health and human life are at stake. Therefore, it appears to be an obvious necessity not to blindly believe everything coming out of those models without a detailed understanding of their predictions or decisions. Accordingly, this thesis aims at improving the interpretability of models built by a specific family of machine learning algorithms, the so-called tree-based methods. Several mechanisms have been proposed to interpret these models and we aim along this thesis to improve their understanding, study their properties, and define their limitations.
翻訳日:2021-06-22 10:27:59 公開日:2021-06-21
# shape prior non-uniform sampling guided real-time stereo 3d object detection

Shape Prior Non-Uniform Sampling Guided Real-time Stereo 3D Object Detection ( http://arxiv.org/abs/2106.10013v2 )

ライセンス: Link先を確認
Aqi. Gao, Jiale. Cao, and Yanwei. Pang(参考訳) 擬似LiDARベースの3Dオブジェクト検出器は高い精度で人気を博している。 しかし,これらの手法では深度監視が必要であり,低速化に苦しむ。 これら2つの問題を解決するため、最近発表されたRTS3Dは、深度監督なしでオブジェクトの中間表現のための効率的な4D特徴-一貫性埋め込み(FCE)空間を構築した。 fce空間は、異なるオブジェクト領域の重要性を無視する特徴サンプリングポイント生成のために、オブジェクト領域全体を3次元一様グリッド潜在空間に分割する。 しかし, 内部領域と比較すると, 外側領域は正確な3d検出に重要な役割を担っている。 外側領域からより多くの情報をエンコードするために,外側領域で密サンプリングを行い,内側領域でスパースサンプリングを行う,事前の非一様サンプリング戦略を提案する。 その結果、外部領域からより多くの点をサンプリングし、3次元検出に有用な特徴を抽出する。 さらに,各サンプリング点の特徴識別を強化するために,よりコンテキスト情報を活用し,ノイズを抑える高レベルな意味強化FCEモジュールを提案する。 提案手法の有効性を示すため,KITTIデータセットの実験を行った。 ベースラインRTS3Dと比較して,提案手法はネットワークパラメータをほとんど含まないAP3dに対して2.57%改善されている。 さらに,提案手法は,リアルタイムに余分な監視を行わず,最先端の手法よりも優れた性能を示す。

Pseudo-LiDAR based 3D object detectors have gained popularity due to their high accuracy. However, these methods need dense depth supervision and suffer from inferior speed. To solve these two issues, a recently introduced RTS3D builds an efficient 4D Feature-Consistency Embedding (FCE) space for the intermediate representation of object without depth supervision. FCE space splits the entire object region into 3D uniform grid latent space for feature sampling point generation, which ignores the importance of different object regions. However, we argue that, compared with the inner region, the outer region plays a more important role for accurate 3D detection. To encode more information from the outer region, we propose a shape prior non-uniform sampling strategy that performs dense sampling in outer region and sparse sampling in inner region. As a result, more points are sampled from the outer region and more useful features are extracted for 3D detection. Further, to enhance the feature discrimination of each sampling point, we propose a high-level semantic enhanced FCE module to exploit more contextual information and suppress noise better. Experiments on the KITTI dataset are performed to show the effectiveness of the proposed method. Compared with the baseline RTS3D, our proposed method has 2.57% improvement on AP3d almost without extra network parameters. Moreover, our proposed method outperforms the state-of-the-art methods without extra supervision at a real-time speed.
翻訳日:2021-06-22 10:27:34 公開日:2021-06-21
# ストリーム横断型コントラストを用いた自己教師付きビデオ表現学習

Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting ( http://arxiv.org/abs/2106.10137v2 )

ライセンス: Link先を確認
Martine Toering, Ioannis Gatopoulos, Maarten Stol, Vincent Tao Hu(参考訳) データ拡張と対照的な損失関数に依存するインスタンスレベルのコントラスト学習技術は、視覚表現学習の分野において大きな成功を収めている。 しかし、多くの拡張インスタンス上で操作を行うため、ビデオのリッチな動的構造を利用するには適していない。 本稿では,RGBと光フロービューの両方から一貫したプロトタイプ割り当てを予測し,サンプルセット上で動作させる新しい手法である"Video Cross-Stream Prototypeal Contrasting"を提案する。 具体的には、最適化プロセスに代えて、ストリームの1つを最適化しながら、すべてのビューをストリームプロトタイプベクターの1セットにマッピングします。 それぞれの割り当ては、予測に一致するものを除いてすべてのビューで予測され、割り当てられたプロトタイプに近く表現をプッシュする。 その結果、推論中に光学フロー計算を明示的に必要とせずに、より効率的な動き情報付きビデオ埋め込みが学習される。 s3d バックボーン (90.5% top-1 acc) を用いて ucf101 で+3.2%, r(2+1)d バックボーンを用いて ucf101 で+7.2%, hmdb51 で+15.1% と, 最寄りの映像検索と行動認識に関する最先端の結果を得た。

Instance-level contrastive learning techniques, which rely on data augmentation and a contrastive loss function, have found great success in the domain of visual representation learning. They are not suitable for exploiting the rich dynamical structure of video however, as operations are done on many augmented instances. In this paper we propose "Video Cross-Stream Prototypical Contrasting", a novel method which predicts consistent prototype assignments from both RGB and optical flow views, operating on sets of samples. Specifically, we alternate the optimization process; while optimizing one of the streams, all views are mapped to one set of stream prototype vectors. Each of the assignments is predicted with all views except the one matching the prediction, pushing representations closer to their assigned prototypes. As a result, more efficient video embeddings with ingrained motion information are learned, without the explicit need for optical flow computation during inference. We obtain state-of-the-art results on nearest neighbour video retrieval and action recognition, outperforming previous best by +3.2% on UCF101 using the S3D backbone (90.5% Top-1 acc), and by +7.2% on UCF101 and +15.1% on HMDB51 using the R(2+1)D backbone.
翻訳日:2021-06-22 10:27:11 公開日:2021-06-21
# 実世界画像エンハンスメントの偏差主観評価

Debiased Subjective Assessment of Real-World Image Enhancement ( http://arxiv.org/abs/2106.10080v2 )

ライセンス: Link先を確認
Cao Peibei, Wang Zhangyang, Ma Kede(参考訳) 実世界の画像エンハンスメントでは、接地データを取得することはしばしば困難であり(不可能ではないにせよ)、客観的品質評価のための距離メトリクスの採用を妨げている。 結果として、画像エンハンスメントを評価する最も単純で信頼性の高い方法である主観的品質評価に頼ることが多い。 従来の主観的テストでは、画像空間における選択されたサンプルの極めてスパースな分布によるバイアスのサンプリング、選択されたサンプルの潜在的な過剰によるアルゴリズム的バイアス、さらなるチェリーピッキングテスト結果による主観的バイアスの3つのバイアスを、手動で事前選択する必要がある。 これにより、現実世界の画像エンハンスメントの分野は、科学よりも芸術的になる。 ここでは, 適応的, 多様な画像を自動的にサンプリングすることにより, 従来の主観的評価を逸脱させる。 これにより、サンプル選択を、選択された入力画像間のエンハンサー間の差分と多様性の結合最大化にキャストする。 得られた拡張画像の注意深い視覚検査は、拡張アルゴリズムの偏りのないランキングを提供する。 我々は,デハジング,スーパーレゾリューション,低光度エンハンスメントという3つの画像エンハンスメントタスクを用いて主観評価手法を示す。

In real-world image enhancement, it is often challenging (if not impossible) to acquire ground-truth data, preventing the adoption of distance metrics for objective quality assessment. As a result, one often resorts to subjective quality assessment, the most straightforward and reliable means of evaluating image enhancement. Conventional subjective testing requires manually pre-selecting a small set of visual examples, which may suffer from three sources of biases: 1) sampling bias due to the extremely sparse distribution of the selected samples in the image space; 2) algorithmic bias due to potential overfitting the selected samples; 3) subjective bias due to further potential cherry-picking test results. This eventually makes the field of real-world image enhancement more of an art than a science. Here we take steps towards debiasing conventional subjective assessment by automatically sampling a set of adaptive and diverse images for subsequent testing. This is achieved by casting sample selection into a joint maximization of the discrepancy between the enhancers and the diversity among the selected input images. Careful visual inspection on the resulting enhanced images provides a debiased ranking of the enhancement algorithms. We demonstrate our subjective assessment method using three popular and practically demanding image enhancement tasks: dehazing, super-resolution, and low-light enhancement.
翻訳日:2021-06-22 10:26:38 公開日:2021-06-21