このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210527となっている論文です。

PDF登録状況(公開日: 20210527)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 近傍粗い集合に基づくマルチドキュメント要約 [全文訳有]

Neighborhood Rough Set based Multi-document Summarization ( http://arxiv.org/abs/2106.07338v1 )

ライセンス: CC BY 4.0
Nidhika Yadav(参考訳) 本研究は,MDTSの要約結果の分析と影響を考慮した,教師付き多文書テキスト要約(MDTS)のための新しいNeighbourhood Rough Setアプローチを提案する。 そこで,Rough SetをベースとしたLERSアルゴリズムを,Neighborhood-LERSと呼ばれる新しい組み合わせであるNeighborhood Rough Setを用いて改良し,有効性と有効性を評価する。 本稿では,MDTS の基本 LERS 技術よりも優れていることが実験的に証明された多文書要約のためのNighborhood-LERS を適用・評価する。

This research paper proposes a novel Neighbourhood Rough Set based approach for supervised Multi-document Text Summarization (MDTS) with analysis and impact on the summarization results for MDTS. Here, Rough Set based LERS algorithm is improved using Neighborhood Rough Set which is itself a novel combination called Neighborhood-LERS to be experimented for evaluations of efficacy and efficiency. In this paper, we shall apply and evaluate the proposed Neighborhood-LERS for Multi-document Summarization which here is proved experimentally to be superior to the base LERS technique for MDTS.
翻訳日:2021-06-20 22:16:13 公開日:2021-05-27
# (参考訳) BPLF:感情集合画像からの表情生成のための双方向線形流れモデル [全文訳有]

BPLF: A Bi-Parallel Linear Flow Model for Facial Expression Generation from Emotion Set Images ( http://arxiv.org/abs/2106.07563v1 )

ライセンス: CC BY 4.0
Gao Xu (1), Yuanpeng Long (2), Siwei Liu (1), Lijia Yang (1), Shimei Xu (3), Xiaoming Yao (1,3), Kunxian Shu (1) ((1) School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, (2) School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China (3) 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China)(参考訳) フローベース生成モデルはディープラーニング生成モデルであり、データ分布を明示的に学習することでデータを生成する能力を得る。 理論的には、データ復元能力は他の生成モデルよりも強い。 しかし、その実装には、限られたモデル設計、過剰なモデルパラメータ、退屈な計算など、多くの制限がある。 本稿では、感情セット画像から顔の感情を生成するための双方向線形フローモデルを構築し、モデルの表現能力とトレーニングにおける収束速度の観点から、一連の改善を行った。 モデルは主に複数の結合層を重畳して構成され、各結合層は1*1の可逆畳み込みと線形演算モジュールを含んでいる。 さらに、顔の感情画像の現在の公開データセットを整理し、新しい感情データを作成し、このデータセットを通してモデルを検証した。 実験の結果,従来の畳み込みニューラルネットワークでは,3層3*3畳み込みカーネルの方が顔画像の特徴を抽出しやすくなっていることがわかった。 主成分分解の導入はモデルの収束速度を改善することができる。

The flow-based generative model is a deep learning generative model, which obtains the ability to generate data by explicitly learning the data distribution. Theoretically its ability to restore data is stronger than other generative models. However, its implementation has many limitations, including limited model design, too many model parameters and tedious calculation. In this paper, a bi-parallel linear flow model for facial emotion generation from emotion set images is constructed, and a series of improvements have been made in terms of the expression ability of the model and the convergence speed in training. The model is mainly composed of several coupling layers superimposed to form a multi-scale structure, in which each coupling layer contains 1*1 reversible convolution and linear operation modules. Furthermore, this paper sorted out the current public data set of facial emotion images, made a new emotion data, and verified the model through this data set. The experimental results show that, under the traditional convolutional neural network, the 3-layer 3*3 convolution kernel is more conducive to extracte the features of the face images. The introduction of principal component decomposition can improve the convergence speed of the model.
翻訳日:2021-06-20 22:11:16 公開日:2021-05-27
# (参考訳) ビデオシーケンスを用いた表情認識のためのキャプリル-LSTMモデル [全文訳有]

An optimized Capsule-LSTM model for facial expression recognition with video sequences ( http://arxiv.org/abs/2106.07564v1 )

ライセンス: CC BY 4.0
Siwei Liu (1), Yuanpeng Long (2), Gao Xu (1), Lijia Yang (1), Shimei Xu (3), Xiaoming Yao (1,3), Kunxian Shu (1) ((1) School of Computer Science and Technology, Chongqing Key Laboratory on Big Data for Bio Intelligence, Chongqing University of Posts and Telecommunications, Chongqing, China, (2) School of Economic Information Engineering, Southwestern University of Finance and Economics, Chengdu, China, (3) 51yunjian.com, Hetie International Square, Chengdu, Sichuan, China)(参考訳) 表情認識における畳み込みニューラルネットワークの限界を克服するために,ビデオフレームシーケンスに基づく表情認識モデルCapsule-LSTMを提案する。 このモデルはカプセルエンコーダ、カプセルデコーダ、LSTMネットワークを含む3つのネットワークで構成されている。 カプセルエンコーダは、ビデオフレーム内の表情の空間情報を抽出する。 capsuleデコーダは画像を再構成してネットワークを最適化する。 LSTMは、ビデオフレーム間の時間情報を抽出し、フレーム間の表現変化の違いを分析する。 MMIデータセットによる実験結果から,本論文で提案するCapsule-LSTMモデルは,映像表現認識の精度を効果的に向上できることが示された。

To overcome the limitations of convolutional neural network in the process of facial expression recognition, a facial expression recognition model Capsule-LSTM based on video frame sequence is proposed. This model is composed of three networks includingcapsule encoders, capsule decoders and LSTM network. The capsule encoder extracts the spatial information of facial expressions in video frames. Capsule decoder reconstructs the images to optimize the network. LSTM extracts the temporal information between video frames and analyzes the differences in expression changes between frames. The experimental results from the MMI dataset show that the Capsule-LSTM model proposed in this paper can effectively improve the accuracy of video expression recognition.
翻訳日:2021-06-20 22:02:16 公開日:2021-05-27
# ビデオによる転倒リスク評価 : 症例報告

Video-Based Inpatient Fall Risk Assessment: A Case Study ( http://arxiv.org/abs/2106.07565v1 )

ライセンス: Link先を確認
Ziqing Wang, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt-Aristizabal(参考訳) 入院は病院や医療施設において深刻な安全上の問題である。 患者監視のためのビデオ分析の最近の進歩は、継続的な活動監視によってリスクを軽減できる非介入的な手段を提供する。 しかし, 転倒リスク評価システムは文献上ではあまり注目されていない。 先行研究の大半は転倒イベントの検出に焦点を合わせており、急激な転倒を示すような状況は考慮していない。 そこで本研究では,転倒の危険を監視できる映像ベースのシステムを提案するとともに,転倒を予防するための安全でない行動をスタッフに警告する。 シミュレーション環境に記録された映像フレームから空間的特徴を抽出するために,人間の位置推定と骨格ポーズ推定の最近の進歩を活用する手法を提案する。 身体の位置を効果的に認識し,転倒リスク評価に有用な証拠を提示できることを実証した。 本研究は,興味のある行動を分析するためのビデオベースのモデルの利点を強調するとともに,このようなシステムが,医療従事者が患者のニーズに応え,対処するための十分なリードタイムを実現する方法を示す。

Inpatient falls are a serious safety issue in hospitals and healthcare facilities. Recent advances in video analytics for patient monitoring provide a non-intrusive avenue to reduce this risk through continuous activity monitoring. However, in-bed fall risk assessment systems have received less attention in the literature. The majority of prior studies have focused on fall event detection, and do not consider the circumstances that may indicate an imminent inpatient fall. Here, we propose a video-based system that can monitor the risk of a patient falling, and alert staff of unsafe behaviour to help prevent falls before they occur. We propose an approach that leverages recent advances in human localisation and skeleton pose estimation to extract spatial features from video frames recorded in a simulated environment. We demonstrate that body positions can be effectively recognised and provide useful evidence for fall risk assessment. This work highlights the benefits of video-based models for analysing behaviours of interest, and demonstrates how such a system could enable sufficient lead time for healthcare professionals to respond and address patient needs, which is necessary for the development of fall intervention programs.
翻訳日:2021-06-20 16:03:53 公開日:2021-05-27
# UVid-Net: 時間情報埋め込みによるUAV空中映像のセマンティックセグメンテーションの強化

UVid-Net: Enhanced Semantic Segmentation of UAV Aerial Videos by Embedding Temporal Information ( http://arxiv.org/abs/2011.14284v2 )

ライセンス: Link先を確認
Girisha S, Ujjwal Verma, Manohara Pai M M and Radhika Pai(参考訳) 航空映像の意味セグメンテーションは、環境変化のモニタリング、都市計画、災害管理における意思決定に広く使われている。 これらの意思決定支援システムの信頼性は,ビデオ意味セグメンテーションアルゴリズムの精度に依存する。 既存のcnnベースの映像意味セマンティクスセグメンテーション手法は,計算オーバーヘッドである映像の時間的ダイナミクスを計算するためにlstmや光フローなどの付加モジュールを組み込むことで画像意味セマンティクスセグメンテーション手法を強化した。 提案研究は,映像セマンティックセグメンテーションの効率を向上させるために,時間情報を統合することでCNNアーキテクチャを改良する。 本稿では,uavビデオセマンティクスセグメンテーションのための拡張エンコーダデコーダベースのcnnアーキテクチャ(uvid-net)を提案する。 提案アーキテクチャのエンコーダは、時間的に一貫したラベリングのための時間情報を埋め込む。 デコーダは、クラスラベルの正確なローカライズを支援するfeature-refinerモジュールを導入することで強化される。 UAVビデオセマンティックセグメンテーションのためのUVid-Netアーキテクチャを拡張ManipalUAVidデータセット上で定量的に評価する。 パフォーマンス指標のmiouは 0.79 であり、これは他の最先端アルゴリズムよりもかなり大きい。 さらに,提案した研究は,UAV空中映像の最終層を微調整した都市路面におけるUVid-Netの事前学習モデルに対しても,有望な結果をもたらした。

Semantic segmentation of aerial videos has been extensively used for decision making in monitoring environmental changes, urban planning, and disaster management. The reliability of these decision support systems is dependent on the accuracy of the video semantic segmentation algorithms. The existing CNN based video semantic segmentation methods have enhanced the image semantic segmentation methods by incorporating an additional module such as LSTM or optical flow for computing temporal dynamics of the video which is a computational overhead. The proposed research work modifies the CNN architecture by incorporating temporal information to improve the efficiency of video semantic segmentation. In this work, an enhanced encoder-decoder based CNN architecture (UVid-Net) is proposed for UAV video semantic segmentation. The encoder of the proposed architecture embeds temporal information for temporally consistent labelling. The decoder is enhanced by introducing the feature-refiner module, which aids in accurate localization of the class labels. The proposed UVid-Net architecture for UAV video semantic segmentation is quantitatively evaluated on extended ManipalUAVid dataset. The performance metric mIoU of 0.79 has been observed which is significantly greater than the other state-of-the-art algorithms. Further, the proposed work produced promising results even for the pre-trained model of UVid-Net on urban street scene with fine tuning the final layer on UAV aerial videos.
翻訳日:2021-06-07 09:04:53 公開日:2021-05-27
# FEDHCベイジアンネットワーク学習アルゴリズム

The FEDHC Bayesian network learning algorithm ( http://arxiv.org/abs/2012.00113v3 )

ライセンス: Link先を確認
Michail Tsagris(参考訳) FEDHC (Forward Early Dropping Hill Climbing) と呼ばれる新しいハイブリッドベイズネットワーク学習アルゴリズムは、連続変数またはカテゴリー変数を扱うために考案された。 FEDHCは骨格識別フェーズと、(因果)方向を割り当てるその後のスコアリングフェーズから構成される。 さらに,統計ソフトウェア \textit{r} におけるmmhc の唯一の実装は,禁止的に高価であり,新たな実装が提供されていることを示す。 さらに、特に連続データの場合、他のBN学習アルゴリズムにも適用可能なFEDHCの堅牢で外れやすいバージョンが提案されている。 FEDHCはモンテカルロシミュレーションを用いてテストされ、計算的に効率的であることを明確に示し、MMHCやPCHCよりも高い精度でベイズネットワークを生成する。 具体的には、FEDHCは連続データではPCHCよりも正確なベイズネットワークを生成するが、分類データでは正確ではない。 最後に、FEDHC、PCHC、MMHCのアルゴリズムを経済学の分野から実データに適用し、統計ソフトウェア \textit{R} を用いて実証する。

A new hybrid Bayesian network learning algorithm, termed Forward Early Dropping Hill Climbing (FEDHC), devised to work with either continuous or categorical variables. FEDHC consists of a skeleton identification phase and a subsequent scoring phase that assigns the (causal) directions. Further, the paper manifests that the only implementation of MMHC in the statistical software \textit{R}, is prohibitively expensive and a new implementation is offered. In addition, specifically for the case of continuous data, a robust to outliers version of FEDHC, that can be adopted by other BN learning algorithms as well is proposed. The FEDHC is tested via Monte Carlo simulations that distinctly show it is computationally efficient, and produces Bayesian networks of similar to, or of higher accuracy than MMHC and PCHC. Specifically, FEDHC yields more accurate Bayesian networks than PCHC with continuous data but less accurate with categorical data. Finally, an application of FEDHC, PCHC and MMHC algorithms to real data, from the field of economics, is demonstrated using the statistical software \textit{R}.
翻訳日:2021-06-06 14:59:46 公開日:2021-05-27
# モデルロバストネスにスタイルトランスファーと絵画は何ができるのか?

What Can Style Transfer and Paintings Do For Model Robustness? ( http://arxiv.org/abs/2011.14477v2 )

ライセンス: Link先を確認
Hubert Lin, Mitchell van Zuijlen, Sylvia C. Pont, Maarten W.A. Wijntjes, Kavita Bala(参考訳) モデルのロバスト性を改善する一般的な戦略は、データ拡張である。 データ拡張はモデルに、水平反転への不変性や色の変化など、望ましい不変性を学ぶように促す。 近年の研究では、任意のスタイル転送を、写真から絵のような画像を作成することによって、テクスチャへのばらつきを促進するためのデータ拡張の一形態として使用できることが示されている。 しかし、様式化された写真は、画家が制作した絵画と全く同じではない。 画家は、絵画において知覚的に意味のある手がかりを描き、人間がシーンの聖なる構成要素を認識できるようにする。 そこで本研究では,モデルロバスト性に及ぼすスタイル伝達と絵画の影響について検討する。 まず,スタイライゼーションに基づくデータ拡張のためのスタイルイメージとしての絵画の役割について検討する。 絵画をスタイルイメージとしていなくても,スタイル転送機能は良好であることがわかった。 第2に,知覚データ拡張の形式として絵画から学ぶことで,モデルの堅牢性が向上することを示す。 最後に,スタイル化や絵画から得られた不変性について検討し,異なる形式のデータからモデルが異なる不変性を学ぶことを示す。 以上の結果から,スタイリゼーションがモデルロバスト性をどのように改善するか,また,アーティストが作成した絵画がモデルロバスト性に有用なデータ源であることを示す。

A common strategy for improving model robustness is through data augmentations. Data augmentations encourage models to learn desired invariances, such as invariance to horizontal flipping or small changes in color. Recent work has shown that arbitrary style transfer can be used as a form of data augmentation to encourage invariance to textures by creating painting-like images from photographs. However, a stylized photograph is not quite the same as an artist-created painting. Artists depict perceptually meaningful cues in paintings so that humans can recognize salient components in scenes, an emphasis which is not enforced in style transfer. Therefore, we study how style transfer and paintings differ in their impact on model robustness. First, we investigate the role of paintings as style images for stylization-based data augmentation. We find that style transfer functions well even without paintings as style images. Second, we show that learning from paintings as a form of perceptual data augmentation can improve model robustness. Finally, we investigate the invariances learned from stylization and from paintings, and show that models learn different invariances from these differing forms of data. Our results provide insights into how stylization improves model robustness, and provide evidence that artist-created paintings can be a valuable source of data for model robustness.
翻訳日:2021-06-06 14:51:05 公開日:2021-05-27
# (参考訳) ontoed:オントロジー埋め込みによる低リソースイベント検出 [全文訳有]

OntoED: Low-resource Event Detection with Ontology Embedding ( http://arxiv.org/abs/2105.10922v3 )

ライセンス: CC BY 4.0
Shumin Deng, Ningyu Zhang, Luoqiu Li, Hui Chen, Huaixiao Tou, Mosha Chen, Fei Huang, Huajun Chen(参考訳) イベント検出(ED)は、所定のテキストからイベントトリガーワードを特定し、イベントタイプに分類することを目的としている。 EDへの現在のメソッドのほとんどは、トレーニングインスタンスに大きく依存しており、イベントタイプの相関をほとんど無視しています。 したがって、データ不足に苦しむ傾向があり、新しい未発見のイベントタイプには対処できない。 これらの問題に対処するため,イベントオントロジー集団のプロセスとしてEDを定式化し,イベントインスタンスをイベントオントロジーで事前に定義されたイベントタイプにリンクし,オントロジーを組み込んだ新しいEDフレームワークを提案する。 イベントオントロジーをイベントタイプ間のリンクで強化し、さらにイベント-イベント相関を誘導する。 イベントオントロジーに基づいて、ontedは相関知識、特にデータリッチからデータポーアなイベントタイプを活用し、伝播することができる。 さらに oned は,既存のイベントへのリンクを確立することで,新たな未認識のイベントタイプにも適用可能だ。 実験によると、OntoEDは従来のEDアプローチよりも支配的であり、堅牢である。

Event Detection (ED) aims to identify event trigger words from a given text and classify it into an event type. Most of current methods to ED rely heavily on training instances, and almost ignore the correlation of event types. Hence, they tend to suffer from data scarcity and fail to handle new unseen event types. To address these problems, we formulate ED as a process of event ontology population: linking event instances to pre-defined event types in event ontology, and propose a novel ED framework entitled OntoED with ontology embedding. We enrich event ontology with linkages among event types, and further induce more event-event correlations. Based on the event ontology, OntoED can leverage and propagate correlation knowledge, particularly from data-rich to data-poor event types. Furthermore, OntoED can be applied to new unseen event types, by establishing linkages to existing ones. Experiments indicate that OntoED is more predominant and robust than previous approaches to ED, especially in data-scarce scenarios.
翻訳日:2021-06-06 09:50:40 公開日:2021-05-27
# 頚部癌解析のための解釈型注意ネットワークを目指して

Towards Interpretable Attention Networks for Cervical Cancer Analysis ( http://arxiv.org/abs/2106.00557v1 )

ライセンス: Link先を確認
Ruiqi Wang, Mohammad Ali Armin, Simon Denman, Lars Petersson, David Ahmedt-Aristizabal(参考訳) 近年の深層学習の進歩により、頚部癌の診断を含む医療画像や信号の自動分析フレームワークの開発が可能となった。 以前の多くの研究は、孤立した頚椎細胞の分析に焦点を当てているか、あるいは提案されたモデルがどのようにしてマルチセル画像の分類決定に到達したかを説明したり理解するための十分な方法を提供していない。 本稿では,複数の頸腺細胞の画像分類のための各種最先端ディープラーニングモデルと注意基盤フレームワークについて検討する。 この課題に対処するために解釈可能なディープラーニングモデルを提供するため、勾配の可視化を通じてその説明可能性を比較する。 孤立した単細胞画像よりも複数のセルを含む画像を使用することの重要性を示す。 本稿では,セル群から重要な特徴を抽出するための残留チャネル注意モデルの有効性を示し,このモデルの有効性を示す。 本研究は,複数セル画像の解析におけるチャネル注目機構の利点を強調する。 また、子宮頸部細胞の分類に対処するための解釈可能なモデルも提供する。

Recent advances in deep learning have enabled the development of automated frameworks for analysing medical images and signals, including analysis of cervical cancer. Many previous works focus on the analysis of isolated cervical cells, or do not offer sufficient methods to explain and understand how the proposed models reach their classification decisions on multi-cell images. Here, we evaluate various state-of-the-art deep learning models and attention-based frameworks for the classification of images of multiple cervical cells. As we aim to provide interpretable deep learning models to address this task, we also compare their explainability through the visualization of their gradients. We demonstrate the importance of using images that contain multiple cells over using isolated single-cell images. We show the effectiveness of the residual channel attention model for extracting important features from a group of cells, and demonstrate this model's efficiency for this classification task. This work highlights the benefits of channel attention mechanisms in analyzing multiple-cell images for potential relations and distributions within a group of cells. It also provides interpretable models to address the classification of cervical cells.
翻訳日:2021-06-06 08:55:51 公開日:2021-05-27
# cp-netsを用いた複合サービス評価ブートストラップ

Reputation Bootstrapping for Composite Services using CP-nets ( http://arxiv.org/abs/2105.15135v1 )

ライセンス: Link先を確認
Sajib Mistry and Athman Bouguettaya(参考訳) オンデマンドサービス構成の評判をブートストラップする新しいフレームワークを提案する。 オンデマンドのコンポジションは通常コンテキスト対応であり、消費者からの直接のフィードバックはほとんど、あるいは全くない。 単一サービスや原子サービスの評判ブートストラップは、構成のトポロジや評判に関連する要因間の関係を考慮していない。 評価関連要因の条件付き選好ネットワーク(cp-nets)を構成の構成要素サービスに適用する。 複合サービスの評判はCP-netsの合成によってブートストラップされる。 構成における評価相互依存を決定するために,コンポーネントサービス間の呼び出し履歴を考える。 構成規則は構成トポロジーとコンポーネントサービス間の4種類の評価影響を用いて構成される。 ヒューリスティックなQ-ラーニング手法を提案し,評価関連CP-netの最適セットを選択する。 実験により提案手法の有効性が証明された。

We propose a novel framework to bootstrap the reputation of on-demand service compositions. On-demand compositions are usually context-aware and have little or no direct consumer feedback. The reputation bootstrapping of single or atomic services does not consider the topology of the composition and relationships among reputation-related factors. We apply Conditional Preference Networks (CP-nets) of reputation-related factors for component services in a composition. The reputation of a composite service is bootstrapped by the composition of CP-nets. We consider the history of invocation among component services to determine reputation-interdepe ndence in a composition. The composition rules are constructed using the composition topology and four types of reputation-influence among component services. A heuristic-based Q-learning approach is proposed to select the optimal set of reputation-related CP-nets. Experimental results prove the efficiency of the proposed approach.
翻訳日:2021-06-01 17:18:56 公開日:2021-05-27
# (参考訳) 物理インフォームドニューラルネットワークの最適輸送に基づくリファインメント [全文訳有]

Optimal Transport Based Refinement of Physics-Informed Neural Networks ( http://arxiv.org/abs/2105.12307v2 )

ライセンス: CC BY 4.0
Vaishnav Tadiparthi and Raktim Bhattacharya(参考訳) 本稿では,偏微分方程式(PDE)を最適輸送(OT)の概念に基づいて解くために,よく知られた物理情報ニューラルネットワーク(PINN)の改良戦略を提案する。 従来のブラックボックスのPINNは、完全連結アーキテクチャにおけるスペクトルバイアス、不安定な勾配の病理、収束と精度の難しさなど、多くの問題に悩まされている。 現在のネットワークトレーニング戦略は次元サイズに依存せず、多数のコロケーションポイントを最適化するための強力なコンピューティングリソースの可用性に依存している。 これはフォッカー・プランク・コルモゴロフ方程式 (Fokker-Planck-Kolmo gorov Equation, FPKE) を用いて確率力学系を研究する際に特に困難である。 我々は、FPKEの定常形式にのみ焦点をあてるが、そのソリューションに対する肯定性と正規化の制約により、標準のPINNアプローチを使って直接解決することがより好ましくない。 上記の課題を軽減するため,既存のPINNフレームワークを補完するためにOTベースのサンプリングを用いてFPKEを解くための新たなトレーニング戦略を提案する。 これは、小さなデータセットでトレーニングされたネットワークに、名目上最もエラーの多いリージョンからトレーニングデータセットにサンプルを追加するように誘導する反復的なアプローチである。 新しいサンプルは、反復毎に線形プログラミング問題を解くことで見つかる。 本論文は,非線形力学を持つ種々の確率系に適用性を示す提案手法を実験的に評価して補足する。

In this paper, we propose a refinement strategy to the well-known Physics-Informed Neural Networks (PINNs) for solving partial differential equations (PDEs) based on the concept of Optimal Transport (OT). Conventional black-box PINNs solvers have been found to suffer from a host of issues: spectral bias in fully-connected architectures, unstable gradient pathologies, as well as difficulties with convergence and accuracy. Current network training strategies are agnostic to dimension sizes and rely on the availability of powerful computing resources to optimize through a large number of collocation points. This is particularly challenging when studying stochastic dynamical systems with the Fokker-Planck-Kolmog orov Equation (FPKE), a second-order PDE which is typically solved in high-dimensional state space. While we focus exclusively on the stationary form of the FPKE, positivity and normalization constraints on its solution make it all the more unfavorable to solve directly using standard PINNs approaches. To mitigate the above challenges, we present a novel training strategy for solving the FPKE using OT-based sampling to supplement the existing PINNs framework. It is an iterative approach that induces a network trained on a small dataset to add samples to its training dataset from regions where it nominally makes the most error. The new samples are found by solving a linear programming problem at every iteration. The paper is complemented by an experimental evaluation of the proposed method showing its applicability on a variety of stochastic systems with nonlinear dynamics.
翻訳日:2021-06-01 03:55:24 公開日:2021-05-27
# (参考訳) 森林道路における自動運転のための組込みビジョン [全文訳有]

Embedded Vision for Self-Driving on Forest Roads ( http://arxiv.org/abs/2105.13754v1 )

ライセンス: CC BY 4.0
Sorin Grigorescu, Mihai Zaha, Bogdan Trasnea and Cosmin Ginerica(参考訳) ルーマニアの森林道路は、無数の観光客がレクリエーションに使用する天然の野生生物の場所である。 これらの道路を保護・維持するために,道路外を自律走行するロボットシステムであるRovisLab AMTU(Autonomous Mobile Test Unit)を提案する。 AMTUのコアコンポーネントは組み込みビジョンモジュールで、リアルタイム環境認識に最適化されている。 高速な計算を実現するために,物体のシーンとインスタンスのセグメンテーションにマルチタスクディープニューラルネットワーク(DNN)を学習する学習システムを用いて,手作りFAST特徴検出器とルーカス・カナーデ追跡アルゴリズムを用いて,同時ローカライゼーションとマッピングに必要なキーポイントを算出する。 DNNと手作りのバックボーンはどちらもNVIDIA AGX XavierボードのGPU上で並列に実行される。 本研究施設の試験軌道について実験結果を示す。

Forest roads in Romania are unique natural wildlife sites used for recreation by countless tourists. In order to protect and maintain these roads, we propose RovisLab AMTU (Autonomous Mobile Test Unit), which is a robotic system designed to autonomously navigate off-road terrain and inspect if any deforestation or damage occurred along tracked route. AMTU's core component is its embedded vision module, optimized for real-time environment perception. For achieving a high computation speed, we use a learning system to train a multi-task Deep Neural Network (DNN) for scene and instance segmentation of objects, while the keypoints required for simultaneous localization and mapping are calculated using a handcrafted FAST feature detector and the Lucas-Kanade tracking algorithm. Both the DNN and the handcrafted backbone are run in parallel on the GPU of an NVIDIA AGX Xavier board. We show experimental results on the test track of our research facility.
翻訳日:2021-06-01 03:29:25 公開日:2021-05-27
# (参考訳) TensorFlow ManOpt:リーマン多様体の最適化のためのライブラリ [全文訳有]

TensorFlow ManOpt: a library for optimization on Riemannian manifolds ( http://arxiv.org/abs/2105.13921v1 )

ライセンス: CC BY 4.0
Oleg Smirnov(参考訳) ニューラルネットワークの採用と非ユークリッドドメインでのディープラーニングは、スケーラブルで効率的な学習フレームワークが欠如するまで妨げられてきた。 既存のツールボックスは、主に研究や教育のユースケースによって動機付けられていたが、機械学習モデルのデプロイや保守といった実践的な側面はしばしば見過ごされた。 TensorFlowのリーマン多様体を最適化するPythonライブラリであるTensorFlow ManOptを提案することで、このギャップを埋めようとしている。 このライブラリはTensorFlowエコシステムとのシームレスな統合を目的として設計されており、研究だけでなく、プロダクション機械学習パイプラインの合理化も目標としている。

The adoption of neural networks and deep learning in non-Euclidean domains has been hindered until recently by the lack of scalable and efficient learning frameworks. Existing toolboxes in this space were mainly motivated by research and education use cases, whereas practical aspects, such as deploying and maintaining machine learning models, were often overlooked. We attempt to bridge this gap by proposing TensorFlow ManOpt, a Python library for optimization on Riemannian manifolds in TensorFlow. The library is designed with the aim for a seamless integration with the TensorFlow ecosystem, targeting not only research, but also streamlining production machine learning pipelines.
翻訳日:2021-06-01 03:24:35 公開日:2021-05-27
# (参考訳) ディープニューラルネットワークのための学習構造 [全文訳有]

Learning Structures for Deep Neural Networks ( http://arxiv.org/abs/2105.13905v1 )

ライセンス: CC BY 4.0
Jinhui Yuan and Fei Pan and Chunting Zhou and Tao Qin and Tie-Yan Liu(参考訳) 本稿では,深層ニューラルネットワークの構造学習の教師なし設定に着目し,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用し,ラベル情報なしで構造学習の手順を導くことを提案する。 この原理は、良いネットワーク構造は入力と出力の間の相互情報を最大化するか、あるいは穏やかな仮定の下で出力のエントロピーを同等に最大化するべきであることを示唆している。 この原理とベイズ最適分類理論との関係をさらに確立し、ディープニューラルネットワークの出力のより大きなエントロピーが、より優れた分類精度に対応することを実証的に検証する。 そして、この原理の実装として、スパース符号化が出力信号のエントロピーを効果的に最大化できることを示すとともに、大域群スパース符号化に基づくアルゴリズムを設計し、層間接続を自動的に学習し、ニューラルネットワークの深さを決定する。 公開画像分類データセットを用いた実験により,提案アルゴリズムによりスクラッチから学習した構造を用いて,最適なエキスパート設計構造(畳み込みニューラルネットワーク(cnn))に匹敵する分類精度が得られることを示した。 さらに,提案アルゴリズムは局所的な接続性(CNNの局所受容場に対応する)と非分散構造(CNNの引き込みに対応する)の発見に成功し,限界性能ゲインとネットワーク深度との良好なトレードオフを実現する。

In this paper, we focus on the unsupervised setting for structure learning of deep neural networks and propose to adopt the efficient coding principle, rooted in information theory and developed in computational neuroscience, to guide the procedure of structure learning without label information. This principle suggests that a good network structure should maximize the mutual information between inputs and outputs, or equivalently maximize the entropy of outputs under mild assumptions. We further establish connections between this principle and the theory of Bayesian optimal classification, and empirically verify that larger entropy of the outputs of a deep neural network indeed corresponds to a better classification accuracy. Then as an implementation of the principle, we show that sparse coding can effectively maximize the entropy of the output signals, and accordingly design an algorithm based on global group sparse coding to automatically learn the inter-layer connection and determine the depth of a neural network. Our experiments on a public image classification dataset demonstrate that using the structure learned from scratch by our proposed algorithm, one can achieve a classification accuracy comparable to the best expert-designed structure (i.e., convolutional neural networks (CNN)). In addition, our proposed algorithm successfully discovers the local connectivity (corresponding to local receptive fields in CNN) and invariance structure (corresponding to pulling in CNN), as well as achieves a good tradeoff between marginal performance gain and network depth.
翻訳日:2021-06-01 02:52:23 公開日:2021-05-27
# (参考訳) DMInet:膜選択性のある薬物発見のための高精度で柔軟なディープラーニングフレームワーク [全文訳有]

DMInet: An Accurate and Highly Flexible Deep Learning Framework for Drug Discovery with Membrane Selectivity ( http://arxiv.org/abs/2105.13928v1 )

ライセンス: CC BY 4.0
Guang Chen(参考訳) 薬物膜相互作用は、創薬において非常に重要なバイオプロセスである。 本稿では,6種類の脂質膜にまたがる薬物様分子の透過に関する大規模マルティニ粗粒分子シミュレーションを活用し,薬物-膜相互作用を研究するために,dminetという新しい深層学習フレームワークを提案する。 DMInetのネットワークは、Viz、薬物様分子、膜型および膜厚間の空間距離の3つの入力を受け取り、膜膜を横断する構造分解能と膜選択性で平均力のポテンシャルを予測する。 DMInetは、有機分子の粗粒化マルティニーの表現と深層学習の組み合わせを継承し、物理ベースのシミュレーションだけで調べられるよりもはるかに大きな化学空間における薬物発見において、より高速な高スループットスクリーニングを行う可能性がある。 さらに、DMInetはその性質上非常に柔軟であり、アーキテクチャに大きな変更を加えることなく、他の特性予測の可能性を持っている。 最後に、DMInetのアーキテクチャは一般的なものであり、透過と選択を含む他の膜問題にも適用できる。

Drug membrane interaction is a very significant bioprocess to consider in drug discovery. Here, we propose a novel deep learning framework coined DMInet to study drug-membrane interactions that leverages large-scale Martini coarse-grained molecular simulations of permeation of drug-like molecules across six different lipid membranes. The network of DMInet receives three inputs, viz, the drug-like molecule, membrane type and spatial distance across membrane thickness, and predicts the potential of mean force with structural resolution across the lipid membrane and membrane selectivity. Inheriting from coarse-grained Martini representation of organic molecules and combined with deep learning, DMInet has the potential for more accelerated high throughput screening in drug discovery across a much larger chemical space than that can be explored by physics-based simulations alone. Moreover, DMInet is highly flexible in its nature and holds the possibilities for other properties prediction without significant change of the architecture. Last but not least, the architecture of DMInet is general and can be applied to other membrane problems involving permeation and selection.
翻訳日:2021-06-01 02:37:25 公開日:2021-05-27
# (参考訳) iii型太陽電波バースト検出と分類:深層学習によるアプローチ [全文訳有]

Type III solar radio burst detection and classification: A deep learning approach ( http://arxiv.org/abs/2105.13387v1 )

ライセンス: CC BY 4.0
Jeremiah Scully, Ronan Flynn, Eoin Carley, Peter Gallagher and Mark Daly(参考訳) 太陽電波バースト (solar radio burst, srbs) は一般的にダイナミックスペクトルで観測され、タイプiからタイプvまでのスペクトル分類は、その形状と周波数と時間によって異なる。 その複雑な特徴から、太陽電波物理学における課題は、そのような電波バーストの自動検出と分類である。 SRBの分類は、Low-Frequency ARray (LOFAR) のような先進的な電波望遠鏡によって生成される大きなデータ率により、近年は基本となっている。 現在の最先端アルゴリズムは、画像内の予め定義されたパラメトリック形状を検出する手段として、ハフまたはラドン変換を実装している。 これらのアルゴリズムは、電波バーストの種類に応じて最大84%の精度を達成している。 その他のテクニックとしては、動的スペクトルにおけるノイズ除去と適応しきい値を用いて本質的に電波バーストを検出する、Constant-FalseAlarm- Rate検出に依存するプロシージャがある。 様々な種類の無線バーストでうまく動作し、最大70%の精度を実現している。 本研究では、太陽電波バースト分類のためのYou Only Look Once v2 (YOLOv2) という方法論を導入する。 Type IIIシミュレーション手法を用いることで、実際のIII型太陽放射バーストをAccuでリアルタイムで分類するアルゴリズムを訓練することができる。

Solar Radio Bursts (SRBs) are generally observed in dynamic spectra and have five major spectral classes, labelled Type I to Type V depending on their shape and extent in frequency and time. Due to their complex characterisation, a challenge in solar radio physics is the automatic detection and classification of such radio bursts. Classification of SRBs has become fundamental in recent years due to large data rates generated by advanced radio telescopes such as the LOw-Frequency ARray, (LOFAR). Current state-of-the-art algorithms implement the Hough or Radon transform as a means of detecting predefined parametric shapes in images. These algorithms achieve up to 84% accuracy, depending on the Type of radio burst being classified. Other techniques include procedures that rely on Constant-FalseAlarm- Rate detection, which is essentially detection of radio bursts using a de-noising and adaptive threshold in dynamic spectra. It works well for a variety of different Types of radio bursts and achieves an accuracy of up to 70%. In this research, we are introducing a methodology named You Only Look Once v2 (YOLOv2) for solar radio burst classification. By using Type III simulation methods we can train the algorithm to classify real Type III solar radio bursts in real-time at an accu
翻訳日:2021-06-01 02:30:17 公開日:2021-05-27
# (参考訳) 組織グラフにおけるコミュニケーションのプライバシーと秘密性について [全文訳有]

On Privacy and Confidentiality of Communications in Organizational Graphs ( http://arxiv.org/abs/2105.13418v1 )

ライセンス: CC BY 4.0
Masoumeh Shafieinejad and Huseyin Inan and Marcello Hasegawa and Robert Sim(参考訳) 企業内のeメールなどの組織的コミュニケーションデータに基づいてトレーニングされた機械学習モデルは、たとえモデルが内部使用のみを意図していたとしても、機密性に違反する独自のリスクを負う。 この研究は、企業におけるプライバシーと機密性がどのように異なるかを示し、差分プライバシーの原則を生かしながら機密性を保存するためのアプローチを定式化することを目的としている。 目標は、言語モデル学習やトピック分析といった機械学習タスクを実行し、組織内で共有される機密情報を学習することなく、組織内の対人コミュニケーションを使用することである。 自然言語処理タスクに差分プライバシー技術を適用する作業は通常、独立して分散データを仮定し、レコード間の潜在的な相関を見落としている。 この相関を無視することは、架空のプライバシーの約束をもたらす。 ディファレンシャルプライバシのテクニックを、レコードレベルのプライバシではなくグループプライバシに拡張することは、この問題を軽減するための直接的なアプローチである。 このアプローチは、より現実的なプライバシー保証を提供するが、過度に注意し、モデルユーティリティに深刻な影響を与える。 2つの言語タスクにおけるこの2つの極端なプライバシー対策のギャップを示し、中間的な解決策を導入する。 本稿では,ソーシャルネットワークグラフの相関関係を捉えるモデルを提案し,この相関関係をPufferfishのプライバシー原則によるプライバシー計算に組み込む。

Machine learned models trained on organizational communication data, such as emails in an enterprise, carry unique risks of breaching confidentiality, even if the model is intended only for internal use. This work shows how confidentiality is distinct from privacy in an enterprise context, and aims to formulate an approach to preserving confidentiality while leveraging principles from differential privacy. The goal is to perform machine learning tasks, such as learning a language model or performing topic analysis, using interpersonal communications in the organization, while not learning about confidential information shared in the organization. Works that apply differential privacy techniques to natural language processing tasks usually assume independently distributed data, and overlook potential correlation among the records. Ignoring this correlation results in a fictional promise of privacy. Naively extending differential privacy techniques to focus on group privacy instead of record-level privacy is a straightforward approach to mitigate this issue. This approach, although providing a more realistic privacy-guarantee, is over-cautious and severely impacts model utility. We show this gap between these two extreme measures of privacy over two language tasks, and introduce a middle-ground solution. We propose a model that captures the correlation in the social network graph, and incorporates this correlation in the privacy calculations through Pufferfish privacy principles.
翻訳日:2021-06-01 02:20:38 公開日:2021-05-27
# (参考訳) オンライン自動実験による生産システムのモデル選択 [全文訳有]

Model Selection for Production System via Automated Online Experiments ( http://arxiv.org/abs/2105.13420v1 )

ライセンス: CC BY 4.0
Zhenwen Dai, Praveen Chandar, Ghazal Fazelnia, Ben Carterette, Mounia Lalmas-Roelleke(参考訳) 業界で機械学習の実践者が直面する課題は、本番環境でデプロイする最良のモデルを選択することだ。 モデルはしばしばプロダクションシステムの中間的なコンポーネントであるため、a/bテストのようなオンライン制御実験はシステム全体の有効性を最も信頼できる評価を与えるが、予算上の制約のため2つまたは数つのモデルしか比較できない。 少数のオンライン実験を伴って,大規模なモデルプールからモデル選択を効率的に行うことができるオンライン自動実験機構を提案する。 我々は、履歴ログを用いて訓練したベイズ式サロゲートモデルからモデル不確実性を含む関心の計量の確率分布を導出する。 本手法は,探索-探索のバランスをとる候補集合からモデルのリストを逐次選択し,配置することにより,最適なモデルを特定する。 実データに基づくシミュレーションを用いて、2つの異なるタスクに対する提案手法の有効性を実証する。

A challenge that machine learning practitioners in the industry face is the task of selecting the best model to deploy in production. As a model is often an intermediate component of a production system, online controlled experiments such as A/B tests yield the most reliable estimation of the effectiveness of the whole system, but can only compare two or a few models due to budget constraints. We propose an automated online experimentation mechanism that can efficiently perform model selection from a large pool of models with a small number of online experiments. We derive the probability distribution of the metric of interest that contains the model uncertainty from our Bayesian surrogate model trained using historical logs. Our method efficiently identifies the best model by sequentially selecting and deploying a list of models from the candidate set that balance exploration-exploita tion. Using simulations based on real data, we demonstrate the effectiveness of our method on two different tasks.
翻訳日:2021-06-01 02:04:28 公開日:2021-05-27
# (参考訳) Sinan: データ駆動でQoS対応のマイクロサービスクラスタ管理 [全文訳有]

Sinan: Data-Driven, QoS-Aware Cluster Management for Microservices ( http://arxiv.org/abs/2105.13424v1 )

ライセンス: CC BY 4.0
Yanqi Zhang, Weizhe Hua, Zhuangzhuang Zhou, Edward Suh, Christina Delimitrou(参考訳) クラウドアプリケーションはますます、巨大なモノリシックサービスから、疎結合で専門的なマイクロサービスへとシフトしつつある。 開発、デプロイ、モジュール性、分離を容易にするという点では優位性があるが、マイクロサービスはリソース管理を複雑にしている。 オンラインおよびqos対応のインタラクティブクラウドマイクロサービスのためのデータ駆動型クラスタマネージャであるsinanを紹介する。 sinan氏は、スケーラブルで検証可能なマシンラーニングモデルセットを活用して、マイクロサービス間の依存関係のパフォーマンスへの影響を判断し、エンドツーエンドのレイテンシ目標を維持する方法で、層毎に適切なリソースを割り当てる。 私たちはSinanを、専用のローカルクラスタとGoogle Compute Engine(GCE)上の大規模デプロイメントの両方に、ソーシャルネットワークやホテル予約サイトなど、マイクロサービスで構築された代表的なエンドツーエンドアプリケーションを評価します。 予測不能なパフォーマンスやリソース効率の犠牲につながる先行作業とは対照的に,sinanは常にqosを満たしていると同時に,クラスタ利用率も高いことが分かる。 さらに、Sinanのテクニックは説明可能である。つまり、クラウドオペレータは予測不可能なパフォーマンスを減らすために、アプリケーションのデプロイと設計をより良くする方法に関するMLモデルから洞察を得ることができる。

Cloud applications are increasingly shifting from large monolithic services, to large numbers of loosely-coupled, specialized microservices. Despite their advantages in terms of facilitating development, deployment, modularity, and isolation, microservices complicate resource management, as dependencies between them introduce backpressure effects and cascading QoS violations. We present Sinan, a data-driven cluster manager for interactive cloud microservices that is online and QoS-aware. Sinan leverages a set of scalable and validated machine learning models to determine the performance impact of dependencies between microservices, and allocate appropriate resources per tier in a way that preserves the end-to-end tail latency target. We evaluate Sinan both on dedicated local clusters and large-scale deployments on Google Compute Engine (GCE) across representative end-to-end applications built with microservices, such as social networks and hotel reservation sites. We show that Sinan always meets QoS, while also maintaining cluster utilization high, in contrast to prior work which leads to unpredictable performance or sacrifices resource efficiency. Furthermore, the techniques in Sinan are explainable, meaning that cloud operators can yield insights from the ML models on how to better deploy and design their applications to reduce unpredictable performance.
翻訳日:2021-06-01 01:43:57 公開日:2021-05-27
# (参考訳) GuideMe:グローバル位置決めシステムに基づくモバイルアプリケーションとスマートツーリストガイドに向けたオブジェクト認識 [全文訳有]

GuideMe: A Mobile Application based on Global Positioning System and Object Recognition Towards a Smart Tourist Guide ( http://arxiv.org/abs/2105.13426v1 )

ライセンス: CC BY 4.0
Wadii Boulila, Anmar Abuhamdah, Maha Driss, Slim Kammoun, Jawad Ahmad(参考訳) 訪問する観光地に関する情報を見つけることは、異なる国を訪れている人々が直面する困難な問題である。 この問題は、人々が異なる国から来て、異なる言語を話し、社会のあらゆる部分から来ているときに強調される。 この文脈では、参詣者や巡礼者は、聖地を訪れる際に適切な道を見つけるために重要な問題に直面している。 本稿では,ユーザが与えられた聖地に対して,簡単かつ直感的に適切な道を見つけるためのモバイルアプリケーションを提案する。 この目的を達成するために,(1)手動探索,(2)神聖な場所とそれに対応する道順を特定するGPS位置,(3)来訪者が撮影した画像を分析して神聖な場所を決定する深層学習(DL)に基づく方法の3つの選択肢が開発されている。 実験は、訪問した聖地に対して適切な doaa を提供することで、提案するモバイルアプリケーションの優れた性能を示す。

Finding information about tourist places to visit is a challenging problem that people face while visiting different countries. This problem is accentuated when people are coming from different countries, speak different languages, and are from all segments of society. In this context, visitors and pilgrims face important problems to find the appropriate doaas when visiting holy places. In this paper, we propose a mobile application that helps the user find the appropriate doaas for a given holy place in an easy and intuitive manner. Three different options are developed to achieve this goal: 1) manual search, 2) GPS location to identify the holy places and therefore their corresponding doaas, and 3) deep learning (DL) based method to determine the holy place by analyzing an image taken by the visitor. Experiments show good performance of the proposed mobile application in providing the appropriate doaas for visited holy places.
翻訳日:2021-06-01 01:22:20 公開日:2021-05-27
# (参考訳) PIVデータの機械学習再構成のためのフローベース特徴と検証基準

Flow based features and validation metric for machine learning reconstruction of PIV data ( http://arxiv.org/abs/2105.13429v1 )

ライセンス: CC BY 4.0
Ghasem Akbari, Nader Montazerin(参考訳) 物理指向アプローチによる実際のスパースデータからのフローフィールドの再構築は、AIコミュニティにおける流体科学者の現在の課題である。 問題は、再構成されたデータを生成するために、データを物理的な特徴空間にリンクするAIアルゴリズムの機能認識と実装を含む。 本稿では, ターボ機械PIV計測の欠落データ復元のための流体力学を応用した, 異なる流れ特性の寄与を機械学習を用いて研究する。 支持ベクトル回帰(SVR)と多層パーセプトロン(MLP)は非線形流体現象をモデル化可能な2つの頑健な回帰器として選択される。 提案するフローベースの機能は最適な構成を抽出するために最適にスケールされフィルタされる。 従来のデータに基づく回帰器の検証に加えて, 物質保存則を物理フロー再生の重要な要件とする計量法が提案されている。 クラスタ化欠落データの25%を含む速度場において、R2スコアでSVRが達成した再現精度は、最大0.981のMLPに比べて、平面内速度ベクトルに対して0.993である。 質量保存距離の面では、R2スコアによるSVRモデルは、MLP推定器よりもかなり正確である。 空隙率75%の極小データに対して,SVRおよびMLPのベクトルおよび輪郭プロットは元のフィールドと一致していた。

Reconstruction of flow field from real sparse data by a physics-oriented approach is a current challenge for fluid scientists in the AI community. The problem includes feature recognition and implementation of AI algorithms that link data to a physical feature space in order to produce reconstructed data. The present article applies machine learning approach to study contribution of different flow-based features with practical fluid mechanics applications for reconstruction of the missing data of turbomachinery PIV measurements. Support vector regression (SVR) and multi-layer perceptron (MLP) are selected as two robust regressors capable of modelling non-linear fluid flow phenomena. The proposed flow-based features are optimally scaled and filtered to extract the best configuration. In addition to conventional data-based validation of the regressors, a metric is proposed that reflects mass conservation law as an important requirement for a physical flow reproduction. For a velocity field including 25% of clustered missing data, the reconstruction accuracy achieved by SVR in terms of R2-score is as high as 0.993 for the in-plane velocity vectors in comparison with that obtained by MLP which is up to 0.981. In terms of mass conservation metric, the SVR model by R2-score up to 0.96 is considerably more accurate than the MLP estimator. For extremely sparse data with a gappiness of 75%, vector and contour plots from SVR and MLP were consistent with those of the original field.
翻訳日:2021-06-01 01:14:50 公開日:2021-05-27
# (参考訳) CAMH COVID-19メンタルヘルスデータのマルチクラス分類 [全文訳有]

Explainable Multi-class Classification of the CAMH COVID-19 Mental Health Data ( http://arxiv.org/abs/2105.13430v1 )

ライセンス: CC BY 4.0
YuanZheng Hu and Marina Sokolova(参考訳) 機械学習のアルゴリズムを医療分野に適用することは、医学知識の進歩に役立つ新しいトレンドである。 同時に、情報的、透明で、解釈可能な機械学習アルゴリズムの使用を促進する説明可能な研究が欠如している。 本稿では,Covid-19のメンタルヘルスデータの多クラス分類について説明する。 機械学習研究では、コビッドウイルスのパンデミックにおいて、個人のメンタルヘルスに影響を与える潜在的な要因を見つけることを目的としている。 ランダムフォレスト (rf) と勾配昇降 (gb) はそれぞれ68.08%, 68.19%と高い精度を示し, rfでは65.5%, gbでは61.8%のライム予測精度を示した。 次に、得られた機械学習結果を説明する能力として、ポストホックシステム(ローカル解釈可能なモデル非依存記述(LIME))とアンテホックシステム(Gini Importance)を比較した。 この研究は、新型コロナウイルス(covid-19)パンデミックで収集されたメンタルヘルスデータに関する、最初の説明可能な機械学習研究です。

Application of Machine Learning algorithms to the medical domain is an emerging trend that helps to advance medical knowledge. At the same time, there is a significant a lack of explainable studies that promote informed, transparent, and interpretable use of Machine Learning algorithms. In this paper, we present explainable multi-class classification of the Covid-19 mental health data. In Machine Learning study, we aim to find the potential factors to influence a personal mental health during the Covid-19 pandemic. We found that Random Forest (RF) and Gradient Boosting (GB) have scored the highest accuracy of 68.08% and 68.19% respectively, with LIME prediction accuracy 65.5% for RF and 61.8% for GB. We then compare a Post-hoc system (Local Interpretable Model-Agnostic Explanations, or LIME) and an Ante-hoc system (Gini Importance) in their ability to explain the obtained Machine Learning results. To the best of these authors knowledge, our study is the first explainable Machine Learning study of the mental health data collected during Covid-19 pandemics.
翻訳日:2021-06-01 01:13:34 公開日:2021-05-27
# (参考訳) 非負行列分解アルゴリズムはトピックモデル適合を大幅に改善する [全文訳有]

Non-negative matrix factorization algorithms greatly improve topic model fits ( http://arxiv.org/abs/2105.13440v1 )

ライセンス: CC BY 4.0
Peter Carbonetto, Abhishek Sarkar, Zihao Wang and Matthew Stephens(参考訳) 非負行列因数分解(NMF)アルゴリズムを用いてトピックモデルにおけるパラメータ推定を改善する可能性について報告する。 いくつかの論文ではNMFとトピックモデル間の接続について研究しているが、これらの接続を活用してトピックモデルに適合する新しいアルゴリズムを開発することは提案されていない。 重要なことに、NMFはトピックモデルパラメータの「sum-to-one」制約を避け、より単純な構造とより効率的な計算を伴う最適化問題をもたらす。 NMFの最適化アルゴリズムの最近の進歩に基づき、まずNMFの問題を解き、トピックモデルに適合する問題を解くことにより、トピックモデルに対する標準的なアルゴリズムよりもはるかに優れた適合性が得られることを示す。 我々は主に最大推定に焦点をあてるが、本手法は話題モデルの変分推論を改善する可能性も示している。 我々のメソッドはRパッケージfastTopicsに実装されています。

We report on the potential for using algorithms for non-negative matrix factorization (NMF) to improve parameter estimation in topic models. While several papers have studied connections between NMF and topic models, none have suggested leveraging these connections to develop new algorithms for fitting topic models. Importantly, NMF avoids the "sum-to-one" constraints on the topic model parameters, resulting in an optimization problem with simpler structure and more efficient computations. Building on recent advances in optimization algorithms for NMF, we show that first solving the NMF problem then recovering the topic model fit can produce remarkably better fits, and in less time, than standard algorithms for topic models. While we focus primarily on maximum likelihood estimation, we show that this approach also has the potential to improve variational inference for topic models. Our methods are implemented in the R package fastTopics.
翻訳日:2021-06-01 00:57:16 公開日:2021-05-27
# (参考訳) 確率勾配降下のソボレフ正則化効果 [全文訳有]

The Sobolev Regularization Effect of Stochastic Gradient Descent ( http://arxiv.org/abs/2105.13462v1 )

ライセンス: CC BY 4.0
Chao Ma, Lexing Ying(参考訳) ニューラルネットワークの第1層におけるパラメータと入力データの乗算構造について検討し、パラメータに対する損失関数のランドスケープと入力データに対するモデル関数のランドスケープとの接続を構築する。 この関係により、フラットミニマはモデル関数の勾配を正則化し、フラットミニマのよい一般化性能を説明することが示される。 次に、平坦性を超えて勾配雑音の高次モーメントを考察し、sgd(sastic gradient dascent)が大域ミニマ周辺のsgdの線形安定性解析によってこれらのモーメントに制約を課す傾向があることを示す。 乗法構造とともに,SGDのソボレフ正則化効果,すなわちソボレフ正則化効果を同定する。 SGDは入力データに関してモデル関数のソボレフ半ノルムを正規化する。 最後に、データ分布の仮定の下でSGDで見つかる解に対して、一般化誤差と対向ロバスト性のためのバウンダリを提供する。

The multiplicative structure of parameters and input data in the first layer of neural networks is explored to build connection between the landscape of the loss function with respect to parameters and the landscape of the model function with respect to input data. By this connection, it is shown that flat minima regularize the gradient of the model function, which explains the good generalization performance of flat minima. Then, we go beyond the flatness and consider high-order moments of the gradient noise, and show that Stochastic Gradient Dascent (SGD) tends to impose constraints on these moments by a linear stability analysis of SGD around global minima. Together with the multiplicative structure, we identify the Sobolev regularization effect of SGD, i.e. SGD regularizes the Sobolev seminorms of the model function with respect to the input data. Finally, bounds for generalization error and adversarial robustness are provided for solutions found by SGD under assumptions of the data distribution.
翻訳日:2021-06-01 00:02:09 公開日:2021-05-27
# (参考訳) データ依存型動的学習率によるトレーニング [全文訳有]

Training With Data Dependent Dynamic Learning Rates ( http://arxiv.org/abs/2105.13464v1 )

ライセンス: CC BY 4.0
Shreyas Saxena, Nidhi Vyas, Dennis DeCoste(参考訳) 近年、深層ニューラルネットワーク(dnn)の訓練を容易にするために、sgdの1次および2次変種が提案されている。 これらの作業の一般的な制限は、データセットに存在するすべてのインスタンスで同じ学習率を使用しているという事実にある。 この設定は、各インスタンスの損失関数が本質的に類似しているという仮定の下で広く採用されており、共通の学習率を用いることができる。 本稿では,この仮定を緩和し,インスタンス間の損失関数特性の違いを考慮した最適化フレームワークを提案する。 具体的には、データセットに存在する各インスタンスの動的学習率について学習する。 各インスタンスに対する動的学習率の学習により、最適化フレームワークは最適化中のトレーニングデータのさまざまなモードに集中することができます。 画像分類タスクに適用すると、異なるCNNアーキテクチャで動的学習率が標準オプティマイザよりも一貫して向上する。 破損したインスタンスを含むデータセットに適用した場合、我々のフレームワークはノイズの多いインスタンスの学習率を低減し、最先端技術よりも改善する。 最後に,機械学習モデルから既知のターゲットデータ分布へのパーソナライズに,我々の最適化フレームワークが利用できることを示す。

Recently many first and second order variants of SGD have been proposed to facilitate training of Deep Neural Networks (DNNs). A common limitation of these works stem from the fact that they use the same learning rate across all instances present in the dataset. This setting is widely adopted under the assumption that loss functions for each instance are similar in nature, and hence, a common learning rate can be used. In this work, we relax this assumption and propose an optimization framework which accounts for difference in loss function characteristics across instances. More specifically, our optimizer learns a dynamic learning rate for each instance present in the dataset. Learning a dynamic learning rate for each instance allows our optimization framework to focus on different modes of training data during optimization. When applied to an image classification task, across different CNN architectures, learning dynamic learning rates leads to consistent gains over standard optimizers. When applied to a dataset containing corrupt instances, our framework reduces the learning rates on noisy instances, and improves over the state-of-the-art. Finally, we show that our optimization framework can be used for personalization of a machine learning model towards a known targeted data distribution.
翻訳日:2021-05-31 23:36:53 公開日:2021-05-27
# (参考訳) 現代言語モデルで符号化された概念知識グラフの検査 [全文訳有]

Inspecting the concept knowledge graph encoded by modern language models ( http://arxiv.org/abs/2105.13471v1 )

ライセンス: CC BY 4.0
Carlos Aspillaga, Marcelo Mendoza, Alvaro Soto(参考訳) 自然言語理解の分野はここ数年で指数関数的に進歩し、いくつかのタスクで印象的な結果が得られた。 この成功は、研究者がこれらのモデルによって符号化された基礎知識を研究する動機となった。 それにもかかわらず、それらの意味的能力を理解する試みは成功せず、しばしば異なる作品の間で非決定的あるいは矛盾する結論に至る。 探索型分類器を用いて,単語埋め込み,テキスト生成,コンテキストエンコーダなど,過去9年間で最も影響力のある言語モデルの知識グラフを抽出する。 このプローブはWordNetに基づく概念関連性に基づいている。 その結果、すべてのモデルがこの知識をエンコードしているが、いくつかの不正確さに苦しむことが明らかとなった。 さらに,異なるアーキテクチャとトレーニング戦略が異なるモデルバイアスをもたらすことを示す。 我々は、ある概念がなぜ難しいのかを説明する特定の要因を発見するために、体系的な評価を行う。 私たちの洞察が、概念をより正確に捉えるモデルの開発を動機付けることを期待しています。

The field of natural language understanding has experienced exponential progress in the last few years, with impressive results in several tasks. This success has motivated researchers to study the underlying knowledge encoded by these models. Despite this, attempts to understand their semantic capabilities have not been successful, often leading to non-conclusive, or contradictory conclusions among different works. Via a probing classifier, we extract the underlying knowledge graph of nine of the most influential language models of the last years, including word embeddings, text generators, and context encoders. This probe is based on concept relatedness, grounded on WordNet. Our results reveal that all the models encode this knowledge, but suffer from several inaccuracies. Furthermore, we show that the different architectures and training strategies lead to different model biases. We conduct a systematic evaluation to discover specific factors that explain why some concepts are challenging. We hope our insights will motivate the development of models that capture concepts more precisely.
翻訳日:2021-05-31 23:26:07 公開日:2021-05-27
# (参考訳) sars-cov-2ウイルス負荷分布の非パラメトリックベイズ因果モデルvs. 患者の年齢 [全文訳有]

Non-parametric Bayesian Causal Modeling of the SARS-CoV-2 Viral Load Distribution vs. Patient's Age ( http://arxiv.org/abs/2105.13483v1 )

ライセンス: CC BY 4.0
Matteo Guardiani, Philipp Frank, Andrija Kosti\'c, Gordian Edenhofer, Jakob Roth, Berit Uhlmann, Torsten En{\ss}lin(参考訳) SARS-CoV-2に感染した患者のウイルス量は対数スケールや年齢によって異なる。 ウイルスの負荷分布が患者の年齢に依存するかどうかに関する文献では、議論の的となっている。 このような依存は、新型コロナウイルスの拡散機構、年齢依存性免疫系反応、つまり政策形成に影響を及ぼす。 本稿では,患者年齢の関数としてのウイルス負荷分布データを,柔軟で非パラメトリック,階層的,ベイズ的,因果的モデルで解析する手法を開発した。 この方法は、他の文脈にも適用でき、この目的のために自由に利用できる。 開発した再構成法では,データのバイアスの検証も可能である。 これは例えば、患者の検査とデータ収集のバイアスや、ウイルス負荷の測定における系統的なエラーによる可能性がある。 これらの実験は,各因果方向のベイズ的証拠を計算して行う。 これらの検査を公開年齢とSARS-CoV-2ウイルス負荷データに適用すると、年齢とともにウイルス負荷が統計的に顕著に増加するが、分析された2つのデータセットのうちの1つに限られる。 このデータセットを考察し、ウイルス負荷が患者の感染率に与える影響の現在の理解に基づいて、異なる年齢集団の感染率に非無視的な違いが期待できる。 この違いは、いかなる年齢層も感染しないと考えるには小さすぎる。

The viral load of patients infected with SARS-CoV-2 varies on logarithmic scales and possibly with age. Controversial claims have been made in the literature regarding whether the viral load distribution actually depends on the age of the patients. Such a dependence would have implications for the COVID-19 spreading mechanism, the age-dependent immune system reaction, and thus for policymaking. We hereby develop a method to analyze viral-load distribution data as a function of the patients' age within a flexible, non-parametric, hierarchical, Bayesian, and causal model. This method can be applied to other contexts as well, and for this purpose, it is made freely available. The developed reconstruction method also allows testing for bias in the data. This could be due to, e.g., bias in patient-testing and data collection or systematic errors in the measurement of the viral load. We perform these tests by calculating the Bayesian evidence for each implied possible causal direction. When applying these tests to publicly available age and SARS-CoV-2 viral load data, we find a statistically significant increase in the viral load with age, but only for one of the two analyzed datasets. If we consider this dataset, and based on the current understanding of viral load's impact on patients' infectivity, we expect a non-negligible difference in the infectivity of different age groups. This difference is nonetheless too small to justify considering any age group as noninfectious.
翻訳日:2021-05-31 23:08:47 公開日:2021-05-27
# (参考訳) 新たな視点から学ぶ [全文訳有]

Learning to Stylize Novel Views ( http://arxiv.org/abs/2105.13509v1 )

ライセンス: CC BY 4.0
Hsin-Ping Huang, Hung-Yu Tseng, Saurabh Saini, Maneesh Singh, Ming-Hsuan Yang(参考訳) 我々は,同じシーンの画像の集合と所望のスタイルの参照画像が入力として与えられた任意の新規ビューから,シーンのスタイリング画像を生成する3Dシーンスタイリング問題に取り組む。 新規なビュー合成とスタイル化アプローチを組み合わせる直接的なソリューションは、異なるビュー間でぼやけたり一貫性のない結果をもたらす。 本稿では,一貫した3次元シーンスタイリングのためのポイントクラウド方式を提案する。 まず,画像特徴を3次元空間にバックプロジェクションすることで点雲を構築する。 第2に、3次元シーンのスタイル情報を収集する点群集約モジュールを開発し、それから線形変換行列を用いて点群内の特徴を変調する。 最後に、変換された特徴を2次元空間に投影し、新しいビューを得る。 実世界のシーンの2つの多様なデータセットによる実験結果から,本手法が他の手法に対して一貫したスタイル化された新規ビュー合成結果を生成することを確認した。

We tackle a 3D scene stylization problem - generating stylized images of a scene from arbitrary novel views given a set of images of the same scene and a reference image of the desired style as inputs. Direct solution of combining novel view synthesis and stylization approaches lead to results that are blurry or not consistent across different views. We propose a point cloud-based method for consistent 3D scene stylization. First, we construct the point cloud by back-projecting the image features to the 3D space. Second, we develop point cloud aggregation modules to gather the style information of the 3D scene, and then modulate the features in the point cloud with a linear transformation matrix. Finally, we project the transformed features to 2D space to obtain the novel views. Experimental results on two diverse datasets of real-world scenes validate that our method generates consistent stylized novel view synthesis results against other alternative approaches.
翻訳日:2021-05-31 22:44:10 公開日:2021-05-27
# ニューラルSDEのための効率的かつ正確な勾配

Efficient and Accurate Gradients for Neural SDEs ( http://arxiv.org/abs/2105.13493v1 )

ライセンス: Link先を確認
Patrick Kidger and James Foster and Xuechen Li and Terry Lyons(参考訳) ニューラルSDEは、RNNとSDEの両方の最高の品質を多く組み合わせており、多くの時間力学をモデル化するための自然な選択である。 メモリ効率、高容量関数近似、モデル空間に対する強い先行性を提供する。 ニューラルSDEは、VAEまたはGANとして訓練され、いずれの場合でも、SDE解決を通じてバックプロパゲートする必要がある。 特にこれは、所望のパラメータ勾配を解とする逆向きの SDE を構築することで実現できる。 しかし、これは以前、高い計算複雑性、SDE解決における数値誤差、ブラウン運動の再構成コストなど、厳しい速度と精度の問題に悩まされてきた。 ここでは、これらの問題を克服するためにいくつかの技術革新を行います。 まず,代数的に可逆な新しいSDE解法である可逆Hun法を導入し,数値勾配誤差をほぼゼロに減らし,最先端よりもかなりのマージンでいくつかのテスト指標を改善した。 さらに、同等のソルバの半分の関数評価が必要で、最大で1.98\times$ speedupとなる。 次に、ブラウン間隔を紹介する。 これはブラウン運動を正確にサンプリングし再構成する新しい計算効率の良い方法であり、近似的かつ比較的遅い以前の再構成技術とは対照的である。 これにより、従来の技術よりも10.6\times$スピードが向上する。 その後、神経SDEをGAN(Kidger et al)として訓練する。 2021) で, SDE-GAN を慎重に切断し, 活性化機能の選択によってどのように訓練するかを示した。 これにより計算コスト(最大$1.87\times$スピードアップ)が削減され、勾配のペナルティに必要な二重共役のトランケーションエラーが取り除かれ、いくつかのテストメトリクスが大幅に改善される。 これらの技術は、最先端技術よりも大幅に改善されている。

Neural SDEs combine many of the best qualities of both RNNs and SDEs, and as such are a natural choice for modelling many types of temporal dynamics. They offer memory efficiency, high-capacity function approximation, and strong priors on model space. Neural SDEs may be trained as VAEs or as GANs; in either case it is necessary to backpropagate through the SDE solve. In particular this may be done by constructing a backwards-in-time SDE whose solution is the desired parameter gradients. However, this has previously suffered from severe speed and accuracy issues, due to high computational complexity, numerical errors in the SDE solve, and the cost of reconstructing Brownian motion. Here, we make several technical innovations to overcome these issues. First, we introduce the reversible Heun method: a new SDE solver that is algebraically reversible -- which reduces numerical gradient errors to almost zero, improving several test metrics by substantial margins over state-of-the-art. Moreover it requires half as many function evaluations as comparable solvers, giving up to a $1.98\times$ speedup. Next, we introduce the Brownian interval. This is a new and computationally efficient way of exactly sampling and reconstructing Brownian motion; this is in contrast to previous reconstruction techniques that are both approximate and relatively slow. This gives up to a $10.6\times$ speed improvement over previous techniques. After that, when specifically training Neural SDEs as GANs (Kidger et al. 2021), we demonstrate how SDE-GANs may be trained through careful weight clipping and choice of activation function. This reduces computational cost (giving up to a $1.87\times$ speedup), and removes the truncation errors of the double adjoint required for gradient penalty, substantially improving several test metrics. Altogether these techniques offer substantial improvements over the state-of-the-art.
翻訳日:2021-05-31 13:56:06 公開日:2021-05-27
# オープンワールド機械学習: アプリケーション、挑戦、機会

Open-world Machine Learning: Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2105.13448v1 )

ライセンス: Link先を確認
Jitendra Parmar, Satyendra Singh Chouhan and Santosh Singh Rathore(参考訳) 従来の機械学習、特に教師付き学習は、クローズドワールド学習の仮定に従っている。 しかし、このような機械学習モデルは、トレーニング中に使用できなかったクラスを識別できない。 これらのクラスをunseenクラスと呼ぶことができる。 一方、オープンワールド機械学習は、機械学習システムに対する任意の入力(未認識のクラスを含むデータ)を扱う。 さらに、従来の機械学習は、視点とソース、および/またはデータ量が急速に変化するアクティブな環境には適さない静的学習である。 本稿では,まず,実世界の文脈を重視したオープンワールド学習の概要について述べる。 次に,オープンワールド学習の異なる次元を考察し,考察する。 オープンワールド学習の分野は、この10年だけで研究コミュニティの注目を集めた。 私たちは、さまざまなオンラインデジタルライブラリを検索し、過去10年間に行われた作業を調査しました。 本稿では,オープンワールド機械学習のための様々な手法を体系的に検討する。 また、オープンワールド学習における研究のギャップ、課題、そして今後の方向性を示す。 本稿では,オープンワールド学習の包括的発展と,研究を適切な領域に広げる可能性の理解を支援する。 さらに、適用可能な方法論やデータセットの選択にも役立ちます。

Traditional machine learning especially supervised learning follows the assumptions of closed-world learning i.e., for each testing class a training class is available. However, such machine learning models fail to identify the classes which were not available during training time. These classes can be referred to as unseen classes. Whereas, open-world machine learning deals with arbitrary inputs (data with unseen classes) to machine learning systems. Moreover, traditional machine learning is static learning which is not appropriate for an active environment where the perspective and sources, and/or volume of data are changing rapidly. In this paper, first, we present an overview of open-world learning with importance to the real-world context. Next, different dimensions of open-world learning are explored and discussed. The area of open-world learning gained the attention of the research community in the last decade only. We have searched through different online digital libraries and scrutinized the work done in the last decade. This paper presents a systematic review of various techniques for open-world machine learning. It also presents the research gaps, challenges, and future directions in open-world learning. This paper will help researchers to understand the comprehensive developments of open-world learning and the likelihoods to extend the research in suitable areas. It will also help to select applicable methodologies and datasets to explore this further.
翻訳日:2021-05-31 13:50:58 公開日:2021-05-27
# 半スーパービジョンオートエンコーダを用いた故障データの分類と不確かさの定量化

Classification and Uncertainty Quantification of Corrupted Data using Semi-Supervised Autoencoders ( http://arxiv.org/abs/2105.13393v1 )

ライセンス: Link先を確認
Philipp Joppich, Sebastian Dorn, Oliver De Candido, Wolfgang Utschick, Jakob Knollm\"uller(参考訳) パラメトリックおよび非パラメトリックな分類器は、ノイズ、オクルージョン、ぼやけなどの腐敗が大きな課題となる現実世界のデータを扱う必要がある。 モデルが非破壊的なデータでのみ訓練されているにもかかわらず、強い破損したデータを分類し、不確実性を定量化する確率論的アプローチを提案する。 破損しないデータに基づいてトレーニングされた半教師付きオートエンコーダが基盤となるアーキテクチャである。 復号部を実データ生成モデルとして用い,畳み込み,マスキング,付加ガウス雑音を用いて不完全性を記述する。 これは、基礎となる未崩壊ダタムの最適潜時空間活性化の観点からの統計的推測タスクを構成する。 この問題は、Metric Gaussian Variational Inference (MGVI) を用いて解決する。 オートエンコーダの潜在空間の監督は、統計的に推定された潜在空間の活性化と不確実性の下で、腐敗したデータを直接分類することを可能にする。 さらに, モデルの不確かさは, 分類が正しいか間違っているかに大きく依存し, 分類の統計的「lie検出器」の基礎を定めている。 それとは独立に、生成モデルは、推定された潜在空間の活性化を復号することにより、未分解のデームを最適に復元できることを示す。

Parametric and non-parametric classifiers often have to deal with real-world data, where corruptions like noise, occlusions, and blur are unavoidable - posing significant challenges. We present a probabilistic approach to classify strongly corrupted data and quantify uncertainty, despite the model only having been trained with uncorrupted data. A semi-supervised autoencoder trained on uncorrupted data is the underlying architecture. We use the decoding part as a generative model for realistic data and extend it by convolutions, masking, and additive Gaussian noise to describe imperfections. This constitutes a statistical inference task in terms of the optimal latent space activations of the underlying uncorrupted datum. We solve this problem approximately with Metric Gaussian Variational Inference (MGVI). The supervision of the autoencoder's latent space allows us to classify corrupted data directly under uncertainty with the statistically inferred latent space activations. Furthermore, we demonstrate that the model uncertainty strongly depends on whether the classification is correct or wrong, setting a basis for a statistical "lie detector" of the classification. Independent of that, we show that the generative model can optimally restore the uncorrupted datum by decoding the inferred latent space activations.
翻訳日:2021-05-31 13:49:14 公開日:2021-05-27
# オブジェクト検出器の教師なしドメイン適応:サーベイ

Unsupervised Domain Adaption of Object Detectors: A Survey ( http://arxiv.org/abs/2105.13502v1 )

ライセンス: Link先を確認
Poojan Oza, Vishwanath A. Sindagi, Vibashan VS, Vishal M. Patel(参考訳) 近年のディープラーニングの進歩は、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出など、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。 しかし、高精度なモデルの学習は、大量の注釈付き画像を含むデータセットの可用性に依存している。 このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。 この問題は一般的に、共変量シフトまたはデータセットバイアスと呼ばれる。 ドメイン適応は、ラベルスカースターゲットデータセットの分類器を学習する際に、関連するドメイン内のラベル付きデータからドメインシフト特性を活用することでこの問題に対処しようとする。 オブジェクト分類とセマンティックセグメンテーションモデルを、教師なしドメイン適応を通じてラベル/スカースターゲットデータセットに適応させる作業は数多く存在する。 オブジェクト検出がコンピュータビジョンの基本的なタスクであることを考えると、最近の多くの研究は、最近オブジェクト検出のドメイン適応問題にも焦点を当てている。 本稿では,オブジェクト検出のための領域適応問題の簡単な紹介と,この問題に対処するために提案されている様々な手法の概要を紹介する。 さらに,この問題に対して提案する戦略と,それに伴う欠点を浮き彫りにする。 次に,この分野の将来研究に最も有望な教師なし領域適応検出問題の複数の側面を明らかにする。 この調査は、コンピュータビジョン、バイオメトリックス、医療画像、自律ナビゲーションの分野で働くパターン認識の専門家にとって、問題にそれらを導入し、進捗状況に精通させ、将来の研究に有望な方向性を提供することにより、有用であると信じている。

Recent advances in deep learning have led to the development of accurate and efficient models for various computer vision applications such as object classification, semantic segmentation, and object detection. However, learning highly accurate models relies on the availability of datasets with a large number of annotated images. Due to this, model performance drops drastically when evaluated on label-scarce datasets having visually distinct images. This issue is commonly referred to as covariate shift or dataset bias. Domain adaptation attempts to address this problem by leveraging domain shift characteristics from labeled data in a related domain when learning a classifier for label-scarce target dataset. There are a plethora of works to adapt object classification and semantic segmentation models to label-scarce target dataset through unsupervised domain adaptation. Considering that object detection is a fundamental task in computer vision, many recent works have recently focused on addressing the domain adaptation issue for object detection as well. In this paper, we provide a brief introduction to the domain adaptation problem for object detection and present an overview of various methods proposed to date for addressing this problem. Furthermore, we highlight strategies proposed for this problem and the associated shortcomings. Subsequently, we identify multiple aspects of the unsupervised domain adaptive detection problem that are most promising for future research in the area. We believe that this survey shall be valuable to the pattern recognition experts working in the fields of computer vision, biometrics, medical imaging, and autonomous navigation by introducing them to the problem, getting them familiar with the current status of the progress, and providing them with promising direction for future research.
翻訳日:2021-05-31 13:48:53 公開日:2021-05-27
# 爆発対注意:オフライン学習におけるリスク感応的政策

Exploitation vs Caution: Risk-sensitive Policies for Offline Learning ( http://arxiv.org/abs/2105.13431v1 )

ライセンス: Link先を確認
Giorgio Angelotti, Nicolas Drougard, Caroline Ponzoni Carvalho Chanel(参考訳) 計画のためのオフラインモデル学習は、エージェントが以前に収集された経験の固定バッチを使用して未知の環境でアクションを実行するように訓練する機械学習の分野である。 データセットの限られたサイズは、相対マルコフ決定プロセス(MDP)の値関数の推定を妨げ、実世界で得られたポリシーのパフォーマンスを制限します。 この文脈において、近年の研究では、評価フェーズで使用するものよりも割引率の低いプランニングが、よりパフォーマンスの高いポリシーをもたらすことが示されている。 しかし、最適割引係数はクロスバリデーションによって最終的に選択される。 当社の目標は,ベイズmdpの下位最適化ソリューションを探すことで,オフライン環境で動作している現在のベースラインに対して,パフォーマンスが向上する可能性を示すことです。 そこで我々は,リスクに敏感なベイズ型MDPを,異なる割引係数と遷移ダイナミクスを特徴とする複数のMDPを解くことで得られる一連のポリシーで自動的に選択するアルゴリズムであるExpploitation vs Caution (EvC)を提案する。 一方、ベイズ形式はモデルの不確かさをエレガントに含み、一方、リスクに敏感なユーティリティ関数の導入は堅牢性を保証する。 提案手法を多種多様なMDPクラスを提供する離散的単純環境下で評価した。 また,MOPO や MOReL などの計画ベースラインに対する最先端のオフライン学習と比較した。 テストシナリオでは、EvCは、モデル不確実性の下で計画するための健全な枠組みを定義するために、オフラインリスクに敏感なベイズ MDP (ORBMDP) をサブ最適に解くことを示唆するアプローチよりも堅牢である。

Offline model learning for planning is a branch of machine learning that trains agents to perform actions in an unknown environment using a fixed batch of previously collected experiences. The limited size of the data set hinders the estimate of the Value function of the relative Markov Decision Process (MDP), bounding the performance of the obtained policy in the real world. In this context, recent works showed that planning with a discount factor lower than the one used during the evaluation phase yields more performing policies. However, the optimal discount factor is finally chosen by cross-validation. Our aim is to show that looking for a sub-optimal solution of a Bayesian MDP might lead to better performances with respect to the current baselines that work in the offline setting. Hence, we propose Exploitation vs Caution (EvC), an algorithm that automatically selects the policy that solves a Risk-sensitive Bayesian MDP in a set of policies obtained by solving several MDPs characterized by different discount factors and transition dynamics. On one hand, the Bayesian formalism elegantly includes model uncertainty and on another hand the introduction of a risk-sensitive utility function guarantees robustness. We evaluated the proposed approach in different discrete simple environments offering a fair variety of MDP classes. We also compared the obtained results with state-of-the-art offline learning for planning baselines such as MOPO and MOReL. In the tested scenarios EvC is more robust than the said approaches suggesting that sub-optimally solving an Offline Risk-sensitive Bayesian MDP (ORBMDP) could define a sound framework for planning under model uncertainty.
翻訳日:2021-05-31 13:48:16 公開日:2021-05-27
# リアルタイムライドシェアリングのための学習モデルに基づく配車決定--学習と最適化のハイブリッド化

Learning Model-Based Vehicle-Relocation Decisions for Real-Time Ride-Sharing: Hybridizing Learning and Optimization ( http://arxiv.org/abs/2105.13461v1 )

ライセンス: Link先を確認
Enpeng Yuan, Pascal Van Hentenryck(参考訳) 大規模なライドシェアリングシステムは、リアルタイムのディスパッチと経路最適化を、需要を予測するためにアイドル車両を移動させるモデル予測制御(mpc)コンポーネントと組み合わせている。 mpc最適化は、リアルタイムディスパッチの固有ミオピックな性質を補うために、より長い時間軸で動作します。 これらの長い時間軸は、決定の質には有益であるが、計算の複雑さは増大する。 この計算課題に対処するために,機械学習と最適化を組み合わせたハイブリッドアプローチを提案する。 機械学習コンポーネントは、集約レベルにおけるMPC最適化の最適解を学び、MPCソリューションの空間性と高次元性を克服する。 最適化コンポーネントは、抽出可能な輸送モデルを介して、機械学習予測を元の粒度に戻す。 その結果、元のNPハードMPC問題は多項式時間予測と最適化に還元される。 実験の結果,このハイブリッド手法は,計算限界内で長い時間軸をモデル化できることから,mpc最適化よりもライダー待ち時間を27%削減できることがわかった。

Large-scale ride-sharing systems combine real-time dispatching and routing optimization over a rolling time horizon with a model predictive control(MPC) component that relocates idle vehicles to anticipate the demand. The MPC optimization operates over a longer time horizon to compensate for the inherent myopic nature of the real-time dispatching. These longer time horizons are beneficial for the quality of the decisions but increase computational complexity. To address this computational challenge, this paper proposes a hybrid approach that combines machine learning and optimization. The machine-learning component learns the optimal solution to the MPC optimization on the aggregated level to overcome the sparsity and high-dimensionality of the MPC solutions. The optimization component transforms the machine-learning predictions back to the original granularity via a tractable transportation model. As a consequence, the original NP-hard MPC problem is reduced to a polynomial time prediction and optimization. Experimental results show that the hybrid approach achieves 27% further reduction in rider waiting time than the MPC optimization, thanks to its ability to model a longer time horizon within the computational limits.
翻訳日:2021-05-31 13:47:48 公開日:2021-05-27
# Dyadic CARTによる格子分割回復

Lattice partition recovery with dyadic CART ( http://arxiv.org/abs/2105.13504v1 )

ライセンス: Link先を確認
Oscar Hernan Madrid Padilla, Yi Yu, Alessandro Rinaldo(参考訳) 我々は,d$次元格子上のガウス雑音により分解された断片的定数信号について検討する。 この形式のデータは、自然に多くのアプリケーションで発生し、信号検出やテスト、脱ノイズ、推定のタスクは、統計学や信号処理の文献で広く研究されている。 本稿では, 分割回復問題, すなわち, 未知信号の連続領域によって誘導される格子の分割を, \citep{donoho 1997cart} が提唱した計算効率の良いダイアディック分類と回帰木(DCART)手法を用いて推定する。 We prove that, under appropriate regularity conditions on the shape of the partition elements, a DCART-based procedure consistently estimates the underlying partition at a rate of order $\sigma^2 k^* \log (N)/\kappa^2$, where $k^*$ is the minimal number of rectangular sub-graphs obtained using recursive dyadic partitions supporting the signal partition, $\sigma^2$ is the noise variance, $\kappa$ is the minimal magnitude of the signal difference among contiguous elements of the partition and $N$ is the size of the lattice. さらに、より強い仮定の下では、最小値が最適であることを示すk^*$とは独立に、位数$\sigma^2\log(N)/\kappa^2$のよりシャープな推定誤差が得られる。 この理論的な保証は, <cite{chatterjee2019adapti ve} の最適回帰木推定器 (ort) とnp-hard exhaustive search 法による分割推定器 (partition estimator) にさらに拡張される。 シミュレーションにおける分割回復におけるDCARTの有効性と理論的知見の相関について検討した。

We study piece-wise constant signals corrupted by additive Gaussian noise over a $d$-dimensional lattice. Data of this form naturally arise in a host of applications, and the tasks of signal detection or testing, de-noising and estimation have been studied extensively in the statistical and signal processing literature. In this paper we consider instead the problem of partition recovery, i.e.~of estimating the partition of the lattice induced by the constancy regions of the unknown signal, using the computationally-effi cient dyadic classification and regression tree (DCART) methodology proposed by \citep{donoho1997cart}. We prove that, under appropriate regularity conditions on the shape of the partition elements, a DCART-based procedure consistently estimates the underlying partition at a rate of order $\sigma^2 k^* \log (N)/\kappa^2$, where $k^*$ is the minimal number of rectangular sub-graphs obtained using recursive dyadic partitions supporting the signal partition, $\sigma^2$ is the noise variance, $\kappa$ is the minimal magnitude of the signal difference among contiguous elements of the partition and $N$ is the size of the lattice. Furthermore, under stronger assumptions, our method attains a sharper estimation error of order $\sigma^2\log(N)/\kappa^2$, independent of $ k^*$, which we show to be minimax rate optimal. Our theoretical guarantees further extend to the partition estimator based on the optimal regression tree estimator (ORT) of \cite{chatterjee2019adapti ve} and to the one obtained through an NP-hard exhaustive search method. We corroborate our theoretical findings and the effectiveness of DCART for partition recovery in simulations.
翻訳日:2021-05-31 13:46:57 公開日:2021-05-27
# 時空間的注意を伴う脳コネクトームの動的グラフ表現の学習

Learning Dynamic Graph Representation of Brain Connectome with Spatio-Temporal Attention ( http://arxiv.org/abs/2105.13495v1 )

ライセンス: Link先を確認
Byung-Hoon Kim, Jong Chul Ye, Jae-Jin Kim(参考訳) 脳の領域間の機能的接続(FC)は、機能的ニューロイメージングによる時間的相関度によって評価することができる。 これらのコネクティビティがネットワークを構築するという事実に基づいて、脳コネクティビティを解析するためのグラフベースのアプローチは、人間の脳の機能に関する洞察を提供する。 グラフ構造化データから表現を学習できるグラフニューラルネットワーク(GNN)の開発により、脳コネクトームのグラフ表現の学習への関心が高まっている。 FCネットワークにGNNを適用しようとする最近の試みは有望な結果を示しているが、通常は時間とともに変動するFCネットワークの動的特性を取り入れないという一般的な制限がある。 さらに、GNNの入力として動的FCを使用しようとするいくつかの研究は、静的FC法と比較して性能の低下を報告し、時間的説明性を提供しなかった。 本稿では,脳コネクトームの動的グラフ表現を時空間的注意で学習する方法であるstaginを提案する。 具体的には、脳グラフの時系列シーケンスをスタギンに入力して動的グラフ表現を得る一方、新しい読み出し機能とトランスフォーマエンコーダは、それぞれ注意して空間的及び時間的説明性を提供する。 HCP-RestとHCP-Taskデータセットの実験は,提案手法の優れた性能を示す。 時空間的注意の解析は神経科学知識の同時解釈にも役立ち,本手法をさらに検証する。 コードはhttps://github.com/e gyptdj/staginで入手できる。

Functional connectivity (FC) between regions of the brain can be assessed by the degree of temporal correlation measured with functional neuroimaging modalities. Based on the fact that these connectivities build a network, graph-based approaches for analyzing the brain connectome have provided insights into the functions of the human brain. The development of graph neural networks (GNNs) capable of learning representation from graph structured data has led to increased interest in learning the graph representation of the brain connectome. Although recent attempts to apply GNN to the FC network have shown promising results, there is still a common limitation that they usually do not incorporate the dynamic characteristics of the FC network which fluctuates over time. In addition, a few studies that have attempted to use dynamic FC as an input for the GNN reported a reduction in performance compared to static FC methods, and did not provide temporal explainability. Here, we propose STAGIN, a method for learning dynamic graph representation of the brain connectome with spatio-temporal attention. Specifically, a temporal sequence of brain graphs is input to the STAGIN to obtain the dynamic graph representation, while novel READOUT functions and the Transformer encoder provide spatial and temporal explainability with attention, respectively. Experiments on the HCP-Rest and the HCP-Task datasets demonstrate exceptional performance of our proposed method. Analysis of the spatio-temporal attention also provide concurrent interpretation with the neuroscientific knowledge, which further validates our method. Code is available at https://github.com/e gyptdj/stagin
翻訳日:2021-05-31 13:44:34 公開日:2021-05-27
# オンライン学習は機械翻訳の評価と出会う:人間の最小の努力で最適なシステムを見つける

Online Learning Meets Machine Translation Evaluation: Finding the Best Systems with the Least Human Effort ( http://arxiv.org/abs/2105.13385v1 )

ライセンス: Link先を確認
V\^ania Mendon\c{c}a (1 and 2), Ricardo Rei (1 and 2 and 3), Luisa Coheur (1 and 2), Alberto Sardinha (1 and 2), Ana L\'ucia Santos (4 and 5) ((1) INESC-ID Lisboa, (2) Instituto Superior T\'ecnico, (3) Unbabel AI, (4) Centro de Lingu\'istica da Universidade de Lisboa, (5) Faculdade de Letras da Universidade de Lisboa)(参考訳) 機械翻訳では、大量の自動翻訳の品質を評価することは困難である。 自動メトリクスは、ハイパフォーマンスなシステムに関しては信頼できない。 また,複数のシステムを評価する場合,人的評価を行うには費用がかかる。 後者の課題を克服するために,機械翻訳システムのアンサンブルが与えられた場合,利用可能な人間のフィードバックを生かして,動的に最善のシステムに収束するオンライン学習の新たな応用を提案する。 WMT'19データセットに対する我々の実験は、我々のオンラインアプローチが、多くの翻訳に対する人間のフィードバックの欠如にもかかわらず、考慮された言語ペアの上位3位のシステムに急速に収束していることを示している。

In Machine Translation, assessing the quality of a large amount of automatic translations can be challenging. Automatic metrics are not reliable when it comes to high performing systems. In addition, resorting to human evaluators can be expensive, especially when evaluating multiple systems. To overcome the latter challenge, we propose a novel application of online learning that, given an ensemble of Machine Translation systems, dynamically converges to the best systems, by taking advantage of the human feedback available. Our experiments on WMT'19 datasets show that our online approach quickly converges to the top-3 ranked systems for the language pairs considered, despite the lack of human feedback for many translations.
翻訳日:2021-05-31 13:42:38 公開日:2021-05-27
# 関係性ゲーティングによる"what if"推論

Relational Gating for "What If" Reasoning ( http://arxiv.org/abs/2105.13449v1 )

ライセンス: Link先を確認
Chen Zheng, Parisa Kordjamshidi(参考訳) 本稿では,テキスト上で手続き的推論を行い,"what if..." 質問に答えることの難しさについて述べる。 本稿では,重要なエンティティと関係をフィルタリングし,手続きと質問の両方の文脈的および横断的な表現を学習し,回答を求める新しい関係ゲーティングネットワークを提案する。 リレーショナルゲーティングネットワークには、エンティティゲーティングモジュール、リレーショナルゲーティングモジュール、コンテキストインタラクションモジュールが含まれています。 これらのモジュールは、"What if ..."推論問題の解決に役立つ。 ペア関係のモデル化は、高次関係を捉え、手続き記述における原因と効果の推論の線を見つけるのに役立つ。 提案手法は,WIQAデータセットの最先端結果を実現する。

This paper addresses the challenge of learning to do procedural reasoning over text to answer "What if..." questions. We propose a novel relational gating network that learns to filter the key entities and relationships and learns contextual and cross representations of both procedure and question for finding the answer. Our relational gating network contains an entity gating module, relation gating module, and contextual interaction module. These modules help in solving the "What if..." reasoning problem. We show that modeling pairwise relationships helps to capture higher-order relations and find the line of reasoning for causes and effects in the procedural descriptions. Our proposed approach achieves the state-of-the-art results on the WIQA dataset.
翻訳日:2021-05-31 13:42:27 公開日:2021-05-27
# 知識強化集団推論による共同生体医学的実体と関係抽出

Joint Biomedical Entity and Relation Extraction with Knowledge-Enhanced Collective Inference ( http://arxiv.org/abs/2105.13456v1 )

ライセンス: Link先を確認
Tuan Lai, Heng Ji, ChengXiang Zhai, and Quan Hung Tran(参考訳) 一般的なニュースドメインと比較して、バイオメディカルテキストからの情報抽出(IE)はより広範なドメイン知識を必要とする。 しかし、以前のieメソッドの多くは推論中に外部の知識を使用しない。 生物医学出版物の指数関数的な成長のため、固定されたパラメータセットを超えないモデルは遅れる可能性が高い。 そこで我々は,KECI (Knowledge-Enhanced Collective Inference, 知識強化型集団推論) という,共同エンティティと関係抽出のための外部知識を活用した新しい枠組みを提案する。 入力テキストが与えられると、keciはまずテキストの最初の理解を表す初期スパングラフを構築する。 その後、エンティティリンカを使用して、テキストで言及されているエンティティの関連する背景知識を含む知識グラフを形成する。 最終的な予測を行うため、KECIは注意機構を用いて初期スパングラフと知識グラフをより洗練されたグラフに融合する。 KECIは、グローバルリレーショナル情報をグラフ畳み込みネットワークを用いて局所表現に統合することで、参照スパンをエンティティにリンクする集合的なアプローチをとる。 実験の結果,BioRelEx(結合相互作用検出)とADE(逆薬物イベント抽出)の2つのベンチマークデータセットにおいて,このフレームワークは高い有効性を示した。 例えば、KECIはBioRelExエンティティと関係抽出タスクの最先端よりもF1スコアの4.59%と4.91%の絶対的な改善を実現している。

Compared to the general news domain, information extraction (IE) from biomedical text requires much broader domain knowledge. However, many previous IE methods do not utilize any external knowledge during inference. Due to the exponential growth of biomedical publications, models that do not go beyond their fixed set of parameters will likely fall behind. Inspired by how humans look up relevant information to comprehend a scientific text, we present a novel framework that utilizes external knowledge for joint entity and relation extraction named KECI (Knowledge-Enhanced Collective Inference). Given an input text, KECI first constructs an initial span graph representing its initial understanding of the text. It then uses an entity linker to form a knowledge graph containing relevant background knowledge for the the entity mentions in the text. To make the final predictions, KECI fuses the initial span graph and the knowledge graph into a more refined graph using an attention mechanism. KECI takes a collective approach to link mention spans to entities by integrating global relational information into local representations using graph convolutional networks. Our experimental results show that the framework is highly effective, achieving new state-of-the-art results in two different benchmark datasets: BioRelEx (binding interaction detection) and ADE (adverse drug event extraction). For example, KECI achieves absolute improvements of 4.59% and 4.91% in F1 scores over the state-of-the-art on the BioRelEx entity and relation extraction tasks.
翻訳日:2021-05-31 13:42:15 公開日:2021-05-27
# 文脈的単語表現を用いた意味フレーム誘導のための動詞センスクラスタリング

Verb Sense Clustering using Contextualized Word Representations for Semantic Frame Induction ( http://arxiv.org/abs/2105.13465v1 )

ライセンス: Link先を確認
Kosuke Yamada, Ryohei Sasano, Koichi Takeda(参考訳) 文脈化された単語表現は様々な自然言語処理タスクに有用であることが証明されている。 しかし、これらの表現が、述語に関連する引数のセマンティックロールを規定するセマンティックフレームのような手書きの意味情報をどの程度カバーできるかは、まだ不明である。 本稿では,文脈によって異なるフレームを喚起する動詞に着目し,文脈化された単語表現が同一動詞が発するフレームの違いをどのように認識できるかを検討する。 また,セマンティクスフレーム誘導に適した表現形式についても検討する。 実験では,フレームセマンティックな2つのリソースであるFrameNetとPropBankについて,文脈表現の異なる7つの単語表現を比較した。 いくつかの文脈化語表現,特にBERTとその変種が意味的フレーム帰納に有意義であることを示す。 さらに,動詞の文脈化表現が,動詞が引き起こすフレームの数を推定できる範囲について検討する。

Contextualized word representations have proven useful for various natural language processing tasks. However, it remains unclear to what extent these representations can cover hand-coded semantic information such as semantic frames, which specify the semantic role of the arguments associated with a predicate. In this paper, we focus on verbs that evoke different frames depending on the context, and we investigate how well contextualized word representations can recognize the difference of frames that the same verb evokes. We also explore which types of representation are suitable for semantic frame induction. In our experiments, we compare seven different contextualized word representations for two English frame-semantic resources, FrameNet and PropBank. We demonstrate that several contextualized word representations, especially BERT and its variants, are considerably informative for semantic frame induction. Furthermore, we examine the extent to which the contextualized representation of a verb can estimate the number of frames that the verb can evoke.
翻訳日:2021-05-31 13:41:52 公開日:2021-05-27
# マスク付き単語埋め込みと2ステップクラスタリングを用いた意味フレーム誘導

Semantic Frame Induction using Masked Word Embeddings and Two-Step Clustering ( http://arxiv.org/abs/2105.13466v1 )

ライセンス: Link先を確認
Kosuke Yamada, Ryohei Sasano, Koichi Takeda(参考訳) 近年,文脈型単語埋め込みを用いたクラスタリング手法により,比較的高い性能を実現している。 しかし、これらの手法には潜在的な欠点が2つある: 1つは、フレーム誘発動詞の表層情報に重きを置くこと、もう1つは、同じ動詞のインスタンスを、あまりに多くの異なるフレームクラスタに分割する傾向があることである。 これらの欠点を克服するために,マスキングワード埋め込みと2段階クラスタリングを用いた意味フレーム誘導手法を提案する。 英語のFrameNetデータを用いた実験により, 単語の埋め込みは, フレーム呼出動詞の表面情報への過度な依存を避けるのに有効であり, 2段階のクラスタリングにより, 同一動詞の場合のフレームクラスタ数を改善することができることを示した。

Recent studies on semantic frame induction show that relatively high performance has been achieved by using clustering-based methods with contextualized word embeddings. However, there are two potential drawbacks to these methods: one is that they focus too much on the superficial information of the frame-evoking verb and the other is that they tend to divide the instances of the same verb into too many different frame clusters. To overcome these drawbacks, we propose a semantic frame induction method using masked word embeddings and two-step clustering. Through experiments on the English FrameNet data, we demonstrate that using the masked word embeddings is effective for avoiding too much reliance on the surface information of frame-evoking verbs and that two-step clustering can improve the number of resulting frame clusters for the instances of the same verb.
翻訳日:2021-05-31 13:41:38 公開日:2021-05-27
# BERTを用いた終末応答選択のためのNベスト候補のランク付けにおける言語コーディネーションの活用

Leveraging Linguistic Coordination in Reranking N-Best Candidates For End-to-End Response Selection Using BERT ( http://arxiv.org/abs/2105.13479v1 )

ライセンス: Link先を確認
Mingzhi Yu (1), Diane Litman (1), ((1) University of Pittsburgh)(参考訳) 検索に基づく対話システムは,多くの候補から最適な応答を選択する。 多くの最先端モデルでは対話応答選択タスクにおいて有望な性能を示しているが、R@1とR@10のパフォーマンスの間にはまだかなりのギャップがある。 そこで本研究では,従来の言語モデルであるBERTのNベスト候補を再現するために,言語コーディネート(会話において個人が類似の言語行動を開発する傾向にある現象)を活用することを提案する。 以上の結果から,BERTベースラインに比べてR@1が向上し,言語理論を応用した機械出力の修復の有用性が示された。

Retrieval-based dialogue systems select the best response from many candidates. Although many state-of-the-art models have shown promising performance in dialogue response selection tasks, there is still quite a gap between R@1 and R@10 performance. To address this, we propose to leverage linguistic coordination (a phenomenon that individuals tend to develop similar linguistic behaviors in conversation) to rerank the N-best candidates produced by BERT, a state-of-the-art pre-trained language model. Our results show an improvement in R@1 compared to BERT baselines, demonstrating the utility of repairing machine-generated outputs by leveraging a linguistic theory.
翻訳日:2021-05-31 13:41:21 公開日:2021-05-27
# タスク指向意味解析におけるトランスフォーマーの診断

Diagnosing Transformers in Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2105.13496v1 )

ライセンス: Link先を確認
Shrey Desai and Ahmed Aly(参考訳) 現代のタスク指向セマンティックパーシングアプローチでは、テキストの発話をインテントとスロットで構成されるセマンティックフレームにマッピングするために、Seq2seq変換を用いるのが一般的である。 これらのモデルは経験的に強いが、その特異な強みと弱みはほとんど未解明のままである。 本研究では,単言語と多言語の両方において,最先端のパーサであるbartとxlm-rについて検討した。 トランスフォーマーベースのパーサーは、曖昧な意図やスロットだけでなく、構文的に有意なフレームの生成にも苦労する。 構文的帰納的バイアスを持つimbuesトランスフォーマーの事前学習では,発話スパンをフレームにコピーする曖昧さがしばしば木の無効性につながり,スパン抽出が現在のパーサーにとって大きなボトルネックであることを示している。 しかし、銀のライニングとして、トランスフォーマーベースのパーサーは、フレームが正しいか間違っているかを示す十分な指標を与え、プロダクション環境でのデプロイを容易にする。

Modern task-oriented semantic parsing approaches typically use seq2seq transformers to map textual utterances to semantic frames comprised of intents and slots. While these models are empirically strong, their specific strengths and weaknesses have largely remained unexplored. In this work, we study BART and XLM-R, two state-of-the-art parsers, across both monolingual and multilingual settings. Our experiments yield several key results: transformer-based parsers struggle not only with disambiguating intents/slots, but surprisingly also with producing syntactically-valid frames. Though pre-training imbues transformers with syntactic inductive biases, we find the ambiguity of copying utterance spans into frames often leads to tree invalidity, indicating span extraction is a major bottleneck for current parsers. However, as a silver lining, we show transformer-based parsers give sufficient indicators for whether a frame is likely to be correct or incorrect, making them easier to deploy in production settings.
翻訳日:2021-05-31 13:41:08 公開日:2021-05-27
# FastRIFE:ビデオフレーム補間のためのリアルタイム中間流れ推定の最適化

FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for Video Frame Interpolation ( http://arxiv.org/abs/2105.13482v1 )

ライセンス: Link先を確認
Malwina Kubas and Grzegorz Sarwas(参考訳) 映像フレーム間補間の問題は画像処理の分野において重要な課題である。 円滑な動きを維持しながら、記録のフレーム数を正しく増やすことで、再生されたビデオシーケンスの品質を向上させ、より効率的な圧縮を可能にし、スローモーション記録を作成する。 本稿では,RIFE(Real-Time Intermediate Flow Estimation)モデルの高速化を目的としたFastRIFEアルゴリズムを提案する。 本手法は,最近発表された他のアルゴリズムと比較した。 すべてのソースコードはhttps://gitlab.com/m alwinq/interpolation -of-images-for-slow- motion-videosで入手できる。

The problem of video inter-frame interpolation is an essential task in the field of image processing. Correctly increasing the number of frames in the recording while maintaining smooth movement allows to improve the quality of played video sequence, enables more effective compression and creating a slow-motion recording. This paper proposes the FastRIFE algorithm, which is some speed improvement of the RIFE (Real-Time Intermediate Flow Estimation) model. The novel method was examined and compared with other recently published algorithms. All source codes are available at https://gitlab.com/m alwinq/interpolation -of-images-for-slow- motion-videos
翻訳日:2021-05-31 13:38:17 公開日:2021-05-27
# Hailstorm : IoTアプリケーションのための静的型、純粋関数型言語

Hailstorm : A Statically-Typed, Purely Functional Language for IoT Applications ( http://arxiv.org/abs/2105.13468v1 )

ライセンス: Link先を確認
Abhiroop Sarkar, Mary Sheeran(参考訳) IoT(Internet of Things)の普及に伴い、リソースに制約のあるIoTデバイス上では、C言語のみを使用して、より複雑なロジックがプログラムされている。 C言語は低レベルのメモリ制御を提供するが、高階関数、多型、強い静的型付け、メモリ安全性、自動メモリ管理など、多くのハイレベルなプログラミング抽象化を欠いている。 本稿では,静的型付けされた純粋関数型プログラミング言語であるHailstormについて述べる。 厳格なタイピングの規律を持つハイレベルなプログラミング言語である。 宣言的な方法でIoTデバイスをプログラムするために、高次関数、テール再帰、自動メモリ管理などの機能をサポートする。 これらのデバイス上で動作するアプリケーションは、i/oに大きく支配される傾向がある。 hailstormは、リソースタイプを使用して型システムにおけるlikei/oの副作用を追跡する。 この選択により、命令型シェルに関数型コアを埋め込むのが一般的である領域において、純粋に機能的なスタンドアロン言語の設計を探索できるようになりました。 この言語はarrowized frpのコンビネータを借りているが、離散時間セマンティクスを持っている。 完全なコンビネータの設計は、例によって推進されて進行中である。 これまでのところ、文献(地震検出、鉄道横断システム、その他様々なクロックシステム)から標準的な例を書き、Erlangの生成を通じてGRiSP組み込みシステムボード上でも例を挙げて、Hailstormを評価してきた。

With the growing ubiquity of Internet of Things(IoT), more complex logic is being programmed on resource-constrained IoT devices, almost exclusively using the C programming language. While C provides low-level control over memory, it lacks a number of high-level programming abstractions such as higher-order functions, polymorphism, strong static typing, memory safety, and automatic memory management. We present Hailstorm, a statically-typed, purely functional programming language that attempts to address the above problem. It is a high-level programming language with a strict typing discipline. It supports features like higher-order functions, tail-recursion, and automatic memory management, to program IoT devices in a declarative manner. Applications running on these devices tend to be heavily dominated by I/O. Hailstorm tracks side effects likeI/O in its type system using resource types. This choice allowed us to explore the design of a purely functional standalone language, in an area where it is more common to embed a functional core in an imperative shell. The language borrows the combinators of arrowized FRP, but has discrete-time semantics. The design of the full set of combinators is work in progress, driven by examples. So far, we have evaluated Hailstorm by writing standard examples from the literature (earthquake detection, a railway crossing system and various other clocked systems), and also running examples on the GRiSP embedded systems board, through generation of Erlang.
翻訳日:2021-05-31 13:34:14 公開日:2021-05-27
# グラフ畳み込みネットワークを用いた都市建築エネルギー消費量の時系列予測

Times Series Forecasting for Urban Building Energy Consumption Based on Graph Convolutional Network ( http://arxiv.org/abs/2105.13399v1 )

ライセンス: Link先を確認
Yuqing Hu, Xiaoyuan Cheng, Suhang Wang, Jianli Chen, Tianxiang Zhao, Enyan Dai(参考訳) 世界は都市化が進み、建築産業はアメリカ合衆国におけるエネルギー消費の40%以上を占めている。 都市の持続性を改善するために、多くの都市は既存の建物を改修し、新しいコミュニティを構築することで野心的な省エネルギー戦略を採用している。 この状況において、正確な都市建築エネルギーモデル(ubem)は、エネルギー効率の高いコミュニティの設計を支援する基礎である。 しかしながら、現在のUBEMは、動的および非線形特性のため、建築間依存関係を捕捉する能力に制限がある。 これらのモデルは、これらの建物間の相互依存を無視したり、過度に単純化した。 研究ギャップを埋めるために,太陽系建物間依存性と時空間グラフ畳み込みネットワーク(ST-GCN)アルゴリズムを合成する新しいデータ駆動UBEMを提案する。 特に、アトランタのダウンタウンにある大学キャンパスを、時給エネルギーの消費予測の例として取り上げました。 さらに,ST-GCNモデルと他の一般的な時系列機械学習モデルとの比較により,提案モデルの有効性を検証した。 その結果,ST-GCNモデルは他のモデルよりも優れていた。 加えて、モデルに埋め込まれた物理的知識はよく解釈される。 議論の結果,データ駆動モデルの統合工学や物理知識が都市建築エネルギーシミュレーションを著しく改善できることが判明した。

The world is increasingly urbanizing and the building industry accounts for more than 40% of energy consumption in the United States. To improve urban sustainability, many cities adopt ambitious energy-saving strategies through retrofitting existing buildings and constructing new communities. In this situation, an accurate urban building energy model (UBEM) is the foundation to support the design of energy-efficient communities. However, current UBEM are limited in their abilities to capture the inter-building interdependency due to their dynamic and non-linear characteristics. Those models either ignored or oversimplified these building interdependencies, which can substantially affect the accuracy of urban energy modeling. To fill the research gap, this study proposes a novel data-driven UBEM synthesizing the solar-based building interdependency and spatial-temporal graph convolutional network (ST-GCN) algorithm. Especially, we took a university campus located in downtown Atlanta as an example to predict the hourly energy consumption. Furthermore, we tested the feasibility of the proposed model by comparing the performance of the ST-GCN model with other common time-series machine learning models. The results indicate that the ST-GCN model overall outperforms all others. In addition, the physical knowledge embedded in the model is well interpreted. After discussion, it is found that data-driven models integrated engineering or physical knowledge can significantly improve the urban building energy simulation.
翻訳日:2021-05-31 13:33:52 公開日:2021-05-27
# 量子エンコーダ:回帰問題における高次心性カテゴリーの特徴に対処する

Quantile Encoder: Tackling High Cardinality Categorical Features in Regression Problems ( http://arxiv.org/abs/2105.13783v1 )

ライセンス: Link先を確認
Carlos Mougan, David Masip, Jordi Nin, Oriol Pujol(参考訳) 回帰問題は機械学習の文献で広く研究され、多くの回帰モデルと性能測定結果が得られた。 しかし,回帰問題に分類学的特徴をどのように組み込むかという課題を特に解決するための技術は少ない。 通常、分類的特徴エンコーダは分類問題と回帰問題の両方をカバーするのに十分な一般性を持つ。 この特異性の欠如は、回帰モデルの性能の低下をもたらす。 本稿では,高濃度カテゴリー的特徴の量子化への取り組みについて,詳細な分析を行う。 提案手法は, 従来の統計平均対象エンコーダを含むエンコーダよりも, 平均絶対誤差を考慮した場合, 特に長テール分布や歪分布が存在する場合において優れている。 さらに、サポートが小さいカテゴリがある場合のオーバーフィッティングに対処するために、エンコーダは付加的なスムージングによってメリットを享受します。 最後に、異なる量子量を持つ特徴セットを作成し、エンコードされた値を拡張する方法について述べる。 この拡張エンコーダは、問題のカテゴリ的特徴に関するより情報的な出力を提供し、回帰モデルの性能をさらに向上させる。

Regression problems have been widely studied in machinelearning literature resulting in a plethora of regression models and performance measures. However, there are few techniques specially dedicated to solve the problem of how to incorporate categorical features to regression problems. Usually, categorical feature encoders are general enough to cover both classification and regression problems. This lack of specificity results in underperforming regression models. In this paper,we provide an in-depth analysis of how to tackle high cardinality categor-ical features with the quantile. Our proposal outperforms state-of-the-encoder s, including the traditional statistical mean target encoder, when considering the Mean Absolute Error, especially in the presence of long-tailed or skewed distributions. Besides, to deal with possible overfitting when there are categories with small support, our encoder benefits from additive smoothing. Finally, we describe how to expand the encoded values by creating a set of features with different quantiles. This expanded encoder provides a more informative output about the categorical feature in question, further boosting the performance of the regression model.
翻訳日:2021-05-31 13:31:45 公開日:2021-05-27
# バッチ正規化を伴わないリソース制限デバイスによる全8ビット整数DNNオンライントレーニング

Towards Efficient Full 8-bit Integer DNN Online Training on Resource-limited Devices without Batch Normalization ( http://arxiv.org/abs/2105.13890v1 )

ライセンス: Link先を確認
Yukuan Yang, Xiaowei Chi, Lei Deng, Tianyi Yan, Feng Gao, Guoqi Li(参考訳) 畳み込みとバッチ正規化(BN)によってもたらされる膨大な計算コストは、特にリソース制限されたデバイスにおいて、オンライントレーニングとそれに対応するディープニューラルネットワーク(DNN)の応用に大きな課題を引き起こしている。 既存の作業は畳み込みやbn加速にのみ焦点を合わせており、どちらの問題も満足な性能で解決できない。 オンライントレーニングは、携帯電話のようなリソース制限されたデバイスでは徐々にトレンドになりつつあるが、モデル性能、処理速度、計算コストを許容する完全な技術スキームはいまだに存在しない。 本研究では,固定化初期化とdnnモデル圧縮と高速化のための新しい量子化スキームを組み合わせることで,eoqと呼ばれる効率的なオンライン学習量子化フレームワークを提案する。 提案手法に基づき,大規模DNNにおける完全8ビット整数ネットワークトレーニングとBN除去を実現した。 特に、ウェイト更新は初めて8ビット整数に量子化される。 BNを除去するために固定化初期化を利用するEOQの理論解析は、より弱い仮定を持つ新しいブロック力学等方性理論を用いてさらに研究されている。 合理的量子化戦略とBNの欠如により、EOQに基づく完全な8ビットネットワークは、最先端の精度と計算コストと処理速度の大幅なアドバンテージを達成できる。 さらに、bnに不都合な平方根演算がないため、ディープラーニングチップの設計は大幅に単純化することができる。 さらにEOQは、バッチサンプルが少ない小さなバッチオンライントレーニングにおいて、より有利であることが証明されている。 要約すると、EOQフレームワークは、ネットワークトレーニングにおける高コストの畳み込みとBNを減らすために特別に設計されており、リソース制限デバイスにおけるオンライントレーニングの幅広い応用可能性を示している。

Huge computational costs brought by convolution and batch normalization (BN) have caused great challenges for the online training and corresponding applications of deep neural networks (DNNs), especially in resource-limited devices. Existing works only focus on the convolution or BN acceleration and no solution can alleviate both problems with satisfactory performance. Online training has gradually become a trend in resource-limited devices like mobile phones while there is still no complete technical scheme with acceptable model performance, processing speed, and computational cost. In this research, an efficient online-training quantization framework termed EOQ is proposed by combining Fixup initialization and a novel quantization scheme for DNN model compression and acceleration. Based on the proposed framework, we have successfully realized full 8-bit integer network training and removed BN in large-scale DNNs. Especially, weight updates are quantized to 8-bit integers for the first time. Theoretical analyses of EOQ utilizing Fixup initialization for removing BN have been further given using a novel Block Dynamical Isometry theory with weaker assumptions. Benefiting from rational quantization strategies and the absence of BN, the full 8-bit networks based on EOQ can achieve state-of-the-art accuracy and immense advantages in computational cost and processing speed. What is more, the design of deep learning chips can be profoundly simplified for the absence of unfriendly square root operations in BN. Beyond this, EOQ has been evidenced to be more advantageous in small-batch online training with fewer batch samples. In summary, the EOQ framework is specially designed for reducing the high cost of convolution and BN in network training, demonstrating a broad application prospect of online training in resource-limited devices.
翻訳日:2021-05-31 13:30:49 公開日:2021-05-27
# 全ラベル雑音レベルに普遍的ロバストな学習用分類器

Training Classifiers that are Universally Robust to All Label Noise Levels ( http://arxiv.org/abs/2105.13892v1 )

ライセンス: Link先を確認
Jingyi Xu, Tony Q. S. Quek, Kai Fong Ernest Chong(参考訳) 分類タスクでは、ディープニューラルネットワークはラベルノイズの存在下で過度に適合する傾向がある。 既存の手法ではこの問題を低騒音レベルにおいて緩和することができるが、高い騒音レベル、あるいはラベルノイズが非対称な中雑音レベルにおいても顕著な性能低下が発生する。 あらゆる雑音レベルに対して普遍的に頑健であり,ノイズモデルの変動に敏感でない分類器を訓練するために,新しい肯定的非ラベル学習のサブカテゴリを組み込んだ蒸留ベースフレームワークを提案する。 特に、任意の騒がしいデータセットの小さなサブセットが正しいラベルを持つことが知られていると仮定し、それは「正」として扱われ、残りのノイズのあるサブセットは「ラベルなし」として扱われる。 フレームワークは以下の2つのコンポーネントから構成される。(1) 反復更新により、"ラベルなし"サンプルからフィルタリングされた信頼性の高い"陽性"サンプルを付加した拡張クリーンサブセットを生成し、(2) より大規模な拡張クリーンセットで教師モデルをトレーニングする。 教師モデルのガイダンスを用いて、データセット全体の学生モデルをトレーニングする。 CIFAR-10データセットを用いて、複数のノイズレベルにおける合成ラベルノイズを用いた実験を行った。 その結果,本フレームワークは中~高騒音レベルにおいて概ね優れていた。 また,実際のノイズの多いデータセットであるwears1mのフレームワークを評価し,既存の最先端手法よりも2.94%精度が向上した。

For classification tasks, deep neural networks are prone to overfitting in the presence of label noise. Although existing methods are able to alleviate this problem at low noise levels, they encounter significant performance reduction at high noise levels, or even at medium noise levels when the label noise is asymmetric. To train classifiers that are universally robust to all noise levels, and that are not sensitive to any variation in the noise model, we propose a distillation-based framework that incorporates a new subcategory of Positive-Unlabeled learning. In particular, we shall assume that a small subset of any given noisy dataset is known to have correct labels, which we treat as "positive", while the remaining noisy subset is treated as "unlabeled". Our framework consists of the following two components: (1) We shall generate, via iterative updates, an augmented clean subset with additional reliable "positive" samples filtered from "unlabeled" samples; (2) We shall train a teacher model on this larger augmented clean set. With the guidance of the teacher model, we then train a student model on the whole dataset. Experiments were conducted on the CIFAR-10 dataset with synthetic label noise at multiple noise levels for both symmetric and asymmetric noise. The results show that our framework generally outperforms at medium to high noise levels. We also evaluated our framework on Clothing1M, a real-world noisy dataset, and we achieved 2.94% improvement in accuracy over existing state-of-the-art methods.
翻訳日:2021-05-31 13:30:21 公開日:2021-05-27
# 医学画像解析におけるディープラーニングの最近の進歩と臨床応用

Recent advances and clinical applications of deep learning in medical image analysis ( http://arxiv.org/abs/2105.13381v1 )

ライセンス: Link先を確認
Xuxin Chen, Ximin Wang, Ke Zhang, Roy Zhang, Kar-Ming Fung, Theresa C. Thai, Kathleen Moore, Robert S. Mannel, Hong Liu, Bin Zheng, Yuchen Qiu(参考訳) 深層学習はコンピュータビジョンの主流技術となり、疾患の検出と診断を支援する新しい医用画像処理アルゴリズムの開発に多大な研究関心を集めている。 従来の機械学習技術と比較して、ディープラーニングの大きな利点は、手作りの機能の開発の手間を省きながら、階層型モデルアーキテクチャを通じて、モデルが代表的特徴を自動的に識別し認識できることである。 本稿では,200件以上の論文をレビュー・要約し,様々な医用画像解析タスクにおける深層学習手法の適用について概観する。 特に, 病変分類, セグメンテーション, 検出, 画像登録など, さまざまな応用シナリオに基づいて要約した医用画像における最先端の非教師あり半教師あり深層学習の進歩と貢献を強調した。 さらに、技術的な課題についても議論し、今後の研究で考えられる解決策を提案しました。

Deep learning has become the mainstream technology in computer vision, and it has received extensive research interest in developing new medical image processing algorithms to support disease detection and diagnosis. As compared to conventional machine learning technologies, the major advantage of deep learning is that models can automatically identify and recognize representative features through the hierarchal model architecture, while avoiding the laborious development of hand-crafted features. In this paper, we reviewed and summarized more than 200 recently published papers to provide a comprehensive overview of applying deep learning methods in various medical image analysis tasks. Especially, we emphasize the latest progress and contributions of state-of-the-art unsupervised and semi-supervised deep learning in medical images, which are summarized based on different application scenarios, including lesion classification, segmentation, detection, and image registration. Additionally, we also discussed the major technical challenges and suggested the possible solutions in future research efforts.
翻訳日:2021-05-31 13:29:27 公開日:2021-05-27
# FuSeConv:シストリックアレイ上の高速推論のための完全分離可能な畳み込み

FuSeConv: Fully Separable Convolutions for Fast Inference on Systolic Arrays ( http://arxiv.org/abs/2105.13434v1 )

ライセンス: Link先を確認
Surya Selvam, Vinod Ganesan and Pratyush Kumar(参考訳) 効率的なニューラルネットワークとハードウェアアクセラレータは、エッジデバイスでのdnn推論を高速化するために検討されている。 例えば、MobileNetは深度的に分離可能な畳み込みを使用してレイテンシをはるかに低くする一方、シストリックアレイはワット当たりのパフォーマンスをはるかに高くする。 しかし、これら2つのアイデアの組み合わせは非効率である: 深度的に分離可能な畳み込みの計算パターンはシストリックではなく、シストリックアレイの制約されたデータフローを飽和させるデータ再利用が欠如している。 本稿では,深度的に分離可能な畳み込みの代替としてFuSeConv(Fully-Separ able Convolution)を提案する。 fuseconvは畳み込みの分解を空間次元と深さ次元に沿って分離可能な1次元畳み込みに完全に一般化する。 結果の計算はsystolicで、少し修正されたデータフローを持つsystolic配列を効率的に利用する。 FuSeConvでは、画像Netデータセットに匹敵する精度で、64x64サイズのサイストリックアレイ上で、MobileNetのネットワークファミリで3x-7倍のスピードアップを実現しています。 この高速化は、ハードウェア対応のNeural Operator Search (NOS) の探索を動機付け、Neural Architecture Search (NAS) の継続的な取り組みを補完するものである。

Both efficient neural networks and hardware accelerators are being explored to speed up DNN inference on edge devices. For example, MobileNet uses depthwise separable convolution to achieve much lower latency, while systolic arrays provide much higher performance per watt. Interestingly however, the combination of these two ideas is inefficient: The computational patterns of depth-wise separable convolution are not systolic and lack data reuse to saturate the systolic array's constrained dataflow. In this paper, we propose FuSeConv (Fully-Separable Convolution) as a drop-in replacement for depth-wise separable convolution. FuSeConv generalizes the decomposition of convolutions fully to separable 1D convolutions along spatial and depth dimensions. The resultant computation is systolic and efficiently utilizes the systolic array with a slightly modified dataflow. With FuSeConv, we achieve a significant speed-up of 3x-7x with the MobileNet family of networks on a systolic array of size 64x64, with comparable accuracy on the ImageNet dataset. The high speed-up motivates exploration of hardware-aware Neural Operator Search (NOS) in complement to ongoing efforts on Neural Architecture Search (NAS).
翻訳日:2021-05-31 13:28:23 公開日:2021-05-27
# Avancee-1 Mission and SaDoD Method: LiDARをベースとした光ニューラルネットワークによる宇宙ゴミの原子分解

Avancee-1 Mission and SaDoD Method: LiDAR-based stimulated atomic disintegration of space debris (SaDoD) using Optical Neural Networks ( http://arxiv.org/abs/2105.13485v1 )

ライセンス: Link先を確認
Manuel Ntumba, Saurabh Gore(参考訳) 低軌道(LEO)における衛星の表面劣化は、原子酸素(AO)の影響を受け、宇宙船の軌道パラメータによって異なる。 原子酸素はいくつかの化学反応と物理反応を起こし、高エネルギーで破片の浸食と自己分解を発生させる。 本稿では,光学ニューラルネットワーク(ONN)を用いた宇宙デブリ除去のためのAvancee-1 Missionについて述べる。 SaDoD法は軌道デブリの促進原子分解であり、この場合、LiDAR技術と光ニューラルネットワークを用いて達成されている。 本稿では,画像検出と分類能力の高い光ニューラルネットワークアルゴリズムを提案する。 その結果、地球軌道(GEO)衛星からレーザービームが来ており、高太陽活動が存在する場合、軌道の破片が崩壊する確率が高いことが示された。 本稿では、軌道パラメータと太陽エネルギーレベルによる原子酸素浸食の変動に応じて、LiDARを用いた宇宙ゴミ除去手法を提案する。 その結果、軌道デブリは低い高度と高い温度で最も激しい劣化を受けることが判明した。 GEOの衛星は、レーザービームを送る前に物体検出に光学ニューラルネットワークアルゴリズムを使用している。 SaDoD法は他の技術で実装できるが、特にAvancee-1ミッションでは、LiDAR技術と光ニューラルネットワークアルゴリズムで実装された。

The surface degradation of satellites in Low Earth Orbit (LEO) is affected by Atomic Oxygen (AO) and varies depending on the spacecraft orbital parameters. Atomic oxygen initiates several chemical and physical reactions with materials and produces erosion and self-disintegration of the debris at high energy. This paper discusses Avancee-1 Mission, LiDAR-based space debris removal using Optical Neural Networks (ONN) to optimize debris detection and mission accuracy. The SaDoD Method is a Stimulated Atomic Disintegration of Orbital Debris, which in this case has been achieved using LiDAR technology and Optical Neural Networks. We propose Optical Neural Network algorithms with a high ability of image detection and classification. The results show that orbital debris has a higher chance of disintegration when the laser beam is coming from Geostationary Orbit (GEO) satellites and in the presence of high solar activities. This paper proposes a LiDAR-based space debris removal method depending on the variation of atomic oxygen erosion with orbital parameters and solar energy levels. The results obtained show that orbital debris undergoes the most intense degradation at low altitudes and higher temperatures. The satellites in GEO use Optical Neural Network algorithms for object detection before sending the laser beams to achieve self-disintegration. The SaDoD Method can be implemented with other techniques, but especially for the Avancee-1 Mission, the SaDoD was implemented with LiDAR technologies and Optical Neural Network algorithms.
翻訳日:2021-05-31 13:28:04 公開日:2021-05-27
# 「なぜあなたの番号を信用するのですか。 サッカーにおける期待値の説明可能性について

"Why Would I Trust Your Numbers?" On the Explainability of Expected Values in Soccer ( http://arxiv.org/abs/2105.13778v1 )

ライセンス: Link先を確認
Jan Van Haaren(参考訳) 近年,サッカー選手のパフォーマンスを定量化するための様々なアプローチが提案されている。 選手のパフォーマンスはサッカーの低スコア性のために直接定量化が難しいため、ほとんどの場合、選手の得点に対するボール上のアクションが期待する影響を見積もる。 効果はあるものの、これらのアプローチはサッカーの実践者によって広く受け入れられていない。 サッカー分析コミュニティは、主にモデルの正確性を改善することに重点を置いていますが、生成されたメトリクスの説明可能性はしばしば実践者にとってより重要です。 科学者と実践者のギャップを埋めるために、ショットの期待値を推定する説明可能な一般化付加モデルを導入する。 既存のモデルとは異なり、我々のモデルは広範なサッカーの概念に対応する機能を活用している。 この目的のために、練習者が慣れ親しんだピッチ上の指定ゾーンにショットをファジィに割り当てることで、ショットの位置を表す。 実験により,我々のモデルは既存のモデルと同じくらい正確であり,サッカー実践者には説明し易いことがわかった。

In recent years, many different approaches have been proposed to quantify the performances of soccer players. Since player performances are challenging to quantify directly due to the low-scoring nature of soccer, most approaches estimate the expected impact of the players' on-the-ball actions on the scoreline. While effective, these approaches are yet to be widely embraced by soccer practitioners. The soccer analytics community has primarily focused on improving the accuracy of the models, while the explainability of the produced metrics is often much more important to practitioners. To help bridge the gap between scientists and practitioners, we introduce an explainable Generalized Additive Model that estimates the expected value for shots. Unlike existing models, our model leverages features corresponding to widespread soccer concepts. To this end, we represent the locations of shots by fuzzily assigning the shots to designated zones on the pitch that practitioners are familiar with. Our experimental evaluation shows that our model is as accurate as existing models, while being easier to explain to soccer practitioners.
翻訳日:2021-05-31 13:25:26 公開日:2021-05-27
# AoIの時間変化コスト最適化のためのオンライン学習手法

An Online Learning Approach to Optimizing Time-Varying Costs of AoI ( http://arxiv.org/abs/2105.13383v1 )

ライセンス: Link先を確認
Vishrant Tripathi, Eytan Modiano(参考訳) 遅延情報のコストが未知で、時間的変化があり、おそらくは敵対的な通信ネットワーク上のソースのタイムリーな監視を必要とするシステムを考える。 単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。 複数ソーススケジューリング問題に対して、Follow-the-Perturbed -Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計し、計算可能でありながら、後見の最良の固定スケジューリングポリシーに比べて後悔の少ないことを示す。 このアルゴリズムとその後悔の分析は新規であり、オンラインのレストレスマルチアームバンディット問題の研究には独立した関心がある。 環境の変化が緩やかに変化するときの最良の動的ポリシーと比較して、サブ線形後悔を実現するアルゴリズムをさらに設計する。 最後に、我々のアルゴリズムを移動追跡問題に適用する。 我々は,非定常モビリティモデルと敵対的モビリティモデルについて考察し,オンライン学習アルゴリズムの利用による性能上のメリットを,厳密なスケジューリングポリシーと比較した。

We consider systems that require timely monitoring of sources over a communication network, where the cost of delayed information is unknown, time-varying and possibly adversarial. For the single source monitoring problem, we design algorithms that achieve sublinear regret compared to the best fixed policy in hindsight. For the multiple source scheduling problem, we design a new online learning algorithm called Follow-the-Perturbed -Whittle-Leader and show that it has low regret compared to the best fixed scheduling policy in hindsight, while remaining computationally feasible. The algorithm and its regret analysis are novel and of independent interest to the study of online restless multi-armed bandit problems. We further design algorithms that achieve sublinear regret compared to the best dynamic policy when the environment is slowly varying. Finally, we apply our algorithms to a mobility tracking problem. We consider non-stationary and adversarial mobility models and illustrate the performance benefit of using our online learning algorithms compared to an oblivious scheduling policy.
翻訳日:2021-05-31 13:24:19 公開日:2021-05-27
# オーディオミックス中の音事象検出のための相互参照自己学習ネットワーク

Cross-Referencing Self-Training Network for Sound Event Detection in Audio Mixtures ( http://arxiv.org/abs/2105.13392v1 )

ライセンス: Link先を確認
Sangwook Park, David K. Han, Mounya Elhilali(参考訳) 音響イベント検出は、興味のある音を識別し、連続録音における各音のカテゴリと時間境界の両方を定義することを目的とした、オーディオタグの重要な側面である。 ディープニューラルネットワークの進歩により、コストのかかるデータ収集とラベル付けの努力を犠牲にして、音響イベント検出システムの性能が大幅に向上した。 実際、現在の最先端の手法では、大量のデータサンプルと対応するラベルを活用して、イベントの音声カテゴリとタイムスタンプの識別を容易にする教師付きトレーニング手法を採用している。 そこで本研究では,非教師データから疑似ラベルを生成する半教師方式を提案し,自己学習とクロストレーニングのバランスをとる学生教師方式を提案する。 さらに,ネットワーク予測から音声区間を抽出する後処理について検討し,音事象検出性能のさらなる向上を図る。 提案手法はDCASE2020チャレンジの音響事象検出タスクに基づいて評価される。 DESEDデータベースの「検証」と「公開評価」の双方に関するこれらの手法の結果は、半教師あり学習における最先端技術システムと比較して著しく改善された。

Sound event detection is an important facet of audio tagging that aims to identify sounds of interest and define both the sound category and time boundaries for each sound event in a continuous recording. With advances in deep neural networks, there has been tremendous improvement in the performance of sound event detection systems, although at the expense of costly data collection and labeling efforts. In fact, current state-of-the-art methods employ supervised training methods that leverage large amounts of data samples and corresponding labels in order to facilitate identification of sound category and time stamps of events. As an alternative, the current study proposes a semi-supervised method for generating pseudo-labels from unsupervised data using a student-teacher scheme that balances self-training and cross-training. Additionally, this paper explores post-processing which extracts sound intervals from network prediction, for further improvement in sound event detection performance. The proposed approach is evaluated on sound event detection task for the DCASE2020 challenge. The results of these methods on both "validation" and "public evaluation" sets of DESED database show significant improvement compared to the state-of-the art systems in semi-supervised learning.
翻訳日:2021-05-31 13:24:03 公開日:2021-05-27
# (参考訳) i3dloc:不整合環境にロバストな画像間クロスドメイン局在 [全文訳有]

i3dLoc: Image-to-range Cross-domain Localization Robust to Inconsistent Environmental Conditions ( http://arxiv.org/abs/2105.12883v1 )

ライセンス: CC0 1.0
Peng Yin, Lingyun Xu, Ji Zhang, Sebastian Scherer(参考訳) 本研究では,屋内および屋外シーンにおける点雲マップに対して,単一カメラを位置決めする方法を提案する。 この問題は、局所不変特徴の対応が画像と3Dの領域間で矛盾するためである。 この問題は、照明、天候、季節変化といった様々な環境条件を扱う必要があるため、さらに困難である。 本手法は, クロスドメイン対称位置記述子を抽出し, 等角像を3次元射影と一致させることができる。 我々の重要な洞察は、設計したジェネレーティブ・アドバイサル・ネットワークによる条件関連機能を排除しつつ、限られたデータサンプルから条件不変の3D幾何学的特徴を維持することである。 このような特徴に基づき,さらに球形畳み込みネットワークの設計を行い,視点不変な対称位置記述子を学習する。 提案手法は, 大規模自己コンパイル型データセットにおいて, 外観条件が変化し, 構造/非構造環境が最大2km以上となる, 空間が4フロアに制限された) となる, 自己コンパイル型データセットについて検討した。 本手法は,一貫性のない環境に対して3 倍高い位置検索を実現し,オンラインローカライズにおける3 倍の精度を実現した。 また,提案手法の一般化を強調するために,異なるデータセット間の認識を評価する。 単一のトレーニングモデルにより、i3dLocはランダムな条件下で、信頼できる視覚的ローカライゼーションを示すことができる。

We present a method for localizing a single camera with respect to a point cloud map in indoor and outdoor scenes. The problem is challenging because correspondences of local invariant features are inconsistent across the domains between image and 3D. The problem is even more challenging as the method must handle various environmental conditions such as illumination, weather, and seasonal changes. Our method can match equirectangular images to the 3D range projections by extracting cross-domain symmetric place descriptors. Our key insight is to retain condition-invariant 3D geometry features from limited data samples while eliminating the condition-related features by a designed Generative Adversarial Network. Based on such features, we further design a spherical convolution network to learn viewpoint-invariant symmetric place descriptors. We evaluate our method on extensive self-collected datasets, which involve \textit{Long-term} (variant appearance conditions), \textit{Large-scale} (up to $2km$ structure/unstructur ed environment), and \textit{Multistory} (four-floor confined space). Our method surpasses other current state-of-the-arts by achieving around $3$ times higher place retrievals to inconsistent environments, and above $3$ times accuracy on online localization. To highlight our method's generalization capabilities, we also evaluate the recognition across different datasets. With a single trained model, i3dLoc can demonstrate reliable visual localization in random conditions.
翻訳日:2021-05-29 10:15:18 公開日:2021-05-27
# (参考訳) スパースアノテーションと階層記述子による3次元セグメンテーション学習 [全文訳有]

3D Segmentation Learning from Sparse Annotations and Hierarchical Descriptors ( http://arxiv.org/abs/2105.12885v1 )

ライセンス: CC0 1.0
Peng Yin, Lingyun Xu, Jianmin Ji(参考訳) 3Dセマンティックセグメンテーションの主な障害の1つは、完全に教師されたトレーニングのために高価なポイントワイズアノテーションを生成するのに必要な膨大な労力である。 そこで本研究では,グローバル地域構造と個人選択特性の推論を通じて,分散アノテーションからセグメンテーションを同時に学習する手法であるgidsegを提案する。 GIDSegは、動的エッジ畳み込みネットワークとカーネル化されたID記述子を結合したグローバルおよび個別の関係を描いている。 このアンサンブル効果は、微粒な受容場を低解像度のボキセル化マップに付与することにより得られる。 我々のGIDSegでは,共同特徴分布におけるID記述子の条件制約を強化するために,逆学習モジュールも設計されている。 明快な単純さにもかかわらず,提案手法は,分散アノテーションのみを用いた3次元高密度セグメンテーションの参照において,最先端よりも優れた性能を実現する。 特に、生データの$5\%$アノテーションでは、gidsegは他の3dセグメンテーションメソッドよりも優れている。

One of the main obstacles to 3D semantic segmentation is the significant amount of endeavor required to generate expensive point-wise annotations for fully supervised training. To alleviate manual efforts, we propose GIDSeg, a novel approach that can simultaneously learn segmentation from sparse annotations via reasoning global-regional structures and individual-vicinal properties. GIDSeg depicts global- and individual- relation via a dynamic edge convolution network coupled with a kernelized identity descriptor. The ensemble effects are obtained by endowing a fine-grained receptive field to a low-resolution voxelized map. In our GIDSeg, an adversarial learning module is also designed to further enhance the conditional constraint of identity descriptors within the joint feature distribution. Despite the apparent simplicity, our proposed approach achieves superior performance over state-of-the-art for inferencing 3D dense segmentation with only sparse annotations. Particularly, with $5\%$ annotations of raw data, GIDSeg outperforms other 3D segmentation methods.
翻訳日:2021-05-29 09:55:08 公開日:2021-05-27
# (参考訳) 医療領域におけるシングルターンデータを用いたマルチターンダイアログシステム [全文訳有]

Multi-turn Dialog System on Single-turn Data in Medical Domain ( http://arxiv.org/abs/2105.12887v1 )

ライセンス: CC BY 4.0
Nazib Sorathiya, Chuan-An Lin, Daniel Chen Daniel Xiong, Scott Zin, Yi Zhang, He Sarina Yang, Sharon Xiaolei Huang(参考訳) 近年,対話システムに大きな関心が寄せられている。 この関心は、医学領域におけるダイアログシステムの構築に研究者が力を入れている医療領域の分野でも発展してきた。 本研究は,マルチターンダイアログデータに基づいて訓練されたマルチターンダイアログシステムに焦点をあてる。 専門家によって検証され,信頼できる医療領域において,多面的な会話データを大量に収集することは困難である。 しかしながら、専門家が検証し、マルチターンダイアログシステムを構築するために使用できる情報を持つ、頻繁に聞かれる質問(faq)やシングルターンのqaペアがいくつか存在する。

Recently there has been a huge interest in dialog systems. This interest has also been developed in the field of the medical domain where researchers are focusing on building a dialog system in the medical domain. This research is focused on the multi-turn dialog system trained on the multi-turn dialog data. It is difficult to gather a huge amount of multi-turn conversational data in the medical domain that is verified by professionals and can be trusted. However, there are several frequently asked questions (FAQs) or single-turn QA pairs that have information that is verified by the experts and can be used to build a multi-turn dialog system.
翻訳日:2021-05-29 09:31:51 公開日:2021-05-27
# (参考訳) 因果効果推定のための確率的介入 [全文訳有]

Stochastic Intervention for Causal Effect Estimation ( http://arxiv.org/abs/2105.12898v1 )

ライセンス: CC BY 4.0
Tri Dung Duong, Qian Li, Guandong Xu(参考訳) 因果推論法は、精密医療、最適政策、経済学など様々な意思決定領域に広く適用されている。 これらの応用の中心は介入戦略の処理効果評価である。 現在の推定法は主に決定論的処理に制限されているが、確率的空間的処理方針に対処できない。 さらに, 従来の方法では, 処理効果に基づいた二分決定のみを行うことができ, 決定のプロセスを説明するためのきめ細かい効果推定度を提供する能力が欠如している。 そこで本研究では,新しい確率的プロペンサリティスコアと確率的介入効果推定器(sie)を考案し,確率的介入効果を推定するための因果推論研究を進める。 一方,決定のための因果的証拠の提供を目的として,確率的介入効果(Ge-SIO)に特化した遺伝的アルゴリズムを設計する。 我々は理論解析を行い,提案手法とアルゴリズムが最先端のベースラインと比較して大幅な性能向上を実現することを正当化するための実証研究を行う。

Causal inference methods are widely applied in various decision-making domains such as precision medicine, optimal policy and economics. Central to these applications is the treatment effect estimation of intervention strategies. Current estimation methods are mostly restricted to the deterministic treatment, which however, is unable to address the stochastic space treatment policies. Moreover, previous methods can only make binary yes-or-no decisions based on the treatment effect, lacking the capability of providing fine-grained effect estimation degree to explain the process of decision making. In our study, we therefore advance the causal inference research to estimate stochastic intervention effect by devising a new stochastic propensity score and stochastic intervention effect estimator (SIE). Meanwhile, we design a customized genetic algorithm specific to stochastic intervention effect (Ge-SIO) with the aim of providing causal evidence for decision making. We provide the theoretical analysis and conduct an empirical study to justify that our proposed measures and algorithms can achieve a significant performance lift in comparison with state-of-the-art baselines.
翻訳日:2021-05-29 09:23:13 公開日:2021-05-27
# (参考訳) 対話型感情認識のための非循環グラフネットワーク [全文訳有]

Directed Acyclic Graph Network for Conversational Emotion Recognition ( http://arxiv.org/abs/2105.12907v1 )

ライセンス: CC BY 4.0
Weizhou Shen, Siyue Wu, Yunyi Yang and Xiaojun Quan(参考訳) 会話コンテキストのモデリングは、会話からの感情認識(erc)において重要な役割を果たす。 In this paper, we put forward a novel idea of encoding the utterances with a directed acyclic graph (DAG) to better model the intrinsic structure within a conversation, and design a directed acyclic neural network,~namely DAG-ERC, to implement this idea.~In an attempt to combine the strengths of conventional graph-based neural models and recurrence-based neural models,~DAG-ERC provides a more intuitive way to model the information flow between long-distance conversation background and nearby context.~Extensive experiments are conducted on four ERC benchmarks with state-of-the-art models employed as baselines for comparison.~The empirical results demonstrate the superiority of this new model and confirm the motivation of the directed acyclic graph architecture for ERC.

The modeling of conversational context plays a vital role in emotion recognition from conversation (ERC). In this paper, we put forward a novel idea of encoding the utterances with a directed acyclic graph (DAG) to better model the intrinsic structure within a conversation, and design a directed acyclic neural network,~namely DAG-ERC, to implement this idea.~In an attempt to combine the strengths of conventional graph-based neural models and recurrence-based neural models,~DAG-ERC provides a more intuitive way to model the information flow between long-distance conversation background and nearby context.~Extensive experiments are conducted on four ERC benchmarks with state-of-the-art models employed as baselines for comparison.~The empirical results demonstrate the superiority of this new model and confirm the motivation of the directed acyclic graph architecture for ERC.
翻訳日:2021-05-29 09:04:00 公開日:2021-05-27
# (参考訳) 頂点除去による非周期性及び到達可能性の命題符号化 [全文訳有]

Propositional Encodings of Acyclicity and Reachability by using Vertex Elimination ( http://arxiv.org/abs/2105.12908v1 )

ライセンス: CC BY 4.0
Masood Feyzbakhsh Rankooh, Jussi Rintanen(参考訳) 本稿では,有向グラフを用いた命題式に対する非巡回性とs-t-リーチ可能性制約を符号化する新しい手法を提案する。 これらは頂点除去グラフに基づいており、基礎となるグラフがスパースである場合に適している。 グラフSATのような非巡回性および到達性制約のためのアドホック制約プロパゲータを持つ解法とは対照的に、これらの制約を標準命題句としてエンコードし、SATソルバに直接適用する。 経験的な研究では、我々の手法と効率的なsatソルバは、これらの制約の以前のエンコーディングとグラフsat、特に基礎となるグラフのスパースよりも優れています。

We introduce novel methods for encoding acyclicity and s-t-reachability constraints for propositional formulas with underlying directed graphs. They are based on vertex elimination graphs, which makes them suitable for cases where the underlying graph is sparse. In contrast to solvers with ad hoc constraint propagators for acyclicity and reachability constraints such as GraphSAT, our methods encode these constraints as standard propositional clauses, making them directly applicable with any SAT solver. An empirical study demonstrates that our methods together with an efficient SAT solver can outperform both earlier encodings of these constraints as well as GraphSAT, particularly when underlying graphs are sparse.
翻訳日:2021-05-29 08:44:08 公開日:2021-05-27
# (参考訳) ガウス過程を用いたデコンディショナルダウンスケール [全文訳有]

Deconditional Downscaling with Gaussian Processes ( http://arxiv.org/abs/2105.12909v1 )

ライセンス: CC BY 4.0
Siu Lun Chau, Shahine Bouabid, Dino Sejdinovic(参考訳) 低分解能(LR)空間場を高分解能(HR)情報で精製することは、空間データセットの多様性がしばしば観測の直接マッチングを妨げるため困難である。 しかし、世界規模で観測される媒介変数に関して、LRサンプルをHRサンプルの集合条件としてモデル化する場合、基礎となる細粒度場の回復は条件付き期待値の「逆」、すなわち非条件付き問題とみなすことができる。 本研究では条件付き平均過程(conditional mean process, cmp)について述べる。 CMPを基礎フィールドのドメイン間特徴として扱うことにより、非条件問題の解として潜伏フィールドの後方を確立することができる。 さらに, この解は2段階のベクトル値を持つカーネルリッジレグレッサと見なすことができ, 軽度仮定下でのミニマックス最適収束率を持つことを示した。 最後に,実世界の大気圏ダウンスケーリング問題におけるその熟練度を実証し,既存の手法よりも大幅に改善することを示す。

Refining low-resolution (LR) spatial fields with high-resolution (HR) information is challenging as the diversity of spatial datasets often prevents direct matching of observations. Yet, when LR samples are modeled as aggregate conditional means of HR samples with respect to a mediating variable that is globally observed, the recovery of the underlying fine-grained field can be framed as taking an "inverse" of the conditional expectation, namely a deconditioning problem. In this work, we introduce conditional mean processes (CMP), a new class of Gaussian Processes describing conditional means. By treating CMPs as inter-domain features of the underlying field, a posterior for the latent field can be established as a solution to the deconditioning problem. Furthermore, we show that this solution can be viewed as a two-staged vector-valued kernel ridge regressor and show that it has a minimax optimal convergence rate under mild assumptions. Lastly, we demonstrate its proficiency in a synthetic and a real-world atmospheric field downscaling problem, showing substantial improvements over existing methods.
翻訳日:2021-05-29 08:18:40 公開日:2021-05-27
# (参考訳) 半監督型医用画像分割のための自己構成型コントラスト学習 [全文訳有]

Self-Ensembling Contrastive Learning for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2105.12924v1 )

ライセンス: CC BY 4.0
Jinxi Xiang, Zhuowei Li, Wenji Wang, Qing Xia and Shaoting Zhang(参考訳) 深層学習は、手動ラベルによる十分な量のトレーニングデータを用いて、医用画像のセグメンテーションを著しく改善した。 よく表現されたラベルを取得するには、専門家の知識と徹底的な労働が必要である。 本稿では,自己理解型コントラスト学習技術を用いて,限られたラベルを用いた医用画像セグメンテーションのための半教師付き学習の性能向上を目指す。 そこで本研究では,ラベル付き画像の少ない画像レベルでエンコーダ-デコーダネットワークを訓練することを提案する。 この方法は, クラス内コンパクト性とクラス間分離性を高め, より優れたピクセル分類器を得る。 さらに、オンライン学習のための学生エンコーダと、その指数的な移動平均版である教師エンコーダを考案し、自己学習方式で性能を反復的に改善する。 非ラベル画像を用いたコントラストサンプリングを構築するために, 医用画像間の構造類似性を利用して擬似ラベルを用いた2つのサンプリング手法について検討した。 mriとctセグメンテーションデータセットを広範囲に実験し,制限ラベル設定において,提案手法が最先端の性能を実現することを示す。 さらに,擬似ラベルを用いたコントラッシブサンプルをオンザフライで作成する解剖学的手法により,特徴表現のコントラスト正規化が向上する。

Deep learning has demonstrated significant improvements in medical image segmentation using a sufficiently large amount of training data with manual labels. Acquiring well-representative labels requires expert knowledge and exhaustive labors. In this paper, we aim to boost the performance of semi-supervised learning for medical image segmentation with limited labels using a self-ensembling contrastive learning technique. To this end, we propose to train an encoder-decoder network at image-level with small amounts of labeled images, and more importantly, we learn latent representations directly at feature-level by imposing contrastive loss on unlabeled images. This method strengthens intra-class compactness and inter-class separability, so as to get a better pixel classifier. Moreover, we devise a student encoder for online learning and an exponential moving average version of it, called teacher encoder, to improve the performance iteratively in a self-ensembling manner. To construct contrastive samples with unlabeled images, two sampling strategies that exploit structure similarity across medical images and utilize pseudo-labels for construction, termed region-aware and anatomical-aware contrastive sampling, are investigated. We conduct extensive experiments on an MRI and a CT segmentation dataset and demonstrate that in a limited label setting, the proposed method achieves state-of-the-art performance. Moreover, the anatomical-aware strategy that prepares contrastive samples on-the-fly using pseudo-labels realizes better contrastive regularization on feature representations.
翻訳日:2021-05-29 07:51:25 公開日:2021-05-27
# (参考訳) YOLO5Face:Face Detectorを再発明する理由 [全文訳有]

YOLO5Face: Why Reinventing a Face Detector ( http://arxiv.org/abs/2105.12931v1 )

ライセンス: CC BY 4.0
Delong Qi, Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) 近年,畳み込みニューラルネットワークを用いた顔検出が大きな進歩を遂げている。 多くの顔検出装置は顔検出のために指定された設計を用いるが、顔検出は一般的な物体検出タスクとして扱う。 我々は、YOLOv5オブジェクト検出器に基づく顔検出器を実装し、YOLO5Faceと呼ぶ。 5点のランドマーク回帰ヘッドを追加し、翼損失関数を使用する。 我々は,大規模モデルから,組み込みデバイスやモバイルデバイス上でリアルタイム検出を行うための超小型モデルまで,モデルサイズが異なる検出器を設計した。 widefaceデータセットにおける実験結果は、顔検出器が、より複雑な顔検出器を超える、ほとんどすべての簡単な中堅のサブセットで最先端のパフォーマンスを達成できることを示しています。 コードは \url{https://www.github.c om/deepcam-cn/yolov5 -face} で入手できる。

Tremendous progress has been made on face detection in recent years using convolutional neural networks. While many face detectors use designs designated for the detection of face, we treat face detection as a general object detection task. We implement a face detector based on YOLOv5 object detector and call it YOLO5Face. We add a five-point landmark regression head into it and use the Wing loss function. We design detectors with different model sizes, from a large model to achieve the best performance, to a super small model for real-time detection on an embedded or mobile device. Experiment results on the WiderFace dataset show that our face detectors can achieve state-of-the-art performance in almost all the Easy, Medium, and Hard subsets, exceeding the more complex designated face detectors. The code is available at \url{https://www.github.c om/deepcam-cn/yolov5 -face}.
翻訳日:2021-05-29 07:38:38 公開日:2021-05-27
# (参考訳) コントラストファインチューニングによるニューラルネットワークのロバスト性向上 [全文訳有]

Contrastive Fine-tuning Improves Robustness for Neural Rankers ( http://arxiv.org/abs/2105.12932v1 )

ライセンス: CC BY 4.0
Xiaofei Ma, Cicero Nogueira dos Santos and Andrew O. Arnold(参考訳) 最先端のニューラルランク装置の性能は、ノイズの多い入力に晒されたり、新しい領域に適用されたりすると著しく低下する。 本稿では,ドメイン外データやクエリの摂動に対するロバスト性を大幅に向上させるニューラルランカの微調整手法を提案する。 具体的には、表現空間内のデータポイントを比較するコントラスト損失と、微調整時の標準ランキング損失とを組み合わせる。 関連ラベルを用いて、類似/異種ペアを表現し、異なるクエリとドキュメントのペア間で基礎となるマッチングセマンティクスを学習し、ロバスト性を向上させる。 4つのパッセージランキングデータセットを用いた実験において,提案手法は,bert と bart ベースの両方のランカに対して,クエリの再構成,ノイズの摂動,ゼロショット転送に対するロバスト性を改善した。 さらに,神経ランカのロバスト化において,コントラスト的微調整がデータ拡張よりも優れていることを示した。

The performance of state-of-the-art neural rankers can deteriorate substantially when exposed to noisy inputs or applied to a new domain. In this paper, we present a novel method for fine-tuning neural rankers that can significantly improve their robustness to out-of-domain data and query perturbations. Specifically, a contrastive loss that compares data points in the representation space is combined with the standard ranking loss during fine-tuning. We use relevance labels to denote similar/dissimilar pairs, which allows the model to learn the underlying matching semantics across different query-document pairs and leads to improved robustness. In experiments with four passage ranking datasets, the proposed contrastive fine-tuning method obtains improvements on robustness to query reformulations, noise perturbations, and zero-shot transfer for both BERT and BART based rankers. Additionally, our experiments show that contrastive fine-tuning outperforms data augmentation for robustifying neural rankers.
翻訳日:2021-05-29 07:21:22 公開日:2021-05-27
# (参考訳) イベントQAのためのコーパスレベル評価:2002年のGujarat ViolenceをカバーするIndiaPoliceEventsコーパス [全文訳有]

Corpus-Level Evaluation for Event QA: The IndiaPoliceEvents Corpus Covering the 2002 Gujarat Violence ( http://arxiv.org/abs/2105.12936v1 )

ライセンス: CC BY 4.0
Andrew Halterman, Katherine A. Keith, Sheikh Muhammad Sarwar, Brendan O'Connor(参考訳) 社会科学の応用における自動イベント抽出は、しばしばコーパスレベルの評価を必要とする。 2002年3月、インドのグジャラート州における出来事に関する1257の英英字記事から21,391文を全て紹介し、コーパスレベルの評価要件を現実世界の社会科学的な設定と組み合わせた。 訓練された注釈者は、すべての文書を警察活動イベントの言及のために読み、ラベル付けし、不偏なリコール評価を可能にしました。 構造化されたイベント表現を持つ他のデータセットとは対照的に、自然な質問をすることでアノテーションを収集し、3つの異なるタスク(文の分類、文書のランク付け、ターゲットイベントの時間的集約)の既定モデルを評価する。 自然言語推論とパッセージ検索タスクを微調整したゼロショットbertモデルの基本結果を示す。 提案するコーパスレベルの評価とアノテーションアプローチは, 今後, 同様の社会科学的資源の創造を導くことができる。

Automated event extraction in social science applications often requires corpus-level evaluations: for example, aggregating text predictions across metadata and unbiased estimates of recall. We combine corpus-level evaluation requirements with a real-world, social science setting and introduce the IndiaPoliceEvents corpus--all 21,391 sentences from 1,257 English-language Times of India articles about events in the state of Gujarat during March 2002. Our trained annotators read and label every document for mentions of police activity events, allowing for unbiased recall evaluations. In contrast to other datasets with structured event representations, we gather annotations by posing natural questions, and evaluate off-the-shelf models for three different tasks: sentence classification, document ranking, and temporal aggregation of target events. We present baseline results from zero-shot BERT-based models fine-tuned on natural language inference and passage retrieval tasks. Our novel corpus-level evaluations and annotation approach can guide creation of similar social-science-orien ted resources in the future.
翻訳日:2021-05-29 06:57:45 公開日:2021-05-27
# (参考訳) Intellige: ナラティブな説明のためのユーザファクタモデル説明器 [全文訳有]

Intellige: A User-Facing Model Explainer for Narrative Explanations ( http://arxiv.org/abs/2105.12941v1 )

ライセンス: CC BY 4.0
Jilei Yang, Diana Negoescu, Parvez Ahammad(参考訳) 予測機械学習モデルは解釈可能性に欠けることが多く、予測性能が高いにもかかわらず、モデルエンドユーザーからの信頼は低い。 多くのモデル解釈アプローチは、モデル予測を解釈する上で重要な機能を返すが、これらのトップ機能は、エンドユーザーにとって十分に構成されたり直観的なものではないかもしれない。 本稿では,モデル予測の背後にある理論的根拠を反映した,ユーザの理解可能な解釈と洞察を生成する,ユーザ向けモデル説明器intelligeを提案する。 Intelligeは、マシンラーニングプラットフォームからエンドユーザプラットフォームへのエンドツーエンドパイプラインを構築し、モデル解釈アプローチの実装と物語の洞察のカスタマイズのためのインターフェースを提供する。 Intelligeは、Model Importer、Model Interpreter、Narrative Generator、Narrative Exporterの4つのコンポーネントで構成されるプラットフォームである。 これらのコンポーネントを説明し、LinkedInのユースケースを通じてIntelligeの有効性を実証する。 定量的なパフォーマンス分析は、intelligeのナラティブな洞察が予測モデルのレコメンデーションの採用率の上昇につながり、また、前回のアプローチと比較して収益などの下流の重要指標の増加につながることを示している一方、質的分析はエンドユーザーからのポジティブなフィードバックを示している。

Predictive machine learning models often lack interpretability, resulting in low trust from model end users despite having high predictive performance. While many model interpretation approaches return top important features to help interpret model predictions, these top features may not be well-organized or intuitive to end users, which limits model adoption rates. In this paper, we propose Intellige, a user-facing model explainer that creates user-digestible interpretations and insights reflecting the rationale behind model predictions. Intellige builds an end-to-end pipeline from machine learning platforms to end user platforms, and provides users with an interface for implementing model interpretation approaches and for customizing narrative insights. Intellige is a platform consisting of four components: Model Importer, Model Interpreter, Narrative Generator, and Narrative Exporter. We describe these components, and then demonstrate the effectiveness of Intellige through use cases at LinkedIn. Quantitative performance analyses indicate that Intellige's narrative insights lead to lifts in adoption rates of predictive model recommendations, as well as to increases in downstream key metrics such as revenue when compared to previous approaches, while qualitative analyses indicate positive feedback from end users.
翻訳日:2021-05-29 06:20:25 公開日:2021-05-27
# (参考訳) 逐次決定空間に対するより良い正規化:nash,relationed,tea m equilibriaの高速収束率 [全文訳有]

Better Regularization for Sequential Decision Spaces: Fast Convergence Rates for Nash, Correlated, and Team Equilibria ( http://arxiv.org/abs/2105.12954v1 )

ライセンス: CC BY 4.0
Gabriele Farina, Christian Kroer, Tuomas Sandholm(参考訳) 大規模2プレーヤワイドフォームゲームの計算平衡問題に対する反復的な一階法の適用について検討する。 一階法は通常、プレイヤーの判定セットの距離生成機能として機能する正規化器でインスタンス化されなければならない。 2人プレイのゼロサムゲームの場合、ナッシュ均衡の最先端理論収束率は拡張エントロピー関数を用いて達成される。 本稿では,2プレーヤゼロサムゲームに対する新しいエントロピーベースの距離生成関数を導入し,拡張エントロピーよりもはるかに優れた凸性を実現するとともに,実装が容易な閉形式近位写像も維持することを示す。 広範な数値シミュレーションは、これらの優れた理論特性がより優れた数値性能をもたらすことを示している。 次に、新しいエントロピー距離関数と一般拡張距離関数をスケールド拡張作用素に一般化する。 スケールド拡張演算子は再帰的に凸集合を構成する方法であり、広範な形式のゲームの決定ポリトープと相関とチームの平衡に対応する凸ポリトープを一般化する。 正則化器を用いて一階法をインスタンス化することにより、相関平衡と元アンティー座標のチーム平衡を計算するための最初の加速一階法を開発する。 我々の手法は線形時間近位更新とともに1/T$の収束率を保証する。

We study the application of iterative first-order methods to the problem of computing equilibria of large-scale two-player extensive-form games. First-order methods must typically be instantiated with a regularizer that serves as a distance-generating function for the decision sets of the players. For the case of two-player zero-sum games, the state-of-the-art theoretical convergence rate for Nash equilibrium is achieved by using the dilated entropy function. In this paper, we introduce a new entropy-based distance-generating function for two-player zero-sum games, and show that this function achieves significantly better strong convexity properties than the dilated entropy, while maintaining the same easily-implemented closed-form proximal mapping. Extensive numerical simulations show that these superior theoretical properties translate into better numerical performance as well. We then generalize our new entropy distance function, as well as general dilated distance functions, to the scaled extension operator. The scaled extension operator is a way to recursively construct convex sets, which generalizes the decision polytope of extensive-form games, as well as the convex polytopes corresponding to correlated and team equilibria. By instantiating first-order methods with our regularizers, we develop the first accelerated first-order methods for computing correlated equilibra and ex-ante coordinated team equilibria. Our methods have a guaranteed $1/T$ rate of convergence, along with linear-time proximal updates.
翻訳日:2021-05-29 05:51:59 公開日:2021-05-27
# (参考訳) リアルタイムセマンティックセグメンテーションのための特徴再利用と融合 [全文訳有]

Feature Reuse and Fusion for Real-time Semantic segmentation ( http://arxiv.org/abs/2105.12964v1 )

ライセンス: CC BY 4.0
Tan Sixiang(参考訳) リアルタイムセマンティックセグメンテーションでは、高解像度を維持しながら速度を向上する方法が議論され、解決されてきた問題である。 バックボーン設計とフュージョン設計は、常にリアルタイムセマンティクスセグメンテーションの重要な2つの部分であった。 我々は,従来の設計経験に基づいて軽量ネットワークを設計し,事前学習なしに最先端のリアルタイムセマンティックセマンティックセグメンテーションのレベルに達することを望んでいる。 この目的を達成するために、デコーダネットワークをリアルタイムセグメンテーションタスク用に設計したバックボーンモデルに適用し、アグリゲーションフェーズにおけるセマンティクスと詳細な情報を融合する3つの異なる方法を提案する。 2つのセマンティクスセグメンテーションベンチマークについて広範な実験を行った。 CityscapesとCamVidデータセットの実験では、提案されたRFFNetは、速度計算と精度のバランスをとる。 1枚のRTX 2080Tiカード上で161 FPSの速度で、Cityscapesテストデータセット上で76.4\%の平均接点(mIoU\%)を達成する。 コードはhttps://github.com/f avoMJ/FRFNetで入手できる。

For real-time semantic segmentation, how to increase the speed while maintaining high resolution is a problem that has been discussed and solved. Backbone design and fusion design have always been two essential parts of real-time semantic segmentation. We hope to design a light-weight network based on previous design experience and reach the level of state-of-the-art real-time semantic segmentation without any pre-training. To achieve this goal, a encoder-decoder architectures are proposed to solve this problem by applying a decoder network onto a backbone model designed for real-time segmentation tasks and designed three different ways to fuse semantics and detailed information in the aggregation phase. We have conducted extensive experiments on two semantic segmentation benchmarks. Experiments on the Cityscapes and CamVid datasets show that the proposed FRFNet strikes a balance between speed calculation and accuracy. It achieves 76.4\% Mean Intersection over Union (mIoU\%) on the Cityscapes test dataset with the speed of 161 FPS on a single RTX 2080Ti card. The Code is available at https://github.com/f avoMJ/FRFNet.
翻訳日:2021-05-29 05:09:59 公開日:2021-05-27
# (参考訳) 解答関連性の導入による要約クエリの改善 [全文訳有]

Improve Query Focused Abstractive Summarization by Incorporating Answer Relevance ( http://arxiv.org/abs/2105.12969v1 )

ライセンス: CC BY 4.0
Dan Su, Tiezheng Yu, Pascale Fung(参考訳) query focus summarization(qfs)モデルは、与えられたクエリに答えられるソースドキュメントから要約を生成することを目的としている。 QFSに関するこれまでのほとんどの研究は、要約を生成する際のクエリ関連基準のみを考慮していた。 しかし,要約生成過程における回答の関連性の検討も重要である。 本稿では,質問応答モデルによる質問文の回答関係を明示するモデルであるQFS-BARTを提案し,一貫性と回答関連要約を生成する。 さらに,本モデルでは,要約性能を大幅に向上する大規模事前学習モデルの活用も可能である。 Debatepediaデータセットの実証結果は、提案モデルが新しい最先端のパフォーマンスを達成することを示している。

Query focused summarization (QFS) models aim to generate summaries from source documents that can answer the given query. Most previous work on QFS only considers the query relevance criterion when producing the summary. However, studying the effect of answer relevance in the summary generating process is also important. In this paper, we propose QFS-BART, a model that incorporates the explicit answer relevance of the source documents given the query via a question answering model, to generate coherent and answer-related summaries. Furthermore, our model can take advantage of large pre-trained models which improve the summarization performance significantly. Empirical results on the Debatepedia dataset show that the proposed model achieves the new state-of-the-art performance.
翻訳日:2021-05-29 04:54:20 公開日:2021-05-27
# (参考訳) infonceの再検討: 負のサンプルはいくつ必要か? [全文訳有]

Rethinking InfoNCE: How Many Negative Samples Do You Need? ( http://arxiv.org/abs/2105.13003v1 )

ライセンス: CC BY 4.0
Chuhan Wu, Fangzhao Wu, Yongfeng Huang(参考訳) 情報損失は、コントラストモデルトレーニングで広く使用される損失関数である。 これは、各正の対とその関連する$K$負の対を識別することで、変数のペア間の相互情報を推定することを目的としている。 サンプルラベルがクリーンであれば,より負のサンプルを組み込んだ場合の相互情報推定の上限がより厳しくなり,モデル性能が向上することが証明された。 しかし、実世界の多くのタスクではラベルにはノイズが含まれており、モデルトレーニングにノイズの多い負のサンプルを多用することは最適ではないかもしれない。 本稿では, 半定量的理論フレームワークを用いて, InfoNCE に最適な負サンプル数について検討する。 より具体的には、まず、負サンプリング率$k$がトレーニングサンプル情報量に与える影響を分析する確率モデルを提案する。 そこで本研究では,モデル学習におけるトレーニングサンプルの全体的影響を,その情報性に基づいて測定する訓練効果関数を設計する。 トレーニングの有効性関数を最大化する$K$値を用いて最適負サンプリング比を推定する。 さらに,本フレームワークに基づいて,負サンプリング率を動的に調整し,InfoNCEに基づくモデルトレーニングを改善する適応型負サンプリング手法を提案する。 実世界の異なるデータセットに対する広範囲な実験により,提案手法は異なるタスクにおける最適負サンプリング比を正確に予測でき,提案手法は一般的な固定負サンプリング比戦略よりも優れた性能が得られることを示した。

InfoNCE loss is a widely used loss function for contrastive model training. It aims to estimate the mutual information between a pair of variables by discriminating between each positive pair and its associated $K$ negative pairs. It is proved that when the sample labels are clean, the lower bound of mutual information estimation is tighter when more negative samples are incorporated, which usually yields better model performance. However, in many real-world tasks the labels often contain noise, and incorporating too many noisy negative samples for model training may be suboptimal. In this paper, we study how many negative samples are optimal for InfoNCE in different scenarios via a semi-quantitative theoretical framework. More specifically, we first propose a probabilistic model to analyze the influence of the negative sampling ratio $K$ on training sample informativeness. Then, we design a training effectiveness function to measure the overall influence of training samples on model learning based on their informativeness. We estimate the optimal negative sampling ratio using the $K$ value that maximizes the training effectiveness function. Based on our framework, we further propose an adaptive negative sampling method that can dynamically adjust the negative sampling ratio to improve InfoNCE based model training. Extensive experiments on different real-world datasets show our framework can accurately predict the optimal negative sampling ratio in different tasks, and our proposed adaptive negative sampling method can achieve better performance than the commonly used fixed negative sampling ratio strategy.
翻訳日:2021-05-29 04:40:03 公開日:2021-05-27
# (参考訳) マルチチャネル材料テクスチャの3チャンネル損失への伝達 [全文訳有]

Passing Multi-Channel Material Textures to a 3-Channel Loss ( http://arxiv.org/abs/2105.13012v1 )

ライセンス: CC BY 4.0
Thomas Chambon, Eric Heitz, and Laurent Belcour(参考訳) 本研究の目的は,albedo, normal, roughness, metalness, ambient occlusionなどの物理ベースレンダリングに使用される複数の素材チャネルを用いたテクスチャ生成器のトレーニングに使用できるテクスチャロスを計算することである。 ニューラルネットワークは、事前訓練された畳み込みニューラルネットワークの特徴空間の上に構築されることが多い。 残念なことに、これらの事前訓練されたモデルは3チャンネルのRGBデータでしか利用できないため、このフォーマットでは神経のテクスチャ損失が制限される。 この限界を克服するために、3チャンネルの損失にランダムな三重項を渡すことは、高品質な素材テクスチャを生成するのに使用できるマルチチャネル損失をもたらすことを示した。

Our objective is to compute a textural loss that can be used to train texture generators with multiple material channels typically used for physically based rendering such as albedo, normal, roughness, metalness, ambient occlusion, etc. Neural textural losses often build on top of the feature spaces of pretrained convolutional neural networks. Unfortunately, these pretrained models are only available for 3-channel RGB data and hence limit neural textural losses to this format. To overcome this limitation, we show that passing random triplets to a 3-channel loss provides a multi-channel loss that can be used to generate high-quality material textures.
翻訳日:2021-05-29 04:22:50 公開日:2021-05-27
# (参考訳) 線形バンディットにおけるミニマックス最適腕同定に向けて [全文訳有]

Towards Minimax Optimal Best Arm Identification in Linear Bandits ( http://arxiv.org/abs/2105.13017v1 )

ライセンス: CC BY 4.0
Junwen Yang, Vincent Y. F. Tan(参考訳) 固定予算設定における線形包帯における最適な腕識別の問題について検討する。 g-optimal designの特性を活用し、アーム割り当てルールに組み込むことにより、パラメータフリーな最適設計に基づく線形最良アーム識別(od-linbai)を設計する。 OD-LinBAIの故障確率に関する理論的解析を行った。 既存の方法(例えばベイズガップ)のパフォーマンスはすべての最適性ギャップに依存するが、od-linbai は最上位の$d$ arms のギャップに依存しており、ここで $d$ はリニア・バンディット・インスタンスの有効次元である。 さらに,この問題に対してミニマックス下限を提案する。 上と下の境界は、OD-LinBAI が指数の乗算因子まで極小であることを示している。 最後に,数値実験によって理論的知見が一致した。

We study the problem of best arm identification in linear bandits in the fixed-budget setting. By leveraging properties of the G-optimal design and incorporating it into the arm allocation rule, we design a parameter-free algorithm, Optimal Design-based Linear Best Arm Identification (OD-LinBAI). We provide a theoretical analysis of the failure probability of OD-LinBAI. While the performances of existing methods (e.g., BayesGap) depend on all the optimality gaps, OD-LinBAI depends on the gaps of the top $d$ arms, where $d$ is the effective dimension of the linear bandit instance. Furthermore, we present a minimax lower bound for this problem. The upper and lower bounds show that OD-LinBAI is minimax optimal up to multiplicative factors in the exponent. Finally, numerical experiments corroborate our theoretical findings.
翻訳日:2021-05-29 04:17:48 公開日:2021-05-27
# (参考訳) 神経密度場による不規則小天体の測地:測地ネットワーク

Geodesy of irregular small bodies via neural density fields: geodesyNets ( http://arxiv.org/abs/2105.13031v1 )

ライセンス: CC BY 4.0
Dario Izzo and Pablo G\'omez(参考訳) 本稿では, ニューラルネットワーク, いわゆるジオデシネットをベースとした新しいアプローチを提案するとともに, 身体の最小限の事前情報を用いて, 極めて不規則な天体の正確な測地モデルとして機能する能力を示す。 このアプローチはボディシェイプ情報に依存しないが、利用可能であればそれを活用できる。 GeodesyNetsは、ニューラルネットワークと呼ばれる体密度を表す3次元の微分可能な関数を学習する。 体の形状は、他の測地特性と同様に容易に回収できる。 身長101955ベンヌ,67pチュリュモフ・ゲラシメンコ,433エロス,25143イトカワの6種類の形状を調査し,近接調査で形状モデルが得られた。 不均一質量分布と均質質量分布の両方を考慮する。 トレーニングされた測地線モデルから計算された重力加速度と推定された天体形状は、小惑星表面の1\%よりも小さい予測加速度の相対誤差が全ての場合において高い精度を示す。 体の形に関する情報が得られれば、ジオデシーネットはシームレスにそれを利用でき、身体の内部構造に関する洞察を与えることができる高忠実な神経密度場を表現するように訓練することができる。 本研究は,球面高調波,マスコンモデル,多面体重力に基づく高調波を統合するための強力なツールである。

We present a novel approach based on artificial neural networks, so-called geodesyNets, and present compelling evidence of their ability to serve as accurate geodetic models of highly irregular bodies using minimal prior information on the body. The approach does not rely on the body shape information but, if available, can harness it. GeodesyNets learn a three-dimensional, differentiable, function representing the body density, which we call neural density field. The body shape, as well as other geodetic properties, can easily be recovered. We investigate six different shapes including the bodies 101955 Bennu, 67P Churyumov-Gerasimenk o, 433 Eros and 25143 Itokawa for which shape models developed during close proximity surveys are available. Both heterogeneous and homogeneous mass distributions are considered. The gravitational acceleration computed from the trained geodesyNets models, as well as the inferred body shape, show great accuracy in all cases with a relative error on the predicted acceleration smaller than 1\% even close to the asteroid surface. When the body shape information is available, geodesyNets can seamlessly exploit it and be trained to represent a high-fidelity neural density field able to give insights into the internal structure of the body. This work introduces a new unexplored approach to geodesy, adding a powerful tool to consolidated ones based on spherical harmonics, mascon models and polyhedral gravity.
翻訳日:2021-05-29 03:34:57 公開日:2021-05-27
# (参考訳) 多関節帯域調整による確率勾配MCMC [全文訳有]

Stochastic Gradient MCMC with Multi-Armed Bandit Tuning ( http://arxiv.org/abs/2105.13059v1 )

ライセンス: CC BY 4.0
Jeremie Coullon, Leah South, Christopher Nemeth(参考訳) 確率的勾配マルコフ連鎖モンテカルロ(sgmcmc)はスケーラブルベイズ推定のための一般的なアルゴリズムである。 しかしながら、これらのアルゴリズムは、得られたサンプルに基づいて推定器の精度に影響を与えるステップサイズやバッチサイズなどのハイパーパラメータを含む。 結果として、これらのハイパーパラメータは実践者によってチューニングされなければならず、現在それらをチューニングするための原則と自動化された方法は存在しない。 受け入れ率に基づく標準MCMCチューニング手法は、SGMCMCでは使用できないため、代替ツールや診断が必要である。 sgmcmcハイパーパラメータをチューニングし,kernel stein discrepancy (ksd) を最小化することにより後続近似の精度を最大化するbanditに基づく新しいアルゴリズムを提案する。 このアプローチを支持する理論的結果を提供し、KSDの代替指標を評価する。 シミュレーションと実データの両方で実験を行い,本手法が広範囲の応用分野に適用可能であることを確認した。

Stochastic gradient Markov chain Monte Carlo (SGMCMC) is a popular class of algorithms for scalable Bayesian inference. However, these algorithms include hyperparameters such as step size or batch size that influence the accuracy of estimators based on the obtained samples. As a result, these hyperparameters must be tuned by the practitioner and currently no principled and automated way to tune them exists. Standard MCMC tuning methods based on acceptance rates cannot be used for SGMCMC, thus requiring alternative tools and diagnostics. We propose a novel bandit-based algorithm that tunes SGMCMC hyperparameters to maximize the accuracy of the posterior approximation by minimizing the kernel Stein discrepancy (KSD). We provide theoretical results supporting this approach and assess alternative metrics to KSD. We support our results with experiments on both simulated and real datasets, and find that this method is practical for a wide range of application areas.
翻訳日:2021-05-29 03:33:33 公開日:2021-05-27
# (参考訳) 想像的生成的敵ネットワーク : ダイナミックスケルトンに基づくハンドジェスチャとヒューマンアクション認識のための自動データ拡張 [全文訳有]

The Imaginative Generative Adversarial Network: Automatic Data Augmentation for Dynamic Skeleton-Based Hand Gesture and Human Action Recognition ( http://arxiv.org/abs/2105.13061v1 )

ライセンス: CC BY 4.0
Junxiao Shen and John Dudley and Per Ola Kristensson(参考訳) ディープラーニングのアプローチは、時空間的な人間の動きデータを認識することで最先端のパフォーマンスを提供する。 しかし、これらの認識タスクの主な課題の1つは、利用可能なトレーニングデータに制限があることである。 トレーニングデータ不足は過剰フィッティングを引き起こし、データ拡張はこの課題に対処する1つのアプローチである。 スケーリング、シフト、補間などのトランスフォーメーションのような既存のデータ拡張戦略では、ハイパーパラメータの最適化が必要で、簡単に数百gpu時間かかります。 本稿では,入力データの分布を近似し,その分布から新たなデータをサンプリングする,新たなデータ拡張モデルである想像型生成逆ネットワーク(gan)を提案する。 データ検査やハイパーパラメータチューニングをほとんど必要とせず、そのため、合成データを生成するための低コストで安価なアプローチである。 提案されたデータ拡張戦略はトレーニングが高速であり、合成データは古典的なアプローチで拡張されたデータよりも高い認識精度をもたらす。

Deep learning approaches deliver state-of-the-art performance in recognition of spatiotemporal human motion data. However, one of the main challenges in these recognition tasks is limited available training data. Insufficient training data results in over-fitting and data augmentation is one approach to address this challenge. Existing data augmentation strategies, such as transformations including scaling, shifting and interpolating, require hyperparameter optimization that can easily cost hundreds of GPU hours. In this paper, we present a novel automatic data augmentation model, the Imaginative Generative Adversarial Network (GAN) that approximates the distribution of the input data and samples new data from this distribution. It is automatic in that it requires no data inspection and little hyperparameter tuning and therefore it is a low-cost and low-effort approach to generate synthetic data. The proposed data augmentation strategy is fast to train and the synthetic data leads to higher recognition accuracy than using data augmented with a classical approach.
翻訳日:2021-05-29 03:03:06 公開日:2021-05-27
# (参考訳) 近縁言語のための極低リソース機械翻訳 [全文訳有]

Extremely low-resource machine translation for closely related languages ( http://arxiv.org/abs/2105.13065v1 )

ライセンス: CC BY-SA 4.0
Maali Tars, Andre T\"attar, Mark Fi\v{s}el(参考訳) 非常に低リソースのニューラルマシン翻訳を改善する効果的な方法は、単言語データを活用して、バックトランスレーション法による合成バイリンガルコーパスを作成することで改善できる多言語訓練である。 この研究は、エストニア語とフィンランドの地理的地域であるウラル語族の言語に密接に関連している。 多言語学習と合成コーパスは、データを持つ全ての言語対の翻訳品質を高めることが判明した。 転送学習と微調整は低リソースの機械翻訳に非常に効果的であり、最良の結果が得られることを示す。 我々は,V\~oro,North,South Saamiの並列データを収集し,これらの言語に対するニューラルマシン翻訳の最初の結果を示した。

An effective method to improve extremely low-resource neural machine translation is multilingual training, which can be improved by leveraging monolingual data to create synthetic bilingual corpora using the back-translation method. This work focuses on closely related languages from the Uralic language family: from Estonian and Finnish geographical regions. We find that multilingual learning and synthetic corpora increase the translation quality in every language pair for which we have data. We show that transfer learning and fine-tuning are very effective for doing low-resource machine translation and achieve the best results. We collected new parallel data for V\~oro, North and South Saami and present first results of neural machine translation for these languages.
翻訳日:2021-05-29 02:38:01 公開日:2021-05-27
# (参考訳) transmart: 実用的な対話型機械翻訳システム [全文訳有]

TranSmart: A Practical Interactive Machine Translation System ( http://arxiv.org/abs/2105.13072v1 )

ライセンス: CC BY 4.0
Guoping Huang, Lemao Liu, Xing Wang, Longyue Wang, Huayang Li, Zhaopeng Tu, Chengyan Huang and Shuming Shi(参考訳) 自動機械翻訳は翻訳を行うのに非常に効率的であるが、その品質は保証されていない。 本手法では,翻訳品質と効率をトレードオフできる人間機械対話型翻訳システムであるTranSmartを紹介する。 既存の対話型翻訳システムと比較して、TranSmartは単語レベルのオートコンプリート、文レベルのオートコンプリート、翻訳メモリという3つの重要な機能をサポートしている。 TranSmartは、単語レベルと文レベルの自動補完によって、ユーザーは左から右へ厳格なやり方ではなく、自分のやり方で対話的に単語を翻訳できる。 さらにTranSmartは、歴史の翻訳文をメモリとして使用することで、類似の翻訳ミスを避けることができる。 本稿では,TranSmartの主要な機能,これらの機能を実現するアルゴリズム,TranSmart APIの使用方法,重要な機能の評価結果について述べる。 TranSmartはホームページ(https://transmart.q q.com)で公開されている。

Automatic machine translation is super efficient to produce translations yet their quality is not guaranteed. This technique report introduces TranSmart, a practical human-machine interactive translation system that is able to trade off translation quality and efficiency. Compared to existing publicly available interactive translation systems, TranSmart supports three key features, word-level autocompletion, sentence-level autocompletion and translation memory. By word-level and sentence-level autocompletion, TranSmart allows users to interactively translate words in their own manners rather than the strict manner from left to right. In addition, TranSmart has the potential to avoid similar translation mistakes by using translated sentences in history as its memory. This report presents major functions of TranSmart, algorithms for achieving these functions, how to use the TranSmart APIs, and evaluation results of some key functions. TranSmart is publicly available at its homepage (https://transmart.q q.com).
翻訳日:2021-05-29 02:12:20 公開日:2021-05-27
# (参考訳) 知識蒸留の理解に向けて [全文訳有]

Towards Understanding Knowledge Distillation ( http://arxiv.org/abs/2105.13093v1 )

ライセンス: CC BY 4.0
Mary Phuong, Christoph H. Lampert(参考訳) 知識蒸留(英: knowledge distillation)とは、ある分類器が他の分類器の出力で訓練され、経験的に非常に成功した技術である。 分類器は他の分類器の出力をソフトラベルとしてトレーニングした場合、基底的真理データではなく、より高速かつ確実に学習することが観察されている。 しかし、今のところこの現象の理論的説明は十分ではない。 本研究では, 線形および深部線形分類器の特別な場合を研究することにより, 蒸留の作業機構に関する最初の知見を提供する。 具体的には,蒸留訓練線形分類器の期待リスクを高速に収束させる一般化境界を証明した。 From the bound and its proof we extract three key factors that determine the success of distillation: * data geometry -- geometric properties of the data distribution, in particular class separation, has a direct influence on the convergence speed of the risk; * optimization bias -- gradient descent optimization finds a very favorable minimum of the distillation objective; and * strong monotonicity -the expected risk of the student classifier always decreases when the size of the training set grows.

Knowledge distillation, i.e., one classifier being trained on the outputs of another classifier, is an empirically very successful technique for knowledge transfer between classifiers. It has even been observed that classifiers learn much faster and more reliably if trained with the outputs of another classifier as soft labels, instead of from ground truth data. So far, however, there is no satisfactory theoretical explanation of this phenomenon. In this work, we provide the first insights into the working mechanisms of distillation by studying the special case of linear and deep linear classifiers. Specifically, we prove a generalization bound that establishes fast convergence of the expected risk of a distillation-trained linear classifier. From the bound and its proof we extract three key factors that determine the success of distillation: * data geometry -- geometric properties of the data distribution, in particular class separation, has a direct influence on the convergence speed of the risk; * optimization bias -- gradient descent optimization finds a very favorable minimum of the distillation objective; and * strong monotonicity -- the expected risk of the student classifier always decreases when the size of the training set grows.
翻訳日:2021-05-29 01:28:08 公開日:2021-05-27
# (参考訳) 条件付き生成逆ネットワークを用いたPDEのデータ駆動解とパラメータ推定のためのフレームワーク

A framework for data-driven solution and parameter estimation of PDEs using conditional generative adversarial networks ( http://arxiv.org/abs/2105.13136v1 )

ライセンス: CC BY 4.0
Teeratorn Kadeethum, Daniel O'Malley, Jan Niklas Fuhg, Youngsoo Choi, Jonghyun Lee, Hari S. Viswanathan, Nikolaos Bouklas(参考訳) この研究は、条件付き生成逆数ネットワーク(cGAN)に基づく画像から画像への変換の概念を、偏微分方程式(PDE)の前方および逆解作用素の学習に適用し、適応する最初のものである。 提案手法は,任意のpdesの解に対するサロゲートモデルとして適用することができるが,不均質多孔質媒質中の結合水力機械過程の定常解に着目する。 PDEの係数の不均一性と解の不連続な特徴を変換する強いヘテロジニアスな材料特性は、これらの問題の前方および逆解のための特別な技術を必要とする。 さらに, 空間的不均一係数のパラメトリゼーションは, 標準還元次数モデリング技術を用いることで過度に困難である。 本研究では,画像から画像への変換概念を用いて前方および逆の解演算子を学習し,u-net生成器とパッチベースの判別器を活用することで,これらの課題を克服する。 提案したデータ駆動型縮小順序モデルでは,前処理と逆処理の両問題に対する最先端データ駆動手法と比較して,精度と計算効率の競争性能が向上することを示した。

This work is the first to employ and adapt the image-to-image translation concept based on conditional generative adversarial networks (cGAN) towards learning a forward and an inverse solution operator of partial differential equations (PDEs). Even though the proposed framework could be applied as a surrogate model for the solution of any PDEs, here we focus on steady-state solutions of coupled hydro-mechanical processes in heterogeneous porous media. Strongly heterogeneous material properties, which translate to the heterogeneity of coefficients of the PDEs and discontinuous features in the solutions, require specialized techniques for the forward and inverse solution of these problems. Additionally, parametrization of the spatially heterogeneous coefficients is excessively difficult by using standard reduced order modeling techniques. In this work, we overcome these challenges by employing the image-to-image translation concept to learn the forward and inverse solution operators and utilize a U-Net generator and a patch-based discriminator. Our results show that the proposed data-driven reduced order model has competitive predictive performance capabilities in accuracy and computational efficiency as well as training time requirements compared to state-of-the-art data-driven methods for both forward and inverse problems.
翻訳日:2021-05-29 00:55:06 公開日:2021-05-27
# (参考訳) Liebig's Barrelが顔のランドマーク検出に遭遇:実用モデル [全文訳有]

When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model ( http://arxiv.org/abs/2105.13150v1 )

ライセンス: CC BY 4.0
Haibo Jin, Jinpeng Li, Shengcai Liao, Ling Shao(参考訳) 近年,顔のランドマーク検出の研究において有意な進歩がみられた。 しかしながら、実用的応用のためのモデルについて徹底的に論じられた先行研究はほとんどない。 代わりに、彼らはしばしば、他の問題を無視しながら、一度にいくつかの問題を改善することに焦点を合わせます。 このギャップを埋めるために、我々は、正確で堅牢で、効率的で、一般化可能で、エンドツーエンドで同時にトレーニング可能な実用モデルを探求することを目指している。 そこで本研究では,まず1つのトランスデコーダを検出ヘッドとするベースラインモデルを提案する。 精度を向上させるために,動的クエリ初期化(DQInit)とクエリ対応メモリ(QAMem)の2つの軽量モジュールを提案する。 具体的には、DQInitはインプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度の特徴マップ上のクエリの識別能力を高めるように設計されている。 QAMemの助けを借りて、我々のモデルは高分解能特徴写像への依存を排除し、高い精度を得ることができる。 3つの一般的なベンチマーク実験と分析により,提案モデルの有効性と実用性を示した。 特に,本モデルでは,50FPS以上で動作しながら,300WおよびCOFWの競争結果とともに,WFLW上の新たな技術状況を達成する。

In recent years, significant progress has been made in the research of facial landmark detection. However, few prior works have thoroughly discussed about models for practical applications. Instead, they often focus on improving a couple of issues at a time while ignoring the others. To bridge this gap, we aim to explore a practical model that is accurate, robust, efficient, generalizable, and end-to-end trainable at the same time. To this end, we first propose a baseline model equipped with one transformer decoder as detection head. In order to achieve a better accuracy, we further propose two lightweight modules, namely dynamic query initialization (DQInit) and query-aware memory (QAMem). Specifically, DQInit dynamically initializes the queries of decoder from the inputs, enabling the model to achieve as good accuracy as the ones with multiple decoder layers. QAMem is designed to enhance the discriminative ability of queries on low-resolution feature maps by assigning separate memory values to each query rather than a shared one. With the help of QAMem, our model removes the dependence on high-resolution feature maps and is still able to obtain superior accuracy. Extensive experiments and analysis on three popular benchmarks show the effectiveness and practical advantages of the proposed model. Notably, our model achieves new state of the art on WFLW as well as competitive results on 300W and COFW, while still running at 50+ FPS.
翻訳日:2021-05-29 00:53:16 公開日:2021-05-27
# (参考訳) 形状認識輪郭注意によるCT画像の心臓分画 [全文訳有]

Cardiac Segmentation on CT Images through Shape-Aware Contour Attentions ( http://arxiv.org/abs/2105.13153v1 )

ライセンス: CC BY 4.0
Sanguk Park and Minyoung Chung(参考訳) CT画像における心房, 心室, 心筋のセグメンテーションは, 心血管疾患診断の第一線として重要な課題である。 最近のいくつかの研究で、深層学習モデルは医療画像分割タスクにおいて大きなブレークスルーを示している。 肺や肝臓などの他の臓器とは異なり、心臓臓器は複数のサブ構造(心室、心房、大動脈、動脈、静脈、心筋)から構成される。 これらの心サブ構造は互いに近縁であり、識別できない境界(等質な強度値)を持つため、セグメンテーションネットワークがサブ構造間の境界に集中するのは困難である。 本稿では,近位臓器間のセグメンテーション精度を向上させるため,形状と境界認識機能を利用する新しいモデルを提案する。 形状認識型アテンションモジュールを主に提案し, 距離回帰を活用し, モデルがサブ構造間のエッジに焦点を合わせるように誘導することで, 従来の輪郭型アテンション法を上回らせることができる。 実験では、トレーニングと検証のために20個のct心筋画像と、テストのために40個のct心筋画像を含むマルチモダリティ全心分画データセットを用いた。 実験の結果,Diceの類似度係数のスコアを4.97%向上させることにより,現状のネットワークよりも正確な結果が得られることがわかった。 提案した形状認識輪郭注意機構は, 距離変換と境界特性が実際の注意マップを改善し, 境界領域の応答を強化することを実証する。 さらに,提案手法は最終出力の偽陽性反応を著しく低減し,精度の高いセグメンテーションを実現する。

Cardiac segmentation of atriums, ventricles, and myocardium in computed tomography (CT) images is an important first-line task for presymptomatic cardiovascular disease diagnosis. In several recent studies, deep learning models have shown significant breakthroughs in medical image segmentation tasks. Unlike other organs such as the lungs and liver, the cardiac organ consists of multiple substructures, i.e., ventricles, atriums, aortas, arteries, veins, and myocardium. These cardiac substructures are proximate to each other and have indiscernible boundaries (i.e., homogeneous intensity values), making it difficult for the segmentation network focus on the boundaries between the substructures. In this paper, to improve the segmentation accuracy between proximate organs, we introduce a novel model to exploit shape and boundary-aware features. We primarily propose a shape-aware attention module, that exploits distance regression, which can guide the model to focus on the edges between substructures so that it can outperform the conventional contour-based attention method. In the experiments, we used the Multi-Modality Whole Heart Segmentation dataset that has 20 CT cardiac images for training and validation, and 40 CT cardiac images for testing. The experimental results show that the proposed network produces more accurate results than state-of-the-art networks by improving the Dice similarity coefficient score by 4.97%. Our proposed shape-aware contour attention mechanism demonstrates that distance transformation and boundary features improve the actual attention map to strengthen the responses in the boundary area. Moreover, our proposed method significantly reduces the false-positive responses of the final output, resulting in accurate segmentation.
翻訳日:2021-05-29 00:35:59 公開日:2021-05-27
# (参考訳) プロセスマイニングにおける説明可能な概念ドリフト検出フレームワーク [全文訳有]

A Framework for Explainable Concept Drift Detection in Process Mining ( http://arxiv.org/abs/2105.13155v1 )

ライセンス: CC BY 4.0
Jan Niklas Adams, Sebastiaan J. van Zelst, Lara Quack, Kathrin Hausmann, Wil M.P. van der Aalst, and Thomas Rose(参考訳) 急速に変化するビジネス環境は、企業を高いレベルの不確実性にさらしている。 この不確実性は、プロセスの存続期間を通じて起こり、おそらくそのパフォーマンスに影響を及ぼしがちな重大な変化に現れます。 このような変化の根本原因を理解することが重要です。 プロセスマイニングの研究はこれまで、プロセスにおける重要な変化の検出、特定、特徴付けにのみ重点を置いてきた。 本稿では,このギャップを埋めることを目的とする。 我々は,プロセスマイニングにおける概念ドリフト検出に説明可能性レベルを追加し,重要な変化の背後にある原因-影響関係について洞察を与えるフレームワークを提案する。 プロセスの異なる視点を定義し、これらの視点における概念ドリフトを検出し、これらの概念ドリフトが相互に因果的かどうかを決定する因果チェックに視点をプラグインする。 合成イベントデータと実イベントデータの両方で評価することで,フレームワークの有効性を示す。 実験の結果,本手法は原因と効果の関係を悪化させ,実行プロセスに新たな洞察を与えることがわかった。

Rapidly changing business environments expose companies to high levels of uncertainty. This uncertainty manifests itself in significant changes that tend to occur over the lifetime of a process and possibly affect its performance. It is important to understand the root causes of such changes since this allows us to react to change or anticipate future changes. Research in process mining has so far only focused on detecting, locating and characterizing significant changes in a process and not on finding root causes of such changes. In this paper, we aim to close this gap. We propose a framework that adds an explainability level onto concept drift detection in process mining and provides insights into the cause-effect relationships behind significant changes. We define different perspectives of a process, detect concept drifts in these perspectives and plug the perspectives into a causality check that determines whether these concept drifts can be causal to each other. We showcase the effectiveness of our framework by evaluating it on both synthetic and real event data. Our experiments show that our approach unravels cause-effect relationships and provides novel insights into executed processes.
翻訳日:2021-05-29 00:11:39 公開日:2021-05-27
# (参考訳) ネットワーク上での効率的なスタイル仮想試行 [全文訳有]

An Efficient Style Virtual Try on Network ( http://arxiv.org/abs/2105.13183v1 )

ライセンス: CC BY 4.0
Shanchen Pang, Xixi Tao, Yukun Dong(参考訳) With the increasing development of garment manufacturing industry, the method of combining neural network with industry to reduce product redundancy has been paid more and more attention.In order to reduce garment redundancy and achieve personalized customization, more researchers have appeared in the field of virtual trying on.They try to transfer the target clothing to the reference figure, and then stylize the clothes to meet user's requirements for fashion.But the biggest problem of virtual try on is that the shape and motion blocking distort the clothes, causing the patterns and texture on the clothes to be impossible to restore. 本稿では, 衣服のテクスチャとパターンの信頼性を保てるだけでなく, 識別不能なスタイル化試行を実現するための, 新たな仮想試行法を提案する。 ネットワークを3つのサブネットワークに分割し、第1にユーザ画像、対象の衣服画像の前面、セマンティックセグメンテーション画像、姿勢熱マップを作成し、より詳細な人体解析マップを生成する。 第2に、uv位置マップと密接な対応を用いて、変形したシルエットのパターンやテクスチャをリアルタイムにマッピングすることにより、リアルタイムに保持することができ、画像の信頼性を向上させることにより、空間構造の合理性を保証することができる。 第3に、生成された仮想トライ画像をスタイライズし、調整する。 最も微妙な変更によって、ユーザは、ユーザ体験を改善するために、テクスチャ、色、スタイルを選択することができる。

With the increasing development of garment manufacturing industry, the method of combining neural network with industry to reduce product redundancy has been paid more and more attention.In order to reduce garment redundancy and achieve personalized customization, more researchers have appeared in the field of virtual trying on.They try to transfer the target clothing to the reference figure, and then stylize the clothes to meet user's requirements for fashion.But the biggest problem of virtual try on is that the shape and motion blocking distort the clothes, causing the patterns and texture on the clothes to be impossible to restore. This paper proposed a new stylized virtual try on network, which can not only retain the authenticity of clothing texture and pattern, but also obtain the undifferentiated stylized try on. The network is divided into three sub-networks, the first is the user image, the front of the target clothing image, the semantic segmentation image and the posture heat map to generate a more detailed human parsing map. Second, UV position map and dense correspondence are used to map patterns and textures to the deformed silhouettes in real time, so that they can be retained in real time, and the rationality of spatial structure can be guaranteed on the basis of improving the authenticity of images. Third,Stylize and adjust the generated virtual try on image. Through the most subtle changes, users can choose the texture, color and style of clothing to improve the user's experience.
翻訳日:2021-05-28 23:52:44 公開日:2021-05-27
# (参考訳) コニックブラックウェルアルゴリズム:パラメータフリー凸凹サドル点解法 [全文訳有]

Conic Blackwell Algorithm: Parameter-Free Convex-Concave Saddle-Point Solving ( http://arxiv.org/abs/2105.13203v1 )

ライセンス: CC BY 4.0
Julien Grand-Cl\'ement, Christian Kroer(参考訳) 我々は凸凹型サドルポイント問題の解法として,新しいパラメータとスケールフリーアルゴリズムを開発した。 我々の結果は、新しい単純な後悔最小化器であるコニック・ブラックウェル・アルゴリズム$^+$ (CBA$^+$) に基づいており、O(1/\sqrt{T})$平均後悔となる。 直感的には、本手法は、直観的に、直観上のシーケンシャルゲームを解くための非常に強力な実用性能を持つCFR$^+$アルゴリズムから、他の決定的関心の集合に一般化する。 本稿では,simplex,$\ell_{p}$ノルムボール,楕円型信頼領域に対してcba$^+$を実装する方法を示し,行列ゲームを解くための数値実験と分布的ロバストな最適化問題を提案する。 実験の結果, CBA$^+$は, ステップサイズやアルゴリズムパラメータの選択を必要とせずに, 合成データや実データインスタンス上で最先端の手法より優れた単純なアルゴリズムであることがわかった。

We develop new parameter and scale-free algorithms for solving convex-concave saddle-point problems. Our results are based on a new simple regret minimizer, the Conic Blackwell Algorithm$^+$ (CBA$^+$), which attains $O(1/\sqrt{T})$ average regret. Intuitively, our approach generalizes to other decision sets of interest ideas from the Counterfactual Regret minimization (CFR$^+$) algorithm, which has very strong practical performance for solving sequential games on simplexes. We show how to implement CBA$^+$ for the simplex, $\ell_{p}$ norm balls, and ellipsoidal confidence regions in the simplex, and we present numerical experiments for solving matrix games and distributionally robust optimization problems. Our empirical results show that CBA$^+$ is a simple algorithm that outperforms state-of-the-art methods on synthetic data and real data instances, without the need for any choice of step sizes or other algorithmic parameters.
翻訳日:2021-05-28 23:24:05 公開日:2021-05-27
# (参考訳) Pose2Drone:Human-Dro neインタラクションのためのSkeleton-Poseベースのフレームワーク [全文訳有]

Pose2Drone: A Skeleton-Pose-based Framework forHuman-Drone Interaction ( http://arxiv.org/abs/2105.13204v1 )

ライセンス: CC BY 4.0
Zdravko Marinov, Stanka Vasileva, Qing Wang, Constantin Seibold, Jiaming Zhang and Rainer Stiefelhagen(参考訳) ドローンは一般的なツールとなり、航空写真、監視、配送などの多くのタスクで利用されている。 しかし、ドローンを操作するにはユーザーとの対話がますます必要になる。 HDI(Human-Drone Interaction)の自然で安全な方法はジェスチャーである。 本稿では,スケルトンに基づくポーズ推定に基づくhdiフレームワークを提案する。 我々のフレームワークは、簡単なアームジェスチャーでドローンの動きを制御し、安全な距離を維持しながらユーザーをフォローする機能を提供する。 また,画像特徴に基づく単分子距離推定法を提案し,追加の深度センサを必要としない。 包括的な実験と定量的分析を行うために、カスタムテストデータセットを作成します。 実験の結果,HDIフレームワークは11つの共通ジェスチャーの認識において平均93.5%の精度が得られることがわかった。 コードは、将来の研究を促進するために公開されます。 https://github.com/z rrr1997/pose2drone

Drones have become a common tool, which is utilized in many tasks such as aerial photography, surveillance, and delivery. However, operating a drone requires more and more interaction with the user. A natural and safe method for Human-Drone Interaction (HDI) is using gestures. In this paper, we introduce an HDI framework building upon skeleton-based pose estimation. Our framework provides the functionality to control the movement of the drone with simple arm gestures and to follow the user while keeping a safe distance. We also propose a monocular distance estimation method, which is entirely based on image features and does not require any additional depth sensors. To perform comprehensive experiments and quantitative analysis, we create a customized testing dataset. The experiments indicate that our HDI framework can achieve an average of93.5% accuracy in the recognition of 11 common gestures. The code will be made publicly available to foster future research. Code is available at: https://github.com/Z rrr1997/Pose2Drone
翻訳日:2021-05-28 22:33:54 公開日:2021-05-27
# (参考訳) 核密度ドリフト検出とコンバイン・ガウス混合モデルに基づく音響シーン分類器の概念ドリフト適応の評価 [全文訳有]

Evaluation of concept drift adaptation for acoustic scene classifier based on Kernel Density Drift Detection and Combine Merge Gaussian Mixture Model ( http://arxiv.org/abs/2105.13220v1 )

ライセンス: CC BY 4.0
Ibnu Daqiqil Id, Masanobu Abe, Sunao Hara(参考訳) 実験結果に基づいて、ドリフト型はそれぞれのハイパーパラメータ構成を持つ。 単純で漸進的な概念ドリフトは、このタイプのドリフトでは、新しい概念が連続的に現れるため、高頻度モデル適応が必要であるため、反復的な概念ドリフトよりもより小さい「アルファ」値を必要とする同様のパターンを持つ。 しかし、反復する概念では、新しい概念が将来繰り返される可能性があり、より低い周波数適応が良い。 さらに、高周波モデル適応は過度な問題を引き起こす可能性がある。 cmgmmコンポーネントのプルーニング機構の実装は、アクティブコンポーネントの数を制御し、モデルパフォーマンスを改善するのに役立つ。

Based on the experimental results, all concepts drift types have their respective hyperparameter configurations. Simple and gradual concept drift have similar pattern which requires a smaller {\alpha} value than recurring concept drift because, in this type of drift, a new concept appear continuously, so it needs a high-frequency model adaptation. However, in recurring concepts, the new concept may repeat in the future, so the lower frequency adaptation is better. Furthermore, high-frequency model adaptation could lead to an overfitting problem. Implementing CMGMM component pruning mechanism help to control the number of the active component and improve model performance.
翻訳日:2021-05-28 22:21:00 公開日:2021-05-27
# (参考訳) NAAS:Neural Accelerator Architecture Search [全文訳有]

NAAS: Neural Accelerator Architecture Search ( http://arxiv.org/abs/2105.13258v1 )

ライセンス: CC BY 4.0
Yujun Lin, Mengtian Yang and Song Han(参考訳) データ駆動で自動設計空間を探索するニューラルアクセラレーターアーキテクチャは、特殊化と生産性のために望ましい。 以前のフレームワークでは、ペコネクティビティやコンパイラマッピングの検索を怠りながら、数値的なアーキテクチャ上のハイパーパラメータのサイズに重点を置いていた。 この課題に取り組むために,ニューラルネットワークアーキテクチャ,アクセラレーションアーキテクチャ,コンパイラマッピングを1つの最適化ループで段階的に検索するneural accelerator architecture search (naas)を提案する。 naasは高度に整合したアーキテクチャを効率的なマッピングと共に構成する。 データ駆動型アプローチとして、NAASは人間設計のEyerissを4.4倍のEDP削減、ImageNetの2.7%の精度向上、アーキテクチャのハイパーパラメータのサイズよりも1.4倍から3.5倍のEDP削減を提供する。

Data-driven, automatic design space exploration of neural accelerator architecture is desirable for specialization and productivity. Previous frameworks focus on sizing the numerical architectural hyper-parameters while neglect searching the PE connectivities and compiler mappings. To tackle this challenge, we propose Neural Accelerator Architecture Search (NAAS) which holistically searches the neural network architecture, accelerator architecture, and compiler mapping in one optimization loop. NAAS composes highly matched architectures together with efficient mapping. As a data-driven approach, NAAS rivals the human design Eyeriss by 4.4x EDP reduction with 2.7% accuracy improvement on ImageNet under the same computation resource, and offers 1.4x to 3.5x EDP reduction than only sizing the architectural hyper-parameters.
翻訳日:2021-05-28 22:13:22 公開日:2021-05-27
# (参考訳) 深層ネットワークの解釈可能性にサスカディック・ビジョンがどう役立つか [全文訳有]

How saccadic vision might help with theinterpretability of deep networks ( http://arxiv.org/abs/2105.13264v1 )

ライセンス: CC BY 4.0
Iana Sereda and Grigory Osipov(参考訳) 本稿では,現代の深層ネットワークのいくつかの問題(解釈可能性,オブジェクト指向性)が,生物学的に妥当な認識機構に適応することでどのように解決されるかを述べる。 このようなsaccadic visionmodelのスケッチが提案されている。 概念実証実験の結果は,提案手法を裏付けるものである。

We describe how some problems (interpretability,la ck of object-orientedness) of modern deep networks potentiallycould be solved by adapting a biologically plausible saccadicmechanism of perception. A sketch of such a saccadic visionmodel is proposed. Proof of concept experimental results areprovided to support the proposed approach.
翻訳日:2021-05-28 21:54:25 公開日:2021-05-27
# (参考訳) ICDAR 2021 歴史地図セグメンテーションに関するコンペティション [全文訳有]

ICDAR 2021 Competition on Historical Map Segmentation ( http://arxiv.org/abs/2105.13265v1 )

ライセンス: CC BY-SA 4.0
Joseph Chazalon (1), Edwin Carlinet (1), Yizi Chen (1 and 2), Julien Perret (2 and 3), Bertrand Dum\'enieu (3), Cl\'ement Mallet (2), Thierry G\'eraud (1), Vincent Nguyen (4 and 5), Nam Nguyen (4), Josef Baloun (6 and 7), Ladislav Lenc (6 and 7), Pavel Kr\'al (6 and 7) ((1) EPITA Research and Development Lab. (LRDE), EPITA, France, (2) Univ. Gustave Eiffel, IGN-ENSG, LaSTIG, France, (3) LaD\'eHiS, CRH, EHESS, France, (4) L3i, University of La Rochelle, France, (5) Liris, INSA-Lyon, France, (6) Department of Computer Science and Engineering, University of West Bohemia, Univerzitn\'i, Pilsen, Czech Republic, (7) NTIS - New Technologies for the Information Society, University of West Bohemia, Univerzitn\'i, Pilsen, Czech Republic)(参考訳) 本稿では,1894年から1937年までの1/5000スケールのフランス・パリの一連の歴史地図に関する研究を奨励する,歴史地図セグメンテーションに関するICDAR 2021コンペティション(MapSeg)の最終結果を示す。 コンペティションでは3つの課題がそれぞれ別々に与えられた。 Task~1はビルディングブロックを検出し、L3IRISチームによって、弱い教師付きで訓練されたDenseNet-121ネットワークを使用して勝利した。 このタスクは、検出するために数百の形状を含む3つの大きな画像で評価される。 Task~2は、より大きな地図シートからのセグメンテーションマップの内容で構成され、U-NetライクなFCNとバイナライズ法を組み合わせて検出エッジの精度を高めるためにUWBチームが獲得した。 Task~3は、ジオレファレンスラインの交差点点の位置決めで構成されており、二項化、ハフ変換による線検出、候補フィルタリング、交差修正のためのテンプレートマッチングを組み合わせたパイプラインを使用してUWBチームも勝利した。 タスク~2と~3は、複雑なコンテントを持つ95のマップシートで評価される。 データセット、評価ツール、結果は、parmissive licensing at \url{https://icdar21-maps eg.github.io/} で利用可能である。

This paper presents the final results of the ICDAR 2021 Competition on Historical Map Segmentation (MapSeg), encouraging research on a series of historical atlases of Paris, France, drawn at 1/5000 scale between 1894 and 1937. The competition featured three tasks, awarded separately. Task~1 consists in detecting building blocks and was won by the L3IRIS team using a DenseNet-121 network trained in a weakly supervised fashion. This task is evaluated on 3 large images containing hundreds of shapes to detect. Task~2 consists in segmenting map content from the larger map sheet, and was won by the UWB team using a U-Net-like FCN combined with a binarization method to increase detection edge accuracy. Task~3 consists in locating intersection points of geo-referencing lines, and was also won by the UWB team who used a dedicated pipeline combining binarization, line detection with Hough transform, candidate filtering, and template matching for intersection refinement. Tasks~2 and~3 are evaluated on 95 map sheets with complex content. Dataset, evaluation tools and results are available under permissive licensing at \url{https://icdar21-maps eg.github.io/}.
翻訳日:2021-05-28 21:37:02 公開日:2021-05-27
# (参考訳) raw-c: あいまいな単語の関連性--inコンテキスト(英語の新しい語彙資源) [全文訳有]

RAW-C: Relatedness of Ambiguous Words--in Context (A New Lexical Resource for English) ( http://arxiv.org/abs/2105.13266v1 )

ライセンス: CC BY 4.0
Sean Trott and Benjamin Bergen(参考訳) ほとんどの単語は曖昧であり、異なる文脈で異なる意味を伝え、曖昧でない単語の意味も文脈依存である。 どちらの現象もNLPに挑戦する。 近年、文脈化された単語埋め込みの出現は、Word Sense Disambiguationのような語彙的曖昧性を含むタスクの成功につながっている。 しかしながら、これらの文脈化された埋め込みが単語の意味のより連続的で動的な性質にどの程度うまく適合しているかを直接的に評価するタスクはほとんどない。 本研究では,文脈の曖昧な112語(合計672文ペア)について,人間関係性判断のデータセットであるraw-cと,感覚支配の人的推定について紹介する。 平均的なアノテータ間合意(Left-one-annotator- out法による評価)は0.79。 次に, bert と elmo の文脈的埋め込みを用いて計算されたコサイン距離の尺度は, ヒトの判断と相関するが, コサイン距離は, 類似する人間が単語の同じ感覚をどのように利用するのかを, 体系的に過小評価し, 類似する人間が異なる意味のホモニムをどのように利用するかを体系的に過大評価しているかを示す。 最後に,精神語彙の心理言語理論と語彙意味論の計算モデルとの合成を提案する。

Most words are ambiguous--i.e., they convey distinct meanings in different contexts--and even the meanings of unambiguous words are context-dependent. Both phenomena present a challenge for NLP. Recently, the advent of contextualized word embeddings has led to success on tasks involving lexical ambiguity, such as Word Sense Disambiguation. However, there are few tasks that directly evaluate how well these contextualized embeddings accommodate the more continuous, dynamic nature of word meaning--particularl y in a way that matches human intuitions. We introduce RAW-C, a dataset of graded, human relatedness judgments for 112 ambiguous words in context (with 672 sentence pairs total), as well as human estimates of sense dominance. The average inter-annotator agreement (assessed using a leave-one-annotator- out method) was 0.79. We then show that a measure of cosine distance, computed using contextualized embeddings from BERT and ELMo, correlates with human judgments, but that cosine distance also systematically underestimates how similar humans find uses of the same sense of a word to be, and systematically overestimates how similar humans find uses of different-sense homonyms. Finally, we propose a synthesis between psycholinguistic theories of the mental lexicon and computational models of lexical semantics.
翻訳日:2021-05-28 21:17:06 公開日:2021-05-27
# (参考訳) MeshCNNの基礎: 再構成可能な表現による幾何学的学習 [全文訳有]

MeshCNN Fundamentals: Geometric Learning through a Reconstructable Representation ( http://arxiv.org/abs/2105.13277v1 )

ライセンス: CC BY 4.0
Amir Barda, Yotam Erel, Amit H. Bermano(参考訳) メッシュベースの学習は、近年、形状を学ぶための一般的なアプローチの1つです。 この分野で最も確立されたバックボーンはMeshCNNである。 本稿では,より高品質な学習を実現するために,幾何学的推論を用いたmeshcnnの導入を提案する。 ネットワーク上での幾何表現の仕方を注意深く分析することで、この表現は剛体運動不変量であり、元の幾何学を再構築できるべきである。 したがって、第一基本形式と第二基本形式を、エッジ中心、回転および変換不変な再構成可能な表現として導入する。 さらに,当初提案していたプーリングスキームをより幾何学的に駆動できるように更新する。 実験を通じて分析を検証し,meshcnnベースライン上で一貫した改善と,より精巧な最先端アーキテクチャを示す。 さらに、この基本的な形式に基づく表現は、メッシュ上でアクセス可能な生成機械学習への扉を開くことを実証する。

Mesh-based learning is one of the popular approaches nowadays to learn shapes. The most established backbone in this field is MeshCNN. In this paper, we propose infusing MeshCNN with geometric reasoning to achieve higher quality learning. Through careful analysis of the way geometry is represented through-out the network, we submit that this representation should be rigid motion invariant, and should allow reconstructing the original geometry. Accordingly, we introduce the first and second fundamental forms as an edge-centric, rotation and translation invariant, reconstructable representation. In addition, we update the originally proposed pooling scheme to be more geometrically driven. We validate our analysis through experimentation, and present consistent improvement upon the MeshCNN baseline, as well as other more elaborate state-of-the-art architectures. Furthermore, we demonstrate this fundamental forms-based representation opens the door to accessible generative machine learning over meshes.
翻訳日:2021-05-28 20:52:48 公開日:2021-05-27
# (参考訳) ベイズの視点からの深層アンサンブル [全文訳有]

Deep Ensembles from a Bayesian Perspective ( http://arxiv.org/abs/2105.13283v1 )

ライセンス: CC BY 4.0
Lara Hoffmann and Clemens Elster(参考訳) 深層アンサンブルは、ディープラーニングにおける不確実性定量化の現在の最先端と見なすことができる。 この手法はもともと非ベイズ的手法として提案されたが、ベイズ的足場に対する議論も進められている。 深いアンサンブルは対応する仮定を指定して近似ベイズ法とみなすことができることを示す。 我々の発見は、不確実性のエピステマティクス部分の増大をもたらす近似の改善につながる。 数値的な例は、改良された近似がより信頼できる不確実性をもたらすことを示唆している。 解析的導出により結果の計算が容易になる。

Deep ensembles can be seen as the current state-of-the-art for uncertainty quantification in deep learning. While the approach was originally proposed as an non-Bayesian technique, arguments towards its Bayesian footing have been put forward as well. We show that deep ensembles can be viewed as an approximate Bayesian method by specifying the corresponding assumptions. Our finding leads to an improved approximation which results in an increased epistemic part of the uncertainty. Numerical examples suggest that the improved approximation can lead to more reliable uncertainties. Analytical derivations ensure easy calculation of results.
翻訳日:2021-05-28 20:30:31 公開日:2021-05-27
# (参考訳) 艦隊再バランス問題に対するモジュール型・移動型強化学習フレームワーク [全文訳有]

A Modular and Transferable Reinforcement Learning Framework for the Fleet Rebalancing Problem ( http://arxiv.org/abs/2105.13284v1 )

ライセンス: CC BY 4.0
Erotokritos Skordilis, Yi Hou, Charles Tripp, Matthew Moniot, Peter Graf, David Biagioni(参考訳) モビリティ・オン・デマンド(MoD)システムは、柔軟で効率的な都市交通を実現する上で大きな可能性を秘めている。 しかし、重要な技術的課題は、MoD車両の派遣と艦隊の再バランスに関連する運用上の決定によって生じる。 このため、演算子は特定の環境でうまく機能することが証明された単純化されたアルゴリズムを用いる傾向にある。 新規な手法と既存手法のギャップを埋めるために,既存のディスパッチ手法を利用してシステムコストを最小化できるモデルフリー強化学習(RL)に基づく,フリートリバランシングのためのモジュラーフレームワークを提案する。 特に、ディスパッチを環境力学の一部として扱うことにより、中央集権エージェントは、ディスパッチを断続的にフリー車両の配置を指示し、艦隊の不均衡を軽減できる。 動作領域のグリッドパーティショニング上の分布としてRLの状態と動作空間を定式化し、フレームワークをスケーラブルにし、マルチエージェントRLに関連する複雑さを回避する。 実世界の旅行データとネットワークデータを用いた数値実験により, システムコストの改善, 選択したディスパッチ法への適応性の向上, 類似した車両や要求分布を持つ問題インスタンス間のスケール不変移動学習の実施など, ベースライン法に対していくつかのメリットがあることが示された。

Mobility on demand (MoD) systems show great promise in realizing flexible and efficient urban transportation. However, significant technical challenges arise from operational decision making associated with MoD vehicle dispatch and fleet rebalancing. For this reason, operators tend to employ simplified algorithms that have been demonstrated to work well in a particular setting. To help bridge the gap between novel and existing methods, we propose a modular framework for fleet rebalancing based on model-free reinforcement learning (RL) that can leverage an existing dispatch method to minimize system cost. In particular, by treating dispatch as part of the environment dynamics, a centralized agent can learn to intermittently direct the dispatcher to reposition free vehicles and mitigate against fleet imbalance. We formulate RL state and action spaces as distributions over a grid partitioning of the operating area, making the framework scalable and avoiding the complexities associated with multiagent RL. Numerical experiments, using real-world trip and network data, demonstrate that this approach has several distinct advantages over baseline methods including: improved system cost; high degree of adaptability to the selected dispatch method; and the ability to perform scale-invariant transfer learning between problem instances with similar vehicle and request distributions.
翻訳日:2021-05-28 19:40:02 公開日:2021-05-27
# (参考訳) タグ付き破壊モデルを用いた文法誤り訂正のための合成データ生成 [全文訳有]

Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models ( http://arxiv.org/abs/2105.13318v1 )

ライセンス: CC BY 4.0
Felix Stahlberg and Shankar Kumar(参考訳) 合成データ生成は、神経文法的誤り訂正(GEC)システムの精度を高めるために広く知られているが、既存の手法は多様性を欠いている場合や、人間の書き手による幅広い文法的誤りを生成するには単純すぎる場合が多い。 本研究では,errantなどの自動アノテーションツールのエラー型タグを用いて,合成データ生成のガイドを行う。 クリーンな文とエラータイプタグが与えられた非文法的な文を生成できるモデルをいくつか比較した。 我々はこれらのモデルを用いて、与えられた開発セットと一致するエラータグ頻度分布を持つ新しい大規模合成事前学習データセットを構築する。 我々の合成データセットは、BEA-19およびCoNLL-14テストセットの最先端性を向上し、大きく一貫した利得を得る。 また,本手法は,母国語と母国語を混合した英語で学習したGECシステムを,高品質な文対からなる実際の学習データを超えたネイティブ英語テストセットに適応する上で,特に有効であることを示す。

Synthetic data generation is widely known to boost the accuracy of neural grammatical error correction (GEC) systems, but existing methods often lack diversity or are too simplistic to generate the broad range of grammatical errors made by human writers. In this work, we use error type tags from automatic annotation tools such as ERRANT to guide synthetic data generation. We compare several models that can produce an ungrammatical sentence given a clean sentence and an error type tag. We use these models to build a new, large synthetic pre-training data set with error tag frequency distributions matching a given development set. Our synthetic data set yields large and consistent gains, improving the state-of-the-art on the BEA-19 and CoNLL-14 test sets. We also show that our approach is particularly effective in adapting a GEC system, trained on mixed native and non-native English, to a native English test set, even surpassing real training data consisting of high-quality sentence pairs.
翻訳日:2021-05-28 19:07:15 公開日:2021-05-27
# (参考訳) 短期住宅エネルギー需要予測のための連合学習 [全文訳有]

Federated Learning for Short-term Residential Energy Demand Forecasting ( http://arxiv.org/abs/2105.13325v1 )

ライセンス: CC BY 4.0
Christopher Briggs, Zhong Fan, Peter Andras(参考訳) エネルギー需要予測は、需要と供給のバランスを保ち、電力網の安定的な負荷を維持するためにエネルギー産業内で実施される重要な課題である。 供給が信頼性の低い再生可能エネルギー生成へと移行するにつれ、スマートメーターはこれらの予測タスクを支援する上で不可欠な要素であることが証明される。 しかし、プライバシーを意識した消費者は、詳細な消費データへの侵入を恐れている。 本研究では,基礎となるデータのプライバシを保ちながら,分散かつ協調的に予測モデルをトレーニングするためのフェデレーション学習(fl)ベースのアプローチを提案し,検討する。 flとクラスタ型fl+hcの2つのアプローチを比較して,非プライベート,集中型学習アプローチと,完全にプライベートでローカライズされた学習アプローチを比較した。 これらのアプローチでは,各シナリオでモデルのトレーニングに必要なサンプル数から,rmseを用いたモデル性能と計算効率を測定した。 さらに、fl戦略をパーソナライズステップに追従し、それを行うことでモデルパフォーマンスが向上できることを示す。 FL+HCの後続のパーソナライズによりモデル性能が$\sim$5%向上し,ローカライズドラーニングに比べて計算量が$\sim$10x削減できることを示す。 最後に、民間のエンドツーエンドのエネルギー需要予測アプリケーションを構築するための予測のプライベートアグリゲーションについてアドバイスする。

Energy demand forecasting is an essential task performed within the energy industry to help balance supply with demand and maintain a stable load on the electricity grid. As supply transitions towards less reliable renewable energy generation, smart meters will prove a vital component to aid these forecasting tasks. However, smart meter take-up is low among privacy-conscious consumers that fear intrusion upon their fine-grained consumption data. In this work we propose and explore a federated learning (FL) based approach for training forecasting models in a distributed, collaborative manner whilst retaining the privacy of the underlying data. We compare two approaches: FL, and a clustered variant, FL+HC against a non-private, centralised learning approach and a fully private, localised learning approach. Within these approaches, we measure model performance using RMSE and computational efficiency via the number of samples required to train models under each scenario. In addition, we suggest the FL strategies are followed by a personalisation step and show that model performance can be improved by doing so. We show that FL+HC followed by personalisation can achieve a $\sim$5% improvement in model performance with a $\sim$10x reduction in computation compared to localised learning. Finally we provide advice on private aggregation of predictions for building a private end-to-end energy demand forecasting application.
翻訳日:2021-05-28 18:39:17 公開日:2021-05-27
# (参考訳) タスクフリー連続学習のためのエンコーダとアンサンブル [全文訳有]

Encoders and Ensembles for Task-Free Continual Learning ( http://arxiv.org/abs/2105.13327v1 )

ライセンス: CC BY 4.0
Murray Shanahan and Christos Kaplanis and Jovana Mitrovi\'c(参考訳) タスク境界が存在しない,あるいは未知な,特に要求の多い環境において,継続的な学習に有効なアーキテクチャを提案する。 我々のアーキテクチャは、別のデータセットで事前訓練されたエンコーダと、単純な1層分類器のアンサンブルから構成される。 この組み合わせを機能させるためには、2つの大きなイノベーションが必要です。 まず, 自己指導型訓練手法の進歩により, 汎用的な事前学習エンコーダの提供が可能となった。 第二に、アンサンブル内の各分類器と鍵をペアにすると、鍵空間はエンコーダの潜在空間と同一であり、k-ネアレスト近傍のルックアップを通じて集合的かつ選択的にそれらを使用することができる。 エンコーダとアンサンブルアーキテクチャで訓練されたモデルは、標準画像分類連続学習ベンチマークにおけるタスクフリー設定のための最先端であり、最も困難なケースでは、先行技術の改善が大きなマージンであることを示す。 また、1つのクラスが一度に学習されるような、完全にインクリメンタルな設定でアーキテクチャがうまく学習できることを示し、100クラスまでのこの設定でその効果を実証する。 最後に,データ分散が徐々に変化するタスクフリーな連続学習コンテキストでアーキテクチャが動作し,タスク境界に関する知識を必要とする既存のアプローチは適用できないことを示す。

We present an architecture that is effective for continual learning in an especially demanding setting, where task boundaries do not exist or are unknown. Our architecture comprises an encoder, pre-trained on a separate dataset, and an ensemble of simple one-layer classifiers. Two main innovations are required to make this combination work. First, the provision of suitably generic pre-trained encoders has been made possible thanks to recent progress in self-supervised training methods. Second, pairing each classifier in the ensemble with a key, where the key-space is identical to the latent space of the encoder, allows them to be used collectively, yet selectively, via k-nearest neighbour lookup. We show that models trained with the encoders-and-ensembl es architecture are state-of-the-art for the task-free setting on standard image classification continual learning benchmarks, and improve on prior state-of-the-art by a large margin in the most challenging cases. We also show that the architecture learns well in a fully incremental setting, where one class is learned at a time, and we demonstrate its effectiveness in this setting with up to 100 classes. Finally, we show that the architecture works in a task-free continual learning context where the data distribution changes gradually, and existing approaches requiring knowledge of task boundaries cannot be applied.
翻訳日:2021-05-28 18:12:46 公開日:2021-05-27
# (参考訳) 共感型AIのためのジェネレーティブ・アドバイサル・模倣学習 [全文訳有]

Generative Adversarial Imitation Learning for Empathy-based AI ( http://arxiv.org/abs/2105.13328v1 )

ライセンス: CC BY 4.0
Pratyush Muthukumar, Karishma Muthukumar, Deepan Muthirayan, Pramod Khargonekar(参考訳) GAIL(Generative Adversarial mimicion Learning)は、高次元環境における複雑な振る舞いを模倣する強力な結果をもたらすモデルのないアルゴリズムである。 本稿では,GAILモデルを用いてテキスト生成を行い,共感に基づく会話型AIを開発する。 本モデルでは,共感的即応答対話の専門的軌跡を用いて,応答生成時の共感的感情を正確に提示する。 GAILモデルのGeneratorは、40GBのインターネットデータから1700万のパラメータでトレーニングされたGPT-2シーケンシャル事前訓練言語モデルを使用する。 本稿では,GPT-2モデルを微調整するトランスファーラーニングの手法を考案し,識別器に対して検証された簡潔でユーザ固有の共感応答を生成する手法を提案する。 提案するgailモデルでは,感情分析履歴に基づく強化学習手法を用いて,人間とのインタラクションに共感的に応答する。 facebook empathetic dialoguesデータセットから収集したさまざまな人間生成プロンプトに対して,モデルの応答スコアがベースラインよりも優れていることがわかった。 さらに,3以上の対話の持続的な会話に対する性能が類似した会話型aiモデルを上回るため,近年開発されたさまざまな履歴ベースの会話型aiモデルも改良した。

Generative adversarial imitation learning (GAIL) is a model-free algorithm that has been shown to provide strong results in imitating complex behaviors in high-dimensional environments. In this paper, we utilize the GAIL model for text generation to develop empathy-based context-aware conversational AI. Our model uses an expert trajectory of empathetic prompt-response dialogues which can accurately exhibit the correct empathetic emotion when generating a response. The Generator of the GAIL model uses the GPT-2 sequential pre-trained language model trained on 117 million parameters from 40 GB of internet data. We propose a novel application of an approach used in transfer learning to fine tune the GPT-2 model in order to generate concise, user-specific empathetic responses validated against the Discriminator. Our novel GAIL model utilizes a sentiment analysis history-based reinforcement learning approach to empathetically respond to human interactions in a personalized manner. We find that our model's response scores on various human-generated prompts collected from the Facebook Empathetic Dialogues dataset outperform baseline counterparts. Moreover, our model improves upon various history-based conversational AI models developed recently, as our model's performance over a sustained conversation of 3 or more interactions outperform similar conversational AI models.
翻訳日:2021-05-28 17:41:27 公開日:2021-05-27
# (参考訳) マイクロコントローラにおけるディープニューラルネットワークの量子化と展開

Quantization and Deployment of Deep Neural Networks on Microcontrollers ( http://arxiv.org/abs/2105.13331v1 )

ライセンス: CC BY 4.0
Pierre-Emmanuel Novac (1), Ghouthi Boukli Hacene (2 and 3), Alain Pegatoquet (1), Beno\^it Miramond (1), Vincent Gripon (2) ((1) Universit\'e C\^ote d'Azur, CNRS, LEAT, Sophia Antipolis, France, (2) IMT Atlantique, Brest, France, (3) MILA, Montreal, Canada)(参考訳) 人工知能を低消費電力デバイスに組み込むことは、機械学習とハードウェア設計の最近の進歩で部分的に克服された課題である。 現在、ディープニューラルネットワークは、組み込みターゲットに展開して、音声認識、オブジェクト検出、ヒューマンアクティビティ認識などのさまざまなタスクを実行することができる。 しかし、組み込みデバイスにディープニューラルネットワークを最適化する余地はまだ残っている。 これらの最適化は主に消費電力、メモリ、リアルタイムの制約に対処するが、エッジでのデプロイも容易である。 さらに、異なるユースケースで何が達成されるのかをよりよく理解する必要がある。 この研究は、低消費電力32ビットマイクロコントローラへのディープニューラルネットワークの量子化と展開に焦点を当てている。 マイクロコントローラへの組み込み実行のコンテキストに関連する量子化手法を最初に概説する。 次に、エンドツーエンドのディープニューラルネットワークトレーニング、量子化、デプロイメントのための新しいフレームワークを示す。 このフレームワークはMicroAIと呼ばれ、既存の推論エンジン(マイクロコントローラ用のTensorFlow LiteとSTM32Cube.AI)の代替として設計されている。 私たちのフレームワークは、特定のユースケースに対して簡単に調整したり、拡張したりできます。 シングル精度32ビット浮動小数点と8ビットおよび16ビット整数の固定点を用いた実行がサポートされている。 提案手法は3つの異なるデータセット(UCI-HAR, Spoken MNIST, GTSRB)を用いて評価する。 最後に,MicroAIと既存の組み込み推論エンジンの比較研究を,メモリと電力効率の観点から行った。 ARM Cortex-M4Fベースのマイクロコントローラ(Ambiq Apollo3とSTM32L452RE)を用いてデバイス上での評価を行う。

Embedding Artificial Intelligence onto low-power devices is a challenging task that has been partly overcome with recent advances in machine learning and hardware design. Presently, deep neural networks can be deployed on embedded targets to perform different tasks such as speech recognition,object detection or Human Activity Recognition. However, there is still room for optimization of deep neural networks onto embedded devices. These optimizations mainly address power consumption,memory and real-time constraints, but also an easier deployment at the edge. Moreover, there is still a need for a better understanding of what can be achieved for different use cases. This work focuses on quantization and deployment of deep neural networks onto low-power 32-bit microcontrollers. The quantization methods, relevant in the context of an embedded execution onto a microcontroller, are first outlined. Then, a new framework for end-to-end deep neural networks training, quantization and deployment is presented. This framework, called MicroAI, is designed as an alternative to existing inference engines (TensorFlow Lite for Microcontrollers and STM32Cube.AI). Our framework can indeed be easily adjusted and/or extended for specific use cases. Execution using single precision 32-bit floating-point as well as fixed-point on 8- and 16-bit integers are supported. The proposed quantization method is evaluated with three different datasets (UCI-HAR, Spoken MNIST and GTSRB). Finally, a comparison study between MicroAI and both existing embedded inference engines is provided in terms of memory and power efficiency. On-device evaluation is done using ARM Cortex-M4F-based microcontrollers (Ambiq Apollo3 and STM32L452RE).
翻訳日:2021-05-28 17:25:30 公開日:2021-05-27
# (参考訳) 人間と機械の再認識のない追跡 [全文訳有]

Tracking Without Re-recognition in Humans and Machines ( http://arxiv.org/abs/2105.13351v1 )

ライセンス: CC BY 4.0
Drew Linsley, Girik Malik, Junkyung Kim, Lakshmi N Govindarajan, Ennio Mingolla, and Thomas Serre(参考訳) 数百羽の群れの中で1羽の果実を追跡しようという試みを想像してみてほしい。 高次生物視覚システムは、外観と運動の特徴の両方に依存することによって、動く物体を追跡するために進化してきた。 視覚追跡のための最先端のディープニューラルネットワークが同等であるかどうかについて検討する。 そこで本研究では,人間のオブザーバとマシンに対して,同一の"ディストラクタ(distractor)"オブジェクトの中で対象オブジェクトを追跡するように求める合成ビジュアルチャレンジであるpathtrackerを紹介する。 人間がPathTrackerを熱心に学び、タスクデザインの体系的なバリエーションに一般化する一方で、最先端のディープネットワークは苦労する。 この制限に対処するために,動作手がかりに基づく物体の追跡に関係した生体脳の回路機構を同定し,モデル化する。 我々の回路モデルは、リカレントネットワークとしてインスタンス化されると、人間のパフォーマンスに匹敵する堅牢な視覚戦略でPathTrackerを解くことを学び、その課題に対する意思決定のかなりの割合を説明する。 また,この回路モデルの成功は,自然映像における物体追跡にまで及ぶことを示した。 オブジェクトトラッキングのためのトランスフォーマーベースのアーキテクチャにそれを追加することで、オブジェクトの外観に影響を与える視覚的ニュアンスに対する耐性が向上する。 私たちの研究は、人間の視覚を理解し、コンピュータビジョンを改善するのに役立つ人工視覚モデルを構築することの重要性を強調しています。

Imagine trying to track one particular fruitfly in a swarm of hundreds. Higher biological visual systems have evolved to track moving objects by relying on both appearance and motion features. We investigate if state-of-the-art deep neural networks for visual tracking are capable of the same. For this, we introduce PathTracker, a synthetic visual challenge that asks human observers and machines to track a target object in the midst of identical-looking "distractor" objects. While humans effortlessly learn PathTracker and generalize to systematic variations in task design, state-of-the-art deep networks struggle. To address this limitation, we identify and model circuit mechanisms in biological brains that are implicated in tracking objects based on motion cues. When instantiated as a recurrent network, our circuit model learns to solve PathTracker with a robust visual strategy that rivals human performance and explains a significant proportion of their decision-making on the challenge. We also show that the success of this circuit model extends to object tracking in natural videos. Adding it to a transformer-based architecture for object tracking builds tolerance to visual nuisances that affect object appearance, resulting in a new state-of-the-art performance on the large-scale TrackingNet object tracking challenge. Our work highlights the importance of building artificial vision models that can help us better understand human vision and improve computer vision.
翻訳日:2021-05-28 17:24:06 公開日:2021-05-27
# ProtAugment:意図検出メタラーニングのための教師なし多種多様な短文パラフレーズ

ProtAugment: Unsupervised diverse short-texts paraphrasing for intent detection meta-learning ( http://arxiv.org/abs/2105.12995v1 )

ライセンス: Link先を確認
Thomas Dopierre, Christophe Gravier, Wilfried Logerais(参考訳) 近年の研究では、メタラーニングの問題として、少数の意図検出が考えられている:モデルは、連続した一連の小課題から学習することを学習している。 本研究では,短いテキスト分類(意図検出タスク)のためのメタ学習アルゴリズムであるProtAugmentを提案する。 ProtAugmentはプロトタイプネットワークの新たな拡張であり、各エピソードで数発の分類目的によって導入されたバイアスの過度な適合を制限する。 条件付き言語モデルは、まずパラフレージングのために微調整され、その後、メタラーニングの各エピソードの復号段階で多様性が導入される。 多様なパラフレーズは、ラベルのないデータに適用され、整合性損失としてプロトタイプネットワークトレーニング目標に燃料を供給されるため、教師なしである。 protaugmentはインテント検出メタラーニングの最先端の方法であり、追加のラベル付けはせず、特定のアプリケーションドメインで条件付き言語モデルを微調整する必要もない。

Recent research considers few-shot intent detection as a meta-learning problem: the model is learning to learn from a consecutive set of small tasks named episodes. In this work, we propose ProtAugment, a meta-learning algorithm for short texts classification (the intent detection task). ProtAugment is a novel extension of Prototypical Networks, that limits overfitting on the bias introduced by the few-shots classification objective at each episode. It relies on diverse paraphrasing: a conditional language model is first fine-tuned for paraphrasing, and diversity is later introduced at the decoding stage at each meta-learning episode. The diverse paraphrasing is unsupervised as it is applied to unlabelled data, and then fueled to the Prototypical Network training objective as a consistency loss. ProtAugment is the state-of-the-art method for intent detection meta-learning, at no extra labeling efforts and without the need to fine-tune a conditional language model on a given application domain.
翻訳日:2021-05-28 16:44:45 公開日:2021-05-27
# 自己監督型マルチモーダルオピニオン要約

Self-Supervised Multimodal Opinion Summarization ( http://arxiv.org/abs/2105.13135v1 )

ライセンス: Link先を確認
Jinbae Im, Moonki Kim, Hoyeop Lee, Hyunsouk Cho, Sehee Chung(参考訳) 近年,複数のレビューから要約を生成する意見要約は,サンプルレビューを擬似要約として考慮して自己指導的に行われている。 しかし、レビューに関連する画像やメタデータなどの非テキストデータはあまり考えられていない。 非テキストデータに含まれる豊富な情報を利用するために,MultimodalSumと呼ばれる自己教師型マルチモーダル意見要約フレームワークを提案する。 本フレームワークは,各モダリティに対する個別エンコーダを用いて各モダリティの表現を取得し,テキストデコーダは要約を生成する。 マルチモーダルデータの固有不均一性を解決するために,マルチモーダルトレーニングパイプラインを提案する。 まず,テキストのモダリティデータのみに基づいて,テキストエンコーダ-デコーダをプリトレーニングする。 その後、事前訓練されたテキストデコーダをマルチモーダルデータの同次表現のピボットとして考慮し、非テキストモダリティエンコーダを事前訓練する。 最後に、マルチモーダル表現を融合するために、フレームワーク全体をエンドツーエンドでトレーニングします。 YelpとAmazonのデータセットで実験を行うことで、MultimodalSumの優位性を実証する。

Recently, opinion summarization, which is the generation of a summary from multiple reviews, has been conducted in a self-supervised manner by considering a sampled review as a pseudo summary. However, non-text data such as image and metadata related to reviews have been considered less often. To use the abundant information contained in non-text data, we propose a self-supervised multimodal opinion summarization framework called MultimodalSum. Our framework obtains a representation of each modality using a separate encoder for each modality, and the text decoder generates a summary. To resolve the inherent heterogeneity of multimodal data, we propose a multimodal training pipeline. We first pretrain the text encoder--decoder based solely on text modality data. Subsequently, we pretrain the non-text modality encoders by considering the pretrained text decoder as a pivot for the homogeneous representation of multimodal data. Finally, to fuse multimodal representations, we train the entire framework in an end-to-end manner. We demonstrate the superiority of MultimodalSum by conducting experiments on Yelp and Amazon datasets.
翻訳日:2021-05-28 16:44:16 公開日:2021-05-27
# 模倣学習とモジュール化に基づくレース用ドローンのロバストナビゲーション

Robust Navigation for Racing Drones based on Imitation Learning and Modularization ( http://arxiv.org/abs/2105.12923v1 )

ライセンス: Link先を確認
Tianqi Wang, Dong Eui Chang(参考訳) 本稿では、認識モジュールにカスタマイズされた畳み込みニューラルネットワーク(CNN)を用いて高レベルのナビゲーションコマンドを生成し、次に最先端のプランナーとコントローラを用いて低レベルの制御コマンドを生成することにより、データベースとモデルベースの両方のアプローチの利点を活用する。 現行のカメラ画像のみをCNN入力とする最先端の手法とは異なり、最新の3つのドローン状態を入力の一部として追加する。 提案手法は,様々なトラックレイアウトにおいて最先端の手法よりも優れ,単一のトレーニングネットワークで2つの切り替え可能なナビゲーション挙動を提供する。 cnnベースの知覚モジュールは、事前に計算されたグローバルトラジェクタに基づいて、グランド真実のナビゲーションコマンドを自動的に生成するエキスパートポリシーを模倣するように訓練される。 広範なランダム化とデータ収集中のデータセットアグリゲーション(dagger)ポリシーの変更により、合成テクスチャによるシミュレーションを純粋に訓練したナビゲーションシステムは、無作為な無作為なフォトリアリスティックなテクスチャを持つ環境で、さらに微調整することなくうまく動作する。

This paper presents a vision-based modularized drone racing navigation system that uses a customized convolutional neural network (CNN) for the perception module to produce high-level navigation commands and then leverages a state-of-the-art planner and controller to generate low-level control commands, thus exploiting the advantages of both data-based and model-based approaches. Unlike the state-of-the-art method which only takes the current camera image as the CNN input, we further add the latest three drone states as part of the inputs. Our method outperforms the state-of-the-art method in various track layouts and offers two switchable navigation behaviors with a single trained network. The CNN-based perception module is trained to imitate an expert policy that automatically generates ground truth navigation commands based on the pre-computed global trajectories. Owing to the extensive randomization and our modified dataset aggregation (DAgger) policy during data collection, our navigation system, which is purely trained in simulation with synthetic textures, successfully operates in environments with randomly-chosen photorealistic textures without further fine-tuning.
翻訳日:2021-05-28 16:43:12 公開日:2021-05-27
# 神経機械翻訳のための選択的知識蒸留

Selective Knowledge Distillation for Neural Machine Translation ( http://arxiv.org/abs/2105.12967v1 )

ライセンス: Link先を確認
Fusheng Wang, Jianhao Yan, Fandong Meng, Jie Zhou(参考訳) ニューラル機械翻訳(NMT)モデルは、多くの翻訳ベンチマークで最先端のパフォーマンスを達成する。 nmtの活発な研究分野として,教師モデルの知識を各トレーニングサンプルに移し,モデルの性能を高めるために知識蒸留が広く適用されている。 しかし,教師の知識を伝達する媒体として機能する,これらのサンプルの異なる影響と相互関係について論じることは稀である。 本稿では,サンプルの分割を比較することで,サンプルの異なる影響を効果的に分析できる新しいプロトコルを設計する。 以上のプロトコルに基づき,広範な実験を行い,教師の知識が多ければ多いほどよいものではないことを発見した。 特定のサンプルに関する知識は、知識蒸留の性能を損なう可能性がある。 最後に, これらの問題に対処するため, 蒸留に適した試料を選択するために, バッチレベルとグローバルレベルの2つの簡易かつ効果的な方法を提案する。 我々は,WMT'14ドイツ語とWMT'19中国語の2つの大規模機械翻訳タスクに対するアプローチを評価する。 実験結果から,Transformer ベースラインに対する +1.28 および +0.89 BLEU 点の改善が得られた。

Neural Machine Translation (NMT) models achieve state-of-the-art performance on many translation benchmarks. As an active research field in NMT, knowledge distillation is widely applied to enhance the model's performance by transferring teacher model's knowledge on each training sample. However, previous work rarely discusses the different impacts and connections among these samples, which serve as the medium for transferring teacher knowledge. In this paper, we design a novel protocol that can effectively analyze the different impacts of samples by comparing various samples' partitions. Based on above protocol, we conduct extensive experiments and find that the teacher's knowledge is not the more, the better. Knowledge over specific samples may even hurt the whole performance of knowledge distillation. Finally, to address these issues, we propose two simple yet effective strategies, i.e., batch-level and global-level selections, to pick suitable samples for distillation. We evaluate our approaches on two large-scale machine translation tasks, WMT'14 English->German and WMT'19 Chinese->English. Experimental results show that our approaches yield up to +1.28 and +0.89 BLEU points improvements over the Transformer baseline, respectively.
翻訳日:2021-05-28 16:42:13 公開日:2021-05-27
# maria: ビジュアルエクスペリエンスを活用した会話エージェント

Maria: A Visual Experience Powered Conversational Agent ( http://arxiv.org/abs/2105.13073v1 )

ライセンス: Link先を確認
Zujie Liang, Huang Hu, Can Xu, Chongyang Tao, Xiubo Geng, Yining Chen, Fan Liang and Daxin Jiang(参考訳) 物理的世界に対する会話エージェントの視覚的認識は、人間のような知性を示すための鍵となる方法である。 そこで,この課題に対処するために,画像地上会話を提案する。 既存の作業は、ある画像上の会話を基盤とするマルチモーダルダイアログモデルの探索に重点を置いている。 本稿では,組合わせダイアログや画像が利用できない完全開放的な設定の下で,画像接地会話についてさらに検討する。 具体的には、大規模画像インデックスから検索した視覚世界体験を利用したニューラルネットワークエージェントであるMariaを紹介する。 mariaは3つの柔軟なコンポーネントで構成されており、テキストから画像へのレトリバー、視覚概念検出器、視覚知識接地応答生成器である。 検索者は、画像インデックスからダイアログに関連付けられた画像を取得し、視覚概念検出器は、画像から豊かな視覚知識を抽出する。 そして、抽出された視覚知識と対話コンテキストに基づいて応答生成装置を接地し、ターゲット応答を生成する。 大規模な実験では、マリアは自動測定と人的評価で過去の最先端の手法よりも優れており、物理的な世界の視覚的な共通点を持つ情報応答を生成することができる。

Arguably, the visual perception of conversational agents to the physical world is a key way for them to exhibit the human-like intelligence. Image-grounded conversation is thus proposed to address this challenge. Existing works focus on exploring the multimodal dialog models that ground the conversation on a given image. In this paper, we take a step further to study image-grounded conversation under a fully open-ended setting where no paired dialog and image are assumed available. Specifically, we present Maria, a neural conversation agent powered by the visual world experiences which are retrieved from a large-scale image index. Maria consists of three flexible components, i.e., text-to-image retriever, visual concept detector and visual-knowledge-gro unded response generator. The retriever aims to retrieve a correlated image to the dialog from an image index, while the visual concept detector extracts rich visual knowledge from the image. Then, the response generator is grounded on the extracted visual knowledge and dialog context to generate the target response. Extensive experiments demonstrate Maria outperforms previous state-of-the-art methods on automatic metrics and human evaluation, and can generate informative responses that have some visual commonsense of the physical world.
翻訳日:2021-05-28 16:41:41 公開日:2021-05-27
# 医学知識グラフ完成のためのテキスト意味情報を用いたパスベース知識推論

Path-based knowledge reasoning with textual semantic information for medical knowledge graph completion ( http://arxiv.org/abs/2105.13074v1 )

ライセンス: Link先を確認
Yinyu Lan, Shizhu He, Xiangrong Zeng, Shengping Liu, Jun Zhao(参考訳) 背景知識グラフ(KG)、特に医学知識グラフは、しばしば著しく不完全であるため、医学知識グラフ補完(MedKGC)の要求が必要とされる。 MedKGCはKGsの知識から新たな事実を見つけることができる。 経路に基づく知識推論アルゴリズムは、この課題に対する最も重要なアプローチの1つである。 近年,高い性能と解釈可能性から,このような手法が注目されている。 実際、パスランキングアルゴリズム(PRA)のような伝統的な手法は、エンティティペア間のパスをアトミックな特徴として捉えている。 しかし、医療用KGは非常に疎いため、非常に疎い経路の特徴に対して効果的な意味表現をモデル化することは困難である。 医学的KGsの空間性は、主にエンティティとパスの長い尾の分布に反映される。 従来の方法は、知識グラフのパスにおける文脈構造を単に考慮し、パス内のシンボルのテキスト意味論を無視する。 したがって、エンティティスパースネスとパススパースネスの2つの側面により、パフォーマンスをさらに向上することはできない。 そこで本稿では,MedKGCにおけるエンティティとパスのテキスト意味情報を活用する,エンティティとパスの疎結合問題を解決する2つの新しい経路ベース推論手法を提案する。 事前学習モデルBERTを用いて、エンティティのテキスト意味表現と関係を組み合わせ、医用KGにおける記号推論のタスクを、テキスト意味表現における数値計算問題としてモデル化する。

Background Knowledge graphs (KGs), especially medical knowledge graphs, are often significantly incomplete, so it necessitating a demand for medical knowledge graph completion (MedKGC). MedKGC can find new facts based on the exited knowledge in the KGs. The path-based knowledge reasoning algorithm is one of the most important approaches to this task. This type of method has received great attention in recent years because of its high performance and interpretability. In fact, traditional methods such as path ranking algorithm (PRA) take the paths between an entity pair as atomic features. However, the medical KGs are very sparse, which makes it difficult to model effective semantic representation for extremely sparse path features. The sparsity in the medical KGs is mainly reflected in the long-tailed distribution of entities and paths. Previous methods merely consider the context structure in the paths of the knowledge graph and ignore the textual semantics of the symbols in the path. Therefore, their performance cannot be further improved due to the two aspects of entity sparseness and path sparseness. To address the above issues, this paper proposes two novel path-based reasoning methods to solve the sparsity issues of entity and path respectively, which adopts the textual semantic information of entities and paths for MedKGC. By using the pre-trained model BERT, combining the textual semantic representations of the entities and the relationships, we model the task of symbolic reasoning in the medical KG as a numerical computing issue in textual semantic representation.
翻訳日:2021-05-28 16:41:08 公開日:2021-05-27
# Gazetteer-based Fusion を用いたニューラルエンティティ認識

Neural Entity Recognition with Gazetteer based Fusion ( http://arxiv.org/abs/2105.13225v1 )

ライセンス: Link先を確認
Qing Sun, Parminder Bhatia(参考訳) 名前付きエンティティ認識(NER)システムに外部知識を組み込むことは、ジェネリックドメインにおいて広く研究されている。 本稿では,限られたデータしかアクセスできず,解釈性が重要である臨床領域に注目した。 近年の技術進歩と臨床試験の加速は、新しい薬物、処置、および医療条件の発見につながっている。 これらの要因は、新しい医学用語に迅速に適応できる堅牢なゼロショットナーシステムの構築に動機づけられている。 そこで我々は,NERシステムを用いて補助的なガゼテアモデルを提案し,その結果,異なる臨床データセット間での堅牢性と解釈性が向上することを示した。 我々のガゼッテラーベース核融合モデルはデータ効率が良く、20%のトレーニングデータを用いてi2b2データセット上で+1.7マイクロF1ゲインを達成する。 さらに,我々の融合モデルは,再学習することなく,ガゼッタにおける新たな言及に迅速に適応することができ,提案する融合モデルからのゲインは関連するデータセットに転送可能である。

Incorporating external knowledge into Named Entity Recognition (NER) systems has been widely studied in the generic domain. In this paper, we focus on clinical domain where only limited data is accessible and interpretability is important. Recent advancement in technology and the acceleration of clinical trials has resulted in the discovery of new drugs, procedures as well as medical conditions. These factors motivate towards building robust zero-shot NER systems which can quickly adapt to new medical terminology. We propose an auxiliary gazetteer model and fuse it with an NER system, which results in better robustness and interpretability across different clinical datasets. Our gazetteer based fusion model is data efficient, achieving +1.7 micro-F1 gains on the i2b2 dataset using 20% training data, and brings + 4.7 micro-F1 gains on novel entity mentions never presented during training. Moreover, our fusion model is able to quickly adapt to new mentions in gazetteers without re-training and the gains from the proposed fusion model are transferable to related datasets.
翻訳日:2021-05-28 16:40:28 公開日:2021-05-27
# 画像に基づくプラントワイティング推定

Image-Based Plant Wilting Estimation ( http://arxiv.org/abs/2105.12926v1 )

ライセンス: Link先を確認
Changye Yang, Sriram Baireddy, Enyu Cai, Valerian Meline, Denise Caldwell, Anjali S. Iyer-Pascuzzi, Edward J. Delp(参考訳) 多くの植物は、熱、水の喪失、病気によって、しわや垂れ落ちる。 これはワイルティング(Wilting)とも呼ばれる。 本稿では,細菌感染による植物破壊について検討する。 特に,植物から取得した画像に基づいてワイルティングのためのメトリクスを設計したい。 定量化ワイルティング計量は、細菌のワイルトの研究や耐性遺伝子の同定に有用である。 ワイルティングを推定する標準的な方法がないため、アドホックな視覚スコアを用いるのが一般的である。 これは非常に主観的であり、植物の専門知識と病気のメカニズムを必要とする。 我々のソリューションは、植物のRGB画像から取得した様々なワイルティングメトリクスを用いて構成される。 また,植物における反りの推定に有効であることを示すために,いくつかの実験を設計した。

Many plants become limp or droop through heat, loss of water, or disease. This is also known as wilting. In this paper, we examine plant wilting caused by bacterial infection. In particular, we want to design a metric for wilting based on images acquired of the plant. A quantifiable wilting metric will be useful in studying bacterial wilt and identifying resistance genes. Since there is no standard way to estimate wilting, it is common to use ad hoc visual scores. This is very subjective and requires expert knowledge of the plants and the disease mechanism. Our solution consists of using various wilting metrics acquired from RGB images of the plants. We also designed several experiments to demonstrate that our metrics are effective at estimating wilting in plants.
翻訳日:2021-05-28 16:39:56 公開日:2021-05-27
# Joint-DetNAS:NAS、プルーニング、動的蒸留による検出器のアップグレード

Joint-DetNAS: Upgrade Your Detector with NAS, Pruning and Dynamic Distillation ( http://arxiv.org/abs/2105.12971v1 )

ライセンス: Link先を確認
Lewei Yao, Renjie Pi, Hang Xu, Wei Zhang, Zhenguo Li, Tong Zhang(参考訳) オブジェクト検出のための統一NASフレームワークであるJoint-DetNASを提案し,ニューラルアーキテクチャ検索,プルーニング,知識蒸留という3つの重要なコンポーネントを統合した。 これらのテクニックをナビゲートする代わりに、Joint-DetNASはそれらを共同で最適化します。 このアルゴリズムは2つのコアプロセスで構成されている: 学生の射は学生のアーキテクチャを最適化し、冗長なパラメータを除去する。 動的蒸留を容易にするために、動的蒸留を容易にするために、弾力性のある教師プールを統合的なプログレッシブ縮小戦略によって訓練し、教師検出器をその後の検索で追加のコストなしでサンプリングすることができる。 入力としてベース検出器が与えられると、本アルゴリズムは、追加のトレーニングなしで、高パフォーマンスで派生した学生検出器を直接出力する。 実験により, 実験により, 継手デトナスは, ナイーブパイプライニングアプローチを大きく上回ることがわかった。 ベース検出器として古典的なR101-FPNが与えられた後、Joint-DetNASはMS COCOでmAPを41.4から43.9に引き上げ、遅延を47%削減した。 提案手法は,NAS,KD,プルーニングを共同で最適化する新しい方法を提供することを願っている。

We propose Joint-DetNAS, a unified NAS framework for object detection, which integrates 3 key components: Neural Architecture Search, pruning, and Knowledge Distillation. Instead of naively pipelining these techniques, our Joint-DetNAS optimizes them jointly. The algorithm consists of two core processes: student morphism optimizes the student's architecture and removes the redundant parameters, while dynamic distillation aims to find the optimal matching teacher. For student morphism, weight inheritance strategy is adopted, allowing the student to flexibly update its architecture while fully utilize the predecessor's weights, which considerably accelerates the search; To facilitate dynamic distillation, an elastic teacher pool is trained via integrated progressive shrinking strategy, from which teacher detectors can be sampled without additional cost in subsequent searches. Given a base detector as the input, our algorithm directly outputs the derived student detector with high performance without additional training. Experiments demonstrate that our Joint-DetNAS outperforms the naive pipelining approach by a great margin. Given a classic R101-FPN as the base detector, Joint-DetNAS is able to boost its mAP from 41.4 to 43.9 on MS COCO and reduce the latency by 47%, which is on par with the SOTA EfficientDet while requiring less search cost. We hope our proposed method can provide the community with a new way of jointly optimizing NAS, KD and pruning.
翻訳日:2021-05-28 16:39:39 公開日:2021-05-27
# 口の中にお金を置く: ディープラーニングを使って単語の使用から消費者の種族を識別する

Put your money where your mouth is: Using deep learning to identify consumer tribes from word usage ( http://arxiv.org/abs/2105.13036v1 )

ライセンス: Link先を確認
P. Gloor, A. Fronzetti Colladon, J. M. de Oliveira, P. Rovelli(参考訳) インターネットとソーシャルメディアは、マーケティング戦略を管理し競争上の優位性を得る新しい方法を提供する。 特定のトピック、製品、ブランドについてインターネットで表現するユーザーのグループは、しばしば仮想部族(virtual tribe)またはeトリブ(e-tribe)と呼ばれる。 しかし、これらの仮想部族の特徴を特定し、研究するための自動ツールはない。 そこで本稿では,Twitter 利用者の部族関係を明らかにするシステムである Tribefinder について,そのつぶやきや言語利用を分析して紹介する。 本手法の可能性を示すために, 代替現実性, ライフスタイル, レクリエーションの3つの部族マクロカテゴリーについて考察する。 さらに,言語と社会的相互作用の指標を用いて,識別された種族ごとに異なる特徴を考察する。 Tribefinderは、企業がマーケティング戦略を適切に設計し、学者が以前のマーケティング研究を拡張するために不可欠である仮想部族を研究するために、新しいレンズを採用することの重要性を説明している。

Internet and social media offer firms novel ways of managing their marketing strategy and gain competitive advantage. The groups of users expressing themselves on the Internet about a particular topic, product, or brand are frequently called a virtual tribe or E-tribe. However, there are no automatic tools for identifying and studying the characteristics of these virtual tribes. Towards this aim, this paper presents Tribefinder, a system to reveal Twitter users' tribal affiliations, by analyzing their tweets and language use. To show the potential of this instrument, we provide an example considering three specific tribal macro-categories: alternative realities, lifestyle, and recreation. In addition, we discuss the different characteristics of each identified tribe, in terms of use of language and social interaction metrics. Tribefinder illustrates the importance of adopting a new lens for studying virtual tribes, which is crucial for firms to properly design their marketing strategy, and for scholars to extend prior marketing research.
翻訳日:2021-05-28 16:39:03 公開日:2021-05-27
# 項の細粒度領域関連性の測定:階層的コアフィングアプローチ

Measuring Fine-Grained Domain Relevance of Terms: A Hierarchical Core-Fringe Approach ( http://arxiv.org/abs/2105.13255v1 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu(参考訳) 我々は、ある用語が広い領域(コンピュータ科学など)や狭い領域(ディープラーニングなど)に関係している程度について、きめ細かいドメインの関連性を測定することを提案する。 このような測定は、自然言語処理における多くの下流タスクに不可欠である。 長い語を扱うために、コアアンチョートな意味グラフを構築し、コア語と豊富な記述情報を使用して、巨大なフリンジ語を意味的に橋渡しします。 そこで我々は,ドメインの階層構造においてコンテキスト化された半教師付き方式で,コア語とフランジ語を共同で学習する階層的コアフランジ学習を開発した。 コストのかかる人的努力を減らすために,自動アノテーションと階層的肯定的学習を用いる。 私たちのアプローチは、大きなドメインや小さなドメインに適用し、頭や尾の用語をカバーし、人間の努力をほとんど必要としません。 大規模な実験により、我々の手法は強いベースラインを上回り、プロの人間のパフォーマンスを上回ります。

We propose to measure fine-grained domain relevance - the degree that a term is relevant to a broad (e.g., computer science) or narrow (e.g., deep learning) domain. Such measurement is crucial for many downstream tasks in natural language processing. To handle long-tail terms, we build a core-anchored semantic graph, which uses core terms with rich description information to bridge the vast remaining fringe terms semantically. To support a fine-grained domain without relying on a matching corpus for supervision, we develop hierarchical core-fringe learning, which learns core and fringe terms jointly in a semi-supervised manner contextualized in the hierarchy of the domain. To reduce expensive human efforts, we employ automatic annotation and hierarchical positive-unlabeled learning. Our approach applies to big or small domains, covers head or tail terms, and requires little human effort. Extensive experiments demonstrate that our methods outperform strong baselines and even surpass professional human performance.
翻訳日:2021-05-28 16:38:34 公開日:2021-05-27
# 市場グラフから見たスタートアッププロジェクトの資金調達実績の推定

Estimating Fund-Raising Performance for Start-up Projects from a Market Graph Perspective ( http://arxiv.org/abs/2105.12918v1 )

ライセンス: Link先を確認
Likang Wu, Zhi Li, Hongke Zhao, Qi Liu, Enhong Chen(参考訳) オンラインイノベーション市場では、スタートアッププロジェクトの資金調達パフォーマンスは、クリエーター、投資家、プラットフォームにとって問題となる。 残念なことに、既存の研究はプロジェクトの公開後の資金調達プロセスのモデル化に常に焦点を合わせているが、セットアップ前の市場でのプロジェクトアトラクションの予測はほとんど未定である。 通常、この予測は常にスタートアッププロジェクトと市場環境の両方を包括的に理解する上で大きな課題を抱えています。 そこで,本稿では,市場グラフの観点から,この課題に焦点をあてた研究を行う。 具体的には,市場環境を利用して未公開プロジェクトの資金調達実績を予測するグラフベース市場環境(gme)モデルを提案する。 さらに、2つのグラフベースのニューラルネットワークアーキテクチャを設計し、それらを共同最適化段階に組み込むことにより、プロジェクトの競争性と市場優先性を識別的にモデル化する。 さらに、大規模市場グラフにおける動的環境による情報伝搬問題を探るため、競合性定量化と階層的伝搬アルゴリズムを並列化してGMEモデルを拡張した。 最後に,実世界データに関する広範囲な実験を行う。 実験の結果,提案モデルの有効性が明らかとなった。

In the online innovation market, the fund-raising performance of the start-up project is a concerning issue for creators, investors and platforms. Unfortunately, existing studies always focus on modeling the fund-raising process after the publishment of a project but the predicting of a project attraction in the market before setting up is largely unexploited. Usually, this prediction is always with great challenges to making a comprehensive understanding of both the start-up project and market environment. To that end, in this paper, we present a focused study on this important problem from a market graph perspective. Specifically, we propose a Graph-based Market Environment (GME) model for predicting the fund-raising performance of the unpublished project by exploiting the market environment. In addition, we discriminatively model the project competitiveness and market preferences by designing two graph-based neural network architectures and incorporating them into a joint optimization stage. Furthermore, to explore the information propagation problem with dynamic environment in a large-scale market graph, we extend the GME model with parallelizing competitiveness quantification and hierarchical propagation algorithm. Finally, we conduct extensive experiments on real-world data. The experimental results clearly demonstrate the effectiveness of our proposed model.
翻訳日:2021-05-28 16:38:03 公開日:2021-05-27
# AndroidEnv: Androidの強化学習プラットフォーム

AndroidEnv: A Reinforcement Learning Platform for Android ( http://arxiv.org/abs/2105.13231v1 )

ライセンス: Link先を確認
Daniel Toyama, Philippe Hamel, Anita Gergely, Gheorghe Comanici, Amelia Glaese, Zafarali Ahmed, Tyler Jackson, Shibl Mourad and Doina Precup(参考訳) Androidエコシステム上に構築された強化学習(RL)研究用のオープンソースプラットフォームであるAndroidEnvを紹介する。 AndroidEnvは、RLエージェントがユニバーサルタッチスクリーンインターフェースを通じて、人間が一般的に使用するさまざまなアプリやサービスと対話することを可能にする。 エージェントはandroidデバイスの現実的なシミュレーションをトレーニングするため、実際のデバイスにデプロイされる可能性がある。 本報告では,この環境を概観し,それが研究にもたらす重要な特徴を明らかにするとともに,このプラットフォーム上に構築された一連のタスクに対して,一般的な強化学習エージェントを実証的に評価する。

We introduce AndroidEnv, an open-source platform for Reinforcement Learning (RL) research built on top of the Android ecosystem. AndroidEnv allows RL agents to interact with a wide variety of apps and services commonly used by humans through a universal touchscreen interface. Since agents train on a realistic simulation of an Android device, they have the potential to be deployed on real devices. In this report, we give an overview of the environment, highlighting the significant features it provides for research, and we present an empirical evaluation of some popular reinforcement learning agents on a set of tasks built on this platform.
翻訳日:2021-05-28 16:36:37 公開日:2021-05-27
# $\ell_1$-regularizat ionとbi-fidelityデータを用いたニューラルネットワークトレーニング

Neural Network Training Using $\ell_1$-Regularizat ion and Bi-fidelity Data ( http://arxiv.org/abs/2105.13011v1 )

ライセンス: Link先を確認
Subhayan De and Alireza Doostan(参考訳) 物理系のモデルの入力と興味の出力との間の機能的関係を正確に表現する能力により、ニューラルネットワークは科学応用における代理モデリングに人気がある。 しかしながら、これらのネットワークは過パラメータ化されているため、トレーニングには大量のデータを必要とすることが多い。 オーバーフィッティングを防止し、一般化誤差を改善するために、パラメータの$\ell_1$- および $\ell_2$-norms に基づく正規化を適用する。 同様に、ネットワークの複数の接続をprunしてネットワークパラメータのスパーシティを高めることもできる。 本稿では,高忠実度モデルから少量のトレーニングデータセットのみを利用できる場合,ニューラルネットワークのトレーニングに$\ell_1$-regularizat ionを助長するスパーシリティの効果について検討する。 標準の$\ell_1$-regularizat ionが不十分であることが知られているのに対し、問題の低忠実度モデルからのデータを用いて訓練された同一ネットワークのパラメータから入力される$\ell_1$-regularizat ionの2つの変種を考える。 これらのバイフィデリティ戦略は、大きな低フィデリティデータセットから学んだパラメータを使用して、小さな高フィデリティデータセットのためにネットワークを効率的にトレーニングするニューラルネットワークの転送学習の一般化である。 また,高忠実度データセットのみを使用する2つの$\ell_1$-regularizat ion手法との比較を行った。 物理系を介して不確実性を伝播する3つの数値的な例を用いて、提案した二相性$\ell_1$-regularizat ion戦略が、高忠実度モデルからのデータセットのみを用いてトレーニングされたネットワークの1桁の誤差を生成することを示す。

With the capability of accurately representing a functional relationship between the inputs of a physical system's model and output quantities of interest, neural networks have become popular for surrogate modeling in scientific applications. However, as these networks are over-parameterized, their training often requires a large amount of data. To prevent overfitting and improve generalization error, regularization based on, e.g., $\ell_1$- and $\ell_2$-norms of the parameters is applied. Similarly, multiple connections of the network may be pruned to increase sparsity in the network parameters. In this paper, we explore the effects of sparsity promoting $\ell_1$-regularizat ion on training neural networks when only a small training dataset from a high-fidelity model is available. As opposed to standard $\ell_1$-regularizat ion that is known to be inadequate, we consider two variants of $\ell_1$-regularizat ion informed by the parameters of an identical network trained using data from lower-fidelity models of the problem at hand. These bi-fidelity strategies are generalizations of transfer learning of neural networks that uses the parameters learned from a large low-fidelity dataset to efficiently train networks for a small high-fidelity dataset. We also compare the bi-fidelity strategies with two $\ell_1$-regularizat ion methods that only use the high-fidelity dataset. Three numerical examples for propagating uncertainty through physical systems are used to show that the proposed bi-fidelity $\ell_1$-regularizat ion strategies produce errors that are one order of magnitude smaller than those of networks trained only using datasets from the high-fidelity models.
翻訳日:2021-05-28 16:35:26 公開日:2021-05-27
# 大規模ランダムグラフ上のグラフニューラルネットワークの普遍性について

On the Universality of Graph Neural Networks on Large Random Graphs ( http://arxiv.org/abs/2105.13099v1 )

ライセンス: Link先を確認
Nicolas Keriven, Alberto Bietti, Samuel Vaiter(参考訳) グラフニューラルネットワーク(GNN)の潜在位置ランダムグラフに対する近似能力について検討する。 大きなグラフ極限では、GNNはc-GNNとして知られるある種の「連続」モデルに収束することが知られており、ランダムグラフモデルに対する近似力を直接的に研究することができる。 しかし、入力ノード機能がない場合、Weisfeiler-Lehman同型テストによってGNNが制限されるのと同様に、c-GNNは単純なランダムグラフモデルに対して著しく制限される。 例えば、定次関数を持つよく分離された確率ブロックモデル(sbm)のコミュニティを区別できない。 そこで本稿では,GNNを独自のノード識別子で拡張するアーキテクチャを,グラフウェーブレットニューラルネットワーク(GWNN)と呼ぶことがある。 本研究では,ノード識別子の新たな条件下で,大きなランダムグラフ極限におけるgwnnの連続対応(c-gwnn)への収束について検討する。 次に、c-gwnn は連続極限において c-gnn よりも厳密に強く、多くの sbm や大きなランダムな幾何グラフを含むいくつかのランダムグラフモデル上でそれらの普遍性を証明する。 この結果は置換不変量と置換同値なアーキテクチャの両方をカバーする。

We study the approximation power of Graph Neural Networks (GNNs) on latent position random graphs. In the large graph limit, GNNs are known to converge to certain "continuous" models known as c-GNNs, which directly enables a study of their approximation power on random graph models. In the absence of input node features however, just as GNNs are limited by the Weisfeiler-Lehman isomorphism test, c-GNNs will be severely limited on simple random graph models. For instance, they will fail to distinguish the communities of a well-separated Stochastic Block Model (SBM) with constant degree function. Thus, we consider recently proposed architectures that augment GNNs with unique node identifiers, sometimes referred to as Graph Wavelets Neural Networks (GWNNs). We study the convergence of GWNNs to their continuous counterpart (c-GWNNs) in the large random graph limit, under new conditions on the node identifiers. We then show that c-GWNNs are strictly more powerful than c-GNNs in the continuous limit, and prove their universality on several random graph models of interest, including most SBMs and a large class of random geometric graphs. Our results cover both permutation-invarian t and permutation-equivari ant architectures.
翻訳日:2021-05-28 16:34:37 公開日:2021-05-27
# 制約問題に対するベイズ最適化

Bayesian Optimisation for Constrained Problems ( http://arxiv.org/abs/2105.13245v1 )

ライセンス: Link先を確認
Juan Ungredda and Juergen Branke(参考訳) 機械学習におけるハイパーパラメータチューニングやシミュレーションベースの最適化といった現実世界の多くの最適化問題は、高価なブラックボックス関数として定式化することができる。 このような問題に対処する一般的なアプローチは、これまでに収集したデータに基づいて応答面モデルを構築するベイズ最適化(bo)であり、モデルが予測した平均と不確実性を使用して、次に収集する情報を決定する。 本稿では,制約を扱えるような,よく知られた知識グラディエント獲得関数の新たな変種を提案する。 新しいアルゴリズムを4つの最先端制約ベイズ最適化アルゴリズムと比較し,その優れた性能を示す。 また、無限予算限界における理論的収束も証明する。

Many real-world optimisation problems such as hyperparameter tuning in machine learning or simulation-based optimisation can be formulated as expensive-to-evaluat e black-box functions. A popular approach to tackle such problems is Bayesian optimisation (BO), which builds a response surface model based on the data collected so far, and uses the mean and uncertainty predicted by the model to decide what information to collect next. In this paper, we propose a novel variant of the well-known Knowledge Gradient acquisition function that allows it to handle constraints. We empirically compare the new algorithm with four other state-of-the-art constrained Bayesian optimisation algorithms and demonstrate its superior performance. We also prove theoretical convergence in the infinite budget limit.
翻訳日:2021-05-28 16:34:01 公開日:2021-05-27
# テストエラーを効果的に低減するトレーニング中の画像当たりの複数拡張サンプルの描画

Drawing Multiple Augmentation Samples Per Image During Training Efficiently Decreases Test Error ( http://arxiv.org/abs/2105.13343v1 )

ライセンス: Link先を確認
Stanislav Fort, Andrew Brock, Razvan Pascanu, Soham De, Samuel L. Smith(参考訳) コンピュータビジョンでは、ミニバッチ内の各ユニークな画像に対して、データ拡張手順から1つのサンプルを描くのが一般的であるが、この選択が一般化に最適かどうかは不明である。 本研究では,一意画像当たりの増補サンプルの数が保持データの性能に与える影響について,実験的な評価を行う。 注目すべきは、画像毎に複数のサンプルを描画することで、各ミニバッチにおけるユニークなトレーニング例の数を減らしながら、小さなバッチトレーニングと大規模なバッチトレーニングの両方で達成されたテスト精度が一貫して向上することである。 この利点は、異なる拡張乗算が同じ数のパラメータ更新と勾配評価を実行しても生じる。 その結果,データセットのサブサンプリングによる勾配推定のばらつきは暗黙の正規化効果を持つものの,データ拡張過程から生じるばらつきはテスト精度を損なうことが示唆された。 最近提案されたNFNetモデルファミリに増乗乗法を適用することで、86.8$\%$ top-1 w/o余剰データの新たなImageNet状態を実現する。

In computer vision, it is standard practice to draw a single sample from the data augmentation procedure for each unique image in the mini-batch, however it is not clear whether this choice is optimal for generalization. In this work, we provide a detailed empirical evaluation of how the number of augmentation samples per unique image influences performance on held out data. Remarkably, we find that drawing multiple samples per image consistently enhances the test accuracy achieved for both small and large batch training, despite reducing the number of unique training examples in each mini-batch. This benefit arises even when different augmentation multiplicities perform the same number of parameter updates and gradient evaluations. Our results suggest that, although the variance in the gradient estimate arising from subsampling the dataset has an implicit regularization benefit, the variance which arises from the data augmentation process harms test accuracy. By applying augmentation multiplicity to the recently proposed NFNet model family, we achieve a new ImageNet state of the art of 86.8$\%$ top-1 w/o extra data.
翻訳日:2021-05-28 16:33:27 公開日:2021-05-27
# MAGI-X:未知システムダイナミクスのためのマニフォールド制約ガウス過程推論

MAGI-X: Manifold-Constrained Gaussian Process Inference for Unknown System Dynamics ( http://arxiv.org/abs/2105.12894v1 )

ライセンス: Link先を確認
Chaofan Huang, Simin Ma, Shihao Yang(参考訳) 力学系を特徴付けるのによく使われる常微分方程式(ODE)は、ドメインエキスパートの助けを借りて、多くの複雑な科学的応用に対して閉形式で提案することは困難である。 ドメイン知識を必要とせず、非パラメトリックな方法で観測データから未知の力学を学ぶための高速で正確なデータ駆動手法であるmagi-xを提案する。 主にコストのかかる数値積分に依存する既存の手法とは異なり、MAGI-Xはニューラルネットワークの強力な機能近似を用いて、数値積分を完全に回避するManifold-Constrained Gaussian Process Inference (MAGI)フレームワーク内で未知の非線形ダイナミクスを学ぶ。 3つの実例における最先端の手法と比較して、MAGI-Xは、計算時間のみを要し、適合性と予測の両方において競争精度を達成する。 さらに、MAGI-Xは、従来の方法では扱えない部分的な観測システムの推論に実用的な解決策を提供する。

Ordinary differential equations (ODEs), commonly used to characterize the dynamic systems, are difficult to propose in closed-form for many complicated scientific applications, even with the help of domain expert. We propose a fast and accurate data-driven method, MAGI-X, to learn the unknown dynamic from the observation data in a non-parametric fashion, without the need of any domain knowledge. Unlike the existing methods that mainly rely on the costly numerical integration, MAGI-X utilizes the powerful functional approximator of neural network to learn the unknown nonlinear dynamic within the MAnifold-constrained Gaussian process Inference (MAGI) framework that completely circumvents the numerical integration. Comparing against the state-of-the-art methods on three realistic examples, MAGI-X achieves competitive accuracy in both fitting and forecasting while only taking a fraction of computational time. Moreover, MAGI-X provides practical solution for the inference of partial observed systems, which no previous method is able to handle.
翻訳日:2021-05-28 16:31:27 公開日:2021-05-27
# 推薦のための線形モデルの理解を深める

Towards a Better Understanding of Linear Models for Recommendation ( http://arxiv.org/abs/2105.12937v1 )

ライセンス: Link先を確認
Ruoming Jin and Dong Li and Jing Gao and Zhi Liu and Li Chen and Yang Zhou(参考訳) 近年、EASEやSLIMのような線形回帰モデルは、より洗練されたディープラーニングモデルに対してかなり競争力のある結果をもたらすことがしばしば示されている。 一方、(重み付けされた)行列分解アプローチは、過去に推奨の選択肢として人気があり、業界で広く採用されてきた。 本研究では,モデルベースレコメンデーションの基礎となる2つのアプローチの関係を理論的に理解することを目的とする。 2つの基本回帰および行列因数分解に対する閉形式解の導出と解析により、これらの2つのアプローチは本質的に関連性があるが、元のユーザ-イテム相互作用行列の特異値の「スケールダウン」方法にも相違があることが判明した。 この分析は、正規化パラメータ範囲とモデル複雑度に関連する問題の解決にも役立ちます。 さらに,閉形式解の(ハイパー)パラメータを探索する新しい学習アルゴリズムを導入し,それを用いて既存解の近傍モデルの発見を行う。 実験結果から, 基本モデルとその閉形式解は, 現状のモデルとかなり競合していることが明らかとなり, 基礎モデル研究の有効性が確認された。 近くのモデルを探索する効果も実験的に検証される。

Recently, linear regression models, such as EASE and SLIM, have shown to often produce rather competitive results against more sophisticated deep learning models. On the other side, the (weighted) matrix factorization approaches have been popular choices for recommendation in the past and widely adopted in the industry. In this work, we aim to theoretically understand the relationship between these two approaches, which are the cornerstones of model-based recommendations. Through the derivation and analysis of the closed-form solutions for two basic regression and matrix factorization approaches, we found these two approaches are indeed inherently related but also diverge in how they "scale-down" the singular values of the original user-item interaction matrix. This analysis also helps resolve the questions related to the regularization parameter range and model complexities. We further introduce a new learning algorithm in searching (hyper)parameters for the closed-form solution and utilize it to discover the nearby models of the existing solutions. The experimental results demonstrate that the basic models and their closed-form solutions are indeed quite competitive against the state-of-the-art models, thus, confirming the validity of studying the basic models. The effectiveness of exploring the nearby models are also experimentally validated.
翻訳日:2021-05-28 16:30:56 公開日:2021-05-27
# 学習分布のための生成型adversarial networkの誤り解析

An error analysis of generative adversarial networks for learning distributions ( http://arxiv.org/abs/2105.13010v1 )

ライセンス: Link先を確認
Jian Huang, Yuling Jiao, Zhen Li, Shiao Liu, Yang Wang, Yunfei Yang(参考訳) 本稿では,GANが有限標本から確率分布をいかによく学習するかを検討する。 我々の主な結果は,wasserstein距離を特別に含むh\"olderクラスを通じて定義される積分的確率計量の集合の下でのganの収束率を推定する。 また,ネットワークアーキテクチャが適切に選択された場合,GANは低次元構造を持つデータ分布を適応的に学習したり,より古い密度を持つことを示す。 特に、分布が低次元集合を中心に集中すると、GANの学習速度は高い周囲次元ではなく低い内在次元に依存することが証明される。 今回の分析は,推定誤差をジェネレータと判別子近似誤差と統計誤差に分解する,oracleの新たな不等式に基づいている。

This paper studies how well generative adversarial networks (GANs) learn probability distributions from finite samples. Our main results estimate the convergence rates of GANs under a collection of integral probability metrics defined through H\"older classes, including the Wasserstein distance as a special case. We also show that GANs are able to adaptively learn data distributions with low-dimensional structure or have H\"older densities, when the network architectures are chosen properly. In particular, for distributions concentrate around a low-dimensional set, it is proved that the learning rates of GANs do not depend on the high ambient dimension, but on the lower intrinsic dimension. Our analysis is based on a new oracle inequality decomposing the estimation error into generator and discriminator approximation error and statistical error, which may be of independent interest.
翻訳日:2021-05-28 16:30:21 公開日:2021-05-27
# ランダム化特異値分解の一般化

A generalization of the randomized singular value decomposition ( http://arxiv.org/abs/2105.13052v1 )

ライセンス: Link先を確認
Nicolas Boull\'e, Alex Townsend(参考訳) ランダム化特異値分解(SVD)は、標準的なガウスベクトルを持つ行列ベクトル積を用いて行列の$A$の近似を最上位の$k$で計算するアルゴリズムである。 ここでは、ランダム化svdの理論を多変数ガウスベクトルに一般化し、アルゴリズムに$a$の事前知識を組み込むことができる。 これにより、Hilbert-Schmidt (HS) 作用素に対するランダム化された SVD の連続的な類似を、ガウス過程 (GP) から引き出された関数を持つ作用素関数積を用いて探索することができる。 次に、重み付きヤコビ多項式に基づくGPの新しい共分散カーネルを構築し、GPを迅速にサンプリングし、ランダムに生成された関数の滑らかさを制御する。 行列とHS演算子の数値例はアルゴリズムの適用性を示している。

The randomized singular value decomposition (SVD) is a popular and effective algorithm for computing a near-best rank $k$ approximation of a matrix $A$ using matrix-vector products with standard Gaussian vectors. Here, we generalize the theory of randomized SVD to multivariable Gaussian vectors, allowing one to incorporate prior knowledge of $A$ into the algorithm. This enables us to explore the continuous analogue of the randomized SVD for Hilbert--Schmidt (HS) operators using operator-function products with functions drawn from a Gaussian process (GP). We then construct a new covariance kernel for GPs, based on weighted Jacobi polynomials, which allows us to rapidly sample the GP and control the smoothness of the randomly generated functions. Numerical examples on matrices and HS operators demonstrate the applicability of the algorithm.
翻訳日:2021-05-28 16:29:57 公開日:2021-05-27
# ノード埋め込みの不可能性理論

An Impossibility Theorem for Node Embedding ( http://arxiv.org/abs/2105.13251v1 )

ライセンス: Link先を確認
T. Mitchell Roddenberry, Yu Zhu, Santiago Segarra(参考訳) 次元減少と表現学習のためのグラフベースの手法の人気が高まり、ノード埋め込み関数は文学において重要な研究対象となっている。 本稿では,ノード埋め込み法を理解するための公理的なアプローチを取り,まず,類似性ネットワークを組込むための3つの性質を述べる。 ある種の公理的仮定の下でのクラスタリングの不可能性に関する既存の結果と同様、これはノード埋め込みタスクに固有の根本的な困難を指摘する。 これらの困難が特定されると、これらの公理を緩和して、特定のノード埋め込みメソッドをフレームワークで許容できるようにします。

With the increasing popularity of graph-based methods for dimensionality reduction and representation learning, node embedding functions have become important objects of study in the literature. In this paper, we take an axiomatic approach to understanding node embedding methods, first stating three properties for embedding dissimilarity networks, then proving that all three cannot be satisfied simultaneously by any node embedding method. Similar to existing results on the impossibility of clustering under certain axiomatic assumptions, this points to fundamental difficulties inherent to node embedding tasks. Once these difficulties are identified, we then relax these axioms to allow for certain node embedding methods to be admissible in our framework.
翻訳日:2021-05-28 16:29:37 公開日:2021-05-27
# 医用診断・分析のためのグラフベース深層学習:過去・現在・未来

Graph-Based Deep Learning for Medical Diagnosis and Analysis: Past, Present and Future ( http://arxiv.org/abs/2105.13137v1 )

ライセンス: Link先を確認
David Ahmedt-Aristizabal, Mohammad Ali Armin, Simon Denman, Clinton Fookes, Lars Petersson(参考訳) データ駆動機械学習研究の進歩により、様々な予測問題に取り組んできた。 機械学習、特に深層学習手法が医療データ分析にどのように活用できるかを探求することが重要になっている。 既存の方法の大きな制限はグリッドのようなデータに焦点を合わせることであるが、生理的記録の構造はしばしば不規則で順序付けされていないため、それらを行列として概念化することは困難である。 このように、グラフニューラルネットワークは、生物学的システムに存在する暗黙の情報を活用し、重みが時間的関連または解剖学的結合であるエッジで接続された対話ノードによって大きな注目を集めている。 本調査では,異なるタイプのグラフアーキテクチャとその医療への応用について概観する。 機能的接続性,解剖学的構造,電気的解析などの応用領域を整理し,それらの手法の概要を体系的に示す。 また,既存技術の限界について概説し,今後の研究の方向性について論じる。

With the advances of data-driven machine learning research, a wide variety of prediction problems have been tackled. It has become critical to explore how machine learning and specifically deep learning methods can be exploited to analyse healthcare data. A major limitation of existing methods has been the focus on grid-like data; however, the structure of physiological recordings are often irregular and unordered which makes it difficult to conceptualise them as a matrix. As such, graph neural networks have attracted significant attention by exploiting implicit information that resides in a biological system, with interactive nodes connected by edges whose weights can be either temporal associations or anatomical junctions. In this survey, we thoroughly review the different types of graph architectures and their applications in healthcare. We provide an overview of these methods in a systematic manner, organized by their domain of application including functional connectivity, anatomical structure and electrical-based analysis. We also outline the limitations of existing techniques and discuss potential directions for future research.
翻訳日:2021-05-28 16:29:18 公開日:2021-05-27
# TENSILE: 複数の動的ワークロードシステムに向けたテンソル粒度動的GPUメモリスケジューラ手法

TENSILE: A Tensor granularity dynamic GPU memory scheduler method towards multiple dynamic workloads system ( http://arxiv.org/abs/2105.13336v1 )

ライセンス: Link先を確認
Kaixin Zhang, Hongzhi Wang, Tongxin Li, Han Hu, Jiye Qiu, Songling Zou(参考訳) 近年、深層学習は激しい研究の領域となっている。 しかし、計算集約的なタスクの一種として、ディープラーニングはgpuメモリの規模に大きく依存しています。 動的GPUメモリ管理には広範な研究が提案されているが、データベース内機械学習システムのようなマルチタスク動的ワークロードを持つシステムに適用することは困難である。 本稿では,GPUメモリをテンソル粒度で管理し,GPUメモリのピークを減らし,マルチタスクの動的ワークロードを考慮に入れたTENSILEを実演した。 私たちが知る限り、テンションは複数のワークロードのgpuメモリを管理するために設計された最初の方法です。 我々は、自身のディープラーニングフレームワークにTENSILEを実装し、その性能を評価した。 実験の結果,本手法は,より多くのgpuメモリを節約した前処理よりも少ない時間オーバーヘッドを達成できることがわかった。

Recently, deep learning has been an area of intense researching. However, as a kind of computing intensive task, deep learning highly relies on the the scale of the GPU memory, which is usually expensive and scarce. Although there are some extensive works have been proposed for dynamic GPU memory management, they are hard to be applied to systems with multitasking dynamic workloads, such as in-database machine learning system. In this paper, we demonstrated TENSILE, a method of managing GPU memory in tensor granularity to reduce the GPU memory peak, with taking the multitasking dynamic workloads into consideration. As far as we know, TENSILE is the first method which is designed to manage multiple workloads' GPU memory using. We implement TENSILE on our own deep learning framework, and evaluated its performance. The experiment results shows that our method can achieve less time overhead than prior works with more GPU memory saved.
翻訳日:2021-05-28 16:28:51 公開日:2021-05-27
# 動的空間フィルタリングによる劣化脳波からのロバスト学習

Robust learning from corrupted EEG with dynamic spatial filtering ( http://arxiv.org/abs/2105.12916v1 )

ライセンス: Link先を確認
Hubert Banville, Sean U.N. Wood, Chris Aimone, Denis-Alexander Engemann and Alexandre Gramfort(参考訳) 実験室の外で記録されたEEGを使用して機械学習モデルを構築するには、ノイズの多いデータとランダムに欠落したチャネルに対して堅牢な方法が必要である。 このニーズは、コンシューマグレードやモバイルのEEGデバイスでしばしば発生する、スパースなEEGモンタージュ(1-6チャネル)を扱う場合、特に大きい。 古典的な機械学習モデルや、脳波でエンドツーエンドを訓練したディープニューラルネットワークは、典型的には、腐敗に対する堅牢性、特にランダムに欠けているチャネルのために設計またはテストされない。 チャネルが不足しているデータを使用するための戦略を提案している研究もあるが、スパースモンタージュが使われ、計算能力(例えばウェアラブルや携帯電話)が限られている場合には、これらのアプローチは実用的ではない。 この問題に対処するために,ニューラルネットワークの第1層の前に挿入可能なマルチヘッドアテンションモジュールである動的空間フィルタリング(DSF)を提案する。 我々は, チャネル破壊をシミュレーションした4,000以上の記録を含む公開脳波データと, 自然腐敗のある100以上の家庭内記録のプライベートデータセットを用いて, dsfをテストした。 提案手法は,ノイズを伴わない場合のベースラインモデルと同じ性能を実現するが,有意なチャネル破壊が発生した場合のベースラインの精度は29.4%も向上する。 さらに、DSF出力は解釈可能であり、リアルタイムでチャンネルの重要度を監視することができる。 このアプローチは、チャンネルの腐敗が脳信号の読み取りを阻害する困難な環境で脳波の分析を可能にする可能性がある。

Building machine learning models using EEG recorded outside of the laboratory setting requires methods robust to noisy data and randomly missing channels. This need is particularly great when working with sparse EEG montages (1-6 channels), often encountered in consumer-grade or mobile EEG devices. Neither classical machine learning models nor deep neural networks trained end-to-end on EEG are typically designed or tested for robustness to corruption, and especially to randomly missing channels. While some studies have proposed strategies for using data with missing channels, these approaches are not practical when sparse montages are used and computing power is limited (e.g., wearables, cell phones). To tackle this problem, we propose dynamic spatial filtering (DSF), a multi-head attention module that can be plugged in before the first layer of a neural network to handle missing EEG channels by learning to focus on good channels and to ignore bad ones. We tested DSF on public EEG data encompassing ~4,000 recordings with simulated channel corruption and on a private dataset of ~100 at-home recordings of mobile EEG with natural corruption. Our proposed approach achieves the same performance as baseline models when no noise is applied, but outperforms baselines by as much as 29.4% accuracy when significant channel corruption is present. Moreover, DSF outputs are interpretable, making it possible to monitor channel importance in real-time. This approach has the potential to enable the analysis of EEG in challenging settings where channel corruption hampers the reading of brain signals.
翻訳日:2021-05-28 16:28:25 公開日:2021-05-27
# SLOPEトレードオフの特徴付け:変分的視点とDonoho-Tanner制限

Characterizing the SLOPE Trade-off: A Variational Perspective and the Donoho-Tanner Limit ( http://arxiv.org/abs/2105.13302v1 )

ライセンス: Link先を確認
Zhiqi Bu, Jason Klusowski, Cynthia Rush, Weijie J. Su(参考訳) 線形回帰におけるSLOPE推定器を含む高次元統計的推定問題を解くための多くの方法に、sorted l1正規化が組み込まれている。 本稿では,この比較的新しい正規化手法が,偽発見率 (fdp) と真正率 (tpp) の最適な傾きトレードオフを特徴付けることで,変数選択をいかに改善するか,あるいは,タイプiの誤差とパワーの尺度を等価に評価する。 線形スパーシティのレジームを仮定し、ガウスのランダムな設計の下で働くことを仮定し、スロープの最適トレードオフを上限とし、ドノホ・タナーのパワー限界を破る能力を示す。 この限界は、おそらく最も人気のあるl1ベースの手法であるlassoが、任意に強い効果サイズでも達成できる最大の力である。 次に、TPP に対して FDP を最適に取引する際に、ソートした l1 正規化の基本極限を規定する厳密な下限を導出する。 最後に、任意の問題に対して、ある正規化シーケンスを持つSLOPEは、より小さいFDP、大きいTPP、小さいl2推定リスクを同時に持つという意味で、Lassoよりも優れていることを示す。 我々の証明は、変動計算問題を無限次元凸最適化問題に還元する新しい手法と、近似メッセージパッシング理論による非常に最近の結果に基づいている。

Sorted l1 regularization has been incorporated into many methods for solving high-dimensional statistical estimation problems, including the SLOPE estimator in linear regression. In this paper, we study how this relatively new regularization technique improves variable selection by characterizing the optimal SLOPE trade-off between the false discovery proportion (FDP) and true positive proportion (TPP) or, equivalently, between measures of type I error and power. Assuming a regime of linear sparsity and working under Gaussian random designs, we obtain an upper bound on the optimal trade-off for SLOPE, showing its capability of breaking the Donoho-Tanner power limit. To put it into perspective, this limit is the highest possible power that the Lasso, which is perhaps the most popular l1-based method, can achieve even with arbitrarily strong effect sizes. Next, we derive a tight lower bound that delineates the fundamental limit of sorted l1 regularization in optimally trading the FDP off for the TPP. Finally, we show that on any problem instance, SLOPE with a certain regularization sequence outperforms the Lasso, in the sense of having a smaller FDP, larger TPP and smaller l2 estimation risk simultaneously. Our proofs are based on a novel technique that reduces a variational calculus problem to a class of infinite-dimensional convex optimization problems and a very recent result from approximate message passing theory.
翻訳日:2021-05-28 16:27:40 公開日:2021-05-27
# 蒸留データ複雑度は非自己回帰機械翻訳の品質と信頼性にどのように影響するか?

How Does Distilled Data Complexity Impact the Quality and Confidence of Non-Autoregressive Machine Translation? ( http://arxiv.org/abs/2105.12900v1 )

ライセンス: Link先を確認
Weijia Xu, Shuming Ma, Dongdong Zhang, Marine Carpuat(参考訳) 非自己回帰型(nar)モデルは機械翻訳に大いに期待されているが、その使用は自己回帰型モデルからの知識蒸留に依存するため制限されている。 この問題に対処するため,蒸留がなぜ効果的かを理解する。 先行研究では、蒸留訓練データは手動翻訳よりも複雑ではないことを示唆している。 Based on experiments with the Levenshtein Transformer and the Mask-Predict NAR models on the WMT14 German-English task, this paper shows that different types of complexity have different impacts: while reducing lexical diversity and decreasing reordering complexity both help NAR learn better alignment between source and target, and thus improve translation quality, lexical diversity is the main reason why distillation increases model confidence, which affects the calibration of different NAR models differently.

While non-autoregressive (NAR) models are showing great promise for machine translation, their use is limited by their dependence on knowledge distillation from autoregressive models. To address this issue, we seek to understand why distillation is so effective. Prior work suggests that distilled training data is less complex than manual translations. Based on experiments with the Levenshtein Transformer and the Mask-Predict NAR models on the WMT14 German-English task, this paper shows that different types of complexity have different impacts: while reducing lexical diversity and decreasing reordering complexity both help NAR learn better alignment between source and target, and thus improve translation quality, lexical diversity is the main reason why distillation increases model confidence, which affects the calibration of different NAR models differently.
翻訳日:2021-05-28 16:26:57 公開日:2021-05-27
# ドイツ・コビッドのソーシャルメディアにおける意見マイニングのためのラベル提案の検討

Investigating label suggestions for opinion mining in German Covid-19 social media ( http://arxiv.org/abs/2105.12980v1 )

ライセンス: Link先を確認
Tilman Beck, Ji-Ung Lee, Christina Viehmann, Marcus Maurer, Oliver Quiring, Iryna Gurevych(参考訳) 本研究は,ドイツ・コビッド19のソーシャルメディアデータにおける意見マイニング作業におけるアノテーション収集の効率向上のために,インタラクティブに更新されたラベル提案を使用することを検討する。 社会科の学生とのアノテーション研究の指導を行うためのガイドラインを開発し、専門家による小さなデータセットでトレーニングされたモデルからの提案は、アノテーション間の合意(+.14 fleiss' $\kappa$)とアノテーションの品質に関して、ラベルの推奨を受けていない学生と比較して、すでに大幅に改善されていることを見出します。 さらに、インタラクティブにトレーニングされたモデルからのラベル提案は、静的モデルからの提案よりも改善しないことがわかった。 それにもかかわらず、提案バイアスの分析は、アノテータが一般に提案されたラベルを反映できることを示す。 最後に,異なるアノテータ群間でのトランスファー学習実験において,アノテートデータの品質を確認する。 ソーシャルメディアデータに対する意見マイニングのさらなる研究を促進するために,200名と2,785名の学生アノテーションからなる収集データをリリースする。

This work investigates the use of interactively updated label suggestions to improve upon the efficiency of gathering annotations on the task of opinion mining in German Covid-19 social media data. We develop guidelines to conduct a controlled annotation study with social science students and find that suggestions from a model trained on a small, expert-annotated dataset already lead to a substantial improvement - in terms of inter-annotator agreement(+.14 Fleiss' $\kappa$) and annotation quality - compared to students that do not receive any label suggestions. We further find that label suggestions from interactively trained models do not lead to an improvement over suggestions from a static model. Nonetheless, our analysis of suggestion bias shows that annotators remain capable of reflecting upon the suggested label in general. Finally, we confirm the quality of the annotated data in transfer learning experiments between different annotator groups. To facilitate further research in opinion mining on social media data, we release our collected data consisting of 200 expert and 2,785 student annotations.
翻訳日:2021-05-28 16:26:40 公開日:2021-05-27
# Adaptive Nearest Neighbor Machine Translation

Adaptive Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2105.13022v1 )

ライセンス: Link先を確認
Xin Zheng, Zhirui Zhang, Junliang Guo, Shujian Huang, Boxing Chen, Weihua Luo and Jiajun Chen(参考訳) kNN-MT - Khandelwalらによって最近提案された。 (2020a)は、学習済みニューラルネットワーク翻訳(NMT)モデルとトークンレベルのk-nearest-neighbor(k NN)検索をうまく組み合わせ、翻訳精度を向上させる。 しかし、kNN-MTで使用される従来のkNNアルゴリズムは、ターゲットトークン毎に同じ数の近接した隣人を検索するだけで、取得した隣人がノイズを含む場合に予測エラーを引き起こす可能性がある。 本稿では,ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。 我々は,少量のトレーニングサンプルで効率的にトレーニングできる軽量なメタkネットワークを導入することで,これを実現する。 4つのベンチマーク機械翻訳データセットにおいて,提案手法が検索結果のノイズを効果的に除去し,vanilla knn-mtモデルを大きく上回ることを示す。 さらに注目すべきは、あるドメインで学習したMeta-kネットワークが、他のドメインに直接適用され、一貫した改善が得られ、メソッドの汎用性を示すことである。 私たちの実装は、https://github.com/z hengxxn/adaptive-knn -mtでオープンソースです。

kNN-MT, recently proposed by Khandelwal et al. (2020a), successfully combines pre-trained neural machine translation (NMT) model with token-level k-nearest-neighbor (kNN) retrieval to improve the translation accuracy. However, the traditional kNN algorithm used in kNN-MT simply retrieves a same number of nearest neighbors for each target token, which may cause prediction errors when the retrieved neighbors include noises. In this paper, we propose Adaptive kNN-MT to dynamically determine the number of k for each target token. We achieve this by introducing a light-weight Meta-k Network, which can be efficiently trained with only a few training samples. On four benchmark machine translation datasets, we demonstrate that the proposed method is able to effectively filter out the noises in retrieval results and significantly outperforms the vanilla kNN-MT model. Even more noteworthy is that the Meta-k Network learned on one domain could be directly applied to other domains and obtain consistent improvements, illustrating the generality of our method. Our implementation is open-sourced at https://github.com/z hengxxn/adaptive-knn -mt.
翻訳日:2021-05-28 16:26:05 公開日:2021-05-27
# 産業規模の動的ピックアップとデリバリー問題の最適化のための学習

Learning to Optimize Industry-Scale Dynamic Pickup and Delivery Problems ( http://arxiv.org/abs/2105.12899v1 )

ライセンス: Link先を確認
Xijun Li, Weilin Luo, Mingxuan Yuan, Jun Wang, Jiawen Lu, Jie Wang, Jinhu Lu and Jia Zeng(参考訳) dynamic pickup and delivery problem (dpdp) は,事前注文が分かっていない場合にコストを最小化するために,複数のサイト間で車両を動的にスケジューリングすることを目的としている。 DPDPは現代のロジスティクスやサプライチェーン管理において重要な役割を担っているが、最先端のDPDPアルゴリズムは依然としてソリューションの品質と効率に制限されている。 実際には、車両やサイトの数が大きくなるにつれて、スケーラブルなソリューションを提供できない。 本稿では,産業規模のDPDPを解決するために,データ駆動型空間時間援用ダブルディープグラフネットワーク(ST-DDGN)を提案する。 本手法では,配車時の配送需要の時空間分布をニューラルネットワークが知覚する時空間予測法を用いて,まず配送需要の予測を行う。 さらに、グラフベースの値関数を確立することにより、車両のような個人の関係をモデル化する。 ST-DDGNはDouble DQN (DDQN) とアテンションベースのグラフ埋め込みを組み込んでいる。 そのため、従来の手法に比べて車両間の推論をより効率的に行うことができる。 提案手法は完全にデータ駆動であり,隣接車両のリレーショナル表現をst-ddgnによって周期的に学習・修正することができる。 ソリューションを評価するために,実世界データに関する広範な実験を行った。 その結果、ST-DDGNは使用車両の11.27%を削減し、UAT(User Acceptance Test)環境に展開されるヒューリスティックアルゴリズムや様々なバニラDRL手法を含む、強力なベースライン上での平均輸送コストを13.12%削減した。 ソリューションをオンラインロジスティクスシステムに完全にデプロイする予定で、年間数百万ドルのusdロジスティクスコストを節約できると見積もられています。

The Dynamic Pickup and Delivery Problem (DPDP) is aimed at dynamically scheduling vehicles among multiple sites in order to minimize the cost when delivery orders are not known a priori. Although DPDP plays an important role in modern logistics and supply chain management, state-of-the-art DPDP algorithms are still limited on their solution quality and efficiency. In practice, they fail to provide a scalable solution as the numbers of vehicles and sites become large. In this paper, we propose a data-driven approach, Spatial-Temporal Aided Double Deep Graph Network (ST-DDGN), to solve industry-scale DPDP. In our method, the delivery demands are first forecast using spatial-temporal prediction method, which guides the neural network to perceive spatial-temporal distribution of delivery demand when dispatching vehicles. Besides, the relationships of individuals such as vehicles are modelled by establishing a graph-based value function. ST-DDGN incorporates attention-based graph embedding with Double DQN (DDQN). As such, it can make the inference across vehicles more efficiently compared with traditional methods. Our method is entirely data driven and thus adaptive, i.e., the relational representation of adjacent vehicles can be learned and corrected by ST-DDGN from data periodically. We have conducted extensive experiments over real-world data to evaluate our solution. The results show that ST-DDGN reduces 11.27% number of the used vehicles and decreases 13.12% total transportation cost on average over the strong baselines, including the heuristic algorithm deployed in our UAT (User Acceptance Test) environment and a variety of vanilla DRL methods. We are due to fully deploy our solution into our online logistics system and it is estimated that millions of USD logistics cost can be saved per year.
翻訳日:2021-05-28 16:25:22 公開日:2021-05-27
# 局所リプシッツ制約を用いた教師なし適応的意味セグメンテーション

Unsupervised Adaptive Semantic Segmentation with Local Lipschitz Constraint ( http://arxiv.org/abs/2105.12939v1 )

ライセンス: Link先を確認
Guanyu Cai, Lianghua He(参考訳) 教師なしドメイン適応の最近の進歩は意味セグメンテーションがかなり進歩している。 既存の方法は、異なるドメインを敵対的なトレーニングと整合させるか、または擬似ラベルを使って教師付きトレーニングを行う自己学習を含む。 前者は常に逆行訓練による不安定なトレーニングに悩まされており、ドメイン内の知識を無視したドメイン間ギャップのみに焦点を当てている。 後者は、間違ったカテゴリに過剰なラベル予測をし、より多くのサンプルにエラーを伝達する傾向がある。 これらの問題を解決するために,ドメインアライメントとドメイン固有探索の両方を統一原理で満足する局所リプシッツ制約に基づく2段階適応型セマンティックセマンティックセマンティクス法を提案する。 第1段階では,非敵適応的セマンティクスセグメンテーションのための有望な方向を探索する領域内知識を活用し,異なる領域を整列する目的関数として局所リプシッツ性正規化を提案する。 第2段階では,局所リプシッツ正則化を用いて各画素に対するリプシッツ性を満たす確率を推定し,擬似ラベルの閾値を動的に設定して自己学習を行う。 このような動的自己学習はノイズラベルによる誤り伝播を効果的に回避する。 どちらの段階においても最適化は同じ原理、すなわち局所リプシッツの制約に基づいており、第1段階で学んだ知識を第2段階で維持することができる。 さらに,本手法はモデルに依存しないため,任意のCNNに基づくセマンティックセグメンテーションネットワークに容易に適応できる。 実験の結果,本手法は標準ベンチマークにおいて優れた性能を示す。

Recent advances in unsupervised domain adaptation have seen considerable progress in semantic segmentation. Existing methods either align different domains with adversarial training or involve the self-learning that utilizes pseudo labels to conduct supervised training. The former always suffers from the unstable training caused by adversarial training and only focuses on the inter-domain gap that ignores intra-domain knowledge. The latter tends to put overconfident label prediction on wrong categories, which propagates errors to more samples. To solve these problems, we propose a two-stage adaptive semantic segmentation method based on the local Lipschitz constraint that satisfies both domain alignment and domain-specific exploration under a unified principle. In the first stage, we propose the local Lipschitzness regularization as the objective function to align different domains by exploiting intra-domain knowledge, which explores a promising direction for non-adversarial adaptive semantic segmentation. In the second stage, we use the local Lipschitzness regularization to estimate the probability of satisfying Lipschitzness for each pixel, and then dynamically sets the threshold of pseudo labels to conduct self-learning. Such dynamical self-learning effectively avoids the error propagation caused by noisy labels. Optimization in both stages is based on the same principle, i.e., the local Lipschitz constraint, so that the knowledge learned in the first stage can be maintained in the second stage. Further, due to the model-agnostic property, our method can easily adapt to any CNN-based semantic segmentation networks. Experimental results demonstrate the excellent performance of our method on standard benchmarks.
翻訳日:2021-05-28 16:21:49 公開日:2021-05-27
# PSRR-MaxpoolNMS: ピラミッドシフトマックスプールNMSとリレーショナルリカバリ

PSRR-MaxpoolNMS: Pyramid Shifted MaxpoolNMS with Relationship Recovery ( http://arxiv.org/abs/2105.12990v1 )

ライセンス: Link先を確認
Tianyi Zhang, Jie Lin, Peng Hu, Bin Zhao, Mohamed M. Sabry Aly(参考訳) 非最大抑圧(NMS)は、オブジェクト検出のための現代の畳み込みニューラルネットワークにおいて重要な後処理ステップである。 本質的に並列な畳み込みとは異なり、NMSのデファクト標準であるGreedyNMSは容易に並列化できないため、畳み込みオブジェクト検出パイプラインのパフォーマンスボトルネックになる可能性がある。 maxpoolnms は greedynms の並列化可能な代替として導入されており、同等の精度で greedynms よりも高速な速度を実現している。 しかし、マクスプールNMSは、Faster-RCNNのような2段検出器の最初の段階で、グレディNMSを置き換える能力しか持たない。 最終検出段階でmaxpoolnmsを適用する場合、maxpoolnmsが境界ボックス選択の観点で正確にグレジンを近似できないため、精度が大幅に低下する。 本稿では,すべての検出器においてGreedyNMSを完全に置き換える汎用的で並列化可能なPSRR-MaxpoolNMSを提案する。 単純なリレーション・リカバリ・モジュールとピラミッドシフトのMaxpoolNMSモジュールを導入することで、我々のPSRR-MaxpoolNMSはGreedyNMSをMaxpoolNMSよりも正確に近似することができる。 総合的な実験により,本手法はMaxpoolNMSよりも大きなマージンで優れており,GreedyNMSよりも精度が高いことが確認された。 初めてPSRR-MaxpoolNMSは、カスタマイズされたハードウェア設計のための完全に並列化可能なソリューションを提供する。

Non-maximum Suppression (NMS) is an essential postprocessing step in modern convolutional neural networks for object detection. Unlike convolutions which are inherently parallel, the de-facto standard for NMS, namely GreedyNMS, cannot be easily parallelized and thus could be the performance bottleneck in convolutional object detection pipelines. MaxpoolNMS is introduced as a parallelizable alternative to GreedyNMS, which in turn enables faster speed than GreedyNMS at comparable accuracy. However, MaxpoolNMS is only capable of replacing the GreedyNMS at the first stage of two-stage detectors like Faster-RCNN. There is a significant drop in accuracy when applying MaxpoolNMS at the final detection stage, due to the fact that MaxpoolNMS fails to approximate GreedyNMS precisely in terms of bounding box selection. In this paper, we propose a general, parallelizable and configurable approach PSRR-MaxpoolNMS, to completely replace GreedyNMS at all stages in all detectors. By introducing a simple Relationship Recovery module and a Pyramid Shifted MaxpoolNMS module, our PSRR-MaxpoolNMS is able to approximate GreedyNMS more precisely than MaxpoolNMS. Comprehensive experiments show that our approach outperforms MaxpoolNMS by a large margin, and it is proven faster than GreedyNMS with comparable accuracy. For the first time, PSRR-MaxpoolNMS provides a fully parallelizable solution for customized hardware design, which can be reused for accelerating NMS everywhere.
翻訳日:2021-05-28 16:21:06 公開日:2021-05-27
# 命令表現とハイパーネットワークによる3次元シーンのスタイリング

Stylizing 3D Scene via Implicit Representation and HyperNetwork ( http://arxiv.org/abs/2105.13016v1 )

ライセンス: Link先を確認
Pei-Ze Chiang, Meng-Shiun Tsai, Hung-Yu Tseng, Wei-sheng Lai, Wei-Chen Chiu(参考訳) 本研究では,任意の視点でシーンのスタイリング画像を生成する3Dシーンスタイリング問題に対処することを目的とする。 単純な解決策は、既存の新しいビュー合成と画像/ビデオスタイル転送を組み合わせることで、しばしばぼやけた結果や一貫性のない外観につながる。 ニューラルレイディアンスフィールド(NeRF)法の高品質な結果にインスパイアされ,新しいビューを所望のスタイルで直接描画するジョイントフレームワークを提案する。 本フレームワークは,ニューラルネットワークを用いた3次元シーンの暗黙的表現と,シーン表現にスタイル情報を転送するハイパーネットワークという2つのコンポーネントから構成される。 特に、暗黙的表現モデルは、シーンを幾何学的および外見的分岐に切り離し、ハイパーネットワークは、参照スタイル画像から外見的分岐のパラメータを予測することを学習する。 トレーニングの困難さと記憶負荷を軽減するため,ニューラルレイディアンスフィールドモデルを用いて2段階のトレーニング手順とパッチサブサンプリング手法を提案し,そのスタイルと内容の損失を最適化する。 最適化後は、任意のビュー角で一貫した新しいビューを任意のスタイルでレンダリングすることができる。 定量的評価と人体実験の両方で,異なる視点で一貫した外観の忠実なスタイリゼーション結果が得られた。

In this work, we aim to address the 3D scene stylization problem - generating stylized images of the scene at arbitrary novel view angles. A straightforward solution is to combine existing novel view synthesis and image/video style transfer approaches, which often leads to blurry results or inconsistent appearance. Inspired by the high quality results of the neural radiance fields (NeRF) method, we propose a joint framework to directly render novel views with the desired style. Our framework consists of two components: an implicit representation of the 3D scene with the neural radiance field model, and a hypernetwork to transfer the style information into the scene representation. In particular, our implicit representation model disentangles the scene into the geometry and appearance branches, and the hypernetwork learns to predict the parameters of the appearance branch from the reference style image. To alleviate the training difficulties and memory burden, we propose a two-stage training procedure and a patch sub-sampling approach to optimize the style and content losses with the neural radiance field model. After optimization, our model is able to render consistent novel views at arbitrary view angles with arbitrary style. Both quantitative evaluation and human subject study have demonstrated that the proposed method generates faithful stylization results with consistent appearance across different views.
翻訳日:2021-05-28 16:20:23 公開日:2021-05-27
# SSAN:ビデオ表現学習のための分離型自己認識ネットワーク

SSAN: Separable Self-Attention Network for Video Representation Learning ( http://arxiv.org/abs/2105.13033v1 )

ライセンス: Link先を確認
Xudong Guo, Xun Guo, Yan Lu(参考訳) ビデオ表現学習において,長期依存のモデル化の有効性から自己注意がうまく適用されている。 既存のアプローチでは、単に空間的および時間的次元に沿ってペアワイズ相関を計算するだけで依存関係を構築することができる。 しかし、空間的相関と時間的相関は、場面の異なる文脈情報と時間的推論を表す。 直感的には、まず空間的文脈情報を学ぶことは、時間的モデリングに役立つ。 本稿では,空間的・時間的相関を逐次的にモデル化し,空間的コンテキストを時間的モデリングに効率的に利用できる分離型自己注意モジュールを提案する。 2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。 ビデオ行動認識のタスクにおいて,本手法は,Something と Kinetics-400 データセットの最先端手法よりも優れている。 私たちのモデルは、ネットワークが浅く、モダリティも少ないモデルよりも優れています。 さらに,ビデオ検索の視覚的タスクにおける本手法のセマンティック学習能力を検証し,映像表現とテキスト埋め込みの均一性を示す。 MSR-VTTとYoucook2データセットでは、SSAが学習したビデオ表現が最先端のパフォーマンスを大幅に向上させる。

Self-attention has been successfully applied to video representation learning due to the effectiveness of modeling long range dependencies. Existing approaches build the dependencies merely by computing the pairwise correlations along spatial and temporal dimensions simultaneously. However, spatial correlations and temporal correlations represent different contextual information of scenes and temporal reasoning. Intuitively, learning spatial contextual information first will benefit temporal modeling. In this paper, we propose a separable self-attention (SSA) module, which models spatial and temporal correlations sequentially, so that spatial contexts can be efficiently used in temporal modeling. By adding SSA module into 2D CNN, we build a SSA network (SSAN) for video representation learning. On the task of video action recognition, our approach outperforms state-of-the-art methods on Something-Something and Kinetics-400 datasets. Our models often outperform counterparts with shallower network and fewer modalities. We further verify the semantic learning ability of our method in visual-language task of video retrieval, which showcases the homogeneity of video representations and text embeddings. On MSR-VTT and Youcook2 datasets, video representations learnt by SSA significantly improve the state-of-the-art performance.
翻訳日:2021-05-28 16:19:40 公開日:2021-05-27
# 超解像を損なうブラインド運動:動的時空間学習が静的画像理解と出会うとき

Blind Motion Deblurring Super-Resolution: When Dynamic Spatio-Temporal Learning Meets Static Image Understanding ( http://arxiv.org/abs/2105.13077v1 )

ライセンス: Link先を確認
Wenjia Niu, Kaihao Zhang, Wenhan Luo, Yiran Zhong, Xin Yu, Hongdong Li(参考訳) シングルイメージスーパーレゾリューション(sr)とマルチフレームsrは、低解像度画像をスーパーレゾリューションする2つの方法である。 シングルイメージSRは一般的に各画像を独立に扱うが、継続フレームに暗示される時間情報を無視する。 マルチフレームSRは、モーション情報をキャプチャすることで、時間依存性をモデル化することができる。 しかし、現実世界では必ずしも利用できない近隣のフレームに依存している。 一方、わずかなカメラの振れは、遠距離の低解像度画像に重い動きのぼやけを引き起こす。 これらの問題に対処するために, 動画像から動的時空間情報を学ぶために, bmdsrnet (bmdsrnet) が提案されている。 BMDSRNetは逆過程を学習し、3つのストリームを用いて、よく設計された再構成損失関数に基づいて双方向時空間情報を学習し、高解像度画像のクリーンな復元を行う。 広範な実験により、bmdsrnetは最新の最先端手法よりも優れており、画像デブラリングとsrを同時に処理できることを示した。

Single-image super-resolution (SR) and multi-frame SR are two ways to super resolve low-resolution images. Single-Image SR generally handles each image independently, but ignores the temporal information implied in continuing frames. Multi-frame SR is able to model the temporal dependency via capturing motion information. However, it relies on neighbouring frames which are not always available in the real world. Meanwhile, slight camera shake easily causes heavy motion blur on long-distance-shot low-resolution images. To address these problems, a Blind Motion Deblurring Super-Reslution Networks, BMDSRNet, is proposed to learn dynamic spatio-temporal information from single static motion-blurred images. Motion-blurred images are the accumulation over time during the exposure of cameras, while the proposed BMDSRNet learns the reverse process and uses three-streams to learn Bidirectional spatio-temporal information based on well designed reconstruction loss functions to recover clean high-resolution images. Extensive experiments demonstrate that the proposed BMDSRNet outperforms recent state-of-the-art methods, and has the ability to simultaneously deal with image deblurring and SR.
翻訳日:2021-05-28 16:19:11 公開日:2021-05-27
# 早期学習の正規化による実世界の雑音データ分類

Using Early-Learning Regularization to Classify Real-World Noisy Data ( http://arxiv.org/abs/2105.13244v1 )

ライセンス: Link先を確認
Alessio Galatolo, Alfred Nilsson, Roderick Karlemstrand, Yineng Wang(参考訳) 記憶問題はコンピュータビジョンの分野でよく知られている。 liu et alの略。 ラベルノイズ発生時のCIFARデータセットの精度を向上させる早期学習規則化手法を提案する。 このプロジェクトは実験を再現し、本質的なノイズを伴う実世界のデータセットのパフォーマンスを調査する。 その結果,実験結果が一致した。 また、sgdに加えてシャープネス対応の最小化も検討し、さらに14.6ポイント改善が見られた。 今後の作業には、600万の画像すべてを使用し、手動で画像の一部をクリーニングして、転写学習モデルを微調整することが含まれる。 最後に、テストのためにクリーンなデータにアクセスすることで、精度の測定も向上します。

The memorization problem is well-known in the field of computer vision. Liu et al. propose a technique called Early-Learning Regularization, which improves accuracy on the CIFAR datasets when label noise is present. This project replicates their experiments and investigates the performance on a real-world dataset with intrinsic noise. Results show that their experimental results are consistent. We also explore Sharpness-Aware Minimization in addition to SGD and observed a further 14.6 percentage points improvement. Future work includes using all 6 million images and manually clean a fraction of the images to fine-tune a transfer learning model. Last but not the least, having access to clean data for testing would also improve the measurement of accuracy.
翻訳日:2021-05-28 16:18:42 公開日:2021-05-27
# 共同表現学習とオンラインクラスタリングによる教師なしアクティビティセグメンテーション

Unsupervised Activity Segmentation by Joint Representation Learning and Online Clustering ( http://arxiv.org/abs/2105.13353v1 )

ライセンス: Link先を確認
Sateesh Kumar, Sanjay Haresh, Awais Ahmed, Andrey Konin, M. Zeeshan Zia, Quoc-Huy Tran(参考訳) 本稿では,ビデオフレームクラスタリングをプリテキストタスクとして使用し,表現学習とオンラインクラスタリングを同時に行う,教師なしアクティビティセグメンテーションのための新しいアプローチを提案する。 これは、表現学習とオンラインクラスタリングが連続的に実行される従来の作業とは対照的である。 我々は時間的最適輸送と時間的コヒーレンス損失を利用してビデオの時間的情報を活用する。 特に、時間的正規化項を標準最適輸送モジュールに組み込むことにより、アクティビティの時間的順序を保ち、擬似ラベルクラスタ割り当てを計算する時間的最適輸送モジュールが得られる。 次に、時間的コヒーレンス損失により、隣接するビデオフレームを近くのポイントにマッピングし、遠方のビデオフレームを埋め込み空間内の遠く離れたポイントにマッピングする。 これら2つのコンポーネントの組み合わせは、教師なしアクティビティセグメンテーションの効果的な表現をもたらす。 さらに、従来の方法では、オフラインでクラスタ化する前にデータセット全体の学習機能を格納する必要がありますが、当社のアプローチでは、一度にひとつのミニバッチをオンライン形式で処理します。 3つの公開データセットの大規模な評価 50-Salads、YouTube Instructions、Breakfast、および私たちのデータセット、すなわちDesktop Assemblyは、メモリ制約が大幅に少ないにもかかわらず、これまでの教師なしアクティビティセグメンテーションの方法と同等かそれ以上のパフォーマンスを示す。

We present a novel approach for unsupervised activity segmentation, which uses video frame clustering as a pretext task and simultaneously performs representation learning and online clustering. This is in contrast with prior works where representation learning and online clustering are often performed sequentially. We leverage temporal information in videos by employing temporal optimal transport and temporal coherence loss. In particular, we incorporate a temporal regularization term into the standard optimal transport module, which preserves the temporal order of the activity, yielding the temporal optimal transport module for computing pseudo-label cluster assignments. Next, the temporal coherence loss encourages neighboring video frames to be mapped to nearby points while distant video frames are mapped to farther away points in the embedding space. The combination of these two components results in effective representations for unsupervised activity segmentation. Furthermore, previous methods require storing learned features for the entire dataset before clustering them in an offline manner, whereas our approach processes one mini-batch at a time in an online manner. Extensive evaluations on three public datasets, i.e. 50-Salads, YouTube Instructions, and Breakfast, and our dataset, i.e., Desktop Assembly, show that our approach performs on par or better than previous methods for unsupervised activity segmentation, despite having significantly less memory constraints.
翻訳日:2021-05-28 16:18:23 公開日:2021-05-27
# CoSQA:コード検索と質問回答のための2万以上のWebクエリ

CoSQA: 20,000+ Web Queries for Code Search and Question Answering ( http://arxiv.org/abs/2105.13239v1 )

ライセンス: Link先を確認
Junjie Huang, Duyu Tang, Linjun Shou, Ming Gong, Ke Xu, Daxin Jiang, Ming Zhou, Nan Duan(参考訳) 自然言語クエリが与えられたコードを見つけることは、ソフトウェア開発者の生産性に有効である。 クエリとコード間のセマンティックマッチングを改善するためには、より豊富な教師付きトレーニングリソースが必要になる。 これを改善するために、我々はCoSQAデータセットを導入し、20,604個の自然言語クエリとコードのためのラベルを含み、それぞれに少なくとも3人のアノテータがアノテートする。 さらに,coclrと呼ばれるコントラスト学習手法を導入して,クエリコードマッチングを強化し,より人工的に生成されたトレーニングインスタンスを実現するためのデータインテンサとして機能する。 CodeXGLUEを同じCodeBERTモデルで評価し、CoSQAのトレーニングにより、コード質問応答の精度が5.1%向上し、CoCLRの導入によりさらに10.5%向上したことを示す。

Finding codes given natural language query isb eneficial to the productivity of software developers. Future progress towards better semantic matching between query and code requires richer supervised training resources. To remedy this, we introduce the CoSQA dataset.It includes 20,604 labels for pairs of natural language queries and codes, each annotated by at least 3 human annotators. We further introduce a contrastive learning method dubbed CoCLR to enhance query-code matching, which works as a data augmenter to bring more artificially generated training instances. We show that evaluated on CodeXGLUE with the same CodeBERT model, training on CoSQA improves the accuracy of code question answering by 5.1%, and incorporating CoCLR brings a further improvement of 10.5%.
翻訳日:2021-05-28 16:17:18 公開日:2021-05-27
# ニューラルモデル学習のための探索空間

Search Spaces for Neural Model Training ( http://arxiv.org/abs/2105.12920v1 )

ライセンス: Link先を確認
Darko Stosic, Dusan Stosic(参考訳) 大きなニューラルモデルは、ディープラーニングができることの境界を押し広げている一方で、タスクの推論を実行するよりも、モデルのトレーニングにより多くの重みが必要になることが多い。 重みを加えることで、ニューラルネットワークモデルのトレーニングをより効果的にするための最適化(あるいはより広い検索空間)のための新しい経路を形成する追加の自由度が生まれます。 次に、検索スペースを拡張して、数十のディープラーニングワークロードで競合するスコアを獲得するスパースモデルをトレーニングする方法を示します。 彼らはまた、現在のハードウェアをターゲットにした構造に寛容であり、トレーニングと推論の加速のための道を開く。 私たちの研究は、現在使われている巨大なニューラルモデルを超えて研究を奨励します。

While larger neural models are pushing the boundaries of what deep learning can do, often more weights are needed to train models rather than to run inference for tasks. This paper seeks to understand this behavior using search spaces -- adding weights creates extra degrees of freedom that form new paths for optimization (or wider search spaces) rendering neural model training more effective. We then show how we can augment search spaces to train sparse models attaining competitive scores across dozens of deep learning workloads. They are also are tolerant of structures targeting current hardware, opening avenues for training and inference acceleration. Our work encourages research to explore beyond massive neural models being used today.
翻訳日:2021-05-28 16:16:56 公開日:2021-05-27
# Forward Kullback-Leibler Divergence Optimization による最適強化学習

Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization ( http://arxiv.org/abs/2105.12991v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 本稿では,強化学習(RL)を逆Kullback-Leibler(KL) 分散最適化と解釈し,前方KL分散を用いた新しい最適化手法を提案する。 RL は当初、ポリシーの最適化を通じて間接的に戻りを最大化することを目的としていたが、Levin の最近の研究は、確率変数としての最適性を明確に考慮した異なる導出プロセスを提案している。 本稿では,この概念に従い,価値関数と政策の両方に対する従来の学習則を,最適性を含む逆kl発散を伴う最適化問題として定式化する。 KL分散の非対称性に着目して、前方KL分散を伴う新しい最適化問題を導出する。 注目すべきことに、このような新しい最適化問題は楽観的なRLと見なすことができる。 その楽観性は不確実性パラメータから変換されたハイパーパラメータによって直感的に特定される。 さらに、優先された体験リプレイや、学習を加速する適性トレースと統合された場合には、強化することができる。 この最適化がPybulletを用いた数値シミュレーションに与える影響を学習傾向から検討した。 その結果、適度な楽観主義は学習を加速し、より高い報酬を得た。 現実的なロボットシミュレーションにおいて、適度な楽観性を持つ提案手法は最先端のRL法よりも優れていた。

This paper addresses a new interpretation of reinforcement learning (RL) as reverse Kullback-Leibler (KL) divergence optimization, and derives a new optimization method using forward KL divergence. Although RL originally aims to maximize return indirectly through optimization of policy, the recent work by Levine has proposed a different derivation process with explicit consideration of optimality as stochastic variable. This paper follows this concept and formulates the traditional learning laws for both value function and policy as the optimization problems with reverse KL divergence including optimality. Focusing on the asymmetry of KL divergence, the new optimization problems with forward KL divergence are derived. Remarkably, such new optimization problems can be regarded as optimistic RL. That optimism is intuitively specified by a hyperparameter converted from an uncertainty parameter. In addition, it can be enhanced when it is integrated with prioritized experience replay and eligibility traces, both of which accelerate learning. The effects of this expected optimism was investigated through learning tendencies on numerical simulations using Pybullet. As a result, moderate optimism accelerated learning and yielded higher rewards. In a realistic robotic simulation, the proposed method with the moderate optimism outperformed one of the state-of-the-art RL method.
翻訳日:2021-05-28 16:16:38 公開日:2021-05-27
# DNNを用いたインスタンス依存ラベルノイズ遷移行列の推定

Estimating Instance-dependent Label-noise Transition Matrix using DNNs ( http://arxiv.org/abs/2105.13001v1 )

ライセンス: Link先を確認
Shuo Yang, Erkun Yang, Bo Han, Yang Liu, Min Xu, Gang Niu, Tongliang Liu(参考訳) ラベルノイズ学習では、行列が統計的に一貫性のある分類器を構築する上で重要な役割を果たすため、遷移行列の推定はホットな話題である。 従来、クリーン分布からノイズ分布(すなわちクリーンラベル遷移行列)への移行は、ノイズデータを用いてクリーンラベル分類法を学ぶために広く利用されてきた。 本稿では,ベイズ最適分布から雑音分布(ベイズラベル遷移行列)への遷移を直接モデル化し,ベイズ最適ラベル分類法を学習する。 ノイズデータのみを与えられた場合、クリーンラベル遷移行列またはベイズラベル遷移行列のいずれかを推定することは不適切である。 しかし好ましくは、ベイズ最適ラベルはクリーンラベルに比べて不確実性が低く、すなわちベイズ最適ラベルのクラス後方はワンホットベクターであり、クリーンラベルはそうではない。 これによりベイズラベル遷移行列を推定する2つの利点、すなわち (a) マイルドな条件下でベイズ最適ラベルの集合を理論的に回収することができる、 (b) 実現可能な解空間はずっと小さい。 この利点を生かして,深層ニューラルネットワークをパラメータ化することでベイズラベル遷移行列を推定し,より一般化され,分類性能が向上した。

In label-noise learning, estimating the transition matrix is a hot topic as the matrix plays an important role in building statistically consistent classifiers. Traditionally, the transition from clean distribution to noisy distribution (i.e., clean label transition matrix) has been widely exploited to learn a clean label classifier by employing the noisy data. Motivated by that classifiers mostly output Bayes optimal labels for prediction, in this paper, we study to directly model the transition from Bayes optimal distribution to noisy distribution (i.e., Bayes label transition matrix) and learn a Bayes optimal label classifier. Note that given only noisy data, it is ill-posed to estimate either the clean label transition matrix or the Bayes label transition matrix. But favorably, Bayes optimal labels are less uncertain compared with the clean labels, i.e., the class posteriors of Bayes optimal labels are one-hot vectors while those of clean labels are not. This enables two advantages to estimate the Bayes label transition matrix, i.e., (a) we could theoretically recover a set of Bayes optimal labels under mild conditions; (b) the feasible solution space is much smaller. By exploiting the advantages, we estimate the Bayes label transition matrix by employing a deep neural network in a parameterized way, leading to better generalization and superior classification performance.
翻訳日:2021-05-28 16:16:08 公開日:2021-05-27
# 順序パッシングにおける強化学習のためのパターン伝達学習

Pattern Transfer Learning for Reinforcement Learning in Order Dispatching ( http://arxiv.org/abs/2105.13218v1 )

ライセンス: Link先を確認
Runzhe Wan, Sheng Zhang, Chengchun Shi, Shikai Luo and Rui Song(参考訳) オーダーディスパッチは、ライドシェアリングプラットフォームの中心的な問題のひとつだ。 近年,価値に基づく強化学習アルゴリズムがこの問題に対して有望な性能を示している。 しかし、現実のアプリケーションでは、需要供給システムの非定常性は、異なる期間に生成されたデータを再利用して値関数を学習する上で困難をもたらす。 本研究では, ある状態の値の相対関係が, 様々な環境においてほぼ安定であるという事実から, 秩序分散問題における値に基づく強化学習のためのパターン伝達学習フレームワークを提案する。 提案手法は, 一致ペナルティを組み込んだ値パターンを効率的に捕捉する。 提案手法の優れた性能は実験によって支持される。

Order dispatch is one of the central problems to ride-sharing platforms. Recently, value-based reinforcement learning algorithms have shown promising performance on this problem. However, in real-world applications, the non-stationarity of the demand-supply system poses challenges to re-utilizing data generated in different time periods to learn the value function. In this work, motivated by the fact that the relative relationship between the values of some states is largely stable across various environments, we propose a pattern transfer learning framework for value-based reinforcement learning in the order dispatch problem. Our method efficiently captures the value patterns by incorporating a concordance penalty. The superior performance of the proposed method is supported by experiments.
翻訳日:2021-05-28 16:15:29 公開日:2021-05-27
# 多目的ベイズ最適化における一段階選好

One Step Preference Elicitation in Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2105.13278v1 )

ライセンス: Link先を確認
Juan Ungredda, Mariapia Marchi, Teresa Montrone and Juergen Branke(参考訳) 評価に費用がかかる目的関数を持つ多目的最適化問題を考察する。 意思決定者(DM)は好ましくないため、標準的なアプローチはParetoフロントの近似を生成し、DMが生成した非支配的な設計から選択させることである。 しかし、特に評価可能な設計数が非常に限られている問題を評価するために、DMの未知の選好による真の最良の解は、たとえこれらの解が真にパレート最適であるとしても、見いだされる非支配解の小さなセットに含まれない。 我々は,多目的ベイズ最適化アルゴリズムを用いて,dmがアルゴリズムの終了直前の1回だけ,予測された連続パレートフロントから望ましい解を選択できるようにすることでこの問題に対処した。 これにより、アルゴリズムはdmの好みを理解し、より望ましいソリューションを特定する最後の試みを行うことができる。 我々はparegoを用いてそのアイデアを実証し、dmが最終的に単にソリューションを選ぶよりも、真のdmの好みの方がはるかに優れていることを実証的に示します。

We consider a multi-objective optimization problem with objective functions that are expensive to evaluate. The decision maker (DM) has unknown preferences, and so the standard approach is to generate an approximation of the Pareto front and let the DM choose from the generated non-dominated designs. However, especially for expensive to evaluate problems where the number of designs that can be evaluated is very limited, the true best solution according to the DM's unknown preferences is unlikely to be among the small set of non-dominated solutions found, even if these solutions are truly Pareto optimal. We address this issue by using a multi-objective Bayesian optimization algorithm and allowing the DM to select a preferred solution from a predicted continuous Pareto front just once before the end of the algorithm rather than selecting a solution after the end. This allows the algorithm to understand the DM's preferences and make a final attempt to identify a more preferred solution. We demonstrate the idea using ParEGO, and show empirically that the found solutions are significantly better in terms of true DM preferences than if the DM would simply pick a solution at the end.
翻訳日:2021-05-28 16:15:12 公開日:2021-05-27
# フェデレーションと継続学習のための概念ドリフトの検出と適応

Concept drift detection and adaptation for federated and continual learning ( http://arxiv.org/abs/2105.13309v1 )

ライセンス: Link先を確認
Fernando E. Casado, Dylan Lema, Marcos F. Criado, Roberto Iglesias, Carlos V. Regueiro, Sen\'en Barro(参考訳) スマートフォン、ウェアラブル、ロボットなどのスマートデバイスは、環境から大量のデータを収集することができる。 このデータは、機械学習モデルのトレーニングに適しており、その動作を大幅に改善することができるため、ユーザエクスペリエンスが向上する。 フェデレーション学習(Federated Learning)は、データプライバシを保持しながら、複数の分散デバイスが協調してディープラーニングモデルをトレーニングできる、若く人気のあるフレームワークである。 それでもこのアプローチは、データ分散が参加者間で識別できないシナリオや、時間とともに変化するシナリオに最適ではないかもしれない。 この分野ではまだほとんど研究が行われていないが、実生活ではこのような状況は極めて頻繁であり、継続的な学習と連合学習の両方に新たな課題をもたらす。 そこで本研究では,Concept-Drift-Aware Federated Averaging (CDA-FedAvg) と呼ばれる新しい手法を提案する。 提案手法はフェデレーション平均化法(federated averaging, fedavg)の拡張であり,概念ドリフト下での継続的な適応を実現する。 我々は、通常のFedAvgの弱点を実証的に証明し、CDA-FedAvgがこの種のシナリオでそれより優れていることを証明します。

Smart devices, such as smartphones, wearables, robots, and others, can collect vast amounts of data from their environment. This data is suitable for training machine learning models, which can significantly improve their behavior, and therefore, the user experience. Federated learning is a young and popular framework that allows multiple distributed devices to train deep learning models collaboratively while preserving data privacy. Nevertheless, this approach may not be optimal for scenarios where data distribution is non-identical among the participants or changes over time, causing what is known as concept drift. Little research has yet been done in this field, but this kind of situation is quite frequent in real life and poses new challenges to both continual and federated learning. Therefore, in this work, we present a new method, called Concept-Drift-Aware Federated Averaging (CDA-FedAvg). Our proposal is an extension of the most popular federated algorithm, Federated Averaging (FedAvg), enhancing it for continual adaptation under concept drift. We empirically demonstrate the weaknesses of regular FedAvg and prove that CDA-FedAvg outperforms it in this type of scenario.
翻訳日:2021-05-28 16:14:39 公開日:2021-05-27
# 強化学習における固有動機づけ

Adversarial Intrinsic Motivation for Reinforcement Learning ( http://arxiv.org/abs/2105.13345v1 )

ライセンス: Link先を確認
Ishan Durugkar, Mauricio Tec, Scott Niekum, Peter Stone(参考訳) 参照分布とのミスマッチを最小限に抑える目的関数による学習は、生成的モデリングや模倣学習に有用であることが示されている。 本稿では,政策の国家訪問分布と目標分布とのWasserstein-1距離の1つの目的が,強化学習(RL)タスクに有効に活用できるかどうかを検討する。 具体的には、理想化された(達成不可能な)目標分布が目標の全ての確率質量を持つ目標条件強化学習に焦点を当てる。 本稿では,マルコフ決定過程(MDPs)に特異的な準測度を導入し,この準測度の下では,その状態訪問分布から目標分布へのワッサーシュタイン-1距離を極力最小化する政策が,目標を達成するための政策であることを示す。 我々のアプローチは、AIM (Adversarial Intrinsic Motivation) と呼ばれ、このワッサーシュタイン-1距離をその双対目的を通して推定し、補足報酬関数を計算する。 実験の結果, この報酬関数はMDPの遷移に対して円滑に変化し, エージェントの学習を支援することがわかった。 さらに,AIM と Hindsight Experience Replay (HER) を組み合わせることで,HER が目標状態の低い正の報酬と比べ,複数のシミュレーションロボットタスクにおいて,アルゴリズムが学習を著しく加速することを示す。

Learning with an objective function that seeks to minimize the mismatch with a reference distribution has been shown to be useful for generative modeling and imitation learning. In this paper, we investigate whether one such objective, the Wasserstein-1 distance between a policy's state visitation distribution and a target distribution, can be utilized effectively for reinforcement learning (RL) tasks. Specifically, this paper focuses on goal-conditioned reinforcement learning where the idealized (unachievable) target distribution has all the probability mass at the goal. We introduce a quasimetric specific to Markov Decision Processes (MDPs), and show that the policy that minimizes the Wasserstein-1 distance of its state visitation distribution to this target distribution under this quasimetric is the policy that reaches the goal in as few steps as possible. Our approach, termed Adversarial Intrinsic Motivation (AIM), estimates this Wasserstein-1 distance through its dual objective and uses it to compute a supplemental reward function. Our experiments show that this reward function changes smoothly with respect to transitions in the MDP and assists the agent in learning. Additionally, we combine AIM with Hindsight Experience Replay (HER) and show that the resulting algorithm accelerates learning significantly on several simulated robotics tasks when compared to HER with a sparse positive reward at the goal state.
翻訳日:2021-05-28 16:14:07 公開日:2021-05-27
# BSNN: バイスタブルニューロンを持つニューラルネットワークをスパイクするニューラルネットワークの高速かつより良い変換を目指す

BSNN: Towards Faster and Better Conversion of Artificial Neural Networks to Spiking Neural Networks with Bistable Neurons ( http://arxiv.org/abs/2105.12917v1 )

ライセンス: Link先を確認
Yang Li, Yi Zeng, Dongcheng Zhao(参考訳) spiking neural network(snn)は、離散的なバイナリイベントを通じて情報を計算し、通信する。 ニューロモルフィック・ハードウェアでは、ニューラルネットワーク(ann)よりも生物学的に有益でエネルギー効率が高いと考えられている。 しかし,不連続性や不連続性のため,SNNの訓練は比較的難しい課題である。 近年の成果は, ANN を SNN に変換することで, 優れた性能を実現している。 情報処理の違いにより、変換された深部SNNは通常、重大な性能損失と大きな遅延を被る。 本稿では,本研究の目的は,位相リードと位相ラグによる不活性化ニューロン(sin)のスパイク問題に対処する,新しいbistable spiking neural network(bsnn)を提案することである。 また、ResNet構造に基づくANNが変換されると、ショートカットパスの高速伝送により出力ニューロンの情報が不完全となる。 同期ニューロン(SN)を設計し,性能向上に寄与する。 実験結果から,提案手法は従来よりも1/4-1/10の時間ステップしか必要としなかった。 我々は、CIFAR-10(95.16% トップ-1)、CIFAR-100(78.12% トップ-1)、ImageNet(72.64% トップ-1)などの挑戦的なデータセットに対して、VGG16、ResNet20、ResNet34に対する最先端のANN-SNN変換を示す。

The spiking neural network (SNN) computes and communicates information through discrete binary events. It is considered more biologically plausible and more energy-efficient than artificial neural networks (ANN) in emerging neuromorphic hardware. However, due to the discontinuous and non-differentiable characteristics, training SNN is a relatively challenging task. Recent work has achieved essential progress on an excellent performance by converting ANN to SNN. Due to the difference in information processing, the converted deep SNN usually suffers serious performance loss and large time delay. In this paper, we analyze the reasons for the performance loss and propose a novel bistable spiking neural network (BSNN) that addresses the problem of spikes of inactivated neurons (SIN) caused by the phase lead and phase lag. Also, when ResNet structure-based ANNs are converted, the information of output neurons is incomplete due to the rapid transmission of the shortcut path. We design synchronous neurons (SN) to help efficiently improve performance. Experimental results show that the proposed method only needs 1/4-1/10 of the time steps compared to previous work to achieve nearly lossless conversion. We demonstrate state-of-the-art ANN-SNN conversion for VGG16, ResNet20, and ResNet34 on challenging datasets including CIFAR-10 (95.16% top-1), CIFAR-100 (78.12% top-1), and ImageNet (72.64% top-1).
翻訳日:2021-05-28 16:13:12 公開日:2021-05-27
# GANを用いた局所変動を用いた大規模ゲームレベルのハイブリッド符号化

Hybrid Encoding For Generating Large Scale Game Level Patterns With Local Variations Using a GAN ( http://arxiv.org/abs/2105.12960v1 )

ライセンス: Link先を確認
Jacob Schrum, Benjamin Capps, Kirby Steckel, Vanessa Volz, Sebastian Risi(参考訳) Generative Adversarial Networks (GAN) は進化的探索のための強力な間接的なジェノタイプ-フェノタイプマッピングであるが、制限がある。 特にgan出力は任意の次元にスケールせず、gan出力を結合的な全体に変換する明確な方法は存在せず、ゲームレベル生成のような多くの分野において有用である。 ゲームレベルは、しばしばいくつかのセグメントで構成され、しばしば直接または変化して、エンゲージメントパターンに編成される。 このようなパターンをコンポジションパターン生成ネットワーク(CPPN)で生成することができる。 具体的には、CPPN は遅延ベクトル GAN 入力を幾何学の関数として定義することができ、GAN によって出力されるレベルセグメントを完全なレベルに整理する方法を提供する。 しかし、潜在ベクトルの集まりはよりカオスレベルを生み出すために直接進化することもできる。 ここでは,まず cppn を進化させるが, 潜在ベクトルが後に進化することを可能にする新しいハイブリッドアプローチを提案し, 両者の利点を組み合わせる。 これらのアプローチはスーパーマリオブラザーズとゼルダの伝説で評価されている。 CPPNsは直接的に進化するレベルよりも、可能レベルの空間をよりよくカバーできることを示した。 ここでは、ハイブリッド手法は、どちらの手法も同等あるいは優れたQDスコアを達成できない領域をカバーすることができることを示す。

Generative Adversarial Networks (GANs) are a powerful indirect genotype-to-phenotyp e mapping for evolutionary search, but they have limitations. In particular, GAN output does not scale to arbitrary dimensions, and there is no obvious way to combine GAN outputs into a cohesive whole, which would be useful in many areas, such as video game level generation. Game levels often consist of several segments, sometimes repeated directly or with variation, organized into an engaging pattern. Such patterns can be produced with Compositional Pattern Producing Networks (CPPNs). Specifically, a CPPN can define latent vector GAN inputs as a function of geometry, which provides a way to organize level segments output by a GAN into a complete level. However, a collection of latent vectors can also be evolved directly, to produce more chaotic levels. Here, we propose a new hybrid approach that evolves CPPNs first, but allows the latent vectors to evolve later, and combines the benefits of both approaches. These approaches are evaluated in Super Mario Bros. and The Legend of Zelda. We previously demonstrated via divergent search (MAP-Elites) that CPPNs better cover the space of possible levels than directly evolved levels. Here, we show that the hybrid approach can cover areas that neither of the other methods can and achieves comparable or superior QD scores.
翻訳日:2021-05-28 16:12:29 公開日:2021-05-27
# 集合の代数とギャンブルのコヒーレント集合

Algebras of Sets and Coherent Sets of Gambles ( http://arxiv.org/abs/2105.12986v1 )

ライセンス: Link先を確認
Juerg Kohlas, Arianna Casanova, Marco Zaffalon(参考訳) 近年の研究では、一般可能性空間上で定義されるギャンブルのコヒーレント集合の情報代数を構築する方法が示されている。 ここでは、そのような代数と、ギャンブルが定義される可能性空間の部分集合と、その原子の集合の集合の成す代数の集合との接続を解析する。 集合代数はそれらの原型構造であるため、特に重要な情報代数である。 さらに、それらは古典命題論理の代数的対応である。 その結果、命題論理が不正確確率理論にどのように自然に埋め込まれているかについても述べる。

In a recent work we have shown how to construct an information algebra of coherent sets of gambles defined on general possibility spaces. Here we analyze the connection of such an algebra with the set algebra of subsets of the possibility space on which gambles are defined and the set algebra of sets of its atoms. Set algebras are particularly important information algebras since they are their prototypical structures. Furthermore, they are the algebraic counterparts of classical propositional logic. As a consequence, this paper also details how propositional logic is naturally embedded into the theory of imprecise probabilities.
翻訳日:2021-05-28 16:11:51 公開日:2021-05-27
# 文書検索のためのグラフ駆動生成モデルと意味論と近傍情報の統合

Integrating Semantics and Neighborhood Information with Graph-Driven Generative Models for Document Retrieval ( http://arxiv.org/abs/2105.13066v1 )

ライセンス: Link先を確認
Zijing Ou, Qinliang Su, Jianxing Yu, Bang Liu, Jingwen Wang, Ruihui Zhao, Changyou Chen and Yefeng Zheng(参考訳) 高速な検索速度とメモリフットプリントの必要性から,ドキュメントハッシュは大規模情報検索において重要な役割を担っている。 高品質なハッシュコードを生成するには、セマンティクスと近所の情報の両方が不可欠である。 しかしながら、既存のほとんどのメソッドは、その1つしか利用していないか、直感的な基準で組み合わせているだけで、統合プロセスを導く理論的原理が欠如している。 本稿では,近傍情報をグラフ誘導ガウス分布にエンコードし,これら2種類の情報をグラフ駆動生成モデルと統合することを提案する。 さらに,文書間の複雑な相関に対処するために,木構造近似による学習法を提案する。 この近似の下では、トレーニング対象がシングルトンまたはペアワイズドキュメントのみを含む用語に分解可能であることを証明し、モデルが非相関文書と同じくらい効率的にトレーニングできることを示す。 3つのベンチマークデータセットの広範な実験結果から,本手法は最先端手法よりも優れた性能を達成でき,提案手法の有効性が実証された。

With the need of fast retrieval speed and small memory footprint, document hashing has been playing a crucial role in large-scale information retrieval. To generate high-quality hashing code, both semantics and neighborhood information are crucial. However, most existing methods leverage only one of them or simply combine them via some intuitive criteria, lacking a theoretical principle to guide the integration process. In this paper, we encode the neighborhood information with a graph-induced Gaussian distribution, and propose to integrate the two types of information with a graph-driven generative model. To deal with the complicated correlations among documents, we further propose a tree-structured approximation method for learning. Under the approximation, we prove that the training objective can be decomposed into terms involving only singleton or pairwise documents, enabling the model to be trained as efficiently as uncorrelated ones. Extensive experimental results on three benchmark datasets show that our method achieves superior performance over state-of-the-art methods, demonstrating the effectiveness of the proposed model for simultaneously preserving semantic and neighborhood information.\
翻訳日:2021-05-28 16:11:36 公開日:2021-05-27
# 制度分析・開発枠組みの計算モデル

A Computational Model of the Institutional Analysis and Development Framework ( http://arxiv.org/abs/2105.13151v1 )

ライセンス: Link先を確認
Nieves Montes(参考訳) Institutional Analysis and Development (IAD) フレームワークは、エリナー・オストロムらによって提唱された概念的ツールボックスであり、多種多様な人間の相互作用を構成する普遍的な共通変数を識別し、記述することを目的としている。 このフレームワークは、ルールをインタラクションの構造を決定するコアコンセプトの1つとして定義し、コミュニティをより有益で社会的に望ましい結果へと導く可能性を認識している。 この研究は、IADフレームワークを計算モデルに転換し、エージェントのコミュニティが与えられたルール構成に対してWhat-if分析を正式に実行できるようにする最初の試みである。 そのために私たちは、iadフレームワークのコンポーネントに厳格にカスタマイズされた構文を持つアクション状況言語 -- あるいはasl -- を定義し、社会的インタラクションの記述を書くために使用します。 ASLはゲームエンジンによって補完され、そのセマンティクスを広義のゲームとして生成する。 これらのモデルはゲーム理論の標準的なツールを用いて分析し、どの結果が最もインセンティブ付けされているかを予測し、社会的に関係のある性質に基づいて評価することができる。

The Institutional Analysis and Development (IAD) framework is a conceptual toolbox put forward by Elinor Ostrom and colleagues in an effort to identify and delineate the universal common variables that structure the immense variety of human interactions. The framework identifies rules as one of the core concepts to determine the structure of interactions, and acknowledges their potential to steer a community towards more beneficial and socially desirable outcomes. This work presents the first attempt to turn the IAD framework into a computational model to allow communities of agents to formally perform what-if analysis on a given rule configuration. To do so, we define the Action Situation Language -- or ASL -- whose syntax is hgighly tailored to the components of the IAD framework and that we use to write descriptions of social interactions. ASL is complemented by a game engine that generates its semantics as an extensive-form game. These models, then, can be analyzed with the standard tools of game theory to predict which outcomes are being most incentivized, and evaluated according to their socially relevant properties.
翻訳日:2021-05-28 16:11:06 公開日:2021-05-27
# メールパターン分析によるトップパフォーマーの検索

Finding top performers through email patterns analysis ( http://arxiv.org/abs/2105.13025v1 )

ライセンス: Link先を確認
Q. Wen, P. A. Gloor, A. Fronzetti Colladon, P. Tickoo, T. Joshi(参考訳) 情報経済では、個人の仕事のパフォーマンスはデジタルコミュニケーション戦略と密接に関連している。 本研究は,ソーシャル・ネットワークと意味分析を組み合わせることで,メール・コミュニケーションに基づいてトップ・パフォーマーを識別する手法を開発した。 既存の文献をレビューすることで,メール通信を定量化する指標を測定可能な次元に同定した。 提案指標の予測力を実証的に検証するため,国際サービス会社で578人の幹部の200万通のメールアーカイブを収集した。 パネル回帰はメール指標とトップパフォーマンスの解釈可能な関連を導出するために用いられた。 その結果、トップパフォーマーは中央ネットワークの位置を仮定し、メールに対する応答性が高い傾向が示唆された。 メールの内容では、トップパフォーマーはよりポジティブで複雑な言語を使い、感情は低いが、おそらく同僚によって再利用される影響力のある言葉が豊富である。 メールインジケータの予測能力をよりよく調査するため、AdaBoostの機械学習モデルを用いて、トップパフォーマーを特定する精度を83.56%向上させた。 さらに,クラスタ分析により,トップパフォーマー,中央ネットワークポジションの"ネットワーク",影響力のあるアイデアの"インフルエンサー",ポジティブな感情を持った"ポジティビスト"の3つのカテゴリを見出した。 以上の結果から,トップパフォーマーはメールコミュニケーションの特有なパターンを持ち,理論上は電子メールコミュニケーション能力の基盤となっていることが示唆された。 提案手法はまた,個々の通信スタイルの異なるタイプを評価するためのツールも提供する。

In the information economy, individuals' work performance is closely associated with their digital communication strategies. This study combines social network and semantic analysis to develop a method to identify top performers based on email communication. By reviewing existing literature, we identified the indicators that quantify email communication into measurable dimensions. To empirically examine the predictive power of the proposed indicators, we collected 2 million email archive of 578 executives in an international service company. Panel regression was employed to derive interpretable association between email indicators and top performance. The results suggest that top performers tend to assume central network positions and have high responsiveness to emails. In email contents, top performers use more positive and complex language, with low emotionality, but rich in influential words that are probably reused by co-workers. To better explore the predictive power of the email indicators, we employed AdaBoost machine learning models, which achieved 83.56% accuracy in identifying top performers. With cluster analysis, we further find three categories of top performers, "networkers" with central network positions, "influencers" with influential ideas and "positivists" with positive sentiments. The findings suggest that top performers have distinctive email communication patterns, laying the foundation for grounding email communication competence in theory. The proposed email analysis method also provides a tool to evaluate the different types of individual communication styles.
翻訳日:2021-05-28 16:10:03 公開日:2021-05-27
# 差分プライベートデンセストサブグラフ検出

Differentially Private Densest Subgraph Detection ( http://arxiv.org/abs/2105.13287v1 )

ライセンス: Link先を確認
Dung Nguyen and Anil Vullikanti(参考訳) デンセスト部分グラフ検出は基礎的なグラフマイニング問題であり、多くの応用がある。 大規模ネットワークにおける最も密集した部分グラフを見つけるための効率的なアルゴリズムには多くの研究があった。 しかし、多くのドメインでは、ネットワークはプライベートであり、最も密度の高いサブグラフを返すと、ネットワークに関する情報が明らかになる。 差分プライバシーはそのような設定を扱うための強力なフレームワークである。 本稿では,グラフのエッジがプライベートなエッジプライバシモデルにおいて,最も密度の高いサブグラフ問題について検討する。 この問題に対する最初の逐次および並列微分プライベートアルゴリズムを提案する。 我々は,アルゴリズムが付加近似を保証することを示す。 我々は,本アルゴリズムを多数の実世界のネットワーク上で評価し,ネットワークの密度が高い場合に適切なプライバシーと精度のトレードオフを観測する。

Densest subgraph detection is a fundamental graph mining problem, with a large number of applications. There has been a lot of work on efficient algorithms for finding the densest subgraph in massive networks. However, in many domains, the network is private, and returning a densest subgraph can reveal information about the network. Differential privacy is a powerful framework to handle such settings. We study the densest subgraph problem in the edge privacy model, in which the edges of the graph are private. We present the first sequential and parallel differentially private algorithms for this problem. We show that our algorithms have an additive approximation guarantee. We evaluate our algorithms on a large number of real-world networks, and observe a good privacy-accuracy tradeoff when the network has high density.
翻訳日:2021-05-28 16:09:23 公開日:2021-05-27
# マルチスケール勾配U-Netを用いた高分解能画像変換

Efficient High-Resolution Image-to-Image Translation using Multi-Scale Gradient U-Net ( http://arxiv.org/abs/2105.13067v1 )

ライセンス: Link先を確認
Kumarapu Laxman, Shiv Ram Dubey, Baddam Kalyan, and Satya Raj Vineel Kojjarapu(参考訳) 近年,条件付き生成型adversarial network (conditional gan) は,画像から画像への翻訳において非常に有望な性能を示している。 しかし、これらの条件付きGANは256X256などの低解像度画像に限られており、Pix2Pix-HDは高解像度画像合成に条件付きGANを利用する最近の試みである。 本稿では,2048X1024解像度までの高解像度画像変換のためのマルチスケールグラディエントベースU-Net(MSG U-Net)モデルを提案する。 提案モデルでは,複数の判別器から複数スケールの1つの発電機へ勾配を流すことができる。 提案したMSG U-Netアーキテクチャは、フォトリアリスティックな高解像度画像から画像への変換をもたらす。 さらに,提案手法はPix2Pix-HDに比較して計算効率が良く,推定時間を2.5倍近く改善する。 https://github.com/l axmaniron/MSG-U-NetでMSG U-Netモデルのコードを提供する。

Recently, Conditional Generative Adversarial Network (Conditional GAN) have shown very promising performance in several image-to-image translation applications. However, the uses of these conditional GANs are quite limited to low-resolution images, such as 256X256.The Pix2Pix-HD is a recent attempt to utilize the conditional GAN for high-resolution image synthesis. In this paper, we propose a Multi-Scale Gradient based U-Net (MSG U-Net) model for high-resolution image-to-image translation up to 2048X1024 resolution. The proposed model is trained by allowing the flow of gradients from multiple-discriminat ors to a single generator at multiple scales. The proposed MSG U-Net architecture leads to photo-realistic high-resolution image-to-image translation. Moreover, the proposed model is computationally efficient as com-pared to the Pix2Pix-HD with an improvement in the inference time nearly by 2.5 times. We provide the code of MSG U-Net model at https://github.com/l axmaniron/MSG-U-Net.
翻訳日:2021-05-28 16:08:50 公開日:2021-05-27
# HDRUNet: Denoising and Dequantizationによる単一画像HDR再構成

HDRUNet: Single Image HDR Reconstruction with Denoising and Dequantization ( http://arxiv.org/abs/2105.13084v1 )

ライセンス: Link先を確認
Xiangyu Chen, Yihao Liu, Zhengwen Zhang, Yu Qiao and Chao Dong(参考訳) ほとんどのコンシューマグレードのデジタルカメラは、センサーの制約により現実世界のシーンで限られた輝度しか撮影できない。 また、撮像過程でノイズや量子化誤差がしばしば導入される。 視覚的品質の優れた高ダイナミックレンジ(HDR)画像を得るために、最も一般的な解決策は複数の画像と異なる露出を組み合わせることである。 しかし、同一シーンの複数の画像を取得することは必ずしも不可能であり、ほとんどのHDR再構成手法はノイズや量子化損失を無視している。 本研究では,空間的にダイナミックなエンコーダデコーダネットワークであるHDRUNetを用いた新しい学習手法を提案する。 ネットワークは、階層的マルチスケール情報をフル活用するunetスタイルのベースネットワークと、パターン固有の変調を行う条件ネットワークと、情報を選択的に保持する重み付けネットワークとからなる。 さらに,ネットワーク学習における過剰な値と良好な値の影響をバランスさせるために,tanh_l1損失関数を提案する。 本手法は定量的比較と視覚的品質において最先端の性能を実現する。 提案されたHDRUNetモデルは、NITRE2021 High Dynamic Range Challengeの1フレームトラックで2位を獲得した。

Most consumer-grade digital cameras can only capture a limited range of luminance in real-world scenes due to sensor constraints. Besides, noise and quantization errors are often introduced in the imaging process. In order to obtain high dynamic range (HDR) images with excellent visual quality, the most common solution is to combine multiple images with different exposures. However, it is not always feasible to obtain multiple images of the same scene and most HDR reconstruction methods ignore the noise and quantization loss. In this work, we propose a novel learning-based approach using a spatially dynamic encoder-decoder network, HDRUNet, to learn an end-to-end mapping for single image HDR reconstruction with denoising and dequantization. The network consists of a UNet-style base network to make full use of the hierarchical multi-scale information, a condition network to perform pattern-specific modulation and a weighting network for selectively retaining information. Moreover, we propose a Tanh_L1 loss function to balance the impact of over-exposed values and well-exposed values on the network learning. Our method achieves the state-of-the-art performance in quantitative comparisons and visual quality. The proposed HDRUNet model won the second place in the single frame track of NITRE2021 High Dynamic Range Challenge.
翻訳日:2021-05-28 16:08:27 公開日:2021-05-27
# 夜間の車両検出のためのデータセット

A Dataset for Provident Vehicle Detection at Night ( http://arxiv.org/abs/2105.13236v1 )

ライセンス: Link先を確認
Sascha Saralajew and Lars Ohnemus and Lukas Ewecker and Ebubekir Asan and Simon Isele and Stefan Roos(参考訳) 現在のオブジェクト検出では、アルゴリズムは検出するために直接オブジェクトを見えるようにする必要がある。 しかし、人間として、私たちはそれぞれの物体によって引き起こされる視覚的手がかりを直感的に使い、その外観について既に仮定している。 運転の文脈では、そのような手がかりは日中の影であり、夜の光の反射であることが多い。 本稿では,この直感的な人間の行動をコンピュータビジョンアルゴリズムにマッピングして,夜間に出現する車両をヘッドライトによって引き起こされる光反射から検出する方法について議論する。 そこで我々は,夜間の農村環境における346の異なるシーンのうち,59746の注釈付きグレースケール画像を含む大規模なオープンソースデータセットを提案する。 これらの画像では、すべての対向車、対応する光オブジェクト(例えばヘッドランプ)、およびそれぞれの光反射(例えばガードレールの光反射)がラベル付けされている。 本稿では,このデータセットの特徴と,光反射などの視覚的手がかりを客観的に記述する上での課題について論じる。 タスクにアプローチするためのさまざまなメトリクスを提供し、最初のベンチマークとして最先端およびカスタムオブジェクト検出モデルを使用して達成した結果を報告します。 これにより、これまで無視されていたコンピュータビジョン研究の分野に注意を向け、より多くの研究者にこの問題に取り組むように促し、その結果、人間のパフォーマンスとコンピュータビジョンシステムの間のギャップをさらに縮めたいと考えています。

In current object detection, algorithms require the object to be directly visible in order to be detected. As humans, however, we intuitively use visual cues caused by the respective object to already make assumptions about its appearance. In the context of driving, such cues can be shadows during the day and often light reflections at night. In this paper, we study the problem of how to map this intuitive human behavior to computer vision algorithms to detect oncoming vehicles at night just from the light reflections they cause by their headlights. For that, we present an extensive open-source dataset containing 59746 annotated grayscale images out of 346 different scenes in a rural environment at night. In these images, all oncoming vehicles, their corresponding light objects (e.g., headlamps), and their respective light reflections (e.g., light reflections on guardrails) are labeled. In this context, we discuss the characteristics of the dataset and the challenges in objectively describing visual cues such as light reflections. We provide different metrics for different ways to approach the task and report the results we achieved using state-of-the-art and custom object detection models as a first benchmark. With that, we want to bring attention to a new and so far neglected field in computer vision research, encourage more researchers to tackle the problem, and thereby further close the gap between human performance and computer vision systems.
翻訳日:2021-05-28 16:07:53 公開日:2021-05-27
# 物体検出タスクのための動的ネットワーク選択:なぜそれが重要で何が達成できないのか

Dynamic Network selection for the Object Detection task: why it matters and what we (didn't) achieve ( http://arxiv.org/abs/2105.13279v1 )

ライセンス: Link先を確認
Emanuele Vitali and Anton Lokhmotov and Gianluca Palermo(参考訳) 本稿では,Deep Neural Network(DNN)コンテキストにおける推論プロセスに対する動的オートチューニングアプローチの潜在的なメリットを示し,オブジェクト検出の課題に対処する。 我々は、よく知られたCOCO 17データベースの最適検出器を見つけるために、異なるニューラルネットワークをベンチマークした。 これは、最も適切なネットワークを評価し、選択するための指標としてソリューションの時間も考慮すれば、さらに明確になります。 これにより、実行時の要求に応じて、異なるオブジェクト検出ネットワーク間で適応的手法を切り替える可能性を開く(例えば、)。 最大品質は解法までの時間制約)。 さらに, アドホックオラクルの開発により, 追加のプロアクティブな手法によりさらに大きなメリットが得られ, 処理された画像の特徴を考慮し, 利用可能なものの中から最適なネットワークを選択できることを実証した。 この手法を利用するには、最も有望なネットワーク上で決定を下すために使用できるいくつかの画像特徴を特定する必要がある。 最適化の機会が特定されたにもかかわらず、この試みが古典的な画像機能やdnn分類器を使わずに検証できる予測子関数は特定できなかった。

In this paper, we want to show the potential benefit of a dynamic auto-tuning approach for the inference process in the Deep Neural Network (DNN) context, tackling the object detection challenge. We benchmarked different neural networks to find the optimal detector for the well-known COCO 17 database, and we demonstrate that even if we only consider the quality of the prediction there is not a single optimal network. This is even more evident if we also consider the time to solution as a metric to evaluate, and then select, the most suitable network. This opens to the possibility for an adaptive methodology to switch among different object detection networks according to run-time requirements (e.g. maximum quality subject to a time-to-solution constraint). Moreover, we demonstrated by developing an ad hoc oracle, that an additional proactive methodology could provide even greater benefits, allowing us to select the best network among the available ones given some characteristics of the processed image. To exploit this method, we need to identify some image features that can be used to steer the decision on the most promising network. Despite the optimization opportunity that has been identified, we were not able to identify a predictor function that validates this attempt neither adopting classical image features nor by using a DNN classifier.
翻訳日:2021-05-28 16:07:16 公開日:2021-05-27
# ガウス帯域のベストアーム同定に対する非漸近的アプローチ

A Non-asymptotic Approach to Best-Arm Identification for Gaussian Bandits ( http://arxiv.org/abs/2105.12978v1 )

ライセンス: Link先を確認
Antoine Barrier (UMPA-ENSL, LMO), Aur\'elien Garivier (UMPA-ENSL), Tom\'a\v{s} Koc\'ak (UMPA-ENSL)(参考訳) 有界な手段と単位分散を持つガウス変数の信頼度を固定した最良アーム識別のための新しい戦略を提案する。 探索バイアスサンプリングと呼ばれるこの戦略は漸近的に最適であるだけでなく、高い確率で生じる非漸近境界も証明する。 私たちの知る限りでは、このような保証を持つ最初の戦略です。 探索バイアスサンプリング(Exploration-Biased Smpling)は、微妙だが自然な方法で探索を好んでおり、より安定し、解釈しやすくしています。 これらの改善は、より高速な数値解法と高利害関係にあるいくつかの定量正則性結果をもたらすサンプル複雑性最適化問題の新たな解析によって可能となる。

We propose a new strategy for best-arm identification with fixed confidence of Gaussian variables with bounded means and unit variance. This strategy called Exploration-Biased Sampling is not only asymptotically optimal: we also prove non-asymptotic bounds occurring with high probability. To the best of our knowledge, this is the first strategy with such guarantees. But the main advantage over other algorithms like Track-and-Stop is an improved behavior regarding exploration: Exploration-Biased Sampling is slightly biased in favor of exploration in a subtle but natural way that makes it more stable and interpretable. These improvements are allowed by a new analysis of the sample complexity optimization problem, which yields a faster numerical resolution scheme and several quantitative regularity results that we believe of high independent interest.
翻訳日:2021-05-28 16:06:39 公開日:2021-05-27
# クエリによる整数ハイパーキューブの学習連合(技術報告)

Learning Union of Integer Hypercubes with Queries (Technical Report) ( http://arxiv.org/abs/2105.13071v1 )

ライセンス: Link先を確認
Oliver Markgraf, Daniel Stan, and Anthony W. Lin(参考訳) 我々は、d次元整数格子(つまり、エッジが座標軸に平行な)上の整数(軸方向の)ハイパーキューブの有限和を求める問題を研究する。 これは、矩形学習の計算学習理論における古典問題の自然な一般化である。 最小限の適切な教師(すなわち教師)にアクセスできる学習アルゴリズムを提供する。 多項式時間において、任意の固定次元 d に対してこの問題を解決する会員と等価オラクル) 非固定次元では、問題は DNF ブール式を学習する問題を仮定する。 また、連合における無限のハイパーキューブを扱うための拡張や、サブセットクエリが実際に学習アルゴリズムの性能をどのように改善するかを示した。 この問題は、近年活発に研究されている量化子なし整数線形算術公式のモナディック分解問題への自然な応用がある。 特に、整数超キューブの有限和は、(モジュラー制約なしで)整数線型算術上のモナディック述語有限和に対応する。 我々の実験は、学習アルゴリズムが既存のアルゴリズムを大きく上回っていることを示唆している。

We study the problem of learning a finite union of integer (axis-aligned) hypercubes over the d-dimensional integer lattice, i.e., whose edges are parallel to the coordinate axes. This is a natural generalization of the classic problem in the computational learning theory of learning rectangles. We provide a learning algorithm with access to a minimally adequate teacher (i.e. membership and equivalence oracles) that solves this problem in polynomial-time, for any fixed dimension d. Over a non-fixed dimension, the problem subsumes the problem of learning DNF boolean formulas, a central open problem in the field. We have also provided extensions to handle infinite hypercubes in the union, as well as showing how subset queries could improve the performance of the learning algorithm in practice. Our problem has a natural application to the problem of monadic decomposition of quantifier-free integer linear arithmetic formulas, which has been actively studied in recent years. In particular, a finite union of integer hypercubes correspond to a finite disjunction of monadic predicates over integer linear arithmetic (without modulo constraints). Our experiments suggest that our learning algorithms substantially outperform the existing algorithms.
翻訳日:2021-05-28 16:04:53 公開日:2021-05-27
# 個人データリリースのための因果的制約付きデータ合成

Causally Constrained Data Synthesis for Private Data Release ( http://arxiv.org/abs/2105.13144v1 )

ライセンス: Link先を確認
Varun Chandrasekaran, Darren Edge, Somesh Jha, Amit Sharma, Cheng Zhang, Shruti Tople(参考訳) 証拠に基づく意思決定にはデータが必要だ。 しかし、現実世界のアプリケーションでは、データのプライバシーが重要です。 原データの特定の統計特性を反映した合成データを使用することで、原データのプライバシーが保護される。 この目的のために、プリエントワークは、形式的なプライバシー保証を提供するために、差分プライベートなデータリリースメカニズムを使用する。 しかし、そのようなメカニズムは、プライバシーとユーティリティのトレードオフを容認できない。 上記のトレードオフを好適に修正するために,トレーニングプロセスに因果情報を統合することを提案する。 理論的には、さらなる因果知識で訓練された生成モデルは、より強力な差分プライバシー保証を提供する。 実験により,変分オートエンコーダ(VAE)に基づいて異なるモデルを比較した結果,因果的情報によるレジリエンスの向上,および下流ユーティリティの向上が得られた。

Making evidence based decisions requires data. However for real-world applications, the privacy of data is critical. Using synthetic data which reflects certain statistical properties of the original data preserves the privacy of the original data. To this end, prior works utilize differentially private data release mechanisms to provide formal privacy guarantees. However, such mechanisms have unacceptable privacy vs. utility trade-offs. We propose incorporating causal information into the training process to favorably modify the aforementioned trade-off. We theoretically prove that generative models trained with additional causal knowledge provide stronger differential privacy guarantees. Empirically, we evaluate our solution comparing different models based on variational auto-encoders (VAEs), and show that causal information improves resilience to membership inference, with improvements in downstream utility.
翻訳日:2021-05-28 16:03:25 公開日:2021-05-27
# 最適化誘起平衡ネットワーク

Optimization Induced Equilibrium Networks ( http://arxiv.org/abs/2105.13228v1 )

ライセンス: Link先を確認
Xingyu Xie, Qiuhao Wang, Zenan Ling, Xia Li, Yisen Wang, Guangcan Liu, Zhouchen Lin(参考訳) 暗黙の方程式によって定義されるディープニューラルネットワーク(DNN)のような暗黙の平衡モデルは最近ますます魅力的になりつつある。 本稿では,モデルの平衡点を最適化問題の解として捉えることができるかという疑問について検討する。 具体的には、まずDNNを暗黙の凸関数の微分である新しい単位層に分解し、出力を一定に保つ。 次に、単位層の平衡モデルを導出し、最適化誘起平衡ネットワーク(OptEq)と名付け、深層に容易に拡張できる。 OptEq の平衡点は、その対応する凸最適化問題の解と明確な目的によって理論的に関連付けられる。 これに基づいて, 1) 基礎となる凸問題を, opteq のアーキテクチャを変更するために明示的に修正する, 2) 固定点反復に情報をマージする, 固定点集合が非シングルトンであるときに所望の平衡を選択することを保証する, といった, 平衡点に対する事前特性を柔軟に導入することができる。 この研究は深層モデルの最適化に向けた重要な第一歩を定めている。

Implicit equilibrium models, i.e., deep neural networks (DNNs) defined by implicit equations, have been becoming more and more attractive recently. In this paper, we investigate one emerging question if model's equilibrium point can be regarded as the solution of an optimization problem. Specifically, we first decompose DNNs into a new class of unit layer that is differential of an implicit convex function while keeping its output unchanged. Then, the equilibrium model of the unit layer can be derived, named Optimization Induced Equilibrium Networks (OptEq), which can be easily extended to deep layers. The equilibrium point of OptEq can be theoretically connected to the solution of its corresponding convex optimization problem with explicit objectives. Based on this, we can flexibly introduce prior properties to the equilibrium points: 1) modifying the underlying convex problems explicitly so as to change the architectures of OptEq; and 2) merging the information into the fixed point iteration, which guarantees to choose the desired equilibrium when the fixed point set is non-singleton. This work establishes an important first step towards optimization guided design of deep models.
翻訳日:2021-05-28 16:02:37 公開日:2021-05-27
# opreg-boost:オペレータ回帰によるオンラインアルゴリズムの高速化

OpReg-Boost: Learning to Accelerate Online Algorithms with Operator Regression ( http://arxiv.org/abs/2105.13271v1 )

ライセンス: Link先を確認
Nicola Bastianello, Andrea Simonetto, Emiliano Dall'Anese(参考訳) 本稿では,オンライン最適化と学習アルゴリズムの漸近誤差を低減するために,新たな正規化手法であるOpsReg-Boostを提案する。 特に,時間的(弱く)凸複合コストを伴う最適化問題に対するオンラインアルゴリズムについて考察する。 与えられたオンラインアルゴリズムに対して、OpReg-Boostは線形収束をもたらす最も近いアルゴリズムマップを学習する。 演算子回帰問題を定式化する方法を示し,単純な二次制約付き二次プログラム (qcqps) の閉形式解法を利用する計算効率の高いpeaceman-rachfordソルバを提案する。 シミュレーション結果はopreg-boost w.r.t.の優れた特性を示す。 より古典的なフォワード・バックワードアルゴリズムであるFISTAとアンダーソン・アクセラレーションは、その近接相対凸-回帰-ブースト(CvxReg-Boost)に関して、これも新しいが性能は低い。

This paper presents a new regularization approach -- termed OpReg-Boost -- to boost the convergence and lessen the asymptotic error of online optimization and learning algorithms. In particular, the paper considers online algorithms for optimization problems with a time-varying (weakly) convex composite cost. For a given online algorithm, OpReg-Boost learns the closest algorithmic map that yields linear convergence; to this end, the learning procedure hinges on the concept of operator regression. We show how to formalize the operator regression problem and propose a computationally-effi cient Peaceman-Rachford solver that exploits a closed-form solution of simple quadratically-constr ained quadratic programs (QCQPs). Simulation results showcase the superior properties of OpReg-Boost w.r.t. the more classical forward-backward algorithm, FISTA, and Anderson acceleration, and with respect to its close relative convex-regression-bo ost (CvxReg-Boost) which is also novel but less performing.
翻訳日:2021-05-28 16:02:06 公開日:2021-05-27
# 過パラメータシミュレーションモデルの校正:適性セットによる枠組み

Calibrating Over-Parametrized Simulation Models: A Framework via Eligibility Set ( http://arxiv.org/abs/2105.12893v1 )

ライセンス: Link先を確認
Yuanlu Bai and Tucker Balch and Haoxian Chen and Danial Dervovic and Henry Lam and Svitlana Vyetrenko(参考訳) 確率シュミレーションは解析性に欠ける複雑なモデルの出力性能を計算することを目的としている。 正確な予測を保証するためには、モデルを校正し、実際のデータに対して検証する必要がある。 従来の手法では、単純な仮説テストや距離最小化によるモデルデータマッチングをアドホックな方法で評価するが、非識別性と高次元から生じる課題に直面することがある。 本稿では,厳密な頻度主義的統計保証を満たすキャリブレーションスキームを開発するための枠組みを,集合ベース推定による非識別性をバイパスするように設計された適性セットと呼ぶ基本的な概念を用いて検討する。 多変量出力で対象とするこれらの集合を構成するための特徴抽出-理論集約手法について検討する。 本稿では,制限順序ブックマーケットシミュレータ (ABIDES) の校正など,いくつかの数値例で方法論を実証する。

Stochastic simulation aims to compute output performance for complex models that lack analytical tractability. To ensure accurate prediction, the model needs to be calibrated and validated against real data. Conventional methods approach these tasks by assessing the model-data match via simple hypothesis tests or distance minimization in an ad hoc fashion, but they can encounter challenges arising from non-identifiability and high dimensionality. In this paper, we investigate a framework to develop calibration schemes that satisfy rigorous frequentist statistical guarantees, via a basic notion that we call eligibility set designed to bypass non-identifiability via a set-based estimation. We investigate a feature extraction-then-aggr egation approach to construct these sets that target at multivariate outputs. We demonstrate our methodology on several numerical examples, including an application to calibration of a limit order book market simulator (ABIDES).
翻訳日:2021-05-28 16:00:29 公開日:2021-05-27
# 協調的局所化のための神経拡張的信念伝播

Neural Enhanced Belief Propagation for Cooperative Localization ( http://arxiv.org/abs/2105.12903v1 )

ライセンス: Link先を確認
Mingchao Liang, Florian Meyer(参考訳) 位置対応ネットワークは、現代的な利便性、応用海洋科学、公共安全のための革新的なサービスと応用を導入する。 本稿では,モデルベースとデータ駆動推論のハイブリッド手法を提案する。 本稿では,無線ネットワーク内の移動エージェントが,他のエージェントとのペアワイズによる観測や位置情報の交換によって,自己のローカライズを目指す協調的ローカライズ(cl)シナリオについて考察する。 大規模エージェントネットワークにおける分散clの伝統的な方法は、完全にモデルベースであり、一貫性のない(信頼できる)推定を提供するのに苦しむ信条伝播(bp)である。 提案手法は,グラフニューラルネットワーク(GNN)が提供する学習情報とBPを補完することにより,これらの制約に対処する。 計算複雑性はBPに匹敵するが,提案手法は推定精度を向上し,自信過剰な信念を回避することができることを示す。 特に、より一貫した信念は、GNNの訓練に使用される損失関数の過信に明示的に対処しないことによって得られる。

Location-aware networks will introduce innovative services and applications for modern convenience, applied ocean sciences, and public safety. In this paper, we establish a hybrid method for model-based and data-driven inference. We consider a cooperative localization (CL) scenario where the mobile agents in a wireless network aim to localize themselves by performing pairwise observations with other agents and by exchanging location information. A traditional method for distributed CL in large agent networks is belief propagation (BP) which is completely model-based and is known to suffer from providing inconsistent (overconfident) estimates. The proposed approach addresses these limitations by complementing BP with learned information provided by a graph neural network (GNN). We demonstrate numerically that our method can improve estimation accuracy and avoid overconfident beliefs, while its computational complexity remains comparable to BP. Notably, more consistent beliefs are obtained by not explicitly addressing overconfidence in the loss function used for training of the GNN.
翻訳日:2021-05-28 16:00:05 公開日:2021-05-27
# 高海での船舶運動の短時間リアルタイム予測のためのリカレント型ニューラルネットワーク

Recurrent-type Neural Networks for Real-time Short-term Prediction of Ship Motions in High Sea State ( http://arxiv.org/abs/2105.13102v1 )

ライセンス: Link先を確認
Danny D'Agostino, Andrea Serani, Frederick Stern, Matteo Diez(参考訳) 船体運動のリアルタイム短期予測(流速予測)において, 繰り返し型ニューラルネットワークの予測能力について検討した。 具体的には, 連続ニューラルネットワーク, 長期記憶, ゲート再帰単位モデルの性能を, 自走型駆逐艦型船体を船尾に配置した船体7の数値流体力学シミュレーションから得られたデータを用いて評価し, 比較した。 入射波の時系列、船の動き、舵角、および浸漬プローブは、現在のキャスティング問題の変数として使用される。 目標は,約20秒前の予測を取得することだ。 全体として、3つの手法は有望で同等の結果をもたらす。

The prediction capability of recurrent-type neural networks is investigated for real-time short-term prediction (nowcasting) of ship motions in high sea state. Specifically, the performance of recurrent neural networks, long-short term memory, and gated recurrent units models are assessed and compared using a data set coming from computational fluid dynamics simulations of a self-propelled destroyer-type vessel in stern-quartering sea state 7. Time series of incident wave, ship motions, rudder angle, as well as immersion probes, are used as variables for a nowcasting problem. The objective is to obtain about 20 s ahead prediction. Overall, the three methods provide promising and comparable results.
翻訳日:2021-05-28 15:59:35 公開日:2021-05-27
# 非消滅勾配を設計で保証するハミルトンディープニューラルネットワーク

Hamiltonian Deep Neural Networks Guaranteeing Non-vanishing Gradients by Design ( http://arxiv.org/abs/2105.13205v1 )

ライセンス: Link先を確認
Clara Luc\'ia Galimberti, Luca Furieri, Liang Xu, Giancarlo Ferrari-Trecate(参考訳) ディープニューラルネットワーク(dnn)トレーニングは、バックプロパゲーションによる重み付け最適化中の勾配の消失と爆発のために難しい場合がある。 そこで本研究では, 連続時間ハミルトン系の離散化を起点とし, 常微分方程式に基づく既存のアーキテクチャを含む, ハミルトン dnn (h-dnns) の一般クラスを提案する。 我々の主な成果は、広範囲のH-DNNが任意のネットワーク深さを設計することで、不要な勾配を保証することである。 これは、半単純オイラー離散化スキームを用いて、勾配計算に関わる後方感度行列がシンプレクティックであることを示すことによって得られる。 また, 感度行列の大きさに対する上限を与え, 爆発勾配は正規化によって制御できるか, 特殊なアーキテクチャでは回避できることを示した。 最後に,重み行列に対する適切な空間制約を特徴付けることにより,H-DNNにおける後方・前方伝搬アルゴリズムの分散実装を実現する。 MNISTデータセットを用いた画像分類を含むベンチマーク分類問題において,H-DNNの性能を示す。

Deep Neural Networks (DNNs) training can be difficult due to vanishing and exploding gradients during weight optimization through backpropagation. To address this problem, we propose a general class of Hamiltonian DNNs (H-DNNs) that stem from the discretization of continuous-time Hamiltonian systems and include several existing architectures based on ordinary differential equations. Our main result is that a broad set of H-DNNs ensures non-vanishing gradients by design for an arbitrary network depth. This is obtained by proving that, using a semi-implicit Euler discretization scheme, the backward sensitivity matrices involved in gradient computations are symplectic. We also provide an upper bound to the magnitude of sensitivity matrices, and show that exploding gradients can be either controlled through regularization or avoided for special architectures. Finally, we enable distributed implementations of backward and forward propagation algorithms in H-DNNs by characterizing appropriate sparsity constraints on the weight matrices. The good performance of H-DNNs is demonstrated on benchmark classification problems, including image classification with the MNIST dataset.
翻訳日:2021-05-28 15:58:43 公開日:2021-05-27
# ニューラルネットワークによる時間可変粒子データの特徴抽出と追跡

Time Varying Particle Data Feature Extraction and Tracking with Neural Networks ( http://arxiv.org/abs/2105.13240v1 )

ライセンス: Link先を確認
Haoyu Li and Han-Wei Shen(参考訳) 粒子データの解析は、流体シミュレーション、宇宙論シミュレーション、分子動力学など多くの科学応用において重要な役割を果たす。 ボリュームデータの特徴抽出と追跡が可能な方法はあるが、明示的な接続情報の欠如により、パーティクルデータに対するそれらのタスクの実行はより困難である。 粒子データを最初にボリュームに変換することができるが、このアプローチはエラーが発生し、データのサイズが大きくなるリスクがある。 本稿では,科学的な粒子データのための特徴表現を深層学習で作成し,特徴抽出と追跡を支援する。 我々は,地域近傍における空間的位置と物理的属性の関係を表現するために,潜在ベクトルを生成するディープラーニングモデルを用いる。 潜在ベクトルでは、これらのベクトルをクラスタリングすることで特徴を抽出することができる。 高速な特徴追跡を実現するために、平均シフト追跡アルゴリズムが特徴空間に適用される。 2つのデータセットを用いてアプローチを検証するとともに,既存の手法と比較する。

Analyzing particle data plays an important role in many scientific applications such as fluid simulation, cosmology simulation and molecular dynamics. While there exist methods that can perform feature extraction and tracking for volumetric data, performing those tasks for particle data is more challenging because of the lack of explicit connectivity information. Although one may convert the particle data to volume first, this approach is at risk of incurring error and increasing the size of the data. In this paper, we take a deep learning approach to create feature representations for scientific particle data to assist feature extraction and tracking. We employ a deep learning model, which produces latent vectors to represent the relation between spatial locations and physical attributes in a local neighborhood. With the latent vectors, features can be extracted by clustering these vectors. To achieve fast feature tracking, the mean-shift tracking algorithm is applied in the feature space, which only requires inference of the latent vector for selected regions of interest. We validate our approach using two datasets and compare our method with other existing methods.
翻訳日:2021-05-28 15:58:13 公開日:2021-05-27
# 時間的ニューラルネットワークを用いたオンライン学習のためのマイクロアーキテクチャ実装フレームワーク

A Microarchitecture Implementation Framework for Online Learning with Temporal Neural Networks ( http://arxiv.org/abs/2105.13262v1 )

ライセンス: Link先を確認
Harideep Nair, John Paul Shen and James E. Smith(参考訳) TNN(Temporal Neural Networks)は、哺乳類の新皮質と同様、時間を使って情報を表現し、処理するニューラルネットワークである。 異なるトレーニングと推論フェーズを使用する計算集約型ディープニューラルネットワークとは対照的に、TNNはオンラインインクリメンタル/連続学習を極めて効率的に行うことができ、エッジネイティブな知覚処理ユニットを構築するための優れた候補である。 本研究では,標準CMOSを用いたTNN実装のためのマイクロアーキテクチャフレームワークを提案する。 1)マルチシナプスニューロン、2)マルチニューロンカラム、3)スパイクタイミング依存可塑性(stdp)に基づく教師なし・教師なしオンライン学習アルゴリズムである。 TNNマイクロアーキテクチャは、TNN設計におけるゲート数、面積、遅延および消費電力を評価するための一連の特徴的なスケーリング方程式に具体化されている。 提案した設計に対する後合成結果(45nm CMOS)を提示し,そのオンラインインクリメンタル学習能力を示す。

Temporal Neural Networks (TNNs) are spiking neural networks that use time as a resource to represent and process information, similar to the mammalian neocortex. In contrast to compute-intensive Deep Neural Networks that employ separate training and inference phases, TNNs are capable of extremely efficient online incremental/continuo us learning and are excellent candidates for building edge-native sensory processing units. This work proposes a microarchitecture framework for implementing TNNs using standard CMOS. Gate-level implementations of three key building blocks are presented: 1) multi-synapse neurons, 2) multi-neuron columns, and 3) unsupervised and supervised online learning algorithms based on Spike Timing Dependent Plasticity (STDP). The TNN microarchitecture is embodied in a set of characteristic scaling equations for assessing the gate count, area, delay and power consumption for any TNN design. Post-synthesis results (in 45nm CMOS) for the proposed designs are presented, and their online incremental learning capability is demonstrated.
翻訳日:2021-05-28 15:57:45 公開日:2021-05-27
# GoSafe:グローバルに最適な安全なロボット学習

GoSafe: Globally Optimal Safe Robot Learning ( http://arxiv.org/abs/2105.13281v1 )

ライセンス: Link先を確認
Dominik Baumann and Alonso Marco and Matteo Turchetta and Sebastian Trimpe(参考訳) データからロボットシステムのポリシーを学ぶ際には、安全上の制約がハードウェアにダメージを与える可能性があるため、安全性が大きな懸念事項である。 SafeOptは、安全性を高い確率で保証しながらポリシーを学習できる効率的なベイズ最適化(BO)アルゴリズムである。 しかし、その検索空間は当初与えられた安全な領域に限定されている。 我々は,安全を高い確率で保証しつつ,初期安全領域の外側を探索することにより,この手法を拡張する。 これは、潜在的な障害が発生した場合、学習したバックアップコントローラを使用して安全に回復できる一連の初期条件を学習することによって達成される。 ハードウェア実験において,グローバルな最適化への収束を保証する条件を導出し,GoSafeを検証する。

When learning policies for robotic systems from data, safety is a major concern, as violation of safety constraints may cause hardware damage. SafeOpt is an efficient Bayesian optimization (BO) algorithm that can learn policies while guaranteeing safety with high probability. However, its search space is limited to an initially given safe region. We extend this method by exploring outside the initial safe area while still guaranteeing safety with high probability. This is achieved by learning a set of initial conditions from which we can recover safely using a learned backup controller in case of a potential failure. We derive conditions for guaranteed convergence to the global optimum and validate GoSafe in hardware experiments.
翻訳日:2021-05-28 15:57:18 公開日:2021-05-27
# Falicov-Kimballモデルにおける超クラスターの異常相分離と隠れ粗大化

Anomalous phase separation and hidden coarsening of super-clusters in the Falicov-Kimball model ( http://arxiv.org/abs/2105.13304v1 )

ライセンス: Link先を確認
Sheng Zhang, Puhan Zhang, Gia-Wei Chern(参考訳) 有名なファリコフ・キンボールモデルでは、豊かな位相秩序のダイナミクスが示される。 大規模量子力学モンテカルロシミュレーションを実現するための機械学習手法を応用し、電荷チェッカーボードクラスタの成長と隠れ対称性の破れに関連するドメインの粗大化とが競合する異常な位相分離シナリオを明らかにする。 この競争の結果、自己トラッピングメカニズムは、チェッカーボードパターンとそのスーパークラスタの逮捕された成長を引き起こす。 この研究で報告されているものと類似したガラスの挙動は、他の相関電子系では一般的である。

We show that the celebrated Falicov-Kimball model exhibits rich and intriguing phase-ordering dynamics. Applying modern machine learning methods to enable large-scale quantum kinetic Monte Carlo simulations, we uncover an unusual phase-separation scenario in which the growth of charge checkerboard clusters competes with domain coarsening related to a hidden symmetry-breaking. A self-trapping mechanism as a result of this competition gives rise to arrested growth of checkerboard patterns and their super-clusters. Glassy behaviors similar to the one reported in this work could be generic for other correlated electron systems.
翻訳日:2021-05-28 15:57:00 公開日:2021-05-27
# 神経オプションの価格設定

Neural Options Pricing ( http://arxiv.org/abs/2105.13320v1 )

ライセンス: Link先を確認
Timothy DeLise(参考訳) 本研究は,ニューラルsdesに適用される従来の仲裁価格理論に基づく金融オプションについて検討する。 我々はニューラルSDEを普遍的な It\^o プロセス近似器として扱う。 このようにして、すべての仮定を基礎となる価格プロセスで持ち上げ、理論的オプション価格を数値的に計算することができる。 本稿では,学習用損失関数としてワッサーシュタイン距離計を実装したSDE-GAN手法のバリエーションを提案する。 さらに、学習者モデルによって示唆されるオプション価格の誤差は、経験的データに適合するために使われた非常にワッサーシュタイン距離計量によって境界付けられると推測される。

This research investigates pricing financial options based on the traditional martingale theory of arbitrage pricing applied to neural SDEs. We treat neural SDEs as universal It\^o process approximators. In this way we can lift all assumptions on the form of the underlying price process, and compute theoretical option prices numerically. We propose a variation of the SDE-GAN approach by implementing the Wasserstein distance metric as a loss function for training. Furthermore, it is conjectured that the error of the option price implied by the learnt model can be bounded by the very Wasserstein distance metric that was used to fit the empirical data.
翻訳日:2021-05-28 15:56:43 公開日:2021-05-27
# Dual Averagingによるオープンネットワークの最適化

Optimization in Open Networks via Dual Averaging ( http://arxiv.org/abs/2105.13348v1 )

ライセンス: Link先を確認
Yu-Guan Hsieh, Franck Iutzeler, J\'er\^ome Malick, Panayotis Mertikopoulos(参考訳) 自律エージェント(例えば、車両群、散乱センサーなど)のネットワークでは、エージェントのローカル機能の総和を最小化することの問題は大きな関心を集めている。 我々は,エージェントがいつでもネットワークに参加・離脱できるオープンネットワークの場合,この分散最適化問題に取り組む。 近年のオンライン最適化技術を活用し,オープンネットワークのための分散非同期最適化手法の収束性を提案し,解析する。

In networks of autonomous agents (e.g., fleets of vehicles, scattered sensors), the problem of minimizing the sum of the agents' local functions has received a lot of interest. We tackle here this distributed optimization problem in the case of open networks when agents can join and leave the network at any time. Leveraging recent online optimization techniques, we propose and analyze the convergence of a decentralized asynchronous optimization method for open networks.
翻訳日:2021-05-28 15:56:29 公開日:2021-05-27
# (参考訳) 記号式検証のための欠陥データセット [全文訳有]

A Flawed Dataset for Symbolic Equation Verification ( http://arxiv.org/abs/2105.11479v3 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) Arabshahi, Singh, and Anandkumar (2018) は記号方程式の検証と方程式完成のタスクのための記号方程式のデータセットを作成する方法を提案する。 残念ながら、提案する手法を使って構築されたデータセットは、2つの深刻な欠陥に悩まされる。 まず、手続きが生成できる真の方程式のクラスは非常に限定的である。 第二に、真と偽の方程式は完全に異なる方法で生成されるので、容易に識別できる人工的な特徴がある可能性が高い。 さらに、それらが考慮する方程式のクラスにおいて、極めて信頼性の高い方程式検証の問題を解く非常に単純な確率的手続きが存在する。 したがって、aiシステムのテストベッドとして一般にこの問題の有用性は疑わしい。

Arabshahi, Singh, and Anandkumar (2018) propose a method for creating a dataset of symbolic mathematical equations for the tasks of symbolic equation verification and equation completion. Unfortunately, a dataset constructed using the method they propose will suffer from two serious flaws. First, the class of true equations that the procedure can generate will be very limited. Second, because true and false equations are generated in completely different ways, there are likely to be artifactual features that allow easy discrimination. Moreover, over the class of equations they consider, there is an extremely simple probabilistic procedure that solves the problem of equation verification with extremely high reliability. The usefulness of this problem in general as a testbed for AI systems is therefore doubtful.
翻訳日:2021-05-28 12:54:54 公開日:2021-05-27
# (参考訳) 合成コンテンツ識別のための活性化空間におけるパターン検出 [全文訳有]

Pattern Detection in the Activation Space for Identifying Synthesized Content ( http://arxiv.org/abs/2105.12479v2 )

ライセンス: CC BY 4.0
Celia Cintas, Skyler Speakman, Girmaw Abebe Tadesse, Victor Akinwande, Edward McFowland III, Komminist Weldemariam(参考訳) GAN(Generative Adversarial Networks)は、最近、低次元ランダムノイズからのフォトリアリスティック画像合成において、前例のない成功を収めている。 高品質なコンテンツを大規模に合成する能力は、生成されたサンプルが深刻な社会的、政治的、健康、ビジネス上の危険をもたらす誤報につながる可能性があるため、潜在的なリスクをもたらす。 トレーニング済みニューラルネットワークの内部層における異常なノードアクティベーションのサブセットを検出することにより、生成されたコンテンツを特定するためのSubsetGANを提案する。 これらのノードは群として、実際のデータから生成される活性化の期待分布から逸脱する非パラメトリック測度を最大化する。 これにより,その分布を事前に知ることなく合成画像の識別が可能となる。 SubsetGANは、ノードのサブセットを効率よくスコアし、最大スコアに寄与する事前訓練された分類器内のノードのグループを返す。 分類器は、複数のソースのサンプルや異なるGANの識別器ネットワークで訓練された一般的な偽分類器である。 提案手法は, 既存の検出手法に比べて, 既存のGAN(PGGAN, StarGAN, CycleGAN) や, 生成されたコンテントの比率よりも高い検出能力を示す。

Generative Adversarial Networks (GANs) have recently achieved unprecedented success in photo-realistic image synthesis from low-dimensional random noise. The ability to synthesize high-quality content at a large scale brings potential risks as the generated samples may lead to misinformation that can create severe social, political, health, and business hazards. We propose SubsetGAN to identify generated content by detecting a subset of anomalous node-activations in the inner layers of pre-trained neural networks. These nodes, as a group, maximize a non-parametric measure of divergence away from the expected distribution of activations created from real data. This enable us to identify synthesised images without prior knowledge of their distribution. SubsetGAN efficiently scores subsets of nodes and returns the group of nodes within the pre-trained classifier that contributed to the maximum score. The classifier can be a general fake classifier trained over samples from multiple sources or the discriminator network from different GANs. Our approach shows consistently higher detection power than existing detection methods across several state-of-the-art GANs (PGGAN, StarGAN, and CycleGAN) and over different proportions of generated content.
翻訳日:2021-05-28 12:44:43 公開日:2021-05-27
# (参考訳) インスタンス対応潜時空間探索による不整形顔属性編集 [全文訳有]

Disentangled Face Attribute Editing via Instance-Aware Latent Space Search ( http://arxiv.org/abs/2105.12660v2 )

ライセンス: CC BY 4.0
Yuxuan Han, Jiaolong Yang, and Ying Fu(参考訳) 近年の研究では、GAN(Generative Adversarial Networks)の潜在空間に、多様な顔属性編集アプリケーションを可能にする、豊富な意味方向が存在することが示されている。 しかし、既存のメソッドは属性のばらつきのばらつきに苦しむ可能性があり、望ましいメソッドを変更する際に他の属性が望ましくない変更となる。 既存の手法で使われている意味方向は属性レベルであり、特にGANのトレーニングセットにおける属性分布バイアスの存在下では、複雑な属性相関をモデル化することは困難である。 本稿では,インスタンス認識型潜在空間探索による属性編集のための意味的方向探索を行う新しいフレームワーク (ials) を提案する。 インスタンス情報は、入力画像上で評価された属性分類器の集合からの監督を利用して注入される。 さらに,属性変換と不等角化の有効性を定量化するための不等角変換(dt)メトリックを提案し,それに基づく属性レベルとインスタンス固有の方向の最適な制御因子を求める。 GAN生成画像と実世界の画像の両方に対する実験結果から,本手法は近年提案されている最先端手法よりも高い性能を示した。 コードはhttps://github.com/y xuhan/ialsで入手できる。

Recent works have shown that a rich set of semantic directions exist in the latent space of Generative Adversarial Networks (GANs), which enables various facial attribute editing applications. However, existing methods may suffer poor attribute variation disentanglement, leading to unwanted change of other attributes when altering the desired one. The semantic directions used by existing methods are at attribute level, which are difficult to model complex attribute correlations, especially in the presence of attribute distribution bias in GAN's training set. In this paper, we propose a novel framework (IALS) that performs Instance-Aware Latent-Space Search to find semantic directions for disentangled attribute editing. The instance information is injected by leveraging the supervision from a set of attribute classifiers evaluated on the input images. We further propose a Disentanglement-Tran sformation (DT) metric to quantify the attribute transformation and disentanglement efficacy and find the optimal control factor between attribute-level and instance-specific directions based on it. Experimental results on both GAN-generated and real-world images collectively show that our method outperforms state-of-the-art methods proposed recently by a wide margin. Code is available at https://github.com/y xuhan/IALS.
翻訳日:2021-05-28 12:20:35 公開日:2021-05-27
# (参考訳) コンピュータ断層撮影による肺塞栓症の診断 : 深層学習技術を用いた検討 [全文訳有]

Pulmonary embolism identification in computerized tomography pulmonary angiography scans with deep learning technologies in COVID-19 patients ( http://arxiv.org/abs/2105.11187v2 )

ライセンス: CC BY 4.0
Chairi Kiourt, Georgios Feretzakis, Konstantinos Dalamarinis, Dimitris Kalles, Georgios Pantos, Ioannis Papadopoulos, Spyros Kouris, George Ioannakis, Evangelos Loupelis, Petros Antonopoulos, Aikaterini Sakagianni(参考訳) 本研究の主な目的は、新型コロナウイルス患者のCTPA-Scansにおける肺塞栓症の診断に最先端の深層学習アプローチを利用し、そのパフォーマンスを初期評価し、最終的には高速トラックプロトタイプソリューション(システム)を提供することである。 我々は、モデル精度と高速トレーニングを組み合わせるために、トランスファーラーニングアプローチを通じて最も人気のある畳み込みニューラルネットワークアーキテクチャを採用し、評価した。 さらに,肺塞栓領域(関心領域)の局在化(対象検出)において,最も人気のある一段階検出モデルの一つを利用した。 いずれのアプローチもCTPA-Scanデータセットを用いてトレーニングし,673個のCTPA-Scan画像に1,465個のバウンディングボックスをアノテートした。 肺塞栓症分類における91%の妥当性を検証し,最先端画像分類モデルの簡易評価を行った。 また, 50%のiou閾値下での肺塞栓症局在に対する対象検出モデルでは, 平均で約68%の精度を示した。 どちらのアプローチも、将来の研究のためのトレーニングパイプライン全体(ソースコードによるステップバイステッププロセス)を提供しています。 本研究では,CTPA-Scans画像における肺塞栓症同定のための最も正確かつ高速な深層学習モデルについて,COVID-19感染患者の分類と局所化(物体検出)アプローチを用いて紹介する。 本研究は,肺塞栓症の診断精度を向上させるために,分類モデルと物体検出モデルを組み合わせた地域研究コミュニティのための高速追跡ソリューション(システム)を提供する。

The main objective of this work is to utilize state-of-the-art deep learning approaches for the identification of pulmonary embolism in CTPA-Scans for COVID-19 patients, provide an initial assessment of their performance and, ultimately, provide a fast-track prototype solution (system). We adopted and assessed some of the most popular convolutional neural network architectures through transfer learning approaches, to strive to combine good model accuracy with fast training. Additionally, we exploited one of the most popular one-stage object detection models for the localization (through object detection) of the pulmonary embolism regions-of-interests . The models of both approaches are trained on an original CTPA-Scan dataset, where we annotated of 673 CTPA-Scan images with 1,465 bounding boxes in total, highlighting pulmonary embolism regions-of-interests . We provide a brief assessment of some state-of-the-art image classification models by achieving validation accuracies of 91% in pulmonary embolism classification. Additionally, we achieved a precision of about 68% on average in the object detection model for the pulmonary embolism localization under 50% IoU threshold. For both approaches, we provide the entire training pipelines for future studies (step by step processes through source code). In this study, we present some of the most accurate and fast deep learning models for pulmonary embolism identification in CTPA-Scans images, through classification and localization (object detection) approaches for patients infected by COVID-19. We provide a fast-track solution (system) for the research community of the area, which combines both classification and object detection models for improving the precision of identifying pulmonary embolisms.
翻訳日:2021-05-28 11:57:05 公開日:2021-05-27
# FNAS:不確実性を意識した高速ニューラルネットワーク検索

FNAS: Uncertainty-Aware Fast Neural Architecture Search ( http://arxiv.org/abs/2105.11694v3 )

ライセンス: Link先を確認
Jihao Liu and Ming Zhang and Yangting Sun and Boxiao Liu and Guanglu Song and Yu Liu and Hongsheng Li(参考訳) 強化学習(rl)ベースのニューラルネットワーク検索(nas)は一般的に、コンバージェンスの改善を保証するが、プロキシタスクのサンプル生成毎に徹底的なトレーニングを行うロールアウトボトルネックのため、勾配ベースのアプローチと比較して、巨大な計算リソースを必要とする。 本稿では,nasにおけるrlプロセスと同様にロールアウトプロセスの収束を加速する一般的なパイプラインを提案する。 アーキテクチャとパラメータの知識の両方が異なる実験と異なるタスクの間で移動可能であるという興味深い観察から動機づけられている。 まず,事前実験におけるアーキテクチャ知識を活用し,学習過程を安定化し,探索時間を4倍短縮するために,近方政策最適化(ppo)における不確実性認識批判(価値関数)を導入する。 さらに、パラメータ知識を利用するためにブロック類似度関数と共にアーキテクチャ知識プールを提案し、探索時間を2倍短縮する。 rlベースのnasでブロックレベルの重量共有を導入した最初の例である。 ブロック類似度関数は、厳密な公正度で100%ヒット比を保証する。 さらに,RL最適化における「リプレイバッファ」に使用される単純なオフポリティ補正係数により,検索時間の半減効果が得られた。 Mobile Neural Architecture Search (MNAS) サーチスペースの実験では、提案されたFast Neural Architecture Search (FNAS) が標準のRLベースのNASプロセスを約10倍加速することを示した。 256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS) は、様々なビジョンタスクのパフォーマンスを保証する。

Reinforcement learning (RL)-based neural architecture search (NAS) generally guarantees better convergence yet suffers from the requirement of huge computational resources compared with gradient-based approaches, due to the rollout bottleneck -- exhaustive training for each sampled generation on proxy tasks. In this paper, we propose a general pipeline to accelerate the convergence of the rollout process as well as the RL process in NAS. It is motivated by the interesting observation that both the architecture and the parameter knowledge can be transferred between different experiments and even different tasks. We first introduce an uncertainty-aware critic (value function) in Proximal Policy Optimization (PPO) to utilize the architecture knowledge in previous experiments, which stabilizes the training process and reduces the searching time by 4 times. Further, an architecture knowledge pool together with a block similarity function is proposed to utilize parameter knowledge and reduces the searching time by 2 times. It is the first to introduce block-level weight sharing in RLbased NAS. The block similarity function guarantees a 100% hitting ratio with strict fairness. Besides, we show that a simply designed off-policy correction factor used in "replay buffer" in RL optimization can further reduce half of the searching time. Experiments on the Mobile Neural Architecture Search (MNAS) search space show the proposed Fast Neural Architecture Search (FNAS) accelerates standard RL-based NAS process by ~10x (e.g. ~256 2x2 TPUv2 x days / 20,000 GPU x hour -> 2,000 GPU x hour for MNAS), and guarantees better performance on various vision tasks.
翻訳日:2021-05-28 11:35:09 公開日:2021-05-27
# 最新サリエンシーモデリングのための領域内外の校正予測

Calibrated prediction in and out-of-domain for state-of-the-art saliency modeling ( http://arxiv.org/abs/2105.12441v2 )

ライセンス: Link先を確認
Akis Linardos, Matthias K\"ummerer, Ori Press, Matthias Bethge(参考訳) 2014年以降、トランスファーラーニングは空間塩分濃度予測の改善の鍵となっているが、過去3~5年間の進歩は停滞している。 我々は,deepgaze ii から採用した同じ readout architecture と learning protocol を使用して,さまざまなimagenet バックボーンをテストする大規模転送学習研究を行っている。 DeepGaze IIのVGG19バックボーンをResNet50機能に置き換えることで、サリエンシ予測のパフォーマンスを78%から85%に改善する。 しかし、より優れたImageNetモデルをバックボーンとして(例えばEfficientNetB5)テストし続けるにつれて、サリエンシ予測のさらなる改善は見られません。 バックボーンを解析することで、他のデータセットへの一般化は大幅に異なり、モデルはその固定予測において常に過信されていることが分かる。 複数のバックボーンを原則的に組み合わせることで、未発見のデータセットに対する十分な信頼性のキャリブレーションが可能になることを示す。 これにより、DeepGaze IIよりも15%改善され、MIT1003では93%に向上し、すべての利用可能なメトリクス(AUC:88.3%、sAUC:79.4%、CC:82.4%)でMIT/Tuebingen Saliency Benchmarkの新たな技術状況が記録された。

Since 2014 transfer learning has become the key driver for the improvement of spatial saliency prediction; however, with stagnant progress in the last 3-5 years. We conduct a large-scale transfer learning study which tests different ImageNet backbones, always using the same read out architecture and learning protocol adopted from DeepGaze II. By replacing the VGG19 backbone of DeepGaze II with ResNet50 features we improve the performance on saliency prediction from 78% to 85%. However, as we continue to test better ImageNet models as backbones (such as EfficientNetB5) we observe no additional improvement on saliency prediction. By analyzing the backbones further, we find that generalization to other datasets differs substantially, with models being consistently overconfident in their fixation predictions. We show that by combining multiple backbones in a principled manner a good confidence calibration on unseen datasets can be achieved. This yields a significant leap in benchmark performance in and out-of-domain with a 15 percent point improvement over DeepGaze II to 93% on MIT1003, marking a new state of the art on the MIT/Tuebingen Saliency Benchmark in all available metrics (AUC: 88.3%, sAUC: 79.4%, CC: 82.4%).
翻訳日:2021-05-28 11:34:22 公開日:2021-05-27
# 映像処理における機械学習の透明化に向けて

Towards Transparent Application of Machine Learning in Video Processing ( http://arxiv.org/abs/2105.12700v2 )

ライセンス: Link先を確認
Luka Murn, Marc Gorriz Blanch, Maria Santamaria, Fiona Rivera, Marta Mrak(参考訳) より効率的なビデオ圧縮とビデオ強化のための機械学習技術が開発されている。 人工知能(AI)の先進的な形態と見なされるこの新技術は、これまで予期せぬ能力をもたらす。 しかし、それらは典型的には、資源不足のブラックボックス(内部の作業に関する透明性がほとんどない、過度に複雑である)の形で現れる。 したがって、それらの応用は予測不可能であり、大規模な用途(例えば、)では一般的に信頼できない。 ライブ放送)。 この研究の目的は、ビデオ処理アプリケーションにおける学習モデルを理解し、最適化することで、それらを組み込んだシステムがより信頼できる方法で使用できるようにすることである。 この文脈では、ビデオ制作および配信アプリケーションのための機械学習の実装における透明性の向上を目的とした学習モデルの簡易化のための原則を導入する。 これらの原理はビデオ圧縮の例で示されており、関連するディープラーニングモデルを単純化することで、ビットレートの節約と複雑さの低減がいかに達成できるかを示している。

Machine learning techniques for more efficient video compression and video enhancement have been developed thanks to breakthroughs in deep learning. The new techniques, considered as an advanced form of Artificial Intelligence (AI), bring previously unforeseen capabilities. However, they typically come in the form of resource-hungry black-boxes (overly complex with little transparency regarding the inner workings). Their application can therefore be unpredictable and generally unreliable for large-scale use (e.g. in live broadcast). The aim of this work is to understand and optimise learned models in video processing applications so systems that incorporate them can be used in a more trustworthy manner. In this context, the presented work introduces principles for simplification of learned models targeting improved transparency in implementing machine learning for video production and distribution applications. These principles are demonstrated on video compression examples, showing how bitrate savings and reduced complexity can be achieved by simplifying relevant deep learning models.
翻訳日:2021-05-28 11:33:41 公開日:2021-05-27
# バイリンガル相互情報に基づくニューラルマシン翻訳のための適応学習

Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation ( http://arxiv.org/abs/2105.12523v2 )

ライセンス: Link先を確認
Yangyifan Xu, Yijin Liu, Fandong Meng, Jiajun Zhang, Jinan Xu, Jie Zhou(参考訳) 近年,トークンレベルの適応トレーニングは,異なるトークンに異なるトレーニング重みを割り当てることで,クロスエントロピー損失関数を調整し,トークンの不均衡問題を軽減し,機械翻訳における有望な改善を実現している。 しかし、従来の手法では、ソース言語を考慮せずにターゲット言語の静的単語頻度情報のみを使用しており、機械翻訳のようなバイリンガルタスクには不十分である。 本稿では,両言語主義の観点から目標トークンの学習困難度を測定し,トークンレベルの適応訓練を改善するために適応重みを割り当てる,新しいバイリンガル相互情報(BMI)に基づく適応目標を提案する。 この方法はbmiの高いトークンに対してより大きなトレーニング重みを割り当て、簡単なトークンは粗い粒度で更新され、難しいトークンは細かい粒度で更新される。 WMT14英語-ドイツ語とWMT19中国語-英語による実験結果は、Transformerベースラインと従来のトークンレベルの適応トレーニングアプローチと比較して、我々のアプローチの優位性を示している。 さらなる分析により,本手法は語彙多様性を向上できることが確認された。

Recently, token-level adaptive training has achieved promising improvement in machine translation, where the cross-entropy loss function is adjusted by assigning different training weights to different tokens, in order to alleviate the token imbalance problem. However, previous approaches only use static word frequency information in the target language without considering the source language, which is insufficient for bilingual tasks like machine translation. In this paper, we propose a novel bilingual mutual information (BMI) based adaptive objective, which measures the learning difficulty for each target token from the perspective of bilingualism, and assigns an adaptive weight accordingly to improve token-level adaptive training. This method assigns larger training weights to tokens with higher BMI, so that easy tokens are updated with coarse granularity while difficult tokens are updated with fine granularity. Experimental results on WMT14 English-to-German and WMT19 Chinese-to-English demonstrate the superiority of our approach compared with the Transformer baseline and previous token-level adaptive training approaches. Further analyses confirm that our method can improve the lexical diversity.
翻訳日:2021-05-28 11:33:17 公開日:2021-05-27
# 双方向LSTMと畳み込みニューラルネットワークハイブリッドモデルを用いたスマートホームネットワークの侵入検知システム

Intrusion Detection System in Smart Home Network Using Bidirectional LSTM and Convolutional Neural Networks Hybrid Model ( http://arxiv.org/abs/2105.12096v2 )

ライセンス: Link先を確認
Nelly Elsayed, Zaghloul Saad Zaghloul, Sylvia Worlali Azumah, Chengcheng Li(参考訳) IoT(Internet of Things)によって、スマートホームは私たちの日常生活の質と快適さを向上することができた。 しかし、これらの利便性は、急速に増加するいくつかのセキュリティ上の懸念をもたらした。 IoTデバイス、スマートホームハブ、ゲートウェイはさまざまなセキュリティリスクを引き起こす。 スマートホームゲートウェイは、IoTデバイス間の通信の集中的なポイントとして機能し、ハッカーのためのネットワークデータへのバックドアを作ることができる。 このような攻撃を検出する一般的な方法の1つは、ネットワークトラフィックの侵入検出である。 本稿では,双方向のlong short-term memory(bilstm)とconvolutional neural network(cnn)ハイブリッドモデルを用いて,スマートホームネットワークの異常を検出するための侵入検出システム(ids)を提案する。 BiLSTM繰り返し動作は、学習した情報を時間を通して保存するための侵入検出モデルを提供し、CNNはデータ特徴を完全に抽出する。 提案モデルは、任意のスマートホームネットワークゲートウェイに適用することができる。

Internet of Things (IoT) allowed smart homes to improve the quality and the comfort of our daily lives. However, these conveniences introduced several security concerns that increase rapidly. IoT devices, smart home hubs, and gateway raise various security risks. The smart home gateways act as a centralized point of communication between the IoT devices, which can create a backdoor into network data for hackers. One of the common and effective ways to detect such attacks is intrusion detection in the network traffic. In this paper, we proposed an intrusion detection system (IDS) to detect anomalies in a smart home network using a bidirectional long short-term memory (BiLSTM) and convolutional neural network (CNN) hybrid model. The BiLSTM recurrent behavior provides the intrusion detection model to preserve the learned information through time, and the CNN extracts perfectly the data features. The proposed model can be applied to any smart home network gateway.
翻訳日:2021-05-28 11:32:13 公開日:2021-05-27
# LTEとWi-Fi共存におけるベイズ非パラメトリック強化学習

Bayesian Nonparametric Reinforcement Learning in LTE and Wi-Fi Coexistence ( http://arxiv.org/abs/2105.12249v2 )

ライセンス: Link先を確認
Po-Kan Shih(参考訳) 次世代のワイヤレス通信の形成に伴い、モノのインターネット、自動運転車、ドローンといった新しいアプリケーションが、無許可の帯域を混雑させている。 長期進化(LTE)のようなライセンスネットワークは、低コストで高容量のコンテンツを提供するために、ライセンスされていないスペクトルにもたらされる。 しかし、LTEは他とスペクトルを共有するように設計されていない。 これらのネットワークのための協力センターは、不均一な特性を持ち、誰もが自由にスペクトルを入力・離脱できるため、設計は困難である。 一つの統一設計で無限のシナリオを組み込むことは不可能であるため、別の解決策は各ネットワークに自身の共存ポリシーを学習させることである。 以前のソリューションは固定シナリオでのみ動作する。 本研究では,5GHz帯帯のWi-FiとLTEエージェントの共存に対処する強化学習アルゴリズムを提案する。 共存問題は、分散部分可観測マルコフ決定過程 (dec-pomdp) としてモデル化され、異なるエージェントに対する政策の不確実性に対応するために、非パラメトリックな政策学習にベイズ的アプローチが採用された。 報酬関数に公正度尺度を導入し、エージェント間の公平な共有を奨励した。 後部近似の確率および変分推論として値関数を変換することにより,強化学習を最適化問題とした。 シミュレーションの結果、このアルゴリズムはコンパクトなポリシー表現で高い値に達し、エージェントセットに適用しても計算効率が保たれることが示された。

With the formation of next generation wireless communication, a growing number of new applications like internet of things, autonomous car, and drone is crowding the unlicensed spectrum. Licensed network such as the long-term evolution (LTE) also comes to the unlicensed spectrum for better providing high-capacity contents with low cost. However, LTE was not designed for sharing spectrum with others. A cooperation center for these networks is costly because they possess heterogeneous properties and everyone can enter and leave the spectrum unrestrictedly, so the design will be challenging. Since it is infeasible to incorporate potentially infinite scenarios with one unified design, an alternative solution is to let each network learn its own coexistence policy. Previous solutions only work on fixed scenarios. In this work a reinforcement learning algorithm is presented to cope with the coexistence between Wi-Fi and LTE agents in 5 GHz unlicensed spectrum. The coexistence problem was modeled as a decentralized partially observable Markov decision process (Dec-POMDP) and Bayesian approach was adopted for policy learning with nonparametric prior to accommodate the uncertainty of policy for different agents. A fairness measure was introduced in the reward function to encourage fair sharing between agents. The reinforcement learning was turned into an optimization problem by transforming the value function as likelihood and variational inference for posterior approximation. Simulation results demonstrate that this algorithm can reach high value with compact policy representations, and stay computationally efficient when applying to agent set.
翻訳日:2021-05-28 11:31:46 公開日:2021-05-27
# 修飾分子表現を用いた深層学習モデルによる有機分子の水溶性予測

Predicting Aqueous Solubility of Organic Molecules Using Deep Learning Models with Varied Molecular Representations ( http://arxiv.org/abs/2105.12638v2 )

ライセンス: Link先を確認
Gihan Panapitiya, Michael Girard, Aaron Hollas, Vijay Murugesan, Wei Wang, Emily Saldanha(参考訳) 分子の水溶性を決定することは、多くの医薬品、環境、エネルギー貯蔵用途において重要なステップである。 数十年にわたる努力にもかかわらず、これらのアプリケーションの多くに十分な精度を持つ溶解度予測モデルの開発には依然として課題がある。 本研究の目的は,幅広い有機分子の溶解度を予測できる汎用モデルを開発することである。 Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. 分子ディスクリプタを用いたモデルでは,GNNモデルでも優れた性能が得られた。 モデル性能に影響を与える分子特性を理解し,どの分子構造に関する情報が最も価値があるかを理解するために特徴解析を行い,モデル性能に対するデータ可用性の影響を理解するために,転送学習とデータサイズ研究を行う。

Determining the aqueous solubility of molecules is a vital step in many pharmaceutical, environmental, and energy storage applications. Despite efforts made over decades, there are still challenges associated with developing a solubility prediction model with satisfactory accuracy for many of these applications. The goal of this study is to develop a general model capable of predicting the solubility of a broad range of organic molecules. Using the largest currently available solubility dataset, we implement deep learning-based models to predict solubility from molecular structure and explore several different molecular representations including molecular descriptors, simplified molecular-input line-entry system (SMILES) strings, molecular graphs, and three-dimensional (3D) atomic coordinates using four different neural network architectures - fully connected neural networks (FCNNs), recurrent neural networks (RNNs), graph neural networks (GNNs), and SchNet. We find that models using molecular descriptors achieve the best performance, with GNN models also achieving good performance. We perform extensive error analysis to understand the molecular properties that influence model performance, perform feature analysis to understand which information about molecular structure is most valuable for prediction, and perform a transfer learning and data size study to understand the impact of data availability on model performance.
翻訳日:2021-05-28 11:31:06 公開日:2021-05-27