このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210605となっている論文です。

PDF登録状況(公開日: 20210605)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) クロスドメインクリックスルーレート予測のための二重注意シーケンス学習 [全文訳有]

Dual Attentive Sequential Learning for Cross-Domain Click-Through Rate Prediction ( http://arxiv.org/abs/2106.02768v1 )

ライセンス: CC BY 4.0
Pan Li, Zhichao Jiang, Maofei Que, Yao Hu and Alexander Tuzhilin(参考訳) クロスドメインレコメンダシステムは、複数のカテゴリドメインにまたがるユーザの好みを集約し、転送することで、コールドスタートとスパーシティの問題に取り組む強力な方法を構成する。 そのため、多数の製品ドメインを持つオンラインコマースプラットフォームにおいて、クリックスルーレート予測性能を向上させる可能性がある。 いくつかのクロスドメインシーケンシャルレコメンデーションモデルは、ソースドメインからの情報を活用してターゲットドメイン内のCTR予測を改善するために提案されているが、ソースドメインとターゲットドメインのペア間でのユーザ好みの双方向遅延関係を考慮していない。 そのため、両方のドメインに対して拡張されたクロスドメインCTR予測を同時に提供することはできない。 本稿では,学習プロセスが安定化するまで,2つの関連ドメイン間の情報を同時に反復的に伝達する2つの学習メカニズムに基づく,クロスドメインシーケンシャルなレコメンデーション手法を提案する。 特に,提案手法は,2段階学習プロセスを共同で確立する2つの新しい組込みと2段階注意からなる。まず,2段階学習機構を用いて,両領域におけるユーザの嗜好を同時に抽出する2段階潜在組込みを構築し,さらに,抽出した潜在組込みを候補項目と一致させることにより,分野横断的な推薦を行う。 3つの実世界のデータセットについて大規模なオフライン実験を行い,提案モデルの優位性を実証した。 また、大手ビデオストリーミングプラットフォームであるAlibaba-YoukuでもオンラインA/Bテストを実施しています。

Cross domain recommender system constitutes a powerful method to tackle the cold-start and sparsity problem by aggregating and transferring user preferences across multiple category domains. Therefore, it has great potential to improve click-through-rate prediction performance in online commerce platforms having many domains of products. While several cross domain sequential recommendation models have been proposed to leverage information from a source domain to improve CTR predictions in a target domain, they did not take into account bidirectional latent relations of user preferences across source-target domain pairs. As such, they cannot provide enhanced cross-domain CTR predictions for both domains simultaneously. In this paper, we propose a novel approach to cross-domain sequential recommendations based on the dual learning mechanism that simultaneously transfers information between two related domains in an iterative manner until the learning process stabilizes. In particular, the proposed Dual Attentive Sequential Learning (DASL) model consists of two novel components Dual Embedding and Dual Attention, which jointly establish the two-stage learning process: we first construct dual latent embeddings that extract user preferences in both domains simultaneously, and subsequently provide cross-domain recommendations by matching the extracted latent embeddings with candidate items through dual-attention learning mechanism. We conduct extensive offline experiments on three real-world datasets to demonstrate the superiority of our proposed model, which significantly and consistently outperforms several state-of-the-art baselines across all experimental settings. We also conduct an online A/B test at a major video streaming platform Alibaba-Youku, where our proposed model significantly improves business performance over the latest production system in the company.
翻訳日:2021-06-14 09:59:33 公開日:2021-06-05
# (参考訳) PURS:ユーザ満足度向上のためのパーソナライズされた未予測レコメンダシステム [全文訳有]

PURS: Personalized Unexpected Recommender System for Improving User Satisfaction ( http://arxiv.org/abs/2106.02771v1 )

ライセンス: CC BY 4.0
Pan Li, Maofei Que, Zhichao Jiang, Yao Hu and Alexander Tuzhilin(参考訳) 古典的なレコメンダシステム手法は、ユーザーが慣れ親しんだアイテムのレコメンデーションしか受け取らず、退屈で不満な場合にフィルターバブル問題に直面する。 フィルタバブル問題に対処するため,ユーザの事前の期待からかなり逸脱した項目を推薦する,予期せぬ勧告が提案されている。 本稿では,潜在空間におけるユーザ関心のマルチクラスタ・モデリングと,自己認識機構によるパーソナライズされた予期せぬアクティベーション機能の選択によって,予測をレコメンデーションプロセスに組み込んだ新しいパーソナライズされた非予測レコメンダシステム(PURS)モデルについて述べる。 3つの実世界のデータセットに対する大規模なオフライン実験は、提案されたPURSモデルが精度と予期せぬ測度の両方で最先端のベースラインアプローチを大幅に上回っていることを示している。 さらに,主要なビデオプラットフォームであるalibaba-youkuでオンラインa/bテストを実施し,ユーザメトリック当たりの平均ビデオビューを3~%以上向上させた。 提案されたモデルは、企業によってデプロイされるプロセスにある。

Classical recommender system methods typically face the filter bubble problem when users only receive recommendations of their familiar items, making them bored and dissatisfied. To address the filter bubble problem, unexpected recommendations have been proposed to recommend items significantly deviating from user's prior expectations and thus surprising them by presenting "fresh" and previously unexplored items to the users. In this paper, we describe a novel Personalized Unexpected Recommender System (PURS) model that incorporates unexpectedness into the recommendation process by providing multi-cluster modeling of user interests in the latent space and personalized unexpectedness via the self-attention mechanism and via selection of an appropriate unexpected activation function. Extensive offline experiments on three real-world datasets illustrate that the proposed PURS model significantly outperforms the state-of-the-art baseline approaches in terms of both accuracy and unexpectedness measures. In addition, we conduct an online A/B test at a major video platform Alibaba-Youku, where our model achieves over 3\% increase in the average video view per user metric. The proposed model is in the process of being deployed by the company.
翻訳日:2021-06-14 09:45:00 公開日:2021-06-05
# (参考訳) GLSD:グローバルな大規模船舶データベースとベースライン評価 [全文訳有]

GLSD: The Global Large-Scale Ship Database and Baseline Evaluations ( http://arxiv.org/abs/2106.02773v1 )

ライセンス: CC BY 4.0
Zhenfeng Shao, Jiaming Wang, Lianbing Deng, Xiao Huang, Tao Lu, Ruiqian Zhang, Xianwei Lv, Qing Ding, and Zhiqiang Wang(参考訳) 本稿では,船舶検知タスクに特化して設計されたグローバルな大規模船舶データベース(GLSD)を紹介する。 設計されたGLSDデータベースには、100,729の画像から合計140,616の注釈付きインスタンスが含まれている。 収集した画像に基づいて,国際ルートに広く存在する13のカテゴリを提案する。 これらのカテゴリーは、帆船、漁船、旅客船、軍艦、一般貨物船、コンテナ船、ばら積み貨物船、バージ、鉱石運送船、スピードボート、カヌー、石油運送船、タグである。 GLSDの開発モチベーションは,1) 改良された船舶検知データベースの提供,2) 船の発見と総括ラベル情報(バウンディングボックスおよび船級ラベル)の世界的な研究者を1つのグローバルデータベースに提供すること,3) マルチモーダル分析の恩恵を受ける地理的情報(ポートおよび国情報)を備えた大規模船舶データベースの提供である。 さらに、GLSDにおける画像特性の評価プロトコルについて検討し、GSLD上で選択した最先端物体検出アルゴリズムの性能を分析し、今後の研究のベースラインを提供する。 デザインされたGLSDに関する詳細はhttps://github.com/j iaming-wang/GLSDで確認できる。

In this paper, we introduce a challenging global large-scale ship database (called GLSD), designed specifically for ship detection tasks. The designed GLSD database includes a total of 140,616 annotated instances from 100,729 images. Based on the collected images, we propose 13 categories that widely exists in international routes. These categories include sailing boat, fishing boat, passenger ship, war ship, general cargo ship, container ship, bulk cargo carrier, barge, ore carrier, speed boat, canoe, oil carrier, and tug. The motivations of developing GLSD include the following: 1) providing a refined ship detection database; 2) providing the worldwide researchers of ship detection and exhaustive label information (bounding box and ship class label) in one uniform global database; and 3) providing a large-scale ship database with geographic information (port and country information) that benefits multi-modal analysis. In addition, we discuss the evaluation protocols given image characteristics in GLSD and analyze the performance of selected state-of-the-art object detection algorithms on GSLD, providing baselines for future studies. More information regarding the designed GLSD can be found at https://github.com/j iaming-wang/GLSD.
翻訳日:2021-06-14 09:29:15 公開日:2021-06-05
# (参考訳) モーションプランニングトランスフォーマー:全部を計画する1つのモデル [全文訳有]

Motion Planning Transformers: One Model to Plan Them All ( http://arxiv.org/abs/2106.02791v1 )

ライセンス: CC BY 4.0
Jacob J. Johnson, Linjun Li, Ahmed H. Qureshi, and Michael C. Yip(参考訳) トランスフォーマーは自然言語処理の原動力となり、最近ではコンピュータビジョンタスクで使われている。 注意力の有効利用は他の文脈でも利用可能であり,本稿では,複雑な動作計画問題の効率的に解くためのトランスフォーマティブ・アプローチを提案する。 従来のニューラルネットワークベースのモーションプランニングでは、畳み込みネットワークを使用して計画空間をエンコードするが、これらの方法は固定されたマップサイズに限定される。 提案手法では,まずトランスフォーマーを用いて地図上の領域を同定し,最適経路を含む可能性のある地図領域に注意を向けるとともに,最終衝突のない経路を生成するためにローカルプランナーを適用する。 提案手法は,異なる地図サイズでランダムに生成された環境に対して検証し,計画の複雑さを低減し,従来のプランナーに匹敵する精度を実現する。

Transformers have become the powerhouse of natural language processing and recently found use in computer vision tasks. Their effective use of attention can be used in other contexts as well, and in this paper, we propose a transformer-based approach for efficiently solving the complex motion planning problems. Traditional neural network-based motion planning uses convolutional networks to encode the planning space, but these methods are limited to fixed map sizes, which is often not realistic in the real-world. Our approach first identifies regions on the map using transformers to provide attention to map areas likely to include the best path, and then applies local planners to generate the final collision-free path. We validate our method on a variety of randomly generated environments with different map sizes, demonstrating reduction in planning complexity and achieving comparable accuracy to traditional planners.
翻訳日:2021-06-14 09:10:40 公開日:2021-06-05
# (参考訳) 自殺リスク評価のための弱監視手法:関連ドメインの役割 [全文訳有]

Weakly-Supervised Methods for Suicide Risk Assessment: Role of Related Domains ( http://arxiv.org/abs/2106.02792v1 )

ライセンス: CC BY 4.0
Chenghao Yang, Yudong Zhang, Smaranda Muresan(参考訳) ソーシャルメディアは自殺イデオロギーの研究や自殺リスクの評価において貴重な資源となっている。 ソーシャルメディアプラットフォームの中で、redditは匿名性と、誰かの精神状態や、r/suicidewatch、r/anxiety、r/depressionといった精神疾患に対する関心を示すトピックベースのコミュニティ(サブreddit)にフォーカスしていることから、最も有望な存在となっている。 自殺リスクアセスメントに関する以前の研究の課題は、少量のラベル付きデータである。 本稿では,いくつかの弱教師付きアプローチのクラスについて経験的研究を行い,メンタルヘルス(不安,抑うつなど)に関連する諸問題に基づく疑似ラベルの使用が自殺リスク評価のモデル性能の向上に寄与することを示す。

Social media has become a valuable resource for the study of suicidal ideation and the assessment of suicide risk. Among social media platforms, Reddit has emerged as the most promising one due to its anonymity and its focus on topic-based communities (subreddits) that can be indicative of someone's state of mind or interest regarding mental health disorders such as r/SuicideWatch, r/Anxiety, r/depression. A challenge for previous work on suicide risk assessment has been the small amount of labeled data. We propose an empirical investigation into several classes of weakly-supervised approaches, and show that using pseudo-labeling based on related issues around mental health (e.g., anxiety, depression) helps improve model performance for suicide risk assessment.
翻訳日:2021-06-14 08:57:37 公開日:2021-06-05
# (参考訳) 重み空間測地観測によるハイブリッド機械学習タスクの解法 [全文訳有]

Solving hybrid machine learning tasks by traversing weight space geodesics ( http://arxiv.org/abs/2106.02793v1 )

ライセンス: CC BY 4.0
Guruprasad Raghavan, Matt Thomson(参考訳) 機械学習問題は、ニューラルネットワークの重み空間を含む中心オブジェクトとしての本質的な幾何学的構造を持ち、特定のタスクに関連する損失関数は、与えられた機械学習問題の本質的な幾何学を符号化することができる。 したがって、幾何学的概念は、機械学習戦略の理論的性質の解析と理解、および新しいアルゴリズムの開発に応用できる。 本稿では,差分幾何学を基礎とした統一フレームワークを用いて,機械学習における3つの非関係なオープンな疑問に対処する。 具体的には、ニューラルネットワークの重み空間を、特定のタスクのパフォーマンスをエンコードするリーマン計量を備えた多様体として見る。 計量を定義することで、特定のタスク上で等価あるいはほぼ等価な機能性能のネットワークの集合を表す測地線、最小長、経路を重み空間内に構築できる。 そして,第2の目的を満たすネットワークを特定しながら,測地経路を横切る。 幾何学的洞察から着想を得た測地学の枠組みを3つの主要な応用に適用する: (i)ネットワークスペーシフィケーション (ii) 一連の目的に対して高い性能のネットワークを構築することで破滅的な忘れを軽減し、 (iii) 深層ネットワークの異なる局所最適性を接続する高精度パスを見つける。 この結果は,MNIST, CIFAR-10/100で訓練された幅広いネットワークアーキテクチャ(MLP, VGG11/16)で得られた。 広義には、機械学習の目的を統一し、ニューラルネットワークアーキテクチャの複数のクラスに適用可能な幾何学的フレームワークを導入する。

Machine learning problems have an intrinsic geometric structure as central objects including a neural network's weight space and the loss function associated with a particular task can be viewed as encoding the intrinsic geometry of a given machine learning problem. Therefore, geometric concepts can be applied to analyze and understand theoretical properties of machine learning strategies as well as to develop new algorithms. In this paper, we address three seemingly unrelated open questions in machine learning by viewing them through a unified framework grounded in differential geometry. Specifically, we view the weight space of a neural network as a manifold endowed with a Riemannian metric that encodes performance on specific tasks. By defining a metric, we can construct geodesic, minimum length, paths in weight space that represent sets of networks of equivalent or near equivalent functional performance on a specific task. We, then, traverse geodesic paths while identifying networks that satisfy a second objective. Inspired by the geometric insight, we apply our geodesic framework to 3 major applications: (i) Network sparsification (ii) Mitigating catastrophic forgetting by constructing networks with high performance on a series of objectives and (iii) Finding high-accuracy paths connecting distinct local optima of deep networks in the non-convex loss landscape. Our results are obtained on a wide range of network architectures (MLP, VGG11/16) trained on MNIST, CIFAR-10/100. Broadly, we introduce a geometric framework that unifies a range of machine learning objectives and that can be applied to multiple classes of neural network architectures.
翻訳日:2021-06-14 08:47:27 公開日:2021-06-05
# (参考訳) 原則ビット分析 - Schur-Concave Lossによる自動エンコーディング [全文訳有]

Principle Bit Analysis: Autoencoding with Schur-Concave Loss ( http://arxiv.org/abs/2106.02796v1 )

ライセンス: CC BY 4.0
Sourbh Bhadane, Aaron B. Wagner, Jayadev Acharya(参考訳) 我々は、潜在変数が量子化され、ノイズによって劣化する線形自己エンコーダを考察し、潜在変数の集合における制約はシュル・コンケーブである。 この設定で最適なエンコーダ/デコーダペアを見つけることは非凸最適化問題であるが、ソースを主成分に分解することが最適であることを示す。 制約が厳密で経験的共分散行列が単純な固有値しか持たない場合、任意の最適なエンコーダ/デコーダはこの方法でソースを分解しなければならない。 1つのアプリケーションとして、固定レートエンコーディングの下で潜伏変数を表すのに必要なビット数を推定する厳密なSchur-concave制約を考え、これを \emph{Principal Bit Analysis (PBA) と呼ぶ。 これにより、既存のアルゴリズムを上回る実用的で汎用的な固定レート圧縮機が得られる。 第2の応用として,原型的なオートエンコーダベースの可変レート圧縮器では,ソースを主成分に分解することが保証されている。

We consider a linear autoencoder in which the latent variables are quantized, or corrupted by noise, and the constraint is Schur-concave in the set of latent variances. Although finding the optimal encoder/decoder pair for this setup is a nonconvex optimization problem, we show that decomposing the source into its principal components is optimal. If the constraint is strictly Schur-concave and the empirical covariance matrix has only simple eigenvalues, then any optimal encoder/decoder must decompose the source in this way. As one application, we consider a strictly Schur-concave constraint that estimates the number of bits needed to represent the latent variables under fixed-rate encoding, a setup that we call \emph{Principal Bit Analysis (PBA)}. This yields a practical, general-purpose, fixed-rate compressor that outperforms existing algorithms. As a second application, we show that a prototypical autoencoder-based variable-rate compressor is guaranteed to decompose the source into its principal components.
翻訳日:2021-06-14 08:12:00 公開日:2021-06-05
# (参考訳) AOSLO-net: 適応光学走査型レーザー眼科画像からの網膜微小動脈瘤の自動分画法

AOSLO-net: A deep learning-based method for automatic segmentation of retinal microaneurysms from adaptive optics scanning laser ophthalmoscope images ( http://arxiv.org/abs/2106.02800v1 )

ライセンス: CC BY 4.0
Qian Zhang, Konstantina Sampani, Mengjia Xu, Shengze Cai, Yixiang Deng, He Li, Jennifer K. Sun, George Em Karniadakis(参考訳) AOSLO(Adaptive Opticals scanning Laser Ophthalmoscopy)は、高解像度の高解像度のリアルタイム網膜画像を提供する。 この技術は、糖尿病網膜症(DR)の初期の兆候の1つである個々の微小動脈瘤(MA)の形態の検出を可能にする。 標準眼底写真におけるMA検出のために開発された従来の自動モデルとは対照的に、現在、AOSLO写真の自動解析のための高スループット画像プロトコルは存在しない。 この緊急性に対処するために,前処理,データ拡張,転送学習などのトレーニングポリシをカスタマイズしたディープニューラルネットワークフレームワークであるaoslo-netを導入することで,aosloイメージからmasを自動的にセグメント化する。 87 DR AOSLO画像を用いたAOSLO-netの性能評価を行い,MA形態分類の精度とコストを両立させながら,MA形態分類の精度を高く評価した。

Adaptive optics scanning laser ophthalmoscopy (AOSLO) provides real-time retinal images with high resolution down to 2 $\mu m$. This technique enables detection of the morphologies of individual microaneurysms (MAs), which are one of the earliest signs of diabetic retinopathy (DR), a frequent complication of diabetes that can lead to visual impairment and blindness. In contrast to previous automatic models developed for MA detection on standard fundus photographs, currently there is no high throughput image protocol available for automatic analysis of AOSLO photographs. To address this urgency, we introduce AOSLO-net, a deep neural network framework with customized training policy, including preprocessing, data augmentation and transfer learning, to automatically segment MAs from AOSLO images. We evaluate the performance of AOSLO-net using 87 DR AOSLO images demonstrating very accurate MA detection and segmentation, leading to correct MA morphological classification, while outperforming the state-of-the-art both in accuracy and cost.
翻訳日:2021-06-14 07:50:53 公開日:2021-06-05
# (参考訳) ポイント2ポリゴン:逆ネットワークを用いた弱ラベルからのコンテキストベースセグメンテーション [全文訳有]

Points2Polygons: Context-Based Segmentation from Weak Labels Using Adversarial Networks ( http://arxiv.org/abs/2106.02804v1 )

ライセンス: CC BY 4.0
Kuai Yu, Hakeem Frank, Daniel Wilson(参考訳) 適用された画像分割タスクでは、推論時のモデルの精度に、トレーニング用の多数の正確なラベルを提供する能力が最重要となる。 しかし、このオーバーヘッドはしばしば無視され、最近提案されたセグメンテーションアーキテクチャは、最先端の精度を達成するために、基底真理ラベルの可用性と忠実さに大きく依存している。 十分な基礎的な真実を生み出すことの難しさを認めないことは、事前訓練されたモデルへの過度な信頼や、現実のアプリケーションにおける採用の欠如につながる可能性がある。 我々は,この問題を直接扱う文脈的メトリック学習手法を用いたモデルであるpoints2polygons(p2p) を提案する。 points2polygonsは、軽量セグメンテーションモデル(resnet18バックボーンを持つu-net)を使用しても、トレーニングデータに制限のある、既存の完全教師付きセグメンテーションベースラインに対してうまく機能する。 いくつかの小さなデータセットでこれを実証する。 文脈データを用いたメトリクス学習は、一般に自己教師型タスクに重要な洞察を与え、セグメンテーションモデルがコンピュータビジョンにおいて従来のラベル集約ドメインを簡単に一般化できることを示す。

In applied image segmentation tasks, the ability to provide numerous and precise labels for training is paramount to the accuracy of the model at inference time. However, this overhead is often neglected, and recently proposed segmentation architectures rely heavily on the availability and fidelity of ground truth labels to achieve state-of-the-art accuracies. Failure to acknowledge the difficulty in creating adequate ground truths can lead to an over-reliance on pre-trained models or a lack of adoption in real-world applications. We introduce Points2Polygons (P2P), a model which makes use of contextual metric learning techniques that directly addresses this problem. Points2Polygons performs well against existing fully-supervised segmentation baselines with limited training data, despite using lightweight segmentation models (U-Net with a ResNet18 backbone) and having access to only weak labels in the form of object centroids and no pre-training. We demonstrate this on several different small but non-trivial datasets. We show that metric learning using contextual data provides key insights for self-supervised tasks in general, and allow segmentation models to easily generalize across traditionally label-intensive domains in computer vision.
翻訳日:2021-06-14 07:49:46 公開日:2021-06-05
# (参考訳) 音声表現学習のための属性対応戦略 [全文訳有]

An Attribute-Aligned Strategy for Learning Speech Representation ( http://arxiv.org/abs/2106.02810v1 )

ライセンス: CC BY 4.0
Yu-Lin Huang, Bo-Hao Su, Y.-W. Peter Hong, Chi-Chun Lee(参考訳) 音声技術の進歩は私たちの生活に便宜をもたらした。 しかし、音声信号には複数の個人属性が含まれており、センシティブな情報漏洩や意思決定へのバイアスにつながるため、懸念が高まっている。 本研究では,属性選択機構によってこれらの問題に柔軟に対処可能な音声表現を導出する属性整合学習戦略を提案する。 具体的には,音声表現を属性に敏感なノードに分解する階層表現型変分オートエンコーダ(lr-vae, layered-representati on variational autoencoder, lr-vae)を提案する。 提案手法は,大規模感情コーパス(msp-podcast)に適用された敵意学習手法と比較して,アイデンティティフリーサーの競争性能と感情レスsvの優れた性能を実現する。 また,提案する学習戦略は,複数のプライバシ保存タスクを実現するために必要なモデルとトレーニングプロセスを削減する。

Advancement in speech technology has brought convenience to our life. However, the concern is on the rise as speech signal contains multiple personal attributes, which would lead to either sensitive information leakage or bias toward decision. In this work, we propose an attribute-aligned learning strategy to derive speech representation that can flexibly address these issues by attribute-selection mechanism. Specifically, we propose a layered-representati on variational autoencoder (LR-VAE), which factorizes speech representation into attribute-sensitive nodes, to derive an identity-free representation for speech emotion recognition (SER), and an emotionless representation for speaker verification (SV). Our proposed method achieves competitive performances on identity-free SER and a better performance on emotionless SV, comparing to the current state-of-the-art method of using adversarial learning applied on a large emotion corpora, the MSP-Podcast. Also, our proposed learning strategy reduces the model and training process needed to achieve multiple privacy-preserving tasks.
翻訳日:2021-06-14 07:34:11 公開日:2021-06-05
# (参考訳) web ベースの疾病予測とレコメンダシステム [全文訳有]

Web based disease prediction and recommender system ( http://arxiv.org/abs/2106.02813v1 )

ライセンス: CC BY 4.0
Harish Rajora, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal(参考訳) 世界中で、遠隔地での医療支援が不十分なため、いくつかのケースが診断されない。 この文脈では、医療記録の効果的なモニタリングと分析のために集中的なシステムが必要である。 webベースの患者診断システムは、医療履歴を保管し、患者が経験する現在の症状に基づいて起こりうる疾患を予測し、迅速かつ正確な診断を確実にするための中央プラットフォームである。 早期の疾患予測は、ユーザが病気の重症度を判断し、迅速な行動を取るのに役立つ。 The proposed web-based disease prediction system using machine learning based classification techniques on a data set from the National Centre of Disease Control (NCDC)。 K$-nearest neighbor (K-NN)、ランダム森林およびナイーブベイズ分類手法を利用し、予測信頼度に基づいて各分類器を動的に重み付けするアンサンブル投票アルゴリズムも提案する。 提案システムには,患者の既往症状に基づいた検査の種類を推奨する推奨方式も備えており,必要な予防策を講じることができる。 集中型データベースは、医療データが保存され、システムの透明性が保証される。 診断が作成されると、システムへの改ざんは「アップデーション」の権利を付与しないことにより防止される。

Worldwide, several cases go undiagnosed due to poor healthcare support in remote areas. In this context, a centralized system is needed for effective monitoring and analysis of the medical records. A web-based patient diagnostic system is a central platform to store the medical history and predict the possible disease based on the current symptoms experienced by a patient to ensure faster and accurate diagnosis. Early disease prediction can help the users determine the severity of the disease and take quick action. The proposed web-based disease prediction system utilizes machine learning based classification techniques on a data set acquired from the National Centre of Disease Control (NCDC). $K$-nearest neighbor (K-NN), random forest and naive bayes classification approaches are utilized and an ensemble voting algorithm is also proposed where each classifier is assigned weights dynamically based on the prediction confidence. The proposed system is also equipped with a recommendation scheme to recommend the type of tests based on the existing symptoms of the patient, so that necessary precautions can be taken. A centralized database ensures that the medical data is preserved and there is transparency in the system. The tampering into the system is prevented by giving the no "updation" rights once the diagnosis is created.
翻訳日:2021-06-14 07:23:34 公開日:2021-06-05
# (参考訳) Diverse Reference Augmentationによるオープンドメインダイアログの自動評価の改善 [全文訳有]

Improving Automated Evaluation of Open Domain Dialog via Diverse Reference Augmentation ( http://arxiv.org/abs/2106.02833v1 )

ライセンス: CC BY 4.0
Varun Gangal, Harsh Jhamtani, Eduard Hovy, Taylor Berg-Kirkpatrick(参考訳) 複数の異なる応答は、与えられたオープンドメインのダイアログのコンテキストによく当てはまる。 先行研究では、有意義で堅牢な自動評価のために、複数の有効な参照応答を持つことの重要性が示されている。 このような場合、より人間的な文献を収集することが一般的である。 しかし、そのようなコレクションは高価で、時間もかかり、スケーラブルではない。 そこで本研究では,人間の生成した参照を自動的に拡張する新しい手法を提案する。 我々は、知識ソースから妥当な参照を取得し、それらが、問題となるダイアログインスタンスのコンテキストにより精通するように適応する。 より具体的には、(1)ダイアログコーパスから検索された関連インスタンスと、類似の過去と将来の状況とを考慮し、多数の妥当な反応を導き出すためのコモンセンス知識ベースを用いる。 自動拡張された参照セットは、DailyDialogデータセットのシステムアウトプットの人的評価と自動メトリクスの相関性を大幅に向上させることを示す。

Multiple different responses are often plausible for a given open domain dialog context. Prior work has shown the importance of having multiple valid reference responses for meaningful and robust automated evaluations. In such cases, common practice has been to collect more human written references. However, such collection can be expensive, time consuming, and not easily scalable. Instead, we propose a novel technique for automatically expanding a human generated reference to a set of candidate references. We fetch plausible references from knowledge sources, and adapt them so that they are more fluent in context of the dialog instance in question. More specifically, we use (1) a commonsense knowledge base to elicit a large number of plausible reactions given the dialog history (2) relevant instances retrieved from dialog corpus, using similar past as well as future contexts. We demonstrate that our automatically expanded reference sets lead to large improvements in correlations of automated metrics with human ratings of system outputs for DailyDialog dataset.
翻訳日:2021-06-14 07:16:56 公開日:2021-06-05
# (参考訳) 連続最適化による因果構造学習におけるエントロピーに基づく損失の役割について [全文訳有]

On the Role of Entropy-based Loss for Learning Causal Structures with Continuous Optimization ( http://arxiv.org/abs/2106.02835v1 )

ライセンス: CC BY 4.0
Ruichu Cai, Weilin Chen, Jie Qiao, Zhifeng Hao(参考訳) 観測データからの因果発見は多くの科学分野において重要であるが難しい課題である。 近年, notears [zheng et al., 2018] は因果構造学習問題を非巡回性制約付き最小二乗損失を用いた連続最適化問題として定式化している。 最小二乗損失関数は標準ガウス雑音仮定の下では十分正当化されるが、仮定が成り立たない場合に制限される。 本研究では,ガウス雑音仮定の破れが因果方向同定の妨げとなり,因果方向が因果強度と線形の場合の雑音の分散,非線形の場合の強い非ガウス性雑音によって完全に決定されることを理論的に示す。 その結果,任意の雑音分布下での確率値と理論的に一致した,より一般的なエントロピーに基づく損失を提案する。 提案手法の有効性を検証するために合成データと実世界のデータの両方について広範な実験評価を行い,提案手法が構造ハミング距離,偽発見率,真正率行列において最良であることを示す。

Causal discovery from observational data is an important but challenging task in many scientific fields. Recently, NOTEARS [Zheng et al., 2018] formulates the causal structure learning problem as a continuous optimization problem using least-square loss with an acyclicity constraint. Though the least-square loss function is well justified under the standard Gaussian noise assumption, it is limited if the assumption does not hold. In this work, we theoretically show that the violation of the Gaussian noise assumption will hinder the causal direction identification, making the causal orientation fully determined by the causal strength as well as the variances of noises in the linear case and the noises of strong non-Gaussianity in the nonlinear case. Consequently, we propose a more general entropy-based loss that is theoretically consistent with the likelihood score under any noise distribution. We run extensive empirical evaluations on both synthetic data and real-world data to validate the effectiveness of the proposed method and show that our method achieves the best in Structure Hamming Distance, False Discovery Rate, and True Positive Rate matrices.
翻訳日:2021-06-14 07:01:39 公開日:2021-06-05
# (参考訳) 高次相互作用を考慮した制約付き一般化加法2モデル [全文訳有]

Constrained Generalized Additive 2 Model with Consideration of High-Order Interactions ( http://arxiv.org/abs/2106.02836v1 )

ライセンス: CC BY 4.0
Akihisa Watanabe, Michiya Kuramata, Kaito Majima, Haruka Kiyohara, Kensho Kondo, Kazuhide Nakata(参考訳) 近年、機械学習とAIは多くの産業分野で導入されている。 金融、医療、自律運転などの分野では、モデルの推論結果が重大な結果をもたらす可能性があるため、高い解釈可能性と予測精度が必要である。 本研究では,一般化加法2モデル(GA2M)に基づくCGA2M+を提案する。 1つ目は単調性の導入である。 アナリストの知識に基づく関数に単調性を導入することにより、解釈可能性だけでなく一般化性能も向上することが期待される。 GA2Mは2階の相互作用のみを考慮し、高階の相互作用を捉える高階の項を導入することにより、解釈可能性と予測精度のバランスをとることを目指している。 このようにして、学習革新を適用して解釈性を損なうことなく予測性能を向上させることができる。 数値実験により,提案モデルは高い予測性能と解釈可能性を示した。 さらに,単調性の導入により一般化性能が向上したことを確認した。

In recent years, machine learning and AI have been introduced in many industrial fields. In fields such as finance, medicine, and autonomous driving, where the inference results of a model may have serious consequences, high interpretability as well as prediction accuracy is required. In this study, we propose CGA2M+, which is based on the Generalized Additive 2 Model (GA2M) and differs from it in two major ways. The first is the introduction of monotonicity. Imposing monotonicity on some functions based on an analyst's knowledge is expected to improve not only interpretability but also generalization performance. The second is the introduction of a higher-order term: given that GA2M considers only second-order interactions, we aim to balance interpretability and prediction accuracy by introducing a higher-order term that can capture higher-order interactions. In this way, we can improve prediction performance without compromising interpretability by applying learning innovation. Numerical experiments showed that the proposed model has high predictive performance and interpretability. Furthermore, we confirmed that generalization performance is improved by introducing monotonicity.
翻訳日:2021-06-14 06:41:03 公開日:2021-06-05
# (参考訳) Edge-AIを用いたマルチカメラ車両計数 [全文訳有]

Multi-Camera Vehicle Counting Using Edge-AI ( http://arxiv.org/abs/2106.02842v1 )

ライセンス: CC BY 4.0
Luca Ciampi, Claudio Gennaro, Fabio Carrara, Fabrizio Falchi, Claudio Vairo, Giuseppe Amato(参考訳) 本稿では,スマートカメラで撮影した画像を用いて駐車場内の車両を自動的にカウントする手法を提案する。 単一画像の分析に焦点を絞った本課題の文献のほとんどと異なり,本論文では,より広いパーキングエリアを異なる視点から監視するために,複数の視覚源を用いることを提案する。 提案するマルチカメラシステムは、エッジデバイス上で駐車場全体に存在する車両数を自動的に推定することができる。 撮像された画像から車両を検出、カウントするオンデバイスディープラーニングベースの検出器と、カメラ間共有領域を分析し、すべてのデバイスで取得したデータをマージ可能な分散幾何ベースのアプローチとを備える。 イタリア・ピサの国立研究評議会(CNR)キャンパスの駐車場から撮影された画像のコレクションであるCNRPark-EXTデータセットの拡張版について実験を行った。 本システムでは,異なるカメラから得られる冗長な情報を活用し,監視シーンの余分な幾何学的情報を必要とすることなく全体の性能を向上させる。

This paper presents a novel solution to automatically count vehicles in a parking lot using images captured by smart cameras. Unlike most of the literature on this task, which focuses on the analysis of single images, this paper proposes the use of multiple visual sources to monitor a wider parking area from different perspectives. The proposed multi-camera system is capable of automatically estimate the number of cars present in the entire parking lot directly on board the edge devices. It comprises an on-device deep learning-based detector that locates and counts the vehicles from the captured images and a decentralized geometric-based approach that can analyze the inter-camera shared areas and merge the data acquired by all the devices. We conduct the experimental evaluation on an extended version of the CNRPark-EXT dataset, a collection of images taken from the parking lot on the campus of the National Research Council (CNR) in Pisa, Italy. We show that our system is robust and takes advantage of the redundant information deriving from the different cameras, improving the overall performance without requiring any extra geometrical information of the monitored scene.
翻訳日:2021-06-14 06:34:29 公開日:2021-06-05
# (参考訳) 微分プライバシーの数値的構成 [全文訳有]

Numerical Composition of Differential Privacy ( http://arxiv.org/abs/2106.02848v1 )

ライセンス: CC BY 4.0
Sivakanth Gopi, Yin Tat Lee, Lukas Wutschitz(参考訳) 我々は、任意の精度で微分プライベート(DP)アルゴリズムのプライバシー保証を最適に構成する高速アルゴリズムを提供する。 本手法は、DPアルゴリズムのプライバシー損失を定量化するために、プライバシー損失ランダム変数の概念に基づいている。 DPアルゴリズムのプライバシ曲線を近似するのに必要となる実行時間とメモリは、それ自身$k$ timesで構成され、$\tilde{O}(\sqrt{k})$である。 これにより、koskelaらによる最善の事前手法が改善される。 (2020)これは$\tilde{\omega}(k^{1.5})$実行時間を必要とする。 我々は,AbadiらのDP-SGDアルゴリズムのプライバシー損失を正確に計算することで,アルゴリズムの有用性を実証する。 そして、我々のアルゴリズムは、同じ精度を維持しつつ、以前の作業に比べて数桁のプライバシー計算をスピードアップさせています。

We give a fast algorithm to optimally compose privacy guarantees of differentially private (DP) algorithms to arbitrary accuracy. Our method is based on the notion of privacy loss random variables to quantify the privacy loss of DP algorithms. The running time and memory needed for our algorithm to approximate the privacy curve of a DP algorithm composed with itself $k$ times is $\tilde{O}(\sqrt{k})$. This improves over the best prior method by Koskela et al. (2020) which requires $\tilde{\Omega}(k^{1.5})$ running time. We demonstrate the utility of our algorithm by accurately computing the privacy loss of DP-SGD algorithm of Abadi et al. (2016) and showing that our algorithm speeds up the privacy computations by a few orders of magnitude compared to prior work, while maintaining similar accuracy.
翻訳日:2021-06-14 06:14:58 公開日:2021-06-05
# (参考訳) Tetrad: セキュアトレーニングと推論のためのアクティブなセキュアな4PC

Tetrad: Actively Secure 4PC for Secure Training and Inference ( http://arxiv.org/abs/2106.02850v1 )

ライセンス: CC BY 4.0
Nishat Koti, Arpita Patra, Rahul Rachuri, Ajith Suresh(参考訳) 本研究では,プライバシ保護機械学習への応用を目的とした,効率的な混合プロトコルフレームワークTetradを設計する。 これは、少なくとも1つのアクティブな腐敗とリングをサポートする4つのパーティーのセッティングのために設計されている。 我々の公正な乗算プロトコルは、トライデントの最先端プロトコル(Chaudhari et al)で改善された5つのリング要素のみを通信する必要がある。 NDSS'20)。 Tetradの技術的ハイライトは、オーバーヘッドのない効率的な (a) トランケーション、(b) 算術とブール世界のマルチインプット乗算プロトコル、(c) garbled-world、混合プロトコールフレームワーク用のテーラーメイド、(d) 計算スタイルを切り替えるための変換機構である。 公正なフレームワークも拡張され、コストを膨らませることなく堅牢性を提供する。 tetradの能力は、lenetやvgg16といったディープニューラルネットワークやサポートベクターマシンのベンチマークでテストされている。 私たちのフレームワークの1つの変種は、実行時間を最小化することを目的としています。 これらのパラメータに対するtridentの最大6倍の改善を観察した。

In this work, we design an efficient mixed-protocol framework, Tetrad, with applications to privacy-preserving machine learning. It is designed for the four-party setting with at most one active corruption and supports rings. Our fair multiplication protocol requires communicating only 5 ring elements improving over the state-of-the-art protocol of Trident (Chaudhari et al. NDSS'20). The technical highlights of Tetrad include efficient (a) truncation without any overhead, (b) multi-input multiplication protocols for arithmetic and boolean worlds, (c) garbled-world, tailor-made for the mixed-protocol framework, and (d) conversion mechanisms to switch between the computation styles. The fair framework is also extended to provide robustness without inflating the costs. The competence of Tetrad is tested with benchmarks for deep neural networks such as LeNet and VGG16 and support vector machines. One variant of our framework aims at minimizing the execution time, while the other focuses on the monetary cost. We observe improvements up to 6x over Trident across these parameters.
翻訳日:2021-06-14 05:33:42 公開日:2021-06-05
# (参考訳) System-on-Chipのマルチアームバンドアルゴリズム: Go FrequentistかBayesianか? [全文訳有]

Multi-armed Bandit Algorithms on System-on-Chip: Go Frequentist or Bayesian? ( http://arxiv.org/abs/2106.02855v1 )

ライセンス: CC BY 4.0
S. V. Sai Santosh and Sumit J. Darak(参考訳) マルチアームバンディット (mab) アルゴリズムは、事前のアーム統計を知らずに探索・探索トレードオフによって複数のアームの中で最良のアームを識別する。 無線無線,IoT,ロボティクスにおける彼らの有用性は,エッジデバイスへのデプロイメントを必要とするため,システムオンチップ(SoC)のマッピングが望まれる。 理論的には、ベイズアプローチに基づくトンプソンサンプリング(TS)アルゴリズムは、頻繁なアプローチに基づくアッパー信頼境界(UCB)アルゴリズムよりも優れたパフォーマンスを提供する。 しかし、TSはベータ関数のために合成できない。 疑似ランダム数生成法を用いて近似し,Zynq SoC上でのTSアルゴリズムを効率的に実現することにより,この問題に対処する。 実際には、武器の分布の種類(ベルヌーイ、ガウス語など) 未知であり、従って一つのアルゴリズムが最適でないかもしれない。 再構成可能でインテリジェントなMAB(RI-MAB)フレームワークを提案する。 ここでは、インテリジェンスにより、所定の環境に対して適切なMABアルゴリズムを識別でき、再構成可能性により、SoC上のアルゴリズムをオンザフライで切り替えることができる。 これにより、アルゴリズムの並列実装が不要になり、リソースと消費電力が大幅に削減される。 我々は,提案および既存アーキテクチャの機能的正当性,面積,パワー,実行時間を分析し,様々なアーム分布,単語長,ハードウェア・ソフトウェア共同設計手法を提案する。 TS と UCB のみのアーキテクチャよりも RI-MAB の方が優れていることを示す。

Multi-armed Bandit (MAB) algorithms identify the best arm among multiple arms via exploration-exploita tion trade-off without prior knowledge of arm statistics. Their usefulness in wireless radio, IoT, and robotics demand deployment on edge devices, and hence, a mapping on system-on-chip (SoC) is desired. Theoretically, the Bayesian approach-based Thompson Sampling (TS) algorithm offers better performance than the frequentist approach-based Upper Confidence Bound (UCB) algorithm. However, TS is not synthesizable due to Beta function. We address this problem by approximating it via a pseudo-random number generator-based approach and efficiently realize the TS algorithm on Zynq SoC. In practice, the type of arms distribution (e.g., Bernoulli, Gaussian, etc.) is unknown and hence, a single algorithm may not be optimal. We propose a reconfigurable and intelligent MAB (RI-MAB) framework. Here, intelligence enables the identification of appropriate MAB algorithms for a given environment, and reconfigurability allows on-the-fly switching between algorithms on the SoC. This eliminates the need for parallel implementation of algorithms resulting in huge savings in resources and power consumption. We analyze the functional correctness, area, power, and execution time of the proposed and existing architectures for various arm distributions, word-length, and hardware-software co-design approaches. We demonstrate the superiority of the RI-MAB over TS and UCB only architectures.
翻訳日:2021-06-14 05:32:32 公開日:2021-06-05
# (参考訳) Gated Recurrent Connection を用いた畳み込みニューラルネットワーク [全文訳有]

Convolutional Neural Networks with Gated Recurrent Connections ( http://arxiv.org/abs/2106.02859v1 )

ライセンス: CC BY 4.0
Jianfeng Wang, Xiaolin Hu(参考訳) 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョン問題を解決するための基本モデルとなっている。 近年,動物の視覚系におけるリカレント接続に着想を得た新しいタイプのcnn,recurrent convolution neural network(rcnn)が提案されている。 RCNNの重要な要素はリカレント畳み込み層 (recurrent convolutional layer, RCL) であり、標準畳み込み層内のニューロン間の再カレントな接続を組み込む。 再帰的な計算数の増加に伴い、rclのニューロンの受容野(rfs)は無界に拡大し、生物学的事実と矛盾する。 本稿では、繰り返し接続にゲートを導入することにより、ニューロンのRFを変調する。 ゲートは、ニューロンとニューロンのRFに入力されるコンテキスト情報の量を制御するため、適応する。 得られた層はゲートリカレント畳み込み層(grcl)と呼ばれる。 複数のGRCLは、ゲートRCNN(GRCNN)と呼ばれるディープモデルを構成する。 GRCNNは、オブジェクト認識、シーンテキスト認識、オブジェクト検出などのコンピュータビジョンタスクで評価され、RCNNよりもはるかに優れた結果を得た。 さらに、他の適応RF技術と組み合わせることで、GRCNNはこれらのタスクのベンチマークデータセットの最先端モデルと競合する性能を示した。 コードは \href{https://github.com/J ianf-Wang/GRCNN}{https://github.com/J ianf-Wang/GRCNN} で公開されている。

The convolutional neural network (CNN) has become a basic model for solving many computer vision problems. In recent years, a new class of CNNs, recurrent convolution neural network (RCNN), inspired by abundant recurrent connections in the visual systems of animals, was proposed. The critical element of RCNN is the recurrent convolutional layer (RCL), which incorporates recurrent connections between neurons in the standard convolutional layer. With increasing number of recurrent computations, the receptive fields (RFs) of neurons in RCL expand unboundedly, which is inconsistent with biological facts. We propose to modulate the RFs of neurons by introducing gates to the recurrent connections. The gates control the amount of context information inputting to the neurons and the neurons' RFs therefore become adaptive. The resulting layer is called gated recurrent convolution layer (GRCL). Multiple GRCLs constitute a deep model called gated RCNN (GRCNN). The GRCNN was evaluated on several computer vision tasks including object recognition, scene text recognition and object detection, and obtained much better results than the RCNN. In addition, when combined with other adaptive RF techniques, the GRCNN demonstrated competitive performance to the state-of-the-art models on benchmark datasets for these tasks. The codes are released at \href{https://github.com/J ianf-Wang/GRCNN}{https://github.com/J ianf-Wang/GRCNN}.
翻訳日:2021-06-14 05:08:25 公開日:2021-06-05
# (参考訳) 専門的なODEをニューラルネットワークに統合する:薬理学と疾患の進展 [全文訳有]

Integrating Expert ODEs into Neural ODEs: Pharmacology and Disease Progression ( http://arxiv.org/abs/2106.02875v1 )

ライセンス: CC BY 4.0
Zhaozhi Qian, William R. Zame, Mihaela van der Schaar, Lucas M. Fleuren, Paul Elbers(参考訳) 外部刺激に反応してシステムの時間的挙動をモデル化することは、多くの領域において根本的な問題である。 純粋な機械学習(ML)アプローチは、小さなサンプルシステムでは失敗することが多く、予測を越えて実行可能な洞察を提供することはできない。 有望な修正は、専門家のドメイン知識をMLモデルに組み込むことである。 私たちが検討するアプリケーションは、薬理学から多くのドメイン知識が利用できる薬理学における疾患の進行を予測することである。 薬理モデルは、通常の微分方程式(odes)の系の観点から、慎重に医学的に有意義な変数の力学を記述する。 しかしながら、これらのモデルは変数の限られた集まりしか記述せず、臨床環境では観察できないことが多い。 このギャップを埋めるために、専門家設計のODEと機械学習のNeural ODEのシステムを統合する潜時ハイブリッドモデル(LHM)を提案し、システムのダイナミクスを完全に記述し、専門家と潜時変数を観測可能な量にリンクする。 新型コロナウイルス患者のLHMと実世界集中治療データを用いてLHMを評価した。 LHMは、特にパンデミックの開始時など、トレーニングサンプルが少ない場合、従来よりも一貫して優れています。

Modeling a system's temporal behaviour in reaction to external stimuli is a fundamental problem in many areas. Pure Machine Learning (ML) approaches often fail in the small sample regime and cannot provide actionable insights beyond predictions. A promising modification has been to incorporate expert domain knowledge into ML models. The application we consider is predicting the progression of disease under medications, where a plethora of domain knowledge is available from pharmacology. Pharmacological models describe the dynamics of carefully-chosen medically meaningful variables in terms of systems of Ordinary Differential Equations (ODEs). However, these models only describe a limited collection of variables, and these variables are often not observable in clinical environments. To close this gap, we propose the latent hybridisation model (LHM) that integrates a system of expert-designed ODEs with machine-learned Neural ODEs to fully describe the dynamics of the system and to link the expert and latent variables to observable quantities. We evaluated LHM on synthetic data as well as real-world intensive care data of COVID-19 patients. LHM consistently outperforms previous works, especially when few training samples are available such as at the beginning of the pandemic.
翻訳日:2021-06-14 04:11:07 公開日:2021-06-05
# (参考訳) ブラインド画像デブラリングのための奥行き変動ベイズフレームワーク [全文訳有]

A Deep Variational Bayesian Framework for Blind Image Deblurring ( http://arxiv.org/abs/2106.02884v1 )

ライセンス: CC BY 4.0
Hui Wang, Zongsheng Yue, Qian Zhao, Deyu Meng(参考訳) ブラインド画像のデブラリングは、低レベルのビジョンにおいて非常に難しい問題である。 従来の最適化に基づく手法では、一般にこのタスクを最大位置推定または変分推論問題として定式化しており、その性能は潜像とぼやけたカーネルの両方のハンドクラフト先行に大きく依存している。 対照的に、最近のディープラーニング手法は、訓練画像の大規模なコレクションから、ぼやけた画像を直接クリーンなものまたはぼやけたカーネルにマッピングするディープニューラルネットワーク(DNN)を直接学習し、ぼやけた画像の物理的劣化プロセスにはあまり注意を払わない。 本稿では,ブラインド画像の劣化に対する深い変分ベイズ的枠組みを提案する。 この枠組みの下では、潜在クリーンイメージとぼかしカーネルの後部を、DNNと償却推論方式で共同で推定することができ、関連する推論DNNは、物理的ぼかしモデルを完全に考慮し、クリーンイメージとぼかしカーネルのデータ駆動前の監督とともに訓練することができる。 提案手法の有効性を実証するための総合的な実験を行った。 その結果、比較的単純なネットワークで有望な性能を達成するだけでなく、既存のDNNの性能を向上させることができることがわかった。

Blind image deblurring is an important yet very challenging problem in low-level vision. Traditional optimization based methods generally formulate this task as a maximum-a-posteriori estimation or variational inference problem, whose performance highly relies on the handcraft priors for both the latent image and the blur kernel. In contrast, recent deep learning methods generally learn, from a large collection of training images, deep neural networks (DNNs) directly mapping the blurry image to the clean one or to the blur kernel, paying less attention to the physical degradation process of the blurry image. In this paper, we present a deep variational Bayesian framework for blind image deblurring. Under this framework, the posterior of the latent clean image and blur kernel can be jointly estimated in an amortized inference fashion with DNNs, and the involved inference DNNs can be trained by fully considering the physical blur model, together with the supervision of data driven priors for the clean image and blur kernel, which is naturally led to by the evidence lower bound objective. Comprehensive experiments are conducted to substantiate the effectiveness of the proposed framework. The results show that it can not only achieve a promising performance with relatively simple networks, but also enhance the performance of existing DNNs for deblurring.
翻訳日:2021-06-14 03:44:23 公開日:2021-06-05
# (参考訳) BERTnesia: BERTにおける知識の獲得と忘れ方を探る

BERTnesia: Investigating the capture and forgetting of knowledge in BERT ( http://arxiv.org/abs/2106.02902v1 )

ライセンス: CC BY 4.0
Jonas Wallat, Jaspreet Singh, Avishek Anand(参考訳) 複雑な言語モデルの探索は、最近、学習した表現に見られる言語的および意味的パターンに関するいくつかの洞察を明らかにした。 本稿では,そのパラメトリックメモリにおけるリレーショナル知識の理解と測定を目的としてBERTを探索する。 言語理解のための調査は、バートの全ての層と微調整されたモデルに一般的に適用されるが、事実の知識については行われていない。 既存の知識ベース補完タスク(LAMA)を用いて、事前訓練された全てのレイヤと微調整されたBERTモデル(ランキング、質問応答、NER)を探索する。 以上の結果から,知識はBERTの最終層にのみ含まれていないことがわかった。 中間層は、見いだされた全知識にかなりの量の(17-60%)寄与する。 中間層の探索はまた、異なる種類の知識が様々な速度でどのように現れるかを明らかにする。 BERTが微調整されると、関係知識は忘れられる。 忘れられる程度は、微調整目標とトレーニングデータによって影響を受ける。 ランキングモデルは、マスク付き言語モデリングや質問応答と比較して、最下位層の知識をほとんど忘れず、さらに多くの知識を保持できることが分かりました。 しかし、マスク付き言語モデリングはトレーニングデータから新たな知識を得るのに最善を尽くした。 事実の学習に関しては、キャパシティと事実密度が重要な要因であることが分かりました。 この最初の研究が、言語モデルのパラメトリック記憶と、訓練対象が事実的知識に与える影響を理解するためのさらなる研究を促進することを期待している。 実験を繰り返すコードはgithubで公開されている。

Probing complex language models has recently revealed several insights into linguistic and semantic patterns found in the learned representations. In this article, we probe BERT specifically to understand and measure the relational knowledge it captures in its parametric memory. While probing for linguistic understanding is commonly applied to all layers of BERT as well as fine-tuned models, this has not been done for factual knowledge. We utilize existing knowledge base completion tasks (LAMA) to probe every layer of pre-trained as well as fine-tuned BERT models(ranking, question answering, NER). Our findings show that knowledge is not just contained in BERT's final layers. Intermediate layers contribute a significant amount (17-60%) to the total knowledge found. Probing intermediate layers also reveals how different types of knowledge emerge at varying rates. When BERT is fine-tuned, relational knowledge is forgotten. The extent of forgetting is impacted by the fine-tuning objective and the training data. We found that ranking models forget the least and retain more knowledge in their final layer compared to masked language modeling and question-answering. However, masked language modeling performed the best at acquiring new knowledge from the training data. When it comes to learning facts, we found that capacity and fact density are key factors. We hope this initial work will spur further research into understanding the parametric memory of language models and the effect of training objectives on factual knowledge. The code to repeat the experiments is publicly available on GitHub.
翻訳日:2021-06-14 03:21:32 公開日:2021-06-05
# (参考訳) ヤコビアン$L_1$正規化を用いた変分オートエンコーダの局所歪み [全文訳有]

Local Disentanglement in Variational Auto-Encoders Using Jacobian $L_1$ Regularization ( http://arxiv.org/abs/2106.02923v1 )

ライセンス: CC BY-SA 4.0
Travers Rhodes, Daniel D. Lee(参考訳) 表現学習には近年多くの進歩があるが、教師なし表現学習はモデル識別の問題に苦慮している。 変分自動エンコーダ(VAEs)とその拡張である$\beta$-VAEsは、潜在変数をPCA方向と局所的に整列させることで、ある条件下でのモデルのゆがみを改善するのに役立つ。 独立成分分析 (ica) とスパース符号化 (sparse coding) から着想を得て,vae の生成ヤコビアンに $l_1$ の損失を適用し,データの変化の独立要因と局所的潜在変数アライメントを促進する。 我々は,情報理論とモジュール性を用いた質的,定量的な結果を提供し,付加した$L_1$コストが,潜伏表現と変動要因の局所的な軸アライメントを促進することを示す。

There have been many recent advances in representation learning; however, unsupervised representation learning can still struggle with model identification issues. Variational Auto-Encoders (VAEs) and their extensions such as $\beta$-VAEs have been shown to locally align latent variables with PCA directions, which can help to improve model disentanglement under some conditions. Borrowing inspiration from Independent Component Analysis (ICA) and sparse coding, we propose applying an $L_1$ loss to the VAE's generative Jacobian during training to encourage local latent variable alignment with independent factors of variation in the data. We demonstrate our results on a variety of datasets, giving qualitative and quantitative results using information theoretic and modularity measures that show our added $L_1$ cost encourages local axis alignment of the latent representation with individual factors of variation.
翻訳日:2021-06-14 03:20:30 公開日:2021-06-05
# (参考訳) IM-META:未知位相をもつネットワークにおけるノードメタデータによる影響最大化 [全文訳有]

IM-META: Influence Maximization Using Node Metadata in Networks With Unknown Topology ( http://arxiv.org/abs/2106.02926v1 )

ライセンス: CC BY 4.0
Cong Tran, Won-Yong Shin, Andreas Spitz(参考訳) 実世界における影響最大化(im)の応用では、ネットワーク構造はしばしば未知である。 この場合、ノードクエリの予算が小さいネットワークの一部のみを探索することで、最も影響力のあるシードノードを特定することができる。 問合せノード間の関係を調査するよりも,ノードメタデータの収集の方がコスト効率が高いことから,未知のトポロジを持つネットワークにおけるIMのエンドツーエンドソリューションであるIM-METAを開発した。 しかし、このようなメタデータを使用してIMプロセスを支援することは、メタデータの騒々しい性質と接続性推論の不確実性のため、リスクを伴わない。 これらの課題に対処するために、シードノードとクエリノードの2つのセットを見つけることを目的としたIM問題を定式化する。 提案手法は,1)シムズニューラルネットワークモデルを用いて収集したメタデータとエッジの関係を学習し,2)最適なシードセットを発見するために使用する強化グラフを構築するために,複数の推論された影響エッジを選択し,3)トポロジ対応のランキング戦略を用いて推定された影響範囲を最大化することにより,クエリの次のノードを同定する。 ノードの5%しかクエリできないため、IM-METAは上限性能の93%に達する。

In real-world applications of influence maximization (IM), the network structure is often unknown. In this case, we may identify the most influential seed nodes by exploring only a part of the underlying network given a small budget for node queries. Motivated by the fact that collecting node metadata is more cost-effective than investigating the relationship between nodes via queried nodes, we develop IM-META, an end-to-end solution to IM in networks with unknown topology by retrieving information from both queries and node metadata. However, using such metadata to aid the IM process is not without risk due to the noisy nature of metadata and uncertainties in connectivity inference. To tackle these challenges, we formulate an IM problem that aims to find two sets, i.e., seed nodes and queried nodes. We propose an effective method that iteratively performs three steps: 1) we learn the relationship between collected metadata and edges via a Siamese neural network model, 2) we select a number of inferred influential edges to construct a reinforced graph used for discovering an optimal seed set, and 3) we identify the next node to query by maximizing the inferred influence spread using a topology-aware ranking strategy. By querying only 5% of nodes, IM-META reaches 93% of the upper bound performance.
翻訳日:2021-06-14 02:59:55 公開日:2021-06-05
# (参考訳) アンサンブル学習によるハーグ阻害活性(心毒性)を有する医薬品の仮想スクリーニング [全文訳有]

Virtual Screening of Pharmaceutical Compounds with hERG Inhibitory Activity (Cardiotoxicity) using Ensemble Learning ( http://arxiv.org/abs/2106.04377v1 )

ライセンス: CC BY 4.0
Aditya Sarkar, Arnav Bhavsar(参考訳) サイリコでは、高い感度と潜在的な薬物分子の特異性を持つ心毒性の予測は非常に有用である。 したがって、薬物の分子構造から抽出されたいくつかの特徴に基づいて機械学習分類モデルを構築することは、心臓毒性を効率的に予測できる。 本稿では,様々な機械学習手法の適用について検討し,薬物発見ハッカソン(ddh)(第1回参照)データセット上での分子活性予測のためのアンサンブル分類器を提案する。 SMILE表記の2次元記述子のみを用いて予測を行った。 アンサンブル分類では5つの分類器(2つのランダムフォレスト分類器、2つのサポートベクトルマシンおよびDense Neural Network)を使用し、最終決定にはMax-Voting法とWeighted-Average法を用いる。

In silico prediction of cardiotoxicity with high sensitivity and specificity for potential drug molecules can be of immense value. Hence, building machine learning classification models, based on some features extracted from the molecular structure of drugs, which are capable of efficiently predicting cardiotoxicity is critical. In this paper, we consider the application of various machine learning approaches, and then propose an ensemble classifier for the prediction of molecular activity on a Drug Discovery Hackathon (DDH) (1st reference) dataset. We have used only 2-D descriptors of SMILE notations for our prediction. Our ensemble classification uses 5 classifiers (2 Random Forest Classifiers, 2 Support Vector Machines and a Dense Neural Network) and uses Max-Voting technique and Weighted-Average technique for final decision.
翻訳日:2021-06-14 02:32:24 公開日:2021-06-05
# (参考訳) 最適輸送による深層学習のためのk-Mixup正規化 [全文訳有]

k-Mixup Regularization for Deep Learning via Optimal Transport ( http://arxiv.org/abs/2106.02933v1 )

ライセンス: CC BY 4.0
Kristjan Greenewald, Anming Gu, Mikhail Yurochkin, Justin Solomon, Edward Chien(参考訳) Mixupはディープニューラルネットワークをトレーニングする一般的な正規化テクニックであり、一般化を改善し、対向的堅牢性を高めることができる。 トレーニングセット内の他のランダムなインスタンスの方向に入力トレーニングデータを摂動する。 データの構造をよりよく活用するために、ワッサーシュタイン計量の下での補間を用いて、他の$k$-バッチの方向のトレーニングポイントの$k$-batchesを摂動することで、混合を \emph{$k$-mixup} に拡張する。 我々は、k$-mixup がクラスター構造と多様体構造を保存することを理論的およびシミュレーションで証明し、標準ミックスアップの有効性を研究する理論を拡張した。 実験の結果,$k$-mixupによるトレーニングは,ベンチマークデータセットの一般化と堅牢性をさらに向上させることが示された。

Mixup is a popular regularization technique for training deep neural networks that can improve generalization and increase adversarial robustness. It perturbs input training data in the direction of other randomly-chosen instances in the training set. To better leverage the structure of the data, we extend mixup to \emph{$k$-mixup} by perturbing $k$-batches of training points in the direction of other $k$-batches using displacement interpolation, interpolation under the Wasserstein metric. We demonstrate theoretically and in simulations that $k$-mixup preserves cluster and manifold structures, and we extend theory studying efficacy of standard mixup. Our empirical results show that training with $k$-mixup further improves generalization and robustness on benchmark datasets.
翻訳日:2021-06-14 02:25:41 公開日:2021-06-05
# (参考訳) 同じ状態、異なるタスク:干渉のない継続的強化学習 [全文訳有]

Same State, Different Task: Continual Reinforcement Learning without Interference ( http://arxiv.org/abs/2106.02940v1 )

ライセンス: CC BY 4.0
Samuel Kessler, Jack Parker-Holder, Philip Ball, Stefan Zohren, Stephen J. Roberts(参考訳) 継続学習(continual learning, cl)は、エージェントを一連のタスクで順次訓練し、すべてのタスクでパフォーマンスを維持しようとする問題である。 CLの主な課題は破滅的な忘れことであり、これは新しいタスクを学ぶ際に、以前にマスターされたタスクのパフォーマンスが低下したときに生じる。 忘れることと戦うために様々な方法が存在するが、ある場合ではタスクは基本的に互いに相容れないので、1つのポリシーで学習することはできない。 これは、エージェントが同じ観察から異なる目標を達成することで報酬を受けることができる強化学習(RL)において起こりうる。 本稿では,この「干渉」を忘れる問題とは異なるものとして定式化する。 干渉の有無で共有再生バッファを持つ単一ニューラルネットワーク予測器に基づく既存のCL手法が失敗することを示す。 代わりに、この問題に対処するための簡単な方法OWLを提案する。 OWLは、共有特徴抽出レイヤを使用して、それぞれが新しいタスクを専門とする分離ヘッドを使用して、分解されたポリシーを学習する。 OWLの別個のヘッドは干渉を防ぐために使用される。 テスト時には,マルチアームバンディット問題としてポリシー選択を定式化し,環境からのフィードバックを用いて未知のタスクに最適なポリシーを選択することができることを示す。 バンディットアルゴリズムを使用することで、OWLエージェントはエピソード中に異なるタイミングで異なる学習ポリシーを構築的に再利用することができる。 複数のrl環境では、既存のリプレイベースのclメソッドが失敗し、owlは逐次トレーニング時に最適なパフォーマンスをほぼ達成できることを示した。

Continual Learning (CL) considers the problem of training an agent sequentially on a set of tasks while seeking to retain performance on all previous tasks. A key challenge in CL is catastrophic forgetting, which arises when performance on a previously mastered task is reduced when learning a new task. While a variety of methods exist to combat forgetting, in some cases tasks are fundamentally incompatible with each other and thus cannot be learnt by a single policy. This can occur, in reinforcement learning (RL) when an agent may be rewarded for achieving different goals from the same observation. In this paper we formalize this ``interference'' as distinct from the problem of forgetting. We show that existing CL methods based on single neural network predictors with shared replay buffers fail in the presence of interference. Instead, we propose a simple method, OWL, to address this challenge. OWL learns a factorized policy, using shared feature extraction layers, but separate heads, each specializing on a new task. The separate heads in OWL are used to prevent interference. At test time, we formulate policy selection as a multi-armed bandit problem, and show it is possible to select the best policy for an unknown task using feedback from the environment. The use of bandit algorithms allows the OWL agent to constructively re-use different continually learnt policies at different times during an episode. We show in multiple RL environments that existing replay based CL methods fail, while OWL is able to achieve close to optimal performance when training sequentially.
翻訳日:2021-06-14 02:07:21 公開日:2021-06-05
# (参考訳) MoCL:マルチレベルドメイン知識を用いた分子グラフのコントラスト学習 [全文訳有]

MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge ( http://arxiv.org/abs/2106.04509v1 )

ライセンス: CC BY 4.0
Mengying Sun, Jing Xing, Huijun Wang, Bin Chen, Jiayu Zhou(参考訳) 近年,薬物関連問題に対処するためのバイオメディカル領域におけるグラフニューラルネットワーク(GNN)の利用が急速に増加している。 しかし、他のディープアーキテクチャと同様に、GNNはデータに飢えている。 実世界のラベルが必要な場合、しばしばコストがかかるが、教師なしの方法でGNNを事前訓練することは活発に研究されている。 その中でも,グラフ強化間の相互情報の最大化によるグラフコントラスト学習は,下流タスクに有効であることが示されている。 しかし、現在のグラフコントラスト学習フレームワークには2つの制限がある。 まず、拡張は一般グラフのために設計されており、そのため特定の領域に十分適さない、あるいは強力ではないかもしれない。 第二に、対照的なスキームは局所摂動に不変な表現のみを学習し、従ってデータセットのグローバル構造を考慮しない。 そこで本研究では,分子グラフが存在する生物医学領域におけるグラフの対比学習について検討する。 本稿では,表現学習を支援するために,地域レベルとグローバルレベルのドメイン知識を利用するMoCLという新しいフレームワークを提案する。 ローカルレベルのドメイン知識は、グラフのセマンティクスを変更することなく変化を導入するように拡張プロセスを導く。 グローバルレベルの知識は、データセット全体のグラフ間の類似情報をエンコードし、よりリッチなセマンティクスで表現を学ぶのに役立つ。 モデル全体が二重コントラストの目的を通して学習される。 線形および半教師付き条件下での分子集合上でのMoCLの評価を行い,MoCLが最先端の性能を発揮することを示す。

Recent years have seen a rapid growth of utilizing graph neural networks (GNNs) in the biomedical domain for tackling drug-related problems. However, like any other deep architectures, GNNs are data hungry. While requiring labels in real world is often expensive, pretraining GNNs in an unsupervised manner has been actively explored. Among them, graph contrastive learning, by maximizing the mutual information between paired graph augmentations, has been shown to be effective on various downstream tasks. However, the current graph contrastive learning framework has two limitations. First, the augmentations are designed for general graphs and thus may not be suitable or powerful enough for certain domains. Second, the contrastive scheme only learns representations that are invariant to local perturbations and thus does not consider the global structure of the dataset, which may also be useful for downstream tasks. Therefore, in this paper, we study graph contrastive learning in the context of biomedical domain, where molecular graphs are present. We propose a novel framework called MoCL, which utilizes domain knowledge at both local- and global-level to assist representation learning. The local-level domain knowledge guides the augmentation process such that variation is introduced without changing graph semantics. The global-level knowledge encodes the similarity information between graphs in the entire dataset and helps to learn representations with richer semantics. The entire model is learned through a double contrast objective. We evaluate MoCL on various molecular datasets under both linear and semi-supervised settings and results show that MoCL achieves state-of-the-art performance.
翻訳日:2021-06-14 01:45:31 公開日:2021-06-05
# (参考訳) ニューラルdSCA:自然実験における脳領域間の多重モード相互作用 [全文訳有]

Neural dSCA: demixing multimodal interaction among brain areas during naturalistic experiments ( http://arxiv.org/abs/2106.02948v1 )

ライセンス: CC BY 4.0
Yu Takagi, Laurence T. Hunt, Ryu Ohata, Hiroshi Imamizu, Jun-ichiro Hirayama(参考訳) ニューロン集団間の多地域間相互作用は、日常生活における脳の豊かな感覚情報処理の基盤となっている。 最近の神経科学と神経イメージングの研究は、脳内のそのような現実的な感覚計算を識別するために、自然主義的な刺激と実験的デザインをますます利用してきた。 しかしながら、減少ランク回帰や正準相関分析のような次元減少を伴う既存のクロス・ア・リアル相互作用解析の手法は、通常、異なる種類のタスクパラメータや刺激特徴(例えば、視覚や音声)に関連するものに対して適切に「デミックス」できないため、自然主義的な設定における適用性や解釈性が限られている。 本稿では,様々な神経集団が共有する情報の種類を明らかにするために,リッチなタスクパラメータや刺激パラメータを用いた相互作用解析手法を提案する。 提案するニューラルデミックス共用成分分析は,既存の次元低減法と,潜時変数の分散関数解析の実用的なニューラルネットワーク実装を組み合わせることで,連続的および多様刺激の非線形効果を効率的にデミックスする。 また,線形効果や一様刺激を前提とした簡易な代替案を提案する。 提案手法を実証するために,映画やダンスの動きの自然映像を視聴する参加者の2つの脳画像データセットを解析した。 その結果,本手法は従来の手法では理解できない自然的感覚入力中に,脳内の多領域間相互作用に対する新たな洞察を与えることが示された。

Multi-regional interaction among neuronal populations underlies the brain's processing of rich sensory information in our daily lives. Recent neuroscience and neuroimaging studies have increasingly used naturalistic stimuli and experimental design to identify such realistic sensory computation in the brain. However, existing methods for cross-areal interaction analysis with dimensionality reduction, such as reduced-rank regression and canonical correlation analysis, have limited applicability and interpretability in naturalistic settings because they usually do not appropriately 'demix' neural interactions into those associated with different types of task parameters or stimulus features (e.g., visual or audio). In this paper, we develop a new method for cross-areal interaction analysis that uses the rich task or stimulus parameters to reveal how and what types of information are shared by different neural populations. The proposed neural demixed shared component analysis combines existing dimensionality reduction methods with a practical neural network implementation of functional analysis of variance with latent variables, thereby efficiently demixing nonlinear effects of continuous and multimodal stimuli. We also propose a simplifying alternative under the assumptions of linear effects and unimodal stimuli. To demonstrate our methods, we analyzed two human neuroimaging datasets of participants watching naturalistic videos of movies and dance movements. The results demonstrate that our methods provide new insights into multi-regional interaction in the brain during naturalistic sensory inputs, which cannot be captured by conventional techniques.
翻訳日:2021-06-14 00:33:29 公開日:2021-06-05
# (参考訳) 共有空間における平均化による単語埋め込み [全文訳有]

Denoising Word Embeddings by Averaging in a Shared Space ( http://arxiv.org/abs/2106.02954v1 )

ライセンス: CC BY 4.0
Avi Caciularu, Ido Dagan, Jacob Goldberger(参考訳) 単語埋め込みの品質を円滑にし,改善するための新しい手法を提案する。 我々は,同じコーパス上で訓練されるが,初期化の異なる単語埋め込みを融合する手法を検討する。 我々は,これまで多言語翻訳に用いられてきた一般化 procrustes analysis (gpa) 手順の効率的な実装を用いて,すべてのモデルを共有ベクトル空間に投影する。 我々の単語表現は、様々なタスクにおいて、生のモデルとそれらの単純化平均よりも一貫した改善を示す。 新しい表現はより安定し信頼性が高いため、稀な単語評価において顕著な改善がある。

We introduce a new approach for smoothing and improving the quality of word embeddings. We consider a method of fusing word embeddings that were trained on the same corpus but with different initializations. We project all the models to a shared vector space using an efficient implementation of the Generalized Procrustes Analysis (GPA) procedure, previously used in multilingual word translation. Our word representation demonstrates consistent improvements over the raw models as well as their simplistic average, on a range of tasks. As the new representations are more stable and reliable, there is a noticeable improvement in rare word evaluations.
翻訳日:2021-06-14 00:29:32 公開日:2021-06-05
# (参考訳) 単語センスの曖昧さに対する変分意味記憶を用いたメタラーニング [全文訳有]

Meta-Learning with Variational Semantic Memory for Word Sense Disambiguation ( http://arxiv.org/abs/2106.02960v1 )

ライセンス: CC BY 4.0
Yingjun Du, Nithin Holla, Xiantong Zhen, Cees G.M. Snoek, Ekaterina Shutova(参考訳) 教師付き単語感覚曖昧化(WSD)が直面する重要な課題は、その感覚の多様性に十分な単語のカバレッジを持つ大きな注釈付きデータセットがないことである。 メタラーニングを用いたWSDに関する最近の研究に触発された。 このような研究はメタラーニングを応用して、ごく少数の例から新しい単語感覚を学習することに成功しているが、その性能は、完全に教師されたものよりも遅れている。 このギャップをさらに埋めるため、メタラーニング環境でのwsd用セマンティックメモリのモデルを提案する。 セマンティックメモリは、モデルの一生を通して見られた経験をカプセル化し、限られたデータ設定におけるより良い一般化を支援する。 我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。 我々のモデルは、ごく少数のWSDで最先端の技術を実証し、非常に少ないデータ(例)で効果的な学習を支援する。 ワンショット) シナリオと、異なる単語の類似した感覚をキャプチャする、意味のあるプロトタイプを生成する。

A critical challenge faced by supervised word sense disambiguation (WSD) is the lack of large annotated datasets with sufficient coverage of words in their diversity of senses. This inspired recent research on few-shot WSD using meta-learning. While such work has successfully applied meta-learning to learn new word senses from very few examples, its performance still lags behind its fully supervised counterpart. Aiming to further close this gap, we propose a model of semantic memory for WSD in a meta-learning setting. Semantic memory encapsulates prior experiences seen throughout the lifetime of the model, which aids better generalization in limited data settings. Our model is based on hierarchical variational inference and incorporates an adaptive memory update rule via a hypernetwork. We show our model advances the state of the art in few-shot WSD, supports effective learning in extremely data scarce (e.g. one-shot) scenarios and produces meaning prototypes that capture similar senses of distinct words.
翻訳日:2021-06-14 00:06:41 公開日:2021-06-05
# (参考訳) 量子アニーリングを用いた実世界応用のための機械学習分類の検討 [全文訳有]

A Review of Machine Learning Classification Using Quantum Annealing for Real-world Applications ( http://arxiv.org/abs/2106.02964v1 )

ライセンス: CC BY 4.0
Rajdeep Kumar Nath, Himanshu Thapliyal, Travis S. Humble(参考訳) 機械学習パイプラインのトレーニングを最適化することは、トレーニングコストの削減とモデルパフォーマンスの向上に役立つ。 このような最適化戦略のひとつに量子アニール(quantum annealing)があり、機械学習モデルのトレーニングを最適化する可能性を示している。 物理量子アニールの実装はD-Waveシステムによって実現され、実験のために研究コミュニティで利用可能である。 量子アニールを用いた各種機械学習アプリケーションの最近の実験結果は、古典的機械学習技術の性能が限られた訓練データと高次元特徴によって制限されている興味深い結果を示している。 本稿では、実世界の分類問題に対する機械学習パイプラインの最適化におけるD-Waveの量子アニールの適用について検討する。 我々は、物理量子アニールを用いて機械学習分類器を訓練するアプリケーション領域についてレビューする。 本研究では,d波量子アニーラを用いた画像認識,リモートセンシング画像,計算生物学,素粒子物理学などの応用実験について考察し,解析する。 本稿では,量子アニーリングが古典計算よりも有利である可能性と問題点について考察する。

Optimizing the training of a machine learning pipeline helps in reducing training costs and improving model performance. One such optimizing strategy is quantum annealing, which is an emerging computing paradigm that has shown potential in optimizing the training of a machine learning model. The implementation of a physical quantum annealer has been realized by D-Wave systems and is available to the research community for experiments. Recent experimental results on a variety of machine learning applications using quantum annealing have shown interesting results where the performance of classical machine learning techniques is limited by limited training data and high dimensional features. This article explores the application of D-Wave's quantum annealer for optimizing machine learning pipelines for real-world classification problems. We review the application domains on which a physical quantum annealer has been used to train machine learning classifiers. We discuss and analyze the experiments performed on the D-Wave quantum annealer for applications such as image recognition, remote sensing imagery, computational biology, and particle physics. We discuss the possible advantages and the problems for which quantum annealing is likely to be advantageous over classical computation.
翻訳日:2021-06-13 23:46:59 公開日:2021-06-05
# 信号変換器:信号認識のための複素値注意とメタラーニング

Signal Transformer: Complex-valued Attention and Meta-Learning for Signal Recognition ( http://arxiv.org/abs/2106.04392v1 )

ライセンス: Link先を確認
Yihong Dong, Ying Peng, Muqiao Yang, Songtao Lu and Qingjiang Shi(参考訳) 近年、ディープニューラルネットワークは、信号認識問題、特に信号の非線形特徴構造を特定するための有用なツールの1つとして示されている。 しかし、この深層学習技術のパワーは、大量のトレーニングデータに大きく依存しているため、テストフェーズでは、トレーニングデータサンプルの数が小さかったり、見当たらないデータが提示されたりすると、古典的なニューラルネットワークの性能が急激に低下する。 これにより、モデルに依存しないメタラーニング(MAML)という高度な戦略が求められ、データサンプルや信号の不変表現をキャプチャすることができる。 本稿では,実際の時系列信号を構成する実部と虚部といった信号の特殊構造に着想を得て,複合領域における注意とメタラーニングを活用し,マイナショット信号認識問題に対してcamel(complex-valued attentional meta learninger)を提案する。 我々の知る限りでは、これは理論収束保証付き一般非凸問題の1次定常点を見つけることができる初めての複素数値MAMLである。 実験結果により,提案したCAMELが最先端手法と比較して優れていることが示された。

Deep neural networks have been shown as a class of useful tools for addressing signal recognition issues in recent years, especially for identifying the nonlinear feature structures of signals. However, this power of most deep learning techniques heavily relies on an abundant amount of training data, so the performance of classic neural nets decreases sharply when the number of training data samples is small or unseen data are presented in the testing phase. This calls for an advanced strategy, i.e., model-agnostic meta-learning (MAML), which is able to capture the invariant representation of the data samples or signals. In this paper, inspired by the special structure of the signal, i.e., real and imaginary parts consisted in practical time-series signals, we propose a Complex-valued Attentional MEta Learner (CAMEL) for the problem of few-shot signal recognition by leveraging attention and meta-learning in the complex domain. To the best of our knowledge, this is also the first complex-valued MAML that can find the first-order stationary points of general nonconvex problems with theoretical convergence guarantees. Extensive experiments results showcase the superiority of the proposed CAMEL compared with the state-of-the-art methods.
翻訳日:2021-06-09 16:08:17 公開日:2021-06-05
# GraphConvolution Network を用いたリンクフルート活動の同定

Identifying Linked Fraudulent Activities Using GraphConvolution Network ( http://arxiv.org/abs/2106.04513v1 )

ライセンス: Link先を確認
Sharmin Pathan, Vyom Shrivastava(参考訳) 本稿では,グラフ畳み込みネットワーク(gcn)を用いて,関連する不正行為や類似属性を共有するアクタを特定する新しい手法を提案する。 これらのリンクされた不正行為は、関係やインタラクションのような抽象的な概念を持つグラフとして視覚化できるため、gcnsは不正なノード間のリンクとなるグラフエッジを特定するのに理想的なソリューションとなる。 コミュニティ検出のような従来の手法では、コミュニティを見つけるために共有属性のような不正な試みの強いリンクが必要であり、監督されたソリューションでは、不正なシナリオでは利用できない大量のトレーニングデータを必要とし、不正行為と非不正行為のバイナリ分離を提供するのに最適である。 提案手法は従来の手法の欠点を克服し,GCNは不正ノード間の類似性を学習し,類似した試みのクラスタを識別し,学習するデータセットをはるかに小さくする。 我々は,信頼度の高い不正行為を識別するために,強いリンクと弱いリンクの両方を持つリンクアカウント上で結果を示す。 提案手法は,ラベル伝搬のコミュニティ検出やgbtsアルゴリズムを,解の質と計算時間の観点から監視した。

In this paper, we present a novel approach to identify linked fraudulent activities or actors sharing similar attributes, using Graph Convolution Network (GCN). These linked fraudulent activities can be visualized as graphs with abstract concepts like relationships and interactions, which makes GCNs an ideal solution to identify the graph edges which serve as links between fraudulent nodes. Traditional approaches like community detection require strong links between fraudulent attempts like shared attributes to find communities and the supervised solutions require large amount of training data which may not be available in fraud scenarios and work best to provide binary separation between fraudulent and non fraudulent activities. Our approach overcomes the drawbacks of traditional methods as GCNs simply learn similarities between fraudulent nodes to identify clusters of similar attempts and require much smaller dataset to learn. We demonstrate our results on linked accounts with both strong and weak links to identify fraud rings with high confidence. Our results outperform label propagation community detection and supervised GBTs algorithms in terms of solution quality and computation time.
翻訳日:2021-06-09 15:44:31 公開日:2021-06-05
# マルチタスク階層学習によるネットワークトラフィック分析

Multi-Task Hierarchical Learning Based Network Traffic Analytics ( http://arxiv.org/abs/2106.03850v1 )

ライセンス: Link先を確認
Onur Barut, Yan Luo, Tong Zhang, Weigang Li, Peilong Li(参考訳) ネットワークトラフィックの分類は重要なネットワークアプリケーションの基礎である。 この領域での以前の研究は、代表データセットの可用性に関する課題に直面しており、多くの結果は容易に再現できない。 このような問題は、新しいデータ駆動機械学習ベースのアプローチによって悪化する。 この問題に対処するために,約1.3Mのラベル付きフローを含む3つのオープンデータセットと,検索コミュニティ1のための包括的なフロー機能のリストを提示する。 マルウェア検出とアプリケーション分類の両方を含むネットワークトラフィック分析の幅広い側面に焦点を当てる。 成長を続けるにつれて、データセットはAI駆動の再現可能なネットワークフロー分析研究の共通基盤として機能することを期待しています。 データセットを公開し、単一のモデルで全てのタスクを実行するためのマルチタスク階層学習(MTHL)モデルを導入する。 その結果,MTHLは階層ラベリングによる複数のタスクを正確に行うことができ,トレーニング時間を劇的に短縮できることがわかった。

Classifying network traffic is the basis for important network applications. Prior research in this area has faced challenges on the availability of representative datasets, and many of the results cannot be readily reproduced. Such a problem is exacerbated by emerging data-driven machine learning based approaches. To address this issue, we present(N et)2databasewith three open datasets containing nearly 1.3M labeled flows in total, with a comprehensive list of flow features, for there search community1. We focus on broad aspects in network traffic analysis, including both malware detection and application classification. As we continue to grow them, we expect the datasets to serve as a common ground for AI driven, reproducible research on network flow analytics. We release the datasets publicly and also introduce a Multi-Task Hierarchical Learning (MTHL)model to perform all tasks in a single model. Our results show that MTHL is capable of accurately performing multiple tasks with hierarchical labeling with a dramatic reduction in training time.
翻訳日:2021-06-09 15:40:49 公開日:2021-06-05
# データスプリットが一般化に及ぼす影響--covid-19のcooughと文脈からの識別

Impact of data-splits on generalization: Identifying COVID-19 from cough and context ( http://arxiv.org/abs/2106.03851v1 )

ライセンス: Link先を確認
Makkunda Sharma, Nikhil Shenoy, Jigar Doshi, Piyush Bagad, Aman Dalmia, Parag Bhamare, Amrita Mahale, Saurabh Rane, Neeraj Agrawal, Rahul Panicker(参考訳) 検査や検疫を迅速に拡大することは、新型コロナウイルス(COVID-19)のパンデミックに対抗する効果的な戦略であることが示されている。 本研究では,携帯電話から取得可能なデータを用いて,covid-19と非共用を区別する深層学習手法の応用について検討する。 coughとコンテキスト(シンプトムとメタデータ)を使うことは有望なアプローチです。 この方向のいくつかの独立した作品が有望な結果を示している。 しかし、いずれも臨床的に関連したデータ分割のパフォーマンスを報告していない。 具体的には、開発とテストセットが時間(再帰的な検証)とサイト(広い検証)に分割されるパフォーマンスです。 これらの分割に有意義な一般化があるにもかかわらず、性能は著しく異なる(最大0.1AUCスコア)。 さらに,これら3つの区分における症状性および無症候性個体のパフォーマンスについて検討した。 最後に,本モデルでは,入力の有意な特徴,うっ血,コンテキストに関連のある症状に焦点をあてる。 コードとチェックポイントはhttps://github.com/w adhwaniai/cough-agai nst-covidで入手できる。

Rapidly scaling screening, testing and quarantine has shown to be an effective strategy to combat the COVID-19 pandemic. We consider the application of deep learning techniques to distinguish individuals with COVID from non-COVID by using data acquirable from a phone. Using cough and context (symptoms and meta-data) represent such a promising approach. Several independent works in this direction have shown promising results. However, none of them report performance across clinically relevant data splits. Specifically, the performance where the development and test sets are split in time (retrospective validation) and across sites (broad validation). Although there is meaningful generalization across these splits the performance significantly varies (up to 0.1 AUC score). In addition, we study the performance of symptomatic and asymptomatic individuals across these three splits. Finally, we show that our model focuses on meaningful features of the input, cough bouts for cough and relevant symptoms for context. The code and checkpoints are available at https://github.com/W adhwaniAI/cough-agai nst-covid
翻訳日:2021-06-09 15:36:13 公開日:2021-06-05
# 自然言語を用いたゼロショットタスク適応

Zero-shot Task Adaptation using Natural Language ( http://arxiv.org/abs/2106.02972v1 )

ライセンス: Link先を確認
Prasoon Goyal, Raymond J. Mooney, Scott Niekum(参考訳) 模倣学習と命令追従は、ユーザの意図を学習エージェントに伝える一般的な2つのアプローチである。 しかし、タスクの複雑さが増すにつれて、デモンストレーションと言語の両方を使用してエージェントと通信することが有益である。 本研究では,エージェントが実演と記述の両方を付与し,モダリティの両面からの情報を組み合わせる,新しい設定を提案する。 具体的には、タスク(ソースタスク)のデモンストレーションと、実証されたタスクと関連するが異なるタスク(ターゲットタスク)の違いを自然言語で記述することで、ターゲットタスクをゼロショット設定で完了させるようにエージェントに訓練すること、すなわち、ターゲットタスクのデモを一切行わないようにする。 この目的のために、LARVA(Language-Aided Reward and Value Adaptation)を導入し、ターゲットタスクの相違点に関する実演と言語記述から、ターゲットタスクを正確に記述した報酬/値関数を出力することを学ぶ。 実験により,多様な適応系において,テンプレートベース記述を用いた場合の目標タスクの95%以上,自由形式自然言語を使用する場合の70%以上を完了できることを示した。

Imitation learning and instruction-followin g are two common approaches to communicate a user's intent to a learning agent. However, as the complexity of tasks grows, it could be beneficial to use both demonstrations and language to communicate with an agent. In this work, we propose a novel setting where an agent is given both a demonstration and a description, and must combine information from both the modalities. Specifically, given a demonstration for a task (the source task), and a natural language description of the differences between the demonstrated task and a related but different task (the target task), our goal is to train an agent to complete the target task in a zero-shot setting, that is, without any demonstrations for the target task. To this end, we introduce Language-Aided Reward and Value Adaptation (LARVA) which, given a source demonstration and a linguistic description of how the target task differs, learns to output a reward / value function that accurately describes the target task. Our experiments show that on a diverse set of adaptations, our approach is able to complete more than 95% of target tasks when using template-based descriptions, and more than 70% when using free-form natural language.
翻訳日:2021-06-08 18:52:06 公開日:2021-06-05
# 多次元空間位置符号化のための学習可能なフーリエ特徴

Learnable Fourier Features for Multi-DimensionalSpa tial Positional Encoding ( http://arxiv.org/abs/2106.02795v1 )

ライセンス: Link先を確認
Yang Li, Si Si, Gang Li, Cho-Jui Hsieh, Samy Bengio(参考訳) 注意機構は順序不変である。 位置符号化は、トランスフォーマーのような注意に基づく深層モデルアーキテクチャが、情報の位置が重要なシーケンスや画像に対処するために重要なコンポーネントである。 本稿では,学習可能なフーリエ特徴に基づく新しい位置符号化手法を提案する。 トークンやベクトルとして各位置をハードコーディングするのではなく,多層パーセプトロンで変調した学習可能なフーリエ特徴写像に基づく訓練可能な符号化として,多次元のそれぞれの位置を表す。 この表現は、例えば画像上のピクセル位置のような空間的多次元位置に対して特に有利であり、$L_2$距離やより複雑な位置関係をキャプチャする必要がある。 複数のベンチマークタスクに基づく実験により,多次元位置符号化におけるフーリエ特徴表現は,精度の向上と収束の高速化により,既存の手法よりも優れていることが示された。

Attentional mechanisms are order-invariant. Positional encoding is a crucial component to allow attention-based deep model architectures such as Transformer to address sequences or images where the position of information matters. In this paper, we propose a novel positional encoding method based on learnable Fourier features. Instead of hard-coding each position as a token or a vector, we represent each position, which can be multi-dimensional, as a trainable encoding based on learnable Fourier feature mapping, modulated with a multi-layer perceptron. The representation is particularly advantageous for a spatial multi-dimensional position, e.g., pixel positions on an image, where $L_2$ distances or more complex positional relationships need to be captured. Our experiments based on several public benchmark tasks show that our learnable Fourier feature representation for multi-dimensional positional encoding outperforms existing methods by both improving the accuracy and allowing faster convergence.
翻訳日:2021-06-08 18:47:52 公開日:2021-06-05
# 軌跡予測のためのスペクトル時間グラフニューラルネットワーク

Spectral Temporal Graph Neural Network for Trajectory Prediction ( http://arxiv.org/abs/2106.02930v1 )

ライセンス: Link先を確認
Defu Cao and Jiachen Li and Hengbo Ma and Masayoshi Tomizuka(参考訳) 周囲のエージェントのコンテキスト環境と正確な動き予測の効果的な理解は、自律走行車や社会移動ロボットの開発に不可欠である。 自律エージェントの動作は、自身の意図だけでなく、静的環境や周囲の動的相互作用エージェントにも影響されるため、このタスクは困難である。 従来の研究は、周波数領域の手がかりを十分に活用せず、時間領域における空間情報と時間情報の活用に重点を置いていた。 そこで本研究では,時間領域に加えて周波数領域におけるエージェント間相関と時間依存性を同時に捉えることのできるSpectral Temporal Graph Neural Network (SpecTGNN)を提案する。 SpecTGNNは、動的状態情報を持つエージェントグラフと、2つのストリーム内のコンテキストイメージから抽出された特徴を持つ環境グラフの両方で動作する。 このモデルはグラフフーリエ変換、スペクトルグラフ畳み込み、時間ゲート畳み込みを統合し、履歴情報をエンコードし、将来の軌道を予測する。 さらに,長期間の地平線における誤差伝搬の影響を軽減するために,多頭部時空間注意機構を組み込んだ。 本稿では,2つの公開軌道予測ベンチマークデータセットにおけるSpecTGNNの性能を示す。

An effective understanding of the contextual environment and accurate motion forecasting of surrounding agents is crucial for the development of autonomous vehicles and social mobile robots. This task is challenging since the behavior of an autonomous agent is not only affected by its own intention, but also by the static environment and surrounding dynamically interacting agents. Previous works focused on utilizing the spatial and temporal information in time domain while not sufficiently taking advantage of the cues in frequency domain. To this end, we propose a Spectral Temporal Graph Neural Network (SpecTGNN), which can capture inter-agent correlations and temporal dependency simultaneously in frequency domain in addition to time domain. SpecTGNN operates on both an agent graph with dynamic state information and an environment graph with the features extracted from context images in two streams. The model integrates graph Fourier transform, spectral graph convolution and temporal gated convolution to encode history information and forecast future trajectories. Moreover, we incorporate a multi-head spatio-temporal attention mechanism to mitigate the effect of error propagation in a long time horizon. We demonstrate the performance of SpecTGNN on two public trajectory prediction benchmark datasets, which achieves state-of-the-art performance in terms of prediction accuracy.
翻訳日:2021-06-08 18:47:38 公開日:2021-06-05
# ソーシャルメディアにおけるヘイトスピーチ分類の生涯学習

Lifelong Learning of Hate Speech Classification on Social Media ( http://arxiv.org/abs/2106.02821v1 )

ライセンス: Link先を確認
Jing Qian, Hong Wang, Mai ElSherief, Xifeng Yan(参考訳) 自動ヘイトスピーチ分類に関する既存の作業では、データセットが固定され、クラスが事前に定義されていると仮定している。 しかし、ソーシャルメディアにおけるデータの量は毎日増加し、ホットトピックは急速に変化し、それまでの知識を忘れずに分類者が新しいデータに継続的に適応できるようにする必要がある。 この能力は生涯学習と呼ばれ、ソーシャルメディアにおけるヘイトスピーチ分類器のリアルワード応用に不可欠である。 本研究ではソーシャルメディア上でのヘイトスピーチ分類の生涯学習を提案する。 本稿では,LB-SOINN(Load-Balan cing Self-Organizing Incremental Neural Network)に基づくメモリモジュールとともに,変動表現学習(VRL)を提案する。 実験により、変分表現学習とLB-SOINNメモリモジュールを組み合わせることで、一般的な生涯学習技術よりも優れた性能が得られることを示す。

Existing work on automated hate speech classification assumes that the dataset is fixed and the classes are pre-defined. However, the amount of data in social media increases every day, and the hot topics changes rapidly, requiring the classifiers to be able to continuously adapt to new data without forgetting the previously learned knowledge. This ability, referred to as lifelong learning, is crucial for the real-word application of hate speech classifiers in social media. In this work, we propose lifelong learning of hate speech classification on social media. To alleviate catastrophic forgetting, we propose to use Variational Representation Learning (VRL) along with a memory module based on LB-SOINN (Load-Balancing Self-Organizing Incremental Neural Network). Experimentally, we show that combining variational representation learning and the LB-SOINN memory module achieves better performance than the commonly-used lifelong learning techniques.
翻訳日:2021-06-08 18:41:29 公開日:2021-06-05
# ヒューリスティック誘導強化学習

Heuristic-Guided Reinforcement Learning ( http://arxiv.org/abs/2106.02757v1 )

ライセンス: Link先を確認
Ching-An Cheng, Andrey Kolobov, Adith Swaminathan(参考訳) ドメイン知識やオフラインデータから構築したヒューリスティックスによる強化学習(RL)アルゴリズムの高速化のためのフレームワークを提供する。 Tabula rasa RLアルゴリズムは、逐次決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。 我々のフレームワークを用いて、ヒューリスティック誘導RLが、元のタスクを確実に解決するより短い水平サブプロブレムをいかに引き起こすかを示す。 我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。 理論的には、良いヒューリスティックの性質とRL加速度への影響を特徴づける。 特に、「改善可能なヒューリスティック」という新しい概念を導入する。これは、RLエージェントが以前の知識を超えて外挿できるヒューリスティックである。 経験的側面では、ロボット制御タスクや手続き的に生成されたゲームにおいて、最先端のアルゴリズムを加速するために、フレームワークをインスタンス化する。 本フレームワークは,RLに事前知識を注入する原理的手法を導入し,専門家によるデモンストレーションや探索データセットを用いて,温暖化開始RLに関する豊富な文献を補完する。

We provide a framework for accelerating reinforcement learning (RL) algorithms by heuristics constructed from domain knowledge or offline data. Tabula rasa RL algorithms require environment interactions or computation that scales with the horizon of the sequential decision-making task. Using our framework, we show how heuristic-guided RL induces a much shorter-horizon subproblem that provably solves the original task. Our framework can be viewed as a horizon-based regularization for controlling bias and variance in RL under a finite interaction budget. On the theoretical side, we characterize properties of a good heuristic and its impact on RL acceleration. In particular, we introduce the novel concept of an "improvable heuristic" -- a heuristic that allows an RL agent to extrapolate beyond its prior knowledge. On the empirical side, we instantiate our framework to accelerate several state-of-the-art algorithms in simulated robotic control tasks and procedurally generated games. Our framework complements the rich literature on warm-starting RL with expert demonstrations or exploratory datasets, and introduces a principled method for injecting prior knowledge into RL.
翻訳日:2021-06-08 18:41:12 公開日:2021-06-05
# ImGAGN: Im Balanced Network Embedding via Generative Adversarial Graph Networks

ImGAGN:Imbalanced Network Embedding via Generative Adversarial Graph Networks ( http://arxiv.org/abs/2106.02817v1 )

ライセンス: Link先を確認
Liang Qu, Huaisheng Zhu, Ruiqi Zheng, Yuhui Shi, Hongzhi Yin(参考訳) グラフ上の不均衡な分類は、不正なノード検出など、多くの現実世界のアプリケーションでは至るところで困難である。 近年、グラフニューラルネットワーク(GNN)は多くのネットワーク分析タスクにおいて有望な性能を示している。 しかし、既存のほとんどのGNNはバランスの取れたネットワークにのみ焦点を合わせており、バランスの取れていないネットワークでは性能が低下する。 このギャップを埋めるために、我々はImGAGNと呼ばれる生成逆グラフネットワークモデルを提案し、グラフ上の不均衡な分類問題に対処する。 グラフ構造データのための新しいジェネレータ、GraphGeneratorを導入し、異なるクラスのノード数のバランスをとることができるように、合成されたマイノリティノードのセットを生成することで、マイノリティクラスノードの属性分布とネットワークトポロジカル構造分布の両方をシミュレートすることができる。 次に、グラフ畳み込みネットワーク(gcn)判別器を訓練し、実ノードと偽ノード(つまり生成されたノード)、および合成バランスネットワーク上のマイノリティノードと多数ノードとを判別する。 提案手法の有効性を検証するため,4つの実世界不均衡ネットワークデータセットに対して広範な実験を行った。 実験結果から,ImGAGNは半教師付き不均衡ノード分類タスクに対して,最先端のアルゴリズムよりも優れていた。

Imbalanced classification on graphs is ubiquitous yet challenging in many real-world applications, such as fraudulent node detection. Recently, graph neural networks (GNNs) have shown promising performance on many network analysis tasks. However, most existing GNNs have almost exclusively focused on the balanced networks, and would get unappealing performance on the imbalanced networks. To bridge this gap, in this paper, we present a generative adversarial graph network model, called ImGAGN to address the imbalanced classification problem on graphs. It introduces a novel generator for graph structure data, named GraphGenerator, which can simulate both the minority class nodes' attribute distribution and network topological structure distribution by generating a set of synthetic minority nodes such that the number of nodes in different classes can be balanced. Then a graph convolutional network (GCN) discriminator is trained to discriminate between real nodes and fake (i.e., generated) nodes, and also between minority nodes and majority nodes on the synthetic balanced network. To validate the effectiveness of the proposed method, extensive experiments are conducted on four real-world imbalanced network datasets. Experimental results demonstrate that the proposed method ImGAGN outperforms state-of-the-art algorithms for semi-supervised imbalanced node classification task.
翻訳日:2021-06-08 18:40:55 公開日:2021-06-05
# GraphMI: グラフニューラルネットワークからプライベートグラフデータを抽出する

GraphMI: Extracting Private Graph Data from Graph Neural Networks ( http://arxiv.org/abs/2106.02820v1 )

ライセンス: Link先を確認
Zaixi Zhang, Qi Liu, Zhenya Huang, Hao Wang, Chengqiang Lu, Chuanren Liu, Enhong Chen(参考訳) 重要なアプリケーションで機械学習がより広く使われるようになるにつれて、プライバシにおけるその影響を研究する必要性が急務になる。 ターゲットモデルと補助情報へのアクセスを考えると、モデル反転攻撃はトレーニングデータセットの繊細な特徴を推測することを目的としている。 グリッドライクなドメインでの成功にもかかわらず、グラフのような非グリッドドメインに直接モデル反転技術を適用すると、グラフの固有特性やグラフニューラルネットワーク(gnn)で使用されるノードの属性を完全に活用できないため、攻撃性能が低下する。 このギャップを埋めるために,最先端のグラフ解析ツールであるgnnを反転させることで,トレーニンググラフのプライベートグラフデータを抽出することを目的とした,graphmi( \textbf{graph} \textbf{m}odel \textbf{i}nversion attack)を提案する。 具体的には,まず,グラフ特徴のスパース性と滑らかさを維持しつつ,グラフエッジの離散性に取り組むための投影勾配モジュールを提案する。 次に,エッジ推論にグラフトポロジー,ノード属性,ターゲットモデルパラメータを効率的に利用するグラフ自動エンコーダモジュールを設計する。 提案手法では,モデルインバージョンリスクとエッジ影響の関係を調査し,より影響の大きいエッジが回収される可能性がより高いことを示す。 複数の公開データセットに対する大規模な実験により,本手法の有効性が示された。 また、その正準形式のディファレンシャルプライバシは、正当なユーティリティを維持しながら、攻撃を防御できないことも示しています。

As machine learning becomes more widely used for critical applications, the need to study its implications in privacy turns to be urgent. Given access to the target model and auxiliary information, the model inversion attack aims to infer sensitive features of the training dataset, which leads to great privacy concerns. Despite its success in grid-like domains, directly applying model inversion techniques on non-grid domains such as graph achieves poor attack performance due to the difficulty to fully exploit the intrinsic properties of graphs and attributes of nodes used in Graph Neural Networks (GNN). To bridge this gap, we present \textbf{Graph} \textbf{M}odel \textbf{I}nversion attack (GraphMI), which aims to extract private graph data of the training graph by inverting GNN, one of the state-of-the-art graph analysis tools. Specifically, we firstly propose a projected gradient module to tackle the discreteness of graph edges while preserving the sparsity and smoothness of graph features. Then we design a graph auto-encoder module to efficiently exploit graph topology, node attributes, and target model parameters for edge inference. With the proposed methods, we study the connection between model inversion risk and edge influence and show that edges with greater influence are more likely to be recovered. Extensive experiments over several public datasets demonstrate the effectiveness of our method. We also show that differential privacy in its canonical form can hardly defend our attack while preserving decent utility.
翻訳日:2021-06-08 18:40:34 公開日:2021-06-05
# 時間制約を伴う割当て問題に対する強化学習

Reinforcement Learning for Assignment Problem with Time Constraints ( http://arxiv.org/abs/2106.02856v1 )

ライセンス: Link先を確認
Sharmin Pathan, Vyom Shrivastava(参考訳) 多くの制約を保ちながら強化学習を用いて、労働者のグループに複数のタスクをマッピングした割当て問題のためのエンドツーエンドフレームワークを提案する。 タスクとワーカーには時間的制約があり、タスクにワーカーを割り当てることに関連するコストがある。 各ワーカーは、許容時間単位(容量)が切れるまで複数のタスクを実行することができる。 我々は,厳密な制約を維持しつつ,課題に付随する総コストを最小化し,問題の最適解を見つけるための強化学習エージェントを訓練する。 モデルパラメータの最適化には近似ポリシー最適化を用いる。 モデルは、環境の動的状態の変化に対して再訓練することなく、労働者へのタスク割り当てに対応するリアルタイムに一連のアクションを生成する。 問題設定報酬は割り当てコストの負として計算される。 また、同じフレームワークを用いて、ビンパッキングおよび静電容量化車両ルーティング問題に関する結果を示す。 MIP と CP-SAT を用いた Google OR-Tools の性能は,ソリューションの品質と計算時間の観点から比較した。

We present an end-to-end framework for the Assignment Problem with multiple tasks mapped to a group of workers, using reinforcement learning while preserving many constraints. Tasks and workers have time constraints and there is a cost associated with assigning a worker to a task. Each worker can perform multiple tasks until it exhausts its allowed time units (capacity). We train a reinforcement learning agent to find near optimal solutions to the problem by minimizing total cost associated with the assignments while maintaining hard constraints. We use proximal policy optimization to optimize model parameters. The model generates a sequence of actions in real-time which correspond to task assignment to workers, without having to retrain for changes in the dynamic state of the environment. In our problem setting reward is computed as negative of the assignment cost. We also demonstrate our results on bin packing and capacitated vehicle routing problem, using the same framework. Our results outperform Google OR-Tools using MIP and CP-SAT solvers with large problem instances, in terms of solution quality and computation time.
翻訳日:2021-06-08 18:40:08 公開日:2021-06-05
# 対話型ニューラルプロセスによる確率シミュレーションの高速化

Accelerating Stochastic Simulation with Interactive Neural Processes ( http://arxiv.org/abs/2106.02770v1 )

ライセンス: Link先を確認
Dongxia Wu, Matteo Chinazzi, Alessandro Vespignani, Yi-An Ma, Rose Yu(参考訳) 大規模・時空間・年齢構成の疫病モデルのような確率シミュレーションは、きめ細かい解像度で計算的に高価である。 本稿では,ディープラーニングサロゲートモデルを継続的に学習し,シミュレーションを高速化する対話型フレームワークであるInteractive Neural Process (INP)を提案する。 本フレームワークは,ベイジアン能動学習,確率シミュレーション,ディープシーケンスモデリングの新たな統合に基づいている。 特に,基礎となるプロセスダイナミクスを模倣する新しい時空間ニューラルプロセスモデルを開発した。 本モデルでは,シミュレータの固有不確実性を記述する潜在過程を自動的に推定する。 これはまた、ディープラーニングの予測の不確実性を定量化できる新しい獲得関数を生み出す。 シミュレーションを反復的にクエリし,より多くのデータを収集し,モデルを継続的に改善するために,ベイズアクティブラーニングアルゴリズムを設計した。 理論解析を行い, 高次元のランダムサンプリングと比較して, サンプルの複雑さを低減できることを示す。 経験的に,我々は,複雑な感染症シミュレータの挙動を少数の例で忠実に模倣し,迅速なシミュレーションとシナリオ探索を可能にした。

Stochastic simulations such as large-scale, spatiotemporal, age-structured epidemic models are computationally expensive at fine-grained resolution. We propose Interactive Neural Process (INP), an interactive framework to continuously learn a deep learning surrogate model and accelerate simulation. Our framework is based on the novel integration of Bayesian active learning, stochastic simulation and deep sequence modeling. In particular, we develop a novel spatiotemporal neural process model to mimic the underlying process dynamics. Our model automatically infers the latent process which describes the intrinsic uncertainty of the simulator. This also gives rise to a new acquisition function that can quantify the uncertainty of deep learning predictions. We design Bayesian active learning algorithms to iteratively query the simulator, gather more data, and continuously improve the model. We perform theoretical analysis and demonstrate that our approach reduces sample complexity compared with random sampling in high dimension. Empirically, we demonstrate our framework can faithfully imitate the behavior of a complex infectious disease simulator with a small number of examples, enabling rapid simulation and scenario exploration.
翻訳日:2021-06-08 18:37:04 公開日:2021-06-05
# マルコフ決定プロセスにおけるベストポリシーへの道

Navigating to the Best Policy in Markov Decision Processes ( http://arxiv.org/abs/2106.02847v1 )

ライセンス: Link先を確認
Aymen Al Marjani, Aur\'elien Garivier, Alexandre Proutiere(参考訳) マルコフ決定過程における古典的能動純粋探索問題について検討し、エージェントが順次行動を選択し、結果の系軌道から可能な限り早く最良の政策を特定することを目的とする。 正解が少なくとも1〜\delta$の確率で与えられるまでに必要な平均ステップ数について,情報理論的な下限を提案する。 この下界には非凸最適化問題があり、そこでは凸緩和を提案する。 さらに、サンプルの複雑さが緩和された下界と2ドルの係数に一致するアルゴリズムを提供する。 本アルゴリズムは一般通信mdpに対処し,追加のエルゴディシティ仮定の下で探索速度(従って収束速度)を低減した変種を提案する。 この研究は、エージェントが各ステップで任意の(状態、動作)ペアのランダムな結果を見ることができるような、\emph{generative setting}~\cite{marjani2020adaptive}に対する以前の結果を拡張する。 対照的に、ここでは \emph{navigation constraints} を扱う方法を示す。 我々の解析は、マルコフ決定過程の解析に広く関心を持つと考える非同次マルコフ連鎖に対するエルゴード定理に依存している。

We investigate the classical active pure exploration problem in Markov Decision Processes, where the agent sequentially selects actions and, from the resulting system trajectory, aims at identifying the best policy as fast as possible. We propose an information-theoreti c lower bound on the average number of steps required before a correct answer can be given with probability at least $1-\delta$. This lower bound involves a non-convex optimization problem, for which we propose a convex relaxation. We further provide an algorithm whose sample complexity matches the relaxed lower bound up to a factor $2$. This algorithm addresses general communicating MDPs; we propose a variant with reduced exploration rate (and hence faster convergence) under an additional ergodicity assumption. This work extends previous results relative to the \emph{generative setting}~\cite{marjani2020adaptive}, where the agent could at each step observe the random outcome of any (state, action) pair. In contrast, we show here how to deal with the \emph{navigation constraints}. Our analysis relies on an ergodic theorem for non-homogeneous Markov chains which we consider of wide interest in the analysis of Markov Decision Processes.
翻訳日:2021-06-08 18:36:48 公開日:2021-06-05
# サブネットワーク構造は配布外一般化の鍵か?

Can Subnetwork Structure be the Key to Out-of-Distribution Generalization? ( http://arxiv.org/abs/2106.02890v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Kartik Ahuja, Yilun Xu, Yisen Wang, Aaron Courville(参考訳) オフ・オブ・ディストリビューション(OOD)の一般化において、特定の構造を持つモデルは急激な相関に偏りを避けることができるか? ピーターズら。 (2016) 線形の場合に対して正の答えを与える。 本稿では,OOD設定下での深部モデル構造解析に関数型モジュラー探索法を用いる。 偏りのあるモデル(スプリアス相関に焦点を合わせる)でさえも、偏りのない機能的サブネットワークが存在することを実証する。 さらに,機能的な宝くじチケットの仮説を具体化し,実証する。フルネットワークにはOOD性能を向上するサブネットワークが含まれている。 次に,部分ネットワーク選択問題を解くために,モジュールリスク最小化を提案する。 我々のアルゴリズムは、与えられたデータセットからサブネットワーク構造を学習し、他のOOD正規化手法と組み合わせることができる。 各種OOD一般化タスクの実験は,本手法の有効性を裏付けるものである。

Can models with particular structure avoid being biased towards spurious correlation in out-of-distribution (OOD) generalization? Peters et al. (2016) provides a positive answer for linear cases. In this paper, we use a functional modular probing method to analyze deep model structures under OOD setting. We demonstrate that even in biased models (which focus on spurious correlation) there still exist unbiased functional subnetworks. Furthermore, we articulate and demonstrate the functional lottery ticket hypothesis: full network contains a subnetwork that can achieve better OOD performance. We then propose Modular Risk Minimization to solve the subnetwork selection problem. Our algorithm learns the subnetwork structure from a given dataset, and can be combined with any other OOD regularization methods. Experiments on various OOD generalization tasks corroborate the effectiveness of our method.
翻訳日:2021-06-08 18:36:28 公開日:2021-06-05
# 対向攻撃によるロバスト確率線形帯域

Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks ( http://arxiv.org/abs/2106.02978v1 )

ライセンス: Link先を確認
Qin Ding, Cho-Jui Hsieh, James Sharpnack(参考訳) 確率線形文脈バンドイットアルゴリズムは、レコメンデーターシステム、オンライン広告、臨床試験など、実際にかなりの応用がある。 近年の研究では、最適なバンディットアルゴリズムは敵攻撃に対して脆弱であり、攻撃の有無で完全に失敗する可能性があることが示されている。 既存のロバストバンディットアルゴリズムは、報酬攻撃下の非文脈的設定でのみ機能し、一般的かつ一般的なコンテキストバンディット環境におけるロバスト性を改善することができない。 さらに、既存のメソッドは攻撃されたコンテキストに対して防御できない。 本研究では,完全適応的かつ全能な攻撃下での確率的線形文脈的バンディット設定のための最初のロバストバンディットアルゴリズムを提案する。 我々のアルゴリズムは報酬の攻撃下だけでなく、攻撃された状況下でも機能する。 さらに、攻撃予算や攻撃の特定の形態に関する情報は不要である。 我々は提案アルゴリズムの理論的保証を提供し,提案アルゴリズムが様々な種類の攻撃に対する堅牢性を大幅に向上させることを示す。

Stochastic linear contextual bandit algorithms have substantial applications in practice, such as recommender systems, online advertising, clinical trials, etc. Recent works show that optimal bandit algorithms are vulnerable to adversarial attacks and can fail completely in the presence of attacks. Existing robust bandit algorithms only work for the non-contextual setting under the attack of rewards and cannot improve the robustness in the general and popular contextual bandit environment. In addition, none of the existing methods can defend against attacked context. In this work, we provide the first robust bandit algorithm for stochastic linear contextual bandit setting under a fully adaptive and omniscient attack. Our algorithm not only works under the attack of rewards, but also under attacked context. Moreover, it does not need any information about the attack budget or the particular form of the attack. We provide theoretical guarantees for our proposed algorithm and show by extensive experiments that our proposed algorithm significantly improves the robustness against various kinds of popular attacks.
翻訳日:2021-06-08 18:36:15 公開日:2021-06-05
# Syndicated Bandits: コンテキスト帯域アルゴリズムにおけるハイパーパラメータの自動チューニングフレームワーク

Syndicated Bandits: A Framework for Auto Tuning Hyper-parameters in Contextual Bandit Algorithms ( http://arxiv.org/abs/2106.02979v1 )

ライセンス: Link先を確認
Qin Ding, Yi-Wei Liu, Cho-Jui Hsieh, James Sharpnack(参考訳) 探索と搾取の間のトレードオフをモデル化する確率論的文脈的盗賊問題には、推薦システム、オンライン広告、臨床試験など多くの応用がある。 他の多くの機械学習アルゴリズムと同様に、コンテキストバンディットアルゴリズムは1つ以上のハイパーパラメータを持つことが多い。 例えば、最も最適な確率的文脈的バンディットアルゴリズムでは、探索と搾取の間のトレードオフを制御する未知の探索パラメータが存在する。 ハイパーパラメータの適切な選択は、文脈的バンディットアルゴリズムがうまく機能するために不可欠である。 しかしながら、事前収集されたデータセットがなく、決定をリアルタイムで行う必要があるため、コンテキストバンディット環境でハイパーパラメータを選択するためにオフラインチューニングを使用するのは不可能である。 そこで本研究では,まず探索パラメータの自動チューニングを行う2層バンディット構造を提案し,文脈的バンディット環境で動的に複数のハイパーパラメータを学習できるシンジケートバンディットフレームワークにさらに一般化する。 我々は,LinUCB,LinTS,UCB-GL Mなど,多くの一般的な文脈的帯域幅アルゴリズムのチューニングタスクを扱うのに十分な,最適の後悔上限を実現することができることを示す。 合成データと実データの両方に関する実験により,提案手法の有効性が検証された。

The stochastic contextual bandit problem, which models the trade-off between exploration and exploitation, has many real applications, including recommender systems, online advertising and clinical trials. As many other machine learning algorithms, contextual bandit algorithms often have one or more hyper-parameters. As an example, in most optimal stochastic contextual bandit algorithms, there is an unknown exploration parameter which controls the trade-off between exploration and exploitation. A proper choice of the hyper-parameters is essential for contextual bandit algorithms to perform well. However, it is infeasible to use offline tuning methods to select hyper-parameters in contextual bandit environment since there is no pre-collected dataset and the decisions have to be made in real time. To tackle this problem, we first propose a two-layer bandit structure for auto tuning the exploration parameter and further generalize it to the Syndicated Bandits framework which can learn multiple hyper-parameters dynamically in contextual bandit environment. We show our Syndicated Bandits framework can achieve the optimal regret upper bounds and is general enough to handle the tuning tasks in many popular contextual bandit algorithms, such as LinUCB, LinTS, UCB-GLM, etc. Experiments on both synthetic and real datasets validate the effectiveness of our proposed framework.
翻訳日:2021-06-08 18:35:59 公開日:2021-06-05
# 未知グラフ構造を持つ因果帯域

Causal Bandits with Unknown Graph Structure ( http://arxiv.org/abs/2106.02988v1 )

ライセンス: Link先を確認
Yangyi Lu, Amirhossein Meisami, Ambuj Tewari(参考訳) 因果的バンディット問題において、アクション集合は因果グラフの変数に対する介入からなる。 何人かの研究者が最近そのような盗賊問題を研究し、その実践的応用を指摘した。 しかしながら、既存のすべての著作物は、学習者が前もって因果グラフ構造に関する完全な知識を与えられるという制限的かつ非現実的な仮定に依存している。 本稿では,因果グラフを知らずに新しい因果バンディットアルゴリズムを開発した。 我々のアルゴリズムは、因果樹、因果樹、および一般的な因果グラフに対してうまく機能する。 我々のアルゴリズムの後悔の保証は、穏やかな条件下での標準的なマルチアーム・バンディット(MAB)アルゴリズムよりも大幅に改善される。 最後に、我々の穏やかな条件が必須であることを示す:それらなしでは、標準的なMABバンディットアルゴリズムより優れた処理はできない。

In causal bandit problems, the action set consists of interventions on variables of a causal graph. Several researchers have recently studied such bandit problems and pointed out their practical applications. However, all existing works rely on a restrictive and impractical assumption that the learner is given full knowledge of the causal graph structure upfront. In this paper, we develop novel causal bandit algorithms without knowing the causal graph. Our algorithms work well for causal trees, causal forests and a general class of causal graphs. The regret guarantees of our algorithms greatly improve upon those of standard multi-armed bandit (MAB) algorithms under mild conditions. Lastly, we prove our mild conditions are necessary: without them one cannot do better than standard MAB bandit algorithms.
翻訳日:2021-06-08 18:35:37 公開日:2021-06-05
# 効率的な視覚変換器のためのパッチスライミング

Patch Slimming for Efficient Vision Transformers ( http://arxiv.org/abs/2106.02852v1 )

ライセンス: Link先を確認
Yehui Tang, Kai Han, Yunhe Wang, Chang Xu, Jianyuan Guo, Chao Xu, Dacheng Tao(参考訳) 本稿では,与えられたネットワーク上での冗長計算による視覚変圧器の効率問題について検討する。 最近のトランスフォーマーアーキテクチャは、一連のコンピュータビジョンタスクで優れたパフォーマンスを達成するための効果を実証している。 しかし、畳み込みニューラルネットワークと同様、視覚変換器の膨大な計算コストは依然として深刻な問題である。 注意機構が異なるパッチ層を階層的に集約することを考えると、トップダウンパラダイムで無駄なパッチを破棄する新しいパッチスライミングアプローチを提案する。 まず、最後のレイヤで有効なパッチを特定し、それを使って前のレイヤのパッチ選択プロセスをガイドします。 各レイヤについて、最終出力機能に対するパッチの影響は近似され、影響の少ないパッチは削除される。 ベンチマークデータセットにおける実験結果は,提案手法が視覚トランスフォーマーの性能に影響を与えることなく,計算コストを大幅に削減できることを示した。 例えば、ViT-Tiモデルの45%以上のFLOPは、ImageNetデータセットの0.2%のトップ1の精度低下で削減できる。

This paper studies the efficiency problem for visual transformers by excavating redundant calculation in given networks. The recent transformer architecture has demonstrated its effectiveness for achieving excellent performance on a series of computer vision tasks. However, similar to that of convolutional neural networks, the huge computational cost of vision transformers is still a severe issue. Considering that the attention mechanism aggregates different patches layer-by-layer, we present a novel patch slimming approach that discards useless patches in a top-down paradigm. We first identify the effective patches in the last layer and then use them to guide the patch selection process of previous layers. For each layer, the impact of a patch on the final output feature is approximated and patches with less impact will be removed. Experimental results on benchmark datasets demonstrate that the proposed method can significantly reduce the computational costs of vision transformers without affecting their performances. For example, over 45% FLOPs of the ViT-Ti model can be reduced with only 0.2% top-1 accuracy drop on the ImageNet dataset.
翻訳日:2021-06-08 18:29:59 公開日:2021-06-05
# 特徴フローの正規化:ディープニューラルネットワークにおける構造的空間性の改善

Feature Flow Regularization: Improving Structured Sparsity in Deep Neural Networks ( http://arxiv.org/abs/2106.02914v1 )

ライセンス: Link先を確認
Yue Wu, Yuan Lan, Luchan Zhang, Yang Xiang(参考訳) プルーニング(Pruning)は、ディープニューラルネットワーク(DNN)の冗長パラメータを精度を維持しながら除去するモデル圧縮手法である。 ほとんどのフィルタープルーニング法は、反復プルーニング、統計/ランク付け、トレーニングプロセスにおける追加の最適化設計などの複雑な処理を必要とする。 本稿では,dnnにおける構造的スパルサリティとフィルタプルーニングを改善するため,機能の進化の新しい視点から,機能フローの正規化(ffr)と呼ばれる簡易かつ効果的な規則化戦略を提案する。 具体的には、FFRはニューラルネットワークに沿った特徴フローの勾配と曲率を制御し、パラメータの間隔を暗黙的に増加させる。 ffrの背後にある原則は、機能の一貫性とスムーズな進化が冗長なパラメータを避ける効率的なネットワークにつながることである。 FFRから得られる高構造空間により,フィルタのプーンを効果的に行うことができる。 vggnets、cifar-10/100のresnets、小さなimagenetデータセットによる実験では、ffrが非構造化と構造化の両方を著しく改善できることが示されている。 我々のプルーニングはパラメータの削減の点で、FLOPは最先端のプルーニング法と同等かそれ以上に優れている。

Pruning is a model compression method that removes redundant parameters in deep neural networks (DNNs) while maintaining accuracy. Most available filter pruning methods require complex treatments such as iterative pruning, features statistics/ranking, or additional optimization designs in the training process. In this paper, we propose a simple and effective regularization strategy from a new perspective of evolution of features, which we call feature flow regularization (FFR), for improving structured sparsity and filter pruning in DNNs. Specifically, FFR imposes controls on the gradient and curvature of feature flow along the neural network, which implicitly increases the sparsity of the parameters. The principle behind FFR is that coherent and smooth evolution of features will lead to an efficient network that avoids redundant parameters. The high structured sparsity obtained from FFR enables us to prune filters effectively. Experiments with VGGNets, ResNets on CIFAR-10/100, and Tiny ImageNet datasets demonstrate that FFR can significantly improve both unstructured and structured sparsity. Our pruning results in terms of reduction of parameters and FLOPs are comparable to or even better than those of state-of-the-art pruning methods.
翻訳日:2021-06-08 18:29:43 公開日:2021-06-05
# コンテキストベースパッチモデルを用いた末期乳腺腫瘍分類モデル-画像分類のためのbilstmアプローチ

An End-to-End Breast Tumour Classification Model Using Context-Based Patch Modelling- A BiLSTM Approach for Image Classification ( http://arxiv.org/abs/2106.02864v1 )

ライセンス: Link先を確認
Suvidha Tripathi, Satish Kumar Singh, Hwee Kuan Lee(参考訳) 病理組織学における全スライド画像(WSI)の計算解析に取り組んでいる研究者は、それぞれのWSIの解像度が大きいため、主にパッチベースのモデリングに頼っている。 大きな解像度は、計算上の制約のため、WSIを機械学習モデルに直接入力することができない。 しかし、パッチベースの分析により、現在の手法の多くはパッチ間の空間的関係を活用できていない。 本研究は, この関係を, 特定の腫瘍領域から抽出したパッチ間の特徴に基づく相関関係と統合する試みである。 分類作業では,前向きと後向きの文脈関係をモデル化するためにBiLSTMを用いた。 RNNベースのモデルは、ディープラーニングモデル内の可変サイズ画像のモデリングを可能にすることにより、シーケンスサイズを制限する。 また,パッチのサンプリングに使用する異なる走査法を探索することにより,空間連続性の影響も考慮した。 アプローチの効率性を確立するため、我々は2つのデータセット、顕微鏡画像とWSI腫瘍領域でモデルをトレーニングし、テストした。 現代の文献と比較すると,顕微鏡画像データセットでは90%の精度で精度が向上した。 WSI tumour region データセットでは,最大投票手法を用いて分類結果を ResNet,DenseNet,Ince ptionV3 などのディープラーニングネットワークと比較した。 最高性能の84%を達成しました。 CNN機能付きBiLSTMは、パッチをエンドツーエンドの画像分類ネットワークにモデル化する上で、はるかに優れた性能を示した。 また, WSI 腫瘍領域の変動次元は, 再サイズ化を必要とせず, 分類に利用した。 このことから,本手法は腫瘍の大きさに依存しず,解像度の詳細を失うことなく大きな次元画像を処理できることが示唆された。

Researchers working on computational analysis of Whole Slide Images (WSIs) in histopathology have primarily resorted to patch-based modelling due to large resolution of each WSI. The large resolution makes WSIs infeasible to be fed directly into the machine learning models due to computational constraints. However, due to patch-based analysis, most of the current methods fail to exploit the underlying spatial relationship among the patches. In our work, we have tried to integrate this relationship along with feature-based correlation among the extracted patches from the particular tumorous region. For the given task of classification, we have used BiLSTMs to model both forward and backward contextual relationship. RNN based models eliminate the limitation of sequence size by allowing the modelling of variable size images within a deep learning model. We have also incorporated the effect of spatial continuity by exploring different scanning techniques used to sample patches. To establish the efficiency of our approach, we trained and tested our model on two datasets, microscopy images and WSI tumour regions. After comparing with contemporary literature we achieved the better performance with accuracy of 90% for microscopy image dataset. For WSI tumour region dataset, we compared the classification results with deep learning networks such as ResNet, DenseNet, and InceptionV3 using maximum voting technique. We achieved the highest performance accuracy of 84%. We found out that BiLSTMs with CNN features have performed much better in modelling patches into an end-to-end Image classification network. Additionally, the variable dimensions of WSI tumour regions were used for classification without the need for resizing. This suggests that our method is independent of tumour image size and can process large dimensional images without losing the resolution details.
翻訳日:2021-06-08 18:27:06 公開日:2021-06-05
# 一般的な介入パターンを持つパネルの学習的治療効果

Learning Treatment Effects in Panels with General Intervention Patterns ( http://arxiv.org/abs/2106.02780v1 )

ライセンス: Link先を確認
Vivek F. Farias, Andrew A. Li, Tianyi Peng(参考訳) パネルデータによる因果推論の問題は、中心的な計量問題である。 M^*$ を低階行列とし、E$ を零平均雑音行列とする。 a `treatment' matrix $z$ with entry in $\{0,1\}$ については、エントリ $o_{ij} := m^*_{ij} + e_{ij} + \mathcal{t}_{ij} z_{ij}$ where $\mathcal{t}_{ij} $ が未知で不均一な治療効果を持つ行列 $o$ を観察します。 この問題は、平均的な処理効果である$\tau^* := \sum_{ij} \mathcal{t}_{ij} z_{ij} / \sum_{ij} z_{ij}$ を推定する必要がある。 合成制御パラダイムは、$z$が単一の行にサポートを置くときに$\tau^*$を推定するアプローチを提供する。 本稿では、このフレームワークを拡張して、一般の$Z$に対して$\tau^*$の利率最適回復を可能にする。 私たちの保証は、この一般的な設定で最初のタイプです。 合成および実世界のデータに対する計算実験は、競合する推定器よりもかなり有利である。

The problem of causal inference with panel data is a central econometric question. The following is a fundamental version of this problem: Let $M^*$ be a low rank matrix and $E$ be a zero-mean noise matrix. For a `treatment' matrix $Z$ with entries in $\{0,1\}$ we observe the matrix $O$ with entries $O_{ij} := M^*_{ij} + E_{ij} + \mathcal{T}_{ij} Z_{ij}$ where $\mathcal{T}_{ij} $ are unknown, heterogenous treatment effects. The problem requires we estimate the average treatment effect $\tau^* := \sum_{ij} \mathcal{T}_{ij} Z_{ij} / \sum_{ij} Z_{ij}$. The synthetic control paradigm provides an approach to estimating $\tau^*$ when $Z$ places support on a single row. This paper extends that framework to allow rate-optimal recovery of $\tau^*$ for general $Z$, thus broadly expanding its applicability. Our guarantees are the first of their type in this general setting. Computational experiments on synthetic and real-world data show a substantial advantage over competing estimators.
翻訳日:2021-06-08 18:24:37 公開日:2021-06-05
# 指数関数和のスパーシフィケーションとそのアルゴリズムへの応用

Sparsification for Sums of Exponentials and its Algorithmic Applications ( http://arxiv.org/abs/2106.02774v1 )

ライセンス: Link先を確認
Jerry Li, Allen Liu, Ankur Moitra(参考訳) 信号処理と学習理論の多くの研究は、基礎となるモデルが単純であるという仮定の下で行われる。 信号が約$k$-Fourier-sparseであること、あるいは分布が少なくとも$k$の成分を持つ混合モデルによって近似可能であること。 しかし、これらのモデルのパラメータを適合させる問題は、周波数/成分が近すぎるとより困難になる。 本研究では指数関数の和をスパース化し、様々なアルゴリズム的応用を与える新しい方法を提案する。 まず、Chenらによる周波数ギャップのないフーリエスパース補間について検討する。 k' = \mbox{poly}(k, \log 1/\epsilon)$周波数を使用する$\epsilon$-approxima te の解を見つけるアルゴリズムを与えた。 第2に,分離条件のない1次元ガウス混合モデルの学習について検討する。 カーネル密度推定器は$k' = O(k/\epsilon^2)$コンポーネントを使用する$\epsilon$-approxima tionを与える。 これらのメソッドはどちらも、私たちが始めたものよりもずっと複雑なモデルを出力します。 周波数/成分数を$k' = \widetilde{O}(k)$に減らし、対数因子に最適化する方法を示す。 さらに、モデル選択へのアプリケーションも提供します。 特に、分離条件なしで機能するガウス混合モデルにおいて、およそ(かつ頑健に)成分数を決定するための最初のアルゴリズムを与える。

Many works in signal processing and learning theory operate under the assumption that the underlying model is simple, e.g. that a signal is approximately $k$-Fourier-sparse or that a distribution can be approximated by a mixture model that has at most $k$ components. However the problem of fitting the parameters of such a model becomes more challenging when the frequencies/componen ts are too close together. In this work we introduce new methods for sparsifying sums of exponentials and give various algorithmic applications. First we study Fourier-sparse interpolation without a frequency gap, where Chen et al. gave an algorithm for finding an $\epsilon$-approxima te solution which uses $k' = \mbox{poly}(k, \log 1/\epsilon)$ frequencies. Second, we study learning Gaussian mixture models in one dimension without a separation condition. Kernel density estimators give an $\epsilon$-approxima tion that uses $k' = O(k/\epsilon^2)$ components. These methods both output models that are much more complex than what we started out with. We show how to post-process to reduce the number of frequencies/componen ts down to $k' = \widetilde{O}(k)$, which is optimal up to logarithmic factors. Moreover we give applications to model selection. In particular, we give the first algorithms for approximately (and robustly) determining the number of components in a Gaussian mixture model that work without a separation condition.
翻訳日:2021-06-08 18:19:27 公開日:2021-06-05
# 混合によるネットワーク推定:適応性など

Network Estimation by Mixing: Adaptivity and More ( http://arxiv.org/abs/2106.02803v1 )

ライセンス: Link先を確認
Tianxi Li, Can M. Le(参考訳) ネットワーク分析は、複雑なシステムのユニット間の相互作用を研究するために一般的に用いられている。 特に関心のある問題は、単一かつノイズの多いインスタンス化によってネットワークの基盤となる接続パターンを学ぶことである。 近年、この問題に対処するために多くの方法が提案されているが、それらは通常、真のモデルは既知のクラスに属し、ほとんどの実世界のアプリケーションでは検証できないと仮定する。 したがって、これらの手法に基づくネットワークモデリングは、モデルの誤特定に苦しむか、理論上はよく理解されておらず、実際に不安定になる可能性のある追加のモデル選択手順に依存する。 この課題に対処するために,利用可能な任意のモデルを利用して個々の性能を改善する混合戦略を提案する。 提案手法は計算効率が良く,チューニングもほとんどないため,ネットワークモデリングのオフザシェルフ手法として利用することができる。 提案手法は,真のモデルが個々の候補に含まれる場合のオラクル推定と同等に動作することを示す。 さらに重要なのは、この手法が頑健であり、モデルが誤って特定された場合でも、現在のすべての推定値を上回ることである。 提案手法の利点を検証するために, 広範囲なシミュレーション例を用いた。 6つのドメインの385実世界のネットワークにおけるリンク予測性能の評価は、複数のドメインにわたる混合法の普遍的競合性を示す。

Networks analysis has been commonly used to study the interactions between units of complex systems. One problem of particular interest is learning the network's underlying connection pattern given a single and noisy instantiation. While many methods have been proposed to address this problem in recent years, they usually assume that the true model belongs to a known class, which is not verifiable in most real-world applications. Consequently, network modeling based on these methods either suffers from model misspecification or relies on additional model selection procedures that are not well understood in theory and can potentially be unstable in practice. To address this difficulty, we propose a mixing strategy that leverages available arbitrary models to improve their individual performances. The proposed method is computationally efficient and almost tuning-free; thus, it can be used as an off-the-shelf method for network modeling. We show that the proposed method performs equally well as the oracle estimate when the true model is included as individual candidates. More importantly, the method remains robust and outperforms all current estimates even when the models are misspecified. Extensive simulation examples are used to verify the advantage of the proposed mixing method. Evaluation of link prediction performance on 385 real-world networks from six domains also demonstrates the universal competitiveness of the mixing method across multiple domains.
翻訳日:2021-06-08 18:19:04 公開日:2021-06-05
# BiToD:タスク指向対話モデリングのためのバイリンガルマルチドメインデータセット

BiToD: A Bilingual Multi-Domain Dataset For Task-Oriented Dialogue Modeling ( http://arxiv.org/abs/2106.02787v1 )

ライセンス: Link先を確認
Zhaojiang Lin, Andrea Madotto, Genta Indra Winata, Peng Xu, Feijun Jiang, Yuxiang Hu, Chen Shi, Pascale Fung(参考訳) タスク指向対話(ToD)ベンチマークは、進捗を測定し、より良い対話エージェントを開発するための重要な道を提供する。 しかし、エンドツーエンドのToDモデリングのための既存のデータセットは単一の言語に限られており、多言語国や地域向けの堅牢なエンドツーエンドのToDシステムの開発を妨げる。 本稿では,タスク指向対話モデリングのためのバイリンガル・マルチドメイン・データセットであるBiToDを紹介する。 BiToDには、大規模で現実的なバイリンガル知識ベースを持つ7k以上のマルチドメイン対話(144k発話)が含まれている。 バイリンガルなToDシステムと言語間移動学習アプローチを評価するための効果的なベンチマークとして機能する。 3つの評価条件(単言語、バイリンガル、クロスリンガル)の下、最先端のベースラインを提供する。 2つの独立した単言語ToDシステムと比較して,1)バイリンガルToDシステムのトレーニングの有効性,2)低資源環境下でのシステム性能を向上させるために,バイリンガル知識ベースとクロスリンガルトランスファー学習を活用する可能性を明らかにする。

Task-oriented dialogue (ToD) benchmarks provide an important avenue to measure progress and develop better conversational agents. However, existing datasets for end-to-end ToD modeling are limited to a single language, hindering the development of robust end-to-end ToD systems for multilingual countries and regions. Here we introduce BiToD, the first bilingual multi-domain dataset for end-to-end task-oriented dialogue modeling. BiToD contains over 7k multi-domain dialogues (144k utterances) with a large and realistic bilingual knowledge base. It serves as an effective benchmark for evaluating bilingual ToD systems and cross-lingual transfer learning approaches. We provide state-of-the-art baselines under three evaluation settings (monolingual, bilingual, and cross-lingual). The analysis of our baselines in different settings highlights 1) the effectiveness of training a bilingual ToD system compared to two independent monolingual ToD systems, and 2) the potential of leveraging a bilingual knowledge base and cross-lingual transfer learning to improve the system performance under low resource condition.
翻訳日:2021-06-08 18:17:41 公開日:2021-06-05
# MergeDistill: 蒸留を用いた事前学習言語モデルのマージ

MergeDistill: Merging Pre-trained Language Models using Distillation ( http://arxiv.org/abs/2106.02834v1 )

ライセンス: Link先を確認
Simran Khanuja, Melvin Johnson, Partha Talukdar(参考訳) 事前学習された多言語言語モデル (lms) は、言語間移動の最先端の結果を得たが、能力の制限、歪んだ事前学習データ、および副最適語彙のために、しばしば不等式表現に繋がる。 それぞれのモデルは、注意深くキュレートされ、言語的にインフォームドされた語彙を使って、大量の言語やドメイン固有のデータに基づいて訓練される。 しかし、そうすることで私たちは全輪に戻ることができ、多言語性の利点を活用できないのです。 両端のギャップに対処するために,タスク非依存の知識蒸留を用いて,最小限の依存関係で資産を最大限に活用できる,事前学習したLMをマージするフレームワークであるMergeDistillを提案する。 我々は,既存の教師LMと,何桁ものデータと固定モデルキャパシティで訓練された教師LMとの競争力や性能を向上する訓練学生LMを活用して,実践的にフレームワークの適用性を実証する。 また,教師選択の重要性と,学生モデルのパフォーマンスへの影響を強調した。

Pre-trained multilingual language models (LMs) have achieved state-of-the-art results in cross-lingual transfer, but they often lead to an inequitable representation of languages due to limited capacity, skewed pre-training data, and sub-optimal vocabularies. This has prompted the creation of an ever-growing pre-trained model universe, where each model is trained on large amounts of language or domain specific data with a carefully curated, linguistically informed vocabulary. However, doing so brings us back full circle and prevents one from leveraging the benefits of multilinguality. To address the gaps at both ends of the spectrum, we propose MergeDistill, a framework to merge pre-trained LMs in a way that can best leverage their assets with minimal dependencies, using task-agnostic knowledge distillation. We demonstrate the applicability of our framework in a practical setting by leveraging pre-existing teacher LMs and training student LMs that perform competitively with or even outperform teacher LMs trained on several orders of magnitude more data and with a fixed model capacity. We also highlight the importance of teacher selection and its impact on student model performance.
翻訳日:2021-06-08 18:17:25 公開日:2021-06-05
# 融合関係表現による概念生成による分類補完の強化

Enhancing Taxonomy Completion with Concept Generation via Fusing Relational Representations ( http://arxiv.org/abs/2106.02974v1 )

ライセンス: Link先を確認
Qingkai Zeng and Jinfeng Lin and Wenhao Yu and Jane Cleland-Huang and Meng Jiang(参考訳) 分類の自動構築は、eコマース、web検索、質問応答において多くのアプリケーションをサポートする。 既存の分類の展開や完成法は、新しい概念が正確に抽出され、それらの埋め込みベクトルがテキストコーパスから学習されたと仮定する。 しかし、分類学の不完全性を確立する上での批判的かつ根本的な課題は、抽出された概念の不完全性であり、特に名前が複数の単語を持ち、コーパスの頻度が低い場合である。 抽出に基づく手法の限界を解決するために,新しい概念を必要とする既存の分類群の位置を特定し,適切な概念名を生成することで,分類の完成度を高めることを提案する。 gentaxoは、概念埋め込みのためにコーパスに頼る代わりに、周囲のグラフベースおよび言語ベースの関係情報からコンテキスト埋め込みを学び、概念名ジェネレータを事前トレーニングするためにコーパスを活用する。 実験の結果,GenTaxoは既存の方法よりも分類学の完全性を向上させることが示された。

Automatic construction of a taxonomy supports many applications in e-commerce, web search, and question answering. Existing taxonomy expansion or completion methods assume that new concepts have been accurately extracted and their embedding vectors learned from the text corpus. However, one critical and fundamental challenge in fixing the incompleteness of taxonomies is the incompleteness of the extracted concepts, especially for those whose names have multiple words and consequently low frequency in the corpus. To resolve the limitations of extraction-based methods, we propose GenTaxo to enhance taxonomy completion by identifying positions in existing taxonomies that need new concepts and then generating appropriate concept names. Instead of relying on the corpus for concept embeddings, GenTaxo learns the contextual embeddings from their surrounding graph-based and language-based relational information, and leverages the corpus for pre-training a concept name generator. Experimental results demonstrate that GenTaxo improves the completeness of taxonomies over existing methods.
翻訳日:2021-06-08 18:17:03 公開日:2021-06-05
# 抽象レベルの違いによる物体概念の視覚的コミュニケーション

Visual communication of object concepts at different levels of abstraction ( http://arxiv.org/abs/2106.02775v1 )

ライセンス: Link先を確認
Justin Yang and Judith E. Fan(参考訳) 特定の実体(例えばガーフィールド)や一般のカテゴリ(例えば「キャット」)の図面を作成できる。 この能力は、非常に親しみやすい概念の様々な図面を作成できるのか? 我々は,物体を異なるレベルの抽象レベルで描画することは感覚情報と表現目標の両方に依存すると仮定した。 参加者は写真やカテゴリのラベルを付けたオブジェクトを描画した。 各キュータイプについて、参加者の半数は特定の模範を描き、残りの半分はカテゴリを描き出そうとした。 その結果,ラベル付きカテゴリー図は基本レベルでは最も認識しにくいが,写真用例図は認識しにくいことがわかった。 これらの知見は、視覚的概念を様々な方法で伝達するために人々がどのように絵を使うかを説明するためのタスクコンテキストの重要性を強調している。

People can produce drawings of specific entities (e.g., Garfield), as well as general categories (e.g., "cat"). What explains this ability to produce such varied drawings of even highly familiar object concepts? We hypothesized that drawing objects at different levels of abstraction depends on both sensory information and representational goals, such that drawings intended to portray a recently seen object preserve more detail than those intended to represent a category. Participants drew objects cued either with a photo or a category label. For each cue type, half the participants aimed to draw a specific exemplar; the other half aimed to draw the category. We found that label-cued category drawings were the most recognizable at the basic level, whereas photo-cued exemplar drawings were the least recognizable. Together, these findings highlight the importance of task context for explaining how people use drawings to communicate visual concepts in different ways.
翻訳日:2021-06-08 18:11:12 公開日:2021-06-05
# 深度完了のためのレーダー・カメラ画素深度対応

Radar-Camera Pixel Depth Association for Depth Completion ( http://arxiv.org/abs/2106.02778v1 )

ライセンス: Link先を確認
Yunfei Long, Daniel Morris, Xiaoming Liu, Marcos Castro, Punarjay Chakravarty and Praveen Narayanan(参考訳) レーダーとビデオのデータは検出レベルで容易に融合できるが、ピクセルレベルで融合することはより有益である可能性がある。 これはレーダーのスパース性も理由の一つだが、自動車用レーダービームは通常のピクセルよりも広く、カメラとレーダーの間に大きなベースラインが組み合わさっているため、レーダーピクセルとカラーピクセルの相関が不十分である。 その結果、LiDAR用に設計された深度補完法と、レーダーやビデオにはあまり役に立たない。 本稿では,レーダリターンから画素へのマッピングを学習するレーダ対ピクセルアソシエーションステージを提案する。 このマッピングはまた、レーダーリターンを密度化するのに役立ちます。 これを第1段階として、より伝統的な深度補完法により、レーダとビデオによる画像誘導深度補完を実現することができる。 nuScenesデータセット上ではカメラとレーダーに勝る性能を示す。 ソースコードはhttps://github.com/l ongyunf/rc-pdaで入手できます。

While radar and video data can be readily fused at the detection level, fusing them at the pixel level is potentially more beneficial. This is also more challenging in part due to the sparsity of radar, but also because automotive radar beams are much wider than a typical pixel combined with a large baseline between camera and radar, which results in poor association between radar pixels and color pixel. A consequence is that depth completion methods designed for LiDAR and video fare poorly for radar and video. Here we propose a radar-to-pixel association stage which learns a mapping from radar returns to pixels. This mapping also serves to densify radar returns. Using this as a first stage, followed by a more traditional depth completion method, we are able to achieve image-guided depth completion with radar and video. We demonstrate performance superior to camera and radar alone on the nuScenes dataset. Our source code is available at https://github.com/l ongyunf/rc-pda.
翻訳日:2021-06-08 18:10:55 公開日:2021-06-05
# IPS300+: インターセクション知覚システムのためのマルチモーダル・データセット

IPS300+: a Challenging Multimodal Dataset for Intersection Perception System ( http://arxiv.org/abs/2106.02781v1 )

ライセンス: Link先を確認
Huanan Wang, Xinyu Zhang, Jun Li, Zhiwei Li, Lei Yang, Shuyue Pan, Yongqiang Deng(参考訳) 高複雑性と閉塞性のため、混雑した都市交差点での認識不足は、人間ドライバーと自律型アルゴリズムの両方にとって深刻な安全リスクとなりうるが、CVIS(Cooperative Vehicle Infrastructure System)は、このシナリオにおいて、フル参加者の知覚のためのソリューションとして提案されている。 しかし、道路側マルチモーダル認識の研究はまだ初期段階であり、そのようなシナリオのためのオープンソースデータセットは存在しない。 そこで本論文はそのギャップを埋める。 本稿では,交差点の対角方向に設置されたIPS(Intersection Perception System)を用いて,交差点認識タスクのための高品質なマルチモーダルデータセットを提案する。 実験的な交差点の中心は3000m2の範囲で、延長距離は300mに達する。 オープンソースデータの最初のバッチは14198フレームを含み、各フレームの平均319.84ラベルは、2019年の最も混み合ったデータセット(H3Dデータセット)の9.6倍である。 さらなる研究を容易にするため、このデータセットは、KITTIデータセットとラベル文書の整合性を維持し、アルゴリズム評価のために標準化されたベンチマークを作成する。 私たちのデータセットは、http://www.openmpd.c om/column/other_data setsで利用可能です。

Due to the high complexity and occlusion, insufficient perception in the crowded urban intersection can be a serious safety risk for both human drivers and autonomous algorithms, whereas CVIS (Cooperative Vehicle Infrastructure System) is a proposed solution for full-participants perception in this scenario. However, the research on roadside multimodal perception is still in its infancy, and there is no open-source dataset for such scenario. Accordingly, this paper fills the gap. Through an IPS (Intersection Perception System) installed at the diagonal of the intersection, this paper proposes a high-quality multimodal dataset for the intersection perception task. The center of the experimental intersection covers an area of 3000m2, and the extended distance reaches 300m, which is typical for CVIS. The first batch of open-source data includes 14198 frames, and each frame has an average of 319.84 labels, which is 9.6 times larger than the most crowded dataset (H3D dataset in 2019) by now. In order to facilitate further study, this dataset tries to keep the label documents consistent with the KITTI dataset, and a standardized benchmark is created for algorithm evaluation. Our dataset is available at: http://www.openmpd.c om/column/other_data sets.
翻訳日:2021-06-08 18:10:39 公開日:2021-06-05
# t-net:deep stacked scale-iteration network for image dehazing

T-Net: Deep Stacked Scale-Iteration Network for Image Dehazing ( http://arxiv.org/abs/2106.02809v1 )

ライセンス: Link先を確認
Lirong Zheng, Yanshan Li, Kaihao Zhang, Wenhan Luo(参考訳) hazyイメージは画像コンテンツの可視性を低下させ、hazeはその後のコンピュータビジョンタスクの処理に失敗する。 本稿では,u-netアーキテクチャに基づくバックボーンネットワークとデュアルアテンションモジュールからなる,t-netと呼ばれるデヘイジングネットワークを提案することで,画像デヘイジングの問題に対処する。 また、新しい融合戦略でスキップ接続を使用することで、マルチスケールな機能融合を実現することができる。 さらに、通常のT-Netを何度も展開することで、スタックT-Netは再帰的戦略を通じてステージ全体の深い機能の依存性を活用することができる。 ネットワークパラメータを減らすために,resnet のステージ内再帰計算をスタック t-net に導入した。 そして、各t-netへの入力として、ステージ別結果と元のヘイジー画像の両方を取り、最終的にクリーン画像の予測を出力する。 合成画像と実世界画像の両方における実験結果から,我々のスタックt-netと先進スタックt-netは最先端のデヘイジングアルゴリズムに対して好適に動作し,スタックt-netがデヘイジング効果をさらに改善し,再帰的戦略の有効性を示すことが示された。

Hazy images reduce the visibility of the image content, and haze will lead to failure in handling subsequent computer vision tasks. In this paper, we address the problem of image dehazing by proposing a dehazing network named T-Net, which consists of a backbone network based on the U-Net architecture and a dual attention module. And it can achieve multi-scale feature fusion by using skip connections with a new fusion strategy. Furthermore, by repeatedly unfolding the plain T-Net, Stack T-Net is proposed to take advantage of the dependence of deep features across stages via a recursive strategy. In order to reduce network parameters, the intra-stage recursive computation of ResNet is adopted in our Stack T-Net. And we take both the stage-wise result and the original hazy image as input to each T-Net and finally output the prediction of clean image. Experimental results on both synthetic and real-world images demonstrate that our plain T-Net and the advanced Stack T-Net perform favorably against the state-of-the-art dehazing algorithms, and show that our Stack T-Net could further improve the dehazing effect, demonstrating the effectiveness of the recursive strategy.
翻訳日:2021-06-08 18:10:18 公開日:2021-06-05
# トップダウン階層学習による動的順序決定林の構築によるCNNの解釈

Making CNNs Interpretable by Building Dynamic Sequential Decision Forests with Top-down Hierarchy Learning ( http://arxiv.org/abs/2106.02824v1 )

ライセンス: Link先を確認
Yilin Wang, Shaozuo Yu, Xiaokang Yang, Wei Shen(参考訳) 本稿では,CNN(Convlutional Neural Networks)を高い分類精度を維持しつつ解釈可能にする汎用モデル転送方式を提案する。 We achieve this by building a differentiable decision forest on top of CNNs, which enjoys two characteristics: 1) During training, the tree hierarchies of the forest are learned in a top-down manner under the guidance from the category semantics embedded in the pre-trained CNN weights; 2) During inference, a single decision tree is dynamically selected from the forest for each input sample, enabling the transferred model to make sequential decisions corresponding to the attributes shared by semantically-similar categories, rather than directly performing flat classification. 我々は、転送モデルディープダイナミックシーケンシャル決定フォレスト(ddsdf)と命名する。 実験の結果,ddsdfはコナターパート,すなわち元のcnnよりも高い分類精度を達成できるだけでなく,質的にも正確な階層構造を有し,定量的により正確な塩分マップを導出することが明らかとなった。

In this paper, we propose a generic model transfer scheme to make Convlutional Neural Networks (CNNs) interpretable, while maintaining their high classification accuracy. We achieve this by building a differentiable decision forest on top of CNNs, which enjoys two characteristics: 1) During training, the tree hierarchies of the forest are learned in a top-down manner under the guidance from the category semantics embedded in the pre-trained CNN weights; 2) During inference, a single decision tree is dynamically selected from the forest for each input sample, enabling the transferred model to make sequential decisions corresponding to the attributes shared by semantically-similar categories, rather than directly performing flat classification. We name the transferred model deep Dynamic Sequential Decision Forest (dDSDF). Experimental results show that dDSDF not only achieves higher classification accuracy than its conuterpart, i.e., the original CNN, but has much better interpretability, as qualitatively it has plausible hierarchies and quantitatively it leads to more precise saliency maps.
翻訳日:2021-06-08 18:09:56 公開日:2021-06-05
# 適応的・進行的特徴アライメントによる半監督的ドメイン適応

Semi-Supervised Domain Adaptation via Adaptive and Progressive Feature Alignment ( http://arxiv.org/abs/2106.02845v1 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu(参考訳) 現代のドメイン適応セマンティックセグメンテーションは、対象ドメインが完全に無注釈であると仮定することで、データアノテーションの課題に対処することを目的としている。 しかしながら、いくつかのターゲットサンプルを注釈付けすることは、特に適応性能を大幅に向上させる場合、通常は非常に管理可能で価値のあるものである。 本稿では,ラベル付きソースサンプルとラベル付きターゲットサンプル間の適応的・進行的特徴アライメントのためのアンカーとして,ラベル付きターゲットサンプルを用いるセミスーパーバイズドドメイン適応画像セグメンテーションネットワークであるSSDASを提案する。 少数のラベル付きターゲットサンプルを、ソース特徴とターゲット特徴の類似性を測定し、より類似したソース特徴を学習するための適応的ドメイン間アライメントをガイドする参照として位置付ける。 さらに,信頼度と信頼度の低い特徴の段階的なドメイン内アライメントを実現するために,反復的トレーニングプロセス中に,異なるソース特徴を高い信頼度目標機能に置き換える。 広範な実験により、提案されたSSDASは、UDAベースのセマンティックセグメンテーションやSSDAベースの画像分類など、多くのベースラインを大幅に上回っている。 さらにSSDASは相補的であり、ドメイン適応セマンティックセマンティックセグメンテーションを一貫して改善したUDAベースのメソッドに容易に組み込むことができる。

Contemporary domain adaptive semantic segmentation aims to address data annotation challenges by assuming that target domains are completely unannotated. However, annotating a few target samples is usually very manageable and worthwhile especially if it improves the adaptation performance substantially. This paper presents SSDAS, a Semi-Supervised Domain Adaptive image Segmentation network that employs a few labeled target samples as anchors for adaptive and progressive feature alignment between labeled source samples and unlabeled target samples. We position the few labeled target samples as references that gauge the similarity between source and target features and guide adaptive inter-domain alignment for learning more similar source features. In addition, we replace the dissimilar source features by high-confidence target features continuously during the iterative training process, which achieves progressive intra-domain alignment between confident and unconfident target features. Extensive experiments show the proposed SSDAS greatly outperforms a number of baselines, i.e., UDA-based semantic segmentation and SSDA-based image classification. In addition, SSDAS is complementary and can be easily incorporated into UDA-based methods with consistent improvements in domain adaptive semantic segmentation.
翻訳日:2021-06-08 18:09:39 公開日:2021-06-05
# 画像調和のための領域対応適応インスタンス正規化

Region-aware Adaptive Instance Normalization for Image Harmonization ( http://arxiv.org/abs/2106.02853v1 )

ライセンス: Link先を確認
Jun Ling, Han Xue, Li Song, Rong Xie and Xiao Gu(参考訳) 画像合成は写真編集において一般的なが重要な役割を果たす。 フォトリアリスティックな合成画像を得るためには、背景と互換性のある前景の外観と視覚スタイルを調整する必要がある。 合成画像の調和のための既存のディープラーニング手法は、背景画像と前景画像との視覚的スタイルの整合性を明確に調べることなく、合成画像から実画像への画像マッピングネットワークを直接学習する。 本稿では,前景と背景の視覚的スタイルの整合性を確保するために,画像調和をスタイル伝達問題として扱う。 特に,背景から視覚的スタイルを明確に定式化し,前景に適応的に適用する,シンプルで効果的な領域対応型適応型インスタンス正規化(RAIN)モジュールを提案する。 当社の設定では、rainモジュールを既存のイメージ調和ネットワークのドロップインモジュールとして使用することで、大幅な改善を実現しています。 既存の画像調和ベンチマークデータセットに対する大規模な実験により,提案手法の優れた性能を示した。 コードは、https://github.com/j unleen/RainNet}で入手できる。

Image composition plays a common but important role in photo editing. To acquire photo-realistic composite images, one must adjust the appearance and visual style of the foreground to be compatible with the background. Existing deep learning methods for harmonizing composite images directly learn an image mapping network from the composite to the real one, without explicit exploration on visual style consistency between the background and the foreground images. To ensure the visual style consistency between the foreground and the background, in this paper, we treat image harmonization as a style transfer problem. In particular, we propose a simple yet effective Region-aware Adaptive Instance Normalization (RAIN) module, which explicitly formulates the visual style from the background and adaptively applies them to the foreground. With our settings, our RAIN module can be used as a drop-in module for existing image harmonization networks and is able to bring significant improvements. Extensive experiments on the existing image harmonization benchmark datasets show the superior capability of the proposed method. Code is available at {https://github.com/j unleen/RainNet}.
翻訳日:2021-06-08 18:09:19 公開日:2021-06-05
# RDA:Fourier Adversarial Attackingによるロバストドメイン適応

RDA: Robust Domain Adaptation via Fourier Adversarial Attacking ( http://arxiv.org/abs/2106.02874v1 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu(参考訳) 教師なしドメイン適応(Unsupervised domain adapt、UDA)は、ラベル付きソースドメインの教師なしの損失と、ラベル付きターゲットドメインの教師なしの損失を伴う。 本稿では,UDAにおけるオーバーフィッティングを軽減するために,対角攻撃を導入した堅牢なドメイン適応手法であるRDAを提案する。 フーリエ対向攻撃法(FAA)により,摂動雑音の大規模化を可能にするが,画像意味論の最小限の修正が可能であり,前者は「領域ギャップ」の存在により生成した対向サンプルの有効性に批判的である。 具体的には、FAAは画像を複数の周波数成分(FC)に分解し、セマンティック情報をほとんど取得しない特定のFCを摂動させることで、敵対的なサンプルを生成する。 FAAが作成したサンプルでは、トレーニングは「ランダムウォーク」を続け、平らなロスランドスケープのある地域に漂流し、より堅牢なドメイン適応をもたらす。 複数のドメイン適応タスクに対する大規模な実験は、RDAがより優れた性能で異なるコンピュータビジョンタスクで動作することを示す。

Unsupervised domain adaptation (UDA) involves a supervised loss in a labeled source domain and an unsupervised loss in an unlabeled target domain, which often faces more severe overfitting (than classical supervised learning) as the supervised source loss has clear domain gap and the unsupervised target loss is often noisy due to the lack of annotations. This paper presents RDA, a robust domain adaptation technique that introduces adversarial attacking to mitigate overfitting in UDA. We achieve robust domain adaptation by a novel Fourier adversarial attacking (FAA) method that allows large magnitude of perturbation noises but has minimal modification of image semantics, the former is critical to the effectiveness of its generated adversarial samples due to the existence of 'domain gaps'. Specifically, FAA decomposes images into multiple frequency components (FCs) and generates adversarial samples by just perturbating certain FCs that capture little semantic information. With FAA-generated samples, the training can continue the 'random walk' and drift into an area with a flat loss landscape, leading to more robust domain adaptation. Extensive experiments over multiple domain adaptation tasks show that RDA can work with different computer vision tasks with superior performance.
翻訳日:2021-06-08 18:09:02 公開日:2021-06-05
# 視覚タスクにおける教師なし領域適応のためのカテゴリコントラスト

Category Contrast for Unsupervised Domain Adaptation in Visual Tasks ( http://arxiv.org/abs/2106.02885v1 )

ライセンス: Link先を確認
Jiaxing Huang, Dayan Guan, Aoran Xiao, Shijian Lu(参考訳) 教師なし表現学習のインスタンスコントラストは近年大きな成功を収めている。 本研究では、教師なしドメイン適応(UDA)におけるインスタンスコントラスト学習の考え方を探求し、視覚的 UDA タスクのインスタンス識別に先立ってセマンティックな先行性を導入する新しいカテゴリコントラスト手法(CaCo)を提案する。 辞書検索操作としてインスタンスのコントラスト学習を考慮し、各対象サンプルにソースサンプルのカテゴリ優先に基づいて(pseudo)カテゴリラベルが割り当てられるソースとターゲットドメインの両方のサンプルを用いた意味認識辞書を構築する。 これにより、カテゴリ識別的かつドメイン不変な特徴表現に対して、カテゴリの対照的な学習(ターゲットクエリとカテゴリレベルの辞書)が可能になる:同じカテゴリ(ソースまたはターゲットドメインから)のサンプルは、異なるカテゴリのサンプルが同時に分割される間に、より深く引き出される。 複数の視覚的タスク(例えば、セグメンテーション、分類、検出)における広範囲なUDA実験は、CaCoの単純な実装は、高度に最適化された最先端の手法と比較して優れた性能を発揮することを示している。 分析的および実証的に、実験はcacoが既存のuda法を補完し、半教師付き学習、教師なしモデル適応など他の学習設定に一般化できることも示している。

Instance contrast for unsupervised representation learning has achieved great success in recent years. In this work, we explore the idea of instance contrastive learning in unsupervised domain adaptation (UDA) and propose a novel Category Contrast technique (CaCo) that introduces semantic priors on top of instance discrimination for visual UDA tasks. By considering instance contrastive learning as a dictionary look-up operation, we construct a semantics-aware dictionary with samples from both source and target domains where each target sample is assigned a (pseudo) category label based on the category priors of source samples. This allows category contrastive learning (between target queries and the category-level dictionary) for category-discriminat ive yet domain-invariant feature representations: samples of the same category (from either source or target domain) are pulled closer while those of different categories are pushed apart simultaneously. Extensive UDA experiments in multiple visual tasks ($e.g.$, segmentation, classification and detection) show that the simple implementation of CaCo achieves superior performance as compared with the highly-optimized state-of-the-art methods. Analytically and empirically, the experiments also demonstrate that CaCo is complementary to existing UDA methods and generalizable to other learning setups such as semi-supervised learning, unsupervised model adaptation, etc.
翻訳日:2021-06-08 18:08:38 公開日:2021-06-05
# 動的分解能ネットワーク

Dynamic Resolution Network ( http://arxiv.org/abs/2106.02898v1 )

ライセンス: Link先を確認
Mingjian Zhu, Kai Han, Enhua Wu, Qiulin Zhang, Ying Nie, Zhenzhong Lan, Yunhe Wang(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural network, cnns)は、多くの畳み込み層と学習可能なパラメータを持つ、精度の高い設計であることが多い。 モバイルデバイスにデプロイするコストを軽減するために、最近の作業は、事前定義されたアーキテクチャの冗長性を掘り下げるために多大な努力をしてきた。 それでも、現代のCNNの入力解像度の冗長性は十分に研究されておらず、すなわち、入力画像の解像度が固定されている。 本稿では,与えられた画像を正確に予測する最小の解像度が,同じニューラルネットワークを用いて異なることを観察する。 そこで本研究では,各サンプルに基づいて動的に解像度を決定できる新しい動的分解能ネットワーク(DRNet)を提案する。 このように、計算コストが無視される分解能予測器を探索し、所望のネットワークと共同で最適化する。 実際、予測器は、各画像に対する元の認識精度を保ち、さらに超えうる最小の解像度を学習する。 推論中、各入力画像は予測された解像度にリサイズされ、全体の計算負担を最小化する。 次に、いくつかのベンチマークネットワークとデータセットで広範な実験を行う。 その結果,我々のDRNetを市販のネットワークアーキテクチャに組み込むことで,計算複雑性を大幅に低減できることがわかった。 例えば、drnetは34%の減算で同様の性能を達成し、imagenetのresnet-50と比較して10%の減算で1.4%の精度向上を達成している。

Deep convolutional neural networks (CNNs) are often of sophisticated design with numerous convolutional layers and learnable parameters for the accuracy reason. To alleviate the expensive costs of deploying them on mobile devices, recent works have made huge efforts for excavating redundancy in pre-defined architectures. Nevertheless, the redundancy on the input resolution of modern CNNs has not been fully investigated, i.e., the resolution of input image is fixed. In this paper, we observe that the smallest resolution for accurately predicting the given image is different using the same neural network. To this end, we propose a novel dynamic-resolution network (DRNet) in which the resolution is determined dynamically based on each input sample. Thus, a resolution predictor with negligible computational costs is explored and optimized jointly with the desired network. In practice, the predictor learns the smallest resolution that can retain and even exceed the original recognition accuracy for each image. During the inference, each input image will be resized to its predicted resolution for minimizing the overall computation burden. We then conduct extensive experiments on several benchmark networks and datasets. The results show that our DRNet can be embedded in any off-the-shelf network architecture to obtain a considerable reduction in computational complexity. For instance, DRNet achieves similar performance with an about 34% computation reduction, while gains 1.4% accuracy increase with 10% computation reduction compared to the original ResNet-50 on ImageNet.
翻訳日:2021-06-08 18:08:16 公開日:2021-06-05
# 拡散に基づく生成モデルとスコアマッチングに関する変分的視点

A Variational Perspective on Diffusion-Based Generative Models and Score Matching ( http://arxiv.org/abs/2106.02808v1 )

ライセンス: Link先を確認
Chin-Wei Huang, Jae Hyun Lim, Aaron Courville(参考訳) 離散時間拡散に基づく生成モデルとスコアマッチング法は高次元画像データのモデリングにおいて有望な結果を示している。 最近、song et al。 (2021)は、スコア関数を学習することで、データをノイズに変換する拡散過程を逆転させることができることを示す。 摂動データの対数密度の勾配。 彼らは生成拡散過程を定義するために学習スコア関数を逆公式につなぐことを提案する。 経験的な成功にもかかわらず、この手順の理論的基盤はまだ不足している。 本研究では,(連続時間)生成的拡散に直接アプローチし,連続時間正規化フローを特別な場合として含む確率推定のための変分フレームワークを導出し,無限大の変分オートエンコーダと見なすことができる。 この枠組みでは,Songらによって提案されたプラグイン逆SDEの確率の低い境界を最大化することと,スコアマッチング損失の最小化が等価であることを示す。 (2021年) 理論上のギャップを埋める。

Discrete-time diffusion-based generative models and score matching methods have shown promising results in modeling high-dimensional image data. Recently, Song et al. (2021) show that diffusion processes that transform data into noise can be reversed via learning the score function, i.e. the gradient of the log-density of the perturbed data. They propose to plug the learned score function into an inverse formula to define a generative diffusion process. Despite the empirical success, a theoretical underpinning of this procedure is still lacking. In this work, we approach the (continuous-time) generative diffusion directly and derive a variational framework for likelihood estimation, which includes continuous-time normalizing flows as a special case, and can be seen as an infinitely deep variational autoencoder. Under this framework, we show that minimizing the score-matching loss is equivalent to maximizing a lower bound of the likelihood of the plug-in reverse SDE proposed by Song et al. (2021), bridging the theoretical gap.
翻訳日:2021-06-08 17:56:17 公開日:2021-06-05
# 条件付きコントラスト学習:自己教師付き表現における望ましくない情報除去

Conditional Contrastive Learning: Removing Undesirable Information in Self-Supervised Representations ( http://arxiv.org/abs/2106.02866v1 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Martin Q. Ma, Han Zhao, Kun Zhang, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 自己教師学習は、データ中の豊富な情報を利用して表現を学習する教師なし学習の一種である。 しかし、データはダウンストリームタスクでは望ましくない情報を含むことがある。 例えば、性別情報は、多くの性別関連タスクにおいて偏りのある決定につながる可能性がある。 本稿では,自己教師型表現における望ましくない情報を除去する条件付きコントラスト学習を開発する。 好ましくない変数の効果を除去するため,提案手法は学習過程において望ましくない変数(すなわち,その変動を固定することにより)にアプローチする。 特に、比較対象InfoNCEにヒントを得て、条件付きコントラスト学習のための条件付きInfoNCE(C-InfoNCE)とその計算効率の良い変種Weak-ConditionalInfo NCE(WeaC-InfoNCE)を紹介する。 我々は,提案手法が下流タスクの自己教師あり表現を学習し,好ましくない変数に関連する膨大なレベルの情報を除去できることを実証的に示す。 それぞれが望ましくない変数を持つ3つのシナリオについて検討した: 自己教師付き音声表現学習のためのタスク非関連メタ情報、公正表現学習のための繊細な属性、多領域視覚表現学習のためのドメイン仕様。

Self-supervised learning is a form of unsupervised learning that leverages rich information in data to learn representations. However, data sometimes contains certain information that may be undesirable for downstream tasks. For instance, gender information may lead to biased decisions on many gender-irrelevant tasks. In this paper, we develop conditional contrastive learning to remove undesirable information in self-supervised representations. To remove the effect of the undesirable variable, our proposed approach conditions on the undesirable variable (i.e., by fixing the variations of it) during the contrastive learning process. In particular, inspired by the contrastive objective InfoNCE, we introduce Conditional InfoNCE (C-InfoNCE), and its computationally efficient variant, Weak-Conditional InfoNCE (WeaC-InfoNCE), for conditional contrastive learning. We demonstrate empirically that our methods can successfully learn self-supervised representations for downstream tasks while removing a great level of information related to the undesirable variables. We study three scenarios, each with a different type of undesirable variables: task-irrelevant meta-information for self-supervised speech representation learning, sensitive attributes for fair representation learning, and domain specification for multi-domain visual representation learning.
翻訳日:2021-06-08 17:56:04 公開日:2021-06-05
# データ多様性によるアンサンブルディフェンス:弱相関は強いロバスト性を引き起こす

Ensemble Defense with Data Diversity: Weak Correlation Implies Strong Robustness ( http://arxiv.org/abs/2106.02867v1 )

ライセンス: Link先を確認
Renjue Li, Hanwei Zhang, Pengfei Yang, Cheng-Chao Huang, Aimin Zhou, Bai Xue, Lijun Zhang(参考訳) 本稿では,DNN(Deep Neuralnetworks)のフィルタに基づくアンサンブルの枠組みを提案する。 フレームワークはサブモデルのアンサンブル(DNNと差別化された前処理フィルタ)を構築する。 dnnのロバスト性に関する理論的観点からは、フィルタの高品質という仮定の下では、フィルタの感度の相関性が弱いほど、アンサンブルモデルの方が頑健になりがちであり、これは転送ベースの攻撃の実験によって裏付けられていると論じている。 そこで本研究では, DNNが受信した入力の多様性を保証し, 攻撃に対するフレームワーク全体の有効性を確保するため, ピアソン相関係数が小さい特定のフィルタを選択する原理を提案する。 我々のアンサンブルモデルは、敵の訓練のような従来の防衛方法よりも堅牢であり、攻撃半径が大きい場合、敵の訓練されたDNNの古典的なアンサンブルと競合する。

In this paper, we propose a framework of filter-based ensemble of deep neuralnetworks (DNNs) to defend against adversarial attacks. The framework builds an ensemble of sub-models -- DNNs with differentiated preprocessing filters. From the theoretical perspective of DNN robustness, we argue that under the assumption of high quality of the filters, the weaker the correlations of the sensitivity of the filters are, the more robust the ensemble model tends to be, and this is corroborated by the experiments of transfer-based attacks. Correspondingly, we propose a principle that chooses the specific filters with smaller Pearson correlation coefficients, which ensures the diversity of the inputs received by DNNs, as well as the effectiveness of the entire framework against attacks. Our ensemble models are more robust than those constructed by previous defense methods like adversarial training, and even competitive with the classical ensemble of adversarial trained DNNs under adversarial attacks when the attacking radius is large.
翻訳日:2021-06-08 17:55:43 公開日:2021-06-05
# 自己教師付き学習における補助情報の統合

Integrating Auxiliary Information in Self-supervised Learning ( http://arxiv.org/abs/2106.02869v1 )

ライセンス: Link先を確認
Yao-Hung Hubert Tsai, Tianqin Li, Weixin Liu, Peiyuan Liao, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 本稿では,自己教師型学習プロセスにおいて補助情報(例えば,Instagram画像のハッシュタグなどのデータに対する付加属性)を統合する。 例えば、同じハッシュタグを持つinstagramの画像は、意味的に類似している可能性がある。 したがって、補助情報からの構造情報を活用するために、補助情報に従ってデータクラスタを構築する。 次に、同一クラスタから拡張されたデータの類似表現と、異なるクラスタからのデータの異種表現を学習するCl-InfoNCE(Cl-InfoNC E)の目的を紹介する。 Our approach contributes as follows: 1) Comparing to conventional self-supervised representations, the auxiliary-informatio n-infused self-supervised representations bring the performance closer to the supervised representations; 2) The presented Cl-InfoNCE can also work with unsupervised constructed clusters (e.g., k-means clusters) and outperform strong clustering-based self-supervised learning approaches, such as the Prototypical Contrastive Learning (PCL) method; 3) We show that Cl-InfoNCE may be a better approach to leverage the data clustering information, by comparing it to the baseline approach - learning to predict the clustering assignments with cross-entropy loss. 解析のために,学習した表現の良さと統計的関係を結びつける:i)ラベルとクラスタ間の相互情報,i)ラベルが与えられたクラスタの条件エントロピー。

This paper presents to integrate the auxiliary information (e.g., additional attributes for data such as the hashtags for Instagram images) in the self-supervised learning process. We first observe that the auxiliary information may bring us useful information about data structures: for instance, the Instagram images with the same hashtags can be semantically similar. Hence, to leverage the structural information from the auxiliary information, we present to construct data clusters according to the auxiliary information. Then, we introduce the Clustering InfoNCE (Cl-InfoNCE) objective that learns similar representations for augmented variants of data from the same cluster and dissimilar representations for data from different clusters. Our approach contributes as follows: 1) Comparing to conventional self-supervised representations, the auxiliary-informatio n-infused self-supervised representations bring the performance closer to the supervised representations; 2) The presented Cl-InfoNCE can also work with unsupervised constructed clusters (e.g., k-means clusters) and outperform strong clustering-based self-supervised learning approaches, such as the Prototypical Contrastive Learning (PCL) method; 3) We show that Cl-InfoNCE may be a better approach to leverage the data clustering information, by comparing it to the baseline approach - learning to predict the clustering assignments with cross-entropy loss. For analysis, we connect the goodness of the learned representations with the statistical relationships: i) the mutual information between the labels and the clusters and ii) the conditional entropy of the clusters given the labels.
翻訳日:2021-06-08 17:55:25 公開日:2021-06-05
# ネットワーク観測データを用いた治療効果推定のためのgraph infomaxadversarial learning

Graph Infomax Adversarial Learning for Treatment Effect Estimation with Networked Observational Data ( http://arxiv.org/abs/2106.02881v1 )

ライセンス: Link先を確認
Zhixuan Chu, Stephen L. Rathbun, Sheng Li(参考訳) 観察データによる治療効果の推定は、多くの分野にわたる重要な研究課題である。 治療効果の推定における最も大きな課題は、どのように隠れた共同ファウンダーを捕らえるかである。 近年,ネットワーク化された観測データの利用が増加し,隠れた共同設立者の問題に対処する新たな機会が生まれている。 ノード分類やリンク検出などの従来のグラフ学習タスクにおけるネットワークデータとは異なり、因果推論問題に基づくネットワークデータは、その特異性、すなわち不均衡なネットワーク構造を持つ。 本稿では,ネットワーク構造を十分に活用し,ネットワーク構造の不均衡を認識し,より多くの情報をキャプチャする,治療効果推定のためのグラフインフォマックスadversarial learning(gial)モデルを提案する。 我々は,GIALモデルの性能を2つのベンチマークデータセットで評価し,その結果が最先端手法よりも優れていることを示す。

Treatment effect estimation from observational data is a critical research topic across many domains. The foremost challenge in treatment effect estimation is how to capture hidden confounders. Recently, the growing availability of networked observational data offers a new opportunity to deal with the issue of hidden confounders. Unlike networked data in traditional graph learning tasks, such as node classification and link detection, the networked data under the causal inference problem has its particularity, i.e., imbalanced network structure. In this paper, we propose a Graph Infomax Adversarial Learning (GIAL) model for treatment effect estimation, which makes full use of the network structure to capture more information by recognizing the imbalance in network structure. We evaluate the performance of our GIAL model on two benchmark datasets, and the results demonstrate superiority over the state-of-the-art methods.
翻訳日:2021-06-08 17:55:03 公開日:2021-06-05
# 文脈認識スパースディープコーディネーショングラフ

Context-Aware Sparse Deep Coordination Graphs ( http://arxiv.org/abs/2106.02886v1 )

ライセンス: Link先を確認
Tonghan Wang, Liang Zeng, Weijun Dong, Qianlan Yang, Yang Yu, Chongjie Zhang(参考訳) エージェント間の協調力学に適応するスパース調整グラフの学習は、協調マルチエージェント学習における長年の問題である。 本稿では、動的トポロジを学習し、それらを新しいマルチエージェントコーディネート(MACO)ベンチマークで評価するための値ベースおよび観測ベースのスキームを提案する。 ベンチマークは文学における古典的な調整問題を収集し、困難度を高め、それらを異なるタイプに分類する。 問題の種類ごとの学習手法の個々の利点と全体的な性能を解析することにより、実用差関数の分散を利用したコンテキスト対応のスパース調整トポロジの学習手法を提案する。 さらに,提案手法は,実用関数の推定誤差がグラフ構築に与える影響を効果的に低減する動作表現を学習する。 実験の結果,本手法はMACOおよびStarCraft IIマイクロマネジメントベンチマークにおいて,密度および静的トポロジを著しく上回ることがわかった。

Learning sparse coordination graphs adaptive to the coordination dynamics among agents is a long-standing problem in cooperative multi-agent learning. This paper studies this problem by proposing several value-based and observation-based schemes for learning dynamic topologies and evaluating them on a new Multi-Agent COordination (MACO) benchmark. The benchmark collects classic coordination problems in the literature, increases their difficulty, and classifies them into different types. By analyzing the individual advantages of each learning scheme on each type of problem and their overall performance, we propose a novel method using the variance of utility difference functions to learn context-aware sparse coordination topologies. Moreover, our method learns action representations that effectively reduce the influence of utility functions' estimation errors on graph construction. Experiments show that our method significantly outperforms dense and static topologies across the MACO and StarCraft II micromanagement benchmark.
翻訳日:2021-06-08 17:54:50 公開日:2021-06-05
# 深層学習モデルのためのテンソル師範訓練

Tensor Normal Training for Deep Learning Models ( http://arxiv.org/abs/2106.02925v1 )

ライセンス: Link先を確認
Yi Ren, Donald Goldfarb(参考訳) 深層学習モデルの訓練に一階述語法が主流であるにもかかわらず、二階述語法、特に自然勾配法は、曲率情報を用いて訓練を加速する可能性から興味を引いている。 KFACやシャンプーなど,非対角的プレコンディショニング行列を用いたいくつかの手法が提案され,有効であることが示されている。 いわゆるテンソル正規化(tn)分布に基づき、シャンプーと同様にトレーニングパラメータの形状に関する知識のみを必要とする新しい近似自然勾配法であるテンソル正規化訓練(tnt)を提案し、解析する。 経験的なフィッシャー行列とは対照的に,確率ベースフィッシャー行列を近似することにより,サンプリングベース勾配の層間共分散をプレコンディショニング行列として用いる。 さらに、サンプリングベース(テンソル)勾配がtn分布に従うという仮定は、その共分散がクロネッカー分離可能な構造を持つことを保証し、フィッシャー行列への移動可能な近似をもたらす。 したがって、TNTのメモリ要件と1次計算コストは1次法よりもわずかに高い。 実験では,KFACやシャンプー,最先端の1次法に優れた最適化性能を示した。 さらに、TNTは、より少ないエポックを用いて、これらの一階法と同様に一般化する能力を示した。

Despite the predominant use of first-order methods for training deep learning models, second-order methods, and in particular, natural gradient methods, remain of interest because of their potential for accelerating training through the use of curvature information. Several methods with non-diagonal preconditioning matrices, including KFAC and Shampoo, have been proposed and shown to be effective. Based on the so-called tensor normal (TN) distribution, we propose and analyze a brand new approximate natural gradient method, Tensor Normal Training (TNT), which like Shampoo, only requires knowledge on the shape of the training parameters. By approximating the probabilistically based Fisher matrix, as opposed to the empirical Fisher matrix, our method uses the layer-wise covariance of the sampling based gradient as the pre-conditioning matrix. Moreover, the assumption that the sampling-based (tensor) gradient follows a TN distribution, ensures that its covariance has a Kronecker separable structure, which leads to a tractable approximation to the Fisher matrix. Consequently, TNT's memory requirements and per-iteration computational costs are only slightly higher than those for first-order methods. In our experiments, TNT exhibited superior optimization performance to KFAC and Shampoo, and to state-of-the-art first-order methods. Moreover, TNT demonstrated its ability to generalize as well as these first-order methods, using fewer epochs.
翻訳日:2021-06-08 17:54:33 公開日:2021-06-05
# 協調ゲームのためのエネルギーベース学習と特徴/データ/モデル評価への応用

Energy-Based Learning for Cooperative Games, with Applications to Feature/Data/Model Valuations ( http://arxiv.org/abs/2106.02938v1 )

ライセンス: Link先を確認
Yatao Bian, Yu Rong, Tingyang Xu, Jiaxiang Wu, Andreas Krause, Junzhou Huang(参考訳) 属性ベースの特徴解釈、データアセスメント、アンサンブルのモデルアセスメントといった評価問題は、多くの機械学習アプリケーションにおいてますます重要になっている。 このような問題は、Shapley値やBanzhaf indexのようなよく知られたゲーム理論の基準によってよく解決される。 本稿では,最大エントロピー枠組みによる理論的正当性を持つ協調ゲームのための新しいエネルギーベース処理を提案する。 驚くべきことに、エネルギーベースモデルの変動推定を行うことで、平均場ELBO目標を最大化するための1段階勾配上昇を実行することで、Shapley値やBanzhafインデックスなどの様々なゲーム理論評価基準を回復する。 この観察は、すべて平均場アプローチを通じてプレイヤー間の相関を分離しようとするため、既存の基準の合理性も検証する。 複数のステップで勾配上昇を行うことで、バリュエーションの軌跡が達成され、そのうち、最良の予想可能なデカップリング誤差を変分指標として評価する。 提案する変分指数は,特定の合成および実世界の評価問題において興味深い特性を享受することを示した。

Valuation problems, such as attribution-based feature interpretation, data valuation and model valuation for ensembles, become increasingly more important in many machine learning applications. Such problems are commonly solved by well-known game-theoretic criteria, such as Shapley value or Banzhaf index. In this work, we present a novel energy-based treatment for cooperative games, with a theoretical justification by the maximum entropy framework. Surprisingly, by conducting variational inference of the energy-based model, we recover various game-theoretic valuation criteria, such as Shapley value and Banzhaf index, through conducting one-step gradient ascent for maximizing the mean-field ELBO objective. This observation also verifies the rationality of existing criteria, as they are all trying to decouple the correlations among the players through the mean-field approach. By running gradient ascent for multiple steps, we achieve a trajectory of the valuations, among which we define the valuation with the best conceivable decoupling error as the Variational Index. We experimentally demonstrate that the proposed Variational Index enjoys intriguing properties on certain synthetic and real-world valuation problems.
翻訳日:2021-06-08 17:54:11 公開日:2021-06-05
# 効果的なオフポリティ強化学習のためのルーチン学習

Learning Routines for Effective Off-Policy Reinforcement Learning ( http://arxiv.org/abs/2106.02943v1 )

ライセンス: Link先を確認
Edoardo Cetin, Oya Celiktutan(参考訳) 強化学習の性能は適切な行動空間を設計することに依存し、各行動の効果は測定可能であるが、柔軟な振る舞いを許容するのに十分な粒度である。 これまでのところ、このプロセスには利用可能なアクションとその実行頻度という観点で、非自明なユーザ選択が必要でした。 このような制約を効果的に解消する強化学習のための新しい枠組みを提案する。 我々のフレームワーク内では、エージェントはルーチン空間上の効果的な振る舞いを学ぶ: 任意の長さの粒度の「等価」なアクションの集合を表す新しい高レベルなアクション空間。 我々の日常空間は、政治以外の強化学習の目的を達成するために、エンドツーエンドで学習される。 筆者らのフレームワークを2つの最先端のオフポリシーアルゴリズムに適用し,各エピソードごとの環境との相互作用を少なくし,計算効率を向上し,関連する性能改善が得られることを示す。

The performance of reinforcement learning depends upon designing an appropriate action space, where the effect of each action is measurable, yet, granular enough to permit flexible behavior. So far, this process involved non-trivial user choices in terms of the available actions and their execution frequency. We propose a novel framework for reinforcement learning that effectively lifts such constraints. Within our framework, agents learn effective behavior over a routine space: a new, higher-level action space, where each routine represents a set of 'equivalent' sequences of granular actions with arbitrary length. Our routine space is learned end-to-end to facilitate the accomplishment of underlying off-policy reinforcement learning objectives. We apply our framework to two state-of-the-art off-policy algorithms and show that the resulting agents obtain relevant performance improvements while requiring fewer interactions with the environment per episode, improving computational efficiency.
翻訳日:2021-06-08 17:53:49 公開日:2021-06-05
# 機械システムの予測と制御のための強制変分積分器ネットワーク

Forced Variational Integrator Networks for Prediction and Control of Mechanical Systems ( http://arxiv.org/abs/2106.02973v1 )

ライセンス: Link先を確認
Aaron Havens and Girish Chowdhary(参考訳) 深層学習が現実の物理システムの予測と制御に普及するにつれて、これらの過度パラメータ化モデルは物理的に妥当な力学と整合することが重要である。 これは、学習問題の複雑さを減らし、より信頼性の高い予測を与えるために、既知の物理的パラメータと原則を通じてモデルにどの程度の誘導バイアスを課すかという問題を引き起こす。 近年の研究では、ニューラルネットワークアーキテクチャとしてパラメータ化された離散変動積分器を用いて、保守的なラグランジアン系を学習している。 学習されたモデルは、ごくわずかな軌道からシステムのグローバルなエネルギー保存特性を捕捉し、強制する。 しかし、ほとんどの実システムは本質的に保守的ではなく、実際にはアクチュエーションも適用したいです。 本稿では、このパラダイムを一般的な強制(例)に拡張する。 制御入力と減衰) 離散ダレムベルトの原理により、最終的には制御用途に使用される。 この強制的変動インテグレータネットワーク(FVIN)アーキテクチャは、真のエネルギーベースの受動力学を捕捉しながら、エネルギーの散逸と外部強制を正確に説明できることを示す。 アプリケーションでは、これは高データ効率のモデルベース制御となり、実際の非保守システムで予測できることを示す。

As deep learning becomes more prevalent for prediction and control of real physical systems, it is important that these overparameterized models are consistent with physically plausible dynamics. This elicits a problem with how much inductive bias to impose on the model through known physical parameters and principles to reduce complexity of the learning problem to give us more reliable predictions. Recent work employs discrete variational integrators parameterized as a neural network architecture to learn conservative Lagrangian systems. The learned model captures and enforces global energy preserving properties of the system from very few trajectories. However, most real systems are inherently non-conservative and, in practice, we would also like to apply actuation. In this paper we extend this paradigm to account for general forcing (e.g. control input and damping) via discrete d'Alembert's principle which may ultimately be used for control applications. We show that this forced variational integrator networks (FVIN) architecture allows us to accurately account for energy dissipation and external forcing while still capturing the true underlying energy-based passive dynamics. We show that in application this can result in highly-data efficient model-based control and can predict on real non-conservative systems.
翻訳日:2021-06-08 17:53:35 公開日:2021-06-05
# 確率的運動量でサドルポイントを速く逃がす

Escaping Saddle Points Faster with Stochastic Momentum ( http://arxiv.org/abs/2106.02985v1 )

ライセンス: Link先を確認
Jun-Kun Wang and Chi-Heng Lin and Jacob Abernethy(参考訳) 確率運動量を持つ確率勾配降下(SGD)は、非凸確率最適化、特にディープニューラルネットワークの訓練に人気がある。 標準的なsgdでは、‘momentum’'項の追加が前のパラメータの変更の方向に更新を偏らせるような例のバッチで、現在の反復の勾配の経路に沿って改善することでパラメータを更新する。 非確率凸最適化では、運動量調整が多くの設定で収束時間を大幅に減少させるが、そのような結果は確率的および非凸的な設定では明らかである。 同時に、広く観測されている経験的現象は、ディープネットワーク確率運動量のトレーニングにおいて、収束時間を大幅に改善しているように見えるが、その変種は、例えば他の一般的な更新方法の開発で栄えている。 ADAM [KB15]、AMSGrad [RKK18]など。 しかし、確率運動量の使用に関する理論的正当性は、重要なオープンな問題のままである。 本稿では,SGDがサドル点を高速に回避するため,より高速に第2次定常点を見つけるため,確率運動量により深層ネットワークトレーニングが向上する,という回答を提案する。 我々の理論結果は、どのように理想的な運動量パラメータを選択するかという関連する問題にも光を当てている。 また,これらの結論をさらに検証する実験結果を提供する。

Stochastic gradient descent (SGD) with stochastic momentum is popular in nonconvex stochastic optimization and particularly for the training of deep neural networks. In standard SGD, parameters are updated by improving along the path of the gradient at the current iterate on a batch of examples, where the addition of a ``momentum'' term biases the update in the direction of the previous change in parameters. In non-stochastic convex optimization one can show that a momentum adjustment provably reduces convergence time in many settings, yet such results have been elusive in the stochastic and non-convex settings. At the same time, a widely-observed empirical phenomenon is that in training deep networks stochastic momentum appears to significantly improve convergence time, variants of it have flourished in the development of other popular update methods, e.g. ADAM [KB15], AMSGrad [RKK18], etc. Yet theoretical justification for the use of stochastic momentum has remained a significant open question. In this paper we propose an answer: stochastic momentum improves deep network training because it modifies SGD to escape saddle points faster and, consequently, to more quickly find a second order stationary point. Our theoretical results also shed light on the related question of how to choose the ideal momentum parameter--our analysis suggests that $\beta \in [0,1)$ should be large (close to 1), which comports with empirical findings. We also provide experimental findings that further validate these conclusions.
翻訳日:2021-06-08 17:53:16 公開日:2021-06-05
# 即興意思決定のための創造的アークネゴシエーションの評価

Empirically Evaluating Creative Arc Negotiation for Improvisational Decision-making ( http://arxiv.org/abs/2106.02921v1 )

ライセンス: Link先を確認
Mikhail Jacob, Brian Magerko(参考訳) ほとんど制約のない多くの選択肢からの行動選択は即興性と共同創造性に不可欠である。 我々の以前の研究は、この問題を解決するために創造的アーク交渉(すなわち、著者が定義した「創造的アーク」または軌道に従う行動を選択すること)を提案した。 CARNIVALのエージェントアーキテクチャは、ロボット改良サーカスのインストレーションで即興劇場からプロップスゲームをプレイするためのこのアプローチを実証した。 本稿では,CARNIVALによる創造的アークネゴシエーションの経験を,クラウドソーシングによる2つの観察者およびインプロバイザ実験を通じて評価する。 本研究は, ランダム選択ベースラインと比較して, 演出における創造的アークの識別能力と創造的アーク交渉の嗜好に焦点を当てた。 実験の結果,実演の創造的アークの同定に成功していることがわかった。 どちらのグループもエージェントの創造性と論理的一貫性における創造的なアーク交渉を好み、観察者もそれをより楽しんだ。

Action selection from many options with few constraints is crucial for improvisation and co-creativity. Our previous work proposed creative arc negotiation to solve this problem, i.e., selecting actions to follow an author-defined `creative arc' or trajectory over estimates of novelty, unexpectedness, and quality for potential actions. The CARNIVAL agent architecture demonstrated this approach for playing the Props game from improv theatre in the Robot Improv Circus installation. This article evaluates the creative arc negotiation experience with CARNIVAL through two crowdsourced observer studies and one improviser laboratory study. The studies focus on subjects' ability to identify creative arcs in performance and their preference for creative arc negotiation compared to a random selection baseline. Our results show empirically that observers successfully identified creative arcs in performances. Both groups also preferred creative arc negotiation in agent creativity and logical coherence, while observers enjoyed it more too.
翻訳日:2021-06-08 17:44:50 公開日:2021-06-05
# 一般化構造検出のための生成ノード属性ネットワークモデル

A Generative Node-attribute Network Model for Detecting Generalized Structure ( http://arxiv.org/abs/2106.02878v1 )

ライセンス: Link先を確認
Wei Liu and Zhenhai Chang and Caiyan Jia and Yimei Zheng(参考訳) ネットワークに埋め込まれた意味のある構造的規則性を探究することは、ネットワークの構造と機能を理解し解析する鍵となる。 ノード属性情報は、そのような理解と分析を改善するのに役立つ。 しかし、既存の手法のほとんどは、密接な内部接続と疎外接続を持つノードのグループ化など、従来のコミュニティの検出に重点を置いている。 本稿では,ノードの接続挙動と属性の均一性に基づいて,トポロジ情報と属性情報の両方を生成する原理モデル(GNAN)を提案する。 新しいモデルは、コミュニティ構造だけでなく、二部構造、コア・ペリー構造、それらの混合構造といったネットワーク内の他の種類の構造も検出でき、これを総称して一般化構造と呼ぶ。 トポロジ情報とノード属性情報を組み合わせた提案モデルでは,トポロジ情報のみを使用するモデルよりもコミュニティをより正確に検出できる。 属性とコミュニティ間の依存性はモデルによって自動的に学習できるので、有用な情報を含んでいない属性を無視することができる。 予測最大化アルゴリズムを用いてモデルパラメータを推定する。 また,本モデルがコミュニティの意味的解釈に有効であることを示すために,事例研究を行った。 合成と実世界の両方のネットワークの実験は、新しいモデルが他の最先端モデルと競合していることを示している。

Exploring meaningful structural regularities embedded in networks is a key to understanding and analyzing the structure and function of a network. The node-attribute information can help improve such understanding and analysis. However, most of the existing methods focus on detecting traditional communities, i.e., groupings of nodes with dense internal connections and sparse external ones. In this paper, based on the connectivity behavior of nodes and homogeneity of attributes, we propose a principle model (named GNAN), which can generate both topology information and attribute information. The new model can detect not only community structure, but also a range of other types of structure in networks, such as bipartite structure, core-periphery structure, and their mixture structure, which are collectively referred to as generalized structure. The proposed model that combines topological information and node-attribute information can detect communities more accurately than the model that only uses topology information. The dependency between attributes and communities can be automatically learned by our model and thus we can ignore the attributes that do not contain useful information. The model parameters are inferred by using the expectation-maximiza tion algorithm. And a case study is provided to show the ability of our model in the semantic interpretability of communities. Experiments on both synthetic and real-world networks show that the new model is competitive with other state-of-the-art models.
翻訳日:2021-06-08 17:44:12 公開日:2021-06-05
# ビジュアル検索の非対称性:深部ネットと人間は類似した遺伝性バイアスを共有

Visual Search Asymmetry: Deep Nets and Humans Share Similar Inherent Biases ( http://arxiv.org/abs/2106.02953v1 )

ライセンス: Link先を確認
Shashi Kant Gupta, Mengmi Zhang, Chia-Chien Wu, Jeremy M. Wolfe, Gabriel Kreiman(参考訳) ビジュアル検索は日常的なタスクであり、家にある車のキーや群衆の中の友人を探すことで例示される。 古典的な探索タスクの興味深い性質は、邪魔者Bの目標Aを見つけることが、Aの中の目標Bを見つけるよりも容易な非対称性である。 視覚探索における非対称性のメカニズムを明らかにするために,対象物と探索画像とを入力とし,対象物が見つかるまで眼球運動列を生成する計算モデルを提案する。 このモデルは、偏心性に依存した視覚認識とターゲット依存のトップダウンキューを統合する。 ヒトの非対称性を示す6つのパラダイム探索課題において、人間の行動に対するモデルを比較した。 刺激やタスク固有のトレーニングに事前露出することなく、このモデルは検索非対称性の可能なメカニズムを提供する。 探索非対称性の極性は自然環境の経験から生じると仮定した。 この仮説を,自然画像のバイアスを取り除いたり逆転させたりするimagenetの拡張バージョンでトレーニングすることで検証した。 探索非対称性の極性は、トレーニングプロトコルによって消失または変化した。 本研究は、ニューラルネットワークモデルにおいて、タスク固有のトレーニングを必要とせず、そのモデルに供給される発達食の統計的性質の結果として、古典的知覚特性がどのように出現するかを強調する。 all source code and stimuli are available https://github.com/k reimanlab/visualsear chasymmetry

Visual search is a ubiquitous and often challenging daily task, exemplified by looking for the car keys at home or a friend in a crowd. An intriguing property of some classical search tasks is an asymmetry such that finding a target A among distractors B can be easier than finding B among A. To elucidate the mechanisms responsible for asymmetry in visual search, we propose a computational model that takes a target and a search image as inputs and produces a sequence of eye movements until the target is found. The model integrates eccentricity-depende nt visual recognition with target-dependent top-down cues. We compared the model against human behavior in six paradigmatic search tasks that show asymmetry in humans. Without prior exposure to the stimuli or task-specific training, the model provides a plausible mechanism for search asymmetry. We hypothesized that the polarity of search asymmetry arises from experience with the natural environment. We tested this hypothesis by training the model on an augmented version of ImageNet where the biases of natural images were either removed or reversed. The polarity of search asymmetry disappeared or was altered depending on the training protocol. This study highlights how classical perceptual properties can emerge in neural network models, without the need for task-specific training, but rather as a consequence of the statistical properties of the developmental diet fed to the model. All source code and stimuli are publicly available https://github.com/k reimanlab/VisualSear chAsymmetry
翻訳日:2021-06-08 17:43:52 公開日:2021-06-05
# 知覚障害圧縮について:知覚再構成のコストと最適トレーニングフレームワーク

On Perceptual Lossy Compression: The Cost of Perceptual Reconstruction and An Optimal Training Framework ( http://arxiv.org/abs/2106.02782v1 )

ライセンス: Link先を確認
Zeyu Yan, Fei Wen, Rendong Ying, Chao Ma, and Peilin Liu(参考訳) 損失圧縮アルゴリズムは通常、与えられたビットレートで最小の歪みを達成するために設計される。 しかし、近年の研究では、高い知覚品質の追求が達成可能な最低歪み(MSEなど)の増加につながることが示されている。 本稿では, 完全知覚品質を達成するためのコストが, 達成可能なMSE歪みの2倍であること, 古典的な速度歪み問題に対する最適エンコーダが知覚的圧縮問題に最適であること, 歪み損失が知覚的デコーダの訓練に不要であること, を理論的に明らかにする。 さらに,完全知覚制約下で最小のMSE歪みを与えられたビットレートで達成するための新しいトレーニングフレームワークを提案する。 このフレームワークは、MSE最適化エンコーダに規定された識別器を備えたGANを使用し、歪みと逆方向の損失を用いた従来のフレームワークよりも優れている。 提案したトレーニングフレームワークの理論的発見と優位性を検証するための実験が提供されている。

Lossy compression algorithms are typically designed to achieve the lowest possible distortion at a given bit rate. However, recent studies show that pursuing high perceptual quality would lead to increase of the lowest achievable distortion (e.g., MSE). This paper provides nontrivial results theoretically revealing that, \textit{1}) the cost of achieving perfect perception quality is exactly a doubling of the lowest achievable MSE distortion, \textit{2}) an optimal encoder for the "classic" rate-distortion problem is also optimal for the perceptual compression problem, \textit{3}) distortion loss is unnecessary for training a perceptual decoder. Further, we propose a novel training framework to achieve the lowest MSE distortion under perfect perception constraint at a given bit rate. This framework uses a GAN with discriminator conditioned on an MSE-optimized encoder, which is superior over the traditional framework using distortion plus adversarial loss. Experiments are provided to verify the theoretical finding and demonstrate the superiority of the proposed training framework.
翻訳日:2021-06-08 17:40:06 公開日:2021-06-05
# Omega-RegularおよびStady-State仕様のためのコントローラ合成

Controller Synthesis for Omega-Regular and Steady-State Specifications ( http://arxiv.org/abs/2106.02951v1 )

ライセンス: Link先を確認
Alvaro Velasquez, Ashutosh Trivedi, Ismail Alkhouri, Andre Beckus, and George Atia(参考訳) マルコフ決定プロセス (MDP) と線形時間 ($\omega$-regular or LTL) の仕様が与えられたとき、コントローラ合成問題は仕様を満たす最適なポリシーを計算することを目的としている。 近年,定常計画のレンズを通して,システムの漸近的挙動を理由とする問題が提案されている。 このことは、解法によって引き起こされるマルコフ連鎖がその定常分布に対する与えられた制約を満たすようなMDPの制御ポリシーを見つけることを必要とする。 本稿では, 漸近挙動の定常制約下での線形時間仕様に対する制御器合成問題の一般化について検討する。 整数線形プログラムとして解を特徴付けることにより,$\omega$-regular および定常制約を満たす決定論的ポリシを求めるアルゴリズムを提案し,本手法を実験的に評価する。

Given a Markov decision process (MDP) and a linear-time ($\omega$-regular or LTL) specification, the controller synthesis problem aims to compute the optimal policy that satisfies the specification. More recently, problems that reason over the asymptotic behavior of systems have been proposed through the lens of steady-state planning. This entails finding a control policy for an MDP such that the Markov chain induced by the solution policy satisfies a given set of constraints on its steady-state distribution. This paper studies a generalization of the controller synthesis problem for a linear-time specification under steady-state constraints on the asymptotic behavior. We present an algorithm to find a deterministic policy satisfying $\omega$-regular and steady-state constraints by characterizing the solutions as an integer linear program, and experimentally evaluate our approach.
翻訳日:2021-06-08 17:39:48 公開日:2021-06-05
# 時間制約非線形確率系の運動計画制御のための軌道最適化

Trajectory Optimization of Chance-Constrained Nonlinear Stochastic Systems for Motion Planning and Control ( http://arxiv.org/abs/2106.02801v1 )

ライセンス: Link先を確認
Yashwanth Kumar Nakka and Soon-Jo Chung(参考訳) gPC-SCP: 一般化多項式カオスに基づく逐次凸計画法を用いて、連続時間確率制約確率論的最適制御問題(SNOC)問題に対する準最適解を求める。 このアプローチは不確実性の下でロボットシステムの動作計画と制御を可能にする。 提案手法は2つのステップを含む。 最初のステップは、gpc展開と確率制約の分布ロバスト凸部分集合を用いてsnocに従属する凸制約を持つ決定論的非線形最適制御問題(dnoc)を導出することである。 第2のステップは、軌道生成と制御のためにシーケンシャル凸プログラミング(SCP)を用いてDNOC問題を解決することである。 制約のない場合、DNOCの最適値は漸近的にSNOCの値に収束し、制約されたDNOCの任意の実現可能な解は、チャンス制約されたSNOCの実行可能な解であることを示す。 不確実性の存在下での軌道追跡にgpc-scpを用いた安定確率モデル予測制御器を導出する。 1) 作動時の不確実性下での衝突点検法, 2) 確率的障害物モデルによる衝突点検法, 3) 後退地平線制御アプローチによる力学および障害物位置の不確実点下での安全な軌道追跡法,の3つの試験例に対するgpc-scp法の有効性を実証した。 ロボット宇宙船テストベッドにおけるgPC-SCP法の有効性を検証する。

We present gPC-SCP: Generalized Polynomial Chaos-based Sequential Convex Programming method to compute a sub-optimal solution for a continuous-time chance-constrained stochastic nonlinear optimal control problem (SNOC) problem. The approach enables motion planning and control of robotic systems under uncertainty. The proposed method involves two steps. The first step is to derive a deterministic nonlinear optimal control problem (DNOC) with convex constraints that are surrogate to the SNOC by using gPC expansion and the distributionally-rob ust convex subset of the chance constraints. The second step is to solve the DNOC problem using sequential convex programming (SCP) for trajectory generation and control. We prove that in the unconstrained case, the optimal value of the DNOC converges to that of SNOC asymptotically and that any feasible solution of the constrained DNOC is a feasible solution of the chance-constrained SNOC. We derive a stable stochastic model predictive controller using the gPC-SCP for tracking a trajectory in the presence of uncertainty. We empirically demonstrate the efficacy of the gPC-SCP method for the following three test cases: 1) collision checking under uncertainty in actuation, 2) collision checking with stochastic obstacle model, and 3) safe trajectory tracking under uncertainty in the dynamics and obstacle location by using a receding horizon control approach. We validate the effectiveness of the gPC-SCP method on the robotic spacecraft testbed.
翻訳日:2021-06-08 17:39:21 公開日:2021-06-05
# 連続データを用いた木組のプライバシー保護訓練

Privacy-Preserving Training of Tree Ensembles over Continuous Data ( http://arxiv.org/abs/2106.02769v1 )

ライセンス: Link先を確認
Samuel Adams, Chaitali Choudhary, Martine De Cock, Rafael Dowsley, David Melanson, Anderson C. A. Nascimento, Davis Railsback, Jianwei Shen(参考訳) 既存のセキュアなマルチパーティ計算(mpc)プロトコルの多くは、分散データ上の決定ツリーのプライバシ保存トレーニングのためのものだ。 現実の応用では、特徴はしばしば数値化される。 連続的な値を持つデータ上で決定木を成長させる‘in the clear'’アルゴリズムでは、各ノードの特徴値の範囲で最適なカットポイントを求めるクエストにおいて、各機能のトレーニング例をソートする必要がある。 ソートはmpcの高価な操作であり、そのような高価なステップを避けるセキュアなプロトコルを見つけることは、プライバシ保存機械学習における関連する問題である。 本稿では,(1)データのセキュアな離散化,(2)データのセキュアな離散化,(2)離散化されたデータ上のランダムな森林のセキュアなトレーニング,(3)データ上の極端にランダムな木(`extra-trees'')のセキュアなトレーニング,という,連続的な特徴を持つデータに基づく決定木モデルのセキュアなトレーニングのための,より効率的な3つの選択肢を提案する。 アプローチ (2) と (3) はどちらも特徴の選択をランダム化する。 また、アプローチ(3)では、カットポイントがランダムに選択されるので、データのソートや事前の判別の必要性が軽減される。 追加秘密共有に基づくMPCを用いて,提案手法を準最高設定で実装した。 提案手法がすべて正確かつ安全であることの数学的証明に加えて,分類精度と実行時間の観点から評価・比較を行った。 私たちは、数分間で1000のインスタンスや特徴を持つデータセット上で、ツリーアンサンブルをプライベートにトレーニングします。 これにより、ソリューションの順序が既存のアプローチよりも非常に効率的になります。

Most existing Secure Multi-Party Computation (MPC) protocols for privacy-preserving training of decision trees over distributed data assume that the features are categorical. In real-life applications, features are often numerical. The standard ``in the clear'' algorithm to grow decision trees on data with continuous values requires sorting of training examples for each feature in the quest for an optimal cut-point in the range of feature values in each node. Sorting is an expensive operation in MPC, hence finding secure protocols that avoid such an expensive step is a relevant problem in privacy-preserving machine learning. In this paper we propose three more efficient alternatives for secure training of decision tree based models on data with continuous features, namely: (1) secure discretization of the data, followed by secure training of a decision tree over the discretized data; (2) secure discretization of the data, followed by secure training of a random forest over the discretized data; and (3) secure training of extremely randomized trees (``extra-trees'') on the original data. Approaches (2) and (3) both involve randomizing feature choices. In addition, in approach (3) cut-points are chosen randomly as well, thereby alleviating the need to sort or to discretize the data up front. We implemented all proposed solutions in the semi-honest setting with additive secret sharing based MPC. In addition to mathematically proving that all proposed approaches are correct and secure, we experimentally evaluated and compared them in terms of classification accuracy and runtime. We privately train tree ensembles over data sets with 1000s of instances or features in a few minutes, with accuracies that are at par with those obtained in the clear. This makes our solution orders of magnitude more efficient than the existing approaches, which are based on oblivious sorting.
翻訳日:2021-06-08 17:37:13 公開日:2021-06-05
# 変分漏洩:プライバシー漏洩における情報複雑性の役割

Variational Leakage: The Role of Information Complexity in Privacy Leakage ( http://arxiv.org/abs/2106.02818v1 )

ライセンス: Link先を確認
Amir Ahooye Atashin, Behrooz Razeghi, Deniz G\"und\"uz, Slava Voloshynovskiy(参考訳) 本研究は,システム設計に先立って知られていない敵の興味の属性に関するプライバシーの漏えいにおける情報複雑性の役割について検討する。 Considering the supervised representation learning setup and using neural networks to parameterize the variational bounds of information quantities, we study the impact of the following factors on the amount of information leakage: information complexity regularizer weight, latent space dimension, the cardinalities of the known utility and unknown sensitive attribute sets, the correlation between utility and sensitive attributes, and a potential bias in a sensitive attribute of adversary's interest. そこで我々はColored-MNISTとCelebAデータセットの広範な実験を行い,情報複雑性が本質的漏洩量に与える影響を評価する。

We study the role of information complexity in privacy leakage about an attribute of an adversary's interest, which is not known a priori to the system designer. Considering the supervised representation learning setup and using neural networks to parameterize the variational bounds of information quantities, we study the impact of the following factors on the amount of information leakage: information complexity regularizer weight, latent space dimension, the cardinalities of the known utility and unknown sensitive attribute sets, the correlation between utility and sensitive attributes, and a potential bias in a sensitive attribute of adversary's interest. We conduct extensive experiments on Colored-MNIST and CelebA datasets to evaluate the effect of information complexity on the amount of intrinsic leakage.
翻訳日:2021-06-08 17:36:44 公開日:2021-06-05
# 非凸確率最適化のための帯域幅ベースステップサイズ

Bandwidth-based Step-Sizes for Non-Convex Stochastic Optimization ( http://arxiv.org/abs/2106.02888v1 )

ライセンス: Link先を確認
Xiaoyu Wang and Mikael Johansson(参考訳) ディープニューラルネットワークのための多くの一般的な学習速度スケジュールは、サドルポイントや悪いローカルミニマから逃れようとする局所摂動と崩壊傾向を結合している。 帯域幅に基づくステップサイズ(バンド幅領域で変化する学習率の一般的なクラス)の収束保証を導出する。 この枠組みには、これまで理論的な保証が知られていなかった周期的および非単調なステップサイズが含まれる。 我々は,SGDのスムーズな非凸問題に対して,段階的に1/\sqrt{t}$と一般的なステップデカイ(定数および定数で減少)を含む,複数の帯域幅ベースのステップサイズで保証する。 さらに、その運動量変動(SGDM)は、帯域幅ベースのステップデカイステップサイズとSGDと同等の速度で収束することを示す。 最後に、帯域幅に基づくファミリーにおいて、いくつかの新しいステップサイズスキームを提案し、その効率を深層ニューラルネットワークトレーニングタスクで検証する。

Many popular learning-rate schedules for deep neural networks combine a decaying trend with local perturbations that attempt to escape saddle points and bad local minima. We derive convergence guarantees for bandwidth-based step-sizes, a general class of learning-rates that are allowed to vary in a banded region. This framework includes cyclic and non-monotonic step-sizes for which no theoretical guarantees were previously known. We provide worst-case guarantees for SGD on smooth non-convex problems under several bandwidth-based step sizes, including stagewise $1/\sqrt{t}$ and the popular step-decay (constant and then drop by a constant), which is also shown to be optimal. Moreover, we show that its momentum variant (SGDM) converges as fast as SGD with the bandwidth-based step-decay step-size. Finally, we propose some novel step-size schemes in the bandwidth-based family and verify their efficiency on several deep neural network training tasks.
翻訳日:2021-06-08 17:36:34 公開日:2021-06-05
# トポロジ適応エッジドロップによるロバストグラフニューラルネットワークの学習

Training Robust Graph Neural Networks with Topology Adaptive Edge Dropping ( http://arxiv.org/abs/2106.02892v1 )

ライセンス: Link先を確認
Zhan Gao, Subhrajit Bhattacharya, Leiming Zhang, Rick S. Blum, Alejandro Ribeiro, Brian M. Sadler(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造情報を利用してネットワークデータから表現をモデル化する処理アーキテクチャである。 その成功にもかかわらず、GNNは、過適合と呼ばれる限られた訓練データによって、最適以下の一般化性能に悩まされる。 本稿では,一般化性能を改善し,頑健なgnnモデルを学ぶための適応データ拡張手法として,トポロジー適応エッジドロップ(tadropedge)法を提案する。 まず、ランダムなエッジドロップがトレーニング中のデータの多様性を向上すると同時に、i.d.d.を明示的に分析する。 エッジドロップはグラフ構造情報を考慮せず、ノイズの多い拡張データ劣化性能をもたらす可能性がある。 この問題を克服するため,我々はグラフ接続をグラフトポロジーをキャプチャするキー特性と考える。 TADropEdgeは、この因子をランダムなエッジドロップに組み込んで、エッジドロップした部分グラフが基礎となるグラフと同じようなトポロジーを維持し、より良好なデータ増大をもたらす。 特に、TADropEdgeはまずグラフスペクトルを利用して適切な重み付けをグラフエッジに割り当てる。 その後、エッジウェイトを正規化し、その正規化ウェイトに基づいてグラフエッジを適応的にドロップする。 一般化性能の改善に加えて、TADropEdgeは効率的なトレーニングのための分散を低減し、異なるGNNモデルにモジュール化されたジェネリックメソッドとして適用することができる。 実生活データと合成データに関する集中的な実験を行い,提案手法の有効性を検証した。

Graph neural networks (GNNs) are processing architectures that exploit graph structural information to model representations from network data. Despite their success, GNNs suffer from sub-optimal generalization performance given limited training data, referred to as over-fitting. This paper proposes Topology Adaptive Edge Dropping (TADropEdge) method as an adaptive data augmentation technique to improve generalization performance and learn robust GNN models. We start by explicitly analyzing how random edge dropping increases the data diversity during training, while indicating i.i.d. edge dropping does not account for graph structural information and could result in noisy augmented data degrading performance. To overcome this issue, we consider graph connectivity as the key property that captures graph topology. TADropEdge incorporates this factor into random edge dropping such that the edge-dropped subgraphs maintain similar topology as the underlying graph, yielding more satisfactory data augmentation. In particular, TADropEdge first leverages the graph spectrum to assign proper weights to graph edges, which represent their criticality for establishing the graph connectivity. It then normalizes the edge weights and drops graph edges adaptively based on their normalized weights. Besides improving generalization performance, TADropEdge reduces variance for efficient training and can be applied as a generic method modular to different GNN models. Intensive experiments on real-life and synthetic datasets corroborate theory and verify the effectiveness of the proposed method.
翻訳日:2021-06-08 17:36:18 公開日:2021-06-05
# シャッフルモデルにおける微分プライベートマルチアームバンディット

Differentially Private Multi-Armed Bandits in the Shuffle Model ( http://arxiv.org/abs/2106.02900v1 )

ライセンス: Link先を確認
Jay Tenenbaum, Haim Kaplan, Yishay Mansour, Uri Stemmer(参考訳) We give an $(\varepsilon,\delta )$-differentially private algorithm for the multi-armed bandit (MAB) problem in the shuffle model with a distribution-depende nt regret of $O\left(\left(\sum_{a\in [k]:\Delta_a>0}\frac{\log T}{\Delta_a}\right)+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, and a distribution-indepen dent regret of $O\left(\sqrt{kT\log T}+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, where $T$ is the number of rounds, $\Delta_a$ is the suboptimality gap of the arm $a$, and $k$ is the total number of arms. 我々の上限は、集中モデルにおいて最もよく知られたアルゴリズムの後悔とほぼ一致し、局所モデルにおいて最もよく知られたアルゴリズムを著しく上回っている。

We give an $(\varepsilon,\delta )$-differentially private algorithm for the multi-armed bandit (MAB) problem in the shuffle model with a distribution-depende nt regret of $O\left(\left(\sum_{a\in [k]:\Delta_a>0}\frac{\log T}{\Delta_a}\right)+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, and a distribution-indepen dent regret of $O\left(\sqrt{kT\log T}+\frac{k\sqrt{\log\frac{1}{\delta}}\log T}{\varepsilon}\right)$, where $T$ is the number of rounds, $\Delta_a$ is the suboptimality gap of the arm $a$, and $k$ is the total number of arms. Our upper bound almost matches the regret of the best known algorithms for the centralized model, and significantly outperforms the best known algorithm in the local model.
翻訳日:2021-06-08 17:35:54 公開日:2021-06-05
# 言語モデルにおける近似最小化のための重み付きオートマトン抽出

Extracting Weighted Automata for Approximate Minimization in Language Modelling ( http://arxiv.org/abs/2106.02965v1 )

ライセンス: Link先を確認
Clara Lacroce, Prakash Panangaden, Guillaume Rabusseau(参考訳) 本稿では,言語モデリングにおける近似最小化問題について検討する。 ブラックボックスとして言語モデルが与えられたと仮定します。 目的は、与えられたサイズ制約内に収まる重み付き有限オートマトン(WFA)を得ることであり、ブラックボックスと抽出されたWFAの間の距離の概念を最小化しながら、元のモデルの振る舞いを模倣することである。 一文字アルファベット上の逐次データの言語モデリングのために訓練されたブラックボックスの近似最小化のためのアルゴリズムを提供する。 ハンケル行列の観点から問題を再構成することにより、ハンケル作用素の近似、すなわち有名なアダムヤン・アロフ・クライン(Adamyan-Arov-Krein, AAK)理論に古典的な結果を利用する。 これにより、スペクトルノルムを用いてブラックボックスとWFAの間の距離を測定することができる。 我々は、ブラックボックスの無限ランクのハンケル行列をトレーニングデータにアクセスせずに研究するための理論的保証を提供し、本手法が漸近的最適近似を返すことを証明した。

In this paper we study the approximate minimization problem for language modelling. We assume we are given some language model as a black box. The objective is to obtain a weighted finite automaton (WFA) that fits within a given size constraint and which mimics the behaviour of the original model while minimizing some notion of distance between the black box and the extracted WFA. We provide an algorithm for the approximate minimization of black boxes trained for language modelling of sequential data over a one-letter alphabet. By reformulating the problem in terms of Hankel matrices, we leverage classical results on the approximation of Hankel operators, namely the celebrated Adamyan-Arov-Krein (AAK) theory. This allows us to use the spectral norm to measure the distance between the black box and the WFA. We provide theoretical guarantees to study the potentially infinite-rank Hankel matrix of the black box, without accessing the training data, and we prove that our method returns an asymptotically-optim al approximation.
翻訳日:2021-06-08 17:35:37 公開日:2021-06-05
# Wasserstein Distanceによる低予算アクティブラーニング:整数プログラミングアプローチ

Low Budget Active Learning via Wasserstein Distance: An Integer Programming Approach ( http://arxiv.org/abs/2106.02968v1 )

ライセンス: Link先を確認
Rafid Mahmood, Sanja Fidler, Marc T. Law(参考訳) データの可用性に関する制限が与えられた場合、アクティブラーニングはラベル付きデータプールのコアサブセットを選択してラベル付きデータに制限のあるモデルをトレーニングするプロセスである。 トレーニングの最も有用なポイントを選択することは最適化の問題であるが、ディープラーニングデータセットのスケールは、ほとんどの選択戦略に効率的なヒューリスティックを使わざるを得ない。 代わりに,無ラベルプールからの離散wasserstein距離を最小化するコアセットを選択するための新しい整数最適化問題を提案する。 一般化ベンダー分解アルゴリズムを用いて,この問題を抽出できることを示した。 当社の戦略には,ラベルなしプールでの教師なし学習によって得られる高品質な潜在機能が必要です。 いくつかのデータセットの数値的な結果から、最適化アプローチはベースラインと競合し、特に1%未満のデータセットをラベル付けした低予算のシステムでは、最適化手法が優れていることが分かる。

Given restrictions on the availability of data, active learning is the process of training a model with limited labeled data by selecting a core subset of an unlabeled data pool to label. Although selecting the most useful points for training is an optimization problem, the scale of deep learning data sets forces most selection strategies to employ efficient heuristics. Instead, we propose a new integer optimization problem for selecting a core set that minimizes the discrete Wasserstein distance from the unlabeled pool. We demonstrate that this problem can be tractably solved with a Generalized Benders Decomposition algorithm. Our strategy requires high-quality latent features which we obtain by unsupervised learning on the unlabeled pool. Numerical results on several data sets show that our optimization approach is competitive with baselines and particularly outperforms them in the low budget regime where less than one percent of the data set is labeled.
翻訳日:2021-06-08 17:35:20 公開日:2021-06-05
# Wi-Fi対応スマートフォンを用いた即時近接検出

Immediate Proximity Detection Using Wi-Fi-Enabled Smartphones ( http://arxiv.org/abs/2106.02777v1 )

ライセンス: Link先を確認
Zach Van Hyfte and Avideh Zakhor(参考訳) 露出通知や接触追跡のためのスマートフォンアプリは、新型コロナウイルス(COVID-19)のパンデミックを抑えるのに有効であることが示されている。 しかし、既存のアプリによってブロードキャストされるようなbluetooth低エネルギートークンは、送信デバイスから遠く離れた場所から拾うことができる。 本稿では、2つのWi-Fi対応デバイスがすぐに物理的に近接しているかどうかを検知する新しい手法について述べる。 アメリカ疾病予防管理センター(CDC)が設立した。 我々の目標は、スマートフォンによる露出通知と接触追跡システムの精度を高めることである。 本稿では,Wi-Fi RSSI指紋の入力ペアとして扱う2進機械学習分類器を提案する。 我々は、単一分類器が、検出可能なWi-Fiアクセスポイント(AP)の数が大幅に異なる様々な環境に対して、うまく一般化できないことを実証的に検証した。 しかし、特定分類器は、検出可能なAPの数が一定の範囲内にある状況に合わせて調整され、即座に物理的近接を検出することができる。 そこで我々は,低,中,高数のAPが検出可能な状況に対する3つの分類器を設計する。 これらの分類器は、RSSI指紋のペアを2~4メートルの間隔で記録し、ペアをさらに離れたBluetooth範囲で記録する。 このタスクのバランスの取れた精度は66.8%から77.8%である。

Smartphone apps for exposure notification and contact tracing have been shown to be effective in controlling the COVID-19 pandemic. However, Bluetooth Low Energy tokens similar to those broadcast by existing apps can still be picked up far away from the transmitting device. In this paper, we present a new class of methods for detecting whether or not two Wi-Fi-enabled devices are in immediate physical proximity, i.e. 2 or fewer meters apart, as established by the U.S. Centers for Disease Control and Prevention (CDC). Our goal is to enhance the accuracy of smartphone-based exposure notification and contact tracing systems. We present a set of binary machine learning classifiers that take as input pairs of Wi-Fi RSSI fingerprints. We empirically verify that a single classifier cannot generalize well to a range of different environments with vastly different numbers of detectable Wi-Fi Access Points (APs). However, specialized classifiers, tailored to situations where the number of detectable APs falls within a certain range, are able to detect immediate physical proximity significantly more accurately. As such, we design three classifiers for situations with low, medium, and high numbers of detectable APs. These classifiers distinguish between pairs of RSSI fingerprints recorded 2 or fewer meters apart and pairs recorded further apart but still in Bluetooth range. We characterize their balanced accuracy for this task to be between 66.8% and 77.8%.
翻訳日:2021-06-08 17:25:53 公開日:2021-06-05
# ニューラル分散ソース符号化

Neural Distributed Source Coding ( http://arxiv.org/abs/2106.02797v1 )

ライセンス: Link先を確認
Jay Whang, Anish Acharya, Hyeji Kim, Alexandros G. Dimakis(参考訳) 分散ソース符号化(Distributed Source coding)は、デコーダにのみ利用可能な相関側情報がない場合に入力を符号化するタスクである。 注目すべきことに、1973年にSlepianとWolfは、相関した側情報にアクセスできないエンコーダは、エンコーダとデコーダの両方でサイド情報が利用可能であるのと同じ圧縮率を漸近的に達成できることを示した。 情報理論において、この話題には重要な先行研究があるが、実用的な分散ソースコーディングは、合成データセットや特定の相関構造に限られている。 本稿では,相関構造に依存せず,高次元にスケール可能な分散音源符号化のための汎用フレームワークを提案する。 本手法は,手作りのソース・モデリングに頼るのではなく,分散エンコーダとデコーダの学習に強力な条件付き深層生成モデルを用いる。 本手法を実次元高次元データセット上で評価し,分散圧縮性能の大幅な向上を示す。

Distributed source coding is the task of encoding an input in the absence of correlated side information that is only available to the decoder. Remarkably, Slepian and Wolf showed in 1973 that an encoder that has no access to the correlated side information can asymptotically achieve the same compression rate as when the side information is available at both the encoder and the decoder. While there is significant prior work on this topic in information theory, practical distributed source coding has been limited to synthetic datasets and specific correlation structures. Here we present a general framework for lossy distributed source coding that is agnostic to the correlation structure and can scale to high dimensions. Rather than relying on hand-crafted source-modeling, our method utilizes a powerful conditional deep generative model to learn the distributed encoder and decoder. We evaluate our method on realistic high-dimensional datasets and show substantial improvements in distributed compression performance.
翻訳日:2021-06-08 17:25:35 公開日:2021-06-05
# pseudo-inversed convolutional neural network assisted tdlas tomography による階層的温度イメージング

Hierarchical Temperature Imaging Using Pseudo-Inversed Convolutional Neural Network Aided TDLAS Tomography ( http://arxiv.org/abs/2106.02901v1 )

ライセンス: Link先を確認
Jingjing Si, Guoliang Li, Yinbo Cheng, Rui Zhang, Godwin Enemali, Chang Liu(参考訳) In situ燃焼診断ツールとして、TDLAS(Tunable Diode Laser absorption Spectroscopy)トモグラフィーが反応流中の2次元温度分布のイメージングに広く用いられている。 計算トモグラフィーアルゴリズムと比較すると、特に関心領域(RoI)におけるレーザービームの限られたアクセスの場合、畳み込みニューラルネットワーク(CNN)は画像再構成においてより堅牢で正確であることが証明されている。 実際には、空間分解能良く再現する必要があるRoIの火炎は、一般的に低温背景で囲まれている。 背景は注目されていないが、熱散逸とガス対流による分光吸収は今も残っている。 そこで本研究では, (a) 空間分解能の良いRoIにおける温度画像の学習資源を効率的に利用し, (b) 分光吸収モデルの整合性を適切に解決し, 背景温度を小さく再構成した,階層型温度画像用擬似逆CNN(PI-CNN)を提案する。 従来のCNNと比較して、新たに導入されたRoI感度行列の擬似反転は、投影データと再構成するRoIとの固有の相関を明らかにするためにより浸透し、RoIにおける温度イメージングを高精度かつ高い計算効率で優先する。 本稿では,提案手法を数値シミュレーションとラボスケール実験の両方で検証し,ファントムと高忠実度復元との一致性を示した。

As an in situ combustion diagnostic tool, Tunable Diode Laser Absorption Spectroscopy (TDLAS) tomography has been widely used for imaging of two-dimensional temperature distributions in reactive flows. Compared with the computational tomographic algorithms, Convolutional Neural Networks (CNNs) have been proofed to be more robust and accurate for image reconstruction, particularly in case of limited access of laser beams in the Region of Interest (RoI). In practice, flame in the RoI that requires to be reconstructed with good spatial resolution is commonly surrounded by low-temperature background. Although the background is not of high interest, spectroscopic absorption still exists due to heat dissipation and gas convection. Therefore, we propose a Pseudo-Inversed CNN (PI-CNN) for hierarchical temperature imaging that (a) uses efficiently the training and learning resources for temperature imaging in the RoI with good spatial resolution, and (b) reconstructs the less spatially resolved background temperature by adequately addressing the integrity of the spectroscopic absorption model. In comparison with the traditional CNN, the newly introduced pseudo inversion of the RoI sensitivity matrix is more penetrating for revealing the inherent correlation between the projection data and the RoI to be reconstructed, thus prioritising the temperature imaging in the RoI with high accuracy and high computational efficiency. In this paper, the proposed algorithm was validated by both numerical simulation and lab-scale experiment, indicating good agreement between the phantoms and the high-fidelity reconstructions.
翻訳日:2021-06-08 17:25:18 公開日:2021-06-05
# FedNL: フェデレーションラーニングに適用可能なニュートン型メソッド

FedNL: Making Newton-Type Methods Applicable to Federated Learning ( http://arxiv.org/abs/2106.02969v1 )

ライセンス: Link先を確認
Mher Safaryan and Rustem Islamov and Xun Qian and Peter Richt\'arik(参考訳) 我々は,最近のislamov et al (2021) の研究に触発されて,federated newton learn (fednl) 手法のファミリーを提案する。 前述の研究とは対照的に、fednlは異なるヘッシアン学習技術を採用しており、i) コーディネートサーバに開示されるトレーニングデータに依存しないため、プライバシを強化する、ii) 一般化された線形モデル以外にも適用可能とし、iii) 局所的なヘッシアンを圧縮するための一般的な契約圧縮演算子(例えば top-$k$ や rank-$r$) は、実際には非常に優れている。 特に、契約型圧縮機を扱うために、メソッドのエラーフィードバックに頼る必要はありません。 さらに,部分参加を支援するfednl-pp,fednl-cr,fe dnl-ls,および立方正則化と線探索によるグローバル化を行うfednl-bc,勾配とモデルの双方向圧縮,すなわちスマートアップリンク勾配とスマートダウンリンクモデル圧縮の恩恵を受けるfednl-bcを開発した。 本研究では,条件数,トレーニングデータ点数,圧縮分散に依存しない局所収束率を示す。 コミュニケーション効率のよいヘッシアン学習技術は、ヘッシアンを最適に学習する。 最後に,fednl法が鍵となるベースラインと比較した場合,最先端の通信複雑性を持つことを示す数値実験を行った。

Inspired by recent work of Islamov et al (2021), we propose a family of Federated Newton Learn (FedNL) methods, which we believe is a marked step in the direction of making second-order methods applicable to FL. In contrast to the aforementioned work, FedNL employs a different Hessian learning technique which i) enhances privacy as it does not rely on the training data to be revealed to the coordinating server, ii) makes it applicable beyond generalized linear models, and iii) provably works with general contractive compression operators for compressing the local Hessians, such as Top-$K$ or Rank-$R$, which are vastly superior in practice. Notably, we do not need to rely on error feedback for our methods to work with contractive compressors. Moreover, we develop FedNL-PP, FedNL-CR and FedNL-LS, which are variants of FedNL that support partial participation, and globalization via cubic regularization and line search, respectively, and FedNL-BC, which is a variant that can further benefit from bidirectional compression of gradients and models, i.e., smart uplink gradient and smart downlink model compression. We prove local convergence rates that are independent of the condition number, the number of training data points, and compression variance. Our communication efficient Hessian learning technique provably learns the Hessian at the optimum. Finally, we perform a variety of numerical experiments that show that our FedNL methods have state-of-the-art communication complexity when compared to key baselines.
翻訳日:2021-06-08 17:24:52 公開日:2021-06-05
# センサフュージョンを用いた自律走行車用GNSSスポーフィング検出フレームワーク

Sensor Fusion-based GNSS Spoofing Attack Detection Framework for Autonomous Vehicles ( http://arxiv.org/abs/2106.02982v1 )

ライセンス: Link先を確認
Sagar Dasgupta, Mizanur Rahman, Mhafuzul Islam, Mashrur Chowdhury(参考訳) 本研究では,自律走行車両 (av) に対する同時戦略として, (i) 位置シフトの予測, (ii) 旋回(左右) 検出, (iii) 静止状態(静止状態を含む)の認識の3つからなる, gnssスプーフィング攻撃検出フレームワークを提案する。 複数の低コストの車載センサー(加速度計、操舵角センサ、速度センサ、GNSS)からのデータを融合して、2つの連続するタイムスタンプ間をAVが移動する距離を予測するための長い短期記憶(LSTM)ネットワークであるリカレントニューラルネットワークモデルに供給する。 次に、k-Nearest Neighbors (k-NN) と Dynamic Time Warping (DTW) のアルゴリズムを組み合わせて、操舵角センサのデータを用いて回転を検出する。 また、AV速度センサからのデータは、静止状態を含むAVの動作状態を認識するために使用される。 センサーフュージョンベースの攻撃検出フレームワークの有効性を証明するために、アタックデータセットは3つのユニークで洗練されたスプーフィング攻撃に対してターンバイターンで作成され、オーバーシュートされ、公開の現実世界のHonda Research Institute Driving Dataset(HDD)を使用するのをやめる。 解析の結果,センサフュージョンに基づく検出フレームワークは,必要な計算遅延閾値内で,3種類のスプーフィング攻撃をすべて検出できることがわかった。

In this study, a sensor fusion based GNSS spoofing attack detection framework is presented that consists of three concurrent strategies for an autonomous vehicle (AV): (i) prediction of location shift, (ii) detection of turns (left or right), and (iii) recognition of motion state (including standstill state). Data from multiple low-cost in-vehicle sensors (i.e., accelerometer, steering angle sensor, speed sensor, and GNSS) are fused and fed into a recurrent neural network model, which is a long short-term memory (LSTM) network for predicting the location shift, i.e., the distance that an AV travels between two consecutive timestamps. We have then combined k-Nearest Neighbors (k-NN) and Dynamic Time Warping (DTW) algorithms to detect turns using data from the steering angle sensor. In addition, data from an AV's speed sensor is used to recognize the AV's motion state including the standstill state. To prove the efficacy of the sensor fusion-based attack detection framework, attack datasets are created for three unique and sophisticated spoofing attacks turn by turn, overshoot, and stop using the publicly available real-world Honda Research Institute Driving Dataset (HDD). Our analysis reveals that the sensor fusion-based detection framework successfully detects all three types of spoofing attacks within the required computational latency threshold.
翻訳日:2021-06-08 17:24:16 公開日:2021-06-05
# 収束グラフ解法

Convergent Graph Solvers ( http://arxiv.org/abs/2106.01680v2 )

ライセンス: Link先を確認
Junyoung Park, Jinhyun Choo, Jinkyoo Park(参考訳) 本稿では,グラフシステムの定常状態(固定点)における性質を予測するために反復写像を学習し,収束を保証した深層学習法であるconvergent graph solver(cgs)を提案する。 CGSは対象のグラフシステムの固定点を体系的に計算し、既存の解法や中間解の事前知識なしでシステムの定常特性を推定するようにデコードする。 CGSの前方伝播は、(1)入力依存線形縮退反復写像の構築、(2)線形写像の固定点の計算、(3)固定点を復号して特性を推定する3つのステップで進行する。 構成された線型写像の縮約性は、バナッハの不動点定理に続く固定点の存在と一意性を保証する。 また,cgsを効率的に訓練するために,暗黙関数定理を活用し,その勾配を扱いやすい解析式を導出する。 各種ネットワーク分析およびグラフベンチマーク問題に適用することにより,CGSの性能を評価する。 その結果, CGSは, 対象系が線形か非線形かに関わらず, グラフシステムの定常特性を予測する競争力を持つことが示された。 CGSはまた、固定点の存在や意味を明確に定義することが難しいグラフ分類問題に対して高い性能を示し、一般的なグラフニューラルネットワークアーキテクチャとしてのCGSの可能性を強調している。

We propose the convergent graph solver (CGS), a deep learning method that learns iterative mappings to predict the properties of a graph system at its stationary state (fixed point) with guaranteed convergence. CGS systematically computes the fixed points of a target graph system and decodes them to estimate the stationary properties of the system without the prior knowledge of existing solvers or intermediate solutions. The forward propagation of CGS proceeds in three steps: (1) constructing the input dependent linear contracting iterative maps, (2) computing the fixed-points of the linear maps, and (3) decoding the fixed-points to estimate the properties. The contractivity of the constructed linear maps guarantees the existence and uniqueness of the fixed points following the Banach fixed point theorem. To train CGS efficiently, we also derive a tractable analytical expression for its gradient by leveraging the implicit function theorem. We evaluate the performance of CGS by applying it to various network-analytic and graph benchmark problems. The results indicate that CGS has competitive capabilities for predicting the stationary properties of graph systems, irrespective of whether the target systems are linear or non-linear. CGS also shows high performance for graph classification problems where the existence or the meaning of a fixed point is hard to be clearly defined, which highlights the potential of CGS as a general graph neural network architecture.
翻訳日:2021-06-08 11:38:33 公開日:2021-06-05