このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201208となっている論文です。

PDF登録状況(公開日: 20201208)

TitleAuthorsAbstract論文公表日・翻訳日
# 蒸留トンプソンサンプリング:模倣学習による実用的かつ効率的なトンプソンサンプリング

Distilled Thompson Sampling: Practical and Efficient Thompson Sampling via Imitation Learning ( http://arxiv.org/abs/2011.14266v2 )

ライセンス: Link先を確認
Hongseok Namkoong, Samuel Daulton, Eytan Bakshy(参考訳) トンプソンサンプリング(TS)は文脈的包帯問題に対する堅牢な手法として登場した。 しかし、TSは後続の推論とアクション生成の最適化を必要とし、レイテンシとデプロイの容易さが懸念される多くのインターネットアプリケーションでの使用を禁止している。 後部推論と最適化をオフラインで行うことで、TSポリシーを明示的なポリシー表現に蒸留する新しい模倣学習アルゴリズムを提案する。 明示的なポリシー表現は、高速なオンライン意思決定とモバイルおよびサーバベースの環境へのデプロイを可能にする。 我々のアルゴリズムはTSポリシーのオフラインバッチ更新を繰り返し行い、新しい模倣ポリシーを学習する。 我々は,tsポリシーを模倣ポリシーで収集した観察値で更新するため,tsのオフポリシー版をエミュレートする。 当社の模倣アルゴリズムは,tsに匹敵するベイズ後悔を,一段階の模倣誤差の和まで保証する。 大規模なインターネットアプリケーションの場合、ラベルのないコンテキストが安価に利用できる場合、これらの模倣エラーを任意に小さくすることができることを示す。 実証的に、我々の模倣ポリシーはTSに匹敵する後悔を達成し、決定時間の遅延を桁違いに減らしていることを示す。

Thompson sampling (TS) has emerged as a robust technique for contextual bandit problems. However, TS requires posterior inference and optimization for action generation, prohibiting its use in many internet applications where latency and ease of deployment are of concern. We propose a novel imitation-learning-b ased algorithm that distills a TS policy into an explicit policy representation by performing posterior inference and optimization offline. The explicit policy representation enables fast online decision-making and easy deployment in mobile and server-based environments. Our algorithm iteratively performs offline batch updates to the TS policy and learns a new imitation policy. Since we update the TS policy with observations collected under the imitation policy, our algorithm emulates an off-policy version of TS. Our imitation algorithm guarantees Bayes regret comparable to TS, up to the sum of single-step imitation errors. We show these imitation errors can be made arbitrarily small when unlabeled contexts are cheaply available, which is the case for most large-scale internet applications. Empirically, we show that our imitation policy achieves comparable regret to TS, while reducing decision-time latency by over an order of magnitude.
翻訳日:2021-06-07 09:08:18 公開日:2020-12-08
# (参考訳) マルチエージェント学習システムにおける低帯域通信 [全文訳有]

Low-Bandwidth Communication Emerges Naturally in Multi-Agent Learning Systems ( http://arxiv.org/abs/2011.14890v2 )

ライセンス: CC BY 4.0
Niko A. Grupen, Daniel D. Lee, Bart Selman(参考訳) 本研究では,自然界における協調的マルチエージェント行動のレンズを通して創発的コミュニケーションを研究する。 動物コミュニケーションからの洞察を用いて,低帯域幅のスペクトル(例えば,スペクトル)を提案する。 フェロモントレイル)から高帯域幅(例) 構成言語)社会的エージェントの認知的、知覚的、行動的能力に基づくコミュニケーション。 追従回避ゲームによる一連の実験を通じて、通信スペクトルの低帯域幅端に対する計算モデルとしてマルチエージェント強化学習アルゴリズムを同定する。

In this work, we study emergent communication through the lens of cooperative multi-agent behavior in nature. Using insights from animal communication, we propose a spectrum from low-bandwidth (e.g. pheromone trails) to high-bandwidth (e.g. compositional language) communication that is based on the cognitive, perceptual, and behavioral capabilities of social agents. Through a series of experiments with pursuit-evasion games, we identify multi-agent reinforcement learning algorithms as a computational model for the low-bandwidth end of the communication spectrum.
翻訳日:2021-06-07 01:54:22 公開日:2020-12-08
# オープンソースMLパッケージリポジトリにおけるソフトウェアエンジニアリング実践に関する実証的研究

Empirical Study on the Software Engineering Practices in Open Source ML Package Repositories ( http://arxiv.org/abs/2012.01403v2 )

ライセンス: Link先を確認
Minke Xiu, Ellis E. Eghan, Zhen Ming (Jack) Jiang, Bram Adams(参考訳) 人工知能(AI)の最近の進歩、特に機械学習(ML)では、日々のユーザー体験を高める様々な実践的応用(仮想パーソナルアシスタントや自動運転車など)が導入されている。 しかし、ディープラーニングのような現代のML技術は、そのようなモデルを開発し、訓練し、デプロイするために、かなりの技術的専門知識とリソースを必要とし、MLモデルの効果的な再利用が必要とされる。 実践者や研究者によるこのような発見と再利用は、トレーニング済みモデルをパッケージにバンドルして公開するパブリックmlパッケージリポジトリによって対処されている。 このようなレポジトリは最近の現象であるため、現状や課題に関する実証データはない。 そこで本稿では,2つの一般的なmlパッケージリポジトリ(tfhubとpytorch hub)の構造と内容を分析し,それらの情報要素(機能とポリシ),パッケージ組織,パッケージマネージャ機能,一般的なソフトウェアパッケージリポジトリ(npm,pypi,cran)の使用状況を比較した。 これらの研究を通じて、MLパッケージを共有するためのユニークなSEプラクティスと課題を特定しました。 これらの発見と影響は、データサイエンティスト、研究者、ソフトウェア開発者がこれらの共有MLパッケージを使用するのに役立つだろう。

Recent advances in Artificial Intelligence (AI), especially in Machine Learning (ML), have introduced various practical applications (e.g., virtual personal assistants and autonomous cars) that enhance the experience of everyday users. However, modern ML technologies like Deep Learning require considerable technical expertise and resources to develop, train and deploy such models, making effective reuse of the ML models a necessity. Such discovery and reuse by practitioners and researchers are being addressed by public ML package repositories, which bundle up pre-trained models into packages for publication. Since such repositories are a recent phenomenon, there is no empirical data on their current state and challenges. Hence, this paper conducts an exploratory study that analyzes the structure and contents of two popular ML package repositories, TFHub and PyTorch Hub, comparing their information elements (features and policies), package organization, package manager functionalities and usage contexts against popular software package repositories (npm, PyPI, and CRAN). Through these studies, we have identified unique SE practices and challenges for sharing ML packages. These findings and implications would be useful for data scientists, researchers and software developers who intend to use these shared ML packages.
翻訳日:2021-05-25 03:48:31 公開日:2020-12-08
# NeurIPS 2020 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response に参加して

Proceedings of NeurIPS 2020 Workshop on Artificial Intelligence for Humanitarian Assistance and Disaster Response ( http://arxiv.org/abs/2012.02108v2 )

ライセンス: Link先を確認
Ritwik Gupta, Eric T. Heim, Edoardo Nemni(参考訳) これは、2020年12月12日にNeural Information Processing Systemsカンファレンスで事実上開催された第2回AI + HADRワークショップの"成果"である。 これらは非アーキバルであり、単にワークショップで受け入れられたすべての論文をまとめる手段として機能する。

These are the "proceedings" of the 2nd AI + HADR workshop which was held virtually on December 12, 2020 as part of the Neural Information Processing Systems conference. These are non-archival and merely serve as a way to collate all the papers accepted to the workshop.
翻訳日:2021-05-23 14:47:03 公開日:2020-12-08
# インドにおけるアルゴリズムフェアネスの非可搬性

Non-portability of Algorithmic Fairness in India ( http://arxiv.org/abs/2012.03659v2 )

ライセンス: Link先を確認
Nithya Sambasivan, Erin Arnesen, Ben Hutchinson, Vinodkumar Prabhakaran(参考訳) 従来のアルゴリズムの公正さは、その部分群、値、最適化において西洋的である。 本稿では,この西洋のアルゴリズム的公平性に対する仮定が,インドのような異なる地理文化的文脈にいかにポータブルであるかを問う。 インドにおける36人の専門家によるインタビューと、新たなアルゴリズムの展開の分析に基づいて、インドにおける機械学習モデルと抑圧されたコミュニティの間の大きな距離を埋める3つの課題を識別する。 我々は、単にインドのサブグループへの技術的公正性作業の翻訳は、単にウィンドウドレッシングとしてのみ機能し、代わりに、データとモデルを再コンテクスト化し、抑圧されたコミュニティの権限を付与し、生態系を有効化することによって、Fair-MLの集合的な再想像を呼び起こすことができると主張している。

Conventional algorithmic fairness is Western in its sub-groups, values, and optimizations. In this paper, we ask how portable the assumptions of this largely Western take on algorithmic fairness are to a different geo-cultural context such as India. Based on 36 expert interviews with Indian scholars, and an analysis of emerging algorithmic deployments in India, we identify three clusters of challenges that engulf the large distance between machine learning models and oppressed communities in India. We argue that a mere translation of technical fairness work to Indian subgroups may serve only as a window dressing, and instead, call for a collective re-imagining of Fair-ML, by re-contextualising data and models, empowering oppressed communities, and more importantly, enabling ecosystems.
翻訳日:2021-05-23 14:39:27 公開日:2020-12-08
# (参考訳) ペプチド-MHC結合予測のためのランク付け型畳み込みニューラルネットワークモデル [全文訳有]

Ranking-based Convolutional Neural Network Models for Peptide-MHC Binding Prediction ( http://arxiv.org/abs/2012.02840v2 )

ライセンス: CC BY 4.0
Ziqi Chen, Martin Renqiang Min and Xia Ning(参考訳) t細胞受容体は、主要組織適合性複合体(mhc)クラスiタンパク質に結合する異物ペプチドを認識し、適応免疫応答を誘導する。 したがって、MHCクラスI分子に結合するペプチドの同定は、ペプチドワクチンの設計において重要な役割を果たす。 多くの計算手法、例えば最先端のアレル特異的なMHCflurryは、ペプチドとMHC分子の結合親和性を予測するために開発された。 本稿では,結合予測問題に取り組むために,ConvMとSpConvMという2つのアレル固有畳み込みニューラルネットワーク(CNN)ベースの手法を開発した。 具体的には,ペプチド-MHC結合のランク付けを,ランク付けに基づく学習目的によって最適化する。 このような最適化は結合親和性の測定の不正確性に対してより堅牢であり、したがって結合ペプチドのより正確な優先順位付けを可能にする。 さらに,結合イベントにおいて最も重要なアミノ酸を同定するために,ConvMとSpConvMの新たな位置符号化法を開発した。 実験の結果,本モデルがmhcflurryを含む最先端手法を有意に上回り,aucでは6.70%,roc5では17.10%改善した。

T-cell receptors can recognize foreign peptides bound to major histocompatibility complex (MHC) class-I proteins, and thus trigger the adaptive immune response. Therefore, identifying peptides that can bind to MHC class-I molecules plays a vital role in the design of peptide vaccines. Many computational methods, for example, the state-of-the-art allele-specific method MHCflurry, have been developed to predict the binding affinities between peptides and MHC molecules. In this manuscript, we develop two allele-specific Convolutional Neural Network (CNN)-based methods named ConvM and SpConvM to tackle the binding prediction problem. Specifically, we formulate the problem as to optimize the rankings of peptide-MHC bindings via ranking-based learning objectives. Such optimization is more robust and tolerant to the measurement inaccuracy of binding affinities, and therefore enables more accurate prioritization of binding peptides. In addition, we develop a new position encoding method in ConvM and SpConvM to better identify the most important amino acids for the binding events. Our experimental results demonstrate that our models significantly outperform the state-of-the-art methods including MHCflurry with an average percentage improvement of 6.70% on AUC and 17.10% on ROC5 across 128 alleles.
翻訳日:2021-05-22 23:21:52 公開日:2020-12-08
# アイテムセットマイニングにおける3つの中心問題の計算複雑性

Computational Complexity of Three Central Problems in Itemset Mining ( http://arxiv.org/abs/2012.02619v3 )

ライセンス: Link先を確認
Christian Bessiere, Mohamed-Bachir Belaid, Nadjib Lazaar(参考訳) アイテムセットマイニングは、知識発見において最も研究されているタスクの1つである。 本稿では,3つの中央項目のマイニング問題の計算複雑性を解析する。 我々は、ある項目の先頭で確実なルールをマイニングすることがNPハードであることを証明する。 高ユーティリティアイテムセットのマイニングがNPハードであることを証明する。 ユーザが関心のあるアイテムセットの種類に関する制約を指定できれば,最大あるいはクローズドなアイテムセットのマイニングがcoNPハードであることは,最終的に証明できる。

Itemset mining is one of the most studied tasks in knowledge discovery. In this paper we analyze the computational complexity of three central itemset mining problems. We prove that mining confident rules with a given item in the head is NP-hard. We prove that mining high utility itemsets is NP-hard. We finally prove that mining maximal or closed itemsets is coNP-hard as soon as the users can specify constraints on the kind of itemsets they are interested in.
翻訳日:2021-05-22 20:36:04 公開日:2020-12-08
# (参考訳) 大規模リアルシーンにおける対話型タスクのシミュレーション環境iGibson [全文訳有]

iGibson, a Simulation Environment for Interactive Tasks in Large Realistic Scenes ( http://arxiv.org/abs/2012.02924v2 )

ライセンス: CC BY 4.0
Bokui Shen, Fei Xia, Chengshu Li, Roberto Mart\'in-Mart\'in, Linxi Fan, Guanzhi Wang, Shyamal Buch, Claudia D'Arpino, Sanjana Srivastava, Lyne P. Tchapmi, Micael E. Tchapmi, Kent Vainio, Li Fei-Fei, Silvio Savarese(参考訳) 大規模現実シーンにおける対話型タスクのためのロボットソリューションを開発するための,新しいシミュレーション環境iGibsonを提案する。 私たちの環境には、厳密で明瞭な物体が密集した15のインタラクティブなホームサイズシーンが含まれています。 シーンは3Dスキャンされた現実世界の家のレプリカで、オブジェクトとレイアウトの分布を現実世界のものと一致させる。 iGibson integrates several key features to facilitate the study of interactive tasks: i) generation of high-quality visual virtual sensor signals (RGB, depth, segmentation, LiDAR, flow, among others), ii) domain randomization to change the materials of the objects (both visual texture and dynamics) and/or their shapes, iii) integrated sampling-based motion planners to generate collision-free trajectories for robot bases and arms, and iv) intuitive human-iGibson interface that enables efficient collection of human demonstrations. 実験を通して,シーンの完全な対話性により,エージェントは下流操作タスクのトレーニングを加速する有用な視覚表現を学習できることを示した。 また,iGibson機能によりナビゲーションエージェントの一般化が可能であり,人間-iGibsonインタフェースと統合された動作プランナが,簡単な人間の行動の模倣学習を効率化することを示す。 igibsonは、包括的な例とドキュメントでオープンソースである。 詳細については、プロジェクトのWebサイトをご覧ください。

We present iGibson, a novel simulation environment to develop robotic solutions for interactive tasks in large-scale realistic scenes. Our environment contains fifteen fully interactive home-sized scenes populated with rigid and articulated objects. The scenes are replicas of 3D scanned real-world homes, aligning the distribution of objects and layout to that of the real world. iGibson integrates several key features to facilitate the study of interactive tasks: i) generation of high-quality visual virtual sensor signals (RGB, depth, segmentation, LiDAR, flow, among others), ii) domain randomization to change the materials of the objects (both visual texture and dynamics) and/or their shapes, iii) integrated sampling-based motion planners to generate collision-free trajectories for robot bases and arms, and iv) intuitive human-iGibson interface that enables efficient collection of human demonstrations. Through experiments, we show that the full interactivity of the scenes enables agents to learn useful visual representations that accelerate the training of downstream manipulation tasks. We also show that iGibson features enable the generalization of navigation agents, and that the human-iGibson interface and integrated motion planners facilitate efficient imitation learning of simple human demonstrated behaviors. iGibson is open-sourced with comprehensive examples and documentation. For more information, visit our project website: http://svl.stanford. edu/igibson/
翻訳日:2021-05-22 18:05:45 公開日:2020-12-08
# 4次元光フィールドビデオからの深度推定

Depth estimation from 4D light field videos ( http://arxiv.org/abs/2012.03021v2 )

ライセンス: Link先を確認
Takahiro Kinoshita and Satoshi Ono(参考訳) 4D光場(LF)画像からの深度(差分)の推定は、ここ数年研究課題となっている。 ほとんどの研究は、時間的情報、すなわちLFビデオを考慮していない静的な4次元LF画像からの深さ推定に焦点を当てている。 本稿では,4次元LFビデオからの深度推定のためのエンドツーエンドニューラルネットワークアーキテクチャを提案する。 本研究は,深層学習に基づく手法の訓練に使用できる中規模の4次元LFビデオデータセットを構築した。 合成および実世界の4D LFビデオによる実験結果から,時空間情報は雑音域における深度推定精度の向上に寄与することが示された。 Dataset と code は https://mediaeng-lfv .github.io/LFV_Dispa rity_Estimation で利用可能である。

Depth (disparity) estimation from 4D Light Field (LF) images has been a research topic for the last couple of years. Most studies have focused on depth estimation from static 4D LF images while not considering temporal information, i.e., LF videos. This paper proposes an end-to-end neural network architecture for depth estimation from 4D LF videos. This study also constructs a medium-scale synthetic 4D LF video dataset that can be used for training deep learning-based methods. Experimental results using synthetic and real-world 4D LF videos show that temporal information contributes to the improvement of depth estimation accuracy in noisy regions. Dataset and code is available at: https://mediaeng-lfv .github.io/LFV_Dispa rity_Estimation
翻訳日:2021-05-22 12:09:44 公開日:2020-12-08
# 画像表現とリー不変量の合同推定

Joint Estimation of Image Representations and their Lie Invariants ( http://arxiv.org/abs/2012.02903v2 )

ライセンス: Link先を確認
Christine Allen-Blanchette and Kostas Daniilidis(参考訳) 画像は世界の状態とその内容の両方を符号化する。 前者は計画や管理といったタスクに、後者は分類に役立ちます。 この情報の自動抽出は、画像表現に固有の高次元と絡み合いエンコーディングのため困難である。 本稿では,これらの課題を解決するための2つの理論的アプローチを紹介する。 このアプローチにより、画像表現とシーケンスダイナミックスのジェネレータとの結合推定により、画像シーケンスからの画像の補間と外挿が可能となる。 最初のアプローチでは、画像表現は確率的PCA \cite{tipping 1999probabilistic} を用いて学習される。 線型ガウス条件分布は、潜在分布の閉形式解析的記述を可能にするが、基礎となる像多様体が線型部分空間であると仮定する。 第2のアプローチでは、画像表現を確率論的非線形PCAを用いて学習し、線形多様体仮定を遅延分布の変動近似を必要とするコストで緩和する。 どちらの手法も、画像列の基盤となるダイナミクスを明示的にモデル化して画像表現から切り離す。 ダイナミクス自体は、画像間の変換の滑らかさと構成可能性の望ましい性質を強制するリー群構造によってモデル化される。

Images encode both the state of the world and its content. The former is useful for tasks such as planning and control, and the latter for classification. The automatic extraction of this information is challenging because of the high-dimensionality and entangled encoding inherent to the image representation. This article introduces two theoretical approaches aimed at the resolution of these challenges. The approaches allow for the interpolation and extrapolation of images from an image sequence by joint estimation of the image representation and the generators of the sequence dynamics. In the first approach, the image representations are learned using probabilistic PCA \cite{tipping1999probabili stic}. The linear-Gaussian conditional distributions allow for a closed form analytical description of the latent distributions but assumes the underlying image manifold is a linear subspace. In the second approach, the image representations are learned using probabilistic nonlinear PCA which relieves the linear manifold assumption at the cost of requiring a variational approximation of the latent distributions. In both approaches, the underlying dynamics of the image sequence are modelled explicitly to disentangle them from the image representations. The dynamics themselves are modelled with Lie group structure which enforces the desirable properties of smoothness and composability of inter-image transformations.
翻訳日:2021-05-22 12:08:02 公開日:2020-12-08
# グラフネットワークを用いたランダム緩和による結晶構造探索

Crystal Structure Search with Random Relaxations Using Graph Networks ( http://arxiv.org/abs/2012.02920v2 )

ライセンス: Link先を確認
Gowoon Cheon, Lusann Yang, Kevin McCloskey, Evan J. Reed and Ekin D. Cubuk(参考訳) 材料設計は、太陽電池や電池で気候変動に対処するなど、人類にとって重要な技術を可能にする。 材料の多くの性質は、その原子結晶構造によって決定される。 しかし、ある材料の化学式に対する原子結晶構造の予測は、材料設計における障壁として長く続く大きな課題である。 結晶構造探索のための最先端手法である ab initio random structure search (airss) の高速化のためのデータ駆動アプローチについて検討した。 高出力密度汎関数理論計算を用いたLi-Si電池陽極材料のランダムな構造緩和のデータセットを構築した。 我々はランダム構造の緩和をシミュレートするためにグラフニューラルネットワークを訓練する。 我々のモデルは、トレーニングされていないLi15Si4の実験的に検証された構造を見つけることができ、大きな単位細胞を探索し、複数の化学組織を探索する際に、AIRSSよりも桁違いに高速になる可能性がある。 驚くべきことに、ガウスノイズを付加するデータの拡張は、モデルの精度と領域の一般化の両方を改善します。

Materials design enables technologies critical to humanity, including combating climate change with solar cells and batteries. Many properties of a material are determined by its atomic crystal structure. However, prediction of the atomic crystal structure for a given material's chemical formula is a long-standing grand challenge that remains a barrier in materials design. We investigate a data-driven approach to accelerating ab initio random structure search (AIRSS), a state-of-the-art method for crystal structure search. We build a novel dataset of random structure relaxations of Li-Si battery anode materials using high-throughput density functional theory calculations. We train graph neural networks to simulate relaxations of random structures. Our model is able to find an experimentally verified structure of Li15Si4 it was not trained on, and has potential for orders of magnitude speedup over AIRSS when searching large unit cells and searching over multiple chemical stoichiometries. Surprisingly, we find that data augmentation of adding Gaussian noise improves both the accuracy and out of domain generalization of our models.
翻訳日:2021-05-22 11:58:32 公開日:2020-12-08
# (参考訳) 深部ニューラルネットワークのヘッセン固有スペクトルのより深い考察と正規化への応用 [全文訳有]

A Deeper Look at the Hessian Eigenspectrum of Deep Neural Networks and its Applications to Regularization ( http://arxiv.org/abs/2012.03801v2 )

ライセンス: CC BY 4.0
Adepu Ravi Sankar, Yash Khasbage, Rahul Vigneswaran, Vineeth N Balasubramanian(参考訳) 損失ランドスケープ解析は、ディープニューラルネットワークモデルの一般化能力を理解する上で非常に有用である。 本研究では,各層における損失面を独立に研究し,各層の損失面と損失面との相関関係について考察する。 我々は,各層におけるヘッセンの固有スペクトルを研究することにより,層状損失の景観を考察する。 特に, 層状ヘッセン幾何学はヘッセン幾何学の全体とほとんど類似していることが示された。 また,深部ニューラルネットワークの中間層におけるヘッセン固有スペクトルが,ヘッセン固有スペクトル全体と最もよく似ているという興味深い現象を報告する。 また,ネットワークのトレーニングが進むにつれて,最大固有値とヘッシアン(全ネットワークと層)のトレースが減少することを示した。 我々はこれらの観測を活用し,層状ヘッシアンの痕跡に基づく新しい正規化器を提案する。 各層でヘッセンの痕跡をペナライズすることで、確率的勾配降下がフラットな最小値に収束し、より一般化性能が向上することが示されている。 特に, 層状正則化器を用いて中層のみをペナルティ化することで, 有望な結果が得られることを示す。 データセット間のよく知られたディープネットに関する実証的研究は、この研究の主張を支持している

Loss landscape analysis is extremely useful for a deeper understanding of the generalization ability of deep neural network models. In this work, we propose a layerwise loss landscape analysis where the loss surface at every layer is studied independently and also on how each correlates to the overall loss surface. We study the layerwise loss landscape by studying the eigenspectra of the Hessian at each layer. In particular, our results show that the layerwise Hessian geometry is largely similar to the entire Hessian. We also report an interesting phenomenon where the Hessian eigenspectrum of middle layers of the deep neural network are observed to most similar to the overall Hessian eigenspectrum. We also show that the maximum eigenvalue and the trace of the Hessian (both full network and layerwise) reduce as training of the network progresses. We leverage on these observations to propose a new regularizer based on the trace of the layerwise Hessian. Penalizing the trace of the Hessian at every layer indirectly forces Stochastic Gradient Descent to converge to flatter minima, which are shown to have better generalization performance. In particular, we show that such a layerwise regularizer can be leveraged to penalize the middlemost layers alone, which yields promising results. Our empirical studies on well-known deep nets across datasets support the claims of this work
翻訳日:2021-05-18 12:53:41 公開日:2020-12-08
# (参考訳) 映像表現学習のためのパラメータ効率の高いマルチモーダルトランスフォーマー [全文訳有]

Parameter Efficient Multimodal Transformers for Video Representation Learning ( http://arxiv.org/abs/2012.04124v1 )

ライセンス: CC BY 4.0
Sangho Lee, Youngjae Yu, Gunhee Kim, Thomas Breuel, Jan Kautz, Yale Song(参考訳) 言語領域におけるトランスフォーマーの最近の成功は、それをマルチモーダルな設定に適応させることを動機付けている。 しかし、トランスフォーマーからの過剰なメモリ要求のため、既存の作業は言語モデルを修正し、視覚モジュールのみを訓練する。 本研究では,音声映像表現学習の文脈におけるマルチモーダルトランスフォーマのパラメータ低減に着目する。 我々は,トランスフォーマーの重みを層やモダリティ間で共有することで高いメモリ要求を緩和し,トランスフォーマーをモダリティ固有部分とモダリティ共有部分に分解し,各モダリティのダイナミクスを個々に学習し,低ランク近似に基づく新しいパラメータ共有方式を提案する。 当社のアプローチはパラメータを最大80$\%$まで削減し、エンドツーエンドでモデルをスクラッチからトレーニングできることを示しています。 また,モデルがトランスフォーマーで学習するcnn埋め込み空間上で測定したインスタンス類似性に基づく負サンプリング手法を提案する。 本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,音声視覚分類タスクに転送する。

The recent success of Transformers in the language domain has motivated adapting it to a multimodal setting, where a new visual model is trained in tandem with an already pretrained language model. However, due to the excessive memory requirements from Transformers, existing work typically fixes the language model and train only the vision module, which limits its ability to learn cross-modal information in an end-to-end manner. In this work, we focus on reducing the parameters of multimodal Transformers in the context of audio-visual video representation learning. We alleviate the high memory requirement by sharing the weights of Transformers across layers and modalities; we decompose the Transformer into modality-specific and modality-shared parts so that the model learns the dynamics of each modality both individually and together, and propose a novel parameter sharing scheme based on low-rank approximation. We show that our approach reduces parameters up to 80$\%$, allowing us to train our model end-to-end from scratch. We also propose a negative sampling approach based on an instance similarity measured on the CNN embedding space that our model learns with the Transformers. To demonstrate our approach, we pretrain our model on 30-second clips from Kinetics-700 and transfer it to audio-visual classification tasks.
翻訳日:2021-05-18 05:01:46 公開日:2020-12-08
# (参考訳) 様々な測光・幾何変換下におけるキーポイント検出器およびバイナリディスクリプタの性能解析 [全文訳有]

Performance Analysis of Keypoint Detectors and Binary Descriptors Under Varying Degrees of Photometric and Geometric Transformations ( http://arxiv.org/abs/2012.04135v1 )

ライセンス: CC BY-SA 4.0
Shuvo Kumar Paul, Pourya Hoseini, Mircea Nicolescu and Monica Nicolescu(参考訳) 特徴マッチングによる画像対応の検出は、多数のコンピュータビジョンアプリケーションの基礎となる。 過去にいくつかの検出器とディスクリプタが提示され、画像中の興味点(キーポイント)からの効率的な特徴の生成に対処している。 本稿では,8つのバイナリ記述子 (akaZE, BoostDesc, BRIEF, BRISK, FREAK, LATCH, LUCID, ORB) と8つの関心点検出器 (AGAST, akaZE, BRISK, FAST, HarrisLapalce, KAZE, ORB, StarDetector) について検討する。 我々は,関心点検出器を解析するために検出・記述フェーズを分離し,異なる検出器と記述器のペアワイズ組み合わせの性能評価を行った。 標準データセットの実験を行い、異なる画像変換の下で各手法の比較性能を解析した。 We observed that: (1) the FAST, AGAST, ORB detectors were faster and detected more keypoints, (2) the AKAZE and KAZE detectors performed better under photometric changes while ORB was more robust against geometric changes, (3) in general, descriptors performed better when paired with the KAZE and AKAZE detectors, (4) the BRIEF, LUCID, ORB descriptors were relatively faster, and (5) none of the descriptors did particularly well under geometric transformations, only BRISK, FREAK, and AKAZE showed reasonable resiliency.

Detecting image correspondences by feature matching forms the basis of numerous computer vision applications. Several detectors and descriptors have been presented in the past, addressing the efficient generation of features from interest points (keypoints) in an image. In this paper, we investigate eight binary descriptors (AKAZE, BoostDesc, BRIEF, BRISK, FREAK, LATCH, LUCID, and ORB) and eight interest point detector (AGAST, AKAZE, BRISK, FAST, HarrisLapalce, KAZE, ORB, and StarDetector). We have decoupled the detection and description phase to analyze the interest point detectors and then evaluate the performance of the pairwise combination of different detectors and descriptors. We conducted experiments on a standard dataset and analyzed the comparative performance of each method under different image transformations. We observed that: (1) the FAST, AGAST, ORB detectors were faster and detected more keypoints, (2) the AKAZE and KAZE detectors performed better under photometric changes while ORB was more robust against geometric changes, (3) in general, descriptors performed better when paired with the KAZE and AKAZE detectors, (4) the BRIEF, LUCID, ORB descriptors were relatively faster, and (5) none of the descriptors did particularly well under geometric transformations, only BRISK, FREAK, and AKAZE showed reasonable resiliency.
翻訳日:2021-05-18 04:14:05 公開日:2020-12-08
# (参考訳) 分布推定のための適応サンプリング:ベイズ的上部信頼境界アプローチ [全文訳有]

Adaptive Sampling for Estimating Distributions: A Bayesian Upper Confidence Bound Approach ( http://arxiv.org/abs/2012.04137v1 )

ライセンス: CC BY 4.0
Dhruva Kartik, Neeraj Sood, Urbashi Mitra, Tara Javidi(参考訳) 確率質量関数(pmf)を均一に推定するための適応サンプリングの問題点を考察する。 サンプリング戦略の性能は、最悪のケースの平均2乗誤差の観点から測定する。 既存の上信頼境界(UCB)に基づくアプローチのベイズ変種を提案する。 解析学的に、このベイズ変種の性能は既存のアプローチよりも悪いものではないことが示されている。 ベイジアン設定におけるpmfsの後方分布は、高信頼境界のより厳密な計算を可能にし、実際に顕著な性能向上をもたらす。 この手法を用いて,SARS-CoV-2セロプレバレンスを位置や民族など様々なグループで推定するための適応サンプリングプロトコルを提案する。 ロサンゼルス郡のセロプレバレンス調査から得られたデータを用いて,この戦略の有効性を考察した。

The problem of adaptive sampling for estimating probability mass functions (pmf) uniformly well is considered. Performance of the sampling strategy is measured in terms of the worst-case mean squared error. A Bayesian variant of the existing upper confidence bound (UCB) based approaches is proposed. It is shown analytically that the performance of this Bayesian variant is no worse than the existing approaches. The posterior distribution on the pmfs in the Bayesian setting allows for a tighter computation of upper confidence bounds which leads to significant performance gains in practice. Using this approach, adaptive sampling protocols are proposed for estimating SARS-CoV-2 seroprevalence in various groups such as location and ethnicity. The effectiveness of this strategy is discussed using data obtained from a seroprevalence survey in Los Angeles county.
翻訳日:2021-05-18 04:00:38 公開日:2020-12-08
# (参考訳) ポートレートスタイルの表現を学ぶ [全文訳有]

Learning Portrait Style Representations ( http://arxiv.org/abs/2012.04153v1 )

ライセンス: CC BY 4.0
Sadat Shaik, Bernadette Bucher, Nephele Agrafiotis, Stephen Phillips, Kostas Daniilidis, William Schmenner(参考訳) コンピュータビジョンにおけるアートワークのスタイル分析は主に、ブラシストロークなどの低レベルなスタイル特性の理解を最適化することで、ターゲット画像生成の結果を達成することに焦点を当てている。 しかし,高度なスタイルの特徴を取り入れた芸術の質を計算的に理解し,制御するためには,基本的に異なる技術が必要である。 これらの高レベル特性を組み込んだニューラルネットワークアーキテクチャによって学習されたスタイル表現について検討する。 美術史家によって注釈付けされた三重奏曲をスタイル類似性の監督として取り入れることで,学習スタイルの特徴の変化を見いだす。 ImageNetのような画像コレクションに事前訓練された統計的先行情報を利用するネットワークは、アートワークの有用な視覚表現も引き出すことができる。 これらの人間的知識、統計、写真リアリズムがスタイル表現に先行する影響を美術史研究と整合させ、これらの表現を用いてアーティストのゼロショット分類を行う。 この作業を容易にするため、計算解析のために準備された最初の大規模な肖像画データセットも提示する。

Style analysis of artwork in computer vision predominantly focuses on achieving results in target image generation through optimizing understanding of low level style characteristics such as brush strokes. However, fundamentally different techniques are required to computationally understand and control qualities of art which incorporate higher level style characteristics. We study style representations learned by neural network architectures incorporating these higher level characteristics. We find variation in learned style features from incorporating triplets annotated by art historians as supervision for style similarity. Networks leveraging statistical priors or pretrained on photo collections such as ImageNet can also derive useful visual representations of artwork. We align the impact of these expert human knowledge, statistical, and photo realism priors on style representations with art historical research and use these representations to perform zero-shot classification of artists. To facilitate this work, we also present the first large-scale dataset of portraits prepared for computational analysis.
翻訳日:2021-05-18 03:33:48 公開日:2020-12-08
# (参考訳) 非局所モデルのデータ駆動学習:高忠実度シミュレーションから構成則へ [全文訳有]

Data-driven learning of nonlocal models: from high-fidelity simulations to constitutive laws ( http://arxiv.org/abs/2012.04157v1 )

ライセンス: CC BY 4.0
Huaiqian You, Yue Yu, Stewart Silling, Marta D'Elia(参考訳) 機械学習により, 1次元複合材料の応力波シミュレーションの精度が向上することを示す。 応力波伝搬モデルにおける非局所構成則を学習するためのデータ駆動手法を提案する。 この手法は最適化に基づく手法であり、非局所カーネル関数はベルンシュタイン多項式によって近似される。 関数形式とパラメータの両方を含むカーネルは、非局所解法で使われるとき、高忠実度データと密接に一致する解を生成するように導出される。 したがって、最適核は均質化された非局所連続体モデルとして機能し、複数の材料を含む小さなより詳細なモデルで波動運動を正確に再現する。 この手法を周期的構造を持つ異種棒内における波動伝搬に適用する。 いくつかの1次元数値実験では,アルゴリズムの精度を示す。 最適カーネルは、トレーニングデータとして用いられる問題と大きく異なる応用において、複合材料に対する高忠実度データを再現する。

We show that machine learning can improve the accuracy of simulations of stress waves in one-dimensional composite materials. We propose a data-driven technique to learn nonlocal constitutive laws for stress wave propagation models. The method is an optimization-based technique in which the nonlocal kernel function is approximated via Bernstein polynomials. The kernel, including both its functional form and parameters, is derived so that when used in a nonlocal solver, it generates solutions that closely match high-fidelity data. The optimal kernel therefore acts as a homogenized nonlocal continuum model that accurately reproduces wave motion in a smaller-scale, more detailed model that can include multiple materials. We apply this technique to wave propagation within a heterogeneous bar with a periodic microstructure. Several one-dimensional numerical tests illustrate the accuracy of our algorithm. The optimal kernel is demonstrated to reproduce high-fidelity data for a composite material in applications that are substantially different from the problems used as training data.
翻訳日:2021-05-18 03:19:26 公開日:2020-12-08
# (参考訳) Multi-modal Visual Tracking: レビューと実験的比較

Multi-modal Visual Tracking: Review and Experimental Comparison ( http://arxiv.org/abs/2012.04176v1 )

ライセンス: CC BY 4.0
Pengyu Zhang and Dong Wang and Huchuan Lu(参考訳) 近年,コンピュータビジョンの基本課題である視覚物体追跡が注目されている。 トラッカーをより広い範囲のアプリケーションに拡張するために、研究者は特定のシーンを扱うために複数のモードからの情報を導入した。 本稿では,多モード追跡アルゴリズム,特に可視深度(RGB-D)追跡と可視温度(RGB-T)追跡を異なる側面から統一した分類法で概観する。 第2に,関連するベンチマークと課題について,詳細な説明を行う。 さらに、PTB、VOT19-RGBD、GTOT、RGBT234、VOT19-RGBTの5つのデータセットにおけるトラッカーの有効性を分析するための広範な実験を行った。 最後に,モデル設計やデータセット構築など,さまざまな観点からの今後の方向性について論じる。

Visual object tracking, as a fundamental task in computer vision, has drawn much attention in recent years. To extend trackers to a wider range of applications, researchers have introduced information from multiple modalities to handle specific scenes, which is a promising research prospect with emerging methods and benchmarks. To provide a thorough review of multi-modal track-ing, we summarize the multi-modal tracking algorithms, especially visible-depth (RGB-D) tracking and visible-thermal (RGB-T) tracking in a unified taxonomy from different aspects. Second, we provide a detailed description of the related benchmarks and challenges. Furthermore, we conduct extensive experiments to analyze the effectiveness of trackers on five datasets: PTB, VOT19-RGBD, GTOT, RGBT234, and VOT19-RGBT. Finally, we discuss various future directions from different perspectives, including model design and dataset construction for further research.
翻訳日:2021-05-17 10:42:27 公開日:2020-12-08
# (参考訳) 不均一グラフによるプログラム表現の学習 [全文訳有]

Learning to Represent Programs with Heterogeneous Graphs ( http://arxiv.org/abs/2012.04188v1 )

ライセンス: CC BY 4.0
Wenhan Wang, Kechi Zhang, Ge Li, Zhi Jin(参考訳) プログラムソースコードには複雑な構造情報が含まれており、木やグラフのような構造化データ形式で表現することができる。 ソースコードの構造情報を取得するために、既存の研究の多くは抽象構文木(AST)を使用している。 研究のグループは、ASTに追加のエッジを追加して、ソースコードをグラフに変換し、グラフニューラルネットワークを使用してプログラムグラフの表現を学習する。 これらの作業は、下流タスクのためのASTに追加の制御やデータフロー情報を提供するが、AST自体における構造情報の重要な側面であるノードとエッジの異なるタイプを無視する。 ASTでは、異なるノードには変数や制御フローなどの異なる種類の情報が含まれており、ノードとすべての子との関係も異なる可能性がある。 ノード型とエッジ型の情報に対処するため,ソースコードの学習に異種グラフのアイデアを導入し,ASTから異種プログラムグラフを構築するための新しい公式をノードとエッジの型情報として提示する。 プログラミング言語のASDL文法を用いて,プログラムグラフのノード型とエッジ型を定義する。 そして、異種グラフニューラルネットワークを用いてこれらのグラフを学習する。 コードコメント生成とメソッド命名という2つのタスクに対するアプローチを評価した。 どちらのタスクも完全なコードスニペットの意味を推論する必要がある。 実験の結果,プログラムグラフにおけるノードとエッジの型情報を活用することで,プログラム意味論の学習に有効であることが示された。

Program source code contains complex structure information, which can be represented in structured data forms like trees or graphs. To acquire the structural information in source code, most existing researches use abstract syntax trees (AST). A group of works add additional edges to ASTs to convert source code into graphs and use graph neural networks to learn representations for program graphs. Although these works provide additional control or data flow information to ASTs for downstream tasks, they neglect an important aspect of structure information in AST itself: the different types of nodes and edges. In ASTs, different nodes contain different kinds of information like variables or control flow, and the relation between a node and all its children can also be different. To address the information of node and edge types, we bring the idea of heterogeneous graphs to learning on source code and present a new formula of building heterogeneous program graphs from ASTs with additional type information for nodes and edges. We use the ASDL grammar of programming language to define the node and edge types of program graphs. Then we use heterogeneous graph neural networks to learn on these graphs. We evaluate our approach on two tasks: code comment generation and method naming. Both tasks require reasoning on the semantics of complete code snippets. Experiment results show that our approach outperforms baseline models, including homogeneous graph-based models, showing that leveraging the type information of nodes and edges in program graphs can help in learning program semantics.
翻訳日:2021-05-17 10:41:10 公開日:2020-12-08
# (参考訳) 教師なしラベルリファインメントによるデータレステキスト分類の改善 [全文訳有]

Unsupervised Label Refinement Improves Dataless Text Classification ( http://arxiv.org/abs/2012.04194v1 )

ライセンス: CC BY 4.0
Zewei Chu, Karl Stratos, Kevin Gimpel(参考訳) データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。 有望ではあるが、下流タスクごとにラベルセットの正確な記述に依存する。 この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。 本稿では,ダウンストリームタスクデータセットの入力を用いて,データレステキスト分類をどのように改善できるのか,という質問を行う。 私たちの主なソリューションはクラスタリングベースのアプローチです。 データレス分類器を前提として,k-meansクラスタリングによる予測を改良する。 提案手法は,2つの独立したエンコーダと1つのジョイントエンコーダでテキスト分類ペアをエンコードする2つの広く使われている分類器アーキテクチャの性能を向上させることにより,幅広い適用性を示す。 実験により,本手法は,異なるデータセット間のデータレス分類を一貫して改善し,ラベル記述の選択に対して,分類器をより堅牢にすることを示す。

Dataless text classification is capable of classifying documents into previously unseen labels by assigning a score to any document paired with a label description. While promising, it crucially relies on accurate descriptions of the label set for each downstream task. This reliance causes dataless classifiers to be highly sensitive to the choice of label descriptions and hinders the broader application of dataless classification in practice. In this paper, we ask the following question: how can we improve dataless text classification using the inputs of the downstream task dataset? Our primary solution is a clustering based approach. Given a dataless classifier, our approach refines its set of predictions using k-means clustering. We demonstrate the broad applicability of our approach by improving the performance of two widely used classifier architectures, one that encodes text-category pairs with two independent encoders and one with a single joint encoder. Experiments show that our approach consistently improves dataless classification across different datasets and makes the classifier more robust to the choice of label descriptions.
翻訳日:2021-05-17 10:30:34 公開日:2020-12-08
# (参考訳) ディープフェイク検出器のコスト感性最適化 [全文訳有]

Cost Sensitive Optimization of Deepfake Detector ( http://arxiv.org/abs/2012.04199v1 )

ライセンス: CC BY 4.0
Ivan Kukanov, Janne Karttunen, Hannu Sillanp\"a\"a, Ville Hautam\"aki(参考訳) 映画の発明以来、操作されたビデオは存在する。 しかし、操作されたビデオを生成して視聴者を騙すのは時間のかかる努力だった。 ディープジェネレーティブ・モデリングの劇的な改良により、信じられないようなフェイクビデオを生み出すことは現実となった。 今回の研究では、ソースフェイスがターゲットと入れ替わる、いわゆるdeepfakeビデオに集中しています。 我々は、deepfake検出タスクは、ビデオストリーミングプラットフォームのようなユーザーが毎日大量のビデオを表示するスクリーニングタスクとして見るべきであると主張している。 アップロードされたビデオのほんの一部だけがディープフェイクであることは明らかなので、検出性能をコストに敏感な方法で測定する必要がある。 好ましくは、モデルパラメータも同じように推定する必要がある。 私たちがここで提案するのはまさにこれです。

Since the invention of cinema, the manipulated videos have existed. But generating manipulated videos that can fool the viewer has been a time-consuming endeavor. With the dramatic improvements in the deep generative modeling, generating believable looking fake videos has become a reality. In the present work, we concentrate on the so-called deepfake videos, where the source face is swapped with the targets. We argue that deepfake detection task should be viewed as a screening task, where the user, such as the video streaming platform, will screen a large number of videos daily. It is clear then that only a small fraction of the uploaded videos are deepfakes, so the detection performance needs to be measured in a cost-sensitive way. Preferably, the model parameters also need to be estimated in the same way. This is precisely what we propose here.
翻訳日:2021-05-17 10:17:11 公開日:2020-12-08
# (参考訳) 文書セマンティックスの比較のためのトポロジ的手法 [全文訳有]

A Topological Method for Comparing Document Semantics ( http://arxiv.org/abs/2012.04203v1 )

ライセンス: CC BY-SA 4.0
Yuqi Kong, Fanchao Meng, Benjamin Carterette(参考訳) ドキュメントセマンティクスの比較は、自然言語処理と情報検索の両方において、最も難しいタスクの1つです。 今のところ、このタスクのツールはまだ稀だ。 一方、最も関連する手法は統計学的あるいはベクトル空間モデルの観点から考案されるが、位相的観点からはほとんどない。 本稿では,異なる音を奏でることを願っている。 2つの文書間の意味的類似性を比較するためのトポロジ的永続性に基づく新しいアルゴリズムを提案する。 私たちの実験は、人間の判定結果を含む文書データセット上で行われます。 比較のために最先端メソッドのコレクションが選択される。 実験結果から,本アルゴリズムはnltkと密接な関係をも有するが,高い人間一貫性を持つ結果が得られることが示された。

Comparing document semantics is one of the toughest tasks in both Natural Language Processing and Information Retrieval. To date, on one hand, the tools for this task are still rare. On the other hand, most relevant methods are devised from the statistic or the vector space model perspectives but nearly none from a topological perspective. In this paper, we hope to make a different sound. A novel algorithm based on topological persistence for comparing semantics similarity between two documents is proposed. Our experiments are conducted on a document dataset with human judges' results. A collection of state-of-the-art methods are selected for comparison. The experimental results show that our algorithm can produce highly human-consistent results, and also beats most state-of-the-art methods though ties with NLTK.
翻訳日:2021-05-17 10:09:32 公開日:2020-12-08
# (参考訳) リモートセンシング画像における土地被覆分類のためのスケールアウェア適応 [全文訳有]

Scale Aware Adaptation for Land-Cover Classification in Remote Sensing Imagery ( http://arxiv.org/abs/2012.04222v1 )

ライセンス: CC BY 4.0
Xueqing Deng, Yi Zhu, Yuxin Tian and Shawn Newsam(参考訳) リモートセンシング画像を用いた土地被覆分類は重要な地球観測課題である。 近年,土地被覆分類はセマンティックセグメンテーションのための完全連結ニューラルネットワークの開発から恩恵を受けている。 リモートセンシング画像のディープセグメンテーションモデルをトレーニングするためのベンチマークデータセットは小さい傾向にあるが、多くの場合、単一のスケールで単一のロケーションからわずか数の画像で構成されている。 これにより、モデルが他のデータセットに一般化する能力を制限する。 ドメイン適応はモデルの一般化を改善するために提案されているが、これらの手法はリモートセンシング画像コレクション間で見られるスケールのばらつきに対処するには有効ではない。 そこで本稿では,共同配置とクロススケール土地被覆分類を行うための大規模対応学習フレームワークを提案する。 このフレームワークは、標準的な特徴判別器と新しいスケール判別器を備えた二重識別器アーキテクチャを備えている。 また,スケールエンハンス機能を実現するスケールアテンションモジュールも導入する。 実験の結果,提案手法は最先端のドメイン適応手法を大差で上回ることがわかった。

Land-cover classification using remote sensing imagery is an important Earth observation task. Recently, land cover classification has benefited from the development of fully connected neural networks for semantic segmentation. The benchmark datasets available for training deep segmentation models in remote sensing imagery tend to be small, however, often consisting of only a handful of images from a single location with a single scale. This limits the models' ability to generalize to other datasets. Domain adaptation has been proposed to improve the models' generalization but we find these approaches are not effective for dealing with the scale variation commonly found between remote sensing image collections. We therefore propose a scale aware adversarial learning framework to perform joint cross-location and cross-scale land-cover classification. The framework has a dual discriminator architecture with a standard feature discriminator as well as a novel scale discriminator. We also introduce a scale attention module which produces scale-enhanced features. Experimental results show that the proposed framework outperforms state-of-the-art domain adaptation methods by a large margin.
翻訳日:2021-05-17 09:59:31 公開日:2020-12-08
# (参考訳) 雑音ラベルに対するKNN強化深層学習 [全文訳有]

KNN-enhanced Deep Learning Against Noisy Labels ( http://arxiv.org/abs/2012.04224v1 )

ライセンス: CC BY 4.0
Shuyu Kong and You Li and Jia Wang and Amin Rezaei and Hai Zhou(参考訳) Deep Neural Networks(DNN)の監視学習は、データ空腹である。 ノイズラベルの存在下でのDNNのパフォーマンスの最適化は、大きなデータセットの収集が通常ノイズラベルをもたらすため、最も重要になっている。 データノイズに対するK-Nearest Neighbors (KNN) のロバスト性に着想を得て, ラベルのクリーンアップに深いKNNを適用することを提案する。 提案手法は,DNNを特徴抽出に利用し,KNNを地味ラベル推論に活用する。 ニューラルネットワークを反復的にトレーニングし、ラベルを更新し、ラベル回復率の向上と分類性能の向上を同時に進める。 実験の結果,本手法は既存のラベル補正法を上回っており,wearing1mデータセットの76.78%など,複数のデータセットにおいて精度が向上していることがわかった。

Supervised learning on Deep Neural Networks (DNNs) is data hungry. Optimizing performance of DNN in the presence of noisy labels has become of paramount importance since collecting a large dataset will usually bring in noisy labels. Inspired by the robustness of K-Nearest Neighbors (KNN) against data noise, in this work, we propose to apply deep KNN for label cleanup. Our approach leverages DNNs for feature extraction and KNN for ground-truth label inference. We iteratively train the neural network and update labels to simultaneously proceed towards higher label recovery rate and better classification performance. Experiment results show that under the same setting, our approach outperforms existing label correction methods and achieves better accuracy on multiple datasets, e.g.,76.78% on Clothing1M dataset.
翻訳日:2021-05-17 09:46:35 公開日:2020-12-08
# (参考訳) 合成一般化の観点からの反復的バックトランスレーションの再検討 [全文訳有]

Revisiting Iterative Back-Translation from the Perspective of Compositional Generalization ( http://arxiv.org/abs/2012.04276v1 )

ライセンス: CC BY 4.0
Yinuo Guo, Hualei Zhu, Zeqi Lin, Bei Chen, Jian-Guang Lou, Dongmei Zhang(参考訳) 人間の知性は構成的一般化を示す(すなわち、見掛けた成分の見当たらない組み合わせを理解・生成する能力)が、現在のニューラルseq2seqモデルにはそのような能力がない。 本稿では, 単純かつ効果的な半教師付き手法である反復的逆翻訳について検討し, 構成一般化をいかに改善できるかを考察する。 本研究は,(1) コンポジション一般化ベンチマーク (CFQ, SCAN) における反復的バックトランスレーションにより, 性能が大幅に向上することを示す。 2) 反復的逆翻訳がなぜ有用かを理解するために, 繰り返し的逆翻訳が疑似並列データにおける誤りをますます補正する可能性があることを確認する。 (3) このメカニズムをさらに促進するため, 擬似並列データの品質を向上し, さらなる性能向上を図るカリキュラムの反復的逆翻訳を提案する。

Human intelligence exhibits compositional generalization (i.e., the capacity to understand and produce unseen combinations of seen components), but current neural seq2seq models lack such ability. In this paper, we revisit iterative back-translation, a simple yet effective semi-supervised method, to investigate whether and how it can improve compositional generalization. In this work: (1) We first empirically show that iterative back-translation substantially improves the performance on compositional generalization benchmarks (CFQ and SCAN). (2) To understand why iterative back-translation is useful, we carefully examine the performance gains and find that iterative back-translation can increasingly correct errors in pseudo-parallel data. (3) To further encourage this mechanism, we propose curriculum iterative back-translation, which better improves the quality of pseudo-parallel data, thus further improving the performance.
翻訳日:2021-05-17 08:33:25 公開日:2020-12-08
# (参考訳) 最適な生存木

Optimal Survival Trees ( http://arxiv.org/abs/2012.04284v1 )

ライセンス: CC BY 4.0
Dimitris Bertsimas, Jack Dunn, Emma Gibson, Agni Orfanoudaki(参考訳) 木に基づくモデルはパラメトリックモデルの範囲を超えている複雑な関係を識別できるため、ますます人気が高まっている。 生存木法はこれらのモデルに適応し、しばしば医療データに現れる検閲された結果の分析を可能にする。 混合整数最適化(MIO)と局所探索技術を利用して,グローバルに最適化された生存木モデルを生成する,新しい生存木アルゴリズムを提案する。 我々はostアルゴリズムが既存のサバイバルツリー法,特に大規模データセットの精度を向上させることを実証する。

Tree-based models are increasingly popular due to their ability to identify complex relationships that are beyond the scope of parametric models. Survival tree methods adapt these models to allow for the analysis of censored outcomes, which often appear in medical data. We present a new Optimal Survival Trees algorithm that leverages mixed-integer optimization (MIO) and local search techniques to generate globally optimized survival tree models. We demonstrate that the OST algorithm improves on the accuracy of existing survival tree methods, particularly in large datasets.
翻訳日:2021-05-17 08:18:23 公開日:2020-12-08
# (参考訳) 抽象的要約への言語横断的アプローチ [全文訳有]

Cross-lingual Approach to Abstractive Summarization ( http://arxiv.org/abs/2012.04307v1 )

ライセンス: CC BY 4.0
Ale\v{s} \v{Z}agar, Marko Robnik-\v{S}ikonja(参考訳) 自動テキスト要約は、テキストから重要な情報を抽出し、要約形式で提示する。 抽象要約アプローチはディープニューラルネットワークに切り替えることで大きく進歩したが、特に大きなトレーニングセットが存在しない言語では、結果はまだ満足できない。 いくつかの自然言語処理タスクでは、言語間のモデル転送が低リソース言語でうまく適用される。 要約のために、このような言語間モデル転送は、神経モデルの非可換デコーダ側のため、これまで試みられていなかった。 本研究では,深層ニューラルネットワークとシーケンス・ツー・シーケンスアーキテクチャに基づく事前学習された英語要約モデルを用いて,スロベニアのニュース記事を要約した。 対象言語評価のための追加言語モデルを用いて,デコーダの不適切な問題を解く。 対象言語データに異なる比率のモデルを開発し,微調整を行った。 結果は, 自動評価法と小規模人間評価法で評価した。 その結果,比較的少ない対象言語データで微調整された言語横断モデルの要約は有用であり,対象言語ではるかに多くのデータで訓練された抽象的要約と類似した品質を示す。

Automatic text summarization extracts important information from texts and presents the information in the form of a summary. Abstractive summarization approaches progressed significantly by switching to deep neural networks, but results are not yet satisfactory, especially for languages where large training sets do not exist. In several natural language processing tasks, cross-lingual model transfers are successfully applied in low-resource languages. For summarization such cross-lingual model transfer was so far not attempted due to a non-reusable decoder side of neural models. In our work, we used a pretrained English summarization model based on deep neural networks and sequence-to-sequence architecture to summarize Slovene news articles. We solved the problem of inadequate decoder by using an additional language model for target language evaluation. We developed several models with different proportions of target language data for fine-tuning. The results were assessed with automatic evaluation measures and with small-scale human evaluation. The results show that summaries of cross-lingual models fine-tuned with relatively small amount of target language data are useful and of similar quality to an abstractive summarizer trained with much more data in the target language.
翻訳日:2021-05-17 08:17:18 公開日:2020-12-08
# (参考訳) 正準相関解析によるカラー画像の知覚的ロバストハッシュ

Perceptual Robust Hashing for Color Images with Canonical Correlation Analysis ( http://arxiv.org/abs/2012.04312v1 )

ライセンス: CC BY 4.0
Xinran Li, Chuan Qin, Zhenxing Qian, Heng Yao and Xinpeng Zhang(参考訳) 本稿では,リングリボン二次木とカラーベクトル角に基づいて,カラー画像に対する新しい知覚イメージハッシュ方式を提案する。 まず、原画像は正規化とガウスローパスフィルタリングを施して二次像を生成し、異なる半径と同じ画素数を持つ一連のリングリボンに分割する。 そして、テクスチャ特徴とカラー特徴の両方を局所的及びグローバル的に抽出する。 リングリボンの輝度値にクアドツリー分解(QD)を適用して局所的なテクスチャ特徴を抽出し,グローバルなテクスチャ特徴を抽出するためにグレーレベル共起行列(GLCM)を用いる。 リングリボンの外界における重要な角点の局所色特徴をカラーベクトル角(CVA)により抽出し、カラー低次モーメント(CLM)を用いてグローバル色特徴を抽出する。 最後に, 2種類の特徴ベクトルを正準相関解析 (CCA) により融合させて, 衝突後に最終ハッシュを導出する。 直接結合と比較して、CCA特徴融合法は分類性能を改善し、2つの特徴ベクトルの集合間の全体的な相関をよりよく反映する。 受信者動作特性(ROC)曲線は,本手法がロバスト性,差別性,セキュリティに対して良好な性能を示し,コピー検出やコンテンツ認証に有効であることを示す。

In this paper, a novel perceptual image hashing scheme for color images is proposed based on ring-ribbon quadtree and color vector angle. First, original image is subjected to normalization and Gaussian low-pass filtering to produce a secondary image, which is divided into a series of ring-ribbons with different radii and the same number of pixels. Then, both textural and color features are extracted locally and globally. Quadtree decomposition (QD) is applied on luminance values of the ring-ribbons to extract local textural features, and the gray level co-occurrence matrix (GLCM) is used to extract global textural features. Local color features of significant corner points on outer boundaries of ring-ribbons are extracted through color vector angles (CVA), and color low-order moments (CLMs) is utilized to extract global color features. Finally, two types of feature vectors are fused via canonical correlation analysis (CCA) to prodcue the final hash after scrambling. Compared with direct concatenation, the CCA feature fusion method improves classification performance, which better reflects overall correlation between two sets of feature vectors. Receiver operating characteristic (ROC) curve shows that our scheme has satisfactory performances with respect to robustness, discrimination and security, which can be effectively used in copy detection and content authentication.
翻訳日:2021-05-17 08:04:15 公開日:2020-12-08
# (参考訳) Facts2Story:キーファクトによるテキスト生成の制御 [全文訳有]

Facts2Story: Controlling Text Generation by Key Facts ( http://arxiv.org/abs/2012.04332v1 )

ライセンス: CC BY 4.0
Eyal Orbach (Bar Ilan University), Yoav Goldberg (Bar Ilan University and Allen Institute for Artificial Intelligence)(参考訳) 自己接続型ニューラルネットワークアーキテクチャの最近の進歩は、オープンエンドテキスト生成のバーを高めた。 しかし、現在の方法では、数百語の長さの一貫性のあるテキストを生成することができるが、生成しているコンテンツ -- とそれを評価する -- を制御できることは、まだ疑問の余地がある。 本稿では,自然言語で表現された事象列を,より長い物語へと拡張する制御された生成タスクを提案する。 本稿では,この課題に対する人間による評価指標と,大規模なトレーニングデータセットの導出方法を紹介する。 本研究は,微調整事前学習モデルに基づく3つの手法を評価する。 GPT2のような自動回帰的一方向言語モデルでは、より流速が良くなるが、要求された事実に従うのに苦労している。 本稿では,要求されるコンテンツに固執しながら,競争的フラッテンシーを生み出すプラン・アンド・クローズモデル(微調整xlnet)を提案する。

Recent advancements in self-attention neural network architectures have raised the bar for open-ended text generation. Yet, while current methods are capable of producing a coherent text which is several hundred words long, attaining control over the content that is being generated -- as well as evaluating it -- are still open questions. We propose a controlled generation task which is based on expanding a sequence of facts, expressed in natural language, into a longer narrative. We introduce human-based evaluation metrics for this task, as well as a method for deriving a large training dataset. We evaluate three methods on this task, based on fine-tuning pre-trained models. We show that while auto-regressive, unidirectional Language Models such as GPT2 produce better fluency, they struggle to adhere to the requested facts. We propose a plan-and-cloze model (using fine-tuned XLNet) which produces competitive fluency while adhering to the requested content.
翻訳日:2021-05-17 08:03:08 公開日:2020-12-08
# (参考訳) 時系列タスクのディープラーニングモデルにおける説明可能なAI技術に関する実証的研究 [全文訳有]

An Empirical Study of Explainable AI Techniques on Deep Learning Models For Time Series Tasks ( http://arxiv.org/abs/2012.04344v1 )

ライセンス: CC BY 4.0
Udo Schlegel, Daniela Oelke, Daniel A. Keim, Mennatallah El-Assady(参考訳) 機械学習ブラックボックスモデルの決定説明は、しばしば説明可能なAI(XAI)技術を適用して生成される。 しかし、多くのXAI手法が不確定な出力を生成する。 評価と検証は通常、人間による個々の画像やテキストの視覚的解釈によって達成される。 本稿では,時系列画像とテキストデータを対象に開発したニューラルネットワークに対して帰属法を適用するための経験的研究とベンチマークフレームワークを提案する。 本稿では,摂動法を用いて時系列の属性を自動的に評価・ランク付けする手法を提案する。

Decision explanations of machine learning black-box models are often generated by applying Explainable AI (XAI) techniques. However, many proposed XAI methods produce unverified outputs. Evaluation and verification are usually achieved with a visual interpretation by humans on individual images or text. In this preregistration, we propose an empirical study and benchmark framework to apply attribution methods for neural networks developed for images and text data on time series. We present a methodology to automatically evaluate and rank attribution techniques on time series using perturbation methods to identify reliable approaches.
翻訳日:2021-05-17 07:43:02 公開日:2020-12-08
# (参考訳) 機械学習と人間専門家を組み合わせてフットボールにおける試合結果を予測する:ベースラインモデル [全文訳有]

Combining Machine Learning and Human Experts to Predict Match Outcomes in Football: A Baseline Model ( http://arxiv.org/abs/2012.04380v1 )

ライセンス: CC BY 4.0
Ryan Beal, Stuart E. Middleton, Timothy J. Norman, Sarvapali D. Ramchurn(参考訳) 本稿では,ゲーム・オブ・フットボール(soccer)におけるマッチ結果予測のための,新たなアプリケーション指向ベンチマークデータセットとベースライン自然言語処理と機械学習モデルの結果について述べる。 これにより,人間スポーツジャーナリストの統計的マッチングデータと文脈的記事の両方を活用することができる予測精度の基準を与える。 我々のデータセットは、イングランド・プレミアリーグの6シーズンにわたる代表的時期に焦点を当てており、ガーディアン紙の新聞試合プレビューも含んでいる。 本稿では,従来の統計手法を6.9%向上させた63.18%の精度を実現する。

In this paper, we present a new application-focused benchmark dataset and results from a set of baseline Natural Language Processing and Machine Learning models for prediction of match outcomes for games of football (soccer). By doing so we give a baseline for the prediction accuracy that can be achieved exploiting both statistical match data and contextual articles from human sports journalists. Our dataset is focuses on a representative time-period over 6 seasons of the English Premier League, and includes newspaper match previews from The Guardian. The models presented in this paper achieve an accuracy of 63.18% showing a 6.9% boost on the traditional statistical methods.
翻訳日:2021-05-17 07:13:58 公開日:2020-12-08
# (参考訳) 特徴埋め込みを用いた時空間予測のためのアクティブ機械学習 [全文訳有]

Active machine learning for spatio-temporal predictions using feature embedding ( http://arxiv.org/abs/2012.04407v1 )

ライセンス: CC BY 4.0
Arsam Aryandoust, Stefan Pfenninger(参考訳) アクティブラーニング(al)は時空間予測の改善を通じて重要な環境問題を解決するのに役立つ。 しかし、このような予測には、データ型が混ざり合った高次元の特徴空間とデータ不足が伴う。 本稿では,このギャップを埋める新しいバッチAL法を提案する。 候補データポイントの機能をエンコードしてクラスタ化し、クラスタセンターへの組み込み機能の距離に基づいて最適なデータをクエリします。 我々は、エントロピー埋め込みと呼ぶ新しい情報度指標と、それを使用するための埋め込みネットワークと呼ばれるニューラルネットワークの一般クラスを紹介します。 電力需要予測に関する実証テストでは、パッシブ・ラーニング(pl)ベンチマークと比較して、予測誤差を63-88%、データ使用率を最大50~69%削減した。

Active learning (AL) could contribute to solving critical environmental problems through improved spatio-temporal predictions. Yet such predictions involve high-dimensional feature spaces with mixed data types and missing data, which existing methods have difficulties dealing with. Here, we propose a novel batch AL method that fills this gap. We encode and cluster features of candidate data points, and query the best data based on the distance of embedded features to their cluster centers. We introduce a new metric of informativeness that we call embedding entropy and a general class of neural networks that we call embedding networks for using it. Empirical tests on forecasting electricity demand show a simultaneous reduction in prediction error by up to 63-88% and data usage by up to 50-69% compared to passive learning (PL) benchmarks.
翻訳日:2021-05-17 07:06:35 公開日:2020-12-08
# (参考訳) 景観をフォーマッティングする:衛星画像における多様な人口に対する空間条件GAN [全文訳有]

Formatting the Landscape: Spatial conditional GAN for varying population in satellite imagery ( http://arxiv.org/abs/2101.05069v1 )

ライセンス: CC BY 4.0
Tomas Langer, Natalia Fedorova, Ron Hagensieker(参考訳) 気候変動は、影響のある地域の人々を移住させ、生活様式を変えさせ、世界中の人口動態の変化に影響を与え続けるという、居住環境の変革を期待されている。 人口の地理的分布の変化は土地利用や土地被覆に劇的な影響を与え、気候変動シナリオを計画する上での大きな課題の1つとなる。 本稿では,格子状人口分布に基づく衛星画像生成のための生成モデルフレームワークについて検討する。 既存のALAEアーキテクチャに追加し、空間的条件付きバージョンSCALAEを作成します。 この方法では,モデルの潜在空間から人口を明示的に切り離し,生成された画像にカスタム人口予測を入力できる。 このような画像は,既存のフレームワークを用いた土地被覆・土地利用変化推定や,期待される地域変化の現実的な可視化に利用することができると仮定する。 ピクセルと意味的再構成を比較してモデルを評価し,標準fid指標を算出した。 その結果, 個体群分布を正確に把握し, 現実的な衛星画像を生成するための制御可能な手法が得られた。

Climate change is expected to reshuffle the settlement landscape: forcing people in affected areas to migrate, to change their lifeways, and continuing to affect demographic change throughout the world. Changes to the geographic distribution of population will have dramatic impacts on land use and land cover and thus constitute one of the major challenges of planning for climate change scenarios. In this paper, we explore a generative model framework for generating satellite imagery conditional on gridded population distributions. We make additions to the existing ALAE architecture, creating a spatially conditional version: SCALAE. This method allows us to explicitly disentangle population from the model's latent space and thus input custom population forecasts into the generated imagery. We postulate that such imagery could then be directly used for land cover and land use change estimation using existing frameworks, as well as for realistic visualisation of expected local change. We evaluate the model by comparing pixel and semantic reconstructions, as well as calculate the standard FID metric. The results suggest the model captures population distributions accurately and delivers a controllable method to generate realistic satellite imagery.
翻訳日:2021-05-17 06:44:31 公開日:2020-12-08
# (参考訳) 長期MOOC講義ビデオのトピックセグメンテーションを改善するためのドメイン知識の導入 [全文訳有]

Incorporating Domain Knowledge To Improve Topic Segmentation Of Long MOOC Lecture Videos ( http://arxiv.org/abs/2012.07589v1 )

ライセンス: CC BY 4.0
Ananda Das, Partha Pratim Das(参考訳) トピックセグメンテーションは、ビデオメタデータにトピックワイズセグメンテーション情報がない場合に、講義ビデオで教えられたトピックの検索スペースを減らす上で大きな役割を果たす。 このセグメンテーション情報は、講義ビデオ内のトピックを検索、配置、閲覧するユーザの作業を容易にする。 本研究では,最先端の言語モデルとドメイン知識グラフを組み合わせて,講義ビデオ内に存在する異なるコヒーレントトピックを自動的に検出するアルゴリズムを提案する。 我々は、音声からテキストへの書き起こしに言語モデルを用いて、ビデオ全体の暗黙の意味を捉え、知識グラフは、その主題の異なる概念間のドメイン固有の依存関係を提供する。 また、ドメインの知識を活用することで、インストラクターが教えながら異なる概念を結び付けて接続する方法を捉えることができます。 提案手法をnptelの講義ビデオで検証し,文献に記述された他の手法を総合的に評価した。

Topical Segmentation poses a great role in reducing search space of the topics taught in a lecture video specially when the video metadata lacks topic wise segmentation information. This segmentation information eases user efforts of searching, locating and browsing a topic inside a lecture video. In this work we propose an algorithm, that combines state-of-the art language model and domain knowledge graph for automatically detecting different coherent topics present inside a long lecture video. We use the language model on speech-to-text transcription to capture the implicit meaning of the whole video while the knowledge graph provides us the domain specific dependencies between different concepts of that subjects. Also leveraging the domain knowledge we can capture the way instructor binds and connects different concepts while teaching, which helps us in achieving better segmentation accuracy. We tested our approach on NPTEL lecture videos and holistic evaluation shows that it out performs the other methods described in the literature.
翻訳日:2021-05-17 06:33:54 公開日:2020-12-08
# (参考訳) 線形領域のより強固な上界を用いた複素ネットワークの表現性測定のための汎用計算枠組み [全文訳有]

A General Computational Framework to Measure the Expressiveness of Complex Networks Using a Tighter Upper Bound of Linear Regions ( http://arxiv.org/abs/2012.04428v1 )

ライセンス: CC BY 4.0
Yutong Xie, Gaoxiang Chen and Quanzheng Li(参考訳) ディープニューラルネットワーク(DNN)の表現力は、DNNの驚くべき性能を理解するための視点である。 線型領域の数、すなわち dnnで表される分割線形関数は、一般に表現性を測定するために用いられる。 また、再整流器ネットワークによって分割された領域数の上界は、その数自身ではなく、整流器DNNの表現性のより実用的な測定である。 そこで本研究では,領域数に対してより厳密なアップパーバウンドを新たに提案する。 hinz & van de geer (2019) におけるこの上界の証明と行列計算の枠組みに着想を得て、理論上任意のネットワーク構造(例えば、ネットワーク構造)に対して、領域の狭い上界を計算するための一般的な計算手法を提案する。 あらゆる種類のスキップ・コンネクションと残留構造を持つdnn)。 私たちの実験では、上界が既存のものよりも密接であることを示し、スキップ接続と残余構造がネットワーク性能を改善できる理由を説明します。

The expressiveness of deep neural network (DNN) is a perspective to understandthe surprising performance of DNN. The number of linear regions, i.e. pieces thata piece-wise-linear function represented by a DNN, is generally used to measurethe expressiveness. And the upper bound of regions number partitioned by a rec-tifier network, instead of the number itself, is a more practical measurement ofexpressiveness of a rectifier DNN. In this work, we propose a new and tighter up-per bound of regions number. Inspired by the proof of this upper bound and theframework of matrix computation in Hinz & Van de Geer (2019), we propose ageneral computational approach to compute a tight upper bound of regions numberfor theoretically any network structures (e.g. DNN with all kind of skip connec-tions and residual structures). Our experiments show our upper bound is tighterthan existing ones, and explain why skip connections and residual structures canimprove network performance.
翻訳日:2021-05-17 06:14:17 公開日:2020-12-08
# (参考訳) Split: ブランドと顧客のインタラクションを遠ざけるために、観測されていないイベント確率を推論する [全文訳有]

Split: Inferring Unobserved Event Probabilities for Disentangling Brand-Customer Interactions ( http://arxiv.org/abs/2012.04445v1 )

ライセンス: CC BY 4.0
Ayush Chauhan, Aditya Anand, Shaddy Garg, Sunny Dhamnani, Shiv Kumar Saini(参考訳) 多くの場合、データは複数のイベントからなる複合イベントのみを含む。 例えば、検索広告クリックはブランドによって観察されるが、顧客が表示した検索広告(アクション可能な変数)はしばしば観察されない。 そのような場合、観測されていないイベントでは推論は不可能である。 これは、マーケティングアクションが、収益と有償のデジタルチャネルを乗っ取るときに発生する。 同様の設定は、複数のアクターが相互作用する多数のデータセットに発生する。 ひとつのアプローチは、関心のないイベントのプロキシとして複合イベントを使用することだ。 しかし、これは無効な推論につながる。 本稿では,複合イベントに関する情報と複合イベントの集約データ(例)に基づいて,興味のあるイベントを識別する,直接的なアプローチをとる。 検索広告の総数)。 この研究は、軽度の条件下で、観測されていない事象の確率をスカラー因子まで同定することによって文献に寄与する。 我々は、通常、出来高や有料のチャンネルから利用可能な集計データを用いて、スカラー係数を識別する手法を提案する。 この因子は、通常のクロスエントロピー損失に損失項を加えることによって同定される。 このアプローチを3つの合成データセットで検証する。 さらに、このアプローチは、検証のためにアルゴリズムから観測されたイベントが隠されている実際のマーケティング問題で検証される。 クロスエントロピー損失関数の修正は平均性能を46%向上させる。

Often, data contains only composite events composed of multiple events, some observed and some unobserved. For example, search ad click is observed by a brand, whereas which customers were shown a search ad - an actionable variable - is often not observed. In such cases, inference is not possible on unobserved event. This occurs when a marketing action is taken over earned and paid digital channels. Similar setting arises in numerous datasets where multiple actors interact. One approach is to use the composite event as a proxy for the unobserved event of interest. However, this leads to invalid inference. This paper takes a direct approach whereby an event of interest is identified based on information on the composite event and aggregate data on composite events (e.g. total number of search ads shown). This work contributes to the literature by proving identification of the unobserved events' probabilities up to a scalar factor under mild condition. We propose an approach to identify the scalar factor by using aggregate data that is usually available from earned and paid channels. The factor is identified by adding a loss term to the usual cross-entropy loss. We validate the approach on three synthetic datasets. In addition, the approach is validated on a real marketing problem where some observed events are hidden from the algorithm for validation. The proposed modification to the cross-entropy loss function improves the average performance by 46%.
翻訳日:2021-05-17 05:50:52 公開日:2020-12-08
# (参考訳) 次元削減ツールの動作方法を理解する:データ可視化のためのt-SNE, UMAP, TriMAP, PaCMAPの解読

Understanding How Dimension Reduction Tools Work: An Empirical Approach to Deciphering t-SNE, UMAP, TriMAP, and PaCMAP for Data Visualization ( http://arxiv.org/abs/2012.04456v1 )

ライセンス: CC BY-SA 4.0
Yingfan Wang, Haiyang Huang, Cynthia Rudin, Yaron Shaposhnik(参考訳) t-SNE、UMAP、TriMAPのような次元減少(DR)技術は、多くの実世界のデータセットで顕著な可視化性能を示している。 これらの方法が常に直面してきた緊張の1つは、グローバルな構造の保存とローカルな構造の保存のトレードオフである。 本研究の主な目的は,局所構造とグローバル構造の両方を保存する上で,DR手法のどの側面が重要であるかを理解することである。 局所構造保存の目的に向けて,我々はDR法の背後にあるメカニズムを新たに理解した上で,DR損失関数の設計原則をいくつか提示する。 地球構造保存の目的に向けて, 保存すべき成分の選択が重要であることを明らかにする。 これらの知見を活かして、局所構造と大域構造の両方を保存するペアワイズ制御多様体近似射影(pacmap)と呼ばれるdrの新しいアルゴリズムを設計する。 我々の研究は、DRアルゴリズムを構築する際に、どのような設計を選択し、避けるかという予期せぬ洞察を提供する。

Dimension reduction (DR) techniques such as t-SNE, UMAP, and TriMAP have demonstrated impressive visualization performance on many real world datasets. One tension that has always faced these methods is the trade-off between preservation of global structure and preservation of local structure: these methods can either handle one or the other, but not both. In this work, our main goal is to understand what aspects of DR methods are important for preserving both local and global structure: it is difficult to design a better method without a true understanding of the choices we make in our algorithms and their empirical impact on the lower-dimensional embeddings they produce. Towards the goal of local structure preservation, we provide several useful design principles for DR loss functions based on our new understanding of the mechanisms behind successful DR methods. Towards the goal of global structure preservation, our analysis illuminates that the choice of which components to preserve is important. We leverage these insights to design a new algorithm for DR, called Pairwise Controlled Manifold Approximation Projection (PaCMAP), which preserves both local and global structure. Our work provides several unexpected insights into what design choices both to make and avoid when constructing DR algorithms.
翻訳日:2021-05-17 05:35:56 公開日:2020-12-08
# (参考訳) 関節面を3次元点と正規値に登録した人間の運動追跡 [全文訳有]

Human Motion Tracking by Registering an Articulated Surface to 3-D Points and Normals ( http://arxiv.org/abs/2012.04514v1 )

ライセンス: CC BY 4.0
Radu Horaud, Matti Niskanen, Guillaume Dewaele, and Edmond Boyer(参考訳) 表面を3次元データに登録することで,人間の運動追跡の問題に対処する。 本研究では,人体表象の運動パラメータと自由運動パラメータの両方の最大推定値と,そのデータが体の一部か外れたクラスタに割り当てられる確率の2つを反復的に計算する手法を提案する。 観測された点と正規点の間の新しい計量と、もう一方の面のパラメータ化曲面を導入し、後者は楕円体の集合上のブレンドとして定義される。 この測定基準は、視界と視界のどちらの観察にも適していると我々は主張する。 本手法は,不完全なシルエットから収集したスパースな視覚形状データ(3次元表面点と正規値)を用いて,人間の動きを追跡する手法である。

We address the problem of human motion tracking by registering a surface to 3-D data. We propose a method that iteratively computes two things: Maximum likelihood estimates for both the kinematic and free-motion parameters of a kinematic human-body representation, as well as probabilities that the data are assigned either to a body part, or to an outlier cluster. We introduce a new metric between observed points and normals on one side, and a parameterized surface on the other side, the latter being defined as a blending over a set of ellipsoids. We claim that this metric is well suited when one deals with either visual-hull or visual-shape observations. We illustrate the method by tracking human motions using sparse visual-shape data (3-D surface points and normals) gathered from imperfect silhouettes.
翻訳日:2021-05-17 04:40:44 公開日:2020-12-08
# (参考訳) 4Dトラッキングを超えて: トラックシーディングにクラスタ形状を使う [全文訳有]

Beyond 4D Tracking: Using Cluster Shapes for Track Seeding ( http://arxiv.org/abs/2012.04533v1 )

ライセンス: CC BY 4.0
Patrick J. Fox, Shangqing Huang, Joshua Isaacson, Xiangyang Ju, and Benjamin Nachman(参考訳) 追跡は、LHC(Large Hadron Collider)とHL-LHC(High-luminosi ty upgrade)におけるイベント再構成の最も時間を要する側面の1つである。 革新的な検出器技術は、パターン認識とパラメータ推定のタイミングを含め、4次元に追跡を拡張する。 しかし、現在および将来のハードウェアは、既存のトラックシードアルゴリズムにほとんど使われていない追加情報を持っている。 クラスタの形は、トラックシードのための追加次元を提供し、トラック発見のコンビネーションチャレンジを大幅に削減する。 ニューラルネットワークを用いて、クラスタの形状が、高い効率を保ちながら偽のコンビネータ背景の速度を大幅に低減できることを示す。 クラスタ一重項、二重項、三重項などの情報を用いてこれを実証する。 数値計算の結果は、TrackMLチャレンジのシミュレーションで示される。

Tracking is one of the most time consuming aspects of event reconstruction at the Large Hadron Collider (LHC) and its high-luminosity upgrade (HL-LHC). Innovative detector technologies extend tracking to four-dimensions by including timing in the pattern recognition and parameter estimation. However, present and future hardware already have additional information that is largely unused by existing track seeding algorithms. The shape of clusters provides an additional dimension for track seeding that can significantly reduce the combinatorial challenge of track finding. We use neural networks to show that cluster shapes can reduce significantly the rate of fake combinatorical backgrounds while preserving a high efficiency. We demonstrate this using the information in cluster singlets, doublets and triplets. Numerical results are presented with simulations from the TrackML challenge.
翻訳日:2021-05-17 04:15:03 公開日:2020-12-08
# (参考訳) 自然言語処理と教師なし学習による短期・実世界の医療問合せから重要な話題を見つける [全文訳有]

Discovering key topics from short, real-world medical inquiries via natural language processing and unsupervised learning ( http://arxiv.org/abs/2012.04545v1 )

ライセンス: CC BY 4.0
Angelo Ziletti, Christoph Berns, Oliver Treichel, Thomas Weber, Jennifer Liang, Stephanie Kammerath, Marion Schwaerzler, Jagatheswari Virayah, David Ruau, Xin Ma, Andreas Mattern(参考訳) 毎年、何百万もの無言の医療調査が製薬会社から受け取られている。 これらの調査は情報の宝庫であり、薬品や関連する治療に関する洞察を与える可能性があると推測されている。 しかし,問合せの量や専門性から,タイムリーに,再帰的,包括的な分析を行うことは困難である。 本稿では,自然言語処理と教師なし学習に基づく機械学習手法を提案する。 このアプローチにはオントロジーやアノテーションは必要ない。 発見されたトピックは、医療情報の専門家によって判断されるように、意味があり、医学的に関連がある。 我々の研究は、最終的に患者のケアを改善することを目的とした、製薬業界における医療調査の機械学習による分析の道を開いた。

Millions of unsolicited medical inquiries are received by pharmaceutical companies every year. It has been hypothesized that these inquiries represent a treasure trove of information, potentially giving insight into matters regarding medicinal products and the associated medical treatments. However, due to the large volume and specialized nature of the inquiries, it is difficult to perform timely, recurrent, and comprehensive analyses. Here, we propose a machine learning approach based on natural language processing and unsupervised learning to automatically discover key topics in real-world medical inquiries from customers. This approach does not require ontologies nor annotations. The discovered topics are meaningful and medically relevant, as judged by medical information specialists, thus demonstrating that unsolicited medical inquiries are a source of valuable customer insights. Our work paves the way for the machine-learning-dri ven analysis of medical inquiries in the pharmaceutical industry, which ultimately aims at improving patient care.
翻訳日:2021-05-17 03:39:35 公開日:2020-12-08
# (参考訳) 形態学の深層学習における解釈可能なパターンの役割 [全文訳有]

The Role of Interpretable Patterns in Deep Learning for Morphology ( http://arxiv.org/abs/2012.04575v1 )

ライセンス: CC BY-SA 4.0
Judit Acs and Andras Kornai(参考訳) 形態素解析,補間,コピーの3つの課題における文字パターンの役割について検討した。 我々は、エンコーダがパターンマッチングネットワークである標準シーケンス-シーケンスモデルの修正版を使用する。 各パターンは、ソース側で可能なすべてのN文字長のサブワード(サブストリング)をスコアし、最高スコアのサブワードスコアを使用してデコーダを初期化し、アテンション機構への入力を行う。 この方法では、入力のどのサブワードが出力を生成するのに重要であるかを学ぶことができる。 同じソースで異なるターゲットでモデルをトレーニングすることで、異なるタスクでどのサブワードが重要か、どのように相互に関連しているかを比較することができる。 我々は、jaccard類似性の一般化された形式である類似度メトリックを定義し、同じソースで動作するがターゲットが異なる可能性のある3つのタスクの各ペアに類似度スコアを割り当てる。 これら3つのタスクが12の言語で相互に関連しているか検討する。 私たちのコードは公開されています。

We examine the role of character patterns in three tasks: morphological analysis, lemmatization and copy. We use a modified version of the standard sequence-to-sequence model, where the encoder is a pattern matching network. Each pattern scores all possible N character long subwords (substrings) on the source side, and the highest scoring subword's score is used to initialize the decoder as well as the input to the attention mechanism. This method allows learning which subwords of the input are important for generating the output. By training the models on the same source but different target, we can compare what subwords are important for different tasks and how they relate to each other. We define a similarity metric, a generalized form of the Jaccard similarity, and assign a similarity score to each pair of the three tasks that work on the same source but may differ in target. We examine how these three tasks are related to each other in 12 languages. Our code is publicly available.
翻訳日:2021-05-17 02:19:53 公開日:2020-12-08
# (参考訳) covid}-19パンデミックにおけるソーシャルメディアの不安予測--重篤な危機の心理指標としての神経暗黙的モチベーションパターン認識 [全文訳有]

Social Media Unrest Prediction during the {COVID}-19 Pandemic: Neural Implicit Motive Pattern Recognition as Psychometric Signs of Severe Crises ( http://arxiv.org/abs/2012.04586v1 )

ライセンス: CC BY 4.0
Dirk Johann{\ss}en, Chris Biemann(参考訳) 新型コロナウイルスのパンデミックは国際社会の緊張と不安を引き起こしている。 危機そのものに加えて、世界中の社会の紛争の可能性が高まっている。 グローバルな気分変化の指標は検出が困難であり、直接的なアンケートは社会的望ましくないバイアスに悩まされる。 しかし、いわゆる暗黙の方法は人間の本質的な欲求を明らかにする。 ソーシャルメディアのテキスト 我々は心理的に検証された社会的不安予測器を示し、スケーラブルで自動化された予測を再現し、最近のドイツの共有タスクデータセットに新しい状態を設定する。 このモデルを用いて、2019年春から2020年春にかけてのツイートのサンプルに対して、確立した心理学的予測因子を比較し、新型コロナウイルスパンデミックにおける社会不安への言語変化を調査する。 その結果,精神測定値を示す対立は有意に増加した。 本研究では,NLPに基づく自動的アプローチの定量的心理学的研究への適用性を示す。

The COVID-19 pandemic has caused international social tension and unrest. Besides the crisis itself, there are growing signs of rising conflict potential of societies around the world. Indicators of global mood changes are hard to detect and direct questionnaires suffer from social desirability biases. However, so-called implicit methods can reveal humans intrinsic desires from e.g. social media texts. We present psychologically validated social unrest predictors and replicate scalable and automated predictions, setting a new state of the art on a recent German shared task dataset. We employ this model to investigate a change of language towards social unrest during the COVID-19 pandemic by comparing established psychological predictors on samples of tweets from spring 2019 with spring 2020. The results show a significant increase of the conflict indicating psychometrics. With this work, we demonstrate the applicability of automated NLP-based approaches to quantitative psychological research.
翻訳日:2021-05-17 02:11:45 公開日:2020-12-08
# (参考訳) ストリーミング映像の体験の質評価に関する研究 [全文訳有]

Study on the Assessment of the Quality of Experience of Streaming Video ( http://arxiv.org/abs/2012.04623v1 )

ライセンス: CC BY 4.0
Aleksandr Ivchenko, Pavel Kononyuk, Alexander Dvorkovich, Liubov Antiufrieva(参考訳) HTTP上の動的適応ストリーミングは、ほとんどのマルチメディアサービスの作業を提供するが、この技術の性質はQoE(Quality of Experience)の評価をさらに複雑にする。 本稿では,ストリーミングビデオのQoEの主観的推定に対する種々の目的因子の影響について検討する。 本論文は標準的かつ手作りの特徴を示し,それらの相関と意義のp-値を示す。 SRCCによる回帰と勾配向上に基づくVQAモデルが検証サブサンプルで最大0.9647に達することを提案している。 提案した回帰モデルは応用アプリケーションに適用され(参照ビデオと非参照ビデオの両方)、グラディエントブースティング回帰モデルは品質推定モデルをさらに改善するための視点である。 SQoE-IIIデータベースは、これまでで最大の、そして最も現実的なデータベースだ。 VQA(ビデオ品質評価)モデルはhttps://github.com/A leksandrIvchenko/QoE -assesmentで利用可能である。

Dynamic adaptive streaming over HTTP provides the work of most multimedia services, however, the nature of this technology further complicates the assessment of the QoE (Quality of Experience). In this paper, the influence of various objective factors on the subjective estimation of the QoE of streaming video is studied. The paper presents standard and handcrafted features, shows their correlation and p-Value of significance. VQA (Video Quality Assessment) models based on regression and gradient boosting with SRCC reaching up to 0.9647 on the validation subsample are proposed. The proposed regression models are adapted for applied applications (both with and without a reference video); the Gradient Boosting Regressor model is perspective for further improvement of the quality estimation model. We take SQoE-III database, so far the largest and most realistic of its kind. The VQA (video quality assessment) models are available at https://github.com/A leksandrIvchenko/QoE -assesment
翻訳日:2021-05-17 01:58:11 公開日:2020-12-08
# (参考訳) 不確かさマルコフ決定過程におけるロバスト計画のためのミニマックス回帰最適化 [全文訳有]

Minimax Regret Optimisation for Robust Planning in Uncertain Markov Decision Processes ( http://arxiv.org/abs/2012.04626v1 )

ライセンス: CC BY 4.0
Marc Rigter, Bruno Lacerda, Nick Hawes(参考訳) マルコフ決定過程(MDP)のパラメータは正確には特定できないことが多い。 不確実なMDP(UMDP)は、パラメータが属する集合を定義することによって、このモデルの曖昧さを捉える。 UMDPにおいて、過度に保守的でない堅牢な政策を見つけるための計画としてミニマックス後悔が提案されている。 本研究では,不確実なコストと遷移関数を持つ確率的短経路(SSP)UMDPの計画に焦点をあてる。 政策の後悔を計算するためにベルマン方程式を導入する。 本稿では, ベルマン方程式を用いた動的プログラミングアルゴリズムを提案し, 独立な不確実性を持つUMDPに対して, ミニマックス後悔を正確に最適化することを示す。 結合された不確実性に対しては、計算とソリューションの品質のトレードオフを可能にするためにオプションを使用するアプローチを拡張します。 我々は,合成ドメインと実世界のドメインの両方に対するアプローチを評価し,既存のベースラインを著しく上回ることを示す。

The parameters for a Markov Decision Process (MDP) often cannot be specified exactly. Uncertain MDPs (UMDPs) capture this model ambiguity by defining sets which the parameters belong to. Minimax regret has been proposed as an objective for planning in UMDPs to find robust policies which are not overly conservative. In this work, we focus on planning for Stochastic Shortest Path (SSP) UMDPs with uncertain cost and transition functions. We introduce a Bellman equation to compute the regret for a policy. We propose a dynamic programming algorithm that utilises the regret Bellman equation, and show that it optimises minimax regret exactly for UMDPs with independent uncertainties. For coupled uncertainties, we extend our approach to use options to enable a trade off between computation and solution quality. We evaluate our approach on both synthetic and real-world domains, showing that it significantly outperforms existing baselines.
翻訳日:2021-05-17 01:43:18 公開日:2020-12-08
# (参考訳) Eコマースのためのリアルタイムページパーソナライズフレームワーク [全文訳有]

A Real-Time Whole Page Personalization Framework for E-Commerce ( http://arxiv.org/abs/2012.04681v1 )

ライセンス: CC BY 4.0
Aditya Mantha, Anirudha Sundaresan, Shashank Kedia, Yokila Arora, Shubham Gupta, Gaoyang Wang, Praveenkumar Kanumala, Stephen Guo, Kannan Achan(参考訳) eコマースプラットフォームは、ユーザーエンゲージメントを促進するためにパーソナライズされたレコメンデーションを提供し、全体的なユーザーエクスペリエンスを高め、ビジネスメトリクスを改善することを目的としている。 ほとんどのeコマースプラットフォームは、ホームページ上に複数のカルーセルを持ち、それぞれがショッピング体験のさまざまな面を捉えようとしている。 これらのカルーセルの配置を最適化することは,ユーザの満足度向上に不可欠である。 さらに、カルーセル内のアイテムはシーケンシャルなユーザーアクションに基づいて動的に変化し、カルーセルのオンラインランキングを必要とする。 本稿では,walmart online groceryのホームページ上で,アイテムカルーセルをリアルタイムにランク付けするためのスケーラブルなエンドツーエンド生産システムを提案する。 提案システムは,異なるカルーセルに対するユーザの親和性を捉える新しいモデルと,これまで見られなかったアイテムと対話する可能性を利用する。 我々のシステムは設計に柔軟であり、ページコンポーネントのランク付けが必要な設定に容易に拡張できる。 我々は,モデル開発フェーズとオンライン推論フレームワークからなるシステムアーキテクチャを提供する。 低レイテンシを確保するために、これらのステージにまたがる様々な最適化が実装されている。 これまでの経験に比較して大規模なオンライン評価を行った。 本システムでは, 商品発見の改善, オンラインエンゲージメントの向上, 訪問者1人当たりのATC(Add-to-carts)の大幅な向上を実現した。

E-commerce platforms consistently aim to provide personalized recommendations to drive user engagement, enhance overall user experience, and improve business metrics. Most e-commerce platforms contain multiple carousels on their homepage, each attempting to capture different facets of the shopping experience. Given varied user preferences, optimizing the placement of these carousels is critical for improved user satisfaction. Furthermore, items within a carousel may change dynamically based on sequential user actions, thus necessitating online ranking of carousels. In this work, we present a scalable end-to-end production system to optimally rank item-carousels in real-time on the Walmart online grocery homepage. The proposed system utilizes a novel model that captures the user's affinity for different carousels and their likelihood to interact with previously unseen items. Our system is flexible in design and is easily extendable to settings where page components need to be ranked. We provide the system architecture consisting of a model development phase and an online inference framework. To ensure low-latency, various optimizations across these stages are implemented. We conducted extensive online evaluations to benchmark against the prior experience. In production, our system resulted in an improvement in item discovery, an increase in online engagement, and a significant lift on add-to-carts (ATCs) per visitor on the homepage.
翻訳日:2021-05-17 01:11:36 公開日:2020-12-08
# (参考訳) 到達・引きずり作業における異なる工具使用形態の出現 [全文訳有]

Emergence of Different Modes of Tool Use in a Reaching and Dragging Task ( http://arxiv.org/abs/2012.04700v1 )

ライセンス: CC BY-SA 4.0
Khuong Nguyen and Yoonsuck Choe(参考訳) ツールの使用は、インテリジェンスの発展において重要なマイルストーンです。 本稿では,手を伸ばしたり引きずったりする作業で現れるツールの異なるモードについて検討する。 この作業では、グリッパー付きの接合アームは、工具(t、i、l形)をつかみ、対象の場所(アリーナの底)まで物体を引きずらさなければならない。 シュミレーション環境は、重力や摩擦のような実際の物理を持っていた。 我々は,この課題に対処するための報奨情報を最小限に抑えた,深層強化学習ベースコントローラ(生の視覚的および固有受容的入力)を訓練した。 我々は、モータープリミティブや報酬関数に直接エンコードされない、幅広い予期せぬ行動の出現を観察した。 例えば、対象の場所にオブジェクトをぶつける、初期接触のエラーを修正する、ツールをオブジェクトに向かって投げる、ワイド・スイープのような通常の振る舞いなどである。 また,ツールの種類と対象対象物の初期位置に基づいて,これらの挙動を解析した。 以上の結果から,我々は深層強化学習法の基本機構以上の行動の再現性を示した。

Tool use is an important milestone in the evolution of intelligence. In this paper, we investigate different modes of tool use that emerge in a reaching and dragging task. In this task, a jointed arm with a gripper must grab a tool (T, I, or L-shaped) and drag an object down to the target location (the bottom of the arena). The simulated environment had real physics such as gravity and friction. We trained a deep-reinforcement learning based controller (with raw visual and proprioceptive input) with minimal reward shaping information to tackle this task. We observed the emergence of a wide range of unexpected behaviors, not directly encoded in the motor primitives or reward functions. Examples include hitting the object to the target location, correcting error of initial contact, throwing the tool toward the object, as well as normal expected behavior such as wide sweep. Also, we further analyzed these behaviors based on the type of tool and the initial position of the target object. Our results show a rich repertoire of behaviors, beyond the basic built-in mechanisms of the deep reinforcement learning method we used.
翻訳日:2021-05-17 00:54:30 公開日:2020-12-08
# (参考訳) 編集メディア理解:操作された画像の意味を推論する [全文訳有]

Edited Media Understanding: Reasoning About Implications of Manipulated Images ( http://arxiv.org/abs/2012.04726v1 )

ライセンス: CC BY 4.0
Jeff Da and Maxwell Forbes and Rowan Zellers and Anthony Zheng and Jena D. Hwang and Antoine Bosselut and Yejin Choi(参考訳) ディープフェイクから単純な編集まで、マルチモーダルな偽情報が重要な社会問題である。 しかし同時に、メディア編集の大半は無害で、例えば休暇の写真のフィルターなどだ。 この例と、偽情報を拡散する有害な編集の違いは、意図の1つです。 この意図を認識して記述することは、今日のAIシステムにとって大きな課題である。 我々は編集メディア理解の課題を提示し、画像編集の意図と意味を捉えたオープンエンドな質問にモデルが答えるように要求する。 タスクのデータセットであるEMUを導入し,48kの質問応答ペアをリッチな自然言語で記述した。 我々は,タスクに対する様々な視覚・言語モデルの評価を行い,事前学習型マルチモーダル表現の最近の進歩に基づく新しいモデルPELICANを導入する。 我々のモデルはデータセット上で有望な結果を得ており、その答えを40.35%の正確さで評価している。 同時に、まだやるべきことがたくさんある -- 人間は人間の注釈付きキャプションを好んで 93.56% であり、さらなる進歩を強調する分析を提供する。

Multimodal disinformation, from `deepfakes' to simple edits that deceive, is an important societal problem. Yet at the same time, the vast majority of media edits are harmless -- such as a filtered vacation photo. The difference between this example, and harmful edits that spread disinformation, is one of intent. Recognizing and describing this intent is a major challenge for today's AI systems. We present the task of Edited Media Understanding, requiring models to answer open-ended questions that capture the intent and implications of an image edit. We introduce a dataset for our task, EMU, with 48k question-answer pairs written in rich natural language. We evaluate a wide variety of vision-and-language models for our task, and introduce a new model PELICAN, which builds upon recent progress in pretrained multimodal representations. Our model obtains promising results on our dataset, with humans rating its answers as accurate 40.35% of the time. At the same time, there is still much work to be done -- humans prefer human-annotated captions 93.56% of the time -- and we provide analysis that highlights areas for further progress.
翻訳日:2021-05-17 00:34:57 公開日:2020-12-08
# (参考訳) 1/n神経表現とロバスト性について [全文訳有]

On 1/n neural representation and robustness ( http://arxiv.org/abs/2012.04729v1 )

ライセンス: CC BY 4.0
Josue Nassar, Piotr Aleksander Sokol, SueYeon Chung, Kenneth D. Harris, Il Memming Park(参考訳) ニューラルネットワークにおける表現の性質を理解することは、神経科学と機械学習によって共有される目標である。 したがって、両方の分野が共有質問だけでなく、同様のアプローチにも収束することは、非常にワクワクする。 これらの領域における差し迫った疑問は、ニューラルネットワークで使われる表現の構造がそれらの一般化と摂動に対する堅牢性の両方にどのように影響するかを理解することである。 本研究では,ニューラルネットワークを用いたマウスV1(Stringer et al)における神経表現の共分散スペクトルに関する実験結果を用いて,後者について検討する。 我々は1/nの共分散スペクトルの因果的役割に関するストリンガーらの理論を探索するために、逆強靭性を用いる。 ニューラルネットワークにおけるニューラルネットワークの活用効果を実証的に検討し,多層アーキテクチャにおけるその役割を解明する。 その結果,実験で観測された構造をニューラルネットワークに組み込むことで,敵の攻撃に対してより堅牢であることが示唆された。 さらに、中間表現の役割を示すことによって、幅広いニューラルネットワークとカーネル手法に関する既存の理論を補完する。

Understanding the nature of representation in neural networks is a goal shared by neuroscience and machine learning. It is therefore exciting that both fields converge not only on shared questions but also on similar approaches. A pressing question in these areas is understanding how the structure of the representation used by neural networks affects both their generalization, and robustness to perturbations. In this work, we investigate the latter by juxtaposing experimental results regarding the covariance spectrum of neural representations in the mouse V1 (Stringer et al) with artificial neural networks. We use adversarial robustness to probe Stringer et al's theory regarding the causal role of a 1/n covariance spectrum. We empirically investigate the benefits such a neural code confers in neural networks, and illuminate its role in multi-layer architectures. Our results show that imposing the experimentally observed structure on artificial neural networks makes them more robust to adversarial attacks. Moreover, our findings complement the existing theory relating wide neural networks to kernel methods, by showing the role of intermediate representations.
翻訳日:2021-05-17 00:19:18 公開日:2020-12-08
# (参考訳) 1次元モデルにおける敵攻撃に対する深層対物防御 [全文訳有]

A Deep Marginal-Contrastive Defense against Adversarial Attacks on 1D Models ( http://arxiv.org/abs/2012.04734v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Nour Moustafa, Murat Tahtali(参考訳) ディープラーニングアルゴリズムは最近、脆弱性のために攻撃者によって標的にされている。 この問題に対処し、より堅牢なディープラーニングモデルを構築するために、いくつかの研究が実施された。 非連続的深層モデルはいまだに敵に対して頑健ではなく、最近の研究はモデルの学習プロセスを避けるための攻撃手法の開発に重点を置いている。 このようなモデルの脆弱性の背後にある主な理由は、学習分類器が摂動サンプルをわずかに予測できないことである。 この問題に対処するために,提案する新たな目的/余分関数,いわゆる辺縁コントラスト関数を提案し,その特徴を特定の辺縁の下に配置して,深層畳み込みネットワーク(Char-CNN)を用いた予測を容易にする。 提案手法の有効性を証明するために,連続事例 (unsw nb15 データセット) と離散事例 (8大規模データセット [32]) について広範な実験を行った。 その結果,提案する損失関数に基づく学習プロセスの正規化により,char-cnnの性能が向上することがわかった。

Deep learning algorithms have been recently targeted by attackers due to their vulnerability. Several research studies have been conducted to address this issue and build more robust deep learning models. Non-continuous deep models are still not robust against adversarial, where most of the recent studies have focused on developing attack techniques to evade the learning process of the models. One of the main reasons behind the vulnerability of such models is that a learning classifier is unable to slightly predict perturbed samples. To address this issue, we propose a novel objective/loss function, the so-called marginal contrastive, which enforces the features to lie under a specified margin to facilitate their prediction using deep convolutional networks (i.e., Char-CNN). Extensive experiments have been conducted on continuous cases (e.g., UNSW NB15 dataset) and discrete ones (i.e, eight-large-scale datasets [32]) to prove the effectiveness of the proposed method. The results revealed that the regularization of the learning process based on the proposed loss function can improve the performance of Char-CNN.
翻訳日:2021-05-17 00:03:32 公開日:2020-12-08
# (参考訳) ドメイン特異的知覚ネットワークを用いた2ステップスパースCT再構成 [全文訳有]

2-Step Sparse-View CT Reconstruction with a Domain-Specific Perceptual Network ( http://arxiv.org/abs/2012.04743v1 )

ライセンス: CC BY 4.0
Haoyu Wei, Florian Schiffers, Tobias W\"urfl, Daming Shen, Daniel Kim, Aggelos K. Katsaggelos, Oliver Cossairt(参考訳) CTは非破壊的に内部構造を調べるために広く用いられている。 高品質な再構成を得るためには、通常、角度アンダーサンプリングを避けるために、密度の高いサンプル軌道を取得する必要がある。 しかし、多くのシナリオはスパースビューの計測を必要とし、未確認であればストリークアーティファクトにつながる。 現在の手法では、ドメイン固有の情報をフルに利用しないため、高度にアンサンプされたデータに対する信頼性の高い再構築ができない。 まず,スパースプロジェクションを訓練した超高分解能ネットワーク,SINを用いて,再構成を2つのステップに分離して,スパース・ビュー・トモグラフィーのための新しいフレームワークを提案する。 中間的な結果は、保存された細部とストリークアーティファクトを高度に縮小したクローズドフォームのトモグラフィー再構成を可能にする。 第2に、復元を訓練したリファインメントネットワークであるprnは、残りのアーティファクトを減らす。 さらに, ドメイン固有情報を強化し, 復元精度を高めた知覚損失の軽量版を提案する。 実験では,現在のソリューションを4db改善した。

Computed tomography is widely used to examine internal structures in a non-destructive manner. To obtain high-quality reconstructions, one typically has to acquire a densely sampled trajectory to avoid angular undersampling. However, many scenarios require a sparse-view measurement leading to streak-artifacts if unaccounted for. Current methods do not make full use of the domain-specific information, and hence fail to provide reliable reconstructions for highly undersampled data. We present a novel framework for sparse-view tomography by decoupling the reconstruction into two steps: First, we overcome its ill-posedness using a super-resolution network, SIN, trained on the sparse projections. The intermediate result allows for a closed-form tomographic reconstruction with preserved details and highly reduced streak-artifacts. Second, a refinement network, PRN, trained on the reconstructions reduces any remaining artifacts. We further propose a light-weight variant of the perceptual-loss that enhances domain-specific information, boosting restoration accuracy. Our experiments demonstrate an improvement over current solutions by 4 dB.
翻訳日:2021-05-16 23:52:45 公開日:2020-12-08
# (参考訳) 超深層ネットワークにおける敵攻撃の影響について [全文訳有]

Mitigating the Impact of Adversarial Attacks in Very Deep Networks ( http://arxiv.org/abs/2012.04750v1 )

ライセンス: CC BY 4.0
Mohammed Hassanin, Ibrahim Radwan, Nour Moustafa, Murat Tahtali, Neeraj Kumar(参考訳) deep neural network (dnn)モデルにはセキュリティに関する脆弱性があり、攻撃者は通常、複雑なハッキング技術を使って構造を公開する。 データ中毒による摂動攻撃は、モデルに偽データを注入する複雑な敵対攻撃である。 モデルの正確さと収束率を低下させるため、より深いネットワークにはメリットがなく、学習プロセスに悪影響を及ぼす。 本稿では,攻撃に依存しない防御手法を提案し,その影響を緩和する。 防御的特徴層(dfl)は、よく知られたdnnアーキテクチャと統合され、機能空間における不正な摂動サンプルの効果を中和するのに役立つ。 攻撃された入力サンプルを正しく分類する手法のロバスト性と信頼性を高めるため、訓練モデルの隠れ空間を分極コントラスト損失(pcl)と呼ばれる識別損失関数で定式化する。 異なるクラス内のサンプル間の識別を改善し、同じクラス内のサンプルの類似性を維持する。 また、DFLとPCLをデータ中毒攻撃に対する防御のためのコンパクトモデルに統合する。 この手法は,cifar-10およびmnistデータセットを用いてデータ中毒可能な摂動攻撃を訓練し,実験結果から,最近のピア技術と比較して優れた性能を示す。

Deep Neural Network (DNN) models have vulnerabilities related to security concerns, with attackers usually employing complex hacking techniques to expose their structures. Data poisoning-enabled perturbation attacks are complex adversarial ones that inject false data into models. They negatively impact the learning process, with no benefit to deeper networks, as they degrade a model's accuracy and convergence rates. In this paper, we propose an attack-agnostic-base d defense method for mitigating their influence. In it, a Defensive Feature Layer (DFL) is integrated with a well-known DNN architecture which assists in neutralizing the effects of illegitimate perturbation samples in the feature space. To boost the robustness and trustworthiness of this method for correctly classifying attacked input samples, we regularize the hidden space of a trained model with a discriminative loss function called Polarized Contrastive Loss (PCL). It improves discrimination among samples in different classes and maintains the resemblance of those in the same class. Also, we integrate a DFL and PCL in a compact model for defending against data poisoning attacks. This method is trained and tested using the CIFAR-10 and MNIST datasets with data poisoning-enabled perturbation attacks, with the experimental results revealing its excellent performance compared with those of recent peer techniques.
翻訳日:2021-05-16 23:36:58 公開日:2020-12-08
# (参考訳) モバイルデバイスの位置データを用いたマルチモーダル移動需要パターン推定のためのデータ駆動分析フレームワーク [全文訳有]

A Data-Driven Analytical Framework of Estimating Multimodal Travel Demand Patterns using Mobile Device Location Data ( http://arxiv.org/abs/2012.04776v1 )

ライセンス: CC BY 4.0
Chenfeng Xiong, Aref Darzi, Yixuan Pan, Sepehr Ghader, Lei Zhang(参考訳) 人々の日常生活に多くのメリットをもたらす一方で、スマートフォンとその位置情報ベースのサービスは、移動需要のパターンを理解し、将来の交通計画を作成する上で大きな可能性を秘めている巨大なモバイルデバイスの位置データを生み出しています。 近年の研究では、このような新しいデータソースを用いた人間の旅行行動の分析が行われているが、そこからマルチモーダルな旅行需要パターンを抽出するための限定的な研究がなされている。 本稿では,このギャップを埋めるデータ駆動分析フレームワークを提案する。 受動的に収集した位置情報を用いて移動モードの検知に成功するために,スマートフォンによるGPS調査を行い,地中真実の観測を行った。 次に,旅行モード計算のための一層モデルとディープニューラルネットワークを開発した。 ワイド"と"ディープ"を同時に持つこのモデルは、両方のタイプのモデルの利点を組み合わせたものだ。 この枠組みはまた、近隣の鉄道、地下鉄、高速道路、バス路線への交通経路の近接性を評価するためにマルチモーダル交通網を組み込んでおり、インプテーションの精度を高めている。 現実の計画ニーズに対応するために導入されたフレームワークの応用例を示すために、旅行モードインプテーションを直接適用できる方法で、トリップエンド識別と属性生成を通じて、別々のモバイルデバイスの位置データを処理する。 推定されるマルチモーダル旅行需要パターンは、ワシントンD.C.とボルチモア都市圏の典型的な家庭旅行調査に対して検証される。

While benefiting people's daily life in so many ways, smartphones and their location-based services are generating massive mobile device location data that has great potential to help us understand travel demand patterns and make transportation planning for the future. While recent studies have analyzed human travel behavior using such new data sources, limited research has been done to extract multimodal travel demand patterns out of them. This paper presents a data-driven analytical framework to bridge the gap. To be able to successfully detect travel modes using the passively collected location information, we conduct a smartphone-based GPS survey to collect ground truth observations. Then a jointly trained single-layer model and deep neural network for travel mode imputation is developed. Being "wide" and "deep" at the same time, this model combines the advantages of both types of models. The framework also incorporates the multimodal transportation network in order to evaluate the closeness of trip routes to the nearby rail, metro, highway and bus lines and therefore enhance the imputation accuracy. To showcase the applications of the introduced framework in answering real-world planning needs, a separate mobile device location data is processed through trip end identification and attribute generation, in a way that the travel mode imputation can be directly applied. The estimated multimodal travel demand patterns are then validated against typical household travel surveys in the same Washington D.C. and Baltimore Metropolitan Regions.
翻訳日:2021-05-16 22:44:59 公開日:2020-12-08
# エネルギーモデルを用いた高精度3次元物体検出

Accurate 3D Object Detection using Energy-Based Models ( http://arxiv.org/abs/2012.04634v1 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Martin Danelljan, Thomas B. Sch\"on(参考訳) ロボットによる複雑な環境の安全なナビゲーションには,正確な3Dオブジェクト検出(3DOD)が不可欠である。 しかし, 粗いLiDARデータに基づいて, 粗い環境下での正確な3Dバウンディングボックスの回帰は極めて難しい問題である。 確率回帰のための条件付きエネルギーベースモデル(EBM)の最近の進歩を探求することによって、この問題に対処する。 EBMを用いた回帰法は画像中の2次元物体検出において顕著な性能を示したが、これらの手法は直接3次元境界ボックスに適用できない。 そこで本研究では,EMMネットワークのコアモジュールとして機能する3次元バウンディングボックス用の可変プール演算子を設計する。 我々は、この一般的なアプローチを最先端の3Dオブジェクト検出器SA-SSDに統合する。 KITTIデータセットでは,提案手法はSA-SSDベースラインを全3DOD指標で一貫して上回り,高精度な3DODに対するESMベースの回帰の可能性を示す。 コードはhttps://github.com/f regu856/ebms_3dodで入手できる。

Accurate 3D object detection (3DOD) is crucial for safe navigation of complex environments by autonomous robots. Regressing accurate 3D bounding boxes in cluttered environments based on sparse LiDAR data is however a highly challenging problem. We address this task by exploring recent advances in conditional energy-based models (EBMs) for probabilistic regression. While methods employing EBMs for regression have demonstrated impressive performance on 2D object detection in images, these techniques are not directly applicable to 3D bounding boxes. In this work, we therefore design a differentiable pooling operator for 3D bounding boxes, serving as the core module of our EBM network. We further integrate this general approach into the state-of-the-art 3D object detector SA-SSD. On the KITTI dataset, our proposed approach consistently outperforms the SA-SSD baseline across all 3DOD metrics, demonstrating the potential of EBM-based regression for highly accurate 3DOD. Code is available at https://github.com/f regu856/ebms_3dod.
翻訳日:2021-05-16 21:55:11 公開日:2020-12-08
# 質問応答のための読者からレトリバーへの知識の蒸留

Distilling Knowledge from Reader to Retriever for Question Answering ( http://arxiv.org/abs/2012.04584v1 )

ライセンス: Link先を確認
Gautier Izacard and Edouard Grave(参考訳) 情報検索の課題は、オープンドメイン質問応答など、多くの自然言語処理システムにおいて重要な要素である。 従来の手法は手作りの特徴に基づいているが、ニューラルネットワークに基づく連続表現は、最近競争的な結果を得た。 このような方法を使用する際の課題は、クエリとサポートドキュメントのペアに対応するレトリバーモデルをトレーニングするための教師付きデータを取得することである。 本稿では,知識蒸留に触発され,照会と文書の注釈付きペアを必要としない下流タスクの検索モデルを学ぶ手法を提案する。 提案手法は,検索した文書に基づいてタスクを解くために使用される読み手モデルの注意スコアを利用して,検索者の合成ラベルを取得する。 質問応答の方法を評価し,最新の結果を得た。

The task of information retrieval is an important component of many natural language processing systems, such as open domain question answering. While traditional methods were based on hand-crafted features, continuous representations based on neural networks recently obtained competitive results. A challenge of using such methods is to obtain supervised data to train the retriever model, corresponding to pairs of query and support documents. In this paper, we propose a technique to learn retriever models for downstream tasks, inspired by knowledge distillation, and which does not require annotated pairs of query and documents. Our approach leverages attention scores of a reader model, used to solve the task based on retrieved documents, to obtain synthetic labels for the retriever. We evaluate our method on question answering, obtaining state-of-the-art results.
翻訳日:2021-05-16 21:50:32 公開日:2020-12-08
# 予測プロセス分析のための説明可能な方法の評価:機能的包括的アプローチ

Evaluating Explainable Methods for Predictive Process Analytics: A Functionally-Grounde d Approach ( http://arxiv.org/abs/2012.04218v1 )

ライセンス: Link先を確認
Mythreyi Velmurugan, Chun Ouyang, Catarina Moreira and Renuka Sindhgatta(参考訳) 予測プロセス分析は、ビジネスプロセスの実行インスタンスの将来の状態を予測することに焦点を当てる。 高度な機械学習技術は予測の精度を高めるために使われてきたが、結果として生じる予測モデルは透明性を欠いている。 現在のLIMEやSHAPのような説明可能な機械学習手法は、ブラックボックスモデルの解釈に利用できる。 しかし、これらの手法がプロセス予測モデルを説明するのにどの程度適しているかは不明である。 本稿では,説明可能なaiの分野における評価尺度を描き,予測過程分析における説明可能な方法を評価するための機能的接地評価指標を提案する。 提案手法は,プロセス予測において比較的正確であることが判明したxgboostを用いたプロセス予測モデルの解釈において,limeとshapの性能評価に応用する。 我々は,実世界の3つのイベントログを用いて評価を行い,その評価結果を分析して洞察を得る。 この研究は、予測プロセス分析のための説明可能な方法の信頼性の理解に寄与し、人間のユーザ指向評価への基礎的かつ重要なステップとなる。

Predictive process analytics focuses on predicting the future states of running instances of a business process. While advanced machine learning techniques have been used to increase accuracy of predictions, the resulting predictive models lack transparency. Current explainable machine learning methods, such as LIME and SHAP, can be used to interpret black box models. However, it is unclear how fit for purpose these methods are in explaining process predictive models. In this paper, we draw on evaluation measures used in the field of explainable AI and propose functionally-grounde d evaluation metrics for assessing explainable methods in predictive process analytics. We apply the proposed metrics to evaluate the performance of LIME and SHAP in interpreting process predictive models built on XGBoost, which has been shown to be relatively accurate in process predictions. We conduct the evaluation using three open source, real-world event logs and analyse the evaluation results to derive insights. The research contributes to understanding the trustworthiness of explainable methods for predictive process analytics as a fundamental and key step towards human user-oriented evaluation.
翻訳日:2021-05-16 21:48:54 公開日:2020-12-08
# k-Factorization Subspace Clustering

k-Factorization Subspace Clustering ( http://arxiv.org/abs/2012.04345v1 )

ライセンス: Link先を確認
Jicong Fan(参考訳) サブスペースクラスタリング(sc)は、低次元部分空間の結合にあるデータをクラスタ化する。 通常、SCは親和性行列を学習し、スペクトルクラスタリングを行う。 どちらのステップも時間と空間の複雑さに悩まされ、大規模なデータセットのクラスタリングが困難になる。 本稿では,大規模サブスペースクラスタリングのためのk-Factorization Subspace Clustering(k-FSC)を提案する。 K-FSCは、行列因数分解モデルにおいて構造的間隔を追求することで、データをk群に分解する。 したがって、k-FSCは学習親和性行列を避け、固有値分解を行うため、大規模なデータセット上での時間と空間の複雑さが低い。 k-fscの最適化を効率的に解くアルゴリズムを提案する。 さらに、k-FSCはノイズ、外れ値、欠落したデータを処理でき、任意の規模のデータセットやストリーミングデータに適用できる。 k-FSCは最先端のサブスペースクラスタリング法よりも優れていた。

Subspace clustering (SC) aims to cluster data lying in a union of low-dimensional subspaces. Usually, SC learns an affinity matrix and then performs spectral clustering. Both steps suffer from high time and space complexity, which leads to difficulty in clustering large datasets. This paper presents a method called k-Factorization Subspace Clustering (k-FSC) for large-scale subspace clustering. K-FSC directly factorizes the data into k groups via pursuing structured sparsity in the matrix factorization model. Thus, k-FSC avoids learning affinity matrix and performing eigenvalue decomposition, and hence has low time and space complexity on large datasets. An efficient algorithm is proposed to solve the optimization of k-FSC. In addition, k-FSC is able to handle noise, outliers, and missing data and applicable to arbitrarily large datasets and streaming data. Extensive experiments show that k-FSC outperforms state-of-the-art subspace clustering methods.
翻訳日:2021-05-16 21:48:37 公開日:2020-12-08
# グラフに基づく意味的および行動的拡張されたフロアプランの生成表現学習

Graph-Based Generative Representation Learning of Semantically and Behaviorally Augmented Floorplans ( http://arxiv.org/abs/2012.04735v1 )

ライセンス: Link先を確認
Vahid Azizi, Muhammad Usman, Honglu Zhou, Petros Faloutsos and Mubbasir Kapadia(参考訳) フロアプランは一般的に建物のレイアウトを表すために使用される。 コンピュータ支援設計(CAD)では、フロアプランは通常階層グラフ構造として表現される。 自動分析や最適化など、設計プロセスを容易にする計算技術への研究は、しばしば、空間の意味を無視し、使用に関連した分析を考慮しない単純なフロアプラン表現を用いる。 そこで本研究では,生成したグラフを用いて幾何学的情報を表現するフロアプラン埋め込み手法と,住民の設計意味と行動特性をノードとエッジ属性として表現する。 長短期記憶(LSTM)変動オートエンコーダ(VAE)アーキテクチャを提案し,連続空間に属性グラフをベクトルとして埋め込むように訓練した。 入力(例えば、設計レイアウト)に関して、埋め込み空間から取得した類似のフロアプランの結合を評価するためにユーザ調査を行った。 定性的・定量的・ユーザスタディ評価により, 床計画に対する有意義かつ正確なベクトル表現が得られた。 さらに,提案モデルは生成モデルである。 新たなフロアプラン作成の有効性について検討し,実証した。 また、構築したデータセットをリリースし、各フロアプランにデザインセマンティクス属性を含むとともに、コミュニティでさらなる研究のために生成された人間の行動特性をシミュレーションします。

Floorplans are commonly used to represent the layout of buildings. In computer aided-design (CAD) floorplans are usually represented in the form of hierarchical graph structures. Research works towards computational techniques that facilitate the design process, such as automated analysis and optimization, often use simple floorplan representations that ignore the semantics of the space and do not take into account usage related analytics. We present a floorplan embedding technique that uses an attributed graph to represent the geometric information as well as design semantics and behavioral features of the inhabitants as node and edge attributes. A Long Short-Term Memory (LSTM) Variational Autoencoder (VAE) architecture is proposed and trained to embed attributed graphs as vectors in a continuous space. A user study is conducted to evaluate the coupling of similar floorplans retrieved from the embedding space with respect to a given input (e.g., design layout). The qualitative, quantitative and user-study evaluations show that our embedding framework produces meaningful and accurate vector representations for floorplans. In addition, our proposed model is a generative model. We studied and showcased its effectiveness for generating new floorplans. We also release the dataset that we have constructed and which, for each floorplan, includes the design semantics attributes as well as simulation generated human behavioral features for further study in the community.
翻訳日:2021-05-16 21:48:25 公開日:2020-12-08
# GraphFL: グラフ上の半スーパービジョンノード分類のためのフェデレートラーニングフレームワーク

GraphFL: A Federated Learning Framework for Semi-Supervised Node Classification on Graphs ( http://arxiv.org/abs/2012.04187v1 )

ライセンス: Link先を確認
Binghui Wang, Ang Li, Hai Li, Yiran Chen(参考訳) グラフベースの半教師付きノード分類(GraphSSC)には、ネットワークやセキュリティ、データマイニング、マシンラーニングなど、幅広いアプリケーションがある。 しかし、グラフ全体を収集し、適切な数のラベルをラベル付けすることは時間と費用がかかり、データのプライバシも侵害されるため、既存の集中型GraphSSCメソッドは現実的な多くのグラフベースの問題を解決するには実用的ではない。 フェデレーション学習(federated learning, fl)は、複数のクライアント間の協調学習を可能にする、新たな学習パラダイムである。 したがって、FL設定下でGraphSSCを実行することは、現実のグラフベースの問題を解決するための有望な解決策である。 しかし、既存のFLメソッドは、クライアント間でデータがIIDではない場合、2)新しいラベルドメインでデータを処理できない場合、3)ラベルのないデータを利用できない場合、そして、これらの問題は、実世界のグラフベースの問題で自然に発生する。 上記の問題に対処するために、グラフ上の半教師付きノード分類のための最初のFLフレームワーク、すなわちGraphFLを提案する。 我々のフレームワークはメタ学習によって動機付けられている。 具体的には、グラフデータの非IID問題にそれぞれ対処し、新しいラベルドメインでタスクを処理するための2つのGraphFL手法を提案する。 さらに,ラベルのないグラフデータを活用する自己学習手法を設計する。 代表グラフニューラルネットワークをGraphSSC法として採用し,複数のグラフデータセット上でGraphFLを評価する。 実験の結果,GraphFLは比較したFLベースラインよりも有意に優れており,GraphFLは自己学習により性能が向上することが示された。

Graph-based semi-supervised node classification (GraphSSC) has wide applications, ranging from networking and security to data mining and machine learning, etc. However, existing centralized GraphSSC methods are impractical to solve many real-world graph-based problems, as collecting the entire graph and labeling a reasonable number of labels is time-consuming and costly, and data privacy may be also violated. Federated learning (FL) is an emerging learning paradigm that enables collaborative learning among multiple clients, which can mitigate the issue of label scarcity and protect data privacy as well. Therefore, performing GraphSSC under the FL setting is a promising solution to solve real-world graph-based problems. However, existing FL methods 1) perform poorly when data across clients are non-IID, 2) cannot handle data with new label domains, and 3) cannot leverage unlabeled data, while all these issues naturally happen in real-world graph-based problems. To address the above issues, we propose the first FL framework, namely GraphFL, for semi-supervised node classification on graphs. Our framework is motivated by meta-learning methods. Specifically, we propose two GraphFL methods to respectively address the non-IID issue in graph data and handle the tasks with new label domains. Furthermore, we design a self-training method to leverage unlabeled graph data. We adopt representative graph neural networks as GraphSSC methods and evaluate GraphFL on multiple graph datasets. Experimental results demonstrate that GraphFL significantly outperforms the compared FL baseline and GraphFL with self-training can obtain better performance.
翻訳日:2021-05-16 21:46:07 公開日:2020-12-08
# ライジングバンドによる効率的な自動CASH

Efficient Automatic CASH via Rising Bandits ( http://arxiv.org/abs/2012.04371v1 )

ライセンス: Link先を確認
Yang Li, Jiawei Jiang, Jinyang Gao, Yingxia Shao, Ce Zhang, Bin Cui(参考訳) アルゴリズム選択とハイパーパラメータ最適化(CASH)は自動機械学習(AutoML)における最も基本的な問題の1つである。 既存のベイズ最適化(BO)ベースのソリューションは、すべての機械学習(ML)アルゴリズムのハイパーパラメータを組み合わせることで、CASH問題をハイパーパラメータ最適化(HPO)問題に変換し、その解決にBOメソッドを使用する。 その結果、これらの手法はCASHの巨大なハイパーパラメータ空間に起因する低効率な問題に悩まされる。 この問題を軽減するために,各MLアルゴリズムにおけるHPO問題とアルゴリズム選択問題とを交互に最適化する交互最適化フレームワークを提案する。 このフレームワークでは、BO法は各MLアルゴリズムのHPO問題を個別に解くために使用され、BO法に対してはるかに小さなハイパーパラメータ空間が組み込まれている。 さらに,キャッシュ指向マルチアームバンディット (mab) 変種であるライジング・バンディット (riseing bandits) を導入し,アルゴリズム選択をキャッシュでモデル化する。 このフレームワークは,HPO問題を比較的小さなハイパーパラメータ空間で解く際のBOと,アルゴリズムの選択を高速化するMABの両方の利点を生かすことができる。 さらに,提案手法を理論的に保証できる効率的なオンラインアルゴリズムを開発した。 30個のopenmlデータセットに関する広範な実験は、提案されたアプローチが競合ベースラインよりも優れていることを示している。

The Combined Algorithm Selection and Hyperparameter optimization (CASH) is one of the most fundamental problems in Automatic Machine Learning (AutoML). The existing Bayesian optimization (BO) based solutions turn the CASH problem into a Hyperparameter Optimization (HPO) problem by combining the hyperparameters of all machine learning (ML) algorithms, and use BO methods to solve it. As a result, these methods suffer from the low-efficiency problem due to the huge hyperparameter space in CASH. To alleviate this issue, we propose the alternating optimization framework, where the HPO problem for each ML algorithm and the algorithm selection problem are optimized alternately. In this framework, the BO methods are used to solve the HPO problem for each ML algorithm separately, incorporating a much smaller hyperparameter space for BO methods. Furthermore, we introduce Rising Bandits, a CASH-oriented Multi-Armed Bandits (MAB) variant, to model the algorithm selection in CASH. This framework can take the advantages of both BO in solving the HPO problem with a relatively small hyperparameter space and the MABs in accelerating the algorithm selection. Moreover, we further develop an efficient online algorithm to solve the Rising Bandits with provably theoretical guarantees. The extensive experiments on 30 OpenML datasets demonstrate the superiority of the proposed approach over the competitive baselines.
翻訳日:2021-05-16 21:45:21 公開日:2020-12-08
# 深層ニューラルネットワークによる関数データの平均関数の推定

Estimation of the Mean Function of Functional Data via Deep Neural Networks ( http://arxiv.org/abs/2012.04573v1 )

ライセンス: Link先を確認
Shuoyang Wang, Guanqun Cao, Zuofeng Shang(参考訳) 本研究では,関数データに対して非パラメトリック回帰を行うディープニューラルネットワーク手法を提案する。 提案した推定器は、ReLUアクティベーション機能を持つ疎結合なディープニューラルネットワークに基づいている。 ネットワークアーキテクチャを適切に選択することにより,実験ノルムの最適非パラメトリック収束率を推定する。 三角多項式核や十分に大きなサンプリング周波数のような特定の状況下では、収束率はルート=n$レートよりもさらに速い。 モンテカルロシミュレーションにより,提案手法の有限サンプル性能について検討した。 最後に,アルツハイマー病ニューロイメージングイニシアチブデータベースから得られたアルツハイマー病患者のポジトロン放射トモグラフィー画像の解析に本手法を適用した。

In this work, we propose a deep neural network method to perform nonparametric regression for functional data. The proposed estimators are based on sparsely connected deep neural networks with ReLU activation function. By properly choosing network architecture, our estimator achieves the optimal nonparametric convergence rate in empirical norm. Under certain circumstances such as trigonometric polynomial kernel and a sufficiently large sampling frequency, the convergence rate is even faster than root-$n$ rate. Through Monte Carlo simulation studies we examine the finite-sample performance of the proposed method. Finally, the proposed method is applied to analyze positron emission tomography images of patients with Alzheimer disease obtained from the Alzheimer Disease Neuroimaging Initiative database.
翻訳日:2021-05-16 21:44:17 公開日:2020-12-08
# 拡張下におけるモデル予測のロバスト性

Robustness of Model Predictions under Extension ( http://arxiv.org/abs/2012.04723v1 )

ライセンス: Link先を確認
Tineke Blom and Joris M. Mooij(参考訳) 実世界の数学的モデルはしばしば複雑なシステムの単純化された表現である。 解析にモデルを使うことの注意点として、予測因果効果と条件独立性はモデル拡張の下では堅牢ではないため、そのようなモデルの適用性は限られている。 本研究では,2つのモデルを組み合わせると定性的モデル予測が保存される条件を考える。 本稿では,質的モデル予測のロバスト性を評価するための因果順序付けの手法と,これらの予測を保存するモデル拡張の大規模クラスを特徴付ける方法を示す。 平衡の力学系では、新しい洞察が適切なモデル拡張を選択し、フィードバックループの存在を推論するのにどのように役立つかを示す。 免疫応答を有するウイルス感染モデルに適用する。

Often, mathematical models of the real world are simplified representations of complex systems. A caveat to using models for analysis is that predicted causal effects and conditional independences may not be robust under model extensions, and therefore applicability of such models is limited. In this work, we consider conditions under which qualitative model predictions are preserved when two models are combined. We show how to use the technique of causal ordering to efficiently assess the robustness of qualitative model predictions and characterize a large class of model extensions that preserve these predictions. For dynamical systems at equilibrium, we demonstrate how novel insights help to select appropriate model extensions and to reason about the presence of feedback loops. We apply our ideas to a viral infection model with immune responses.
翻訳日:2021-05-16 21:44:08 公開日:2020-12-08
# クロスドメインディスタングルのための変分相互作用情報最大化

Variational Interaction Information Maximization for Cross-domain Disentanglement ( http://arxiv.org/abs/2012.04251v1 )

ライセンス: Link先を確認
HyeongJoo Hwang, Geon-Hyeong Kim, Seunghoon Hong, Kee-Eung Kim(参考訳) ドメイン間の絡み合いはドメイン不変表現とドメイン固有表現に分けられる表現の学習の問題であり、ドメイン転送の成功や2つのドメイン間の意味的距離の測定の鍵となる。 情報理論を基礎として,複数の情報制約の連立目的として,ドメイン不変表現とドメイン固有表現の同時学習を行った。 目的の抽出可能な境界を導出し,IIAE(Interaction Information Auto-Encoder)と呼ばれる生成モデルを提案する。 提案手法は,クロスドメイン・アンタングルメントの望ましい表現と,変分オートエンコーダ(VAE)との接続に関する知見を明らかにする。 画像から画像への変換とドメイン間の検索タスクにおけるモデルの有効性を示す。 さらに, ゼロショットスケッチに基づく画像検索作業において, 外部知識を必要とせずに, 最先端の性能を実現することを示す。 私たちの実装は、https://github.com/g r8joo/IIAEで公開されています。

Cross-domain disentanglement is the problem of learning representations partitioned into domain-invariant and domain-specific representations, which is a key to successful domain transfer or measuring semantic distance between two domains. Grounded in information theory, we cast the simultaneous learning of domain-invariant and domain-specific representations as a joint objective of multiple information constraints, which does not require adversarial training or gradient reversal layers. We derive a tractable bound of the objective and propose a generative model named Interaction Information Auto-Encoder (IIAE). Our approach reveals insights on the desirable representation for cross-domain disentanglement and its connection to Variational Auto-Encoder (VAE). We demonstrate the validity of our model in the image-to-image translation and the cross-domain retrieval tasks. We further show that our model achieves the state-of-the-art performance in the zero-shot sketch based image retrieval task, even without external knowledge. Our implementation is publicly available at: https://github.com/g r8joo/IIAE
翻訳日:2021-05-16 21:43:43 公開日:2020-12-08
# 球上の信号の回転不変オートエンコーダ

Rotation-Invariant Autoencoders for Signals on Spheres ( http://arxiv.org/abs/2012.04474v1 )

ライセンス: Link先を確認
Suhas Lohit, Shubhendu Trivedi(参考訳) 通常の2次元畳み込みニューラルネットワーク(CNN)では,3Dの形状の全体像や球面表現は処理できない。 球面とSO(3)$の畳み込みを高速に実装した研究者は、最近、球面画像の分類に適したディープラーニング手法を開発した。 これらの新しく提案された畳み込み層は、単位球面 $s^2$ と回転群 $so(3)$ への畳み込みの概念を自然に拡張し、3次元回転に同値である。 本稿では,球面画像に対する回転不変表現の教師なし学習の問題について考察する。 特に,$S^2$と$SO(3)$の畳み込み層からなるオートエンコーダアーキテクチャを慎重に設計する。 3次元回転はしばしばニュアンス因子であるため、潜在空間はこれらの入力変換に正確に不変であると制約される。 回転情報が潜在空間に捨てられるため、ネットワークをトレーニングするための新たな回転不変損失関数を構築する。 複数のデータセットに関する広範な実験は、クラスタリング、検索、分類アプリケーションにおける学習表現の有用性を示している。

Omnidirectional images and spherical representations of $3D$ shapes cannot be processed with conventional 2D convolutional neural networks (CNNs) as the unwrapping leads to large distortion. Using fast implementations of spherical and $SO(3)$ convolutions, researchers have recently developed deep learning methods better suited for classifying spherical images. These newly proposed convolutional layers naturally extend the notion of convolution to functions on the unit sphere $S^2$ and the group of rotations $SO(3)$ and these layers are equivariant to 3D rotations. In this paper, we consider the problem of unsupervised learning of rotation-invariant representations for spherical images. In particular, we carefully design an autoencoder architecture consisting of $S^2$ and $SO(3)$ convolutional layers. As 3D rotations are often a nuisance factor, the latent space is constrained to be exactly invariant to these input transformations. As the rotation information is discarded in the latent space, we craft a novel rotation-invariant loss function for training the network. Extensive experiments on multiple datasets demonstrate the usefulness of the learned representations on clustering, retrieval and classification applications.
翻訳日:2021-05-16 21:43:26 公開日:2020-12-08
# ODFNet: 配向分布関数を用いて3次元点雲を特徴づける

ODFNet: Using orientation distribution functions to characterize 3D point clouds ( http://arxiv.org/abs/2012.04708v1 )

ライセンス: Link先を確認
Yusuf H. Sahin, Alican Mertan, Gozde Unal(参考訳) 3Dポイントクラウドの新しい表現を学ぶことは、3Dビジョンにおける活発な研究領域である。 近年の研究では、グローバルあるいはローカルな特徴の学習や、ポイントクラウドの学習が研究されているが、以前の手法では、ポイントの局所的方向分布を分析することで、文脈的形状情報を捉えることに重点を置いていなかった。 本稿では,点群に対する局所的近傍表現を得るために,点群周辺の点配向分布を利用する。 与えられた点の球面近傍を予め定義された円錐体積に分割してこれを達成し、各体積内の統計を点特徴として用いる。 このように、局所パッチは、選択された点の最も近い近傍だけでなく、点周辺の複数の方向に沿って定義された点密度分布も考慮して表現することができる。 次に、mlp (multi-layer perceptron) 層に依存する ODFBlock を含む配向分布関数(ODF)ニューラルネットワークを構築することができる。 新しいODFNetモデルは、ModelNet40およびScanObjectNNデータセットのオブジェクト分類とShapeNet S3DISデータセットのセグメンテーションの最先端の精度を達成する。

Learning new representations of 3D point clouds is an active research area in 3D vision, as the order-invariant point cloud structure still presents challenges to the design of neural network architectures. Recent works explored learning either global or local features or both for point clouds, however none of the earlier methods focused on capturing contextual shape information by analysing local orientation distribution of points. In this paper, we leverage on point orientation distributions around a point in order to obtain an expressive local neighborhood representation for point clouds. We achieve this by dividing the spherical neighborhood of a given point into predefined cone volumes, and statistics inside each volume are used as point features. In this way, a local patch can be represented by not only the selected point's nearest neighbors, but also considering a point density distribution defined along multiple orientations around the point. We are then able to construct an orientation distribution function (ODF) neural network that involves an ODFBlock which relies on mlp (multi-layer perceptron) layers. The new ODFNet model achieves state-of the-art accuracy for object classification on ModelNet40 and ScanObjectNN datasets, and segmentation on ShapeNet S3DIS datasets.
翻訳日:2021-05-16 21:42:57 公開日:2020-12-08
# Canonical Capsules: Ansupervised Capsules in Canonical Pose

Canonical Capsules: Unsupervised Capsules in Canonical Pose ( http://arxiv.org/abs/2012.04718v1 )

ライセンス: Link先を確認
Weiwei Sun, Andrea Tagliasacchi, Boyang Deng, Sara Sabour, Soroosh Yazdani, Geoffrey Hinton, Kwang Moo Yi(参考訳) 3dポイントクラウドのための教師なしカプセルアーキテクチャを提案する。 物体のカプセル分解を順列同値な注意を通して計算し,ランダムに回転する物体のペアを訓練することで自己監視を行う。 私たちの重要なアイデアは、アテンションマスクをセマンティックキーポイントに集約し、カプセルの不分散/共分散特性を満たす分解を監督することです。 これは意味的に一貫した分解のトレーニングを可能にするだけでなく、オブジェクト中心の推論を可能にする標準化操作を学べる。 そのためには、分類ラベルや手作業によるトレーニングデータセットのトレーニングは必要ありません。 しかし、オブジェクト中心の表現を教師なしで学習することにより、3Dポイントクラウドの再構築、登録、教師なし分類における最先端の手法よりも優れる。 論文が公開されたらすぐに結果を再現するためのコードとデータセットをリリースします。

We propose an unsupervised capsule architecture for 3D point clouds. We compute capsule decompositions of objects through permutation-equivari ant attention, and self-supervise the process by training with pairs of randomly rotated objects. Our key idea is to aggregate the attention masks into semantic keypoints, and use these to supervise a decomposition that satisfies the capsule invariance/equivaria nce properties. This not only enables the training of a semantically consistent decomposition, but also allows us to learn a canonicalization operation that enables object-centric reasoning. In doing so, we require neither classification labels nor manually-aligned training datasets to train. Yet, by learning an object-centric representation in an unsupervised manner, our method outperforms the state-of-the-art on 3D point cloud reconstruction, registration, and unsupervised classification. We will release the code and dataset to reproduce our results as soon as the paper is published.
翻訳日:2021-05-16 21:42:35 公開日:2020-12-08
# ランドマークによる大規模クラウド検出のためのパターン認識方式

Pattern Recognition Scheme for Large-Scale Cloud Detection over Landmarks ( http://arxiv.org/abs/2012.12306v1 )

ライセンス: Link先を確認
Adri\'an P\'erez-Suay, Julia Amor\'os-L\'opez, Luis G\'omez-Chova, Jordi Mu\~noz-Mar\'i, Dieter Just, Gustau Camps-Valls(参考訳) ランドマーク認識とマッチングは、静止衛星サービスのための多くの画像ナビゲーションおよび登録(INR)モデルにおいて重要なステップであり、地球観測衛星のデータ処理チェーンにおける幾何学的品質評価(GQA)を維持している。 ランドマークの正確な一致は最重要であり、そのプロセスは指定されたランドマークの雲の汚染によって強く影響を受ける可能性がある。 本稿では,Meteosat Second Generation (MSG)データを用いて,ランドマーク上の雲の存在を検出できる完全なパターン認識手法を提案する。 この手法は、特定のランドマークと照明条件に依存する専用サポートベクトルマシン(SVM)のアンサンブルの組み合わせに基づいている。 この分割・分割戦略はデータの複雑さに動機付けられ、観測を分割するために日中の季節性と照明条件の両方における変動性を考慮した物理ベースの戦略に従う。 さらに、数百万のサンプルで安価な計算コストで分類スキームを訓練することができる。 画像アーカイブは、2010年のMSG買収に対応する700万枚近いマルチスペクトル画像を持つ200のランドマークテストサイトで構成されている。 結果はクラウド検出精度と計算コストの観点から分析される。 コミュニティには、図形的なソースコードと巨大なトレーニングデータの一部を提供します。

Landmark recognition and matching is a critical step in many Image Navigation and Registration (INR) models for geostationary satellite services, as well as to maintain the geometric quality assessment (GQA) in the instrument data processing chain of Earth observation satellites. Matching the landmark accurately is of paramount relevance, and the process can be strongly impacted by the cloud contamination of a given landmark. This paper introduces a complete pattern recognition methodology able to detect the presence of clouds over landmarks using Meteosat Second Generation (MSG) data. The methodology is based on the ensemble combination of dedicated support vector machines (SVMs) dependent on the particular landmark and illumination conditions. This divide-and-conquer strategy is motivated by the data complexity and follows a physically-based strategy that considers variability both in seasonality and illumination conditions along the day to split observations. In addition, it allows training the classification scheme with millions of samples at an affordable computational costs. The image archive was composed of 200 landmark test sites with near 7 million multispectral images that correspond to MSG acquisitions during 2010. Results are analyzed in terms of cloud detection accuracy and computational cost. We provide illustrative source code and a portion of the huge training data to the community.
翻訳日:2021-05-16 21:41:47 公開日:2020-12-08
# 異常変化検出のための非線形クック距離

Nonlinear Cook distance for Anomalous Change Detection ( http://arxiv.org/abs/2012.12307v1 )

ライセンス: Link先を確認
Jos\'e A. Padr\'on Hidalgo, Adri\'an P\'erez-Suay, Fatih Nar, Gustau Camps-Valls(参考訳) 本研究では,クロノクロームアプローチに基づくリモートセンシング画像の異常な変化を検出する手法を提案する。 画像間の回帰器を用いて、観測されたデータの中で最も影響力のある点を発見する。 通常、最大残差の画素は異常な変化であると決定される。 異常画素を見つけるため、クック距離を考慮し、ランダムフーリエ特徴を用いた非線形拡張を効率的な衝突の非線形測度として提案する。 roc曲線を用いて視覚的および定量的に評価した異なるマルチスペクトル画像に対して良好な経験的性能を示す。

In this work we propose a method to find anomalous changes in remote sensing images based on the chronochrome approach. A regressor between images is used to discover the most {\em influential points} in the observed data. Typically, the pixels with largest residuals are decided to be anomalous changes. In order to find the anomalous pixels we consider the Cook distance and propose its nonlinear extension using random Fourier features as an efficient nonlinear measure of impact. Good empirical performance is shown over different multispectral images both visually and quantitatively evaluated with ROC curves.
翻訳日:2021-05-16 21:41:29 公開日:2020-12-08
# ターゲット検出のためのランダム化RX

Randomized RX for target detection ( http://arxiv.org/abs/2012.12308v1 )

ライセンス: Link先を確認
Fatih Nar, Adri\'an P\'erez-Suay, Jos\'e Antonio Padr\'on, Gustau Camps-Valls(参考訳) この研究は、よく知られたグローバルRX法によるターゲット検出問題に取り組む。 rx法はクラッタを多変量ガウス分布としてモデル化し、カーネル法を用いて非線形分布に拡張した。 カーネルRXは複雑な乱雑に対処できるが、乱雑なピクセルの数が増えるにつれて、かなりの量の計算資源を必要とする。 本稿では,カーネルrxのガウス核を近似するランダムフーリエ特性を提案し,非線形性の精度を維持しつつ,ハイパーパラメータによって制御される計算コストを低減した。 合成および実世界の画像ターゲット検出問題に対する結果から, 高い検出性能を保ちながら, 提案手法の時間的, 時間的効率を示す。

This work tackles the target detection problem through the well-known global RX method. The RX method models the clutter as a multivariate Gaussian distribution, and has been extended to nonlinear distributions using kernel methods. While the kernel RX can cope with complex clutters, it requires a considerable amount of computational resources as the number of clutter pixels gets larger. Here we propose random Fourier features to approximate the Gaussian kernel in kernel RX and consequently our development keep the accuracy of the nonlinearity while reducing the computational cost which is now controlled by an hyperparameter. Results over both synthetic and real-world image target detection problems show space and time efficiency of the proposed method while providing high detection performance.
翻訳日:2021-05-16 21:41:21 公開日:2020-12-08
# River: Pythonでデータをストリーミングするための機械学習

River: machine learning for streaming data in Python ( http://arxiv.org/abs/2012.04740v1 )

ライセンス: Link先を確認
Jacob Montiel, Max Halford, Saulo Martiello Mastelini, Geoffrey Bolmier, Raphael Sourty, Robin Vaysse, Adil Zouitine, Heitor Murilo Gomes, Jesse Read, Talel Abdessalem, Albert Bifet(参考訳) Riverは、動的データストリームと継続的学習のための機械学習ライブラリである。 複数の最先端の学習方法、データジェネレータ/変換器、パフォーマンスメトリクス、異なるストリーム学習問題に対する評価器を提供する。 これはPythonでストリーム学習に最も人気のある2つのパッケージであるCremeとScikit-multiflowの合併によるものだ。 Riverは、セミナーパッケージから学んだ教訓に基づいて、アーキテクチャを改良した。 Riverの野望は、ストリーミングデータで機械学習を行うためのライブラリになることだ。 さらに、このオープンソースパッケージは同じ傘の下に、実践者や研究者の大規模なコミュニティをもたらしている。 ソースコードはhttps://github.com/o nline-ml/riverで入手できる。

River is a machine learning library for dynamic data streams and continual learning. It provides multiple state-of-the-art learning methods, data generators/transform ers, performance metrics and evaluators for different stream learning problems. It is the result from the merger of the two most popular packages for stream learning in Python: Creme and scikit-multiflow. River introduces a revamped architecture based on the lessons learnt from the seminal packages. River's ambition is to be the go-to library for doing machine learning on streaming data. Additionally, this open source package brings under the same umbrella a large community of practitioners and researchers. The source code is available at https://github.com/o nline-ml/river.
翻訳日:2021-05-16 21:39:05 公開日:2020-12-08
# ランダム非同期線形時間不変系の安定性と同定

Stability and Identification of Random Asynchronous Linear Time-Invariant Systems ( http://arxiv.org/abs/2012.04160v1 )

ライセンス: Link先を確認
Sahin Lale, Oguzhan Teke, Babak Hassibi, Anima Anandkumar(参考訳) 多くの計算処理や力学系において、非同期とランダム化は自然に存在し、精度と収束率を妥協しながら計算の速度とコストを下げる方法として考えられてきた。 本研究では,線形力学系の安定性に対するランダム化と非同期化の付加的な利点を示す。 本稿では、標準(同期)LTIシステムを一般化したランダム非同期線形時間不変系(LTI)の自然モデルを提案する。 このモデルでは、各状態変数は、基礎となるシステムダイナミクスに従って、ある程度の確率でランダムに非同期に更新される。 ランダムな非同期LTIシステムの平均2乗安定性は、ランダム化と非同期化に関してどのように異なるかを検討する。 驚くべきことに、ランダムな非同期ltiシステムの安定性は、システムの同期変異の安定性や不安定な同期システムのランダム化および/または非同期性によって安定化されるわけではない。 さらに,各状態要素を一定だが未知の確率でランダムに更新する,ランダム化ltiシステムという導入モデルの特別な場合についても検討する。 本稿では,Lyapunov 方程式を用いた平均二乗安定性の精度評価を用いて,未知のランダム化 LTI システムのシステム同定の問題を考える。 未知のランダム化LTIシステムに対して,基礎となる力学を復元するための系統的同定手法を提案する。 本手法は,1つの入力/出力軌道が与えられた場合,システムダイナミクス,状態変数の更新確率,および,収集データと拡張リアプノフ方程式の相関行列を用いたノイズ共分散を推定する。 最後に,提案手法が最適速度でシステムダイナミクスを常に回復することを実証的に示す。

In many computational tasks and dynamical systems, asynchrony and randomization are naturally present and have been considered as ways to increase the speed and reduce the cost of computation while compromising the accuracy and convergence rate. In this work, we show the additional benefits of randomization and asynchrony on the stability of linear dynamical systems. We introduce a natural model for random asynchronous linear time-invariant (LTI) systems which generalizes the standard (synchronous) LTI systems. In this model, each state variable is updated randomly and asynchronously with some probability according to the underlying system dynamics. We examine how the mean-square stability of random asynchronous LTI systems vary with respect to randomization and asynchrony. Surprisingly, we show that the stability of random asynchronous LTI systems does not imply or is not implied by the stability of the synchronous variant of the system and an unstable synchronous system can be stabilized via randomization and/or asynchrony. We further study a special case of the introduced model, namely randomized LTI systems, where each state element is updated randomly with some fixed but unknown probability. We consider the problem of system identification of unknown randomized LTI systems using the precise characterization of mean-square stability via extended Lyapunov equation. For unknown randomized LTI systems, we propose a systematic identification method to recover the underlying dynamics. Given a single input/output trajectory, our method estimates the model parameters that govern the system dynamics, the update probability of state variables, and the noise covariance using the correlation matrices of collected data and the extended Lyapunov equation. Finally, we empirically demonstrate that the proposed method consistently recovers the underlying system dynamics with the optimal rate.
翻訳日:2021-05-16 21:37:41 公開日:2020-12-08
# パンデミック時のオリンピックメダル分布予測 : 社会経済機械学習モデル

Forecasting the Olympic medal distribution during a pandemic: a socio-economic machine learning model ( http://arxiv.org/abs/2012.04378v1 )

ライセンス: Link先を確認
Christoph Schlembach, Sascha L. Schmidt, Dominik Schreyer, Linus Wunderlich(参考訳) 各国のオリンピックのメダル数を予測することは、さまざまな利害関係者にとって非常に意味がある。ex ante, sports betting companyは、スポンサーやメディア企業が彼らのリソースを有望なチームに割り当てることができるのに対し、オッズを決定することができる。 スポーツの政治家やマネージャーは、チームのパフォーマンスをベンチマークし、成功の要因を評価することができる。 オリンピックのメダル予測精度を大幅に向上させるため,2008年から2016年にかけて開催された3回のオリンピックにおいて,機械学習,特に2段階のランダムフォレストを適用した。 2021年の東京五輪に関しては、米国が120個のメダルを獲得し、次いで中国(87個)とイギリス(74個)が優勝するというモデルが提案されている。 興味深いことに、現在の新型コロナウイルス(COVID-19)パンデミックは、すべての国がパンデミックにある程度(データ固有の)苦しむため、メダル数を大きく変えることはないと予測しています。

Forecasting the number of Olympic medals for each nation is highly relevant for different stakeholders: Ex ante, sports betting companies can determine the odds while sponsors and media companies can allocate their resources to promising teams. Ex post, sports politicians and managers can benchmark the performance of their teams and evaluate the drivers of success. To significantly increase the Olympic medal forecasting accuracy, we apply machine learning, more specifically a two-staged Random Forest, thus outperforming more traditional na\"ive forecast for three previous Olympics held between 2008 and 2016 for the first time. Regarding the Tokyo 2020 Games in 2021, our model suggests that the United States will lead the Olympic medal table, winning 120 medals, followed by China (87) and Great Britain (74). Intriguingly, we predict that the current COVID-19 pandemic will not significantly alter the medal count as all countries suffer from the pandemic to some extent (data inherent) and limited historical data points on comparable diseases (model inherent).
翻訳日:2021-05-16 21:36:57 公開日:2020-12-08
# NeRD:イメージコレクションからのニューラルリフレクタンス分解

NeRD: Neural Reflectance Decomposition from Image Collections ( http://arxiv.org/abs/2012.03918v2 )

ライセンス: Link先を確認
Mark Boss, Raphael Braun, Varun Jampani, Jonathan T. Barron, Ce Liu, Hendrik P.A. Lensch(参考訳) シーンをその形状、反射率、照明に分解することは、コンピュータビジョンとグラフィックスにおいて難しいが不可欠な問題である。 この問題は、実験室の条件下で照明が単一の光源ではなく、制約のない環境照明である場合、本質的により困難である。 近年の研究では、暗黙の表現はオブジェクトの放射フィールドのモデル化に使用できることが示されているが、これらの技法はビューの合成のみが可能であり、リライトはできない。 さらに、これらの放射場の評価は資源と時間集約的である。 シーンを明示的な表現に分解することで、任意のレンダリングフレームワークをリアルタイムで新しいビューを生成することができる。 NeRDは、神経放射場に物理ベースのレンダリングを導入することで、この分解を実現する方法である。 非ランベルト反射率、複素幾何、未知の照明さえも高品質のモデルに分解できる。 データセットとコードはプロジェクトページで入手できる。 https://markboss.me/ publication/2021-ner d/

Decomposing a scene into its shape, reflectance, and illumination is a challenging but essential problem in computer vision and graphics. This problem is inherently more challenging when the illumination is not a single light source under laboratory conditions but is instead an unconstrained environmental illumination. Though recent work has shown that implicit representations can be used to model the radiance field of an object, these techniques only enable view synthesis and not relighting. Additionally, evaluating these radiance fields is resource and time-intensive. By decomposing a scene into explicit representations, any rendering framework can be leveraged to generate novel views under any illumination in real-time. NeRD is a method that achieves this decomposition by introducing physically-based rendering to neural radiance fields. Even challenging non-Lambertian reflectances, complex geometry, and unknown illumination can be decomposed to high-quality models. The datasets and code is available at the project page: https://markboss.me/ publication/2021-ner d/
翻訳日:2021-05-16 21:35:28 公開日:2020-12-08
# 逆動画に対する過剰表現

Overcomplete Representations Against Adversarial Videos ( http://arxiv.org/abs/2012.04262v1 )

ライセンス: Link先を確認
Shao-Yuan Lo, Jeya Maria Jose Valanarasu, Vishal M. Patel(参考訳) ディープニューラルネットワークの敵対的堅牢性は、文献で広く研究されている問題であり、敵画像に対して様々な方法が提案されている。 しかし、攻撃されたビデオに対する防衛策はごくわずかしか開発されていない。 本稿では,OUDefend(Over-and-U nder complete restoration network for Defending against adversarial video)を提案する。 ほとんどの復元ネットワークはエンコーダ・デコーダアーキテクチャを採用しており、まず空間次元を縮小し、拡張する。 このアプローチは、グローバル情報を集めるための大きな受容領域を持つ未完成表現を学習するが、局所的な詳細を見落としている。 一方、超完全表現は逆の性質を持つ。 したがって、OUDefendはこれらの2つの表現を学習することで、ローカルとグローバルの機能のバランスをとるように設計されている。 我々は,OUDefendを特徴回復ブロックとしてターゲットビデオ認識モデルにアタッチし,ネットワーク全体をエンドツーエンドにトレーニングする。 OUDefendは、加算攻撃、乗算攻撃、物理的に実現可能な攻撃など、様々なタイプの敵対的ビデオに対する堅牢性を高める。

Adversarial robustness of deep neural networks is an extensively studied problem in the literature and various methods have been proposed to defend against adversarial images. However, only a handful of defense methods have been developed for defending against attacked videos. In this paper, we propose a novel Over-and-Under complete restoration network for Defending against adversarial videos (OUDefend). Most restoration networks adopt an encoder-decoder architecture that first shrinks spatial dimension then expands it back. This approach learns undercomplete representations, which have large receptive fields to collect global information but overlooks local details. On the other hand, overcomplete representations have opposite properties. Hence, OUDefend is designed to balance local and global features by learning those two representations. We attach OUDefend to target video recognition models as a feature restoration block and train the entire network end-to-end. Experimental results show that the defenses focusing on images may be ineffective to videos, while OUDefend enhances robustness against different types of adversarial videos, ranging from additive attacks, multiplicative attacks to physically realizable attacks.
翻訳日:2021-05-16 21:35:15 公開日:2020-12-08
# 分類課題に基づく強化学習は、より良い一般化と敵意の正確さをもたらす

Reinforcement Based Learning on Classification Task Could Yield Better Generalization and Adversarial Accuracy ( http://arxiv.org/abs/2012.04353v1 )

ライセンス: Link先を確認
Shashi Kant Gupta(参考訳) ディープラーニングはコンピュータビジョンにおいて興味深い人気を博し、様々なビジョンタスクで人間レベルのパフォーマンスをほぼ超えている。 しかし、最近の研究は、これらのディープニューラルネットワークが敵の例に対して非常に脆弱であることも示している(逆例 – 元々のデータと自然に類似しているが、間違ったクラスに分類するモデルへの入力)。 人間はそのような摂動に対して非常に頑健であり、その1つの理由は、人間が「目標ラベル」と「予測ラベル」の誤差に基づいて分類することを学ばないが、その予測で受ける強化によって、おそらくは分類される可能性があるからである。 本研究では,画像分類タスクにおいて,ディープラーニングモデルを学習するための新しい手法を提案する。 強化学習で用いられるバニラポリシー勾配法に類似した報酬に基づく最適化関数を用いて,従来のクロスエントロピー損失の代わりにモデルを訓練した。 cifar10データセットの実証的評価により,クロスエントロピー損失関数(対向訓練)を用いて訓練された同じモデルアーキテクチャよりもロバストな分類法が得られた。 一方,本手法では,テスト精度とトレーニング精度の差により,ほとんどの時間において<2\%$であり,その差はほとんどが$>2\%$であるクロスエントロピー法と比較して,より良い一般化を示す。

Deep Learning has become interestingly popular in computer vision, mostly attaining near or above human-level performance in various vision tasks. But recent work has also demonstrated that these deep neural networks are very vulnerable to adversarial examples (adversarial examples - inputs to a model which are naturally similar to original data but fools the model in classifying it into a wrong class). Humans are very robust against such perturbations; one possible reason could be that humans do not learn to classify based on an error between "target label" and "predicted label" but possibly due to reinforcements that they receive on their predictions. In this work, we proposed a novel method to train deep learning models on an image classification task. We used a reward-based optimization function, similar to the vanilla policy gradient method used in reinforcement learning, to train our model instead of conventional cross-entropy loss. An empirical evaluation on the cifar10 dataset showed that our method learns a more robust classifier than the same model architecture trained using cross-entropy loss function (on adversarial training). At the same time, our method shows a better generalization with the difference in test accuracy and train accuracy $< 2\%$ for most of the time compared to the cross-entropy one, whose difference most of the time remains $> 2\%$.
翻訳日:2021-05-16 21:34:58 公開日:2020-12-08
# GMMに基づく生成逆エンコーダ学習

GMM-Based Generative Adversarial Encoder Learning ( http://arxiv.org/abs/2012.04525v1 )

ライセンス: Link先を確認
Yuri Feigin and Hedva Spitzer and Raja Giryes(参考訳) GANは画像を生成する強力なモデルであるが、遅延空間を推論できないため、エンコーダを必要とするアプリケーションでは直接使用が制限される。 本稿では,ganの生成能力とエンコーダを組み合わせたシンプルなアーキテクチャ構成を提案する。 共有重みを用いてエンコーダと判別器を組み合わせることでこれを達成し、新たな損失項を用いて同時に訓練する。 GMMを用いてエンコーダ潜在空間の出力をモデル化し、この潜在空間を用いた優れたクラスタリングと、GANによる画像生成の改善を両立させる。 私たちのフレームワークは汎用的で、あらゆるgan戦略に簡単にプラグインできます。 特に、我々はVanilla GAN と Wasserstein GAN でこれを実証し、どちらもIS と FID のスコアで生成された画像の改善につながっている。 さらに,クラスタ化の結果が現在のganベースのクラスタリングの最先端と競合するため,エンコーダは有意義な表現を学習することを示した。

While GAN is a powerful model for generating images, its inability to infer a latent space directly limits its use in applications requiring an encoder. Our paper presents a simple architectural setup that combines the generative capabilities of GAN with an encoder. We accomplish this by combining the encoder with the discriminator using shared weights, then training them simultaneously using a new loss term. We model the output of the encoder latent space via a GMM, which leads to both good clustering using this latent space and improved image generation by the GAN. Our framework is generic and can be easily plugged into any GAN strategy. In particular, we demonstrate it both with Vanilla GAN and Wasserstein GAN, where in both it leads to an improvement in the generated images in terms of both the IS and FID scores. Moreover, we show that our encoder learns a meaningful representation as its clustering results are competitive with the current GAN-based state-of-the-art in clustering.
翻訳日:2021-05-16 21:34:31 公開日:2020-12-08
# 一般化イテレーテッドサムシグネチャ

Generalized iterated-sums signatures ( http://arxiv.org/abs/2012.04597v1 )

ライセンス: Link先を確認
Joscha Diehl, Kurusch Ebrahimi-Fard, Nikolas Tapia(参考訳) 我々は、F.~Kir\'aly と H.~Oberhauser の以前の研究に触発された、反復和符号の一般化版の代数的性質を探求する。 特に、テンソル代数上の関連する線型写像のキャラクタ特性を、後者の単語の変形した準シャッフル積を考えることによって回復する方法を示す。 繰り返しサマーシグネチャに3つの非線形変換を導入し、機械学習アプリケーションに近づき、それらの特性をいくつか示す。

We explore the algebraic properties of a generalized version of the iterated-sums signature, inspired by previous work of F.~Kir\'aly and H.~Oberhauser. In particular, we show how to recover the character property of the associated linear map over the tensor algebra by considering a deformed quasi-shuffle product of words on the latter. We introduce three non-linear transformations on iterated-sums signatures, close in spirit to Machine Learning applications, and show some of their properties.
翻訳日:2021-05-16 21:34:17 公開日:2020-12-08
# 変分非線形システム同定

Variational Nonlinear System Identification ( http://arxiv.org/abs/2012.05072v1 )

ライセンス: Link先を確認
Jarrad Courts, Adrian Wills, Thomas Sch\"on, Brett Ninness(参考訳) 本稿では,非線形状態空間モデルに対するパラメータ推定について考察する。 この課題に対して,最大推定値に対する深い接続を持つ原理的手法である変動推論 (VI) アプローチを用いて対処する。 このviアプローチは最終的に、決定論的で扱いやすく、標準最適化ツールを使って解決できる最適化問題の解としてモデルの推定を提供する。 ガウス雑音を付加した系に対するこのアプローチの特殊化についても詳述する。 提案手法は,パラメータ初期化に対するロバスト性に着目したシミュレーションと実例について数値的に検討し,さらに最先端の代替案との比較を行った。

This paper considers parameter estimation for nonlinear state-space models, which is an important but challenging problem. We address this challenge by employing a variational inference (VI) approach, which is a principled method that has deep connections to maximum likelihood estimation. This VI approach ultimately provides estimates of the model as solutions to an optimisation problem, which is deterministic, tractable and can be solved using standard optimisation tools. A specialisation of this approach for systems with additive Gaussian noise is also detailed. The proposed method is examined numerically on a range of simulation and real examples with a focus on robustness to parameter initialisations; we additionally perform favourable comparisons against state-of-the-art alternatives.
翻訳日:2021-05-16 21:32:45 公開日:2020-12-08
# ニューラルマシン翻訳のための文書グラフ

Document Graph for Neural Machine Translation ( http://arxiv.org/abs/2012.03477v2 )

ライセンス: Link先を確認
Mingzhou Xu, Liangyou Li, Derek. F. Wong, Qun Liu, Lidia S. Chao(参考訳) これまでの研究で、文脈情報はニューラルマシン翻訳(NMT)の性能を向上させることが示されている。 しかし、既存の文書レベルのNMT手法は、いくつかの前の文以上の文脈を活用できなかった。 ドキュメント全体をグローバルなコンテキストとして利用する方法はまだ課題です。 この問題に対処するために、文書は距離に関係なく関連するコンテキストを接続するグラフとして表現できるという仮説を立てる。 文書グラフを構成するために, 隣接性, 構文依存性, 語彙一貫性, 共参照など, 様々な関係性を用いている。 次に、ソースグラフとターゲットグラフの両方を、グラフ畳み込みネットワークを用いた従来のトランスフォーマーアーキテクチャに組み込む。 IWSLT English- French, Chinese- English, WMT English-German and Opensubtitle English- Russian などの様々なNMTベンチマークの実験では、文書グラフの使用により翻訳品質が大幅に向上することを示した。

Previous works have shown that contextual information can improve the performance of neural machine translation (NMT). However, most existing document-level NMT methods failed to leverage contexts beyond a few set of previous sentences. How to make use of the whole document as global contexts is still a challenge. To address this issue, we hypothesize that a document can be represented as a graph that connects relevant contexts regardless of their distances. We employ several types of relations, including adjacency, syntactic dependency, lexical consistency, and coreference, to construct the document graph. Then, we incorporate both source and target graphs into the conventional Transformer architecture with graph convolutional networks. Experiments on various NMT benchmarks, including IWSLT English-French, Chinese-English, WMT English-German and Opensubtitle English-Russian, demonstrate that using document graphs can significantly improve the translation quality.
翻訳日:2021-05-16 21:32:05 公開日:2020-12-08
# 動的自動コンフリクト解決によるヒューマンラベルデータの改善

Improving Human-Labeled Data through Dynamic Automatic Conflict Resolution ( http://arxiv.org/abs/2012.04169v1 )

ライセンス: Link先を確認
David Q. Sun, Hadas Kotek, Christopher Klein, Mayank Gupta, William Li, Jason D. Williams(参考訳) 本稿では, (a) 一般的なクラウドソーシング・セマンティック・アノテーションタスクによるラベルのノイズを推定するスケーラブルな手法を開発し, (b) 他の一般的なラベル手法と比較して, ラベル処理のエラーを最大20~30%低減する手法を提案する。 重要なことに、このラベル付けプロセスに対する新しいアプローチは、動的自動競合解決(DACR)と呼ばれ、基礎となる真理データセットを必要とせず、プロジェクト間アノテーションの不整合に基づいている。 これにより、DACRはより正確であるだけでなく、幅広いラベリングタスクにも利用できる。 以下では,商用パーソナルアシスタントに対して大規模に実施したテキスト分類タスクの結果を示し,他の一般的なラベリング戦略と比較して,このアノテーション戦略によって明らかにされる固有のあいまいさを評価する。

This paper develops and implements a scalable methodology for (a) estimating the noisiness of labels produced by a typical crowdsourcing semantic annotation task, and (b) reducing the resulting error of the labeling process by as much as 20-30% in comparison to other common labeling strategies. Importantly, this new approach to the labeling process, which we name Dynamic Automatic Conflict Resolution (DACR), does not require a ground truth dataset and is instead based on inter-project annotation inconsistencies. This makes DACR not only more accurate but also available to a broad range of labeling tasks. In what follows we present results from a text classification task performed at scale for a commercial personal assistant, and evaluate the inherent ambiguity uncovered by this annotation strategy as compared to other common labeling strategies.
翻訳日:2021-05-16 21:29:45 公開日:2020-12-08
# CTRLsum:ジェネリック制御可能なテキスト要約を目指して

CTRLsum: Towards Generic Controllable Text Summarization ( http://arxiv.org/abs/2012.04281v1 )

ライセンス: Link先を確認
Junxian He, Wojciech Kry\'sci\'nski, Bryan McCann, Nazneen Rajani, Caiming Xiong(参考訳) 現在の要約システムは、ユーザの好みや期待から切り離された一般的な要約を生成する。 この制限に対処するため、制御可能な要約のための新しいフレームワークであるCTRLsumを提案する。 提案手法では,要約システムと対話し,キーワードや記述的プロンプトの形式でテキスト入力することで,生成した要約の複数の側面を制御できる。 単一の統一モデルを使用することで、ctrlsumは、人間のアノテーションの追加やトレーニング中に一連の制御側面を事前に定義することなく、推論時にサマリ操作の広い範囲を実現できる。 1) エンティティ中心, 2) 長さ制御可能な要約, 3) 科学論文への投稿要約, 4) 特許出願の発明目的要約, 5) 読解理解環境におけるニュース記事の質問誘導要約の3つの領域に対するアプローチの有効性を定量的に実証した。 さらに、標準の制御されていない要約設定で使用される場合、CTRLsumはCNN/DailyMailデータセットで最先端の結果を達成する。 code and model checkpoints are available at https://github.com/s alesforce/ctrl-sum

Current summarization systems yield generic summaries that are disconnected from users' preferences and expectations. To address this limitation, we present CTRLsum, a novel framework for controllable summarization. Our approach enables users to control multiple aspects of generated summaries by interacting with the summarization system through textual input in the form of a set of keywords or descriptive prompts. Using a single unified model, CTRLsum is able to achieve a broad scope of summary manipulation at inference time without requiring additional human annotations or pre-defining a set of control aspects during training. We quantitatively demonstrate the effectiveness of our approach on three domains of summarization datasets and five control aspects: 1) entity-centric and 2) length-controllable summarization, 3) contribution summarization on scientific papers, 4) invention purpose summarization on patent filings, and 5) question-guided summarization on news articles in a reading comprehension setting. Moreover, when used in a standard, uncontrolled summarization setting, CTRLsum achieves state-of-the-art results on the CNN/DailyMail dataset. Code and model checkpoints are available at https://github.com/s alesforce/ctrl-sum
翻訳日:2021-05-16 21:29:30 公開日:2020-12-08
# 終末の中国のパース・エクスプロイト・レキシコン

End-to-End Chinese Parsing Exploiting Lexicons ( http://arxiv.org/abs/2012.04395v1 )

ライセンス: Link先を確認
Yuan Zhang, Zhiyang Teng, Yue Zhang(参考訳) 中国語の構文解析は伝統的に3つのパイプラインシステムによって解決されてきた。 本稿では,単語分割,部分音声タグ,依存関係構造を共同で学習する文字入力に基づくエンドツーエンド中国語構文解析モデルを提案する。 特に,解析モデルは,文字入力を外部の単語知識で豊かにすることができるワードチャートグラフアテンションネットワークに依存している。 3つの中国の解析ベンチマークデータセットの実験は、我々のモデルの有効性を示し、エンドツーエンドの中国語解析における最先端の結果を達成する。

Chinese parsing has traditionally been solved by three pipeline systems including word-segmentation, part-of-speech tagging and dependency parsing modules. In this paper, we propose an end-to-end Chinese parsing model based on character inputs which jointly learns to output word segmentation, part-of-speech tags and dependency structures. In particular, our parsing model relies on word-char graph attention networks, which can enrich the character inputs with external word knowledge. Experiments on three Chinese parsing benchmark datasets show the effectiveness of our models, achieving the state-of-the-art results on end-to-end Chinese parsing.
翻訳日:2021-05-16 21:28:50 公開日:2020-12-08
# 量子化変圧器空間における抽出的意見要約

Extractive Opinion Summarization in Quantized Transformer Spaces ( http://arxiv.org/abs/2012.04443v1 )

ライセンス: Link先を確認
Stefanos Angelidis, Reinald Kim Amplayo, Yoshihiko Suhara, Xiaolan Wang, Mirella Lapata(参考訳) 本稿では,抽出的意見要約システムQuantized Transformer(QT)を提案する。 QTはVector-Quantized Variational Autoencodersにインスパイアされ、人気主導の要約に活用する。 量子化された空間のクラスタリング解釈と新しい抽出アルゴリズムを使用して、何百ものレビューの中で一般的な意見を発見する。 さらにQTは、量子化された空間の性質を利用してアスペクト特異的な要約を抽出することにより、さらなる訓練なしに制御可能な要約を可能にする。 また,50ホテルの総合的,側面特異的な要約を含む,意見要約のための大規模評価ベンチマークSPACEも公開している。 提案手法は,審査員が競争基準よりも提案手法を明瞭に選好することを示す人間の研究によって実証された。

We present the Quantized Transformer (QT), an unsupervised system for extractive opinion summarization. QT is inspired by Vector-Quantized Variational Autoencoders, which we repurpose for popularity-driven summarization. It uses a clustering interpretation of the quantized space and a novel extraction algorithm to discover popular opinions among hundreds of reviews, a significant step towards opinion summarization of practical scope. In addition, QT enables controllable summarization without further training, by utilizing properties of the quantized space to extract aspect-specific summaries. We also make publicly available SPACE, a large-scale evaluation benchmark for opinion summarizers, comprising general and aspect-specific summaries for 50 hotels. Experiments demonstrate the promise of our approach, which is validated by human studies where judges showed clear preference for our method over competitive baselines.
翻訳日:2021-05-16 21:28:37 公開日:2020-12-08
# フェアネスの選好と現実と仮説:クラウドワーカーインセンティブの研究

Fairness Preferences, Actual and Hypothetical: A Study of Crowdworker Incentives ( http://arxiv.org/abs/2012.04216v1 )

ライセンス: Link先を確認
Angie Peng and Jeff Naecker and Ben Hutchinson and Andrew Smart and Nyalleng Moorosi(参考訳) 機械学習システムで採用すべき公平性基準や定義をどのように決めるべきか? この疑問に答えるためには,機械学習システムの実際の利用者の公平性を調査する必要がある。 治療や影響に対する厳格なパリティ制約はトレードオフを伴う可能性があり、問題の社会集団には好まれない可能性がある(zafar et al., 2017)。 したがって、事前定義された数学的公正性制約に頼るよりも、群の選好が何であるかを引き出す方が有益かもしれない。 ユーザーの自己報告されたランキングを求めることは、人の発言と実際の嗜好の間にはしばしばギャップがあることが研究によって示されている(Bernheim et al., 2013)。 本稿では,これらの質問に対する研究プログラムと実験設計について概説する。 実験の参加者は、基礎的な支払いと引き換えに一連のタスクを実行するように招待され、彼らは事前にボーナスを後で受け取ることができると告げられ、ボーナスは出力量と品質の組み合わせに依存する可能性がある。 労働者の同じグループがボーナスの支払い構造で投票し、好みを引き出す。 投票は、半数が仮定的(結果とは無関係)で、残り半分が実際の(実際の支払い結果に比較)なので、グループの実際の嗜好と仮説的(統計的)な選好との関係を理解することができる。 機械学習における公平な関係と教訓を探求する。

How should we decide which fairness criteria or definitions to adopt in machine learning systems? To answer this question, we must study the fairness preferences of actual users of machine learning systems. Stringent parity constraints on treatment or impact can come with trade-offs, and may not even be preferred by the social groups in question (Zafar et al., 2017). Thus it might be beneficial to elicit what the group's preferences are, rather than rely on a priori defined mathematical fairness constraints. Simply asking for self-reported rankings of users is challenging because research has shown that there are often gaps between people's stated and actual preferences(Bernheim et al., 2013). This paper outlines a research program and experimental designs for investigating these questions. Participants in the experiments are invited to perform a set of tasks in exchange for a base payment--they are told upfront that they may receive a bonus later on, and the bonus could depend on some combination of output quantity and quality. The same group of workers then votes on a bonus payment structure, to elicit preferences. The voting is hypothetical (not tied to an outcome) for half the group and actual (tied to the actual payment outcome) for the other half, so that we can understand the relation between a group's actual preferences and hypothetical (stated) preferences. Connections and lessons from fairness in machine learning are explored.
翻訳日:2021-05-16 21:27:53 公開日:2020-12-08
# Pseudo-Boolean Constraint Learningにおける無関係リテラルについて

On Irrelevant Literals in Pseudo-Boolean Constraint Learning ( http://arxiv.org/abs/2012.04424v1 )

ライセンス: Link先を確認
Danel Le Berre, Pierre Marquis, Stefan Mengel, Romain Wallon(参考訳) PBソルバにおける擬似ブール(PB)制約の学習は、競合駆動型節学習ソルバにおける節学習ほど理解されていない。 本稿では,切断平面を用いて導出されるpb制約が,制約の真理値を決して変更しないリテラルである \emph{irrelevant literals} を含む可能性があることを示す。 このようなリテラルは、本来よりも弱い制約を推測し、ソルバによって構築された証明のサイズに影響し、その結果その性能に影響する可能性がある。 これは、切断平面に基づくpbソルバの現在の実装は、無関係リテラルの発生を防止するために再検討されるべきであることを示唆している。 実際、無関係リテラルの検出と削除は、実際にはオプションとして考えるには高すぎる(関連する問題はNPハードである)。

Learning pseudo-Boolean (PB) constraints in PB solvers exploiting cutting planes based inference is not as well understood as clause learning in conflict-driven clause learning solvers. In this paper, we show that PB constraints derived using cutting planes may contain \emph{irrelevant literals}, i.e., literals whose assigned values (whatever they are) never change the truth value of the constraint. Such literals may lead to infer constraints that are weaker than they should be, impacting the size of the proof built by the solver, and thus also affecting its performance. This suggests that current implementations of PB solvers based on cutting planes should be reconsidered to prevent the generation of irrelevant literals. Indeed, detecting and removing irrelevant literals is too expensive in practice to be considered as an option (the associated problem is NP-hard.
翻訳日:2021-05-16 21:27:30 公開日:2020-12-08
# URoboSim - ロボットエージェントの予測推論のためのエピソード・シミュレーション・フレームワーク

URoboSim -- An Episodic Simulation Framework for Prospective Reasoning in Robotic Agents ( http://arxiv.org/abs/2012.04442v1 )

ライセンス: Link先を確認
Michael Neumann, Sebastian Koralewski and Michael Beetz(参考訳) アクションの結果何が起こるかを予測することは、人間が効果的にタスクを実行するために必要な能力である。 一方、ロボットの能力は不足している。 機械学習は予測能力を高めるのに使われているが、新しい状況にはまだ限界がある。 ロボットの予測能力を改善する可能性として、想像された動きのシミュレーションとこれらの動作の物理的結果があげられる。 そこで本研究では,実際の作業を行う前に,ロボットがメンタルシミュレーションとしてタスクを実行できるロボットシミュレータURoboSimを提案する。 ウルボシムの能力をメンタルシミュレーションの形で示し,機械学習のためのデータ生成と,実ロボットの信念状態としての利用について述べる。

Anticipating what might happen as a result of an action is an essential ability humans have in order to perform tasks effectively. On the other hand, robots capabilities in this regard are quite lacking. While machine learning is used to increase the ability of prospection it is still limiting for novel situations. A possibility to improve the prospection ability of robots is through simulation of imagined motions and the physical results of these actions. Therefore, we present URoboSim, a robot simulator that allows robots to perform tasks as mental simulation before performing this task in reality. We show the capabilities of URoboSim in form of mental simulations, generating data for machine learning and the usage as belief state for a real robot.
翻訳日:2021-05-16 21:27:17 公開日:2020-12-08
# EvoCraft: オープンエンドレスネスの新たな挑戦

EvoCraft: A New Challenge for Open-Endedness ( http://arxiv.org/abs/2012.04751v1 )

ライセンス: Link先を確認
Djordje Grbic, Rasmus Berg Palm, Elias Najarro, Claire Glanois, Sebastian Risi(参考訳) 本稿では,オープンエンドアルゴリズムの研究を目的としたMinecraft用フレームワークであるEvoCraftを紹介する。 我々は,Minecraftと通信してブロックの配置と追跡を行う,オープンソースのPythonインターフェースを提供するAPIを導入する。 Minecraftのこれまでの取り組みとは対照的に、私たちが直面する大きな課題は、オープンエンドの方法で、ますます複雑なアーティファクトを自動的に検索することだ。 オープンディペンデンスを研究するために使われる他の環境と比較して、Minecraftは回路と機械部品を備えたアクチュエータマシンを含む、ほぼあらゆる種類の構造を構築することができる。 インタラクティブかつ自動化された進化を通じて、単純なMinecraft生成を進化させる上で、最初のベースライン結果を示す。 進化は、特定のターゲットに向かって構造を成長させるよう命令されたときに成功するが、動く単純なマシンを作ると報われると解決策を見つけることができない。 このように、EvoCraftは自動検索方法(進化など)に挑戦的な新しい環境を提供し、よりオープンなアルゴリズムの開発を促進することを期待しています。 evocraftフレームワークのpython実装は、https://github.com/r eal-itu/evocraft-pyで利用可能である。

This paper introduces EvoCraft, a framework for Minecraft designed to study open-ended algorithms. We introduce an API that provides an open-source Python interface for communicating with Minecraft to place and track blocks. In contrast to previous work in Minecraft that focused on learning to play the game, the grand challenge we pose here is to automatically search for increasingly complex artifacts in an open-ended fashion. Compared to other environments used to study open-endedness, Minecraft allows the construction of almost any kind of structure, including actuated machines with circuits and mechanical components. We present initial baseline results in evolving simple Minecraft creations through both interactive and automated evolution. While evolution succeeds when tasked to grow a structure towards a specific target, it is unable to find a solution when rewarded for creating a simple machine that moves. Thus, EvoCraft offers a challenging new environment for automated search methods (such as evolution) to find complex artifacts that we hope will spur the development of more open-ended algorithms. A Python implementation of the EvoCraft framework is available at: https://github.com/r eal-itu/Evocraft-py.
翻訳日:2021-05-16 21:27:07 公開日:2020-12-08
# 内視鏡的病変分画に対する弱教師付きクロスドメイン適応

Weakly-Supervised Cross-Domain Adaptation for Endoscopic Lesions Segmentation ( http://arxiv.org/abs/2012.04170v1 )

ライセンス: Link先を確認
Jiahua Dong, Yang Cong, Gan Sun, Yunsheng Yang, Xiaowei Xu and Zhengming Ding(参考訳) 弱い教師付き学習は、ピクセルレベルのアノテーションコストの大幅な削減により、医学的病変のセグメンテーションに対する研究の注目を集めている。 しかし,1) 既存の方法の多くは, 内因性病変の解明に有効な事前および制約を必要としており, 誤った, 粗い予測しか起こさない。2) 弱ラベルの標的内視鏡疾患と完全注釈の胃内視鏡病変の根底にある意味的依存関係を無視する一方で, 強制的に非伝達性病変を活用すれば, 負のパフォーマンスが向上する。 そこで本研究では,異なるデータセットにまたがるトランスファー可能なドメイン不変知識を探索するだけでなく,変換不能表現の負の転送を防止できる,新しい弱い教師付き病巣移動フレームワークを提案する。 特に、ワッサーシュタイン量化トランスファービリティフレームワークは、無関係なセマンティックな特徴を無視しながら、広範囲のトランスファー可能なコンテキスト依存を強調するために開発されている。 さらに、新しい自己教師付き擬似ラベル生成器は、転送困難および転送容易なターゲットサンプルの両方に対して、自信のある擬似ピクセルラベルを等しく提供するように設計されている。 自己超越的な方法で偽の擬似ピクセルラベルの巨大なずれを抑制する。 その後、動的に探索された特徴セントロイドは、狭いカテゴリーごとの分布シフトに整列する。 総合的な理論的解析と実験により, 内視鏡的データセットといくつかの公開データセットにおいて, モデルの優越性が示された。

Weakly-supervised learning has attracted growing research attention on medical lesions segmentation due to significant saving in pixel-level annotation cost. However, 1) most existing methods require effective prior and constraints to explore the intrinsic lesions characterization, which only generates incorrect and rough prediction; 2) they neglect the underlying semantic dependencies among weakly-labeled target enteroscopy diseases and fully-annotated source gastroscope lesions, while forcefully utilizing untransferable dependencies leads to the negative performance. To tackle above issues, we propose a new weakly-supervised lesions transfer framework, which can not only explore transferable domain-invariant knowledge across different datasets, but also prevent the negative transfer of untransferable representations. Specifically, a Wasserstein quantified transferability framework is developed to highlight widerange transferable contextual dependencies, while neglecting the irrelevant semantic characterizations. Moreover, a novel selfsupervised pseudo label generator is designed to equally provide confident pseudo pixel labels for both hard-to-transfer and easyto-transfer target samples. It inhibits the enormous deviation of false pseudo pixel labels under the self-supervision manner. Afterwards, dynamically-searched feature centroids are aligned to narrow category-wise distribution shift. Comprehensive theoretical analysis and experiments show the superiority of our model on the endoscopic dataset and several public datasets.
翻訳日:2021-05-16 21:18:27 公開日:2020-12-08
# リアルな画像描画のためのテクスチャ変換

Texture Transform Attention for Realistic Image Inpainting ( http://arxiv.org/abs/2012.04242v1 )

ライセンス: Link先を確認
Yejin Kim and Manri Cheon and Junwoo Lee(参考訳) 過去数年間、欠落した領域を埋めるためのインペインティングのパフォーマンスは、ディープニューラルネットワークを使用することで大幅に改善されている。 塗装された作品の多くは視覚的にもっともらしい構造とテクスチャを生み出しているが、しばしばぼやけた結果をもたらすため、最終的な結果は非現実的で不均一である。 この問題を解決するために,既存の手法ではディープニューラルネットワークを用いたパッチベースソリューションが用いられているが,テクスチャを適切に転送することはできない。 これらの観測により,パッチベースの手法を提案する。 テクスチャ変換アテンションネットワーク(TTA-Net)は、欠落する領域を細部まで描き込む。 このタスクはシングルリファインメントネットワークであり、エンコーダの細かなテクスチャ特徴をスキップ接続を通じてデコーダの粗いセマンティック特徴に伝達するU-Netアーキテクチャの形式をとる。 テクスチャ変換の注意力は、テクスチャ情報を効率的に転送できる微細なテクスチャと粗いセマンティクスを用いて、新しい再組み立てテクスチャマップを作成するために使用される。 トレーニングプロセスの安定化のために,地上真実のVGG特徴層とパッチ判別器を用いる。 我々は,公開データセット celeba-hq とplaces2 を用いてエンド・ツー・エンドのモデルを評価し,高品質の画像が既存の最先端のアプローチで得られることを示す。

Over the last few years, the performance of inpainting to fill missing regions has shown significant improvements by using deep neural networks. Most of inpainting work create a visually plausible structure and texture, however, due to them often generating a blurry result, final outcomes appear unrealistic and make feel heterogeneity. In order to solve this problem, the existing methods have used a patch based solution with deep neural network, however, these methods also cannot transfer the texture properly. Motivated by these observation, we propose a patch based method. Texture Transform Attention network(TTA-Net) that better produces the missing region inpainting with fine details. The task is a single refinement network and takes the form of U-Net architecture that transfers fine texture features of encoder to coarse semantic features of decoder through skip-connection. Texture Transform Attention is used to create a new reassembled texture map using fine textures and coarse semantics that can efficiently transfer texture information as a result. To stabilize training process, we use a VGG feature layer of ground truth and patch discriminator. We evaluate our model end-to-end with the publicly available datasets CelebA-HQ and Places2 and demonstrate that images of higher quality can be obtained to the existing state-of-the-art approaches.
翻訳日:2021-05-16 21:18:03 公開日:2020-12-08
# GANにおけるトランスファー学習に先立つデータインスタンス

Data Instance Prior for Transfer Learning in GANs ( http://arxiv.org/abs/2012.04256v1 )

ライセンス: Link先を確認
Puneet Mangla, Nupur Kumari, Mayank Singh, Vineeth N Balasubramanian, Balaji Krishnamurthy(参考訳) 近年のGAN(Generative Adversarial Network)の進歩は,高品質な画像の生成において顕著な進歩を見せている。 しかし、このパフォーマンスの向上は、大量のトレーニングデータの可用性に依存する。 限られたデータ体制では、トレーニングは通常は分岐するため、生成されたサンプルは品質が低く、多様性がない。 これまでの研究は、転送学習とデータ拡張技術を活用して、低データセットでのトレーニングに取り組んできた。 多様なソースドメインで訓練された自己教師/教師付き事前学習ネットワークから導かれる情報的データを活用することにより,データ領域におけるGANの新たな転送学習手法を提案する。 我々は,様々なGANアーキテクチャ(BigGAN,SNGAN,StyleG AN2)を用いて,複数の標準視覚データセットを用いて実験を行い,提案手法がターゲット画像の少ない領域に効果的に知識を伝達することを示した。 また,大規模な無条件画像生成と画像編集タスクに先立って,データインスタンスの有用性を示す。

Recent advances in generative adversarial networks (GANs) have shown remarkable progress in generating high-quality images. However, this gain in performance depends on the availability of a large amount of training data. In limited data regimes, training typically diverges, and therefore the generated samples are of low quality and lack diversity. Previous works have addressed training in low data setting by leveraging transfer learning and data augmentation techniques. We propose a novel transfer learning method for GANs in the limited data domain by leveraging informative data prior derived from self-supervised/supe rvised pre-trained networks trained on a diverse source domain. We perform experiments on several standard vision datasets using various GAN architectures (BigGAN, SNGAN, StyleGAN2) to demonstrate that the proposed method effectively transfers knowledge to domains with few target images, outperforming existing state-of-the-art techniques in terms of image quality and diversity. We also show the utility of data instance prior in large-scale unconditional image generation and image editing tasks.
翻訳日:2021-05-16 21:17:41 公開日:2020-12-08
# 部分校正環境における能動視定位

Active Visual Localization in Partially Calibrated Environments ( http://arxiv.org/abs/2012.04263v1 )

ライセンス: Link先を確認
Yingda Yin, Qingnan Fan, Fei Xia, Qihang Fang, Siyan Dong, Leonidas Guibas, Baoquan Chen(参考訳) 人間は、目立った視覚的な手がかりやランドマークに従えば、地図なしでしっかりと位置決めできる。 この研究では、自律エージェントを同じ能力でエンドウイングすることを目指している。 ロボット工学の分野では、エージェントが部分的に校正された環境に触れると、正確な6自由度カメラ画像がシーンの一部だけを撮影する場合には、そのような能力は非常に難しい。 上記の課題に対処するため、強化学習を用いて知的動作を生成するためのポリシーを探索し、エージェントに与えられた視覚情報を部分的に校正された環境で積極的にローカライズする。 我々の中心となる貢献は、部分観測可能なマルコフ決定プロセスとして、アクティブな視覚的局所化問題を定式化し、それを解くためのDeep Reinforcement Learningに基づくアルゴリズムフレームワークを提案することである。 さらに、合成データと実データの両方からなる屋内シーンデータセットACR-6を提案し、アクティブな視覚的ローカライゼーションのための挑戦的なシナリオをシミュレートする。 ローカライズのための手作りベースラインに対するアルゴリズムのベンチマークを行い,ローカライズ成功率に比較して評価した。

Humans can robustly localize themselves without a map after they get lost following prominent visual cues or landmarks. In this work, we aim at endowing autonomous agents the same ability. Such ability is important in robotics applications yet very challenging when an agent is exposed to partially calibrated environments, where camera images with accurate 6 Degree-of-Freedom pose labels only cover part of the scene. To address the above challenge, we explore using Reinforcement Learning to search for a policy to generate intelligent motions so as to actively localize the agent given visual information in partially calibrated environments. Our core contribution is to formulate the active visual localization problem as a Partially Observable Markov Decision Process and propose an algorithmic framework based on Deep Reinforcement Learning to solve it. We further propose an indoor scene dataset ACR-6, which consists of both synthetic and real data and simulates challenging scenarios for active visual localization. We benchmark our algorithm against handcrafted baselines for localization and demonstrate that our approach significantly outperforms them on localization success rate.
翻訳日:2021-05-16 21:17:24 公開日:2020-12-08
# コンテンツ認識型動的検出器の学習

Learning to Generate Content-Aware Dynamic Detectors ( http://arxiv.org/abs/2012.04265v1 )

ライセンス: Link先を確認
Junyi Feng, Jiashen Hua, Baisheng Lai, Jianqiang Huang, Xi Li, Xian-sheng Hua(参考訳) モデル効率はオブジェクト検出に不可欠である。 最も古い作品は、入力の違いに関わらず、静的なアーキテクチャを得るために手作りのデザインか自動検索メソッドのいずれかに依存している。 本稿では, サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計手法を提案する。 提案手法はコンテント対応動的検出器 (CADDet) と呼ばれる。 まず、スーパーネットとして動的ルーティングを備えたマルチスケールの密結合ネットワークを適用する。 さらに,2つの指標を含む動的ルーティングの学習をガイドするために,オブジェクト検出のための詳細なstrat-egyを導入する。 1) 動的グローバル予算制約は,個々のサンプルに対してデータ依存の期待予算を割り当てる; 2) 局所パス類似性の正規化は,より多様なルーティングパスの生成を目標とする。 これにより,優れた性能を維持しつつ高い計算効率を実現することができる。 私たちの知る限りでは、私たちのcaddetはオブジェクト検出に動的ルーティング機構を導入する最初の作業です。 MS-COCOデータセットの実験により、CADDetは、バニラルーティング戦略に比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。 同様のビルディングブロックに基づくモデルと比較すると、CADDetは競争力のあるmAPで42%のFLOP削減を実現している。

Model efficiency is crucial for object detection. Mostprevious works rely on either hand-crafted design or auto-search methods to obtain a static architecture, regardless ofthe difference of inputs. In this paper, we introduce a newperspective of designing efficient detectors, which is automatically generating sample-adaptive model architectureon the fly. The proposed method is named content-aware dynamic detectors (CADDet). It first applies a multi-scale densely connected network with dynamic routing as the supernet. Furthermore, we introduce a course-to-fine strat-egy tailored for object detection to guide the learning of dynamic routing, which contains two metrics: 1) dynamic global budget constraint assigns data-dependent expectedbudgets for individual samples; 2) local path similarity regularization aims to generate more diverse routing paths. With these, our method achieves higher computational efficiency while maintaining good performance. To the best of our knowledge, our CADDet is the first work to introduce dynamic routing mechanism in object detection. Experiments on MS-COCO dataset demonstrate that CADDet achieves 1.8 higher mAP with 10% fewer FLOPs compared with vanilla routing strategy. Compared with the models based upon similar building blocks, CADDet achieves a 42% FLOPs reduction with a competitive mAP.
翻訳日:2021-05-16 21:17:04 公開日:2020-12-08
# StacMR:Scene-Text Aware Cross-Modal Retrieval

StacMR: Scene-Text Aware Cross-Modal Retrieval ( http://arxiv.org/abs/2012.04329v1 )

ライセンス: Link先を確認
Andr\'es Mafla and Rafael Sampaio de Rezende and Llu\'is G\'omez and Diane Larlus and Dimosthenis Karatzas(参考訳) クロスモーダル検索の最近のモデルは、シーングラフやオブジェクトの相互作用から得られる、視覚シーンの豊富な理解の恩恵を受けている。 これにより、画像の視覚的表現とキャプションのテキスト表現との間のマッチングが改善された。 しかし、現在の視覚的表現は重要な側面を見落としている。画像に現れるテキストは、検索に重要な情報を含んでいる可能性がある。 本稿では,まず,画像がシーンテキストインスタンスを含むクロスモーダル検索を可能にする新しいデータセットを提案する。 次に、このデータセットを用いて、視覚シーンからのキャプションとテキストからのテキストの特殊表現を用いた、より優れたシーンテキスト認識クロスモーダル検索手法を含む、シーンテキストを活用するいくつかのアプローチについて述べる。 広範な実験により、クロスモーダル検索のアプローチがシーンテキストの恩恵を受けることを確認し、さらに検討する価値のある興味深い研究課題を強調する。 データセットとコードはhttp://europe.naverl abs.com/stacmrで利用可能

Recent models for cross-modal retrieval have benefited from an increasingly rich understanding of visual scenes, afforded by scene graphs and object interactions to mention a few. This has resulted in an improved matching between the visual representation of an image and the textual representation of its caption. Yet, current visual representations overlook a key aspect: the text appearing in images, which may contain crucial information for retrieval. In this paper, we first propose a new dataset that allows exploration of cross-modal retrieval where images contain scene-text instances. Then, armed with this dataset, we describe several approaches which leverage scene text, including a better scene-text aware cross-modal retrieval method which uses specialized representations for text from the captions and text from the visual scene, and reconcile them in a common embedding space. Extensive experiments confirm that cross-modal retrieval approaches benefit from scene text and highlight interesting research questions worth exploring further. Dataset and code are available at http://europe.naverl abs.com/stacmr
翻訳日:2021-05-16 21:16:09 公開日:2020-12-08
# マスクに注意を向けたワンステージテキストスポッターMango

MANGO: A Mask Attention Guided One-Stage Scene Text Spotter ( http://arxiv.org/abs/2012.04350v1 )

ライセンス: Link先を確認
Liang Qiao, Ying Chen, Zhanzhan Cheng, Yunlu Xu, Yi Niu, Shiliang Pu and Fei Wu(参考訳) 近年,グローバルな最適化と実アプリケーションにおける高い保守性により,エンド・ツー・エンドのテキストスポッティングが注目されている。 ほとんどの方法は、検出部とシーケンス認識部を2段階のテキストスポッティングフレームワークにまとめるために、様々な関心領域(RoI)操作を開発する。 しかし、そのような枠組みでは、認識部は検出された結果に非常に敏感である(\emph{e.g.)。 テキストの輪郭のコンパクトさ)。 本稿では,文字列をRoI操作なしで直接認識できるMANGOという新しいテキストスポッティングフレームワークを提案する。 具体的には、位置認識マスク注意モジュールを開発し、各テキストインスタンスとその文字に対する注意重みを生成する。 画像内の異なるテキストインスタンスを異なるフィーチャーマップチャネルに割り当てることができ、さらにインスタンス機能のバッチとしてグループ化される。 最後に、文字列を生成するために軽量シーケンスデコーダを適用する。 MANGOは本質的に任意の形のテキストスポッティングに適応し、粗い位置情報(\emph{e.g)でエンドツーエンドにトレーニングできる点に注意が必要だ。 長方形のバウンディングボックス)とテキストアノテーションです。 実験結果から,本手法は通常のテキストスポッティングベンチマークと不規則テキストスポッティングベンチマーク,すなわち ICDAR 2013 ICDAR 2015 Total-Text と SCUT-CTW1500 において,競合的かつ新たな技術性能を実現する。

Recently end-to-end scene text spotting has become a popular research topic due to its advantages of global optimization and high maintainability in real applications. Most methods attempt to develop various region of interest (RoI) operations to concatenate the detection part and the sequence recognition part into a two-stage text spotting framework. However, in such framework, the recognition part is highly sensitive to the detected results (\emph{e.g.}, the compactness of text contours). To address this problem, in this paper, we propose a novel Mask AttentioN Guided One-stage text spotting framework named MANGO, in which character sequences can be directly recognized without RoI operation. Concretely, a position-aware mask attention module is developed to generate attention weights on each text instance and its characters. It allows different text instances in an image to be allocated on different feature map channels which are further grouped as a batch of instance features. Finally, a lightweight sequence decoder is applied to generate the character sequences. It is worth noting that MANGO inherently adapts to arbitrary-shaped text spotting and can be trained end-to-end with only coarse position information (\emph{e.g.}, rectangular bounding box) and text annotations. Experimental results show that the proposed method achieves competitive and even new state-of-the-art performance on both regular and irregular text spotting benchmarks, i.e., ICDAR 2013, ICDAR 2015, Total-Text, and SCUT-CTW1500.
翻訳日:2021-05-16 21:15:52 公開日:2020-12-08
# SPU-Net: 自己プロジェクション最適化による粗孔間再構成によるセルフスーパービジョンポイントクラウドアップサンプリング

SPU-Net: Self-Supervised Point Cloud Upsampling by Coarse-to-Fine Reconstruction with Self-Projection Optimization ( http://arxiv.org/abs/2012.04439v1 )

ライセンス: Link先を確認
Xinhai Liu, Xinchen Liu, Zhizhong Han, Yu-Shen Liu(参考訳) 点雲アップサンプリングの課題は、スパースおよび不規則点集合から密度と均一点集合を取得することである。 深層学習モデルでは大きな進歩が見られたが, 教師情報として深部密集点集合が必要であり, 合成ペア学習データのみを訓練でき, 実走査スパースデータ下での訓練には適さない。 しかし、実際にスキャンしたスパースデータから、大規模にペア化されたスパース・デンス・ポイント・セットを訓練することは高価で面倒である。 この問題に対処するために,SPU-Netと呼ばれる自己教師付き点雲アップサンプリングネットワークを提案する。 具体的には,点特徴抽出と点特徴拡張の2つの主成分を含む粗大化再構成フレームワークを提案する。 点特徴抽出では,自己認識モジュールとグラフ畳み込みネットワーク(GCN)を統合し,局所領域内のコンテキスト情報を同時に取得する。 点特徴拡張では,階層的に学習可能な折り畳み戦略を導入し,学習可能な2次元グリッドを用いたアップサンプリングされた点集合を生成する。 さらに,生成した点集合の雑音点をさらに最適化するために,一様および再構成項に付随する新たな自己投射最適化を共同損失として提案し,自己監督点雲のアップサンプリングを容易にする。 本研究では,合成データと実データの両方について様々な実験を行い,最先端の教師付き手法と同等の性能が得られることを示す。

The task of point cloud upsampling aims to acquire dense and uniform point sets from sparse and irregular point sets. Although significant progress has been made with deep learning models, they require ground-truth dense point sets as the supervision information, which can only trained on synthetic paired training data and are not suitable for training under real-scanned sparse data. However, it is expensive and tedious to obtain large scale paired sparse-dense point sets for training from real scanned sparse data. To address this problem, we propose a self-supervised point cloud upsampling network, named SPU-Net, to capture the inherent upsampling patterns of points lying on the underlying object surface. Specifically, we propose a coarse-to-fine reconstruction framework, which contains two main components: point feature extraction and point feature expansion, respectively. In the point feature extraction, we integrate self-attention module with graph convolution network (GCN) to simultaneously capture context information inside and among local regions. In the point feature expansion, we introduce a hierarchically learnable folding strategy to generate the upsampled point sets with learnable 2D grids. Moreover, to further optimize the noisy points in the generated point sets, we propose a novel self-projection optimization associated with uniform and reconstruction terms, as a joint loss, to facilitate the self-supervised point cloud upsampling. We conduct various experiments on both synthetic and real-scanned datasets, and the results demonstrate that we achieve comparable performance to the state-of-the-art supervised methods.
翻訳日:2021-05-16 21:14:35 公開日:2020-12-08
# TAP:テキストVQAとテキストキャプションのためのテキスト認識事前学習

TAP: Text-Aware Pre-training for Text-VQA and Text-Caption ( http://arxiv.org/abs/2012.04638v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo(参考訳) 本稿では,テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。 これら2つの課題は,質問応答とキャプション生成のための画像中のシーンテキストの読解と理解をそれぞれ目的とする。 シーンテキストのキャプチャに失敗する従来の視覚言語による事前学習とは対照的に、TAPはシーンテキスト(OCRエンジンから生成される)を事前学習に用いている。 マスク付き言語モデリング(MLM)、画像テキスト(コントラスト)マッチング(ITM)、相対(空間)位置予測(RPP)を含む3つの事前訓練タスクにより、TAPは、テキストワード、ビジュアルオブジェクト、シーンテキストの3つのモード間のより整合した表現を効果的に学習するのに役立つ。 同じダウンストリームタスクデータセットで事前トレーニングされたこのアライメント表現学習のおかげで、tapはすでにtextvqaデータセットの絶対精度を5.4%向上させ、非タップベースラインと比較している。 パフォーマンスをさらに向上するため、140万のシーンテキスト関連画像テキストペアを含むコンセプトキャプションデータセットであるOCR-CCをベースとした大規模データセットを構築した。 このOCR-CCデータセットで事前トレーニングした手法では,TextVQAでは+8.3%,ST-VQAでは+8.6%,TextCapsでは+10.2 CIDErのスコアが得られた。

In this paper, we propose Text-Aware Pre-training (TAP) for Text-VQA and Text-Caption tasks. These two tasks aim at reading and understanding scene text in images for question answering and image caption generation, respectively. In contrast to the conventional vision-language pre-training that fails to capture scene text and its relationship with the visual and text modalities, TAP explicitly incorporates scene text (generated from OCR engines) in pre-training. With three pre-training tasks, including masked language modeling (MLM), image-text (contrastive) matching (ITM), and relative (spatial) position prediction (RPP), TAP effectively helps the model learn a better aligned representation among the three modalities: text word, visual object, and scene text. Due to this aligned representation learning, even pre-trained on the same downstream task dataset, TAP already boosts the absolute accuracy on the TextVQA dataset by +5.4%, compared with a non-TAP baseline. To further improve the performance, we build a large-scale dataset based on the Conceptual Caption dataset, named OCR-CC, which contains 1.4 million scene text-related image-text pairs. Pre-trained on this OCR-CC dataset, our approach outperforms the state of the art by large margins on multiple tasks, i.e., +8.3% accuracy on TextVQA, +8.6% accuracy on ST-VQA, and +10.2 CIDEr score on TextCaps.
翻訳日:2021-05-16 21:13:42 公開日:2020-12-08
# Vid2CAD:ビデオからのマルチビュー制約を用いたCADモデルアライメント

Vid2CAD: CAD Model Alignment using Multi-View Constraints from Videos ( http://arxiv.org/abs/2012.04641v1 )

ライセンス: Link先を確認
Kevis-Kokitsi Maninis, Stefan Popov, Matthias Nie{\ss}ner, Vittorio Ferrari(参考訳) 複数のオブジェクトを含む複雑なシーンの映像シーケンスにCADモデルを整列させる作業に対処する。 提案手法では,任意のビデオの処理が可能で,各オブジェクトに対する9つのDoFポーズを自動的に復元し,共通3次元座標フレームに整列させる。 本手法の中核となる考え方は,個々のフレームからのニューラルネットワーク予測と時間的大域多視点制約最適化の定式化を統合することである。 この統合プロセスはフレーム毎の予測のスケールと深さの曖昧さを解消し、一般的にすべてのポーズパラメータの見積もりを改善する。 また,マルチビュー制約を利用することで,個々のフレームで見えないオブジェクトのオクルージョンを解消し,すべてのオブジェクトを単一のグローバルに一貫したcad表現に再構成する。 私たちが構築した最先端のシングルフレーム手法であるMask2CADと比較して、Scan2CAD(平均精度は11.6%から30.2%)を大幅に改善した。

We address the task of aligning CAD models to a video sequence of a complex scene containing multiple objects. Our method is able to process arbitrary videos and fully automatically recover the 9 DoF pose for each object appearing in it, thus aligning them in a common 3D coordinate frame. The core idea of our method is to integrate neural network predictions from individual frames with a temporally global, multi-view constraint optimization formulation. This integration process resolves the scale and depth ambiguities in the per-frame predictions, and generally improves the estimate of all pose parameters. By leveraging multi-view constraints, our method also resolves occlusions and handles objects that are out of view in individual frames, thus reconstructing all objects into a single globally consistent CAD representation of the scene. In comparison to the state-of-the-art single-frame method Mask2CAD that we build on, we achieve substantial improvements on Scan2CAD (from 11.6% to 30.2% class average accuracy).
翻訳日:2021-05-16 21:13:11 公開日:2020-12-08
# 確率的普遍的摂動の局所的最適検出

Locally optimal detection of stochastic targeted universal adversarial perturbations ( http://arxiv.org/abs/2012.04692v1 )

ライセンス: Link先を確認
Amish Goel, Pierre Moulin(参考訳) 深層学習画像分類器は、入力画像の小さな逆方向の摂動に弱いことが知られている。 本稿では,分類器入力の確率的汎用的対角摂動(UAP)を検出するための局所最適一般化可能性比検定法(LO-GLRT)を導出する。 また,検出器のパラメータを学習するための教師付きトレーニング手法について述べるとともに,一般的な画像分類データセットの他の検出方法と比較して,検出器の性能が向上したことを示す。

Deep learning image classifiers are known to be vulnerable to small adversarial perturbations of input images. In this paper, we derive the locally optimal generalized likelihood ratio test (LO-GLRT) based detector for detecting stochastic targeted universal adversarial perturbations (UAPs) of the classifier inputs. We also describe a supervised training method to learn the detector's parameters, and demonstrate better performance of the detector compared to other detection methods on several popular image classification datasets.
翻訳日:2021-05-16 21:12:53 公開日:2020-12-08
# keyposesを用いた長期動作予測

Long Term Motion Prediction Using Keyposes ( http://arxiv.org/abs/2012.04731v1 )

ライセンス: Link先を確認
Sena Kiciroglu, Wei Wang, Mathieu Salzmann, Pascal Fua(参考訳) 長期的な人間の動き予測は、人間とロボットの相互作用や自律運転など、安全に重要な応用において欠かせない要素である。 我々は、長期予測を達成するためには、人間の動きがいくつかの基本的なポーズによってよく表されるパターンに従うため、瞬時に人間のポーズを予測することは不要であると主張する。 このようなポーズを「キーポス」と呼び、後続のキーポスを線形に補間して近似する複素運動と呼ぶ。 このようなキープレースのシーケンスを学習することで,将来的には最大5秒までの長い動きを予測できることを示す。 特に、私たちの予測は、最先端の手法で得られたものよりもずっとリアルで、動きのダイナミクスを保存できます。 さらに,提案手法は未来のキーを確率論的にモデル化し,推論中にサンプリングによって様々な未来の動きを生成する。

Long term human motion prediction is an essential component in safety-critical applications, such as human-robot interaction and autonomous driving. We argue that, to achieve long term forecasting, predicting human pose at every time instant is unnecessary because human motion follows patterns that are well-represented by a few essential poses in the sequence. We call such poses "keyposes", and approximate complex motions by linearly interpolating between subsequent keyposes. We show that learning the sequence of such keyposes allows us to predict very long term motion, up to 5 seconds in the future. In particular, our predictions are much more realistic and better preserve the motion dynamics than those obtained by the state-of-the-art methods. Furthermore, our approach models the future keyposes probabilistically, which, during inference, lets us generate diverse future motions via sampling.
翻訳日:2021-05-16 21:12:44 公開日:2020-12-08
# 流れに基づく教師なし視覚オドメトリーのためのトランスフォーマガイド幾何学モデル

Transformer Guided Geometry Model for Flow-Based Unsupervised Visual Odometry ( http://arxiv.org/abs/2101.02143v1 )

ライセンス: Link先を確認
Xiangyu Li and Yonghong Hou and Pichao Wang and Zhimin Gao and Mingliang Xu and Wanqing Li(参考訳) 既存の教師なしビジュアルオドメトリー(VO)手法は、ペア画像にマッチするか、長い画像列上の繰り返しニューラルネットワークを使用して時間情報を統合する。 正確でないか、トレーニングに時間がかかるか、あるいは累積的なエラーである。 本稿では,2つのカメラポーズ推定器を用いて,ペア画像からの情報と短い画像列をそれぞれ処理する手法を提案する。 画像シーケンスでは、Transformer-based Auxiliary Pose Estimator (TAPE) と呼ばれる局所時間ウィンドウ上に幾何学モデルを構築するためにTransformer-like構造を採用する。 一方,F2FPE (Flow-to-Flow Pose Estimator) は対画像間の関係を利用する。 2つの推定値は、トレーニングにおける単純かつ効果的な一貫性損失によって制約される。 実証的評価により,提案手法は最先端の教師なし学習ベース手法を高いマージンで上回り,kitti と malaga データセット上で教師付き学習と従来の学習を両立できることを示した。

Existing unsupervised visual odometry (VO) methods either match pairwise images or integrate the temporal information using recurrent neural networks over a long sequence of images. They are either not accurate, time-consuming in training or error accumulative. In this paper, we propose a method consisting of two camera pose estimators that deal with the information from pairwise images and a short sequence of images respectively. For image sequences, a Transformer-like structure is adopted to build a geometry model over a local temporal window, referred to as Transformer-based Auxiliary Pose Estimator (TAPE). Meanwhile, a Flow-to-Flow Pose Estimator (F2FPE) is proposed to exploit the relationship between pairwise images. The two estimators are constrained through a simple yet effective consistency loss in training. Empirical evaluation has shown that the proposed method outperforms the state-of-the-art unsupervised learning-based methods by a large margin and performs comparably to supervised and traditional ones on the KITTI and Malaga dataset.
翻訳日:2021-05-16 21:11:13 公開日:2020-12-08
# 議論のある非コンバージェントオンライン議論の談話解析

Discourse Parsing of Contentious, Non-Convergent Online Discussions ( http://arxiv.org/abs/2012.04585v1 )

ライセンス: Link先を確認
Stepan Zakharov, Omri Hadar, Tovit Hakak, Dina Grossman, Yifat Ben-David Kolikant, Oren Tsur(参考訳) オンライン談話は、しばしば偏極的で非生産的であると見なされる。 いくつかの会話的談話解析フレームワークが利用可能であるが、議論の激しさと偏在性の分析に自然に貢献するわけではない。 対話論のバフティニアン理論に着想を得て,非収束的な議論に適した新しい理論と計算の枠組みを提案する。 我々は、議論の成功の尺度を再定義し、再帰的戦略の階層を反映した新しい談話アノテーションスキーマを開発する。 私たちは、ロジスティック回帰からBERTまで、分類モデルの配列を考えます。 また,liwcカテゴリ,標準組込み,会話系列,非会話的談話マーカーなど,様々な特徴型や表現についても考察した。 タグセット中の31のラベルが与えられた場合、タグ毎に異なるモデルが許される場合、平均Fスコアが0.61、単一モデルで0.526となる。 提案するスキーマに従って議論をアノテートすることで得られる有望な成果は,議論軌跡の早期検出,公開討論のアクティブモデレーション,教師支援ボットなど,多くの下流タスクやアプリケーションへの道を開くものだ。 最後に、議論の多い非コンバージェントオンライン議論のラベル付きデータセットを初めて共有する。

Online discourse is often perceived as polarized and unproductive. While some conversational discourse parsing frameworks are available, they do not naturally lend themselves to the analysis of contentious and polarizing discussions. Inspired by the Bakhtinian theory of Dialogism, we propose a novel theoretical and computational framework, better suited for non-convergent discussions. We redefine the measure of a successful discussion, and develop a novel discourse annotation schema which reflects a hierarchy of discursive strategies. We consider an array of classification models -- from Logistic Regression to BERT. We also consider various feature types and representations, e.g., LIWC categories, standard embeddings, conversational sequences, and non-conversational discourse markers learnt separately. Given the 31 labels in the tagset, an average F-Score of 0.61 is achieved if we allow a different model for each tag, and 0.526 with a single model. The promising results achieved in annotating discussions according to the proposed schema paves the way for a number of downstream tasks and applications such as early detection of discussion trajectories, active moderation of open discussions, and teacher-assistive bots. Finally, we share the first labeled dataset of contentious non-convergent online discussions.
翻訳日:2021-05-16 21:09:42 公開日:2020-12-08
# 雑音ラベル学習における精度指標のロバスト性とそのインスピレーション

Robustness of Accuracy Metric and its Inspirations in Learning with Noisy Labels ( http://arxiv.org/abs/2012.04193v1 )

ライセンス: Link先を確認
Pengfei Chen, Junjie Ye, Guangyong Chen, Jingwei Zhao, Pheng-Ann Heng(参考訳) クラス条件ラベル雑音下でのマルチクラス分類では,精度指標自体が頑健であることが証明される。 我々は、この発見のインスピレーションを、トレーニングと検証の2つの重要な側面で強化し、ノイズラベルによる学習において重要な問題に対処する。 トレーニングでは,十分な数のノイズサンプルに対するトレーニング精度を最大化することで,ほぼ最適な分類器が得られることを示す。 検証のために、ハイパーパラメータチューニングや早期停止といったシナリオにおけるモデル選択のクリティカルな要求に対処するため、ノイズの多い検証セットが信頼できることを証明します。 これまで、ノイズ検証サンプルを用いたモデル選択は理論的に正当化されていない。 理論結果と追加の主張を広範な実験で検証する。 理論結果に動機づけられて,ノイズラベルをトレーニングしたモデルの特徴を提示し,雑音教師・生徒(nts)と呼ばれる枠組みの印象的な性能を示すことにより,雑音検証セットの有用性を検証する。 私たちのコードはリリースされます。

For multi-class classification under class-conditional label noise, we prove that the accuracy metric itself can be robust. We concretize this finding's inspiration in two essential aspects: training and validation, with which we address critical issues in learning with noisy labels. For training, we show that maximizing training accuracy on sufficiently many noisy samples yields an approximately optimal classifier. For validation, we prove that a noisy validation set is reliable, addressing the critical demand of model selection in scenarios like hyperparameter-tunin g and early stopping. Previously, model selection using noisy validation samples has not been theoretically justified. We verify our theoretical results and additional claims with extensive experiments. We show characterizations of models trained with noisy labels, motivated by our theoretical results, and verify the utility of a noisy validation set by showing the impressive performance of a framework termed noisy best teacher and student (NTS). Our code is released.
翻訳日:2021-05-16 21:05:37 公開日:2020-12-08
# 部分空間手法による分布外検出と特徴の確率的モデル化

Out-Of-Distribution Detection With Subspace Techniques And Probabilistic Modeling Of Features ( http://arxiv.org/abs/2012.04250v1 )

ライセンス: Link先を確認
Ibrahima Ndiour, Nilesh Ahuja, Omesh Tickoo(参考訳) 本稿では,ディープニューラルネットワーク(DNN)におけるOOD(out-of-distribut ion)サンプルの検出方法を提案する。 深部特徴量に基づく確率分布のモデル化は,DNNにおけるOODサンプルの検出方法として,効率的かつ安価に実現されている。 しかし、DNNが任意の層で生成した特徴は対応する高次元特徴空間を完全に占有していない。 本研究では,高次元特徴量に対して線形統計次元化手法と非線形多様体学習手法を適用し,特徴量にまたがる真の部分空間を捉える。 このような低次元特徴埋め込みは次元の呪いを和らげ、より効率的で効果的な性能を実現するための特徴ベース手法を強化することができると仮定する。 不確実性推定とOODの文脈において、この低次元部分空間で学習した分布から得られる対数類似度スコアがOOD検出においてより識別可能であることを示す。 また,元の特徴と埋め込み前像の差の$L_2$-normである特徴再構成誤差がOOD検出に極めて有効であること,またログライクなスコアよりも優れた場合があることも示した。 CIFAR10, CIFAR100, SVHNなどの画像データセット上で, 一般的なDNNアーキテクチャを用いてOOD画像を検出することにより, 画像特徴の利点を実証した。

This paper presents a principled approach for detecting out-of-distribution (OOD) samples in deep neural networks (DNN). Modeling probability distributions on deep features has recently emerged as an effective, yet computationally cheap method to detect OOD samples in DNN. However, the features produced by a DNN at any given layer do not fully occupy the corresponding high-dimensional feature space. We apply linear statistical dimensionality reduction techniques and nonlinear manifold-learning techniques on the high-dimensional features in order to capture the true subspace spanned by the features. We hypothesize that such lower-dimensional feature embeddings can mitigate the curse of dimensionality, and enhance any feature-based method for more efficient and effective performance. In the context of uncertainty estimation and OOD, we show that the log-likelihood score obtained from the distributions learnt on this lower-dimensional subspace is more discriminative for OOD detection. We also show that the feature reconstruction error, which is the $L_2$-norm of the difference between the original feature and the pre-image of its embedding, is highly effective for OOD detection and in some cases superior to the log-likelihood scores. The benefits of our approach are demonstrated on image features by detecting OOD images, using popular DNN architectures on commonly used image datasets such as CIFAR10, CIFAR100, and SVHN.
翻訳日:2021-05-16 21:05:07 公開日:2020-12-08
# データ依存ランダム化平滑化

Data Dependent Randomized Smoothing ( http://arxiv.org/abs/2012.04351v1 )

ライセンス: Link先を確認
Motasem Alfarra, Adel Bibi, Philip H. S. Torr, and Bernard Ghanem(参考訳) ランダムスムーシング(Randomized smoothing)は、極めて堅牢なディープニューラルネットワークのトレーニングにおいて、最先端のパフォーマンスを実現する最近の技術である。 分布の平滑化族はしばしば認証に使用される標準の選択と結びつくが、分布のパラメータは常にネットワークが認証されている入力データとは無関係にグローバルハイパーパラメータとして設定される。 本研究では,各入力でガウス分布の分散を最適化できることを示すガウス分布のランダム化平滑化を再検討し,平滑化分類器の構成における認証半径を最大化する。 この新しいアプローチはジェネリックで、パラメータフリーで、実装が容易です。 実際、我々のデータ依存フレームワークは3つのランダム化スムースなアプローチにシームレスに組み込むことができ、一貫した認証精度が向上することを示した。 このフレームワークがこれらのアプローチのトレーニングルーチンで使用される場合、データ依存認証が続くと、cifar10とimagenetの半径0.5の最強ベースラインの認証精度に対して、9%と6%が改善されます。

Randomized smoothing is a recent technique that achieves state-of-art performance in training certifiably robust deep neural networks. While the smoothing family of distributions is often connected to the choice of the norm used for certification, the parameters of the distributions are always set as global hyper parameters independent of the input data on which a network is certified. In this work, we revisit Gaussian randomized smoothing where we show that the variance of the Gaussian distribution can be optimized at each input so as to maximize the certification radius for the construction of the smoothed classifier. This new approach is generic, parameter-free, and easy to implement. In fact, we show that our data dependent framework can be seamlessly incorporated into 3 randomized smoothing approaches, leading to consistent improved certified accuracy. When this framework is used in the training routine of these approaches followed by a data dependent certification, we get 9% and 6% improvement over the certified accuracy of the strongest baseline for a radius of 0.5 on CIFAR10 and ImageNet, respectively.
翻訳日:2021-05-16 21:04:46 公開日:2020-12-08
# 構造化宣言規則集合の学習-深層離散学習への挑戦

Learning Structured Declarative Rule Sets -- A Challenge for Deep Discrete Learning ( http://arxiv.org/abs/2012.04377v1 )

ライセンス: Link先を確認
Johannes F\"urnkranz, Eyke H\"ullermeier, Eneldo Loza Menc\'ia, Michael Rapp(参考訳) おそらく、ディープニューラルネットワークが成功した主な理由は、入力機能の非線形組み合わせを自律的に形成できる能力である。 帰納的規則学習におけるこの能力の類似は、構造化された規則ベースを学習し、入力を結合して新しい補助概念を学習し、その後の規則によって入力として使用することができる。 しかし、そのような能力を持つルール学習アルゴリズムの研究は、まだ初期段階にある。 本稿では、この未解決問題に注目し、特に先進的な発明の述語化と多ラベルルール学習に焦点をあてる。

Arguably the key reason for the success of deep neural networks is their ability to autonomously form non-linear combinations of the input features, which can be used in subsequent layers of the network. The analogon to this capability in inductive rule learning is to learn a structured rule base, where the inputs are combined to learn new auxiliary concepts, which can then be used as inputs by subsequent rules. Yet, research on rule learning algorithms that have such capabilities is still in their infancy, which is - we would argue - one of the key impediments to substantial progress in this field. In this position paper, we want to draw attention to this unsolved problem, with a particular focus on previous work in predicate invention and multi-label rule learning
翻訳日:2021-05-16 21:04:27 公開日:2020-12-08
# モデル、ピクセル、報酬:ビジュアルモデルに基づく強化学習におけるデザイントレードオフの評価

Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual Model-Based Reinforcement Learning ( http://arxiv.org/abs/2012.04603v1 )

ライセンス: Link先を確認
Mohammad Babaeizadeh, Mohammad Taghi Saffar, Danijar Hafner, Harini Kannan, Chelsea Finn, Sergey Levine, Dumitru Erhan(参考訳) モデルベース強化学習(MBRL)法は,高次元の視覚的観察に直面する場合など,様々なタスクにおいて強いサンプル効率と性能を示した。 これらの手法は,環境力学と相互作用から期待される報酬を予測し,この予測モデルを用いてタスクを計画し実行することを学ぶ。 しかし、MBRL法は基本的な設計選択に違いがあり、これらの設計決定が性能にどのように影響するかについては文献に強いコンセンサスがない。 本稿では,視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討し,予測モデルを用いた計画手法に着目した。 潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。 この発見の大きな例外は、将来の観測(例えば画像)を予測することは、報酬を予測することよりも、タスクのパフォーマンスを著しく向上させることである。 また,画像予測精度は,報奨予測精度よりも下流タスク性能に強い相関関係があることを実証的に見出した。 この現象が探索とどのように関係しているか、また、標準的なベンチマーク(探索を必要とする)で低スコアモデルの一部が、同じトレーニングデータでトレーニングされた場合の最高のパフォーマンスモデルとどのように機能するかを示す。 同時に、探索がなければ、データに合うモデルは通常、下流のタスクでもパフォーマンスが良くなりますが、驚くべきことに、これらは学習やスクラッチからの探索において、最高のモデルではないことが多いのです。 これらの結果は、パフォーマンスと探索がモデル上で重要かつ潜在的に矛盾する要件をもたらすことを示唆している。

Model-based reinforcement learning (MBRL) methods have shown strong sample efficiency and performance across a variety of tasks, including when faced with high-dimensional visual observations. These methods learn to predict the environment dynamics and expected reward from interaction and use this predictive model to plan and perform the task. However, MBRL methods vary in their fundamental design choices, and there is no strong consensus in the literature on how these design decisions affect performance. In this paper, we study a number of design decisions for the predictive model in visual MBRL algorithms, focusing specifically on methods that use a predictive model for planning. We find that a range of design decisions that are often considered crucial, such as the use of latent spaces, have little effect on task performance. A big exception to this finding is that predicting future observations (i.e., images) leads to significant task performance improvement compared to only predicting rewards. We also empirically find that image prediction accuracy, somewhat surprisingly, correlates more strongly with downstream task performance than reward prediction accuracy. We show how this phenomenon is related to exploration and how some of the lower-scoring models on standard benchmarks (that require exploration) will perform the same as the best-performing models when trained on the same training data. Simultaneously, in the absence of exploration, models that fit the data better usually perform better on the downstream task as well, but surprisingly, these are often not the same models that perform the best when learning and exploring from scratch. These findings suggest that performance and exploration place important and potentially contradictory requirements on the model.
翻訳日:2021-05-16 21:04:14 公開日:2020-12-08
# ディープqネットワークとゲーム理論を用いた多エージェント深層強化学習における暗黙的コーディネーションの解消

Resolving Implicit Coordination in Multi-Agent Deep Reinforcement Learning with Deep Q-Networks & Game Theory ( http://arxiv.org/abs/2012.09136v1 )

ライセンス: Link先を確認
Griffin Adams, Sarguna Janani Padmanabhan, Shivang Shekhar(参考訳) 我々は,多エージェント深層強化学習における暗黙的コーディネーションの2つの大きな課題,非定常性と状態-行動空間の指数的成長を,政策学習のためのディープqネットワークと行動選択のためのnash平衡を組み合わせることで解決する。 Q値プロキシはNash設定のペイオフであり、相互のベストレスポンスは共同アクション選択を定義する。 多重/非ナッシュ平衡が決定論的に解決されるため、コーディネーションは暗黙的である。 ゲームタイプの知識は, Nash-Q よりも高速に収束し, 最適応答のミラー化を仮定する。 具体的には、Friend-or-Foeアルゴリズムは、2つのエージェントのアクションを共同で選択するセットコントローラへの収束の兆候を示す。 これは共同行動に対する分散協調の非常に不安定な性質を奨励した。 Q-関数を状態とアドバンストストリームに分離するデュエルネットワークアーキテクチャや残余ネットワークにインスパイアされた我々は、シングルエージェントとジョイントエージェントの表現を学習し、要素ワイド付加によってそれらをマージする。 これは、残関数を学ぶように再キャストすることでコーディネーションを単純化する。 また, 競争対協調, 非同期対並列学習, 欲と社会的に最適なnash平衡関係の破れ, ノナッシュ均衡の場合の戦略など, キーマドリルとゲーム理論変数について, 高いレベルの比較知見を導き出した。 OpenAI Gym: Predator Prey環境,交互ウェアハウス環境,Synchronization環境の3つのカスタム環境について検討した。 それぞれの環境は、ポジティブな報酬を達成するために、継続的に調整が必要です。

We address two major challenges of implicit coordination in multi-agent deep reinforcement learning: non-stationarity and exponential growth of state-action space, by combining Deep-Q Networks for policy learning with Nash equilibrium for action selection. Q-values proxy as payoffs in Nash settings, and mutual best responses define joint action selection. Coordination is implicit because multiple/no Nash equilibria are resolved deterministically. We demonstrate that knowledge of game type leads to an assumption of mirrored best responses and faster convergence than Nash-Q. Specifically, the Friend-or-Foe algorithm demonstrates signs of convergence to a Set Controller which jointly chooses actions for two agents. This encouraging given the highly unstable nature of decentralized coordination over joint actions. Inspired by the dueling network architecture, which decouples the Q-function into state and advantage streams, as well as residual networks, we learn both a single and joint agent representation, and merge them via element-wise addition. This simplifies coordination by recasting it is as learning a residual function. We also draw high level comparative insights on key MADRL and game theoretic variables: competitive vs. cooperative, asynchronous vs. parallel learning, greedy versus socially optimal Nash equilibria tie breaking, and strategies for the no Nash equilibrium case. We evaluate on 3 custom environments written in Python using OpenAI Gym: a Predator Prey environment, an alternating Warehouse environment, and a Synchronization environment. Each environment requires successively more coordination to achieve positive rewards.
翻訳日:2021-05-16 21:03:09 公開日:2020-12-08
# サイバー自律性: ハッカーの自己修復、自己適応、自動サイバー防衛システムの自動化とその産業、社会、国家安全保障への影響

Cyber Autonomy: Automating the Hacker- Self-healing, self-adaptive, automatic cyber defense systems and their impact to the industry, society and national security ( http://arxiv.org/abs/2012.04405v1 )

ライセンス: Link先を確認
Ryan K L Ko(参考訳) 本稿では,サイバーの自律性に対する緊急性の文脈と,サイバーセキュリティ産業の現在のギャップについて述べる。 完全サイバー自律のための4段階の成熟を提唱する新しい枠組みについて論じる。 また、新たなサイバーセキュリティ自動化技術やツールについてもレビューし、社会への影響、サイバーセキュリティスキルのギャップや短所、国家安全保障について論じる。 我々はまた、国家安全保障と人権と倫理の微妙なバランス、そして自動化に直面した手動浸透テスト産業の潜在的な消滅についても議論する。

This paper sets the context for the urgency for cyber autonomy, and the current gaps of the cyber security industry. A novel framework proposing four phases of maturity for full cyber autonomy will be discussed. The paper also reviews new and emerging cyber security automation techniques and tools, and discusses their impact on society, the perceived cyber security skills gap/shortage and national security. We will also be discussing the delicate balance between national security, human rights and ethics, and the potential demise of the manual penetration testing industry in the face of automation.
翻訳日:2021-05-16 21:01:15 公開日:2020-12-08
# MRIを用いた乳房密度推定のための解釈型ディープラーニング回帰

Interpretable deep learning regression for breast density estimation on MRI ( http://arxiv.org/abs/2012.04336v1 )

ライセンス: Link先を確認
Bas H.M. van der Velden, Max A.A. Ragusi, Markus H.A. Janse, Claudette E. Loo, Kenneth G.A. Gilhuijs(参考訳) 線維腺組織(fgt)と全乳房容積の比である乳房密度は放射線科医やコンピュータアルゴリズムによって定量的に評価できる。 これらのアルゴリズムは、しばしば乳房とFGT体積のセグメンテーションに依存する。 本研究では,MRIの乳房密度を直接評価する手法を提案し,これらの評価を解釈する。 乳腺癌506例の乳腺密度を回帰畳み込みニューラルネットワーク(CNN)を用いて検討した。 cnnの入力は128×128ボクセルの乳房mriのスライスであり、出力は0(脂肪乳房)と1(センス乳房)の間の連続密度値であった。 CNNは350例, 検証は75例, 独立した検査は81例であった。 我々は,CNNが予測密度に達した理由を,Deep SHapley Additive exPlanations (SHAP) を用いて検討した。 テストセットにおけるCNNの予測密度は, 基底真理密度 (N = 81, Spearman's rho = 0.86, P < 0.001) と有意に相関していた。 cnnの予測を検査すると、fgtのボクセルは正のシェープ値、脂肪組織のボクセルは負のシェープ値、非ブレアスト組織のボクセルはゼロに近いシェープ値であることが判明した。 これは、密度の予測は、私たちが期待するfgtと脂肪組織に基づく構造に基づいていることを意味する。 そこで本研究では,MRIを用いた乳房密度推定のための解釈可能なディープラーニング回帰法を提案する。

Breast density, which is the ratio between fibroglandular tissue (FGT) and total breast volume, can be assessed qualitatively by radiologists and quantitatively by computer algorithms. These algorithms often rely on segmentation of breast and FGT volume. In this study, we propose a method to directly assess breast density on MRI, and provide interpretations of these assessments. We assessed breast density in 506 patients with breast cancer using a regression convolutional neural network (CNN). The input for the CNN were slices of breast MRI of 128 x 128 voxels, and the output was a continuous density value between 0 (fatty breast) and 1 (dense breast). We used 350 patients to train the CNN, 75 for validation, and 81 for independent testing. We investigated why the CNN came to its predicted density using Deep SHapley Additive exPlanations (SHAP). The density predicted by the CNN on the testing set was significantly correlated with the ground truth densities (N = 81 patients, Spearman's rho = 0.86, P < 0.001). When inspecting what the CNN based its predictions on, we found that voxels in FGT commonly had positive SHAP-values, voxels in fatty tissue commonly had negative SHAP-values, and voxels in non-breast tissue commonly had SHAP-values near zero. This means that the prediction of density is based on the structures we expect it to be based on, namely FGT and fatty tissue. To conclude, we presented an interpretable deep learning regression method for breast density estimation on MRI with promising results.
翻訳日:2021-05-16 20:59:16 公開日:2020-12-08
# 単一画像超解像のための階層的残留注意ネットワーク

Hierarchical Residual Attention Network for Single Image Super-Resolution ( http://arxiv.org/abs/2012.04578v1 )

ライセンス: Link先を確認
Parichehr Behjati, Pau Rodriguez, Armin Mehri, Isabelle Hupont, Carles Fern\'andez Tena, Jordi Gonzalez(参考訳) 畳み込みニューラルネットワークは、単一画像の超解像において最も成功したモデルである。 より深いネットワーク、残差接続、およびアテンション機構は、その性能をさらに改善した。 しかし、これらの戦略はしばしば計算コストを大幅に増加させながら、復元性能を向上させる。 本稿では,残差特徴と注意集約の効率的な手法に基づく新しい軽量超解像モデルを提案する。 残像を効率的に利用するために、これらは階層的に特徴バンクに集約され、ネットワーク出力で後続使用することができる。 並行して、軽量な階層的注意機構は、ネットワークから最も関連する特徴を注意バンクに抽出し、最終的な出力を改善し、ネットワーク内の連続した操作による情報損失を防止する。 そのため、処理を2つの独立した計算経路に分割し、低解像度画像から高解像度画像の細部を再構成する高効率かつ効率的なモデルを作成することができる。 提案アーキテクチャは,比較的少ない計算量とメモリフットプリントを維持しながら,いくつかのデータセットにおける最先端性能を上回る。

Convolutional neural networks are the most successful models in single image super-resolution. Deeper networks, residual connections, and attention mechanisms have further improved their performance. However, these strategies often improve the reconstruction performance at the expense of considerably increasing the computational cost. This paper introduces a new lightweight super-resolution model based on an efficient method for residual feature and attention aggregation. In order to make an efficient use of the residual features, these are hierarchically aggregated into feature banks for posterior usage at the network output. In parallel, a lightweight hierarchical attention mechanism extracts the most relevant features from the network into attention banks for improving the final output and preventing the information loss through the successive operations inside the network. Therefore, the processing is split into two independent paths of computation that can be simultaneously carried out, resulting in a highly efficient and effective model for reconstructing fine details on high-resolution images from their low-resolution counterparts. Our proposed architecture surpasses state-of-the-art performance in several datasets, while maintaining relatively low computation and memory footprint.
翻訳日:2021-05-16 20:58:31 公開日:2020-12-08
# 3dグラフ解剖幾何学統合型膵腫瘤分画・診断・量的管理ネットワーク

3D Graph Anatomy Geometry-Integrated Network for Pancreatic Mass Segmentation, Diagnosis, and Quantitative Patient Management ( http://arxiv.org/abs/2012.04701v1 )

ライセンス: Link先を確認
Tianyi Zhao, Kai Cao, Jiawen Yao, Isabella Nogues, Le Lu, Lingyun Huang, Jing Xiao, Zhaozheng Yin, Ling Zhang(参考訳) 膵疾患分類は10種類の腫瘤(腫瘍または嚢胞)[20,8]を含む。 これまでの研究は、特定のマスタイプにのみセグメンテーションや分類方法の開発に重点を置いていた。 全種類の鑑別診断は臨床的に極めて望ましい [20] が, 自動画像理解法を用いては検討されていない。 膵管腺癌(pdac)と非pdac腫瘤との鑑別に多相ct法を応用した。 画像の外観と3次元有機-質量関係はどちらも重要である。 本稿では,解剖学的構造と意味的検出・分別ネットワークを組み合わせた形状と位置情報を十分に活用し,患者レベルの診断を行うための総合的セグメンテーション・メッシュ分類ネットワーク(smcn)を提案する。 smcnは、膵臓とマスセグメンテーションのタスクを学習し、生のセグメンテーションマスク(すなわちマスク・ツー・メッシュ)に膵臓のプロトタイプを段階的に変形させることで解剖学的対応認識オルガンメッシュモデルを構築する。 グラフベース残差畳み込みネットワーク(Graph-ResNet)は,ノードがメッシュモデルとセグメンテーションネットワークから抽出した特徴ベクトルの情報とを融合させ,患者レベルの差分分類結果を生成する。 Extensive experiments on 661 patients' CT scans (five phases per patient) show that SMCN can improve the mass segmentation and detection accuracy compared to the strong baseline method nnUNet (e.g., for nonPDAC, Dice: 0.611 vs. 0.478; detection rate: 89% vs. 70%), achieve similar sensitivity and specificity in differentiating PDAC and nonPDAC as expert radiologists (i.e., 94% and 90%), and obtain results comparable to a multimodality test [20] that combines clinical, imaging, and molecular testing for clinical management of patients.

The pancreatic disease taxonomy includes ten types of masses (tumors or cysts)[20,8]. Previous work focuses on developing segmentation or classification methods only for certain mass types. Differential diagnosis of all mass types is clinically highly desirable [20] but has not been investigated using an automated image understanding approach. We exploit the feasibility to distinguish pancreatic ductal adenocarcinoma (PDAC) from the nine other nonPDAC masses using multi-phase CT imaging. Both image appearance and the 3D organ-mass geometry relationship are critical. We propose a holistic segmentation-mesh-cl assification network (SMCN) to provide patient-level diagnosis, by fully utilizing the geometry and location information, which is accomplished by combining the anatomical structure and the semantic detection-by-segment ation network. SMCN learns the pancreas and mass segmentation task and builds an anatomical correspondence-aware organ mesh model by progressively deforming a pancreas prototype on the raw segmentation mask (i.e., mask-to-mesh). A new graph-based residual convolutional network (Graph-ResNet), whose nodes fuse the information of the mesh model and feature vectors extracted from the segmentation network, is developed to produce the patient-level differential classification results. Extensive experiments on 661 patients' CT scans (five phases per patient) show that SMCN can improve the mass segmentation and detection accuracy compared to the strong baseline method nnUNet (e.g., for nonPDAC, Dice: 0.611 vs. 0.478; detection rate: 89% vs. 70%), achieve similar sensitivity and specificity in differentiating PDAC and nonPDAC as expert radiologists (i.e., 94% and 90%), and obtain results comparable to a multimodality test [20] that combines clinical, imaging, and molecular testing for clinical management of patients.
翻訳日:2021-05-16 20:57:52 公開日:2020-12-08
# 逆相関推論による医用画像の条件付き生成

Conditional Generation of Medical Images via Disentangled Adversarial Inference ( http://arxiv.org/abs/2012.04764v1 )

ライセンス: Link先を確認
Mohammad Havaei, Ximeng Mao, Yiping Wang, Qicheng Lao(参考訳) 合成医療画像生成は、データ拡張から機械学習システムのトレーニング、患者のプライバシーの保護に至るまで、多くのアプリケーションを通じて医療を改善する大きな可能性を秘めている。 条件付き逆数生成ネットワーク(cGAN)は画像生成に条件付け因子を使用し,近年大きな成功を収めている。 直感的には、画像内の情報は、1コンディショニングベクトルを介して提示されるコンテンツと、コンディショニングベクトルから欠落している未発見情報であるスタイルという2つの部分に分けられる。 医療画像生成にcGANを使うことの現在の実践は、画像生成に単一の変数(つまりコンテンツ)しか使用せず、生成した画像に対する柔軟性や制御をあまり提供しない。 本研究では,画像そのものから学習する手法,スタイルとコンテンツの絡み合った表現を提案し,その情報を用いて生成過程の制御を行う。 このフレームワークでは、スタイルは完全に教師なしの方法で学習され、コンテンツは教師なし学習(条件付ベクトルを用いた)と教師なし学習(推論機構による)の両方を通して学習される。 コンテンツスタイルの絡み合いを確実にするために、2つの新しい正規化手順を踏む。 まず,グラデーション・リバース・レイヤ(grl)の新たな応用を導入することで,コンテンツとスタイル間の共有情報を最小化し,さらに,コンテンツとスタイル変数の情報をさらに分離する自己教師あり正規化手法を提案する。 一般に、2つの潜在変数モデルがより良い性能を実現し、生成した画像をより制御できることが示される。 また,提案したモデル (DRAI) が, 最適不整合スコアを達成し, 全体的な性能が最良であることを示す。

Synthetic medical image generation has a huge potential for improving healthcare through many applications, from data augmentation for training machine learning systems to preserving patient privacy. Conditional Adversarial Generative Networks (cGANs) use a conditioning factor to generate images and have shown great success in recent years. Intuitively, the information in an image can be divided into two parts: 1) content which is presented through the conditioning vector and 2) style which is the undiscovered information missing from the conditioning vector. Current practices in using cGANs for medical image generation, only use a single variable for image generation (i.e., content) and therefore, do not provide much flexibility nor control over the generated image. In this work we propose a methodology to learn from the image itself, disentangled representations of style and content, and use this information to impose control over the generation process. In this framework, style is learned in a fully unsupervised manner, while content is learned through both supervised learning (using the conditioning vector) and unsupervised learning (with the inference mechanism). We undergo two novel regularization steps to ensure content-style disentanglement. First, we minimize the shared information between content and style by introducing a novel application of the gradient reverse layer (GRL); second, we introduce a self-supervised regularization method to further separate information in the content and style variables. We show that in general, two latent variable models achieve better performance and give more control over the generated image. We also show that our proposed model (DRAI) achieves the best disentanglement score and has the best overall performance.
翻訳日:2021-05-16 20:57:22 公開日:2020-12-08
# SATによるラム問題の解法

A SAT-based Resolution of Lam's Problem ( http://arxiv.org/abs/2012.04715v1 )

ライセンス: Link先を確認
Curtis Bright, Kevin K. H. Cheung, Brett Stevens, Ilias Kotsireas, Vijay Ganesh(参考訳) 1989年、lam、thiel、swiierczによるコンピュータによる探索により、10階の射影平面が存在するかどうかを判定する長年の問題である射影幾何学$\unicode{x2014} からラムの問題を実験的に解いた。 2011年のオリジナル検索と独立検証の両方でそのような射影平面は見つからなかった。 しかし、これらの検索はそれぞれ高度に専門化されたカスタムコードを使用して行われ、存在しない証明書は生成されなかった。 本稿では,問題をブール論理に翻訳し,SAT(SAT)ソルバを用いて第三者が検証可能な非存在証明を生成することにより,Lamの問題を解決する。 我々の研究は、両方の検索で一貫性の問題を発見した。$\unicode{x2014}$highlighting the difficulty of relying special-purpose search code for nonistence results。

In 1989, computer searches by Lam, Thiel, and Swiercz experimentally resolved Lam's problem from projective geometry$\unicode{x2014}$the long-standing problem of determining if a projective plane of order ten exists. Both the original search and an independent verification in 2011 discovered no such projective plane. However, these searches were each performed using highly specialized custom-written code and did not produce nonexistence certificates. In this paper, we resolve Lam's problem by translating the problem into Boolean logic and use satisfiability (SAT) solvers to produce nonexistence certificates that can be verified by a third party. Our work uncovered consistency issues in both previous searches$\unicode{x2014}$highlighting the difficulty of relying on special-purpose search code for nonexistence results.
翻訳日:2021-05-16 20:56:18 公開日:2020-12-08
# 平面波エラストグラフィー:周波数領域の超音波シーア波エラストグラフィー

Plane Wave Elastography: A Frequency-Domain Ultrasound Shear Wave Elastography Approach ( http://arxiv.org/abs/2012.04121v1 )

ライセンス: Link先を確認
Reza Khodayi-mehr, Matthew W. Urban, Michael M. Zavlanos, and Wilkins Aquino(参考訳) 本稿では,新しい超音波シーア波エラストグラフィ(SWE)アプローチであるPWE(Plane Wave Elastography)を提案する。 現在, sweの商業的手法では, 反射・屈折によって形成される複雑な波状パターンを除去するために, 波伝播方向の事前知識に基づく方向フィルタリングが用いられている。 その結果、分解された方向波の集合を別々に解析してせん断係数場を構築し、合成によって結合する。 代わりに、PWEは周波数領域スカラー波動方程式を用いて波動伝播の厳密な表現に依存し、適切な伝播方向を自動的に選択し、同時にせん断係数場を再構成する。 具体的には、等質、等方性、非圧縮性、線形弾性媒体を仮定し、任意の方向に伝播する平面波の線形結合を用いて波動方程式の解を表す。 この閉形式解を考えると、SWE問題を非線形最小二乗最適化問題として定式化し、非常に効率的に解ける。 多くのファントム研究を通して、PWEは事前フィルタリングなしで複雑な波形を処理でき、伝播方向の知識に基づいて事前フィルタリングを必要とする最先端技術と競合することを示した。

In this paper, we propose Plane Wave Elastography (PWE), a novel ultrasound shear wave elastography (SWE) approach. Currently, commercial methods for SWE rely on directional filtering based on the prior knowledge of the wave propagation direction, to remove complicated wave patterns formed due to reflection and refraction. The result is a set of decomposed directional waves that are separately analyzed to construct shear modulus fields that are then combined through compounding. Instead, PWE relies on a rigorous representation of the wave propagation using the frequency-domain scalar wave equation to automatically select appropriate propagation directions and simultaneously reconstruct shear modulus fields. Specifically, assuming a homogeneous, isotropic, incompressible, linear-elastic medium, we represent the solution of the wave equation using a linear combination of plane waves propagating in arbitrary directions. Given this closed-form solution, we formulate the SWE problem as a nonlinear least-squares optimization problem which can be solved very efficiently. Through numerous phantom studies, we show that PWE can handle complicated waveforms without prior filtering and is competitive with state-of-the-art that requires prior filtering based on the knowledge of propagation directions.
翻訳日:2021-05-16 20:52:49 公開日:2020-12-08
# CPU-GPUシステムにおける分散強化学習のアーキテクチャ的意味

The Architectural Implications of Distributed Reinforcement Learning on CPU-GPU Systems ( http://arxiv.org/abs/2012.04210v1 )

ライセンス: Link先を確認
Ahmet Inci, Evgeny Bolotin, Yaosheng Fu, Gal Dalal, Shie Mannor, David Nellans, Diana Marculescu(参考訳) ゲーム、ロボティクス、シミュレートされた環境における人間の能力を超える結果を達成するための深層強化学習(RL)手法により、複雑な現実世界の問題を解決するためにRLトレーニングの継続的なスケーリングが不可欠である。 しかし、CPU-GPUシステムのアーキテクチャ的意味を理解することで、RLトレーニングの性能スケーラビリティと電力効率を向上させることは、未解決の問題である。 本稿では,CPU-GPUシステムにおける分散RLトレーニングの性能と電力効率を,GPUマイクロアーキテクチャの観点からだけでなく,システムレベルの総合的な分析アプローチにもとづいて検討・改善する。 最先端分散rlトレーニングフレームワーク上でのハードウェア利用全体の定量化と,gpuのマイクロアーキテクチャ,アルゴリズム,システムレベルの設計選択によるボトルネックの実証的識別を行う。 我々は、GPUマイクロアーキテクチャ自体が最先端のRLフレームワークではバランスがよく、さらに調査により、環境相互作用を実行するアクターの数と、それらに利用可能なハードウェアリソースの量が、主要なパフォーマンスと電力効率の制限要因であることを明らかにした。 そこで我々は,RLトレーニングのためのスケーラブルで効率的なCPU-GPUシステムを設計する際に,CPUとGPUリソースの最適なバランスを見つける方法を示す。

With deep reinforcement learning (RL) methods achieving results that exceed human capabilities in games, robotics, and simulated environments, continued scaling of RL training is crucial to its deployment in solving complex real-world problems. However, improving the performance scalability and power efficiency of RL training through understanding the architectural implications of CPU-GPU systems remains an open problem. In this work we investigate and improve the performance and power efficiency of distributed RL training on CPU-GPU systems by approaching the problem not solely from the GPU microarchitecture perspective but following a holistic system-level analysis approach. We quantify the overall hardware utilization on a state-of-the-art distributed RL training framework and empirically identify the bottlenecks caused by GPU microarchitectural, algorithmic, and system-level design choices. We show that the GPU microarchitecture itself is well-balanced for state-of-the-art RL frameworks, but further investigation reveals that the number of actors running the environment interactions and the amount of hardware resources available to them are the primary performance and power efficiency limiters. To this end, we introduce a new system design metric, CPU/GPU ratio, and show how to find the optimal balance between CPU and GPU resources when designing scalable and efficient CPU-GPU systems for RL training.
翻訳日:2021-05-16 20:52:27 公開日:2020-12-08
# 専門家の混合によるチャネル利得地図作成

Channel Gain Cartography via Mixture of Experts ( http://arxiv.org/abs/2012.04290v1 )

ライセンス: Link先を確認
Luis M. Lopez-Ramos, Yves Teganya, Baltasar Beferull-Lozano, Seung-Jun Kim(参考訳) 任意の送受信器ペアの位置間のチャネルゲイン(CG)を地理的領域にわたって推定するために,空間分布センサ測定からCGマップを構築することができる。 このようなスペクトルマップを構築するほとんどのアプローチは位置ベースであり、推定関数への入力変数は空間的位置の対である。 このような地図の性能は、センサーが位置を決定する能力に大きく依存しており、位置決めパイロット信号がマルチパスチャネルによって影響を受ける場合、劇的に損なわれる可能性がある。 マップへの入力変数は位置推定の代わりに測位信号から抽出された特徴で構成される。 ロケーションベースとロケーションフリーのアプローチは相補的なメリットがある。 本研究は,cgマップに位置自由機能を適用することとは別に,両者のアプローチを組み合わせる手法をmixing-of-expertsフレームワークで提案するものである。

In order to estimate the channel gain (CG) between the locations of an arbitrary transceiver pair across a geographic area of interest, CG maps can be constructed from spatially distributed sensor measurements. Most approaches to build such spectrum maps are location-based, meaning that the input variable to the estimating function is a pair of spatial locations. The performance of such maps depends critically on the ability of the sensors to determine their positions, which may be drastically impaired if the positioning pilot signals are affected by multi-path channels. An alternative location-free approach was recently proposed for spectrum power maps, where the input variable to the maps consists of features extracted from the positioning signals, instead of location estimates. The location-based and the location-free approaches have complementary merits. In this work, apart from adapting the location-free features for the CG maps, a method that can combine both approaches is proposed in a mixture-of-experts framework.
翻訳日:2021-05-16 20:52:06 公開日:2020-12-08
# DE-RRD:Recommenderシステムのための知識蒸留フレームワーク

DE-RRD: A Knowledge Distillation Framework for Recommender System ( http://arxiv.org/abs/2012.04357v1 )

ライセンス: Link先を確認
SeongKu Kang, Junyoung Hwang, Wonbin Kweon, Hwanjo Yu(参考訳) 近年, 知識蒸留技術は, 複雑なモデル (教師) からコンパクトモデル (学生) に知識を蒸留するモデル圧縮技術であり, 性能を維持しつつ, 推論遅延を低減するために, 知識蒸留を取り入れている。 最先端の手法は,教師モデルの予測を正確に模倣する学習モデルにのみ焦点をあてている。 予測結果が教師の知識を不完全な形で明らかにすることには限界がある。 本稿では,教師モデルにエンコードされた潜在知識や教師の予測から生徒モデルを学ぶことを可能にする,レコメンダシステムのための新しい知識蒸留フレームワークde-rrdを提案する。 具体的には,1)教師モデルから潜伏知識を直接伝達する蒸留専門家(DE)の2つの方法からなる。 deは「専門家」と新しい専門家選択戦略を活用し、教師の膨大な知識を限られた能力で生徒に効果的に蒸留する。 2)緩和ランキング蒸留(rrd)は,各項目間の緩和順位を考慮した教師の予測から明らかになった知識を伝達する。 広範な実験により,de-rrdは最先端のコンペティタよりも優れており,より高速な推論時間で教師モデルと同等あるいはそれ以上のパフォーマンスを達成していることが示された。

Recent recommender systems have started to employ knowledge distillation, which is a model compression technique distilling knowledge from a cumbersome model (teacher) to a compact model (student), to reduce inference latency while maintaining performance. The state-of-the-art methods have only focused on making the student model accurately imitate the predictions of the teacher model. They have a limitation in that the prediction results incompletely reveal the teacher's knowledge. In this paper, we propose a novel knowledge distillation framework for recommender system, called DE-RRD, which enables the student model to learn from the latent knowledge encoded in the teacher model as well as from the teacher's predictions. Concretely, DE-RRD consists of two methods: 1) Distillation Experts (DE) that directly transfers the latent knowledge from the teacher model. DE exploits "experts" and a novel expert selection strategy for effectively distilling the vast teacher's knowledge to the student with limited capacity. 2) Relaxed Ranking Distillation (RRD) that transfers the knowledge revealed from the teacher's prediction with consideration of the relaxed ranking orders among items. Our extensive experiments show that DE-RRD outperforms the state-of-the-art competitors and achieves comparable or even better performance to that of the teacher model with faster inference time.
翻訳日:2021-05-16 20:51:51 公開日:2020-12-08
# NavRep:動的人間環境におけるロボットナビゲーションの強化学習のための教師なし表現

NavRep: Unsupervised Representations for Reinforcement Learning of Robot Navigation in Dynamic Human Environments ( http://arxiv.org/abs/2012.04406v1 )

ライセンス: Link先を確認
Daniel Dugas, Juan Nieto, Roland Siegwart, Jen Jen Chung(参考訳) ロボットナビゲーションは、強化学習アプローチが従来の経路計画と競合することができないタスクである。 State-of-the-artメソッドは小さな方法で異なり、すべて再現可能な公開実装を提供するわけではない。 これにより比較手法が困難になる。 近年の研究では、教師なしの学習方法が驚くほどスケールし、難しい問題を解決するために活用できることが示されている。 本研究では,ロボットナビゲーションの強化学習を支援するために,教師なし学習を用いた手法を設計する。 2つのエンドツーエンドと18の教師なし学習ベースのアーキテクチャをトレーニングし、それらと既存のアプローチを未認識のテストケースで比較します。 実生活型ロボットに対する我々のアプローチを実演する。 その結果,教師なし学習手法はエンドツーエンドの手法と競合することがわかった。 また,入力表現や予測的教師なし学習,潜在機能など,さまざまなコンポーネントの重要性も強調する。 すべてのモデルを公開するとともに、トレーニングやテスト環境、ツールも公開しています。 このリリースには、他の論文が記述したトレーニング条件を可能な限り忠実にエミュレートするように設計されたopenai-gym互換環境も含まれている。 われわれの期待は、ロボットナビゲーションのためのRLの分野を統合し、最先端の手法間で有意義な比較を可能にすることだ。

Robot navigation is a task where reinforcement learning approaches are still unable to compete with traditional path planning. State-of-the-art methods differ in small ways, and do not all provide reproducible, openly available implementations. This makes comparing methods a challenge. Recent research has shown that unsupervised learning methods can scale impressively, and be leveraged to solve difficult problems. In this work, we design ways in which unsupervised learning can be used to assist reinforcement learning for robot navigation. We train two end-to-end, and 18 unsupervised-learnin g-based architectures, and compare them, along with existing approaches, in unseen test cases. We demonstrate our approach working on a real life robot. Our results show that unsupervised learning methods are competitive with end-to-end methods. We also highlight the importance of various components such as input representation, predictive unsupervised learning, and latent features. We make all our models publicly available, as well as training and testing environments, and tools. This release also includes OpenAI-gym-compatibl e environments designed to emulate the training conditions described by other papers, with as much fidelity as possible. Our hope is that this helps in bringing together the field of RL for robot navigation, and allows meaningful comparisons across state-of-the-art methods.
翻訳日:2021-05-16 20:51:29 公開日:2020-12-08
# DeepNVM++: ディープラーニングのための非揮発性メモリの層間モデリングと最適化フレームワーク

DeepNVM++: Cross-Layer Modeling and Optimization Framework of Non-Volatile Memories for Deep Learning ( http://arxiv.org/abs/2012.04559v1 )

ライセンス: Link先を確認
Ahmet Inci, Mehmet Meric Isgenc, Diana Marculescu(参考訳) スピントランスファートルク磁気ランダムアクセスメモリ(STT-MRAM)やスピン軌道トルク磁気ランダムアクセスメモリ(SOT-MRAM)のような非揮発性メモリ(NVM)技術は、その非揮発性、セル密度、拡張性などにより従来のSRAMと比較して大きな利点がある。 これまでの研究は、汎用アプリケーションにおけるNVMのアーキテクチャ的意味について検討してきたが、この研究では、テクノロジ固有の回路レベルモデルと様々なDLワークロードの実際のメモリ挙動を組み合わせることで、ディープラーニング(DL)アプリケーションのためのGPUアーキテクチャにおけるNVMベースのキャッシュを特徴づけ、モデル化、分析するフレームワークであるDeepNVM++を紹介した。 我々は,従来のSRAMと新興STT-MRAMおよびSOT-MRAM技術に依存するシステムに対して,アイソキャパシティとアイソア性能とエネルギー分析の両方を提示する。 アイソ容量の場合、STT-MRAMとSOT-MRAMは、従来のSRAMと比較して最大3.8xと4.7xのエネルギー遅延生成物(EDP)と2.4xと2.8xの面積減少を提供する。 STT-MRAMとSOT-MRAMは2倍と2.3倍のEDP削減を提供し、それぞれSRAMと比較して2.3倍と3.3倍のキャッシュ容量を持つ。 また,STT-MRAMとSOT-MRAMは大規模キャッシュ容量のSRAMと比較して,桁違いのEDP削減を実現していることを示す。 我々は,STT/SOT-MRAM技術上での包括的クロスレイヤフレームワークを実証し,DLアプリケーション用GPUにおける最終レベルキャッシュのためのNVM技術のキャラクタリゼーション,モデリング,解析に利用することができる。

Non-volatile memory (NVM) technologies such as spin-transfer torque magnetic random access memory (STT-MRAM) and spin-orbit torque magnetic random access memory (SOT-MRAM) have significant advantages compared to conventional SRAM due to their non-volatility, higher cell density, and scalability features. While previous work has investigated several architectural implications of NVM for generic applications, in this work we present DeepNVM++, a framework to characterize, model, and analyze NVM-based caches in GPU architectures for deep learning (DL) applications by combining technology-specific circuit-level models and the actual memory behavior of various DL workloads. We present both iso-capacity and iso-area performance and energy analysis for systems whose last-level caches rely on conventional SRAM and emerging STT-MRAM and SOT-MRAM technologies. In the iso-capacity case, STT-MRAM and SOT-MRAM provide up to 3.8x and 4.7x energy-delay product (EDP) reduction and 2.4x and 2.8x area reduction compared to conventional SRAM, respectively. Under iso-area assumptions, STT-MRAM and SOT-MRAM provide up to 2x and 2.3x EDP reduction and accommodate 2.3x and 3.3x cache capacity when compared to SRAM, respectively. We also perform a scalability analysis and show that STT-MRAM and SOT-MRAM achieve orders of magnitude EDP reduction when compared to SRAM for large cache capacities. Our comprehensive cross-layer framework is demonstrated on STT-/SOT-MRAM technologies and can be used for the characterization, modeling, and analysis of any NVM technology for last-level caches in GPUs for DL applications.
翻訳日:2021-05-16 20:51:09 公開日:2020-12-08
# 合成データ: より高速でより有向な機械学習手法の開発を可能にするデータフラッドゲートのオープン

Synthetic Data: Opening the data floodgates to enable faster, more directed development of machine learning methods ( http://arxiv.org/abs/2012.04580v1 )

ライセンス: Link先を確認
James Jordon, Alan Wilson and Mihaela van der Schaar(参考訳) 機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。 残念ながら、多くの大規模データセットは、医療データなど非常に敏感であり、機械学習コミュニティでは広く利用できない。 プライバシ保証による合成データの生成は、そのようなソリューションのひとつを提供し、マシンラーニングコミュニティ全体が特定の分野の進捗を加速させることで、有意義な調査を"大規模"に実施可能にする。 この記事では、合成データの高レベルなビューを提供する。それは何を意味するのか、どのように評価するか、どのように使用するのか。

Many ground-breaking advancements in machine learning can be attributed to the availability of a large volume of rich data. Unfortunately, many large-scale datasets are highly sensitive, such as healthcare data, and are not widely available to the machine learning community. Generating synthetic data with privacy guarantees provides one such solution, allowing meaningful research to be carried out "at scale" - by allowing the entirety of the machine learning community to potentially accelerate progress within a given field. In this article, we provide a high-level view of synthetic data: what it means, how we might evaluate it and how we might use it.
翻訳日:2021-05-16 20:50:34 公開日:2020-12-08
# 古典的対称性とQAOA

Classical symmetries and QAOA ( http://arxiv.org/abs/2012.04713v1 )

ライセンス: Link先を確認
Ruslan Shaydulin, Stuart Hadfield, Tad Hogg, Ilya Safro(参考訳) 本稿では,量子近似最適化アルゴリズム(QAOA)と最適化対象関数の基本対称性との関係について検討する。 本稿では,QAOA力学の量子対称性特性と目的関数の古典対称性群との関係を定式化する。 接続は一般で包含されるが、グラフ上で定義された問題に限らない。 連結を探索する一連の結果を示し,非自明な対称性部分群を効率的に得ることのできる難題クラスの例を示す。 特に,古典的目的関数対称性が,アルゴリズムパラメータの選択や層数によらず,そのような対称性によって連結された状態間で不変な測定結果の確率をもたらすことを示す。 開発した接続のパワーを説明するために,対称性を考慮したQAOA性能予測に機械学習手法を適用した。 我々は,qaoaパラメータのスケジュールが線形に制約され最適化が容易であるような,maxcut問題の目標近似比を達成するのに必要な最小qaoa深さを予測するために,グラフ対称性の小さな集合が十分であることを示す数値的証拠を提供する。

We study the relationship between the Quantum Approximate Optimization Algorithm (QAOA) and the underlying symmetries of the objective function to be optimized. Our approach formalizes the connection between quantum symmetry properties of the QAOA dynamics and the group of classical symmetries of the objective function. The connection is general and includes but is not limited to problems defined on graphs. We show a series of results exploring the connection and highlight examples of hard problem classes where a nontrivial symmetry subgroup can be obtained efficiently. In particular we show how classical objective function symmetries lead to invariant measurement outcome probabilities across states connected by such symmetries, independent of the choice of algorithm parameters or number of layers. To illustrate the power of the developed connection, we apply machine learning techniques towards predicting QAOA performance based on symmetry considerations. We provide numerical evidence that a small set of graph symmetry properties suffices to predict the minimum QAOA depth required to achieve a target approximation ratio on the MaxCut problem, in a practically important setting where QAOA parameter schedules are constrained to be linear and hence easier to optimize.
翻訳日:2021-05-16 20:50:23 公開日:2020-12-08
# せん断ニューラルネットワーク

Sheaf Neural Networks ( http://arxiv.org/abs/2012.06333v1 )

ライセンス: Link先を確認
Jakob Hansen and Thomas Gebhart(参考訳) 本稿では,このグラフニューラルネットワークのクラスに基づく拡散操作を一般化することにより,グラフ畳み込みネットワークの一般化を提案する。 これらの層ニューラルネットワークは、基盤となるグラフによってパラメータ化された追加の関係構造を符号化するグラフラプラシアンの一般化である層ラプラシアンに基づいている。 層ラプラシアンおよび関連する行列は、グラフ畳み込みネットワークにおける拡散操作の拡張版を提供し、ノード間の関係が非定常で非対称で次元が変化する領域に対して適切な一般化を提供する。 その結果,ノード間の関係が非対称で署名された領域におけるグラフ畳み込みネットワークよりも優れていることを示す。

We present a generalization of graph convolutional networks by generalizing the diffusion operation underlying this class of graph neural networks. These sheaf neural networks are based on the sheaf Laplacian, a generalization of the graph Laplacian that encodes additional relational structure parameterized by the underlying graph. The sheaf Laplacian and associated matrices provide an extended version of the diffusion operation in graph convolutional networks, providing a proper generalization for domains where relations between nodes are non-constant, asymmetric, and varying in dimension. We show that the resulting sheaf neural networks can outperform graph convolutional networks in domains where relations between nodes are asymmetric and signed.
翻訳日:2021-05-16 20:49:36 公開日:2020-12-08
# 生画像デブラリング

Raw Image Deblurring ( http://arxiv.org/abs/2012.04264v1 )

ライセンス: Link先を確認
Chih-Hung Liang, Yu-An Chen, Yueh-Cheng Liu, Winston H. Hsu(参考訳) ディープラーニングベースのブラインドイメージデブラリングは、既存のカーネルはすべて、現実世界のぼかしのモデリングに制限があるため、画像のぼかしを解決する上で重要な役割を果たす。 これまでのところ、研究者は難解な問題に対処し、十分な結果を得るために強力なモデルに焦点を当てている。 この研究のために、新しい側面において、RAW画像から直接画像強化(例えば、デブロアリング)を行う大きな機会を発見し、RAWベースの学習に役立つ新しいニューラルネットワーク構造を調査する。 しかし、私たちの知る限りでは、RAW画像デブロアリングデータセットは利用できない。 そこで我々は,RAW画像と処理されたsRGB画像の両方を含む新しいデータセットを構築し,RAW画像の特徴を生かした新しいモデルを構築した。 RAW画像のみをトレーニングしたデブロアリングモデルは,最先端のパフォーマンスを実現し,処理されたsRGB画像のトレーニングに勝る。 さらに、微調整により、新しいデータセットに基づいてトレーニングされた提案モデルは、他のセンサーに一般化することができる。 さらに,一連の実験により,新たなデータセットの生画像のトレーニングにより,既存のデブラリングモデルも改善できることを実証した。 最終的に,新たに考案した生ベースデブラリング法と新しいデブラル-rawデータセットに基づき,さらなる機会を得るための新たな会場を提案する。

Deep learning-based blind image deblurring plays an essential role in solving image blur since all existing kernels are limited in modeling the real world blur. Thus far, researchers focus on powerful models to handle the deblurring problem and achieve decent results. For this work, in a new aspect, we discover the great opportunity for image enhancement (e.g., deblurring) directly from RAW images and investigate novel neural network structures benefiting RAW-based learning. However, to the best of our knowledge, there is no available RAW image deblurring dataset. Therefore, we built a new dataset containing both RAW images and processed sRGB images and design a new model to utilize the unique characteristics of RAW images. The proposed deblurring model, trained solely from RAW images, achieves the state-of-art performance and outweighs those trained on processed sRGB images. Furthermore, with fine-tuning, the proposed model, trained on our new dataset, can generalize to other sensors. Additionally, by a series of experiments, we demonstrate that existing deblurring models can also be improved by training on the RAW images in our new dataset. Ultimately, we show a new venue for further opportunities based on the devised novel raw-based deblurring method and the brand-new Deblur-RAW dataset.
翻訳日:2021-05-16 20:48:12 公開日:2020-12-08
# 深部エネルギーに基づくNARXモデル

Deep Energy-Based NARX Models ( http://arxiv.org/abs/2012.04136v1 )

ライセンス: Link先を確認
Johannes N. Hendriks, Fredrik K. Gustafsson, Ant\^onio H. Ribeiro, Adrian G. Wills and Thomas B. Sch\"on(参考訳) 本稿では,システム入力出力データに基づく非線形ARXモデルの学習問題について述べる。 特に、過去の入力と出力の有限ウィンドウに基づいて、電流出力の条件分布を学習することに関心がある。 そこで本稿では,データに基づく未知分布の学習のために連合軍で開発された,いわゆるエネルギーベースモデルについて考察する。 このエネルギーベースのモデルは分布を記述する一般的な関数に依存しており、この目的のためにディープニューラルネットワークを考える。 このアプローチの主な利点は、シミュレーションおよび実験データに基づいて、単純かつ非常に複雑なノイズモデルの両方を学ぶことができることである。

This paper is directed towards the problem of learning nonlinear ARX models based on system input--output data. In particular, our interest is in learning a conditional distribution of the current output based on a finite window of past inputs and outputs. To achieve this, we consider the use of so-called energy-based models, which have been developed in allied fields for learning unknown distributions based on data. This energy-based model relies on a general function to describe the distribution, and here we consider a deep neural network for this purpose. The primary benefit of this approach is that it is capable of learning both simple and highly complex noise models, which we demonstrate on simulated and experimental data.
翻訳日:2021-05-16 20:44:17 公開日:2020-12-08
# RC-SSFL:ロバストでコミュニケーション効率の良い半教師付きフェデレーションラーニングシステムを目指して

RC-SSFL: Towards Robust and Communication-effici ent Semi-supervised Federated Learning System ( http://arxiv.org/abs/2012.04432v1 )

ライセンス: Link先を確認
Yi Liu, Xingliang Yuan, Ruihui Zhao, Yifeng Zheng, Yefeng Zheng(参考訳) Federated Learning(FL)は、ユーザデータのプライバシを保護しながら、高品質で共有グローバルモデルをトレーニングする、新たな分散人工知能パラダイムである。 しかし、現在のシステムは強固な仮定に大きく依存している: すべてのクライアントは、データにラベル付けされた豊富な基盤真理を持っている。 本稿では,クライアントが協調して,典型的なflの性能に匹敵する高品質モデルを学ぶことが可能な,実用的なロバストで通信効率の高いセミ教師付きfl(rc-ssfl)システム設計を提案する。 この設定では、クライアントはラベルなしのデータしか持たず、サーバは限定された量のラベル付きデータを持っていると仮定する。 さらに、悪意のあるクライアントは、グローバルモデルのパフォーマンスを損なうために毒殺攻撃を仕掛けることができると考えています。 この問題を解決するため、RC-SSFLは最小限の最適化に基づくクライアント選択戦略を採用し、高品質な更新を行うクライアントを選択し、幾何的中央集束を用いてモデル更新を堅牢に集約する。 さらにrc-ssflは新しい対称量子化法を実装し、通信効率を大幅に向上させた。 2つの実世界のデータセットに対する大規模なケーススタディにより、RC-SSFLは中毒攻撃の有無で典型的なFLに匹敵する性能を維持し、通信オーバーヘッドを$2 \times \sim 4 \times $で削減できることが示された。

Federated Learning (FL) is an emerging decentralized artificial intelligence paradigm, which promises to train a shared global model in high-quality while protecting user data privacy. However, the current systems rely heavily on a strong assumption: all clients have a wealth of ground truth labeled data, which may not be always feasible in the real life. In this paper, we present a practical Robust, and Communication-effici ent Semi-supervised FL (RC-SSFL) system design that can enable the clients to jointly learn a high-quality model that is comparable to typical FL's performance. In this setting, we assume that the client has only unlabeled data and the server has a limited amount of labeled data. Besides, we consider malicious clients can launch poisoning attacks to harm the performance of the global model. To solve this issue, RC-SSFL employs a minimax optimization-based client selection strategy to select the clients who hold high-quality updates and uses geometric median aggregation to robustly aggregate model updates. Furthermore, RC-SSFL implements a novel symmetric quantization method to greatly improve communication efficiency. Extensive case studies on two real-world datasets demonstrate that RC-SSFL can maintain the performance comparable to typical FL in the presence of poisoning attacks and reduce communication overhead by $2 \times \sim 4 \times $.
翻訳日:2021-05-16 20:43:53 公開日:2020-12-08
# 産業用IoTのための通信効率・攻撃耐性エッジ学習を目指して

Towards Communication-effici ent and Attack-Resistant Federated Edge Learning for Industrial Internet of Things ( http://arxiv.org/abs/2012.04436v1 )

ライセンス: Link先を確認
Yi Liu, Ruihui Zhao, Jiawen Kang, Abdulsalam Yassine, Dusit Niyato, Jialiang Peng(参考訳) Federated Edge Learning (FEL)により、エッジノードは、産業用IoT(Industrial Internet of Things)におけるエッジコンピューティングのために、グローバルなディープラーニングモデルを協調的にトレーニングすることができる。 しかし、FELは2つの重要な課題に直面している。 FELは、大規模マルチノードモデルをトレーニングする際に、高価な通信オーバーヘッドに悩まされる。 さらに, FEL の漏えいやラベルフリッピング攻撃に対する脆弱性により, グローバルモデルのトレーニングプロセスは, 敵によって容易に損なわれる。 これらの課題に対処するために、IIoTにおけるエッジコンピューティングのための通信効率とプライバシ強化非同期FELフレームワークを提案する。 まず,エッジノードがグローバルモデルアグリゲーションを待つ時間を削減するために,非同期モデル更新方式を提案する。 第2に,エッジノードの勾配によく設計されたノイズを付加することにより,通信効率を向上し,勾配漏洩攻撃を緩和する非同期局所微分プライバシー機構を提案する。 第3に,ローカルモデルの品質をテストすることにより,悪意のあるノードを検出するクラウドサイドの悪意のあるノード検出機構を設計する。 このようなメカニズムは、ラベルフリップ攻撃を軽減するためにトレーニングに参加する悪意のあるノードを避けることができる。 2つの実世界のデータセットに関する大規模な実験的研究は、提案フレームワークが通信効率を向上するだけでなく、従来のFELフレームワークに匹敵する精度で悪意のある攻撃を軽減できることを示した。

Federated Edge Learning (FEL) allows edge nodes to train a global deep learning model collaboratively for edge computing in the Industrial Internet of Things (IIoT), which significantly promotes the development of Industrial 4.0. However, FEL faces two critical challenges: communication overhead and data privacy. FEL suffers from expensive communication overhead when training large-scale multi-node models. Furthermore, due to the vulnerability of FEL to gradient leakage and label-flipping attacks, the training process of the global model is easily compromised by adversaries. To address these challenges, we propose a communication-effici ent and privacy-enhanced asynchronous FEL framework for edge computing in IIoT. First, we introduce an asynchronous model update scheme to reduce the computation time that edge nodes wait for global model aggregation. Second, we propose an asynchronous local differential privacy mechanism, which improves communication efficiency and mitigates gradient leakage attacks by adding well-designed noise to the gradients of edge nodes. Third, we design a cloud-side malicious node detection mechanism to detect malicious nodes by testing the local model quality. Such a mechanism can avoid malicious nodes participating in training to mitigate label-flipping attacks. Extensive experimental studies on two real-world datasets demonstrate that the proposed framework can not only improve communication efficiency but also mitigate malicious attacks while its accuracy is comparable to traditional FEL frameworks.
翻訳日:2021-05-16 20:43:24 公開日:2020-12-08
# 事例2 機械学習による水質パラメータの検索

Retrieval of Case 2 Water Quality Parameters with Machine Learning ( http://arxiv.org/abs/2012.04495v1 )

ライセンス: Link先を確認
Ana B. Ruescas, Gonzalo Mateo-Garcia, Gustau Camps-Valls and Martin Hieronymi(参考訳) case2extremeデータセット(c2x)に複数の機械学習回帰手法を適用して水質パラメータを求める。 使用したデータは,Sentinel-3 OLCIウェーブバンドにおける水中放射伝達シミュレーションに基づいており,高濃度の溶存有機物(CDOM)を吸水するためにのみ適用されている。 回帰アプローチは正規化線形、ランダムフォレスト、カーネルリッジ、ガウス過程、支持ベクトル回帰器である。 検証は独立したシミュレーションデータセットで行われます。 OLCI Neural Network Swarm (ONSS) との比較も行われている。 最適なアプローチはサンプルシーンに適用され、EUMETSAT/ESAによって提供される標準OLCI製品と比較される。

Water quality parameters are derived applying several machine learning regression methods on the Case2eXtreme dataset (C2X). The used data are based on Hydrolight in-water radiative transfer simulations at Sentinel-3 OLCI wavebands, and the application is done exclusively for absorbing waters with high concentrations of coloured dissolved organic matter (CDOM). The regression approaches are: regularized linear, random forest, Kernel ridge, Gaussian process and support vector regressors. The validation is made with and an independent simulation dataset. A comparison with the OLCI Neural Network Swarm (ONSS) is made as well. The best approached is applied to a sample scene and compared with the standard OLCI product delivered by EUMETSAT/ESA
翻訳日:2021-05-16 20:43:02 公開日:2020-12-08
# 生成逆ネットワークを用いたmpd検出器の時間投影室応答のシミュレーション

Simulating the Time Projection Chamber responses at the MPD detector using Generative Adversarial Networks ( http://arxiv.org/abs/2012.04595v1 )

ライセンス: Link先を確認
A. Maevskiy, F. Ratnikov, A. Zinchenko and V. Riabov(参考訳) 高エネルギー物理実験は、多くのタスクにおいて詳細な検出器シミュレーションモデルに大きく依存している。 これらの詳細なモデルを実行するには、実験で利用可能な計算時間の顕著な量が必要となる。 本研究では,ニカ加速器におけるmpd実験の時間投影室トラッカのシミュレーションを高速化する新しい手法を提案する。 本手法は,特定の対象の集団分布を暗黙的に非パラメトリックに推定する深層学習手法であるジェネレーティブ・アドバーサリー・ネットワークに基づいている。 このアプローチにより、荷電粒子軌道のパラメータに基づいて、生検出器応答の分布から学習し、サンプル化することができる。 提案モデルの品質を評価するために,mpdソフトウェアスタックに統合し,少なくとも1桁のスピードアップで,詳細なシミュレータと同様の高品質なイベントを生成することを実証する。

High energy physics experiments rely heavily on the detailed detector simulation models in many tasks. Running these detailed models typically requires a notable amount of the computing time available to the experiments. In this work, we demonstrate a novel approach to speed up the simulation of the Time Projection Chamber tracker of the MPD experiment at the NICA accelerator complex. Our method is based on a Generative Adversarial Network - a deep learning technique allowing for implicit non-parametric estimation of the population distribution for a given set of objects. This approach lets us learn and then sample from the distribution of raw detector responses, conditioned on the parameters of the charged particle tracks. To evaluate the quality of the proposed model, we integrate it into the MPD software stack and demonstrate that it produces high-quality events similar to the detailed simulator, with a speed-up of at least an order of magnitude.
翻訳日:2021-05-16 20:42:38 公開日:2020-12-08
# リカレントニューラルネットワークのための相互情報減衰曲線とハイパーパラメータグリッド探索設計

Mutual Information Decay Curves and Hyper-Parameter Grid Search Design for Recurrent Neural Architectures ( http://arxiv.org/abs/2012.04632v1 )

ライセンス: Link先を確認
Abhijit Mahalunkar and John D. Kelleher(参考訳) 本稿では,リカレントニューラルネットワークに対するハイパーパラメータ最適化のためのグリッド探索の設計手法を提案する。 このアプローチの基盤は、データセット内の長距離依存関係(ldd)を分析するための相互情報の利用である。 また、このアプローチを用いて、DilatedRNNに対して、さまざまなベンチマークデータセットの最先端結果を得る方法を示す一連の実験を報告する。

We present an approach to design the grid searches for hyper-parameter optimization for recurrent neural architectures. The basis for this approach is the use of mutual information to analyze long distance dependencies (LDDs) within a dataset. We also report a set of experiments that demonstrate how using this approach, we obtain state-of-the-art results for DilatedRNNs across a range of benchmark datasets.
翻訳日:2021-05-16 20:42:26 公開日:2020-12-08
# 新型コロナウイルスの診断におけるコンピュータ・オーディションの最近の進歩

Recent Advances in Computer Audition for Diagnosing COVID-19: An Overview ( http://arxiv.org/abs/2012.04650v1 )

ライセンス: Link先を確認
Kun Qian, Bjorn W. Schuller, Yoshiharu Yamamoto(参考訳) コンピュータ・オーディション(CA)は、音声障害(自閉症スペクトラム、うつ病、パーキンソン病など)や体音障害(異常腸音、心室、スノア音など)の医療分野で効果的であることが示されている。 それにもかかわらず、SARS-CoV-2による新型コロナウイルスのパンデミックと戦うためのデータ駆動技術では、CAは過小評価されている。 この光の下では、covid-19スピーチおよび/または音声分析のためのcaの最新の進歩を要約する。 達成されたマイルストーンは励まされるが、まだ確固たる結論は得られていない。 これは、データがまだ少ないため、しばしば十分な検証ができず、呼吸系に影響を及ぼす関連疾患と体系的に比較できないためである。 特にCAベースの方法はSARS-CoV-2のスタンドアロンスクリーニングツールにはならない。 この簡単な概要が優れたガイダンスを提供し、より広い人工知能コミュニティからより多くの注目を集めることを願っています。

Computer audition (CA) has been demonstrated to be efficient in healthcare domains for speech-affecting disorders (e.g., autism spectrum, depression, or Parkinson's disease) and body sound-affecting abnormalities (e. g., abnormal bowel sounds, heart murmurs, or snore sounds). Nevertheless, CA has been underestimated in the considered data-driven technologies for fighting the COVID-19 pandemic caused by the SARS-CoV-2 coronavirus. In this light, summarise the most recent advances in CA for COVID-19 speech and/or sound analysis. While the milestones achieved are encouraging, there are yet not any solid conclusions that can be made. This comes mostly, as data is still sparse, often not sufficiently validated and lacking in systematic comparison with related diseases that affect the respiratory system. In particular, CA-based methods cannot be a standalone screening tool for SARS-CoV-2. We hope this brief overview can provide a good guidance and attract more attention from a broader artificial intelligence community.
翻訳日:2021-05-16 20:42:18 公開日:2020-12-08
# 新型コロナウイルス早期警戒システムにおけるネットワークスキャンの予測

An Expectation-Based Network Scan Statistic for a COVID-19 Early Warning System ( http://arxiv.org/abs/2012.07574v1 )

ライセンス: Link先を確認
Chance Haycock, Edward Thorpe-Woods, James Walsh, Patrick O'Hara, Oscar Giles, Neil Dhir, Theodoros Damoulas(参考訳) 新型コロナウイルス(COVID-19)のパンデミックに対するグレーター・ロンドン・オーソリティ(GLA)の対応のひとつとして、ロンドンのモビリティ、交通、交通活動を捉える複数の大規模および異種データセットが集結し、"ビジネス性"をよりよく理解し、標的とする介入と効果的な政策決定を可能にする。 project odysseusの一環として、早期警戒システムを紹介し、政府のcovid-19ガイドラインに従う人口の程度を理解するために、ネットワークに対する期待に基づくスキャン統計を導入します。 我々は、(道路)ネットワーク上の地理的に固定された時系列データの場合を明示的に扱い、主に首都の広域にわたるダイナミクスの監視に焦点をあてる。 さらに,重要な時空間領域の検出と報告にも焦点をあてた。 我々のアプローチは、ネットワークベーススキャン統計(NBSS)を拡張し、予測ベース(EBP)を作成し、時系列予測に確率的プロセスを用いることで、ESPとNBSSの両方のフレームワークにおける計量の不確実性を定量化することである。 本稿では,活動が期待以上に静かである時空間領域の同定に焦点をあてた EBP モデルで用いられる計量の変種を紹介する。

One of the Greater London Authority's (GLA) response to the COVID-19 pandemic brings together multiple large-scale and heterogeneous datasets capturing mobility, transportation and traffic activity over the city of London to better understand 'busyness' and enable targeted interventions and effective policy-making. As part of Project Odysseus we describe an early-warning system and introduce an expectation-based scan statistic for networks to help the GLA and Transport for London, understand the extent to which populations are following government COVID-19 guidelines. We explicitly treat the case of geographically fixed time-series data located on a (road) network and primarily focus on monitoring the dynamics across large regions of the capital. Additionally, we also focus on the detection and reporting of significant spatio-temporal regions. Our approach is extending the Network Based Scan Statistic (NBSS) by making it expectation-based (EBP) and by using stochastic processes for time-series forecasting, which enables us to quantify metric uncertainty in both the EBP and NBSS frameworks. We introduce a variant of the metric used in the EBP model which focuses on identifying space-time regions in which activity is quieter than expected.
翻訳日:2021-05-16 20:41:16 公開日:2020-12-08
# (参考訳) CRAFT: 力と非作用に関する因果関係のベンチマーク [全文訳有]

CRAFT: A Benchmark for Causal Reasoning About Forces and inTeractions ( http://arxiv.org/abs/2012.04293v1 )

ライセンス: CC BY 4.0
Tayfun Ates, Muhammed Samil Atesoglu, Cagatay Yigit, Ilker Kesen, Mert Kobas, Erkut Erdem, Aykut Erdem, Tilbe Goksun, Deniz Yuret(参考訳) 人工知能とディープラーニングの最近の進歩は、人間と機械の推論能力のギャップを研究することへの関心を復活させた。 本研究は,身体力と物体の相互作用に関する因果推論を必要とする新しい視覚的質問応答データセットであるCRAFTを紹介する。 これには10の仮想環境から3Kビデオから生成される38Kビデオと質問ペアが含まれており、互いに対話するオブジェクトの数が異なる。 CRAFTの2つの質問カテゴリには、以前に研究された記述的質問と反事実的質問が含まれる。 また、人間の認知心理学の分野から力力学の理論に触発され、原因、有効化、予防という概念を通じて対象の意図を理解することを含む新しい質問カテゴリーを導入する。 予備的な結果は、これらのタスクが人間にとって非常に直感的であるにもかかわらず、実装されたベースラインは、基礎となる課題に対処できなかったことを示している。

Recent advances in Artificial Intelligence and deep learning have revived the interest in studying the gap between the reasoning capabilities of humans and machines. In this ongoing work, we introduce CRAFT, a new visual question answering dataset that requires causal reasoning about physical forces and object interactions. It contains 38K video and question pairs that are generated from 3K videos from 10 different virtual environments, containing different number of objects in motion that interact with each other. Two question categories from CRAFT include previously studied descriptive and counterfactual questions. Besides, inspired by the theory of force dynamics from the field of human cognitive psychology, we introduce new question categories that involve understanding the intentions of objects through the notions of cause, enable, and prevent. Our preliminary results demonstrate that even though these tasks are very intuitive for humans, the implemented baselines could not cope with the underlying challenges.
翻訳日:2021-05-16 17:49:32 公開日:2020-12-08
# 変分オートエンコーダを用いたオープン知識グラフの結合エンティティと関係正準化

Joint Entity and Relation Canonicalization in Open Knowledge Graphs using Variational Autoencoders ( http://arxiv.org/abs/2012.04780v1 )

ライセンス: Link先を確認
Sarthak Dash, Gaetano Rossiello, Nandana Mihindukulasooriya, Sugato Bagchi, Alfio Gliozzo(参考訳) オープンナレッジグラフの名詞句と関係句は正規化されておらず、冗長で曖昧な主題関係オブジェクトの3重項が爆発する。 まず、名詞句と関係句の両方に埋め込み表現を生成し、次にクラスタリングアルゴリズムを使用して埋め込みを特徴としてグループ化する。 本研究では,変分オートエンコーダ(CUVA)を用いた正規化手法を提案する。これは,組込みとクラスタ割り当ての両方をエンドツーエンドのアプローチで学習するジョイントモデルであり,名詞と関係句のベクトル表現が向上する。 複数のベンチマークによる評価の結果,CUVAは既存の最先端技術よりも優れていた。 さらに,エンティティの正準化システムを評価するための新しいデータセットであるcanonicnellを紹介する。

Noun phrases and relation phrases in open knowledge graphs are not canonicalized, leading to an explosion of redundant and ambiguous subject-relation-obj ect triples. Existing approaches to face this problem take a two-step approach: first, they generate embedding representations for both noun and relation phrases, then a clustering algorithm is used to group them using the embeddings as features. In this work, we propose Canonicalizing Using Variational AutoEncoders (CUVA), a joint model to learn both embeddings and cluster assignments in an end-to-end approach, which leads to a better vector representation for the noun and relation phrases. Our evaluation over multiple benchmarks shows that CUVA outperforms the existing state of the art approaches. Moreover, we introduce CanonicNell a novel dataset to evaluate entity canonicalization systems.
翻訳日:2021-05-16 17:37:19 公開日:2020-12-08
# 訓練事例の影響の効率的な評価

Efficient Estimation of Influence of a Training Instance ( http://arxiv.org/abs/2012.04207v1 )

ライセンス: Link先を確認
Sosuke Kobayashi, Sho Yokoi, Jun Suzuki, Kentaro Inui(参考訳) トレーニングインスタンスがニューラルネットワークモデルに与える影響を理解することで、解釈性が向上する。 しかし,トレーニングインスタンスを使用しない場合,モデルの予測がどのように変化するかを示すため,影響の評価は困難かつ非効率である。 本稿では,その影響を効率的に推定する手法を提案する。 提案手法は,サブネットワークをゼロマスクし,サブネットワークが各トレーニングインスタンスを学習するのを防ぐドロップアウトにインスパイアされている。 ドロップアウトマスクを切り替えることで、トレーニングインスタンスを学習あるいは学習しなかったサブネットワークを使用して、その影響を見積もることができます。 bert と vggnet による分類データセットの実験を通じて,提案手法がトレーニングの影響を捉え,誤り予測の解釈性を高め,一般化を改善するためのトレーニングデータセットをクリーン化できることを実証する。

Understanding the influence of a training instance on a neural network model leads to improving interpretability. However, it is difficult and inefficient to evaluate the influence, which shows how a model's prediction would be changed if a training instance were not used. In this paper, we propose an efficient method for estimating the influence. Our method is inspired by dropout, which zero-masks a sub-network and prevents the sub-network from learning each training instance. By switching between dropout masks, we can use sub-networks that learned or did not learn each training instance and estimate its influence. Through experiments with BERT and VGGNet on classification datasets, we demonstrate that the proposed method can capture training influences, enhance the interpretability of error predictions, and cleanse the training dataset for improving generalization.
翻訳日:2021-05-16 17:37:06 公開日:2020-12-08
# Globetrotter:ビジュアルアライメントからの教師なし多言語翻訳

Globetrotter: Unsupervised Multilingual Translation from Visual Alignment ( http://arxiv.org/abs/2012.04631v1 )

ライセンス: Link先を確認
D\'idac Sur\'is, Dave Epstein, Carl Vondrick(参考訳) 並列コーパスのない多言語機械翻訳は、言語間の明示的な監督がないため難しい。 既存の教師なしメソッドは通常、言語表現の位相的性質に依存する。 我々は、画像をそれらの間の橋渡しとして、代わりに視覚的モダリティを使用して複数の言語をアラインするフレームワークを導入する。 言語と画像のクロスモーダルアライメントを推定し,この推定値を用いて言語間表現の学習を指導する。 私たちの言語表現は、1つのステージを持つ1つのモデルで共同で訓練されます。 提案手法は, 単語の教師なし翻訳や文レベルの翻訳において, ベースラインよりも優れていることを示す。

Multi-language machine translation without parallel corpora is challenging because there is no explicit supervision between languages. Existing unsupervised methods typically rely on topological properties of the language representations. We introduce a framework that instead uses the visual modality to align multiple languages, using images as the bridge between them. We estimate the cross-modal alignment between language and images, and use this estimate to guide the learning of cross-lingual representations. Our language representations are trained jointly in one model with a single stage. Experiments with fifty-two languages show that our method outperforms baselines on unsupervised word-level and sentence-level translation using retrieval.
翻訳日:2021-05-16 17:36:53 公開日:2020-12-08
# VAE-Info-cGAN: 画素レベルと特徴レベルの地理空間条件入力を組み合わせた合成画像の生成

VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and Feature-level Geospatial Conditional Inputs ( http://arxiv.org/abs/2012.04196v1 )

ライセンス: Link先を確認
Xuerong Xiao, Swetava Ganguli, Vipul Pandey(参考訳) コンピュータビジョンの多くの地理空間応用のためのロバストな教師付きディープラーニングモデルのトレーニングは、クラスバランスと多種多様なトレーニングデータの不足のために難しい。 逆に、多くのアプリケーションで十分なトレーニングデータを取得することは金銭的に禁止されるか、特に稀なイベントや極端なイベントをモデル化するアプリケーションでは不可能である。 画像のマルチスケール性を利用した生成モデルを用いてデータ(およびラベル)を合成的に生成することは、ラベル付きデータの不足に対処するための安価なソリューションである。 この目的に向けて,可変オートエンコーダ (vae) と,画素レベル条件 (plc) と巨視的特徴レベル条件 (flc) を同時に条件づけた意味的にリッチな画像を合成する条件情報とを組み合わせた,深い条件付き生成モデルvae-info-cganを提案する。 次元的には、plcは合成画像からチャネル次元だけを変化させることができ、タスク固有の入力となることを意図している。 FLCは生成画像の潜時空間における属性ベクトルとしてモデル化され、ターゲット分布に対する様々な特性特性の寄与を制御する。 選択されたバイナリマクロ的特徴を変化させることで、合成画像を体系的に生成する属性ベクトルの解釈を探索する。 GPSトラジェクトリデータセットを用いた実験により,提案手法は道路網のラスタ表現のみを条件に,異なる地理的位置をまたいだ様々な時空間的集合を正確に生成できることを示した。 VAE-Info-cGANの主な用途は、地理空間分析とリモートセンシングに関連する問題のコンピュータビジョンに基づくモデリングのための、ターゲットデータ拡張のための合成データ(およびラベル)生成である。

Training robust supervised deep learning models for many geospatial applications of computer vision is difficult due to dearth of class-balanced and diverse training data. Conversely, obtaining enough training data for many applications is financially prohibitive or may be infeasible, especially when the application involves modeling rare or extreme events. Synthetically generating data (and labels) using a generative model that can sample from a target distribution and exploit the multi-scale nature of images can be an inexpensive solution to address scarcity of labeled data. Towards this goal, we present a deep conditional generative model, called VAE-Info-cGAN, that combines a Variational Autoencoder (VAE) with a conditional Information Maximizing Generative Adversarial Network (InfoGAN), for synthesizing semantically rich images simultaneously conditioned on a pixel-level condition (PLC) and a macroscopic feature-level condition (FLC). Dimensionally, the PLC can only vary in the channel dimension from the synthesized image and is meant to be a task-specific input. The FLC is modeled as an attribute vector in the latent space of the generated image which controls the contributions of various characteristic attributes germane to the target distribution. An interpretation of the attribute vector to systematically generate synthetic images by varying a chosen binary macroscopic feature is explored. Experiments on a GPS trajectories dataset show that the proposed model can accurately generate various forms of spatio-temporal aggregates across different geographic locations while conditioned only on a raster representation of the road network. The primary intended application of the VAE-Info-cGAN is synthetic data (and label) generation for targeted data augmentation for computer vision-based modeling of problems relevant to geospatial analysis and remote sensing.
翻訳日:2021-05-16 17:36:42 公開日:2020-12-08
# 形式的新奇理論の統一的枠組み:枠組み, 実例, 議論

A Unifying Framework for Formal Theories of Novelty:Framework, Examples and Discussion ( http://arxiv.org/abs/2012.04226v1 )

ライセンス: Link先を確認
T. E. Boult, P. A. Grabowicz, D. S. Prijatelj, R. Stern, L. Holder, J. Alspector, M. Jafarzadeh, T. Ahmad, A. R. Dhamija, C.Li, S. Cruz, A. Shrivastava, C. Vondrick, W. J. Scheirer(参考訳) エージェントがラボからオープンワールドに移動するとき、新規、未知、または分散しない入力を管理することは重要です。 新規性に関連する問題は、通常の入力の新規な摂動に寛容であること、入力が新規なアイテムを含むことを検知すること、新しい入力に適応することである。 これらの分野では重要な研究が行われているが、問題領域を超越する形式化された新規性の定義が欠如していることに顕著なギャップがある。 複数の研究グループと異なるドメインにまたがる研究チームとして、私たちはまず、不明確な新規性問題から生じる困難と、一貫性のない定義と用語を見てきた。 そこで本研究では,ノベルティの形式理論を統一した最初の枠組みを提示し,この枠組みを用いてノベルティの類型を正式に定義する。 私たちのフレームワークは、シンボリックaiから強化学習、さらにはオープンワールドイメージ認識まで、幅広いドメインに適用することができます。 これにより、新たな研究活動の開始を助け、これらの重要なノベルティ関連の問題に対する継続的な取り組みを加速することができる。 AAAI 2021のこの拡張版には、複数のドメインで詳細と例が含まれています。

Managing inputs that are novel, unknown, or out-of-distribution is critical as an agent moves from the lab to the open world. Novelty-related problems include being tolerant to novel perturbations of the normal input, detecting when the input includes novel items, and adapting to novel inputs. While significant research has been undertaken in these areas, a noticeable gap exists in the lack of a formalized definition of novelty that transcends problem domains. As a team of researchers spanning multiple research groups and different domains, we have seen, first hand, the difficulties that arise from ill-specified novelty problems, as well as inconsistent definitions and terminology. Therefore, we present the first unified framework for formal theories of novelty and use the framework to formally define a family of novelty types. Our framework can be applied across a wide range of domains, from symbolic AI to reinforcement learning, and beyond to open world image recognition. Thus, it can be used to help kick-start new research efforts and accelerate ongoing work on these important novelty-related problems. This extended version of our AAAI 2021 paper included more details and examples in multiple domains.
翻訳日:2021-05-16 17:36:11 公開日:2020-12-08
# 雑音ラベル克服のための二相学習

Two-Phase Learning for Overcoming Noisy Labels ( http://arxiv.org/abs/2012.04337v1 )

ライセンス: Link先を確認
Hwanjun Song, Minseok Kim, Dongmin Park, Jae-Gil Lee(参考訳) ノイズラベルに関連する課題に対処するためには、深層ニューラルネットワークの学習戦略をトレーニングプロセス中の学習期間を通じて区別する必要がある。 そこで本研究では,ネットワークが偽ラベルサンプルを高速に記憶し始めた時点で,学習フェーズを自動移行する2相学習手法であるMORPHを提案する。 第1フェーズでは、morphは遷移点の前にすべてのトレーニングサンプルのネットワークを更新し始める。 教師がいなければ、学習フェーズは、推定された最良の遷移点に基づいて次のフェーズに変換される。 その後、MORPHは最大安全なセットのためにのみネットワークのトレーニングを再開し、各エポックにおけるほぼ確実に真のラベル付きサンプルの収集を維持する。 2相学習のため、morphはどんな種類のラベルノイズに対してもノイズフリーなトレーニングを実現している。 さらに、6つのデータセットを用いた広範な実験により、MORPHがテストエラーとトレーニング時間で5つの最先端手法を著しく上回っていることが確認された。

To counter the challenge associated with noise labels, the learning strategy of deep neural networks must be differentiated over the learning period during the training process. Therefore, we propose a novel two-phase learning method, MORPH, which automatically transitions its learning phase at the point when the network begins to rapidly memorize false-labeled samples. In the first phase, MORPH starts to update the network for all the training samples before the transition point. Without any supervision, the learning phase is converted to the next phase on the basis of the estimated best transition point. Subsequently, MORPH resumes the training of the network only for a maximal safe set, which maintains the collection of almost certainly true-labeled samples at each epoch. Owing to its two-phase learning, MORPH realizes noise-free training for any type of label noise for practical use. Moreover, extensive experiments using six datasets verify that MORPH significantly outperforms five state-of-the art methods in terms of test error and training time.
翻訳日:2021-05-16 17:35:34 公開日:2020-12-08
# モデルをキャスティングする: ローカライズへの学習が自己監督表現を改善する

CASTing Your Model: Learning to Localize Improves Self-Supervised Representations ( http://arxiv.org/abs/2012.04630v1 )

ライセンス: Link先を確認
Ramprasaath R. Selvaraju, Karan Desai, Justin Johnson, Nikhil Naik(参考訳) 自己教師付き学習(SSL)の最近の進歩は、教師付きImageNet事前学習とのギャップを大きく埋めている。 彼らの成功にもかかわらず、これらの手法は主にラベルのないImageNet画像に適用され、未修正画像のより大きなセットで訓練された場合、限界的な利得を示す。 我々は、現在のSSLメソッドは、象徴的なイメージに最適であり、多くのオブジェクトを持つ複雑なシーンイメージに苦戦していると仮定する。 対照的なSSL手法を解析すると、視覚的接地が乏しく、シーンイメージで訓練すると監視信号が弱いことが分かる。 これらの制限を克服するために、コントラスト注意監督チューニング(CAST)を提案する。 CASTは、教師なしサリエンシマップを使用して作物をインテリジェントにサンプリングし、グラッド-CAMの注意喪失による接地監視を提供する。 COCOの実験では、CASTはシーンイメージ上のSSLメソッドによって得られた機能を著しく改善し、さらに実験により、CASTが学習したモデルは背景の変化に対してより堅牢であることが示されている。

Recent advances in self-supervised learning (SSL) have largely closed the gap with supervised ImageNet pretraining. Despite their success these methods have been primarily applied to unlabeled ImageNet images, and show marginal gains when trained on larger sets of uncurated images. We hypothesize that current SSL methods perform best on iconic images, and struggle on complex scene images with many objects. Analyzing contrastive SSL methods shows that they have poor visual grounding and receive poor supervisory signal when trained on scene images. We propose Contrastive Attention-Supervised Tuning(CAST) to overcome these limitations. CAST uses unsupervised saliency maps to intelligently sample crops, and to provide grounding supervision via a Grad-CAM attention loss. Experiments on COCO show that CAST significantly improves the features learned by SSL methods on scene images, and further experiments show that CAST-trained models are more robust to changes in backgrounds.
翻訳日:2021-05-16 17:35:18 公開日:2020-12-08
# 表現の観点からのフェデレーション学習におけるプライバシー漏洩防止の可能性

Provable Defense against Privacy Leakage in Federated Learning from Representation Perspective ( http://arxiv.org/abs/2012.06043v1 )

ライセンス: Link先を確認
Jingwei Sun, Ang Li, Binghui Wang, Huanrui Yang, Hai Li, Yiran Chen(参考訳) フェデレートラーニング(FL)は、プライベートデータを明示的に共有しないことでプライバシーリスクを低減できる人気のある分散ラーニングフレームワークである。 しかし、最近の研究はモデル更新の共有がflを推論攻撃に対して脆弱にすることを示した。 本研究では,FLにおけるプライバシー漏洩の根本原因として,勾配からのデータ表現リークが重要であることを示す。 また,この観測結果の分析を行い,データの漏洩状況について述べる。 本研究では,FLにおけるモデル反転攻撃に対する防御法を提案する。 我々の防御の重要な考え方は、再構成されたデータの品質が著しく低下し、fl性能が維持されるようにデータ表現を摂動させることである。 また,FedAvgの防衛を施した後,FLの堅牢性保証と収束保証をFedAvgに導いた。 我々は,dlg攻撃およびgs攻撃に対する防御のためのmnistおよびcifar10の実験を行う。 精度を犠牲にすることなく,本提案手法はベースライン防御法と比較して,dlg攻撃とgs攻撃の両方において,復元データと生データの平均二乗誤差を最大160倍高めることができることを示した。 FLシステムのプライバシーは大幅に改善されている。

Federated learning (FL) is a popular distributed learning framework that can reduce privacy risks by not explicitly sharing private data. However, recent works demonstrated that sharing model updates makes FL vulnerable to inference attacks. In this work, we show our key observation that the data representation leakage from gradients is the essential cause of privacy leakage in FL. We also provide an analysis of this observation to explain how the data presentation is leaked. Based on this observation, we propose a defense against model inversion attack in FL. The key idea of our defense is learning to perturb data representation such that the quality of the reconstructed data is severely degraded, while FL performance is maintained. In addition, we derive certified robustness guarantee to FL and convergence guarantee to FedAvg, after applying our defense. To evaluate our defense, we conduct experiments on MNIST and CIFAR10 for defending against the DLG attack and GS attack. Without sacrificing accuracy, the results demonstrate that our proposed defense can increase the mean squared error between the reconstructed data and the raw data by as much as more than 160X for both DLG attack and GS attack, compared with baseline defense methods. The privacy of the FL system is significantly improved.
翻訳日:2021-05-16 17:35:04 公開日:2020-12-08