このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201206となっている論文です。

PDF登録状況(公開日: 20201206)

TitleAuthorsAbstract論文公表日・翻訳日
# mlによる洪水予測: 規模, 精度, 到達範囲の進歩

ML-based Flood Forecasting: Advances in Scale, Accuracy and Reach ( http://arxiv.org/abs/2012.00671v2 )

ライセンス: Link先を確認
Sella Nevo, Gal Elidan, Avinatan Hassidim, Guy Shalev, Oren Gilon, Grey Nearing, Yossi Matias(参考訳) 洪水は世界で最もありふれた自然災害の1つであり、洪水警報システムは被害を減らすのに有効であることが示されている。 しかし、世界の脆弱な人口の大多数は、スケーラビリティ、計算コスト、データ可用性におけるコア課題のため、信頼性が高く行動可能な警告システムにアクセスできない。 本稿では,過去1年間に開発された洪水予報システムの2つの構成要素について述べる。

Floods are among the most common and deadly natural disasters in the world, and flood warning systems have been shown to be effective in reducing harm. Yet the majority of the world's vulnerable population does not have access to reliable and actionable warning systems, due to core challenges in scalability, computational costs, and data availability. In this paper we present two components of flood forecasting systems which were developed over the past year, providing access to these critical systems to 75 million people who didn't have this access before.
翻訳日:2021-06-07 08:55:36 公開日:2020-12-06
# (参考訳) ニューロンにおける言語形態のモデル化 [全文訳有]

Modelling Verbal Morphology in Nen ( http://arxiv.org/abs/2011.14489v2 )

ライセンス: CC BY 4.0
Saliha Murado\u{g}lu, Nicholas Evans, Ekaterina Vylomova(参考訳) 半動詞の形態は著しく複雑であり、推移動詞は1,740個の固有形をとることができる。 大規模なコンビネータ空間と低リソース設定の併用効果は、NLPツールの必要性を増幅する。 Nen モルフォロジーは分散指数(distributed exponence)、つまり形式を意味にマッピングする非自明な手段を利用する。 本稿では,形態的回帰のための最先端機械学習モデルを用いて,Nen言語形態をモデル化する。 これらのシステムが生成するエラーの種類を調べ、分類する。 この結果から,動詞型の異なる分布は,異なる精度(E-complexityのパターン)をもたらすことがわかった。 また、同期のケーススタディを通じて、トレーニングデータから推測できるパターンの種類についても示す。

Nen verbal morphology is remarkably complex; a transitive verb can take up to 1,740 unique forms. The combined effect of having a large combinatoric space and a low-resource setting amplifies the need for NLP tools. Nen morphology utilises distributed exponence - a non-trivial means of mapping form to meaning. In this paper, we attempt to model Nen verbal morphology using state-of-the-art machine learning models for morphological reinflection. We explore and categorise the types of errors these systems generate. Our results show sensitivity to training data composition; different distributions of verb type yield different accuracies (patterning with E-complexity). We also demonstrate the types of patterns that can be inferred from the training data through the case study of syncretism.
翻訳日:2021-06-07 07:50:50 公開日:2020-12-06
# X線CTのためのDeep Interactive Denoiser (DID)

Deep Interactive Denoiser (DID) for X-Ray Computed Tomography ( http://arxiv.org/abs/2011.14873v2 )

ライセンス: Link先を確認
Ti Bai, Biling Wang, Dan Nguyen, Bao Wang, Bin Dong, Wenxiang Cong, Mannudeep K. Kalra, and Steve Jiang(参考訳) 低線量CT(LDCT)は診断画像と画像ガイド下手術の両方に有用である。 デノイザーはLDCTの品質向上のために公然と使用される。 ディープラーニング(DL)ベースのデノイザは最先端のパフォーマンスを示し、主要な手法の1つになりつつある。 しかし、dlベースのデノイザには2つの課題がある: 1) 訓練されたモデルは、通常、異なる臨床作業に必要となる異なるノイズ解決トレードオフを持つ異なる画像候補を生成しない;2) テスト画像のノイズレベルがトレーニングデータセットと異なる場合、モデルの一般化可能性は問題となる可能性がある。 この2つの課題に対処するため,本研究では,既存のDLベースデノイザ上での試験段階における軽量な最適化プロセスを導入し,異なるノイズ分解トレードオフを持つ複数の画像候補をリアルタイムに生成する。 そこで,提案手法では,デノイザーと対話することで,様々な画像候補を効率的にレビューし,所望の画像を迅速に拾い上げることができ,did(deep interactive denoiser)と呼ばれる。 実験により、DIDは異なるノイズ分解トレードオフを持つ複数の画像候補を提供でき、様々なネットワークアーキテクチャ、および様々なノイズレベルのデータセットのトレーニングとテストを行うことができることを示した。

Low dose computed tomography (LDCT) is desirable for both diagnostic imaging and image guided interventions. Denoisers are openly used to improve the quality of LDCT. Deep learning (DL)-based denoisers have shown state-of-the-art performance and are becoming one of the mainstream methods. However, there exists two challenges regarding the DL-based denoisers: 1) a trained model typically does not generate different image candidates with different noise-resolution tradeoffs which sometimes are needed for different clinical tasks; 2) the model generalizability might be an issue when the noise level in the testing images is different from that in the training dataset. To address these two challenges, in this work, we introduce a lightweight optimization process at the testing phase on top of any existing DL-based denoisers to generate multiple image candidates with different noise-resolution tradeoffs suitable for different clinical tasks in real-time. Consequently, our method allows the users to interact with the denoiser to efficiently review various image candidates and quickly pick up the desired one, and thereby was termed as deep interactive denoiser (DID). Experimental results demonstrated that DID can deliver multiple image candidates with different noise-resolution tradeoffs, and shows great generalizability regarding various network architectures, as well as training and testing datasets with various noise levels.
翻訳日:2021-06-06 14:36:02 公開日:2020-12-06
# (参考訳) Any-Width Networks [全文訳有]

Any-Width Networks ( http://arxiv.org/abs/2012.03153v1 )

ライセンス: CC BY 4.0
Thanh Vu, Marc Eder, True Price, Jan-Michael Frahm(参考訳) 速度と精度の大幅な改善にもかかわらず、畳み込みニューラルネットワーク(cnns)は、通常、推論時にモノリシックなエンティティとして動作する。 これは、計算予算と性能要求の両方が状況に応じて変化する資源制約された実用アプリケーションにとっての課題である。 これらの制約に対処するため,我々は,調整可能なcnnアーキテクチャであるany-width network(awn)と関連するトレーニングルーチンを提案する。 我々の重要な革新は、幅変動バッチ統計に明示的に対応しつつ、自然にマルチ幅演算に適合する低三角重み行列の使用である。 また,この設計により,ランダム幅サンプリングに基づく効率的なトレーニングルーチンが実現できることを示す。 提案手法では,提案手法と既存手法との比較を行い,推論時に最大粒度制御を行うことを実証的に示した。

Despite remarkable improvements in speed and accuracy, convolutional neural networks (CNNs) still typically operate as monolithic entities at inference time. This poses a challenge for resource-constrained practical applications, where both computational budgets and performance needs can vary with the situation. To address these constraints, we propose the Any-Width Network (AWN), an adjustable-width CNN architecture and associated training routine that allow for fine-grained control over speed and accuracy during inference. Our key innovation is the use of lower-triangular weight matrices which explicitly address width-varying batch statistics while being naturally suited for multi-width operations. We also show that this design facilitates an efficient training routine based on random width sampling. We empirically demonstrate that our proposed AWNs compare favorably to existing methods while providing maximally granular control during inference.
翻訳日:2021-05-22 09:57:24 公開日:2020-12-06
# (参考訳) 最適経路計画のための条件付き生成逆ネットワーク [全文訳有]

Conditional Generative Adversarial Networks for Optimal Path Planning ( http://arxiv.org/abs/2012.03166v1 )

ライセンス: CC BY 4.0
Nachuan Ma, Jiankun Wang, Max Q.-H. Meng(参考訳) 自律ロボットシステムでは経路計画が重要な役割を果たす。 周辺環境の効率的な理解と最適衝突のない経路の効率的な生成は、経路計画問題の解決に重要な部分である。 高速探索ランダムツリー (RRT) や改良された最適バージョン (RRT*) のような従来のサンプリングベースアルゴリズムは、複雑な環境でも実現可能な経路を見つける能力から経路計画問題に広く用いられているが、最適経路を効率的に見つけることができない。 この問題の解決と2つの要件を満たすために,条件付き生成逆数ネットワーク(CGAN)と修正RT*アルゴリズム(CGANRRT*)に基づく新しい生成モデルからなる学習ベースの経路計画アルゴリズムを提案する。 このマップ情報から,CGANモデルは,CGAN-RRT*アルゴリズムを用いて,一様でないサンプリング戦略を用いて最適経路を求めることが可能な,実現可能な経路の効率的な分布を生成することができる。 CGANモデルは、地上の真理マップから学習することで訓練され、それぞれがRRTアルゴリズムの実行結果を1つの生地図上で50回実行することで生成される。 CGAN-RRT* アルゴリズムと従来の RRT* アルゴリズムを比較することで,この CGAN モデルの有効性を実証する。

Path planning plays an important role in autonomous robot systems. Effective understanding of the surrounding environment and efficient generation of optimal collision-free path are both critical parts for solving path planning problem. Although conventional sampling-based algorithms, such as the rapidly-exploring random tree (RRT) and its improved optimal version (RRT*), have been widely used in path planning problems because of their ability to find a feasible path in even complex environments, they fail to find an optimal path efficiently. To solve this problem and satisfy the two aforementioned requirements, we propose a novel learning-based path planning algorithm which consists of a novel generative model based on the conditional generative adversarial networks (CGAN) and a modified RRT* algorithm (denoted by CGANRRT*). Given the map information, our CGAN model can generate an efficient possibility distribution of feasible paths, which can be utilized by the CGAN-RRT* algorithm to find the optimal path with a non-uniform sampling strategy. The CGAN model is trained by learning from ground truth maps, each of which is generated by putting all the results of executing RRT algorithm 50 times on one raw map. We demonstrate the efficient performance of this CGAN model by testing it on two groups of maps and comparing CGAN-RRT* algorithm with conventional RRT* algorithm.
翻訳日:2021-05-22 09:42:51 公開日:2020-12-06
# (参考訳) 高次グラフニューラルネットワークによるサブ構造の推定:可能性と不可能性 [全文訳有]

Counting Substructures with Higher-Order Graph Neural Networks: Possibility and Impossibility Results ( http://arxiv.org/abs/2012.03174v1 )

ライセンス: CC BY 4.0
Behrooz Tahmasebi, Stefanie Jegelka(参考訳) マッサージパスベースのグラフニューラルネットワーク(GNN)は、グラフで学ぶための人気アーキテクチャになりつつあるが、最近の研究は、その表現力の重要な欠点を明らかにしている。 これに対し、いくつかの高次GNNが提案され、表現力を大幅に向上するが、計算コストが大きい。 このギャップに動機づけられ、計算コストと表現力のトレードオフを異なるものにする、ローカル近傍の新たな再帰的プーリング技術を導入し、分析する。 まず、このモデルでは、$k$のサブグラフをカウントでき、低次GNNの既知の制限を克服できることを示す。 第二に、いくつかのケースにおいて、提案アルゴリズムは既存の$k$-GNNやローカルリレーショナルポーリング(LRP)ネットワークと比較して計算複雑性を大幅に削減できることを示す。 また,グラフ表現のための情報理論下限を(近く)マッチングし,サブグラフのカウントを可能とし,時間複雑性下限についても議論する。

While massage passing based Graph Neural Networks (GNNs) have become increasingly popular architectures for learning with graphs, recent works have revealed important shortcomings in their expressive power. In response, several higher-order GNNs have been proposed, which substantially increase the expressive power, but at a large computational cost. Motivated by this gap, we introduce and analyze a new recursive pooling technique of local neighborhoods that allows different tradeoffs of computational cost and expressive power. First, we show that this model can count subgraphs of size $k$, and thereby overcomes a known limitation of low-order GNNs. Second, we prove that, in several cases, the proposed algorithm can greatly reduce computational complexity compared to the existing higher-order $k$-GNN and Local Relational Pooling (LRP) networks. We also provide a (near) matching information-theoreti c lower bound for graph representations that can provably count subgraphs, and discuss time complexity lower bounds as well.
翻訳日:2021-05-22 09:22:03 公開日:2020-12-06
# (参考訳) 最大エントロピー部分空間クラスタリングネットワーク [全文訳有]

Maximum Entropy Subspace Clustering Network ( http://arxiv.org/abs/2012.03176v1 )

ライセンス: CC BY 4.0
Zhihao Peng, Yuheng Jia, Hui Liu, Junhui Hou, Qingfu Zhang(参考訳) ディープサブスペースクラスタリングネットワーク(dsc-net)とその多くの変種は、サブスペースクラスタリングにおいて印象的な性能を達成しており、オートエンコーダが入力データを潜在空間に非線形にマッピングし、エンコーダとデコーダの間に自己表現性モジュールと呼ばれる完全接続層を導入し、親和性行列を学ぶ。 しかし、アフィニティ行列(例えば、スパース、チホノフ、ローランク)上で採用されている正則化は、理想的なアフィニティ行列の学習を駆動するのにはまだ不十分であり、その性能を制限している。 さらに、DSC-Netでは、自己表現モジュールとオートエンコーダモジュールを密結合し、DSC-Netのトレーニングを非自明にする。 そこで,本稿では,最大エントロピー部分空間クラスタリングネットワーク(mesc-net)と呼ばれる深層学習に基づくクラスタリング手法を提案する。 具体的には、MESC-Netは学習された親和性行列のエントロピーを最大化し、理想的な親和性行列構造を示すように促す。 我々は,MESC-Netにより駆動される親和性行列がブロック対角特性に従うことを理論的に証明し,同じ部分空間に対応する要素が一様かつ高密度に分布していることを示す。 さらに,自動エンコーダモジュールと自己表現モジュールを明示的に分離する。 一般的なベンチマークデータセットの広範囲な量的、質的な結果 mesc-net は最先端の手法を大きく上回っている。

Deep subspace clustering network (DSC-Net) and its numerous variants have achieved impressive performance for subspace clustering, in which an auto-encoder non-linearly maps input data into a latent space, and a fully connected layer named self-expressiveness module is introduced between the encoder and the decoder to learn an affinity matrix. However, the adopted regularization on the affinity matrix (e.g., sparse, Tikhonov, or low-rank) is still insufficient to drive the learning of an ideal affinity matrix, thus limiting their performance. In addition, in DSC-Net, the self-expressiveness module and the auto-encoder module are tightly coupled, making the training of the DSC-Net non-trivial. To this end, in this paper, we propose a novel deep learning-based clustering method named Maximum Entropy Subspace Clustering Network (MESC-Net). Specifically, MESC-Net maximizes the learned affinity matrix's entropy to encourage it to exhibit an ideal affinity matrix structure. We theoretically prove that the affinity matrix driven by MESC-Net obeys the block-diagonal property, and experimentally show that its elements corresponding to the same subspace are uniformly and densely distributed, which gives better clustering performance. Moreover, we explicitly decouple the auto-encoder module and the self-expressiveness module. Extensive quantitative and qualitative results on commonly used benchmark datasets validate MESC-Net significantly outperforms state-of-the-art methods.
翻訳日:2021-05-22 08:56:31 公開日:2020-12-06
# (参考訳) Representacions del aprendizaje reutilizando los gradientes de la retropropagacion [全文訳有]

Representaciones del aprendizaje reutilizando los gradientes de la retropropagacion ( http://arxiv.org/abs/2012.03188v1 )

ライセンス: CC BY 4.0
Roberto Reyes-Ochoa and Servando Lopez-Aguayo(参考訳) 本研究では,バックプロパゲーション勾配を活用し,異なるトレーニング段階における特徴量を決定するアルゴリズムを提案する。 さらに,学習過程を定性的に表現する方法を提案する。 スカルンが提供したウィスコンシンのがんデータセット上で実験を行い、その結果、いわゆる「学習勾配」が最も重要な特徴へと興味深い収束を示した。 --este trabajo propone el algoritmo de gradientes de aprendizaje para encontrar significado en las entradas de una red neuronal。 ademas, se propone una manera de evaluarlas por orden de importancia y representar el proceso de aprendizaje a traves de las etapas de entrenamiento (英語) Los resultados utilizan como referencia el conjunto de datos acerca de tumores malignos y benignos en Wisconsin esta referencia sirvio para detectar un patron en las variables mas importantes del modelo gracias, asi como su evolucion temporal を参照。

This work proposes an algorithm for taking advantage of backpropagation gradients to determine feature importance at different stages of training. Additionally, we propose a way to represent the learning process qualitatively. Experiments were performed over the Wisconsin cancer dataset provided by sklearn, and results showed an interesting convergence of the so called "learning gradients" towards the most important features. --- Este trabajo propone el algoritmo de gradientes de aprendizaje para encontrar significado en las entradas de una red neuronal. Ademas, se propone una manera de evaluarlas por orden de importancia y representar el proceso de aprendizaje a traves de las etapas de entrenamiento. Los resultados obtenidos utilizan como referencia el conjunto de datos acerca de tumores malignos y benignos en Wisconsin. Esta referencia sirvio para detectar un patron en las variables mas importantes del modelo gracias, asi como su evolucion temporal.
翻訳日:2021-05-22 08:34:36 公開日:2020-12-06
# (参考訳) データ駆動型人間責任管理システム [全文訳有]

A Data-driven Human Responsibility Management System ( http://arxiv.org/abs/2012.03190v1 )

ライセンス: CC BY 4.0
Xuejiao Tang, Jiong Qiu, Ruijun Chen, Wenbin Zhang, Vasileios Iosifidis, Zhen Liu, Wei Meng, Mingli Zhang and Ji Zhang(参考訳) 理想的な安全な職場は、スタッフがきちんと整理された順序で責任を果たす場所として説明され、潜在的に危険な出来事がリアルタイムで監視され、事故の数や関連する損害を最小限に抑えることができる。 しかし, 総合的な安全管理の欠如により, 職業関連死亡・負傷は依然として増加傾向にあり, 過去数十年間, 高い関心を集めてきた。 そのため、リスク評価の自動化や、必要な時にスタッフや部署に警告を行うとともに、責任を果たすようスタッフに指示するスマート安全管理システムが緊急に必要となる。 本稿では,責任ビッグデータ分析とiot(internet of things, モノのインターネット)に基づく職場における安全管理のためのスマートシステムを提案する。 実世界の実施と評価は,提案システムによる説明責任性能の向上と,リアルタイムの監督と自己調整による責任履行の向上を実証している。

An ideal safe workplace is described as a place where staffs fulfill responsibilities in a well-organized order, potential hazardous events are being monitored in real-time, as well as the number of accidents and relevant damages are minimized. However, occupational-related death and injury are still increasing and have been highly attended in the last decades due to the lack of comprehensive safety management. A smart safety management system is therefore urgently needed, in which the staffs are instructed to fulfill responsibilities as well as automating risk evaluations and alerting staffs and departments when needed. In this paper, a smart system for safety management in the workplace based on responsibility big data analysis and the internet of things (IoT) are proposed. The real world implementation and assessment demonstrate that the proposed systems have superior accountability performance and improve the responsibility fulfillment through real-time supervision and self-reminder.
翻訳日:2021-05-22 08:09:03 公開日:2020-12-06
# (参考訳) 野生における一貫したメッシュ再構築のためのオンライン適応 [全文訳有]

Online Adaptation for Consistent Mesh Reconstruction in the Wild ( http://arxiv.org/abs/2012.03196v1 )

ライセンス: CC BY 4.0
Xueting Li, Sifei Liu, Shalini De Mello, Kihwan Kim, Xiaolong Wang, Ming-Hsuan Yang, Jan Kautz(参考訳) 本稿では,変形可能なオブジェクトの時間的一貫した3次元メッシュを野生のビデオから再構成するアルゴリズムを提案する。 ビデオフレーム毎に3Dメッシュ,2Dキーポイント,カメラポーズのアノテーションを必要とせずに,ビデオベースの再構成を,入ってくるテストビデオに適用する自己教師付きオンライン適応問題として行う。 まず,画像の形状,テクスチャ,カメラのポーズを共同で予測する同一カテゴリの単一視点画像の集合から,カテゴリ固有の3次元再構成モデルを学習する。 そして、推定時に、オブジェクトインスタンスの時間的一貫性を利用した自己教師あり正規化用語を用いて、時間とともにモデルをテストビデオに適用し、再構成されたメッシュが共通のテクスチャマップ、基本形状、および部品を共有することを強制する。 このアルゴリズムは、野生で捕獲された動物を含む非剛性物体のビデオから、時間的に一貫性があり、信頼性の高い3d構造を復元できることを実証する。

This paper presents an algorithm to reconstruct temporally consistent 3D meshes of deformable object instances from videos in the wild. Without requiring annotations of 3D mesh, 2D keypoints, or camera pose for each video frame, we pose video-based reconstruction as a self-supervised online adaptation problem applied to any incoming test video. We first learn a category-specific 3D reconstruction model from a collection of single-view images of the same category that jointly predicts the shape, texture, and camera pose of an image. Then, at inference time, we adapt the model to a test video over time using self-supervised regularization terms that exploit temporal consistency of an object instance to enforce that all reconstructed meshes share a common texture map, a base shape, as well as parts. We demonstrate that our algorithm recovers temporally consistent and reliable 3D structures from videos of non-rigid objects including those of animals captured in the wild -- an extremely challenging task rarely addressed before.
翻訳日:2021-05-22 08:02:35 公開日:2020-12-06
# (参考訳) DGGAN:3次元ハンドポース推定におけるRGBと深度画像の遠方化のための深度画像誘導型生成逆数ネットワーク [全文訳有]

DGGAN: Depth-image Guided Generative Adversarial Networks for Disentangling RGB and Depth Images in 3D Hand Pose Estimation ( http://arxiv.org/abs/2012.03197v1 )

ライセンス: CC0 1.0
Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, Wei Fan, and Xiaohui Xie(参考訳) RGB画像からの3Dハンドポーズの推定は、広範囲の潜在的な応用に不可欠であるが、RGB画像からの深度インフォームの推測においてかなりの曖昧さのために困難である。 予測された3Dポーズと地上深度マップの整合性を強制するため、3Dハンドポーズ推定モデルを正規化することで、最先端の推定者がこの問題に対処する。 本研究では,DGGAN(Depth-image Guided GAN)と呼ばれる条件付き生成逆数ネットワークモデルを提案し,入力されたRGB画像に条件付き再帰的深度マップを生成し,合成した深度マップを用いて3次元手動推定モデルを正規化することにより,地平線深度マップの必要性を解消する。 多重ベンチマークデータセットを用いた実験結果から、DGGANが生成した合成深度マップは、それぞれRHD、STB、MHPデータセットにおいて、平均3D終点誤差(EPE)を4.7%、16.5%、および6.8%減らすことで、目的推定モデルの正規化に極めて効果的であることが示された。

Estimating3D hand poses from RGB images is essentialto a wide range of potential applications, but is challengingowing to substantial ambiguity in the inference of depth in-formation from RGB images. State-of-the-art estimators ad-dress this problem by regularizing3D hand pose estimationmodels during training to enforce the consistency betweenthe predicted3D poses and the ground-truth depth maps.However, these estimators rely on both RGB images and thepaired depth maps during training. In this study, we proposea conditional generative adversarial network (GAN) model,called Depth-image Guided GAN (DGGAN), to generate re-alistic depth maps conditioned on the input RGB image, anduse the synthesized depth maps to regularize the3D handpose estimation model, therefore eliminating the need forground-truth depth maps. Experimental results on multiplebenchmark datasets show that the synthesized depth mapsproduced by DGGAN are quite effective in regularizing thepose estimation model, yielding new state-of-the-art resultsin estimation accuracy, notably reducing the mean3D end-point errors (EPE) by4.7%,16.5%, and6.8%on the RHD,STB and MHP datasets, respectively.
翻訳日:2021-05-22 07:43:00 公開日:2020-12-06
# (参考訳) ノイズ時系列からのベクトル場の推定 [全文訳有]

Estimating Vector Fields from Noisy Time Series ( http://arxiv.org/abs/2012.03199v1 )

ライセンス: CC BY 4.0
Harish S. Bhat, Majerle Reeves, Ramin Raziperchikolaei(参考訳) 時系列から微分方程式モデルを学ぶことに対する近年の関心は高まっているが、この領域の手法は一般に、非常に騒がしいデータを扱うことができない。 この問題を、(i)微分方程式の未知ベクトル場(または右辺)を近似すること、(ii)雑音を扱うことの2つの部分に分けられる。 i) に対処するため, 1次元神経形状関数のテンソル積からなるニューラルネットワークアーキテクチャについて述べる。 第二に,ベクトル場学習とフィルタリングステップを切り替える交代最小化方式と,学習データの複数の軌跡を同時に提案する。 ニューラルシェイプ関数のアーキテクチャは、密集したニューラルネットワークの近似性を保持し、ベクトル場誤差の効果的な計算を可能にし、すべての有限次元のデータ/システムに対してグラフィカルな解釈を可能にしている。 また、我々のニューラル形状関数法と既存の微分方程式学習法を交互に最小化と複数軌跡に組み合わせて検討した。 この方法で学習手法を再構成することで,ノイズに対する手法の堅牢性を高めることができる。 生の状態では、手法は1%ガウスノイズに苦しむが、レトロフィッティングの後、10%ガウスノイズのデータから正確なベクトル場を学習する。

While there has been a surge of recent interest in learning differential equation models from time series, methods in this area typically cannot cope with highly noisy data. We break this problem into two parts: (i) approximating the unknown vector field (or right-hand side) of the differential equation, and (ii) dealing with noise. To deal with (i), we describe a neural network architecture consisting of tensor products of one-dimensional neural shape functions. For (ii), we propose an alternating minimization scheme that switches between vector field training and filtering steps, together with multiple trajectories of training data. We find that the neural shape function architecture retains the approximation properties of dense neural networks, enables effective computation of vector field error, and allows for graphical interpretability, all for data/systems in any finite dimension $d$. We also study the combination of either our neural shape function method or existing differential equation learning methods with alternating minimization and multiple trajectories. We find that retrofitting any learning method in this way boosts the method's robustness to noise. While in their raw form the methods struggle with 1% Gaussian noise, after retrofitting, they learn accurate vector fields from data with 10% Gaussian noise.
翻訳日:2021-05-22 07:31:53 公開日:2020-12-06
# (参考訳) FuseVis: 画像融合のためのニューラルネットワークの解釈 [全文訳有]

FuseVis: Interpreting neural networks for image fusion using per-pixel saliency visualization ( http://arxiv.org/abs/2012.08932v1 )

ライセンス: CC BY 4.0
Nishant Kumar, Stefan Gumhold(参考訳) 画像融合は、2つ以上の画像をマージしてより情報的な単一の融合画像を構築するのに役立つ。 近年,教師なし学習に基づく畳み込みニューラルネットワーク(cnn)は,医用画像融合,自律運転のための赤外線可視画像融合,衛星画像のマルチフォーカス・マルチエクスプロイア画像融合など,様々な種類の画像融合タスクに利用されている。 しかし, 画像融合タスクにおけるこれらのCNNの信頼性は, 根拠のないため, 解析が困難である。 これにより、さまざまなモデルアーキテクチャと最適化関数が使用され、非常に異なる融合結果が得られた。 さらに、そのようなニューラルネットワークの極めて不透明な性質のため、融合結果の背後にある内部力学を説明することは困難である。 そこで,これらの課題を克服するために,エンドユーザーが画像の各画素に対する入力画素の影響を調べるために,ピクセル単位のサリエンシーマップを計算できる,fusevisという新しいリアルタイム可視化ツールを提案する。 画像融合ベースのcnnを医用画像ペアで訓練し, ヒューズビスツールを用いて各融合法からの塩分マップを解釈し, 特定の臨床応用についてケーススタディを行った。 本研究では,各画像の相対的影響が融合画像の予測に及ぼす影響を特に可視化し,評価された画像融合法が臨床応用に適していることを示した。 我々の知る限りでは、現在、画像融合のためのニューラルネットワークの視覚的分析にはアプローチがない。 そこで本研究は,深層核融合ネットワークの解釈可能性向上のための新たな研究方向を開く。 FuseVisツールは、他のディープニューラルネットワークベースの画像処理アプリケーションに適応して解釈することもできる。

Image fusion helps in merging two or more images to construct a more informative single fused image. Recently, unsupervised learning based convolutional neural networks (CNN) have been utilized for different types of image fusion tasks such as medical image fusion, infrared-visible image fusion for autonomous driving as well as multi-focus and multi-exposure image fusion for satellite imagery. However, it is challenging to analyze the reliability of these CNNs for the image fusion tasks since no groundtruth is available. This led to the use of a wide variety of model architectures and optimization functions yielding quite different fusion results. Additionally, due to the highly opaque nature of such neural networks, it is difficult to explain the internal mechanics behind its fusion results. To overcome these challenges, we present a novel real-time visualization tool, named FuseVis, with which the end-user can compute per-pixel saliency maps that examine the influence of the input image pixels on each pixel of the fused image. We trained several image fusion based CNNs on medical image pairs and then using our FuseVis tool, we performed case studies on a specific clinical application by interpreting the saliency maps from each of the fusion methods. We specifically visualized the relative influence of each input image on the predictions of the fused image and showed that some of the evaluated image fusion methods are better suited for the specific clinical application. To the best of our knowledge, currently, there is no approach for visual analysis of neural networks for image fusion. Therefore, this work opens up a new research direction to improve the interpretability of deep fusion networks. The FuseVis tool can also be adapted in other deep neural network based image processing applications to make them interpretable.
翻訳日:2021-05-22 07:18:08 公開日:2020-12-06
# (参考訳) fedsemi:適応型フェデレーション半教師付き学習フレームワーク [全文訳有]

FedSemi: An Adaptive Federated Semi-Supervised Learning Framework ( http://arxiv.org/abs/2012.03292v1 )

ライセンス: CC BY 4.0
Zewei Long, Liwei Che, Yaqing Wang, Muchao Ye, Junyu Luo, Jinze Wu, Houping Xiao, Fenglong Ma(参考訳) フェデレートラーニング(FL)は、データを共有し、プライバシーを漏らすことなく、機械学習モデルをコトレーニングするための効果的なテクニックとして登場した。 しかし、既存のFL手法の多くは、教師付き設定に焦点を当て、ラベルなしデータの利用を無視している。 FLにラベルのないデータを組み込もうとする研究はいくつかあるが、いずれも様々な環境で性能保証や一般化能力を維持するのに失敗している。 本稿では,データ正規化の見識から,連合半教師付き学習問題に取り組み,新たな難題の分析を行う。 まず,教師学習モデルを用いてflに一貫性規則化を導入する,新しい適応型汎用フレームワークfeedsemiを提案する。 さらに,局所モデル層の発散を測定するための新しい指標を提案する。 この分散に基づいて、FedSemiは順応的にサーバにアップロードされる層レベルのパラメータを自動的に選択できる。 提案手法を4つのデータセットで実験的に検証することにより,IID設定と3つの非IID設定で性能向上を実現することを示す。

Federated learning (FL) has emerged as an effective technique to co-training machine learning models without actually sharing data and leaking privacy. However, most existing FL methods focus on the supervised setting and ignore the utilization of unlabeled data. Although there are a few existing studies trying to incorporate unlabeled data into FL, they all fail to maintain performance guarantees or generalization ability in various settings. In this paper, we tackle the federated semi-supervised learning problem from the insight of data regularization and analyze the new-raised difficulties. We propose FedSemi, a novel, adaptive, and general framework, which firstly introduces the consistency regularization into FL using a teacher-student model. We further propose a new metric to measure the divergence of local model layers. Based on the divergence, FedSemi can automatically select layer-level parameters to be uploaded to the server in an adaptive manner. Through extensive experimental validation of our method in four datasets, we show that our method achieves performance gain under the IID setting and three Non-IID settings compared to state-of-the-art baselines.
翻訳日:2021-05-22 05:53:17 公開日:2020-12-06
# (参考訳) 臓器分離のための不確実性駆動型GCNリファインメント戦略 [全文訳有]

An Uncertainty-Driven GCN Refinement Strategy for Organ Segmentation ( http://arxiv.org/abs/2012.03352v1 )

ライセンス: CC BY 4.0
Roger D. Soberanis-Mukul, Nassir Navab, Shadi Albarqouni(参考訳) CTボリュームの臓器セグメンテーションは、多くのコンピュータ支援の介入と診断方法において重要な前処理ステップである。 近年では、畳み込みニューラルネットワークがこのタスクにおける最先端技術を支配している。 しかし, 臓器形状の多様性と組織間の類似性により, この問題は困難な環境を呈しているため, 出力セグメンテーションにおける偽陰性領域と偽陽性領域の生成は一般的な問題である。 近年の研究では、モデルの不確実性解析により、セグメンテーションにおける潜在的なエラーに関する有用な情報が得られることが示されている。 本研究では,不確実性解析とグラフ畳み込みネットワークに基づくセグメンテーション改善手法を提案する。 我々は,グラフ畳み込みネットワークをトレーニングすることで解ける半教師付きグラフ学習問題を定式化するために,特定の入力ボリュームにおける畳み込みネットワークの不確実性レベルを用いる。 提案手法をテストするために,2次元U-Netの初期出力を精査する。 我々はこのフレームワークをnih pancreasデータセットとspleen dataset of the medical segmentation decathlonを用いて検証した。 本手法は膵臓のdiceスコアを1%改善し, 脾臓を2%改善することにより, 最先端のcrf改良法に勝ることを示す。 最後に,提案手法のパラメータの感度解析を行い,他のcnnアーキテクチャへの適用性,結果,今後の研究に向けたモデルの限界について考察する。 再現性のために、コードをhttps://github.com/r odsom22/gcn_refineme nt.comで公開しています。

Organ segmentation in CT volumes is an important pre-processing step in many computer assisted intervention and diagnosis methods. In recent years, convolutional neural networks have dominated the state of the art in this task. However, since this problem presents a challenging environment due to high variability in the organ's shape and similarity between tissues, the generation of false negative and false positive regions in the output segmentation is a common issue. Recent works have shown that the uncertainty analysis of the model can provide us with useful information about potential errors in the segmentation. In this context, we proposed a segmentation refinement method based on uncertainty analysis and graph convolutional networks. We employ the uncertainty levels of the convolutional network in a particular input volume to formulate a semi-supervised graph learning problem that is solved by training a graph convolutional network. To test our method we refine the initial output of a 2D U-Net. We validate our framework with the NIH pancreas dataset and the spleen dataset of the medical segmentation decathlon. We show that our method outperforms the state-of-the-art CRF refinement method by improving the dice score by 1% for the pancreas and 2% for spleen, with respect to the original U-Net's prediction. Finally, we perform a sensitivity analysis on the parameters of our proposal and discuss the applicability to other CNN architectures, the results, and current limitations of the model for future work in this research direction. For reproducibility purposes, we make our code publicly available at https://github.com/r odsom22/gcn_refineme nt.
翻訳日:2021-05-22 04:34:43 公開日:2020-12-06
# (参考訳) 3次元物体形状とSVBRDF材質の異なる経路追跡による画像からの再構成を目指して [全文訳有]

Shape From Tracing: Towards Reconstructing 3D Object Geometry and SVBRDF Material from Images via Differentiable Path Tracing ( http://arxiv.org/abs/2012.03939v1 )

ライセンス: CC BY 4.0
Purvi Goel, Loudon Cohen, James Guesman, Vikas Thamizharasan, James Tompkin, Daniel Ritchie(参考訳) 複数のビューからオブジェクトジオメトリとマテリアルを再構築するには、通常最適化が必要です。 異なる経路追跡は複雑な外観効果を再現できるので魅力的なフレームワークである。 しかし,計算コストが高いため利用は困難である。 本稿では,初期粗いメッシュとmesh-facet材料表現を洗練するために,微分可能なレイトレーシングをどのように利用するかを検討する。 シミュレーションでは、低解像度の入力ビューから微細な幾何学的・物質的詳細を再構築することができ、パストレースを犠牲にして数時間で高品質な再構築が可能になる。 レコンストラクションは、材料特性からの拡散反射のような陰影、影、大域的な照明効果を曖昧化させることに成功した。 空間彫刻,マルチビューステレオ,3次元ニューラルネットワークなど,異なる幾何学的初期化の影響を実証する。 最後に、スマートフォンビデオと消費者向け360度カメラを使って入力をキャプチャする。 照明推定のためのカメラでは,制約のない環境下での現実世界の物体の初期再構成を改良する方法も示す。

Reconstructing object geometry and material from multiple views typically requires optimization. Differentiable path tracing is an appealing framework as it can reproduce complex appearance effects. However, it is difficult to use due to high computational cost. In this paper, we explore how to use differentiable ray tracing to refine an initial coarse mesh and per-mesh-facet material representation. In simulation, we find that it is possible to reconstruct fine geometric and material detail from low resolution input views, allowing high-quality reconstructions in a few hours despite the expense of path tracing. The reconstructions successfully disambiguate shading, shadow, and global illumination effects such as diffuse interreflection from material properties. We demonstrate the impact of different geometry initializations, including space carving, multi-view stereo, and 3D neural networks. Finally, with input captured using smartphone video and a consumer 360? camera for lighting estimation, we also show how to refine initial reconstructions of real-world objects in unconstrained environments.
翻訳日:2021-05-22 04:13:09 公開日:2020-12-06
# (参考訳) FUN再考 : 周波数領域利用ネットワーク [全文訳有]

Rethinking FUN: Frequency-Domain Utilization Networks ( http://arxiv.org/abs/2012.03357v1 )

ライセンス: CC BY 4.0
Kfir Goldberg, Stav Shapiro, Elad Richardson, Shai Avidan(参考訳) 近年,効率的なニューラルネットワークアーキテクチャの探索が注目されている。現代のアーキテクチャでは,精度だけでなく,推論時間やモデルサイズにも注目が集まっている。 本稿では、新しい周波数領域利用ネットワークのファミリーであるFUNを紹介する。 これらのネットワークは、離散コサイン変換で表される領域内で直接働くことで、周波数領域の固有効率を利用する。 複合スケーリングや逆レジデント層のようなモダンなテクニックとビルディングブロックを使うことで、競合するRGBモデルよりも優れたサイズ、レイテンシ、精度のバランスをとることができる。 広範囲な評価は、我々のネットワークが以前のアプローチに対して強力な代替手段を示すことを示す。 さらに、周波数領域での動作は、アーキテクチャに明示的な変更を加えることなく、推論時に入力を動的に圧縮できることを示す。

The search for efficient neural network architectures has gained much focus in recent years, where modern architectures focus not only on accuracy but also on inference time and model size. Here, we present FUN, a family of novel Frequency-domain Utilization Networks. These networks utilize the inherent efficiency of the frequency-domain by working directly in that domain, represented with the Discrete Cosine Transform. Using modern techniques and building blocks such as compound-scaling and inverted-residual layers we generate a set of such networks allowing one to balance between size, latency and accuracy while outperforming competing RGB-based models. Extensive evaluations verifies that our networks present strong alternatives to previous approaches. Moreover, we show that working in frequency domain allows for dynamic compression of the input at inference time without any explicit change to the architecture.
翻訳日:2021-05-22 03:59:44 公開日:2020-12-06
# (参考訳) 粒子分解エアロゾル混合状態指標のグローバルスケールにおける非監督的地域化 [全文訳有]

Unsupervised Regionalization of Particle-resolved Aerosol Mixing State Indices on the Global Scale ( http://arxiv.org/abs/2012.03365v1 )

ライセンス: CC BY 4.0
Zhonghua Zheng, Joseph Ching, Jeffrey H. Curtis, Yu Yao, Peng Xu, Matthew West, Nicole Riemer(参考訳) エアロゾル混合状態は、大気エアロゾル粒子の気候および健康への影響に大きく影響する。 地球系モデルに共通する単純なエアロゾル混合状態仮定は、これらのエアロゾルの影響の予測に誤りをもたらす可能性がある。 エアロゾル混合状態指標(エアロゾル混合状態の定量化指標)はこれらの誤差の定量化に有用な指標である。 エアロゾル混合状態指数のグローバル推定は、最近教師付き学習モデルによって利用可能になったが、時空間分析を容易にするために地域化が必要である。 本研究では,グローバルエアロゾル混合状態の予測を地域化するための,単純かつ効果的な教師なし学習手法を開発した。 エアロゾル混合状態の月平均は,地球規模分布を入力データとして用いた。 グリッドセルは入力として空間情報を明示せずにk平均アルゴリズムにより領域にクラスタ化される。 このアプローチは、特定の空間集約パターンを持つ11の地域を世界中にもたらした。 各地域は, 混合状態指標とエアロゾル組成の独特の分布を示し, 教師なし地域化アプローチの有効性を示した。 本研究では、大気科学研究に役立つ「エアロゾル混合状態帯」を定義する。

The aerosol mixing state significantly affects the climate and health impacts of atmospheric aerosol particles. Simplified aerosol mixing state assumptions, common in Earth System models, can introduce errors in the prediction of these aerosol impacts. The aerosol mixing state index, a metric to quantify aerosol mixing state, is a convenient measure for quantifying these errors. Global estimates of aerosol mixing state indices have recently become available via supervised learning models, but require regionalization to ease spatiotemporal analysis. Here we developed a simple but effective unsupervised learning approach to regionalize predictions of global aerosol mixing state indices. We used the monthly average of aerosol mixing state indices global distribution as the input data. Grid cells were then clustered into regions by the k-means algorithm without explicit spatial information as input. This approach resulted in eleven regions over the globe with specific spatial aggregation patterns. Each region exhibited a unique distribution of mixing state indices and aerosol compositions, showing the effectiveness of the unsupervised regionalization approach. This study defines "aerosol mixing state zones" that could be useful for atmospheric science research.
翻訳日:2021-05-22 03:28:41 公開日:2020-12-06
# (参考訳) Ising-based Louvain Method:専用ハードウェアによる大規模グラフのクラスタリング [全文訳有]

Ising-Based Louvain Method: Clustering Large Graphs with Specialized Hardware ( http://arxiv.org/abs/2012.11391v1 )

ライセンス: CC BY 4.0
Pouya Rezazadeh Kalehbasti, Hayato Ushijima-Mwesigwa, Avradip Mandal, Indradeep Ghosh(参考訳) 量子コンピュータ、量子アニール、CMOSアニールなどの最適化問題を解くための特別なハードウェアの最近の進歩は、実単語の複雑な問題を解決する新しい方法を生み出している。 しかし、現在のハードウェアと近い将来のハードウェアの限界を考えると、大規模な実世界の問題を表現するのに必要な変数の数はハードウェアの能力を超えやすいため、ハードウェアを利用するためには通常ハイブリッド手法が開発される。 本研究では,既存の最先端ヒューリスティックのフレームワーク上に構築されたハイブリッド手法の開発を提唱し,これらの手法を改良する。 コミュニティ検出問題において最も一般的なアルゴリズムのひとつであり,Ising-based Louvain法とIsing-based Louvain法の開発によってこれを実証する。 提案手法は,複数の小規模・大規模グラフのクラスタリングにおいて,最先端のコミュニティ検出アルゴリズムより優れている。 その結果、他の教師なし学習ヒューリスティックに同じ最適化アプローチを適用して性能を向上させることが期待できる。

Recent advances in specialized hardware for solving optimization problems such quantum computers, quantum annealers, and CMOS annealers give rise to new ways for solving real-word complex problems. However, given current and near-term hardware limitations, the number of variables required to express a large real-world problem easily exceeds the hardware capabilities, thus hybrid methods are usually developed in order to utilize the hardware. In this work, we advocate for the development of hybrid methods that are built on top of the frameworks of existing state-of-art heuristics, thereby improving these methods. We demonstrate this by building on the so called Louvain method, which is one of the most popular algorithms for the Community detection problem and develop and Ising-based Louvain method. The proposed method outperforms two state-of-the-art community detection algorithms in clustering several small to large-scale graphs. The results show promise in adapting the same optimization approach to other unsupervised learning heuristics to improve their performance.
翻訳日:2021-05-22 03:18:04 公開日:2020-12-06
# (参考訳) SVMの動作性と解釈可能性に対する軽量ソリューション [全文訳有]

A Weighted Solution to SVM Actionability and Interpretability ( http://arxiv.org/abs/2012.03372v1 )

ライセンス: CC BY 4.0
Samuel Marc Denton and Ansaf Salleb-Aouissi(参考訳) 機械学習の研究は、正確な分類モデルを構築するアルゴリズムの開発に成功した。 しかし、医療、顧客満足度、環境保護といった現実世界の多くのアプリケーションでは、モデルを利用して、どのようなアクションをとるかを決めたいと思っています。 支援ベクトルマシンの文脈における動作可能性の概念について検討する。 実行可能性(Actionability)は、機械学習モデルの解釈可能性や説明可能性と同じくらい重要である。 Actionabilityは、マシンラーニングモデルとその予測に対処する方法を提供するタスクです。 本稿では,線形モデルと非線形svmモデルの両方における動作可能性の問題に対する解を求める。 さらに、特定の機能に対して他の機能よりも多くの変更を可能にする重み付けアクションの考慮方法も導入しています。 線形, rbf, 多項式カーネル上の勾配降下解を提案し, 合成データと実データの両方におけるモデルの有効性を検証した。 我々はまた、行動可能性のレンズを通してモデルの解釈可能性を探ることができる。

Research in machine learning has successfully developed algorithms to build accurate classification models. However, in many real-world applications, such as healthcare, customer satisfaction, and environment protection, we want to be able to use the models to decide what actions to take. We investigate the concept of actionability in the context of Support Vector Machines. Actionability is as important as interpretability or explainability of machine learning models, an ongoing and important research topic. Actionability is the task that gives us ways to act upon machine learning models and their predictions. This paper finds a solution to the question of actionability on both linear and non-linear SVM models. Additionally, we introduce a way to account for weighted actions that allow for more change in certain features than others. We propose a gradient descent solution on the linear, RBF, and polynomial kernels, and we test the effectiveness of our models on both synthetic and real datasets. We are also able to explore the model's interpretability through the lens of actionability.
翻訳日:2021-05-22 02:43:13 公開日:2020-12-06
# セマンティックキャリブレーションによるクロス層蒸留

Cross-Layer Distillation with Semantic Calibration ( http://arxiv.org/abs/2012.03236v1 )

ライセンス: Link先を確認
Defang Chen, Jian-Ping Mei, Yuan Zhang, Can Wang, Zhe Wang, Yan Feng, Chun Chen(参考訳) 近年,教師モデルの中間層が,学生モデルの一般化能力を高めるための学習目標として有効であることを,特徴地図転送に基づく知識蒸留手法が提案されている。 既存の研究は主に、手動で特定された教師-学生中間層間の知識伝達のための特定の表現形式に焦点を当てている。 しかし、中間層のセマンティクスは異なるネットワークで異なり、教師と学生のペア間のセマンティクスミスマッチに起因する負の規則化につながる可能性がある。 この問題を解決するために,教師モデルの適切なターゲット層を各生徒層に自動的にアテンション機構で割り当てるSemCKD(Semantic Calibration for Cross-layer Knowledge Distillation)を提案する。 学習した注意分布により、各学生層は教師モデルから1つの固定中間層ではなく、複数の階層に含まれる知識を蒸留し、訓練における適切なクロス層監視を行う。 教師および学生モデルのための様々なネットワークアーキテクチャを用いた広範囲な実験において、最先端のアプローチに対する一貫性の向上が観察され、提案手法の有効性と柔軟性を示す。

Recently proposed knowledge distillation approaches based on feature-map transfer validate that intermediate layers of a teacher model can serve as effective targets for training a student model to obtain better generalization ability. Existing studies mainly focus on particular representation forms for knowledge transfer between manually specified pairs of teacher-student intermediate layers. However, semantics of intermediate layers may vary in different networks and manual association of layers might lead to negative regularization caused by semantic mismatch between certain teacher-student layer pairs. To address this problem, we propose Semantic Calibration for Cross-layer Knowledge Distillation (SemCKD), which automatically assigns proper target layers of the teacher model for each student layer with an attention mechanism. With a learned attention distribution, each student layer distills knowledge contained in multiple layers rather than a single fixed intermediate layer from the teacher model for appropriate cross-layer supervision in training. Consistent improvements over state-of-the-art approaches are observed in extensive experiments with various network architectures for teacher and student models, demonstrating the effectiveness and flexibility of the proposed attention based soft layer association mechanism for cross-layer distillation.
翻訳日:2021-05-21 14:05:12 公開日:2020-12-06
# ロバスト深部AUCの最大化:新しいサロゲート損失と医用画像分類に関する実証的研究

Robust Deep AUC Maximization: A New Surrogate Loss and Empirical Studies on Medical Image Classification ( http://arxiv.org/abs/2012.03173v1 )

ライセンス: Link先を確認
Zhuoning Yuan, Yan Yan, Milan Sonka, Tianbao Yang(参考訳) Deep AUC Maximization (DAM)は、データセット上でモデルのAUCスコアを最大化することで、ディープニューラルネットワークを学ぶためのパラダイムである。 auc最大化のほとんどの先行研究は、効率的な確率アルゴリズムの設計による最適化の観点に焦点を当てており、難しいタスクに対するダムの一般化性能に関する研究が欠落している。 本研究では,DAMを実世界の興味深い応用(医用画像分類など)に活用することを目的としている。 まず、AUCスコア(AUCマージン損失)に対する新たなマージンベースサロゲート損失関数を提案する。 一般に使われているAUC平方損失よりも頑健であり、大規模確率最適化の点で同じ利点がある。 第2に, 医用画像分類課題である胸部x線画像の分類, メラノーマ同定のための皮膚病変画像の分類について, ダム法を実証的に検討した。 私たちのDAM手法は、これらの困難なタスク、すなわち(論文提出日による)Stanford CheXpertコンペティションで1位、Kaggle 2020 Melanomaコンペティションでトップ1%(3314チーム中33位)で大きな成功を収めました。 また,ベンチマークデータセットにおける auc 平方損失に対する新たな auc マージン損失の利点を実証するために,広範なアブレーション研究を行っている。 私たちの知る限りでは、DAMが大規模医療画像データセットで成功するのはこれが初めてです。

Deep AUC Maximization (DAM) is a paradigm for learning a deep neural network by maximizing the AUC score of the model on a dataset. Most previous works of AUC maximization focus on the perspective of optimization by designing efficient stochastic algorithms, and studies on generalization performance of DAM on difficult tasks are missing. In this work, we aim to make DAM more practical for interesting real-world applications (e.g., medical image classification). First, we propose a new margin-based surrogate loss function for the AUC score (named as the AUC margin loss). It is more robust than the commonly used AUC square loss, while enjoying the same advantage in terms of large-scale stochastic optimization. Second, we conduct empirical studies of our DAM method on difficult medical image classification tasks, namely classification of chest x-ray images for identifying many threatening diseases and classification of images of skin lesions for identifying melanoma. Our DAM method has achieved great success on these difficult tasks, i.e., the 1st place on Stanford CheXpert competition (by the paper submission date) and Top 1% rank (rank 33 out of 3314 teams) on Kaggle 2020 Melanoma classification competition. We also conduct extensive ablation studies to demonstrate the advantages of the new AUC margin loss over the AUC square loss on benchmark datasets. To the best of our knowledge, this is the first work that makes DAM succeed on large-scale medical image datasets.
翻訳日:2021-05-21 14:04:55 公開日:2020-12-06
# 深部神経混合モデルを用いた多変量密度推定

Multivariate Density Estimation with Deep Neural Mixture Models ( http://arxiv.org/abs/2012.03391v1 )

ライセンス: Link先を確認
Edmondo Trentin (DIISM, University of Siena, Italy)(参考訳) 機械学習全般(特にディープラーニング)に関する最近の文献では、多くのアプリケーションにおいて、多変量密度推定は基本的なタスクであり、少なくとも暗黙的には、未解決の問題である。 少数の例外を除いて、深層ニューラルネットワーク(dnn)は、主に推定タスクの教師なしの性質と(特に)コルモゴロフの公理を満たす適切な確率モデルを実現するための制約付きトレーニングアルゴリズムの必要性のために、密度推定にはほとんど適用されていない。 さらに, 単密度統計推定器上での混合モデルによるモデリング能力の向上はよく知られているものの, 多変量DNNに基づく成分密度の適切な混合は研究されていない。 本論文は,神経混合密度(nmms)を多変量dnn混合物に拡張することにより,このギャップを埋めている。 深部NMM(Deep NMMs)を推定するための最大自由度アルゴリズム(ML)が提案され、コルモゴロフの公理の満足度を確保することを目的としたハードとソフトの制約の組み合わせを数値的に満足する。 DNMMを通して任意の精度でモデル化できる確率密度関数のクラスが正式に定義される。 DNMMアーキテクチャの自動選択手順と機械学習アルゴリズムのハイパーパラメータについて述べる(DNMMの確率的性質を明らかにする)。 単変量および多変量データの実験的結果が報告され、最も一般的な統計的推定手法に対するアプローチの有効性とその優位性を裏付ける。

Albeit worryingly underrated in the recent literature on machine learning in general (and, on deep learning in particular), multivariate density estimation is a fundamental task in many applications, at least implicitly, and still an open issue. With a few exceptions, deep neural networks (DNNs) have seldom been applied to density estimation, mostly due to the unsupervised nature of the estimation task, and (especially) due to the need for constrained training algorithms that ended up realizing proper probabilistic models that satisfy Kolmogorov's axioms. Moreover, in spite of the well-known improvement in terms of modeling capabilities yielded by mixture models over plain single-density statistical estimators, no proper mixtures of multivariate DNN-based component densities have been investigated so far. The paper fills this gap by extending our previous work on Neural Mixture Densities (NMMs) to multivariate DNN mixtures. A maximum-likelihood (ML) algorithm for estimating Deep NMMs (DNMMs) is handed out, which satisfies numerically a combination of hard and soft constraints aimed at ensuring satisfaction of Kolmogorov's axioms. The class of probability density functions that can be modeled to any degree of precision via DNMMs is formally defined. A procedure for the automatic selection of the DNMM architecture, as well as of the hyperparameters for its ML training algorithm, is presented (exploiting the probabilistic nature of the DNMM). Experimental results on univariate and multivariate data are reported on, corroborating the effectiveness of the approach and its superiority to the most popular statistical estimation techniques.
翻訳日:2021-05-21 14:04:01 公開日:2020-12-06
# データ拡張と知覚損失による擬似ラベルによる自己教師付き画像分類の改善

Improving Auto-Encoders' self-supervised image classification using pseudo-labelling via data augmentation and the perceptual loss ( http://arxiv.org/abs/2012.03322v1 )

ライセンス: Link先を確認
Aymene Mohammed Bouayed and Karim Atif and Rachid Deriche and Abdelhakim Saim(参考訳) 本稿では,擬似ラベルのない画像に新しい手法を導入し,オートエンコーダを訓練して自己教師付きで分類し,複数のデータセット間で高い精度と一貫性を実現する。 提案手法は、まず各トレーニング画像にランダムにサンプリングされたデータ拡張変換セットを適用することで構成する。 その結果、それぞれの初期画像は、対応する拡張画像に対する擬似ラベルと見なすことができる。 次に、オートエンコーダを用いて、拡張画像の各セットとその対応する擬似ラベル間のマッピングを学習する。 さらに、画像の同じ近傍にある画素間の既存の依存関係を考慮するために、知覚損失を用いる。 この組み合わせにより、エンコーダは入力のクラスに高い情報を与えるリッチエンコーディングを出力する。 その結果、教師なし画像分類におけるオートエンコーダの性能は、安定性と精度の両面で改善され、全てのテストデータセットでより均一で一貫性がある。 これまでのMNIST、CIFAR-10、SVHNデータセットの精度は0.3\%、3.11\%、9.21\%向上した。

In this paper, we introduce a novel method to pseudo-label unlabelled images and train an Auto-Encoder to classify them in a self-supervised manner that allows for a high accuracy and consistency across several datasets. The proposed method consists of first applying a randomly sampled set of data augmentation transformations to each training image. As a result, each initial image can be considered as a pseudo-label to its corresponding augmented ones. Then, an Auto-Encoder is used to learn the mapping between each set of the augmented images and its corresponding pseudo-label. Furthermore, the perceptual loss is employed to take into consideration the existing dependencies between the pixels in the same neighbourhood of an image. This combination encourages the encoder to output richer encodings that are highly informative of the input's class. Consequently, the Auto-Encoder's performance on unsupervised image classification is improved both in termes of stability and accuracy becoming more uniform and more consistent across all tested datasets. Previous state-of-the-art accuracy on the MNIST, CIFAR-10 and SVHN datasets is improved by 0.3\%, 3.11\% and 9.21\% respectively.
翻訳日:2021-05-21 14:03:34 公開日:2020-12-06
# 自動エンコーディング変換の自己学習アンサンブルによるアートスタイル分類

Art Style Classification with Self-Trained Ensemble of AutoEncoding Transformations ( http://arxiv.org/abs/2012.03377v1 )

ライセンス: Link先を確認
Akshay Joshi, Ankit Agrawal, Sushmita Nair(参考訳) 絵画の芸術的スタイルは、芸術家が創造的なビジョンを独特に表現し表現する方法に関する視覚的および深い内在的な知識の両方を明らかにする豊かな記述子である。 異なる芸術運動やスタイルの絵画の正確な分類は、大規模な美術データベースの索引付けに不可欠である。 しかし、これらの高密度な芸術的特徴の自動抽出と認識は、コンピュータビジョン研究の分野ではほとんど注目を集めていない。 本稿では,高度な自己指導型学習手法を用いて,クラス内およびクラス間変動の少ない複雑な芸術スタイルを認識することの課題を解決する。 さらに,27のカテゴリを持つ高度にクラス不均衡なウィキアートデータセット上で,既存のアプローチを約20%上回っている。 そこで我々は,EnAET半教師付き学習モデル(Wang et al., 2019)を注釈付きデータサンプルで訓練し,空間的および非空間的変換のアンサンブルから学習した自己教師付き表現で補う。

The artistic style of a painting is a rich descriptor that reveals both visual and deep intrinsic knowledge about how an artist uniquely portrays and expresses their creative vision. Accurate categorization of paintings across different artistic movements and styles is critical for large-scale indexing of art databases. However, the automatic extraction and recognition of these highly dense artistic features has received little to no attention in the field of computer vision research. In this paper, we investigate the use of deep self-supervised learning methods to solve the problem of recognizing complex artistic styles with high intra-class and low inter-class variation. Further, we outperform existing approaches by almost 20% on a highly class imbalanced WikiArt dataset with 27 art categories. To achieve this, we train the EnAET semi-supervised learning model (Wang et al., 2019) with limited annotated data samples and supplement it with self-supervised representations learned from an ensemble of spatial and non-spatial transformations.
翻訳日:2021-05-21 14:03:15 公開日:2020-12-06
# 横断的単語学習における競争 : 計算学的研究

Competition in Cross-situational Word Learning: A Computational Study ( http://arxiv.org/abs/2012.03370v1 )

ライセンス: Link先を確認
Aida Nematzadeh, Zahra Shekarchi, Thomas L. Griffiths, and Suzanne Stevenson(参考訳) 子どもたちは、言葉が使われているさまざまな状況に共通点をタップして単語の意味を学習し、早期の単語学習経験にかかわる高い不確実性を克服する。 本研究では,不確実性に直面して単語の意味をうまく学習するためには,参照語と関連づける単語と,単語が使用される際に単語を競合する参照語という2つのタイプの競合を用いる必要があることを示す。

Children learn word meanings by tapping into the commonalities across different situations in which words are used and overcome the high level of uncertainty involved in early word learning experiences. In a set of computational studies, we show that to successfully learn word meanings in the face of uncertainty, a learner needs to use two types of competition: words competing for association to a referent when learning from an observation and referents competing for a word when the word is used.
翻訳日:2021-05-21 14:02:57 公開日:2020-12-06
# グローバル後部情報を組み込んだニューラルネットワークの確率的フェデレーション学習

Probabilistic Federated Learning of Neural Networks Incorporated with Global Posterior Information ( http://arxiv.org/abs/2012.03178v1 )

ライセンス: Link先を確認
Peng Xiao, Samuel Cheng(参考訳) フェデレートラーニングでは、ローカルクライアントで訓練されたモデルをグローバルモデルに蒸留する。 ニューラルネットワークに置換不変性が生じるため、ニューラルネットワークにフェデレーション学習を実行する際には、まず隠れたニューロンとマッチングする必要がある。 ベイズ的非パラメトリックフレームワークを通じて、確率的フェデレーションニューラルマッチング(PFNM)は、ローカルニューラルネットワークにマッチして融合し、さまざまなグローバルモデルサイズとデータの不均一性に対応する。 本稿では,PFNMをニューラルネットワーク上でのKL(Kullback-Leibler) の拡散により拡張する手法を提案する。 また,追加部分は一致・融合の進行にシームレスに結合可能であることも理論的に示す。 提案手法は,1回のコミュニケーションラウンドと追加のコミュニケーションラウンドの両方において,最先端のフェデレーション学習手法よりも優れていることを示す。

In federated learning, models trained on local clients are distilled into a global model. Due to the permutation invariance arises in neural networks, it is necessary to match the hidden neurons first when executing federated learning with neural networks. Through the Bayesian nonparametric framework, Probabilistic Federated Neural Matching (PFNM) matches and fuses local neural networks so as to adapt to varying global model size and the heterogeneity of the data. In this paper, we propose a new method which extends the PFNM with a Kullback-Leibler (KL) divergence over neural components product, in order to make inference exploiting posterior information in both local and global levels. We also show theoretically that The additional part can be seamlessly concatenated into the match-and-fuse progress. Through a series of simulations, it indicates that our new method outperforms popular state-of-the-art federated learning methods in both single communication round and additional communication rounds situation.
翻訳日:2021-05-21 14:02:46 公開日:2020-12-06
# 非凸型雑音勾配降下型深層学習の利点:過剰なリスクバウンドとカーネル法優越性

Benefit of deep learning with non-convex noisy gradient descent: Provable excess risk bound and superiority to kernel methods ( http://arxiv.org/abs/2012.03224v1 )

ライセンス: Link先を確認
Taiji Suzuki and Shunta Akiyama(参考訳) 深層学習がカーネルメソッドのような浅層学習より優れている理由を説明する理論的解析を確立することは、深層学習文学における大きな問題の一つである。 この問題に対処するために,ニューラルネットワーク上でのリッジ正規化による雑音勾配勾配の学習によるディープラーニング推定器の過大なリスクを評価し,ニューラルタンジェントカーネルアプローチ,ランダム特徴モデル,その他のカーネルメソッド,$k$-NN推定器などを含む線形推定器のクラスに対する優位性について議論した。 教師が学習する回帰モデルを考えると、特に高次元設定において、どんな線形推定器でも極小の最適率という意味での深層学習により優れることを示す。 得られた余剰境界はいわゆる高速学習率であり、通常のラデマチャー複雑性解析によって得られる$O(1/\sqrt{n})$よりも高速である。 この差はモデルの非凸形状とニューラルネットワークトレーニングに使用される雑音勾配勾配によって誘導され、ロスランドスケープが非凸であるにもかかわらず、ほぼ大域最適解に確実に到達する。 雑音勾配降下は正則化を誘導する明示的あるいは暗黙的スパーシティを一切用いていないが、線形推定器を支配する好ましい一般化性能を示している。

Establishing a theoretical analysis that explains why deep learning can outperform shallow learning such as kernel methods is one of the biggest issues in the deep learning literature. Towards answering this question, we evaluate excess risk of a deep learning estimator trained by a noisy gradient descent with ridge regularization on a mildly overparameterized neural network, and discuss its superiority to a class of linear estimators that includes neural tangent kernel approach, random feature model, other kernel methods, $k$-NN estimator and so on. We consider a teacher-student regression model, and eventually show that any linear estimator can be outperformed by deep learning in a sense of the minimax optimal rate especially for a high dimension setting. The obtained excess bounds are so-called fast learning rate which is faster than $O(1/\sqrt{n})$ that is obtained by usual Rademacher complexity analysis. This discrepancy is induced by the non-convex geometry of the model and the noisy gradient descent used for neural network training provably reaches a near global optimal solution even though the loss landscape is highly non-convex. Although the noisy gradient descent does not employ any explicit or implicit sparsity inducing regularization, it shows a preferable generalization performance that dominates linear estimators.
翻訳日:2021-05-21 14:02:14 公開日:2020-12-06
# データセットはあなたの期待に応えますか? 画像データにおけるサンプル表現の説明

Does the dataset meet your expectations? Explaining sample representation in image data ( http://arxiv.org/abs/2012.08642v1 )

ライセンス: Link先を確認
Dhasarathy Parthasarathy, Anton Johansson(参考訳) ニューラルネットワークモデルの振る舞いは、トレーニングデータの多様性の欠如によって悪影響を受けるため、そのような欠陥を特定し説明する手法を提案する。 データセットにラベルを付けると、アノテーションだけでサンプルの多様性の人間の解釈可能な要約を提供することができることに注意します。 これにより、データセット内のアノテーションの \textit{actual} 分布と、必須ラベルの多様性をキャプチャするために手動で指定された、アノテーションの \textit{expected} 分布を比較する際に見出される、多様性の欠如を説明することができる。 多くの実用的なケースでは、ラベル付け($\rightarrow$アノテーションの例)は高価であるが、その逆のシミュレーション($\rightarrow$サンプルの注釈)はより安価である。 パラメトリックシミュレーションを用いて,アノテーションの期待される分布をテストサンプルにマッピングし,シミュレーションデータと収集データの多様性のミスマッチを用いたサンプル表現を説明する手法を提案する。 次に, 幾何学的形状のデータセットを用いて, 大きさ, 位置, ピクセルの明るさといった可視性の観点から, 定性的かつ定量的にサンプル表現を説明する。

Since the behavior of a neural network model is adversely affected by a lack of diversity in training data, we present a method that identifies and explains such deficiencies. When a dataset is labeled, we note that annotations alone are capable of providing a human interpretable summary of sample diversity. This allows explaining any lack of diversity as the mismatch found when comparing the \textit{actual} distribution of annotations in the dataset with an \textit{expected} distribution of annotations, specified manually to capture essential label diversity. While, in many practical cases, labeling (samples $\rightarrow$ annotations) is expensive, its inverse, simulation (annotations $\rightarrow$ samples) can be cheaper. By mapping the expected distribution of annotations into test samples using parametric simulation, we present a method that explains sample representation using the mismatch in diversity between simulated and collected data. We then apply the method to examine a dataset of geometric shapes to qualitatively and quantitatively explain sample representation in terms of comprehensible aspects such as size, position, and pixel brightness.
翻訳日:2021-05-21 14:01:48 公開日:2020-12-06
# MOCA: 対話型インストラクション追従のためのモジュール型オブジェクト中心アプローチ

MOCA: A Modular Object-Centric Approach for Interactive Instruction Following ( http://arxiv.org/abs/2012.03208v1 )

ライセンス: Link先を確認
Kunal Pratap Singh, Suvaansh Bhambri, Byeonghwi Kim, Roozbeh Mottaghi, Jonghyun Choi(参考訳) 言語指示に基づく単純な家庭のタスクを実行することは、人間にとって非常に自然なことですが、AIエージェントにとってはオープンな課題です。 近年,シミュレーション環境においてオブジェクトインタラクションを必要とする長い命令列を推論する研究を進めるために,'interactive instruction following'タスクが提案されている。 視覚、言語、ナビゲーションの文学におけるオープンな問題を各ステップで解決する。 この多面的問題に対処するために,タスクを視覚的知覚と行動ポリシーに分離するモジュールアーキテクチャを提案し,その名前をMOCA,Modular Object-Centric Approachと呼ぶ。 提案手法をALFREDベンチマークで評価し, 高い一般化性能(未確認環境における高い成功率)を有する全ての指標において, 先行技術よりも有意差があることを実証的に検証した。 私たちのコードはhttps://github.com/g istvision/mocaで利用可能です。

Performing simple household tasks based on language directives is very natural to humans, yet it remains an open challenge for an AI agent. Recently, an `interactive instruction following' task has been proposed to foster research in reasoning over long instruction sequences that requires object interactions in a simulated environment. It involves solving open problems in vision, language and navigation literature at each step. To address this multifaceted problem, we propose a modular architecture that decouples the task into visual perception and action policy, and name it as MOCA, a Modular Object-Centric Approach. We evaluate our method on the ALFRED benchmark and empirically validate that it outperforms prior arts by significant margins in all metrics with good generalization performance (high success rate in unseen environments). Our code is available at https://github.com/g istvision/moca.
翻訳日:2021-05-21 14:01:29 公開日:2020-12-06
# Systolic-CNN: クラウド/エッジコンピューティングにおける畳み込みニューラルネットワーク推論を高速化するOpenCL定義のスケーラブルランタイムフレキシブルFPGAアクセラレータアーキテクチャ

Systolic-CNN: An OpenCL-defined Scalable Run-time-flexible FPGA Accelerator Architecture for Accelerating Convolutional Neural Network Inference in Cloud/Edge Computing ( http://arxiv.org/abs/2012.03177v1 )

ライセンス: Link先を確認
Akshay Dua, Yixing Li, Fengbo Ren(参考訳) 本稿では、マルチテナントクラウド/エッジコンピューティングにおける様々な畳み込みニューラルネットワーク(CNN)の推論を高速化するために最適化された、OpenCLで定義されたスケーラブルで実行時フレキシブルなFPGAアクセラレータアーキテクチャであるSystolic-CNNを提案する。 既存のCNN推論用OpenCL定義FPGAアクセラレータは、実行時に複数のCNNモデルをサポートする柔軟性の制限とスケーラビリティの低さにより、未使用のFPGAリソースと計算並列性が制限されているため、不十分である。 Systolic-CNNは高パイプラインで並列化された1-D systolic配列アーキテクチャを採用しており、FPGA上のCNN推論を加速するために、空間的および時間的並列性の両方を効率的に探索する。 Systolic-CNNは高度にスケーラブルでパラメータ化されており、ユーザが最大100%の粗粒度計算資源(DSPブロック)を所定のFPGAに利用できるようにすることができる。 また、Systolic-CNNはマルチテナントクラウド/エッジコンピューティングの文脈で実行時フレキシブルであり、FPGAカーネルハードウェアの再コンパイルやFPGAの再プログラミングを必要とせずに、実行時に様々なCNNモデルを高速化するためにタイムシェアすることができる。 実験結果は、Intel Arria/Stratix 10 GX FPGA Development Boardに基づいて、Systolic-CNNの最適化された単一精度実装は、平均推論遅延を7ms/2ms、84ms/33ms、202ms/73ms、1615ms/873ms、900ms/498msで達成し、AlexNet、ResNet-50、ResNet-152、RetinaNet、Light-weight RetinaNetである。 コードはhttps://github.com/P SCLab-ASU/Systolic-C NNで公開されている。

This paper presents Systolic-CNN, an OpenCL-defined scalable, run-time-flexible FPGA accelerator architecture, optimized for accelerating the inference of various convolutional neural networks (CNNs) in multi-tenancy cloud/edge computing. The existing OpenCL-defined FPGA accelerators for CNN inference are insufficient due to limited flexibility for supporting multiple CNN models at run time and poor scalability resulting in underutilized FPGA resources and limited computational parallelism. Systolic-CNN adopts a highly pipelined and paralleled 1-D systolic array architecture, which efficiently explores both spatial and temporal parallelism for accelerating CNN inference on FPGAs. Systolic-CNN is highly scalable and parameterized, which can be easily adapted by users to achieve up to 100% utilization of the coarse-grained computation resources (i.e., DSP blocks) for a given FPGA. Systolic-CNN is also run-time-flexible in the context of multi-tenancy cloud/edge computing, which can be time-shared to accelerate a variety of CNN models at run time without the need of recompiling the FPGA kernel hardware nor reprogramming the FPGA. The experiment results based on an Intel Arria/Stratix 10 GX FPGA Development board show that the optimized single-precision implementation of Systolic-CNN can achieve an average inference latency of 7ms/2ms, 84ms/33ms, 202ms/73ms, 1615ms/873ms, and 900ms/498ms per image for accelerating AlexNet, ResNet-50, ResNet-152, RetinaNet, and Light-weight RetinaNet, respectively. Codes are available at https://github.com/P SCLab-ASU/Systolic-C NN.
翻訳日:2021-05-21 14:00:58 公開日:2020-12-06
# アライングラム : タンパク質配列解析のためのスキップグラムモデルの再検討

Align-gram : Rethinking the Skip-gram Model for Protein Sequence Analysis ( http://arxiv.org/abs/2012.03324v1 )

ライセンス: Link先を確認
Nabil Ibtehaz, S. M. Shakhawat Hossain Sourav, Md. Shamsuzzoha Bayzid, M. Sohel Rahman(参考訳) 背景:次世代シークエンシング技術の誕生により,生物配列データの量は指数関数的に増加した。 生命の言語」として引用されるタンパク質配列は、様々な応用と推論のために分析されてきた。 モチベーション: ディープラーニングの急速な発展により、近年では自然言語処理の分野で多くのブレークスルーが発生しています。 これらの方法は、十分な量のデータで訓練された時に異なるタスクを実行することができるため、オフザシェルフモデルは様々な生物学的応用を行うために使用される。 本研究では,人気のあるスキップグラムモデルを用いてタンパク質配列解析を行い,その生物学的知見を組み込む試みを行った。 結果:我々は,類似した$k$-mer をベクトル空間内で互いに近接してマッピングできる,新しい $k$-mer 埋め込みスキームである align-gram を提案する。 さらに、他の配列に基づくタンパク質表現を実験し、Align-gramから派生した埋め込みが深層学習モデルのモデリングと訓練に役立つことを観察する。 DeepGoPlusのシンプルなベースラインLSTMモデルと非常に複雑なCNNモデルを用いた実験は、タンパク質配列解析のための様々なタイプのディープラーニングアプリケーションを実行する上で、Align-gramの可能性を示している。

Background: The inception of next generations sequencing technologies have exponentially increased the volume of biological sequence data. Protein sequences, being quoted as the `language of life', has been analyzed for a multitude of applications and inferences. Motivation: Owing to the rapid development of deep learning, in recent years there have been a number of breakthroughs in the domain of Natural Language Processing. Since these methods are capable of performing different tasks when trained with a sufficient amount of data, off-the-shelf models are used to perform various biological applications. In this study, we investigated the applicability of the popular Skip-gram model for protein sequence analysis and made an attempt to incorporate some biological insights into it. Results: We propose a novel $k$-mer embedding scheme, Align-gram, which is capable of mapping the similar $k$-mers close to each other in a vector space. Furthermore, we experiment with other sequence-based protein representations and observe that the embeddings derived from Align-gram aids modeling and training deep learning models better. Our experiments with a simple baseline LSTM model and a much complex CNN model of DeepGoPlus shows the potential of Align-gram in performing different types of deep learning applications for protein sequence analysis.
翻訳日:2021-05-21 14:00:13 公開日:2020-12-06
# 複素数値ニューラルネットワークに対する普遍近似定理

The universal approximation theorem for complex-valued neural networks ( http://arxiv.org/abs/2012.03351v1 )

ライセンス: Link先を確認
Felix Voigtlaender(参考訳) ニューラルネットワークの古典的普遍近似定理を複素値ニューラルネットワークの場合には一般化する。 正確には、複素活性化関数 $\sigma : \mathbb{C} \to \mathbb{C}$ の各ニューロンが演算 $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ を演算し、重み $w \in \mathbb{C}^N$ とバイアス $b \in \mathbb{C}$ と $\sigma$ を成分的に適用するフィードフォワードネットワークを考える。 それらの活性化関数 $\sigma$ は、関連する複素ネットワークが普遍近似特性を持つので、$\mathbb{C}^d$ の任意のコンパクト部分集合上の任意の連続函数を任意に近似することができる。 古典的な実ネットワークの場合とは異なり、普遍近似特性を持つネットワークを生じさせる「良い活性化関数」の集合は、深いネットワークや浅いネットワークを考えるかどうかによって大きく異なる: 少なくとも2つの隠れた層を持つディープネットワークの場合、普遍近似特性は多項式、正則関数、あるいは反正則関数ではない限り保持される。 一方、浅層ネットワークが普遍的であるのは、実部分や$\sigma$ の虚部が多調和関数でないときのみである。

We generalize the classical universal approximation theorem for neural networks to the case of complex-valued neural networks. Precisely, we consider feedforward networks with a complex activation function $\sigma : \mathbb{C} \to \mathbb{C}$ in which each neuron performs the operation $\mathbb{C}^N \to \mathbb{C}, z \mapsto \sigma(b + w^T z)$ with weights $w \in \mathbb{C}^N$ and a bias $b \in \mathbb{C}$, and with $\sigma$ applied componentwise. We completely characterize those activation functions $\sigma$ for which the associated complex networks have the universal approximation property, meaning that they can uniformly approximate any continuous function on any compact subset of $\mathbb{C}^d$ arbitrarily well. Unlike the classical case of real networks, the set of "good activation functions" which give rise to networks with the universal approximation property differs significantly depending on whether one considers deep networks or shallow networks: For deep networks with at least two hidden layers, the universal approximation property holds as long as $\sigma$ is neither a polynomial, a holomorphic function, or an antiholomorphic function. Shallow networks, on the other hand, are universal if and only if the real part or the imaginary part of $\sigma$ is not a polyharmonic function.
翻訳日:2021-05-21 13:59:53 公開日:2020-12-06
# 計算思考の2システム的展望

A Two-Systems Perspective for Computational Thinking ( http://arxiv.org/abs/2012.03201v1 )

ライセンス: Link先を確認
Arvind W Kiwelekar, Swanand Navandar, Dharmendra K. Yadav(参考訳) 計算思考(CT)は近年,特にSTEM(Science, Technology, Engineering and Management)の卒業生にとって重要な思考スキルの1つとなっている。 教育者は、CTを分析し評価できる基礎的な認知モデルを探している。 本稿では,計算思考過程を理解するためのフレームワークとして,Kahnemanの2システムモデルを採用することを提案する。 カーネマンの2体系モデルは、人間の思考は2つのレベルで起こると仮定している。 速くてゆっくり考えること。 本稿では,Kahneman の2システムモデルを用いて,CT のアクティビティを表現・解析できることを示す。 Kahneman氏の2つのシステムの観点から考えると、潜在的な利点は、推論にエラーを引き起こすバイアスを修正するのに役立ちます。 さらに、推論アクティビティをスピードアップするためのヒューリスティックも提供する。

Computational Thinking (CT) has emerged as one of the vital thinking skills in recent times, especially for Science, Technology, Engineering and Management (STEM) graduates. Educators are in search of underlying cognitive models against which CT can be analyzed and evaluated. This paper suggests adopting Kahneman's two-systems model as a framework to understand the computational thought process. Kahneman's two-systems model postulates that human thinking happens at two levels, i.e. fast and slow thinking. This paper illustrates through examples that CT activities can be represented and analyzed using Kahneman's two-systems model. The potential benefits of adopting Kahneman's two-systems perspective are that it helps us to fix the biases that cause errors in our reasoning. Further, it also provides a set of heuristics to speed up reasoning activities.
翻訳日:2021-05-21 13:59:20 公開日:2020-12-06
# Fever Basketball:マルチエージェント強化学習のための複雑で柔軟で非同期なスポーツゲーム環境

Fever Basketball: A Complex, Flexible, and Asynchronized Sports Game Environment for Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2012.03204v1 )

ライセンス: Link先を確認
Hangtian Jia, Yujing Hu, Yingfeng Chen, Chunxu Ren, Tangjie Lv, Changjie Fan, Chongjie Zhang(参考訳) 深層強化学習(drl)の開発は,新たな課題が提案され,ボードゲームやrts,fps,mobaゲームなど,新たなアルゴリズムを安全かつ迅速にテストすることが可能な,多種多様なゲーム環境の緊急性から恩恵を受けている。 しかし、多くの既存の環境は複雑さと柔軟性に欠けており、アクションがマルチエージェント設定で同期的に実行されると仮定している。 我々は,エージェントがバスケットボールゲームを練習する新しい強化学習環境である「フィーバー・バスケットボール・ゲーム」を紹介する。 複数の文字、複数の位置、シングルエージェントとマルチエージェントのプレイヤー制御モードをサポートする複雑で困難な環境である。 さらに、現実世界のバスケットボールの試合をより良くシミュレートするために、アクションの実行時間が異なるため、Fever Basketballを新しい非同期環境にする。 独立学習者と共同動作学習者の双方でよく使われるマルチエージェントアルゴリズムを,様々な困難を伴う3つのゲームシナリオで評価し,Fever Basketball Benchmarksにおける非定常性による余分な非定常性を減少させる2つのベースライン手法を提案する。 さらに,Fever Basketball問題に対処する統合型カリキュラムトレーニング(ICT)フレームワークを提案する。 その結果,ゲームは依然として挑戦的であり,長期水平地平線,スパース報酬,クレジット代入,非定常性などの研究のためのベンチマーク環境として使用できることがわかった。 マルチエージェント設定で。

The development of deep reinforcement learning (DRL) has benefited from the emergency of a variety type of game environments where new challenging problems are proposed and new algorithms can be tested safely and quickly, such as Board games, RTS, FPS, and MOBA games. However, many existing environments lack complexity and flexibility and assume the actions are synchronously executed in multi-agent settings, which become less valuable. We introduce the Fever Basketball game, a novel reinforcement learning environment where agents are trained to play basketball game. It is a complex and challenging environment that supports multiple characters, multiple positions, and both the single-agent and multi-agent player control modes. In addition, to better simulate real-world basketball games, the execution time of actions differs among players, which makes Fever Basketball a novel asynchronized environment. We evaluate commonly used multi-agent algorithms of both independent learners and joint-action learners in three game scenarios with varying difficulties, and heuristically propose two baseline methods to diminish the extra non-stationarity brought by asynchronism in Fever Basketball Benchmarks. Besides, we propose an integrated curricula training (ICT) framework to better handle Fever Basketball problems, which includes several game-rule based cascading curricula learners and a coordination curricula switcher focusing on enhancing coordination within the team. The results show that the game remains challenging and can be used as a benchmark environment for studies like long-time horizon, sparse rewards, credit assignment, and non-stationarity, etc. in multi-agent settings.
翻訳日:2021-05-21 13:59:09 公開日:2020-12-06
# 樹木地上点雲に基づく樹木葉分類の自動サンプリングと訓練方法

Automatic sampling and training method for wood-leaf classification based on tree terrestrial point cloud ( http://arxiv.org/abs/2012.03152v1 )

ライセンス: Link先を確認
Zichu Liu, Qing Zhang, Pei Wang, Yaxin Li, Jingqian Sun(参考訳) 地上レーザースキャン技術は、植物の3次元情報を取得するための効率的かつ高精度なソリューションを提供する。 植物点雲データの葉木分類は、林業や生物研究の基本的なステップである。 木点雲データに基づく分類のための自動サンプリングおよびトレーニング手法を提案した。 葉のサンプルポイントと木材のサンプルポイントを自動的に選択するために平面フィッティング法を用い,サポート・ベクター・マシン(svm)アルゴリズムを用いて2つの局所特徴を計算した。 提案手法と手動選択法を用いて,10本の樹木の点群データを検証した。 平均的正分類率とカッパ係数はそれぞれ0.9305と0.7904である。 その結果,提案手法は手作業選択法と比較して効率と精度が向上した。

Terrestrial laser scanning technology provides an efficient and accuracy solution for acquiring three-dimensional information of plants. The leaf-wood classification of plant point cloud data is a fundamental step for some forestry and biological research. An automatic sampling and training method for classification was proposed based on tree point cloud data. The plane fitting method was used for selecting leaf sample points and wood sample points automatically, then two local features were calculated for training and classification by using support vector machine (SVM) algorithm. The point cloud data of ten trees were tested by using the proposed method and a manual selection method. The average correct classification rate and kappa coefficient are 0.9305 and 0.7904, respectively. The results show that the proposed method had better efficiency and accuracy comparing to the manual selection method.
翻訳日:2021-05-21 13:58:37 公開日:2020-12-06
# 分割平面モデルによる奥行き完了

Depth Completion using Piecewise Planar Model ( http://arxiv.org/abs/2012.03195v1 )

ライセンス: Link先を確認
Yiran Zhong, Yuchao Dai, Hongdong Li(参考訳) 深度マップは一連の学習された基底で表現することができ、閉じた解法で効率的に解ける。 しかし、この方法の1つの問題は、色境界が深さ境界と矛盾する場合にアーチファクトを生成することである。 実際、これは自然のイメージではよくあることです。 この問題に対処するため、我々はより厳密な深度回復モデル(ピースワイドプラナーモデル)を適用した。 具体的には,3次元平面の集まりとして所望の深さマップを表現し,平面パラメータの最適化として再構成問題を定式化する。 このような問題は連続CRF最適化問題として定式化することができ、粒子ベース法 (MP-PBP) \cite{yamaguchi14} によって解ける。 kittiビジュアルオドメトリデータセットの広範な実験的評価は、提案手法が偽物境界に対する高い抵抗を有し、有用で視覚的に快適な3dポイント雲を生成できることを示している。

A depth map can be represented by a set of learned bases and can be efficiently solved in a closed form solution. However, one issue with this method is that it may create artifacts when colour boundaries are inconsistent with depth boundaries. In fact, this is very common in a natural image. To address this issue, we enforce a more strict model in depth recovery: a piece-wise planar model. More specifically, we represent the desired depth map as a collection of 3D planar and the reconstruction problem is formulated as the optimization of planar parameters. Such a problem can be formulated as a continuous CRF optimization problem and can be solved through particle based method (MP-PBP) \cite{Yamaguchi14}. Extensive experimental evaluations on the KITTI visual odometry dataset show that our proposed methods own high resistance to false object boundaries and can generate useful and visually pleasant 3D point clouds.
翻訳日:2021-05-21 13:58:10 公開日:2020-12-06
# ビデオにおける3次元ハンドポーズとメッシュ推定のための時間認識自己教師付き学習

Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh Estimation in Videos ( http://arxiv.org/abs/2012.03205v1 )

ライセンス: Link先を確認
Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, and Xiaohui Xie(参考訳) RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズでディープモデルを訓練することで、近年着実に進歩している。 しかし、3Dポーズの注釈付けは困難であり、少数の3Dポーズデータセットしか利用できない。 本研究では,rgb画像から2次元情報のみを用いて学習した3次元アノテーションを用いずに,新たな3次元ポーズ推定モデルを提案する。 1)静的な画像とは対照的に3Dのポーズを推定するためのリッチな情報を提供する; 2) 推定された3Dのポーズは、ビデオが前方の順か逆の順かに一貫性があるべきである。 この2つのobser-vationを用いて,tassn(temporal-awar e self-supervised network)と呼ばれる自己教師付き学習モデルを開発した。 時間的一貫性の制約を強制することにより、TASSNは2Dキーポイントポジションアノテーションだけでビデオから3Dポーズとメッシュを学ぶ。 3dアノテーションでトレーニングされた最先端モデルと同等の3d推定ac-curacyを用いて,3d予測モデルの時間的一貫性のメリットを強調する実験を行った。

Estimating 3D hand pose directly from RGB imagesis challenging but has gained steady progress recently bytraining deep models with annotated 3D poses. Howeverannotating 3D poses is difficult and as such only a few 3Dhand pose datasets are available, all with limited samplesizes. In this study, we propose a new framework of training3D pose estimation models from RGB images without usingexplicit 3D annotations, i.e., trained with only 2D informa-tion. Our framework is motivated by two observations: 1)Videos provide richer information for estimating 3D posesas opposed to static images; 2) Estimated 3D poses oughtto be consistent whether the videos are viewed in the for-ward order or reverse order. We leverage these two obser-vations to develop a self-supervised learning model calledtemporal-aware self-supervised network (TASSN). By en-forcing temporal consistency constraints, TASSN learns 3Dhand poses and meshes from videos with only 2D keypointposition annotations. Experiments show that our modelachieves surprisingly good results, with 3D estimation ac-curacy on par with the state-of-the-art models trained with3D annotations, highlighting the benefit of the temporalconsistency in constraining 3D prediction models.
翻訳日:2021-05-21 13:57:52 公開日:2020-12-06
# MVHM: 高精度3次元ハンドマップ推定のための大規模マルチビューハンドメッシュベンチマーク

MVHM: A Large-Scale Multi-View Hand Mesh Benchmark for Accurate 3D Hand Pose Estimation ( http://arxiv.org/abs/2012.03206v1 )

ライセンス: Link先を確認
Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, and Xiaohui Xie(参考訳) 1枚のRGB画像から3Dハンドポーズを推定することは困難である。 3Dハンドメッシュアノテーションとマルチビューイメージを備えたトレーニングハンドポーズ推定器は、しばしば大きなパフォーマンス向上をもたらす。 しかし、既存のマルチビューデータセットは比較的小さく、市販のトラッカーによって注釈付けされたハンドジョイントやモデル予測によって自動化されている。 大規模なマルチビュー3Dハンドのコレクションは、正確なメッシュとジョイントアノテーションでイメージを合成する。 本論文では,任意の目標メッシュ基底真理に一致する剛性メッシュモデルを実現するスピンマッチングアルゴリズムを設計する。 マッチングアルゴリズムに基づいて,高精度な3次元ハンドメッシュとジョイントラベルを用いた大規模マルチビューハンドメッシュ(mvhm)データセットを生成する効率的なパイプラインを提案する。 さらに,提案するデータセットを用いた手ポーズ推定器のトレーニングが性能を大幅に向上させるため,多視点手ポーズ推定手法を提案する。 実験結果から,MHPデータセット上での0.990 in $\text{AUC}_{\text{20-50}}$に対して,従来の0.939の状態と比較して0.990の処理性能が得られた。 私たちのデータセットは公開されています。 私たちのデータセットは、~\href{https://github.com/K uzphi/MVHM}{\color{blue}{https://github.com/K uzphi/MVHM}}で利用可能です。

Estimating 3D hand poses from a single RGB image is challenging because depth ambiguity leads the problem ill-posed. Training hand pose estimators with 3D hand mesh annotations and multi-view images often results in significant performance gains. However, existing multi-view datasets are relatively small with hand joints annotated by off-the-shelf trackers or automated through model predictions, both of which may be inaccurate and can introduce biases. Collecting a large-scale multi-view 3D hand pose images with accurate mesh and joint annotations is valuable but strenuous. In this paper, we design a spin match algorithm that enables a rigid mesh model matching with any target mesh ground truth. Based on the match algorithm, we propose an efficient pipeline to generate a large-scale multi-view hand mesh (MVHM) dataset with accurate 3D hand mesh and joint labels. We further present a multi-view hand pose estimation approach to verify that training a hand pose estimator with our generated dataset greatly enhances the performance. Experimental results show that our approach achieves the performance of 0.990 in $\text{AUC}_{\text{20-50}}$ on the MHP dataset compared to the previous state-of-the-art of 0.939 on this dataset. Our datasset is public available. \footnote{\url{https://github.com/K uzphi/MVHM}} Our datasset is available at~\href{https://github.com/K uzphi/MVHM}{\color{blue}{https://github.com/K uzphi/MVHM}}.
翻訳日:2021-05-21 13:57:28 公開日:2020-12-06
# 人物識別のためのスケレオン型タイピングスタイル学習

Skeleon-Based Typing Style Learning For Person Identification ( http://arxiv.org/abs/2012.03212v1 )

ライセンス: Link先を確認
Lior Gelberg, David Mendlovic, and Dan Raviv(参考訳) 適応型非局所時空間グラフ畳み込みネットワークで構築したタイピングスタイルに基づく人物識別のための新しいアーキテクチャを提案する。 タイプスタイルのダイナミクスは,個人識別に役立つ有意義な情報を伝達するので,関節の位置を抽出し,動作のダイナミクスを学習する。 rgbデータの代わりにジョイント位置を分析することで、照明やノイズなど、環境条件を交互に変化させることで、我々のモデルのノイズ入力データに対するロバスト性を高めます。 さらに,タイプスタイルに基づく個人識別タスクと,最先端の骨格モデルと比較した場合のモデルの優れた識別能力と一般化能力を示す広範囲な評価のための2つの新しいデータセットを提案する。

We present a novel architecture for person identification based on typing-style, constructed of adaptive non-local spatio-temporal graph convolutional network. Since type style dynamics convey meaningful information that can be useful for person identification, we extract the joints positions and then learn their movements' dynamics. Our non-local approach increases our model's robustness to noisy input data while analyzing joints locations instead of RGB data provides remarkable robustness to alternating environmental conditions, e.g., lighting, noise, etc. We further present two new datasets for typing style based person identification task and extensive evaluation that displays our model's superior discriminative and generalization abilities, when compared with state-of-the-art skeleton-based models.
翻訳日:2021-05-21 13:57:07 公開日:2020-12-06
# 散乱多角波信号に基づく時空間トモグラフィーとその移動プラットフォームを用いた雲の再生への応用

Spatiotemporal tomography based on scattered multiangular signals and its application for resolving evolving clouds using moving platforms ( http://arxiv.org/abs/2012.03223v1 )

ライセンス: Link先を確認
Roi Ronen (1) and Yoav Y. Schechner (1) and Eshkol Eytan (2) ((1) Viterbi Faculty of Electrical Engineering, Technion - Israel Institute of Technology, Haifa, Israel, (2) Department of Earth and Planetary Sciences, The Weizmann Institute of Science, Rehovot, Israel)(参考訳) 我々は、少数の移動カメラを用いて、時間変化した体積半透明物体のCT(Computerd tomography)を導出した。 特に非線形問題であるパッシブ散乱トモグラフィに注目する。 我々は、雲が地球の気候に大きな影響を与えるため、ダイナミックな雲に対するアプローチを実証する。 state of the art scattering ctは静的なオブジェクトを仮定する。 既存の4D CT法は線形画像形成モデルに依存しており、しばしば重要な先行技術に依存している。 本稿では,適切な回復に必要な角度および時間的サンプリング率について論じる。 これらの速度を使用すると、この論文は4次元CTトモグラフィーを単純化する時間変化物体の表現につながる。 このタスクは勾配に基づく最適化によって達成される。 我々はこれを物理シミュレーションや実世界のデータを得た実験で実証した。

We derive computed tomography (CT) of a time-varying volumetric translucent object, using a small number of moving cameras. We particularly focus on passive scattering tomography, which is a non-linear problem. We demonstrate the approach on dynamic clouds, as clouds have a major effect on Earth's climate. State of the art scattering CT assumes a static object. Existing 4D CT methods rely on a linear image formation model and often on significant priors. In this paper, the angular and temporal sampling rates needed for a proper recovery are discussed. If these rates are used, the paper leads to a representation of the time-varying object, which simplifies 4D CT tomography. The task is achieved using gradient-based optimization. We demonstrate this in physics-based simulations and in an experiment that had yielded real-world data.
翻訳日:2021-05-21 13:56:54 公開日:2020-12-06
# Depthwise Disparable Convolution と Person Centroid Guided Joint Grouping を用いた効率的な人物姿勢推定

Efficient Human Pose Estimation with Depthwise Separable Convolution and Person Centroid Guided Joint Grouping ( http://arxiv.org/abs/2012.03316v1 )

ライセンス: Link先を確認
Jie Ou and Hong Wu(参考訳) 本稿では,2次元ポーズ推定のための効率的かつ効果的な手法を提案する。 新しいResBlockは、深い分離可能な畳み込みに基づいて提案され、Hourglassネットワークのオリジナルのものの代わりに利用される。 バニラの深さ方向の畳み込みを混合の深さ方向の畳み込みに置き換えることでさらに強化することができる。 そこで本研究ではボトムアップ多人数ポーズ推定法を提案する。 根付き木は、全ての身体関節に直接または階層的に接続する根として、人中心体を導入することによって人間のポーズを表現するために使用される。 サブネットワークの2つの分岐は、中心体、身体関節、親ノードへのオフセットを予測するために使用される。 関節はオフセットに沿って最寄りのセントロイドまで追跡することでグループ化される。 mpii human dataset と lsp dataset における実験結果から, 一人称と複数人称の両方のポーズ推定手法が, 計算コストの低い競争的アキュラティを実現できることが示された。

In this paper, we propose efficient and effective methods for 2D human pose estimation. A new ResBlock is proposed based on depthwise separable convolution and is utilized instead of the original one in Hourglass network. It can be further enhanced by replacing the vanilla depthwise convolution with a mixed depthwise convolution. Based on it, we propose a bottom-up multi-person pose estimation method. A rooted tree is used to represent human pose by introducing person centroid as the root which connects to all body joints directly or hierarchically. Two branches of sub-networks are used to predict the centroids, body joints and their offsets to their parent nodes. Joints are grouped by tracing along their offsets to the closest centroids. Experimental results on the MPII human dataset and the LSP dataset show that both our single-person and multi-person pose estimation methods can achieve competitive accuracies with low computational costs.
翻訳日:2021-05-21 13:56:41 公開日:2020-12-06
# Select, Label, Mix: 部分領域適応のための識別的不変特徴表現の学習

Select, Label, and Mix: Learning Discriminative Invariant Feature Representations for Partial Domain Adaptation ( http://arxiv.org/abs/2012.03358v1 )

ライセンス: Link先を確認
Aadarsh Sahoo, Rameswar Panda, Rogerio Feris, Kate Saenko, Abir Das(参考訳) 未知のターゲットラベル空間がソースラベル空間のサブセットであると仮定する部分領域適応は、コンピュータビジョンにおいて多くの注目を集めている。 近年の進歩にもかかわらず、既存の手法は負の移動、識別可能性の欠如、潜在空間における領域不変性という3つの大きな問題に悩まされる。 上記の問題を緩和するため,部分領域適応のための識別的不変特徴表現の学習を目的とした,新しい「選択,ラベル,混合」フレームワークを開発した。 まず,2つの領域をまたいだ分布を整列しながら負の転送を避けるために,外部からのサンプルを自動的にフィルタする,シンプルで効率的な「選択」モジュールを提案する。 次に、「ラベル」モジュールは、ラベル付きソースドメインデータと生成されたターゲットドメインの擬似ラベルの両方を用いて分類器を反復的に訓練し、潜在空間の識別性を高める。 最後に、「mix」モジュールは、他の2つのモジュールと共同でドメインミックスアップ正規化を利用して、部分的ドメイン適応のためのドメイン不変ラテント空間につながるドメイン間のより固有の構造を探索する。 いくつかのベンチマークデータセットにおける広範囲な実験は、最先端のメソッドよりも提案フレームワークが優れていることを示している。

Partial domain adaptation which assumes that the unknown target label space is a subset of the source label space has attracted much attention in computer vision. Despite recent progress, existing methods often suffer from three key problems: negative transfer, lack of discriminability and domain invariance in the latent space. To alleviate the above issues, we develop a novel 'Select, Label, and Mix' (SLM) framework that aims to learn discriminative invariant feature representations for partial domain adaptation. First, we present a simple yet efficient "select" module that automatically filters out the outlier source samples to avoid negative transfer while aligning distributions across both domains. Second, the "label" module iteratively trains the classifier using both the labeled source domain data and the generated pseudo-labels for the target domain to enhance the discriminability of the latent space. Finally, the "mix" module utilizes domain mixup regularization jointly with the other two modules to explore more intrinsic structures across domains leading to a domain-invariant latent space for partial domain adaptation. Extensive experiments on several benchmark datasets demonstrate the superiority of our proposed framework over state-of-the-art methods.
翻訳日:2021-05-21 13:56:27 公開日:2020-12-06
# 視覚認識階層に基づく食品認識

Visual Aware Hierarchy Based Food Recognition ( http://arxiv.org/abs/2012.03368v1 )

ライセンス: Link先を確認
Runyu Mao, Jiangpeng He, Zeman Shao, Sri Kalyan Yarlagadda, Fengqing Zhu(参考訳) 食品認識は、画像に基づく食事評価において最も重要な要素の1つである。 しかし,食品画像の複雑さや食品カテゴリのクラス間類似性が異なっており,画像ベースの食品認識システムでは,利用可能なさまざまなデータセットに対して高い精度を実現することが困難である。 本研究では、コンボリューショナルニューラルネットワーク(CNN)をバックボーンアーキテクチャとして用いた、食品のローカライゼーションと階層的な食品分類を含む2段階の食品認識システムを提案する。 食品ローカライゼーションのステップは、食品領域を識別するFaster R-CNN法の実装に基づいている。 食品分類ステップでは、視覚的に類似した食品カテゴリを自動的にクラスタ化して、食品カテゴリ間の意味的視覚関係を表す階層構造を生成し、視覚認識階層構造に基づいて分類タスクを実行するマルチタスクcnnモデルを提案する。 データセットのサイズと品質は、データ駆動方式の重要な要素であるため、米国で最も一般的に消費される食品に基づいて、82の食品カテゴリと15kの画像からなる、新しい食品画像データセットVIPER-FoodNet(VFN)データセットを導入する。 半自動クラウドソーシングツールを使用して、食品オブジェクト境界ボックスや食品オブジェクトラベルを含む、このデータセットの地平情報を提供する。 実験結果から,本システムは4つの公開データセットと新しいVFNデータセットの分類と認識性能を大幅に向上させることができることがわかった。

Food recognition is one of the most important components in image-based dietary assessment. However, due to the different complexity level of food images and inter-class similarity of food categories, it is challenging for an image-based food recognition system to achieve high accuracy for a variety of publicly available datasets. In this work, we propose a new two-step food recognition system that includes food localization and hierarchical food classification using Convolutional Neural Networks (CNNs) as the backbone architecture. The food localization step is based on an implementation of the Faster R-CNN method to identify food regions. In the food classification step, visually similar food categories can be clustered together automatically to generate a hierarchical structure that represents the semantic visual relations among food categories, then a multi-task CNN model is proposed to perform the classification task based on the visual aware hierarchical structure. Since the size and quality of dataset is a key component of data driven methods, we introduce a new food image dataset, VIPER-FoodNet (VFN) dataset, consists of 82 food categories with 15k images based on the most commonly consumed foods in the United States. A semi-automatic crowdsourcing tool is used to provide the ground-truth information for this dataset including food object bounding boxes and food object labels. Experimental results demonstrate that our system can significantly improve both classification and recognition performance on 4 publicly available datasets and the new VFN dataset.
翻訳日:2021-05-21 13:56:04 公開日:2020-12-06
# ロバストな画像キャプション

Robust Image Captioning ( http://arxiv.org/abs/2012.09732v1 )

ライセンス: Link先を確認
Daniel Yarnell, Xian Wang(参考訳) 写真の自動キャプションは、写真分析とテキスト生成の難しさを組み込んだミッションである。 キャプションの基本的な特徴の1つは注意の概念である:何をどのシーケンスで指定するかを決定する方法。 本研究では,入力データ間の空間関係に関する知識をグラフ表現に組み込むことにより,対象関係を逆ロバストカットアルゴリズムを用いて活用する。 本研究は,画像キャプションのための提案手法の有望な性能を示す。

Automated captioning of photos is a mission that incorporates the difficulties of photo analysis and text generation. One essential feature of captioning is the concept of attention: how to determine what to specify and in which sequence. In this study, we leverage the Object Relation using adversarial robust cut algorithm, that grows upon this method by specifically embedding knowledge about the spatial association between input data through graph representation. Our experimental study represent the promising performance of our proposed method for image captioning.
翻訳日:2021-05-21 13:55:43 公開日:2020-12-06
# 産業自動化のためのDeep Transfer Learning:データ駆動機械学習の新しい手法のレビューと考察

Deep Transfer Learning for Industrial Automation: A Review and Discussion of New Techniques for Data-Driven Machine Learning ( http://arxiv.org/abs/2012.03301v1 )

ライセンス: Link先を確認
Benjamin Maschler and Michael Weyrich(参考訳) 本稿では,伝達と連続学習の概念を紹介する。 その後のレビューでは,両アルゴリズムの手法を活用した産業的深層移動学習への有望なアプローチを明らかにしている。 コンピュータビジョンの分野では、すでに最先端のテクノロジーだ。 他の例では 障害予測は、ほとんど始まりません。 しかしながら、あらゆる分野において、連続学習と転校学習の抽象的な区別は、その実用的利用の恩恵を受けるものではない。 対照的に、どちらも、産業自動化セクターの要求を満たす堅牢な学習アルゴリズムを作成するために、まとめるべきである。 これらの要件をより詳しく説明するために,産業転校学習のベースユースケースが紹介されている。

In this article, the concepts of transfer and continual learning are introduced. The ensuing review reveals promising approaches for industrial deep transfer learning, utilizing methods of both classes of algorithms. In the field of computer vision, it is already state-of-the-art. In others, e.g. fault prediction, it is barely starting. However, over all fields, the abstract differentiation between continual and transfer learning is not benefitting their practical use. In contrast, both should be brought together to create robust learning algorithms fulfilling the industrial automation sector's requirements. To better describe these requirements, base use cases of industrial transfer learning are introduced.
翻訳日:2021-05-21 13:55:34 公開日:2020-12-06
# 競争拡散モデルによる社会福祉の最大化

Maximizing Social Welfare in a Competitive Diffusion Model ( http://arxiv.org/abs/2012.03354v1 )

ライセンス: Link先を確認
Prithu Banerjee, Wei Chen, Laks V.S. Lakshmanan(参考訳) インパクト最大化(IM)は、バイラルマーケティングや感染封じ込めなどの応用により、文献に多くの注目を集めている。 採用がネットワークの多くのユーザーに広まるようなアイテムを採用するために、少数のシードユーザを選択することを目指している。 競合imはネットワーク内の競合アイテムの伝播に焦点を当てている。 既存の競合IMの研究にはいくつかの制限がある。 1) 利用者の意思決定に経済的インセンティブを取り入れていない。 2) 作品の多数は, 特定の項目の採用を最大化し, 異なる項目が果たす集団的役割を無視することを目的としている。 (3) 競争の1つの側面 – 純粋な競争 – に焦点を当てています。 これらの課題に対処するため,UICと呼ばれるユーティリティ駆動型伝播モデルの下で競争的IMを研究し,社会福祉の最大化について検討する。 一般に問題は NP-ハード だけでなく、任意の定数係数内で近似する NP-ハード である。 したがって、一般の場合に対する瞬時依存の効率的な近似アルゴリズムと制限された設定に対する$(1-1/e-\epsilon)$近似アルゴリズムを考案する。 当社のアルゴリズムは、ソリューションの品質と大規模実ネットワーク上での実行時間の両方において、総合的および実効的構成の両方において、競合するim上で異なるベースラインを上回っています。

Influence maximization (IM) has garnered a lot of attention in the literature owing to applications such as viral marketing and infection containment. It aims to select a small number of seed users to adopt an item such that adoption propagates to a large number of users in the network. Competitive IM focuses on the propagation of competing items in the network. Existing works on competitive IM have several limitations. (1) They fail to incorporate economic incentives in users' decision making in item adoptions. (2) Majority of the works aim to maximize the adoption of one particular item, and ignore the collective role that different items play. (3) They focus mostly on one aspect of competition -- pure competition. To address these concerns we study competitive IM under a utility-driven propagation model called UIC, and study social welfare maximization. The problem in general is not only NP-hard but also NP-hard to approximate within any constant factor. We, therefore, devise instant dependent efficient approximation algorithms for the general case as well as a $(1-1/e-\epsilon)$-a pproximation algorithm for a restricted setting. Our algorithms outperform different baselines on competitive IM, both in terms of solution quality and running time on large real networks under both synthetic and real utility configurations.
翻訳日:2021-05-21 13:55:25 公開日:2020-12-06
# Brain Co-Processors: AIを使って脳機能の再構築と拡張

Brain Co-Processors: Using AI to Restore and Augment Brain Function ( http://arxiv.org/abs/2012.03378v1 )

ライセンス: Link先を確認
Rajesh P. N. Rao(参考訳) 脳-コンピュータインタフェース(BCI)は、失った機能の回復のための脳信号に基づく義肢の制御にデコードアルゴリズムを使用する。 一方、コンピュータ脳インタフェース(CBI)は、符号化アルゴリズムを使用して、感覚の回復や閉ループ補綴制御のための感覚フィードバックを提供するために、外部感覚信号を神経刺激パターンに変換する。 本稿では,人工知能(AI)による脳機能の補完や強化を目的とした,デコードとエンコーディングを組み合わせた脳コプロセッサについて紹介する。 脳のコプロセッサは、脳損傷後のリハビリテーションのためにヘビアン可塑性を誘導することから、麻痺した四肢の再結合や記憶の増強まで、様々な用途に使用できる。 重要な課題は、外的行動やタスク関連の目標を最適化するための、同時マルチチャネルニューラルデコーディングとエンコーディングである。 本稿では,ニューラルネットワーク,ディープラーニング,強化学習に基づく脳コプロセッサ開発のための新しいフレームワークについて述べる。 これらの「ニューラルコプロセッサ」は、神経系とコスト関数の協調最適化を可能にし、望ましい行動を達成する。 ニューラルネットワークを生物学的なものと結合することで、ニューラルコプロセッサは脳の回復と増強の新しい方法と、脳研究のための新しい科学的ツールを提供する。 我々は、脳コプロセッサの潜在的な応用と倫理的意味について論じる。

Brain-computer interfaces (BCIs) use decoding algorithms to control prosthetic devices based on brain signals for restoration of lost function. Computer-brain interfaces (CBIs), on the other hand, use encoding algorithms to transform external sensory signals into neural stimulation patterns for restoring sensation or providing sensory feedback for closed-loop prosthetic control. In this article, we introduce brain co-processors, devices that combine decoding and encoding in a unified framework using artificial intelligence (AI) to supplement or augment brain function. Brain co-processors can be used for a range of applications, from inducing Hebbian plasticity for rehabilitation after brain injury to reanimating paralyzed limbs and enhancing memory. A key challenge is simultaneous multi-channel neural decoding and encoding for optimization of external behavioral or task-related goals. We describe a new framework for developing brain co-processors based on artificial neural networks, deep learning and reinforcement learning. These "neural co-processors" allow joint optimization of cost functions with the nervous system to achieve desired behaviors. By coupling artificial neural networks with their biological counterparts, neural co-processors offer a new way of restoring and augmenting the brain, as well as a new scientific tool for brain research. We conclude by discussing the potential applications and ethical implications of brain co-processors.
翻訳日:2021-05-21 13:55:08 公開日:2020-12-06
# デュアルピクセルデータによるデフォーカスブラの低減学習

Learning to Reduce Defocus Blur by Realistically Modeling Dual-Pixel Data ( http://arxiv.org/abs/2012.03255v1 )

ライセンス: Link先を確認
Abdullah Abuolaim, Mauricio Delbracio, Damien Kelly, Michael S. Brown, Peyman Milanfar(参考訳) 最近の研究は、現代のデュアルピクセル(DP)センサーで利用可能な2画像ビューを用いた、データ駆動デフォーカスのデブロリングに関する印象的な結果を示している。 この研究における重要な課題の1つは、DPデータへのアクセスである。 多くのカメラがDPセンサーを搭載しているが、低レベルのDPセンサー画像へのアクセスは限られた数に限られている。 さらに、デフォーカス・デブロアリングのためのトレーニングデータを取得するには、カメラの開口を調整する必要がある時間と手間がかかる。 dpセンサー(例えばスマートフォン)を搭載した一部のカメラは、調整可能な開口部を持たず、必要なトレーニングデータを生成する能力を制限している。 本稿では,リアルDPデータを合成的に生成する手法を提案することで,データの捕捉ボトルネックに対処する。 提案手法は,dpセンサの光学的画像形成を模倣し,標準的なコンピュータソフトウェアでレンダリングされた仮想シーンに適用できる。 これらの現実的な合成dp画像を活用することで,dpセンサで取得した単一フレームおよびマルチフレームデータの利用に適した,デブラリング結果を改善することのできる,新しいリカレント畳み込みネットワーク(rcn)アーキテクチャを提案する。 最後に,DPデータへのアクセスが困難なビデオデブロアアプリケーションを対象としたDNNモデルのトレーニングに有用であることを示す。

Recent work has shown impressive results on data-driven defocus deblurring using the two-image views available on modern dual-pixel (DP) sensors. One significant challenge in this line of research is access to DP data. Despite many cameras having DP sensors, only a limited number provide access to the low-level DP sensor images. In addition, capturing training data for defocus deblurring involves a time-consuming and tedious setup requiring the camera's aperture to be adjusted. Some cameras with DP sensors (e.g., smartphones) do not have adjustable apertures, further limiting the ability to produce the necessary training data. We address the data capture bottleneck by proposing a procedure to generate realistic DP data synthetically. Our synthesis approach mimics the optical image formation found on DP sensors and can be applied to virtual scenes rendered with standard computer software. Leveraging these realistic synthetic DP images, we introduce a new recurrent convolutional network (RCN) architecture that can improve deblurring results and is suitable for use with single-frame and multi-frame data captured by DP sensors. Finally, we show that our synthetic DP data is useful for training DNN models targeting video deblurring applications where access to DP data remains challenging.
翻訳日:2021-05-21 13:54:45 公開日:2020-12-06
# マルチタスク学習とカテゴリーインタラクションモデリングによる歩行者行動予測

Pedestrian Behavior Prediction via Multitask Learning and Categorical Interaction Modeling ( http://arxiv.org/abs/2012.03298v1 )

ライセンス: Link先を確認
Amir Rasouli and Mohsen Rohani and Jun Luo(参考訳) 歩行者の行動予測はインテリジェント運転システムの大きな課題の1つである。 歩行者はしばしば様々な文脈要素に影響された複雑な行動を示す。 この問題に対処するために,マルチモーダルデータによる歩行者の軌跡や行動の同時予測を行うマルチタスク学習フレームワークを提案する。 Our method benefits from 1) a hybrid mechanism to encode different input modalities independently allowing them to develop their own representations, and jointly to produce a representation for all modalities using shared parameters; 2) a novel interaction modeling technique that relies on categorical semantic parsing of the scenes to capture interactions between target pedestrians and their surroundings; and 3) a dual prediction mechanism that uses both independent and shared decoding of multimodal representations. PIEとJAADの公共歩行者行動ベンチマークデータセットを用いて、マルチタスク学習による行動予測の利点を強調し、我々のモデルが最先端のパフォーマンスを達成し、軌跡と行動予測を最大22%と6%改善することを示す。 さらに、広範囲なアブレーション研究を通じて、提案した処理および相互作用モデリング技術の貢献について検討する。

Pedestrian behavior prediction is one of the major challenges for intelligent driving systems. Pedestrians often exhibit complex behaviors influenced by various contextual elements. To address this problem, we propose a multitask learning framework that simultaneously predicts trajectories and actions of pedestrians by relying on multimodal data. Our method benefits from 1) a hybrid mechanism to encode different input modalities independently allowing them to develop their own representations, and jointly to produce a representation for all modalities using shared parameters; 2) a novel interaction modeling technique that relies on categorical semantic parsing of the scenes to capture interactions between target pedestrians and their surroundings; and 3) a dual prediction mechanism that uses both independent and shared decoding of multimodal representations. Using public pedestrian behavior benchmark datasets for driving, PIE and JAAD, we highlight the benefits of multitask learning for behavior prediction and show that our model achieves state-of-the-art performance and improves trajectory and action prediction by up to 22% and 6% respectively. We further investigate the contributions of the proposed processing and interaction modeling techniques via extensive ablation studies.
翻訳日:2021-05-21 13:54:26 公開日:2020-12-06
# スピン化と固相LiDARのためのグローバル統一固有の校正

Global Unifying Intrinsic Calibration for Spinning and Solid-State LiDARs ( http://arxiv.org/abs/2012.03321v1 )

ライセンス: Link先を確認
Jiunn-Kai Huang, Chenxi Feng, Madhav Achar, Maani Ghaffari, and Jessy W. Grizzle(参考訳) センサキャリブレーションは内在的あるいは外在的であり、自律ロボットに展開する現代の認識とナビゲーションシステムに必要な測定精度を達成するための重要なステップである。 これまでのところ、回転LiDARの固有キャリブレーションモデルは、その物理機構に基づいて仮説化されており、データから推定されるパラメータが3から10であるのに対して、固体LiDARの現象モデルはまだ提案されていない。 この道を進む代わりに、LiDAR型(スピン対固体状態など)の物理学を抽象化し、センサによって生成された点雲の空間幾何学に焦点を当てることを提案する。 特殊行列リー群の要素としてキャリブレーションパラメータをモデル化することにより、異なるタイプのLiDARに対するキャリブレーションの統一ビューを実現する。 さらに,提案モデルが(一意的な回答を持つ)適切な向き付け目標を4つ与えていることを数学的に証明する。 この証明は、四面体形の標的位置決めのガイドラインを提供する。 さらに、SE(3)の既定プログラム大域解法を最適化して最適な校正パラメータを効率的に計算することができる。 固体LiDARの場合、シミュレーションでどのように動作するかを説明する。 スピンリングLiDARにおいて,提案した行列Lie Groupモデルが,P2P距離を低減しつつ,ノイズに対してより堅牢な物理モデルと同等に動作することを示す。

Sensor calibration, which can be intrinsic or extrinsic, is an essential step to achieve the measurement accuracy required for modern perception and navigation systems deployed on autonomous robots. To date, intrinsic calibration models for spinning LiDARs have been based on hypothesized based on their physical mechanisms, resulting in anywhere from three to ten parameters to be estimated from data, while no phenomenological models have yet been proposed for solid-state LiDARs. Instead of going down that road, we propose to abstract away from the physics of a LiDAR type (spinning vs solid-state, for example), and focus on the spatial geometry of the point cloud generated by the sensor. By modeling the calibration parameters as an element of a special matrix Lie Group, we achieve a unifying view of calibration for different types of LiDARs. We further prove mathematically that the proposed model is well-constrained (has a unique answer) given four appropriately orientated targets. The proof provides a guideline for target positioning in the form of a tetrahedron. Moreover, an existing Semidefinite programming global solver for SE(3) can be modified to compute efficiently the optimal calibration parameters. For solid state LiDARs, we illustrate how the method works in simulation. For spinning LiDARs, we show with experimental data that the proposed matrix Lie Group model performs equally well as physics-based models in terms of reducing the P2P distance, while being more robust to noise.
翻訳日:2021-05-21 13:54:10 公開日:2020-12-06
# tornadoaggregate: リングベースアーキテクチャによる正確でスケーラブルな連合学習

TornadoAggregate: Accurate and Scalable Federated Learning via the Ring-Based Architecture ( http://arxiv.org/abs/2012.03214v1 )

ライセンス: Link先を確認
Jin-woo Lee, Jaehoon Oh, Sungsu Lim, Se-Young Yun, Jae-Gil Lee(参考訳) 連合学習は、協調機械学習の新しいパラダイムとして登場したが、以前の多くの研究では、コミュニケーションのスケーラビリティやクライアントのローカル時間に依存する日次特性を考慮せずに、スタートポロジーに沿ってグローバルアグリゲーションを使用してきた。 対照的に、リングアーキテクチャはスケーラビリティの問題を解決することができ、集約なしでノードを反復することで昼行性も満たせる。 それでも、そのようなリングベースのアルゴリズムは本質的に高分散問題に悩まされる。 そこで本研究では,リングアーキテクチャの高速化により,精度とスケーラビリティを両立させるTornadoAggregateというアルゴリズムを提案する。 特に, 損失最小化を分散低減問題に再構成し, 分散低減のための3つの原理(リングアウェアグルーピング, 小リング, リングチェーン)を確立した。 実験の結果、TornadoAggregateはテストの精度を26.7%向上し、ほぼ直線的なスケーラビリティを実現した。

Federated learning has emerged as a new paradigm of collaborative machine learning; however, many prior studies have used global aggregation along a star topology without much consideration of the communication scalability or the diurnal property relied on clients' local time variety. In contrast, ring architecture can resolve the scalability issue and even satisfy the diurnal property by iterating nodes without an aggregation. Nevertheless, such ring-based algorithms can inherently suffer from the high-variance problem. To this end, we propose a novel algorithm called TornadoAggregate that improves both accuracy and scalability by facilitating the ring architecture. In particular, to improve the accuracy, we reformulate the loss minimization into a variance reduction problem and establish three principles to reduce variance: Ring-Aware Grouping, Small Ring, and Ring Chaining. Experimental results show that TornadoAggregate improved the test accuracy by up to 26.7% and achieved near-linear scalability.
翻訳日:2021-05-21 13:53:46 公開日:2020-12-06
# amortized q-learning with model-based action proposals for autonomous driving on highways

Amortized Q-learning with Model-based Action Proposals for Autonomous Driving on Highways ( http://arxiv.org/abs/2012.03234v1 )

ライセンス: Link先を確認
Branka Mirchevska, Maria H\"ugle, Gabriel Kalweit, Moritz Werling, Joschka Boedecker(参考訳) 十分に確立された最適化に基づく手法は、通常は数秒以内の短い最適化地平線に対する最適軌道を保証することができる。 結果として、この短地平線に対する最適軌道の選択は、依然として準最適長期解をもたらす可能性がある。 同時に、結果として生じる短期的軌道は、動的な交通環境において効果的で快適で証明可能な安全な操作を可能にする。 本研究では,従来の軌道計画の利点を保ちつつ,長期運転戦略の最適性を確保する方法について考察する。 軌道プランナーと組み合わさった強化学習に基づくアプローチを導入し,高速道路での運転に最適な長期意思決定戦略を学習する。 局所最適操作をアクションとしてオンラインに生成することにより、無限の低レベル連続アクション空間と、予め定義された標準レーン変更アクションの固定数の限られた柔軟性のバランスをとることができる。 提案手法を,オープンソースの交通シミュレータSUMOの現実シナリオで評価し,ランダムな行動選択エージェント,グリードエージェント,ハイレベルな離散アクションエージェント,IMMベースのSUMO制御エージェントなど,比較した4つのベンチマーク手法よりも優れた性能を実現した。

Well-established optimization-based methods can guarantee an optimal trajectory for a short optimization horizon, typically no longer than a few seconds. As a result, choosing the optimal trajectory for this short horizon may still result in a sub-optimal long-term solution. At the same time, the resulting short-term trajectories allow for effective, comfortable and provable safe maneuvers in a dynamic traffic environment. In this work, we address the question of how to ensure an optimal long-term driving strategy, while keeping the benefits of classical trajectory planning. We introduce a Reinforcement Learning based approach that coupled with a trajectory planner, learns an optimal long-term decision-making strategy for driving on highways. By online generating locally optimal maneuvers as actions, we balance between the infinite low-level continuous action space, and the limited flexibility of a fixed number of predefined standard lane-change actions. We evaluated our method on realistic scenarios in the open-source traffic simulator SUMO and were able to achieve better performance than the 4 benchmark approaches we compared against, including a random action selecting agent, greedy agent, high-level, discrete actions agent and an IDM-based SUMO-controlled agent.
翻訳日:2021-05-21 13:53:27 公開日:2020-12-06
# 組合せ多腕バンディットによる高精度・高速フェデレーション学習

Accurate and Fast Federated Learning via Combinatorial Multi-Armed Bandits ( http://arxiv.org/abs/2012.03270v1 )

ライセンス: Link先を確認
Taehyeon Kim, Sangmin Bae, Jin-woo Lee, Seyoung Yun(参考訳) 連合学習は、協調機械学習の革新的なパラダイムとして登場した。 従来の機械学習とは異なり、グローバルモデルは協調的に学習され、データは膨大な数のクライアントデバイスに分散されているため、ユーザのプライバシを侵害しない。 しかし、フェデレート学習におけるグローバルアグリゲーションには、偏りのあるモデル平均化とクライアントサンプリングにおける事前知識の欠如という課題があり、これはそれぞれ高い一般化誤差と緩やかな収束率をもたらす。 本研究では,複数腕のバンディットベースクライアントによる事前知識を活用し,組合せモデル平均化によるバイアスモデル抽出とフィルタリングを行うfeedcmと呼ばれる新しいアルゴリズムを提案する。 様々なアルゴリズムと代表的異種データセットを用いた広範囲な評価の結果,feedcmは一般化精度と収束率において,最大37.25%,4.17倍の精度を示した。

Federated learning has emerged as an innovative paradigm of collaborative machine learning. Unlike conventional machine learning, a global model is collaboratively learned while data remains distributed over a tremendous number of client devices, thus not compromising user privacy. However, several challenges still remain despite its glowing popularity; above all, the global aggregation in federated learning involves the challenge of biased model averaging and lack of prior knowledge in client sampling, which, in turn, leads to high generalization error and slow convergence rate, respectively. In this work, we propose a novel algorithm called FedCM that addresses the two challenges by utilizing prior knowledge with multi-armed bandit based client sampling and filtering biased models with combinatorial model averaging. Based on extensive evaluations using various algorithms and representative heterogeneous datasets, we showed that FedCM significantly outperformed the state-of-the-art algorithms by up to 37.25% and 4.17 times, respectively, in terms of generalization accuracy and convergence rate.
翻訳日:2021-05-21 13:53:06 公開日:2020-12-06
# グランガー因果関係におけるガウス過程による植生の気候影響の理解

Understanding Climate Impacts on Vegetation with Gaussian Processes in Granger Causality ( http://arxiv.org/abs/2012.03338v1 )

ライセンス: Link先を確認
Miguel Morata-Dolz, Diego Bueso, Maria Piles and Gustau Camps-Valls(参考訳) 地球温暖化は地球に先例のない変化をもたらしており、特にバイオ燃料や食料の需要の増加によって、社会、経済、環境に大きな影響を及ぼしている。 気候が植生に与える影響を評価することは、需要を圧迫する。 我々は,新しい非線形グランガー因果解析法 (GC) を用いて帰属問題にアプローチし, 遠隔センシング衛星製品, 環境変数, 気候変数の大規模データアーカイブを30年以上にわたって時空間的に収集した。 ヒルベルト空間における変数の交叉関係を明示的に考慮し、ガウス過程における共分散を用いて、カーネルグランガー因果関係を一般化する。 このメソッドはリニアGCメソッドとカーネルGCメソッドを一般化し、Rademacherの複雑さに基づいたより厳密なパフォーマンス境界を持つ。 植生緑地における降水量と土壌水分の分布は,従来のGC法よりも顕著に同定された。

Global warming is leading to unprecedented changes in our planet, with great societal, economical and environmental implications, especially with the growing demand of biofuels and food. Assessing the impact of climate on vegetation is of pressing need. We approached the attribution problem with a novel nonlinear Granger causal (GC) methodology and used a large data archive of remote sensing satellite products, environmental and climatic variables spatio-temporally gridded over more than 30 years. We generalize kernel Granger causality by considering the variables cross-relations explicitly in Hilbert spaces, and use the covariance in Gaussian processes. The method generalizes the linear and kernel GC methods, and comes with tighter bounds of performance based on Rademacher complexity. Spatially-explicit global Granger footprints of precipitation and soil moisture on vegetation greenness are identified more sharply than previous GC methods.
翻訳日:2021-05-21 13:52:48 公開日:2020-12-06
# SoK: プライバシ保護による複数のソース上でのマシンラーニングモデルのトレーニング

SoK: Training Machine Learning Models over Multiple Sources with Privacy Preservation ( http://arxiv.org/abs/2012.03386v1 )

ライセンス: Link先を確認
Lushan Song, Haoqi Wu, Wenqiang Ruan, Weili Han(参考訳) 現在、プライバシー保護を伴う複数のデータコントローラから高品質なトレーニングデータを集めることは、高品質な機械学習モデルをトレーニングするための重要な課題である。 潜在的ソリューションは、分離されたデータコーパス間の障壁を劇的に破壊し、結果として処理可能なデータ範囲を拡大する可能性がある。 この目的のために、学界の研究者と工業ベンダーは、最近、1)セキュアなマルチパーティ学習(mpl)、2)フェデレーション学習(fl)という2つの主要なストリームフォルダーを提案することに強く動機づけられている。 これら2つのソリューションには、プライバシ保護、通信方法、通信オーバーヘッド、データのフォーマット、トレーニング済みモデルの正確性、アプリケーションシナリオから評価する際のメリットと制限があります。 研究の進展を実証し、今後の方向性に関する洞察を議論するために、mplとflの両方のプロトコルとフレームワークを徹底的に調査した。 まず、プライバシ保存(TMMPP)を用いた複数のデータソース上で機械学習モデルをトレーニングする問題を定義する。 次に、TMMPPの最近の研究を、技術ルート、パーティのサポート、データパーティショニング、脅威モデル、サポート対象機械学習モデルといった側面から比較し、利点と限界を示す。 次に、複数のデータソース上でオンライントレーニングをサポートする最先端プラットフォームを紹介する。 最後に、TMMPPの課題を解決するための潜在的な方向性について論じる。

Nowadays, gathering high-quality training data from multiple data controllers with privacy preservation is a key challenge to train high-quality machine learning models. The potential solutions could dramatically break the barriers among isolated data corpus, and consequently enlarge the range of data available for processing. To this end, both academia researchers and industrial vendors are recently strongly motivated to propose two main-stream folders of solutions: 1) Secure Multi-party Learning (MPL for short); and 2) Federated Learning (FL for short). These two solutions have their advantages and limitations when we evaluate them from privacy preservation, ways of communication, communication overhead, format of data, the accuracy of trained models, and application scenarios. Motivated to demonstrate the research progress and discuss the insights on the future directions, we thoroughly investigate these protocols and frameworks of both MPL and FL. At first, we define the problem of training machine learning models over multiple data sources with privacy-preserving (TMMPP for short). Then, we compare the recent studies of TMMPP from the aspects of the technical routes, parties supported, data partitioning, threat model, and supported machine learning models, to show the advantages and limitations. Next, we introduce the state-of-the-art platforms which support online training over multiple data sources. Finally, we discuss the potential directions to resolve the problem of TMMPP.
翻訳日:2021-05-21 13:52:09 公開日:2020-12-06
# プライバシー保護型スマートメータデータ

Privacy-Preserving Synthetic Smart Meters Data ( http://arxiv.org/abs/2012.04475v1 )

ライセンス: Link先を確認
Ganesh Del Grosso, Georg Pichler, Pablo Piantanida(参考訳) 電力消費データは、電力グリッドを最適化し、異常を検出し、障害を防止できるため、様々な研究目的のために有用である。 しかし、電力消費データの使用は、通常このデータは電力会社のクライアントに属するため、重大なプライバシー上の懸念を生じさせる。 そこで,本研究では,オリジナルを忠実に模倣した合成消費電力サンプルを生成する手法を提案する。 本手法はGAN(Generative Adversarial Networks)に基づく。 私たちの貢献は2倍です。 まず、標準評価方法がないため、簡単な作業ではない生成データの品質に焦点を当てる。 次に、ニューラルネットワークのトレーニングセットのメンバーに提供されるプライバシー保証について検討する。 プライバシの最低限の要件として、私たちはニューラルネットワークに対して、メンバシップ推論攻撃に対して堅牢であることを要求しています。 プライバシとアルゴリズムが提供するパフォーマンスとの間には,妥協が必要なことが分かりました。

Power consumption data is very useful as it allows to optimize power grids, detect anomalies and prevent failures, on top of being useful for diverse research purposes. However, the use of power consumption data raises significant privacy concerns, as this data usually belongs to clients of a power company. As a solution, we propose a method to generate synthetic power consumption samples that faithfully imitate the originals, but are detached from the clients and their identities. Our method is based on Generative Adversarial Networks (GANs). Our contribution is twofold. First, we focus on the quality of the generated data, which is not a trivial task as no standard evaluation methods are available. Then, we study the privacy guarantees provided to members of the training set of our neural network. As a minimum requirement for privacy, we demand our neural network to be robust to membership inference attacks, as these provide a gateway for further attacks in addition to presenting a privacy threat on their own. We find that there is a compromise to be made between the privacy and the performance provided by the algorithm.
翻訳日:2021-05-21 13:51:45 公開日:2020-12-06
# CoEdge: 異種エッジデバイス上での適応的ワークロード分割を用いた協調DNN推論

CoEdge: Cooperative DNN Inference with Adaptive Workload Partitioning over Heterogeneous Edge Devices ( http://arxiv.org/abs/2012.03257v1 )

ライセンス: Link先を確認
Liekang Zeng, Xu Chen, Zhi Zhou, Lei Yang, Junshan Zhang(参考訳) 最近の人工知能の進歩は、スマートホームやスマートファクトリー、スマートシティなど、ネットワークエッジにおけるインテリジェントなアプリケーションの増加を促している。 リソース制約のあるエッジデバイスに計算集約的なディープニューラルネットワーク(DNN)をデプロイするために、従来のアプローチでは、ワークロードをリモートクラウドにオフロードするか、エンドデバイスでの計算をローカルに最適化するかのいずれかに頼っている。 しかし、クラウド支援アプローチは信頼性の低い広域ネットワークに悩まされ、ローカルコンピューティングアプローチは制約された計算能力によって制限される。 高性能エッジインテリジェンスを目指して、協調実行機構は新しいパラダイムを提供し、近年研究の関心が高まりつつある。 本稿では,異種エッジデバイス上での協調DNN推論をオーケストレーションする分散DNN計算システムであるCoEdgeを提案する。 CoEdgeはエッジで利用可能な計算と通信資源を利用し、デバイスのコンピューティング能力とネットワーク条件に適応したDNN推論ワークロードを動的に分割する。 現実的なプロトタイプに基づく実験的評価により、coedgeは4つの広く採用されているcnnモデルで最大25.5%~66.9%のエネルギー削減を達成した。

Recent advances in artificial intelligence have driven increasing intelligent applications at the network edge, such as smart home, smart factory, and smart city. To deploy computationally intensive Deep Neural Networks (DNNs) on resource-constrained edge devices, traditional approaches have relied on either offloading workload to the remote cloud or optimizing computation at the end device locally. However, the cloud-assisted approaches suffer from the unreliable and delay-significant wide-area network, and the local computing approaches are limited by the constrained computing capability. Towards high-performance edge intelligence, the cooperative execution mechanism offers a new paradigm, which has attracted growing research interest recently. In this paper, we propose CoEdge, a distributed DNN computing system that orchestrates cooperative DNN inference over heterogeneous edge devices. CoEdge utilizes available computation and communication resources at the edge and dynamically partitions the DNN inference workload adaptive to devices' computing capabilities and network conditions. Experimental evaluations based on a realistic prototype show that CoEdge outperforms status-quo approaches in saving energy with close inference latency, achieving up to 25.5%~66.9% energy reduction for four widely-adopted CNN models.
翻訳日:2021-05-21 13:51:29 公開日:2020-12-06
# 無線ドローンネットワークにおける軌道設計のための分散マルチエージェントメタ学習

Distributed Multi-agent Meta Learning for Trajectory Design in Wireless Drone Networks ( http://arxiv.org/abs/2012.03158v1 )

ライセンス: Link先を確認
Ye Hu, Mingzhe Chen, Walid Saad, H. Vincent Poor, and Shuguang Cui(参考訳) 本稿では,動的無線ネットワーク環境で動作するエネルギー制約型ドローン群に対する軌道設計の問題点について考察する。 検討されたモデルでは、ドローン基地局(DBS)のチームが派遣され、動的で予測不可能なアップリンクアクセス要求を持つ地上ユーザのクラスタを協調的に提供する。 このシナリオでは、DBSは、地上ユーザの動的要求のカバレッジを最大化するために、考慮された領域を協調的にナビゲートする必要がある。 この軌道設計問題は、すべてのdbsによって提供されるユーザの比率を最大化する最適な軌道を求めることを目標とする最適化フレームワークとして提案されている。 予測不可能な環境下でのこの非凸最適化問題の最適解を求めるため,メタ学習機構と結合した値分解型強化学習(VDRL)ソリューションを提案する。 このアルゴリズムにより、DBSは動的に軌跡を学習し、学習を目に見えない環境に一般化することができる。 解析の結果,提案するvd-rlアルゴリズムは非凸最適化問題の局所最適解に収束することが保証された。 シミュレーションの結果、メタトレーニングがなくても、提案するvd-rlアルゴリズムは、ベースラインマルチエージェントアルゴリズムと比較して、サービスカバレッジが53.2%向上し、収束速度が30.6%向上した。 一方、メタラーニングを使用することで、VD-RLアルゴリズムの収束速度は最大53.8%向上する。

In this paper, the problem of the trajectory design for a group of energy-constrained drones operating in dynamic wireless network environments is studied. In the considered model, a team of drone base stations (DBSs) is dispatched to cooperatively serve clusters of ground users that have dynamic and unpredictable uplink access demands. In this scenario, the DBSs must cooperatively navigate in the considered area to maximize coverage of the dynamic requests of the ground users. This trajectory design problem is posed as an optimization framework whose goal is to find optimal trajectories that maximize the fraction of users served by all DBSs. To find an optimal solution for this non-convex optimization problem under unpredictable environments, a value decomposition based reinforcement learning (VDRL) solution coupled with a meta-training mechanism is proposed. This algorithm allows the DBSs to dynamically learn their trajectories while generalizing their learning to unseen environments. Analytical results show that, the proposed VD-RL algorithm is guaranteed to converge to a local optimal solution of the non-convex optimization problem. Simulation results show that, even without meta-training, the proposed VD-RL algorithm can achieve a 53.2% improvement of the service coverage and a 30.6% improvement in terms of the convergence speed, compared to baseline multi-agent algorithms. Meanwhile, the use of meta-learning improves the convergence speed of the VD-RL algorithm by up to 53.8% when the DBSs must deal with a previously unseen task.
翻訳日:2021-05-21 13:51:07 公開日:2020-12-06
# 畳み込みニューラルネットワークを用いたギター効果認識とパラメータ推定

Guitar Effects Recognition and Parameter Estimation with Convolutional Neural Networks ( http://arxiv.org/abs/2012.03216v1 )

ライセンス: Link先を確認
Marco Comunit\`a, Dan Stowell, Joshua D. Reiss(参考訳) ギター効果の人気にもかかわらず、ギター録音からの特定のプラグインやエフェクトユニットの分類とパラメーター推定に関する研究はほとんどない。 本稿では,13のオーバードライブ,歪み,ファズギター効果の分類とパラメータ推定に畳み込みニューラルネットワークを用いた。 モノフォニックまたはポリフォニックのサンプルと離散的または連続的な設定値からなる4つのサブデータセットを合計250時間にわたる処理されたエレクトロギターのサンプルの新たなデータセットを組み立てた。 結果は、同じまたは異なるサブデータセット上でトレーニングおよびテストされたネットワークと比較された。 個別のデータセットは、設計、分析、修正が容易でありながら、連続的なデータセットと同等に高いパフォーマンスをもたらす可能性があることがわかった。 分類精度は80\%を超え, 影響音色と回路設計の類似性を反映した混乱行列が得られた。 0.0から1.0の間のパラメータ値では、平均絶対誤差は0.05以下であり、根平均二乗誤差は0.0.1以下である。

Despite the popularity of guitar effects, there is very little existing research on classification and parameter estimation of specific plugins or effect units from guitar recordings. In this paper, convolutional neural networks were used for classification and parameter estimation for 13 overdrive, distortion and fuzz guitar effects. A novel dataset of processed electric guitar samples was assembled, with four sub-datasets consisting of monophonic or polyphonic samples and discrete or continuous settings values, for a total of about 250 hours of processed samples. Results were compared for networks trained and tested on the same or on a different sub-dataset. We found that discrete datasets could lead to equally high performance as continuous ones, whilst being easier to design, analyse and modify. Classification accuracy was above 80\%, with confusion matrices reflecting similarities in the effects timbre and circuits design. With parameter values between 0.0 and 1.0, the mean absolute error is in most cases below 0.05, while the root mean square error is below 0.1 in all cases but one.
翻訳日:2021-05-21 13:50:43 公開日:2020-12-06
# フーリエ領域変分定式化とその教師付き学習への応用

Fourier-domain Variational Formulation and Its Well-posedness for Supervised Learning ( http://arxiv.org/abs/2012.03238v1 )

ライセンス: Link先を確認
Tao Luo and Zheng Ma and Zhiwei Wang and Zhi-Qin John Xu and Yaoyu Zhang(参考訳) 教師付き学習問題は、孤立したデータポイントの値が与えられた仮説関数空間内の関数を見つけることである。 ニューラルネットワークの周波数原理に触発されて,教師付き学習問題のフーリエ領域変分定式化を提案する。 この定式化は、連続体モデリングにおける孤立したデータポイントに与えられた値の制約を課すことの難しさを回避する。 統一フレームワークにおける必要十分条件の下では,データ次元に依存した臨界指数を示すことにより,フーリエ領域変動問題の適切性を確立する。 実際、ニューラルネットワークは、適切に配置された条件を自動的に満たすこの定式化を実装するための便利な方法になり得る。

A supervised learning problem is to find a function in a hypothesis function space given values on isolated data points. Inspired by the frequency principle in neural networks, we propose a Fourier-domain variational formulation for supervised learning problem. This formulation circumvents the difficulty of imposing the constraints of given values on isolated data points in continuum modelling. Under a necessary and sufficient condition within our unified framework, we establish the well-posedness of the Fourier-domain variational problem, by showing a critical exponent depending on the data dimension. In practice, a neural network can be a convenient way to implement our formulation, which automatically satisfies the well-posedness condition.
翻訳日:2021-05-21 13:50:26 公開日:2020-12-06
# 音源分離とDepthwise Separable Convolutions for Computer Audition

Source Separation and Depthwise Separable Convolutions for Computer Audition ( http://arxiv.org/abs/2012.03359v1 )

ライセンス: Link先を確認
Gabriel Mersy and Jin Hong Kuan(参考訳) 近年の深層音楽ソース分離の進展を踏まえ、音源分離と、コンピュータオーディション(すなわち、コンピュータオーディション)に好適に活用される最先端表現学習技術を組み合わせた特徴表現手法を提案する。 マシンリスニング)。 我々は、電子ダンス音楽(EDM)データセット上で深度的に分離可能な畳み込みニューラルネットワークを訓練し、その性能をソース分離および標準スペクトログラムの両方で動作する畳み込みニューラルネットワークと比較する。 ソース分離は,標準の単一スペクトログラム手法と比較して,限られたデータ設定における分類性能を向上させる。

Given recent advances in deep music source separation, we propose a feature representation method that combines source separation with a state-of-the-art representation learning technique that is suitably repurposed for computer audition (i.e. machine listening). We train a depthwise separable convolutional neural network on a challenging electronic dance music (EDM) data set and compare its performance to convolutional neural networks operating on both source separated and standard spectrograms. It is shown that source separation improves classification performance in a limited-data setting compared to the standard single spectrogram approach.
翻訳日:2021-05-21 13:50:14 公開日:2020-12-06