このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201130となっている論文です。

PDF登録状況(公開日: 20201130)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ファウショット学習のためのマルチスケール適応タスク注意ネットワーク [全文訳有]

Multi-scale Adaptive Task Attention Network for Few-Shot Learning ( http://arxiv.org/abs/2011.14479v1 )

ライセンス: CC BY 4.0
Haoxing Chen and Huaxiong Li and Yaohui Li and Chunlin Chen(参考訳) 少数ショット学習の目標は、ラベル付きサンプルの少ない未確認カテゴリを分類することである。 近年,局所表現(LR)は目に見えるクラスと目に見えないクラスの間でより一貫性があるため,低レベルのメトリック学習に基づく手法が性能を満足している。 しかし,これらの手法の多くは,各カテゴリを個別に扱うものであり,特に特定のタスクにおいて,特徴間の関係を測るには不十分である。 さらに、複雑な背景に異なるスケールの支配的対象が存在する場合、低レベル情報に基づく計量学習手法が苦しむ。 この問題に対処するため,本論文では,マイナショット学習のためのマルチスケール適応タスクアテンションネットワーク (matanet) を提案する。 具体的には、まずマルチスケールの機能生成器を使用して、異なるスケールで複数の機能を生成する。 次に,タスク全体の中で最も重要なLRを選択するために,適応型タスクアテンションモジュールを提案する。 その後、類似度−クラスモジュールと融合層とを用いて、クエリ画像とサポートセットとのジョイント多スケール類似度を算出する。 一般的なベンチマークでの大規模な実験は、提案したMATANetの有効性を最先端の手法と比較して明らかに示している。

The goal of few-shot learning is to classify unseen categories with few labeled samples. Recently, the low-level information metric-learning based methods have achieved satisfying performance, since local representations (LRs) are more consistent between seen and unseen classes. However, most of these methods deal with each category in the support set independently, which is not sufficient to measure the relation between features, especially in a certain task. Moreover, the low-level information-based metric learning method suffers when dominant objects of different scales exist in a complex background. To address these issues, this paper proposes a novel Multi-scale Adaptive Task Attention Network (MATANet) for few-shot learning. Specifically, we first use a multi-scale feature generator to generate multiple features at different scales. Then, an adaptive task attention module is proposed to select the most important LRs among the entire task. Afterwards, a similarity-to-class module and a fusion layer are utilized to calculate a joint multi-scale similarity between the query image and the support set. Extensive experiments on popular benchmarks clearly show the effectiveness of the proposed MATANet compared with state-of-the-art methods.
翻訳日:2021-06-07 08:11:23 公開日:2020-11-30
# (参考訳) 価値関数に基づくディープラーニングワークロードの性能最適化 [全文訳有]

Value Function Based Performance Optimization of Deep Learning Workloads ( http://arxiv.org/abs/2011.14486v1 )

ライセンス: CC BY 4.0
Benoit Steiner and Chris Cummins and Horace He and Hugh Leather(参考訳) 機械学習技術がユビキタス化するにつれ、ニューラルネットワークの実装の効率性が最重要になっている。 HalideやTVMのようなフレームワークは、ネットワークのアルゴリズム表現を、その実装を決定するスケジュールから切り離している。 しかし、良いスケジュールを見つけるのは非常に難しい。 このスケジューリング問題を最適化選択のシーケンスとしてモデル化し,部分スケジュールの期待性能を正確に予測する新しい手法を提案する。 これらの予測を活用することで、これらの最適化決定を欲深く、迅速に効率的なスケジュールを特定できます。 これにより、深いニューラルネットワークのスループットをHalideの2.6倍、TVMの1.5倍向上させるスケジュールを見つけることができる。 さらに,本手法はこれらのツールよりも2~3桁高速で,数時間ではなく数秒で完了する。

As machine learning techniques become ubiquitous, the efficiency of neural network implementations is becoming correspondingly paramount. Frameworks, such as Halide and TVM, separate out the algorithmic representation of the network from the schedule that determines its implementation. Finding good schedules, however, remains extremely challenging. We model this scheduling problem as a sequence of optimization choices, and present a new technique to accurately predict the expected performance of a partial schedule. By leveraging these predictions we can make these optimization decisions greedily and rapidly identify an efficient schedule. This enables us to find schedules that improve the throughput of deep neural networks by 2.6x over Halide and 1.5x over TVM. Moreover, our technique is two to three orders of magnitude faster than that of these tools, and completes in seconds instead of hours.
翻訳日:2021-06-07 07:57:02 公開日:2020-11-30
# (参考訳) 結合と個人差分に基づく各種単語埋め込みのブラインド信号分解 [全文訳有]

Blind signal decomposition of various word embeddings based on join and individual variance explained ( http://arxiv.org/abs/2011.14496v1 )

ライセンス: CC BY 4.0
Yikai Wang and Weijian Li(参考訳) 近年、自然言語処理(NLP)は、人間の生活に様々な応用をもたらす最も重要な分野の一つとなっている。 最も基本的なタスクとして、単語埋め込みの分野は依然としてより多くの注意と研究が必要である。 現在、単語埋め込みに関する既存の研究は、新しい埋め込みアルゴリズムとよく訓練された単語埋め込みにおける次元削減技術の提案に焦点を当てている。 本稿では,様々な訓練済み単語を結合成分と個別成分に分解する新しいジョイント信号分離法(jive)を提案する。 この分解フレームワークを通して、異なる単語埋め込み間の類似性と相違を簡単に調査できる。 我々は,2vec,FastText,GLoVE の異なるコーパスと異なる次元で訓練を行った。 我々はTwitterとスタンフォードの感情木バンクの感情分析に基づいて,異なる分解成分の性能を比較した。 その結果,異なる単語の埋め込みを結合成分にマッピングすることにより,従来の単語埋め込みよりも低性能で感情性能を大幅に向上できることがわかった。 さらに、異なるコンポーネントを結合することで、同じモデルがより良いパフォーマンスを達成できることが分かりました。 これらの発見は単語埋め込みに関する洞察を与え、我々の研究は単語埋め込みを生成する新しい方法を提供する。

In recent years, natural language processing (NLP) has become one of the most important areas with various applications in human's life. As the most fundamental task, the field of word embedding still requires more attention and research. Currently, existing works about word embedding are focusing on proposing novel embedding algorithms and dimension reduction techniques on well-trained word embeddings. In this paper, we propose to use a novel joint signal separation method - JIVE to jointly decompose various trained word embeddings into joint and individual components. Through this decomposition framework, we can easily investigate the similarity and difference among different word embeddings. We conducted extensive empirical study on word2vec, FastText and GLoVE trained on different corpus and with different dimensions. We compared the performance of different decomposed components based on sentiment analysis on Twitter and Stanford sentiment treebank. We found that by mapping different word embeddings into the joint component, sentiment performance can be greatly improved for the original word embeddings with lower performance. Moreover, we found that by concatenating different components together, the same model can achieve better performance. These findings provide great insights into the word embeddings and our work offer a new of generating word embeddings by fusing.
翻訳日:2021-06-07 07:35:16 公開日:2020-11-30
# (参考訳) 整数型意味セグメンテーションネットワークのトレーニングと推論 [全文訳有]

Training and Inference for Integer-Based Semantic Segmentation Network ( http://arxiv.org/abs/2011.14504v1 )

ライセンス: CC BY 4.0
Jiayi Yang, Lei Deng, Yukuan Yang, Yuan Xie, Guoqi Li(参考訳) セマンティックセグメンテーションは近年、研究と産業において主要なトピックとなっている。 しかし、画素方向予測とバックプロパゲーションアルゴリズムの計算の複雑さにより、セマンティクスセグメンテーションは計算リソースを要求され、トレーニングと推論の速度が遅く、モデルを保存するための大きなストレージスペースが確保されている。 セグメント化ネットワークを高速化する既存のスキームはネットワーク構造を変え、顕著な精度劣化をもたらす。 しかし、ニューラルネットワーク量子化は、同等の精度と元のネットワーク構造を維持しながら計算負荷を削減するために使用できる。 セマンティックセグメンテーションネットワークは、多くの点で従来のディープ畳み込みニューラルネットワーク(DCNN)とは異なる。 本稿では,セグメンテーションネットワークのトレーニングと推論のための新しい量子化フレームワークを提案し,パラメータと演算を8ビット整数ベースの値に初めて制約する。 データフローの完全量子化とバッチ正規化における正方形およびルート操作の除去により、固定点デバイス上で推論を行うことができる。 提案手法はFCN-VGG16やDeepLabv3-ResNet50などのセマンティックセグメンテーションネットワーク上で評価され,ADE20KデータセットとPASCAL VOC 2012データセット上での浮動小数点フレームワークと同等の精度を実現している。

Semantic segmentation has been a major topic in research and industry in recent years. However, due to the computation complexity of pixel-wise prediction and backpropagation algorithm, semantic segmentation has been demanding in computation resources, resulting in slow training and inference speed and large storage space to store models. Existing schemes that speed up segmentation network change the network structure and come with noticeable accuracy degradation. However, neural network quantization can be used to reduce computation load while maintaining comparable accuracy and original network structure. Semantic segmentation networks are different from traditional deep convolutional neural networks (DCNNs) in many ways, and this topic has not been thoroughly explored in existing works. In this paper, we propose a new quantization framework for training and inference of segmentation networks, where parameters and operations are constrained to 8-bit integer-based values for the first time. Full quantization of the data flow and the removal of square and root operations in batch normalization give our framework the ability to perform inference on fixed-point devices. Our proposed framework is evaluated on mainstream semantic segmentation networks like FCN-VGG16 and DeepLabv3-ResNet50, achieving comparable accuracy against floating-point framework on ADE20K dataset and PASCAL VOC 2012 dataset.
翻訳日:2021-06-07 07:12:11 公開日:2020-11-30
# (参考訳) ニューラルアーキテクチャ探索における層間遷移 [全文訳有]

Inter-layer Transition in Neural Architecture Search ( http://arxiv.org/abs/2011.14525v1 )

ライセンス: CC BY 4.0
Benteng Ma, Jing Zhang, Yong Xia, Dacheng Tao(参考訳) 微分ニューラルネットワーク探索(NAS)法は、ネットワークアーキテクチャを反復的プロキシ指向非巡回グラフ(DAG)として表現し、ネットワーク重みとアーキテクチャ重みを微分的に最適化する。 しかし、既存の手法では各エッジ(すなわちネットワーク内の層)のアーキテクチャの重み付けを統計的に独立な変数としてモデル化し、その有向位相接続によって引き起こされるdag内のエッジ間の依存性を無視している。 本稿では,新しい層間遷移nas法を提案することで,その依存性を調べる最初の試みを行う。 アーキテクチャ最適化は、接続されたエッジのアーキテクチャ重み間の依存関係を明示的にモデル化するシーケンシャルな決定プロセスに置かれる。 具体的には、エッジが同一セル内にあるか否かに応じて、内側と外側のグループに分割される。 外縁のアーキテクチャ重みは独立に最適化されるが、内縁のアーキテクチャ重みは前縁のアーキテクチャ重みと学習可能な遷移行列の注意的確率遷移法に基づいて順次導出される。 5つのベンチマーク実験で、層間依存性のモデリングの価値を確認し、提案手法が最先端手法よりも優れていることを示す。

Differential Neural Architecture Search (NAS) methods represent the network architecture as a repetitive proxy directed acyclic graph (DAG) and optimize the network weights and architecture weights alternatively in a differential manner. However, existing methods model the architecture weights on each edge (i.e., a layer in the network) as statistically independent variables, ignoring the dependency between edges in DAG induced by their directed topological connections. In this paper, we make the first attempt to investigate such dependency by proposing a novel Inter-layer Transition NAS method. It casts the architecture optimization into a sequential decision process where the dependency between the architecture weights of connected edges is explicitly modeled. Specifically, edges are divided into inner and outer groups according to whether or not their predecessor edges are in the same cell. While the architecture weights of outer edges are optimized independently, those of inner edges are derived sequentially based on the architecture weights of their predecessor edges and the learnable transition matrices in an attentive probability transition manner. Experiments on five benchmarks confirm the value of modeling inter-layer dependency and demonstrate the proposed method outperforms state-of-the-art methods.
翻訳日:2021-06-07 06:56:26 公開日:2020-11-30
# (参考訳) Heuristic Domain Adaptation [全文訳有]

Heuristic Domain Adaptation ( http://arxiv.org/abs/2011.14540v1 )

ライセンス: CC BY-SA 4.0
Shuhao Cui, Xuan Jin, Shuhui Wang, Yuan He, Qingming Huang(参考訳) 視覚領域適応(da)では、ドメイン固有の特性をドメイン不変表現から分離することは不適切な問題である。 既存の方法は、異なる種類の先例を適用したり、ドメインの相違を直接最小化してこの問題に対処する。 別の研究パイプラインでは、ドメイン固有の情報を段階的な転送プロセスとして表現している。 本稿では,ヒューリスティック検索の観点からのドメイン不変およびドメイン固有情報のモデル化について述べる。 我々は、既存の表現の特徴をヒューリスティック表現として、より広い領域の不一致に繋がる特徴を識別する。 ヒューリスティック表現の指導により、よく確立された理論的保証を持つヒューリスティックドメイン適応(hda)の原理的枠組みを定式化する。 HDAを実行するには、学習手順中の初期状態と最終状態の制約に、ドメイン不変量とドメイン固有表現との間のコサイン類似度スコアと独立性の測定を投入する。 ヒューリスティック検索の最終条件と同様に、我々はさらに、ヒューリスティックネットワークの最終的な出力範囲を小さくする制約を導出する。 そこで本稿では,上記の制約でドメイン不変およびドメイン固有表現を明示的に学習するHuristic Domain Adaptation Network (HDAN)を提案する。 大規模実験の結果,HDANは非教師付きDA,マルチソースDA,半教師付きDAの最先端を超えていることがわかった。 コードはhttps://github.com/c uishuhao/hdaで入手できる。

In visual domain adaptation (DA), separating the domain-specific characteristics from the domain-invariant representations is an ill-posed problem. Existing methods apply different kinds of priors or directly minimize the domain discrepancy to address this problem, which lack flexibility in handling real-world situations. Another research pipeline expresses the domain-specific information as a gradual transferring process, which tends to be suboptimal in accurately removing the domain-specific properties. In this paper, we address the modeling of domain-invariant and domain-specific information from the heuristic search perspective. We identify the characteristics in the existing representations that lead to larger domain discrepancy as the heuristic representations. With the guidance of heuristic representations, we formulate a principled framework of Heuristic Domain Adaptation (HDA) with well-founded theoretical guarantees. To perform HDA, the cosine similarity scores and independence measurements between domain-invariant and domain-specific representations are cast into the constraints at the initial and final states during the learning procedure. Similar to the final condition of heuristic search, we further derive a constraint enforcing the final range of heuristic network output to be small. Accordingly, we propose Heuristic Domain Adaptation Network (HDAN), which explicitly learns the domain-invariant and domain-specific representations with the above mentioned constraints. Extensive experiments show that HDAN has exceeded state-of-the-art on unsupervised DA, multi-source DA and semi-supervised DA. The code is available at https://github.com/c uishuhao/HDA.
翻訳日:2021-06-07 06:36:39 公開日:2020-11-30
# (参考訳) 自律運転のためのカスタマイズ可能な動的シナリオモデリングとデータ生成プラットフォーム [全文訳有]

A Customizable Dynamic Scenario Modeling and Data Generation Platform for Autonomous Driving ( http://arxiv.org/abs/2011.14551v1 )

ライセンス: CC BY-SA 4.0
Jay Shenoy, Edward Kim, Xiangyu Yue, Taesung Park, Daniel Fremont, Alberto Sangiovanni-Vincente lli, Sanjit Seshia(参考訳) 人間と安全に対話することは、自動運転にとって大きな課題である。 この相互作用のパフォーマンスは、知覚、行動予測、計画といった自動操縦の機械学習ベースのモジュールに依存する。 これらのモジュールは、高品質なラベルを持つトレーニングデータセットと、さまざまな現実的な動的振る舞いを必要とする。 したがって、珍しいシナリオを扱うためにそのようなモジュールをトレーニングするのは、定義上は現実のデータセットではほとんど表現されないため、難しい。 したがって、これらのまれなシナリオをカバーする合成データでデータセットを補強する実用的なニーズがある。 本稿では,動的かつインタラクティブなシナリオをモデル化し,ラベル付きセンサデータの異なるモダリティを持つシミュレーションシナリオを生成し,データ拡張のための情報収集を行うプラットフォームを提案する。 私たちの知る限り、これは自動運転ドメインに特化したこれらのタスクのための最初の統合プラットフォームです。

Safely interacting with humans is a significant challenge for autonomous driving. The performance of this interaction depends on machine learning-based modules of an autopilot, such as perception, behavior prediction, and planning. These modules require training datasets with high-quality labels and a diverse range of realistic dynamic behaviors. Consequently, training such modules to handle rare scenarios is difficult because they are, by definition, rarely represented in real-world datasets. Hence, there is a practical need to augment datasets with synthetic data covering these rare scenarios. In this paper, we present a platform to model dynamic and interactive scenarios, generate the scenarios in simulation with different modalities of labeled sensor data, and collect this information for data augmentation. To our knowledge, this is the first integrated platform for these tasks specialized to the autonomous driving domain.
翻訳日:2021-06-07 06:21:59 公開日:2020-11-30
# (参考訳) ニューラルネットワークモデルのための揮発性知識蒸留パラダイムの選択的調査 [全文訳有]

A Selective Survey on Versatile Knowledge Distillation Paradigm for Neural Network Models ( http://arxiv.org/abs/2011.14554v1 )

ライセンス: CC BY 4.0
Jeong-Hoe Ku, JiHun Oh, YoungYoon Lee, Gaurav Pooniwala, SangJeong Lee(参考訳) 本稿では,知識蒸留(KD)フレームワークを研究者や実践者が活用し,深層ニューラルネットワーク分野における新しい最適化モデルの開発を目的とする。 この目的のために,我々は知識蒸留の概要と,特権情報を用いた学習(lupi)や一般化蒸留(gd)を含む関連研究について述べる。 教師-学生アーキテクチャに基づく知識蒸留は、当初はモデル圧縮技術として考案されたが、様々なフレームワークにまたがって多用途に応用されている。 本稿では,知識蒸留の重要な成分は,知識と損失の3つ,教師と学生のパラダイム,そして蒸留プロセスである,という仮説から,知識蒸留の特徴を考察する。 さらに,その直接的応用と,他の深層学習パラダイムと組み合わせて,知識蒸留の汎用性について検討した。 最後に,演奏利得の分析分析を研究するための説明可能な知識蒸留や,深層学習コミュニティにおけるホットな研究テーマである自己教師あり学習など,今後の知識蒸留の研究について述べる。

This paper aims to provide a selective survey about knowledge distillation(KD) framework for researchers and practitioners to take advantage of it for developing new optimized models in the deep neural network field. To this end, we give a brief overview of knowledge distillation and some related works including learning using privileged information(LUPI) and generalized distillation(GD). Even though knowledge distillation based on the teacher-student architecture was initially devised as a model compression technique, it has found versatile applications over various frameworks. In this paper, we review the characteristics of knowledge distillation from the hypothesis that the three important ingredients of knowledge distillation are distilled knowledge and loss,teacher-student paradigm, and the distillation process. In addition, we survey the versatility of the knowledge distillation by studying its direct applications and its usage in combination with other deep learning paradigms. Finally we present some future works in knowledge distillation including explainable knowledge distillation where the analytical analysis of the performance gain is studied and the self-supervised learning which is a hot research topic in deep learning community.
翻訳日:2021-06-07 06:15:51 公開日:2020-11-30
# (参考訳) どこに行くべきか? 深層ニューラルネットワークの量子化挙動に及ぼす重み初期化効果の低レベル探索 [全文訳有]

Where Should We Begin? A Low-Level Exploration of Weight Initialization Impact on Quantized Behaviour of Deep Neural Networks ( http://arxiv.org/abs/2011.14578v1 )

ライセンス: CC BY 4.0
Stone Yun and Alexander Wong(参考訳) モバイル処理のためのディープ畳み込みニューラルネットワーク(CNN)アルゴリズムの普及により、限られた精度の量子化がCNN効率にとって重要なツールとなっている。 その結果,固定精度量子化アルゴリズムの設計や,量子化による性能劣化を最小限に抑える量子化重視最適化手法が提案されている。 しかしながら、様々なcnn設計決定/ベストプラクティスが量子化推論行動にどのように影響するか、具体的な理解はほとんどない。 重みの初期化戦略は、しばしば勾配の消失や爆発といった問題を解決することに関連づけられるが、しばしば見過ごされている側面は、各層の最終的な訓練された分布に与える影響である。 異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。 きめ細かい層解析により、初期重み分布が最終的な精度と定量化行動にどのように影響するかについての深い洞察を得ることができる。 われわれの知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは初めてである。

With the proliferation of deep convolutional neural network (CNN) algorithms for mobile processing, limited precision quantization has become an essential tool for CNN efficiency. Consequently, various works have sought to design fixed precision quantization algorithms and quantization-focused optimization techniques that minimize quantization induced performance degradation. However, there is little concrete understanding of how various CNN design decisions/best practices affect quantized inference behaviour. Weight initialization strategies are often associated with solving issues such as vanishing/exploding gradients but an often-overlooked aspect is their impact on the final trained distributions of each layer. We present an in-depth, fine-grained ablation study of the effect of different weights initializations on the final distributions of weights and activations of different CNN architectures. The fine-grained, layerwise analysis enables us to gain deep insights on how initial weights distributions will affect final accuracy and quantized behaviour. To our best knowledge, we are the first to perform such a low-level, in-depth quantitative analysis of weights initialization and its effect on quantized behaviour.
翻訳日:2021-06-07 05:38:04 公開日:2020-11-30
# (参考訳) ScaleNAS: 視覚認識のためのスケールアウェア表現のワンショット学習 [全文訳有]

ScaleNAS: One-Shot Learning of Scale-Aware Representations for Visual Recognition ( http://arxiv.org/abs/2011.14584v1 )

ライセンス: CC BY 4.0
Hsin-Pai Cheng, Feng Liang, Meng Li, Bowen Cheng, Feng Yan, Hai Li, Vikas Chandra, Yiran Chen(参考訳) 体部や物体のサイズの違いによるスケールのばらつきは、視覚認識タスクにとって難しい問題である。 既存の作業は通常、専用のバックボーンを設計するか、それぞれのタスクにNeural Architecture Search(NAS)を適用する。 しかし、既存の作品では、設計や探索空間にかなりの制限が課されている。 そこで本研究では,スケール認識表現を探索するワンショット学習手法であるscalenasを提案する。 ScaleNASは、マルチスケール機能アグリゲーションを検索することで、複数のタスクを同時に解決する。 ScaleNASはフレキシブルな検索スペースを採用しており、任意のブロック数とクロススケール機能融合を可能にする。 フレキシブルスペースによって引き起こされる高い探索コストに対応するため、ScaleNASはグループサンプリングと進化探索によって駆動されるマルチスケールスーパーネットに対してワンショット学習を採用している。 さらなる再トレーニングなしに、ScaleNetは、優れたパフォーマンスで、さまざまな視覚認識タスクに対して直接デプロイできる。 本研究では,2つのタスクに対する高解像度モデルの作成にScaleNAS,人間のポーズ推定にScaleNet-P,セマンティックセグメンテーションにScaleNet-Sを使用する。 ScaleNet-PとScaleNet-Sは、両方のタスクで既存の手作業およびNASベースのメソッドより優れている。 ボトムアップの人間のポーズ推定にScaleNet-Pを適用すると、最先端のHigherHRNetを超える。 特に、ScaleNet-P4 は COCO test-dev で71.6% AP を獲得し、新しい最先端の結果を達成した。

Scale variance among different sizes of body parts and objects is a challenging problem for visual recognition tasks. Existing works usually design dedicated backbone or apply Neural architecture Search(NAS) for each task to tackle this challenge. However, existing works impose significant limitations on the design or search space. To solve these problems, we present ScaleNAS, a one-shot learning method for exploring scale-aware representations. ScaleNAS solves multiple tasks at a time by searching multi-scale feature aggregation. ScaleNAS adopts a flexible search space that allows an arbitrary number of blocks and cross-scale feature fusions. To cope with the high search cost incurred by the flexible space, ScaleNAS employs one-shot learning for multi-scale supernet driven by grouped sampling and evolutionary search. Without further retraining, ScaleNet can be directly deployed for different visual recognition tasks with superior performance. We use ScaleNAS to create high-resolution models for two different tasks, ScaleNet-P for human pose estimation and ScaleNet-S for semantic segmentation. ScaleNet-P and ScaleNet-S outperform existing manually crafted and NAS-based methods in both tasks. When applying ScaleNet-P to bottom-up human pose estimation, it surpasses the state-of-the-art HigherHRNet. In particular, ScaleNet-P4 achieves 71.6% AP on COCO test-dev, achieving new state-of-the-art result.
翻訳日:2021-06-07 05:14:23 公開日:2020-11-30
# (参考訳) FactorizeNet: 量子化制約下での効率的なネットワークアーキテクチャ探索のためのプログレッシブ深さ分解 [全文訳有]

FactorizeNet: Progressive Depth Factorization for Efficient Network Architecture Exploration Under Quantization Constraints ( http://arxiv.org/abs/2011.14586v1 )

ライセンス: CC BY 4.0
Stone Yun and Alexander Wong(参考訳) 深度分解と量子化は、エッジ上の低電力推論に適した効率的な深層畳み込みニューラルネットワーク(CNN)アーキテクチャを設計するための2つの主要な戦略として登場した。 しかし、深度分解の選択がCNNにおける各層の最終的な、訓練された分布にどのように影響するか、特に量子化された重みと活性化の状況において、詳細は分かっていない。 本研究では、量子化制約下での効率的なCNNアーキテクチャ探索のためのプログレッシブな深度分解戦略を提案する。 アルゴリズムによって深度分解の粒度を漸進的に増大させることで,層状分布の微細で低レベルな解析が可能となる。 これにより、固定精度量子化の下での効率-精度トレードオフに関する層レベルでの深い洞察を得られる。 このようなプログレッシブな深度分解戦略は、所望の効率精度要求に基づいて最適深度分解マクロアーキテクチャ設計(ここではFactizeNetと呼ぶ)の効率的な識別を可能にする。

Depth factorization and quantization have emerged as two of the principal strategies for designing efficient deep convolutional neural network (CNN) architectures tailored for low-power inference on the edge. However, there is still little detailed understanding of how different depth factorization choices affect the final, trained distributions of each layer in a CNN, particularly in the situation of quantized weights and activations. In this study, we introduce a progressive depth factorization strategy for efficient CNN architecture exploration under quantization constraints. By algorithmically increasing the granularity of depth factorization in a progressive manner, the proposed strategy enables a fine-grained, low-level analysis of layer-wise distributions. Thus enabling the gain of in-depth, layer-level insights on efficiency-accuracy tradeoffs under fixed-precision quantization. Such a progressive depth factorization strategy also enables efficient identification of the optimal depth-factorized macroarchitecture design (which we will refer to here as FactorizeNet) based on the desired efficiency-accuracy requirements.
翻訳日:2021-06-07 04:58:30 公開日:2020-11-30
# (参考訳) REaL:ユークリッド空間と類似度推定を用いたリアルタイム顔検出・認識 [全文訳有]

REaL: Real-time Face Detection and Recognition Using Euclidean Space and Likelihood Estimation ( http://arxiv.org/abs/2011.14603v1 )

ライセンス: CC BY-SA 4.0
Sandesh Ramesh, Manoj Kumar M V, and K Aditya Shastry(参考訳) 顔を正確に検出し、認識することは常に課題だった。 顔の特徴の差別化、イメージのトレーニング、迅速な結果の生成には多くの計算が必要です。 本稿では,本論文で提案する実システムとその機能と計算を短時間で行える方法について述べる。 実際の実験は実画像上で行われ、その認識率は有望である。 このシステムは、計算から人間以外の物体を取り除くことにも成功している。 システムはローカルデータベースを使用してキャプチャした画像を保存し、ニューラルネットワークを頻繁に供給する。 撮影した画像は自動的に収集され、不要なノイズを取り除く。 システムは、顔が微笑んでいるか、左目を持っているか、右目が開いているかのオイラー角度と確率を算出する。

Detecting and recognizing faces accurately has always been a challenge. Differentiating facial features, training images, and producing quick results require a lot of computation. The REaL system we have proposed in this paper discusses its functioning and ways in which computations can be carried out in a short period. REaL experiments are carried out on live images and the recognition rates are promising. The system is also successful in removing non-human objects from its calculations. The system uses a local database to store captured images and feeds the neural network frequently. The captured images are cropped automatically to remove unwanted noise. The system calculates the Euler angles and the probability of whether the face is smiling, has its left eye, and right eyes open or not.
翻訳日:2021-06-07 04:30:00 公開日:2020-11-30
# (参考訳) インド5州における性労働者のHIV感染軽減のための説明可能な介入 [全文訳有]

Learning Explainable Interventions to Mitigate HIV Transmission in Sex Workers Across Five States in India ( http://arxiv.org/abs/2012.01930v1 )

ライセンス: CC BY 4.0
Raghav Awasthi, Prachi Patel, Vineet Joshi, Shama Karkal, Tavpritesh Sethi(参考訳) 女性性労働者(FSWs)は、社会で最も脆弱で便宜的な集団である。 結果として、ケアへの品質アクセスの欠如に悩まされることが多い。 健康サービスの改善に携わる草の根組織は、複雑な影響によって介入の有効性を向上させるという課題に直面することが多い。 この研究は、構造学習、差別的モデリング、および5つの異なるインドの州にまたがる介入を設計する草の根レベルの専門知識を組み合わせて、FSWにおける安全なセックスの実践を改善するために、有害でない要因の影響を発見する。 モデルから明らかになったようにコンドームの使用を最大化できる要因を定量化するために,ブートストラップ付き平均ベイズネットワーク構造を学習した。 識別モデルはxgboostとランダムフォレストを用いてコンドーム使用行動を予測するために構築され、最良のモデルは83%の感度、99%の特異性、そして99%の面積を予測のための精度-リコール曲線の下で達成した。 生成的および差別的モデリングアプローチの両方により、金融リテラシー訓練がfswsにおけるコンドーム使用の主な影響と予測要因であることが明らかとなった。 これらの洞察は、このアプローチの実世界の有用性を評価するための現在進行中のフィールドトライアルにつながった。 本研究は、女性性労働者におけるHIV感染防止対策の透明性発見と優先順位付けのための、リソース制限による説明可能なモデルの可能性を強調した。

Female sex workers(FSWs) are one of the most vulnerable and stigmatized groups in society. As a result, they often suffer from a lack of quality access to care. Grassroot organizations engaged in improving health services are often faced with the challenge of improving the effectiveness of interventions due to complex influences. This work combines structure learning, discriminative modeling, and grass-root level expertise of designing interventions across five different Indian states to discover the influence of non-obvious factors for improving safe-sex practices in FSWs. A bootstrapped, ensemble-averaged Bayesian Network structure was learned to quantify the factors that could maximize condom usage as revealed from the model. A discriminative model was then constructed using XgBoost and random forest in order to predict condom use behavior The best model achieved 83% sensitivity, 99% specificity, and 99% area under the precision-recall curve for the prediction. Both generative and discriminative modeling approaches revealed that financial literacy training was the primary influence and predictor of condom use in FSWs. These insights have led to a currently ongoing field trial for assessing the real-world utility of this approach. Our work highlights the potential of explainable models for transparent discovery and prioritization of anti-HIV interventions in female sex workers in a resource-limited setting.
翻訳日:2021-06-07 04:26:38 公開日:2020-11-30
# (参考訳) CovidExplorer: COVID-19情報のための多面的なAIベースの検索と可視化エンジン [全文訳有]

CovidExplorer: A Multi-faceted AI-based Search and Visualization Engine for COVID-19 Information ( http://arxiv.org/abs/2011.14618v1 )

ライセンス: CC BY 4.0
Heer Ambavi (1), Kavita Vaishnaw (1), Udit Vyas (1), Abhisht Tiwari (1) and Mayank Singh (1) ((1) Indian Institute of Technology Gandhinagar)(参考訳) 世界全体が新型コロナウイルス(COVID-19)のパンデミックとの戦いに巻き込まれており、研究実験や政府の政策、ソーシャルメディアの議論が急増している。 マルチモーダル情報アクセスとデータ可視化プラットフォームは、パンデミックの予防対策の理解と開発を目的とした研究を支援する上で重要な役割を果たす可能性がある。 本稿では,多面AIを用いた検索・可視化エンジンであるCovidExplorerを提案する。 本システムの目的は、現在最先端の新型コロナウイルス研究の理解、ドメインに関する研究論文の特定、リアルタイムのトレンドと統計の可視化である。 他の既存のシステムとは対照的に、CovidExplorerは、インド固有のソーシャルメディアに関するトピックに関する議論を、COVID-19のさまざまな側面を研究するためにもたらしている。 システム、デモビデオ、データセットはhttp://covidexplorer .in.com/で入手できる。

The entire world is engulfed in the fight against the COVID-19 pandemic, leading to a significant surge in research experiments, government policies, and social media discussions. A multi-modal information access and data visualization platform can play a critical role in supporting research aimed at understanding and developing preventive measures for the pandemic. In this paper, we present a multi-faceted AI-based search and visualization engine, CovidExplorer. Our system aims to help researchers understand current state-of-the-art COVID-19 research, identify research articles relevant to their domain, and visualize real-time trends and statistics of COVID-19 cases. In contrast to other existing systems, CovidExplorer also brings in India-specific topical discussions on social media to study different aspects of COVID-19. The system, demo video, and the datasets are available at http://covidexplorer .in.
翻訳日:2021-06-07 04:20:38 公開日:2020-11-30
# (参考訳) 畳み込み復号化オートエンコーダによるSAR画像の復号化 [全文訳有]

SAR Image Despeckling Based on Convolutional Denoising Autoencoder ( http://arxiv.org/abs/2011.14627v1 )

ライセンス: CC BY 4.0
Qianqian Zhang and Ruizhi Sun(参考訳) 合成開口レーダ(SAR)イメージングでは、スペックルはコヒーレントイメージングシステムによって引き起こされる乗法ノイズの一種として知られており、画像解析に非常に重要である。 過去30年間、様々なアルゴリズムがSAR画像に悪影響を及ぼすために提案されてきた。 一般的に、BM3Dはスペックルノイズを除去する技術として優れた性能で評価されている。 最近では、ディープラーニングが画像の認知に成功し、大規模なデータセットを必要とする従来の手法よりも改善された。 多くの画像SAR画像非特定アプローチとは異なり、提案手法は破損した画像から直接スペックルを学習する。 本稿では,C-DAE(Convolutioal Denoising Autoencoder)を用いて,スペックルフリーなSAR画像の再構成を行う。 バッチ正規化戦略はC-DAEと統合され、列車時間を短縮する。 さらに,標準指標であるPSNRとSSIMの画質を計算した。 私たちのアプローチは他の方法よりも優れていることが判明した。

In Synthetic Aperture Radar (SAR) imaging, despeckling is very important for image analysis,whereas speckle is known as a kind of multiplicative noise caused by the coherent imaging system. During the past three decades, various algorithms have been proposed to denoise the SAR image. Generally, the BM3D is considered as the state of art technique to despeckle the speckle noise with excellent performance. More recently, deep learning make a success in image denoising and achieved a improvement over conventional method where large train dataset is required. Unlike most of the images SAR image despeckling approach, the proposed approach learns the speckle from corrupted images directly. In this paper, the limited scale of dataset make a efficient exploration by using convolutioal denoising autoencoder (C-DAE) to reconstruct the speckle-free SAR images. Batch normalization strategy is integrated with C- DAE to speed up the train time. Moreover, we compute image quality in standard metrics, PSNR and SSIM. It is revealed that our approach perform well than some others.
翻訳日:2021-06-07 04:15:05 公開日:2020-11-30
# (参考訳) 畳み込みネットワークが帯域通過フィルタを学習する理由:理論と実証的支援 [全文訳有]

Why Convolutional Networks Learn Oriented Bandpass Filters: Theory and Empirical Support ( http://arxiv.org/abs/2011.14665v1 )

ライセンス: CC BY 4.0
Isma Hadji and Richard P. Wildes(参考訳) 画像理解タスクに適用された畳み込みアーキテクチャは、指向する帯域通過フィルタを学習する。 この結果の標準的な説明として、これらのフィルタは訓練中に露呈した画像の構造を反映している: 自然画像は通常、様々なスケールの配向輪郭で局所的に構成され、配向バンドパスフィルタはそのような構造にマッチする。 我々は、画像の構造ではなく、畳み込みアーキテクチャの構造に基づく別の説明を提供する。 特に複素指数関数は畳み込みの固有函数である。 これらの固有関数はグローバルに定義されるが、畳み込み構造は局所的に作用する。 局所性を強制するために、固有関数にウィンドウ関数を適用することができ、畳み込みアーキテクチャで学ぶ自然作用素として向き付けられた帯域通過フィルタが導かれる。 表現の観点からは、これらのフィルタは局所的な体系的な方法で画像や他の信号の特徴付けや操作を可能にする。 我々は,畳み込みネットワークが畳み込み層すべてでそのようなフィルタを学習するという仮説を実証的に支持する。 前回の研究では、初期層における指向性帯域通過特性を有するフィルタの証拠が示されているが、これらのフィルタ特性のすべての層における優位性を示す最初の研究である。 従来の研究では, 各層に存在するフィルタ特性について検討する一方で, 層間フィルタリングの累積構成効果に重点を置いているため, この観察を欠いている。

It has been repeatedly observed that convolutional architectures when applied to image understanding tasks learn oriented bandpass filters. A standard explanation of this result is that these filters reflect the structure of the images that they have been exposed to during training: Natural images typically are locally composed of oriented contours at various scales and oriented bandpass filters are matched to such structure. We offer an alternative explanation based not on the structure of images, but rather on the structure of convolutional architectures. In particular, complex exponentials are the eigenfunctions of convolution. These eigenfunctions are defined globally; however, convolutional architectures operate locally. To enforce locality, one can apply a windowing function to the eigenfunctions, which leads to oriented bandpass filters as the natural operators to be learned with convolutional architectures. From a representational point of view, these filters allow for a local systematic way to characterize and operate on an image or other signal. We offer empirical support for the hypothesis that convolutional networks learn such filters at all of their convolutional layers. While previous research has shown evidence of filters having oriented bandpass characteristics at early layers, ours appears to be the first study to document the predominance of such filter characteristics at all layers. Previous studies have missed this observation because they have concentrated on the cumulative compositional effects of filtering across layers, while we examine the filter characteristics that are present at each layer.
翻訳日:2021-06-07 03:55:45 公開日:2020-11-30
# (参考訳) UWB @ DIACR-Ita: CCAと直交変換を用いた語彙意味変化検出 [全文訳有]

UWB @ DIACR-Ita: Lexical Semantic Change Detection with CCA and Orthogonal Transformation ( http://arxiv.org/abs/2011.14678v1 )

ライセンス: CC BY 4.0
Ond\v{r}ej Pra\v{z}\'ak, Pavel P\v{r}ib\'a\v{n}, and Stephen Taylor(参考訳) 本稿では,diacr-ita共有タスクにおける語彙意味変化(つまり,時間経過に伴う単語意味変化)の検出手法について述べる。 異なる時期から選択した2つのイタリア語コーパスにおける単語間の意味的差異について検討した。 本手法は完全に教師なしであり,言語に依存しない。 各コーパスに対する意味ベクトル空間(semantic vector space)を、前後で準備する。 次に、CCAと直交変換を用いて、初期空間と後期空間の間の線形変換を計算する。 最後に、変換ベクトル間のコサインを測定する。

In this paper, we describe our method for detection of lexical semantic change (i.e., word sense changes over time) for the DIACR-Ita shared task, where we ranked $1^{st}$. We examine semantic differences between specific words in two Italian corpora, chosen from different time periods. Our method is fully unsupervised and language independent. It consists of preparing a semantic vector space for each corpus, earlier and later. Then we compute a linear transformation between earlier and later spaces, using CCA and Orthogonal Transformation. Finally, we measure the cosines between the transformed vectors.
翻訳日:2021-06-07 03:42:47 公開日:2020-11-30
# (参考訳) UWB at SemEval-2020 Task 1: Lexical Semantic Change Detection [全文訳有]

UWB at SemEval-2020 Task 1: Lexical Semantic Change Detection ( http://arxiv.org/abs/2012.00004v1 )

ライセンス: CC BY 4.0
Ond\v{r}ej Pra\v{z}\'ak, Pavel P\v{r}ib\'a\v{n}, Stephen Taylor, and Jakub Sido(参考訳) 本稿では,語彙的意味変化,すなわち単語感覚の変化を時間とともに検出する手法について述べる。 英語,ドイツ語,ラテン語,スウェーデン語の2つのコーパスの特定の単語間の意味的差異について検討した。 本手法はSemEval 2020 Task 1: \textit{Unsupervised Lexical Semantic Change Detection} のために作成された。 私たちはSub-task 1 で $1^{st}$ を、Sub-task 2 で 4^{th}$ をランク付けしました。 本手法は完全に教師なしであり,言語に依存しない。 各コーパスに対して、前後に意味ベクトル空間を作成すること、正準相関解析と直交変換を用いて、前空間と後空間の間の線形変換を計算すること、前コーパスからの目標語に対する変換ベクトルと後のコーパスにおける対象語に対するベクトルとの間のコサインを測定することからなる。

In this paper, we describe our method for the detection of lexical semantic change, i.e., word sense changes over time. We examine semantic differences between specific words in two corpora, chosen from different time periods, for English, German, Latin, and Swedish. Our method was created for the SemEval 2020 Task 1: \textit{Unsupervised Lexical Semantic Change Detection.} We ranked $1^{st}$ in Sub-task 1: binary change detection, and $4^{th}$ in Sub-task 2: ranked change detection. Our method is fully unsupervised and language independent. It consists of preparing a semantic vector space for each corpus, earlier and later; computing a linear transformation between earlier and later spaces, using Canonical Correlation Analysis and Orthogonal Transformation; and measuring the cosines between the transformed vector for the target word from the earlier corpus and the vector for the target word in the later corpus.
翻訳日:2021-06-07 03:33:44 公開日:2020-11-30
# (参考訳) ニューラルネットワークは永続的ホモロジーの特徴を学習できるのか? [全文訳有]

Can neural networks learn persistent homology features? ( http://arxiv.org/abs/2011.14688v1 )

ライセンス: CC BY 4.0
Guido Mont\'ufar, Nina Otter, Yuguang Wang(参考訳) トポロジカルデータ分析は、データの表現を作成するために、形状を研究する数学的領域であるトポロジーのツールを使用する。 特に、永続ホモロジーにおいて、データに関連する空間の1パラメータ族の研究と、永続図は1パラメータ族をまたぐ連結成分や穴のような位相不変量の寿命を記述する。 多くのアプリケーションでは、ダイアグラム自体よりも永続化ダイアグラムに関連する機能を扱うことに興味があります。 本研究では,ニューラルネットワークを用いて永続性図から抽出したいくつかの特徴を学習する可能性を検討する。

Topological data analysis uses tools from topology -- the mathematical area that studies shapes -- to create representations of data. In particular, in persistent homology, one studies one-parameter families of spaces associated with data, and persistence diagrams describe the lifetime of topological invariants, such as connected components or holes, across the one-parameter family. In many applications, one is interested in working with features associated with persistence diagrams rather than the diagrams themselves. In our work, we explore the possibility of learning several types of features extracted from persistence diagrams using neural networks.
翻訳日:2021-06-07 03:22:04 公開日:2020-11-30
# (参考訳) KD-Lib: 知識蒸留・処理・量子化のためのPyTorchライブラリ [全文訳有]

KD-Lib: A PyTorch library for Knowledge Distillation, Pruning and Quantization ( http://arxiv.org/abs/2011.14691v1 )

ライセンス: CC BY 4.0
Het Shah, Avishree Khare, Neelay Shah, Khizir Siddiqui(参考訳) 近年,ニューラルネットワークの規模が大きくなるにつれ,圧縮技術に関する研究が盛んに行われ,大規模化の欠点が軽減されている。 これらの研究の大部分は、知識蒸留、刈り取り、量子化の3つの広いファミリーに分類できる。 この領域では着実に研究が進んでいるが、提案手法の採用と商業利用は、そのペースではまだ進んでいない。 我々は、オープンソースのPyTorchベースのライブラリであるKD-Libを紹介した。 KD-Libはモデルとアルゴリズムに依存しないもので、ロギングとモニタリングにOptunaとTensorboardを使用したハイパーパラメータチューニングの拡張サポートがある。 ライブラリは https://github.com/S forAiDl/KD_Lib で見ることができる。

In recent years, the growing size of neural networks has led to a vast amount of research concerning compression techniques to mitigate the drawbacks of such large sizes. Most of these research works can be categorized into three broad families : Knowledge Distillation, Pruning, and Quantization. While there has been steady research in this domain, adoption and commercial usage of the proposed techniques has not quite progressed at the rate. We present KD-Lib, an open-source PyTorch based library, which contains state-of-the-art modular implementations of algorithms from the three families on top of multiple abstraction layers. KD-Lib is model and algorithm-agnostic, with extended support for hyperparameter tuning using Optuna and Tensorboard for logging and monitoring. The library can be found at - https://github.com/S forAiDl/KD_Lib.
翻訳日:2021-06-07 03:11:16 公開日:2020-11-30
# (参考訳) 二分分類:回帰モデルと片面ラベルシフトを併用した逆バランスクラス不均衡 [全文訳有]

Binary Classification: Counterbalancing Class Imbalance by Applying Regression Models in Combination with One-Sided Label Shifts ( http://arxiv.org/abs/2011.14764v1 )

ライセンス: CC BY 4.0
Peter Bellmann, Heinke Hihn, Daniel A. Braun, Friedhelm Schwenker(参考訳) 医学応用のような現実世界のパターン認識のシナリオでは、対応する分類タスクは不均衡な性質を持つ。 本研究は,2つのクラスのうちの1つが非表現的(マイノリティクラス)であり,他のクラス(マイノリティクラス)と比較して非表現的(マイノリティクラス)な分類タスクである。 文献では、クラス不均衡に対処するアンダーサンプリングやオーバーサンプリングなど、多くの異なるアプローチが提案されている。 そこで本研究では,クラス不均衡の問題に対処する新しい手法を提案する。 この目的のために、まず二項分類タスクを等価回帰タスクに転送する。 その後、再定義されたターゲットラベルセットに対して、対応する回帰タスクがバランスをとるように、負のターゲットラベルと正のターゲットラベルのセットを生成する。 我々は,Support Vector Machinesと組み合わせて,利用可能な多数のデータセットに対するアプローチを評価した。 さらに,提案手法を,最も一般的なオーバーサンプリング手法の一つであるSMOTEと比較した。 実験評価の結果の詳細な議論に基づいて,今後の研究方向性に期待できるアイデアを提供する。

In many real-world pattern recognition scenarios, such as in medical applications, the corresponding classification tasks can be of an imbalanced nature. In the current study, we focus on binary, imbalanced classification tasks, i.e.~binary classification tasks in which one of the two classes is under-represented (minority class) in comparison to the other class (majority class). In the literature, many different approaches have been proposed, such as under- or oversampling, to counter class imbalance. In the current work, we introduce a novel method, which addresses the issues of class imbalance. To this end, we first transfer the binary classification task to an equivalent regression task. Subsequently, we generate a set of negative and positive target labels, such that the corresponding regression task becomes balanced, with respect to the redefined target label set. We evaluate our approach on a number of publicly available data sets in combination with Support Vector Machines. Moreover, we compare our proposed method to one of the most popular oversampling techniques (SMOTE). Based on the detailed discussion of the presented outcomes of our experimental evaluation, we provide promising ideas for future research directions.
翻訳日:2021-06-07 02:37:22 公開日:2020-11-30
# (参考訳) 深部学習による左室非反応測定 [全文訳有]

Deep learning approach to left ventricular non-compaction measurement ( http://arxiv.org/abs/2011.14773v1 )

ライセンス: CC BY 4.0
Jes\'us M. Rodr\'iguez-de-Vera and Josefa Gonz\'alez-Carrillo and Jos\'e M. Garc\'ia and Gregorio Bernab\'e(参考訳) 左室非作用 (LVNC) は左室腔の異常な気管狭窄を特徴とする稀な心筋症である。 従来のコンピュータビジョンのアプローチはlvnc診断には存在するが、深層学習ベースのツールは文献には見出せない。 本稿では,畳み込みニューラルネットワーク(CNN)を用いた最初のアプローチを提案する。 肥大型心筋症(hypertrophic cardiomyopathy)と診断された患者の集団に対して,4つのcnnが左室のコンパクト領域とトラベクラー領域を自動的に分割するように訓練されている。 推論結果は,LVNCの診断と測定において,深層学習に基づくアプローチが優れた結果が得られることを確認した。 2つの最高のCNN(U-NetとEfficient U-Net B1)は、CPUでは0.2秒未満、GPUでは0.01秒未満で画像分割を行う。 さらに、特定ゾーンによる出力画像の主観評価は、専門家心臓医によって行われ、すべてのスライスに対して完全な視覚的合意が得られ、既存の自動ツールよりも優れている。

Left ventricular non-compaction (LVNC) is a rare cardiomyopathy characterized by abnormal trabeculations in the left ventricle cavity. Although traditional computer vision approaches exist for LVNC diagnosis, deep learning-based tools could not be found in the literature. In this paper, a first approach using convolutional neural networks (CNNs) is presented. Four CNNs are trained to automatically segment the compacted and trabecular areas of the left ventricle for a population of patients diagnosed with Hypertrophic cardiomyopathy. Inference results confirm that deep learning-based approaches can achieve excellent results in the diagnosis and measurement of LVNC. The two best CNNs (U-Net and Efficient U-Net B1) perform image segmentation in less than 0.2 s on a CPU and in less than 0.01 s on a GPU. Additionally, a subjective evaluation of the output images with the identified zones is performed by expert cardiologists, with a perfect visual agreement for all the slices, outperforming already existing automatic tools.
翻訳日:2021-06-07 02:25:47 公開日:2020-11-30
# (参考訳) NeuralFusion: 潜在空間におけるオンライン深部核融合 [全文訳有]

NeuralFusion: Online Depth Fusion in Latent Space ( http://arxiv.org/abs/2011.14791v1 )

ライセンス: CC BY-SA 4.0
Silvan Weder, Johannes L. Sch\"onberger, Marc Pollefeys, Martin R. Oswald(参考訳) 潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。 従来の融合手法では符号付き距離関数 (sdfs) のような明示的なシーン表現を用いるが, 融合の学習的特徴表現を提案する。 鍵となるアイデアは、融合に使用されるシーン表現と出力シーン表現を、追加のトランスレータネットワークを介して分離することである。 我々のニューラルネットワークアーキテクチャは、深さと特徴融合サブネットワークという2つの主要な部分から構成されており、次にトランスレータサブネットワークが続き、最終的な表面表現(例)を生成する。 TSDF) - 可視化などのタスク。 提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージを扱うことができる。 実データと合成データの実験は、特に大量のノイズと外れ値を持つ挑戦的なシナリオにおいて、技術の現状と比較して改善された結果を示す。

We present a novel online depth map fusion approach that learns depth map aggregation in a latent feature space. While previous fusion methods use an explicit scene representation like signed distance functions (SDFs), we propose a learned feature representation for the fusion. The key idea is a separation between the scene representation used for the fusion and the output scene representation, via an additional translator network. Our neural network architecture consists of two main parts: a depth and feature fusion sub-network, which is followed by a translator sub-network to produce the final surface representation (e.g. TSDF) for visualization or other tasks. Our approach is real-time capable, handles high noise levels, and is particularly able to deal with gross outliers common for photometric stereo-based depth maps. Experiments on real and synthetic data demonstrate improved results compared to the state of the art, especially in challenging scenarios with large amounts of noise and outliers.
翻訳日:2021-06-07 02:14:12 公開日:2020-11-30
# (参考訳) 制御可能な画像キャプションのための言語駆動型領域ポインタの進歩 [全文訳有]

Language-Driven Region Pointer Advancement for Controllable Image Captioning ( http://arxiv.org/abs/2011.14901v1 )

ライセンス: CC BY 4.0
Annika Lindh, Robert J. Ross, John D. Kelleher(参考訳) 制御可能な画像キャプションは、画像キャプションのマルチモーダルタスクにおける最近のサブフィールドであり、画像内の領域を生成した自然言語キャプションに記述する制約が置かれている。 これにより、より詳細な説明の作成に焦点が当てられ、結果よりもエンドユーザがよりコントロールできるようになる。 制御可能な画像キャプションアーキテクチャの重要な構成要素は、領域ポインタの進行を通じて各領域に出席するタイミングを決定する機構である。 本論文では,学習データにおける文構造との強い相関によって動機付けられたNEXTトークンを用いて,言語構造の自然な部分として進行段階を扱い,領域ポインター進行のタイミングを予測する新しい手法を提案する。 flickr30kエンティティのテストデータでは、精度86.55%、リコール97.92%のタイミングが一致した。 この手法を実装したモデルは、標準キャプションメトリクスの最先端を改善しつつ、より効果的な語彙サイズを示す。

Controllable Image Captioning is a recent sub-field in the multi-modal task of Image Captioning wherein constraints are placed on which regions in an image should be described in the generated natural language caption. This puts a stronger focus on producing more detailed descriptions, and opens the door for more end-user control over results. A vital component of the Controllable Image Captioning architecture is the mechanism that decides the timing of attending to each region through the advancement of a region pointer. In this paper, we propose a novel method for predicting the timing of region pointer advancement by treating the advancement step as a natural part of the language structure via a NEXT-token, motivated by a strong correlation to the sentence structure in the training data. We find that our timing agrees with the ground-truth timing in the Flickr30k Entities test data with a precision of 86.55% and a recall of 97.92%. Our model implementing this technique improves the state-of-the-art on standard captioning metrics while additionally demonstrating a considerably larger effective vocabulary size.
翻訳日:2021-06-07 01:44:03 公開日:2020-11-30
# (参考訳) 3D ConvNet を用いた動画像からの運転行動抽出 [全文訳有]

Driver Behavior Extraction from Videos in Naturalistic Driving Datasets with 3D ConvNets ( http://arxiv.org/abs/2011.14922v1 )

ライセンス: CC BY 4.0
Hanwen Miao, Shengan Zhang, Carol Flannagan(参考訳) 自然主義運転データ(NDD)は、衝突因果関係と人的要因を理解し、さらに事故回避対策を開発するために重要な情報源である。 運転中に記録されたビデオは、しばしばそのようなデータセットに含まれる。 nddには大量のビデオデータがあることが多いが、そのごく一部だけが人間のコードによって注釈付けされ、研究に利用され、すべてのビデオデータを過小評価している。 本稿では,ビデオから必要な情報を自動的に抽出するコンピュータビジョン手法について検討する。 具体的には,ビデオから携帯電話関連行動を自動的に抽出する3D ConvNetアルゴリズムを開発した。 実験の結果,提案手法はビデオからチャンクを抽出でき,そのほとんどは(約79%)自動ラベル付き携帯電話の動作を含むことがわかった。 抽出したチャンクの人間によるレビューと合わせて、ビデオを見ることよりも、携帯電話関連ドライバの振る舞いをより効率的に見つけることができる。

Naturalistic driving data (NDD) is an important source of information to understand crash causation and human factors and to further develop crash avoidance countermeasures. Videos recorded while driving are often included in such datasets. While there is often a large amount of video data in NDD, only a small portion of them can be annotated by human coders and used for research, which underuses all video data. In this paper, we explored a computer vision method to automatically extract the information we need from videos. More specifically, we developed a 3D ConvNet algorithm to automatically extract cell-phone-related behaviors from videos. The experiments show that our method can extract chunks from videos, most of which (~79%) contain the automatically labeled cell phone behaviors. In conjunction with human review of the extracted chunks, this approach can find cell-phone-related driver behaviors much more efficiently than simply viewing video.
翻訳日:2021-06-07 01:29:38 公開日:2020-11-30
# (参考訳) Twitterテキストと画像における洪水検出 [全文訳有]

Floods Detection in Twitter Text and Images ( http://arxiv.org/abs/2011.14943v1 )

ライセンス: CC BY 4.0
Naina Said, Kashif Ahmad, Asma Gul, Nasir Ahmad, Ala Al-Fuqaha(参考訳) 本稿では,ソーシャルメディアからテキストコンテンツとビジュアルコンテンツを分析し統合し,実世界の洪水イベントを検出することを目的とした,mediaeval 2020 flood related multimedia taskの手法を提案する。 このタスクは主に、特定の地域に関連する洪水に関連するツイートを特定することに焦点を当てている。 この課題に対処するためのいくつかのスキームを提案する。 テキストベースの洪水イベント検出には,BOW(Bog of Words)とBertのイタリア版を個別に,それぞれ0.77%,0.68%,0.70%のF1スコアを達成する3つの異なる手法を用いる。 ビジュアル分析には、imagenetで事前トレーニングされた複数の最先端のディープモデルから抽出された機能を利用する。 抽出された特徴は、複数の個別の分類器を訓練するために使用され、スコアは後期融合によって0.75%のf1スコアに達する。 必須のマルチモーダル実行に対しては,テキストと視覚の最良のスキームを,後期融合方式で比較した分類スコアを併用する。 全体としては、開発セット上で0.80%のf1-scoreを達成するマルチモーダルスキームによりより良い結果が得られる。

In this paper, we present our methods for the MediaEval 2020 Flood Related Multimedia task, which aims to analyze and combine textual and visual content from social media for the detection of real-world flooding events. The task mainly focuses on identifying floods related tweets relevant to a specific area. We propose several schemes to address the challenge. For text-based flood events detection, we use three different methods, relying on Bog of Words (BOW) and an Italian Version of Bert individually and in combination, achieving an F1-score of 0.77%, 0.68%, and 0.70% on the development set, respectively. For the visual analysis, we rely on features extracted via multiple state-of-the-art deep models pre-trained on ImageNet. The extracted features are then used to train multiple individual classifiers whose scores are then combined in a late fusion manner achieving an F1-score of 0.75%. For our mandatory multi-modal run, we combine the classification scores obtained with the best textual and visual schemes in a late fusion manner. Overall, better results are obtained with the multimodal scheme achieving an F1-score of 0.80% on the development set.
翻訳日:2021-06-07 01:24:22 公開日:2020-11-30
# (参考訳) テキストとビジュアル機能を用いたTwitterストリームによる洪水検出 [全文訳有]

Flood Detection via Twitter Streams using Textual and Visual Features ( http://arxiv.org/abs/2011.14944v1 )

ライセンス: CC BY 4.0
Firoj Alam, Zohaib Hassan, Kashif Ahmad, Asma Gul, Michael Reiglar, Nicola Conci, Ala AL-Fuqaha(参考訳) 本稿では,Twitter上で共有されるマルチメディアコンテンツにおける洪水イベントの分析と検出を目的とした,メディアEval 2020 Flood-Related Multimedia Taskのソリューションを提案する。 総じて,必須実行のためのテキスト情報と視覚情報を組み合わせたマルチモーダルソリューションと,オプション実行時の1つのモーダルイメージとテキストベースソリューションの3つを含む,4つの異なるソリューションを提案した。 マルチモーダル方式では、初期融合におけるテキストと視覚の特徴を組み合わせた教師付きマルチモーダルバイコンバータモデルに頼り、開発データセット上で.859のマイクロF1スコアを達成する。 テキストベースの洪水イベント検出には、変圧器ネットワーク(例えば、事前訓練されたイタリアのBERTモデル)を使用し、F1スコアは.853である。 画像ベースソリューションでは、ImageNetと配置データセットの両方で事前訓練された複数の深層モデルを用いて、開発セット上でそれぞれ.816と.805のF1スコアを達成する早期融合を個別に組み合わせた。

The paper presents our proposed solutions for the MediaEval 2020 Flood-Related Multimedia Task, which aims to analyze and detect flooding events in multimedia content shared over Twitter. In total, we proposed four different solutions including a multi-modal solution combining textual and visual information for the mandatory run, and three single modal image and text-based solutions as optional runs. In the multimodal method, we rely on a supervised multimodal bitransformer model that combines textual and visual features in an early fusion, achieving a micro F1-score of .859 on the development data set. For the text-based flood events detection, we use a transformer network (i.e., pretrained Italian BERT model) achieving an F1-score of .853. For image-based solutions, we employed multiple deep models, pre-trained on both, the ImageNet and places data sets, individually and combined in an early fusion achieving F1-scores of .816 and .805 on the development set, respectively.
翻訳日:2021-06-07 01:19:50 公開日:2020-11-30
# (参考訳) グラフニューラルネットワークとNLP技術を用いたソーシャルメディアにおけるフェイクニュース検出:COVID-19利用事例 [全文訳有]

Fake News Detection in Social Media using Graph Neural Networks and NLP Techniques: A COVID-19 Use-case ( http://arxiv.org/abs/2012.07517v1 )

ライセンス: CC BY 4.0
Abdullah Hamid, Nasrullah Shiekh, Naina Said, Kashif Ahmad, Asma Gul, Laiq Hassan, Ala Al-Fuqaha(参考訳) 本稿では,MediaEval 2020タスク,すなわちFakeNews: Corona Virusと5G Conspiracy Multimedia Twitter-Data-Based Analysisのソリューションについて述べる。 このタスクは、新型コロナウイルスと5G陰謀説に関連するツイートを分析し、誤報の拡散を検出することを目的としている。 このタスクは、(i)テキストベースと(ii)構造ベースの偽ニュース検出という2つのサブタスクから構成される。 最初の課題として,Bag of Words (BoW) とBERT の埋め込みに依存する6つの異なるソリューションを提案する。 3つの方法は、5G陰謀と他のCOVID-19関連ツイートを区別することでバイナリ分類タスクを目標とし、残りは第三次分類問題として扱う。 第3次分類タスクでは,BoW法とBERT法がそれぞれF1スコアの.606%と.566%を得た。 バイナリ分類では、BoWとBERTベースの解はそれぞれ平均F1スコア .666% と .693% を得た。 一方で、構造に基づく偽ニュース検出では、開発セットで平均.95%のrocを達成するグラフニューラルネットワーク(gnns)に依存しています。

The paper presents our solutions for the MediaEval 2020 task namely FakeNews: Corona Virus and 5G Conspiracy Multimedia Twitter-Data-Based Analysis. The task aims to analyze tweets related to COVID-19 and 5G conspiracy theories to detect misinformation spreaders. The task is composed of two sub-tasks namely (i) text-based, and (ii) structure-based fake news detection. For the first task, we propose six different solutions relying on Bag of Words (BoW) and BERT embedding. Three of the methods aim at binary classification task by differentiating in 5G conspiracy and the rest of the COVID-19 related tweets while the rest of them treat the task as ternary classification problem. In the ternary classification task, our BoW and BERT based methods obtained an F1-score of .606% and .566% on the development set, respectively. On the binary classification, the BoW and BERT based solutions obtained an average F1-score of .666% and .693%, respectively. On the other hand, for structure-based fake news detection, we rely on Graph Neural Networks (GNNs) achieving an average ROC of .95% on the development set.
翻訳日:2021-06-07 00:53:54 公開日:2020-11-30
# (参考訳) 知覚的画像復元のための画像品質評価 : 新しいデータセット,ベンチマーク,メトリクス [全文訳有]

Image Quality Assessment for Perceptual Image Restoration: A New Dataset, Benchmark and Metric ( http://arxiv.org/abs/2011.15002v1 )

ライセンス: CC BY 4.0
Jinjin Gu, Haoming Cai, Haoyu Chen, Xiaoxing Ye, Jimmy Ren, Chao Dong(参考訳) 画像品質評価(IQA)は、画像復元アルゴリズム(IR)の急速な発展の鍵となる要素である。 GAN(Generative Adversarial Network)に基づく直近の知覚赤外線アルゴリズムは、視覚性能に大きな改善をもたらしたが、定量的評価には大きな課題が伴っている。 特に,知覚的品質と評価結果との間には不整合が増大している。 既存のIQA手法は、最近のIRアルゴリズムを客観的に評価できるか? 現在のベンチマークを上回ることに集中することで、より優れたIRアルゴリズムが得られますか? 質問に回答し, iqa手法の開発を促進するため,我々は,perceptual image processing algorithms (pipal) データセットと呼ばれる大規模 iqa データセットをコントリビュートする。 特に、このデータセットには、以前のデータセットに欠けているGANベースのIRアルゴリズムの結果が含まれている。 我々は、より信頼性の高いEloシステムを用いて、PIPAL画像の主観的なスコアを割り当てるために、113万以上の人的判断を収集する。 PIPALに基づいて、IQA法とSR法の両方の新しいベンチマークを示す。 その結果,既存のIQA法では,GANベースのIRアルゴリズムを十分に評価できないことがわかった。 適切な評価手法が重要である一方で、IRアルゴリズムの開発とともにIQA法も更新されるべきである。 最終的に、GANに基づく歪みに対してIQA性能を改善する方法について光を当てた。 既存のIQA法は空間的不整合に対する耐性が低い部分もあり,GANに基づく歪みに対して不整合性を有するという発見に触発されて,GANに基づく歪みに対するIQAネットワークの性能を改善することを提案する。 本稿では, 新規なl_2プーリング層と空間ワーピング差分層を含む空間ワーピング差分ネットワークを提案する。 提案手法の有効性を示す実験を行った。

Image quality assessment (IQA) is the key factor for the fast development of image restoration (IR) algorithms. The most recent perceptual IR algorithms based on generative adversarial networks (GANs) have brought in significant improvement on visual performance, but also pose great challenges for quantitative evaluation. Notably, we observe an increasing inconsistency between perceptual quality and the evaluation results. We present two questions: Can existing IQA methods objectively evaluate recent IR algorithms? With the focus on beating current benchmarks, are we getting better IR algorithms? To answer the questions and promote the development of IQA methods, we contribute a large-scale IQA dataset, called Perceptual Image Processing ALgorithms (PIPAL) dataset. Especially, this dataset includes the results of GAN-based IR algorithms, which are missing in previous datasets. We collect more than 1.13 million human judgments to assign subjective scores for PIPAL images using the more reliable Elo system. Based on PIPAL, we present new benchmarks for both IQA and SR methods. Our results indicate that existing IQA methods cannot fairly evaluate GAN-based IR algorithms. While using appropriate evaluation methods is important, IQA methods should also be updated along with the development of IR algorithms. At last, we shed light on how to improve the IQA performance on GAN-based distortion. Inspired by the find that the existing IQA methods have an unsatisfactory performance on the GAN-based distortion partially because of their low tolerance to spatial misalignment, we propose to improve the performance of an IQA network on GAN-based distortion by explicitly considering this misalignment. We propose the Space Warping Difference Network, which includes the novel l_2 pooling layers and Space Warping Difference layers. Experiments demonstrate the effectiveness of the proposed method.
翻訳日:2021-06-07 00:29:13 公開日:2020-11-30
# (参考訳) 生体可塑性ニューラルネットワークによる皮質微小循環の局所的監視 [全文訳有]

A biologically plausible neural network for local supervision in cortical microcircuits ( http://arxiv.org/abs/2011.15031v1 )

ライセンス: CC BY 4.0
Siavash Golkar, David Lipshutz, Yanis Bahroun, Anirvan M. Sengupta, Dmitri B. Chklovskii(参考訳) バックプロパゲーションアルゴリズムは、ニューラルネットワークをトレーニングするための貴重なツールであるが、ウェイトシェアリングの要件のため、脳機能の妥当なモデルを提供していない。 ここで、二層ネットワークの文脈において、明示的な誤り計算とバックプロパゲーションを必要とせず、この問題を回避するニューラルネットワークのトレーニングアルゴリズムを導出する。 さらに、我々のアルゴリズムは、大脳皮質の接続構造や学習規則に顕著な類似性を持つニューラルネットワークにマップする。 提案アルゴリズムは,複数のデータセットのバックプロップに対して,実験的に比較可能な性能を示す。

The backpropagation algorithm is an invaluable tool for training artificial neural networks; however, because of a weight sharing requirement, it does not provide a plausible model of brain function. Here, in the context of a two-layer network, we derive an algorithm for training a neural network which avoids this problem by not requiring explicit error computation and backpropagation. Furthermore, our algorithm maps onto a neural network that bears a remarkable resemblance to the connectivity structure and learning rules of the cortex. We find that our algorithm empirically performs comparably to backprop on a number of datasets.
翻訳日:2021-06-06 23:59:41 公開日:2020-11-30
# (参考訳) 物体知覚のためのメタ認知の学習 [全文訳有]

Learning a metacognition for object perception ( http://arxiv.org/abs/2011.15067v1 )

ライセンス: CC BY 4.0
Marlene Berke, Mario Belledonne, and Julian Jara-Ettinger(参考訳) 外部世界を表現するだけでなく、人間は自身の認知過程も表わす。 知覚の文脈では、このメタ認知は、私たちが幻想を見ていると認識しているときなど、信頼できない知覚を特定するのに役立ちます。 本稿ではメタ認知の教師なし学習モデルであるMetaGenを提案する。 MetaGenでは、メタ認知は知覚システムがノイズの多い知覚をいかに生み出すかの生成モデルとして表現される。 世界がどのように機能するかという基本的な原則(幼児のコア知識の一部であるオブジェクトの永続性など)を用いて、メタゲンは共に知覚と自己の知覚システムの表現を引き起こす世界のオブジェクトを推論する。 MetaGenはこのメタ認知を使って、どのオブジェクトが実際に世界に存在するのかを推測することができる。 シミュレーションデータから,メタゲンはメタ認知を素早く学習し,全体的な精度を向上し,メタ認知に欠けるモデルよりも優れることがわかった。

Beyond representing the external world, humans also represent their own cognitive processes. In the context of perception, this metacognition helps us identify unreliable percepts, such as when we recognize that we are seeing an illusion. Here we propose MetaGen, a model for the unsupervised learning of metacognition. In MetaGen, metacognition is expressed as a generative model of how a perceptual system produces noisy percepts. Using basic principles of how the world works (such as object permanence, part of infants' core knowledge), MetaGen jointly infers the objects in the world causing the percepts and a representation of its own perceptual system. MetaGen can then use this metacognition to infer which objects are actually present in the world. On simulated data, we find that MetaGen quickly learns a metacognition and improves overall accuracy, outperforming models that lack a metacognition.
翻訳日:2021-06-06 23:48:51 公開日:2020-11-30
# (参考訳) FPGA上のグラフニューラルネットワークを用いた加速荷電粒子追跡 [全文訳有]

Accelerated Charged Particle Tracking with Graph Neural Networks on FPGAs ( http://arxiv.org/abs/2012.01563v1 )

ライセンス: CC BY 4.0
Aneesh Heintz and Vesal Razavimaleki and Javier Duarte and Gage DeZoort and Isobel Ojalvo and Savannah Thais and Markus Atkinson and Mark Neubauer and Lindsey Gray and Sergo Jindariani and Nhan Tran and Philip Harris and Dylan Rankin and Thea Aarrestad and Vladimir Loncar and Maurizio Pierini and Sioni Summers and Jennifer Ngadiuba and Mia Liu and Edward Kreinar and Zhenbin Wu(参考訳) 我々は,グラフニューラルネットワークに基づく荷電粒子追跡アルゴリズムのfpga実装を開発・研究する。 2つの補完的なFPGA設計は、異種プラットフォーム間で実行されるプログラムを記述するためのフレームワークであるOpenCLと、ニューラルネットワークからファームウェア変換への高レベル合成ベースのコンパイラであるhls4mlに基づいている。 ベンチマークデータセットに基づいて、リソース使用量、レイテンシ、実装のトラッキングパフォーマンスを評価し、比較します。 我々は、将来の計算ワークフローやCERN Large Hadron ColliderのFPGAベースのLevel-1トリガにおいて、そのようなアルゴリズムを効果的に利用できるようになる可能性があり、CPUベースの実行を大幅に高速化できると考えている。

We develop and study FPGA implementations of algorithms for charged particle tracking based on graph neural networks. The two complementary FPGA designs are based on OpenCL, a framework for writing programs that execute across heterogeneous platforms, and hls4ml, a high-level-synthesis -based compiler for neural network to firmware conversion. We evaluate and compare the resource usage, latency, and tracking performance of our implementations based on a benchmark dataset. We find a considerable speedup over CPU-based execution is possible, potentially enabling such algorithms to be used effectively in future computing workflows and the FPGA-based Level-1 trigger at the CERN Large Hadron Collider.
翻訳日:2021-06-06 23:36:59 公開日:2020-11-30
# (参考訳) フローベース軌道予測の正規化のための横サンプリング [全文訳有]

Diverse Sampling for Normalizing Flow Based Trajectory Forecasting ( http://arxiv.org/abs/2011.15084v1 )

ライセンス: CC BY 4.0
Yecheng Jason Ma, Jeevana Priya Inala, Dinesh Jayaraman, Osbert Bastani(参考訳) 自動運転車が安全かつ効果的に運転するためには、歩行者や他の車など、現場の他のエージェントの確率的未来の軌跡を予測しなければならない。 このような複雑なマルチモーダル分布の予測には強力な確率的アプローチが必要である。 正規化フローは、そのような分布をモデル化するための魅力的なツールとして最近登場した。 しかしながら、フローモデルから軌道予測を生成する場合、独立したサンプルが基盤となる分布の全てのモードを適切に捉えていないことが鍵となる。 本研究では,事前学習フローモデルからトラジェクトリサンプルの品質と多様性を向上させる手法として,DSF(Diversity Smpling for Flow)を提案する。 個々のサンプルを生成するのではなく、dsfは1ショットで一連の軌道を生成する。 事前学習した予測フローモデルを用いて、モデルからの勾配を用いてDSFを訓練し、予測集合内の個々の軌道に対して高い確率を付与する目的関数を、高い空間的分離とともに最適化する。 dsfは実装が容易であり、既存のフローベースの予測モデルに簡単なプラグイン改善を提供し、2つの挑戦的な車両と歩行者予測ベンチマークで最先端の結果を得る。

For autonomous cars to drive safely and effectively, they must anticipate the stochastic future trajectories of other agents in the scene, such as pedestrians and other cars. Forecasting such complex multi-modal distributions requires powerful probabilistic approaches. Normalizing flows have recently emerged as an attractive tool to model such distributions. However, when generating trajectory predictions from a flow model, a key drawback is that independent samples often do not adequately capture all the modes in the underlying distribution. We propose Diversity Sampling for Flow (DSF), a method for improving the quality and the diversity of trajectory samples from a pre-trained flow model. Rather than producing individual samples, DSF produces a set of trajectories in one shot. Given a pre-trained forecasting flow model, we train DSF using gradients from the model, to optimize an objective function that rewards high likelihood for individual trajectories in the predicted set, together with high spatial separation between trajectories. DSF is easy to implement, and we show that it offers a simple plug-in improvement for several existing flow-based forecasting models, achieving state-of-art results on two challenging vehicle and pedestrian forecasting benchmarks.
翻訳日:2021-06-06 23:26:07 公開日:2020-11-30
# (参考訳) ハイクラッタにおけるベイズ非パラメトリック法による測定値の推定 [全文訳有]

Use of Bayesian Nonparametric methods for Estimating the Measurements in High Clutter ( http://arxiv.org/abs/2012.09785v1 )

ライセンス: CC BY 4.0
Bahman Moraffah, Christ Richmond, Raha Moraffah, and Antonia Papandreou-Suppappol a(参考訳) 乱雑な環境における標的のロバストな追跡は重要かつ困難な課題である。 近年,最寄りの手法と確率的データアソシエーションフィルタが提案されている。 しかし,測定回数の増加に伴い,これらの手法の性能は低下する。 本稿では,マルチセンサ計測を効果的にモデル化し,高クラッタ環境下での移動目標を追跡するためのロバスト生成手法を提案する。 我々は、未知の起源を持つセンサによる観測を含む、時間に依存した測定数を仮定する。 ベイズ非パラメトリックモデルを用いて, 未知数のクラッタを有する高クラッタ環境における移動目標の軌跡をロバストかつ高精度に推定する。 特に, 条件分布がディリクレ過程に従うように, 目標およびクラッタ測定の合同事前分布を構成するために, ジョイントベイズ非パラメトリックモデルを用いた。 目標測定に先立って辺縁化されたディリクレプロセスはベイズトラッカーで動的に変化する目標状態を推定するために使用される。 提案するフレームワークの追跡性能と有効性は,高いクラッタ測定を抑えることにより向上することを示す。 さらに, 提案手法は, 隣り合うフィルタや確率データアソシエーションフィルタなどの既存手法よりも優れていることを示す。

Robust tracking of a target in a clutter environment is an important and challenging task. In recent years, the nearest neighbor methods and probabilistic data association filters were proposed. However, the performance of these methods diminishes as the number of measurements increases. In this paper, we propose a robust generative approach to effectively model multiple sensor measurements for tracking a moving target in an environment with high clutter. We assume a time-dependent number of measurements that include sensor observations with unknown origin, some of which may only contain clutter with no additional information. We robustly and accurately estimate the trajectory of the moving target in a high clutter environment with an unknown number of clutters by employing Bayesian nonparametric modeling. In particular, we employ a class of joint Bayesian nonparametric models to construct the joint prior distribution of target and clutter measurements such that the conditional distributions follow a Dirichlet process. The marginalized Dirichlet process prior of the target measurements is then used in a Bayesian tracker to estimate the dynamically-varying target state. We show through experiments that the tracking performance and effectiveness of our proposed framework are increased by suppressing high clutter measurements. In addition, we show that our proposed method outperforms existing methods such as nearest neighbor and probability data association filters.
翻訳日:2021-06-06 23:03:09 公開日:2020-11-30
# (参考訳) mdpポリシーのモデルベース制御学習とロスサール在庫管理への応用 [全文訳有]

Model-based controlled learning of MDP policies with an application to lost-sales inventory control ( http://arxiv.org/abs/2011.15122v1 )

ライセンス: CC BY 4.0
Willem van Jaarsveld(参考訳) 近年の文献では、ニューラルネットワークはサプライチェーンとロジスティクスにおける様々な確率的力学モデルにまたがる優れたMDPポリシーを表現できることが確認されている。 このようなニューラルネットワークポリシーの学習・精算に使用されるモデルフリーアルゴリズムの限界を克服するために,分散低減手法を取り入れたモデルベースアルゴリズムを提案する。 従来の失われた販売在庫モデルでは、このアルゴリズムはモデルフリーのアルゴリズムで学んだものよりも優れたニューラルネットワークポリシーを学習し、ヒューリスティックなベンチマークも上回っている。 このアルゴリズムは、サプライチェーンとロジスティクスの他の確率的動的問題に適用する興味深い候補となるかもしれない。

Recent literature established that neural networks can represent good MDP policies across a range of stochastic dynamic models in supply chain and logistics. To overcome limitations of the model-free algorithms typically employed to learn/find such neural network policies, a model-based algorithm is proposed that incorporates variance reduction techniques. For the classical lost sales inventory model, the algorithm learns neural network policies that are superior to those learned using model-free algorithms, while also outperforming heuristic benchmarks. The algorithm may be an interesting candidate to apply to other stochastic dynamic problems in supply chain and logistics.
翻訳日:2021-06-06 21:52:01 公開日:2020-11-30
# (参考訳) ノイズの少ないショット例を用いたインテントとスロットラベルの分類のためのメタ学習 [全文訳有]

Meta learning to classify intent and slot labels with noisy few shot examples ( http://arxiv.org/abs/2012.07516v1 )

ライセンス: CC BY 4.0
Shang-Wen Li, Jason Krone, Shuyan Dong, Yi Zhang, and Yaser Al-onaizan(参考訳) 近年のディープラーニングは、音声言語理解(SLU)を含む多くの機械学習領域を支配している。 しかし、ディープラーニングモデルはデータ処理で有名であり、高度に最適化されたモデルは通常、提供されるトレーニング例の品質と、トレーニングと推論条件の一貫性に敏感である。 そこで本研究では,SLUが意図分類(IC)とスロットラベリング(SL)という2つの中核的問題から構成される,少数のロバストなSLUのベンチマークタスクを提案する。 この課題は,ATIS,SNIPS,TOPの3つの公開IC/SLデータセット上で,数発スプリットを定義し,そのスプリットに2種類の自然雑音(適応例,欠落/リプレース,モダリティミスマッチ)を付加することで解決する。 さらに,prototypepical networkに基づく新しいノイズロバスト数発sluモデルを提案する。 本稿では,従来の微調整ベースラインと,他のメタラーニング手法であるMAML(Model-Agnostic Meta-Learning)より優れたIC精度とSL F1を実現し,ノイズ発生時の性能変化の低減を図る。

Recently deep learning has dominated many machine learning areas, including spoken language understanding (SLU). However, deep learning models are notorious for being data-hungry, and the heavily optimized models are usually sensitive to the quality of the training examples provided and the consistency between training and inference conditions. To improve the performance of SLU models on tasks with noisy and low training resources, we propose a new SLU benchmarking task: few-shot robust SLU, where SLU comprises two core problems, intent classification (IC) and slot labeling (SL). We establish the task by defining few-shot splits on three public IC/SL datasets, ATIS, SNIPS, and TOP, and adding two types of natural noises (adaptation example missing/replacing and modality mismatch) to the splits. We further propose a novel noise-robust few-shot SLU model based on prototypical networks. We show the model consistently outperforms the conventional fine-tuning baseline and another popular meta-learning method, Model-Agnostic Meta-Learning (MAML), in terms of achieving better IC accuracy and SL F1, and yielding smaller performance variation when noises are present.
翻訳日:2021-06-06 21:38:11 公開日:2020-11-30
# (参考訳) 微粒パラフレージングによる政治コミュニケーションの実現 [全文訳有]

Facilitating the Communication of Politeness through Fine-Grained Paraphrasing ( http://arxiv.org/abs/2012.00012v1 )

ライセンス: CC BY 4.0
Liye Fu, Susan R. Fussell and Cristian Danescu-Niculescu-Mi zil(参考訳) テクノロジーによって、人々は地理的、文化的、言語的障壁を越えてコミュニケーションできるようになる。 この能力は、ますます多様な状況にコミュニケーションアプローチを適用する必要があるため、新たな課題をもたらす。 本研究は,言語を特定のコミュニケーション状況に適応させる作業を支援するための第一歩である。 事例研究として,実用的意図の正確な伝達を容易にすることに着目し,与えられたコミュニケーション状況下での丁寧さのレベルを達成するためのパラフレーズの提案手法を提案する。 本手法を2つの現実的なコミュニケーションシナリオで評価することにより,本手法の有効性を実証し,両事例における話者の意図と聞き手の知覚の誤認を低減できることを示す。

Aided by technology, people are increasingly able to communicate across geographical, cultural, and language barriers. This ability also results in new challenges, as interlocutors need to adapt their communication approaches to increasingly diverse circumstances. In this work, we take the first steps towards automatically assisting people in adjusting their language to a specific communication circumstance. As a case study, we focus on facilitating the accurate transmission of pragmatic intentions and introduce a methodology for suggesting paraphrases that achieve the intended level of politeness under a given communication circumstance. We demonstrate the feasibility of this approach by evaluating our method in two realistic communication scenarios and show that it can reduce the potential for misalignment between the speaker's intentions and the listener's perceptions in both cases.
翻訳日:2021-06-06 21:25:55 公開日:2020-11-30
# (参考訳) 文書要約における冗長性の体系的探索 [全文訳有]

Systematically Exploring Redundancy Reduction in Summarizing Long Documents ( http://arxiv.org/abs/2012.00052v1 )

ライセンス: CC BY 4.0
Wen Xiao, Giuseppe Carenini(参考訳) 大規模要約データセットの解析から,冗長性は長い文書を要約する場合,非常に深刻な問題であることが示された。 しかし, 神経要約では冗長性低下は十分に研究されていない。 本研究では,長い文書を要約する際に,冗長性に対処する方法を体系的に検討し,比較する。 具体的には,既存の手法を時間と冗長性を考慮したカテゴリに分類する。 次に,これらのカテゴリの文脈において,非冗長性と重要さのバランスをとる3つの追加手法を提案する。 提案手法は,2つの学術論文データセット,Pubmed と arXiv のROUGEスコアに対して,冗長性を著しく低減し,最先端の手法を実現することを実証した。

Our analysis of large summarization datasets indicates that redundancy is a very serious problem when summarizing long documents. Yet, redundancy reduction has not been thoroughly investigated in neural summarization. In this work, we systematically explore and compare different ways to deal with redundancy when summarizing long documents. Specifically, we organize the existing methods into categories based on when and how the redundancy is considered. Then, in the context of these categories, we propose three additional methods balancing non-redundancy and importance in a general and flexible way. In a series of experiments, we show that our proposed methods achieve the state-of-the-art with respect to ROUGE scores on two scientific paper datasets, Pubmed and arXiv, while reducing redundancy significantly.
翻訳日:2021-06-06 20:33:20 公開日:2020-11-30
# (参考訳) 障害物のある部屋の緊急避難に応用した粒子動力学環境による深部強化学習 [全文訳有]

Deep reinforcement learning with a particle dynamics environment applied to emergency evacuation of a room with obstacles ( http://arxiv.org/abs/2012.00065v1 )

ライセンス: CC BY 4.0
Yihao Zhang, Zhaojie Chai and George Lykotrafitis(参考訳) 緊急避難をシミュレーションする非常に成功したモデルが社会力モデルである。 モデルの中心は、エージェントに適用される自己駆動力であり、出口に向かっている。 しかし、特に障害物のある複雑な環境において、この力の適用が最適避難をもたらすかどうかは明らかでない。 そこで,我々は,ソーシャルフォースモデルと連動して,エージェントの避難経路を学習する深層強化学習アルゴリズムを開発した。 訓練中、私たちは部屋のエージェントのすべてのステップを罰し、出口で報酬をゼロにします。 私たちはDyna-Q学習アプローチを採用しています。 まず, 障害物のない部屋の場合, 自己駆動力は社会力モデルのように出口に直接向けられ, 2つの方法によって計算される中央の出口時間間隔はそれほど大きく異なるものではないことを示す。 そして,1つの障害物と1つの出口を有する部屋の避難を調査した。 本手法は,障害物が凸である場合に,社会力モデルと類似した結果が得られることを示す。 しかし,社会力モデルによって純粋に支配されるエージェントの罠として機能し,完全な部屋退避を禁止しているコンケーブ障害の場合,追加の仮定なしにオブジェクト回避と完全な部屋退避をもたらす方針を導出するため,我々のアプローチは明らかに有利である。 また,出口が複数ある部屋の避難についても検討した。 エージェントは1つのエージェントのために訓練された共有ネットワークを介して最寄りの出口から効率的に避難できることを示す。 最後に、複数の出口と障害物のある複雑な環境でDyna-Q学習アプローチの堅牢性をテストする。 本研究では,複数の部屋の出口や障害物のある複雑な環境下での緊急避難を効果的にシミュレートし,迅速な避難のための直感的なルールを得るのが困難であることを示す。

A very successful model for simulating emergency evacuation is the social-force model. At the heart of the model is the self-driven force that is applied to an agent and is directed towards the exit. However, it is not clear if the application of this force results in optimal evacuation, especially in complex environments with obstacles. Here, we develop a deep reinforcement learning algorithm in association with the social force model to train agents to find the fastest evacuation path. During training, we penalize every step of an agent in the room and give zero reward at the exit. We adopt the Dyna-Q learning approach. We first show that in the case of a room without obstacles the resulting self-driven force points directly towards the exit as in the social force model and that the median exit time intervals calculated using the two methods are not significantly different. Then, we investigate evacuation of a room with one obstacle and one exit. We show that our method produces similar results with the social force model when the obstacle is convex. However, in the case of concave obstacles, which sometimes can act as traps for agents governed purely by the social force model and prohibit complete room evacuation, our approach is clearly advantageous since it derives a policy that results in object avoidance and complete room evacuation without additional assumptions. We also study evacuation of a room with multiple exits. We show that agents are able to evacuate efficiently from the nearest exit through a shared network trained for a single agent. Finally, we test the robustness of the Dyna-Q learning approach in a complex environment with multiple exits and obstacles. Overall, we show that our model can efficiently simulate emergency evacuation in complex environments with multiple room exits and obstacles where it is difficult to obtain an intuitive rule for fast evacuation.
翻訳日:2021-06-06 19:56:56 公開日:2020-11-30
# (参考訳) TimeSHAP: シーケンス摂動によるリカレントモデルの説明 [全文訳有]

TimeSHAP: Explaining Recurrent Models through Sequence Perturbations ( http://arxiv.org/abs/2012.00073v1 )

ライセンス: CC BY 4.0
Jo\~ao Bento, Pedro Saleiro, Andr\'e F. Cruz, M\'ario A.T. Figueiredo, Pedro Bizarro(参考訳) リカレントニューラルネットワークは、自然言語処理から時系列分類に至るまで、多くの機械学習領域で標準的な構築ブロックである。 彼らのアプリケーションはユビキタスに成長してきたが、内部動作の理解はいまだに不足している。 実際には、これらのモデルの複雑な決定はブラックボックスと見なされ、正確性と解釈可能性の間の緊張を生み出す。 さらに、モデルの推論プロセスを理解する能力は、それをデバッグし、それ以上に、その決定に対する信頼を構築するために重要である。 近年、ブラックボックスモデルの説明にかなりの研究努力が注がれているが、リカレントモデルはあまり注目されていない。 一連のインスタンスからの決定を説明することを目的としたメソッドは、機能の重要性だけでなく、イベントの重要性も評価すべきである。 本研究では,KernelSHAPの音響的足場と強い経験的結果を活用するモデルに依存しない再帰的説明器であるTimeSHAPを提示することにより,これらのギャップを埋めることに貢献した。 入力シーケンスが任意に長い場合がありうるので、我々はさらに、実際の効率を劇的に向上させるプルーニング法を提案する。

Recurrent neural networks are a standard building block in numerous machine learning domains, from natural language processing to time-series classification. While their application has grown ubiquitous, understanding of their inner workings is still lacking. In practice, the complex decision-making in these models is seen as a black-box, creating a tension between accuracy and interpretability. Moreover, the ability to understand the reasoning process of a model is important in order to debug it and, even more so, to build trust in its decisions. Although considerable research effort has been guided towards explaining black-box models in recent years, recurrent models have received relatively little attention. Any method that aims to explain decisions from a sequence of instances should assess, not only feature importance, but also event importance, an ability that is missing from state-of-the-art explainers. In this work, we contribute to filling these gaps by presenting TimeSHAP, a model-agnostic recurrent explainer that leverages KernelSHAP's sound theoretical footing and strong empirical results. As the input sequence may be arbitrarily long, we further propose a pruning method that is shown to dramatically improve its efficiency in practice.
翻訳日:2021-06-06 19:34:24 公開日:2020-11-30
# (参考訳) なぜロボットは道路を渡ったのか? 人間-ロボットインタラクションにおける説明のユーザスタディ [全文訳有]

Why Did the Robot Cross the Road? A User Study of Explanation in Human-Robot Interaction ( http://arxiv.org/abs/2012.00078v1 )

ライセンス: CC BY 4.0
Zachary Taschdjian(参考訳) 本研究は,人間ロボットインタラクションhriシナリオにおけるaiの人間理解支援における対照的,因果的,事例的説明の有効性を評価するパイロットユーザ研究である。 この研究は、社会科学の文脈で説明可能なAI XAIを定め、社会科学から情報を得ると、HRIの説明が改善されることを示唆している。

This work documents a pilot user study evaluating the effectiveness of contrastive, causal and example explanations in supporting human understanding of AI in a hypothetical commonplace human robot interaction HRI scenario. In doing so, this work situates explainable AI XAI in the context of the social sciences and suggests that HRI explanations are improved when informed by the social sciences.
翻訳日:2021-06-06 19:16:43 公開日:2020-11-30
# (参考訳) 機械学習時空間疫学モデルによるドイツにおける新型コロナウイルスリスクの評価 [全文訳有]

Machine learning spatio-temporal epidemiological model to evaluate Germany-county-level COVID-19 risk ( http://arxiv.org/abs/2012.00082v1 )

ライセンス: CC BY 4.0
Lingxiao Wang, Tian Xu, Till Hannes Stoecker, Horst Stoecker, Yin Jiang and Kai Zhou(参考訳) 新型コロナウイルス(covid-19)のパンデミックが世界を破壊し続ける中、covid-19を多レベルにタイムリーなリスク予測を提供することは重要な意味を持つ。 そこで本研究では,空間的セルラ・オートマトン(ca)と時間的感受性未認識感染除去モデル(suir)を組み合わせた,郡レベルの時空間疫学モデルを含む感染症データから流行動態を抽出するための機械学習を用いた枠組みを開発した。 既存の時刻リスク予測モデルと比較すると,提案するca-suirモデルは,政府に対する郡と,異なる政策下での新型コロナウイルスの感染パターンに対する多レベルリスクを示している。 この新しいツールボックスは、t-day-aheadリスク予測や旅行制限政策のリスクアセスメントなど、ドイツの412の地方(国)で発生した多レベルcovid-19の予測に初めて利用される。 実例として、最悪の死者が35万件、効果的な政策が2万件未満に抑えられるクリスマスの状況を予測します。 このような介入可能な評価システムは、パンデミックにおける経済再開と公衆衛生政策の決定に役立てることができる。

As the COVID-19 pandemic continues to ravage the world, it is of critical significance to provide a timely risk prediction of the COVID-19 in multi-level. To implement it and evaluate the public health policies, we develop a framework with machine learning assisted to extract epidemic dynamics from the infection data, in which contains a county-level spatiotemporal epidemiological model that combines a spatial Cellular Automaton (CA) with a temporal Susceptible-Undiagno sed-Infected-Removed (SUIR) model. Compared with the existing time risk prediction models, the proposed CA-SUIR model shows the multi-level risk of the county to the government and coronavirus transmission patterns under different policies. This new toolbox is first utilized to the projection of the multi-level COVID-19 prevalence over 412 Landkreis (counties) in Germany, including t-day-ahead risk forecast and the risk assessment to the travel restriction policy. As a practical illustration, we predict the situation at Christmas where the worst fatalities are 34.5 thousand, effective policies could contain it to below 21 thousand. Such intervenable evaluation system could help decide on economic restarting and public health policies making in pandemic.
翻訳日:2021-06-06 19:09:25 公開日:2020-11-30
# (参考訳) 超音波検査によるcovid-19診断 : 堅牢性と説明可能性 [全文訳有]

Ultrasound Diagnosis of COVID-19: Robustness and Explainability ( http://arxiv.org/abs/2012.01145v1 )

ライセンス: CC BY 4.0
Jay Roberts, Theodoros Tsiligkaridis(参考訳) 新型コロナウイルス(covid-19)の診断は、世界的なパンデミックの封じ込めに不可欠である。 ポイント・オブ・ケア・超音波(pocus)は、肺の迅速な画像を提供し、繰り返しかつ費用対効果の高い方法で患者のcovid-19を検出する。 これまでの研究では、POCUSビデオの公開データセットを使用して、高感度の診断のためのAIモデルをトレーニングしてきた。 高利得の応用のため、我々は堅牢で説明可能な手法を提案する。 我々は、ロバストモデルがより安定した予測を持ち、解釈性の向上をもたらすことを実験的に実証する。 逆摂動に基づく対比的説明の枠組みは、人間の視覚知覚と整合するモデル予測を説明するために用いられる。

Diagnosis of COVID-19 at point of care is vital to the containment of the global pandemic. Point of care ultrasound (POCUS) provides rapid imagery of lungs to detect COVID-19 in patients in a repeatable and cost effective way. Previous work has used public datasets of POCUS videos to train an AI model for diagnosis that obtains high sensitivity. Due to the high stakes application we propose the use of robust and explainable techniques. We demonstrate experimentally that robust models have more stable predictions and offer improved interpretability. A framework of contrastive explanations based on adversarial perturbations is used to explain model predictions that aligns with human visual perception.
翻訳日:2021-06-06 18:35:25 公開日:2020-11-30
# (参考訳) インクリメンタルなマイナショットセグメンテーションのためのいくつかのガイドライン [全文訳有]

A Few Guidelines for Incremental Few-Shot Segmentation ( http://arxiv.org/abs/2012.01415v1 )

ライセンス: CC BY 4.0
Fabio Cermelli, Massimiliano Mancini, Yongqin Xian, Zeynep Akata, Barbara Caputo(参考訳) セマンティックセグメンテーションの文脈では、ニューラルネットワークが必要とする監督の量を減らすことが特に重要であり、高濃度のピクセルレベルのアノテーションの収集は特に高価である。 本稿では,この問題を新たな視点から解決する。 特に,事前学習されたセグメンテーションモデルと,新しいクラスを含む画像の少ない場合には,これまで見られたクラスをセグメンテーションする能力を維持しながら,新しいクラスをセグメンテーションすることを学ぶことが目的である。 この文脈では、すべての信念に反して、これらの少数の画像でアーキテクチャ全体を微調整することは有意義であるだけでなく、非常に効果的である。 このシナリオにおけるエンドツーエンドトレーニングの主な問題は、i)バッチ再正規化で解決できる新しいクラスへのバッチ正規化統計のドリフト、ii)古いクラスを忘れること、そして正規化戦略で修正できることである。 我々は,COCO と Pascal-VOC 2012 のデータセットについて,クラス毎に異なる画像数,複数の学習エピソードを含む技術の現状を一貫して導く5つのガイドラインで要約した。

Reducing the amount of supervision required by neural networks is especially important in the context of semantic segmentation, where collecting dense pixel-level annotations is particularly expensive. In this paper, we address this problem from a new perspective: Incremental Few-Shot Segmentation. In particular, given a pretrained segmentation model and few images containing novel classes, our goal is to learn to segment novel classes while retaining the ability to segment previously seen ones. In this context, we discover, against all beliefs, that fine-tuning the whole architecture with these few images is not only meaningful, but also very effective. We show how the main problems of end-to-end training in this scenario are i) the drift of the batch-normalization statistics toward novel classes that we can fix with batch renormalization and ii) the forgetting of old classes, that we can fix with regularization strategies. We summarize our findings with five guidelines that together consistently lead to the state of the art on the COCO and Pascal-VOC 2012 datasets, with different number of images per class and even with multiple learning episodes.
翻訳日:2021-06-06 18:30:23 公開日:2020-11-30
# (参考訳) 多様体学習のための伝染ダイナミクス

Contagion Dynamics for Manifold Learning ( http://arxiv.org/abs/2012.00091v1 )

ライセンス: CC BY 4.0
Barbara I. Mahler(参考訳) 伝染マップはしきい値の活性化時間を利用して、高次元ユークリッド空間のベクトルをネットワークのノードに割り当てる。 感染マップの画像である点雲は、ネットワークの基盤となる構造と感染の拡散挙動の両方を反映している。 直感的には、そのような点雲は、その構造に沿って伝染が広がると、ネットワークの基盤となる構造の特徴を示す。 我々は,様々な実世界および合成データセット上で,多様体学習ツールとしての伝染マップをテストし,それらの性能を最もよく知られた多様体学習アルゴリズムであるisomapと比較した。 特定の条件下では、汚染マップはノイズによるエラーのためにisomapが失敗するのに対して、ノイズデータ中の基盤となる多様体構造を確実に検出することができる。 これにより、多様体学習のテクニックとして、伝染マップが統合される。

Contagion maps exploit activation times in threshold contagions to assign vectors in high-dimensional Euclidean space to the nodes of a network. A point cloud that is the image of a contagion map reflects both the structure underlying the network and the spreading behaviour of the contagion on it. Intuitively, such a point cloud exhibits features of the network's underlying structure if the contagion spreads along that structure, an observation which suggests contagion maps as a viable manifold-learning technique. We test contagion maps as a manifold-learning tool on a number of different real-world and synthetic data sets, and we compare their performance to that of Isomap, one of the most well-known manifold-learning algorithms. We find that, under certain conditions, contagion maps are able to reliably detect underlying manifold structure in noisy data, while Isomap fails due to noise-induced error. This consolidates contagion maps as a technique for manifold learning.
翻訳日:2021-06-06 18:13:02 公開日:2020-11-30
# (参考訳) なぜモデルなのか? LIMEの強さと限界を評価する [全文訳有]

Why model why? Assessing the strengths and limitations of LIME ( http://arxiv.org/abs/2012.00093v1 )

ライセンス: CC BY 4.0
J\"urgen Dieber, Sabrina Kirrane(参考訳) 複雑な機械学習モデル(一般的にブラックボックスと呼ばれる)に関しては、医療や金融サービスといったドメインや、自動運転車などの安全上重要なシステムに関連して使用される場合には、その基盤となる意思決定プロセスを理解することが重要です。 近年,説明可能な人工知能(xAI)ツールや技術への関心が高まっている。 しかし、既存のxaiフレームワーク、特に画像ではなくデータを扱うアルゴリズムの有効性については、まだ研究の余地がある。 このギャップに対処するため,本稿では,本文献で最もよく見られるモデル非依存フレームワークの一つである局所解釈モデル非依存記述(LIME)xAIフレームワークの有効性について検討する。 特に,グラフ型データセットに最先端の機械学習アルゴリズムを適用し,従来の性能評価手法を補完するためにlimeをどのように利用できるかを示す。 また,LIME に馴染みのない参加者によるユーザビリティスタディと,国際標準化機構 9241-11:1998 標準に基づく評価枠組みによる総合ユーザビリティの両面から,LIME が生み出すアウトプットの理解可能性を評価する。

When it comes to complex machine learning models, commonly referred to as black boxes, understanding the underlying decision making process is crucial for domains such as healthcare and financial services, and also when it is used in connection with safety critical systems such as autonomous vehicles. As such interest in explainable artificial intelligence (xAI) tools and techniques has increased in recent years. However, the effectiveness of existing xAI frameworks, especially concerning algorithms that work with data as opposed to images, is still an open research question. In order to address this gap, in this paper we examine the effectiveness of the Local Interpretable Model-Agnostic Explanations (LIME) xAI framework, one of the most popular model agnostic frameworks found in the literature, with a specific focus on its performance in terms of making tabular models more interpretable. In particular, we apply several state of the art machine learning algorithms on a tabular dataset, and demonstrate how LIME can be used to supplement conventional performance assessment methods. In addition, we evaluate the understandability of the output produced by LIME both via a usability study, involving participants who are not familiar with LIME, and its overall usability via an assessment framework, which is derived from the International Organisation for Standardisation 9241-11:1998 standard.
翻訳日:2021-06-06 18:07:39 公開日:2020-11-30
# (参考訳) IV-Posterior:解釈可能な政策証明書の逆値推定 [全文訳有]

IV-Posterior: Inverse Value Estimation for Interpretable Policy Certificates ( http://arxiv.org/abs/2012.01925v1 )

ライセンス: CC BY 4.0
Tatiana Lopez-Guevara, Michael Burke, Nicholas K. Taylor, Kartic Subr(参考訳) モデルフリー強化学習(RL)は、幅広いロボットのスキルとポリシーを学ぶための強力なツールである。 しかしながら、政策解釈可能性の欠如は、特に環境条件の違いが予測不可能な振る舞いや一般化の失敗をもたらす場合、下流アプリケーションへの展開の成功を抑制することができる。 その結果、一般化を改善するためにモデルに強い帰納的バイアスを含むことに関して、機械学習に重点が置かれている。 本稿では,プリトレーニングされたポリシがすでに保持している帰納的バイアスや理想化された動作条件を識別し,この情報を用いてデプロイメントを導くための,解釈可能なポリシ証明書(iv-posterior)の逆値推定手法を提案する。 IV-PosteriorはMaskedAutoregressive Flowsを使用して、ポリシーが有効になる可能性のある条件や環境パラメータのセット上の分散を適合させる。 このディストリビューションは、下流アプリケーションでポリシー証明書として使用できる。 我々は,2つの環境におけるiv-posteriorの使用を例示し,これらのポリシーが持つ帰納的バイアスの知識を取り入れることで,実質的なパフォーマンス向上が得られることを示す。

Model-free reinforcement learning (RL) is a powerful tool to learn a broad range of robot skills and policies. However, a lack of policy interpretability can inhibit their successful deployment in downstream applications, particularly when differences in environmental conditions may result in unpredictable behaviour or generalisation failures. As a result, there has been a growing emphasis in machine learning around the inclusion of stronger inductive biases in models to improve generalisation. This paper proposes an alternative strategy, inverse value estimation for interpretable policy certificates (IV-Posterior), which seeks to identify the inductive biases or idealised conditions of operation already held by pre-trained policies, and then use this information to guide their deployment. IV-Posterior uses MaskedAutoregressive Flows to fit distributions over the set of conditions or environmental parameters in which a policy is likely to be effective. This distribution can then be used as a policy certificate in downstream applications. We illustrate the use of IV-Posterior across a two environments, and show that substantial performance gains can be obtained when policy selection incorporates knowledge of the inductive biases that these policies hold.
翻訳日:2021-06-06 17:48:09 公開日:2020-11-30
# (参考訳) オンデバイス自然言語理解のためのエクストリームモデル圧縮 [全文訳有]

Extreme Model Compression for On-device Natural Language Understanding ( http://arxiv.org/abs/2012.00124v1 )

ライセンス: CC BY 4.0
Kanthashree Mysore Sathyendra, Samridhi Choudhary, Leah Nicolich-Henkin(参考訳) 本稿では,神経自然言語理解モデル(neural natural language understanding:nlu)モデルの極端な圧縮のための手法を提案し,実験を行う。 NLUタスク学習と協調して単語埋め込み圧縮を行うタスク認識エンドツーエンド圧縮手法を提案する。 我々は,大語彙の多種多様なインテントで学習した大規模商用nluシステムについて,実験結果を示す。 提案手法は、ベースラインの範囲を上回り、予測性能の3.7%未満で97.4%の圧縮率を達成している。 解析の結果,下流タスクからの信号は,性能の低下を最小限に抑えた効率的な圧縮に重要であることが示された。

In this paper, we propose and experiment with techniques for extreme compression of neural natural language understanding (NLU) models, making them suitable for execution on resource-constrained devices. We propose a task-aware, end-to-end compression approach that performs word-embedding compression jointly with NLU task learning. We show our results on a large-scale, commercial NLU system trained on a varied set of intents with huge vocabulary sizes. Our approach outperforms a range of baselines and achieves a compression rate of 97.4% with less than 3.7% degradation in predictive performance. Our analysis indicates that the signal from the downstream task is important for effective compression with minimal degradation in performance.
翻訳日:2021-06-06 17:36:20 公開日:2020-11-30
# (参考訳) HydroNet:分子データの予測および生成モデルにおける分子間相互作用と構造モチーフの保存のためのベンチマークタスク [全文訳有]

HydroNet: Benchmark Tasks for Preserving Intermolecular Interactions and Structural Motifs in Predictive and Generative Models for Molecular Data ( http://arxiv.org/abs/2012.00131v1 )

ライセンス: CC BY 4.0
Sutanay Choudhury, Jenna A. Bilbrey, Logan Ward, Sotiris S. Xantheas, Ian Foster, Joseph P. Heindel, Ben Blaiszik, Marcus E. Schwarting(参考訳) 分子間相互作用と長距離相互作用は、遺伝子調節、量子物質のトポロジー状態、電池中の電解質輸送、水の普遍的な溶媒和特性といった様々な現象の中心である。 化学問題に対する機械学習アプローチにおける分子間相互作用と構造モチーフの保存には,水素結合相互作用によって保持された495万の水クラスターのデータセットを用いて,より広い範囲の構造パターンを導出した。 データセットは、さまざまな機械学習プラクティスに対応するために、空間座標と2種類のグラフ表現を提供する。

Intermolecular and long-range interactions are central to phenomena as diverse as gene regulation, topological states of quantum materials, electrolyte transport in batteries, and the universal solvation properties of water. We present a set of challenge problems for preserving intermolecular interactions and structural motifs in machine-learning approaches to chemical problems, through the use of a recently published dataset of 4.95 million water clusters held together by hydrogen bonding interactions and resulting in longer range structural patterns. The dataset provides spatial coordinates as well as two types of graph representations, to accommodate a variety of machine-learning practices.
翻訳日:2021-06-06 17:22:56 公開日:2020-11-30
# (参考訳) 特徴選択法の選択における安定性基準の利用による微生物データの再現性向上 [全文訳有]

Utilizing stability criteria in choosing feature selection methods yields reproducible results in microbiome data ( http://arxiv.org/abs/2012.00001v1 )

ライセンス: CC BY 4.0
Lingjing Jiang, Niina Haiminen, Anna-Paola Carrieri, Shi Huang, Yoshiki Vazquez-Baeza, Laxmi Parida, Ho-Cheol Kim, Austin D. Swafford, Rob Knight, Loki Natarajan(参考訳) マイクロバイオームデータ分析には特徴選択が不可欠であるが, マイクロバイオームのデータセットは高次元, 過小評価, スパース, 構成的であるため, 特に困難である。 近年,上記のデータ特性に対処する特徴選択手法の開発が盛んに行われているが,ほぼすべての手法がモデル予測の性能に基づいて評価されている。 しかし、その評価基準がどの程度適切かという根本的な疑問に答えるためにはほとんど注意が払われていない。 ほとんどの特徴選択法はモデル適合性を制御するが、特徴の有意義な部分集合を識別する能力は単に予測精度に基づいて評価することはできない。 トレーニングデータの小さな変更が選択した機能サブセットに大きな変化をもたらす場合、アルゴリズムが発見した生物学的特徴の多くは、実際の生物学的信号ではなく、データアーティファクトである可能性が高い。 この重要かつ再現可能な特徴を特定する必要性は、データの摂動に対するメソッドの頑健さを定量化する安定性などの再現性評価基準を導いた。 本稿では,汎用モデル予測指標mseの性能と再現性基準の安定性を比較し,シミュレーションおよび実験的マイクロバイオーム応用における4つの特徴選択手法の評価を行った。 MSEよりも安定度が望ましい特徴選択基準であると結論付け,特徴選択法の再現性をよりよく評価する。

Feature selection is indispensable in microbiome data analysis, but it can be particularly challenging as microbiome data sets are high-dimensional, underdetermined, sparse and compositional. Great efforts have recently been made on developing new methods for feature selection that handle the above data characteristics, but almost all methods were evaluated based on performance of model predictions. However, little attention has been paid to address a fundamental question: how appropriate are those evaluation criteria? Most feature selection methods often control the model fit, but the ability to identify meaningful subsets of features cannot be evaluated simply based on the prediction accuracy. If tiny changes to the training data would lead to large changes in the chosen feature subset, then many of the biological features that an algorithm has found are likely to be a data artifact rather than real biological signal. This crucial need of identifying relevant and reproducible features motivated the reproducibility evaluation criterion such as Stability, which quantifies how robust a method is to perturbations in the data. In our paper, we compare the performance of popular model prediction metric MSE and proposed reproducibility criterion Stability in evaluating four widely used feature selection methods in both simulations and experimental microbiome applications. We conclude that Stability is a preferred feature selection criterion over MSE because it better quantifies the reproducibility of the feature selection method.
翻訳日:2021-06-06 16:50:24 公開日:2020-11-30
# (参考訳) 言語障害克服のための転職者への翻訳者の正確かつスケーラブルなマッチング [全文訳有]

Accurate and Scalable Matching of Translators to Displaced Persons for Overcoming Language Barriers ( http://arxiv.org/abs/2012.02595v1 )

ライセンス: CC BY 4.0
Divyansh Agarwal, Yuta Baba, Pratik Sachdeva, Tanya Tandon, Thomas Vetterli, Aziz Alghunaim(参考訳) 発展途上国の住民は、人道的危機の結果として、不均等に変位に悩まされる。 このような危機の間、言語障壁は転職者へのサービス提供を援助労働者に妨げた。 レジリエンスを構築するためには、可能な言語のホストに対して、柔軟性と堅牢性が必要です。 \textit{tarjimly} は、バイリンガルのボランティアと、翻訳を必要とする人または労働者の移動をマッチングできるプラットフォームを提供することで、障壁を克服することを目的としている。 しかし、Tarjimlyの大規模なトランスレータプールは、リクエストごとに正しいトランスレータを選択するという課題を伴っている。 本稿では,大規模なボランティアに翻訳者要求をマッチングする機械学習システムについて述べる。 単純なロジスティック回帰は,容易に計算可能な機能上で動作し,翻訳者の応答を正確に予測しランク付けできることを実証する。 デプロイメントでは、この軽量システムはリクエストの82\%と、平均応答時間59秒に一致し、エイドワーカーは、解雇された人をサポートするサービスを加速することができる。

Residents of developing countries are disproportionately susceptible to displacement as a result of humanitarian crises. During such crises, language barriers impede aid workers in providing services to those displaced. To build resilience, such services must be flexible and robust to a host of possible languages. \textit{Tarjimly} aims to overcome the barriers by providing a platform capable of matching bilingual volunteers to displaced persons or aid workers in need of translating. However, Tarjimly's large pool of translators comes with the challenge of selecting the right translator per request. In this paper, we describe a machine learning system that matches translator requests to volunteers at scale. We demonstrate that a simple logistic regression, operating on easily computable features, can accurately predict and rank translator response. In deployment, this lightweight system matches 82\% of requests with a median response time of 59 seconds, allowing aid workers to accelerate their services supporting displaced persons.
翻訳日:2021-06-06 16:13:41 公開日:2020-11-30
# (参考訳) MUSCLE:相互情報最大化を用いた同時教師なし学習による半教師付き学習の強化 [全文訳有]

MUSCLE: Strengthening Semi-Supervised Learning Via Concurrent Unsupervised Learning Using Mutual Information Maximization ( http://arxiv.org/abs/2012.00150v1 )

ライセンス: CC BY 4.0
Hanchen Xie, Mohamed E. Hussein, Aram Galstyan, Wael Abd-Almageed(参考訳) ディープニューラルネットワークは強力なパラメータ化された機械学習モデルであり、教師付き学習タスクでうまく機能することが示されている。 しかしながら、ディープニューラルネットワークのトレーニングには、非常に大量のラベル付きデータが必要となる。 ラベルなしデータの少ないデータを使ってニューラルネットワークを訓練するために、いくつかの半教師付き学習手法が提案されている。 これらの半教師付き手法の性能はラベル付きデータのサイズが減少するにつれて著しく低下する。 相互情報を用いた教師なし学習と半教師なし学習を併用するハイブリッド学習手法であるMUSCLE(Unsupervised & Semi-supervised Concurrent LEarning)を導入する。 MUSCLEはニューラルネットワークのスタンドアロントレーニングスキームとして使用することができ、他の学習手法にも組み込むことができる。 提案手法は,CIFAR-10,CIFAR-100, Mini-Imagenetなど,いくつかの標準ベンチマークにおいて,その性能に優れることを示す。 さらに、ラベル付きデータ量の減少やバイアスの存在により、性能向上は一貫して増加する。 また,ラベルなしデータのみを事前学習したモデルにおいて,微調整段階での筋力により分類性能が向上する可能性が示唆された。

Deep neural networks are powerful, massively parameterized machine learning models that have been shown to perform well in supervised learning tasks. However, very large amounts of labeled data are usually needed to train deep neural networks. Several semi-supervised learning approaches have been proposed to train neural networks using smaller amounts of labeled data with a large amount of unlabeled data. The performance of these semi-supervised methods significantly degrades as the size of labeled data decreases. We introduce Mutual-information-b ased Unsupervised & Semi-supervised Concurrent LEarning (MUSCLE), a hybrid learning approach that uses mutual information to combine both unsupervised and semi-supervised learning. MUSCLE can be used as a stand-alone training scheme for neural networks, and can also be incorporated into other learning approaches. We show that the proposed hybrid model outperforms state of the art on several standard benchmarks, including CIFAR-10, CIFAR-100, and Mini-Imagenet. Furthermore, the performance gain consistently increases with the reduction in the amount of labeled data, as well as in the presence of bias. We also show that MUSCLE has the potential to boost the classification performance when used in the fine-tuning phase for a model pre-trained only on unlabeled data.
翻訳日:2021-06-06 16:07:43 公開日:2020-11-30
# (参考訳) グラディエントDescentが学習したモデルはすべてカーネルマシン [全文訳有]

Every Model Learned by Gradient Descent Is Approximately a Kernel Machine ( http://arxiv.org/abs/2012.00152v1 )

ライセンス: CC BY 4.0
Pedro Domingos(参考訳) ディープラーニングの成功は、他の学習方法のような手作りの機能に頼るのではなく、データの新しい表現を自動的に発見する能力に起因することが多い。 しかし, 標準勾配勾配アルゴリズムで学習した深層ネットワークは, 単にデータを記憶し, 類似性関数(カーネル)を介して直接予測する学習手法であるカーネルマシンと数学的にほぼ同値であることを示す。 これにより、深層ネットワーク重みの解釈性が大幅に向上し、トレーニング例の重み付けとなることが分かる。 ネットワークアーキテクチャは、ターゲット関数の知識をカーネルに組み込む。 この理解の向上は、学習アルゴリズムの改善につながるはずだ。

Deep learning's successes are often attributed to its ability to automatically discover new representations of the data, rather than relying on handcrafted features like other learning methods. We show, however, that deep networks learned by the standard gradient descent algorithm are in fact mathematically approximately equivalent to kernel machines, a learning method that simply memorizes the data and uses it directly for prediction via a similarity function (the kernel). This greatly enhances the interpretability of deep network weights, by elucidating that they are effectively a superposition of the training examples. The network architecture incorporates knowledge of the target function into the kernel. This improved understanding should lead to better learning algorithms.
翻訳日:2021-06-06 15:53:31 公開日:2020-11-30
# (参考訳) マルチフィジィマルチフィジカルデータを用いたポロ弾性問題に対するハイブリッドデータ駆動/モデルベースアプローチの高速化

An accelerated hybrid data-driven/model-ba sed approach for poroelasticity problems with multi-fidelity multi-physics data ( http://arxiv.org/abs/2012.00165v1 )

ライセンス: CC BY 4.0
Bahador Bahmani, WaiChing Sun(参考訳) 本稿では,多弾性問題を解くためのハイブリッドモデル/モデルフリーデータ駆動手法を提案する。 kirchdoerfer と ortiz (2016) を起源とするデータ駆動型モデリングフレームワークを拡張し,多孔質多孔質媒体の混合拡散変形を異なるデータ量でシミュレート可能な,モデルフリーと2つのハイブリッドモデルベース/データ駆動型定式法を提案する。 モデルフリーデータ探索の効率を向上させるため,k次元木探索により高速化された距離最小化アルゴリズムを提案する。 固体弾性と流体構成応答の異なるフィダリティを扱うために, 固体と流体ソルバのいずれでも, 可用性と特性に応じてモデルベースからモデルフリーアプローチに切り替えることができるハイブリダライズモデルを提案する。 数値実験は,提案モデルの実装を検証し,他の代替モデルと比較するために設計されている。

We present a hybrid model/model-free data-driven approach to solve poroelasticity problems. Extending the data-driven modeling framework originated from Kirchdoerfer and Ortiz (2016), we introduce one model-free and two hybrid model-based/data-dri ven formulations capable of simulating the coupled diffusion-deformatio n of fluid-infiltrating porous media with different amounts of available data. To improve the efficiency of the model-free data search, we introduce a distance-minimized algorithm accelerated by a k-dimensional tree search. To handle the different fidelities of the solid elasticity and fluid hydraulic constitutive responses, we introduce a hybridized model in which either the solid and the fluid solver can switch from a model-based to a model-free approach depending on the availability and the properties of the data. Numerical experiments are designed to verify the implementation and compare the performance of the proposed model to other alternatives.
翻訳日:2021-06-06 15:33:27 公開日:2020-11-30
# (参考訳) スパースニューラルネットワークの構造を分解する [全文訳有]

Deconstructing the Structure of Sparse Neural Networks ( http://arxiv.org/abs/2012.00172v1 )

ライセンス: CC BY 4.0
Maxwell Van Gelder, Mitchell Wortsman, Kiana Ehsani(参考訳) スパースニューラルネットワークは広く研究されているが、主に精度に焦点を当てている。 本研究では,ネットワーク構造に着目し,3つのアルゴリズムを解析する。 まず,構造が持続し,重みが異なるランダム初期化にリセットされた場合のパフォーマンスを測定し,宝くじを分解する実験を延長する(zhou et al., 2019)。 この実験により、精度は構造のみから得られることが明らかとなった。 第2に、構造的ロバスト性を測定するために、スパースニューラルネットワークの感度を調べ、トレーニング後のさらなる刈り取りを行い、アルゴリズム間の激しいコントラストを見出した。 最後に,最近の動的スパーシティアルゴリズムでは,構造学習の早期発生について検討する。 1つのエポック後でも構造はほとんど決定され、トレーニングを通して密度勾配を必要としないより効率的なアルゴリズムが提案できることがわかった。 スパースニューラルネットワークのアルゴリズムを振り返り、異なるレンズからの性能を分析しながら、いくつかの興味深い特性と将来の研究への有望な方向性を明らかにした。

Although sparse neural networks have been studied extensively, the focus has been primarily on accuracy. In this work, we focus instead on network structure, and analyze three popular algorithms. We first measure performance when structure persists and weights are reset to a different random initialization, thereby extending experiments in Deconstructing Lottery Tickets (Zhou et al., 2019). This experiment reveals that accuracy can be derived from structure alone. Second, to measure structural robustness we investigate the sensitivity of sparse neural networks to further pruning after training, finding a stark contrast between algorithms. Finally, for a recent dynamic sparsity algorithm we investigate how early in training the structure emerges. We find that even after one epoch the structure is mostly determined, allowing us to propose a more efficient algorithm which does not require dense gradients throughout training. In looking back at algorithms for sparse neural networks and analyzing their performance from a different lens, we uncover several interesting properties and promising directions for future research.
翻訳日:2021-06-06 15:24:28 公開日:2020-11-30
# 潜在意味空間における短いテキストの権威的クラスタリングのためのフレームワーク

A Framework for Authorial Clustering of Shorter Texts in Latent Semantic Spaces ( http://arxiv.org/abs/2011.15038v1 )

ライセンス: Link先を確認
Rafi Trad, Myra Spiliopoulou(参考訳) 権威クラスタリングは、著者の執筆スタイルや主題的好みの事前の肯定的な例のない、同一の著者または著者のチームによって書かれた文書をグループ化する。 短いテキスト(通常従来の文書よりも短いパラグラフ長のテキスト)の著者によるクラスタリングでは、文書表現は特に重要であり、非常に高次元の特徴空間はデータ空間を生じ、次元の呪いのような深刻な結果に悩まされる一方、特徴選択は情報損失につながる可能性がある。 非パラメトリックなトピックモデリングから導出した潜在特徴空間におけるコンパクトなデータ表現を利用する高レベルフレームワークを提案する。 a) 完全に教師されない、(b) 少数の短いテキストが同じ著者(マスリンクの制約)に属していることが知られている半教師の2つのシナリオで、権威的クラスタが識別される。 3つの言語と2つのジャンルの120のコレクションを用いた実験を報告し、トピックベースの潜在機能空間が、最先端に比べて次元を1500倍に削減しながら、有望なパフォーマンスを提供することを示した。 また、著者の正確な数(すなわち、著者数)について事前の知識が得られている。 権威あるクラスタ)は、追加の品質にはあまり寄与しないが、権威あるクラスタの制約に関する知識の不足は、この困難なタスクの前に、パフォーマンスの改善を明確にする。 標準的な指標による徹底的な実験は、権威的クラスタリング、特に短いテキストで改善の余地がまだ残っていることを示している。

Authorial clustering involves the grouping of documents written by the same author or team of authors without any prior positive examples of an author's writing style or thematic preferences. For authorial clustering on shorter texts (paragraph-length texts that are typically shorter than conventional documents), the document representation is particularly important: very high-dimensional feature spaces lead to data sparsity and suffer from serious consequences like the curse of dimensionality, while feature selection may lead to information loss. We propose a high-level framework which utilizes a compact data representation in a latent feature space derived with non-parametric topic modeling. Authorial clusters are identified thereafter in two scenarios: (a) fully unsupervised and (b) semi-supervised where a small number of shorter texts are known to belong to the same author (must-link constraints) or not (cannot-link constraints). We report on experiments with 120 collections in three languages and two genres and show that the topic-based latent feature space provides a promising level of performance while reducing the dimensionality by a factor of 1500 compared to state-of-the-arts. We also demonstrate that, while prior knowledge on the precise number of authors (i.e. authorial clusters) does not contribute much to additional quality, little knowledge on constraints in authorial clusters memberships leads to clear performance improvements in front of this difficult task. Thorough experimentation with standard metrics indicates that there still remains an ample room for improvement for authorial clustering, especially with shorter texts
翻訳日:2021-06-06 15:04:51 公開日:2020-11-30
# RegFlow: 将来予測のための確率的フローベース回帰

RegFlow: Probabilistic Flow-based Regression for Future Prediction ( http://arxiv.org/abs/2011.14620v1 )

ライセンス: Link先を確認
Maciej Zi\k{e}ba, Marcin Przewi\k{e}\'zlikowski, Marek \'Smieja, Jacek Tabor, Tomasz Trzcinski, Przemys{\l}aw Spurek(参考訳) システムの将来の状態や動作を予測することは、特に人間のモデリング行動のような複雑で非決定論的シナリオの範囲において、知能の基本的な、しかし未解決の課題である。 既存のアプローチは、将来の状態の一様性に関する強い仮定の下で結果を与えるか、あるいは少なくとも実生活条件に適さない特定の確率分布を仮定する。 本研究では,モダリティや根底確率分布に関する制約をほとんど持たず,将来の予測をモデル化できるロバストで柔軟な確率フレームワークを提案する。 この目標を達成するために、ハイパーネットワークアーキテクチャを活用して、連続正規化フローモデルをトレーニングします。 RegFlowと呼ばれる結果のメソッドは、いくつかのベンチマークデータセットで最先端の結果を達成する。

Predicting future states or actions of a given system remains a fundamental, yet unsolved challenge of intelligence, especially in the scope of complex and non-deterministic scenarios, such as modeling behavior of humans. Existing approaches provide results under strong assumptions concerning unimodality of future states, or, at best, assuming specific probability distributions that often poorly fit to real-life conditions. In this work we introduce a robust and flexible probabilistic framework that allows to model future predictions with virtually no constrains regarding the modality or underlying probability distribution. To achieve this goal, we leverage a hypernetwork architecture and train a continuous normalizing flow model. The resulting method dubbed RegFlow achieves state-of-the-art results on several benchmark datasets, outperforming competing approaches by a significant margin.
翻訳日:2021-06-06 15:04:13 公開日:2020-11-30
# レート削減によるインクリメンタル学習

Incremental Learning via Rate Reduction ( http://arxiv.org/abs/2011.14593v1 )

ライセンス: Link先を確認
Ziyang Wu, Christina Baek, Chong You, Yi Ma(参考訳) 現在のディープラーニングアーキテクチャは、新しいクラスで漸進的にトレーニングされた場合、以前の学習したクラスに関する知識の保持に失敗し、破滅的な忘れに苦しむ。 ディープラーニング手法が直面する基本的な障害は、ディープラーニングモデルが“ブラックボックス”として最適化されていることだ。 そこで本研究では,ネットワークの各層がバック伝搬を伴わずに明示的に計算される,レート低減の原理に基づく代替の「ホワイトボックス」アーキテクチャの活用を提案する。 このパラダイムの下では、事前学習されたネットワークと新しいデータクラスを前提として、過去のクラスと新しいクラスとの共同トレーニングをエミュレートする新しいネットワークを構築することができることを示す。 最後に,提案する学習アルゴリズムは分類性能の低下が著しく減少し,mnistとcifar-10のアートメソッドが有意な差を示し,複雑な画像データにおいても「ホワイトボックス」アルゴリズムを用いたインクリメンタル学習を正当化することを示した。

Current deep learning architectures suffer from catastrophic forgetting, a failure to retain knowledge of previously learned classes when incrementally trained on new classes. The fundamental roadblock faced by deep learning methods is that deep learning models are optimized as "black boxes," making it difficult to properly adjust the model parameters to preserve knowledge about previously seen data. To overcome the problem of catastrophic forgetting, we propose utilizing an alternative "white box" architecture derived from the principle of rate reduction, where each layer of the network is explicitly computed without back propagation. Under this paradigm, we demonstrate that, given a pre-trained network and new data classes, our approach can provably construct a new network that emulates joint training with all past and new classes. Finally, our experiments show that our proposed learning algorithm observes significantly less decay in classification performance, outperforming state of the art methods on MNIST and CIFAR-10 by a large margin and justifying the use of "white box" algorithms for incremental learning even for sufficiently complex image data.
翻訳日:2021-06-06 15:03:59 公開日:2020-11-30
# 事前流れ変動オートエンコーダ:非侵入負荷モニタリングのための密度推定モデル

Prior Flow Variational Autoencoder: A density estimation model for Non-Intrusive Load Monitoring ( http://arxiv.org/abs/2011.14870v1 )

ライセンス: Link先を確認
Luis Felipe M.O. Henriques, Eduardo Morgan, Sergio Colcher, Ruy Luiz Milidi\'u(参考訳) 非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)は、電力負荷のアプライアンスを1メートル単位で測定した全消費から推定する計算手法である。 本稿では,各機器の電力需要を推定するために,条件付き変分正規化フローモデルと条件付き変分オートエンコーダを結合する,ディープニューラルネットワークに基づく条件付き密度推定モデルを提案する。 結果として得られるモデルは、Presideed Flow Variational Autoencoderまたは単純PFVAEと呼ばれる。 したがって、アプライアンスごとに1つのモデルを持つ代わりに、結果のモデルは、アプライアンス毎の電力需要を一度に見積もる責任を負う。 我々は,ブラジルの養鶏施設から供給される電力需要対策からなる公開データセットで,提案モデルを訓練し,評価する。 得られた正規化分解誤差(NDE)と信号集約誤差(SAE)を同一データセット上の前の作業値と比較することにより,提案モデルの品質を評価する。 提案手法は高い競合性を実現し,データセットに属する8台のマシンのうち6台では,ndeでは28%から81%,saeでは27%から86%という一貫した改善が観察されている。

Non-Intrusive Load Monitoring (NILM) is a computational technique to estimate the power loads' appliance-by-applian ce from the whole consumption measured by a single meter. In this paper, we propose a conditional density estimation model, based on deep neural networks, that joins a Conditional Variational Autoencoder with a Conditional Invertible Normalizing Flow model to estimate the individual appliance's power demand. The resulting model is called Prior Flow Variational Autoencoder or, for simplicity PFVAE. Thus, instead of having one model per appliance, the resulting model is responsible for estimating the power demand, appliance-by-applian ce, at once. We train and evaluate our proposed model in a publicly available dataset composed of power demand measures from a poultry feed factory located in Brazil. The proposed model's quality is evaluated by comparing the obtained normalized disaggregation error (NDE) and signal aggregated error (SAE) with the previous work values on the same dataset. Our proposal achieves highly competitive results, and for six of the eight machines belonging to the dataset, we observe consistent improvements that go from 28% up to 81% in NDE and from 27% up to 86% in SAE.
翻訳日:2021-06-06 15:03:12 公開日:2020-11-30
# 3次元mri画像アルツハイマー病分類のための動的画像

Dynamic Image for 3D MRI Image Alzheimer's Disease Classification ( http://arxiv.org/abs/2012.00119v1 )

ライセンス: Link先を確認
Xin Xing, Gongbo Liang, Hunter Blanton, Muhammad Usman Rafique, Chris Wang, Ai-Ling Lin, Nathan Jacobs(参考訳) 3次元mri画像アルツハイマー病分類に2次元cnnアーキテクチャを適用することを提案する。 3D畳み込みニューラルネットワーク(CNN)のトレーニングには時間と計算コストがかかる。 我々は3次元MRI画像の体積を2次元画像に変換して2次元CNNの入力として利用する。 提案するcnnモデルは3dモデルよりもアルツハイマー病の分類精度が9.5\%向上することを示した。 また、3d cnnモデルと比較してトレーニング時間の20%しか必要とせず,効率的なトレーニングが可能であった。 コードは、https://github.com/u kyvision/alzheimer-p roject。

We propose to apply a 2D CNN architecture to 3D MRI image Alzheimer's disease classification. Training a 3D convolutional neural network (CNN) is time-consuming and computationally expensive. We make use of approximate rank pooling to transform the 3D MRI image volume into a 2D image to use as input to a 2D CNN. We show our proposed CNN model achieves $9.5\%$ better Alzheimer's disease classification accuracy than the baseline 3D models. We also show that our method allows for efficient training, requiring only 20% of the training time compared to 3D CNN models. The code is available online: https://github.com/U kyVision/alzheimer-p roject.
翻訳日:2021-06-06 15:02:51 公開日:2020-11-30
# 確率的経路積分型微分推定最大化アルゴリズム

A Stochastic Path-Integrated Differential EstimatoR Expectation Maximization Algorithm ( http://arxiv.org/abs/2012.01929v1 )

ライセンス: Link先を確認
Gersende Fort (IMT), Eric Moulines (X-DEP-MATHAPP), Hoi-To Wai(参考訳) 予測最大化(EM)アルゴリズムは、回帰器と専門家の混合を含む潜在変数モデルにおける推論において重要な要素である。 本稿では,サイズが$n$,$n \gg 1$のトレーニングセットから推論するために,新しいemアルゴリズムである \texttt{spider-em} を導入する。 我々のアルゴリズムの核心は、確率的経路積分微分推定器({\tt spider})の手法を応用し、 {\sf e}-ステップにおける条件付き期待値の完全な推定器である。 We derive finite-time complexity bounds for smooth non-convex likelihood: we show that for convergence to an $\epsilon$-approxima te stationary point, the complexity scales as $K_{\operatorname{Opt}} (n,\epsilon )={\cal O}(\epsilon^{-1})$ and $K_{\operatorname{CE}}( n,\epsilon ) = n+ \sqrt{n} {\cal O}(\epsilon^{-1} )$, where $K_{\operatorname{Opt}}( n,\epsilon )$ and $K_{\operatorname{CE}}(n, \epsilon )$ are respectively the number of {\sf M}-steps and the number of per-sample conditional expectations evaluations. これにより最先端のアルゴリズムが改善される。 数値的な結果は我々の発見を裏付ける。

The Expectation Maximization (EM) algorithm is of key importance for inference in latent variable models including mixture of regressors and experts, missing observations. This paper introduces a novel EM algorithm, called \texttt{SPIDER-EM}, for inference from a training set of size $n$, $n \gg 1$. At the core of our algorithm is an estimator of the full conditional expectation in the {\sf E}-step, adapted from the stochastic path-integrated differential estimator ({\tt SPIDER}) technique. We derive finite-time complexity bounds for smooth non-convex likelihood: we show that for convergence to an $\epsilon$-approxima te stationary point, the complexity scales as $K_{\operatorname{Opt}} (n,\epsilon )={\cal O}(\epsilon^{-1})$ and $K_{\operatorname{CE}}( n,\epsilon ) = n+ \sqrt{n} {\cal O}(\epsilon^{-1} )$, where $K_{\operatorname{Opt}}( n,\epsilon )$ and $K_{\operatorname{CE}}(n, \epsilon )$ are respectively the number of {\sf M}-steps and the number of per-sample conditional expectations evaluations. This improves over the state-of-the-art algorithms. Numerical results support our findings.
翻訳日:2021-06-06 15:02:22 公開日:2020-11-30
# 映像解説の現状と課題の包括的考察

A Comprehensive Review on Recent Methods and Challenges of Video Description ( http://arxiv.org/abs/2011.14752v1 )

ライセンス: Link先を確認
Alok Singh, Thoudam Doren Singh, Sivaji Bandyopadhyay(参考訳) ビデオ記述には、ビデオ内のアクション、イベント、オブジェクトの自然言語記述の生成が含まれる。 視覚障害者のための言語とビジョンのギャップを埋めること、コンテンツに基づくタイトルの自動提案、コンテンツに基づくビデオ閲覧、ビデオガイドによる機械翻訳[86]など、ビデオ記述のさまざまな応用があり、過去10年間、ビデオ記述のアプローチや手法、評価メトリクス、データセットなどの分野でいくつかの研究が行われてきた。 ビデオ記述タスクの進捗を分析するためには,最近のディープラーニングアプローチを中心に,ビデオ記述アプローチの全フェーズをカバーする包括的調査が必要である。 本稿では,映像記述手法の段階,映像記述のためのデータセット,評価指標,映像記述研究のモチベーションとなるオープンコンペティション,この分野におけるオープンチャレンジ,今後の研究方向性について総合的な調査を行う。 本調査では,各データセットに対して提案する最先端のアプローチについて,その長所と短所を概説する。 この研究領域の成長のためには、多数のベンチマークデータセットが利用できることが基本的なニーズである。 さらに、すべてのデータセットをopen domain datasetとdomain-specific datasetの2つのクラスに分類します。 本調査から,コンピュータビジョンと自然言語処理の交差点に映像記述のタスクが存在するため,この分野の課題は急速に進展していることが明らかとなった。 しかし、ビデオ記述の作業は、視覚特徴の質に影響を与える類似のフレームによる冗長性、より多様なコンテンツを含むデータセットの可用性、効果的な評価指標の可用性など、さまざまな課題により、飽和段階には程遠い。

Video description involves the generation of the natural language description of actions, events, and objects in the video. There are various applications of video description by filling the gap between languages and vision for visually impaired people, generating automatic title suggestion based on content, browsing of the video based on the content and video-guided machine translation [86] etc.In the past decade, several works had been done in this field in terms of approaches/methods for video description, evaluation metrics,and datasets. For analyzing the progress in the video description task, a comprehensive survey is needed that covers all the phases of video description approaches with a special focus on recent deep learning approaches. In this work, we report a comprehensive survey on the phases of video description approaches, the dataset for video description, evaluation metrics, open competitions for motivating the research on the video description, open challenges in this field, and future research directions. In this survey, we cover the state-of-the-art approaches proposed for each and every dataset with their pros and cons. For the growth of this research domain,the availability of numerous benchmark dataset is a basic need. Further, we categorize all the dataset into two classes: open domain dataset and domain-specific dataset. From our survey, we observe that the work in this field is in fast-paced development since the task of video description falls in the intersection of computer vision and natural language processing. But still, the work in the video description is far from saturation stage due to various challenges like the redundancy due to similar frames which affect the quality of visual features, the availability of dataset containing more diverse content and availability of an effective evaluation metric.
翻訳日:2021-06-06 15:02:02 公開日:2020-11-30
# 音声とテキストによるアルツハイマー病のマルチモーダル検出

Multi-Modal Detection of Alzheimer's Disease from Speech and Text ( http://arxiv.org/abs/2012.00096v1 )

ライセンス: Link先を確認
Amish Mittal, Sourav Sahoo, Arnhav Datar, Juned Kadiwala, Hrithwik Shalu and Jimson Mathew(参考訳) 他の神経認知障害とは異なり、in vivoではadの正確な診断がないため、アルツハイマー病(ad)の予防段階の信頼できる検出はいまだに困難である。 このような状況下では, 軽度AD状態においても, 言語障害が頻発することが少なくない。 音声と対応するテキストを同時に利用してADを検出するマルチモーダル深層学習法を提案する。 音声信号に対して,提案する畳み込みニューラルネットワーク(cnn)モデルである音声ベースネットワークは,最終予測のために合成された複数の音声セグメントの診断を予測する。 同様に、BERTから抽出したコンテキスト埋め込みとCNN生成した埋め込みを用いて、転写を分類する。 2つのモデルの個々の予測を組み合わせることで、最終的な分類を行う。 また,テキストベースモデルにおける手書き文字の代わりに自動音声認識(ASR)システム生成文字を用いた場合のモデル性能解析実験を行った。 提案手法は,Dementiabank Pitt corpus のトレーニングおよび評価において,85.3%のクロスバリデーション精度を実現する。

Reliable detection of the prodromal stages of Alzheimer's disease (AD) remains difficult even today because, unlike other neurocognitive impairments, there is no definitive diagnosis of AD in vivo. In this context, existing research has shown that patients often develop language impairment even in mild AD conditions. We propose a multimodal deep learning method that utilizes speech and the corresponding transcript simultaneously to detect AD. For audio signals, the proposed audio-based network, a convolutional neural network (CNN) based model, predicts the diagnosis for multiple speech segments, which are combined for the final prediction. Similarly, we use contextual embedding extracted from BERT concatenated with a CNN-generated embedding for classifying the transcript. The individual predictions of the two models are then combined to make the final classification. We also perform experiments to analyze the model performance when Automated Speech Recognition (ASR) system generated transcripts are used instead of manual transcription in the text-based model. The proposed method achieves 85.3% 10-fold cross-validation accuracy when trained and evaluated on the Dementiabank Pitt corpus.
翻訳日:2021-06-06 15:01:23 公開日:2020-11-30
# FCM-RDpA:Fzzy C-Means Clustering, Regularization, DropRule, Powerball AdaBeliefを用いたTSKファジィ回帰モデルの構築

FCM-RDpA: TSK Fuzzy Regression Model Construction Using Fuzzy C-Means Clustering, Regularization, DropRule, and Powerball AdaBelief ( http://arxiv.org/abs/2012.00060v1 )

ライセンス: Link先を確認
Zhenhua Shi, Dongrui Wu, Chenfeng Guo, Changming Zhao, Yuqi Cui, and Fei-Yue Wang(参考訳) 回帰問題に対する高木スゲノカン(TSK)ファジィシステムを効果的に最適化するために, 正規化, DropRule および AdaBound (MBGD-RDA) アルゴリズムを用いたミニバッチ勾配降下法を提案する。 本稿ではさらに,ファジィc-meansクラスタリングによるルール初期化におけるグリッド分割アプローチと,最近提案されたpowerballgradientとadabeliefを統合したpowerball adabeliefによるadaboundの置き換えにより,mbgd-rdaを改善するfcm-rdpaを提案する。 FCM-RDpA が MBGD-RDA よりも優れていること,特に特徴次元が高ければ, 様々なサイズと次元を持つ22の回帰データセットに対する大規模な実験を行った。 また,前置詞と前置詞の両方に拡張機能を用いることにより,さらに fcm-rdpa を改良する手法である fcm-rdpax を提案する。

To effectively optimize Takagi-Sugeno-Kang (TSK) fuzzy systems for regression problems, a mini-batch gradient descent with regularization, DropRule, and AdaBound (MBGD-RDA) algorithm was recently proposed. This paper further proposes FCM-RDpA, which improves MBGD-RDA by replacing the grid partition approach in rule initialization by fuzzy c-means clustering, and AdaBound by Powerball AdaBelief, which integrates recently proposed Powerball gradient and AdaBelief to further expedite and stabilize parameter optimization. Extensive experiments on 22 regression datasets with various sizes and dimensionalities validated the superiority of FCM-RDpA over MBGD-RDA, especially when the feature dimensionality is higher. We also propose an additional approach, FCM-RDpAx, that further improves FCM-RDpA by using augmented features in both the antecedents and consequents of the rules.
翻訳日:2021-06-06 15:01:07 公開日:2020-11-30
# 人間対教師付き機械学習:誰がより早くパターンを学ぶのか?

Human vs. supervised machine learning: Who learns patterns faster? ( http://arxiv.org/abs/2012.03661v1 )

ライセンス: Link先を確認
Niklas K\"uhl, Marc Goutier, Lucas Baier, Clemens Wolff, Dominik Martin(参考訳) 教師あり機械学習(SML)の能力、特に人間の能力と比較して、科学的研究やSMLの利用について論じられている。 本研究は,トレーニングデータに制限がある場合,人間と機械の学習性能がどう異なるかを示す。 我々は、44人の人間と3つの異なる機械学習アルゴリズムがラベル付きトレーニングデータのパターンを識別し、発見したパターンに従ってインスタンスをラベル付けする実験を設計した。 結果は、パフォーマンスとタスクの根底にあるパターンの間に高い依存性を示す。 人間はあらゆるパターンに対して比較的よく似ているが、機械は実験において様々なパターンに対して大きな性能差を示す。 実験で20の事例を見た後、人間のパフォーマンスはもはや改善せず、認知的過負荷の理論に関連している。 機械はゆっくりと学習するが、同じレベルに達することもあれば、使用済みパターンの4つのうち2つで人間を上回ることもある。 しかし、同じ結果を得るためには、機械は人間よりも多くのインスタンスを必要とする。 入力特徴を組み合わせることが困難であるため、他の2パターンに比べて機械の性能は比較的に低い。

The capabilities of supervised machine learning (SML), especially compared to human abilities, are being discussed in scientific research and in the usage of SML. This study provides an answer to how learning performance differs between humans and machines when there is limited training data. We have designed an experiment in which 44 humans and three different machine learning algorithms identify patterns in labeled training data and have to label instances according to the patterns they find. The results show a high dependency between performance and the underlying patterns of the task. Whereas humans perform relatively similarly across all patterns, machines show large performance differences for the various patterns in our experiment. After seeing 20 instances in the experiment, human performance does not improve anymore, which we relate to theories of cognitive overload. Machines learn slower but can reach the same level or may even outperform humans in 2 of the 4 of used patterns. However, machines need more instances compared to humans for the same results. The performance of machines is comparably lower for the other 2 patterns due to the difficulty of combining input features.
翻訳日:2021-06-06 15:00:45 公開日:2020-11-30
# モンテカルロの分散に基づく感度解析とガウス過程を用いた重要サンプリング信頼性評価

Variance based sensitivity analysis for Monte Carlo and importance sampling reliability assessment with Gaussian processes ( http://arxiv.org/abs/2011.15001v1 )

ライセンス: Link先を確認
Morgane Menz, Sylvain Dubreuil, J\'er\^ome Morio, Christian Gogu, Nathalie Bartoli and Marie Chiron(参考訳) 複雑な数値モデルを含む工学的問題に対する信頼性解析の実行は、計算コストが非常に高く、全体的な数値コストを削減するために高度なシミュレーション手法を必要とする。 ガウス過程に基づく信頼度解析のための能動的学習手法が,この計算コストを削減するための有望な方法として登場した。 これらの手法の学習段階は、パフォーマンス関数のモデルにガウス過程サロゲートモデルを構築し、ガウス過程の不確かさ構造を用いて反復的にこのサロゲートモデルを強化することである。 この目的のために、学習基準を定義する必要があります。 次に, 最終サロゲートモデルを用いて評価した集団の分類により, 故障確率の推定を行う。 したがって、故障確率の推定者は、サロゲートモデル近似とサンプリングベース積分法に関連する2つの異なる不確実性源を持っている。 本稿では,両不確実性源に対する故障推定器の確率の感度を定量化する手法を提案する。 この分析により、故障確率推定に関連するエラー全体を制御することができ、推定の精度基準を提供する。 したがって、この分析を統合したアクティブな学習手法により、大域的変動性が十分に低い場合に、エラーや停止の主原因を低減できる。 本手法は, モンテカルロ法と重要サンプリング法の両方で提案され, 希少事象確率の推定を改善することを目的としている。 提案した戦略の性能はいくつかの例で評価される。

Running a reliability analysis on engineering problems involving complex numerical models can be computationally very expensive, requiring advanced simulation methods to reduce the overall numerical cost. Gaussian process based active learning methods for reliability analysis have emerged as a promising way for reducing this computational cost. The learning phase of these methods consists in building a Gaussian process surrogate model of the performance function and using the uncertainty structure of the Gaussian process to enrich iteratively this surrogate model. For that purpose a learning criterion has to be defined. Then, the estimation of the probability of failure is typically obtained by a classification of a population evaluated on the final surrogate model. Hence, the estimator of the probability of failure holds two different uncertainty sources related to the surrogate model approximation and to the sampling based integration technique. In this paper, we propose a methodology to quantify the sensitivity of the probability of failure estimator to both uncertainty sources. This analysis also enables to control the whole error associated to the failure probability estimate and thus provides an accuracy criterion on the estimation. Thus, an active learning approach integrating this analysis to reduce the main source of error and stopping when the global variability is sufficiently low is introduced. The approach is proposed for both a Monte Carlo based method as well as an importance sampling based method, seeking to improve the estimation of rare event probabilities. Performance of the proposed strategy is then assessed on several examples.
翻訳日:2021-06-06 15:00:17 公開日:2020-11-30
# フローベース生成モデリングのための一般可逆変換

General Invertible Transformations for Flow-based Generative Modeling ( http://arxiv.org/abs/2011.15056v1 )

ライセンス: Link先を確認
Jakub M. Tomczak(参考訳) 本稿では,新しい可逆変換のクラスを提案する。 我々は、可逆論理と可逆ニューラルネットワークにおける多くのよく知られた可逆変換が、我々の提案から導出できることを示す。 次に、フローベース生成モデルの重要な構成要素である2つの新しい結合層を提案する。 トイデジットデータに関する予備実験において,これらの新しい結合層が整数離散流れ(idf)においてどのように用いられるかを示し,idfおよびrealnvpで使用される標準結合層よりも優れた結果を得ることを示す。

In this paper, we present a new class of invertible transformations. We indicate that many well-known invertible tranformations in reversible logic and reversible neural networks could be derived from our proposition. Next, we propose two new coupling layers that are important building blocks of flow-based generative models. In the preliminary experiments on toy digit data, we present how these new coupling layers could be used in Integer Discrete Flows (IDF), and that they achieve better results than standard coupling layers used in IDF and RealNVP.
翻訳日:2021-06-06 14:59:55 公開日:2020-11-30
# 深部アクション認識の1フレーム攻撃は目立たない

Just One Moment: Inconspicuous One Frame Attack on Deep Action Recognition ( http://arxiv.org/abs/2011.14585v1 )

ライセンス: Link先を確認
Jaehui Hwang, Jun-Hyuk Kim, Jun-Ho Choi, and Jong-Seok Lee(参考訳) 近年,映像に基づく行動認識タスクが広く研究されている。 本稿では,ビデオクリップの1フレームのみに目立たない摂動を付加する新たな1フレーム攻撃を用いて,敵の攻撃に対する深層学習に基づく行動認識手法の脆弱性について検討する。 本研究では,現状の行動認識モデルに対する一フレーム攻撃の有効性について検討し,そのモデル構造と摂動の知覚可能性の観点から脆弱性の徹底的な解析を行った。 提案手法は, 高い騙し率を示し, 主観的テストにより評価される人間の観察者に対する知覚可能な摂動をほとんど生み出さない。 さらに,普遍的な摂動を見出すビデオ非依存手法を提案する。

The video-based action recognition task has been extensively studied in recent years. In this paper, we study the vulnerability of deep learning-based action recognition methods against the adversarial attack using a new one frame attack that adds an inconspicuous perturbation to only a single frame of a given video clip. We investigate the effectiveness of our one frame attack on state-of-the-art action recognition models, along with thorough analysis of the vulnerability in terms of their model structure and perceivability of the perturbation. Our method shows high fooling rates and produces hardly perceivable perturbation to human observers, which is evaluated by a subjective test. In addition, we present a video-agnostic approach that finds a universal perturbation.
翻訳日:2021-06-06 14:59:13 公開日:2020-11-30
# 深層学習のための初期プールについて

On Initial Pools for Deep Active Learning ( http://arxiv.org/abs/2011.14696v1 )

ライセンス: Link先を確認
Akshay L Chandra, Sai Vikas Desai, Chaitanya Devaguptapu, Vineeth N Balasubramanian(参考訳) アクティブラーニング(al)テクニックは、与えられたタスクのモデルのトレーニングに必要なトレーニングデータを最小化することを目的としている。 プールベースのalテクニックは、小さな初期ラベル付きプールから始まり、ラベル付けのために最も有用なサンプルのバッチを反復的に選択する。 一般に、初期プールはランダムにサンプリングされ、alイテレーションをシードするためにラベル付けされる。 近年,alにおける各種問合せ関数のロバスト性評価に注目が集まっているが,初期ラベル付きプールの設計にはほとんど注目されていない。 近年,自己指導型・教師なし型の学習表現の成功を踏まえ,インテリジェントな初期ラベル付きプールが深いAL性能を向上できるかどうかを検討する。 我々は,自己監督型および非監督型戦略の利用を含む,インテリジェントな初期ラベル付きプールの深層AL手法への影響について検討する。 本提案では,実験の詳細,実装の詳細,データセット,性能指標,および計画されたアブレーション研究について述べる。 インテリジェントにサンプルされた初期プールがalパフォーマンスを改善するならば、追加のアノテーションなしでalパフォーマンスの向上、より少ないアノテーションコストでデータセットの開発、alのための教師なし学習メソッドの使用に関するさらなる研究の促進に、私たちの研究は前向きに貢献できるでしょう。

Active Learning (AL) techniques aim to minimize the training data required to train a model for a given task. Pool-based AL techniques start with a small initial labeled pool and then iteratively pick batches of the most informative samples for labeling. Generally, the initial pool is sampled randomly and labeled to seed the AL iterations. While recent` studies have focused on evaluating the robustness of various query functions in AL, little to no attention has been given to the design of the initial labeled pool. Given the recent successes of learning representations in self-supervised/unsu pervised ways, we propose to study if an intelligently sampled initial labeled pool can improve deep AL performance. We will investigate the effect of intelligently sampled initial labeled pools, including the use of self-supervised and unsupervised strategies, on deep AL methods. We describe our experimental details, implementation details, datasets, performance metrics as well as planned ablation studies in this proposal. If intelligently sampled initial pools improve AL performance, our work could make a positive contribution to boosting AL performance with no additional annotation, developing datasets with lesser annotation cost in general, and promoting further research in the use of unsupervised learning methods for AL.
翻訳日:2021-06-06 14:59:00 公開日:2020-11-30
# コスト関数アンロールを用いた教師なし光流

Unsupervised Optical Flow Using Cost Function Unrolling ( http://arxiv.org/abs/2011.14814v1 )

ライセンス: Link先を確認
Gal Lifshitz and Dan Raviv(参考訳) 2つの連続した画像間の動きを分析することは、コンピュータビジョンの基本的な課題の1つである。 ラベル付きデータの欠如により、損失関数は一貫性と滑らかさに分割され、自己教師付きトレーニングが可能になる。 本稿では, コスト関数の導出に焦点をあて, ハードL1のスムーズ性制約をソフトな多層反復スキームに伝達するアンローリング反復法を提案する。 より正確な勾配、特に非微分位置に近い位置は、ネットワークの収束を改善し、テストシナリオにおいて優れた結果をもたらす。 我々は MPI Sintel と KITTI 2015 の教師なし光フローベンチマークの両結果について報告する。 提供されたアプローチは、提示されたパイプラインに限らず、さまざまなアーキテクチャを強化するために使用できる。

Analyzing motion between two consecutive images is one of the fundamental tasks in computer vision. In the lack of labeled data, the loss functions are split into consistency and smoothness, allowing for self-supervised training. This paper focuses on the cost function derivation and presents an unrolling iterative approach, transferring the hard L1 smoothness constraint into a softer multi-layer iterative scheme. More accurate gradients, especially near non-differential positions, improve the network's convergence, providing superior results on tested scenarios. We report state-of-the-art results on both MPI Sintel and KITTI 2015 unsupervised optical flow benchmarks. The provided approach can be used to enhance various architectures and not limited just to the presented pipeline.
翻訳日:2021-06-06 14:58:26 公開日:2020-11-30
# 敵防御の評価と強化のための誘導敵攻撃

Guided Adversarial Attack for Evaluating and Enhancing Adversarial Defenses ( http://arxiv.org/abs/2011.14969v1 )

ライセンス: Link先を確認
Gaurang Sriramanan, Sravanti Addepalli, Arya Baburaj, R. Venkatesh Babu(参考訳) 敵対的攻撃の発展は、敵対的防御研究の進展に基礎を置いている。 効果的で効果的な攻撃は、防御の信頼性評価や堅牢なモデルの開発にも不可欠である。 逆攻撃はしばしば、射影勾配降下 (pgd) を用いた制約セット内のクロスエントロピー損失や最大マージン損失のような標準的損失を最大化することによって発生する。 本研究では,より適切な勾配方向を見いだし,攻撃効果を高め,より効率的な対向訓練へと導く標準損失に対する緩和項を導入する。 本稿では, クリーンイメージの関数マッピングを用いて, 敵生成を誘導し, より強力な攻撃をもたらすガイド・アタック(GAMA)を提案する。 我々は,複数攻撃に対する攻撃を評価し,既存攻撃と比較して性能が向上した。 さらに,攻撃発生と訓練の両面での緩和項を生かして,一段防衛における最先端性能を実現するガイド付き対人訓練(GAT)を提案する。

Advances in the development of adversarial attacks have been fundamental to the progress of adversarial defense research. Efficient and effective attacks are crucial for reliable evaluation of defenses, and also for developing robust models. Adversarial attacks are often generated by maximizing standard losses such as the cross-entropy loss or maximum-margin loss within a constraint set using Projected Gradient Descent (PGD). In this work, we introduce a relaxation term to the standard loss, that finds more suitable gradient-directions, increases attack efficacy and leads to more efficient adversarial training. We propose Guided Adversarial Margin Attack (GAMA), which utilizes function mapping of the clean image to guide the generation of adversaries, thereby resulting in stronger attacks. We evaluate our attack against multiple defenses and show improved performance when compared to existing attacks. Further, we propose Guided Adversarial Training (GAT), which achieves state-of-the-art performance amongst single-step defenses by utilizing the proposed relaxation term for both attack generation and training.
翻訳日:2021-06-06 14:58:02 公開日:2020-11-30
# 深層学習によるmri画像上軟骨欠損の診断の改善

Improved Diagnosis of Tibiofemoral Cartilage Defects on MRI Images Using Deep Learning ( http://arxiv.org/abs/2012.00144v1 )

ライセンス: Link先を確認
Gergo Merkely, Alireza Borjali, Molly Zgoda, Evan M. Farina, Simon Gortz, Orhun Muratoglu, Christian Lattermann, Kartik M. Varadarajan(参考訳) 背景:MRIは軟骨画像撮影における選択のモダリティであるが,診断性能はゴールド標準の膝関節鏡より変化し,有意に低かった。 近年、医学画像の自動解釈にディープラーニングが用いられており、診断精度と速度が向上している。 目的: 本研究の目的は, 膝関節MRI画像の解釈に応用した深層学習を用いて軟骨の欠陥を正確に同定できるかどうかを評価することである。 方法: 関節鏡下膝関節手術を行った症例(軟骨欠損207例, 軟骨欠損90例)のデータを解析した。 症例の鏡視下所見を術前mri画像と比較し, 分離軟骨欠損の有無について検討した。 我々は、MRI画像を分析するために3つの畳み込みニューラルネットワーク(CNN)を開発し、CNNの意思決定過程を可視化するために画像特異的な唾液マップを実装した。 cnnのパフォーマンスと人間の解釈を比較するために、経験豊富な整形外科医と整形外科患者に同じテストデータセットイメージを提供した。 結果:Saliency mapでは,CNNは意思決定過程におけるMRI画像における大腿骨関節軟骨の臨床的関連領域に焦点を当てることを学んだ。 片方のCNNは整形外科より高い成績を示し、より正確な診断はCNNが行った。 全てのCNNは整形外科患者より優れていた。 結論: CNNは, 今後, 関節鏡検査に代えて, 孤立性大腿骨軟骨欠損症を同定し, MRIの診断性能を高めるために用いられる。

Background: MRI is the modality of choice for cartilage imaging; however, its diagnostic performance is variable and significantly lower than the gold standard diagnostic knee arthroscopy. In recent years, deep learning has been used to automatically interpret medical images to improve diagnostic accuracy and speed. Purpose: The primary purpose of this study was to evaluate whether deep learning applied to the interpretation of knee MRI images can be utilized to identify cartilage defects accurately. Methods: We analyzed data from patients who underwent knee MRI evaluation and consequently had arthroscopic knee surgery (207 with cartilage defect, 90 without cartilage defect). Patients' arthroscopic findings were compared to preoperative MRI images to verify the presence or absence of isolated tibiofemoral cartilage defects. We developed three convolutional neural networks (CNNs) to analyze the MRI images and implemented image-specific saliency maps to visualize the CNNs' decision-making process. To compare the CNNs' performance against human interpretation, the same test dataset images were provided to an experienced orthopaedic surgeon and an orthopaedic resident. Results: Saliency maps demonstrated that the CNNs learned to focus on the clinically relevant areas of the tibiofemoral articular cartilage on MRI images during the decision-making processes. One CNN achieved higher performance than the orthopaedic surgeon, with two more accurate diagnoses made by the CNN. All the CNNs outperformed the orthopaedic resident. Conclusion: CNN can be used to enhance the diagnostic performance of MRI in identifying isolated tibiofemoral cartilage defects and may replace diagnostic knee arthroscopy in certain cases in the future.
翻訳日:2021-06-06 14:57:16 公開日:2020-11-30
# ReLUニューラルネットワークの局所線形属性

Locally Linear Attributes of ReLU Neural Networks ( http://arxiv.org/abs/2012.01940v1 )

ライセンス: Link先を確認
Ben Sattelberg, Renzo Cavalieri, Michael Kirby, Chris Peterson, Ross Beveridge(参考訳) reluニューラルネットワークは、入力空間から出力空間への連続的な区分線形写像を判定する。 ニューラルネットワークの重み付けは、入力空間の凸ポリトープへの分解を決定し、これらのポリトープのそれぞれについて、ネットワークを単一のアフィンマッピングで記述することができる。 各ポリトープに付加されたアフィンマップと共に分解の構造を解析し、関連するニューラルネットワークの挙動を調べることができる。

A ReLU neural network determines/is a continuous piecewise linear map from an input space to an output space. The weights in the neural network determine a decomposition of the input space into convex polytopes and on each of these polytopes the network can be described by a single affine mapping. The structure of the decomposition, together with the affine map attached to each polytope, can be analyzed to investigate the behavior of the associated neural network.
翻訳日:2021-06-06 14:56:49 公開日:2020-11-30
# 深層学習における公平性の監査に向けて

Towards Auditability for Fairness in Deep Learning ( http://arxiv.org/abs/2012.00106v1 )

ライセンス: Link先を確認
Ivoline C. Ngong, Krystal Maughan, Joseph P. Near(参考訳) グループフェアネスメトリクスは、ディープラーニングモデルが有利で不利なグループに対して異なる振舞いをするのを検出することができるが、これらのメトリクスをうまく評価するモデルであっても、不公平な予測を生じさせる可能性がある。 深層学習における解釈可能性から着想を得た深層学習モデルに対して,個別の公正度を効率よく計算したスムーズな予測感度を示す。 スムーズな予測感度により 個別の予測を公正に監査できる 本研究では,スムーズな予測感度が不公平な予測と不公平な予測の区別に役立ち,グループフェアモデルから不公平な予測を検出できる可能性が示唆された。

Group fairness metrics can detect when a deep learning model behaves differently for advantaged and disadvantaged groups, but even models that score well on these metrics can make blatantly unfair predictions. We present smooth prediction sensitivity, an efficiently computed measure of individual fairness for deep learning models that is inspired by ideas from interpretability in deep learning. smooth prediction sensitivity allows individual predictions to be audited for fairness. We present preliminary experimental results suggesting that smooth prediction sensitivity can help distinguish between fair and unfair predictions, and that it may be helpful in detecting blatantly unfair predictions from "group-fair" models.
翻訳日:2021-06-06 14:56:27 公開日:2020-11-30
# 可変選択のための正規化損失最小化の持続的削減

Persistent Reductions in Regularized Loss Minimization for Variable Selection ( http://arxiv.org/abs/2011.14549v1 )

ライセンス: Link先を確認
Amin Jalali(参考訳) 多面体ゲージによる正規化損失最小化の文脈では、幅広い損失関数(おそらく非スムースおよび非凸)と入力データ上の単純な幾何条件の下では、元の問題に対して反復最適化が行われる前に、そのクラスから損失関数を持つすべての問題において、すべての最適解において0係数であることが保証された特徴のサブセットを効率的に識別することができる。 この手順はスタンドアロンで、データのみを入力として取り、損失関数を呼び出す必要はない。 そこで我々は,この手順を,上述の正規化損失最小化問題に対する持続的削減とみなす。 この低減は、データポイントから形成された多面体円錐に適用される極端線識別サブルーチンを介して効率的に実装することができる。 我々は,超高次元問題に適用可能な,既存の極端線識別のための出力センシティブアルゴリズムを採用している。

In the context of regularized loss minimization with polyhedral gauges, we show that for a broad class of loss functions (possibly non-smooth and non-convex) and under a simple geometric condition on the input data it is possible to efficiently identify a subset of features which are guaranteed to have zero coefficients in all optimal solutions in all problems with loss functions from said class, before any iterative optimization has been performed for the original problem. This procedure is standalone, takes only the data as input, and does not require any calls to the loss function. Therefore, we term this procedure as a persistent reduction for the aforementioned class of regularized loss minimization problems. This reduction can be efficiently implemented via an extreme ray identification subroutine applied to a polyhedral cone formed from the datapoints. We employ an existing output-sensitive algorithm for extreme ray identification which makes our guarantee and algorithm applicable in ultra-high dimensional problems.
翻訳日:2021-06-06 14:56:14 公開日:2020-11-30
# ウェアラブルECG記録の表現と評価

Representing and Denoising Wearable ECG Recordings ( http://arxiv.org/abs/2012.00110v1 )

ライセンス: Link先を確認
Jeffrey Chan, Andrew C. Miller, Emily B. Fox(参考訳) 現代のウェアラブルデバイスには、さまざまな非侵襲バイオマーカーセンサーが組み込まれており、疾患の検出と治療の改善を約束している。 そのようなセンサーの1つは、心臓の電気信号を測定する単葉心電図(ECG)である。 ウェアラブルによって可能な、豊富な縦長構造を持つ心電図測定の膨大なボリュームの利点は、運動などによる臨床心電図と比較すると、潜在的にノイズの多い測定値となる。 本研究では,ウェアラブルセンサから導出されるECGの構造的ノイズ過程をシミュレートする統計モデルを構築し,変動を解析するためのビート・ツー・ビート表現を設計し,ECGを分解する因子分析に基づく手法を提案する。 現実的なECGシミュレータと構造化ノイズモデルを用いて合成データを生成する。 信号対雑音の異なるレベルでは、性能の上限を定量的に測定し、線形モデルと非線形モデルからの推定値を比較する。 最後に,モバイル健康調査においてウェアラブルが収集した心電図に本手法を適用した。

Modern wearable devices are embedded with a range of noninvasive biomarker sensors that hold promise for improving detection and treatment of disease. One such sensor is the single-lead electrocardiogram (ECG) which measures electrical signals in the heart. The benefits of the sheer volume of ECG measurements with rich longitudinal structure made possible by wearables come at the price of potentially noisier measurements compared to clinical ECGs, e.g., due to movement. In this work, we develop a statistical model to simulate a structured noise process in ECGs derived from a wearable sensor, design a beat-to-beat representation that is conducive for analyzing variation, and devise a factor analysis-based method to denoise the ECG. We study synthetic data generated using a realistic ECG simulator and a structured noise model. At varying levels of signal-to-noise, we quantitatively measure an upper bound on performance and compare estimates from linear and non-linear models. Finally, we apply our method to a set of ECGs collected by wearables in a mobile health study.
翻訳日:2021-06-06 14:55:29 公開日:2020-11-30
# DRDr II: Mask RCNN を用いた糖尿病網膜症の重症度検出と伝達学習

DRDr II: Detecting the Severity Level of Diabetic Retinopathy Using Mask RCNN and Transfer Learning ( http://arxiv.org/abs/2011.14733v1 )

ライセンス: Link先を確認
Farzan Shenavarmasouleh, Farid Ghareh Mohammadi, M. Hadi Amini, Hamid R. Arabnia(参考訳) DRDr IIは機械学習とディープラーニングのハイブリッドだ。 糖尿病網膜症患者(dr)の目にみられる2種類の病変(出芽体と微小神経痛)の検出、発見、およびセグメント化マスクの作成を訓練したdrdrの成功を基盤とし、モデル全体をパイプラインのコアの固形特徴抽出器として使用し、dr症例の重症度を検出する。 我々は,世界中から収集された35万枚以上のガウス画像からなる巨大なデータセットを用いて,特徴抽出とともに2段階の事前処理を行った後,精度92%以上の正重度レベルの予測に成功した。

DRDr II is a hybrid of machine learning and deep learning worlds. It builds on the successes of its antecedent, namely, DRDr, that was trained to detect, locate, and create segmentation masks for two types of lesions (exudates and microaneurysms) that can be found in the eyes of the Diabetic Retinopathy (DR) patients; and uses the entire model as a solid feature extractor in the core of its pipeline to detect the severity level of the DR cases. We employ a big dataset with over 35 thousand fundus images collected from around the globe and after 2 phases of preprocessing alongside feature extraction, we succeed in predicting the correct severity levels with over 92% accuracy.
翻訳日:2021-06-06 14:54:30 公開日:2020-11-30
# vidi:covid-19診断における放射線科助手としてのビジュアルデータの記述的クラスタリング

ViDi: Descriptive Visual Data Clustering as Radiologist Assistant in COVID-19 Streamline Diagnostic ( http://arxiv.org/abs/2011.14871v1 )

ライセンス: Link先を確認
Sahithya Ravi, Samaneh Khoshrou, Mykola Pechenizkiy(参考訳) 新型コロナウイルスの感染拡大を受け、胸部X線からの深層学習が広く研究されている。 しかし、医療診断にAIメソッドを適用するためのより実践的なアプローチは、人間と機械の相互作用と専門家による意思決定を促進するフレームワークを設計することである。 研究は、分類が現実世界の意思決定を加速する上で不可欠な規則であることを示した。 記述型文書クラスタリングに触発されて,文脈関連インスタンスをグループ化し,放射線科医の意思決定を支援する,ドメインに依存しない説明型クラスタリングフレームワークを提案する。 多くの記述的クラスタリング手法は意味のあるクラスタを形成するためにドメイン固有の特徴を用いるが、モデルレベルの説明はクラスタの均一性を達成するための学習プロセスのより汎用的な要素である。 我々はDeepSHAPを用いて、病気の重症度の観点から同種クラスタを生成し、画像の分類領域を可視化する好ましくないサリエンシマップを用いてクラスタを記述する。 これらの人間解釈マップは、放射線学者の知識を補完し、クラスタ全体を一度に調査する。 また,本研究の一環としてVGG-19をベースとしたモデルの評価を行い,新型コロナウイルスの診断に対する最近の説明可能なアプローチに匹敵する正の予測値が95%および97%の症例を同定した。

In the light of the COVID-19 pandemic, deep learning methods have been widely investigated in detecting COVID-19 from chest X-rays. However, a more pragmatic approach to applying AI methods to a medical diagnosis is designing a framework that facilitates human-machine interaction and expert decision making. Studies have shown that categorization can play an essential rule in accelerating real-world decision making. Inspired by descriptive document clustering, we propose a domain-independent explanatory clustering framework to group contextually related instances and support radiologists' decision making. While most descriptive clustering approaches employ domain-specific characteristics to form meaningful clusters, we focus on model-level explanation as a more general-purpose element of every learning process to achieve cluster homogeneity. We employ DeepSHAP to generate homogeneous clusters in terms of disease severity and describe the clusters using favorable and unfavorable saliency maps, which visualize the class discriminating regions of an image. These human-interpretable maps complement radiologist knowledge to investigate the whole cluster at once. Besides, as part of this study, we evaluate a model based on VGG-19, which can identify COVID and pneumonia cases with a positive predictive value of 95% and 97%, respectively, comparable to the recent explainable approaches for COVID diagnosis.
翻訳日:2021-06-06 14:53:55 公開日:2020-11-30
# H&E染色画像の高速, 自己監視, 完全畳み込み色正規化

Fast, Self Supervised, Fully Convolutional Color Normalization of H&E Stained Images ( http://arxiv.org/abs/2011.15000v1 )

ライセンス: Link先を確認
Abhijeet Patil, Mohd. Talha, Aniket Bhatia, Nikhil Cherian Kurian, Sammed Mangale, Sunil Patel, Amit Sethi(参考訳) トレーニングとテストセットのデータ分布が異なる場合、ディープラーニングアルゴリズムのパフォーマンスは大幅に低下する。 染色プロトコルの変化、試薬ブランド、技術者の習慣により、デジタル組織病理画像の色彩変化は極めて一般的である。 色の変化は、病理組織学における自動診断システムのための深層学習に基づくソリューションの展開に問題を引き起こす。 これまで提案してきたカラー正規化手法では、小さなパッチを正規化の基準として捉えており、分散元画像にアーティファクトを生成する。 計算のほとんどはGPUではなくCPU上で行われるため、これらの手法も遅い。 本稿では,自己教師付きトレーニングと推論において高速な色正規化手法を提案する。 本手法は,軽量な完全畳み込みニューラルネットワークをベースとして,深層学習に基づくパイプラインに前処理ブロックとして容易に取り付けることができる。 CAMELYON17 と MoNuSeg のデータセットの分類とセグメンテーションのタスクでは,提案手法はより高速で,工法の状態よりも精度が向上する。

Performance of deep learning algorithms decreases drastically if the data distributions of the training and testing sets are different. Due to variations in staining protocols, reagent brands, and habits of technicians, color variation in digital histopathology images is quite common. Color variation causes problems for the deployment of deep learning-based solutions for automatic diagnosis system in histopathology. Previously proposed color normalization methods consider a small patch as a reference for normalization, which creates artifacts on out-of-distribution source images. These methods are also slow as most of the computation is performed on CPUs instead of the GPUs. We propose a color normalization technique, which is fast during its self-supervised training as well as inference. Our method is based on a lightweight fully-convolutional neural network and can be easily attached to a deep learning-based pipeline as a pre-processing block. For classification and segmentation tasks on CAMELYON17 and MoNuSeg datasets respectively, the proposed method is faster and gives a greater increase in accuracy than the state of the art methods.
翻訳日:2021-06-06 14:53:35 公開日:2020-11-30
# UniCon:物理ベースのキャラクターモーションのためのユニバーサルニューラルコントローラ

UniCon: Universal Neural Controller For Physics-based Character Motion ( http://arxiv.org/abs/2011.15119v1 )

ライセンス: Link先を確認
Tingwu Wang, Yunrong Guo, Maria Shugrina, Sanja Fidler(参考訳) 物理学に基づくアニメーションの分野は、ビデオゲームや映画におけるリアリズムの需要の増加により重要性を増しており、最近では(人間の)デモンストレーションからコントロールを学ぶdeep reinforcement learning(rl)のようなデータ駆動技術が広く採用されている。 rlは個々の動きと対話的なロコモーションを再現する素晴らしい結果を示しているが、既存の方法は、新しい動きに一般化する能力と複雑な動き列を対話的に構成する能力に制限がある。 本稿では,大規模動作データセットから学習することで,異なるスタイルの何千もの動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。 uniconは2段階のフレームワークで、高レベルモーションスケジューラとrlによる低レベルモーションエグゼキュータで構成されています。 既存のマルチモーションRLフレームワークを体系的に解析することにより,性能を飛躍的に向上させる新たな目標関数とトレーニング手法を導入する。 トレーニングが完了すると、モーションエグゼキュータをさまざまなハイレベルスケジューラと組み合わせることができ、さまざまなリアルタイムインタラクティブアプリケーションを可能にする。 我々は,UniConがキーボード駆動制御をサポートし,ロコモーションとアクロバティックスキルの大きなプールから引き出された動作シーケンスを合成し,ビデオで撮影した人物を物理ベースの仮想アバターにテレポートできることを示す。 数値的および定性的な結果から、UniConの効率性、堅牢性、一般化性は、先進的、目視不可能な動き、目視不可能なヒューマノイドモデル、目視的摂動に対して顕著に向上した。

The field of physics-based animation is gaining importance due to the increasing demand for realism in video games and films, and has recently seen wide adoption of data-driven techniques, such as deep reinforcement learning (RL), which learn control from (human) demonstrations. While RL has shown impressive results at reproducing individual motions and interactive locomotion, existing methods are limited in their ability to generalize to new motions and their ability to compose a complex motion sequence interactively. In this paper, we propose a physics-based universal neural controller (UniCon) that learns to master thousands of motions with different styles by learning on large-scale motion datasets. UniCon is a two-level framework that consists of a high-level motion scheduler and an RL-powered low-level motion executor, which is our key innovation. By systematically analyzing existing multi-motion RL frameworks, we introduce a novel objective function and training techniques which make a significant leap in performance. Once trained, our motion executor can be combined with different high-level schedulers without the need for retraining, enabling a variety of real-time interactive applications. We show that UniCon can support keyboard-driven control, compose motion sequences drawn from a large pool of locomotion and acrobatics skills and teleport a person captured on video to a physics-based virtual avatar. Numerical and qualitative results demonstrate a significant improvement in efficiency, robustness and generalizability of UniCon over prior state-of-the-art, showcasing transferability to unseen motions, unseen humanoid models and unseen perturbation.
翻訳日:2021-06-06 14:53:17 公開日:2020-11-30
# 動力学的インフォームドニューラルネットワーク

Kinetics-Informed Neural Networks ( http://arxiv.org/abs/2011.14473v1 )

ライセンス: Link先を確認
Gabriel S. Gusm\~ao, Adhika P. Retnanto, Shashwati C. da Cunha, Andrew J. Medford(参考訳) 化学力学は、反応機構の絡み合い、反応性能の最適化、化学プロセスの合理的設計のための現象論的枠組みから構成される。 そこで我々は,MKMを記述した常微分方程式(ODE)を解くために,サロゲートモデル構築の基盤関数としてフィードフォワード人工ニューラルネットワークを利用する。 本稿では,反応ネットワークの数学的記述と分類,初等反応の種類,化学種の代数的枠組みを提案する。 この枠組みの下で, 正規化多目的最適化設定におけるニューラルネットと運動モデルパラメータの同時学習は, 合成実験データから速度パラメータを推定することで逆問題の解を導くことを実証する。 本研究では, 化学系状態に関する知識の関数として, 速度論的パラメータを検索できる限界を探索し, 統計的ノイズに対する方法論の堅牢性を評価する。 この逆運動性オドへの代理的アプローチは、過渡的データに基づく反応機構の解明に役立つ。

Chemical kinetics consists of the phenomenological framework for the disentanglement of reaction mechanisms, optimization of reaction performance and the rational design of chemical processes. Here, we utilize feed-forward artificial neural networks as basis functions for the construction of surrogate models to solve ordinary differential equations (ODEs) that describe microkinetic models (MKMs). We present an algebraic framework for the mathematical description and classification of reaction networks, types of elementary reaction, and chemical species. Under this framework, we demonstrate that the simultaneous training of neural nets and kinetic model parameters in a regularized multiobjective optimization setting leads to the solution of the inverse problem through the estimation of kinetic parameters from synthetic experimental data. We probe the limits at which kinetic parameters can be retrieved as a function of knowledge about the chemical system states over time, and assess the robustness of the methodology with respect to statistical noise. This surrogate approach to inverse kinetic ODEs can assist in the elucidation of reaction mechanisms based on transient data.
翻訳日:2021-06-06 14:52:49 公開日:2020-11-30
# 低リソースニューラルマシン翻訳のための動的カリキュラム学習

Dynamic Curriculum Learning for Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2011.14608v1 )

ライセンス: Link先を確認
Chen Xu, Bojie Hu, Yufan Jiang, Kai Feng, Zeyang Wang, Shen Huang, Qi Ju, Tong Xiao, Jingbo Zhu(参考訳) 大量のデータによって、近年ではニューラルマシン翻訳(nmt)が大きな成功を収めている。 しかし、小規模コーパスでこれらのモデルをトレーニングすれば、依然として課題です。 この場合、データの使い方の方が重要だと思われる。 本稿では,低リソースNMTにおけるトレーニングデータの有効利用について検討する。 特に、トレーニングのトレーニングサンプルを並べ替えるための動的カリキュラム学習(DCL)手法を提案する。 以前の作業とは異なり、リオーダリングには静的スコアリング機能を使用しない。 代わりに、トレーニングサンプルの順序は、損失減少とモデルの能力の2つの方法で動的に決定される。 これにより、現在のモデルが学習するのに十分な能力を持つ簡単なサンプルを強調することで、トレーニングが容易になる。 トランスフォーマーベースシステムでDCL法をテストする。 実験の結果、DCLはWMTの16 En-Deの3つの低リソース機械翻訳ベンチマークと異なるサイズのデータに対して、いくつかの強いベースラインを上回ります。

Large amounts of data has made neural machine translation (NMT) a big success in recent years. But it is still a challenge if we train these models on small-scale corpora. In this case, the way of using data appears to be more important. Here, we investigate the effective use of training data for low-resource NMT. In particular, we propose a dynamic curriculum learning (DCL) method to reorder training samples in training. Unlike previous work, we do not use a static scoring function for reordering. Instead, the order of training samples is dynamically determined in two ways - loss decline and model competence. This eases training by highlighting easy samples that the current model has enough competence to learn. We test our DCL method in a Transformer-based system. Experimental results show that DCL outperforms several strong baselines on three low-resource machine translation benchmarks and different sized data of WMT' 16 En-De.
翻訳日:2021-06-06 14:52:34 公開日:2020-11-30
# ロバストな教師なしバイリンガル辞書インダクションへの簡便かつ効果的なアプローチ

A Simple and Effective Approach to Robust Unsupervised Bilingual Dictionary Induction ( http://arxiv.org/abs/2011.14874v1 )

ライセンス: Link先を確認
Yanyang Li, Yingfeng Luo, Ye Lin, Quan Du, Huizhen Wang, Shujian Huang, Tong Xiao, Jingbo Zhu(参考訳) 初期化と自己学習に基づく教師なし二言語辞書誘導法は、類似の言語対(例えば英語とスペイン語)で大きな成功を収めている。 しかし、彼らはまだ失敗し、英語と日本語など、多くの遠い言語対で0%の精度を持つ。 本研究では,この失敗が,自己学習を成功させる上で,実際の初期化性能と最小初期化性能とのギャップに起因することを示す。 このギャップを埋めるために反復次元削減法を提案する。 本実験により, 類似言語対の性能を損なうことなく, 中国語, 日本語, ベトナム語, タイ語の4言語間で13.64~55.53%の精度が得られることがわかった。

Unsupervised Bilingual Dictionary Induction methods based on the initialization and the self-learning have achieved great success in similar language pairs, e.g., English-Spanish. But they still fail and have an accuracy of 0% in many distant language pairs, e.g., English-Japanese. In this work, we show that this failure results from the gap between the actual initialization performance and the minimum initialization performance for the self-learning to succeed. We propose Iterative Dimension Reduction to bridge this gap. Our experiments show that this simple method does not hamper the performance of similar language pairs and achieves an accuracy of 13.64~55.53% between English and four distant languages, i.e., Chinese, Japanese, Vietnamese and Thai.
翻訳日:2021-06-06 14:52:22 公開日:2020-11-30
# 変圧器時代の小説の機械翻訳

Machine Translation of Novels in the Age of Transformer ( http://arxiv.org/abs/2011.14979v1 )

ライセンス: Link先を確認
Antonio Toral, Antoni Oliver, Pau Ribas Ballest\'in(参考訳) 本章では,ニューラルMT(NMT)やトランスフォーマー(Vaswani et al., 2017)の最先端アーキテクチャに基づいて,文学領域,特に小説に合わせた機械翻訳(MT)システムを構築している。 その後,本システムと他の3つのシステム(リカレント・フレーズ・ベース・パラダイム下の2つのドメイン特化システムと一般的なオンライン・システム)を3つの評価で比較し,翻訳の評価により,システムの有用性を評価する。 最初の評価は自動であり、最も広く使われている自動評価指標BLEUを使用する。 残る2つの評価は手動で行われ、それぞれ、翻訳エラーをなくすのに必要な編集後の好みと量を評価する。 予想通り、ドメイン固有のトランスフォーマーベースのシステムは、すべてのケースにおいて3つの評価すべてにおいて、他の3つのシステムよりも大きな利益を上げた。

In this chapter we build a machine translation (MT) system tailored to the literary domain, specifically to novels, based on the state-of-the-art architecture in neural MT (NMT), the Transformer (Vaswani et al., 2017), for the translation direction English-to-Catalan. Subsequently, we assess to what extent such a system can be useful by evaluating its translations, by comparing this MT system against three other systems (two domain-specific systems under the recurrent and phrase-based paradigms and a popular generic on-line system) on three evaluations. The first evaluation is automatic and uses the most-widely used automatic evaluation metric, BLEU. The two remaining evaluations are manual and they assess, respectively, preference and amount of post-editing required to make the translation error-free. As expected, the domain-specific Transformer-based system outperformed the three other systems in all the three evaluations conducted, in all cases by a large margin.
翻訳日:2021-06-06 14:52:09 公開日:2020-11-30
# procode: スイスの職業と経済活動の自動コーディングと再コーディングのための多言語ソリューション

Procode: the Swiss Multilingual Solution for Automatic Coding and Recoding of Occupations and Economic Activities ( http://arxiv.org/abs/2012.07521v1 )

ライセンス: Link先を確認
Nenad Savic, Nicolas Bovio, Fabian Gilbert and Irina Guseva Canu(参考訳) 目的。 疫学的研究は、職業または経済活動のために確立された分類と一致したデータを必要とする。 分類は通常、数百のコードとタイトルを含んでいる。 生データの手作業によるコーディングは、誤った分類と時間の消費をもたらす可能性がある。 目的は、分類に対する自由テキストのコーディングと異なる分類間の再コーディングのための、Procodeという名前のWebツールの開発とテストであった。 方法。 3つのテキスト分類器、すなわち CNB (Complement Naive Bayes) とSVM (Support Vector Machine) とRFC (Random Forest Classifier) を k-fold クロスバリデーションを用いて検討した。 フランスの職業分類(PCS)とフランスの職業分類(NAF)を手動で指定した30000のフリーテキストが利用可能であった。 再コーディングのために、Procodeは、既存の横断歩道に従って、ある分類のコードを別の分類に変換するワークフローを統合した。 これは簡単な操作であるため、復号時間のみが測定された。 結果。 3つのテキスト分類器のうち、cnbは最良の性能を示し、分類器はpcsとnafの57-81%と63-83%の分類符号を正確に予測した。 SVMはやや低い結果(1-2%)をもたらし、RFCはデータの30%まで正確にコーディングした。 コーディング操作は10000レコードにつき1分間必要であり、再コーディングはより高速であった。 5-10秒 結論。 Procodeに統合されたアルゴリズムは、500から700の異なる選択を選択して適切なコードを割り当てる必要があったため、良好なパフォーマンスを示した。 結果に基づき、著者らはCNBをProcodeに実装することを決定した。 将来的には、他の分類器が優れたパフォーマンスを示す場合、更新には必要な修正が含まれる。

Objective. Epidemiological studies require data that are in alignment with the classifications established for occupations or economic activities. The classifications usually include hundreds of codes and titles. Manual coding of raw data may result in misclassification and be time consuming. The goal was to develop and test a web-tool, named Procode, for coding of free-texts against classifications and recoding between different classifications. Methods. Three text classifiers, i.e. Complement Naive Bayes (CNB), Support Vector Machine (SVM) and Random Forest Classifier (RFC), were investigated using a k-fold cross-validation. 30 000 free-texts with manually assigned classification codes of French classification of occupations (PCS) and French classification of activities (NAF) were available. For recoding, Procode integrated a workflow that converts codes of one classification to another according to existing crosswalks. Since this is a straightforward operation, only the recoding time was measured. Results. Among the three investigated text classifiers, CNB resulted in the best performance, where the classifier predicted accurately 57-81% and 63-83% classification codes for PCS and NAF, respectively. SVM lead to somewhat lower results (by 1-2%), while RFC coded accurately up to 30% of the data. The coding operation required one minute per 10 000 records, while the recoding was faster, i.e. 5-10 seconds. Conclusion. The algorithm integrated in Procode showed satisfactory performance, since the tool had to assign the right code by choosing between 500-700 different choices. Based on the results, the authors decided to implement CNB in Procode. In future, if another classifier shows a superior performance, an update will include the required modifications.
翻訳日:2021-06-06 14:51:51 公開日:2020-11-30
# Sim2SG:トランスファー学習のためのSim-to-Real Scene Graph生成

Sim2SG: Sim-to-Real Scene Graph Generation for Transfer Learning ( http://arxiv.org/abs/2011.14488v1 )

ライセンス: Link先を確認
Aayush Prakash, Shoubhik Debnath, Jean-Francois Lafleche, Eric Cameracci, Gavriel State, Marc T. Law(参考訳) シーングラフ(SG)生成は最近、多くの注目を集めています。 しかし、現在のSG生成技術は、高価で限られたラベル付きデータセットの可用性に依存している。 ラベルは基本的に無料であるため、合成データは有効な代替手段を提供する。 しかし、合成データに基づいてトレーニングされたニューラルネットワークモデルは、ドメインギャップのため、実際のデータではうまく動作しない。 そこで本研究では,シーングラフ生成のためのSim-to-realトランスファーのスケーラブルな手法であるSim2SGを提案する。 Sim2SGはドメインギャップを2つのドメイン間の相違点、ラベル、予測に分解することで解決する。 擬似統計に基づく自己学習と敵対的手法を導入することで、これらの相違に対処する。 Sim2SGは、現実世界のデータセットからの高価な監視を必要としない。 我々の実験は、質的および定量的にドメイン間ギャップを減らすために、ベースラインよりも大幅な改善を示しています。 本研究では,実世界データから評価した実環境シミュレータとともに,玩具シミュレータのアプローチを検証する。

Scene graph (SG) generation has been gaining a lot of traction recently. Current SG generation techniques, however, rely on the availability of expensive and limited number of labeled datasets. Synthetic data offers a viable alternative as labels are essentially free. However, neural network models trained on synthetic data, do not perform well on real data because of the domain gap. To overcome this challenge, we propose Sim2SG, a scalable technique for sim-to-real transfer for scene graph generation. Sim2SG addresses the domain gap by decomposing it into appearance, label and prediction discrepancies between the two domains. We handle these discrepancies by introducing pseudo statistic based self-learning and adversarial techniques. Sim2SG does not require costly supervision from the real-world dataset. Our experiments demonstrate significant improvements over baselines in reducing the domain gap both qualitatively and quantitatively. We validate our approach on toy simulators, as well as realistic simulators evaluated on real-world data.
翻訳日:2021-06-06 14:50:11 公開日:2020-11-30
# 対応プルーニングのための学習可能な運動コヒーレンス

Learnable Motion Coherence for Correspondence Pruning ( http://arxiv.org/abs/2011.14563v1 )

ライセンス: Link先を確認
Yuan Liu, Lingjie Liu, Cheng Lin, Zhen Dong, Wenping Wang(参考訳) 動きの一貫性は、真の対応と偽の対応を区別するための重要な手がかりである。 スパースな対応の運動コヒーレンスをモデル化することは、そのスパース性と不均一分布のため困難である。 動きコヒーレンスに関する既存の研究はパラメータ設定に敏感であり、複雑な動きパターンを扱うのに困難である。 本稿では,ラプラシアン運動コヒーレンスネットワーク(lmcnet)と呼ばれるネットワークを導入し,対応プラニングの動作コヒーレンス特性を学習する。 対応グラフ上の滑らかな関数を持つコヒーレント運動の新たな定式化を提案し、この定式化がグラフラプラシアンによる閉形式解を可能にすることを示す。 このクローズドフォームソリューションは,学習フレームワークにおける微分可能なレイヤの設計を可能にし,仮定対応からグローバル動作コヒーレンスをキャプチャする。 グローバルな動きコヒーレンスはさらに、他の局所層によって抽出された局所コヒーレンスと組み合わせて、不整合性対応を堅牢に検出する。 実験により、LCCNetは、ダイナミックシーンの相対的なポーズ推定と対応性において、技術の状態よりも優れた性能を有することが示された。

Motion coherence is an important clue for distinguishing true correspondences from false ones. Modeling motion coherence on sparse putative correspondences is challenging due to their sparsity and uneven distributions. Existing works on motion coherence are sensitive to parameter settings and have difficulty in dealing with complex motion patterns. In this paper, we introduce a network called Laplacian Motion Coherence Network (LMCNet) to learn motion coherence property for correspondence pruning. We propose a novel formulation of fitting coherent motions with a smooth function on a graph of correspondences and show that this formulation allows a closed-form solution by graph Laplacian. This closed-form solution enables us to design a differentiable layer in a learning framework to capture global motion coherence from putative correspondences. The global motion coherence is further combined with local coherence extracted by another local layer to robustly detect inlier correspondences. Experiments demonstrate that LMCNet has superior performances to the state of the art in relative camera pose estimation and correspondences pruning of dynamic scenes.
翻訳日:2021-06-06 14:49:59 公開日:2020-11-30
# DeepCloth: 形状とスタイル編集のためのニューラルガーメント表現

DeepCloth: Neural Garment Representation for Shape and Style Editing ( http://arxiv.org/abs/2011.14619v1 )

ライセンス: Link先を確認
Zhaoqi Su and Tao Yu and Yangang Wang and Yipeng Li and Yebin Liu(参考訳) 衣料品の表現、アニメーション、編集はコンピュータビジョンやグラフィックの分野で難しい話題である。 既存の手法では、異なる形状やトポロジーの下で滑らかで合理的な衣服の遷移はできない。 本稿では,自由かつ円滑な衣料スタイル移行を可能にする統一衣料表現フレームワークを構築するために,deepclothと呼ばれる新しい方法を提案する。 私たちのキーとなる考え方は、形状やトポロジの異なる様々な衣服を記述できる「マスク付きUV配置マップ」によって、衣服の幾何学を表現することです。 さらに、上記のUV空間からマッピングした連続的な特徴空間を学習し、衣服の特徴を制御して衣服形状の編集と遷移を可能にする。 最後に,ニューラルネットワークによる衣服表現と符号化手法に基づく衣服アニメーション,再構成,編集の応用例を示す。 結論として,提案するDeepClothでは,よりフレキシブルで汎用的な3D衣料デジタル化フレームワークの確立に向けて一歩前進する。 本手法は,従来手法と比較して最先端の衣服モデリング結果が得られることを示す実験である。

Garment representation, animation and editing is a challenging topic in the area of computer vision and graphics. Existing methods cannot perform smooth and reasonable garment transition under different shape styles and topologies. In this work, we introduce a novel method, termed as DeepCloth, to establish a unified garment representation framework enabling free and smooth garment style transition. Our key idea is to represent garment geometry by a "UV-position map with mask", which potentially allows the description of various garments with different shapes and topologies. Furthermore, we learn a continuous feature space mapped from the above UV space, enabling garment shape editing and transition by controlling the garment features. Finally, we demonstrate applications of garment animation, reconstruction and editing based on our neural garment representation and encoding method. To conclude, with the proposed DeepCloth, we move a step forward on establishing a more flexible and general 3D garment digitization framework. Experiments demonstrate that our method can achieve the state-of-the-art garment modeling results compared with the previous methods.
翻訳日:2021-06-06 14:48:15 公開日:2020-11-30
# CanonPose:野生での自己監督された単眼の3D人物の姿勢推定

CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild ( http://arxiv.org/abs/2011.14679v1 )

ライセンス: Link先を確認
Bastian Wandt, Marco Rudolph, Petrissa Zell, Helge Rhodin, Bodo Rosenhahn(参考訳) 単一画像からの人間のポーズ推定は、大量のラベル付きトレーニングデータを正確に解く必要があるコンピュータビジョンにおいて難しい問題である。 残念なことに、多くの人的活動(屋外スポーツ)において、そのようなトレーニングデータは存在せず、伝統的なモーションキャプチャシステムで取得することは困難または不可能である。 ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。 この目的のために,マルチビューの一貫性制約を利用して,観察した2次元ポーズを基礎となる3次元ポーズとカメラ回転に絡ませる。 既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。 それにもかかわらず、静的なカメラ設定の場合、フレームワークに複数のビューで一定の相対的なカメラローテーションを含めるオプション拡張を示します。 成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。 提案手法は2つのベンチマークデータセット(human3.6mとmpii-inf-3dhp)とin-the-wild skiposeデータセットで評価した。

Human pose estimation from single images is a challenging problem in computer vision that requires large amounts of labeled training data to be solved accurately. Unfortunately, for many human activities (\eg outdoor sports) such training data does not exist and is hard or even impossible to acquire with traditional motion capture systems. We propose a self-supervised approach that learns a single image 3D pose estimator from unlabeled multi-view data. To this end, we exploit multi-view consistency constraints to disentangle the observed 2D pose into the underlying 3D pose and camera rotation. In contrast to most existing methods, we do not require calibrated cameras and can therefore learn from moving cameras. Nevertheless, in the case of a static camera setup, we present an optional extension to include constant relative camera rotations over multiple views into our framework. Key to the success are new, unbiased reconstruction objectives that mix information across views and training samples. The proposed approach is evaluated on two benchmark datasets (Human3.6M and MPII-INF-3DHP) and on the in-the-wild SkiPose dataset.
翻訳日:2021-06-06 14:45:20 公開日:2020-11-30
# 動画翻訳のための適応型コンパクトアテンション

Adaptive Compact Attention For Few-shot Video-to-video Translation ( http://arxiv.org/abs/2011.14695v1 )

ライセンス: Link先を確認
Risheng Huang, Li Shen, Xuan Wang, Cheng Lin, Hao-Zhi Huang(参考訳) 本稿では,映像翻訳のための適応型コンパクトアテンションモデルを提案する。 この領域における既存の作業では、複数の参照画像間の相関を考慮せずにピクセル単位の機能しか使用せず、計算量が多いが性能は限られている。 そこで本研究では,複数の参照画像からコンテキスト特徴を効率的に抽出する適応型コンパクトアテンション機構を提案する。 私たちの核となるアイデアは、すべての参照画像からより高レベルな表現としてコンパクトな基底集合を抽出することです。 さらに信頼性を向上させるため,提案手法はデラウネー三角法に基づく新しい手法で,入力ラベルに従って資源豊富な参照を自動的に選択する手法も提案する。 提案手法を大規模トーキングヘッドビデオデータセットとヒトダンスデータセットで広範囲に評価し, 実験結果から, 光写実的, 時間的に一貫したビデオを生成する手法の優れた性能を示し, 最先端の手法よりも大幅に改善した。

This paper proposes an adaptive compact attention model for few-shot video-to-video translation. Existing works in this domain only use features from pixel-wise attention without considering the correlations among multiple reference images, which leads to heavy computation but limited performance. Therefore, we introduce a novel adaptive compact attention mechanism to efficiently extract contextual features jointly from multiple reference images, of which encoded view-dependent and motion-dependent information can significantly benefit the synthesis of realistic videos. Our core idea is to extract compact basis sets from all the reference images as higher-level representations. To further improve the reliability, in the inference phase, we also propose a novel method based on the Delaunay Triangulation algorithm to automatically select the resourceful references according to the input label. We extensively evaluate our method on a large-scale talking-head video dataset and a human dancing dataset; the experimental results show the superior performance of our method for producing photorealistic and temporally consistent videos, and considerable improvements over the state-of-the-art method.
翻訳日:2021-06-06 14:44:59 公開日:2020-11-30
# rfd-net:semantic instance reconstructionによるポイントシーン理解

RfD-Net: Point Scene Understanding by Semantic Instance Reconstruction ( http://arxiv.org/abs/2011.14744v1 )

ライセンス: Link先を確認
Yinyu Nie, Ji Hou, Xiaoguang Han, Matthias Nie{\ss}ner(参考訳) 点雲からのセマンティックなシーン理解は、下層の3次元幾何学のスパースセットのみを反映しているため、特に困難である。 以前の作業はしばしば点雲を通常のグリッドに変換する(例)。 voxelsまたはbird-eye viewイメージ)、そしてシーン理解のためにグリッドベースの畳み込みを利用する。 本研究では,RfD-Netを導入し,原点雲から直接高密度物体表面を共同で検出・再構成する。 通常のグリッドでシーンを表現するのではなく、ポイントクラウドデータの空間性を活用し、高いオブジェクト性で認識される形状を予測することに重点を置いている。 この設計により、インスタンス再構成をグローバルオブジェクトの局所化と局所形状予測に分離する。 スパースな3d空間から2次元多様体曲面を学ぶことの難しさを和らげるだけでなく、各オブジェクトのポイントクラウドは、暗黙的な関数学習をサポートする形状の詳細を伝達し、あらゆる高分解能曲面を再構築する。 本実験は, 形状予測ヘッドが, 現代の3次元提案ネットワークバックボーンによる物体検出改善に一貫した効果を示す場合に, インスタンス検出と再構成が相補効果を示すことを示す。 定性的かつ定量的な評価は,我々の手法が物体再構成におけるメッシュIoUの11以上を一貫して上回っていることを示す。

Semantic scene understanding from point clouds is particularly challenging as the points reflect only a sparse set of the underlying 3D geometry. Previous works often convert point cloud into regular grids (e.g. voxels or bird-eye view images), and resort to grid-based convolutions for scene understanding. In this work, we introduce RfD-Net that jointly detects and reconstructs dense object surfaces directly from raw point clouds. Instead of representing scenes with regular grids, our method leverages the sparsity of point cloud data and focuses on predicting shapes that are recognized with high objectness. With this design, we decouple the instance reconstruction into global object localization and local shape prediction. It not only eases the difficulty of learning 2-D manifold surfaces from sparse 3D space, the point clouds in each object proposal convey shape details that support implicit function learning to reconstruct any high-resolution surfaces. Our experiments indicate that instance detection and reconstruction present complementary effects, where the shape prediction head shows consistent effects on improving object detection with modern 3D proposal network backbones. The qualitative and quantitative evaluations further demonstrate that our approach consistently outperforms the state-of-the-arts and improves over 11 of mesh IoU in object reconstruction.
翻訳日:2021-06-06 14:44:23 公開日:2020-11-30
# MVSNetの深部核融合はどんなものか

How Good MVSNets Are at Depth Fusion ( http://arxiv.org/abs/2011.14761v1 )

ライセンス: Link先を確認
Oleg Voynov, Aleksandr Safin, Savva Ignatyev and Evgeny Burnaev(参考訳) 低品質センサ深度形態における多視点ステレオ法への追加入力の効果について検討した。 入力深度で使用するための2つの最先端多視点ステレオ手法を改良する。 追加入力深度は、深層多視点ステレオの品質を向上させる可能性がある。

We study the effects of the additional input to deep multi-view stereo methods in the form of low-quality sensor depth. We modify two state-of-the-art deep multi-view stereo methods for using with the input depth. We show that the additional input depth may improve the quality of deep multi-view stereo.
翻訳日:2021-06-06 14:43:46 公開日:2020-11-30
# S2FGAN: 対話型スケッチ・ツー・フェイス翻訳をセマンティックに認識する

S2FGAN: Semantically Aware Interactive Sketch-to-Face Translation ( http://arxiv.org/abs/2011.14785v1 )

ライセンス: Link先を確認
Yan Yang and Md Zakir Hossain and Tom Gedeon and Shafin Rahman(参考訳) インタラクティブな顔画像操作は、フォトリアリスティックな顔と/またはセマンティックマスクを入力として、単一および複数の顔属性を編集しようとする。 フォトリアリスティック画像が存在しない場合(スケッチ/マスクのみ)、従来の手法は元の顔のみを検索するが、翻訳過程におけるモデル制御可能性や多様性を補助する可能性を無視する。 本稿では,簡単なスケッチから顔属性編集の解釈と柔軟性を向上させることを目的とした,s2fganと呼ばれるスケッチ対画像生成フレームワークを提案する。 提案フレームワークは,GAN(Generative Adversarial Networks)で訓練された制約付き潜在空間意味論を改良する。 2つの潜在空間を用いて顔の外観を制御し、生成した顔の所望の属性を調整する。 ユーザは、参照画像を用いて翻訳プロセスを制約するのではなく、生成プロセスに意味情報を取り込むことで、生成された画像に再タッチするようにモデルに指示することができる。 この方法では、変更すべき属性のみを指定することで、1つまたは複数の顔属性を操作できる。 CelebAMask-HQデータセットの大規模な実験結果は、このタスクにおける我々の優れたパフォーマンスと効果を実証的に示す。 提案手法は,属性強度の制御性を高めることで,属性操作における最先端の手法よりも優れている。

Interactive facial image manipulation attempts to edit single and multiple face attributes using a photo-realistic face and/or semantic mask as input. In the absence of the photo-realistic image (only sketch/mask available), previous methods only retrieve the original face but ignore the potential of aiding model controllability and diversity in the translation process. This paper proposes a sketch-to-image generation framework called S2FGAN, aiming to improve users' ability to interpret and flexibility of face attribute editing from a simple sketch. The proposed framework modifies the constrained latent space semantics trained on Generative Adversarial Networks (GANs). We employ two latent spaces to control the face appearance and adjust the desired attributes of the generated face. Instead of constraining the translation process by using a reference image, the users can command the model to retouch the generated images by involving the semantic information in the generation process. In this way, our method can manipulate single or multiple face attributes by only specifying attributes to be changed. Extensive experimental results on CelebAMask-HQ dataset empirically shows our superior performance and effectiveness on this task. Our method successfully outperforms state-of-the-art methods on attribute manipulation by exploiting greater control of attribute intensity.
翻訳日:2021-06-06 14:43:43 公開日:2020-11-30
# Trajformer: 自律運転のための局所自己注意コンテキストによる軌道予測

Trajformer: Trajectory Prediction with Local Self-Attentive Contexts for Autonomous Driving ( http://arxiv.org/abs/2011.14910v1 )

ライセンス: Link先を確認
Manoj Bhat, Jonathan Francis, Jean Oh(参考訳) 効果的な特徴抽出はモデルの文脈理解、特にマルチモーダル軌道予測のようなロボット工学や自動運転への応用において重要である。 しかし、最先端のジェネレーティブメソッドはシーンコンテキストの表現に制限があり、許容できない未来を予測することになる。 エージェントの社会的文脈を表現しやすくするセルフアテンションを用いることにより、これらの制限を緩和し、パラメータ効率を向上し、下流でより健全な情報を生成するローカルな特徴抽出パイプラインを提案する。 Argoverseデータセット上の各種ベースラインに対する標準メトリクス(minADE, minFDE, DAO, DAC)の改善を示す。 https://github.com/M anojbhat09/Trajforme r.com/

Effective feature-extraction is critical to models' contextual understanding, particularly for applications to robotics and autonomous driving, such as multimodal trajectory prediction. However, state-of-the-art generative methods face limitations in representing the scene context, leading to predictions of inadmissible futures. We alleviate these limitations through the use of self-attention, which enables better control over representing the agent's social context; we propose a local feature-extraction pipeline that produces more salient information downstream, with improved parameter efficiency. We show improvements on standard metrics (minADE, minFDE, DAO, DAC) over various baselines on the Argoverse dataset. We release our code at: https://github.com/M anojbhat09/Trajforme r
翻訳日:2021-06-06 14:43:24 公開日:2020-11-30
# 高性能自動ナンバープレート認識手法の再検討と設計

Rethinking and Designing a High-performing Automatic License Plate Recognition Approach ( http://arxiv.org/abs/2011.14936v1 )

ライセンス: Link先を確認
Yi Wang, Zhen-Peng Bian, Yunhao Zhou, Lap-Pui Chau(参考訳) 本稿では,リアルタイムかつ高精度な自動ライセンスプレート認識(alpr)手法を提案する。 Our study illustrates the outstanding design of ALPR with four insights: (1) the resampling-based cascaded framework is beneficial to both speed and accuracy; (2) the highly efficient license plate recognition should abundant additional character segmentation and recurrent neural network (RNN), but adopt a plain convolutional neural network (CNN); (3) in the case of CNN, taking advantage of vertex information on license plates improves the recognition performance; and (4) the weight-sharing character classifier addresses the lack of training images in small-scale datasets. これらの知見に基づき,VSNetと呼ばれる新しいALPR手法を提案する。 具体的には、VSNetには2つのCNN、すなわちライセンスプレート検出用のVertexNetとライセンスプレート認識用のSCR-Netが含まれている。 VertexNetでは,ライセンスプレートの空間的特徴を抽出する効率的な統合ブロックを提案する。 頂点監視情報を用いて,ライセンスプレートをSCR-Netの入力画像として修正できるように,VertexNetの頂点推定ブランチを提案する。 さらに、頂点に基づくデータ拡張により、トレーニングサンプルの多様性が向上する。 scr-netでは,左右特徴抽出のための水平符号化手法と文字認識のための重み付き分類器を提案する。 実験の結果,提案したVSNetは,誤差率を50%以上改善し,CCPDとAOLPの両方のデータセットの認識精度を149FPS推論速度で99%向上した。

In this paper, we propose a real-time and accurate automatic license plate recognition (ALPR) approach. Our study illustrates the outstanding design of ALPR with four insights: (1) the resampling-based cascaded framework is beneficial to both speed and accuracy; (2) the highly efficient license plate recognition should abundant additional character segmentation and recurrent neural network (RNN), but adopt a plain convolutional neural network (CNN); (3) in the case of CNN, taking advantage of vertex information on license plates improves the recognition performance; and (4) the weight-sharing character classifier addresses the lack of training images in small-scale datasets. Based on these insights, we propose a novel ALPR approach, termed VSNet. Specifically, VSNet includes two CNNs, i.e., VertexNet for license plate detection and SCR-Net for license plate recognition, which is integrated in a resampling-based cascaded manner. In VertexNet, we propose an efficient integration block to extract the spatial features of license plates. With vertex supervisory information, we propose a vertex-estimation branch in VertexNet such that license plates can be rectified as the input images of SCR-Net. Moreover, vertex-based data augmentation is employed to diverse the training samples. In SCR-Net, we propose a horizontal encoding technique for left-to-right feature extraction and a weight-sharing classifier for character recognition. Experimental results show that the proposed VSNet outperforms state-of-the-art methods by more than 50% relative improvement on error rate, achieving >99% recognition accuracy on both CCPD and AOLP datasets with 149 FPS inference speed.
翻訳日:2021-06-06 14:43:10 公開日:2020-11-30
# ビデオゲームにおけるアーティファクト検出の自動化

Automating Artifact Detection in Video Games ( http://arxiv.org/abs/2011.15103v1 )

ライセンス: Link先を確認
Parmida Davarmanesh, Kuanhao Jiang, Tingting Ou, Artem Vysogorets, Stanislav Ivashkevich, Max Kiehn, Shantanu H. Joshi, Nicholas Malaya(参考訳) ゲームハードウェアやソフトウェアの発展にもかかわらず、ゲームプレイにはグラフィックエラー、グリッチ、スクリーンアーティファクトが伴っていることが多い。 この概念実証研究は、ビデオゲームにおけるグラフィック破損の自動検出のための機械学習アプローチを示す。 代表的なスクリーン破損例のサンプルに基づいて、このモデルは、最も一般的に発生するスクリーンアーティファクトのうち10を妥当な精度で識別することができた。 データの特徴表現には、離散フーリエ変換、向き付け勾配のヒストグラム、グラフラプラシアンが含まれる。 これらの特徴の様々な組み合わせは、グラフィクスの個々のクラスを識別する機械学習モデルを訓練するために使用され、後に単一の混合専門家の"アンサンブル"分類器に組み立てられた。 アンサンブル分類器はホールドアウトテストセットでテストされ、これまで見たゲームでは84%、これまで見たことのないゲームでは69%の精度で出力された。

In spite of advances in gaming hardware and software, gameplay is often tainted with graphics errors, glitches, and screen artifacts. This proof of concept study presents a machine learning approach for automated detection of graphics corruptions in video games. Based on a sample of representative screen corruption examples, the model was able to identify 10 of the most commonly occurring screen artifacts with reasonable accuracy. Feature representation of the data included discrete Fourier transforms, histograms of oriented gradients, and graph Laplacians. Various combinations of these features were used to train machine learning models that identify individual classes of graphics corruptions and that later were assembled into a single mixed experts "ensemble" classifier. The ensemble classifier was tested on heldout test sets, and produced an accuracy of 84% on the games it had seen before, and 69% on games it had never seen before.
翻訳日:2021-06-06 14:42:20 公開日:2020-11-30
# SelectScale:選択型とソフトドロップアウトによる画像からのパターンのマイニング

SelectScale: Mining More Patterns from Images via Selective and Soft Dropout ( http://arxiv.org/abs/2012.15766v1 )

ライセンス: Link先を確認
Zhengsu Chen, Jianwei Niu, Xuefeng Liu and Shaojie Tang(参考訳) 畳み込みニューラルネットワーク(CNN)は画像認識において大きな成功を収めている。 入力画像の内部パターンはCNNによって効果的に学習されるが、これらのパターンは入力画像に含まれる有用なパターンのごく一部を構成する。 これは、CNNが学習パターンが正しい分類を行うのに十分であるかどうかを学ぶのをやめるという事実に起因する。 ドロップアウトやSpatialDropoutのようなネットワーク正規化手法はこの問題を緩和する。 トレーニング中は、ランダムに特徴を落とします。 これらのドロップアウト手法は本質的に、ネットワークが学習したパターンを変更し、ネットワークが他のパターンを学習して正しい分類を行うように強制する。 しかし、上記の方法には大きな欠点がある。 ランダムに削除する機能は一般的に効率が悪く、不要なノイズが発生する可能性がある。 この問題に対処するため,SelectScaleを提案する。 ランダムにユニットをドロップする代わりに、SelectScaleはネットワークの重要な機能を選択し、トレーニング中に調整する。 SelectScale を用いて,CIFAR および ImageNet 上での CNN の性能を向上する。

Convolutional neural networks (CNNs) have achieved remarkable success in image recognition. Although the internal patterns of the input images are effectively learned by the CNNs, these patterns only constitute a small proportion of useful patterns contained in the input images. This can be attributed to the fact that the CNNs will stop learning if the learned patterns are enough to make a correct classification. Network regularization methods like dropout and SpatialDropout can ease this problem. During training, they randomly drop the features. These dropout methods, in essence, change the patterns learned by the networks, and in turn, forces the networks to learn other patterns to make the correct classification. However, the above methods have an important drawback. Randomly dropping features is generally inefficient and can introduce unnecessary noise. To tackle this problem, we propose SelectScale. Instead of randomly dropping units, SelectScale selects the important features in networks and adjusts them during training. Using SelectScale, we improve the performance of CNNs on CIFAR and ImageNet.
翻訳日:2021-06-06 14:41:52 公開日:2020-11-30
# TSSRGCN:交通流予測のための時間スペクトル空間検索グラフ畳み込みネットワーク

TSSRGCN: Temporal Spectral Spatial Retrieval Graph Convolutional Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2011.14638v1 )

ライセンス: Link先を確認
Xu Chen, Yuanxing Zhang, Lun Du, Zheng Fang, Yi Ren, Kaigui Bian, Kunqing Xie(参考訳) 交通流予測は交通システムの効率化と緊急事態の防止に非常に重要である。 短期的・長期的交通流の高度に非線形で複雑な進化パターンのため、既存の手法は時空間情報、特に時間変化の異なる様々な時間パターンや道路セグメントの特徴を十分に活用できないことが多い。 また、交通状況指標の絶対値を表すグローバル性と相対値を表す局所性を同時に考慮していない。 本稿では,トラヒックデータの時間パターンに加えて,トラヒックネットワークのグローバル性と局所性に注目したニューラルネットワークモデルを提案する。 サイクルベースの拡張可能な変形可能な畳み込みブロックは、各ノードの異なる時間変化傾向を正確に捉えるように設計されている。 ノードとエッジの表現を学習するために2つのグラフ畳み込みネットワーク法を組み合わせることにより,グローバル空間情報とローカル空間情報の両方を抽出できる。 2つの実世界のデータセットにおける実験により、このモデルがトラヒックデータの空間的-時間的相関を検証できることが示され、その性能は比較された最先端の手法よりも優れている。 さらに解析した結果,交通流予測には交通ネットワークの局所性とグローバル性が重要であり,提案したTSSRGCNモデルが時間的交通パターンに適応できることが示唆された。

Traffic flow forecasting is of great significance for improving the efficiency of transportation systems and preventing emergencies. Due to the highly non-linearity and intricate evolutionary patterns of short-term and long-term traffic flow, existing methods often fail to take full advantage of spatial-temporal information, especially the various temporal patterns with different period shifting and the characteristics of road segments. Besides, the globality representing the absolute value of traffic status indicators and the locality representing the relative value have not been considered simultaneously. This paper proposes a neural network model that focuses on the globality and locality of traffic networks as well as the temporal patterns of traffic data. The cycle-based dilated deformable convolution block is designed to capture different time-varying trends on each node accurately. Our model can extract both global and local spatial information since we combine two graph convolutional network methods to learn the representations of nodes and edges. Experiments on two real-world datasets show that the model can scrutinize the spatial-temporal correlation of traffic data, and its performance is better than the compared state-of-the-art methods. Further analysis indicates that the locality and globality of the traffic networks are critical to traffic flow prediction and the proposed TSSRGCN model can adapt to the various temporal traffic patterns.
翻訳日:2021-06-06 14:41:18 公開日:2020-11-30
# ディープラーニングを用いたハイブリッドマルチモーダル融合モデルによる抑うつ状態の推定

Depression Status Estimation by Deep Learning based Hybrid Multi-Modal Fusion Model ( http://arxiv.org/abs/2011.14966v1 )

ライセンス: Link先を確認
Hrithwik Shalu, Harikrishnan P, Hari Sankar CN, Akash Das, Saptarshi Majumder, Arnhav Datar, Subin Mathew MS, Anugyan Das and Juned Kadiwala(参考訳) 軽度のうつ病の予備的検出は、一般的な精神疾患の効果的な治療に大いに役立つ。 適切な意識の欠如と、社会内に存在するスティグマと誤解が混ざり合っているため、精神的な健康状態の推定は本当に難しい課題となっている。 人から人へのキャラクタレベルの特性の変化により、従来のディープラーニング手法は現実の環境では一般化できない。 本研究の目的は、特定のユーザに対して効率的に適応し、現実のシナリオで効果的に実行可能な、人間によるAIワークフローを作ることである。 本稿では,一発学習の本質,古典的教師付き深層学習法,適応のための人間関係インタラクションを組み合わせたハイブリッド深層学習手法を提案する。 最大情報をキャプチャし、効率的な診断ビデオ、音声、テキストモダリティを利用する。 ハイブリッド核融合モデルは,データセット上で96.3%の精度を達成し,複雑な実世界のシナリオにおけるクラス識別におけるロバスト性を証明し,診断中に軽度抑うつを見逃さないことを確認した。 提案手法は、堅牢なテストのためにクラウドベースのスマートフォンアプリケーションにデプロイされる。 ユーザ固有の適応と技術手法の状況から,ユーザフレンドリーな経験を持つ最先端のモデルを提案する。

Preliminary detection of mild depression could immensely help in effective treatment of the common mental health disorder. Due to the lack of proper awareness and the ample mix of stigmas and misconceptions present within the society, mental health status estimation has become a truly difficult task. Due to the immense variations in character level traits from person to person, traditional deep learning methods fail to generalize in a real world setting. In our study we aim to create a human allied AI workflow which could efficiently adapt to specific users and effectively perform in real world scenarios. We propose a Hybrid deep learning approach that combines the essence of one shot learning, classical supervised deep learning methods and human allied interactions for adaptation. In order to capture maximum information and make efficient diagnosis video, audio, and text modalities are utilized. Our Hybrid Fusion model achieved a high accuracy of 96.3% on the Dataset; and attained an AUC of 0.9682 which proves its robustness in discriminating classes in complex real-world scenarios making sure that no cases of mild depression are missed during diagnosis. The proposed method is deployed in a cloud-based smartphone application for robust testing. With user-specific adaptations and state of the art methodologies, we present a state-of-the-art model with user friendly experience.
翻訳日:2021-06-06 14:40:41 公開日:2020-11-30
# 誰が形に戻る準備ができていますか。

Who is more ready to get back in shape? ( http://arxiv.org/abs/2012.09617v1 )

ライセンス: Link先を確認
Rajius Idzalika(参考訳) この実証的研究は、2013年のカンボジア大洪水の前後でレジリエンス(適応能力)を推定する。 約120万マイクロファイナンス機関(MFI)の顧客データを使用し、教師なし学習手法を実装した。 以上の結果から,mfi顧客の特性や,適応性が向上する個々の選択や状況に基づいて,どの領域がレジリエントであるかをよりよく理解することで,レジリエンスを育む機会が浮き彫りになった。 このアプローチの限界についても論じる。

This empirical study estimates resilience (adaptive capacity) around the periods of the 2013 heavy flood in Cambodia. We use nearly 1.2 million microfinance institution (MFI) customer data and implement the unsupervised learning method. Our results highlight the opportunity to develop resilience by having a better understanding of which areas are likely to be more or less resilient based on the characteristics of the MFI customers, and the individual choices or situations that support stronger adaptiveness. We also discuss the limitation of this approach.
翻訳日:2021-06-06 14:39:25 公開日:2020-11-30
# Mint: MDLに基づく数値パターン集合のマイニング

Mint: MDL-based approach for Mining INTeresting Numerical Pattern Sets ( http://arxiv.org/abs/2011.14843v1 )

ライセンス: Link先を確認
Tatiana Makhalova, Sergei O. Kuznetsov, Amedeo Napoli(参考訳) パターンマイニングはデータマイニング研究、特にバイナリデータセットのマイニングにおいて確立されている。 驚くべきことに、数値パターンマイニングに関する作業は少なく、この研究領域は未調査のままである。 本稿では,数値データセットをマイニングする効率的なMDLアルゴリズムMintを提案する。 MDL原則は、パターンマイニングやサブグループ発見で広く使われている堅牢で信頼性の高いフレームワークである。 Mintでは、有用なパターンを発見し、明確に定義された境界を持つ非冗長な重複パターンのセットを返却し、意味のあるオブジェクトのグループをカバーするためにMDLを再利用します。 MDLに基づく数値パターンマイナのカテゴリでは,Mintのみではない。 論文で示された実験では、MintがSlimとRealKrimpの競合より優れていることを示した。

Pattern mining is well established in data mining research, especially for mining binary datasets. Surprisingly, there is much less work about numerical pattern mining and this research area remains under-explored. In this paper, we propose Mint, an efficient MDL-based algorithm for mining numerical datasets. The MDL principle is a robust and reliable framework widely used in pattern mining, and as well in subgroup discovery. In Mint we reuse MDL for discovering useful patterns and returning a set of non-redundant overlapping patterns with well-defined boundaries and covering meaningful groups of objects. Mint is not alone in the category of numerical pattern miners based on MDL. In the experiments presented in the paper we show that Mint outperforms competitors among which Slim and RealKrimp.
翻訳日:2021-06-06 14:38:53 公開日:2020-11-30
# アクティブ・パーセプションによる注意ベースプランニング

Attention-Based Planning with Active Perception ( http://arxiv.org/abs/2012.00053v1 )

ライセンス: Link先を確認
Haoxiang Ma, Jie Fu(参考訳) 注意制御は、人間が現在のタスクに関連する情報を選択するための重要な認知能力である。 本稿では,注意の計算モデルとマルコフ決定過程における注意に基づく確率計画のアルゴリズムについて述べる。 注意に基づく計画では、ロボットは異なる注意モードに置かれる。 注意モードは、ロボットによって監視される状態変数のサブセットに対応する。 異なる注意モードを切り替えることで、ロボットはタスク関連情報を積極的に認識し、ほぼ最適のタスク性能を達成しつつ、情報取得と処理のコストを削減する。 注意に基づくアクティブな知覚で計画することは、必然的に部分的な観察をもたらすが、部分的に観測可能なMDPの定式化により、計算コストがかかる。 その代わり,提案手法では,ロボットがどの点に注意を払うべきか,どの点に注意を向けるべきかを決定するための階層的計画手法を用いている。 注意維持フェーズの間、ロボットは、現在の注意を引いた最初のmdpの抽象化から計算されたサブポリシーを実行する。 我々は,ロボットが確率的グリッドワールドにおける侵入者の集合を捕獲する作業を行う例を用いる。 実験の結果,提案手法は確率環境における情報・計算効率の最適計画を可能にした。

Attention control is a key cognitive ability for humans to select information relevant to the current task. This paper develops a computational model of attention and an algorithm for attention-based probabilistic planning in Markov decision processes. In attention-based planning, the robot decides to be in different attention modes. An attention mode corresponds to a subset of state variables monitored by the robot. By switching between different attention modes, the robot actively perceives task-relevant information to reduce the cost of information acquisition and processing, while achieving near-optimal task performance. Though planning with attention-based active perception inevitably introduces partial observations, a partially observable MDP formulation makes the problem computational expensive to solve. Instead, our proposed method employs a hierarchical planning framework in which the robot determines what to pay attention to and for how long the attention should be sustained before shifting to other information sources. During the attention sustaining phase, the robot carries out a sub-policy, computed from an abstraction of the original MDP given the current attention. We use an example where a robot is tasked to capture a set of intruders in a stochastic gridworld. The experimental results show that the proposed method enables information- and computation-efficien t optimal planning in stochastic environments.
翻訳日:2021-06-06 14:38:41 公開日:2020-11-30
# 継続的対人統合: 婚姻コミュニティにおけるAIを中心に

Continuous Subject-in-the-Loop Integration: Centering AI on Marginalized Communities ( http://arxiv.org/abs/2012.01128v1 )

ライセンス: Link先を確認
Francois Roewer-Despres, Janelle Berscheid(参考訳) ユートピアの約束が破壊的な平等化要因であるにもかかわらず、AIは、中立を意識したほとんどのツールと同様に、既存の社会構造を単に強化する傾向にある。 この傾向に対処するため、急進的なAIは、限界化に集中するよう求めている。 我々は、重要なインフラのギャップが急進的AIの普及を妨げていると論じ、これらのインフラのギャップを識別し、新しいインフラの提案が効果的に辺境化音声の中心となるかどうかを評価するための指針原則を提案する。

Despite its utopian promises as a disruptive equalizer, AI - like most tools deployed under the guise of neutrality - has tended to simply reinforce existing social structures. To counter this trend, radical AI calls for centering on the marginalized. We argue that gaps in key infrastructure are preventing the widespread adoption of radical AI, and propose a guiding principle for both identifying these infrastructure gaps and evaluating whether proposals for new infrastructure effectively center marginalized voices.
翻訳日:2021-06-06 14:38:23 公開日:2020-11-30
# unigram shallow fusionによるrnnトランスデューサ用レアワードの精度向上

Improving accuracy of rare words for RNN-Transducer through unigram shallow fusion ( http://arxiv.org/abs/2012.00133v1 )

ライセンス: Link先を確認
Vijay Ravi, Yile Gu, Ankur Gandhe, Ariya Rastrow, Linda Liu, Denis Filimonov, Scott Novotney, Ivan Bulyko(参考訳) recurrent neural network transducer (rnn-t) など、エンドツーエンドの自動音声認識 (asr) システムが普及しているが、稀な単語が課題となっている。 本稿では,rnn-tのレアワードを改善するために,unigram shallow fusion (usf) と呼ばれる単純かつ効果的な手法を提案する。 USFでは、ユニグラム数に基づいてRNN-T訓練データから稀な単語を抽出し、復号時に単語が遭遇した場合に一定の報酬を適用する。 本手法は,一般テストセットの劣化を伴わずに,レアワードのパフォーマンスを3.7%向上できることを示すとともに,usfによる改善は,追加言語モデルに基づくリコーリングに付加されることを示した。 その結果,USFは従来のハイブリッドシステムでは動作しないことがわかった。 最後に、サブワードベースのRNN-Tで復号する際に使用するビタビ探索による単語の確率推定における誤りを修正することでUSFが機能する理由について述べる。

End-to-end automatic speech recognition (ASR) systems, such as recurrent neural network transducer (RNN-T), have become popular, but rare word remains a challenge. In this paper, we propose a simple, yet effective method called unigram shallow fusion (USF) to improve rare words for RNN-T. In USF, we extract rare words from RNN-T training data based on unigram count, and apply a fixed reward when the word is encountered during decoding. We show that this simple method can improve performance on rare words by 3.7% WER relative without degradation on general test set, and the improvement from USF is additive to any additional language model based rescoring. Then, we show that the same USF does not work on conventional hybrid system. Finally, we reason that USF works by fixing errors in probability estimates of words due to Viterbi search used during decoding with subword-based RNN-T.
翻訳日:2021-06-06 14:38:12 公開日:2020-11-30
# 画像復調のための適応雑音模倣

Adaptive noise imitation for image denoising ( http://arxiv.org/abs/2011.14512v1 )

ライセンス: Link先を確認
Huangxing Lin, Yihong Zhuang, Yue Huang, Xinghao Ding, Yizhou Yu, Xiaoqing Liu and John Paisley(参考訳) 既存の denoising アルゴリズムの有効性は、通常、正確な事前定義されたノイズ統計や、その実用性を制限する大量のペアデータに依存する。 本研究は,ノイズ統計とペアデータの利用が不可能である,より一般的なケースにおける雑音除去に焦点をあてる。 雑音化cnnが監視を必要とすることを考慮し、自然雑音画像からノイズデータを合成する新しい \textbf{adaptive noise imitation (adani") アルゴリズムを開発した。 現実的なノイズを生成するため、ノイズ発生装置はノイズ発生のガイドとなる雑音/クリーン画像を入力として利用する。 ノイズの種類、レベル、勾配に明示的な制約を課すことで、アダニの出力ノイズは画像の本来の背景をきれいに保ちながら、ガイドノイズと類似する。 ADANIから出力されるノイズデータとそれに対応する基盤構造とを結合し、デノイングCNNを完全教師付きで訓練する。 実験の結果,adaniが生成するノイズデータは実データと視覚的および統計的に類似しており,外部対データで訓練された他のネットワークと競合することがわかった。

The effectiveness of existing denoising algorithms typically relies on accurate pre-defined noise statistics or plenty of paired data, which limits their practicality. In this work, we focus on denoising in the more common case where noise statistics and paired data are unavailable. Considering that denoising CNNs require supervision, we develop a new \textbf{adaptive noise imitation (ADANI)} algorithm that can synthesize noisy data from naturally noisy images. To produce realistic noise, a noise generator takes unpaired noisy/clean images as input, where the noisy image is a guide for noise generation. By imposing explicit constraints on the type, level and gradient of noise, the output noise of ADANI will be similar to the guided noise, while keeping the original clean background of the image. Coupling the noisy data output from ADANI with the corresponding ground-truth, a denoising CNN is then trained in a fully-supervised manner. Experiments show that the noisy data produced by ADANI are visually and statistically similar to real ones so that the denoising CNN in our method is competitive to other networks trained with external paired data.
翻訳日:2021-06-06 14:37:56 公開日:2020-11-30
# 仮想対応を用いた登録作業のためのエンドツーエンド3Dポイントクラウド学習

End-to-End 3D Point Cloud Learning for Registration Task Using Virtual Correspondences ( http://arxiv.org/abs/2011.14579v1 )

ライセンス: Link先を確認
Zhijian~Qiao, Zhe~Liu, Chuanzhe~Suo, Huanshu~Wei, Zhuowen~Shen, Hesheng~Wang(参考訳) 3dポイントクラウドの登録は、部分対応を持つ2つのポイントクラウド間の厳密な変換を見つけるのが困難であるため、依然として非常に難しいトピックであり、初期推定情報がないことがさらに困難である。 本稿では,ポイントクラウド登録問題を解決するために,エンドツーエンドのディープラーニングに基づくアプローチを提案する。 まず,改良したldp-netを用いて特徴抽出を行い,グラフネットワークに集約する。 次に、セルフアテンション機構を利用してポイントクラウドの構造情報を強化し、2つの入力ポイントクラウド間の対応情報を強化するクロスアテンション機構を設計する。 そこで,ソフトポインタ法により仮想対応点を生成することができ,最終的にSVD法を実装して点雲登録問題を解くことができる。 ModelNet40データセットの比較結果は、提案手法がポイントクラウド登録タスクの最先端に到達し、KITTIデータセットにおける実験的再試行が実際のアプリケーションにおける提案手法の有効性を検証した。

3D Point cloud registration is still a very challenging topic due to the difficulty in finding the rigid transformation between two point clouds with partial correspondences, and it's even harder in the absence of any initial estimation information. In this paper, we present an end-to-end deep-learning based approach to resolve the point cloud registration problem. Firstly, the revised LPD-Net is introduced to extract features and aggregate them with the graph network. Secondly, the self-attention mechanism is utilized to enhance the structure information in the point cloud and the cross-attention mechanism is designed to enhance the corresponding information between the two input point clouds. Based on which, the virtual corresponding points can be generated by a soft pointer based method, and finally, the point cloud registration problem can be solved by implementing the SVD method. Comparison results in ModelNet40 dataset validate that the proposed approach reaches the state-of-the-art in point cloud registration tasks and experiment resutls in KITTI dataset validate the effectiveness of the proposed approach in real applications.
翻訳日:2021-06-06 14:37:37 公開日:2020-11-30
# 魚眼カメラのゼロショットキャリブレーション

Zero-Shot Calibration of Fisheye Cameras ( http://arxiv.org/abs/2011.14607v1 )

ライセンス: Link先を確認
Jae-Yeong Lee(参考訳) 本稿では,キャリブレーション画像のないカメラパラメータを推定するゼロショットカメラキャリブレーション手法を提案する。 カメラのキャリブレーションには少なくとも1つ以上のパターン画像が必要であるのは常識である。 しかし,提案手法ではカメラの水平および垂直視野情報からカメラパラメータを画像取得せずに推定する。 提案手法は画像歪みが大きい広角カメラや魚眼カメラに特に有用である。 画像歪みは、画像センサの平方ピクセルの仮定に基づいて、魚眼レンズの設計と推定方法によってモデル化される。 提案手法の校正精度は8種類の商用カメラで定性的・定量的に評価し,従来の校正法と比較した。 実験の結果,ゼロショット法の校正精度は従来の全校正結果に匹敵することがわかった。 この方法は、個々のキャリブレーションが困難または実用的でない実アプリケーションや、キャリブレーション精度が重要でないほとんどのフィールドアプリケーションにおいて、実用的な代替手段として利用することができる。 さらに,既存のキャリブレーション手法を適切に初期化するためにカメラパラメータを推定することで,より安定に収束し,局所最小化を回避することができる。

In this paper, we present a novel zero-shot camera calibration method that estimates camera parameters with no calibration image. It is common sense that we need at least one or more pattern images for camera calibration. However, the proposed method estimates camera parameters from the horizontal and vertical field of view information of the camera without any image acquisition. The proposed method is particularly useful for wide-angle or fisheye cameras that have large image distortion. Image distortion is modeled in the way fisheye lenses are designed and estimated based on the square pixel assumption of the image sensors. The calibration accuracy of the proposed method is evaluated on eight different commercial cameras qualitatively and quantitatively, and compared with conventional calibration methods. The experimental results show that the calibration accuracy of the zero-shot method is comparable to conventional full calibration results. The method can be used as a practical alternative in real applications where individual calibration is difficult or impractical, and in most field applications where calibration accuracy is less critical. Moreover, the estimated camera parameters by the method can also be used to provide proper initialization of any existing calibration methods, making them to converge more stably and avoid local minima.
翻訳日:2021-06-06 14:37:20 公開日:2020-11-30
# SIR:複数の異なるレンズから同じシーンを見ることができる自己監督型画像整形

SIR: Self-supervised Image Rectification via Seeing the Same Scene from Multiple Different Lenses ( http://arxiv.org/abs/2011.14611v1 )

ライセンス: Link先を確認
Jinlong Fan and Jing Zhang and Dacheng Tao(参考訳) ディープラーニングは、大規模な合成データセットに基づいた教師付きトレーニングを通じて、ディープニューラルネットワークの表現能力を活用することで、画像修正におけるそのパワーを実証した。 しかし、このモデルは合成画像に過度に適合し、特定の歪みモデルの普遍性や歪みと整流過程を明示的にモデル化していないため、実世界の魚眼画像ではうまく一般化できない。 本稿では,同一場面の異なるレンズからの歪み画像の補正結果が同一であるべきという重要な知見に基づいて,新しい自己教師あり画像整流法を提案する。 具体的には、共有エンコーダと複数の予測ヘッドを併用した新しいネットワークアーキテクチャを考案し、それぞれが特定の歪みモデルの歪みパラメータを予測する。 さらに,変形パラメータから修正画像と再歪画像を生成するために微分可能なワーピングモジュールを利用し,トレーニング中にモデル内およびモデル間一貫性を活用し,接地歪パラメータや正規画像を必要としない自己教師あり学習方式を実現する。 人工データセットと実世界の魚眼画像を用いた実験により,本手法は教師ありベースライン法や代表的な最先端法と同等,あるいはさらに優れた性能が得られることを示した。 自己教師付き学習は、自己整合性を維持しながら歪みモデルの普遍性を向上する。

Deep learning has demonstrated its power in image rectification by leveraging the representation capacity of deep neural networks via supervised training based on a large-scale synthetic dataset. However, the model may overfit the synthetic images and generalize not well on real-world fisheye images due to the limited universality of a specific distortion model and the lack of explicitly modeling the distortion and rectification process. In this paper, we propose a novel self-supervised image rectification (SIR) method based on an important insight that the rectified results of distorted images of the same scene from different lens should be the same. Specifically, we devise a new network architecture with a shared encoder and several prediction heads, each of which predicts the distortion parameter of a specific distortion model. We further leverage a differentiable warping module to generate the rectified images and re-distorted images from the distortion parameters and exploit the intra- and inter-model consistency between them during training, thereby leading to a self-supervised learning scheme without the need for ground-truth distortion parameters or normal images. Experiments on synthetic dataset and real-world fisheye images demonstrate that our method achieves comparable or even better performance than the supervised baseline method and representative state-of-the-art methods. Self-supervised learning also improves the universality of distortion models while keeping their self-consistency.
翻訳日:2021-06-06 14:37:01 公開日:2020-11-30
# 次はどこを探検しますか。 ExHistCNNによる3次元自律探査

Where to Explore Next? ExHistCNN for History-aware Autonomous 3D Exploration ( http://arxiv.org/abs/2011.14669v1 )

ライセンス: Link先を確認
Yiming Wang and Alessio Del Bue(参考訳) 本研究では,奥行きカメラを用いた未知の室内環境の自律的3次元探索の問題に対処する。 我々はこの問題を,未知領域のカバレッジを最大化するnext best view (nbv) の推定として位置づけた。 我々は,NBV推定を分類問題として再定式化し,現在の3次元観察(深度フレーム)と現在進行中の再建の歴史の両方をエンコードする新しい学習基準を提案する。 この研究の主な貢献の1つは、現在の深度観測と効率的に結合した補助ユーティリティマップとして、3次元再構築履歴の新しい表現を導入することである。 両情報を用いて、我々は、深度センサが最も探索されていない領域を見つける方向のセットとしてNBVを推定する、ExHistCNNという軽量CNNを訓練する。 提案するExHistCNNは,3次元環境の完全知識を用いて,オラクルの探索性能にアプローチ可能であることを示す。

In this work we address the problem of autonomous 3D exploration of an unknown indoor environment using a depth camera. We cast the problem as the estimation of the Next Best View (NBV) that maximises the coverage of the unknown area. We do this by re-formulating NBV estimation as a classification problem and we propose a novel learning-based metric that encodes both, the current 3D observation (a depth frame) and the history of the ongoing reconstruction. One of the major contributions of this work is about introducing a new representation for the 3D reconstruction history as an auxiliary utility map which is efficiently coupled with the current depth observation. With both pieces of information, we train a light-weight CNN, named ExHistCNN, that estimates the NBV as a set of directions towards which the depth sensor finds most unexplored areas. We perform extensive evaluation on both synthetic and real room scans demonstrating that the proposed ExHistCNN is able to approach the exploration performance of an oracle using the complete knowledge of the 3D environment.
翻訳日:2021-06-06 14:36:39 公開日:2020-11-30
# パーセプションのバイアスが露呈:最初の印象データセットを再考

Person Perception Biases Exposed: Revisiting the First Impressions Dataset ( http://arxiv.org/abs/2011.14906v1 )

ライセンス: Link先を確認
Julio C. S. Jacques Junior, Agata Lapedriza, Cristina Palmero, Xavier Bar\'o and Sergio Escalera(参考訳) この研究はChaLearn First Impressionsデータベースを再考し、クラウドソーシングによるペアワイズ比較を用いてパーソナリティ知覚に注釈を付けた。 我々は,最初のペアワイズアノテーションを初めて分析し,性別,民族性,年齢,顔の魅力といった知覚的属性に関連する既存の人物知覚バイアスを明らかにする。 認知バイアスが主観的課題のデータラベリングにどのように影響するかを,コンピュータビジョンや機械学習コミュニティからほとんど注目されていない。 さらに,特別な扱いが考慮されない場合,ペアワイズアノテーションを連続値に変換するメカニズムはバイアスを増大させる可能性があることを示した。 本研究は,コンピュータビジョンのコミュニティにおいて,主観的タスクに関する新たなデータセットを作成し,これらのバイアスを無視した実践的応用に利用している。

This work revisits the ChaLearn First Impressions database, annotated for personality perception using pairwise comparisons via crowdsourcing. We analyse for the first time the original pairwise annotations, and reveal existing person perception biases associated to perceived attributes like gender, ethnicity, age and face attractiveness. We show how person perception bias can influence data labelling of a subjective task, which has received little attention from the computer vision and machine learning communities by now. We further show that the mechanism used to convert pairwise annotations to continuous values may magnify the biases if no special treatment is considered. The findings of this study are relevant for the computer vision community that is still creating new datasets on subjective tasks, and using them for practical applications, ignoring these perceptual biases.
翻訳日:2021-06-06 14:35:40 公開日:2020-11-30
# DEF:3次元形状におけるシャープ形状の深部推定

DEF: Deep Estimation of Sharp Geometric Features in 3D Shapes ( http://arxiv.org/abs/2011.15081v1 )

ライセンス: Link先を確認
Albert Matveev, Alexey Artemov, Ruslan Rakhimov, Gleb Bobrovskikh, Daniele Panozzo, Denis Zorin, Evgeny Burnaev(参考訳) シャープな特徴線は、人工物に関する重要な情報を持ち、コンパクトな3d形状表現、高品質の表面再構成を可能にし、メッシュ処理の信号源である。 ノイズやアンダーサンプルデータから高品質な行を抽出することは、従来の手法では難しいが、ディープラーニングによるアルゴリズムは、トレーニングデータからグローバルおよびセマンティック情報を活用して、プロセスを支援することができる。 サンプル3次元形状の鋭い幾何学的特徴を予測するための学習ベースのフレームワークであるDeep Estimators of Features (DEFs)を提案する。 この問題を特徴分類に還元する既存のデータ駆動手法とは違って,局所パッチ上の点検点から最も近い特徴線までの距離を表すスカラー場を回帰することを提案する。 個々のパッチの結果を融合させることで、そのサイズと複雑さのために既存のデータ駆動方式では処理できない大きな3Dモデルを処理できる。 合成および実世界の3次元形状データセット上でのDefの広範囲な実験的評価を行い、競合する手法に対する画像および点ベース推定器の利点と、我々のアプローチの耐雑音性とスケーラビリティの向上を提案する。

Sharp feature lines carry essential information about human-made objects, enabling compact 3D shape representations, high-quality surface reconstruction, and are a signal source for mesh processing. While extracting high-quality lines from noisy and undersampled data is challenging for traditional methods, deep learning-powered algorithms can leverage global and semantic information from the training data to aid in the process. We propose Deep Estimators of Features (DEFs), a learning-based framework for predicting sharp geometric features in sampled 3D shapes. Differently from existing data-driven methods, which reduce this problem to feature classification, we propose to regress a scalar field representing the distance from point samples to the closest feature line on local patches. By fusing the result of individual patches, we can process large 3D models, which are impossible to process for existing data-driven methods due to their size and complexity. Extensive experimental evaluation of DEFs is implemented on synthetic and real-world 3D shape datasets and suggests advantages of our image- and point-based estimators over competitor methods, as well as improved noise robustness and scalability of our approach.
翻訳日:2021-06-06 14:35:27 公開日:2020-11-30
# ディープセグメンテーションCNNのロバスト性を改善するテクスチャバイアス低減

Reducing Textural Bias Improves Robustness of Deep Segmentation CNNs ( http://arxiv.org/abs/2011.15093v1 )

ライセンス: Link先を確認
Seoin Chai, Daniel Rueckert, Ahmed E. Fetit(参考訳) ディープラーニングの進歩にもかかわらず、医療画像設定ではドメインシフトが一般的な問題である。 自然画像の最近の知見は、深層ニューラルネットワークは画像分類タスクを実行する際に、ますます複雑な形状表現を通じて物体を認識する畳み込みニューラルネットワーク(CNN)の共通理解に反する、テクスチャバイアスを示す可能性があることを示唆している。 本研究では,自然画像に関する最近の知見から着想を得て,三次元3次元医療データに適用した場合の深部セグメンテーションモデルのロバスト性と伝達性を実現するために,テクスチャバイアス現象に対処する方法を検討することを目的としている。 これを実現するために、Development Human Connectome Projectから公開されているMRIスキャンを使用して、複雑なセグメンテーションタスクで堅牢なモデルをトレーニングするのに役立つテクスチャノイズをシミュレートする方法を調査する。 本研究は, 学習前に特定の種類のテクスチャフィルタを適用することで, 従来見えなかった雑音によるスキャンのセグメント化能力を高めることができることを示す。

Despite current advances in deep learning, domain shift remains a common problem in medical imaging settings. Recent findings on natural images suggest that deep neural models can show a textural bias when carrying out image classification tasks, which goes against the common understanding of convolutional neural networks (CNNs) recognising objects through increasingly complex representations of shape. This study draws inspiration from recent findings on natural images and aims to investigate ways in which addressing the textural bias phenomenon could be used to bring up the robustness and transferability of deep segmentation models when applied to three-dimensional (3D) medical data. To achieve this, publicly available MRI scans from the Developing Human Connectome Project are used to investigate ways in which simulating textural noise can help train robust models in a complex segmentation task. Our findings illustrate how applying specific types of textural filters prior to training the models can increase their ability to segment scans corrupted by previously unseen noise.
翻訳日:2021-06-06 14:35:08 公開日:2020-11-30
# ユーレリア運動場を用いたアニメーション画像

Animating Pictures with Eulerian Motion Fields ( http://arxiv.org/abs/2011.15128v1 )

ライセンス: Link先を確認
Aleksander Holynski, Brian Curless, Steven M. Seitz, Richard Szeliski(参考訳) 本稿では,静止画をリアルなアニメーションループ映像に変換する完全自動手法を実証する。 流水や発煙などの連続的な流体運動を伴う場面を対象とする。 本手法は,静的ユーレリア運動記述から,このような自然運動を説得的に再現できるという観察に依存している。 与えられた2d位置における粒子の即時運動を定義する1つの時間的に一定な流れ場。 画像から画像への翻訳ネットワークを用いて,オンラインビデオから収集した自然シーンの先行動きをエンコードし,新しい写真では対応する動き場を合成できる。 ピクセルは深い特徴としてエンコードされ、それらの特徴はユーレリア運動によって歪められ、結果として得られた特徴マップは画像としてデコードされる。 連続的かつシームレスにループする映像テクスチャを生成するために,前向きと後向きの両方に特徴を流し,その結果をブレンドする新しいビデオループ技術を提案する。 本研究では,砂浜,滝,河川など多数の例に適用し,本手法の有効性とロバスト性を示す。

In this paper, we demonstrate a fully automatic method for converting a still image into a realistic animated looping video. We target scenes with continuous fluid motion, such as flowing water and billowing smoke. Our method relies on the observation that this type of natural motion can be convincingly reproduced from a static Eulerian motion description, i.e. a single, temporally constant flow field that defines the immediate motion of a particle at a given 2D location. We use an image-to-image translation network to encode motion priors of natural scenes collected from online videos, so that for a new photo, we can synthesize a corresponding motion field. The image is then animated using the generated motion through a deep warping technique: pixels are encoded as deep features, those features are warped via Eulerian motion, and the resulting warped feature maps are decoded as images. In order to produce continuous, seamlessly looping video textures, we propose a novel video looping technique that flows features both forward and backward in time and then blends the results. We demonstrate the effectiveness and robustness of our method by applying it to a large collection of examples including beaches, waterfalls, and flowing rivers.
翻訳日:2021-06-06 14:34:49 公開日:2020-11-30
# 幾何学的制約によらず--Articulated Object Pose Estimationのためのモデルフリー手法

Nothing But Geometric Constraints: A Model-Free Method for Articulated Object Pose Estimation ( http://arxiv.org/abs/2012.00088v1 )

ライセンス: Link先を確認
Qihao Liu, Weichao Qiu, Weiyao Wang, Gregory D. Hager, Alan L. Yuille(参考訳) そこで本研究では,ロボットアームの関節構成を,モデルに事前知識を持たずにRGBまたはRGB-D画像のシーケンスから推定し,カテゴリー非依存のオブジェクトポーズ推定のタスクに適応させる,教師なし視覚ベースシステムを提案する。 古典幾何学的定式化と深層学習を組み合わせることで,エピポーラ制約をマルチリジッド体系に拡張して解く。 ビデオシーケンスが与えられると、光学フローはピクセル単位で密度の高い対応を得ると推定される。 その後、6dポーズは修正pnpアルゴリズムによって計算される。 重要なアイデアは、幾何学的制約と複数のフレーム間の制約を活用することである。 さらに,視覚に基づくロボット制御とロボットビジョンの研究のために,様々な種類のロボットと多関節関節オブジェクトを用いた合成データセットを構築した。 本手法は,3つのベンチマークデータセットで有効であることを実証し,ロボットアームと関節物体の関節角度推定において,最先端の教師あり手法よりも精度が高いことを示す。

We propose an unsupervised vision-based system to estimate the joint configurations of the robot arm from a sequence of RGB or RGB-D images without knowing the model a priori, and then adapt it to the task of category-independent articulated object pose estimation. We combine a classical geometric formulation with deep learning and extend the use of epipolar constraint to multi-rigid-body systems to solve this task. Given a video sequence, the optical flow is estimated to get the pixel-wise dense correspondences. After that, the 6D pose is computed by a modified PnP algorithm. The key idea is to leverage the geometric constraints and the constraint between multiple frames. Furthermore, we build a synthetic dataset with different kinds of robots and multi-joint articulated objects for the research of vision-based robot control and robotic vision. We demonstrate the effectiveness of our method on three benchmark datasets and show that our method achieves higher accuracy than the state-of-the-art supervised methods in estimating joint angles of robot arms and articulated objects.
翻訳日:2021-06-06 14:34:31 公開日:2020-11-30
# ニューラルシミュレーションに基づく推論による星の流れによる温かいダークマターの拘束に向けて

Towards constraining warm dark matter with stellar streams through neural simulation-based inference ( http://arxiv.org/abs/2011.14923v1 )

ライセンス: Link先を確認
Joeri Hermans, Nilanjan Banik, Christoph Weniger, Gianfranco Bertone, Gilles Louppe(参考訳) 恒星の流れの密度における観測された摂動の統計的解析は、原理的には暗黒物質サブハローの質量関数に厳密な反則を設定でき、これは暗黒物質粒子の質量を制限するために用いられる。 しかし、ストリームとサブハロインパラメータに対する恒星密度の確率は、シミュレーションモデルによって暗黙的に定義される全ての可能な前進実現の積分にかかっている難解な逆問題を解くことを伴う。 半減期を推定するために、以前の分析は、ドメイン駆動だが手作りの要約統計と共に、近似ベイズ計算(ABC)に依存していた。 本稿では,データとシミュレータパラメータのマッピングを自動的に学習し,潜在的に不十分な要約統計を手作りする必要性を解消する,amortized approximation likelihood ratios(aalr)に基づく確率自由ベイズ推定パイプラインを提案する。 本手法は,暗黒物質サブハローによってのみ星の流れが乱れ,バリュニックなサブストラクチャーを無視する簡易な場合に適用し,新しい手法の有効性と学習した推定器の統計的品質を示すいくつかの診断法について述べる。

A statistical analysis of the observed perturbations in the density of stellar streams can in principle set stringent contraints on the mass function of dark matter subhaloes, which in turn can be used to constrain the mass of the dark matter particle. However, the likelihood of a stellar density with respect to the stream and subhaloes parameters involves solving an intractable inverse problem which rests on the integration of all possible forward realisations implicitly defined by the simulation model. In order to infer the subhalo abundance, previous analyses have relied on Approximate Bayesian Computation (ABC) together with domain-motivated but handcrafted summary statistics. Here, we introduce a likelihood-free Bayesian inference pipeline based on Amortised Approximate Likelihood Ratios (AALR), which automatically learns a mapping between the data and the simulator parameters and obviates the need to handcraft a possibly insufficient summary statistic. We apply the method to the simplified case where stellar streams are only perturbed by dark matter subhaloes, thus neglecting baryonic substructures, and describe several diagnostics that demonstrate the effectiveness of the new method and the statistical quality of the learned estimator.
翻訳日:2021-06-06 14:34:12 公開日:2020-11-30
# テンソルネットワークと変分量子回路に基づくハイブリッド量子古典分類器

Hybrid quantum-classical classifier based on tensor network and variational quantum circuit ( http://arxiv.org/abs/2011.14651v1 )

ライセンス: Link先を確認
Samuel Yen-Chi Chen, Chih-Min Huang, Chia-Wei Hsing and Ying-Jer Kao(参考訳) ノイズの多い中間スケール量子(NISQ)デバイス上で量子機械学習(QML)を実行するための重要なステップは、符号化に先立って入力データの次元削減である。 従来の原理コンポーネント分析(pca)とニューラルネットワークは、このタスクを実行するために使われてきたが、古典層と量子層は通常、別々に訓練される。 したがって、2つの主要なコンポーネントのより良い統合を可能にするフレームワークは非常に望ましい。 本稿では,量子インスパイアされたテンソルネットワーク (tn) と変分量子回路 (vqc) を組み合わせて教師あり学習タスクを行うハイブリッドモデルを提案する。 低結合次元の行列積状態に基づくTNは、MNISTデータセットのバイナリ分類において、VQCの入力のためのデータを圧縮する特徴抽出器としてPCAよりも優れていることを示す。 アーキテクチャは非常に適応性が高く、利用可能な時に余分な量子リソースを組み込むことができる。

One key step in performing quantum machine learning (QML) on noisy intermediate-scale quantum (NISQ) devices is the dimension reduction of the input data prior to their encoding. Traditional principle component analysis (PCA) and neural networks have been used to perform this task; however, the classical and quantum layers are usually trained separately. A framework that allows for a better integration of the two key components is thus highly desirable. Here we introduce a hybrid model combining the quantum-inspired tensor networks (TN) and the variational quantum circuits (VQC) to perform supervised learning tasks, which allows for an end-to-end training. We show that a matrix product state based TN with low bond dimensions performs better than PCA as a feature extractor to compress data for the input of VQCs in the binary classification of MNIST dataset. The architecture is highly adaptable and can easily incorporate extra quantum resource when available.
翻訳日:2021-06-06 14:33:50 公開日:2020-11-30
# 深部ニューラルネットワークを用いたSwarmデータからの電子散乱断面積の抽出

Extracting Electron Scattering Cross Sections from Swarm Data using Deep Neural Networks ( http://arxiv.org/abs/2011.14711v1 )

ライセンス: Link先を確認
Vishrut Jetly and Bhaskar Chaudhury(参考訳) 電子-中性散乱断面積は、今日の多くの技術応用に使用される低温プラズマのシミュレーションにおける基本的な量である。 これらの顕微鏡断面から、いくつかのマクロスケールの量("swarm"パラメータと呼ばれる)を計算することができる。 しかし, 断面積の測定や理論計算は困難である。 1960年代以降、研究者はSwarmデータから断面を求める逆Swarm問題の解決を試みたが、解は必ずしもユニークではない。 この問題に対処するために,LXCatのウェブサイトで利用可能な異なる気体に対する弾性運動量移動,イオン化,励起断面積の決定を用いてトレーニングした深層学習モデルと,弱イオン化ガス中の電子に対するボルツマン方程式の数値解に対するBOLSIG+ソルバを用いて計算した対応するスワムパラメータについて検討した。 本研究では,人工知能ニューラルネットワーク(ANN),畳み込みニューラルネットワーク(CNN),密結合畳み込みニューラルネットワーク(DenseNet)を実装した。 我々の知る限り、逆群問題に対するcnnとdungnetの使用についての研究は行われていない。 我々は,これら全ての訓練済みのガス種に対する予測の有効性を検証し,swarmデータから長期的および短期的特徴を効果的に抽出し,annと比較して断面積を有意に高い精度で予測する。 さらに,モンテカルロ・ドロップアウトをベイズ近似として適用し,断面の確率分布を推定し,この逆問題のすべての可能性解を求める。

Electron-neutral scattering cross sections are fundamental quantities in simulations of low temperature plasmas used for many technological applications today. From these microscopic cross sections, several macro-scale quantities (called "swarm" parameters) can be calculated. However, measurements as well as theoretical calculations of cross sections are challenging. Since the 1960s researchers have attempted to solve the inverse swarm problem of obtaining cross sections from swarm data; but the solutions are not necessarily unique. To address this issues, we examine the use of deep learning models which are trained using the previous determinations of elastic momentum transfer, ionization and excitation cross sections for different gases available on the LXCat website and their corresponding swarm parameters calculated using the BOLSIG+ solver for the numerical solution of the Boltzmann equation for electrons in weakly ionized gases. We implement artificial neural network (ANN), convolutional neural network (CNN) and densely connected convolutional network (DenseNet) for this investigation. To the best of our knowledge, there is no study exploring the use of CNN and DenseNet for the inverse swarm problem. We test the validity of predictions by all these trained networks for a broad range of gas species and we deduce that DenseNet effectively extracts both long and short term features from the swarm data and hence, it predicts cross sections with significantly higher accuracy compared to ANN. Further, we apply Monte Carlo dropout as Bayesian approximation to estimate the probability distribution of the cross sections to determine all plausible solutions of this inverse problem.
翻訳日:2021-06-06 14:33:34 公開日:2020-11-30
# 不均質グラフ埋め込みに関する調査研究:方法、技術、応用および情報源

A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources ( http://arxiv.org/abs/2011.14867v1 )

ライセンス: Link先を確認
Xiao Wang and Deyu Bo and Chuan Shi and Shaohua Fan and Yanfang Ye and Philip S. Yu(参考訳) ヘテロジニアス・インフォメーション・ネットワークとしても知られるヘテロジニアス・グラフ(HG)は、現実のシナリオにおいてユビキタスなものとなっているため、下流タスク(ノード/グラフ分類、ノードクラスタリング、リンク予測など)のヘテロジニアス構造とセマンティクスを保ちながら、低次元空間での表現を学習することを目的としたHG埋め込みが近年注目されている。 本稿では,近年のHG埋込工法および技術開発に関する総合的なレビューを行う。 まず,HGの基本的な概念を紹介し,同種グラフ表現学習と比較してHGの組込みの不均一性に起因する固有の課題について考察し,HGの不均一性に起因する課題に対処するために,学習プロセスで使用する情報に基づいて,最先端HG組込み手法を体系的に調査・分類する。 特に, 各代表HG埋込方式について, より詳細な紹介を行い, その長所と短所を更に分析するとともに, 実環境における各種HG埋込方式の転換性と適用性についても検討した。 さらに,HG埋め込み技術の成功を実証した,より広範な影響で現実のアプリケーション問題を解決するシステムについても紹介する。 この領域における今後の研究と応用を促進するため、オープンソースコード、既存のグラフ学習プラットフォーム、ベンチマークデータセットもまとめます。 最後に,本分野におけるhg埋め込みの課題と課題について検討し,今後の研究方向性について予測する。

Heterogeneous graphs (HGs) also known as heterogeneous information networks have become ubiquitous in real-world scenarios; therefore, HG embedding, which aims to learn representations in a lower-dimension space while preserving the heterogeneous structures and semantics for downstream tasks (e.g., node/graph classification, node clustering, link prediction), has drawn considerable attentions in recent years. In this survey, we perform a comprehensive review of the recent development on HG embedding methods and techniques. We first introduce the basic concepts of HG and discuss the unique challenges brought by the heterogeneity for HG embedding in comparison with homogeneous graph representation learning; and then we systemically survey and categorize the state-of-the-art HG embedding methods based on the information they used in the learning process to address the challenges posed by the HG heterogeneity. In particular, for each representative HG embedding method, we provide detailed introduction and further analyze its pros and cons; meanwhile, we also explore the transformativeness and applicability of different types of HG embedding methods in the real-world industrial environments for the first time. In addition, we further present several widely deployed systems that have demonstrated the success of HG embedding techniques in resolving real-world application problems with broader impacts. To facilitate future research and applications in this area, we also summarize the open-source code, existing graph learning platforms and benchmark datasets. Finally, we explore the additional issues and challenges of HG embedding and forecast the future research directions in this field.
翻訳日:2021-06-06 14:33:08 公開日:2020-11-30
# 大規模会議における資格審査員の少人数対応のための初学者実験

A Novice-Reviewer Experiment to Address Scarcity of Qualified Reviewers in Large Conferences ( http://arxiv.org/abs/2011.15050v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Nihar B. Shah, Aarti Singh, and Hal Daum\'e III(参考訳) 会議のピアレビューは、重要度が過大評価されない人間の計算プロセスを構成する。それは、受理のための最高の提出を識別するだけでなく、究極的には、いくつかのアイデアを奨励し、他を抑えることによって、研究領域の将来に影響を及ぼす。 主要なaiカンファレンスの応募数の増加は、ずっと遅いペースで成長している資格審査者のプールへの負担を増加させることで、レビュープロセスの持続可能性に異議を唱えている。 本研究では,大規模会議における資格審査者の不足に着目し,レビュアー採用の課題について考察する。 具体的には、(i)主要な会議でカバーされない人々からレビュワーを募集し、(ii)レビュアーパイプラインを通じてレビュアーを導く手順をデザインする。 大規模でトップクラスの機械学習カンファレンスであるICML 2020と合わせて、私たちの手順を通じて少数のレビュアーを募集し、ICMLレビュアーの一般人口とパフォーマンスを比較します。 本実験により,採用・指導機構を組み合わせることで,レビュアプールの原則的強化が可能となり,プログラム委員会(Meta-reviewers)の上級メンバが評価する従来のレビュープールと比較して,優れた品質のレビューが可能になることが明らかになった。

Conference peer review constitutes a human-computation process whose importance cannot be overstated: not only it identifies the best submissions for acceptance, but, ultimately, it impacts the future of the whole research area by promoting some ideas and restraining others. A surge in the number of submissions received by leading AI conferences has challenged the sustainability of the review process by increasing the burden on the pool of qualified reviewers which is growing at a much slower rate. In this work, we consider the problem of reviewer recruiting with a focus on the scarcity of qualified reviewers in large conferences. Specifically, we design a procedure for (i) recruiting reviewers from the population not typically covered by major conferences and (ii) guiding them through the reviewing pipeline. In conjunction with ICML 2020 -- a large, top-tier machine learning conference -- we recruit a small set of reviewers through our procedure and compare their performance with the general population of ICML reviewers. Our experiment reveals that a combination of the recruiting and guiding mechanisms allows for a principled enhancement of the reviewer pool and results in reviews of superior quality compared to the conventional pool of reviews as evaluated by senior members of the program committee (meta-reviewers).
翻訳日:2021-06-06 14:32:28 公開日:2020-11-30
# カリフォルニアisoエネルギー市場における収束入札戦略の発見・特徴化・分類のためのデータ駆動研究

A Data-Driven Study to Discover, Characterize, and Classify Convergence Bidding Strategies in California ISO Energy Market ( http://arxiv.org/abs/2012.00076v1 )

ライセンス: Link先を確認
Ehsan Samani and Hamed Mohsenian-Rad(参考訳) 近年、コンバージェンス入札は、米国のほとんどの独立系オペレーター(isos)によって、市場効率を高めるための比較的新しい市場メカニズムとして採用されている。 コンバージェンス入札は電力市場の運営の多くの側面に影響を与えており、現在市場参加者が実際にどのようにコンバージェンス入札を戦略的に選択するかを理解するための文献にギャップがある。 そこで,本稿では,カリフォルニア州のisoエネルギー市場における3年間の実世界の市場データについて検討する。 まず、提出されたコンバージェンス入札(CB)に関するデータ駆動概要と、提出したCBの件数、掲載したCBの件数、提出した供給または需要の件数、クリアされたCBの件数、利益または損失の件数に基づいて、各コンバージェンス入札者の業績を分析する。 次に、カリフォルニアのiso市場の全cbsの75%を占める13大市場プレーヤーの入札戦略について調査する。 定量的特徴を識別し,それぞれのコンバージェンス入札戦略を識別する。 この分析により、実際に使用されるCB戦略の3つの異なるクラスが明らかになった。 戦略的入札クラスの違いを特定し,そのメリットとデメリットを比較した。 また、最もアクティブな市場参加者の何人かが、現在文献に存在している戦略的入札方法に合致しない入札戦略をどのように使っているかを説明します。

Convergence bidding has been adopted in recent years by most Independent System Operators (ISOs) in the United States as a relatively new market mechanism to enhance market efficiency. Convergence bidding affects many aspects of the operation of the electricity markets and there is currently a gap in the literature on understanding how the market participants strategically select their convergence bids in practice. To address this open problem, in this paper, we study three years of real-world market data from the California ISO energy market. First, we provide a data-driven overview of all submitted convergence bids (CBs) and analyze the performance of each individual convergence bidder based on the number of their submitted CBs, the number of locations that they placed the CBs, the percentage of submitted supply or demand CBs, the amount of cleared CBs, and their gained profit or loss. Next, we scrutinize the bidding strategies of the 13 largest market players that account for 75\% of all CBs in the California ISO market. We identify quantitative features to characterize and distinguish their different convergence bidding strategies. This analysis results in revealing three different classes of CB strategies that are used in practice. We identify the differences between these strategic bidding classes and compare their advantages and disadvantages. We also explain how some of the most active market participants are using bidding strategies that do not match any of the strategic bidding methods that currently exist in the literature.
翻訳日:2021-06-06 14:32:05 公開日:2020-11-30
# 汎用相互情報(GMI)による長距離医療画像登録 : 完全自動ボリュームアライメントに向けて

Long-range medical image registration through generalized mutual information (GMI): toward a fully automatic volumetric alignment ( http://arxiv.org/abs/2011.15049v1 )

ライセンス: Link先を確認
Vinicius Pavanelli Vianna and Luiz Otavio Murta Jr(参考訳) 画像登録は医療画像処理における重要な操作であり、多くの応用が可能となる。 相互情報(mi)は、医療画像登録によく用いられる堅牢な類似度指標として統合される。 MIは、堅牢な医用画像登録を提供するが、MI局所的な最大トラップのため、必要な画像変換が大きすぎると、通常失敗する。 本稿では,一般パラメトリックMIをアフィン登録コスト関数として提案し,評価する。 分離可能なアフィン変換のための一般化MI (GMI) 関数を評価し, 勾配勾配シミュレーションを用いて最大登録範囲を求めるGMI数学的イメージを網羅的に評価した。 また,ランダム化t1対t2画像の翻訳登録をテストするためにモンテカルロシミュレーションエッセイを用いた。 GMI関数は、アルゴリズムを大域最大に駆動する滑らかな等曲面を持つことを示した。 その結果,局所極大の罠を回避し,登録範囲が著しく延長された。 本研究は, 回転の[-150mm, 150mm], 回転の[-180{\deg}, 180{\deg}], スケールの[0.5,2], 成功率99.99%, 97.58%, 99.99%, 99.99%のスキューの[-1,1]について検討した。 また、1,113件の被験者T1およびT2MRI画像を用いた2000件のランダム化翻訳試験からモンテカルロシミュレーションにおいて99.75%の成功を得た。 高速化された長距離登録におけるGMIの信頼性に関する知見

Image registration is a key operation in medical image processing, allowing a plethora of applications. Mutual information (MI) is consolidated as a robust similarity metric often used for medical image registration. Although MI provides a robust medical image registration, it usually fails when the needed image transform is too big due to MI local maxima traps. In this paper, we propose and evaluate a generalized parametric MI as an affine registration cost function. We assessed the generalized MI (GMI) functions for separable affine transforms and exhaustively evaluated the GMI mathematical image seeking the maximum registration range through a gradient descent simulation. We also employed Monte Carlo simulation essays for testing translation registering of randomized T1 versus T2 images. GMI functions showed to have smooth isosurfaces driving the algorithm to the global maxima. Results show significantly prolonged registration ranges, avoiding the traps of local maxima. We evaluated a range of [-150mm,150mm] for translations, [-180{\deg},180{\deg}] for rotations, [0.5,2] for scales, and [-1,1] for skew with a success rate of 99.99%, 97.58%, 99.99%, and 99.99% respectively for the transforms in the simulated gradient descent. We also obtained 99.75% success in Monte Carlo simulation from 2,000 randomized translations trials with 1,113 subjects T1 and T2 MRI images. The findings point towards the reliability of GMI for long-range registration with enhanced speed performance
翻訳日:2021-06-06 14:31:41 公開日:2020-11-30
# 三次元姿勢情報を含む光偏光パターンの探索

Exploration of Whether Skylight Polarization Patterns Contain Three-dimensional Attitude Information ( http://arxiv.org/abs/2012.09154v1 )

ライセンス: Link先を確認
Huaju Liang, Hongyang Bai and Tong Zhou(参考訳) これまでの研究では,光の偏光パターンを記述するために偏光ナビゲーションに広く用いられているレイリーモデルには,3次元の姿勢情報 [1] は含まれていないことを示した。 しかし,光の偏光パターンが3次元姿勢情報を含むかどうか,さらに検討する必要がある。 そこで本稿では,3つのオイラー角度を推定するソーシャルスパイダー最適化(sso)法を提案し,テンプレートマッチング(tm)に基づく偏光画像間の各画素の差を考慮し,取得した偏光情報を十分に活用する。 さらに,この問題を検討するために,偏光角(aop)と偏光度(dop)情報だけでなく,光強度(li)情報も利用する。 そこで,BerryモデルとHosekモデルを組み合わせて,空におけるAOP,DOP,LI情報を完全に記述し,4つの中立点,地上アルベド,大気の濁度,波長の影響を考察するスカイモデルを構築した。 シミュレーションの結果、SSOアルゴリズムは3次元姿勢を推定でき、確立された空モデルは3次元姿勢情報を含むことが示された。 しかし, 測定ノイズやモデル誤差がある場合, 3次元姿勢推定の精度は著しく低下する。 特に野外実験では3次元姿勢を推定することは極めて困難である。 最後に、結果は詳細に議論される。

Our previous work has demonstrated that Rayleigh model, which is widely used in polarized skylight navigation to describe skylight polarization patterns, does not contain three-dimensional (3D) attitude information [1]. However, it is still necessary to further explore whether the skylight polarization patterns contain 3D attitude information. So, in this paper, a social spider optimization (SSO) method is proposed to estimate three Euler angles, which considers the difference of each pixel among polarization images based on template matching (TM) to make full use of the captured polarization information. In addition, to explore this problem, we not only use angle of polarization (AOP) and degree of polarization (DOP) information, but also the light intensity (LI) information. So, a sky model is established, which combines Berry model and Hosek model to fully describe AOP, DOP, and LI information in the sky, and considers the influence of four neutral points, ground albedo, atmospheric turbidity, and wavelength. The results of simulation show that the SSO algorithm can estimate 3D attitude and the established sky model contains 3D attitude information. However, when there are measurement noise or model error, the accuracy of 3D attitude estimation drops significantly. Especially in field experiment, it is very difficult to estimate 3D attitude. Finally, the results are discussed in detail.
翻訳日:2021-06-06 14:31:11 公開日:2020-11-30
# 動的反復PCAによる誤り変数ARXモデルの同定

Identification of Errors-in-Variables ARX Models Using Modified Dynamic Iterative PCA ( http://arxiv.org/abs/2011.14645v1 )

ライセンス: Link先を確認
Deepak Maurya, Arun K. Tangirala and Shankar Narasimhan(参考訳) 外因性入力(ARX)を持つ自己回帰モデルの同定は、システム同定における古典的な問題である。 本稿では,入力計測にもノイズが伴うような誤り不変(EIV)ARXモデル同定問題について考察する。 最近提案されたDIPCA技術は、EIV識別問題を解くが、白色測定誤差にのみ適用できる。 本稿では,siso(single-input, single-output)システムにおけるeiv-arxモデルとarxモデルに整合した色付きノイズが出力測定値の劣化を識別するために,修正された動的反復主成分分析(dipca)に基づく新しい同定アルゴリズムを提案する。 既存の手法の多くは、入力出力順序、遅延、ノイズ分散などの重要なパラメータを想定している。 この研究の斬新さは、エラーの分散、プロセスの順序、遅延、モデルパラメータを共同で推定することにある。 これらのパラメータを理論的に厳密な方法で得られる中心的アイデアは、推定誤差分散とモデルパラメータを用いて得られる適切な誤差共分散行列を用いて、ラベル付き測定を変換することに基づいている。 提案手法の有効性を示すために, 2つのシステムに関するシミュレーション研究を行った。

Identification of autoregressive models with exogenous input (ARX) is a classical problem in system identification. This article considers the errors-in-variables (EIV) ARX model identification problem, where input measurements are also corrupted with noise. The recently proposed DIPCA technique solves the EIV identification problem but is only applicable to white measurement errors. We propose a novel identification algorithm based on a modified Dynamic Iterative Principal Components Analysis (DIPCA) approach for identifying the EIV-ARX model for single-input, single-output (SISO) systems where the output measurements are corrupted with coloured noise consistent with the ARX model. Most of the existing methods assume important parameters like input-output orders, delay, or noise-variances to be known. This work's novelty lies in the joint estimation of error variances, process order, delay, and model parameters. The central idea used to obtain all these parameters in a theoretically rigorous manner is based on transforming the lagged measurements using the appropriate error covariance matrix, which is obtained using estimated error variances and model parameters. Simulation studies on two systems are presented to demonstrate the efficacy of the proposed algorithm.
翻訳日:2021-06-06 14:30:06 公開日:2020-11-30
# pre and prejudice: the novice reviewers' bias against resubmissions in conference peer review

Prior and Prejudice: The Novice Reviewers' Bias against Resubmissions in Conference Peer Review ( http://arxiv.org/abs/2011.14646v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Nihar B. Shah, Aarti Singh, and Hal Daum\'e III(参考訳) 現代の機械学習とコンピュータサイエンスのカンファレンスは、有能なレビュワーの数がずっと遅いペースで増えているため、ピアレビューの質に挑戦する応募数が急増している。 この傾向を抑え、レビュアーの負担を軽減するために、いくつかの会議が著者に論文の以前の提出履歴を宣言するよう促したり要求したりし始めた。 このようなイニシアティブは、この情報によって引き起こされるレビュアーの勧告の潜在的なバイアスに対する懸念を提起する著者の間では懐疑的になっている。 本研究では,機械学習やコンピュータサイエンスの会議において,レビュアープールの多数を占める初心者レビュアーの集団を対象に,レビュー対象の提出が以前同様の会場で拒否されたという知識から生じるバイアスが,レビュアーが示されるかどうかについて検討する。 私たちは、ピアレビューパイプラインの関連コンポーネントを、133ドルのレビュアー(マスターズ、ジュニア博士課程の学生、そして最近アメリカのトップ大学の卒業生)が19ドルの論文のレビューを書くように、ランダムに制御されたトライアルを設計し、実行します。 この分析により、レビュアーは再提出された紙についての信号を受け取ると、実際に負の偏りを呈し、そのような信号を受け取らないレビュアーよりも10ポイントのイコールアイテム(\Delta = -0.78, \ 95\% \ \text{CI} = [-1.30, -0.24]$)の総合スコアがほぼ1ポイント低い。 特定の基準スコア(オリジナリティ、品質、明快さ、重要性)を見ると、初心者は品質を過小評価する傾向があることが分かる。

Modern machine learning and computer science conferences are experiencing a surge in the number of submissions that challenges the quality of peer review as the number of competent reviewers is growing at a much slower rate. To curb this trend and reduce the burden on reviewers, several conferences have started encouraging or even requiring authors to declare the previous submission history of their papers. Such initiatives have been met with skepticism among authors, who raise the concern about a potential bias in reviewers' recommendations induced by this information. In this work, we investigate whether reviewers exhibit a bias caused by the knowledge that the submission under review was previously rejected at a similar venue, focusing on a population of novice reviewers who constitute a large fraction of the reviewer pool in leading machine learning and computer science conferences. We design and conduct a randomized controlled trial closely replicating the relevant components of the peer-review pipeline with $133$ reviewers (master's, junior PhD students, and recent graduates of top US universities) writing reviews for $19$ papers. The analysis reveals that reviewers indeed become negatively biased when they receive a signal about paper being a resubmission, giving almost 1 point lower overall score on a 10-point Likert item ($\Delta = -0.78, \ 95\% \ \text{CI} = [-1.30, -0.24]$) than reviewers who do not receive such a signal. Looking at specific criteria scores (originality, quality, clarity and significance), we observe that novice reviewers tend to underrate quality the most.
翻訳日:2021-06-06 14:29:46 公開日:2020-11-30
# インクリメンタルな方向補正から学ぶ

Learning from Incremental Directional Corrections ( http://arxiv.org/abs/2011.15014v1 )

ライセンス: Link先を確認
Wanxin Jin, Todd D. Murphey, Shaoshuai Mou(参考訳) 本稿では,ロボットが人間の修正から制御対象関数を段階的に学習できる手法を提案する。 人間の補正は、方向修正と同じくらい単純で、その大きさを示さずに制御の変化の方向を示す補正は、ロボットの動き中にある時点で適用される。 人間の修正は、その大きさに関係なく、暗黙の目的関数と比較してロボットの現在の動きを改善する方向を指していると仮定するのみである。 提案手法は,切削面法に基づく対象関数の推定値を更新するために補正の方向を用いる。 我々は,この漸進的修正と更新のプロセスが学習対象関数の暗黙的関数への収束を保証することを示す理論的結果を確立する。 この方法はシミュレーションと2つの人間ロボットゲームの両方で検証され、人間のプレイヤーが障害物のある環境での動作計画のための2リンクロボットアームと6-DoFクアドロータシステムを教える。

This paper proposes a technique which enables a robot to learn a control objective function incrementally from human user's corrections. The human's corrections can be as simple as directional corrections -- corrections that indicate the direction of a control change without indicating its magnitude -- applied at some time instances during the robot's motion. We only assume that each of the human's corrections, regardless of its magnitude, points in a direction that improves the robot's current motion relative to an implicit objective function. The proposed method uses the direction of a correction to update the estimate of the objective function based on a cutting plane technique. We establish the theoretical results to show that this process of incremental correction and update guarantees convergence of the learned objective function to the implicit one. The method is validated by both simulations and two human-robot games, where human players teach a 2-link robot arm and a 6-DoF quadrotor system for motion planning in environments with obstacles.
翻訳日:2021-06-06 14:28:52 公開日:2020-11-30
# ピアレビュー討論における大規模ランダム化制御試験

A Large Scale Randomized Controlled Trial on Herding in Peer-Review Discussions ( http://arxiv.org/abs/2011.15083v1 )

ライセンス: Link先を確認
Ivan Stelmakh, Charvi Rastogi, Nihar B. Shah, Aarti Singh, and Hal Daum\'e III(参考訳) ピアレビューはアカデミアのバックボーンであり、人間がこのプロセスの基盤となり、論文のレビューと最終的な受け入れ/排除の決定に責任を負う。 人間の意思決定は様々な認知バイアスに影響を受けやすいことが知られているので、ピアレビュープロセスにどのバイアスが存在するかを理解し、これらのバイアスの影響を最小限に抑えるようにパイプラインを設計することが重要である。 本研究は,司会者間の議論のダイナミクスに着目し,そこでの牧草行動の有無を考察する。 そこで本稿では,レビュアーや上級意思決定者が,(レビュアーの場合)論文に関する独立した意見を形成する際に,議論で提示された最初の議論によって不公平に影響されるかを理解することを目的とする。 具体的には、ICML 2020(大規模でトップクラスの機械学習カンファレンス)のレビュープロセスと合わせて、論文の結果に対する議論開始者の意見の条件因果効果をテストすることを目的として、ランダム化された制御されたトライアルを設計、実行しています。

Peer review is the backbone of academia and humans constitute a cornerstone of this process, being responsible for reviewing papers and making the final acceptance/rejection decisions. Given that human decision making is known to be susceptible to various cognitive biases, it is important to understand which (if any) biases are present in the peer-review process and design the pipeline such that the impact of these biases is minimized. In this work, we focus on the dynamics of between-reviewers discussions and investigate the presence of herding behaviour therein. In that, we aim to understand whether reviewers and more senior decision makers get disproportionately influenced by the first argument presented in the discussion when (in case of reviewers) they form an independent opinion about the paper before discussing it with others. Specifically, in conjunction with the review process of ICML 2020 -- a large, top tier machine learning conference -- we design and execute a randomized controlled trial with the goal of testing for the conditional causal effect of the discussion initiator's opinion on the outcome of a paper.
翻訳日:2021-06-06 14:28:35 公開日:2020-11-30