このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210505となっている論文です。

PDF登録状況(公開日: 20210505)

TitleAuthorsAbstract論文公表日・翻訳日
# diffusionnet: 表面上の離散化非依存学習

DiffusionNet: Discretization Agnostic Learning on Surfaces ( http://arxiv.org/abs/2012.00888v2 )

ライセンス: Link先を確認
Nicholas Sharp, Souhaib Attaiki, Keenan Crane, Maks Ovsjanikov(参考訳) 本研究では,簡易拡散層が空間コミュニケーションに非常に有効であるという知見に基づいて,3次元表面の深層学習への新たなアプローチを提案する。 結果として得られるネットワークは、表面の様々なサンプリングと解像度を自動的に一般化する。 我々のネットワークは三角形メッシュや点雲などの様々な幾何学的表現で識別することができ、ある表現でトレーニングして、別の表現に適用することもできる。 本研究では,局所的から全グローバル的までの連続的ネットワークパラメータとして拡散の空間的サポートを最適化し,手動で近傍サイズを選択するという負担を取り除く。 この方法の他の成分は、各点に独立に適用される多層パーセプトロンと、指向性フィルタをサポートする空間勾配特徴のみである。 その結果得られるネットワークはシンプルで堅牢で効率的です。 ここでは,主に三角形メッシュ表面に注目し,表面分類,セグメンテーション,非剛性対応など,さまざまなタスクの最先端結果を示す。

We introduce a new approach to deep learning on 3D surfaces, based on the insight that a simple diffusion layer is highly effective for spatial communication. The resulting networks automatically generalize across different samplings and resolutions of a surface -- a basic property which is crucial for practical applications. Our networks can be discretized on various geometric representations such as triangle meshes or point clouds, and can even be trained on one representation then applied to another. We optimize the spatial support of diffusion as a continuous network parameter ranging from purely local to totally global, removing the burden of manually choosing neighborhood sizes. The only other ingredients in the method are a multi-layer perceptron applied independently at each point, and spatial gradient features to support directional filters. The resulting networks are simple, robust, and efficient. Here, we focus primarily on triangle mesh surfaces, and demonstrate state-of-the-art results for a variety of tasks including surface classification, segmentation, and non-rigid correspondence.
翻訳日:2021-05-30 19:54:41 公開日:2021-05-05
# (参考訳) pixelNeRF:1つか2つの画像からの神経放射場 [全文訳有]

pixelNeRF: Neural Radiance Fields from One or Few Images ( http://arxiv.org/abs/2012.02190v2 )

ライセンス: CC BY 4.0
Alex Yu, Vickie Ye, Matthew Tancik, Angjoo Kanazawa(参考訳) 入力画像に条件付き連続的なニューラルシーン表現を予測する学習フレームワークであるPixelNeRFを提案する。 既存の神経放射場構築のアプローチでは、各シーンへの表現を独立に最適化し、多くのキャリブレーションされたビューと重要な計算時間を必要とする。 我々は、画像入力にNeRFを条件付けるアーキテクチャを導入し、これらの欠点を解決するための一歩を踏み出した。 これにより、ネットワークを複数のシーンにまたがってトレーニングし、事前にシーンを学習し、わずかなビューセットからフィードフォワードで新しいビュー合成を実行することができる。 NeRFのボリュームレンダリングアプローチを活用することで、我々のモデルは、明示的な3D監視なしで画像から直接訓練することができる。 本研究では,単一画像の新規ビュー合成タスクに対するShapeNetベンチマークの広範な実験を行った。 さらに,DTUデータセットから複数オブジェクトのShapeNetシーンと実シーンに表示することで,ピクセルNeRFの柔軟性を実証する。 いずれの場合も、ピクセルNeRFは、新しいビュー合成とシングルイメージ3D再構成のための最先端のベースラインより優れている。 ビデオとコードについては、プロジェクトのWebサイトを参照してください。

We propose pixelNeRF, a learning framework that predicts a continuous neural scene representation conditioned on one or few input images. The existing approach for constructing neural radiance fields involves optimizing the representation to every scene independently, requiring many calibrated views and significant compute time. We take a step towards resolving these shortcomings by introducing an architecture that conditions a NeRF on image inputs in a fully convolutional manner. This allows the network to be trained across multiple scenes to learn a scene prior, enabling it to perform novel view synthesis in a feed-forward manner from a sparse set of views (as few as one). Leveraging the volume rendering approach of NeRF, our model can be trained directly from images with no explicit 3D supervision. We conduct extensive experiments on ShapeNet benchmarks for single image novel view synthesis tasks with held-out objects as well as entire unseen categories. We further demonstrate the flexibility of pixelNeRF by demonstrating it on multi-object ShapeNet scenes and real scenes from the DTU dataset. In all cases, pixelNeRF outperforms current state-of-the-art baselines for novel view synthesis and single image 3D reconstruction. For the video and code, please visit the project website: https://alexyu.net/p ixelnerf
翻訳日:2021-05-23 17:41:44 公開日:2021-05-05
# (参考訳) polygrammar: デジタルポリマーの表現と生成のための文法

Polygrammar: Grammar for Digital Polymer Representation and Generation ( http://arxiv.org/abs/2105.05278v1 )

ライセンス: CC0 1.0
Minghao Guo, Wan Shou, Liane Makatura, Timothy Erps, Michael Foshey, Wojciech Matusik(参考訳) ポリマーは様々な性質と異なる分子構造によって決定される応用を持つ広く研究されている材料である。 これらの構造を明確に表現し、実現可能な化学設計の全空間を探索することが不可欠である。 しかし、既存のアプローチでは、その固有のスケールと構造的複雑さのために、ポリマーの包括的な設計モデルを提供できない。 本稿では,高分子の表現と生成に特化して設計されたパラメトリックな文脈感性文法を提案する。 実証的な例として,ポリウレタンの文法を実装した。 我々の象徴的なハイパーグラフ表現と14の単純な生産規則を用いて、PolyGrammarはすべての有効なポリウレタン構造を表現および生成することができる。 また、一般的なSMILES文字列形式からポリウレタン構造をポリグラマー表現に変換するアルゴリズムを提案する。 文献から収集した600以上のポリウレタン試料のデータセットを翻訳し,ポリグラムマーの代表力をテストする。 さらに,ポリグラマーは他の共重合体やポリアクリレートなどのホモポリマーにも容易に拡張できることを示した。 完全で明示的な表現スキームと正当性を保証する説明可能な生成モデルを提供することで、ポリグラムはより包括的で実用的なポリマーの発見と探索のためのシステムに向けて重要な一歩を踏み出します。 正式な言語と化学の最初の橋渡しとして、ポリグラマーは有機分子や無機分子を含む他の化学薬品に類似した文法の設計を知らせる重要な青写真としても機能する。

Polymers are widely-studied materials with diverse properties and applications determined by different molecular structures. It is essential to represent these structures clearly and explore the full space of achievable chemical designs. However, existing approaches are unable to offer comprehensive design models for polymers because of their inherent scale and structural complexity. Here, we present a parametric, context-sensitive grammar designed specifically for the representation and generation of polymers. As a demonstrative example, we implement our grammar for polyurethanes. Using our symbolic hypergraph representation and 14 simple production rules, our PolyGrammar is able to represent and generate all valid polyurethane structures. We also present an algorithm to translate any polyurethane structure from the popular SMILES string format into our PolyGrammar representation. We test the representative power of PolyGrammar by translating a dataset of over 600 polyurethane samples collected from literature. Furthermore, we show that PolyGrammar can be easily extended to the other copolymers and homopolymers such as polyacrylates. By offering a complete, explicit representation scheme and an explainable generative model with validity guarantees, our PolyGrammar takes an important step toward a more comprehensive and practical system for polymer discovery and exploration. As the first bridge between formal languages and chemistry, PolyGrammar also serves as a critical blueprint to inform the design of similar grammars for other chemistries, including organic and inorganic molecules.
翻訳日:2021-05-14 12:34:38 公開日:2021-05-05
# (参考訳) ラグビーリーグにおけるチームアタックパフォーマンス分析のための期待所有価値モデルの開発 [全文訳有]

Development of an expected possession value model to analyse team attacking performances in rugby league ( http://arxiv.org/abs/2105.05303v1 )

ライセンス: CC BY 4.0
Thomas Sawczuk, Anna Palczewska and Ben Jones(参考訳) 本研究の目的は,スーパーリーグ180試合の59,233試合をEPVモデルを用いて,ラグビーリーグにおけるチーム攻撃性能を評価する枠組みを提供することである。 EPV-308はピッチを308 5m x 5mのゾーンに分割し、EPV-77はピッチを77 10m x 10mのゾーンに分割し、EPV-19はピッチを試合中に生成された総ゾーン値に依存する19のゾーンに分割した。 攻撃的な所有物はマルコフ連鎖と見なされ、所有物の結果に基づいて各ゾーンの値が推定された。 Kullback-Leibler Divergenceは、各ゾーンから生成された値(報酬分布)の再現性を評価するために使用された。 EPV-308 は EPV-77 や EPV-19 と比較して最大の変動性と再現性が低い。 以前の6試合が検討された時、試合後の試合では、95+/-4%、51+/-12%、0+/-0%で、EPV-19、EPV-77、EPV-308に同様の報酬分布があった。 本研究は,ラグビーリーグにおけるチームアタックパフォーマンスを評価するためのEVV-19の利用を支援し,チーム間でアタックパフォーマンスを比較するための簡単なフレームワークを提供する。

This study aimed to provide a framework to evaluate team attacking performances in rugby league using 59,233 plays from 180 Super League matches via expected possession value (EPV) models. The EPV-308 split the pitch into 308 5m x 5m zones, the EPV-77 split the pitch into 77 10m x 10m zones and the EPV-19 split the pitch in 19 zones of variable size dependent on the total zone value generated during a match. Attacking possessions were considered as Markov Chains, allowing the value of each zone visited to be estimated based on the outcome of the possession. The Kullback-Leibler Divergence was used to evaluate the reproducibility of the value generated from each zone (the reward distribution) by teams between matches. The EPV-308 had the greatest variability and lowest reproducibility, compared to EPV-77 and EPV-19. When six previous matches were considered, the team's subsequent match attacking performances had a similar reward distribution for EPV-19, EPV-77 and EPV-308 on 95 +/- 4%, 51 +/- 12% and 0 +/- 0% of occasions. This study supports the use of EPV-19 to evaluate team attacking performance in rugby league and provides a simple framework through which attacking performances can be compared between teams.
翻訳日:2021-05-14 12:32:39 公開日:2021-05-05
# (参考訳) Approximate Message Passingに関する統一チュートリアル

A unifying tutorial on Approximate Message Passing ( http://arxiv.org/abs/2105.02180v1 )

ライセンス: CC BY 4.0
Oliver Y. Feng, Ramji Venkataramanan, Cynthia Rush and Richard J. Samworth(参考訳) 過去10年ほどにわたり、近似メッセージパッシング(amp)アルゴリズムは様々な構造化高次元統計問題で非常に人気を集めている。 これらの技術の起源は、統計物理学の文献における信念の伝播の概念に遡ることができるという事実は多くの統計学者にとってこの領域にある種の神秘を与える。 この研究の目標は、AMPフレームワークのパワーと柔軟性を説明するために、統計的な観点からAMPの主なアイデアを示すことです。 その過程で, 既存の文献における結果の多くを強化し, 統一する。

Over the last decade or so, Approximate Message Passing (AMP) algorithms have become extremely popular in various structured high-dimensional statistical problems. The fact that the origins of these techniques can be traced back to notions of belief propagation in the statistical physics literature lends a certain mystique to the area for many statisticians. Our goal in this work is to present the main ideas of AMP from a statistical perspective, to illustrate the power and flexibility of the AMP framework. Along the way, we strengthen and unify many of the results in the existing literature.
翻訳日:2021-05-14 06:40:36 公開日:2021-05-05
# (参考訳) TANGO:モバイルマニピュレータのツールインタラクション予測における常識の一般化 [全文訳有]

TANGO: Commonsense Generalization in Predicting Tool Interactions for Mobile Manipulators ( http://arxiv.org/abs/2105.04556v1 )

ライセンス: CC BY 4.0
Shreshth Tuli and Rajas Bansal and Rohan Paul and Mausam(参考訳) 工場や家庭で私たちを助けるロボットは、オブジェクトをタスクを実行するツールとして利用することを学ぶ必要がある。 ツールがいつ役に立つのか、またそのツールが他のツールとどのように組み合わされ、人間が指示するハイレベルなタスクを達成するかに関する常識知識を学ぶ問題を考える。 我々はタスク固有のツールインタラクションを予測する新しいニューラルモデルであるTANGOを紹介する。 TANGOは物理シミュレーターで仮想ロボットを指示する人間教師のデモを用いて訓練される。 TANGOは、グラフニューラルネットワークを使用して、オブジェクトとそれらの間のシンボリックな関係からなる世界状態をエンコードする。 モデルは、ゴールとアクション履歴の知識を使ってシーンに出席することを学び、最終的に実行するシンボリックアクションをデコードする。 重要なことは、既知のツールが欠落している未確認環境への一般化に対処するが、代替の未確認ツールが存在する。 知識ベースから学習した組込みによる環境表現の強化により,新しい環境に効果的に一般化できることを示す。 実験の結果,シミュレートされた移動マニピュレータにおいて,シンボリックプランの予測精度が60.5-78.9%向上した。

Robots assisting us in factories or homes must learn to make use of objects as tools to perform tasks, e.g., a tray for carrying objects. We consider the problem of learning commonsense knowledge of when a tool may be useful and how its use may be composed with other tools to accomplish a high-level task instructed by a human. We introduce TANGO, a novel neural model for predicting task-specific tool interactions. TANGO is trained using demonstrations obtained from human teachers instructing a virtual robot in a physics simulator. TANGO encodes the world state comprising of objects and symbolic relationships between them using a graph neural network. The model learns to attend over the scene using knowledge of the goal and the action history, finally decoding the symbolic action to execute. Crucially, we address generalization to unseen environments where some known tools are missing, but alternative unseen tools are present. We show that by augmenting the representation of the environment with pre-trained embeddings derived from a knowledge-base, the model can generalize effectively to novel environments. Experimental results show a 60.5-78.9% improvement over the baseline in predicting successful symbolic plans in unseen settings for a simulated mobile manipulator.
翻訳日:2021-05-14 06:39:11 公開日:2021-05-05
# (参考訳) 患者バイタルサインを用いた集中治療単位長と死亡率の予測--機械学習モデルの開発と検証 [全文訳有]

Predicting Intensive Care Unit Length of Stay and Mortality Using Patient Vital Signs: Machine Learning Model Development and Validation ( http://arxiv.org/abs/2105.04414v1 )

ライセンス: CC BY 4.0
Khalid Alghatani, Nariman Ammar, Abdelmounaam Rezgui, Arash Shaban-Nejad(参考訳) 患者のモニタリングはあらゆるケアにおいて不可欠です。 本稿では、滞在時間と死亡率予測モデルの開発と検証について報告する。 モデルは、Intelligent Remote patient Monitoring (IRPM)フレームワークのインテリジェントICU患者監視モジュールで使用され、患者の健康状態を監視し、悪質な医療状況が予測されたときにタイムリーなアラート、操作ガイダンス、レポートを生成する。 集中治療(mimic)データベースのための公開医療情報マートを用いて,成人患者に対するicu滞在データ抽出を行い,死亡予測モデルとicu滞在時間予測モデルの2つの予測モデルを構築した。 死亡率モデルでは,6つの機械学習(ML)バイナリ分類アルゴリズムを適用し,退院状況(生存の有無)を予測した。 滞在時間モデルでは,平均2.64日間のicu滞在率を用いて,同じ6mlアルゴリズムをバイナリ分類に適用した。 回帰に基づく分類では,2つのMLアルゴリズムを用いて日数を予測する。 1つはベースライン人口統計学的特徴とバイタルサイン特徴を用いており、もう1つは提案した量子的アプローチに基づいており、そこではベースラインのバイタルサイン特徴から構築された21の付加的特徴(修正手段、標準偏差、量子的パーセンテージ)を用いている。 quantilesアプローチを使って、合理的なパフォーマンスを維持しながら、最小限の機能で予測モデリングを実行できる。 死亡率モデルで得られた最高精度はランダムフォレストアルゴリズムを用いて約89%であった。 人口中央値のICU滞在(2.64日)に基づいて、滞在モデルで達成された最高精度は、ランダム森林アルゴリズムを用いて、およそ65%であった。

Patient monitoring is vital in all stages of care. We here report the development and validation of ICU length of stay and mortality prediction models. The models will be used in an intelligent ICU patient monitoring module of an Intelligent Remote Patient Monitoring (IRPM) framework that monitors the health status of patients, and generates timely alerts, maneuver guidance, or reports when adverse medical conditions are predicted. We utilized the publicly available Medical Information Mart for Intensive Care (MIMIC) database to extract ICU stay data for adult patients to build two prediction models: one for mortality prediction and another for ICU length of stay. For the mortality model, we applied six commonly used machine learning (ML) binary classification algorithms for predicting the discharge status (survived or not). For the length of stay model, we applied the same six ML algorithms for binary classification using the median patient population ICU stay of 2.64 days. For the regression-based classification, we used two ML algorithms for predicting the number of days. We built two variations of each prediction model: one using 12 baseline demographic and vital sign features, and the other based on our proposed quantiles approach, in which we use 21 extra features engineered from the baseline vital sign features, including their modified means, standard deviations, and quantile percentages. We could perform predictive modeling with minimal features while maintaining reasonable performance using the quantiles approach. The best accuracy achieved in the mortality model was approximately 89% using the random forest algorithm. The highest accuracy achieved in the length of stay model, based on the population median ICU stay (2.64 days), was approximately 65% using the random forest algorithm.
翻訳日:2021-05-14 06:19:18 公開日:2021-05-05
# (参考訳) ソフトアテンションは皮膚がんの分類性能を改善する [全文訳有]

Soft-Attention Improves Skin Cancer Classification Performance ( http://arxiv.org/abs/2105.03358v1 )

ライセンス: CC BY 4.0
Soumyya Kanti Datta, Mohammad Abuzar Shaikh, Hari Srihari, Mingchen Gao(参考訳) 臨床応用では、ニューラルネットワークは入力画像の最も重要な部分に集中し、強調する必要がある。 ソフトアテンション機構により、ニューラルネットワークはこの目標を達成することができる。 本稿では,深部神経アーキテクチャにおけるソフトアテンションの有効性について検討する。 ソフトアテンションの主な目的は、重要な特徴の価値を高め、ノイズを誘発する特徴を抑制することである。 皮膚病変を分類しながら, vgg, resnet, inceptionresnetv2, densenetアーキテクチャの性能とソフトアテンション機構の有無を比較した。 ソフトアテンションと組み合わせた元のネットワークはベースライン[14]を4.7%上回り、HAM10000データセットの精度は93.7%である。 さらに、Soft-Attention couplingは、ベースライン[28]と比較して感度スコアを3.8%改善し、ISIC-2017データセットで91.6%を達成した。 コードはgithubで公開されている。

In clinical applications, neural networks must focus on and highlight the most important parts of an input image. Soft-Attention mechanism enables a neural network toachieve this goal. This paper investigates the effectiveness of Soft-Attention in deep neural architectures. The central aim of Soft-Attention is to boost the value of important features and suppress the noise-inducing features. We compare the performance of VGG, ResNet, InceptionResNetv2 and DenseNet architectures with and without the Soft-Attention mechanism, while classifying skin lesions. The original network when coupled with Soft-Attention outperforms the baseline[14] by 4.7% while achieving a precision of 93.7% on HAM10000 dataset. Additionally, Soft-Attention coupling improves the sensitivity score by 3.8% compared to baseline[28] and achieves 91.6% on ISIC-2017 dataset. The code is publicly available at github.
翻訳日:2021-05-11 01:32:19 公開日:2021-05-05
# (参考訳) こんなふうに... そうですか? 深部ネットワークにおける潜時空間プロトタイプ説明可能性の欠点 [全文訳有]

This Looks Like That... Does it? Shortcomings of Latent Space Prototype Explainability in Deep Networks ( http://arxiv.org/abs/2105.02968v1 )

ライセンス: CC BY 4.0
Adrian Hoffmann, Claudio Fanconi, Rahul Rade, Jonas Kohler(参考訳) 建築設計による人間の解釈可能な決定をもたらすディープニューラルネットワークは、近年、伝統的なブラックボックスモデルのポストホック解釈の代替として人気が高まっている。 これらのネットワークの中で、最も広く使われているアプローチはいわゆるプロトタイプ学習であり、学習された潜在プロトタイプと類似性は、目に見えないデータポイントの分類の基礎となる。 本稿では,このようなアプローチの重要な欠点を指摘する。 すなわち、潜在空間の類似性と入力空間の類似性の間には意味的なギャップがあり、解釈可能性の損なう可能性がある。 いわゆるProtoPNetでこの問題を実証する2つの実験を設計する。 具体的には、このネットワークの解釈可能性のメカニズムは、意図的に作り上げたり、JPEG圧縮アーチファクトを作れば、理解不能な決定を下すことができる。 プロトタイプベースのモデルを実際にデプロイする場合、実践者はこのような欠点を念頭に置いておくべきです。

Deep neural networks that yield human interpretable decisions by architectural design have lately become an increasingly popular alternative to post hoc interpretation of traditional black-box models. Among these networks, the arguably most widespread approach is so-called prototype learning, where similarities to learned latent prototypes serve as the basis of classifying an unseen data point. In this work, we point to an important shortcoming of such approaches. Namely, there is a semantic gap between similarity in latent space and similarity in input space, which can corrupt interpretability. We design two experiments that exemplify this issue on the so-called ProtoPNet. Specifically, we find that this network's interpretability mechanism can be led astray by intentionally crafted or even JPEG compression artefacts, which can produce incomprehensible decisions. We argue that practitioners ought to have this shortcoming in mind when deploying prototype-based models in practice.
翻訳日:2021-05-11 01:22:39 公開日:2021-05-05
# (参考訳) 新型コロナウイルス流行予測のための時系列モデルとハイブリッド時系列モデルの比較 [全文訳有]

Comparison of Traditional and Hybrid Time Series Models for Forecasting COVID-19 Cases ( http://arxiv.org/abs/2105.03266v1 )

ライセンス: CC BY-SA 4.0
Samyak Prajapati, Aman Swaraj, Ronak Lalwani, Akhil Narwal, Karan Verma, Ghanshyam Singh, Ashok Kumar(参考訳) 時系列予測手法は、流行の広がりを推定する上で重要な役割を果たす。 2019年12月の新型コロナウイルスの流行は、すでに世界中で数百万人を感染させており、今も続いている。 パンデミックのカーブが平ら化し始めた直後、多くの国が再び、パンデミックの第2波と呼ばれるケースの増加を目撃し始めた。 したがって、時系列予測モデルの徹底的な分析は、州当局や保健当局に将来の時代の即時戦略を提供するために必要である。 本研究の目的は次の3つである: (a) 拡散の全体傾向をモデル化すること; (b) 確認されたケース(米国、インド、ブラジル)が最も多い国で10日間の短期予測を生成すること; (c) 時系列の線形および非線形の特徴を正確にモデル化するのに最適なアルゴリズムを定量的に決定すること。 各国の総累積ケースの予測モデルの比較は、報告データと予測値を比較し、RMSE, MAE, MAPE値に基づいてアルゴリズム(Prophet, Holt-Winters, LSTM, ARIMA, ARIMA-NARNN)をランキングする。 アリマとnarnn(nonlinear auto-regression neural network)のハイブリッドな組み合わせは、rmseを低減した選択されたモデルの中で最高の結果をもたらし、最も一般的な時系列予測(arima)の方法の1つよりも35.3%高い値を示した。 その結果,ARIMA-NARNNモデルとProphet, Holt Winters, LSTM, ARIMAモデルとのハイブリッド実装の有効性が示された。

Time series forecasting methods play critical role in estimating the spread of an epidemic. The coronavirus outbreak of December 2019 has already infected millions all over the world and continues to spread on. Just when the curve of the outbreak had started to flatten, many countries have again started to witness a rise in cases which is now being referred as the 2nd wave of the pandemic. A thorough analysis of time-series forecasting models is therefore required to equip state authorities and health officials with immediate strategies for future times. This aims of the study are three-fold: (a) To model the overall trend of the spread; (b) To generate a short-term forecast of 10 days in countries with the highest incidence of confirmed cases (USA, India and Brazil); (c) To quantitatively determine the algorithm that is best suited for precise modelling of the linear and non-linear features of the time series. The comparison of forecasting models for the total cumulative cases of each country is carried out by comparing the reported data and the predicted value, and then ranking the algorithms (Prophet, Holt-Winters, LSTM, ARIMA, and ARIMA-NARNN) based on their RMSE, MAE and MAPE values. The hybrid combination of ARIMA and NARNN (Nonlinear Auto-Regression Neural Network) gave the best result among the selected models with a reduced RMSE, which proved to be almost 35.3% better than one of the most prevalent method of time-series prediction (ARIMA). The results demonstrated the efficacy of the hybrid implementation of the ARIMA-NARNN model over other forecasting methods such as Prophet, Holt Winters, LSTM, and the ARIMA model in encapsulating the linear as well as non-linear patterns of the epidemical datasets.
翻訳日:2021-05-11 01:08:57 公開日:2021-05-05
# (参考訳) 有向非巡回図形モデルのパラメータ優先といくつかの確率分布のキャラクタリゼーション [全文訳有]

Parameter Priors for Directed Acyclic Graphical Models and the Characterization of Several Probability Distributions ( http://arxiv.org/abs/2105.03248v1 )

ライセンス: CC BY 4.0
Dan Geiger and David Heckerman(参考訳) 本研究では,DAGモデルにおいて,モデル選択のためのパラメータ先行値を簡易に構築する手法を提案する。 特に,少数の評価セットから,多数のdagモデルに対してパラメータプリエントを構築することを許容する仮定をいくつか導入する。 次に、無作為なサンプルを与えられた全てのdagモデルの限界可能性を直接計算する方法を提案する。 この手法を線形回帰モデルの再帰的集合からなるガウスDAGモデルに適用する。 我々の仮定を満たす完全ガウスDAGモデルに先立つパラメータが正規ウィッシュアート分布であることを示す。 w$を$n \times n$, $n \ge 3$, positive-definite symmetric matrix of random variable, $f(w)$ be a pdf of $w$とする。 すると f$(W)$ がウィッシュアート分布であることと、$W_{11} - W_{12} W_{22}^{-1} W'_{12}$ が$\{W_{12}, W_{22}\}$ のすべてのブロック分割に対して$W_{11}, W'_{12}, W'_{12}, W'_{22}$ が独立であることは同値である。 正規分布と正規ウィッシュアート分布の類似性も提供される。

We develop simple methods for constructing parameter priors for model choice among Directed Acyclic Graphical (DAG) models. In particular, we introduce several assumptions that permit the construction of parameter priors for a large number of DAG models from a small set of assessments. We then present a method for directly computing the marginal likelihood of every DAG model given a random sample with no missing observations. We apply this methodology to Gaussian DAG models which consist of a recursive set of linear regression models. We show that the only parameter prior for complete Gaussian DAG models that satisfies our assumptions is the normal-Wishart distribution. Our analysis is based on the following new characterization of the Wishart distribution: let $W$ be an $n \times n$, $n \ge 3$, positive-definite symmetric matrix of random variables and $f(W)$ be a pdf of $W$. Then, f$(W)$ is a Wishart distribution if and only if $W_{11} - W_{12} W_{22}^{-1} W'_{12}$ is independent of $\{W_{12},W_{22}\}$ for every block partitioning $W_{11},W_{12}, W'_{12}, W_{22}$ of $W$. Similar characterizations of the normal and normal-Wishart distributions are provided as well.
翻訳日:2021-05-11 00:58:48 公開日:2021-05-05
# 胸部X線自動解釈のための画像埋め込みとモデル構築

Image Embedding and Model Ensembling for Automated Chest X-Ray Interpretation ( http://arxiv.org/abs/2105.02966v1 )

ライセンス: Link先を確認
Edoardo Giacomello, Pier Luca Lanzi, Daniele Loiacono, Luca Nassano(参考訳) 胸部X線(英語版)(CXR)は、おそらく世界で最も頻度の高い放射線学的調査である。 本研究では,CXR自動診断モデルを開発するための機械学習手法について述べる。 特に,200k以上のcxrラベル付き画像の大規模なコレクションであるchexpertデータセット上で,いくつかの畳み込みニューラルネットワーク(cnn)をトレーニングした。 次に、トレーニングされたCNNを用いて、CXR画像の埋め込みを計算し、2組のツリーベース分類器をトレーニングした。 最後に,学習した分類器を組み合わせるための3つのアンサンブル戦略について記述し,比較した。 本研究の目標は, 性能面でのメリットを期待するのではなく, 上記の2つの手法,すなわち画像埋め込みとモデルの抽出が, 医用画像理解を必要とする課題を効果的かつ効果的に解決できることである。 その視点での私たちの結果は、さらなる調査を奨励し、価値があります。

Chest X-ray (CXR) is perhaps the most frequently-performed radiological investigation globally. In this work, we present and study several machine learning approaches to develop automated CXR diagnostic models. In particular, we trained several Convolutional Neural Networks (CNN) on the CheXpert dataset, a large collection of more than 200k CXR labeled images. Then, we used the trained CNNs to compute embeddings of the CXR images, in order to train two sets of tree-based classifiers from them. Finally, we described and compared three ensembling strategies to combine together the classifiers trained. Rather than expecting some performance-wise benefits, our goal in this work is showing that the above two methodologies, i.e., the extraction of image embeddings and models ensembling, can be effective and viable to solve tasks that require medical imaging understanding. Our results in that perspective are encouraging and worthy of further investigation.
翻訳日:2021-05-10 12:24:46 公開日:2021-05-05
# 翻訳品質評価:マニュアルおよび自動方法に関する簡単な調査

Translation Quality Assessment: A Brief Survey on Manual and Automatic Methods ( http://arxiv.org/abs/2105.03311v1 )

ライセンス: Link先を確認
Lifeng Han, Gareth J. F. Jones and Alan F. Smeaton(参考訳) 効果的な翻訳モデリングと翻訳研究を容易にするため,翻訳の質を評価することが重要な課題である。 正確性、信頼性、再現性、コストの観点から見れば、翻訳品質評価(TQA)そのものはリッチで困難なタスクです。 本稿では、手動判定基準と自動評価指標の両方を含むTQA手法の高精度かつ簡潔な調査を行い、さらに詳細なサブカテゴリに分類する。 翻訳モデル研究者と品質評価研究者の両方にとって、この研究が資産になることを願っています。 さらに、実践者が従来のtqa分野をより迅速に理解し、自分たちのニーズに密接に関連する評価ソリューションを見つけることが可能になることを願っています。 この研究は、自動テキスト要約(ATS)、自然言語理解(NLU)、自然言語生成(NLG)などの機械翻訳(MT)に加えて、他の自然言語処理(NLP)タスクの品質評価および評価手法のさらなる発展にも役立てることができる。

To facilitate effective translation modeling and translation studies, one of the crucial questions to address is how to assess translation quality. From the perspectives of accuracy, reliability, repeatability and cost, translation quality assessment (TQA) itself is a rich and challenging task. In this work, we present a high-level and concise survey of TQA methods, including both manual judgement criteria and automated evaluation metrics, which we classify into further detailed sub-categories. We hope that this work will be an asset for both translation model researchers and quality assessment researchers. In addition, we hope that it will enable practitioners to quickly develop a better understanding of the conventional TQA field, and to find corresponding closely relevant evaluation solutions for their own needs. This work may also serve inspire further development of quality assessment and evaluation methodologies for other natural language processing (NLP) tasks in addition to machine translation (MT), such as automatic text summarization (ATS), natural language understanding (NLU) and natural language generation (NLG).
翻訳日:2021-05-10 12:20:04 公開日:2021-05-05
# PCE-PINN:海洋モデルにおける不確実性伝播のための物理インフォームニューラルネットワーク

PCE-PINNs: Physics-Informed Neural Networks for Uncertainty Propagation in Ocean Modeling ( http://arxiv.org/abs/2105.02939v1 )

ライセンス: Link先を確認
Bj\"orn L\"utjens, Catherine H. Crawford, Mark Veillette, Dava Newman(参考訳) cmip6モデルアンサンブルによると、気候モデルは摂氏1.5度から5度までの温暖化シナリオの不確実性範囲を2100まで予測している。 気候リスク管理とインフラ適応は、地域レベルでの不確実性の正確な定量化を必要とする。 高解像度の気候モデルのアンサンブルは、不確実性を正確に定量化することができるが、ほとんどの物理ベースの気候モデルは、アンサンブルとして走るには計算コストがかかりすぎる。 物理情報ニューラルネットワーク(PINN)の最近の研究は、ディープラーニングと物理科学を組み合わせて、気候サブモデルの最大15万倍高速コピーを学習している。 しかし、PINNの気候モデリングへの応用は、これまで決定論的モデルに限られてきた。 我々は,不確実性伝播の古典的手法である多項式カオス展開(PCE)とPINNを組み合わせた新しい手法を利用する。 PCE-PINNは、既知のパラメータの不確かさの不確かさの伝播を示す高速サロゲートモデルを学ぶ。 局所対流拡散方程式を用いて海洋モデルの有効性を示す。

Climate models project an uncertainty range of possible warming scenarios from 1.5 to 5 degree Celsius global temperature increase until 2100, according to the CMIP6 model ensemble. Climate risk management and infrastructure adaptation requires the accurate quantification of the uncertainties at the local level. Ensembles of high-resolution climate models could accurately quantify the uncertainties, but most physics-based climate models are computationally too expensive to run as ensemble. Recent works in physics-informed neural networks (PINNs) have combined deep learning and the physical sciences to learn up to 15k faster copies of climate submodels. However, the application of PINNs in climate modeling has so far been mostly limited to deterministic models. We leverage a novel method that combines polynomial chaos expansion (PCE), a classic technique for uncertainty propagation, with PINNs. The PCE-PINNs learn a fast surrogate model that is demonstrated for uncertainty propagation of known parameter uncertainties. We showcase the effectiveness in ocean modeling by using the local advection-diffusion equation.
翻訳日:2021-05-10 12:14:08 公開日:2021-05-05
# ディープニューラルネットワークの脆弱性を悪用する - 逆行攻撃とフォールトインジェクション攻撃

Exploiting Vulnerabilities in Deep Neural Networks: Adversarial and Fault-Injection Attacks ( http://arxiv.org/abs/2105.03251v1 )

ライセンス: Link先を確認
Faiq Khalid, Muhammad Abdullah Hanif, Muhammad Shafique(参考訳) 小さなペースメーカーチップから航空機の衝突回避システムまで、最先端のサイバー物理システム(CPS)はディープニューラルネットワーク(DNN)に依存し始めている。 しかし、様々な研究で結論付けられたように、DNNは敵攻撃を含むセキュリティ上の脅威に非常に敏感である。 本稿では,まず,ニューラルネットワークシステムに対するセキュリティ攻撃を発生させる脆弱性について考察する。 次に、DNNに対する既存の逆方向およびフォールトインジェクションに基づく攻撃の概要を示す。 また,敵攻撃の実践において,様々な課題を浮き彫りにするための簡単な分析を行った。 最後に, 対向攻撃やフォールトインジェクション攻撃に耐性のある, 堅牢なDNNベースのシステムを開発するための様々な方法についても論じる。

From tiny pacemaker chips to aircraft collision avoidance systems, the state-of-the-art Cyber-Physical Systems (CPS) have increasingly started to rely on Deep Neural Networks (DNNs). However, as concluded in various studies, DNNs are highly susceptible to security threats, including adversarial attacks. In this paper, we first discuss different vulnerabilities that can be exploited for generating security attacks for neural network-based systems. We then provide an overview of existing adversarial and fault-injection-base d attacks on DNNs. We also present a brief analysis to highlight different challenges in the practical implementation of adversarial attacks. Finally, we also discuss various prospective ways to develop robust DNN-based systems that are resilient to adversarial and fault-injection attacks.
翻訳日:2021-05-10 12:07:53 公開日:2021-05-05
# ニューラルネットワークを用いた高次元コミッタ関数の半群法

A semigroup method for high dimensional committor functions based on neural network ( http://arxiv.org/abs/2012.06727v3 )

ライセンス: Link先を確認
Haoya Li, Yuehaw Khoo, Yinuo Ren, Lexing Ying(参考訳) 本稿では,Fokker-Planck方程式を満たす高次元コミッタ関数をニューラルネットワークで計算する手法を提案する。 偏微分方程式を扱う代わりに、新しい手法は微分作用素の半群に基づく積分的定式化を扱う。 新しい定式化の変分形式は、コミッタ関数をニューラルネットワークとしてパラメータ化することにより解決される。 この新しいアプローチには2つの大きな利点がある。 まず、確率的勾配降下型アルゴリズムは、混合二階微分を計算することなく、コミッタ関数のトレーニングに適用することができる。 さらに、ペナルティ項で境界条件を強制する従来の方法とは異なり、新しい手法では境界条件を自動的に考慮する。 提案手法の性能を示す数値的な結果を得た。

This paper proposes a new method based on neural networks for computing the high-dimensional committor functions that satisfy Fokker-Planck equations. Instead of working with partial differential equations, the new method works with an integral formulation based on the semigroup of the differential operator. The variational form of the new formulation is then solved by parameterizing the committor function as a neural network. There are two major benefits of this new approach. First, stochastic gradient descent type algorithms can be applied in the training of the committor function without the need of computing any mixed second-order derivatives. Moreover, unlike the previous methods that enforce the boundary conditions through penalty terms, the new method takes into account the boundary conditions automatically. Numerical results are provided to demonstrate the performance of the proposed method.
翻訳日:2021-05-10 05:10:28 公開日:2021-05-05
# (参考訳) SafeDrug: 安全な医薬品推奨のためのデュアル分子グラフエンコーダ [全文訳有]

SafeDrug: Dual Molecular Graph Encoders for Safe Drug Recommendations ( http://arxiv.org/abs/2105.02711v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Cao Xiao, Fenglong Ma, Lucas Glass, Jimeng Sun(参考訳) 医療レコメンデーションは、医療のためのAIの重要なタスクである。 既存の研究は、電子健康記録のみに基づいて複雑な健康状態の患者に薬物の組み合わせを推奨することに焦点を当てている。 1) 薬物分子構造などの重要なデータが推奨プロセスで利用されていない。 2)薬物と薬物の相互作用 (DDI) は暗黙的にモデル化され, 準最適結果をもたらす可能性がある。 これらの制約に対処するために, SafeDrug というDDI制御可能な薬物レコメンデーションモデルを提案し, 薬物分子構造を明示的に利用し, DDIをモデル化する。 SafeDrugは、グローバルメッセージパッシングニューラルネットワーク(MPNN)モジュールと、薬物分子の接続性と機能を完全にエンコードするローカル二部学習モジュールを備えている。 SafeDrugはまた、推奨薬物の組み合わせのDDIレベルを効果的に制御する制御可能な損失機能を備えている。 ベンチマークデータセットでは、我々のSafeDrugは、DDIを19.43%削減し、ジャカード類似度を2.88%改善することが比較的示されている。 さらにSafeDrugは、従来のディープラーニングベースのアプローチよりもはるかに少ないパラメータを必要とするため、トレーニングが約14%、推論が約2倍高速になる。

Medication recommendation is an essential task of AI for healthcare. Existing works focused on recommending drug combinations for patients with complex health conditions solely based on their electronic health records. Thus, they have the following limitations: (1) some important data such as drug molecule structures have not been utilized in the recommendation process. (2) drug-drug interactions (DDI) are modeled implicitly, which can lead to sub-optimal results. To address these limitations, we propose a DDI-controllable drug recommendation model named SafeDrug to leverage drugs' molecule structures and model DDIs explicitly. SafeDrug is equipped with a global message passing neural network (MPNN) module and a local bipartite learning module to fully encode the connectivity and functionality of drug molecules. SafeDrug also has a controllable loss function to control DDI levels in the recommended drug combinations effectively. On a benchmark dataset, our SafeDrug is relatively shown to reduce DDI by 19.43% and improves 2.88% on Jaccard similarity between recommended and actually prescribed drug combinations over previous approaches. Moreover, SafeDrug also requires much fewer parameters than previous deep learning-based approaches, leading to faster training by about 14% and around 2x speed-up in inference.
翻訳日:2021-05-08 04:29:09 公開日:2021-05-05
# (参考訳) サブハイパーグラフ検出のための情報制限 [全文訳有]

Information Limits for Detecting a Subhypergraph ( http://arxiv.org/abs/2105.02259v1 )

ライセンス: CC BY 4.0
Mingao Yuan, Zuofeng Shang(参考訳) 我々は、一様ハイパーグラフに対応する観測された隣接テンソルに基づいてサブハイパーグラフを復元する問題を考える。 均一なハイパーグラフは、サブハイパーグラフと呼ばれる頂点の部分集合を含むと仮定される。 ハイパーグラフに制限されたエッジは他のエッジとは異なる確率分布に従うと仮定される。 我々は,サブハイパーグラフの弱い回復と正確な回復の両方を検討し,それぞれの場合において情報理論上の限界を確立する。 具体的には,情報理論の観点から,サブハイパーグラフを弱く正確に復元する可能性について,鋭い条件を確立する。 これらの条件は仮説検定文献から導かれた条件とは根本的に異なる。

We consider the problem of recovering a subhypergraph based on an observed adjacency tensor corresponding to a uniform hypergraph. The uniform hypergraph is assumed to contain a subset of vertices called as subhypergraph. The edges restricted to the subhypergraph are assumed to follow a different probability distribution than other edges. We consider both weak recovery and exact recovery of the subhypergraph, and establish information-theoreti c limits in each case. Specifically, we establish sharp conditions for the possibility of weakly or exactly recovering the subhypergraph from an information-theoreti c point of view. These conditions are fundamentally different from their counterparts derived in hypothesis testing literature.
翻訳日:2021-05-08 04:10:35 公開日:2021-05-05
# (参考訳) ADAM: 言語学習を実装するためのサンドボックス [全文訳有]

ADAM: A Sandbox for Implementing Language Learning ( http://arxiv.org/abs/2105.02263v1 )

ライセンス: CC BY 4.0
Ryan Gabbard, Deniz Beser, Jacob Lichtefeld, Joe Cecil, Mitch Marcus, Sarah Payne, Charles Yang, and Marjorie Freedman(参考訳) 我々は,pythonによる児童言語学習実験を設計・実行するためのソフトウェアシステムadamを提案する。 このシステムは、仮想世界を用いて、言語学習者が認知可能な学習アルゴリズムを用いて観察された世界の知覚的および言語的表現を形成する、基礎的な言語習得プロセスをシミュレートする。 ADAMのモジュール性は、学習アルゴリズムだけでなく、異なる言語学習カリキュラムの設計とテストを容易にする。 本報告では,adamシステムのアーキテクチャを詳細に説明し,そのコンポーネントを例で説明する。 私たちはコードを提供します。

We present ADAM, a software system for designing and running child language learning experiments in Python. The system uses a virtual world to simulate a grounded language acquisition process in which the language learner utilizes cognitively plausible learning algorithms to form perceptual and linguistic representations of the observed world. The modular nature of ADAM makes it easy to design and test different language learning curricula as well as learning algorithms. In this report, we describe the architecture of the ADAM system in detail, and illustrate its components with examples. We provide our code.
翻訳日:2021-05-08 03:54:42 公開日:2021-05-05
# (参考訳) オントロジーネットワークにおける人間活動認識モデル [全文訳有]

Human Activity Recognition Models in Ontology Networks ( http://arxiv.org/abs/2105.02264v1 )

ライセンス: CC BY-SA 4.0
Luca Buoncompagni, Syed Yusha Kareem and Fulvio Mastrogiovanni(参考訳) 我々は、スマートホームがオンラインで行動認識を行うための知識を表現するためのオントロジーのネットワークを設計するためのフレームワークであるarianna+を提案する。 ネットワークでは、ノードは様々なデータコンテキスト化を可能にするオントロジーであり、エッジはデータを詳述する汎用計算手順である。 arianna+は、存在論的知識の原子表現であるプロシージャとステートメントの入力と出力の間の柔軟なインターフェースを提供する。 Arianna+は、論理に基づく推論、すなわちオントロジーにおける特定のステートメントの分類をチェックすることによって、イベントに基づいてプロシージャをスケジュールする。 各手順は、特定の事前知識に基づいてオントロジーで異なる文脈で記述された入力と出力を含む。 arianna+は、複数のコンテキスト内のデータをエンコードするネットワークの設計を可能にし、参照シナリオとして、すべてのアクティビティ間で共有される空間的コンテキストと、各アクティビティが認識されるための時間的コンテキストに基づくモジュラーネットワークを提案する。 本稿では,小オントロジーのネットワークは,同一の知識を符号化する1つのオントロジーよりも,より知性が高く,計算負荷が小さいことを論じる。 arianna+は、同じアーキテクチャのヘテロジニアスなデータ処理技術に統合されている。 したがって,アクティビティ認識に対する新たなアルゴリズムアプローチを提案するのではなく,論理ベースおよびデータ駆動型アクティビティモデルにコンテキスト指向で適応するためのアーキテクチャ的側面に注目する。 また、データコンテキスト化とアクティビティ認識の推論の活用について論じ、ドメインの専門家が推進する反復的な開発プロセスを支援する。

We present Arianna+, a framework to design networks of ontologies for representing knowledge enabling smart homes to perform human activity recognition online. In the network, nodes are ontologies allowing for various data contextualisation, while edges are general-purpose computational procedures elaborating data. Arianna+ provides a flexible interface between the inputs and outputs of procedures and statements, which are atomic representations of ontological knowledge. Arianna+ schedules procedures on the basis of events by employing logic-based reasoning, i.e., by checking the classification of certain statements in the ontologies. Each procedure involves input and output statements that are differently contextualised in the ontologies based on specific prior knowledge. Arianna+ allows to design networks that encode data within multiple contexts and, as a reference scenario, we present a modular network based on a spatial context shared among all activities and a temporal context specialised for each activity to be recognised. In the paper, we argue that a network of small ontologies is more intelligible and has a reduced computational load than a single ontology encoding the same knowledge. Arianna+ integrates in the same architecture heterogeneous data processing techniques, which may be better suited to different contexts. Thus, we do not propose a new algorithmic approach to activity recognition, instead, we focus on the architectural aspects for accommodating logic-based and data-driven activity models in a context-oriented way. Also, we discuss how to leverage data contextualisation and reasoning for activity recognition, and to support an iterative development process driven by domain experts.
翻訳日:2021-05-08 03:40:44 公開日:2021-05-05
# (参考訳) 検索を再考する: 専門家をディレタントから外す [全文訳有]

Rethinking Search: Making Experts out of Dilettantes ( http://arxiv.org/abs/2105.02274v1 )

ライセンス: CC BY 4.0
Donald Metzler, Yi Tay, Dara Bahri, Marc Najork(参考訳) 情報を必要とする場合、ユーザーは専門家と関わりたいが、代わりに検索エンジンのような情報検索システムに目を向けることが多い。 古典的な情報検索システムは、情報要求に直接答えるのではなく、(おそらく権威ある)回答への参照を提供する。 成功する質問応答システムは、人間の専門家がオンデマンドで作成する限定的なコーパスを提供する。 対照的に、大規模な事前学習された言語モデルは、情報ニーズに反応する可能性のある散文を直接生成することができるが、現時点では専門家ではなくディレタントである。 本稿では,従来の情報検索と大規模事前学習言語モデルのアイデアを,専門家のアドバイスを真に提供するシステムに合成し,進化させる方法について検討する。

When experiencing an information need, users want to engage with an expert, but often turn to an information retrieval system, such as a search engine, instead. Classical information retrieval systems do not answer information needs directly, but instead provide references to (hopefully authoritative) answers. Successful question answering systems offer a limited corpus created on-demand by human experts, which is neither timely nor scalable. Large pre-trained language models, by contrast, are capable of directly generating prose that may be responsive to an information need, but at present they are dilettantes rather than experts - they do not have a true understanding of the world, they are prone to hallucinating, and crucially they are incapable of justifying their utterances by referring to supporting documents in the corpus they were trained over. This paper examines how ideas from classical information retrieval and large pre-trained language models can be synthesized and evolved into systems that truly deliver on the promise of expert advice.
翻訳日:2021-05-08 02:54:19 公開日:2021-05-05
# (参考訳) 量子コンピュータを用いた量子埋め込みカーネルの訓練 [全文訳有]

Training Quantum Embedding Kernels on Near-Term Quantum Computers ( http://arxiv.org/abs/2105.02276v1 )

ライセンス: CC BY 4.0
Thomas Hubregtsen, David Wierichs, Elies Gil-Fuster, Peter-Jan H. S. Derks, Paul K. Faehrmann, Johannes Jakob Meyer(参考訳) カーネルメソッドは、古典的な機械学習の基盤である。 量子コンピュータを使ってカーネルを計算するというアイデアが最近注目を集めている。 量子コンピュータのヒルベルト空間にデータを埋め込むことで構築された量子埋め込みカーネル(QEK)は、学習問題に対する洞察を収集できる特別な量子カーネル技術であり、特にノイズの多い中間スケール量子デバイスに適している。 そこで本研究では,まず量子埋め込みカーネルの紹介を行い,ノイズの多い短期量子コンピュータ上で実現した場合に生じる現実的な問題を解析する。 変動パラメータを持つ量子埋め込みカーネルに焦点を当てる。 これらの変動パラメータは、カーネルターゲットアライメント(達成可能な分類精度と結びついたヒューリスティック)を増加させることで、所定のデータセットに最適化される。 さらに、デバイス欠陥からのノイズが予測されたカーネルに影響を与える条件を示し、量子埋め込みカーネルに合わせたこれらの有害な効果を緩和する戦略を提供する。 また、有限サンプリングの影響と、カーネルマトリックスの品質に保証を与える境界の導出についても論じる。 本研究は,実ハードウェア上での数値実験と実験によって得られた知見を示す。

Kernel methods are a cornerstone of classical machine learning. The idea of using quantum computers to compute kernels has recently attracted attention. Quantum embedding kernels (QEKs) constructed by embedding data into the Hilbert space of a quantum computer are a particular quantum kernel technique that allows to gather insights into learning problems and that are particularly suitable for noisy intermediate-scale quantum devices. In this work, we first provide an accessible introduction to quantum embedding kernels and then analyze the practical issues arising when realizing them on a noisy near-term quantum computer. We focus on quantum embedding kernels with variational parameters. These variational parameters are optimized for a given dataset by increasing the kernel-target alignment, a heuristic connected to the achievable classification accuracy. We further show under which conditions noise from device imperfections influences the predicted kernel and provide a strategy to mitigate these detrimental effects which is tailored to quantum embedding kernels. We also address the influence of finite sampling and derive bounds that put guarantees on the quality of the kernel matrix. We illustrate our findings by numerical experiments and tests on actual hardware.
翻訳日:2021-05-08 02:30:33 公開日:2021-05-05
# (参考訳) R2U3D:肺分節に対する再発3次元U-Net [全文訳有]

R2U3D: Recurrent Residual 3D U-Net for Lung Segmentation ( http://arxiv.org/abs/2105.02290v1 )

ライセンス: CC BY-SA 4.0
Dhaval D. Kadia, Md Zahangir Alom, Ranga Burada, Tam V. Nguyen, Vijayan K. Asari(参考訳) 肺の容積情報を処理し、スキャンの不要な領域を除去し、肺の実際の領域を3Dボリュームに分割するので、3D肺セグメンテーションは必須である。 近年,U-Netなどのディープラーニングモデルは,バイオメディカルイメージセグメンテーションにおいて,他のネットワークアーキテクチャよりも優れている。 本稿では,3次元肺分割作業のための新しいモデル,すなわちRecurrent Residual 3D U-Net(R2U3D)を提案する。 特に,提案モデルでは,U-Netに基づくRecurrent Residual Neural Networkに3次元畳み込みを組み込む。 3dで空間依存を学習し、3dボリューム情報の伝播を増加させる。 提案するR2U3Dネットワークは、公開データセットLUNA16に基づいてトレーニングされており、LUNA16(テストセット)とVESSEL12データセットの両方で最先端のパフォーマンスを達成する。 さらに,R2U3DモデルのCTスキャンの少ないトレーニング,すなわちデータ拡張を行なわずに100スキャンを行い,ソフトディス類似度係数(Soft-DSC)の0.9920で優れた結果が得られることを示した。

3D lung segmentation is essential since it processes the volumetric information of the lungs, removes the unnecessary areas of the scan, and segments the actual area of the lungs in a 3D volume. Recently, the deep learning model, such as U-Net outperforms other network architectures for biomedical image segmentation. In this paper, we propose a novel model, namely, Recurrent Residual 3D U-Net (R2U3D), for the 3D lung segmentation task. In particular, the proposed model integrates 3D convolution into the Recurrent Residual Neural Network based on U-Net. It helps learn spatial dependencies in 3D and increases the propagation of 3D volumetric information. The proposed R2U3D network is trained on the publicly available dataset LUNA16 and it achieves state-of-the-art performance on both LUNA16 (testing set) and VESSEL12 dataset. In addition, we show that training the R2U3D model with a smaller number of CT scans, i.e., 100 scans, without applying data augmentation achieves an outstanding result in terms of Soft Dice Similarity Coefficient (Soft-DSC) of 0.9920.
翻訳日:2021-05-08 01:54:45 公開日:2021-05-05
# (参考訳) スケーラブルなグラフニューラルネットワークトレーニング - サンプリングの場合 [全文訳有]

Scalable Graph Neural Network Training: The Case for Sampling ( http://arxiv.org/abs/2105.02315v1 )

ライセンス: CC BY 4.0
Marco Serafini, Hui Guan(参考訳) グラフニューラルネットワーク(英: graph neural network、gnns)は、グラフ上で学習を行うための深層ニューラルネットワークアーキテクチャの新たなファミリーである。 グラフデータの不規則性から、効率的にトレーニングすることは難しい。 単一デバイスの容量を超える大規模グラフへのスケールでは、この問題はさらに困難になる。 データやモデル並列化といった分散DNNトレーニングに対する標準的なアプローチは、GNNに直接適用されない。 代わりに、全グラフとサンプルベースのトレーニングという2つの異なるアプローチが文献に現れている。 本稿では,2つのアプローチをレビューし,比較する。 両方のアプローチでスケーラビリティは難しいものですが、より有望なアプローチであるため、調査ではサンプルベースのトレーニングに重点を置くべきです。 最後に,サンプルベーストレーニングを支援する最近のシステムについて述べる。

Graph Neural Networks (GNNs) are a new and increasingly popular family of deep neural network architectures to perform learning on graphs. Training them efficiently is challenging due to the irregular nature of graph data. The problem becomes even more challenging when scaling to large graphs that exceed the capacity of single devices. Standard approaches to distributed DNN training, such as data and model parallelism, do not directly apply to GNNs. Instead, two different approaches have emerged in the literature: whole-graph and sample-based training. In this paper, we review and compare the two approaches. Scalability is challenging with both approaches, but we make a case that research should focus on sample-based training since it is a more promising approach. Finally, we review recent systems supporting sample-based training.
翻訳日:2021-05-08 01:42:31 公開日:2021-05-05
# (参考訳) 公平性のためのより包括的な人々のアノテーションへのステップ [全文訳有]

A Step Toward More Inclusive People Annotations for Fairness ( http://arxiv.org/abs/2105.02317v1 )

ライセンス: CC BY 4.0
Candice Schumann, Susanna Ricco, Utsav Prabhu, Vittorio Ferrari, Caroline Pantofaru(参考訳) Open Images Datasetには約900万の画像が含まれており、コンピュータビジョン研究において広く受け入れられているデータセットである。 大規模なデータセットの一般的なプラクティスであるように、アノテーションは徹底的ではなく、各イメージのクラスのサブセットのみに対するバウンディングボックスと属性ラベルがある。 本稿では,MIAP(More Inclusive Annotations for People)サブセットと呼ばれるOpen Imagesデータセットのサブセットに新たなアノテーションセットを提示する。 MIAPサブセットの属性とラベル付け手法は、モデルフェアネスの研究を可能にするように設計された。 さらに,個人クラスとそのサブクラスに対する本来のアノテーション方法論を分析し,その結果のパターンを議論し,将来的なアノテーションの取り組みについて報告する。 オリジナルのアノテーションセットと徹底的なアノテーションセットの両方を考慮することで、トレーニングアノテーションのシステマティックパターンがモデリングにどのように影響するかを研究できる。

The Open Images Dataset contains approximately 9 million images and is a widely accepted dataset for computer vision research. As is common practice for large datasets, the annotations are not exhaustive, with bounding boxes and attribute labels for only a subset of the classes in each image. In this paper, we present a new set of annotations on a subset of the Open Images dataset called the MIAP (More Inclusive Annotations for People) subset, containing bounding boxes and attributes for all of the people visible in those images. The attributes and labeling methodology for the MIAP subset were designed to enable research into model fairness. In addition, we analyze the original annotation methodology for the person class and its subclasses, discussing the resulting patterns in order to inform future annotation efforts. By considering both the original and exhaustive annotation sets, researchers can also now study how systematic patterns in training annotations affect modeling.
翻訳日:2021-05-08 01:31:14 公開日:2021-05-05
# (参考訳) 有効4次元表情認識のための大小顔面運動 [全文訳有]

Magnifying Subtle Facial Motions for Effective 4D Expression Recognition ( http://arxiv.org/abs/2105.02319v1 )

ライセンス: CC BY 4.0
Qingkai Zhen, Di Huang, Yunhong Wang, Hassen Drira, Boulbaba Ben Amor, Mohamed Daoudi(参考訳) 本稿では,4次元表情自動認識(4d fer)のための効果的なパイプラインを提案する。 コンピュータビジョンの2つの成長するが、異なるアイデアを組み合わせる - リーマン幾何学のツールを使って空間的な顔の変形を計算し、時間的フィルタリングを使ってそれらを拡大する。 3次元面の流れを最初に解析し、最近開発されたリーマン的手法に基づき空間的変形を捉え、隣接する3次元面の登録と比較を共同で行う。 そして、得られた変形の時間的進化を、時間とともに顔の活動を増幅するために倍率法に入力する。 本論文の主な貢献である後者では、感情分類性能を高める微妙な(隠れた)変形を明らかにすることができる。 抽出された幾何学的特徴(変形)を最大化した後,bu-4dfeデータセット,94.18%の平均性能,分類精度が10%以上向上した。

In this paper, an effective pipeline to automatic 4D Facial Expression Recognition (4D FER) is proposed. It combines two growing but disparate ideas in Computer Vision -- computing the spatial facial deformations using tools from Riemannian geometry and magnifying them using temporal filtering. The flow of 3D faces is first analyzed to capture the spatial deformations based on the recently-developed Riemannian approach, where registration and comparison of neighboring 3D faces are led jointly. Then, the obtained temporal evolution of these deformations are fed into a magnification method in order to amplify the facial activities over the time. The latter, main contribution of this paper, allows revealing subtle (hidden) deformations which enhance the emotion classification performance. We evaluated our approach on BU-4DFE dataset, the state-of-art 94.18% average performance and an improvement that exceeds 10% in classification accuracy, after magnifying extracted geometric features (deformations), are achieved.
翻訳日:2021-05-08 01:17:03 公開日:2021-05-05
# (参考訳) 野生生物画像の反復的人間と自動同定 [全文訳有]

Iterative Human and Automated Identification of Wildlife Images ( http://arxiv.org/abs/2105.02320v1 )

ライセンス: CC BY 4.0
Zhongqi Miao, Ziwei Liu, Kaitlyn M. Gaynor, Meredith S. Palmer, Stella X. Yu, Wayne M. Getz(参考訳) カメラのトラップは野生生物の監視にますます使われているが、この技術は通常、広範なデータアノテーションを必要とする。 近年,深層学習は野生生物の自動認識を大幅に進歩させた。 しかし、野生生物データが本質的に動的であり、長い尾の分布を伴う場合、現在の手法は大きな静的データセットに依存するため妨げられる。 これら2つの欠点は、ループ内の機械学習と人間のハイブリッドの組み合わせによって克服できる。 提案する反復的人間・自動識別手法は,長い尾の分布を持つ野生動物の画像データから学習することができる。 さらに、急速に変化する自然システムのコミュニティダイナミクスを捉えるのに役立つ自己学習も含んでいる。 広範な実験により,既存の手法の人間のアノテーションの20%しか使わず,90%の精度を実現できることが分かった。 我々の人間と機械の相乗的コラボレーションは、ディープラーニングを比較的非効率なポストアノテーションツールから、人間のアノテーションの負担を大幅に軽減し、効率的で絶え間ないモデル更新を可能にする協調的なオン・ゴーイングアノテーションツールに変換する。

Camera trapping is increasingly used to monitor wildlife, but this technology typically requires extensive data annotation. Recently, deep learning has significantly advanced automatic wildlife recognition. However, current methods are hampered by a dependence on large static data sets when wildlife data is intrinsically dynamic and involves long-tailed distributions. These two drawbacks can be overcome through a hybrid combination of machine learning and humans in the loop. Our proposed iterative human and automated identification approach is capable of learning from wildlife imagery data with a long-tailed distribution. Additionally, it includes self-updating learning that facilitates capturing the community dynamics of rapidly changing natural systems. Extensive experiments show that our approach can achieve a ~90% accuracy employing only ~20% of the human annotations of existing approaches. Our synergistic collaboration of humans and machines transforms deep learning from a relatively inefficient post-annotation tool to a collaborative on-going annotation tool that vastly relieves the burden of human annotation and enables efficient and constant model updates.
翻訳日:2021-05-08 01:03:41 公開日:2021-05-05
# 医療領域における人的意思決定支援システムのための説明可能な人工知能

Explainable Artificial Intelligence for Human Decision-Support System in Medical Domain ( http://arxiv.org/abs/2105.02357v1 )

ライセンス: Link先を確認
Samanta Knapi\v{c}, Avleen Malhi, Rohit Salujaa, Kary Fr\"amling(参考訳) 本稿では,医療画像解析における決定支援のための説明可能な人工知能手法の可能性について述べる。 同じ医用画像データセットに3種類の説明可能な方法を適用することで,畳み込みニューラルネットワーク(cnn)による決定の理解性を向上させることを目的とした。 ビデオカプセル内視鏡(VCE)から得られた腹腔内ガストロル画像の視覚的説明は、ブラックボックス予測に対する医療専門家の信頼を高めることを目的としていた。 LIMEとSHAPとCIU(Contextual Value and Utility)を中心に,2つのポストホック解釈型機械学習手法を実装した。 生成した説明は人的評価を用いて評価した。 LIME,SHAP,CIUの3つのユーザ研究を行った。 異なる医学的背景を持つユーザは、Webベースの調査設定で一連のテストを実施し、与えられた説明の経験と理解について述べた。 3種類の説明形式を持つ3つのユーザグループ(n=20, 20)を定量的に分析した。 仮説として,CIU の説明可能な手法は LIME と SHAP の手法よりも,人間の意思決定支援の増大や透明性の向上,ユーザにとって理解しやすい方法であることが示唆された。 さらにCIUは、より高速な説明を生成することで、LIMEやSHAPよりも優れていた。 本研究は, 様々な説明支援設定において, 人的意思決定に顕著な違いがあることを示唆する。 そこで本研究では,様々な医療データセット上で実装の今後の改善を一般化し,医療専門家に優れた意思決定支援を提供するための3つの方法を提案する。

In the present paper we present the potential of Explainable Artificial Intelligence methods for decision-support in medical image analysis scenarios. With three types of explainable methods applied to the same medical image data set our aim was to improve the comprehensibility of the decisions provided by the Convolutional Neural Network (CNN). The visual explanations were provided on in-vivo gastral images obtained from a Video capsule endoscopy (VCE), with the goal of increasing the health professionals' trust in the black box predictions. We implemented two post-hoc interpretable machine learning methods LIME and SHAP and the alternative explanation approach CIU, centered on the Contextual Value and Utility (CIU). The produced explanations were evaluated using human evaluation. We conducted three user studies based on the explanations provided by LIME, SHAP and CIU. Users from different non-medical backgrounds carried out a series of tests in the web-based survey setting and stated their experience and understanding of the given explanations. Three user groups (n=20, 20, 20) with three distinct forms of explanations were quantitatively analyzed. We have found that, as hypothesized, the CIU explainable method performed better than both LIME and SHAP methods in terms of increasing support for human decision-making as well as being more transparent and thus understandable to users. Additionally, CIU outperformed LIME and SHAP by generating explanations more rapidly. Our findings suggest that there are notable differences in human decision-making between various explanation support settings. In line with that, we present three potential explainable methods that can with future improvements in implementation be generalized on different medical data sets and can provide great decision-support for medical experts.
翻訳日:2021-05-07 13:41:23 公開日:2021-05-05
# 抽出要約のための遺伝的アルゴリズム

Genetic Algorithms For Extractive Summarization ( http://arxiv.org/abs/2105.02365v1 )

ライセンス: Link先を確認
William Chen, Kensal Ramos, Kalyan Naidu Mullaguri(参考訳) NLPの現在の作業のほとんどは、多くのトレーニングデータと計算能力を必要とするディープラーニングを使用している。 本稿では,遺伝的アルゴリズム(GA)の強みについて検討し,GAが学習モデルに対する相対的カスタマイズ性から,より効率的な解を構築できると仮定した。 これは語彙集合を構築し、その単語を重みの配列として表現し、それらの重みの組をgaで最適化することで行われる。 これらの重みは、文の全体的な重み付けを構築するために使用することができ、抽出のためにしきい値に渡すことができる。 その結果,GAは過剰な語彙を抽出し,英単語に基づいて文の重要性を判断できる重み表現を学習することができた。

Most current work in NLP utilizes deep learning, which requires a lot of training data and computational power. This paper investigates the strengths of Genetic Algorithms (GAs) for extractive summarization, as we hypothesized that GAs could construct more efficient solutions for the summarization task due to their relative customizability relative to deep learning models. This is done by building a vocabulary set, the words of which are represented as an array of weights, and optimizing those set of weights with the GA. These weights can be used to build an overall weighting of a sentence, which can then be passed to some threshold for extraction. Our results showed that the GA was able to learn a weight representation that could filter out excessive vocabulary and thus dictate sentence importance based on common English words.
翻訳日:2021-05-07 13:40:05 公開日:2021-05-05
# Content4All Open Research Sign Language Translation Datasets

Content4All Open Research Sign Language Translation Datasets ( http://arxiv.org/abs/2105.02351v1 )

ライセンス: Link先を確認
Necati Cihan Camgoz, Ben Saunders, Guillaume Rochette, Marco Giovanelli, Giacomo Inches, Robin Nachtrab-Ribback, Richard Bowden(参考訳) 計算手話の研究は、有用な実生活アプリケーションの作成を可能にする大規模なデータセットを欠いている。 これまで、ほとんどの研究は、言論の小さな領域のプロトタイプシステムに限られてきた。 天気予報。 この問題に対処し、フィールドを前進させるために、より大きなニュース領域で190時間分の映像からなる6つのデータセットをリリースします。 そこから20時間の映像が難聴の専門家や通訳によって注釈付けされ、研究目的で公開されている。 本稿では,手話ビデオと字幕のアライメントを実現するために開発されたデータセット収集プロセスとツールを共有するとともに,今後の研究の基盤となるベースライン翻訳結果を共有する。

Computational sign language research lacks the large-scale datasets that enables the creation of useful reallife applications. To date, most research has been limited to prototype systems on small domains of discourse, e.g. weather forecasts. To address this issue and to push the field forward, we release six datasets comprised of 190 hours of footage on the larger domain of news. From this, 20 hours of footage have been annotated by Deaf experts and interpreters and is made publicly available for research purposes. In this paper, we share the dataset collection process and tools developed to enable the alignment of sign language video and subtitles, as well as baseline translation results to underpin future research.
翻訳日:2021-05-07 13:39:51 公開日:2021-05-05
# 画像登録のための注意(air):教師なし変圧器アプローチ

Attention for Image Registration (AiR): an unsupervised Transformer approach ( http://arxiv.org/abs/2105.02282v1 )

ライセンス: Link先を確認
Zihao Wang, Herv\'e Delingette(参考訳) 信号処理タスクにおける重要な基盤としてのイメージ登録は、しばしば安定性と効率の問題がある。 非学習登録アプローチは、修正と移動画像間の類似度メトリクスの最適化に依存する。 しかし、これらのアプローチは通常、時間と空間の複雑さの両方においてコストがかかる。 画像のサイズが大きくなるか、画像間の変形が激しい場合、問題はさらに悪化する可能性がある。 近年,畳み込みニューラルネットワーク(convolutional neural network, cnn)に基づく画像登録手法が研究コミュニティで広く研究され,非学習型手法の弱さを克服する有望な効果を示している。 本稿では, 画像登録問題における高度な学習手法を探るため, 変形可能な画像登録問題において, 注意機構を導入する手法を提案する。 提案手法は,CNNに依存しないトランスフォーマーフレームワーク(AiR)を用いて変形場を学習し,GPGPUデバイス上で効率よくトレーニングすることができる。 より鮮明な解釈で、我々は画像登録問題を言語翻訳タスクと同じものとして扱い、問題に取り組むためにトランスフォーマーを導入する。 提案手法は教師なし変形マップを学習し、2つのベンチマークデータセットで検証する。 airのソースコードはgitlabでリリースされる予定である。

Image registration as an important basis in signal processing task often encounter the problem of stability and efficiency. Non-learning registration approaches rely on the optimization of the similarity metrics between the fix and moving images. Yet, those approaches are usually costly in both time and space complexity. The problem can be worse when the size of the image is large or the deformations between the images are severe. Recently, deep learning, or precisely saying, the convolutional neural network (CNN) based image registration methods have been widely investigated in the research community and show promising effectiveness to overcome the weakness of non-learning based methods. To explore the advanced learning approaches in image registration problem for solving practical issues, we present in this paper a method of introducing attention mechanism in deformable image registration problem. The proposed approach is based on learning the deformation field with a Transformer framework (AiR) that does not rely on the CNN but can be efficiently trained on GPGPU devices also. In a more vivid interpretation: we treat the image registration problem as the same as a language translation task and introducing a Transformer to tackle the problem. Our method learns an unsupervised generated deformation map and is tested on two benchmark datasets. The source code of the AiR will be released at Gitlab.
翻訳日:2021-05-07 13:39:41 公開日:2021-05-05
# 非漸近的解析と外因性誘導平均の推論

Non-asymptotic analysis and inference for an outlyingness induced winsorized mean ( http://arxiv.org/abs/2105.02337v1 )

ライセンス: Link先を確認
Yijun Zuo(参考訳) 従来のロバスト統計コミュニティでは時代遅れと見なされる平均ベクトルのロバストな推定は、最近10年間に機械学習の文献で急増している。 最新の焦点は、非漸近的な環境での推定器の性能と計算可能性である。 多くの伝統的なロバスト推定器は計算に難解であり、ロバスト平均推定への関心の更新に一部寄与している。 しかし、ロバスト中心性推定器は、トリミング平均とサンプル中央値を含む。 後者は最も頑健だが、低効率の欠点がある。 試料平均に対するロバストな代替品として, トリミング平均, 平均中央値, %as が提案され, 文献で研究されている。 本稿では,平均値の下位ゲージ推定器の主成分のロバスト性を調査し,データ中の25\%$以上の汚染に抵抗できないことを明らかにするとともに,最も高いロバスト性(破壊することなく最大50\%$の汚染に抵抗できる)を有する外接性誘導ウィンナライズ平均を導入する。 さらに、非汚染試料に対するサブガウス性能と、有限標本設定における所定の信頼度レベルでの汚染試料に対する有界推定誤差を有する。 線形時間で計算できる。

Robust estimation of a mean vector, a topic regarded as obsolete in the traditional robust statistics community, has recently surged in machine learning literature in the last decade. The latest focus is on the sub-Gaussian performance and computability of the estimators in a non-asymptotic setting. Numerous traditional robust estimators are computationally intractable, which partly contributes to the renewal of the interest in the robust mean estimation. Robust centrality estimators, however, include the trimmed mean and the sample median. The latter has the best robustness but suffers a low-efficiency drawback. Trimmed mean and median of means, %as robust alternatives to the sample mean, and achieving sub-Gaussian performance have been proposed and studied in the literature. This article investigates the robustness of leading sub-Gaussian estimators of mean and reveals that none of them can resist greater than $25\%$ contamination in data and consequently introduces an outlyingness induced winsorized mean which has the best possible robustness (can resist up to $50\%$ contamination without breakdown) meanwhile achieving high efficiency. Furthermore, it has a sub-Gaussian performance for uncontaminated samples and a bounded estimation error for contaminated samples at a given confidence level in a finite sample setting. It can be computed in linear time.
翻訳日:2021-05-07 13:37:45 公開日:2021-05-05
# DeepSMOTE: 不均衡データのためのディープラーニングとSMOTE

DeepSMOTE: Fusing Deep Learning and SMOTE for Imbalanced Data ( http://arxiv.org/abs/2105.02340v1 )

ライセンス: Link先を確認
Damien Dablain, Bartosz Krawczyk, Nitesh V. Chawla(参考訳) 20年以上の進歩にもかかわらず、不均衡なデータは現代の機械学習モデルにとって重要な課題だと考えられている。 ディープラーニングの最近の進歩は、不均衡データ問題の重要性を増大させた。 この問題に対処する2つの主要なアプローチは、損失関数の修正とインスタンスの再サンプリングに基づいている。 インスタンスサンプリングは通常、モード崩壊に苦しむGAN(Generative Adversarial Networks)に基づいている。 したがって、深層学習モデルに特化し、その特性を維持しながら原画像を扱うことができ、マイノリティクラスを強化し、トレーニングセットのバランスをとることができる高品質な人工画像を生成することができる過剰サンプリング手法が必要となる。 深層学習モデルのための新しいオーバーサンプリングアルゴリズムであるdeepsmoteを提案する。 シンプルだが、その設計には効果がある。 i)エンコーダ/デコーダフレームワーク、(ii)SMOTEベースのオーバーサンプリング、(iii)ペナルティ項で拡張された専用損失関数の3つの主要コンポーネントで構成されている。 GANをベースとしたオーバーサンプリングに比べてDeepSMOTEの重要な利点は、DeepSMOTEが識別器を必要とせず、情報豊かで視覚検査に適した高品質な人工画像を生成することである。 DeepSMOTEコードは、https://github.com/d d1github/DeepSMOTEで公開されている。

Despite over two decades of progress, imbalanced data is still considered a significant challenge for contemporary machine learning models. Modern advances in deep learning have magnified the importance of the imbalanced data problem. The two main approaches to address this issue are based on loss function modifications and instance resampling. Instance sampling is typically based on Generative Adversarial Networks (GANs), which may suffer from mode collapse. Therefore, there is a need for an oversampling method that is specifically tailored to deep learning models, can work on raw images while preserving their properties, and is capable of generating high quality, artificial images that can enhance minority classes and balance the training set. We propose DeepSMOTE - a novel oversampling algorithm for deep learning models. It is simple, yet effective in its design. It consists of three major components: (i) an encoder/decoder framework; (ii) SMOTE-based oversampling; and (iii) a dedicated loss function that is enhanced with a penalty term. An important advantage of DeepSMOTE over GAN-based oversampling is that DeepSMOTE does not require a discriminator, and it generates high-quality artificial images that are both information-rich and suitable for visual inspection. DeepSMOTE code is publicly available at: https://github.com/d d1github/DeepSMOTE
翻訳日:2021-05-07 13:37:08 公開日:2021-05-05
# MODS -- USV指向の物体検出と障害物セグメンテーションベンチマーク

MODS -- A USV-oriented object detection and obstacle segmentation benchmark ( http://arxiv.org/abs/2105.02359v1 )

ライセンス: Link先を確認
Borja Bovcon, Jon Muhovi\v{c}, Du\v{s}ko Vranac, Dean Mozeti\v{c}, Janez Per\v{s}, Matej Kristan(参考訳) 小型無人水上機(英語版) (usv) は、環境制御や監視といった幅広い用途の沿岸水機器である。 自律運転における重要な機能は、時間的反応と衝突回避のための障害物検出であり、近年、カメラによる視覚シーンの解釈の文脈で研究されている。 データセットのキュレーションにより、関連する無人地上車両の分野でシーン解釈の大幅な進歩がなされている。 しかし、現在の海洋データセットは実世界のUSVシーンの複雑さを適切に捉えておらず、評価プロトコルは標準化されていないため、異なる手法のクロスペーパー比較が困難であり、隠蔽が進行する。 これらの問題に対処するために,海上物体検出とより一般的な海上障害物分割という2つの主要な認識課題を考慮した新しい障害物検出ベンチマークMODSを導入する。 船載IMUと同期する約81kのステレオ画像と60k以上の物体を注釈付けした新たな海洋評価データセットを提案する。 実用的なUSVナビゲーションに有用な方法で検出精度を反映した新しい障害物分割性能評価プロトコルを提案する。 提案プロトコルを用いて,最新の17種類の物体検出手法と障害物分割手法を評価し,フィールドの開発を容易にするベンチマークを作成した。

Small-sized unmanned surface vehicles (USV) are coastal water devices with a broad range of applications such as environmental control and surveillance. A crucial capability for autonomous operation is obstacle detection for timely reaction and collision avoidance, which has been recently explored in the context of camera-based visual scene interpretation. Owing to curated datasets, substantial advances in scene interpretation have been made in a related field of unmanned ground vehicles. However, the current maritime datasets do not adequately capture the complexity of real-world USV scenes and the evaluation protocols are not standardised, which makes cross-paper comparison of different methods difficult and hiders the progress. To address these issues, we introduce a new obstacle detection benchmark MODS, which considers two major perception tasks: maritime object detection and the more general maritime obstacle segmentation. We present a new diverse maritime evaluation dataset containing approximately 81k stereo images synchronized with an on-board IMU, with over 60k objects annotated. We propose a new obstacle segmentation performance evaluation protocol that reflects the detection accuracy in a way meaningful for practical USV navigation. Seventeen recent state-of-the-art object detection and obstacle segmentation methods are evaluated using the proposed protocol, creating a benchmark to facilitate development of the field.
翻訳日:2021-05-07 13:36:47 公開日:2021-05-05
# 非線形ダイナミクス発見のための物理インフォームドスプライン学習

Physics-informed Spline Learning for Nonlinear Dynamics Discovery ( http://arxiv.org/abs/2105.02368v1 )

ライセンス: Link先を確認
Fangzheng Sun, Yang Liu, Hao Sun(参考訳) 力学系は典型的には線型・非線形微分方程式の集合によって支配される。 非常に限られたデータからこれらの方程式の分析形式を蒸留することは、物理学、生物学、気候科学、工学、社会科学など多くの分野において難解である。 この根本的な課題に対処するために、疎サンプリングされたノイズデータに基づいて、非線形力学の擬似支配方程式を発見するために、新しい物理インフォームドスプラインラーニング(PiSL)フレームワークを提案する。 鍵となる概念は、(1)スプラインを利用して局所的なダイナミクスを補間し、分析的微分を行い、候補項のライブラリを構築すること、(2)支配方程式のスパース表現を採用すること、(3)スプライン学習を知らせることである。 スプラインと基礎物理学の相乗効果は、高レベルのデータ不足とノイズに対処する堅牢な能力をもたらす。 制御方程式の構造と明示的な表現を形成するスパース係数を体系的に刈り取るために,ハイブリッドスペーサ・プロモーティング交互方向最適化戦略を開発した。 提案手法の有効性と優越性は, 複数の非線形力学系で実証され, 最先端手法との比較を行った。

Dynamical systems are typically governed by a set of linear/nonlinear differential equations. Distilling the analytical form of these equations from very limited data remains intractable in many disciplines such as physics, biology, climate science, engineering and social science. To address this fundamental challenge, we propose a novel Physics-informed Spline Learning (PiSL) framework to discover parsimonious governing equations for nonlinear dynamics, based on sparsely sampled noisy data. The key concept is to (1) leverage splines to interpolate locally the dynamics, perform analytical differentiation and build the library of candidate terms, (2) employ sparse representation of the governing equations, and (3) use the physics residual in turn to inform the spline learning. The synergy between splines and discovered underlying physics leads to the robust capacity of dealing with high-level data scarcity and noise. A hybrid sparsity-promoting alternating direction optimization strategy is developed for systematically pruning the sparse coefficients that form the structure and explicit expression of the governing equations. The efficacy and superiority of the proposed method has been demonstrated by multiple well-known nonlinear dynamical systems, in comparison with a state-of-the-art method.
翻訳日:2021-05-07 13:35:35 公開日:2021-05-05
# 適応収集データを用いた政策学習

Policy Learning with Adaptively Collected Data ( http://arxiv.org/abs/2105.02344v1 )

ライセンス: Link先を確認
Ruohan Zhan, Zhimei Ren, Susan Athey, Zhengyuan Zhou(参考訳) 履歴データから最適なポリシーを学ぶことで、パーソナライズによる利益を様々なアプリケーションで実現することができる。 成長する政策学習文献は、治療割当方針がデータに適応しない設定に焦点を当てている。 しかし、適応データ収集は、1)推論効率を改善するために設計された適応実験から収集されたデータ、2)時間とともにパフォーマンスを改善するために運用方針を適応的に進化させている生産システムから収集されたデータである。 文脈的盗賊) 本稿では,適応的に収集したデータを用いて最適方針を学習する課題に対処し,この問題に対する最初の理論的質問の1つを提供する。 一般化された逆確率重み付き推定器に基づくアルゴリズムを提案し,その有限サンプル後悔境界を確立する。 この後悔の上限を、適応型データを用いた政策学習の基本的な難しさを特徴付ける下限で補う。 最後に、合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を示す。

Learning optimal policies from historical data enables the gains from personalization to be realized in a wide variety of applications. The growing policy learning literature focuses on a setting where the treatment assignment policy does not adapt to the data. However, adaptive data collection is becoming more common in practice, from two primary sources: 1) data collected from adaptive experiments that are designed to improve inferential efficiency; 2) data collected from production systems that are adaptively evolving an operational policy to improve performance over time (e.g. contextual bandits). In this paper, we aim to address the challenge of learning the optimal policy with adaptively collected data and provide one of the first theoretical inquiries into this problem. We propose an algorithm based on generalized augmented inverse propensity weighted estimators and establish its finite-sample regret bound. We complement this regret upper bound with a lower bound that characterizes the fundamental difficulty of policy learning with adaptive data. Finally, we demonstrate our algorithm's effectiveness using both synthetic data and public benchmark datasets.
翻訳日:2021-05-07 13:35:15 公開日:2021-05-05
# Granger Causality: レビューと最近の進歩

Granger Causality: A Review and Recent Advances ( http://arxiv.org/abs/2105.02675v1 )

ライセンス: Link先を確認
Ali Shojaie and Emily B. Fox(参考訳) 半世紀以上前に導入されたGranger causalityは、経済学や金融学、ゲノム学、神経科学など、多くのアプリケーション領域で時系列データを分析するための一般的なツールとなっている。 この人気にもかかわらず、時系列間の因果関係を推測するこの概念の有効性は継続的な議論の対象となっている。 さらに、元々の定義は一般的であったが、計算ツールの限界は、グランジャー因果関係の応用を、単純二変量ベクトル自己回帰過程に限定している。 本稿では,初期の発展と議論のレビューから,高次元時系列モデルから非線形・非ガウシアン観測を考慮し,サブサンプリング・混合周波数時系列を可能にする最近の発展まで,初期のアプローチの様々な欠点を扱った最近の進歩について述べる。

Introduced more than a half century ago, Granger causality has become a popular tool for analyzing time series data in many application domains, from economics and finance to genomics and neuroscience. Despite this popularity, the validity of this notion for inferring causal relationships among time series has remained the topic of continuous debate. Moreover, while the original definition was general, limitations in computational tools have primarily limited the applications of Granger causality to simple bivariate vector auto-regressive processes consisting. Starting with a review of early developments and debates, this paper discusses recent advances that address various shortcomings of the earlier approaches, from models for high-dimensional time series to more recent developments that account for nonlinear and non-Gaussian observations and allow for sub-sampled and mixed frequency time series.
翻訳日:2021-05-07 13:34:26 公開日:2021-05-05
# 自律的分離保証における深層強化学習の安全性向上

Safety Enhancement for Deep Reinforcement Learning in Autonomous Separation Assurance ( http://arxiv.org/abs/2105.02331v1 )

ライセンス: Link先を確認
Wei Guo, Marc Brittain, Peng Wei(参考訳) 分離保証タスクは、複雑で高密度の空域環境において、航空管制官にとって極めて困難である。 深部強化学習(DRL)は,学習モデルが速度操作を推奨するこれまでの作業において,自律的な分離保証フレームワークの開発に用いられた。 本研究では,不確実性のない環境でのこのモデルの安全性を向上させるために,自律的分離保証アプリケーションにおけるDRLの安全モジュールを提案する。 提案モジュールはモデル不確実性と状態不確実性の両方に対処して安全性を向上させる。 安全モジュールは2つのサブモジュールから構成されており、(1)状態安全サブモジュールは、モデル入力状態に状態障害を導入する実行時間データ拡張法に基づいており、(2)モデル安全サブモジュールは、drlモデルポリシーの後方分布を学習するモンテカルロドロップアウト拡張である。 環境設定が困難なオープンソースの航空交通シミュレータにおける2つのサブモジュールの有効性を実証する。 数値実験により,提案したサブセーフティモジュールは,自律的分離保証タスクにおいてDRLエージェントの安全性を著しく向上させることを示す。

The separation assurance task will be extremely challenging for air traffic controllers in a complex and high density airspace environment. Deep reinforcement learning (DRL) was used to develop an autonomous separation assurance framework in our previous work where the learned model advised speed maneuvers. In order to improve the safety of this model in unseen environments with uncertainties, in this work we propose a safety module for DRL in autonomous separation assurance applications. The proposed module directly addresses both model uncertainty and state uncertainty to improve safety. Our safety module consists of two sub-modules: (1) the state safety sub-module is based on the execution-time data augmentation method to introduce state disturbances in the model input state; (2) the model safety sub-module is a Monte-Carlo dropout extension that learns the posterior distribution of the DRL model policy. We demonstrate the effectiveness of the two sub-modules in an open-source air traffic simulator with challenging environment settings. Through extensive numerical experiments, our results show that the proposed sub-safety modules help the DRL agent significantly improve its safety performance in an autonomous separation assurance task.
翻訳日:2021-05-07 13:28:51 公開日:2021-05-05
# 自己注意を超えて:視覚タスクのための2つの線形層を用いた外部注意

Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks ( http://arxiv.org/abs/2105.02358v1 )

ライセンス: Link先を確認
Meng-Hao Guo, Zheng-Ning Liu, Tai-Jiang Mu, Shi-Min Hu(参考訳) 注意機構、特に自己注意は、視覚タスクにおける深い特徴表現においてますます重要な役割を果たす。 自己注意(Self-attention)は、すべての位置のペア親和性を使って、各位置の機能を重み付けして更新し、単一のサンプル内で長距離依存性をキャプチャする。 しかし、自己アテンションは二次的複雑性を持ち、異なるサンプル間の潜在的な相関を無視する。 本稿では,2つの外部的,小さく,学習可能,共有的記憶に基づく,新たな注意機構を提案する。2つの逐次線形層と2つの正規化層を単純に使用すれば容易に実装でき,既存のアーキテクチャにおける自己着脱を便利に置き換える。 外部の注意は線形な複雑さを持ち、すべてのサンプル間の相関を暗黙的に考慮する。 画像分類,意味セグメンテーション,画像生成,ポイントクラウド分類,ポイントクラウドセグメンテーションタスクに関する広範な実験により,本手法が自己照査機構やその派生品と同等あるいは優れた性能を提供し,計算コストとメモリコストをはるかに削減できることが判明した。

Attention mechanisms, especially self-attention, play an increasingly important role in deep feature representation in visual tasks. Self-attention updates the feature at each position by computing a weighted sum of features using pair-wise affinities across all positions to capture long-range dependency within a single sample. However, self-attention has a quadratic complexity and ignores potential correlation between different samples. This paper proposes a novel attention mechanism which we call external attention, based on two external, small, learnable, and shared memories, which can be implemented easily by simply using two cascaded linear layers and two normalization layers; it conveniently replaces self-attention in existing popular architectures. External attention has linear complexity and implicitly considers the correlations between all samples. Extensive experiments on image classification, semantic segmentation, image generation, point cloud classification and point cloud segmentation tasks reveal that our method provides comparable or superior performance to the self-attention mechanism and some of its variants, with much lower computational and memory costs.
翻訳日:2021-05-07 13:28:00 公開日:2021-05-05
# 再生停止問題の学習アルゴリズムと物流における輸送統合への応用

Learning Algorithms for Regenerative Stopping Problems with Applications to Shipping Consolidation in Logistics ( http://arxiv.org/abs/2105.02318v1 )

ライセンス: Link先を確認
Kishor Jothimurugan, Matthew Andrews, Jeongran Lee and Lorenzo Maggi(参考訳) 制御器が停止し、長期平均コストを最小限に抑えると、システムが再起動する再生停止問題について検討する。 従来のモデルベースのソリューションは、推定モデルのためのデータとコンピューティング戦略から基礎となるプロセスを推定する。 本稿では,シミュレーションからニューラルネットワークポリシーを学習する深層強化学習と模倣学習を比較した。 我々は,ロジスティクスにおける出荷統合という現実世界の問題に対する異なるアプローチを評価し,これらの問題を解決するためにディープラーニングを効果的に活用できることを実証する。

We study regenerative stopping problems in which the system starts anew whenever the controller decides to stop and the long-term average cost is to be minimized. Traditional model-based solutions involve estimating the underlying process from data and computing strategies for the estimated model. In this paper, we compare such solutions to deep reinforcement learning and imitation learning which involve learning a neural network policy from simulations. We evaluate the different approaches on a real-world problem of shipping consolidation in logistics and demonstrate that deep learning can be effectively used to solve such problems.
翻訳日:2021-05-07 13:20:50 公開日:2021-05-05
# CombOptNet:整数プログラミング制約を学習することで正しいNP-Hard問題に適合する

CombOptNet: Fit the Right NP-Hard Problem by Learning Integer Programming Constraints ( http://arxiv.org/abs/2105.02343v1 )

ライセンス: Link先を確認
Anselm Paulus and Michal Rol\'inek and V\'it Musil and Brandon Amos and Georg Martius(参考訳) 現代の機械学習技術で論理的およびアルゴリズム的推論を組み込むことは、潜在的に変革的な影響に対する根本的な課題である。 アルゴリズム側では、多くのNPハード問題を整数プログラムとして表すことができ、そこでは制約が「組合せ仕様」の役割を担っている。 本研究では,コスト項と制約の両方を学習できる層として,整数型プログラミングソルバをニューラルネットワークアーキテクチャに統合することを目的としている。 結果として得られたエンドツーエンドのトレーニング可能なアーキテクチャは、生データから特徴を抽出し、最先端の整数プログラミングソルバで適切な(学習された)組合せ問題を解く。 我々は、合成データに対する広範な性能解析と、競合するコンピュータビジョンキーポイントマッチングベンチマークでの実証により、このようなレイヤーの可能性を示す。

Bridging logical and algorithmic reasoning with modern machine learning techniques is a fundamental challenge with potentially transformative impact. On the algorithmic side, many NP-hard problems can be expressed as integer programs, in which the constraints play the role of their "combinatorial specification". In this work, we aim to integrate integer programming solvers into neural network architectures as layers capable of learning both the cost terms and the constraints. The resulting end-to-end trainable architectures jointly extract features from raw data and solve a suitable (learned) combinatorial problem with state-of-the-art integer programming solvers. We demonstrate the potential of such layers with an extensive performance analysis on synthetic data and with a demonstration on a competitive computer vision keypoint matching benchmark.
翻訳日:2021-05-07 13:20:41 公開日:2021-05-05
# asp.netでベッド管理を行うための手術室(re)

Operating Room (Re)Scheduling with Bed Management via ASP ( http://arxiv.org/abs/2105.02283v1 )

ライセンス: Link先を確認
Carmine Dodaro, Giuseppe Galat\`a, Muhammad Kamran Khan, Marco Maratea, Ivan Porro(参考訳) 手術室スケジューリング(英: Operating Room Scheduling、ORS)は、手術室に患者を割り当て、計画された各手術の専門性、長さと優先順位、手術室のセッション期間、集中治療室と病棟の両方に滞在する期間全体のベッドの可用性を考慮するタスクである。 ORS問題に対する適切な解決策は、医療サービス品質と病院環境における患者の満足度にとって最も重要なものである。 本稿では、まず、解答セットプログラミング(ASP.NET)に基づく問題の解を示す。 提案手法は, 現実的なサイズとパラメータを持つベンチマークを用いて, 5日間のスケジュールにおける目標長の3つのシナリオで検証し, 結果から, ASPがORS問題に適した解決方法であることが示された。 また、最大15日間のスケジュール長についてもスケーラビリティ解析を行い、より長い計画地平線上でのソリューションの適合性を示した。 さらに、再スケジュール問題、すなわち、再スケジューリング問題に対するASPソリューションも提示する。 何らかの理由でオフラインスケジュールが完了できない場合。 最後に、ASPを介してORS問題を管理するWebフレームワークを導入し、ユーザが問題の主パラメータを挿入し、特定のインスタンスを解決し、結果をリアルタイムでグラフィカルに表示できるようにする。 論理プログラミングの理論と実践(tplp)における考察。

The Operating Room Scheduling (ORS) problem is the task of assigning patients to operating rooms, taking into account different specialties, lengths and priority scores of each planned surgery, operating room session durations, and the availability of beds for the entire length of stay both in the Intensive Care Unit and in the wards. A proper solution to the ORS problem is of primary importance for the healthcare service quality and the satisfaction of patients in hospital environments. In this paper we first present a solution to the problem based on Answer Set Programming (ASP). The solution is tested on benchmarks with realistic sizes and parameters, on three scenarios for the target length on 5-day scheduling, common in small-medium sized hospitals, and results show that ASP is a suitable solving methodology for the ORS problem in such setting. Then, we also performed a scalability analysis on the schedule length up to 15 days, which still shows the suitability of our solution also on longer plan horizons. Moreover, we also present an ASP solution for the rescheduling problem, i.e. when the off-line schedule cannot be completed for some reason. Finally, we introduce a web framework for managing ORS problems via ASP that allows a user to insert the main parameters of the problem, solve a specific instance, and show results graphically in real-time. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-05-07 13:18:46 公開日:2021-05-05
# 確率的二値最適化のためのランダム化確率変数導出法

Randomized Stochastic Variance-Reduced Methods for Stochastic Bilevel Optimization ( http://arxiv.org/abs/2105.02266v1 )

ライセンス: Link先を確認
Zhishuai Guo, Tianbao Yang(参考訳) 本稿では,非凸確率二段階最適化(non-convex stochastic bilevel optimization, sbo)問題について考察する。 多くの研究がこれらの問題を解決する確率的アルゴリズムを提案しているが、それらは2つの観点で制限されている: (i) サンプルの複雑さは高いが、これは非凸確率的最適化の最先端の結果と一致しない。 低レベルな問題が数多くある場合、各イテレーションでこれらの低レベルな問題を全て処理することは禁じられるかもしれません。 そこで本稿では,非凸sbo問題に対する高速ランダム化確率アルゴリズムを提案する。 まず, 1 つの低い問題しか持たない非凸 SBO に対する確率的手法を提案し,そのサンプルの複雑さを$O(1/\epsilon^3)$ とすると, 適切な条件下での$\epsilon$-stationar y point を求めることができる。 第2に、各イテレーションにおいて1つの低い問題のみを処理し、サンプルの複雑さを$O(m/\epsilon^3)$より悪くすることで、$m>1$低い問題を処理する非凸SBOのランダム化確率的手法を提案する。 我々の知る限りでは、これは多くの低いレベルの問題を持つSBOを考慮し、最先端のサンプル複雑性を確立する最初の研究である。

In this paper, we consider non-convex stochastic bilevel optimization (SBO) problems that have many applications in machine learning. Although numerous studies have proposed stochastic algorithms for solving these problems, they are limited in two perspectives: (i) their sample complexities are high, which do not match the state-of-the-art result for non-convex stochastic optimization; (ii) their algorithms are tailored to problems with only one lower-level problem. When there are many lower-level problems, it could be prohibitive to process all these lower-level problems at each iteration. To address these limitations, this paper proposes fast randomized stochastic algorithms for non-convex SBO problems. First, we present a stochastic method for non-convex SBO with only one lower problem and establish its sample complexity of $O(1/\epsilon^3)$ for finding an $\epsilon$-stationar y point under appropriate conditions, matching the lower bound for stochastic smooth non-convex optimization. Second, we present a randomized stochastic method for non-convex SBO with $m>1$ lower level problems by processing only one lower problem at each iteration, and establish its sample complexity no worse than $O(m/\epsilon^3)$, which could have a better complexity than simply processing all $m$ lower problems at each iteration. To the best of our knowledge, this is the first work considering SBO with many lower level problems and establishing state-of-the-art sample complexity.
翻訳日:2021-05-07 13:15:26 公開日:2021-05-05
# Epileptic Seizure 予測のための新しいマルチスケール3次元CNN

A Novel Multi-scale Dilated 3D CNN for Epileptic Seizure Prediction ( http://arxiv.org/abs/2105.02823v1 )

ライセンス: Link先を確認
Ziyu Wang, Jie Yang and Mohamad Sawan(参考訳) てんかん発作の正確な予測は、患者が怪我を避けるために事前に予防措置を講じることを可能にする。 本研究では,脳波信号の時間,周波数,チャネル情報を解析するために,新しい畳み込みニューラルネットワーク(cnn)を提案する。 モデルは3次元(3D)カーネルを使用して、3次元上の特徴抽出を容易にする。 マルチスケール拡張畳み込みの応用により、3Dカーネルはより柔軟な受容場を持つことができる。 提案したCNNモデルはCHB-MIT EEGデータベースを用いて評価され,実験結果から既存の最先端モデルよりも優れ,80.5%の精度,85.8%の感度,75.1%の特異性が得られた。

Accurate prediction of epileptic seizures allows patients to take preventive measures in advance to avoid possible injuries. In this work, a novel convolutional neural network (CNN) is proposed to analyze time, frequency, and channel information of electroencephalograp hy (EEG) signals. The model uses three-dimensional (3D) kernels to facilitate the feature extraction over the three dimensions. The application of multiscale dilated convolution enables the 3D kernel to have more flexible receptive fields. The proposed CNN model is evaluated with the CHB-MIT EEG database, the experimental results indicate that our model outperforms the existing state-of-the-art, achieves 80.5% accuracy, 85.8% sensitivity and 75.1% specificity.
翻訳日:2021-05-07 13:12:16 公開日:2021-05-05
# FedMLのためのByzantine-Robustとプライバシ保護フレームワーク

Byzantine-Robust and Privacy-Preserving Framework for FedML ( http://arxiv.org/abs/2105.02295v1 )

ライセンス: Link先を確認
Hanieh Hashemi, Yongqin Wang, Chuan Guo, Murali Annavaram(参考訳) フェデレーション学習は、一連のクライアント間で分散されたデータからモデルを協調的にトレーニングするための一般的なパラダイムとして登場した。 この学習設定は、トレーニング中のクライアントデータのプライバシ保護方法と、トレーニングされたモデルの完全性を保証する方法の2つのユニークな課題である。 一つのフレームワークで両方の課題に対処することを目的とした2段階のソリューションを提案する。 まず、サーバ内でtrusted execution environment(tee)を使用してセキュアなエンクレーブを作成することを提案する。 各クライアントは勾配を暗号化し、検証可能なエンクレーブに送ることができる。 勾配はプライバシー侵害を恐れずにエンクレーブ内で復号化される。 しかし、TEEの堅牢性チェック計算は計算が禁止されている。 したがって、第2のステップでは、teesが勾配をエンコードし、ビザンチンチェック計算をgpuなどのアクセラレータにオフロードできる新しい勾配エンコーディングを行う。 提案手法は,情報漏洩に関する理論的境界を提供し,経験的評価におけるベースラインの大幅な高速化を提供する。

Federated learning has emerged as a popular paradigm for collaboratively training a model from data distributed among a set of clients. This learning setting presents, among others, two unique challenges: how to protect privacy of the clients' data during training, and how to ensure integrity of the trained model. We propose a two-pronged solution that aims to address both challenges under a single framework. First, we propose to create secure enclaves using a trusted execution environment (TEE) within the server. Each client can then encrypt their gradients and send them to verifiable enclaves. The gradients are decrypted within the enclave without the fear of privacy breaches. However, robustness check computations in a TEE are computationally prohibitive. Hence, in the second step, we perform a novel gradient encoding that enables TEEs to encode the gradients and then offloading Byzantine check computations to accelerators such as GPUs. Our proposed approach provides theoretical bounds on information leakage and offers a significant speed-up over the baseline in empirical evaluation.
翻訳日:2021-05-07 13:11:40 公開日:2021-05-05
# 無線センサネットワークにおける資源管理のためのマルチエージェントQラーニングフレームワークの検討

Survey on Multi-Agent Q-Learning frameworks for resource management in wireless sensor network ( http://arxiv.org/abs/2105.02371v1 )

ライセンス: Link先を確認
Arvin Tashakori(参考訳) 本稿では,マルチエージェントQ-Learningアルゴリズムを調査し,使用するゲーム理論フレームワークを分析し,各フレームワークのアプリケーションに対処し,課題と今後の方向性を報告する。 本研究の目的は,無線センサネットワークにおける資源管理である。 第1節では,無線センサネットワークの適用について紹介した。 その後、モデルなし強化学習問題に対する古典的解法として有名なQ-Learningアルゴリズムを概説した。 第3章では,マルチエージェントシナリオのためのq-learningアルゴリズムを拡張し,その課題について論じた。 第4節では,無線センサネットワークにおける資源割り当てとタスクスケジューリングのために,研究者がこの問題に対処するために用いたゲーム理論フレームワークのセットを調査した。 最後に、著者はこの分野で興味深いオープンチャレンジをいくつか挙げた。

This report aims to survey multi-agent Q-Learning algorithms, analyze different game theory frameworks used, address each framework's applications, and report challenges and future directions. The target application for this study is resource management in the wireless sensor network. In the first section, the author provided an introduction regarding the applications of wireless sensor networks. After that, the author presented a summary of the Q-Learning algorithm, a well-known classic solution for model-free reinforcement learning problems. In the third section, the author extended the Q-Learning algorithm for multi-agent scenarios and discussed its challenges. In the fourth section, the author surveyed sets of game-theoretic frameworks that researchers used to address this problem for resource allocation and task scheduling in the wireless sensor networks. Lastly, the author mentioned some interesting open challenges in this domain.
翻訳日:2021-05-07 13:11:24 公開日:2021-05-05
# LGGNet:脳-コンピュータインタフェースのための局所グラフ表現からの学習

LGGNet: Learning from Local-Global-Graph Representations for Brain-Computer Interface ( http://arxiv.org/abs/2105.02786v1 )

ライセンス: Link先を確認
Yi Ding, Neethu Robinson, Qiuhao Zeng, Cuntai Guan(参考訳) 本稿では,脳波(EEG)から脳-コンピュータインタフェース(BCI)の局所グラフ表現を学習するために,神経学的にインスパイアされたグラフニューラルネットワークLGGを提案する。 脳波の時間的ダイナミクスを学習するために,マルチスケール1次元畳み込みカーネルとカーネルレベルの注意融合を用いた時間的畳み込み層を提案する。 脳内の認知過程の神経学的知識に触発され、脳の機能領域の異なる領域における脳活動の学習と、認知過程の複雑な関係をモデル化するための局所的およびグローバルなグラフフィルタリング層を提案する。 頑健なネスト型クロスバリデーション設定では,提案手法を利用可能なデータセットDEAP上で評価し,FBFgMDM,FBTSC,Unsup ervised Learning,DeepConvNet ,ShallowConvNet,EEGN et,TSceptionといった最先端の手法と比較した。 その結果,提案手法がこれらすべての最先端手法を上回っており,その改善度は統計的に有意 (p<0.05) であることがわかった。 ソースコードは、https://github.com/y i-ding-cs/LGGで確認できる。

In this paper, we propose LGG, a neurologically inspired graph neural network, to learn local-global-graph representations from Electroencephalograp hy (EEG) for a Brain-Computer Interface (BCI). A temporal convolutional layer with multi-scale 1D convolutional kernels and kernel-level attention fusion is proposed to learn the temporal dynamics of EEG. Inspired by neurological knowledge of cognitive processes in the brain, we propose local and global graph-filtering layers to learn the brain activities within and between different functional areas of the brain to model the complex relations among them during the cognitive processes. Under the robust nested cross-validation settings, the proposed method is evaluated on the publicly available dataset DEAP, and the classification performance is compared with state-of-the-art methods, such as FBFgMDM, FBTSC, Unsupervised learning, DeepConvNet, ShallowConvNet, EEGNet, and TSception. The results show that the proposed method outperforms all these state-of-the-art methods, and the improvements are statistically significant (p<0.05) in most cases. The source code can be found at: https://github.com/y i-ding-cs/LGG
翻訳日:2021-05-07 13:10:09 公開日:2021-05-05
# ウェアラブルを用いた深部認知疲労評価

Activity-Aware Deep Cognitive Fatigue Assessment using Wearables ( http://arxiv.org/abs/2105.02824v1 )

ライセンス: Link先を確認
Mohammad Arif Ul Alam(参考訳) 認知疲労は、新型コロナウイルス(COVID-19)が世界的なパンデミックとして出現して以来、世界的な問題となっている労働者の間でよく見られる問題である。 既存のマルチモーダルウェアラブルセンサー支援自動認知疲労モニタリングツールは、特定のグループ(ゲーマー、アスリート、建設労働者など)の分析に基づく身体的および生理的センサー(ecg、ppg、アクチグラフィ)に焦点を当てているが、活動認識は、異なる人の生理学に対する反応に異なるため、最も重要である。 本稿では,個人の行動認識を一般化し,認知的疲労推定を大幅に改善する,アクティビティ対応リカレントニューラルネットワーク(\emph{AcRoNN})を提案する。 提案手法を5個体のリアルタイム収集データセットと27個体の公開データセットを用いて,最先端手法と比較した。 19%改善。

Cognitive fatigue has been a common problem among workers which has become an increasing global problem since the emergence of COVID-19 as a global pandemic. While existing multi-modal wearable sensors-aided automatic cognitive fatigue monitoring tools have focused on physical and physiological sensors (ECG, PPG, Actigraphy) analytic on specific group of people (say gamers, athletes, construction workers), activity-awareness is utmost importance due to its different responses on physiology in different person. In this paper, we propose a novel framework, Activity-Aware Recurrent Neural Network (\emph{AcRoNN}), that can generalize individual activity recognition and improve cognitive fatigue estimation significantly. We evaluate and compare our proposed method with state-of-art methods using one real-time collected dataset from 5 individuals and another publicly available dataset from 27 individuals achieving max. 19% improvement.
翻訳日:2021-05-07 13:09:48 公開日:2021-05-05
# (参考訳) CDRに基づく軌道:ピンポンハンドオーバのフィルタリング [全文訳有]

CDR Based Trajectories: Tentative for Filtering Ping-pong Handover ( http://arxiv.org/abs/2105.00526v2 )

ライセンス: CC BY 4.0
Joonas L\~omps, Artjom Lind, Amnir Hadachi(参考訳) コールディテール・レコード(cdr)とカバレッジエリアのロケーションが組み合わさって、オペレーターは顧客の位置や移動に関する驚くほどの量の情報を提供する。 アンテナカバー領域の非静的かつ重なり合う性質のため、ハンドオーバルールにより、地理的に近接した携帯電話が異なるアンテナに接続される状況が一般的である。 これにより,CDRデータから抽出した軌跡のピンポンハンドオーバ現象が,移動パターンの理解において誤解を招く可能性がある。 正確な軌道を再構築するには、データセットに現れるハンドオーバの数を減らす必要がある。 本文は,CDRに基づく軌道からピンポンハンドオーバをフィルタリングする新しい手法を提案する。 主に,CDRデータから抽出した被覆領域と再構成軌道の異なる特徴とパラメータを活かしたアンカーモデルに基づく。 この手法を用いることで,トラジェクタのピンポンハンドオーバノイズを著しく低減できるため,顧客の移動パターンをより正確に再構成できる。

Call Detail Records (CDRs) coupled with the coverage area locations provide the operator with an incredible amount of information on its customers' whereabouts and movement. Due to the non-static and overlapping nature of the antenna coverage area there commonly exist situations where cellphones geographically close to each other can be connected to different antennas due to handover rule - the operator hands over a certain cellphone to another antenna to spread the load between antennas. Hence, this aspect introduces a ping-pong handover phenomena in the trajectories extracted from the CDR data which can be misleading in understanding the mobility pattern. To reconstruct accurate trajectories it is a must to reduce the number of those handovers appearing in the dataset. This letter presents a novel approach for filtering ping-pong handovers from CDR based trajectories. Primarily, the approach is based on anchors model utilizing different features and parameters extracted from the coverage areas and reconstructed trajectories mined from the CDR data. Using this methodology we can significantly reduce the ping-pong handover noise in the trajectories, which gives a more accurate reconstruction of the customers' movement pattern.
翻訳日:2021-05-07 10:55:54 公開日:2021-05-05
# (参考訳) OR-Net:部分観測によるデータ補完のポイントワイズ関係推論 [全文訳有]

OR-Net: Pointwise Relational Inference for Data Completion under Partial Observation ( http://arxiv.org/abs/2105.00397v2 )

ライセンス: CC BY 4.0
Qianyu Feng, Linchao Zhu, Bang Zhang, Pan Pan, Yi Yang(参考訳) 現代のデータ駆動手法は通常、適用性を制限する大規模なデータセットを全面的に監視する。 しかし、測定誤差やデータ取得問題などの制約のある実際のシステムでは、通常は不完全なデータを取得する。 データ補完は注目されているが、基礎となるデータパターンと相対性理論はまだ未開発である。 現在、潜在変数モデルのファミリーは、境界分布を適合させることで、観測変数よりも深い潜在変数を学習することができる。 私たちが知る限り、現在の方法では、部分的観測下でのデータ相対性理論を知覚できない。 不完全データをモデル化することを目的として、この研究は不完全データを埋めるために関係推論を使用する。 具体的には, 部分的観測値と潜在変数上の実合同分布を近似し, 対象を推定することを期待する。 そこで,本研究では,全相関ネットワーク (or-net) を提案する。一方,部分的観測における文脈点間に内的関係を構築し,他方では観測データ点との相互関係を学習することにより,見当たらない対象を推定する。 さらに, 物理構造が観察可能であるか否かに関わらず, 提案手法を様々なシナリオに一般化できることが判明した。 提案するor-netは,関数回帰,mnistおよびcelebaデータセットの画像補完,および観測されたポーズに条件付けられた逐次運動生成など,様々なモダリティのデータ補完タスクに対して十分に一般化できることが実証された。

Contemporary data-driven methods are typically fed with full supervision on large-scale datasets which limits their applicability. However, in the actual systems with limitations such as measurement error and data acquisition problems, people usually obtain incomplete data. Although data completion has attracted wide attention, the underlying data pattern and relativity are still under-developed. Currently, the family of latent variable models allows learning deep latent variables over observed variables by fitting the marginal distribution. As far as we know, current methods fail to perceive the data relativity under partial observation. Aiming at modeling incomplete data, this work uses relational inference to fill in the incomplete data. Specifically, we expect to approximate the real joint distribution over the partial observation and latent variables, thus infer the unseen targets respectively. To this end, we propose Omni-Relational Network (OR-Net) to model the pointwise relativity in two aspects: (i) On one hand, the inner relationship is built among the context points in the partial observation; (ii) On the other hand, the unseen targets are inferred by learning the cross-relationship with the observed data points. It is further discovered that the proposed method can be generalized to different scenarios regardless of whether the physical structure can be observed or not. It is demonstrated that the proposed OR-Net can be well generalized for data completion tasks of various modalities, including function regression, image completion on MNIST and CelebA datasets, and also sequential motion generation conditioned on the observed poses.
翻訳日:2021-05-07 01:56:25 公開日:2021-05-05
# (参考訳) MFCCを用いた楽器認識のためのディープニューラルネットワーク

Deep Neural Network for Musical Instrument Recognition using MFCCs ( http://arxiv.org/abs/2105.00933v2 )

ライセンス: CC BY 4.0
Saranga Kingkor Mahanta, Abdullah Faiz Ur Rahman Khilji, Partha Pakray(参考訳) 効率的な自動音楽分類の課題は重要であり、音楽分野におけるAIの様々な高度な応用の基礎を形成する。 楽器認識は、その音響によって楽器の識別を行うタスクである。 音の振動」とも呼ばれるこの音は、楽器のクラスに合わせてモデルによって活用される。 本稿では,20種類の楽器の分類を訓練した人工ニューラルネットワーク(ann)モデルを用いた。 ここでは、音声データのメル周波数ケプストラム係数(MFCC)のみを用いる。 提案するモデルトレインは, ロンドン・フィルハーモニック・オーケストラ・データセットで, 4つの家系に属する20種類の楽器を含む。 木管、金管、打楽器、弦。 実験結果に基づいて,本モデルは同じ精度で得られた。

The task of efficient automatic music classification is of vital importance and forms the basis for various advanced applications of AI in the musical domain. Musical instrument recognition is the task of instrument identification by virtue of its audio. This audio, also termed as the sound vibrations are leveraged by the model to match with the instrument classes. In this paper, we use an artificial neural network (ANN) model that was trained to perform classification on twenty different classes of musical instruments. Here we use use only the mel-frequency cepstral coefficients (MFCCs) of the audio data. Our proposed model trains on the full London philharmonic orchestra dataset which contains twenty classes of instruments belonging to the four families viz. woodwinds, brass, percussion, and strings. Based on experimental results our model achieves state-of-the-art accuracy on the same.
翻訳日:2021-05-07 01:40:45 公開日:2021-05-05
# (参考訳) 広く適用可能なターゲットデータサンプル欠落攻撃 [全文訳有]

Broadly Applicable Targeted Data Sample Omission Attacks ( http://arxiv.org/abs/2105.01560v2 )

ライセンス: CC BY 4.0
Guy Barash, Eitan Farchi, Sarit Kraus, Onn Shehory(参考訳) 学習機構において,新規なクリーンラベル標的中毒攻撃を提案する。 古典的な中毒攻撃は、通常、追加、修正、削除によってデータを破損させるが、我々の攻撃はデータ消去のみに焦点を当てる。 我々の攻撃は、そのサンプルを操作することなく、ターゲットとする1つのテストサンプルを誤って分類する。 我々は、MNIST、IMDB、CIFARといった複数のデータセットを用いて、深層ニューラルネットワーク、SVM、決定木を含む幅広い学習者に対する省略攻撃の有効性を示す。 データの欠落に対する私たちの攻撃の焦点は、実装と分析がより簡単であるため、単に有益である。 攻撃予算が低い場合、攻撃の成功率は80%以上であり、場合によってはホワイトボックス学習において100%であることを示す。 ブラックボックス学習の基準ベンチマークより体系的に上である。 ホワイトボックスとブラックボックスの両方の場合、特定の学習者やデータセットに関わらず、モデルの精度の変化は無視できる。 また,提案手法は,データセットのサイズと分布を考慮し,単純化されたPAC学習者に対して高い確率で省略攻撃を成功させる,単純化されたPAC学習フレームワークにおいて理論的に証明する。

We introduce a novel clean-label targeted poisoning attack on learning mechanisms. While classical poisoning attacks typically corrupt data via addition, modification and omission, our attack focuses on data omission only. Our attack misclassifies a single, targeted test sample of choice, without manipulating that sample. We demonstrate the effectiveness of omission attacks against a large variety of learners including deep neural networks, SVM and decision trees, using several datasets including MNIST, IMDB and CIFAR. The focus of our attack on data omission only is beneficial as well, as it is simpler to implement and analyze. We show that, with a low attack budget, our attack's success rate is above 80%, and in some cases 100%, for white-box learning. It is systematically above the reference benchmark for black-box learning. For both white-box and black-box cases, changes in model accuracy are negligible, regardless of the specific learner and dataset. We also prove theoretically in a simplified agnostic PAC learning framework that, subject to dataset size and distribution, our omission attack succeeds with high probability against any successful simplified agnostic PAC learner.
翻訳日:2021-05-07 01:39:56 公開日:2021-05-05
# (参考訳) マラリア管理のためのデータ効率の良い強化学習 [全文訳有]

Data-Efficient Reinforcement Learning for Malaria Control ( http://arxiv.org/abs/2105.01620v2 )

ライセンス: CC BY 4.0
Lixin Zou, Long Xia, Linfang Hou, Xiangyu Zhao, and Dawei Yin(参考訳) 特に、マラリア対策や治療勧告など、人々の日常生活に重大な影響を及ぼす問題に対して、コストに敏感なタスクの下での連続的な意思決定は困難である。 政策立案者が直面する主な課題は、いくつかの試行で複雑な環境と対話することで、スクラッチからポリシーを学ぶことである。 この研究は、Variance-Bonus Monte Carlo Tree Search~(VB-MCTS)と呼ばれる実用的でデータ効率のよいポリシー学習手法を導入し、ごくわずかなデータでコピーでき、ほんの数回の試行でスクラッチから学習しやすくする。 具体的には、モデルに基づく強化学習手法である。 モデルバイアスを避けるために、ガウス過程~(GP)回帰を適用し、遷移を明示的に推定する。 GP世界モデルを用いて、世界の不確実性を測定するために分散結合報酬を提案する。 MCTSで計画に報酬を加えることで、より効率的で効果的な探索が可能になる。 さらに、導出多項式のサンプル複雑性はvb-mctsがサンプル効率が高いことを示している。 最後に、競争力のある世界レベルのRL競技における卓越したパフォーマンスと広範な実験結果により、挑戦的なマラリア対策の最先端に対する優位性を検証する。

Sequential decision-making under cost-sensitive tasks is prohibitively daunting, especially for the problem that has a significant impact on people's daily lives, such as malaria control, treatment recommendation. The main challenge faced by policymakers is to learn a policy from scratch by interacting with a complex environment in a few trials. This work introduces a practical, data-efficient policy learning method, named Variance-Bonus Monte Carlo Tree Search~(VB-MCTS), which can copy with very little data and facilitate learning from scratch in only a few trials. Specifically, the solution is a model-based reinforcement learning method. To avoid model bias, we apply Gaussian Process~(GP) regression to estimate the transitions explicitly. With the GP world model, we propose a variance-bonus reward to measure the uncertainty about the world. Adding the reward to the planning with MCTS can result in more efficient and effective exploration. Furthermore, the derived polynomial sample complexity indicates that VB-MCTS is sample efficient. Finally, outstanding performance on a competitive world-level RL competition and extensive experimental results verify its advantage over the state-of-the-art on the challenging malaria control task.
翻訳日:2021-05-07 01:25:07 公開日:2021-05-05
# (参考訳) 離散euler-lagrange残差最小化による構造的力学モデルの訓練 [全文訳有]

Training Structured Mechanical Models by Minimizing Discrete Euler-Lagrange Residual ( http://arxiv.org/abs/2105.01811v1 )

ライセンス: CC BY-SA 4.0
Kunal Menda, Jayesh K. Gupta, Zachary Manchester and Mykel J. Kochenderfer(参考訳) 意思決定と制御のためのモデルベースのパラダイムは、ロボット工学においてユビキタスになりつつある。 彼らはデータからシステムのモデルを効率的に学習する能力に頼っている。 構造化力学モデル (Structured Mechanical Models, SMM) は、予測された加速度と観測された加速度の誤差を最小化し、データに適合する機械系のデータ効率のブラックボックスパラメータ化である。 本研究では,離散オイラー・ラグランジュ残差を最小化することにより,SMMをデータに適合させる手法を提案する。 提案手法では,無音と減衰した二重振り子による連角時系列にモデルを適用し,観測ノイズを伴うデータに適合する学習モデルの品質について検討した。 実験の結果,従来のSMMの適合方式よりも精度の高いモデルが得られた。 提案手法がより適切な方法論であるユースケースを特定する。 実験を再現するためのソースコードはhttps://github.com/s isl/delsmmで入手できる。

Model-based paradigms for decision-making and control are becoming ubiquitous in robotics. They rely on the ability to efficiently learn a model of the system from data. Structured Mechanical Models (SMMs) are a data-efficient black-box parameterization of mechanical systems, typically fit to data by minimizing the error between predicted and observed accelerations or next states. In this work, we propose a methodology for fitting SMMs to data by minimizing the discrete Euler-Lagrange residual. To study our methodology, we fit models to joint-angle time-series from undamped and damped double-pendulums, studying the quality of learned models fit to data with and without observation noise. Experiments show that our methodology learns models that are better in accuracy to those of the conventional schemes for fitting SMMs. We identify use cases in which our method is a more appropriate methodology. Source code for reproducing the experiments is available at https://github.com/s isl/delsmm.
翻訳日:2021-05-06 22:04:36 公開日:2021-05-05
# (参考訳) ビデオデータにおけるリアルタイム顔マスク検出 [全文訳有]

Real-time Face Mask Detection in Video Data ( http://arxiv.org/abs/2105.01816v1 )

ライセンス: CC BY 4.0
Yuchen Ding, Zichen Li, David Yastremsky(参考訳) 現在進行中の新型コロナウイルス(covid-19)パンデミックへの対応として,リアルタイムビデオストリームから正確かつ誤ったマスク着用を識別可能な,堅牢なディープラーニングパイプラインを提案する。 この目標を達成するために,我々は2つの異なるアプローチを考案し,その性能と実行時の効率を評価した。 最初のアプローチでは、トレーニング済みの顔検出器と、大規模な合成データセットでトレーニングされたマスク付き画像分類器を組み合わせる。 第2のアプローチでは、最先端のオブジェクト検出ネットワークを使用して、ラベル付き現実画像の小さなセットに微調整された、1ショットで顔のローカライズと分類を行う。 最初のパイプラインは、合成データセット上で99.97%の精度を達成し、6fpsをビデオデータ上で動作させた。 第2のパイプラインは、実世界の画像では89%のmAP(0.5)を達成し、ビデオデータでは52FPSを維持できた。 我々は、バウンディングボックスラベルを持つ大きなデータセットがキュレーション可能である場合、このタスクは、推論速度が優れ、主要な評価指標で十分なパフォーマンスがあるため、yoloやssdのようなオブジェクト検出アーキテクチャを使用するのが最適であると結論づけた。

In response to the ongoing COVID-19 pandemic, we present a robust deep learning pipeline that is capable of identifying correct and incorrect mask-wearing from real-time video streams. To accomplish this goal, we devised two separate approaches and evaluated their performance and run-time efficiency. The first approach leverages a pre-trained face detector in combination with a mask-wearing image classifier trained on a large-scale synthetic dataset. The second approach utilizes a state-of-the-art object detection network to perform localization and classification of faces in one shot, fine-tuned on a small set of labeled real-world images. The first pipeline achieved a test accuracy of 99.97% on the synthetic dataset and maintained 6 FPS running on video data. The second pipeline achieved a mAP(0.5) of 89% on real-world images while sustaining 52 FPS on video data. We have concluded that if a larger dataset with bounding-box labels can be curated, this task is best suited using object detection architectures such as YOLO and SSD due to their superior inference speed and satisfactory performance on key evaluation metrics.
翻訳日:2021-05-06 21:55:41 公開日:2021-05-05
# (参考訳) ExcavatorCovid:COVID -19の時間・因果分析のためのテキストコーパスからのイベントと関係抽出 [全文訳有]

ExcavatorCovid: Extracting Events and Relations from Text Corpora for Temporal and Causal Analysis for COVID-19 ( http://arxiv.org/abs/2105.01819v1 )

ライセンス: CC BY 4.0
Bonan Min, Benjamin Rozonoyer, Haoling Qiu, Alexander Zamanian, Jessica MacBride(参考訳) 新型コロナウイルスのパンデミックの影響を緩和する政策立案者からのタイムリーな対応は、イベントやその原因、影響の包括的把握に依存している。 これらの事象は、圧倒的なスピードと規模で報告される。 本稿では,オープンソーステキスト文書(ニュースや学術出版物など)を取り込み,COVID19関連事象とそれらの関係を抽出し,時間・因果解析グラフ(TCAG)を構築する機械読取システムであるExcavatorCovidを提案する。 excavatorは政府機関が情報過負荷を軽減し、政治的・経済的な決定やパンデミックに関連する出来事の下流効果を理解し、新型コロナウイルスの影響を軽減するためのタイムリーな対応を支援する。 Excavatorが新型コロナウイルス(COVID-19)のパンデミックを乗り越えることを期待している。アナリストと意思決定者は、Excavatorによって将来複雑な問題をよりよく理解し、解決する権限を与えられる。 TCAGの可視化はhttp://afrl402.bbn.c om:5050/index.htmlで見ることができる。 デモビデオもhttps://vimeo.com/52 8619007で公開しました。

Timely responses from policy makers to mitigate the impact of the COVID-19 pandemic rely on a comprehensive grasp of events, their causes, and their impacts. These events are reported at such a speed and scale as to be overwhelming. In this paper, we present ExcavatorCovid, a machine reading system that ingests open-source text documents (e.g., news and scientific publications), extracts COVID19 related events and relations between them, and builds a Temporal and Causal Analysis Graph (TCAG). Excavator will help government agencies alleviate the information overload, understand likely downstream effects of political and economic decisions and events related to the pandemic, and respond in a timely manner to mitigate the impact of COVID-19. We expect the utility of Excavator to outlive the COVID-19 pandemic: analysts and decision makers will be empowered by Excavator to better understand and solve complex problems in the future. An interactive TCAG visualization is available at http://afrl402.bbn.c om:5050/index.html. We also released a demonstration video at https://vimeo.com/52 8619007.
翻訳日:2021-05-06 21:44:55 公開日:2021-05-05
# (参考訳) TransHash: 効率的な画像検索のためのトランスフォーマーベースのハミングハッシュ [全文訳有]

TransHash: Transformer-based Hamming Hashing for Efficient Image Retrieval ( http://arxiv.org/abs/2105.01823v1 )

ライセンス: CC BY-SA 4.0
Yongbiao Chen (1), Sheng Zhang (2), Fangxin Liu (1), Zhigang Chang (1), Mang Ye (3), Zhengwei Qi (1) ((1) Shanghai Jiao Tong University, (2) University of Southern California, (3) Wuhan University)(参考訳) ディープハミングハッシュは大規模画像検索の近距離探索で人気が高まっている。 これまで、画像検索コミュニティのための深いハッシュは、例えば畳み込みニューラルネットワークアーキテクチャによって支配されていた。 \texttt{Resnet}\cite{he2016deep}。 本稿では,視覚トランスフォーマーの最近の進歩に触発されて,ディープハッシュ学習のための純粋トランスフォーマーフレームワークである \textbf{transhash} を提案する。 具体的には,(1) <textit{Vision Transformer} (ViT) に基づいて,画像特徴抽出のためのシアメーゼ視覚変換器のバックボーンを設計する。 細かな特徴を学ぶために、トランスフォーマーの上にデュアルストリーム機能学習を革新し、差別的なグローバル機能とローカル機能を学ぶ。 さらに,動的に構築された類似度行列を用いたベイズ学習方式を採用し,コンパクトなバイナリハッシュ符号を学習する。 私たちの知る限りでは、畳み込みニューラルネットワーク(\textit{CNNs})を使わずに深層学習問題に取り組む最初の試みである。 我々は,広く研究されている3つのデータセット, \textbf{CIFAR-10}, \textbf{NUSWIDE}, \textbf{IMAGENET}について包括的な実験を行った。 この実験は、既存の最先端のディープハッシュ手法に対する我々の優位性を証明した。 具体的には、3つの公開データセットでそれぞれ異なるハッシュビット長に対する平均 \textit{mAP} で 8.2\%, 2.6\%, 12.7\% のパフォーマンス向上を達成する。

Deep hamming hashing has gained growing popularity in approximate nearest neighbour search for large-scale image retrieval. Until now, the deep hashing for the image retrieval community has been dominated by convolutional neural network architectures, e.g. \texttt{Resnet}\cite{he2016deep}. In this paper, inspired by the recent advancements of vision transformers, we present \textbf{Transhash}, a pure transformer-based framework for deep hashing learning. Concretely, our framework is composed of two major modules: (1) Based on \textit{Vision Transformer} (ViT), we design a siamese vision transformer backbone for image feature extraction. To learn fine-grained features, we innovate a dual-stream feature learning on top of the transformer to learn discriminative global and local features. (2) Besides, we adopt a Bayesian learning scheme with a dynamically constructed similarity matrix to learn compact binary hash codes. The entire framework is jointly trained in an end-to-end manner.~To the best of our knowledge, this is the first work to tackle deep hashing learning problems without convolutional neural networks (\textit{CNNs}). We perform comprehensive experiments on three widely-studied datasets: \textbf{CIFAR-10}, \textbf{NUSWIDE} and \textbf{IMAGENET}. The experiments have evidenced our superiority against the existing state-of-the-art deep hashing methods. Specifically, we achieve 8.2\%, 2.6\%, 12.7\% performance gains in terms of average \textit{mAP} for different hash bit lengths on three public datasets, respectively.
翻訳日:2021-05-06 21:33:45 公開日:2021-05-05
# (参考訳) 物理インフォーメーションニューラルネットワークによる流体力学のサーロゲートモデリングの改善 [全文訳有]

Improved Surrogate Modeling of Fluid Dynamics with Physics-Informed Neural Networks ( http://arxiv.org/abs/2105.01838v1 )

ライセンス: CC BY 4.0
Jian Cheng Wong, Chinchun Ooi, Pao-Hsiung Chiu, My Ha Dao(参考訳) 物理学に変形したニューラルネットワーク(pinns)は、多くの複雑なエンジニアリングシステムのために、基本的な制御方程式を含む物理ベースのドメイン知識をニューラルネットワークモデルに組み込む方法として大きな期待を示している。 境界条件が不定義になりうる逆問題や、典型的な教師付き学習アプローチが失敗するようなデータ欠如のシナリオにおいて、特に効果的である。 Here, we further explore the use of this modeling methodology to surrogate modeling of a fluid dynamical system, and demonstrate additional undiscussed and interesting advantages of such a modeling methodology over conventional data-driven approaches: 1) improving the model's predictive performance even with incomplete description of the underlying physics; 2) improving the robustness of the model to noise in the dataset; 3) reduced effort to convergence during optimization for a new, previously unseen scenario by transfer optimization of a pre-existing model. したがって、物理に基づく正規化項を組み込むことで、データセットがノイズの多い場合のテスト誤差の桁違いの改善や、部分物理学のみを含む場合の2~3倍の改善など、多くの実体的な方法で同等のデータ駆動サロゲートモデルを大幅に改善できることがわかった。 さらに,このようなサロゲートモデルシナリオで使用する新しい転送最適化手法を提案するとともに,収束までの速度が約3倍向上し,新たなシナリオのトレーニングのための従来のxavier初期化よりも予測性能が桁違いに向上することを示す。

Physics-Informed Neural Networks (PINNs) have recently shown great promise as a way of incorporating physics-based domain knowledge, including fundamental governing equations, into neural network models for many complex engineering systems. They have been particularly effective in the area of inverse problems, where boundary conditions may be ill-defined, and data-absent scenarios, where typical supervised learning approaches will fail. Here, we further explore the use of this modeling methodology to surrogate modeling of a fluid dynamical system, and demonstrate additional undiscussed and interesting advantages of such a modeling methodology over conventional data-driven approaches: 1) improving the model's predictive performance even with incomplete description of the underlying physics; 2) improving the robustness of the model to noise in the dataset; 3) reduced effort to convergence during optimization for a new, previously unseen scenario by transfer optimization of a pre-existing model. Hence, we noticed the inclusion of a physics-based regularization term can substantially improve the equivalent data-driven surrogate model in many substantive ways, including an order of magnitude improvement in test error when the dataset is very noisy, and a 2-3x improvement when only partial physics is included. In addition, we propose a novel transfer optimization scheme for use in such surrogate modeling scenarios and demonstrate an approximately 3x improvement in speed to convergence and an order of magnitude improvement in predictive performance over conventional Xavier initialization for training of new scenarios.
翻訳日:2021-05-06 21:16:50 公開日:2021-05-05
# (参考訳) CUAB: 胸部X線画像解析を強化した畳み込み不確実性注意ブロック [全文訳有]

CUAB: Convolutional Uncertainty Attention Block Enhanced the Chest X-ray Image Analysis ( http://arxiv.org/abs/2105.01840v1 )

ライセンス: CC BY 4.0
Chi-Shiang Wang, Fang-Yi Su, Tsung-Lu Michael Lee, Yi-Shan Tsai, Jung-Hsien Chiang(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は、医用画像解析、物体検出、画像分割など、さまざまな画像認識アプリケーションにうまく実装されている。 多くの研究と応用がCNNアルゴリズムとモデルの性能改善に取り組んでいる。 CNNの性能向上を目的とした戦略は,(1)より深いネットワークアーキテクチャ,(2)アーキテクチャの自動探索,(3)進化的注意ブロックの3つの主要なアプローチに分類することができる。 アプローチ(1)と(2)とは異なり、畳み込み注意ブロックアプローチは低コストでより柔軟である。 より効率的な特徴を抽出することで、CNNのパフォーマンスを向上させる。 しかし、既存の注意ブロックは重要な機能の拡張に焦点を当てており、不確実性情報の潜在的な特徴が失われている。 テスト時間拡張とテスト時間ドロップアウトのアプローチに触発されて,不確実性情報を利用してcnnベースのモデルを改善する新しい畳み込み不確実性注意ブロック(cuab)を開発した。 提案モジュールは,コンピュータビジョンタスクにおける特徴マップ上の不確実領域から潜在的な情報を検出する。 これはcnnモデルにおける畳み込みブロックの任意の位置に適用できる柔軟な機能的注意ブロックである。 医用画像分割作業において,CUABをResNetとResNeXtの著名なバックボーンモデルを用いて評価した。 cuabは肺炎の73%, 肺炎の84%, 気胸のセグメンテーションでは84%のdiceスコアを得た。 その結果,CUABは不確実性情報を有効利用し,モデル性能を向上させることができた。

In recent years, convolutional neural networks (CNNs) have been successfully implemented to various image recognition applications, such as medical image analysis, object detection, and image segmentation. Many studies and applications have been working on improving the performance of CNN algorithms and models. The strategies that aim to improve the performance of CNNs can be grouped into three major approaches: (1) deeper and wider network architecture, (2) automatic architecture search, and (3) convolutional attention block. Unlike approaches (1) and (2), the convolutional attention block approach is more flexible with lower cost. It enhances the CNN performance by extracting more efficient features. However, the existing attention blocks focus on enhancing the significant features, which lose some potential features in the uncertainty information. Inspired by the test time augmentation and test-time dropout approaches, we developed a novel convolutional uncertainty attention block (CUAB) that can leverage the uncertainty information to improve CNN-based models. The proposed module discovers potential information from the uncertain regions on feature maps in computer vision tasks. It is a flexible functional attention block that can be applied to any position in the convolutional block in CNN models. We evaluated the CUAB with notable backbone models, ResNet and ResNeXt, on a medical image segmentation task. The CUAB achieved a dice score of 73% and 84% in pneumonia and pneumothorax segmentation, respectively, thereby outperforming the original model and other notable attention approaches. The results demonstrated that the CUAB can efficiently utilize the uncertainty information to improve the model performance.
翻訳日:2021-05-06 21:07:24 公開日:2021-05-05
# (参考訳) 前立腺癌適応放射線治療のためのマルチタスク学習による関節登録と分節化 [全文訳有]

Joint Registration and Segmentation via Multi-Task Learning for Adaptive Radiotherapy of Prostate Cancer ( http://arxiv.org/abs/2105.01844v1 )

ライセンス: CC BY 4.0
Mohamed S. Elmahdy, Laurens Beljaards, Sahar Yousefi, Hessam Sokooti, Fons Verbeek, U. A. van der Heide, and Marius Staring(参考訳) 医用画像の登録とセグメンテーションは、医用画像分析において最も頻繁な作業である。 これらのタスクは相補的で相関性があるので、共同でそれらを同時に適用することは有益である。 本稿では,マルチタスク学習(mtl)による統合問題として登録とセグメンテーションを定式化し,それらの課題の強みを活用し,有益な情報共有による弱みを緩和する。 我々は、これらのタスクを損失レベルだけでなく、アーキテクチャレベルでもマージすることを提案します。 本手法は前立腺癌に対する適応的画像誘導放射線治療の文脈において検討され,CT画像とそれに対応する輪郭の計画と追跡を行った。 この研究には、異なる製造業者や研究所のデータセットが2つ含まれている。 第1データセットはトレーニング(12例)と検証(6例)に分けられ,方法論の最適化と検証に用いられ,第2データセット(14例)は独立したテストセットとして使用された。 本研究では,異なるネットワークアーキテクチャから自動生成した輪郭の品質と損失重み付け手法を定量的に比較した。 さらに, 生成した変形ベクトル場(dvf)の品質評価を行った。 MTLアルゴリズムはSTL(Single-Task Learning)アルゴリズムよりも優れており、独立したテストセット上でより優れた一般化を実現する。 最良のアルゴリズムは、それぞれ前立腺、精巣、膀胱、直腸の検証セットにおいて、1.06 pm 0.3$ mm、1.27 pm 0.4$ mm、$0.91 pm 0.4$ mm、および1.76 pm 0.8$ mmの平均表面距離を達成した。 提案手法の高精度化と高速推論速度の併用により, 適応的放射線治療のためのフォローアップスキャンの自動再構成が期待できる。

Medical image registration and segmentation are two of the most frequent tasks in medical image analysis. As these tasks are complementary and correlated, it would be beneficial to apply them simultaneously in a joint manner. In this paper, we formulate registration and segmentation as a joint problem via a Multi-Task Learning (MTL) setting, allowing these tasks to leverage their strengths and mitigate their weaknesses through the sharing of beneficial information. We propose to merge these tasks not only on the loss level, but on the architectural level as well. We studied this approach in the context of adaptive image-guided radiotherapy for prostate cancer, where planning and follow-up CT images as well as their corresponding contours are available for training. The study involves two datasets from different manufacturers and institutes. The first dataset was divided into training (12 patients) and validation (6 patients), and was used to optimize and validate the methodology, while the second dataset (14 patients) was used as an independent test set. We carried out an extensive quantitative comparison between the quality of the automatically generated contours from different network architectures as well as loss weighting methods. Moreover, we evaluated the quality of the generated deformation vector field (DVF). We show that MTL algorithms outperform their Single-Task Learning (STL) counterparts and achieve better generalization on the independent test set. The best algorithm achieved a mean surface distance of $1.06 \pm 0.3$ mm, $1.27 \pm 0.4$ mm, $0.91 \pm 0.4$ mm, and $1.76 \pm 0.8$ mm on the validation set for the prostate, seminal vesicles, bladder, and rectum, respectively. The high accuracy of the proposed method combined with the fast inference speed, makes it a promising method for automatic re-contouring of follow-up scans for adaptive radiotherapy.
翻訳日:2021-05-06 20:51:40 公開日:2021-05-05
# (参考訳) DNNのサンプル複雑度推定に関する理論的実証的アプローチ [全文訳有]

A Theoretical-Empirica l Approach to Estimating Sample Complexity of DNNs ( http://arxiv.org/abs/2105.01867v1 )

ライセンス: CC0 1.0
Devansh Bisla, Apoorva Nandini Saridena, Anna Choromanska(参考訳) 本稿では,深層ニューラルネットワーク(dnn)のトレーニングデータ量と一般化誤差の関係について考察する。 統計学習における既存の技術では、VC次元のようなキャパシティ測度を計算し、この誤差を確実に拘束する必要がある。 しかし、これらの対策をDNNにどのように拡張するかは定かではないため、既存の分析は単純なニューラルネットワークに適用できる。 さらに、多くの理論的誤差境界は経験的に検証できない。 我々は、ディープネットワークに保持され、到達不能な容量尺度に依存しない一般化誤差の推定を導出する。 i) ネットワークはゼロトレーニングエラーを達成し,ii) テストポイントにおける誤差が特徴空間におけるその点と最も近いトレーニングポイントとの間の距離に比例する確率と,それが飽和する極大距離(半径と呼ぶ)に比例する確率である。 これらの仮定に基づいてDNNの一般化誤差を推定する。 得られた推定値は o(1/(\delta n^{1/d}) でスケールされ、ここで n はトレーニングデータのサイズであり、ネットワーク (d) と前述の半径 (\delta) によって知覚されるデータの有効次元である2つの量でパラメータ化される。 ベンチマークデータセットと現実的なモデルを用いて,複数の学習タスクにおける誤差の挙動を実験的に求めた。 トレーニングデータ要件の見積は、自動運転などの安全上重要なアプリケーションの開発に不可欠である。 さらに、トレーニングデータの収集とアノテートには、膨大な財務的、計算的、人的リソースが必要です。 私たちの経験的見積もりは資源を効率的に割り当てるのに役立ちます。

This paper focuses on understanding how the generalization error scales with the amount of the training data for deep neural networks (DNNs). Existing techniques in statistical learning require computation of capacity measures, such as VC dimension, to provably bound this error. It is however unclear how to extend these measures to DNNs and therefore the existing analyses are applicable to simple neural networks, which are not used in practice, e.g., linear or shallow ones or otherwise multi-layer perceptrons. Moreover, many theoretical error bounds are not empirically verifiable. We derive estimates of the generalization error that hold for deep networks and do not rely on unattainable capacity measures. The enabling technique in our approach hinges on two major assumptions: i) the network achieves zero training error, ii) the probability of making an error on a test point is proportional to the distance between this point and its nearest training point in the feature space and at a certain maximal distance (that we call radius) it saturates. Based on these assumptions we estimate the generalization error of DNNs. The obtained estimate scales as O(1/(\delta N^{1/d})), where N is the size of the training data and is parameterized by two quantities, the effective dimensionality of the data as perceived by the network (d) and the aforementioned radius (\delta), both of which we find empirically. We show that our estimates match with the experimentally obtained behavior of the error on multiple learning tasks using benchmark data-sets and realistic models. Estimating training data requirements is essential for deployment of safety critical applications such as autonomous driving etc. Furthermore, collecting and annotating training data requires a huge amount of financial, computational and human resources. Our empirical estimates will help to efficiently allocate resources.
翻訳日:2021-05-06 20:25:14 公開日:2021-05-05
# (参考訳) 滑らかな非線形構造を持つ問題に対する核ノルム系行列完成の最適性について

On the Optimality of Nuclear-norm-based Matrix Completion for Problems with Smooth Non-linear Structure ( http://arxiv.org/abs/2105.01874v1 )

ライセンス: CC BY 4.0
Yunhua Xiang, Tianyu Zhang, Xu Wang, Ali Shojaie, Noah Simon(参考訳) もともとは、低階、あるいは概略低階行列の欠落エントリを暗示するために開発された行列完全性は、ランク制約によって課されるような基底行列の低次元線型構造を仮定する理由がない多くの問題において広く有効であることが証明されている。 本書では,この行動に関する理論的直観を定めている。 必ずしもローランクではなく、低次元の非線形多様体に属する行列を考える。 核-ノルムペナリゼーションは、観測が完全にランダムに欠落している場合にも、これらの行列を回復するのに有効であることが示されている。 特に、行列内の行数、列数、および観察された成分の関数として収束率の上限を与えるとともに、非線型埋め込みの滑らかさと次元を与える。 さらに、ミニマックス下限を与える: この下限は、我々の上限(対数係数まで)に一致し、核-ノルムペナリゼーションが(対数項まで)これらの問題に最適なミニマックスレートであることを示している。

Originally developed for imputing missing entries in low rank, or approximately low rank matrices, matrix completion has proven widely effective in many problems where there is no reason to assume low-dimensional linear structure in the underlying matrix, as would be imposed by rank constraints. In this manuscript, we build some theoretical intuition for this behavior. We consider matrices which are not necessarily low-rank, but lie in a low-dimensional non-linear manifold. We show that nuclear-norm penalization is still effective for recovering these matrices when observations are missing completely at random. In particular, we give upper bounds on the rate of convergence as a function of the number of rows, columns, and observed entries in the matrix, as well as the smoothness and dimension of the non-linear embedding. We additionally give a minimax lower bound: This lower bound agrees with our upper bound (up to a logarithmic factor), which shows that nuclear-norm penalization is (up to log terms) minimax rate optimal for these problems.
翻訳日:2021-05-06 20:04:04 公開日:2021-05-05
# (参考訳) 変更事項:再発残余ネットワークによる薬物変動予測 [全文訳有]

Change Matters: Medication Change Prediction with Recurrent Residual Networks ( http://arxiv.org/abs/2105.01876v1 )

ライセンス: CC BY 4.0
Chaoqi Yang, Cao Xiao, Lucas Glass, Jimeng Sun(参考訳) 深層学習は、複雑な健康状態の患者に薬を推奨するなど、予測医療に革命をもたらしている。 既存のアプローチでは、現在訪問中のすべての薬の予測に重点を置いている。 より臨床的な課題は、薬物の変化を特定することである。 本稿では,薬剤変化予測のための新しい再帰的残留ネットワークであるmicronを提案する。 micronは患者の健康記録の変化を入力として入力し、隠れた薬物ベクターと薬物セットをリカレントデザインで更新することを学ぶ。 投薬ベクターは、薬の経年情報をエンコードする記憶細胞に似ている。 予測のために患者履歴全体を必要とする従来の方法とは異なり、micronは、新しい患者の特徴(例えば、最近の訪問における新しい診断)のみに基づいたシーケンシャルな更新を可能にする、残差ベースの推論を持っている。 MICRONを実際の入院および外来のデータセットで評価した。 MICRONはF1スコアのベースラインでそれぞれ3.5%と7.8%の相対的な改善を達成している。 MICRONはパラメータも少なく、トレーニング時間を1エポックあたり38.3秒に、1.5倍のスピードアップで大幅に短縮する。

Deep learning is revolutionizing predictive healthcare, including recommending medications to patients with complex health conditions. Existing approaches focus on predicting all medications for the current visit, which often overlaps with medications from previous visits. A more clinically relevant task is to identify medication changes. In this paper, we propose a new recurrent residual network, named MICRON, for medication change prediction. MICRON takes the changes in patient health records as input and learns to update a hidden medication vector and the medication set recurrently with a reconstruction design. The medication vector is like the memory cell that encodes longitudinal information of medications. Unlike traditional methods that require the entire patient history for prediction, MICRON has a residual-based inference that allows for sequential updating based only on new patient features (e.g., new diagnoses in the recent visit) more efficiently. We evaluated MICRON on real inpatient and outpatient datasets. MICRON achieves 3.5% and 7.8% relative improvements over the best baseline in F1 score, respectively. MICRON also requires fewer parameters, which significantly reduces the training time to 38.3s per epoch with 1.5x speed-up.
翻訳日:2021-05-06 20:02:59 公開日:2021-05-05
# (参考訳) MOS:大規模意味空間における分布外検出のスケールアップに向けて [全文訳有]

MOS: Towards Scaling Out-of-distribution Detection for Large Semantic Space ( http://arxiv.org/abs/2105.01879v1 )

ライセンス: CC BY 4.0
Rui Huang and Yixuan Li(参考訳) out-of-distribution (ood)インプットの検出は、現実世界に機械学習モデルを安全にデプロイするための中心的な課題である。 既存のソリューションは主に小さなデータセットで動作し、解像度が低く、クラスラベルがほとんどない(cifarなど)。 その結果,大規模画像分類タスクのOOD検出は未検討のままである。 本稿では、グループベースのOOD検出フレームワークと、新しいOODスコアリング機能であるMOSを提案することで、この重要なギャップを埋める。 私たちの重要なアイデアは、大きな意味空間を同様の概念で小さなグループに分割することで、効果的なood検出のために、in-out-distributionデータとout-of-distributionデータの間の決定境界を単純化することです。 本手法は, 従来の手法よりも高次元のクラス空間に対して大きくスケールする。 我々は、ImageNetでトレーニングされたモデルを、4つの慎重にキュレートされたOODデータセットに対して評価し、多様なセマンティックスにまたがる。 MOSは最先端の性能を確立し、平均的なFPR95を14.33%削減し、以前のベストメソッドと比較して6倍のスピードアップを実現した。

Detecting out-of-distribution (OOD) inputs is a central challenge for safely deploying machine learning models in the real world. Existing solutions are mainly driven by small datasets, with low resolution and very few class labels (e.g., CIFAR). As a result, OOD detection for large-scale image classification tasks remains largely unexplored. In this paper, we bridge this critical gap by proposing a group-based OOD detection framework, along with a novel OOD scoring function termed MOS. Our key idea is to decompose the large semantic space into smaller groups with similar concepts, which allows simplifying the decision boundaries between in- vs. out-of-distribution data for effective OOD detection. Our method scales substantially better for high-dimensional class space than previous approaches. We evaluate models trained on ImageNet against four carefully curated OOD datasets, spanning diverse semantics. MOS establishes state-of-the-art performance, reducing the average FPR95 by 14.33% while achieving 6x speedup in inference compared to the previous best method.
翻訳日:2021-05-06 19:45:31 公開日:2021-05-05
# (参考訳) DeepPlastic: 深部視覚モデルを用いたエピラグ境界プラスチック検出のための新しいアプローチ [全文訳有]

DeepPlastic: A Novel Approach to Detecting Epipelagic Bound Plastic Using Deep Visual Models ( http://arxiv.org/abs/2105.01882v1 )

ライセンス: CC BY 4.0
Gautam Tata, Sarah-Jeanne Royer, Olivier Poirion and Jay Lowe(参考訳) 正に浮力のある海洋プラスチックごみの定量化は, 世界の海中のゴミの濃度の把握や, 高濃度のごみホットスポットの同定に重要である。 現在、浮遊プラスチックを定量化する最も一般的なモニタリング方法は、マンタトロールを使用する必要がある。 マンタトラウルス(または同様の表面回収装置)を必要とする技術は、海洋プラスチックの破片の物理的除去を第1ステップとして利用し、収集されたサンプルを第2ステップとして分析する。 分析前の物理的な除去の必要性は、高いコストを伴い、地球の海洋体全体にわたってリアルタイムの海洋プラスチック監視サービスをスケーラブルに展開することを妨げる、集中的な労働を必要とする。 より良いモニタリングとサンプリング方法がなければ、環境全体に対するプラスチック汚染の全体的な影響や、特定の海洋地域における影響の詳細は未知のままである。 本研究では,海洋表層で撮影された画像を入力として利用する,高度にスケーラブルなワークフローを提案する。 正確な定量化と物理的除去のために海洋プラスチックのリアルタイム定量化を行う。 ワークフローには、ドメイン固有のデータセットの作成と前処理、ディープニューラルネットワークを利用したオブジェクト検出モデルの構築、モデルのパフォーマンス評価が含まれる。 YOLOv5-Sは平均平均精度0.851、F1スコア0.89で動作し、ほぼリアルタイム速度を維持した。

The quantification of positively buoyant marine plastic debris is critical to understanding how concentrations of trash from across the world's ocean and identifying high concentration garbage hotspots in dire need of trash removal. Currently, the most common monitoring method to quantify floating plastic requires the use of a manta trawl. Techniques requiring manta trawls (or similar surface collection devices) utilize physical removal of marine plastic debris as the first step and then analyze collected samples as a second step. The need for physical removal before analysis incurs high costs and requires intensive labor preventing scalable deployment of a real-time marine plastic monitoring service across the entirety of Earth's ocean bodies. Without better monitoring and sampling methods, the total impact of plastic pollution on the environment as a whole, and details of impact within specific oceanic regions, will remain unknown. This study presents a highly scalable workflow that utilizes images captured within the epipelagic layer of the ocean as an input. It produces real-time quantification of marine plastic debris for accurate quantification and physical removal. The workflow includes creating and preprocessing a domain-specific dataset, building an object detection model utilizing a deep neural network, and evaluating the model's performance. YOLOv5-S was the best performing model, which operates at a Mean Average Precision (mAP) of 0.851 and an F1-Score of 0.89 while maintaining near-real-time speed.
翻訳日:2021-05-06 19:26:22 公開日:2021-05-05
# (参考訳) 情報強化復号戦略を用いた同時翻訳における完全文モデルの性能向上 [全文訳有]

Full-Sentence Models Perform Better in Simultaneous Translation Using the Information Enhanced Decoding Strategy ( http://arxiv.org/abs/2105.01893v1 )

ライセンス: CC BY 4.0
Zhengxin Yang(参考訳) ソース文で数単語のみを受信した後、各文の翻訳を開始する同時翻訳は、多くのシナリオにおいて重要な役割を果たす。 以前のプレフィックス・トゥ・プレフィックス・フレームワークは同時翻訳に適していると考えられ、性能が良いが、各レイテンシー$k$の個別モデルをトレーニングする必要による高い計算リソースコストと、各ターゲットトークンが特定のソースプレフィックスにのみ対応できるため、情報をエンコードする能力の2つの欠点がある。 完全文モデル用に設計された,単純かつ効果的な復号化戦略を採用する新しいフレームワークを提案する。 このフレームワーク内では、1つのフル文モデルをトレーニングすることで任意の遅延を達成でき、計算リソースを節約できる。 さらに,全文をエンコードする完全文モデルの能力により,復号化戦略は,復号化状態に保持されている情報をリアルタイムに強化することができる。 実験の結果,zh$\rightarrow$en,e n$\rightarrow$ro,en$ \leftrightarrow$deの4方向のベースラインよりも高い翻訳品質が得られることがわかった。

Simultaneous translation, which starts translating each sentence after receiving only a few words in source sentence, has a vital role in many scenarios. Although the previous prefix-to-prefix framework is considered suitable for simultaneous translation and achieves good performance, it still has two inevitable drawbacks: the high computational resource costs caused by the need to train a separate model for each latency $k$ and the insufficient ability to encode information because each target token can only attend to a specific source prefix. We propose a novel framework that adopts a simple but effective decoding strategy which is designed for full-sentence models. Within this framework, training a single full-sentence model can achieve arbitrary given latency and save computational resources. Besides, with the competence of the full-sentence model to encode the whole sentence, our decoding strategy can enhance the information maintained in the decoded states in real time. Experimental results show that our method achieves better translation quality than baselines on 4 directions: Zh$\rightarrow$En, En$\rightarrow$Ro and En$\leftrightarrow$D e.
翻訳日:2021-05-06 19:13:29 公開日:2021-05-05
# (参考訳) MiCE: 教師なし画像クラスタリングのためのコントラストエキスパートの混在 [全文訳有]

MiCE: Mixture of Contrastive Experts for Unsupervised Image Clustering ( http://arxiv.org/abs/2105.01899v1 )

ライセンス: CC BY 4.0
Tsung Wei Tsai, Chongxuan Li, Jun Zhu(参考訳) 比較学習によって学習された識別的表現と、潜在混合モデルによって得られた意味構造を同時に活用する統合確率的クラスタリングフレームワークであるMiCE(Missture of Contrastive Experts)を提案する。 専門家の混合によって動機付けられたマウスは、ラベルのないデータセットを潜在意味論に従ってサブセットに分割するゲーティング関数と、それらに割り当てられた異なるサブセットを対比学習方法で識別する複数の専門家を用いる。 潜在変数による非自明な推論と学習問題を解決するために,マウスに対する期待最大化(em)アルゴリズムのスケーラブルな変種を開発し,収束の証明を提供する。 実験により,広く採用されている4つの自然画像データセット上でのMICEのクラスタリング性能を評価する。 MiCEは、様々な従来の手法や強力なコントラスト学習ベースラインよりもはるかに優れた結果が得られる。

We present Mixture of Contrastive Experts (MiCE), a unified probabilistic clustering framework that simultaneously exploits the discriminative representations learned by contrastive learning and the semantic structures captured by a latent mixture model. Motivated by the mixture of experts, MiCE employs a gating function to partition an unlabeled dataset into subsets according to the latent semantics and multiple experts to discriminate distinct subsets of instances assigned to them in a contrastive learning manner. To solve the nontrivial inference and learning problems caused by the latent variables, we further develop a scalable variant of the Expectation-Maximiza tion (EM) algorithm for MiCE and provide proof of the convergence. Empirically, we evaluate the clustering performance of MiCE on four widely adopted natural image datasets. MiCE achieves significantly better results than various previous methods and a strong contrastive learning baseline.
翻訳日:2021-05-06 19:00:16 公開日:2021-05-05
# (参考訳) 後方強化学習によるソコバンの解法 [全文訳有]

Solving Sokoban with backward reinforcement learning ( http://arxiv.org/abs/2105.01904v1 )

ライセンス: CC BY 4.0
Yaron Shoham, Gal Elidan(参考訳) いくつかのパズルでは、ゴールの近くで使う必要がある戦略は、例えば、より早く有効になる戦略とは大きく異なる。 迷路の出口状態に近い 分岐因子が小さいためです これらの場合の一般的なアプローチは、前方探索と後方探索の両方を適用し、両者を整合させることである。 本研究では、強化学習(RL)フレームワークにおいて、このアイデアを一歩前進させるアプローチを提案する。 RLを用いた従来の前方エージェントのトレーニングは、報酬が希少であるため、難しい場合がある。 ゴールでのみ与えられる。 代わりに、私たちはまず、シンプルなリラックスしたゴールで後ろ向きのエージェントを訓練します。 次に,そのエージェントの動作から抽出した直感的なヒント特徴を用いて,パズルの状態表現を強化する。 最後に,この情報を付加した前向きエージェントを訓練する。 この単純な"アクセス"が部分的な後方計画に到達することで、パフォーマンスが大幅に向上することを示す。 ソコバンパズルの挑戦的領域において、我々のRLアプローチは、レベルを超越した最高の学習解法をはるかに上回り、最高の高度工数解のSOTA性能と競合する。 印象的に、少数の実践レベルから学習し、シンプルなRL技術を用いてこれらの結果を得る。

In some puzzles, the strategy we need to use near the goal can be quite different from the strategy that is effective earlier on, e.g. due to a smaller branching factor near the exit state in a maze. A common approach in these cases is to apply both a forward and a backward search, and to try and align the two. In this work we propose an approach that takes this idea a step forward, within a reinforcement learning (RL) framework. Training a traditional forward-looking agent using RL can be difficult because rewards are often sparse, e.g. given only at the goal. Instead, we first train a backward-looking agent with a simple relaxed goal. We then augment the state representation of the puzzle with straightforward hint features that are extracted from the behavior of that agent. Finally, we train a forward looking agent with this informed augmented state. We demonstrate that this simple "access" to partial backward plans leads to a substantial performance boost. On the challenging domain of the Sokoban puzzle, our RL approach substantially surpasses the best learned solvers that generalize over levels, and is competitive with SOTA performance of the best highly-crafted solution. Impressively, we achieve these results while learning from only a small number of practice levels and using simple RL techniques.
翻訳日:2021-05-06 18:27:22 公開日:2021-05-05
# (参考訳) ALS点群セマンティックセマンティックセグメンテーションのための擬似ラベル支援学習 [全文訳有]

Weakly Supervised Pseudo-Label assisted Learning for ALS Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2105.01919v1 )

ライセンス: CC BY 4.0
Puzuo Wang, Wei Yao(参考訳) 競合的なクラウドセマンティックセグメンテーションの結果は、通常大量のラベル付きデータに依存する。 しかし、データアノテーションは、特に3次元のポイントクラウドデータにとって、時間と労力のかかる作業である。 したがって、訓練データとして限られた根拠真理で正確な結果を得ることは極めて重要である。 単純かつ効果的な手法として、疑似ラベルはラベルのないデータからの情報をニューラルネットワークのトレーニングに利用することができる。 本研究では,各クラスに対してランダムに選択される比較的少ないサンプルラベルを用いた疑似ラベル支援ポイントクラウドセグメンテーション手法を提案する。 予測確率に基づいて擬似ラベルを生成するための適応しきい値戦略を提案した。 擬似ラベル学習は反復的なプロセスであり、モデルが収束してトレーニング効率が向上するにつれて、擬似ラベルは基底弱いラベルのみに更新された。 isprs3dセマティックラベリングベンチマークデータセットを用いた実験により、本手法は、元のトレーニングセットからラベル付きポイントを最大2$\unicode{x2030}$の完全な監視スキームで、全体的な精度83.7%、平均的なf1スコア70.2%で、同等に競争力のある結果を得たことが示された。

Competitive point cloud semantic segmentation results usually rely on a large amount of labeled data. However, data annotation is a time-consuming and labor-intensive task, particularly for three-dimensional point cloud data. Thus, obtaining accurate results with limited ground truth as training data is considerably important. As a simple and effective method, pseudo labels can use information from unlabeled data for training neural networks. In this study, we propose a pseudo-label-assiste d point cloud segmentation method with very few sparsely sampled labels that are normally randomly selected for each class. An adaptive thresholding strategy was proposed to generate a pseudo-label based on the prediction probability. Pseudo-label learning is an iterative process, and pseudo labels were updated solely on ground-truth weak labels as the model converged to improve the training efficiency. Experiments using the ISPRS 3D sematic labeling benchmark dataset indicated that our proposed method achieved an equally competitive result compared to that using a full supervision scheme with only up to 2$\unicode{x2030}$ of labeled points from the original training set, with an overall accuracy of 83.7% and an average F1 score of 70.2%.
翻訳日:2021-05-06 18:11:42 公開日:2021-05-05
# (参考訳) SeaDronesSee:オープンウォーターで人間を検知するための海事ベンチマーク [全文訳有]

SeaDronesSee: A Maritime Benchmark for Detecting Humans in Open Water ( http://arxiv.org/abs/2105.01922v1 )

ライセンス: CC BY 4.0
Leon Amadeus Varga, Benjamin Kiefer, Martin Messmer and Andreas Zell(参考訳) 無人航空機(uavs)は、その柔軟性と迅速な運用能力のため、海洋環境における捜索救助任務において重要な役割を担っている。 現代のコンピュータビジョンアルゴリズムは、そのようなミッションを支援することに非常に関心がある。 しかし、それらは地上の交通シナリオでしか利用できないUAVからの大量の実例訓練データに依存している。 さらに、現在のオブジェクト検出と追跡データセットは、限られた環境情報しか提供していないか、全く提供していない。 そこで本研究では,陸地型視覚システムから海型視覚システムへのギャップを埋めるため,大規模ビジュアルオブジェクト検出・追跡ベンチマーク(SeaDronesSee)を提案する。 5万4000以上のフレームと40万のインスタンスを、さまざまな高度から収集し、アノテートし、5から260メートル、0から90度の角度から、それぞれのメタ情報を高度、視角、その他のメタデータとして提供します。 新たに確立されたベンチマークを用いて,複数の最先端コンピュータビジョンアルゴリズムをベースラインとして評価する。 研究者が予測をアップロードし、中央のリーダーボードで結果を比較できる評価サーバを提供する。

Unmanned Aerial Vehicles (UAVs) are of crucial importance in search and rescue missions in maritime environments due to their flexible and fast operation capabilities. Modern computer vision algorithms are of great interest in aiding such missions. However, they are dependent on large amounts of real-case training data from UAVs, which is only available for traffic scenarios on land. Moreover, current object detection and tracking data sets only provide limited environmental information or none at all, neglecting a valuable source of information. Therefore, this paper introduces a large-scaled visual object detection and tracking benchmark (SeaDronesSee) aiming to bridge the gap from land-based vision systems to sea-based ones. We collect and annotate over 54,000 frames with 400,000 instances captured from various altitudes and viewing angles ranging from 5 to 260 meters and 0 to 90 degrees while providing the respective meta information for altitude, viewing angle and other meta data. We evaluate multiple state-of-the-art computer vision algorithms on this newly established benchmark serving as baselines. We provide an evaluation server where researchers can upload their prediction and compare their results on a central leaderboard
翻訳日:2021-05-06 18:00:17 公開日:2021-05-05
# (参考訳) ビッグデータ時代の常識知識基盤構築 [全文訳有]

Commonsense Knowledge Base Construction in the Age of Big Data ( http://arxiv.org/abs/2105.01925v1 )

ライセンス: CC BY 4.0
Simon Razniewski(参考訳) 常識知識のコンパイルは、従来、手作業によってアプローチされるaiトピックである。 Webデータ処理の最近の進歩は、自動化アプローチを可能にしている。 このデモでは、データ管理コミュニティに対する特定の関心の1つの側面を取り上げ、コモンセンスの知識ベース構築を自動化する3つのシステムを紹介します。 (i)知識抽出システム工学、(ii)dice はファジィ・コモンセンス知識のクリーニングにおいてスキーマ制約が果たす役割を、(iii)概念モデリングの関連性を説明するために、擬似モドーを用いる。 デモはhttps://quasimodo.r2 .enst.fr, https://dice.mpi-inf .mpg.de, ascent.mpi-inf.mpg.d eで公開されている。

Compiling commonsense knowledge is traditionally an AI topic approached by manual labor. Recent advances in web data processing have enabled automated approaches. In this demonstration we will showcase three systems for automated commonsense knowledge base construction, highlighting each time one aspect of specific interest to the data management community. (i) We use Quasimodo to illustrate knowledge extraction systems engineering, (ii) Dice to illustrate the role that schema constraints play in cleaning fuzzy commonsense knowledge, and (iii) Ascent to illustrate the relevance of conceptual modelling. The demos are available online at https://quasimodo.r2 .enst.fr, https://dice.mpi-inf .mpg.de and ascent.mpi-inf.mpg.d e.
翻訳日:2021-05-06 17:44:29 公開日:2021-05-05
# (参考訳) TensorFlow Liteによるエッジの連続学習 [全文訳有]

Continual Learning on the Edge with TensorFlow Lite ( http://arxiv.org/abs/2105.01946v1 )

ライセンス: CC BY 4.0
Giorgos Demosthenous and Vassilis Vassiliades(参考訳) 現実世界の問題を解決する目的で、高度なディープラーニングモデルを組み込みデバイスにデプロイすることは、今日の技術を使った闘争である。 プライバシとデータ制限、ネットワーク接続の問題、高速モデル適応の必要性は、エッジ上の多くのアプリケーションに適さない今日のアプローチを構成する課題のひとつであり、デバイス上でのリアルタイムトレーニングが不可欠である。 Googleは現在、実験的なトランスファー学習APIをTensorFlow Lite、機械学習ライブラリに組み込むことで、これらの課題に取り組んでいる。 本稿では,トランスファー学習はデバイス上でのモデルトレーニングにとって良い第一歩であるが,より現実的なシナリオに直面すると壊滅的な忘れがちであることを示す。 我々は,CORe50ベンチマークで単純な転送学習モデルをテストするとともに,開発したAndroidアプリケーション上で,その制限を直接示すことによってこの問題を提起する。 さらに、TensorFlow Liteライブラリを拡張して、現在の転送学習モデルのヘッドにシンプルなリプレイアプローチを統合することで、継続的な学習機能を含むようにします。 我々はCORe50ベンチマークで連続学習モデルをテストし、壊滅的な忘れに対処できることを示し、開発したアプリケーションを用いて、非理想的条件下でも継続的に学習できることを実証した。 最後に、当社はAndroidアプリケーションのコードをオープンソース化し、開発者が自身のスマートフォンアプリケーションに継続的学習を統合できるようにし、TensorFlow Lite環境への継続的学習機能のさらなる開発を容易にする。

Deploying sophisticated deep learning models on embedded devices with the purpose of solving real-world problems is a struggle using today's technology. Privacy and data limitations, network connection issues, and the need for fast model adaptation are some of the challenges that constitute today's approaches unfit for many applications on the edge and make real-time on-device training a necessity. Google is currently working on tackling these challenges by embedding an experimental transfer learning API to their TensorFlow Lite, machine learning library. In this paper, we show that although transfer learning is a good first step for on-device model training, it suffers from catastrophic forgetting when faced with more realistic scenarios. We present this issue by testing a simple transfer learning model on the CORe50 benchmark as well as by demonstrating its limitations directly on an Android application we developed. In addition, we expand the TensorFlow Lite library to include continual learning capabilities, by integrating a simple replay approach into the head of the current transfer learning model. We test our continual learning model on the CORe50 benchmark to show that it tackles catastrophic forgetting, and we demonstrate its ability to continually learn, even under non-ideal conditions, using the application we developed. Finally, we open-source the code of our Android application to enable developers to integrate continual learning to their own smartphone applications, as well as to facilitate further development of continual learning functionality into the TensorFlow Lite environment.
翻訳日:2021-05-06 17:39:58 公開日:2021-05-05
# (参考訳) 職場でのマインドリード: 共通基盤のない協力 [全文訳有]

Mind Reading at Work: Cooperation without common ground ( http://arxiv.org/abs/2105.01949v1 )

ライセンス: CC BY 4.0
Peter Wallis(参考訳) Stefan KoppさんとNicole Kramerさんは先日の論文「Frontiers in Psychology 12 (2021) 597」で、過去10年ほどの間に非常に印象的なデモがありましたが、コンピューターを人間と半分まともな会話にする方法はまだわかりません。 これを行うために必要な能力には、漸進的な共同構築とメンタライゼーションが含まれる、と彼らは主張する。 この問題に対する意見に心から同意するが、本稿では、配置されたアクションの「新しい」aiに基づくソリューションに対する別のアプローチを論じる。

As Stefan Kopp and Nicole Kramer say in their recent paper[Frontiers in Psychology 12 (2021) 597], despite some very impressive demonstrations over the last decade or so, we still don't know how how to make a computer have a half decent conversation with a human. They argue that the capabilities required to do this include incremental joint co-construction and mentalizing. Although agreeing whole heartedly with their statement of the problem, this paper argues for a different approach to the solution based on the "new" AI of situated action.
翻訳日:2021-05-06 17:31:28 公開日:2021-05-05
# (参考訳) 局所統計エッジモデルを用いたマルチスケール画像分解 [全文訳有]

Multi-scale Image Decomposition using a Local Statistical Edge Model ( http://arxiv.org/abs/2105.01951v1 )

ライセンス: CC BY 4.0
Kin-Ming Wong(参考訳) サブウィンドウ分散フィルタという新しい非線形フィルタを用いたプログレッシブ画像分解手法を提案する。 本手法は,空間スケールと変動スケールの両方において,細部画像の抽出が要求されるため,画像の精細度向上のために特別に設計されている。 本稿では,空間的に定義された画像統計を用いてエッジ認識を発達させる局所統計エッジモデルを提案する。 本手法は2つの直感的パラメータによって制御され,ユーザがどの画像の詳細を抑えるか,拡張するかを定義することができる。 累積面積テーブル加速度法により,分解パイプラインは並列性が高い。 提案するフィルタは勾配保存であり, 勾配反転アーティファクトを含まない拡張結果が得られる。 評価では,本手法を様々なマルチスケール画像詳細操作アプリケーションと,他の主流ソリューションと比較する。

We present a progressive image decomposition method based on a novel non-linear filter named Sub-window Variance filter. Our method is specifically designed for image detail enhancement purpose; this application requires extraction of image details which are small in terms of both spatial and variation scales. We propose a local statistical edge model which develops its edge awareness using spatially defined image statistics. Our decomposition method is controlled by two intuitive parameters which allow the users to define what image details to suppress or enhance. By using the summed-area table acceleration method, our decomposition pipeline is highly parallel. The proposed filter is gradient preserving and this allows our enhancement results free from the gradient-reversal artefact. In our evaluations, we compare our method in various multi-scale image detail manipulation applications with other mainstream solutions.
翻訳日:2021-05-06 17:23:33 公開日:2021-05-05
# (参考訳) 完全畳み込みネットワークを用いたアクティブ多面体進化を用いた空中カラー赤外線画像における落葉樹の事例分割 [全文訳有]

Instance segmentation of fallen trees in aerial color infrared imagery using active multi-contour evolution with fully convolutional network-based intensity priors ( http://arxiv.org/abs/2105.01998v1 )

ライセンス: CC BY 4.0
Przemyslaw Polewski, Jacquelyn Shelton, Wei Yao and Marco Heurich(参考訳) 本稿では,完全畳み込みネットワークで得られた画像のセマンティクスセグメンテーションマップ上で,マルチアクティブ輪郭進化による共通オブジェクトクラスのインスタンスをセグメンテーションするためのフレームワークを提案する。 輪郭の進化は、集合エネルギー関数がデータ適合項、明示的な形状モデル、およびオブジェクト重複を考慮したエネルギー最小化問題として論じられる。 効率的な解近傍演算子を提案し, 擬似アニールなどのメタヒューリスティックスによる最適化を実現する。 提案手法は,高分解能空中マルチスペクトル画像から個々の落下茎を分割する文脈において,その枠組みをインスタンス化する。 複雑度の異なる実世界の3つのシーンにアプローチを検証した。 試験はドイツのバイエルン森林国立公園(英語版)の地域で行われ、バークビートルの大量感染が続いた。 多角形および線分レベルで評価を行い,多角形セグメンテーションの精度は0.93,リコール率は0.82であった。 反復的なサンプルコンセンサスラインセグメント検出と比較して,リコール時の最大7パーセンテージ点 (pp) と精度6の改善が達成された。 応用形状パラメトリゼーションの単純さにもかかわらず、エネルギー関数に組み込んだ明示的な形状モデルは、最大4ppのリコールで結果を改善した。 最後に,個々のstem検出の基盤として深層学習に基づく意味セグメンテーション法を使うことの重要性を示す。 本手法は,レーザスキャンに比べて画像取得のコスト効率が高いため,自動落葉樹マッピングのアクセシビリティ向上への一歩である。 正確な落葉樹図は、植物および動物の生息環境のモデリング、炭素沈降および森林生態系の土壌品質の研究の基礎として、さらに利用することができる。

In this paper, we introduce a framework for segmenting instances of a common object class by multiple active contour evolution over semantic segmentation maps of images obtained through fully convolutional networks. The contour evolution is cast as an energy minimization problem, where the aggregate energy functional incorporates a data fit term, an explicit shape model, and accounts for object overlap. Efficient solution neighborhood operators are proposed, enabling optimization through metaheuristics such as simulated annealing. We instantiate the proposed framework in the context of segmenting individual fallen stems from high-resolution aerial multispectral imagery. We validated our approach on 3 real-world scenes of varying complexity. The test plots were situated in regions of the Bavarian Forest National Park, Germany, which sustained a heavy bark beetle infestation. Evaluations were performed on both the polygon and line segment level, showing that the multi-contour segmentation can achieve up to 0.93 precision and 0.82 recall. An improvement of up to 7 percentage points (pp) in recall and 6 in precision compared to an iterative sample consensus line segment detection was achieved. Despite the simplicity of the applied shape parametrization, an explicit shape model incorporated into the energy function improved the results by up to 4 pp of recall. Finally, we show the importance of using a deep learning based semantic segmentation method as the basis for individual stem detection. Our method is a step towards increased accessibility of automatic fallen tree mapping, due to higher cost efficiency of aerial imagery acquisition compared to laser scanning. The precise fallen tree maps could be further used as a basis for plant and animal habitat modeling, studies on carbon sequestration as well as soil quality in forest ecosystems.
翻訳日:2021-05-06 17:11:33 公開日:2021-05-05
# (参考訳) ScissionLite: トランスファー層を用いた分散ディープニューラルネットワークの高速化 [全文訳有]

ScissionLite: Accelerating Distributed Deep Neural Networks Using Transfer Layer ( http://arxiv.org/abs/2105.02019v1 )

ライセンス: CC BY 4.0
Hyunho Ahn and Munkyu Lee and Cheol-Ho Hong and Blesson Varghese(参考訳) 産業用IoT(Industrial Internet of Things)アプリケーションはエッジコンピューティングのメリットを享受できる。 例えば、ディープニューラルネットワーク(DNN)モデルに根ざしたアプリケーションは、推論の全体的なパフォーマンスを改善し、産業製品イメージのような入力データのプライバシを高めるために、IIoTデバイスとネットワークのエッジでスライスおよび分散することができる。 しかし、IIoTデバイスとエッジ間のネットワーク性能の低下は、しばしばボトルネックとなる。 本研究では,転送層(tl)を用いた分散dnn推定を高速化するフレームワーク scissionlite を開発した。 TLは,DNNモデルスライスにおける最適スライス点間に挿入されるトラフィック認識層であり,アウトバウンドネットワークトラフィックを著しく低下させることなく減少させる。 TLのために、我々はパフォーマンス限定IIoTデバイスのための新しい軽量ダウン/アップサンプリングネットワークを実装した。 そこで,ScissionLiteでは,DNNスライスをTLにデプロイするエンド・ツー・エンドのアクティビティのためのScissionTL,Preプロセッサ,Offloaderを開発した。 彼らは、DNNの最適スライス点を決定し、TLを含む事前訓練されたDNNスライスを作成し、IIoTデバイスとエッジ上でDNNスライスを実行する。 tl をスライスした dnn モデルで使用する場合、オーバーヘッドは無視できる。 scissionliteは、ローカルデバイスの実行と既存の最先端モデルスライシングアプローチと比較して、推論遅延を最大16倍と2.8倍改善する。

Industrial Internet of Things (IIoT) applications can benefit from leveraging edge computing. For example, applications underpinned by deep neural networks (DNN) models can be sliced and distributed across the IIoT device and the edge of the network for improving the overall performance of inference and for enhancing privacy of the input data, such as industrial product images. However, low network performance between IIoT devices and the edge is often a bottleneck. In this study, we develop ScissionLite, a holistic framework for accelerating distributed DNN inference using the Transfer Layer (TL). The TL is a traffic-aware layer inserted between the optimal slicing point of a DNN model slice in order to decrease the outbound network traffic without a significant accuracy drop. For the TL, we implement a new lightweight down/upsampling network for performance-limited IIoT devices. In ScissionLite, we develop ScissionTL, the Preprocessor, and the Offloader for end-to-end activities for deploying DNN slices with the TL. They decide the optimal slicing point of the DNN, prepare pre-trained DNN slices including the TL, and execute the DNN slices on an IIoT device and the edge. Employing the TL for the sliced DNN models has a negligible overhead. ScissionLite improves the inference latency by up to 16 and 2.8 times when compared to execution on the local device and an existing state-of-the-art model slicing approach respectively.
翻訳日:2021-05-06 16:38:06 公開日:2021-05-05
# (参考訳) 解釈可能・伝達可能な音声感情認識に向けて:潜在表現に基づく特徴・方法・コーパスの分析 [全文訳有]

Towards Interpretable and Transferable Speech Emotion Recognition: Latent Representation Based Analysis of Features, Methods and Corpora ( http://arxiv.org/abs/2105.02055v1 )

ライセンス: CC BY 4.0
Sneha Das and Nicole Nadine L{\o}nfeldt and Anne Katrine Pagsberg and Line H. Clemmensen(参考訳) 近年,医療分野から商業分野まで,音声感情認識(ser)が広く応用されている。 信号処理のアプローチに加えて、SERの手法もディープラーニング技術を使用している。 しかし、言語、コーパス、記録条件の一般化は、この分野ではまだ未解決の課題である。 さらに、ディープラーニングアルゴリズムのブラックボックスの性質から、モデルと意思決定プロセスにおける解釈と透明性の欠如が新たな課題となっている。 SERシステムが人間の生活に影響を与えるアプリケーションにデプロイされる場合、これは重要なことです。 本研究では,提案するSERシステムの意思決定過程を詳細に分析することで,このギャップに対処する。 そこで本研究では,4階層の感情分類において,平均的分類精度が55\%以上となる不完全・非正規化オートエンコーダに基づく低複雑度serを提案する。 次に,潜伏空間における感情のクラスタリングを調査し,モデル行動に対するコーパスの影響を理解し,潜伏埋め込みの物理的解釈を得る。 最後に,SERの性能に対する各入力機能の役割について検討する。

In recent years, speech emotion recognition (SER) has been used in wide ranging applications, from healthcare to the commercial sector. In addition to signal processing approaches, methods for SER now also use deep learning techniques. However, generalizing over languages, corpora and recording conditions is still an open challenge in the field. Furthermore, due to the black-box nature of deep learning algorithms, a newer challenge is the lack of interpretation and transparency in the models and the decision making process. This is critical when the SER systems are deployed in applications that influence human lives. In this work we address this gap by providing an in-depth analysis of the decision making process of the proposed SER system. Towards that end, we present low-complexity SER based on undercomplete- and denoising- autoencoders that achieve an average classification accuracy of over 55\% for four-class emotion classification. Following this, we investigate the clustering of emotions in the latent space to understand the influence of the corpora on the model behavior and to obtain a physical interpretation of the latent embedding. Lastly, we explore the role of each input feature towards the performance of the SER.
翻訳日:2021-05-06 16:19:34 公開日:2021-05-05
# (参考訳) AdaBoostとロバスト1ビット圧縮センシング [全文訳有]

AdaBoost and robust one-bit compressed sensing ( http://arxiv.org/abs/2105.02083v1 )

ライセンス: CC BY 4.0
Geoffrey Chinot, Felix Kuchelmeister, Matthias L\"offler and Sara van de Geer(参考訳) 本稿では, 対向誤差を伴う頑健な1ビット圧縮センシングにおけるバイナリ分類について検討する。 モデルは過パラメータ化され、利子パラメータが効果的にスパースであると仮定する。 AdaBoost が検討され、max-$\ell_1$-margin- classifier との関係を通してリスク境界が導出される。 特に, 対向雑音の補間が, 分類問題に対して無害である理由を説明する。 シミュレーションは提示された理論を説明する。

This paper studies binary classification in robust one-bit compressed sensing with adversarial errors. It is assumed that the model is overparameterized and that the parameter of interest is effectively sparse. AdaBoost is considered, and, through its relation to the max-$\ell_1$-margin- classifier, risk bounds are derived. In particular, this provides an explanation why interpolating adversarial noise can be harmless for classification problems. Simulations illustrate the presented theory.
翻訳日:2021-05-06 16:09:24 公開日:2021-05-05
# (参考訳) 教師なし領域適応のための深部球面マニフォールドガウス核 [全文訳有]

Deep Spherical Manifold Gaussian Kernel for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2105.02089v1 )

ライセンス: CC0 1.0
Youshan Zhang and Brian D. Davison(参考訳) 教師なしドメイン適応は、既存のリッチなラベル付きドメインから新しいドメインに知識を移す際に、ドメインシフト問題に対処する効果的な方法である。 既存の多様体ベースの手法は、伝統的なモデルに基づいているか、2つの領域の単一共分散行列の差を最小化することでグラスマン多様体に大きく依存している。 さらに、既存の擬似ラベルアルゴリズムは、2つの領域間の条件分布の整合性において擬似ラベルの品質を不適切に考慮している。 本研究では,ソース空間と対象部分空間を球面多様体にマッピングし,抽出された特徴量とガウス核の両方を埋め込み,それらの差を減少させるために,深層球面多様体gaussian kernel(dsgk)フレームワークを提案する。 条件分布を整列化するために, 擬似ラベルの品質を改善し, カテゴリ的球面多様体ガウス核測地線損失を削減するための, 容易かつハードな擬似ラベル改良法をさらに開発する。 DSGKは、特にクロスドメイン学習タスクにおいて、最先端の手法よりも優れていることを示す。

Unsupervised Domain adaptation is an effective method in addressing the domain shift issue when transferring knowledge from an existing richly labeled domain to a new domain. Existing manifold-based methods either are based on traditional models or largely rely on Grassmannian manifold via minimizing differences of single covariance matrices of two domains. In addition, existing pseudo-labeling algorithms inadequately consider the quality of pseudo labels in aligning the conditional distribution between two domains. In this work, a deep spherical manifold Gaussian kernel (DSGK) framework is proposed to map the source and target subspaces into a spherical manifold and reduce the discrepancy between them by embedding both extracted features and a Gaussian kernel. To align the conditional distributions, we further develop an easy-to-hard pseudo label refinement process to improve the quality of the pseudo labels and then reduce categorical spherical manifold Gaussian kernel geodesic loss. Extensive experimental results show that DSGK outperforms state-of-the-art methods, especially on challenging cross-domain learning tasks.
翻訳日:2021-05-06 15:43:48 公開日:2021-05-05
# (参考訳) バナッハ空間における値を持つ2層ニューラルネットワーク

Two-layer neural networks with values in a Banach space ( http://arxiv.org/abs/2105.02095v1 )

ライセンス: CC BY 4.0
Yury Korolev(参考訳) 本研究では,領域と範囲がバラッハ空間である2層ニューラルネットワークについて検討する。 さらに、画像空間には部分順序、すなわち部分順序が備わっていると仮定する。 これはリース空間である。 非線形性として、正の部分を取る格子演算を選択し、$\mathbb R^d$-valued ニューラルネットワークの場合、これはReLU活性化関数に対応する。 モンテカルロ率を持つ逆および直接近似定理を証明し、有限次元の場合の既存の結果を拡張する。 本稿の第2部では,正規化理論の観点から,有限量のノイズ観測を用いてネットワークを訓練することを検討する。 音源条件として知られる正則性条件について検討し,ノイズレベルが0,サンプル数が適切な速度で無限になる場合のブレグマン距離での収束率を求める。

We study two-layer neural networks whose domain and range are Banach spaces with separable preduals. In addition, we assume that the image space is equipped with a partial order, i.e. it is a Riesz space. As the nonlinearity we choose the lattice operation of taking the positive part; in case of $\mathbb R^d$-valued neural networks this corresponds to the ReLU activation function. We prove inverse and direct approximation theorems with Monte-Carlo rates, extending existing results for the finite-dimensional case. In the second part of the paper, we consider training such networks using a finite amount of noisy observations from the regularisation theory viewpoint. We discuss regularity conditions known as source conditions and obtain convergence rates in a Bregman distance in the regime when both the noise level goes to zero and the number of samples goes to infinity at appropriate rates.
翻訳日:2021-05-06 15:29:57 公開日:2021-05-05
# (参考訳) 資源制約を考慮したMDPの効率的な戦略合成 [全文訳有]

Efficient Strategy Synthesis for MDPs with Resource Constraints ( http://arxiv.org/abs/2105.02099v1 )

ライセンス: CC BY-SA 4.0
Franti\v{s}ek Blahoudek, Petr Novotn\'y, Melkior Ornik, Pranay Thangeda and Ufuk Topcu(参考訳) 消費マルコフ決定過程と呼ばれる形式主義の質的戦略合成を考える。 この形式主義は、確率環境において資源制約の下で作用するエージェントのダイナミクスをモデル化することができる。 提示されたアルゴリズムは、モデルの表現に関して時間多項式で動作し、与えられた目標状態のセットがリソースの枯渇なしに確率1で(あるいは無限回)到達されることを保証する戦略を合成する。 特に、ミッションを安全に継続するには資源の量が少なくなった場合、その戦略は、エージェントがリソースをフルキャパシティに補充する指定されたリロード状態の1つに向かってエージェントのコースを変更し、十分な量のリソースで、エージェントが再びミッションを遂行しようとする。 また,エージェントが与えられたミッションを遂行する必要があるという期待時間を削減するための2つのヒューリスティックな手法を提案する。 提案アルゴリズムを実装し, (i) 計算時間の観点から) マルコフ決定プロセスに基づく計画手法の有効性, (ii) 実例による計画に対する2つのヒューリスティックスの肯定的な影響を示す数値例を示した。

We consider qualitative strategy synthesis for the formalism called consumption Markov decision processes. This formalism can model dynamics of an agents that operates under resource constraints in a stochastic environment. The presented algorithms work in time polynomial with respect to the representation of the model and they synthesize strategies ensuring that a given set of goal states will be reached (once or infinitely many times) with probability 1 without resource exhaustion. In particular, when the amount of resource becomes too low to safely continue in the mission, the strategy changes course of the agent towards one of a designated set of reload states where the agent replenishes the resource to full capacity; with sufficient amount of resource, the agent attempts to fulfill the mission again. We also present two heuristics that attempt to reduce expected time that the agent needs to fulfill the given mission, a parameter important in practical planning. The presented algorithms were implemented and numerical examples demonstrate (i) the effectiveness (in terms of computation time) of the planning approach based on consumption Markov decision processes and (ii) the positive impact of the two heuristics on planning in a realistic example.
翻訳日:2021-05-06 15:28:55 公開日:2021-05-05
# (参考訳) 自動分離音場からの自己教師付き学習 [全文訳有]

Self-Supervised Learning from Automatically Separated Sound Scenes ( http://arxiv.org/abs/2105.02132v1 )

ライセンス: CC BY 4.0
Eduardo Fonseca, Aren Jansen, Daniel P. W. Ellis, Scott Wisdom, Marco Tagliasacchi, John R. Hershey, Manoj Plakal, Shawn Hershey, R. Channing Moore, Xavier Serra(参考訳) 実世界のサウンドシーンは、音源の時間変化のコレクションで構成され、それぞれがオーディオ録音で混在する特徴的なサウンドイベントを生成する。 これらの構成音イベントと混合音の関連は意味的に制約され、サウンドシーンはソースクラスの結合を含み、全てのクラスが自然に共起するわけではない。 そこで本研究では,教師なし自動音声分離を用いて,教師なし音声シーンを複数の意味的リンクビューに分解し,自己教師なしコントラスト学習に活用する。 入力混合物と自動的に分離された出力とを関連付ける学習は、混合物のみを使用する過去のアプローチよりも強い表現をもたらす。 さらに,多様な分離系収束状態がすべて有用かつしばしば相補的な例変換につながることを示すことにより,コントラスト学習を成功させるために最適なソース分離は必要ではないことを見出した。 我々の最善のシステムは、これらの教師なし分離モデルを単一の拡張フロントエンドに組み込んで、ビュー全体の類似度最大化と一致予測目標を共同で最適化する。 その結果、教師なしオーディオ表現が、確立された浅いAudioSet分類ベンチマークにおける最先端の代替と競合する。

Real-world sound scenes consist of time-varying collections of sound sources, each generating characteristic sound events that are mixed together in audio recordings. The association of these constituent sound events with their mixture and each other is semantically constrained: the sound scene contains the union of source classes and not all classes naturally co-occur. With this motivation, this paper explores the use of unsupervised automatic sound separation to decompose unlabeled sound scenes into multiple semantically-linked views for use in self-supervised contrastive learning. We find that learning to associate input mixtures with their automatically separated outputs yields stronger representations than past approaches that use the mixtures alone. Further, we discover that optimal source separation is not required for successful contrastive learning by demonstrating that a range of separation system convergence states all lead to useful and often complementary example transformations. Our best system incorporates these unsupervised separation models into a single augmentation front-end and jointly optimizes similarity maximization and coincidence prediction objectives across the views. The result is an unsupervised audio representation that rivals state-of-the-art alternatives on the established shallow AudioSet classification benchmark.
翻訳日:2021-05-06 14:46:10 公開日:2021-05-05
# (参考訳) アッパーソリューションによる強化学習におけるモデルフリー政策評価 [全文訳有]

Model-free policy evaluation in Reinforcement Learning via upper solutions ( http://arxiv.org/abs/2105.02135v1 )

ライセンス: CC BY 4.0
D. Belomestny, I. Levin, E. Moulines, A. Naumov, S. Samsonov, V. Zorina(参考訳) 本研究では,一般無限大地平線mdpにおける最適値関数 $v^\star$ に対するモデルフリーな信頼区間を構築するための手法を提案する。 エージェントのポリシーの上限解を構成するための新しいuper value iterative procedure(uvip)を提案する。 UVIPは、政策評価のモデルフリーな方法につながる。 比較的一般的な仮定の下で近似UVIPの収束特性を解析し、その性能を多くのベンチマークRL問題で説明する。

In this work we present an approach for building tight model-free confidence intervals for the optimal value function $V^\star$ in general infinite horizon MDPs via the upper solutions. We suggest a novel upper value iterative procedure (UVIP) to construct upper solutions for a given agent's policy. UVIP leads to a model free method of policy evaluation. We analyze convergence properties of the approximate UVIP under rather general assumptions and illustrate its performance on a number of benchmark RL problems.
翻訳日:2021-05-06 14:25:08 公開日:2021-05-05
# (参考訳) グラフマッチングと回転不変特徴を用いたペアワイズポイントクラウド登録 [全文訳有]

Pairwise Point Cloud Registration using Graph Matching and Rotation-invariant Features ( http://arxiv.org/abs/2105.02151v1 )

ライセンス: CC BY 4.0
Rong Huang, Wei Yao, Yusheng Xu, Zhen Ye and Uwe Stilla(参考訳) 登録はポイントクラウド処理において基本だが重要なタスクであり、通常は2つのポイントクラウドから要素対応を見つけることに依存する。 しかし、信頼できる対応を見つけるには、要素のロバストで差別的な記述と対応する要素の正しい一致を確立する必要がある。 本報告では,回転不変特徴を利用した粗粒度対細登録戦略と,逐次対応を求める新しい重み付きグラフマッチング法を開発した。 グラフマッチング法では、ユークリッドおよび特徴空間におけるノードとエッジの類似性を定式化し、最適化関数を構成する。 提案手法は2つのベンチマークデータセットを用いて評価し,いくつかの最先端手法と比較した。 実験結果に関して,提案手法は, 0.2度未満の回転誤差と0.1m未満の翻訳誤差とで, 精密な登録が可能であった。

Registration is a fundamental but critical task in point cloud processing, which usually depends on finding element correspondence from two point clouds. However, the finding of reliable correspondence relies on establishing a robust and discriminative description of elements and the correct matching of corresponding elements. In this letter, we develop a coarse-to-fine registration strategy, which utilizes rotation-invariant features and a new weighted graph matching method for iteratively finding correspondence. In the graph matching method, the similarity of nodes and edges in Euclidean and feature space are formulated to construct the optimization function. The proposed strategy is evaluated using two benchmark datasets and compared with several state-of-the-art methods. Regarding the experimental results, our proposed method can achieve a fine registration with rotation errors of less than 0.2 degrees and translation errors of less than 0.1m.
翻訳日:2021-05-06 14:02:41 公開日:2021-05-05
# (参考訳) Causal Fitの良さ [全文訳有]

Goodness of Causal Fit ( http://arxiv.org/abs/2105.02172v1 )

ライセンス: CC BY 4.0
Robert R. Tucci(参考訳) 真珠「do」介入に依存する因果適合尺度(gcf)の良さを提案する。 これは、介入を使用しないGF(Goodness of Fit)の尺度とは異なる。 DAG 集合 ${\cal G}$ が与えられたとき、良い $G\in {\cal G}$ を見つけるために、すべての $G\in {\cal G}$ に対して $GCF(G)$ と $GF(G)$ をプロットすることを提案し、そのグラフ $G\in {\cal G}$ は、両種類の良さの大きいものである。

We propose a Goodness of Causal Fit (GCF) measure which depends on Pearl "do" interventions. This is different from a measure of Goodness of Fit (GF), which does not use interventions. Given a DAG set ${\cal G}$, to find a good $G\in {\cal G}$, we propose plotting $GCF(G)$ versus $GF(G)$ for all $G\in {\cal G}$, and finding a graph $G\in {\cal G}$ with a large amount of both types of goodness.
翻訳日:2021-05-06 13:53:10 公開日:2021-05-05
# (参考訳) 大規模顔表現学習のためのプロトタイプメモリ [全文訳有]

Prototype Memory for Large-scale Face Representation Learning ( http://arxiv.org/abs/2105.02103v1 )

ライセンス: CC BY 4.0
Evgeny Smirnov, Nikita Garaev, Vasiliy Galyuk(参考訳) 膨大なIDを持つデータセットを用いた顔表現学習には適切なトレーニング方法が必要である。 softmaxベースのアプローチは、現在の顔認識における最先端技術であり、通常の"フルソフトマックス"形式は、数百万人のデータセットには適していない。 サンプルソフトマックス」アプローチに基づくいくつかの手法が提案され、この制限を取り除いた。 しかし、これらの方法にはいくつかの欠点がある。 その1つは"prototype obsolescence"の問題である: 希少なサンプルクラスの分類子重み (prototypes) は、あまりにも低い勾配を受け取り、現在のエンコーダ状態から時代遅れになり、分離し、不正確なトレーニング信号となる。 この問題は特に超大規模データセットでは深刻である。 本稿では,この問題を緩和し,任意のサイズのデータセットをトレーニング可能な,プロトタイプメモリという新しい顔表現学習モデルを提案する。 Prototype Memoryは、最近のクラスプロトタイプを格納するための制限サイズのメモリモジュールで構成されており、適切な方法で更新するために一連のアルゴリズムを使用している。 新しいクラスのプロトタイプは、現在のミニバッチにexemplar埋め込みを使用して、オンザフライで生成される。 これらのプロトタイプはメモリに列挙され、通常のソフトマックス分類に基づくトレーニングのための分類器重みの役割に使用される。 陳腐化を防止し、メモリをエンコーダと密接な関係に保つため、プロトタイプを定期的にリフレッシュし、最古のものをデキュートして配置する。 プロトタイプメモリは計算効率が高く、データセットサイズに依存しない。 様々な損失関数、ハードサンプルマイニングアルゴリズム、エンコーダアーキテクチャで使用することができる。 一般的な顔認識ベンチマークを用いた広範囲な実験により,提案モデルの有効性を実証する。

Face representation learning using datasets with massive number of identities requires appropriate training methods. Softmax-based approach, currently the state-of-the-art in face recognition, in its usual "full softmax" form is not suitable for datasets with millions of persons. Several methods, based on the "sampled softmax" approach, were proposed to remove this limitation. These methods, however, have a set of disadvantages. One of them is a problem of "prototype obsolescence": classifier weights (prototypes) of the rarely sampled classes, receive too scarce gradients and become outdated and detached from the current encoder state, resulting in an incorrect training signals. This problem is especially serious in ultra-large-scale datasets. In this paper, we propose a novel face representation learning model called Prototype Memory, which alleviates this problem and allows training on a dataset of any size. Prototype Memory consists of the limited-size memory module for storing recent class prototypes and employs a set of algorithms to update it in appropriate way. New class prototypes are generated on the fly using exemplar embeddings in the current mini-batch. These prototypes are enqueued to the memory and used in a role of classifier weights for usual softmax classification-based training. To prevent obsolescence and keep the memory in close connection with encoder, prototypes are regularly refreshed, and oldest ones are dequeued and disposed. Prototype Memory is computationally efficient and independent of dataset size. It can be used with various loss functions, hard example mining algorithms and encoder architectures. We prove the effectiveness of the proposed model by extensive experiments on popular face recognition benchmarks.
翻訳日:2021-05-06 13:33:50 公開日:2021-05-05
# 知識の探索:デュアルメモリを用いた新しいカテゴリの発見と位置決定

The Pursuit of Knowledge: Discovering and Localizing Novel Categories using Dual Memory ( http://arxiv.org/abs/2105.01652v2 )

ライセンス: Link先を確認
Sai Saketh Rambhatla and Rama Chellappa and Abhinav Shrivastava(参考訳) 我々は,未ラベルの大規模データセットにおける新しいオブジェクトの発見と位置決定の課題であるオブジェクトカテゴリ発見に取り組む。 既存の方法では、散らばったシーンが少なく、画像ごとのオブジェクトインスタンスが少ないデータセットで結果を示すが、我々は、挑戦的なCOCOデータセットで結果を示す。 さらに、ゼロから新しいカテゴリを発見するのではなく、発見アルゴリズムは、既に知られているものを特定し、未知に注意を向けることの恩恵を受けることができると論じる。 本稿では,作業記憶と意味記憶という2つのメモリモジュールを用いて,オブジェクトカテゴリに関する事前知識を用いて新たなカテゴリを探索する手法を提案する。 我々は,COCOミニバルデータセット上での検出器の性能を示す。

We tackle object category discovery, which is the problem of discovering and localizing novel objects in a large unlabeled dataset. While existing methods show results on datasets with less cluttered scenes and fewer object instances per image, we present our results on the challenging COCO dataset. Moreover, we argue that, rather than discovering new categories from scratch, discovery algorithms can benefit from identifying what is already known and focusing their attention on the unknown. We propose a method to use prior knowledge about certain object categories to discover new categories by leveraging two memory modules, namely Working and Semantic memory. We show the performance of our detector on the COCO minival dataset to demonstrate its in-the-wild capabilities.
翻訳日:2021-05-06 13:03:07 公開日:2021-05-05
# 半有限計画法による量子ニューラルネットワークのグローバル最適性学習

Training Quantized Neural Networks to Global Optimality via Semidefinite Programming ( http://arxiv.org/abs/2105.01420v2 )

ライセンス: Link先を確認
Burak Bartan, Mert Pilanci(参考訳) ニューラルネットワーク(NN)は、機械学習において多くのタスクで非常に成功した。 NN重みの量子化は、そのエネルギー効率、推論時間、ハードウェアへの展開への影響から重要なトピックとなっている。 トレーニング後の量子化はよく研究されているが、最適量子化NNのトレーニングには、難解に見える組合せ非凸最適化の問題が含まれる。 本研究では,多項式アクティベーションを持つ量子化NNを訓練するための凸最適化手法を提案する。 本手法は,近年の2層ニューラルネットワークにおける隠れ凸性,半定値リフト,Grothendieckの同一性を利用する。 意外なことに、ある量子化NN問題は、半有限緩和により、すべての関連するパラメータの多項式時間における大域的最適性に解決できることが示される。 本手法の有効性を示す数値的な例を示す。

Neural networks (NNs) have been extremely successful across many tasks in machine learning. Quantization of NN weights has become an important topic due to its impact on their energy efficiency, inference time and deployment on hardware. Although post-training quantization is well-studied, training optimal quantized NNs involves combinatorial non-convex optimization problems which appear intractable. In this work, we introduce a convex optimization strategy to train quantized NNs with polynomial activations. Our method leverages hidden convexity in two-layer neural networks from the recent literature, semidefinite lifting, and Grothendieck's identity. Surprisingly, we show that certain quantized NN problems can be solved to global optimality in polynomial-time in all relevant parameters via semidefinite relaxations. We present numerical examples to illustrate the effectiveness of our method.
翻訳日:2021-05-06 13:02:53 公開日:2021-05-05
# 一般化行動傾向推論のための生成的逆流学習

Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference ( http://arxiv.org/abs/2105.00822v2 )

ライセンス: Link先を確認
Xiaocong Chen, Lina Yao, Xianzhi Wang, Aixin Sun, Wenjie Zhang and Quan Z. Sheng(参考訳) 強化学習の最近の進歩は、強化学習ベースのレコメンダシステムなど、動的インタラクションを通じて適応的にユーザーモデリングを学ぶことへの関心を高めている。 最適化に関するガイドラインを提供するため、ほとんどの強化学習アプリケーションにとって、報酬関数は不可欠です。 しかし,現在の強化学習に基づく手法では,動的環境や騒音環境に適応できない手作業による報酬関数が用いられている。 さらに、一般的には一般化能力を犠牲にするタスク固有の報酬機能を使用する。 本稿では,ユーザの行動嗜好モデリングのための生成的逆強化学習を提案する。 事前定義された報酬機能を使用する代わりに,識別的アクタ-クリティックネットワークとwasserstein ganに基づいて,ユーザのアクションから報酬を自動的に学習する。 提案手法は,交通信号制御,オンラインレコメンデータシステム,スキャンパス予測など,様々なシナリオにおいて最先端の手法よりも優れていることを示す。

Recent advances in reinforcement learning have inspired increasing interest in learning user modeling adaptively through dynamic interactions, e.g., in reinforcement learning based recommender systems. Reward function is crucial for most of reinforcement learning applications as it can provide the guideline about the optimization. However, current reinforcement-learni ng-based methods rely on manually-defined reward functions, which cannot adapt to dynamic and noisy environments. Besides, they generally use task-specific reward functions that sacrifice generalization ability. We propose a generative inverse reinforcement learning for user behavioral preference modelling, to address the above issues. Instead of using predefined reward functions, our model can automatically learn the rewards from user's actions based on discriminative actor-critic network and Wasserstein GAN. Our model provides a general way of characterizing and explaining underlying behavioral tendencies, and our experiments show our method outperforms state-of-the-art methods in a variety of scenarios, namely traffic signal control, online recommender systems, and scanpath prediction.
翻訳日:2021-05-06 13:02:42 公開日:2021-05-05
# 言語モデルにおける性別偏差単語埋め込みの効果

Impact of Gender Debiased Word Embeddings in Language Modeling ( http://arxiv.org/abs/2105.00908v3 )

ライセンス: Link先を確認
Christine Basta and Marta R. Costa-juss\`a(参考訳) ジェンダー、人種、社会バイアスは、近年、自然言語処理の応用における不公平さの顕著な例として検出されている。 公平への鍵となる道は、データとアルゴリズムを理解し、分析し、解釈することです。 近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。 さらに、現在のアルゴリズムはデータからのバイアスを増幅することが証明されている。 これらの懸念にさらに対処するため,本論文では,既訓練の標準と偏りのある単語埋め込みを用いて,女性を下書きするデータに基づいて,最先端のリカレントニューラルネットワークモデルがどのように振る舞うかを考察する。 その結果、事前学習された組込みを使用する場合、言語モデルは、タスク内でトレーニングされた組込みを使用する場合と比較して、不均衡なデータでトレーニングされた場合、高いバイアスを継承することが示された。 さらに, 言語モデルでは, 標準の事前学習エンデディングに比べて, 偏りのあるプレトレーニングエンデディングを用いることで, バイアスの低減が図られている。

Gender, race and social biases have recently been detected as evident examples of unfairness in applications of Natural Language Processing. A key path towards fairness is to understand, analyse and interpret our data and algorithms. Recent studies have shown that the human-generated data used in training is an apparent factor of getting biases. In addition, current algorithms have also been proven to amplify biases from data. To further address these concerns, in this paper, we study how an state-of-the-art recurrent neural language model behaves when trained on data, which under-represents females, using pre-trained standard and debiased word embeddings. Results show that language models inherit higher bias when trained on unbalanced data when using pre-trained embeddings, in comparison with using embeddings trained within the task. Moreover, results show that, on the same data, language models inherit lower bias when using debiased pre-trained emdeddings, compared to using standard pre-trained embeddings.
翻訳日:2021-05-06 13:02:26 公開日:2021-05-05
# ベトナムの医療用テキストの会話機械読解

Conversational Machine Reading Comprehension for Vietnamese Healthcare Texts ( http://arxiv.org/abs/2105.01542v2 )

ライセンス: Link先を確認
Son T. Luu, Mao Nguyen Bui, Loi Duc Nguyen, Khiem Vinh Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) machine reading comprehension (mrc) は自然言語処理や計算言語学におけるサブフィールドである。 MRCはコンピュータが構造化されていないテキストを理解し、それに関連する質問に答えることを目的としている。 本稿では,2000件以上の健康ニュース記事に関する質問に対する回答を1万件からなる対話機械読解のためのベトナム語コーパス(UIT-ViCoQA)を提案する。 UIT-ViCoQAを言語的側面によって詳細に分析する。 そして,UIT-ViCoQAコーパスを用いた対話と読み理解に関するベースラインモデルの評価を行った。 最良のモデルではF1スコアが45.27%であり、これは人間のパフォーマンス(76.18%)に30.91ポイント遅れている。

Machine reading comprehension (MRC) is a sub-field in natural language processing or computational linguistics. MRC aims to help computers understand unstructured texts and then answer questions related to them. In this paper, we present a new Vietnamese corpus for conversational machine reading comprehension (UIT-ViCoQA), consisting of 10,000 questions with answers over 2,000 conversations about health news articles. We analyze UIT-ViCoQA in depth with different linguistic aspects. Then, we evaluate several baseline models about dialogue and reading comprehension on the UIT-ViCoQA corpus. The best model obtains an F1 score of 45.27%, which is 30.91 points behind human performance (76.18%), indicating that there is ample room for improvement.
翻訳日:2021-05-06 13:02:07 公開日:2021-05-05
# 画像分類のための部分空間表現学習

Subspace Representation Learning for Few-shot Image Classification ( http://arxiv.org/abs/2105.00379v2 )

ライセンス: Link先を確認
Ting-Yao Hu, Zhi-Qi Cheng, Alexander G. Hauptmann(参考訳) 本稿では,少数の画像分類タスクに対処する部分空間表現学習(SRL)フレームワークを提案する。 局所CNN特徴空間内の部分空間を利用して画像を表現し、重み付き部分空間距離(WSD)に応じて2つの画像間の類似度を測定する。 K画像が各クラスで利用できる場合、Kショット情報を集約するテンプレート部分空間として、プロトタイプ部分空間(PS)と識別部分空間(DS)の2種類を開発する。 SRLフレームワークに基づいて,ベクトルから部分空間表現への距離学習手法を拡張した。 以前の作品では大域的なベクトル表現が採用されていたが、部分空間表現を用いることで、画像内の空間構造や多様性を効果的に保存することができる。 miniimagenet,tieredi magenet,caltech-ucsd birds-200-2011 (cub) の3つのベンチマークデータセットにおいて,srlフレームワークの有効性を実証し,本手法のこれまでの最新データと比較した性能と性能を実験的に示した。

In this paper, we propose a subspace representation learning (SRL) framework to tackle few-shot image classification tasks. It exploits a subspace in local CNN feature space to represent an image, and measures the similarity between two images according to a weighted subspace distance (WSD). When K images are available for each class, we develop two types of template subspaces to aggregate K-shot information: the prototypical subspace (PS) and the discriminative subspace (DS). Based on the SRL framework, we extend metric learning based techniques from vector to subspace representation. While most previous works adopted global vector representation, using subspace representation can effectively preserve the spatial structure, and diversity within an image. We demonstrate the effectiveness of the SRL framework on three public benchmark datasets: MiniImageNet, TieredImageNet and Caltech-UCSD Birds-200-2011 (CUB), and the experimental results illustrate competitive/superior performance of our method compared to the previous state-of-the-art.
翻訳日:2021-05-06 13:01:56 公開日:2021-05-05
# s3net: 深度誘導画像リライトのための単一ストリーム構造

S3Net: A Single Stream Structure for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00681v2 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and and Sy-Yen Kuo(参考訳) depth guided any-to-any image relightingは、与えられたガイド画像とその深度マップの照明設定に合うように、元の画像と対応する深度マップからリライト画像を生成することを目的としている。 私たちの知る限りでは、このタスクは以前の文献では解決されていない新しい課題です。 この問題に対処するために,深層誘導画像リライトのための深層学習型ニューラルネットワークs3netを提案する。 このネットワークはエンコーダ-デコーダモデルである。 すべての画像と対応する深度マップを入力として結合し、それらをモデルに入力します。 デコーダ部は、注目モジュールと、ガイド画像中のリライト関連領域にフォーカスする強化モジュールとを含む。 NTIRE 2021 Depth Guided Any-to-any Relighting Challengeでは,提案モデルが3番目に高いSSIMを達成した。

Depth guided any-to-any image relighting aims to generate a relit image from the original image and corresponding depth maps to match the illumination setting of the given guided image and its depth map. To the best of our knowledge, this task is a new challenge that has not been addressed in the previous literature. To address this issue, we propose a deep learning-based neural Single Stream Structure network called S3Net for depth guided image relighting. This network is an encoder-decoder model. We concatenate all images and corresponding depth maps as the input and feed them into the model. The decoder part contains the attention module and the enhanced module to focus on the relighting-related regions in the guided images. Experiments performed on challenging benchmark show that the proposed model achieves the 3 rd highest SSIM in the NTIRE 2021 Depth Guided Any-to-any Relighting Challenge.
翻訳日:2021-05-06 13:01:38 公開日:2021-05-05
# 奥行き誘導画像リライトのためのマルチモーダル分岐ネットワーク

Multi-modal Bifurcated Network for Depth Guided Image Relighting ( http://arxiv.org/abs/2105.00690v2 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Wei-Ting Chen and Hao-Lun Luo and Sy-Yen Kuo(参考訳) 画像照明は、画像内の照明設定を再調整することを目的としている。 本稿では,マルチモーダルバイファーケートネットワーク(mbnet)と呼ばれる,深度誘導画像のリライトのための深層学習に基づく手法を提案する。 すなわち、画像と対応する深度マップが与えられた場合、所定の輝度角と色温度を持つ新しい画像がネットワークによって生成される。 このモデルは、エンコーダ内の分岐ネットワークによる画像と深度の特徴を抽出する。 この2つの特徴を効果的に利用するために,デコーダの動的拡張ピラミッドモジュールを採用する。 さらに,トレーニングデータの種類を増やすために,トレーニングデータ数を増やすための新しいデータ処理パイプラインを提案する。 VIDITデータセットを用いて行った実験の結果,提案手法は NTIRE 2021 Depth Guide One-to-one Relighting Challenge において,SSIM と PMS の点において \textbf{1}$^{st}$ place が得られることがわかった。

Image relighting aims to recalibrate the illumination setting in an image. In this paper, we propose a deep learning-based method called multi-modal bifurcated network (MBNet) for depth guided image relighting. That is, given an image and the corresponding depth maps, a new image with the given illuminant angle and color temperature is generated by our network. This model extracts the image and the depth features by the bifurcated network in the encoder. To use the two features effectively, we adopt the dynamic dilated pyramid modules in the decoder. Moreover, to increase the variety of training data, we propose a novel data process pipeline to increase the number of the training data. Experiments conducted on the VIDIT dataset show that the proposed solution obtains the \textbf{1}$^{st}$ place in terms of SSIM and PMS in the NTIRE 2021 Depth Guide One-to-one Relighting Challenge.
翻訳日:2021-05-06 13:01:24 公開日:2021-05-05
# LAFFNet:水中画像強調のための軽量適応型特徴融合ネットワーク

LAFFNet: A Lightweight Adaptive Feature Fusion Network for Underwater Image Enhancement ( http://arxiv.org/abs/2105.01299v2 )

ライセンス: Link先を確認
Hao-Hsiang Yang and Kuan-Chih Huang and Wei-Ting Chen(参考訳) 水中画像の強化は、自律型水中車両および遠隔操作車両が水中環境を探索し理解するための重要な低レベルコンピュータビジョンタスクである。 近年,多くのコンピュータビジョン問題において深層畳み込みニューラルネットワーク(CNN)が成功しており,水中画像の強化も行われている。 水中画像強調に優れた性能を持つ深層学習手法は数多く存在するが、そのメモリとモデルパラメータのコストは実用上の障害となっている。 この問題に対処するために,軽量適応機能融合ネットワーク (LAFFNet) を提案する。 モデルは、複数の適応的特徴融合(AAF)モジュールを持つエンコーダ・デコーダモデルである。 AAFは、異なるカーネルサイズで複数のブランチを仮定し、マルチスケールの特徴マップを生成する。 さらに、チャネルアテンションはこれらの特徴マップを適応的にマージするために使用される。 提案手法はパラメータ数を2.5Mから0.15M(約94%削減)に削減するが,実験により最先端のアルゴリズムよりも優れる。 さらに,laffnetは,サリアンス物体検出や単一画像深度推定などの高レベル視覚タスクを効果的に改善することを示す。

Underwater image enhancement is an important low-level computer vision task for autonomous underwater vehicles and remotely operated vehicles to explore and understand the underwater environments. Recently, deep convolutional neural networks (CNNs) have been successfully used in many computer vision problems, and so does underwater image enhancement. There are many deep-learning-based methods with impressive performance for underwater image enhancement, but their memory and model parameter costs are hindrances in practical application. To address this issue, we propose a lightweight adaptive feature fusion network (LAFFNet). The model is the encoder-decoder model with multiple adaptive feature fusion (AAF) modules. AAF subsumes multiple branches with different kernel sizes to generate multi-scale feature maps. Furthermore, channel attention is used to merge these feature maps adaptively. Our method reduces the number of parameters from 2.5M to 0.15M (around 94% reduction) but outperforms state-of-the-art algorithms by extensive experiments. Furthermore, we demonstrate our LAFFNet effectively improves high-level vision tasks like salience object detection and single image depth estimation.
翻訳日:2021-05-06 13:01:11 公開日:2021-05-05
# スケルトンに基づく行動認識における3次特徴の活用

Leveraging Third-Order Features in Skeleton-Based Action Recognition ( http://arxiv.org/abs/2105.01563v2 )

ライセンス: Link先を確認
Zhenyue Qin and Yang Liu and Pan Ji and Dongwoo Kim and Lei Wang and Bob McKay and Saeed Anwar and Tom Gedeon(参考訳) スケルトン配列は軽量でコンパクトであり、エッジデバイスでのアクション認識に理想的な候補である。 最近のスケルトンに基づく行動認識法では, 3次元関節座標から特徴を空間-時間的手がかりとして抽出し, 特徴融合のためのグラフニューラルネットワークで表現し, 認識性能を向上させる。 一階と二階の特徴、すなわち関節と骨の表現は高い精度をもたらすが、多くのモデルはまだ類似の運動軌跡を持つ作用によって混乱している。 これらの課題に対処するため,現代建築におけるアングルの形での3次特徴の融合を提案し,関節と身体部分の関係をしっかりと把握する。 一般的な時空間グラフニューラルネットワークとのこの単純な融合は、NTU60とNTU120を含む2つの大きなベンチマークにおいて、パラメータが少なく、実行時間を短縮しながら、新しい最先端の精度を実現する。 私たちのソースコードは、https://github.com/Z henyueQin/Angular-Sk eleton-Encodingで公開されています。

Skeleton sequences are light-weight and compact, and thus ideal candidates for action recognition on edge devices. Recent skeleton-based action recognition methods extract features from 3D joint coordinates as spatial-temporal cues, using these representations in a graph neural network for feature fusion, to boost recognition performance. The use of first- and second-order features, i.e., joint and bone representations has led to high accuracy, but many models are still confused by actions that have similar motion trajectories. To address these issues, we propose fusing third-order features in the form of angles into modern architectures, to robustly capture the relationships between joints and body parts. This simple fusion with popular spatial-temporal graph neural networks achieves new state-of-the-art accuracy in two large benchmarks, including NTU60 and NTU120, while employing fewer parameters and reduced run time. Our sourcecode is publicly available at: https://github.com/Z henyueQin/Angular-Sk eleton-Encoding.
翻訳日:2021-05-06 13:00:51 公開日:2021-05-05
# 誰が敵の移動を怖がる?

Who's Afraid of Adversarial Transferability? ( http://arxiv.org/abs/2105.00433v2 )

ライセンス: Link先を確認
Ziv Katzir, Yuval Elovici(参考訳) 敵対的トランスファービリティ、すなわち、敵対的摂動が複数の学習モデルを同時に騙す能力は、長年、敵対的機械学習の「大きな悪い狼」であった。 攻撃モデルのパラメータやトレーニングデータに関する事前の知識を必要としないトランスファービリティベースの攻撃が成功したことは、機械学習モデルが現実のシステムに固有のセキュリティ脅威をもたらすことを暗示している。 しかし, この領域で実施した研究はすべて, 伝達可能性を確率的特性として考慮し, 予め定義された評価セットを前提として, 対象モデルを見誤る可能性のある敵例の割合を推定しようとした。 その結果、これらの研究は現実の敵がしばしば攻撃失敗のコストに非常に敏感であるという事実を無視した。 この感度を見越すと、実際には現実のトランスファービリティに基づく攻撃はあり得ないが、トランスファービリティの脅威に対する過大な認識がもたらされたと我々は論じる。 理論的推論と一連の経験的結果を組み合わせることで、ブラックボックス設定で特定のターゲットモデルに特定の敵のサンプルが転送可能であるかどうかを予測できないことを示し、攻撃失敗のコストに敏感な敵に対する実生活攻撃ツールとしての敵の移動可能性の有効性を疑問視する。

Adversarial transferability, namely the ability of adversarial perturbations to simultaneously fool multiple learning models, has long been the "big bad wolf" of adversarial machine learning. Successful transferability-base d attacks requiring no prior knowledge of the attacked model's parameters or training data have been demonstrated numerous times in the past, implying that machine learning models pose an inherent security threat to real-life systems. However, all of the research performed in this area regarded transferability as a probabilistic property and attempted to estimate the percentage of adversarial examples that are likely to mislead a target model given some predefined evaluation set. As a result, those studies ignored the fact that real-life adversaries are often highly sensitive to the cost of a failed attack. We argue that overlooking this sensitivity has led to an exaggerated perception of the transferability threat, when in fact real-life transferability-base d attacks are quite unlikely. By combining theoretical reasoning with a series of empirical results, we show that it is practically impossible to predict whether a given adversarial example is transferable to a specific target model in a black-box setting, hence questioning the validity of adversarial transferability as a real-life attack tool for adversaries that are sensitive to the cost of a failed attack.
翻訳日:2021-05-06 13:00:22 公開日:2021-05-05
# RepMLP: 画像認識のための畳み込みを完全連結層に再パラメータ化する

RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition ( http://arxiv.org/abs/2105.01883v1 )

ライセンス: Link先を確認
Xiaohan Ding, Xiangyu Zhang, Jungong Han, Guiguang Ding(参考訳) 本稿では,画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるrepmlpを提案する。 畳み込み層と比較すると、FC層はより効率的で、長距離依存や位置パターンのモデリングに優れるが、局所構造を捉えることには優れており、画像認識にはあまり好ましくない。 画像認識において,局所的な事前処理をFCに加える構造的再パラメータ化手法を提案する。 具体的には、トレーニング中にRepMLP内に畳み込み層を構築し、推論のためにそれらをFCにマージする。 CIFARでは、単純な純粋なMLPモデルがCNNに非常に近い性能を示している。 従来のcnnにrepmlpを挿入することで、imagenetでは1.8%、顔認識では2.9%、フラップが少ない都市景観では2.3%のmiouでresnetを改善した。 我々の興味深い発見は、fcのグローバル表現能力と畳み込み前の位置認識を組み合わせることで、翻訳不変性(意味セグメンテーションなど)とアライメントされた画像と位置パターン(例えば顔認識)の両方のタスクにおいて、より高速なスピードでニューラルネットワークの性能を向上させることができることを示しています。 コードとモデルはhttps://github.com/d ingxiaoh/repmlpで入手できる。

We propose RepMLP, a multi-layer-perceptr on-style neural network building block for image recognition, which is composed of a series of fully-connected (FC) layers. Compared to convolutional layers, FC layers are more efficient, better at modeling the long-range dependencies and positional patterns, but worse at capturing the local structures, hence usually less favored for image recognition. We propose a structural re-parameterization technique that adds local prior into an FC to make it powerful for image recognition. Specifically, we construct convolutional layers inside a RepMLP during training and merge them into the FC for inference. On CIFAR, a simple pure-MLP model shows performance very close to CNN. By inserting RepMLP in traditional CNN, we improve ResNets by 1.8% accuracy on ImageNet, 2.9% for face recognition, and 2.3% mIoU on Cityscapes with lower FLOPs. Our intriguing findings highlight that combining the global representational capacity and positional perception of FC with the local prior of convolution can improve the performance of neural network with faster speed on both the tasks with translation invariance (e.g., semantic segmentation) and those with aligned images and positional patterns (e.g., face recognition). The code and models are available at https://github.com/D ingXiaoH/RepMLP.
翻訳日:2021-05-06 12:59:59 公開日:2021-05-05
# 自然言語の説明は論理的問題を表すか? 説明可能なNLIゴールド標準の検証

Do Natural Language Explanations Represent Valid Logical Arguments? Verifying Entailment in Explainable NLI Gold Standards ( http://arxiv.org/abs/2105.01974v1 )

ライセンス: Link先を確認
Marco Valentino, Ian Pratt-Hartman, Andr\'e Freitas(参考訳) Explainable NLPにおける新たな研究のラインは、ステップワイズ推論と説明生成機能を備えたモデルの構築と評価に使用される、人間のアノテーションによる説明と合理性に富んだデータセットの作成である。 人間の注釈による説明は推論の根拠として用いられるが、その一貫性と厳密さに関する体系的な評価が欠如している。 我々は,NLIにおける説明金基準(XGS)の批判的品質評価を行うため,人手による説明の論理的妥当性を定量化するために,説明細則検証(EEV)と呼ばれる体系的アノテーション手法を提案する。 主要な3つのデータセットへのeevの適用は、表面上で一貫性のある説明のほとんどが、不完全であることから明確に識別可能な論理エラーを含むことまで、論理的に無効な議論を表しているという驚くべき結論を示している。 この結論は、説明の推論的性質がいまだに十分に定式化され、理解されていないこと、また、説明金本位制の構築方法を改善するためには、この研究線に関する追加的な研究が必要であることを確認している。

An emerging line of research in Explainable NLP is the creation of datasets enriched with human-annotated explanations and rationales, used to build and evaluate models with step-wise inference and explanation generation capabilities. While human-annotated explanations are used as ground-truth for the inference, there is a lack of systematic assessment of their consistency and rigour. In an attempt to provide a critical quality assessment of Explanation Gold Standards (XGSs) for NLI, we propose a systematic annotation methodology, named Explanation Entailment Verification (EEV), to quantify the logical validity of human-annotated explanations. The application of EEV on three mainstream datasets reveals the surprising conclusion that a majority of the explanations, while appearing coherent on the surface, represent logically invalid arguments, ranging from being incomplete to containing clearly identifiable logical errors. This conclusion confirms that the inferential properties of explanations are still poorly formalised and understood, and that additional work on this line of research is necessary to improve the way Explanation Gold Standards are constructed.
翻訳日:2021-05-06 12:59:32 公開日:2021-05-05
# PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Table Image Recognition to Latex ( http://arxiv.org/abs/2105.01846v1 )

ライセンス: Link先を確認
Yelin He and Xianbiao Qi and Jiaquan Ye and Peng Gao and Yihao Chen and Bingcong Li and Xin Tang and Rong Xiao(参考訳) 本稿では,ICDAR 2021コンペティション・オン・サイエント・テーブル画像認識のためのソリューションをLaTeXに提示する。 テーブル構造再構成(TSR)とテーブルコンテンツ再構成(TCR)の2つのサブタスクがある。 両サブタスクを2つの個別画像対シーケンス認識問題として扱う。 これまで提案してきたアルゴリズムマスタである \cite{lu2019master} をシーンテキスト認識に活用した。 ネットワーク構造,オプティマイザ,正規化法,事前学習モデル,入力画像の解像度,データ拡張,モデルアンサンブルなど,様々な観点からMASTERモデルを最適化する。 提案手法は,TSRタスクで0.7444 Exact Matchと0.8765 Exact Match @95\%を達成し,TRタスクで0.5586 Exact Matchと0.7386 Exact Match 95\%を得る。

This paper presents our solution for the ICDAR 2021 Competition on Scientific Table Image Recognition to LaTeX. This competition has two sub-tasks: Table Structure Reconstruction (TSR) and Table Content Reconstruction (TCR). We treat both sub-tasks as two individual image-to-sequence recognition problems. We leverage our previously proposed algorithm MASTER \cite{lu2019master}, which is originally proposed for scene text recognition. We optimize the MASTER model from several perspectives: network structure, optimizer, normalization method, pre-trained model, resolution of input image, data augmentation, and model ensemble. Our method achieves 0.7444 Exact Match and 0.8765 Exact Match @95\% on the TSR task, and obtains 0.5586 Exact Match and 0.7386 Exact Match 95\% on the TCR task.
翻訳日:2021-05-06 12:59:13 公開日:2021-05-05
# PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML

PingAn-VCGroup's Solution for ICDAR 2021 Competition on Scientific Literature Parsing Task B: Table Recognition to HTML ( http://arxiv.org/abs/2105.01848v1 )

ライセンス: Link先を確認
Jiaquan Ye and Xianbiao Qi and Yelin He and Yihao Chen and Dengyi Gu and Peng Gao and Rong Xiao(参考訳) 本稿では,ICDAR 2021コンペティションにおける課題B:テーブル認識のHTMLへの適用について述べる。 本手法では,テーブル構造認識タスクをテーブル構造認識,テキストライン検出,テキストライン認識,ボックス割り当てという4つのサブタスクに分割し,ロバストな画像テキスト認識アルゴリズムであるmaster [1]に基づいてテーブル構造認識アルゴリズムをカスタマイズする。 PSENet [2]は、テーブルイメージ内の各テキスト行を検出するために使用される。 テキストの行認識には、MASTERにもモデルが組み込まれています。 最後に、ボックス割り当てフェーズにおいて、psenet が検出したテキストボックスと、表構造予測により再構成された構造項目を関連付け、認識されたテキスト行の内容を対応する項目に埋める。 提案手法では,開発段階で9,115点,最終評価段階で96.84%のtedsスコアを,96.32%のtedsスコアを9,064点とした。

This paper presents our solution for ICDAR 2021 competition on scientific literature parsing taskB: table recognition to HTML. In our method, we divide the table content recognition task into foursub-tasks: table structure recognition, text line detection, text line recognition, and box assignment.Our table structure recognition algorithm is customized based on MASTER [1], a robust image textrecognition algorithm. PSENet [2] is used to detect each text line in the table image. For text linerecognition, our model is also built on MASTER. Finally, in the box assignment phase, we associatedthe text boxes detected by PSENet with the structure item reconstructed by table structure prediction,and fill the recognized content of the text line into the corresponding item. Our proposed methodachieves a 96.84% TEDS score on 9,115 validation samples in the development phase, and a 96.32%TEDS score on 9,064 samples in the final evaluation phase.
翻訳日:2021-05-06 12:58:58 公開日:2021-05-05
# セマンティックセグメンテーションにおける教師なしドメイン適応のためのコントラスト学習と自己学習

Contrastive Learning and Self-Training for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2105.02001v1 )

ライセンス: Link先を確認
Robert A. Marsden, Alexander Bartler, Mario D\"obler, Bin Yang(参考訳) 深層畳み込みニューラルネットワークはセマンティックセグメンテーションの最先端の結果を大幅に改善した。 それにもかかわらず、現代のアーキテクチャでさえ、異なるドメインに由来するテストデータセットにうまく一般化する能力がない。 unsupervised domain adaptation(uda)は、未公開ドメインのトレーニングデータのコストのかかるアノテーションを避けるために、ラベル付きソースドメインからラベル付きターゲットドメインへの効率的な知識転送を提供する。 従来の研究は主に、敵対的な訓練や自己学習を用いて、二つのドメイン間の相違を最小限にすることに焦点を当ててきた。 敵対的訓練は、グローバル分布間の不一致を最小限に抑えるため、正しい意味カテゴリーを一致させることができないかもしれないが、自己訓練は、信頼できる擬似ラベルを提供する方法の問題を提起する。 ドメイン間の正しい意味カテゴリーを整合させるために,領域間のカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。 さらに,本手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。 時間的感覚伝達によるコントラスト学習と自己学習(clst)は、2つの領域間の知識伝達を可能にするが、それらの組み合わせは共生構造をもたらす。 GTA5 $\rightarrow$ CityscapesとSynTHIA $\rightarrow$ Cityscapesの2つのドメイン適応ベンチマークでアプローチを検証する。 我々の手法は最先端技術よりも優れた結果が得られる。 私たちはそのコードを公開します。

Deep convolutional neural networks have considerably improved state-of-the-art results for semantic segmentation. Nevertheless, even modern architectures lack the ability to generalize well to a test dataset that originates from a different domain. To avoid the costly annotation of training data for unseen domains, unsupervised domain adaptation (UDA) attempts to provide efficient knowledge transfer from a labeled source domain to an unlabeled target domain. Previous work has mainly focused on minimizing the discrepancy between the two domains by using adversarial training or self-training. While adversarial training may fail to align the correct semantic categories as it minimizes the discrepancy between the global distributions, self-training raises the question of how to provide reliable pseudo-labels. To align the correct semantic categories across domains, we propose a contrastive learning approach that adapts category-wise centroids across domains. Furthermore, we extend our method with self-training, where we use a memory-efficient temporal ensemble to generate consistent and reliable pseudo-labels. Although both contrastive learning and self-training (CLST) through temporal ensembling enable knowledge transfer between two domains, it is their combination that leads to a symbiotic structure. We validate our approach on two domain adaptation benchmarks: GTA5 $\rightarrow$ Cityscapes and SYNTHIA $\rightarrow$ Cityscapes. Our method achieves better or comparable results than the state-of-the-art. We will make the code publicly available.
翻訳日:2021-05-06 12:58:40 公開日:2021-05-05
# ベイジアンロジスティック形状モデル推論:コチェリー画像セグメンテーションへの応用

Bayesian Logistic Shape Model Inference: application to cochlea image segmentation ( http://arxiv.org/abs/2105.02045v1 )

ライセンス: Link先を確認
Wang Zihao, Demarcy Thomas, Vandersteen Clair, Gnansia Dan, Raffaelli Charles, Guevara Nicolas, Delingette Herv\'e(参考訳) 形状情報を組み込むことは、多くの臓器や解剖学的構造を医療画像に記述するのに不可欠である。 本稿では, 医用画像のセグメンテーションのためのパラメトリック形状モデルのベイズ推定と, 解釈可能な結果の提供を目的として, 従来の研究は主に参照テンプレート形状に適用したパラメトリック空間変換に焦点をあてたものである。 提案フレームワークは,ロジスティック関数による一般的な形状関数に基づいて,出現確率と先行ラベル確率を定義する。 シグモノイドで定義された基準長パラメータは、形状と外観情報のトレードオフを制御する。 形状パラメータの推測は、gauss-newton最適化段階が形状パラメータの後方確率の近似を可能にする期待最大化アプローチにおいて行われる。 この枠組みは10パラメータ形状モデルで制約された臨床CT画像からコチェリー構造のセグメンテーションに適用される。 3つの異なるデータセットで評価され、1つは200以上の患者画像を含む。 その結果,従来の教師なしメソッドよりも優れた教師付きメソッドに匹敵するパフォーマンスが得られた。 また、パラメータ分布の解析や、形状モデルの影響を含むセグメンテーションの不確実性の定量化も可能である。

Incorporating shape information is essential for the delineation of many organs and anatomical structures in medical images. While previous work has mainly focused on parametric spatial transformations applied on reference template shapes, in this paper, we address the Bayesian inference of parametric shape models for segmenting medical images with the objective to provide interpretable results. The proposed framework defines a likelihood appearance probability and a prior label probability based on a generic shape function through a logistic function. A reference length parameter defined in the sigmoid controls the trade-off between shape and appearance information. The inference of shape parameters is performed within an Expectation-Maximisa tion approach where a Gauss-Newton optimization stage allows to provide an approximation of the posterior probability of shape parameters. This framework is applied to the segmentation of cochlea structures from clinical CT images constrained by a 10 parameter shape model. It is evaluated on three different datasets, one of which includes more than 200 patient images. The results show performances comparable to supervised methods and better than previously proposed unsupervised ones. It also enables an analysis of parameter distributions and the quantification of segmentation uncertainty including the effect of the shape model.
翻訳日:2021-05-06 12:58:16 公開日:2021-05-05
# 逆画像変換のための条件付き可逆ニューラルネットワーク

Conditional Invertible Neural Networks for Diverse Image-to-Image Translation ( http://arxiv.org/abs/2105.02104v1 )

ライセンス: Link先を確認
Lynton Ardizzone, Jakob Kruse, Carsten L\"uth, Niels Bracher, Carsten Rother, Ullrich K\"othe(参考訳) 我々は、条件付き可逆ニューラルネットワーク(cINN)と呼ばれる新しいアーキテクチャを導入し、自然画像に対する多様な画像間翻訳の課題に対処する。 これはいくつかの基本的な制限のため、既存の INN モデルでは容易ではない。 cINNは、純粋に生成したINNモデルと制約のないフィードフォワードネットワークを結合し、条件付け画像を最大情報的特徴に効率的に前処理する。 cINNの全てのパラメータは、安定な最大可能性ベースのトレーニング手順で共同最適化される。 INN ベースのモデルは GAN よりも文学にはあまり注目されていないが、例えば GAN には顕著な性質がないことが示されている。 モード崩壊に対する 明らかな免疫 当社のcinnはこれらの特性を画像から画像への変換に活用し、昼夜の翻訳と画像のカラー化を実証した。 さらに、我々の双方向cINNアーキテクチャを利用して、画像スタイルを直感的に変更するような潜在空間の創発的特性を探索し、操作する。

We introduce a new architecture called a conditional invertible neural network (cINN), and use it to address the task of diverse image-to-image translation for natural images. This is not easily possible with existing INN models due to some fundamental limitations. The cINN combines the purely generative INN model with an unconstrained feed-forward network, which efficiently preprocesses the conditioning image into maximally informative features. All parameters of a cINN are jointly optimized with a stable, maximum likelihood-based training procedure. Even though INN-based models have received far less attention in the literature than GANs, they have been shown to have some remarkable properties absent in GANs, e.g. apparent immunity to mode collapse. We find that our cINNs leverage these properties for image-to-image translation, demonstrated on day to night translation and image colorization. Furthermore, we take advantage of our bidirectional cINN architecture to explore and manipulate emergent properties of the latent space, such as changing the image style in an intuitive way.
翻訳日:2021-05-06 12:58:00 公開日:2021-05-05
# 物理的にインスパイアされた高密度核融合ネットワーク

Physically Inspired Dense Fusion Networks for Relighting ( http://arxiv.org/abs/2105.02209v1 )

ライセンス: Link先を確認
Amirsaeed Yazdani, Tiantong Guo, Vishal Monga(参考訳) 画像のリライトは、拡張現実の応用に触発された重要な研究の関心事である。 物理に基づく伝統的な手法やブラックボックス深層学習モデルが開発されている。 既存のディープネットワークは、新しい状態を達成するためにトレーニングを活用しているが、トレーニングが制限されている場合や、密集した影の追加や削除といった問題表現論を表現していない場合、うまく機能しない場合がある。 本稿では,ニューラルネットワークを物理的洞察で強化するモデルを提案する。 より正確には、2つの異なる戦略によって新しい照明設定の照明画像を生成し、その後重みマップ(w)を用いて融合する。 第1の戦略では,本手法はシーンの反射率パラメータ(アルベド)と被写体画像の照度パラメータ(シェーディング)を予測する(本手法を内在画像分解(IID)と呼ぶ)。 第2の戦略はブラックボックスのアプローチのみに基づいており、この手法では、トレーニング段階における地平線画像と損失項に基づいて重みを最適化し、信頼出力を直接生成する(この戦略を直接的に参照する)。 提案手法は1対1と任意のリライト問題の両方に適用できるが,それぞれの場合において,モデル性能を高める問題固有のコンポーネントを導入する: 1) 1対1リライトでは,シーン内の面の通常のベクトルを組み込んで,画像内の光沢と影を調整する。 2)任意のリライトに対して,特徴抽出を強化するために,アーキテクチャに追加のマルチスケールブロックを提案する。 VIDIT 2020とVIDIT 2021データセット(NETRE 2021リライティングチャレンジで使用される)の実験結果から、我々の提案は、よく知られた忠実度指標と知覚的損失の観点から、多くの最先端手法より優れていることが判明した。

Image relighting has emerged as a problem of significant research interest inspired by augmented reality applications. Physics-based traditional methods, as well as black box deep learning models, have been developed. The existing deep networks have exploited training to achieve a new state of the art; however, they may perform poorly when training is limited or does not represent problem phenomenology, such as the addition or removal of dense shadows. We propose a model which enriches neural networks with physical insight. More precisely, our method generates the relighted image with new illumination settings via two different strategies and subsequently fuses them using a weight map (w). In the first strategy, our model predicts the material reflectance parameters (albedo) and illumination/geometr y parameters of the scene (shading) for the relit image (we refer to this strategy as intrinsic image decomposition (IID)). The second strategy is solely based on the black box approach, where the model optimizes its weights based on the ground-truth images and the loss terms in the training stage and generates the relit output directly (we refer to this strategy as direct). While our proposed method applies to both one-to-one and any-to-any relighting problems, for each case we introduce problem-specific components that enrich the model performance: 1) For one-to-one relighting we incorporate normal vectors of the surfaces in the scene to adjust gloss and shadows accordingly in the image. 2) For any-to-any relighting, we propose an additional multiscale block to the architecture to enhance feature extraction. Experimental results on the VIDIT 2020 and the VIDIT 2021 dataset (used in the NTIRE 2021 relighting challenge) reveals that our proposal can outperform many state-of-the-art methods in terms of well-known fidelity metrics and perceptual loss.
翻訳日:2021-05-06 12:57:43 公開日:2021-05-05
# 効率的な圧縮認識モデルトレーニングのための正則化周波数の変調

Modulating Regularization Frequency for Efficient Compression-Aware Model Training ( http://arxiv.org/abs/2105.01875v1 )

ライセンス: Link先を確認
Dongsoo Lee, Se Jung Kwon, Byeongwook Kim, Jeongin Yun, Baeseong Park, Yongkweon Jeon(参考訳) モデル圧縮は,大きなニューラルネットワークサイズのため,ますます重要になっているが,より洗練されたモデル修正と長いトレーニング時間を必要とするため,圧縮認識訓練は困難であり,本研究では,実用的で効率的な圧縮認識訓練手法のための新しい正規化手法として,正規化周波数(トレーニング中に圧縮がどれだけ頻繁に実行されるか)を導入する。 減量や減量といった多種多様な正則化技術では、Deep Neural Networks(DNN)における一般化を改善するために、正則化強度の最適化が不可欠である。 モデル圧縮も正則化の適切な量を要求するが、モデル圧縮による正則化強度は圧縮比でのみ制御されている。 各種実験を通して、正規化周波数がモデル圧縮の正規化強度に重大な影響を及ぼすことを示す。 正規化周波数と圧縮比を組み合わせることで、ミニバッチあたりのモデル圧縮による重みの更新量を最適化し、最適なモデル精度を達成することができる。 正規化周波数の変調は時折モデル圧縮によって行われるが、従来の圧縮認識訓練は通常、ミニバッチ毎に行われる。

While model compression is increasingly important because of large neural network size, compression-aware training is challenging as it needs sophisticated model modifications and longer training time.In this paper, we introduce regularization frequency (i.e., how often compression is performed during training) as a new regularization technique for a practical and efficient compression-aware training method. For various regularization techniques, such as weight decay and dropout, optimizing the regularization strength is crucial to improve generalization in Deep Neural Networks (DNNs). While model compression also demands the right amount of regularization, the regularization strength incurred by model compression has been controlled only by compression ratio. Throughout various experiments, we show that regularization frequency critically affects the regularization strength of model compression. Combining regularization frequency and compression ratio, the amount of weight updates by model compression per mini-batch can be optimized to achieve the best model accuracy. Modulating regularization frequency is implemented by occasional model compression while conventional compression-aware training is usually performed for every mini-batch.
翻訳日:2021-05-06 12:56:55 公開日:2021-05-05
# 複数の基準に沿った選好学習:ゲーム理論の視点から

Preference learning along multiple criteria: A game-theoretic perspective ( http://arxiv.org/abs/2105.01850v1 )

ライセンス: Link先を確認
Kush Bhatia, Ashwin Pananjady, Peter L. Bartlett, Anca D. Dragan, Martin J. Wainwright(参考訳) 順序データからのランク付けに関する文献は広く、オブジェクト間のペア比較から全体的な嗜好を集約する方法はいくつかある。 特に、選好行列によって引き起こされる零和ゲームのナッシュ均衡は、フォン・ノイマンの勝者として知られる自然解の概念(オブジェクト上の勝利分布)を定義することがよく知られている。 しかし、現実の多くの問題は必然的に多基準であり、異なるペアの選好が異なる基準を規定している。 本研究では、ブラックウェルのアプローチ性からインスピレーションを得て、フォン・ノイマンの勝者の概念を多条件設定に一般化する。 本フレームワークは,基準間の選好の非線形集約を可能にし,多目的最適化から線形化に基づくアプローチを一般化する。 理論的観点から、多重基準問題インスタンスのブラックウェルの勝者は凸最適化問題の解として計算可能であることを示す。 さらに、ペア比較のランダムなサンプルから、単純なプラグイン推定器は、ほぼ最適の最小値サンプル複雑性を実現する。 最後に、自動運転に関するユーザー研究において、我々のフレームワークの実用性を紹介し、ブラックウェルの勝者がフォン・ノイマンの受賞者よりも全体的な選好に勝っていることを示す。

The literature on ranking from ordinal data is vast, and there are several ways to aggregate overall preferences from pairwise comparisons between objects. In particular, it is well known that any Nash equilibrium of the zero sum game induced by the preference matrix defines a natural solution concept (winning distribution over objects) known as a von Neumann winner. Many real-world problems, however, are inevitably multi-criteria, with different pairwise preferences governing the different criteria. In this work, we generalize the notion of a von Neumann winner to the multi-criteria setting by taking inspiration from Blackwell's approachability. Our framework allows for non-linear aggregation of preferences across criteria, and generalizes the linearization-based approach from multi-objective optimization. From a theoretical standpoint, we show that the Blackwell winner of a multi-criteria problem instance can be computed as the solution to a convex optimization problem. Furthermore, given random samples of pairwise comparisons, we show that a simple plug-in estimator achieves near-optimal minimax sample complexity. Finally, we showcase the practical utility of our framework in a user study on autonomous driving, where we find that the Blackwell winner outperforms the von Neumann winner for the overall preferences.
翻訳日:2021-05-06 12:56:01 公開日:2021-05-05
# 深層ニューラルネットワークにおける長距離メモリ効果の理解

Understanding Long Range Memory Effects in Deep Neural Networks ( http://arxiv.org/abs/2105.02062v1 )

ライセンス: Link先を確認
Chengli Tan, Jiangshe Zhang, and Junmin Liu(参考訳) \textit{Stochastic gradient descent} (SGD) は、ディープラーニングにおいて基本的な重要性である。 その単純さにもかかわらず、その効果を解明することは依然として困難である。 従来, SGD の成功は, トレーニングプロセスで発生する textit{stochastic gradient noise} (SGN) に起因する。 この一般的なコンセンサスに基づいて、SGD はブラウンあるいはL\'evy の安定運動によって駆動される \textit{stochastic differential equation} (SDE) のオイラー・丸山離散化として頻繁に扱われ、解析される。 本研究では,SGNがガウス的でも安定的でもないことを論じる。 代わりに、SGN級数に現れる長期相関に着想を得て、SGD を \textit{fractional Brownian motion} (FBM) によって駆動される SDE の離散化と見なすことができる。 したがって、sgdダイナミクスの異なる収束挙動が十分に決定される。 さらに、FBMにより駆動されるSDEの第1通過時間はほぼ導出される。 これはより大きなハーストパラメータの脱出率が低いことを示し、したがってsgdは平坦なミニマムでより長く保たれる。 これは、SGDがよく一般化する平坦なミニマを好むよく知られた現象と一致する。 4つの実験グループを用いて予測を検証し,様々なモデルアーキテクチャ,データセット,トレーニング戦略において長期記憶効果が持続することが実証された。 我々の研究は新たな視点を開き、SGDのより深い理解に寄与するかもしれない。

\textit{Stochastic gradient descent} (SGD) is of fundamental importance in deep learning. Despite its simplicity, elucidating its efficacy remains challenging. Conventionally, the success of SGD is attributed to the \textit{stochastic gradient noise} (SGN) incurred in the training process. Based on this general consensus, SGD is frequently treated and analyzed as the Euler-Maruyama discretization of a \textit{stochastic differential equation} (SDE) driven by either Brownian or L\'evy stable motion. In this study, we argue that SGN is neither Gaussian nor stable. Instead, inspired by the long-time correlation emerging in SGN series, we propose that SGD can be viewed as a discretization of an SDE driven by \textit{fractional Brownian motion} (FBM). Accordingly, the different convergence behavior of SGD dynamics is well grounded. Moreover, the first passage time of an SDE driven by FBM is approximately derived. This indicates a lower escaping rate for a larger Hurst parameter, and thus SGD stays longer in flat minima. This happens to coincide with the well-known phenomenon that SGD favors flat minima that generalize well. Four groups of experiments are conducted to validate our conjecture, and it is demonstrated that long-range memory effects persist across various model architectures, datasets, and training strategies. Our study opens up a new perspective and may contribute to a better understanding of SGD.
翻訳日:2021-05-06 12:55:42 公開日:2021-05-05
# 効果的なメタラーニングのためのファインチューニング

How Fine-Tuning Allows for Effective Meta-Learning ( http://arxiv.org/abs/2105.02221v1 )

ライセンス: Link先を確認
Kurtland Chua, Qi Lei, Jason D. Lee(参考訳) 表現学習はメタ学習の文脈で広く研究されており、共有表現を通じて新しいタスクを素早く学習することができる。 MAMLなどの最近の研究は、微調整による指標を用いて、表現を得るプロキシとして、微調整が優れたパフォーマンスを達成するための容易さを計測している。 利用可能なタスクがほぼ同じ基礎的表現を使用すると仮定して,MAMLのようなアルゴリズムから導出される表現を解析するための理論的枠組みを提案する。 次に,勾配降下による微調整によって得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。 上界は一般的な関数クラスに適用され、ロジスティック回帰とニューラルネットワークの設定でフレームワークの保証をインスタンス化することで示します。 対照的に、タスク固有の微調整を考慮せずに訓練された表現を用い、最悪の場合、ソースタスクにアクセスできない学習者と同様に、任意のアルゴリズムが機能する設定が存在する。 この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。

Representation learning has been widely studied in the context of meta-learning, enabling rapid learning of new tasks through shared representations. Recent works such as MAML have explored using fine-tuning-based metrics, which measure the ease by which fine-tuning can achieve good performance, as proxies for obtaining representations. We present a theoretical framework for analyzing representations derived from a MAML-like algorithm, assuming the available tasks use approximately the same underlying representation. We then provide risk bounds on the best predictor found by fine-tuning via gradient descent, demonstrating that the algorithm can provably leverage the shared structure. The upper bound applies to general function classes, which we demonstrate by instantiating the guarantees of our framework in the logistic regression and neural network settings. In contrast, we establish the existence of settings where any algorithm, using a representation trained with no consideration for task-specific fine-tuning, performs as well as a learner with no access to source tasks in the worst case. This separation result underscores the benefit of fine-tuning-based methods, such as MAML, over methods with "frozen representation" objectives in few-shot learning.
翻訳日:2021-05-06 12:55:21 公開日:2021-05-05
# 視覚トランスフォーマによるトリプレットオートエンコーダの潜在空間における交通シナリオ基盤の新規検出と解析

Novelty Detection and Analysis of Traffic Scenario Infrastructures in the Latent Space of a Vision Transformer-Based Triplet Autoencoder ( http://arxiv.org/abs/2105.01924v1 )

ライセンス: Link先を確認
Jonas Wurst, Lakshman Balasubramanian, Michael Botsch and Wolfgang Utschick(参考訳) 未知および未テストのシナリオの検出は、シナリオベースのテストに不可欠である。 シナリオベースのテストは、自動運転車を検証するためのアプローチであると考えられている。 トラフィックシナリオは複数のコンポーネントで構成され、インフラストラクチャはその1つです。 本研究では,インフラストラクチャイメージに基づいて新たなトラフィックシナリオを検出する手法を提案する。 オートエンコーダ三重項ネットワークは、外乱検出に使用されるインフラストラクチャイメージの潜在表現を提供する。 ネットワークのトリプレットトレーニングは、インフラストラクチャの接続グラフに基づいている。 提案したアーキテクチャを用いて,オートエンコーダの近傍関係に予め定義された類似性を組み込んだ潜在空間を形成する。 アーキテクチャに関するアブレーション研究は、三重項オートエンコーダの組み合わせの重要性を強調している。 最高のアーキテクチャは、畳み込みのない注意に基づくネットワークであるビジョントランスフォーマーに基づいている。 提案手法は他の最先端の異常検出手法よりも優れている。

Detecting unknown and untested scenarios is crucial for scenario-based testing. Scenario-based testing is considered to be a possible approach to validate autonomous vehicles. A traffic scenario consists of multiple components, with infrastructure being one of it. In this work, a method to detect novel traffic scenarios based on their infrastructure images is presented. An autoencoder triplet network provides latent representations for infrastructure images which are used for outlier detection. The triplet training of the network is based on the connectivity graphs of the infrastructure. By using the proposed architecture, expert-knowledge is used to shape the latent space such that it incorporates a pre-defined similarity in the neighborhood relationships of an autoencoder. An ablation study on the architecture is highlighting the importance of the triplet autoencoder combination. The best performing architecture is based on vision transformers, a convolution-free attention-based network. The presented method outperforms other state-of-the-art outlier detection approaches.
翻訳日:2021-05-06 12:55:01 公開日:2021-05-05
# 知覚勾配ネットワーク

Perceptual Gradient Networks ( http://arxiv.org/abs/2105.01957v1 )

ライセンス: Link先を確認
Dmitry Nikulin, Roman Suvorov, Aleksei Ivakhnenko, Victor Lempitsky(参考訳) 画像生成のためのディープラーニングの多くの応用は、ジェネレータネットワークのトレーニングまたは微調整に知覚損失を使用する。 しかし知覚的損失の使用は、大きな画像分類ネットワークで前方に何度もパスするだけでなく、このネットワークのアクティベーションを保存するのに必要なかなりのメモリオーバーヘッドを引き起こす。 したがって、このようなオーバーヘッドを取り除くことは望ましいし、時には必要です。 本研究では,前向きのパスなしで計算される知覚損失の近似を用いて,ジェネレータネットワークを訓練する方法を提案する。 代わりに、知覚的損失の勾配場を直接合成する単純な知覚的勾配ネットワークを用いる。 予測勾配を安定化するプロキシターゲットの概念を導入することにより,学習が発散や振動を生じないことを示す。 さらに,本手法では,予測勾配の解釈が可能であり,知覚的損失の内在性を把握し,今後の作業で改善する可能性も示唆している。

Many applications of deep learning for image generation use perceptual losses for either training or fine-tuning of the generator networks. The use of perceptual loss however incurs repeated forward-backward passes in a large image classification network as well as a considerable memory overhead required to store the activations of this network. It is therefore desirable or sometimes even critical to get rid of these overheads. In this work, we propose a way to train generator networks using approximations of perceptual loss that are computed without forward-backward passes. Instead, we use a simpler perceptual gradient network that directly synthesizes the gradient field of a perceptual loss. We introduce the concept of proxy targets, which stabilize the predicted gradient, meaning that learning with it does not lead to divergence or oscillations. In addition, our method allows interpretation of the predicted gradient, providing insight into the internals of perceptual loss and suggesting potential ways to improve it in future work.
翻訳日:2021-05-06 12:54:48 公開日:2021-05-05
# mcgnet:メタアライメントとコンテキストゲート集約による部分的多視点少数ショット学習

MCGNet: Partial Multi-view Few-shot Learning via Meta-alignment and Context Gated-aggregation ( http://arxiv.org/abs/2105.02046v1 )

ライセンス: Link先を確認
Yuan Zhou, Yanrong Guo, Shijie Hao, Richang Hong, Meng Wang(参考訳) 本稿では,2つのタスク,すなわち2つのタスクを統一する「textbf{partial multi-view few-shot learning」という課題を提案する。 少数ショット学習と部分的多視点学習。 従来の数点学習とは違って,この課題は,現実のアプリケーションに適合する不完全な多視点事前知識を考えると,数点学習問題を解決することを目的としている。 しかし、この作業には2つの困難が伴う。 第一に、異なるビュー間のギャップは、特にサンプルの不足により、大きくて小さくなります。 第二に、不完全なビュー情報のため、ショット学習は従来のものよりも困難になる。 上記の問題に対処するため,メタアライメントとコンテキストゲートアグリゲーションを部分的マルチビューGNNに組み込むことにより,新しい「textbf{Meta-alignment and Context Gated-aggregation Network」を提案する。 具体的には、メタアレーメントは異なるビューの機能をよりコンパクトな潜在空間に効果的にマッピングし、ビューギャップを減少させる。 さらに、コンテクストのゲート・アグリゲーションは、クロスビューのコンテキストを活用することで、ビュー・アグリゲーションの影響を軽減する。 提案手法を評価するため,pieおよびorlデータセット上で広範な実験を行った。 提案手法は,他の数発の学習手法と比較することにより,特に難解な視点で最先端のパフォーマンスを得る。

In this paper, we propose a new challenging task named as \textbf{partial multi-view few-shot learning}, which unifies two tasks, i.e. few-shot learning and partial multi-view learning, together. Different from the traditional few-shot learning, this task aims to solve the few-shot learning problem given the incomplete multi-view prior knowledge, which conforms more with the real-world applications. However, this brings about two difficulties within this task. First, the gaps among different views can be large and hard to reduce, especially with sample scarcity. Second, due to the incomplete view information, few-shot learning becomes more challenging than the traditional one. To deal with the above issues, we propose a new \textbf{Meta-alignment and Context Gated-aggregation Network} by equipping meta-alignment and context gated-aggregation with partial multi-view GNNs. Specifically, the meta-alignment effectively maps the features from different views into a more compact latent space, thereby reducing the view gaps. Moreover, the context gated-aggregation alleviates the view-missing influence by leveraging the cross-view context. Extensive experiments are conducted on the PIE and ORL dataset for evaluating our proposed method. By comparing with other few-shot learning methods, our method obtains the state-of-the-art performance especially with heavily-missing views.
翻訳日:2021-05-06 12:54:34 公開日:2021-05-05
# 自然性交通データを用いた運転行動と嗜好の校正

Calibration of Human Driving Behavior and Preference Using Naturalistic Traffic Data ( http://arxiv.org/abs/2105.01820v1 )

ライセンス: Link先を確認
Qi Dai, Di Shen, Jinhong Wang, Suzhou Huang and Dimitar Filev(参考訳) 接続された自動運転車やスマートインフラストラクチャが普及している時代においても、人間の運転行動の定量的理解は極めて重要である。 これは特に、自動運転車と人間の運転する車両が共存する混成交通環境が、かなりの間続くことが期待されているためである。 現実的, 自然主義的な交通環境下での運転行動から, 人間の運転嗜好を統計的に推測できるような, 意思決定のための包括的モデリング・フレームワークが必要である。 マルチエージェントに基づくシミュレーションと最適化を用いたスマートワールドにおけるスマートカーのための最近提案された計算フレームワークを活用して,まず,運転意思決定の前方問題がどのように状態空間モデルとしてモデル化されるかを再定義する。 次に,標準カルマンフィルタを用いて,自然トラフィックデータからドライバの好みを推定するために,モデルをどのように反転させるかを示す。 杉山実験から得られた車両軌道データを用いて, 当初, ボトルネックを伴わずに着地衝撃波の自然発生を実証した。 推定状態フィルタは各車両によく適合するだけでなく、推定ユーティリティ関数は観測された集合行動の定量的に類似したパターンを再現することができる。 我々のアプローチの際立った利点は、計算負担を大幅に削減することである。 これは、フォワードモデルが、本質的にはマルチエージェント相互作用と動的である駆動決定過程を、有限の事前予測で状態に依存する独立した静的最適化問題の列として扱うためである。 したがって、より計算的に要求されるであろう相互作用する動的反転問題を、実際にサイドステップで解決することができる。

Understanding human driving behaviors quantitatively is critical even in the era when connected and autonomous vehicles and smart infrastructure are becoming ever more prevalent. This is particularly so as that mixed traffic settings, where autonomous vehicles and human driven vehicles co-exist, are expected to persist for quite some time. Towards this end it is necessary that we have a comprehensive modeling framework for decision-making within which human driving preferences can be inferred statistically from observed driving behaviors in realistic and naturalistic traffic settings. Leveraging a recently proposed computational framework for smart vehicles in a smart world using multi-agent based simulation and optimization, we first recapitulate how the forward problem of driving decision-making is modeled as a state space model. We then show how the model can be inverted to estimate driver preferences from naturalistic traffic data using the standard Kalman filter technique. We explicitly illustrate our approach using the vehicle trajectory data from Sugiyama experiment that was originally meant to demonstrate how stop-and-go shockwave can arise spontaneously without bottlenecks. Not only the estimated state filter can fit the observed data well for each individual vehicle, the inferred utility functions can also re-produce quantitatively similar pattern of the observed collective behaviors. One distinct advantage of our approach is the drastically reduced computational burden. This is possible because our forward model treats driving decision process, which is intrinsically dynamic with multi-agent interactions, as a sequence of independent static optimization problems contingent on the state with a finite look ahead anticipation. Consequently we can practically sidestep solving an interacting dynamic inversion problem that would have been much more computationally demanding.
翻訳日:2021-05-06 12:54:10 公開日:2021-05-05
# RDMSim:自己適応のための意思決定手法の評価と比較

RDMSim: An Exemplar for Evaluation and Comparison of Decision-Making Techniques for Self-Adaptation ( http://arxiv.org/abs/2105.01978v1 )

ライセンス: Link先を確認
Huma Samin (1), Luis H. Garcia Paucar (1), Nelly Bencomo (1), Cesar M. Carranza Hurtado (2), Erik M. Fredericks (3) ((1) SEA, Aston University, Birmingham, UK, (2) Universidad Pontificia Cat\'olica del Per\'u, Lima, Per\'u, (3) Grand Valley State University, Michigan, USA)(参考訳) 自己適応的アプローチの意思決定は、事前に予測できない事象の不確実性の定量化や、本質的に多目的意思決定(例えば、コスト対信頼性サービスの提供)を含む競合する目的への対処など、さまざまな課題に対処する必要がある。 自己適応のための意思決定技術の評価と比較を可能にするために,RDMSim exemplarを提案する。 RDMSimは、自己適応を支援する環境不確実性の下での意思決定技術の評価と比較を可能にする。 模範者の焦点はリモートデータミラーリングに関連するドメインの問題であり、上述した課題に直面する機会を与えている。 rdmsimは、意思決定技術に関連し、mape-kループに基づく外部適応マネージャと簡単に統合できるプローブおよびエフェクタコンポーネントを提供する。 具体的には,実世界の実験シミュレータである rdmsim (i) について述べる。 (ii) 実験と比較目的に使用できる現実的なシミュレーションシナリオのセット, (iii) 比較のためにのデータについて述べる。

Decision-making for self-adaptation approaches need to address different challenges, including the quantification of the uncertainty of events that cannot be foreseen in advance and their effects, and dealing with conflicting objectives that inherently involve multi-objective decision making (e.g., avoiding costs vs. providing reliable service). To enable researchers to evaluate and compare decision-making techniques for self-adaptation, we present the RDMSim exemplar. RDMSim enables researchers to evaluate and compare techniques for decision-making under environmental uncertainty that support self-adaptation. The focus of the exemplar is on the domain problem related to Remote Data Mirroring, which gives opportunity to face the challenges described above. RDMSim provides probe and effector components for easy integration with external adaptation managers, which are associated with decision-making techniques and based on the MAPE-K loop. Specifically, the paper presents (i) RDMSim, a simulator for real-world experimentation, (ii) a set of realistic simulation scenarios that can be used for experimentation and comparison purposes, (iii) data for the sake of comparison.
翻訳日:2021-05-06 12:53:41 公開日:2021-05-05
# AIベースのシステムのためのソフトウェアエンジニアリング: 調査

Software Engineering for AI-Based Systems: A Survey ( http://arxiv.org/abs/2105.01984v1 )

ライセンス: Link先を確認
Silverio Mart\'inez-Fern\'andez, Justus Bogner, Xavier Franch, Marc Oriol, Julien Siebert, Adam Trendowicz, Anna Maria Vollmer, Stefan Wagner(参考訳) AIベースのシステムは、少なくとも1つのAIコンポーネント(例えば、画像認識と音声認識、自律運転)で機能する機能を持つソフトウェアシステムである。 AIベースのシステムは、AIの進歩によって社会に広まりつつある。 しかし、AIベースのシステムの構築、運用、保守には、ソフトウェア工学(SE)アプローチに関する限られた知識がある。 AIに基づくシステムにおけるSEに関する最先端知識を収集・分析するために,系統地図研究を行った。 2010年1月から2020年3月までに発表された248の研究を考察した。 AIベースのシステムのためのSEは、2018年から2/3以上の研究が発行されている新興の研究分野である。 AIベースのシステムの最も研究されている特性は、信頼性と安全性である。 我々は,SWEBOK領域で分類した,AIベースのシステムに対する複数のSEアプローチを特定した。 ソフトウェアテストやソフトウェア品質に関する研究は非常に多いが、ソフトウェアメンテナンスのような分野は無視されているようだ。 データ関連の問題は最も繰り返される課題である。 研究者は、技術の現状を迅速に理解し、より多くの研究を必要とするトピックを学ぶこと、専門家は、SEがAIベースのシステムに必要とするアプローチと課題を学ぶこと、そして教育者は、カリキュラムにおけるSEとAIのギャップを埋めることである。

AI-based systems are software systems with functionalities enabled by at least one AI component (e.g., for image- and speech-recognition, and autonomous driving). AI-based systems are becoming pervasive in society due to advances in AI. However, there is limited synthesized knowledge on Software Engineering (SE) approaches for building, operating, and maintaining AI-based systems. To collect and analyze state-of-the-art knowledge about SE for AI-based systems, we conducted a systematic mapping study. We considered 248 studies published between January 2010 and March 2020. SE for AI-based systems is an emerging research area, where more than 2/3 of the studies have been published since 2018. The most studied properties of AI-based systems are dependability and safety. We identified multiple SE approaches for AI-based systems, which we classified according to the SWEBOK areas. Studies related to software testing and software quality are very prevalent, while areas like software maintenance seem neglected. Data-related issues are the most recurrent challenges. Our results are valuable for: researchers, to quickly understand the state of the art and learn which topics need more research; practitioners, to learn about the approaches and challenges that SE entails for AI-based systems; and, educators, to bridge the gap among SE and AI in their curricula.
翻訳日:2021-05-06 12:53:23 公開日:2021-05-05
# システム同定のための非自己回帰型対自己回帰型ニューラルネットワーク

Non-Autoregressive vs Autoregressive Neural Networks for System Identification ( http://arxiv.org/abs/2105.02027v1 )

ライセンス: Link先を確認
Daniel Weber and Clemens G\"uhmann(参考訳) 非線形動的システム同定タスクへのニューラルネットワークの適用には長い歴史があり、そのほとんどが自己回帰的アプローチである。 オートレグレッション(autoregression)は、前の時間ステップのモデル出力を使用することで、時間ステップ間のシステム状態の転送を行う方法であり、ゲートリカレントユニット(grus)や時間畳み込みネットワーク(tcns)などの現代のニューラルネットワーク構造との動的システムのモデリングには不要である。 本稿では,GRU と TCN の自己回帰的および非自己回帰的実装の3つのシステム識別ベンチマークのシミュレーションタスクにおける精度と実行性能を比較した。 その結果,非自己回帰型ニューラルネットワークは,自己回帰型ニューラルネットワークに比べて有意に高速で,少なくとも精度が高いことがわかった。 他の最先端のブラックボックスシステム識別手法と比較すると、非自己回帰型GRUの実装は、ニューラルネットワークベースのシステム識別法として最高のパフォーマンスを示し、外挿のないベンチマークでは、最も優れたパフォーマンスのブラックボックス法である。

The application of neural networks to non-linear dynamic system identification tasks has a long history, which consists mostly of autoregressive approaches. Autoregression, the usage of the model outputs of previous time steps, is a method of transferring a system state between time steps, which is not necessary for modeling dynamic systems with modern neural network structures, such as gated recurrent units (GRUs) and Temporal Convolutional Networks (TCNs). We compare the accuracy and execution performance of autoregressive and non-autoregressive implementations of a GRU and TCN on the simulation task of three publicly available system identification benchmarks. Our results show, that the non-autoregressive neural networks are significantly faster and at least as accurate as their autoregressive counterparts. Comparisons with other state-of-the-art black-box system identification methods show, that our implementation of the non-autoregressive GRU is the best performing neural network-based system identification method, and in the benchmarks without extrapolation, the best performing black-box method.
翻訳日:2021-05-06 12:53:04 公開日:2021-05-05
# flex:パラメータフリーのマルチビュー3dヒューマンモーションレコンストラクション

FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction ( http://arxiv.org/abs/2105.01937v1 )

ライセンス: Link先を確認
Brian Gordon, Sigal Raab, Guy Azov, Raja Giryes, Daniel Cohen-Or(参考訳) 複数のカメラで撮影されるビデオ録画の可利用性が高まり、ポーズやモーションリコンストラクションの手法において、咬合や奥行きの曖昧さを緩和する新しい手段が提供された。 しかし、マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対位置に大きく依存している。 このような依存関係は、制御されていない設定で動的キャプチャに移行するとハードルになる。 パラメータフリーのマルチビューモデルであるFLEX(Free muLti-view rEconstruXion)を紹介する。 FLEXはカメラパラメータを必要としないという意味ではパラメータフリーである。 私たちのキーとなるアイデアは、骨格部と骨の長さの間の3D角度は、カメラの位置と不変であるということです。 したがって、位置よりも3D回転と骨の長さを学習することで、すべてのカメラビューの共通値を予測することができる。 我々のネットワークは複数のビデオストリームを受け取り、新しいマルチビュー融合層を通して融合した深い特徴を学習し、時間的にコヒーレントな関節回転で単一の一貫した骨格を再構築する。 我々はHuman3.6MとKTH Multi-view Football IIデータセットの定量的および定性的な結果を示す。 モデルとパラメータフリーでない最先端の手法を比較し、カメラパラメータが存在しない場合、カメラパラメータが利用できる場合に比較結果を得ると同時に、大きなマージンで性能を向上することを示す。 コード、トレーニングされたモデル、ビデオデモ、その他の資料は、プロジェクトのページで利用可能です。

The increasing availability of video recordings made by multiple cameras has offered new means for mitigating occlusion and depth ambiguities in pose and motion reconstruction methods. Yet, multi-view algorithms strongly depend on camera parameters, in particular, the relative positions among the cameras. Such dependency becomes a hurdle once shifting to dynamic capture in uncontrolled settings. We introduce FLEX (Free muLti-view rEconstruXion), an end-to-end parameter-free multi-view model. FLEX is parameter-free in the sense that it does not require any camera parameters, neither intrinsic nor extrinsic. Our key idea is that the 3D angles between skeletal parts, as well as bone lengths, are invariant to the camera position. Hence, learning 3D rotations and bone lengths rather than locations allows predicting common values for all camera views. Our network takes multiple video streams, learns fused deep features through a novel multi-view fusion layer, and reconstructs a single consistent skeleton with temporally coherent joint rotations. We demonstrate quantitative and qualitative results on the Human3.6M and KTH Multi-view Football II datasets. We compare our model to state-of-the-art methods that are not parameter-free and show that in the absence of camera parameters, we outperform them by a large margin while obtaining comparable results when camera parameters are available. Code, trained models, video demonstration, and additional materials will be available on our project page.
翻訳日:2021-05-06 12:52:26 公開日:2021-05-05
# 自己監督型マルチフレーム単眼シーンフロー

Self-Supervised Multi-Frame Monocular Scene Flow ( http://arxiv.org/abs/2105.02216v1 )

ライセンス: Link先を確認
Junhwa Hur, Stefan Roth(参考訳) 単眼画像列からの3次元シーンフローの推定は,単純で経済的なキャプチャ設定により注目されている。 問題の深刻な不適切さのため、現在の手法の精度は、特に効率的なリアルタイムアプローチによって制限されている。 本稿では,実時間効率を維持しつつ,従来のネットワークよりも精度を向上し,自己教師付き学習に基づくマルチフレーム単眼シーンフローネットワークを提案する。 分割デコーダを設計した先進的な2フレームベースラインに基づいて, (i) トリプルフレーム入力と畳み込みLSTM接続を用いた多フレームモデル, (ii) より高精度なオクルージョン対応の国勢調査損失, (iii) トレーニング安定性を向上させるための勾配除去戦略を提案する。 KITTIデータセットでは,自己教師付き学習に基づく単眼シーンフロー手法の最先端の精度を観察する。

Estimating 3D scene flow from a sequence of monocular images has been gaining increased attention due to the simple, economical capture setup. Owing to the severe ill-posedness of the problem, the accuracy of current methods has been limited, especially that of efficient, real-time approaches. In this paper, we introduce a multi-frame monocular scene flow network based on self-supervised learning, improving the accuracy over previous networks while retaining real-time efficiency. Based on an advanced two-frame baseline with a split-decoder design, we propose (i) a multi-frame model using a triple frame input and convolutional LSTM connections, (ii) an occlusion-aware census loss for better accuracy, and (iii) a gradient detaching strategy to improve training stability. On the KITTI dataset, we observe state-of-the-art accuracy among monocular scene flow methods based on self-supervised learning.
翻訳日:2021-05-06 12:52:02 公開日:2021-05-05
# 変形計量を持つスティーフェル多様体の曲率

Curvatures of Stiefel manifolds with deformation metrics ( http://arxiv.org/abs/2105.01834v1 )

ライセンス: Link先を確認
Du Nguyen(参考訳) 我々は、最近 H{\"u}per と Markina と Silva Leite によって導入されたスティーフェル多様体上の抽出可能な計量の族(英語版)の曲率を計算する。 測定値は、チーガー変形測定値と同一視することができる。 ステフェル多様体をアインシュタイン多様体とするために、族内のパラメータ値を同定し、ステフェル多様体が常にアインシュタイン計量を持つことを示す。 断面曲率範囲を分析し,多様体が非負断面曲率を持つパラメータ範囲を同定する。 我々は,Stiefel行列の列数が2ドルである場合の正確な断面曲率範囲と,他の場合の対物的範囲を提供する。 式は,最近の研究で導かれた大域曲率公式と,左不変計量に対する曲率公式の2つの方法から導出する。 第二のアプローチは、通常の等質空間上のチーガー変形計量の曲率公式に導かれる。

We compute curvatures of a family of tractable metrics on Stiefel manifolds, introduced recently by H{\"u}per, Markina and Silva Leite, which includes the well-known embedded and canonical metrics on Stiefel manifolds as special cases. The metrics could be identified with the Cheeger deformation metrics. We identify parameter values in the family to make a Stiefel manifold an Einstein manifold and show Stiefel manifolds always carry an Einstein metric. We analyze the sectional curvature range and identify the parameter range where the manifold has non-negative sectional curvature. We provide the exact sectional curvature range when the number of columns in a Stiefel matrix is $2$, and a conjectural range for other cases. We derive the formulas from two approaches, one from a global curvature formula derived in our recent work, another using curvature formulas for left-invariant metrics. The second approach leads to curvature formulas for Cheeger deformation metrics on normal homogeneous spaces.
翻訳日:2021-05-06 12:51:21 公開日:2021-05-05
# 大規模フレンチウェブコンテンツからの単語埋め込みの評価

Evaluation Of Word Embeddings From Large-Scale French Web Content ( http://arxiv.org/abs/2105.01990v1 )

ライセンス: Link先を確認
Hadi Abdine (1), Christos Xypolopoulos (1), Moussa Kamal Eddine (1), Michalis Vazirgiannis (1 and 2) ((1) Ecole Polytechnique, (2) AUEB)(参考訳) 分散語表現は自然言語処理における多くのタスクで広く使われており、巨大なテキストコーパス上の事前訓練語ベクトルは多くの異なるNLPタスクで高い性能を達成した。 本稿では,複数の高品質な単語ベクトルをフランス語に導入し,その中の2つを巨大なクロールしたフランス語データで訓練し,他の2つを既存のフランス語コーパスで訓練する。 また、提案した単語ベクトルと既存のフランス語単語ベクトルの品質を、フランス語単語類似タスク上で評価する。 さらに,既存のものやランダムなものと比較して,事前学習した単語ベクトルの重要性能向上を示す複数の実NLPタスクの評価を行う。 最後に、得られた単語埋め込みをテストして視覚化するデモwebアプリケーションを作成しました。 生成されたフランス語の単語の埋め込みと、NLUタスクの微調整コード、デモコードも公開されている。

Distributed word representations are popularly used in many tasks in natural language processing, adding that pre-trained word vectors on huge text corpus achieved high performance in many different NLP tasks. This paper introduces multiple high quality word vectors for the French language where two of them are trained on huge crawled French data and the others are trained on an already existing French corpus. We also evaluate the quality of our proposed word vectors and the existing French word vectors on the French word analogy task. In addition, we do the evaluation on multiple real NLP tasks that show the important performance enhancement of the pre-trained word vectors compared to the existing and random ones. Finally, we created a demo web application to test and visualize the obtained word embeddings. The produced French word embeddings are available to the public, along with the fine-tuning code on the NLU tasks and the demo code.
翻訳日:2021-05-06 12:50:56 公開日:2021-05-05
# オントロジーと弱視を用いた臨床ノートからの希少疾患の同定

Rare Disease Identification from Clinical Notes with Ontologies and Weak Supervision ( http://arxiv.org/abs/2105.01995v1 )

ライセンス: Link先を確認
Hang Dong, V\'ictor Su\'arez-Paniagua, Huayu Zhang, Minhong Wang, Emma Whitfield, Honghan Wu(参考訳) 自然言語処理(NLP)による臨床ノートからのまれな疾患の同定は、機械学習で利用できる数少ない事例と、臨床専門家によるデータアノテーションの必要性から困難である。 オントロジーと弱監督を用いた手法を提案する。 i) 統一医療言語システム(UMLS)の概念とテキストの言及をリンクするテキスト-to-UMLSと、名前付きエンティティリンクツール(例)の2つのステップがある。 SemEHR)と、カスタマイズされたルールに基づく弱い監督と、変換器(BERT)による双方向エンコーダ表現、および(ii)UMLS-to-ORDOによるUMLS概念とOrphanet Rare Disease Ontology(ORDO)の稀な疾患とのマッチング。 MIMIC-III放電サマリーをケーススタディとして,テキスト-UMLSプロセスは,ドメインの専門家による注釈付きデータなしで,監督の弱さで大幅に改善可能であることを示す。 分析の結果, 病院入所時の手作業icdコードにほとんど含まれない稀な疾患の症例に対して, パイプライン処理総まとめが出現する可能性が示唆された。

The identification of rare diseases from clinical notes with Natural Language Processing (NLP) is challenging due to the few cases available for machine learning and the need of data annotation from clinical experts. We propose a method using ontologies and weak supervision. The approach includes two steps: (i) Text-to-UMLS, linking text mentions to concepts in Unified Medical Language System (UMLS), with a named entity linking tool (e.g. SemEHR) and weak supervision based on customised rules and Bidirectional Encoder Representations from Transformers (BERT) based contextual representations, and (ii) UMLS-to-ORDO, matching UMLS concepts to rare diseases in Orphanet Rare Disease Ontology (ORDO). Using MIMIC-III discharge summaries as a case study, we show that the Text-to-UMLS process can be greatly improved with weak supervision, without any annotated data from domain experts. Our analysis shows that the overall pipeline processing discharge summaries can surface rare disease cases, which are mostly uncaptured in manual ICD codes of the hospital admissions.
翻訳日:2021-05-06 12:50:43 公開日:2021-05-05
# XAI-KG:製造におけるXAIと意思決定を支援する知識グラフ

XAI-KG: knowledge graph to support XAI and decision-making in manufacturing ( http://arxiv.org/abs/2105.01929v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Patrik Zajec, Klemen Kenda, Inna Novalija, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 人工知能の採用の増加は、その予測の背後にある人工知能モデルの推論を理解するための正確な予測と手段を必要とする。 説明可能な人工知能(XAI)は、モデルが特定の予測を発行した理由の手がかりを提供することを目的としている。 このような手がかりは、特定の予測に影響を及ぼす機能に関する洞察を提供し、予測が信頼できるかどうかをユーザーに判断させることから、意思決定において最も重要である。 ブラックボックスモデルを説明するために多くの技術が開発されたが、これらの説明の質とその意思決定への影響を評価する研究はほとんど行われなかった。 本稿では,予測,予測説明,推奨意思決定オプション,ユーザ行動に関するフィードバック収集を支援するオントロジーと知識グラフを提案する。 このように、予測モデル、説明、意思決定オプションの推奨を改善する手段を提供する。 我々は、需要予測領域の知識グラフを調整し、実世界のデータに基づいて検証する。

The increasing adoption of artificial intelligence requires accurate forecasts and means to understand the reasoning of artificial intelligence models behind such a forecast. Explainable Artificial Intelligence (XAI) aims to provide cues for why a model issued a certain prediction. Such cues are of utmost importance to decision-making since they provide insights on the features that influenced most certain forecasts and let the user decide if the forecast can be trusted. Though many techniques were developed to explain black-box models, little research was done on assessing the quality of those explanations and their influence on decision-making. We propose an ontology and knowledge graph to support collecting feedback regarding forecasts, forecast explanations, recommended decision-making options, and user actions. This way, we provide means to improve forecasting models, explanations, and recommendations of decision-making options. We tailor the knowledge graph for the domain of demand forecasting and validate it on real-world data.
翻訳日:2021-05-06 12:50:20 公開日:2021-05-05
# 自然・人工システムにおけるインテリジェンスの基礎:ワークショップ報告

Foundations of Intelligence in Natural and Artificial Systems: A Workshop Report ( http://arxiv.org/abs/2105.02198v1 )

ライセンス: Link先を確認
Tyler Millhouse, Melanie Moses, Melanie Mitchell(参考訳) 2021年3月、サンタフェ研究所は自然と人工のシステムにおける知性の基礎の一部としてワークショップを開催した。 このプロジェクトは、人工知能の性質に関する学際的な研究を促進することによって、人工知能の分野を推し進めようとしている。 ワークショップの間、様々な分野の講演者が集まり、知性についての独自の理解と彼らの研究がその理解をさらに深めたかを明確にした。 本報告では,各話者が提示する洞察を要約し,講演とその後の議論の間に生じたテーマを明らかにする。

In March of 2021, the Santa Fe Institute hosted a workshop as part of its Foundations of Intelligence in Natural and Artificial Systems project. This project seeks to advance the field of artificial intelligence by promoting interdisciplinary research on the nature of intelligence. During the workshop, speakers from diverse disciplines gathered to develop a taxonomy of intelligence, articulating their own understanding of intelligence and how their research has furthered that understanding. In this report, we summarize the insights offered by each speaker and identify the themes that emerged during the talks and subsequent discussions.
翻訳日:2021-05-06 12:50:05 公開日:2021-05-05
# 画像セグメンテーション参照のためのコアテンション埋め込みを用いたエンコーダ融合ネットワーク

Encoder Fusion Network with Co-Attention Embedding for Referring Image Segmentation ( http://arxiv.org/abs/2105.01839v1 )

ライセンス: Link先を確認
Guang Feng, Zhiwei Hu, Lihe Zhang, Huchuan Lu(参考訳) 近年,画像のセグメンテーションが注目されている。 従来の手法では、ネットワークの復号側で言語と視覚のマルチモーダル融合を行う。 また,言語的特徴は各尺度の視覚的特徴と個別に相互作用し,多段階の視覚的特徴に対する言語指導を無視する。 本研究では,視覚的エンコーダをマルチモーダル特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。 さらに、EFNにコアテンション機構を組み込んでマルチモーダル特徴の並列更新を実現し、セマンティック空間におけるクロスモーダル情報表現の一貫性を促進する。 最後に,境界拡張モジュール(BEM)を提案する。 4つのベンチマークデータセットによる実験結果から,提案手法はポストプロセッシングを伴わずに,異なる評価基準下での最先端性能を実現することを示した。

Recently, referring image segmentation has aroused widespread interest. Previous methods perform the multi-modal fusion between language and vision at the decoding side of the network. And, linguistic feature interacts with visual feature of each scale separately, which ignores the continuous guidance of language to multi-scale visual features. In this work, we propose an encoder fusion network (EFN), which transforms the visual encoder into a multi-modal feature learning network, and uses language to refine the multi-modal features progressively. Moreover, a co-attention mechanism is embedded in the EFN to realize the parallel update of multi-modal features, which can promote the consistent of the cross-modal information representation in the semantic space. Finally, we propose a boundary enhancement module (BEM) to make the network pay more attention to the fine structure. The experiment results on four benchmark datasets demonstrate that the proposed approach achieves the state-of-the-art performance under different evaluation metrics without any post-processing.
翻訳日:2021-05-06 12:49:28 公開日:2021-05-05
# function4d: ごく少ないrgbdセンサーから人間の体積をリアルタイムに捉える

Function4D: Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors ( http://arxiv.org/abs/2105.01859v1 )

ライセンス: Link先を確認
Tao Yu, Zerong Zheng, Kaiwen Guo, Pengpeng Liu, Yebin Liu(参考訳) 人間のボリュームキャプチャは、コンピュータビジョンとコンピュータグラフィックスにおける長年のトピックである。 高度なオフラインシステムによって高品質な結果が得られるが、複雑なシナリオ、特に軽量なセットアップを使ったリアルタイムな人間のボリュームキャプチャは依然として困難である。 本稿では,時間的体積融合と深部暗黙関数を組み合わせた人間の体積キャプチャー手法を提案する。 高品質かつ時間的連続的な再構成を実現するために,近接深度観測と位相的一貫性を融合する動的すべり融合を提案する。 さらに, 詳細かつ完全な表面生成のために, 深度入力の幾何学的詳細を保存できるだけでなく, より妥当なテクスチャ結果を生成するRGBD入力の奥深い暗黙関数を提案する。 その結果,提案手法は,ビューの疎度,一般化能力,再構築品質,実行時の効率において,既存手法よりも優れていた。

Human volumetric capture is a long-standing topic in computer vision and computer graphics. Although high-quality results can be achieved using sophisticated off-line systems, real-time human volumetric capture of complex scenarios, especially using light-weight setups, remains challenging. In this paper, we propose a human volumetric capture method that combines temporal volumetric fusion and deep implicit functions. To achieve high-quality and temporal-continuous reconstruction, we propose dynamic sliding fusion to fuse neighboring depth observations together with topology consistency. Moreover, for detailed and complete surface generation, we propose detail-preserving deep implicit functions for RGBD input which can not only preserve the geometric details on the depth inputs but also generate more plausible texturing results. Results and experiments show that our method outperforms existing methods in terms of view sparsity, generalization capacity, reconstruction quality, and run-time efficiency.
翻訳日:2021-05-06 12:49:12 公開日:2021-05-05
# 4DComplete:観測可能な表面を超えた非デジタルモーション推定

4DComplete: Non-Rigid Motion Estimation Beyond the Observable Surface ( http://arxiv.org/abs/2105.01905v1 )

ライセンス: Link先を確認
Yang Li, Hikari Takehara, Takafumi Taketomi, Bo Zheng, Matthias Nie{\ss}ner(参考訳) レンジセンサーによる厳密な変形シーンの追跡には、コンピュータビジョン、AR/VR、ロボット工学など多くの応用がある。 しかし、オクルージョンや距離センサの物理的制限のため、既存の方法は可視面のみを扱うため、運動場の不連続や不完全性を引き起こす。 この目的のために,観測されていない幾何学の非剛性運動を推定する新しいデータ駆動手法である4DCompleteを導入する。 4dcomplete は部分的な形状と動きの観察を入力とし、4次元の時間空間埋め込みを抽出し、スパース完全畳み込みネットワークを用いて、失われた幾何学と動き場を共同で推定する。 ネットワークトレーニングのために、DeformingThings4Dと呼ばれる大規模な合成データセットを構築しました。 実験の結果, 4DComplete 1) は部分観察から高分解能な体積形状と運動場を再構成し, 2) 形状と運動推定の両方の利点を享受する絡み合った4D特徴表現を学習し, 3) 従来の非剛性物体である As-Rigid-As-Possible (ARAP) の変形よりも正確で自然な変形を生じ, 4) は実世界における未知の物体によく一般化した。

Tracking non-rigidly deforming scenes using range sensors has numerous applications including computer vision, AR/VR, and robotics. However, due to occlusions and physical limitations of range sensors, existing methods only handle the visible surface, thus causing discontinuities and incompleteness in the motion field. To this end, we introduce 4DComplete, a novel data-driven approach that estimates the non-rigid motion for the unobserved geometry. 4DComplete takes as input a partial shape and motion observation, extracts 4D time-space embedding, and jointly infers the missing geometry and motion field using a sparse fully-convolutional network. For network training, we constructed a large-scale synthetic dataset called DeformingThings4D, which consists of 1972 animation sequences spanning 31 different animals or humanoid categories with dense 4D annotation. Experiments show that 4DComplete 1) reconstructs high-resolution volumetric shape and motion field from a partial observation, 2) learns an entangled 4D feature representation that benefits both shape and motion estimation, 3) yields more accurate and natural deformation than classic non-rigid priors such as As-Rigid-As-Possible (ARAP) deformation, and 4) generalizes well to unseen objects in real-world sequences.
翻訳日:2021-05-06 12:48:57 公開日:2021-05-05
# QueryInst: インスタンスセグメンテーションのためのParallelly Supervised Mask Query

QueryInst: Parallelly Supervised Mask Query for Instance Segmentation ( http://arxiv.org/abs/2105.01928v1 )

ライセンス: Link先を確認
Yuxin Fang, Shusheng Yang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu(参考訳) 近年,クエリベースのオブジェクト検出フレームワークは,従来の最先端オブジェクト検出フレームワークと同等のパフォーマンスを実現している。 しかし、そのようなフレームワークをフル活用してインスタンスセグメンテーションを実行するかは、まだ未解決の問題である。 本稿では,動的マスクヘッドの並列監視によって駆動されるクエリベースのインスタンスセグメンテーション手法であるQueryInstを提案する。 QueryInstの主な洞察は、異なるステージにわたるオブジェクトクエリにおける固有の1対1対応と、同じステージにおけるマスクRoI機能とオブジェクトクエリとの1対1対応を活用することである。 このアプローチは、明示的なマルチステージマスクヘッド接続と、非クエリベースのマルチステージインスタンスセグメンテーションメソッドに固有のプロポーザル分散の不整合問題を排除する。 我々は、インスタンスセグメンテーションとビデオインスタンスセグメンテーション(VIS)タスクにおけるQueryInstの有効性を評価するために、COCO、CityScapes、YouTube-VISの3つの挑戦的ベンチマークについて広範な実験を行った。 具体的には、resnet-101-fpnバックボーンを使用して、coco test-dev上で48.1 box apと42.8 mask apを取得している。 ビデオインスタンスのセグメンテーションでは、QueryInstはすべてのオンラインVISアプローチの中で最高のパフォーマンスを達成し、十分なスピード精度のトレードオフを打ち負かす。 コードは \url{https://github.com/h ustvl/QueryInst} で入手できる。

Recently, query based object detection frameworks achieve comparable performance with previous state-of-the-art object detectors. However, how to fully leverage such frameworks to perform instance segmentation remains an open problem. In this paper, we present QueryInst, a query based instance segmentation method driven by parallel supervision on dynamic mask heads. The key insight of QueryInst is to leverage the intrinsic one-to-one correspondence in object queries across different stages, as well as one-to-one correspondence between mask RoI features and object queries in the same stage. This approach eliminates the explicit multi-stage mask head connection and the proposal distribution inconsistency issues inherent in non-query based multi-stage instance segmentation methods. We conduct extensive experiments on three challenging benchmarks, i.e., COCO, CityScapes, and YouTube-VIS to evaluate the effectiveness of QueryInst in instance segmentation and video instance segmentation (VIS) task. Specifically, using ResNet-101-FPN backbone, QueryInst obtains 48.1 box AP and 42.8 mask AP on COCO test-dev, which is 2 points higher than HTC in terms of both box AP and mask AP, while runs 2.4 times faster. For video instance segmentation, QueryInst achieves the best performance among all online VIS approaches and strikes a decent speed-accuracy trade-off. Code is available at \url{https://github.com/h ustvl/QueryInst}.
翻訳日:2021-05-06 12:48:29 公開日:2021-05-05
# ホルスタイン・フリース牛の映像識別のためのセルフスーパービジョン:Cows2021データセット

Towards Self-Supervision for Video Identification of Individual Holstein-Friesian Cattle: The Cows2021 Dataset ( http://arxiv.org/abs/2105.01938v1 )

ライセンス: Link先を確認
Jing Gao, Tilo Burghardt, William Andrew, Andrew W. Dowsey, Neill W. Campbell(参考訳) 本稿では,ホルシュタイン・フリース種牛群集Cows2021と,動物のビデオ識別のための最初の自己監督フレームワークを公表する。 データセットには、ローカライゼーションとアイデンティティのためのラベル付き10,402のRGBイメージと、同じ群れからの301のビデオが含まれている。 データはトップダウンのインバーン画像を示し、品種の個々に特徴的な黒と白のコートパターンを捉えている。 視覚的牛の識別システム構築におけるラベル付けの負担に乗じて,ビデオ間の時間的コートパターンの出現を動物識別学習の自己超越信号として活用することを提案する。 向き付けられた境界ボックスを産出する個体非依存の牛検出器を用いて、個体の回転正規化トラックレットを追跡・検出によって形成し、増強によって濃縮する。 これはトラックレット毎の‘陽性’サンプルセットを生成し、他のビデオのランダムな牛からサンプリングされた‘負’セットとペアリングする。 フレーム三重項コントラスト学習は、計量的潜在空間を構成するために用いられる。 ガウス混合モデルのこの空間への適合は、牛の同一性分類器をもたらす。 その結果、top-1 57.0% と top-4: 76.9% と調整された rand 指数 0.53 の精度を示した。 教師付きトレーニングは、このベンチマークを大きなマージンで上回っているが、しかしながら、監督情報を構築する際のラベル付け作業のスピードアップにおいて、自己監督が極めて効果的な役割を果たすと結論づけている。 システムの解析と評価とともに,すべてのデータとソースコードを提供する。

In this paper we publish the largest identity-annotated Holstein-Friesian cattle dataset Cows2021 and a first self-supervision framework for video identification of individual animals. The dataset contains 10,402 RGB images with labels for localisation and identity as well as 301 videos from the same herd. The data shows top-down in-barn imagery, which captures the breed's individually distinctive black and white coat pattern. Motivated by the labelling burden involved in constructing visual cattle identification systems, we propose exploiting the temporal coat pattern appearance across videos as a self-supervision signal for animal identity learning. Using an individual-agnostic cattle detector that yields oriented bounding-boxes, rotation-normalised tracklets of individuals are formed via tracking-by-detectio n and enriched via augmentations. This produces a `positive' sample set per tracklet, which is paired against a `negative' set sampled from random cattle of other videos. Frame-triplet contrastive learning is then employed to construct a metric latent space. The fitting of a Gaussian Mixture Model to this space yields a cattle identity classifier. Results show an accuracy of Top-1 57.0% and Top-4: 76.9% and an Adjusted Rand Index: 0.53 compared to the ground truth. Whilst supervised training surpasses this benchmark by a large margin, we conclude that self-supervision can nevertheless play a highly effective role in speeding up labelling efforts when initially constructing supervision information. We provide all data and full source code alongside an analysis and evaluation of the system.
翻訳日:2021-05-06 12:48:04 公開日:2021-05-05
# AdaVQA: 適応型Margin Cosine損失による言語優先の克服

AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss ( http://arxiv.org/abs/2105.01993v1 )

ライセンス: Link先を確認
Yangyang Guo and Liqiang Nie and Zhiyong Cheng and Feng Ji and Ji Zhang and Alberto Del Bimbo(参考訳) 多くの研究は、現在の視覚質問応答(vqa)モデルは、言語ショートカットに基づいた予測を盲目的に行うことを指す言語先行問題によって深刻な影響を受けることを指摘している。 この問題を繊細なモデルで克服するために、いくつかの努力が注がれている。 しかし,既存のVQA手法がすべてVQAを分類タスクとしたにもかかわらず,回答特徴空間学習の角度から対処する研究は行われていない。 このことから着想を得た本研究では,特徴空間学習の観点から,言語先行問題への取り組みを試みる。 この目的のために、各質問タイプにおける頻繁かつスパースな回答特徴空間を適切に識別するように適応されたマージンコサイン損失を設計する。 その結果、言語モダリティの限られたパターンは大幅に削減され、そのため、我々の手法で導入される言語先行パターンは少なくなる。 この損失関数を複数のベースラインモデルに適用し、2つのVQA-CPベンチマーク上での有効性を評価する。 実験結果から,我々の適応余剰余剰余弦損失は平均15倍の絶対的な性能向上率でベースラインモデルを大幅に向上し,回答特徴空間学習の角度からVQAにおける言語先行問題に対処する可能性を強く検証した。

A number of studies point out that current Visual Question Answering (VQA) models are severely affected by the language prior problem, which refers to blindly making predictions based on the language shortcut. Some efforts have been devoted to overcoming this issue with delicate models. However, there is no research to address it from the angle of the answer feature space learning, despite of the fact that existing VQA methods all cast VQA as a classification task. Inspired by this, in this work, we attempt to tackle the language prior problem from the viewpoint of the feature space learning. To this end, an adapted margin cosine loss is designed to discriminate the frequent and the sparse answer feature space under each question type properly. As a result, the limited patterns within the language modality are largely reduced, thereby less language priors would be introduced by our method. We apply this loss function to several baseline models and evaluate its effectiveness on two VQA-CP benchmarks. Experimental results demonstrate that our adapted margin cosine loss can greatly enhance the baseline models with an absolute performance gain of 15\% on average, strongly verifying the potential of tackling the language prior problem in VQA from the angle of the answer feature space learning.
翻訳日:2021-05-06 12:47:35 公開日:2021-05-05
# グラフ画像からの効率的なデータ抽出フレームワークを目指して

Towards an efficient framework for Data Extraction from Chart Images ( http://arxiv.org/abs/2105.02039v1 )

ライセンス: Link先を確認
Weihong Ma, Hesuo Zhang, Shuang Yan, Guangshun Yao, Yichao Huang, Hui Li, Yaqiang Wu, Lianwen Jin(参考訳) 本稿では,データマイニングシステムにおけるデータ抽出段階に最先端のコンピュータビジョン技術を適用することで,研究のギャップを埋める。 図1に示すように、このステージはプロット要素の検出とデータ変換という2つのサブタスクを含む。 頑健な箱検出装置を構築するためには,様々な深層学習手法を総合的に比較し,高精度な箱検出に適した方法を見つける。 頑健な点検出器を構築するには、従来の手法と比較して近接点を区別できる特徴融合モジュールを備えた完全畳み込みネットワークを採用する。 提案システムは,ヒューリスティックな仮定を伴わずに,様々なチャートデータを効果的に処理できる。 データ変換では,検出した要素を意味値でデータに変換する。 伝説マッチングフェーズにおける伝説と検出要素の特徴的類似性を測定するネットワークを提案する。 さらに,インフォグラフィックから生のテーブルを収穫する競争のベースラインを提供する。 各ステージのパフォーマンス向上には,いくつかの重要な要因がある。 実験の結果,本システムの有効性が示された。

In this paper, we fill the research gap by adopting state-of-the-art computer vision techniques for the data extraction stage in a data mining system. As shown in Fig.1, this stage contains two subtasks, namely, plot element detection and data conversion. For building a robust box detector, we comprehensively compare different deep learning-based methods and find a suitable method to detect box with high precision. For building a robust point detector, a fully convolutional network with feature fusion module is adopted, which can distinguish close points compared to traditional methods. The proposed system can effectively handle various chart data without making heuristic assumptions. For data conversion, we translate the detected element into data with semantic value. A network is proposed to measure feature similarities between legends and detected elements in the legend matching phase. Furthermore, we provide a baseline on the competition of Harvesting raw tables from Infographics. Some key factors have been found to improve the performance of each stage. Experimental results demonstrate the effectiveness of the proposed system.
翻訳日:2021-05-06 12:47:10 公開日:2021-05-05
# 1枚のRGB画像のロバストな3D形状を学習する立方体

Cuboids Revisited: Learning Robust 3D Shape Fitting to Single RGB Images ( http://arxiv.org/abs/2105.02047v1 )

ライセンス: Link先を確認
Florian Kluger, Hanno Ackermann, Eric Brachmann, Michael Ying Yang, Bodo Rosenhahn(参考訳) 人間は単純なパラメトリックモデルの配列として周囲の世界を理解し、構築する。 特に人為的な環境は、一般的にキュービドやシリンダーのような体積原始体から成り立っている。 これらのプリミティブを推測することは、高レベルで抽象的なシーン記述を実現するための重要なステップである。 従来のアプローチでは、2Dまたは3D入力から直接形状パラメータを推定し、単純なオブジェクトのみを再現できるが、より複雑な3Dシーンを正確に解析することはできない。 対照的に,cuboidsを用いて実環境を有意義に抽象化できる原始的適合のためのロバスト推定器を提案する。 ニューラルネットワークによって導かれるRANSAC推定器は、深度マップのようなこれらのプリミティブを3D特徴に適合させる。 ネットワークを予め検出したシーンの一部に条件付けし,それを1つずつ解析する。 単一のRGB画像から3D特徴量を得るため,特徴抽出CNNをエンドツーエンドに最適化する。 しかし、因果的に最大距離を最小化することは、背景のシーンの一部を包み込む大きな、または刺激的なキュービイドに繋がる。 そこで我々は,不透明なシーンを正確に扱えるオクルージョン・アウェア距離計を提案する。 提案アルゴリズムは、トレーニングのために、キュービドアノテーションのような労働集約的なラベルを必要としない。 挑戦的なNYU Depth v2データセットの結果、提案アルゴリズムは、乱雑な現実世界の3Dシーンレイアウトをうまく抽象化することを示した。

Humans perceive and construct the surrounding world as an arrangement of simple parametric models. In particular, man-made environments commonly consist of volumetric primitives such as cuboids or cylinders. Inferring these primitives is an important step to attain high-level, abstract scene descriptions. Previous approaches directly estimate shape parameters from a 2D or 3D input, and are only able to reproduce simple objects, yet unable to accurately parse more complex 3D scenes. In contrast, we propose a robust estimator for primitive fitting, which can meaningfully abstract real-world environments using cuboids. A RANSAC estimator guided by a neural network fits these primitives to 3D features, such as a depth map. We condition the network on previously detected parts of the scene, thus parsing it one-by-one. To obtain 3D features from a single RGB image, we additionally optimise a feature extraction CNN in an end-to-end manner. However, naively minimising point-to-primitive distances leads to large or spurious cuboids occluding parts of the scene behind. We thus propose an occlusion-aware distance metric correctly handling opaque scenes. The proposed algorithm does not require labour-intensive labels, such as cuboid annotations, for training. Results on the challenging NYU Depth v2 dataset demonstrate that the proposed algorithm successfully abstracts cluttered real-world 3D scene layouts.
翻訳日:2021-05-06 12:46:56 公開日:2021-05-05
# グリッドワードクロスアテンションによる一段階参照表現の提案

Proposal-free One-stage Referring Expression via Grid-Word Cross-Attention ( http://arxiv.org/abs/2105.02061v1 )

ライセンス: Link先を確認
Wei Suo, Mengyang Sun, Peng Wang, Qi Wu(参考訳) 表現理解(rec)を参照することは、視覚的な推論において最も重要なタスクの1つとなっている。 しかし,1) 2段階の手法は計算コストと避けられないエラー蓄積が存在し,2) 1段階の手法はバウンディングボックスを生成するために多数のハイパーパラメータ(アンカーなど)に依存する必要があるため,下流タスクでは広く使われていない。 本稿では,テキストクエリに基づいて画像から関心領域を回帰させることができる提案不要の一段階(pfos)モデルを提案する。 主流のアンカー提案方式の代わりに,グリッドワード対応を学習するクロスアテンション変換器の入力として,画像の高密度グリッドを直接利用する。 最終バウンディングボックスは、以前の手法が苦しむ時間を要するアンカー選択プロセスなしで、画像から直接予測される。 従来の1段階および2段階の手法と比較して,4つの参照式データセットにおける最先端のパフォーマンスを高い効率で達成する。

Referring Expression Comprehension (REC) has become one of the most important tasks in visual reasoning, since it is an essential step for many vision-and-language tasks such as visual question answering. However, it has not been widely used in many downstream tasks because it suffers 1) two-stage methods exist heavy computation cost and inevitable error accumulation, and 2) one-stage methods have to depend on lots of hyper-parameters (such as anchors) to generate bounding box. In this paper, we present a proposal-free one-stage (PFOS) model that is able to regress the region-of-interest from the image, based on a textual query, in an end-to-end manner. Instead of using the dominant anchor proposal fashion, we directly take the dense-grid of an image as input for a cross-attention transformer that learns grid-word correspondences. The final bounding box is predicted directly from the image without the time-consuming anchor selection process that previous methods suffer. Our model achieves the state-of-the-art performance on four referring expression datasets with higher efficiency, comparing to previous best one-stage and two-stage methods.
翻訳日:2021-05-06 12:46:37 公開日:2021-05-05
# パーシャル・アンド・サム変換器を用いた視覚複合集合検出

Visual Composite Set Detection Using Part-and-Sum Transformers ( http://arxiv.org/abs/2105.02170v1 )

ライセンス: Link先を確認
Qi Dong, Zhuowen Tu, Haofu Liao, Yuting Zhang, Vijay Mahadevan, Stefano Soatto(参考訳) 視覚的関係検出や人-物体相互作用などのコンピュータビジョンアプリケーションは、部分(対象、対象、述語)と和(全体)の両方を階層的に検出する合成(構造化)セット検出問題として定式化することができる。 本稿では,エンド・ツー・エンド複合集合検出を行うための新しい手法であるpst(part-and-sum detection transformer)を提案する。 クエリが単一レベルにある既存のTransformerとは異なり、結合部を同時にモデル化し、複合クエリとアテンションモジュールで仮説/相互作用を和算する。 標準トランスフォーマーにないpart-and-sum関係のモデリングを改善するために、sumクエリを明示的に組み込んでいます。 また,新しいテンソル型部分問合せとベクトル型和問合せを用い,それらの相互作用をモデル化する。 視覚関連検出と人間と物体の相互作用という2つの視覚課題の実験を報告し,pstが単段モデルにおいて最先端の成果を得られることを実証した。

Computer vision applications such as visual relationship detection and human-object interaction can be formulated as a composite (structured) set detection problem in which both the parts (subject, object, and predicate) and the sum (triplet as a whole) are to be detected in a hierarchical fashion. In this paper, we present a new approach, denoted Part-and-Sum detection Transformer (PST), to perform end-to-end composite set detection. Different from existing Transformers in which queries are at a single level, we simultaneously model the joint part and sum hypotheses/interacti ons with composite queries and attention modules. We explicitly incorporate sum queries to enable better modeling of the part-and-sum relations that are absent in the standard Transformers. Our approach also uses novel tensor-based part queries and vector-based sum queries, and models their joint interaction. We report experiments on two vision tasks, visual relationship detection, and human-object interaction, and demonstrate that PST achieves state-of-the-art results among single-stage models, while nearly matching the results of custom-designed two-stage models.
翻訳日:2021-05-06 12:46:16 公開日:2021-05-05
# 深部3次元モーファブルモデルのための学習機能アグリゲーション

Learning Feature Aggregation for Deep 3D Morphable Models ( http://arxiv.org/abs/2105.02173v1 )

ライセンス: Link先を確認
Zhixiang Chen and Tae-Kyun Kim(参考訳) 3Dフォーマブルモデルはコンピュータビジョンやグラフィックスアプリケーションにおけるオブジェクトクラスの形状表現に広く用いられている。 本研究では,階層構造を持つ3dメッシュデータにディープラーニングを直接適用し,複数のスケールで情報をキャプチャする,深層3次元モーファブルモデルに注目した。 畳み込み演算子の設計には多大な努力が払われているが、階層レベルで頂点機能をベストに集約する方法は、さらに注目に値する。 メッシュデシメーションを利用するのとは対照的に,階層レベルの機能集約を改善するために,マッピング行列を学習するためのアテンションベースモジュールを提案する。 具体的には、マッピング行列はキーとクエリの互換性関数によって生成される。 キーとクエリはトレーニング可能な変数で、ターゲットの目的を最適化して学習し、同じオブジェクトクラスのすべてのデータサンプルで共有される。 提案モジュールは,既存アーキテクチャの機能集約の列車のみのドロップイン代替として,ダウンサンプリングとアップサンプリングの両方に使用することができる。 実験により, マッピング行列のエンドツーエンドトレーニングにより, 既存の変形可能なモデルと比較して, 様々な3次元形状データセットの最先端結果が得られることがわかった。

3D morphable models are widely used for the shape representation of an object class in computer vision and graphics applications. In this work, we focus on deep 3D morphable models that directly apply deep learning on 3D mesh data with a hierarchical structure to capture information at multiple scales. While great efforts have been made to design the convolution operator, how to best aggregate vertex features across hierarchical levels deserves further attention. In contrast to resorting to mesh decimation, we propose an attention based module to learn mapping matrices for better feature aggregation across hierarchical levels. Specifically, the mapping matrices are generated by a compatibility function of the keys and queries. The keys and queries are trainable variables, learned by optimizing the target objective, and shared by all data samples of the same object class. Our proposed module can be used as a train-only drop-in replacement for the feature aggregation in existing architectures for both downsampling and upsampling. Our experiments show that through the end-to-end training of the mapping matrices, we achieve state-of-the-art results on a variety of 3D shape datasets in comparison to existing morphable models.
翻訳日:2021-05-06 12:45:53 公開日:2021-05-05
# PolarMask++:シングルショットインスタンスセグメンテーションのための強化されたPolar表現

PolarMask++: Enhanced Polar Representation for Single-Shot Instance Segmentation and Beyond ( http://arxiv.org/abs/2105.02184v1 )

ライセンス: Link先を確認
Enze Xie, Wenhai Wang, Mingyu Ding, Ruimao Zhang, Ping Luo(参考訳) 実世界のアプリケーションでは、インスタンスセグメンテーションのパイプラインの複雑さを低減することが重要です。 この研究は、極座標内のオブジェクトの輪郭を予測し、いくつかの魅力的な利点と共にインスタンス分割問題を再構成する、polarmaskと呼ばれるアンカーボックスフリーかつシングルショットインスタンスセグメンテーションフレームワークを導入することで、この問題に対処する。 1) 極性表現は、インスタンスセグメンテーション(mask)とオブジェクト検出(バウンディングボックス)を単一のフレームワークに統合し、設計と計算の複雑さを低減します。 2)2つのモジュールを慎重に設計する(すなわち)。 ソフト極性中心性と極性IoU損失)を用いて高品質中心サンプルをサンプリングし、極性輪郭回帰を最適化することにより、PolarMaskの性能はバウンディングボックス予測結果に依存せず、訓練の効率が向上する。 (3)PolarMaskは完全に畳み込み型であり、ほとんどのオフザシェルフ検出方法に簡単に組み込むことができる。 フレームワークの精度をさらに向上するため、PolaMask++と呼ばれるさまざまなスケールの機能表現を改善するために、Refined Feature Pyramidが導入されている。 単一のモデルとシングルスケールのトレーニングとテストで挑戦的なcocoデータセットのインスタンスセグメンテーションにおける競合結果を達成するpolarmaskとpolarmask++の両方の有効性と、回転テキスト検出とセルセグメンテーションに関する新たな最先端結果が実証された。 提案した極性表現は、シングルショットのインスタンスセグメンテーションを解決するアルゴリズムを設計するための新しい視点を提供することを期待する。 コードとモデルは、github.com/xieenze/P olarMaskで入手できる。

Reducing the complexity of the pipeline of instance segmentation is crucial for real-world applications. This work addresses this issue by introducing an anchor-box free and single-shot instance segmentation framework, termed PolarMask, which reformulates the instance segmentation problem as predicting the contours of objects in the polar coordinate, with several appealing benefits. (1) The polar representation unifies instance segmentation (masks) and object detection (bounding boxes) into a single framework, reducing the design and computational complexity. (2) Two modules are carefully designed (i.e. soft polar centerness and polar IoU loss) to sample high-quality center examples and optimize polar contour regression, making the performance of PolarMask does not depend on the bounding box prediction results and thus becomes more efficient in training. (3) PolarMask is fully convolutional and can be easily embedded into most off-the-shelf detection methods. To further improve the accuracy of the framework, a Refined Feature Pyramid is introduced to further improve the feature representation at different scales, termed PolarMask++. Extensive experiments demonstrate the effectiveness of both PolarMask and PolarMask++, which achieve competitive results on instance segmentation in the challenging COCO dataset with single-model and single-scale training and testing, as well as new state-of-the-art results on rotate text detection and cell segmentation. We hope the proposed polar representation can provide a new perspective for designing algorithms to solve single-shot instance segmentation. The codes and models are available at: github.com/xieenze/P olarMask.
翻訳日:2021-05-06 12:45:35 公開日:2021-05-05
# RandCrowns Index を用いた樹冠ディラインの表記精度の検討

Addressing Annotation Imprecision for Tree Crown Delineation Using the RandCrowns Index ( http://arxiv.org/abs/2105.02186v1 )

ライセンス: Link先を確認
Dylan Stewart, Alina Zare, Sergio Marconi, Ben Weinstein, Ethan White, Sarah Graves, Stephanie Bohlman, Aditya Singh(参考訳) リモートセンシングにおけるオブジェクトのデライン化の監視方法は、ラベル付き地上データを必要とする。 特にターゲットが不規則な形状であったり、背景や隣り合う物体との区別が難しい場合、十分な高品質な地中データの収集は困難である。 樹冠の配置は、森林、生態、管理のためのリモートセンシング画像から重要な情報を提供する。 しかし、リモートセンシング画像の樹冠は、不規則な形状、重なり合う天蓋、影、不明瞭な縁のために、しばしばラベル付けや注釈付けが困難である。 この分野にはアノテーションに対する複数のアプローチ(例えば、矩形箱対凸多角形)があり、さらにアノテーションの精度に寄与する。 しかし、現在の評価手法ではこの不確実性は考慮されておらず、評価のための定量的指標は複数の注釈者によって異なる可能性がある。 我々はRandCrownsと呼ばれる弱いラベル付きクラウンデライン化に対してRandインデックスの適応を用いてこれらの制限に対処する。 RandCrownsメトリックは、インデックスの各項が計算される領域を調整し、不確実で不正確なオブジェクト記述ラベルを考慮し、Randインデックスを再構成する。 共役和の共通交叉法(jaccard similarity)との定量的比較は、複数のアノテーション間の差異によって生じる分散の低下を示している。 定性的な例と組み合わせて,このRandCrowns測度は,木冠起点に固有のアノテーションに不確実性や不正確性が存在する場合に,目的の起点を評価する上でより堅牢であることが示唆された。 本論文の焦点は樹冠の起伏を評価することにあるが、アノテーションの精度は環境のリモートセンシング(および多くのコンピュータビジョン問題)に共通する課題である。

Supervised methods for object delineation in remote sensing require labeled ground-truth data. Gathering sufficient high quality ground-truth data is difficult, especially when the targets are of irregular shape or difficult to distinguish from the background or neighboring objects. Tree crown delineation provides key information from remote sensing images for forestry, ecology, and management. However, tree crowns in remote sensing imagery are often difficult to label and annotate due to irregular shape, overlapping canopies, shadowing, and indistinct edges. There are also multiple approaches to annotation in this field (e.g., rectangular boxes vs. convex polygons) that further contribute to annotation imprecision. However, current evaluation methods do not account for this uncertainty in annotations, and quantitative metrics for evaluation can vary across multiple annotators. We address these limitations using an adaptation of the Rand index for weakly-labeled crown delineation that we call RandCrowns. The RandCrowns metric reformulates the Rand index by adjusting the areas over which each term of the index is computed to account for uncertain and imprecise object delineation labels. Quantitative comparisons to the commonly used intersection over union (Jaccard similarity) method shows a decrease in the variance generated by differences among multiple annotators. Combined with qualitative examples, our results suggest that this RandCrowns metric is more robust for scoring target delineations in the presence of uncertainty and imprecision in annotations that are inherent to tree crown delineation. Although the focus of this paper is on evaluation of tree crown delineations, annotation imprecision is a challenge that is common across remote sensing of the environment (and many computer vision problems in general).
翻訳日:2021-05-06 12:45:02 公開日:2021-05-05
# move slam: 非厳格なシーンで完全に教師なしのディープラーニング

Moving SLAM: Fully Unsupervised Deep Learning in Non-Rigid Scenes ( http://arxiv.org/abs/2105.02195v1 )

ライセンス: Link先を確認
Dan Xu, Andrea Vedaldi, Joao F. Henriques(参考訳) 本研究では,映像を3次元形状(カメラと奥行き)に分解する深層ネットワークを訓練する手法を提案する。 従来のカメラ形状を用いて異なる視点からソースイメージを再レンダリングするビュー合成のアイデアを,予測した相対的なポーズと深度マップを用いて構築する。 映像中の合成画像と対応する実画像との誤差を最小化することにより、ポーズや深さを予測するディープネットワークを完全に教師なしで訓練することができる。 しかし、ビュー合成方程式は、オブジェクトが動かないという強い仮定に依存している。 この厳密な世界仮説は予測力を制限し、自動的にオブジェクトの学習を除外する。 画像の小さな領域でエラーを最小限に抑えるという簡単な解決策を提案する。 全体は厳密でないかもしれないが、動く物体の内部など、ほぼ剛体な小さな領域を見つけることは常に可能である。 ネットワークはスライディングウィンドウ内で、各領域の異なるポーズを予測できます。 これは6Dオブジェクトの動きを含む、はるかにリッチなモデルであり、さらに複雑さがほとんどない。 我々は,KITTIにおける教師なし計測と深度予測に関する最新の結果を確立した。 また,屋内ビデオのデータセットであるEPIC-Kitchensには,深度,計測,物体のセグメンテーション,動きなどの根拠となる真実情報がない。 しかし、すべては我々の方法で自動的に回収される。

We propose a method to train deep networks to decompose videos into 3D geometry (camera and depth), moving objects, and their motions, with no supervision. We build on the idea of view synthesis, which uses classical camera geometry to re-render a source image from a different point-of-view, specified by a predicted relative pose and depth map. By minimizing the error between the synthetic image and the corresponding real image in a video, the deep network that predicts pose and depth can be trained completely unsupervised. However, the view synthesis equations rely on a strong assumption: that objects do not move. This rigid-world assumption limits the predictive power, and rules out learning about objects automatically. We propose a simple solution: minimize the error on small regions of the image instead. While the scene as a whole may be non-rigid, it is always possible to find small regions that are approximately rigid, such as inside a moving object. Our network can then predict different poses for each region, in a sliding window. This represents a significantly richer model, including 6D object motions, with little additional complexity. We establish new state-of-the-art results on unsupervised odometry and depth prediction on KITTI. We also demonstrate new capabilities on EPIC-Kitchens, a challenging dataset of indoor videos, where there is no ground truth information for depth, odometry, object segmentation or motion. Yet all are recovered automatically by our method.
翻訳日:2021-05-06 12:44:31 公開日:2021-05-05
# PD-GAN:画像塗布のための確率的逆GAN

PD-GAN: Probabilistic Diverse GAN for Image Inpainting ( http://arxiv.org/abs/2105.02201v1 )

ライセンス: Link先を確認
Hongyu Liu and Ziyu Wan and Wei Huang and Yibing Song and Xintong Han and Jing Liao(参考訳) 画像塗布の確率的多彩なGANであるPD-GANを提案する。 任意の穴領域を持つ入力画像が与えられると、pd-ganは多様で視覚的なコンテンツを含む複数のインペインティング結果を生成する。 我々のPD-GANは、ランダムノイズに基づいて画像を生成するバニラGAN上に構築されている。 画像生成中、初期復元された画像とホール領域を複数スケールで注入することにより、入力ランダムノイズの深い特徴を粗度から細度まで変調する。 ホールフィリングの間、ホール境界近傍のピクセルはより決定論的(すなわち、コンテキストを信頼し、最初に復元された画像が自然の塗布境界を作る確率が高い)であり、一方、ホールの中心にあるピクセルはより自由度(つまり、多様性を高めるためにランダムノイズに依存する可能性が高い)を享受するべきである。 そこで本研究では,空間的確率的多様性正規化(SPDNorm)を提案し,文脈情報に基づく画素生成の確率をモデル化する。 SPDNormは、ホール領域内のリアリズムと多様性を動的にバランスさせ、生成されたコンテンツはホール中心に向かってより多様性を増し、近隣の画像コンテンツと穴の境界に向かって類似させる。 一方,多様なコンテンツ生成のためのPD-GANをさらに強化するために,知覚的多様性損失を提案する。 CelebA-HQ、Places2、Paris Street Viewといったベンチマークデータセットの実験は、PD-GANが多種多様な視覚的イメージ復元に有効であることを示している。

We propose PD-GAN, a probabilistic diverse GAN for image inpainting. Given an input image with arbitrary hole regions, PD-GAN produces multiple inpainting results with diverse and visually realistic content. Our PD-GAN is built upon a vanilla GAN which generates images based on random noise. During image generation, we modulate deep features of input random noise from coarse-to-fine by injecting an initially restored image and the hole regions in multiple scales. We argue that during hole filling, the pixels near the hole boundary should be more deterministic (i.e., with higher probability trusting the context and initially restored image to create natural inpainting boundary), while those pixels lie in the center of the hole should enjoy more degrees of freedom (i.e., more likely to depend on the random noise for enhancing diversity). To this end, we propose spatially probabilistic diversity normalization (SPDNorm) inside the modulation to model the probability of generating a pixel conditioned on the context information. SPDNorm dynamically balances the realism and diversity inside the hole region, making the generated content more diverse towards the hole center and resemble neighboring image content more towards the hole boundary. Meanwhile, we propose a perceptual diversity loss to further empower PD-GAN for diverse content generation. Experiments on benchmark datasets including CelebA-HQ, Places2 and Paris Street View indicate that PD-GAN is effective for diverse and visually realistic image restoration.
翻訳日:2021-05-06 12:44:10 公開日:2021-05-05
# 効率良くロバストな連続学習のためのスキーマ記憶持続性と超越性

Schematic Memory Persistence and Transience for Efficient and Robust Continual Learning ( http://arxiv.org/abs/2105.02085v1 )

ライセンス: Link先を確認
Yuyang Gao, Giorgio A. Ascoli, Liang Zhao(参考訳) 継続的学習は、深層ニューラルネットワーク(dnn)が人間の学習プロセスに似たさまざまなタスクのシーケンスを継続的に学習することによって意思決定を行う、次世代人工知能(ai)への有望なステップだと考えられている。 まだ非常に原始的であり、既存の作品は主に(破滅的な)忘れの回避に焦点が当てられている。 しかし、境界メモリと無拘束なタスク負荷では、忘れは避けられないため、1)記憶効率、2)一般化性、3)ノイズデータを扱う際の堅牢性という観点から、aiと人間のパフォーマンスギャップを減らすために、連続学習は対処しなければならない問題である。 そこで我々は,近年の神経科学の進歩を基盤として,外部記憶を用いた連続学習のための新しいSchematic memory peRsistence and Transience(SMART)フレームワークを提案する。 効率性と一般化性は、誤差境界の理論的保証を伴う空間性と「後方正の転送」制約を用いて、新しい長期記憶機構とスキーマ記憶によって向上される。 強固な強化は、背景情報ゲーテッド学習にインスパイアされた新しい短期記憶機構を用いて達成される。 最後に、ベンチマークと実世界の両方のデータセットに関する広範な実験分析により、我々のモデルの有効性と効率を示す。

Continual learning is considered a promising step towards next-generation Artificial Intelligence (AI), where deep neural networks (DNNs) make decisions by continuously learning a sequence of different tasks akin to human learning processes. It is still quite primitive, with existing works focusing primarily on avoiding (catastrophic) forgetting. However, since forgetting is inevitable given bounded memory and unbounded task loads, 'how to reasonably forget' is a problem continual learning must address in order to reduce the performance gap between AIs and humans, in terms of 1) memory efficiency, 2) generalizability, and 3) robustness when dealing with noisy data. To address this, we propose a novel ScheMAtic memory peRsistence and Transience (SMART) framework for continual learning with external memory that builds on recent advances in neuroscience. The efficiency and generalizability are enhanced by a novel long-term forgetting mechanism and schematic memory, using sparsity and 'backward positive transfer' constraints with theoretical guarantees on the error bound. Robust enhancement is achieved using a novel short-term forgetting mechanism inspired by background information-gated learning. Finally, an extensive experimental analysis on both benchmark and real-world datasets demonstrates the effectiveness and efficiency of our model.
翻訳日:2021-05-06 12:43:34 公開日:2021-05-05
# LEGOEval: クラウドソーシングによる対話システム評価のためのオープンソースツールキット

LEGOEval: An Open-Source Toolkit for Dialogue System Evaluation via Crowdsourcing ( http://arxiv.org/abs/2105.01992v1 )

ライセンス: Link先を確認
Yu Li, Josh Arnold, Feifan Yan, Weiyan Shi and Zhou Yu(参考訳) オンラインクラウドソースプラットフォームであるamazon mechanical turkを使って、研究者が対話システムを数行のコードで簡単に評価できるオープンソースツールキットであるlegoevalを提案する。 既存のツールキットと比較してlegoevalは、一般的なreact.jsインターフェースコンポーネントにマップするpython apiを提供することで、柔軟なタスク設計を特徴としている。 LEGOブロックで遊ぶときのように、内蔵のページで評価手順を簡単にパーソナライズできます。 このようにLEGOEvalは、人間の評価結果を高速で一貫した再現方法を提供する。 柔軟なタスクデザインに加えて、LEGOEvalは収集したデータを簡単にレビューできるAPIも提供する。

We present LEGOEval, an open-source toolkit that enables researchers to easily evaluate dialogue systems in a few lines of code using the online crowdsource platform, Amazon Mechanical Turk. Compared to existing toolkits, LEGOEval features a flexible task design by providing a Python API that maps to commonly used React.js interface components. Researchers can personalize their evaluation procedures easily with our built-in pages as if playing with LEGO blocks. Thus, LEGOEval provides a fast, consistent method for reproducing human evaluation results. Besides the flexible task design, LEGOEval also offers an easy API to review collected data.
翻訳日:2021-05-06 12:42:56 公開日:2021-05-05
# 非構造的再帰を伴う多項式グラフ解析

Polynomial Graph Parsing with Non-Structural Reentrancies ( http://arxiv.org/abs/2105.02033v1 )

ライセンス: Link先を確認
Johanna Bj\"orklund, Frank Drewes, and Anna Jonsson(参考訳) グラフに基づく意味表現は自然言語処理において有用であり、言語概念をノードとして表現することは単純で効果的であることが多い。 セマンティックグラフの言語を表現できるほど強力で効率的な解析が可能な生成デバイスを見つけるために、いくつかの試みがなされている。 グラフ拡張文法(graph extension grammar)は、グラフ上の代数と、その代数の演算上で式を生成する正規木文法からなる。 操作の設計により、これらの文法は非構造的な相互関係を持つグラフを生成することができ、抽象的意味表現のような形式的手法では過剰に一般的であるが、既存の装置がほとんどサポートしていないノード共有の一種である。 グラフ拡張文法の構文解析アルゴリズムを提案し、多項式時間で正しいことが証明された。

Graph-based semantic representations are valuable in natural language processing, where it is often simple and effective to represent linguistic concepts as nodes, and relations as edges between them. Several attempts has been made to find a generative device that is sufficiently powerful to represent languages of semantic graphs, while at the same allowing efficient parsing. We add to this line of work by introducing graph extension grammar, which consists of an algebra over graphs together with a regular tree grammar that generates expressions over the operations of the algebra. Due to the design of the operations, these grammars can generate graphs with non-structural reentrancies; a type of node-sharing that is excessively common in formalisms such as abstract meaning representation, but for which existing devices offer little support. We provide a parsing algorithm for graph extension grammars, which is proved to be correct and run in polynomial time.
翻訳日:2021-05-06 12:42:32 公開日:2021-05-05
# DeepRT:エッジ上のコンピュータビジョンアプリケーションのためのソフトリアルタイムスケジューリング

DeepRT: A Soft Real Time Scheduler for Computer Vision Applications on the Edge ( http://arxiv.org/abs/2105.01803v1 )

ライセンス: Link先を確認
Zhe Yang, Klara Nahrstedt, Hongpeng Guo, Qian Zhou(参考訳) スマートフォンカメラとIoTカメラの普及と、近年のディープラーニングとディープニューラルネットワークのブームにより、さまざまなコンピュータビジョン駆動のモバイルおよびIoTアプリケーションがエッジにデプロイされている。 本稿では,与えられた期限内に迅速な応答を希望するデータに対して,ソフトリアルタイム要求を行うアプリケーションについて検討する。 エッジサーバの限られたgpuコンピューティングリソースを共有する要求が相互に干渉するため、マルチテナントエッジサーバでソフトリアルタイムアプリケーションをサポートするのは容易ではない。 この問題に対処するため,GPU実行計画の異なる待ち時間とスループットを総合的に評価した。 そこで本研究では,gpuスケジューラであるdeeprtを提案する。 DeepRTのキーコンポーネントであるDisBatcherは、さまざまなリクエストからデータを可能な限りバッチし、Admission Control Moduleによって承認されたリクエストに対して遅延保証を提供することが証明されている。 DeepRTには、オーバーランに取り組むAdaptation Moduleも含まれている。 評価の結果,DeepRTは納期ミス数やスループットにおいて最先端の作業よりも優れていた。

The ubiquity of smartphone cameras and IoT cameras, together with the recent boom of deep learning and deep neural networks, proliferate various computer vision driven mobile and IoT applications deployed on the edge. This paper focuses on applications which make soft real time requests to perform inference on their data - they desire prompt responses within designated deadlines, but occasional deadline misses are acceptable. Supporting soft real time applications on a multi-tenant edge server is not easy, since the requests sharing the limited GPU computing resources of an edge server interfere with each other. In order to tackle this problem, we comprehensively evaluate how latency and throughput respond to different GPU execution plans. Based on this analysis, we propose a GPU scheduler, DeepRT, which provides latency guarantee to the requests while maintaining high overall system throughput. The key component of DeepRT, DisBatcher, batches data from different requests as much as possible while it is proven to provide latency guarantee for requests admitted by an Admission Control Module. DeepRT also includes an Adaptation Module which tackles overruns. Our evaluation results show that DeepRT outperforms state-of-the-art works in terms of the number of deadline misses and throughput.
翻訳日:2021-05-06 12:41:07 公開日:2021-05-05
# クリック駆動型注意とデュアルパス接続による病変分節と直腸径予測

Lesion Segmentation and RECIST Diameter Prediction via Click-driven Attention and Dual-path Connection ( http://arxiv.org/abs/2105.01828v1 )

ライセンス: Link先を確認
Youbao Tang, Ke Yan, Jinzheng Cai, Lingyun Huang, Guotong Xie, Jing Xiao, Jingjing Lu, Gigin Lin, and Le Lu(参考訳) 腫瘍径の計測は腫瘍の成長を評価する重要なステップであり,腫瘍画像解析における疾患進展と治療反応のモニタリングである。 退屈で時間を要するが、放射線技師はRECIST基準(Response Evaluation Criteria In Solid tumors)を日常的かつ手動で使用することにより、この課題に取り組む必要がある。 病変のセグメンテーションがより正確で臨床的に価値のある手段であるとしても、医師はより重い労働を必要とするため、手動で病変のセグメンテーションを行うことはできない。 本稿では,全身に共通する病変を分割し,そのRECIST径を正確に自動予測する,事前誘導型デュアルパスネットワーク(PDNet)を提案する。 [1]と同様、放射線技師によるクリックガイダンスが唯一の要件である。 PDNetには2つの重要な特徴がある: 1) 提案した先行エンコーダによるクリック先行情報から並列に病変特異的な注意行列を学習する; クリック駆動型注意; 2) 提案するデコーダにトップダウンおよびボトムアップ接続を導入することにより、抽出されたマルチスケール特徴を包括的に集約する。 DeepLesionデータセットと外部テストセットを用いて,病変分割とRECIST径予測におけるPDNetの優位性を示す実験を行った。 PDNetは我々のタスクの包括的かつ代表的な深部画像の特徴を学習し、病変分割とRECIST径予測のどちらにおいてもより正確な結果が得られる。

Measuring lesion size is an important step to assess tumor growth and monitor disease progression and therapy response in oncology image analysis. Although it is tedious and highly time-consuming, radiologists have to work on this task by using RECIST criteria (Response Evaluation Criteria In Solid Tumors) routinely and manually. Even though lesion segmentation may be the more accurate and clinically more valuable means, physicians can not manually segment lesions as now since much more heavy laboring will be required. In this paper, we present a prior-guided dual-path network (PDNet) to segment common types of lesions throughout the whole body and predict their RECIST diameters accurately and automatically. Similar to [1], a click guidance from radiologists is the only requirement. There are two key characteristics in PDNet: 1) Learning lesion-specific attention matrices in parallel from the click prior information by the proposed prior encoder, named click-driven attention; 2) Aggregating the extracted multi-scale features comprehensively by introducing top-down and bottom-up connections in the proposed decoder, named dual-path connection. Experiments show the superiority of our proposed PDNet in lesion segmentation and RECIST diameter prediction using the DeepLesion dataset and an external test set. PDNet learns comprehensive and representative deep image features for our tasks and produces more accurate results on both lesion segmentation and RECIST diameter prediction.
翻訳日:2021-05-06 12:40:48 公開日:2021-05-05
# 連続時間軌道最適化を用いた実時間マルチアダプティブ・リゾリューション・サーフェル6次元LiDARオドメトリー

Real-time Multi-Adaptive-Resol ution-Surfel 6D LiDAR Odometry using Continuous-time Trajectory Optimization ( http://arxiv.org/abs/2105.02010v1 )

ライセンス: Link先を確認
Jan Quenzel and Sven Behnke(参考訳) 同時ローカライゼーションとマッピング(slam)は自律ロボットにとって必須の機能だが、3dlidarのリアルタイムslamの高データレートのために難しい。 6次元LiDARオードメトリーのリアルタイム手法を提案する。 本手法は,連続時間b-スプライン軌道表現とガウス混合モデル(gmm)を組み合わせることで,局所多解像度サーフェル写像を協調的に整列する。 スパースボクセルグリッドとペルムトヘドラル格子はマップサーフィンルへの高速アクセスを保証し、適応分解能選択スキームは登録を効果的に高速化する。 実験結果から,2つのデータセットと実ロボット実験におけるアプローチの有効性が示された。

Simultaneous Localization and Mapping (SLAM) is an essential capability for autonomous robots, but due to high data rates of 3D LiDARs real-time SLAM is challenging. We propose a real-time method for 6D LiDAR odometry. Our approach combines a continuous-time B-Spline trajectory representation with a Gaussian Mixture Model (GMM) formulation to jointly align local multi-resolution surfel maps. Sparse voxel grids and permutohedral lattices ensure fast access to map surfels, and an adaptive resolution selection scheme effectively speeds up registration. A thorough experimental evaluation shows the performance of our approach on two datasets and during real-robot experiments.
翻訳日:2021-05-06 12:40:20 公開日:2021-05-05
# VoxelContext-Net: ポイントクラウド圧縮のためのOctreeベースのフレームワーク

VoxelContext-Net: An Octree based Framework for Point Cloud Compression ( http://arxiv.org/abs/2105.02158v1 )

ライセンス: Link先を確認
Zizheng Que, Guo Lu, Dong Xu(参考訳) 本稿では,静的および動的ポイントクラウド圧縮のための2段階のディープラーニングフレームワークvoxelcontext-netを提案する。 提案手法は,オクツリー法とボクセル法の両方の利点を生かして,オクツリー構造データの圧縮にボクセルコンテキストを用いる。 具体的には,構築したオクツリーの各ノードの空間近傍コンテキスト情報を符号化した局所ボクセル表現を抽出する。 そして、エントロピー符号化段階において、非リーフノードのシンボルを損失のない方法で圧縮するボクセルコンテキストに基づくディープエントロピーモデルを提案する。 さらに, 動的点雲圧縮には, 時間的依存を生かすために, 時間的近傍の点雲から局所的なボクセル表現を導入する。 さらに,octree構築手順からの歪みを軽減するため,デコーダ側でより正確な再構成点雲を生成するために,voxelコンテキストに基づく3次元座標補正法を提案する。 静的および動的クラウドベンチマークデータセット(ScanNetやSemantic KITTIなど)の総合的な実験により,新たに提案したVoxelContext-Netによる3次元ポイントクラウド幾何圧縮の有効性が明らかに示された。

In this paper, we propose a two-stage deep learning framework called VoxelContext-Net for both static and dynamic point cloud compression. Taking advantages of both octree based methods and voxel based schemes, our approach employs the voxel context to compress the octree structured data. Specifically, we first extract the local voxel representation that encodes the spatial neighbouring context information for each node in the constructed octree. Then, in the entropy coding stage, we propose a voxel context based deep entropy model to compress the symbols of non-leaf nodes in a lossless way. Furthermore, for dynamic point cloud compression, we additionally introduce the local voxel representations from the temporal neighbouring point clouds to exploit temporal dependency. More importantly, to alleviate the distortion from the octree construction procedure, we propose a voxel context based 3D coordinate refinement method to produce more accurate reconstructed point cloud at the decoder side, which is applicable to both static and dynamic point cloud compression. The comprehensive experiments on both static and dynamic point cloud benchmark datasets(e.g., ScanNet and Semantic KITTI) clearly demonstrate the effectiveness of our newly proposed method VoxelContext-Net for 3D point cloud geometry compression.
翻訳日:2021-05-06 12:40:07 公開日:2021-05-05
# 超音波増幅の再考:物理に着想を得たアプローチ

Rethinking Ultrasound Augmentation: A Physics-Inspired Approach ( http://arxiv.org/abs/2105.02188v1 )

ライセンス: Link先を確認
Maria Tirindelli, Christine Eilers, Walter Simson, Magdalini Paschali, Mohammad Farid Azampour, Nassir Navab(参考訳) 医用超音波(US)は広く使われているが、人工物とオペレーターの依存関係が特徴である。 これらの属性は、コンピュータ支援インターベンションシステムで使用されるディープニューラルネットワークのトレーニングに米国データセットの収集と利用を妨げる。 データ拡張はモデル一般化と性能を高めるために一般的に使用される。 しかし、アフィン変換のような一般的なデータ拡張技術はアメリカの物理学と一致せず、不注意に使用すると非現実的なアメリカの画像に繋がる可能性がある。 そこで本研究では,データ拡張のためのbモード画像に適用する,変形,残響,信号対雑音比など,物理にインスパイアされた変換のセットを提案する。 骨分節と分類のタスクのための新しい脊椎USデータセットについて評価を行った。

Medical Ultrasound (US), despite its wide use, is characterized by artifacts and operator dependency. Those attributes hinder the gathering and utilization of US datasets for the training of Deep Neural Networks used for Computer-Assisted Intervention Systems. Data augmentation is commonly used to enhance model generalization and performance. However, common data augmentation techniques, such as affine transformations do not align with the physics of US and, when used carelessly can lead to unrealistic US images. To this end, we propose a set of physics-inspired transformations, including deformation, reverb and Signal-to-Noise Ratio, that we apply on US B-mode images for data augmentation. We evaluate our method on a new spine US dataset for the tasks of bone segmentation and classification.
翻訳日:2021-05-06 12:39:41 公開日:2021-05-05
# 医療画像セグメンテーションにおける個人レーダスタイルが深層学習の不確実性に及ぼす影響

Impact of individual rater style on deep learning uncertainty in medical imaging segmentation ( http://arxiv.org/abs/2105.02197v1 )

ライセンス: Link先を確認
Olivier Vincent, Charley Gros, Julien Cohen-Adad(参考訳) 複数の研究が医学的セグメンテーションタスクにおけるラター間変動と深層学習モデルの不確実性の関係について検討しているが、個々のレーダスタイルの影響についてはほとんど分かっていない。 本研究では,バイアスと一貫性という形でraterスタイルを定量化し,ディープラーニングモデルのトレーニングに使用する場合の影響について検討する。 脳多発性硬化症と脊髄灰白質セグメンテーションからなる2つの多層公共データセットが用いられた。 どちらのデータセットでも、レーダバイアスとディープラーニングの不確実性との間に相関(R^2 = 0.60$, $0.93$)がある。 この関係に対するレートラーのアノテーション間のラベルの融合の影響についても検討し,マルチセンターのコンセンサスが不確実性を低減するために単一センターのコンセンサスよりも効果的であることを示した。

While multiple studies have explored the relation between inter-rater variability and deep learning model uncertainty in medical segmentation tasks, little is known about the impact of individual rater style. This study quantifies rater style in the form of bias and consistency and explores their impacts when used to train deep learning models. Two multi-rater public datasets were used, consisting of brain multiple sclerosis lesion and spinal cord grey matter segmentation. On both datasets, results show a correlation ($R^2 = 0.60$ and $0.93$) between rater bias and deep learning uncertainty. The impact of label fusion between raters' annotations on this relationship is also explored, and we show that multi-center consensuses are more effective than single-center consensuses to reduce uncertainty, since rater style is mostly center-specific.
翻訳日:2021-05-06 12:39:30 公開日:2021-05-05
# Q-Rater: 後の均一量子化のための非凸最適化

Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization ( http://arxiv.org/abs/2105.01868v1 )

ライセンス: Link先を確認
Byeongwook Kim, Dongsoo Lee, Yeonju Ro, Yongkweon Jeon, Se Jung Kwon, Baeseong Park, Daehwan Oh(参考訳) 様々な訓練後の均一量子化法は、通常凸最適化に基づいて研究されている。 その結果、従来は量子化誤差の最小化や二次近似に頼っていた。 このようなアプローチは、多くの量子化ビットが使われる場合、計算効率が良く合理的である。 しかし、量子化ビット数が比較的低い場合、非凸最適化はモデル精度を向上させるために避けられない。 本稿では,非凸性を考慮した新しいトレーニング後一様量子化手法を提案する。 重みとアクティベーションの切断と丸めのためのハイパーパラメータをタスク損失の監視によって探索できることを実証的に示す。 そして、最適に探索されたハイパーパラメータのセットを凍結して次の層へ進み、トレーニング後の量子化にインクリメンタルな非凸最適化を有効にする。 様々なモデルを用いた広範囲な実験結果を通して,提案手法は,特に低ビット量子化において,高い精度を示す。

Various post-training uniform quantization methods have usually been studied based on convex optimization. As a result, most previous ones rely on the quantization error minimization and/or quadratic approximations. Such approaches are computationally efficient and reasonable when a large number of quantization bits are employed. When the number of quantization bits is relatively low, however, non-convex optimization is unavoidable to improve model accuracy. In this paper, we propose a new post-training uniform quantization technique considering non-convexity. We empirically show that hyper-parameters for clipping and rounding of weights and activations can be explored by monitoring task loss. Then, an optimally searched set of hyper-parameters is frozen to proceed to the next layer such that an incremental non-convex optimization is enabled for post-training quantization. Throughout extensive experimental results using various models, our proposed technique presents higher model accuracy, especially for a low-bit quantization.
翻訳日:2021-05-06 12:38:53 公開日:2021-05-05
# 高次元TS潜時空間における感情的プロトタイプの探索

Exploring emotional prototypes in a high dimensional TTS latent space ( http://arxiv.org/abs/2105.01891v1 )

ライセンス: Link先を確認
Pol van Rijn, Silvan Mertes, Dominik Schiller, Peter M. C. Harrison, Pauline Larrouy-Maestri, Elisabeth Andr\'e, Nori Jacoby(参考訳) 最近のTSシステムは、韻律的に変化し、現実的な音声を生成することができる。 しかし、この韻律的変化が話者の感情状態の知覚にどのように寄与するかは不明である。 本稿では,最近の心理学的パラダイムであるgibbs sampling with peopleを用いて,訓練されたgstタコトロンモデルにおける韻律的潜在空間を探索し,感情的韻律のプロトタイプを探索する。 参加者をオンラインで募集し、生成音声モデルの潜伏空間を逐次適応的に操作することにより、1つのグループに提示された刺激が前のグループの反応によって決定される。 本研究では,(1)モデルの潜伏空間の特定の領域が,特定の感情に確実に関連していること,(2)結果の感情的プロトタイプは,別個のレイパー群によって認識され,(3)これらの感情的プロトタイプは,新しい文章に効果的に転送可能であることを実証する。 これらの実験は、生成モデルの潜在空間と人間の意味論との関係を探求するツールを提供することにより、感情音声を理解するための新しいアプローチを示す。

Recent TTS systems are able to generate prosodically varied and realistic speech. However, it is unclear how this prosodic variation contributes to the perception of speakers' emotional states. Here we use the recent psychological paradigm 'Gibbs Sampling with People' to search the prosodic latent space in a trained GST Tacotron model to explore prototypes of emotional prosody. Participants are recruited online and collectively manipulate the latent space of the generative speech model in a sequentially adaptive way so that the stimulus presented to one group of participants is determined by the response of the previous groups. We demonstrate that (1) particular regions of the model's latent space are reliably associated with particular emotions, (2) the resulting emotional prototypes are well-recognized by a separate group of human raters, and (3) these emotional prototypes can be effectively transferred to new sentences. Collectively, these experiments demonstrate a novel approach to the understanding of emotional speech by providing a tool to explore the relation between the latent space of generative models and human semantics.
翻訳日:2021-05-06 12:38:40 公開日:2021-05-05
# CoSA:空間加速器の制約付き最適化によるスケジューリング

CoSA: Scheduling by Constrained Optimization for Spatial Accelerators ( http://arxiv.org/abs/2105.01898v1 )

ライセンス: Link先を確認
Qijing Huang, Minwoo Kang, Grace Dinh, Thomas Norell, Aravind Kalaiah, James Demmel, John Wawrzynek, Yakun Sophia Shao(参考訳) 近年のディープニューラルネットワーク(DNN)の進歩により、専門的なDNNアクセラレータが活発に開発され、多くの処理要素が空間的にレイアウトされ、マルチレベルメモリ階層とフレキシブルな相互接続が実現されている。 DNNアクセラレータはデータの再利用と高いスループットを実現することができるが、空間的にも時間的にも計算のスケジュールを明示的に管理する必要があるプログラマには、多数のランタイムパラメータを公開することもできる。 実際、異なるスケジューリング選択は、広範囲なスケジューリング空間をナビゲートする高速で効率的な検索戦略の必要性を動機として、パフォーマンスと効率の幅広いバリエーションをもたらす可能性がある。 この課題に対処するために、DNNアクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。 設計者のヒューリスティックや反復的な方法で探索空間をナビゲートする既存のアプローチとは対照的に、CoSAはスケジューリング決定を、数学的最適化手法を用いて決定的に解決できる制約最適化問題として表現している。 特に、CoSAはDNN演算子とハードウェアの規則性を活用して、DNNスケジューリング空間をアルゴリズムとアーキテクチャの制約を伴う混合整数プログラミング(MIP)問題に定式化し、1ショットで高効率なスケジュールを自動的に生成することができる。 我々は,CoSAが生成するスケジュールが,幅広いDNNネットワークにおいて最大2.5倍の幾何平均で最先端のアプローチを著しく上回り,解法時間も90倍向上することを示した。

Recent advances in Deep Neural Networks (DNNs) have led to active development of specialized DNN accelerators, many of which feature a large number of processing elements laid out spatially, together with a multi-level memory hierarchy and flexible interconnect. While DNN accelerators can take advantage of data reuse and achieve high peak throughput, they also expose a large number of runtime parameters to the programmers who need to explicitly manage how computation is scheduled both spatially and temporally. In fact, different scheduling choices can lead to wide variations in performance and efficiency, motivating the need for a fast and efficient search strategy to navigate the vast scheduling space. To address this challenge, we present CoSA, a constrained-optimiza tion-based approach for scheduling DNN accelerators. As opposed to existing approaches that either rely on designers' heuristics or iterative methods to navigate the search space, CoSA expresses scheduling decisions as a constrained-optimiza tion problem that can be deterministically solved using mathematical optimization techniques. Specifically, CoSA leverages the regularities in DNN operators and hardware to formulate the DNN scheduling space into a mixed-integer programming (MIP) problem with algorithmic and architectural constraints, which can be solved to automatically generate a highly efficient schedule in one shot. We demonstrate that CoSA-generated schedules significantly outperform state-of-the-art approaches by a geometric mean of up to 2.5x across a wide range of DNN networks while improving the time-to-solution by 90x.
翻訳日:2021-05-06 12:38:20 公開日:2021-05-05
# 指紋による局所化の精度を高めるための合成データの利用-深層学習アプローチ

Using Synthetic Data to Enhance the Accuracy of Fingerprint-Based Localization: A Deep Learning Approach ( http://arxiv.org/abs/2105.01903v1 )

ライセンス: Link先を確認
Mohammad Nabati, Hojjat Navidan, Reza Shahbazian, Seyed Ali Ghorashi and David Windridge(参考訳) 人間中心のデータ収集は一般的にコストがかかり、プライバシーの問題を引き起こす。 クラウドソースデータ収集や半教師付きアルゴリズムの使用など,このコスト削減のためのさまざまなソリューションが文献で提案されている。 しかし、半教師付きアルゴリズムはラベルのないデータのソースを必要とし、クラウドソーシング手法はアクティブな参加者の数を必要とする。 もう一つの受動的データ収集モダリティは指紋ベースのローカライゼーションである。 このような方法は、無線センサネットワークにおける受信信号強度(RSS)またはチャネル状態情報(CSI)を用いて、利用者を屋内/屋外環境にローカライズする。 本稿では,指紋による位置推定におけるトレーニングデータ収集コストを,合成データを用いて削減する手法を提案する。 GAN(Generative Adversarial Network)は、収集されたデータの限られたサンプルの分布を学習するために使用され、それに続いて、実際の収集データを増大させ、全体の位置決め精度を高めるために使用できる合成データを生成する。 ベンチマークデータセットにおける実験結果から,提案手法を適用し,10%の収集データと90%の合成データの組み合わせを用いることで,収集した全データを用いて得られる測位精度と本質的に類似した測位精度が得られることがわかった。 つまり、GAN生成合成データを使用することで、90%少ない実データを使用することで、許容精度を達成しつつ、データ収集コストを削減できる。

Human-centered data collection is typically costly and implicates issues of privacy. Various solutions have been proposed in the literature to reduce this cost, such as crowdsourced data collection, or the use of semi-supervised algorithms. However, semi-supervised algorithms require a source of unlabeled data, and crowd-sourcing methods require numbers of active participants. An alternative passive data collection modality is fingerprint-based localization. Such methods use received signal strength (RSS) or channel state information (CSI) in wireless sensor networks to localize users in indoor/outdoor environments. In this paper, we introduce a novel approach to reduce training data collection costs in fingerprint-based localization by using synthetic data. Generative adversarial networks (GANs) are used to learn the distribution of a limited sample of collected data and, following this, to produce synthetic data that can be used to augment the real collected data in order to increase overall positioning accuracy. Experimental results on a benchmark dataset show that by applying the proposed method and using a combination of 10% collected data and 90% synthetic data, we can obtain essentially similar positioning accuracy to that which would be obtained by using the full set of collected data. This means that by employing GAN-generated synthetic data, we can use 90% less real data, thereby reduce data-collection costs while achieving acceptable accuracy.
翻訳日:2021-05-06 12:37:53 公開日:2021-05-05
# 深層学習マウスにおけるREM前睡眠の自動評価

Automated scoring of pre-REM sleep in mice with deep learning ( http://arxiv.org/abs/2105.01933v1 )

ライセンス: Link先を確認
Niklas Grieger, Justus T. C. Schwabedal, Stefanie Wendel, Yvonne Ritze, Stephan Bialonski(参考訳) 動物睡眠を評価するための労働集約マニュアルの信頼性の高い自動化は、長期睡眠研究の分析を容易にする。 近年、データから最適な特徴を学習するディープラーニングベースのシステムは、Wake、REM、Non-REMの古典的な睡眠ステージにおける評価精度を高めている。 一方、Non-REMとREMの間に見られるREMのような移行段階の統計は、睡眠の生理学に関するさらなる洞察を与えており、現在、活発な調査が行われていると認識されている。 本稿では,古典期とマウスのレム前睡眠をスコア付けする,単純なニューラルネットワークアーキテクチャに基づく分類システムを提案する。 古典的な段階に限定されると、最適化されたネットワークは最先端の分類性能を示し、サンプル外F1スコアは0.95である。 制限のない場合、ネットワークは従来のステージに比べて、プレREM(0.5)で低いF1スコアを示した。 この結果は、ラットの移行睡眠やヒトのN1睡眠など、他の種の移行段階を測る以前の試みに匹敵する。 いずれにせよ, プレREMを含む予測の順序は, 人間のスコアラーが観察した睡眠動態を反映する非REMからREMへ移行した。 以上の結果から、典型的なデータセットでは睡眠の段階が過小評価されているか、ストーラー間変動が大きいことが示唆された。 さらに、トレーニングされたネットワークで予測を実行するためのソースコードとオンラインプラットフォームも提供します。

Reliable automation of the labor-intensive manual task of scoring animal sleep can facilitate the analysis of long-term sleep studies. In recent years, deep-learning-based systems, which learn optimal features from the data, increased scoring accuracies for the classical sleep stages of Wake, REM, and Non-REM. Meanwhile, it has been recognized that the statistics of transitional stages such as pre-REM, found between Non-REM and REM, may hold additional insight into the physiology of sleep and are now under vivid investigation. We propose a classification system based on a simple neural network architecture that scores the classical stages as well as pre-REM sleep in mice. When restricted to the classical stages, the optimized network showed state-of-the-art classification performance with an out-of-sample F1 score of 0.95. When unrestricted, the network showed lower F1 scores on pre-REM (0.5) compared to the classical stages. The result is comparable to previous attempts to score transitional stages in other species such as transition sleep in rats or N1 sleep in humans. Nevertheless, we observed that the sequence of predictions including pre-REM typically transitioned from Non-REM to REM reflecting sleep dynamics observed by human scorers. Our findings provide further evidence for the difficulty of scoring transitional sleep stages, likely because such stages of sleep are under-represented in typical data sets or show large inter-scorer variability. We further provide our source code and an online platform to run predictions with our trained network.
翻訳日:2021-05-06 12:37:31 公開日:2021-05-05
# 説明可能な機械学習を用いた医療データに対する攻撃非依存の逆検出

Attack-agnostic Adversarial Detection on Medical Data Using Explainable Machine Learning ( http://arxiv.org/abs/2105.01959v1 )

ライセンス: Link先を確認
Matthew Watson (1) and Noura Al Moubayed (1) ((1) Durham University, Durham, UK)(参考訳) 特に、倫理的かつ信頼できる自動意思決定に説明可能なモデルが不可欠である医療において、説明可能な機械学習が普及している。 敵の攻撃に対するディープラーニングモデルの感受性に関する研究は、モデルを見誤って誤った予測を行うためのサンプル設計の容易さを示している。 本研究では,電子健康記録 (EHR) と胸部X線データ (CXR) の2つのデータから, 敵検体を正確に検出するためのモデル非依存的説明可能性に基づく手法を提案する。 MIMIC-IIIとHenan-Renmin EHRデータセットでは,縦方向逆襲に対する検出精度が77%であった。 MIMIC-CXRデータセットでは88%の精度を実現し、すべての設定において、両方のデータセットにおける敵検出技術の現状を10%以上改善した。 そこで本研究では,異なる攻撃手法に一般化可能な逆検体を,再訓練を必要とせずに検出する手法を提案する。

Explainable machine learning has become increasingly prevalent, especially in healthcare where explainable models are vital for ethical and trusted automated decision making. Work on the susceptibility of deep learning models to adversarial attacks has shown the ease of designing samples to mislead a model into making incorrect predictions. In this work, we propose a model agnostic explainability-based method for the accurate detection of adversarial samples on two datasets with different complexity and properties: Electronic Health Record (EHR) and chest X-ray (CXR) data. On the MIMIC-III and Henan-Renmin EHR datasets, we report a detection accuracy of 77% against the Longitudinal Adversarial Attack. On the MIMIC-CXR dataset, we achieve an accuracy of 88%; significantly improving on the state of the art of adversarial detection in both datasets by over 10% in all settings. We propose an anomaly detection based method using explainability techniques to detect adversarial samples which is able to generalise to different attack methods without a need for retraining.
翻訳日:2021-05-06 12:37:10 公開日:2021-05-05
# プライマル・ダイアル分解とディープアンロールによる2段階確率最適化

Two-Stage Stochastic Optimization via Primal-Dual Decomposition and Deep Unrolling ( http://arxiv.org/abs/2105.01853v1 )

ライセンス: Link先を確認
An Liu, Rui Yang, Tony Q. S. Quek and Min-Jian Zhao(参考訳) 目的関数と制約関数の両方において、長期最適化変数と短期最適化変数のセットを結合した2段階確率最適化問題を考える。 2段階確率最適化は様々な工学や科学的応用において重要な役割を担っているが、特に長期変数と短期変数が制約に組み合わさった場合、効率的アルゴリズムが欠けている。 密結合型確率論的制約によって引き起こされる課題を克服するため,まず2段階の原始双対分解法(PDD)を構築し,2段階の問題を長期問題と短期サブプロブレム群に分解する。 次に,2段階確率最適化問題に対するKKT解を求めるために,PDD-SSCAアルゴリズムフレームワークを提案する。 各イテレーションにおいて、PDD-SSCAはまず短期的なサブアルゴリズムを実行し、状態サンプルのミニバッチに関連する短期的なサブプロブレムの定常点を見つける。 次に,短期的部分アルゴリズムの深部展開と後方伝播法に基づいて,長期的問題に対する凸代理を構築する。 最後に、凸代理問題の最適解を解いて次の繰り返しを生成する。 PDD-SSCAのほぼ確実に収束を確立し、2つの重要なアプリケーション問題を解決するためにアルゴリズムフレームワークをカスタマイズする。 シミュレーションにより、PDD-SSCAは既存のソリューションよりも優れた性能が得られることが示された。

We consider a two-stage stochastic optimization problem, in which a long-term optimization variable is coupled with a set of short-term optimization variables in both objective and constraint functions. Despite that two-stage stochastic optimization plays a critical role in various engineering and scientific applications, there still lack efficient algorithms, especially when the long-term and short-term variables are coupled in the constraints. To overcome the challenge caused by tightly coupled stochastic constraints, we first establish a two-stage primal-dual decomposition (PDD) method to decompose the two-stage problem into a long-term problem and a family of short-term subproblems. Then we propose a PDD-based stochastic successive convex approximation (PDD-SSCA) algorithmic framework to find KKT solutions for two-stage stochastic optimization problems. At each iteration, PDD-SSCA first runs a short-term sub-algorithm to find stationary points of the short-term subproblems associated with a mini-batch of the state samples. Then it constructs a convex surrogate for the long-term problem based on the deep unrolling of the short-term sub-algorithm and the back propagation method. Finally, the optimal solution of the convex surrogate problem is solved to generate the next iterate. We establish the almost sure convergence of PDD-SSCA and customize the algorithmic framework to solve two important application problems. Simulations show that PDD-SSCA can achieve superior performance over existing solutions.
翻訳日:2021-05-06 12:35:23 公開日:2021-05-05
# 不規則空間の最適表現に向けたスパースニューラルネットワークの逐次暗号化

Sequential Encryption of Sparse Neural Networks Toward Optimum Representation of Irregular Sparsity ( http://arxiv.org/abs/2105.01869v1 )

ライセンス: Link先を確認
Baeseong Park, Se Jung Kwon, Dongsoo Lee, Daehwan Oh, Byeongwook Kim, Yongkweon Jeon, Yeonju Ro(参考訳) 微細プルーニング技術は高い圧縮比を達成するが、従来のスペーシティ表現(CSRなど)は不規則スペーシティの並列性を著しく低下させる。 したがって、実際のプルーニング法は(構造的プルーニングによる)より低いプルーニング率で並列性を改善する。 本稿では,sparseニューラルネットワークを高規則な構造に格納できる細粒度プルーニング法をサポートするため,固定固定型(損失なし)暗号アーキテクチャ/アルゴリズムについて検討する。 まずエントロピーを用いた暗号ベースの圧縮の最大圧縮比を推定する。 そこで,(エントロピーによる)圧縮比を理論的な最大値に押し上げるため,逐次固定対固定暗号方式を提案する。 提案する圧縮方式は, 様々な細粒度プルーニング法により, トランスおよびresnet-50プルーニングの最大圧縮比をほぼ達成できることを実証する。

Even though fine-grained pruning techniques achieve a high compression ratio, conventional sparsity representations (such as CSR) associated with irregular sparsity degrade parallelism significantly. Practical pruning methods, thus, usually lower pruning rates (by structured pruning) to improve parallelism. In this paper, we study fixed-to-fixed (lossless) encryption architecture/algorit hm to support fine-grained pruning methods such that sparse neural networks can be stored in a highly regular structure. We first estimate the maximum compression ratio of encryption-based compression using entropy. Then, as an effort to push the compression ratio to the theoretical maximum (by entropy), we propose a sequential fixed-to-fixed encryption scheme. We demonstrate that our proposed compression scheme achieves almost the maximum compression ratio for the Transformer and ResNet-50 pruned by various fine-grained pruning methods.
翻訳日:2021-05-06 12:35:00 公開日:2021-05-05
# フェアランキングが不確実な推論に出会ったとき

When Fair Ranking Meets Uncertain Inference ( http://arxiv.org/abs/2105.02091v1 )

ライセンス: Link先を確認
Avijit Ghosh, Ritam Dutt, Christo Wilson(参考訳) 既存の公正ランキングシステム、特に人口統計学的に公平であるように設計されたシステムは、個人に関する正確な人口統計情報をランキングアルゴリズムで利用できると仮定する。 しかし実際には、この仮定は -- 求職者や信用求職者のような現実世界の文脈では、社会的および法的障壁は、アルゴリズムオペレーターが人々の人口統計情報を収集することを妨げる可能性がある。 この場合、アルゴリズムオペレータは、人々の人口動態を推測し、これらの推論をランキングアルゴリズムの入力として提供しようとする。 本研究では,人口統計学における不確実性と誤りが,公正ランキングアルゴリズムによって提供される公平性にどのように影響するかを検討する。 実データを用いたシミュレーションと3つのケーススタディを用いて、実システムから引き出された人口統計学的推論が不公平なランキングにどのようにつながるかを示す。 以上の結果から,推測が極めて正確でない限り,推定された人口統計データを公平なランキングアルゴリズムの入力として使用するべきではないことが示唆された。

Existing fair ranking systems, especially those designed to be demographically fair, assume that accurate demographic information about individuals is available to the ranking algorithm. In practice, however, this assumption may not hold -- in real-world contexts like ranking job applicants or credit seekers, social and legal barriers may prevent algorithm operators from collecting peoples' demographic information. In these cases, algorithm operators may attempt to infer peoples' demographics and then supply these inferences as inputs to the ranking algorithm. In this study, we investigate how uncertainty and errors in demographic inference impact the fairness offered by fair ranking algorithms. Using simulations and three case studies with real datasets, we show how demographic inferences drawn from real systems can lead to unfair rankings. Our results suggest that developers should not use inferred demographic data as input to fair ranking algorithms, unless the inferences are extremely accurate.
翻訳日:2021-05-06 12:34:43 公開日:2021-05-05
# 局所的グローバルネットワークと識別的話者埋め込みを持つ可変数の話者に対するエンドツーエンドダイアリゼーション

End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings ( http://arxiv.org/abs/2105.02096v1 )

ライセンス: Link先を確認
Soumi Maiti, Hakan Erdogan, Kevin Wilson, Scott Wisdom, Shinji Watanabe and John R. Hershey(参考訳) 本稿では,シングルチャネル音声録音から会議ダイアリゼーションを行うエンド・ツー・エンドのディープ・ネットワークモデルを提案する。 エンドツーエンドダイアリゼーションモデルは、従来のクラスタリングベースのダイアリゼーション法とは異なり、話者重複の処理と識別訓練の簡単な処理を可能にする利点がある。 提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。 本稿では,ローカルな畳み込みネットワークとグローバルな自己認識モジュール,話者識別コンポーネントを用いたマルチタスク転送学習,第2ステージでモデルの改良を行うシーケンシャルアプローチなど,ダイアリゼーションのパフォーマンス向上に寄与するいくつかのコンポーネントを紹介する。 これらは、librispeechとlibrittsデータセットに基づくシミュレーションミーティングデータに基づいてトレーニングおよび検証され、最終的な評価は、スピーカー再生による実際の音響を用いて記録されたシミュレーション会議からなるlibricsを使用して行われる。 提案手法は,従来提案していたエンドツーエンドダイアリゼーションモデルよりも高性能である。

We present an end-to-end deep network model that performs meeting diarization from single-channel audio recordings. End-to-end diarization models have the advantage of handling speaker overlap and enabling straightforward handling of discriminative training, unlike traditional clustering-based diarization methods. The proposed system is designed to handle meetings with unknown numbers of speakers, using variable-number permutation-invarian t cross-entropy based loss functions. We introduce several components that appear to help with diarization performance, including a local convolutional network followed by a global self-attention module, multi-task transfer learning using a speaker identification component, and a sequential approach where the model is refined with a second stage. These are trained and validated on simulated meeting data based on LibriSpeech and LibriTTS datasets; final evaluations are done using LibriCSS, which consists of simulated meetings recorded using real acoustics via loudspeaker playback. The proposed model performs better than previously proposed end-to-end diarization models on these data.
翻訳日:2021-05-06 12:34:25 公開日:2021-05-05
# H-TD2:適応型都市タクシーディスパッチのためのハイブリッド時間差学習

H-TD2: Hybrid Temporal Difference Learning for Adaptive Urban Taxi Dispatch ( http://arxiv.org/abs/2105.02138v1 )

ライセンス: Link先を確認
Benjamin Rivi\`ere and Soon-Jo Chung(参考訳) h-td2: hybrid temporal difference learning for taxi dispatch, a model-free, adaptive decision-making algorithm for a large fleet of automated taxis in an dynamic urban environment (h-td2: hybrid temporal difference learning for taxi dispatch)。 我々のスケーラブルなアルゴリズムは、各タクシーでローカルに計算された時間差分学習と、ディスパッチセンターで計算された頻度の低いベルマン更新の2つの挙動を切り替えることで、自然輸送ネットワーク企業のトポロジを利用する。 本研究では,計算複雑性と個別タクシー政策の有界準最適性との間のトレードオフを明示的に制御する2つの動作間のトリガ条件を導出し,その制御条件を設計する。 さらに、最近の強化学習ディスパッチ法とは異なり、このポリシー推定はトレーニング外ドメインイベントに適応し、堅牢である。 ポリシーはエージェントに依存しない細胞ベースのマルコフ決定プロセスで学習され、個々のタクシーは分散ゲーム理論タスク割り当てにおいて学習されたポリシーを使用して調整される。 シミュレーションされた顧客データセットを用いて,Gridworld環境における水平方向制御ベースラインの後退に対するアルゴリズムの有効性を検証し,提案手法により,幅広いパラメータに対して平均顧客待ち時間を50%削減する。 また,2016年のメジャーリーグ・ワールドシリーズにおける不規則な顧客分布に対して,提案手法が平均的な顧客待機時間を26%削減するシカゴ・タクシー・パブリック・データセットからの実際の顧客要求をシカゴ市環境で検証した。

We present H-TD2: Hybrid Temporal Difference Learning for Taxi Dispatch, a model-free, adaptive decision-making algorithm to coordinate a large fleet of automated taxis in a dynamic urban environment to minimize expected customer waiting times. Our scalable algorithm exploits the natural transportation network company topology by switching between two behaviors: distributed temporal-difference learning computed locally at each taxi and infrequent centralized Bellman updates computed at the dispatch center. We derive a regret bound and design the trigger condition between the two behaviors to explicitly control the trade-off between computational complexity and the individual taxi policy's bounded sub-optimality; this advances the state of the art by enabling distributed operation with bounded-suboptimalit y. Additionally, unlike recent reinforcement learning dispatch methods, this policy estimation is adaptive and robust to out-of-training domain events. This result is enabled by a two-step modelling approach: the policy is learned on an agent-agnostic, cell-based Markov Decision Process and individual taxis are coordinated using the learned policy in a distributed game-theoretic task assignment. We validate our algorithm against a receding horizon control baseline in a Gridworld environment with a simulated customer dataset, where the proposed solution decreases average customer waiting time by 50% over a wide range of parameters. We also validate in a Chicago city environment with real customer requests from the Chicago taxi public dataset where the proposed solution decreases average customer waiting time by 26% over irregular customer distributions during a 2016 Major League Baseball World Series game.
翻訳日:2021-05-06 12:34:06 公開日:2021-05-05