このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210406となっている論文です。

PDF登録状況(公開日: 20210406)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) PMLB v1.0: 機械学習手法のベンチマークのためのオープンソースデータセットコレクション [全文訳有]

PMLB v1.0: An open source dataset collection for benchmarking machine learning methods ( http://arxiv.org/abs/2012.00058v3 )

ライセンス: CC BY 4.0
Joseph D. Romano, Trang T. Le, William La Cava, John T. Gregg, Daniel J. Goldberg, Natasha L. Ray, Praneel Chakraborty, Daniel Himmelstein, Weixuan Fu, and Jason H. Moore(参考訳) モチベーション(Motivation): 機械学習と統計的モデリングの新しい研究は、よく研究されたベンチマークデータセットを用いた既存の手法との比較に頼っている。 一般的なデータサイエンスワークフローとうまく統合された、標準化されたユーザフレンドリなインターフェースを通じて、これらのデータセットの多くに迅速なアクセスを提供するツールはほとんどありません。 結果: このPMLBのリリースは、ひとつの場所に集約された新しい機械学習とデータサイエンスメソッドを評価するための、多種多様な公開ベンチマークデータセットの最大のコレクションを提供する。 v1.0では、オープンソースコミュニティとの議論を経て、多くの重要な改善が加えられている。 可用性: PMLBはhttps://github.com/E pistasisLab/pmlb.com から入手可能だ。 PMLB用のPythonインターフェースとRインターフェースは、それぞれPython Package IndexとComprehensive R Archive Networkを通じてインストールできる。

Motivation: Novel machine learning and statistical modeling studies rely on standardized comparisons to existing methods using well-studied benchmark datasets. Few tools exist that provide rapid access to many of these datasets through a standardized, user-friendly interface that integrates well with popular data science workflows. Results: This release of PMLB provides the largest collection of diverse, public benchmark datasets for evaluating new machine learning and data science methods aggregated in one location. v1.0 introduces a number of critical improvements developed following discussions with the open-source community. Availability: PMLB is available at https://github.com/E pistasisLab/pmlb. Python and R interfaces for PMLB can be installed through the Python Package Index and Comprehensive R Archive Network, respectively.
翻訳日:2021-06-06 20:00:13 公開日:2021-04-06
# 適応重み付き高速収束フェデレーション学習

Fast-Convergent Federated Learning with Adaptive Weighting ( http://arxiv.org/abs/2012.00661v2 )

ライセンス: Link先を確認
Hongda Wu, Ping Wang(参考訳) フェデレートラーニング(FL)は、リソース制約のあるエッジノードが、プライバシに敏感なデータをローカルに保持しながら、中央サーバのオーケストレーションの下でグローバルモデルを協調的に学習することを可能にする。 非独立および独立に分散された(非IID)データサンプルは、参加ノード間でモデルトレーニングを遅くし、FLが収束するための追加の通信ラウンドを課す。 本稿では,非iidデータセットを持つノードの存在下でのモデル収束を高速化するfederated adaptive weighting (fedadp)アルゴリズムを提案する。 理論的および経験的分析により,グローバルモデル集約へのノード寄与と局所ノード上のデータ分布との暗黙的な関係を観察する。 次に,各トレーニングラウンドを通じてノード寄与に基づくグローバルモデルを適応的に更新するための異なる重み付けを提案する。 参加ノードの寄与はまず局所勾配ベクトルと大域勾配ベクトルの間の角度で測定され、その後、設計された非線形写像関数によって重みを定量化する。 シンプルで効果的な戦略は、ポジティブな(ネガティブな)ノードの貢献を動的に強化し、コミュニケーションラウンドの削減を劇的に生み出す。 一般的に採用されているフェデレート平均化(FedAvg)よりも優れていることは理論的にも実験的にも検証されている。 PytorchとPySyftで実施された広範な実験により、FedAvgアルゴリズムと比較して、FedAdpを用いたFLトレーニングはMNISTデータセットで54.1%、FashionMNISTデータセットで45.4%の通信ラウンド数を削減できることを示した。

Federated learning (FL) enables resource-constrained edge nodes to collaboratively learn a global model under the orchestration of a central server while keeping privacy-sensitive data locally. The non-independent-and- identically-distribu ted (non-IID) data samples across participating nodes slow model training and impose additional communication rounds for FL to converge. In this paper, we propose Federated Adaptive Weighting (FedAdp) algorithm that aims to accelerate model convergence under the presence of nodes with non-IID dataset. We observe the implicit connection between the node contribution to the global model aggregation and data distribution on the local node through theoretical and empirical analysis. We then propose to assign different weights for updating the global model based on node contribution adaptively through each training round. The contribution of participating nodes is first measured by the angle between the local gradient vector and the global gradient vector, and then, weight is quantified by a designed non-linear mapping function subsequently. The simple yet effective strategy can reinforce positive (suppress negative) node contribution dynamically, resulting in communication round reduction drastically. Its superiority over the commonly adopted Federated Averaging (FedAvg) is verified both theoretically and experimentally. With extensive experiments performed in Pytorch and PySyft, we show that FL training with FedAdp can reduce the number of communication rounds by up to 54.1% on MNIST dataset and up to 45.4% on FashionMNIST dataset, as compared to FedAvg algorithm.
翻訳日:2021-05-30 20:06:05 公開日:2021-04-06
# RAFT-3D: Rigid-Motion Embeddings を用いたシーンフロー

RAFT-3D: Scene Flow using Rigid-Motion Embeddings ( http://arxiv.org/abs/2012.00726v2 )

ライセンス: Link先を確認
Zachary Teed and Jia Deng(参考訳) 一対のステレオまたはRGB-Dビデオフレームが与えられた場合、画素回りの3Dモーションを推定する。 シーンフローのための新しいディープアーキテクチャであるRAFT-3Dを紹介する。 RAFT-3Dは光学的流れのために開発されたRAFTモデルに基づいているが、2Dの動きではなく、高密度のSE3の動きを反復的に更新する。 RAFT-3Dの鍵となる革新は、剛体物体へのピクセルのソフトなグループ化を表す剛体運動埋め込みである。 剛体運動埋め込みへの積分は、埋め込みの幾何学的一貫性を強制する微分可能な層であるdung-se3である。 実験によりRAFT-3Dが最先端の性能を達成することが示された。 FlyingThings3Dでは、2ビュー評価により、最高の発行精度(d < 0.05)を34.3%から83.7%に改善した。 KITTIでは,オブジェクトインスタンスの監視を使わずとも,ベストパブリッシュメソッド(6.31)よりも優れた5.77の誤差を達成した。 コードはhttps://github.com/p rinceton-vl/RAFT-3Dで入手できる。

We address the problem of scene flow: given a pair of stereo or RGB-D video frames, estimate pixelwise 3D motion. We introduce RAFT-3D, a new deep architecture for scene flow. RAFT-3D is based on the RAFT model developed for optical flow but iteratively updates a dense field of pixelwise SE3 motion instead of 2D motion. A key innovation of RAFT-3D is rigid-motion embeddings, which represent a soft grouping of pixels into rigid objects. Integral to rigid-motion embeddings is Dense-SE3, a differentiable layer that enforces geometric consistency of the embeddings. Experiments show that RAFT-3D achieves state-of-the-art performance. On FlyingThings3D, under the two-view evaluation, we improved the best published accuracy (d < 0.05) from 34.3% to 83.7%. On KITTI, we achieve an error of 5.77, outperforming the best published method (6.31), despite using no object instance supervision. Code is available at https://github.com/p rinceton-vl/RAFT-3D.
翻訳日:2021-05-30 19:44:57 公開日:2021-04-06
# (参考訳) プロンプトの価値あるデータポイントはいくつあるか? [全文訳有]

How Many Data Points is a Prompt Worth? ( http://arxiv.org/abs/2103.08493v1 )

ライセンス: CC BY 4.0
Teven Le Scao and Alexander M. Rush(参考訳) 分類のための訓練済みモデルを微調整する場合、研究者はジェネリックモデルヘッドまたはタスク固有のプロンプトを使用して予測を行う。 プロンプトの支持者は、プロンプトがタスク固有のガイダンスを注入する方法を提供すると主張している。 我々は、多くのタスクやデータサイズで同じ条件下でのインプットとヘッドベース微調整を比較して、厳密なプロンプトのテストを通じて、このメリットを定量化することを目指している。 多くの利点源を制御することによって、プロンプトが実際に利益をもたらし、タスク毎にこの利点を定量化できることが分かる。 結果は、プロンプトは、分類タスクの平均で100ポイントの価値があることを示している。

When fine-tuning pretrained models for classification, researchers either use a generic model head or a task-specific prompt for prediction. Proponents of prompting have argued that prompts provide a method for injecting task-specific guidance, which is beneficial in low-data regimes. We aim to quantify this benefit through rigorous testing of prompts in a fair setting: comparing prompted and head-based fine-tuning in equal conditions across many tasks and data sizes. By controlling for many sources of advantage, we find that prompting does indeed provide a benefit, and that this benefit can be quantified per task. Results show that prompting is often worth 100s of data points on average across classification tasks.
翻訳日:2021-05-29 21:11:29 公開日:2021-04-06
# ニューラルオンライングラフ探索

Neural Online Graph Exploration ( http://arxiv.org/abs/2012.03345v2 )

ライセンス: Link先を確認
Ioannis Chiotellis and Daniel Cremers(参考訳) 未知空間を効率的に探索する方法を学べるか? そこで本研究では,トラベリングセールスパーソン問題のオンライン版であるオンライングラフ探索の問題について検討する。 我々は,グラフ探索を強化学習問題として再検討し,直接未来予測(Dosovitskiy and Koltun, 2017)を適用した。 グラフがオンラインで発見されると、対応するマルコフ決定プロセスは、動的状態空間、すなわち可観測グラフと動的動作空間、すなわちグラフのフロンティアを形成するノードを含む。 私たちの知る限りでは、これはデータ駆動の方法でオンライングラフ探索を解決する最初の試みです。 手続き的に生成された6つのグラフと3つの実都市道路網の実験を行った。 我々のエージェントは、よく知られたグラフトラバーサルアルゴリズムよりも優れた戦略を学習できることを示し、探索が学べることを確認する。

Can we learn how to explore unknown spaces efficiently? To answer this question, we study the problem of Online Graph Exploration, the online version of the Traveling Salesperson Problem. We reformulate graph exploration as a reinforcement learning problem and apply Direct Future Prediction (Dosovitskiy and Koltun, 2017) to solve it. As the graph is discovered online, the corresponding Markov Decision Process entails a dynamic state space, namely the observable graph and a dynamic action space, namely the nodes forming the graph's frontier. To the best of our knowledge, this is the first attempt to solve online graph exploration in a data-driven way. We conduct experiments on six data sets of procedurally generated graphs and three real city road networks. We demonstrate that our agent can learn strategies superior to many well known graph traversal algorithms, confirming that exploration can be learned.
翻訳日:2021-05-21 14:02:30 公開日:2021-04-06
# 集団カウントのためのクロスモーダル協調表現学習と大規模RGBTベンチマーク

Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT Benchmark for Crowd Counting ( http://arxiv.org/abs/2012.04529v2 )

ライセンス: Link先を確認
Lingbo Liu, Jiaqi Chen, Hefeng Wu, Guanbin Li, Chenglong Li, Liang Lin(参考訳) 群衆計数は基本的な課題でありながら難しい課題であり、リッチな情報を求めて、ピクセル単位の群衆密度マップを生成する。 しかし、従来の手法ではRGB画像の限られた情報しか利用せず、制約のないシナリオでは潜在的な歩行者を十分に発見できない。 本研究では,光学的および熱的情報を組み込むことで歩行者の認識に大いに役立つことを見出した。 この分野での今後の研究を促進するために,138,389人の注釈を付けた2,030対のRGB-熱画像を含む大規模RGBT Crowd Counting (RGBT-CC)ベンチマークを導入する。 さらに,マルチモーダル群集カウントを容易にするために,複数のモーダル特異的分岐,モジュール共有分岐,情報集約モジュール(IADM)から構成されるクロスモーダル協調表現学習フレームワークを提案する。 具体的には,2つの協調的な情報伝達を組み込んで,2つの情報伝達機構によるモダリティ共有表現とモダリティ特化表現を動的に強化する。 RGBT-CCベンチマークで行った大規模な実験により,RGBTの群集カウントに対するフレームワークの有効性が示された。 さらに,提案手法はマルチモーダル群数に普遍的であり,上海テクニックgbdデータセットでも優れた性能を実現することができる。 最後に、ソースコードとベンチマークは {\url{http://lingboliu.com /RGBT_Crowd_Counting .html}}でリリースされます。

Crowd counting is a fundamental yet challenging task, which desires rich information to generate pixel-wise crowd density maps. However, most previous methods only used the limited information of RGB images and cannot well discover potential pedestrians in unconstrained scenarios. In this work, we find that incorporating optical and thermal information can greatly help to recognize pedestrians. To promote future researches in this field, we introduce a large-scale RGBT Crowd Counting (RGBT-CC) benchmark, which contains 2,030 pairs of RGB-thermal images with 138,389 annotated people. Furthermore, to facilitate the multimodal crowd counting, we propose a cross-modal collaborative representation learning framework, which consists of multiple modality-specific branches, a modality-shared branch, and an Information Aggregation-Distribu tion Module (IADM) to capture the complementary information of different modalities fully. Specifically, our IADM incorporates two collaborative information transfers to dynamically enhance the modality-shared and modality-specific representations with a dual information propagation mechanism. Extensive experiments conducted on the RGBT-CC benchmark demonstrate the effectiveness of our framework for RGBT crowd counting. Moreover, the proposed approach is universal for multimodal crowd counting and is also capable to achieve superior performance on the ShanghaiTechRGBD dataset. Finally, our source code and benchmark are released at {\url{http://lingboliu.com /RGBT_Crowd_Counting .html}}.
翻訳日:2021-05-16 21:51:33 公開日:2021-04-06
# LayoutGMN: 構造化レイアウト類似性のためのニューラルグラフマッチング

LayoutGMN: Neural Graph Matching for Structural Layout Similarity ( http://arxiv.org/abs/2012.06547v2 )

ライセンス: Link先を確認
Akshay Gadi Patil, Manyi Li, Matthew Fisher, Manolis Savva, Hao Zhang(参考訳) 本稿では,グラフマッチングネットワーク(gmn)を用いて,2次元レイアウト間の構造的類似性を予測するディープニューラルネットワークを提案する。 我々のネットワークはLayoutGMNと呼ばれ、三重項ネットワーク環境下で設計されたアテンションベースのGMNを用いてニューラルネットワークマッチングによってレイアウトメトリクスを学習する。 ネットワークをトレーニングするために,画素ワイド・インターセクション・オーバー・ユニオン(IoUs)によって得られた弱いラベルを用いて三重項損失を定義する。 重要なことに、LayoutGMNはIoUの構造意識の欠如を効果的に補う構造バイアスで構築されている。 大規模なデータセットの検索実験を通じて,2種類のレイアウト,ビズ,フロアプラン,UI設計でこれを実証する。 特に,本ネットワークによる検索結果は,グラフニューラルネットワークに基づく最先端手法や画像畳み込み法など,iousや他のベースラインと比較して,構造レイアウトの類似性の人間的判断に合致する。 加えて、LayoutGMNはレイアウト要素間の構造的マッチングと構造的類似性の計量学習を提供する最初のディープモデルである。

We present a deep neural network to predict structural similarity between 2D layouts by leveraging Graph Matching Networks (GMN). Our network, coined LayoutGMN, learns the layout metric via neural graph matching, using an attention-based GMN designed under a triplet network setting. To train our network, we utilize weak labels obtained by pixel-wise Intersection-over-Un ion (IoUs) to define the triplet loss. Importantly, LayoutGMN is built with a structural bias which can effectively compensate for the lack of structure awareness in IoUs. We demonstrate this on two prominent forms of layouts, viz., floorplans and UI designs, via retrieval experiments on large-scale datasets. In particular, retrieval results by our network better match human judgement of structural layout similarity compared to both IoUs and other baselines including a state-of-the-art method based on graph neural networks and image convolution. In addition, LayoutGMN is the first deep model to offer both metric learning of structural layout similarity and structural matching between layout elements.
翻訳日:2021-05-11 02:52:18 公開日:2021-04-06
# (参考訳) ラベル効率の高い意味セグメンテーションのためのコントラスト学習 [全文訳有]

Contrastive Learning for Label-Efficient Semantic Segmentation ( http://arxiv.org/abs/2012.06985v3 )

ライセンス: CC BY 4.0
Xiangyun Zhao, Raviteja Vemulapalli, Philip Mansfield, Boqing Gong, Bradley Green, Lior Shapira, Ying Wu(参考訳) セマンティックセグメンテーションのタスクのためのラベル付きデータの収集は、ピクセルレベルの密集したアノテーションを必要とするため、高価で時間がかかります。 最近の畳み込みニューラルネットワーク(cnn)ベースのセマンティックセグメンテーションアプローチは、大量のラベル付きトレーニングデータを使用することで印象的な成果を上げているが、ラベル付きデータの量が減少するにつれて、そのパフォーマンスは大幅に低下する。 これは、デファクトのクロスエントロピー損失でトレーニングされた深いCNNが、少数のラベル付きデータに容易にオーバーフィットできるためである。 この問題に対処するために,我々はまず,ピクセル単位でラベルベースのコントラスト損失を用いてネットワークを事前学習し,次にクロスエントロピー損失を用いて微調整する,簡易かつ効果的なコントラスト学習ベースのトレーニング戦略を提案する。 このアプローチによりクラス内コンパクト性とクラス間分離性が向上し、ピクセル分類器が向上する。 本研究では,CityscapesとPASCAL VOC 2012セグメンテーションデータセットを用いたトレーニング戦略の有効性を示す。 その結果,ラベル付きデータ量に制限がある場合,提案するコントラスト損失による事前学習は高い性能向上(一部の設定では20%以上の絶対改善)をもたらすことがわかった。 多くの設定において、追加データを使用しないコントラスト付き事前学習戦略は、100万以上のラベル付き画像を使用する広く使用されているImageNet事前学習戦略に適合または優れる。

Collecting labeled data for the task of semantic segmentation is expensive and time-consuming, as it requires dense pixel-level annotations. While recent Convolutional Neural Network (CNN) based semantic segmentation approaches have achieved impressive results by using large amounts of labeled training data, their performance drops significantly as the amount of labeled data decreases. This happens because deep CNNs trained with the de facto cross-entropy loss can easily overfit to small amounts of labeled data. To address this issue, we propose a simple and effective contrastive learning-based training strategy in which we first pretrain the network using a pixel-wise, label-based contrastive loss, and then fine-tune it using the cross-entropy loss. This approach increases intra-class compactness and inter-class separability, thereby resulting in a better pixel classifier. We demonstrate the effectiveness of the proposed training strategy using the Cityscapes and PASCAL VOC 2012 segmentation datasets. Our results show that pretraining with the proposed contrastive loss results in large performance gains (more than 20% absolute improvement in some settings) when the amount of labeled data is limited. In many settings, the proposed contrastive pretraining strategy, which does not use any additional data, is able to match or outperform the widely-used ImageNet pretraining strategy that uses more than a million additional labeled images.
翻訳日:2021-05-09 18:26:16 公開日:2021-04-06
# Balletフレームワークによる協調型データサイエンス開発の実現

Enabling collaborative data science development with the Ballet framework ( http://arxiv.org/abs/2012.07816v2 )

ライセンス: Link先を確認
Micah J. Smith, J\"urgen Cito, Kelvin Lu, Kalyan Veeramachaneni(参考訳) ソフトウェア開発のオープンソースモデルがソフトウェアシステムの構築において大規模なコラボレーションを成功させた一方で、データサイエンスプロジェクトは個人や小グループによって頻繁に開発されている。 データサイエンスのコラボレーションをスケールする上での課題を解説し、それに対応するための新しい概念的フレームワークとMLプログラミングモデルを提案する。 Balletはオープンソースのデータサイエンスとクラウドベースの開発環境のための軽量なソフトウェアフレームワークで、協調的な機能エンジニアリングのためのプラグインがあります。 我々のフレームワークを用いて、共同作業者は、それぞれML評価の対象となり、自動的に実行可能な機能エンジニアリングパイプラインにマージ可能な、機能定義を段階的にレポジトリに提案する。 実世界の所得予測問題に対する広範なケーススタディ分析を行い,共同プロジェクトへの示唆について考察する。

While the open-source model for software development has led to successful large-scale collaborations in building software systems, data science projects are frequently developed by individuals or small groups. We describe challenges to scaling data science collaborations and present a novel conceptual framework and ML programming model to address them. We instantiate these ideas in Ballet, a lightweight software framework for collaborative open-source data science and a cloud-based development environment, with a plugin for collaborative feature engineering. Using our framework, collaborators incrementally propose feature definitions to a repository which are each subjected to an ML evaluation and can be automatically merged into an executable feature engineering pipeline. We leverage Ballet to conduct an extensive case study analysis of a real-world income prediction problem, and discuss implications for collaborative projects.
翻訳日:2021-05-08 14:13:02 公開日:2021-04-06
# (参考訳) 効果的なワンステージビデオインスタンス分割のための空間的特徴校正と時間融合 [全文訳有]

Spatial Feature Calibration and Temporal Fusion for Effective One-stage Video Instance Segmentation ( http://arxiv.org/abs/2104.05606v1 )

ライセンス: CC0 1.0
Minghan Li, Shuai Li, Lida Li and Lei Zhang(参考訳) 現代のワンステージビデオインスタンスセグメンテーションネットワークには2つの制限がある。 まず、畳み込み機能はアンカーボックスや接地ボックスと一致せず、マスクの感度を空間的位置まで低下させる。 第2に、ビデオはフレームレベルのインスタンスセグメンテーションのために個々のフレームに直接分割され、隣接するフレーム間の時間的相関は無視される。 これらの問題に対処するために,空間キャリブレーションと時間融合(STMask)による簡易かつ効果的なワンステージビデオインスタンスセグメンテーションフレームワークを提案する。 地中構造境界ボックスによる空間的特徴キャリブレーションを確保するため,まず地中構造境界ボックスを囲む回帰境界ボックスを予測し,フレームレベルのインスタンスセグメンテーションのために特徴量を抽出する。 ビデオフレーム間の時間的相関を更に探求するため,各フレームから隣接するフレームにインスタンスマスクを推論するための時間的融合モジュールを集約した。 YouTube-VIS検証セットの実験では、提案されたSTMaskとResNet-50/-101のバックボーンが33.5 %/36.8 %のマスクAPを取得し、ビデオインスタンスセグメンテーションでは28.6 / 23.4 FPSを達成した。 コードはhttps://github.com/M inghanLi/STMask.comで公開されている。

Modern one-stage video instance segmentation networks suffer from two limitations. First, convolutional features are neither aligned with anchor boxes nor with ground-truth bounding boxes, reducing the mask sensitivity to spatial location. Second, a video is directly divided into individual frames for frame-level instance segmentation, ignoring the temporal correlation between adjacent frames. To address these issues, we propose a simple yet effective one-stage video instance segmentation framework by spatial calibration and temporal fusion, namely STMask. To ensure spatial feature calibration with ground-truth bounding boxes, we first predict regressed bounding boxes around ground-truth bounding boxes, and extract features from them for frame-level instance segmentation. To further explore temporal correlation among video frames, we aggregate a temporal fusion module to infer instance masks from each frame to its adjacent frames, which helps our framework to handle challenging videos such as motion blur, partial occlusion and unusual object-to-camera poses. Experiments on the YouTube-VIS valid set show that the proposed STMask with ResNet-50/-101 backbone obtains 33.5 % / 36.8 % mask AP, while achieving 28.6 / 23.4 FPS on video instance segmentation. The code is released online https://github.com/M inghanLi/STMask.
翻訳日:2021-05-04 10:07:03 公開日:2021-04-06
# (参考訳) 電力ネットワーク(L2RPN)の学習環境の設計と実装 [全文訳有]

Design and implementation of an environment for Learning to Run a Power Network (L2RPN) ( http://arxiv.org/abs/2104.04080v1 )

ライセンス: CC BY 4.0
Marvin Lerousseau(参考訳) 本報告では,INRIAにおけるインターンシップの一環として行った研究を,数学と情報学の修士課程の修了に必要な部分的要件として要約する。 インターンシップの目標は、電力網の電気伝達をシミュレートするソフトウェア環境を開発することであり、オペレーターがこのグリッドのセキュリティを維持するために行われた。 私たちの環境は強化学習エージェントで電力網の制御を自動化するのに役立ち、オペレーターを支援します。 INRIAと2019年のRTEが計画している機械学習の課題を含む、ベンチマークの組織化には適している。 私たちのフレームワークはオープンソースライブラリ上に構築されており、https://github.com/m arvinler/pypownetで利用可能です。 本稿では,強化学習ゲームにおける中間結果とその使用法について述べる。

This report summarizes work performed as part of an internship at INRIA, in partial requirement for the completion of a master degree in math and informatics. The goal of the internship was to develop a software environment to simulate electricity transmission in a power grid and actions performed by operators to maintain this grid in security. Our environment lends itself to automate the control of the power grid with reinforcement learning agents, assisting human operators. It is amenable to organizing benchmarks, including a challenge in machine learning planned by INRIA and RTE for 2019. Our framework, built on top of open-source libraries, is available at https://github.com/M arvinLer/pypownet. In this report we present intermediary results and its usage in the context of a reinforcement learning game.
翻訳日:2021-05-04 09:50:51 公開日:2021-04-06
# (参考訳) 多変量時系列の説明可能性の厳密な評価に向けて [全文訳有]

Towards a Rigorous Evaluation of Explainability for Multivariate Time Series ( http://arxiv.org/abs/2104.04075v1 )

ライセンス: CC BY-SA 4.0
Rohit Saluja, Avleen Malhi, Samanta Knapi\v{c}, Kary Fr\"amling, Cicek Cavdar(参考訳) 機械学習ベースのシステムは急速に普及しており、機械学習モデルが信頼性が高く公平であり、意思決定プロセスに責任を負うことができることを保証するために、説明可能性の分野で大きな研究が急増している。 説明可能な人工知能(XAI)メソッドは通常、ブラックボックス機械学習モデルをデバッグするためにデプロイされるが、表、テキスト、画像データと比較すると、時系列での説明可能性はまだ明らかにされていない。 本研究の目的は,時系列予測問題におけるモデル非依存な説明可能性の実現と評価である。 本研究は、販売関連活動が販売契約を締結した際の影響を理解するために、データ駆動型アプローチを模索するデジタルコンサルタント企業のソリューションの証明に焦点を当てた。 提案手法は, 販売契約を予測するための時系列予測問題と説明可能性に関する2つの新しいモデル非説明可能性手法, 局所説明型モデル非説明説明法 (LIME) とシェープ型追加説明法 (SHAP) を用いて, 人による説明可能性の評価を行った。 その結果, LIME と SHAP による説明は, 機械学習モデルによる予測を人間に理解させるのに大いに役立ったことが明らかとなった。 提示された作品はいつでも簡単に拡張できる

Machine learning-based systems are rapidly gaining popularity and in-line with that there has been a huge research surge in the field of explainability to ensure that machine learning models are reliable, fair, and can be held liable for their decision-making process. Explainable Artificial Intelligence (XAI) methods are typically deployed to debug black-box machine learning models but in comparison to tabular, text, and image data, explainability in time series is still relatively unexplored. The aim of this study was to achieve and evaluate model agnostic explainability in a time series forecasting problem. This work focused on proving a solution for a digital consultancy company aiming to find a data-driven approach in order to understand the effect of their sales related activities on the sales deals closed. The solution involved framing the problem as a time series forecasting problem to predict the sales deals and the explainability was achieved using two novel model agnostic explainability techniques, Local explainable model-agnostic explanations (LIME) and Shapley additive explanations (SHAP) which were evaluated using human evaluation of explainability. The results clearly indicate that the explanations produced by LIME and SHAP greatly helped lay humans in understanding the predictions made by the machine learning model. The presented work can easily be extended to any time
翻訳日:2021-05-04 09:25:43 公開日:2021-04-06
# (参考訳) 偏微分方程式の解作用素に対するワンショット学習 [全文訳有]

One-shot learning for solution operators of partial differential equations ( http://arxiv.org/abs/2104.05512v1 )

ライセンス: CC BY-SA 4.0
Lu Lu, Haiyang He, Priya Kasimbeg, Rishikesh Ranade, Jay Pathak(参考訳) データから偏微分方程式(PDE)で表される物理系の支配方程式を発見することは、科学や工学の様々な分野において中心的な課題である。 現在の手法では、PDE形式を発見するためにいくつかの事前知識(例えば、候補PDE用語)を必要とするか、PDEソリューション演算子の代理モデルを学ぶために大きなデータセットを必要とする。 本稿では,pdeソリューション,すなわちワンショット学習のみを必要とする最初の学習方法を提案する。 まず、計算領域全体を小さな領域に分解し、そこで局所解演算子を学び、固定点反復によって結合解を見つける。 提案手法は異なるPDEに対して有効であり,本手法は強い一般化特性を示す。

Discovering governing equations of a physical system, represented by partial differential equations (PDEs), from data is a central challenge in a variety of areas of science and engineering. Current methods require either some prior knowledge (e.g., candidate PDE terms) to discover the PDE form, or a large dataset to learn a surrogate model of the PDE solution operator. Here, we propose the first learning method that only needs one PDE solution, i.e., one-shot learning. We first decompose the entire computational domain into small domains, where we learn a local solution operator, and then find the coupled solution via a fixed-point iteration. We demonstrate the effectiveness of our method on different PDEs, and our method exhibits a strong generalization property.
翻訳日:2021-05-04 09:04:16 公開日:2021-04-06
# ファジィ環境における順序証明の組合せに対する変位質量の拡大次元ベクトルの否定を用いたアプローチ

An approach utilizing negation of extended-dimensional vector of disposing mass for ordinal evidences combination in a fuzzy environment ( http://arxiv.org/abs/2104.05416v1 )

ライセンス: Link先を確認
Yuanpeng He(参考訳) 特定の認識の枠組みの不確実性の度合いを測定する方法は、長年にわたってホットな話題となっている。 多くの有意義な研究が、学位を適切に測定するための効果的な方法を提供している。 しかし、伝統的な識別の枠組みの定義において重要な要素である命題の列が欠落している。 本稿では, 識別の順序フレームの詳細な定義について述べる。 また,提案の順序とそれらの質量を組み合わせるコンピュータビジョンの概念を利用した革新的な手法を提案し,識別の枠組みの2つの重要な要素間の関係を明確化する。 さらに、従来の識別フレームの不確実性を示すための、いくつかの強力なツールをカバーする特別に設計された方法も提供され、ベクトルのレベルに対する識別フレームの不確実性のレベルを示す。

How to measure the degree of uncertainty of a given frame of discernment has been a hot topic for years. A lot of meaningful works have provided some effective methods to measure the degree properly. However, a crucial factor, sequence of propositions, is missing in the definition of traditional frame of discernment. In this paper, a detailed definition of ordinal frame of discernment has been provided. Besides, an innovative method utilizing a concept of computer vision to combine the order of propositions and the mass of them is proposed to better manifest relationships between the two important element of the frame of discernment. More than that, a specially designed method covering some powerful tools in indicating the degree of uncertainty of a traditional frame of discernment is also offered to give an indicator of level of uncertainty of an ordinal frame of discernment on the level of vector.
翻訳日:2021-05-03 19:42:35 公開日:2021-04-06
# 信頼最適ランダム埋め込み

Confidence-Optimal Random Embeddings ( http://arxiv.org/abs/2104.05628v1 )

ライセンス: Link先を確認
Maciej Skorski(参考訳) ランダムな埋め込みに関するジョンソンとリンデンシュトラウスのセミナルな結果は、応用および理論的コンピュータ科学において集中的に研究されている。 特に興味深い疑問は、なぜ経験的に観察された性能よりもはるかに遅れている理論的な境界があるのかである。 この質問に動機づけられた本研究は、最適でデータに富んだ統計信頼境界を持つジョンソン・リンデンシュトラウス分布を発達させる。 これらの境界は、任意のデータ次元、埋め込み次元、歪み耐性に対して、数値的に最良である。 統計的精度の観点から先行研究を改善し、データ公開アプローチのノーゴーレジームを正確に決定する。 さらに、対応する投影行列を効率的にサンプリング可能である。 構成は直交行列に依存し、証明は単位球面のある種のエレガントな性質を使用する。 a) 射影行列の特異固有値の観点からの歪みのコンパクトな表現 b) 単位球面とディリクレ分布を連結するパラメトリゼーション、および c) ディリクレ分布に対する反集中境界。 技術的貢献に加えて,Pythonの動作実装とともに,応用と数値評価について述べる。

The seminal result of Johnson and Lindenstrauss on random embeddings has been intensively studied in applied and theoretical computer science. Despite that vast body of literature, we still lack of complete understanding of statistical properties of random projections; a particularly intriguing question is: why are the theoretical bounds that far behind the empirically observed performance? Motivated by this question, this work develops Johnson-Lindenstraus s distributions with optimal, data-oblivious, statistical confidence bounds. These bounds are numerically best possible, for any given data dimension, embedding dimension, and distortion tolerance. They improve upon prior works in terms of statistical accuracy, as well as exactly determine the no-go regimes for data-oblivious approaches. Furthermore, the corresponding projection matrices are efficiently samplable. The construction relies on orthogonal matrices, and the proof uses certain elegant properties of the unit sphere. The following techniques introduced in this work are of independent interest: a) a compact expression for distortion in terms of singular eigenvalues of the projection matrix, b) a parametrization linking the unit sphere and the Dirichlet distribution and c) anti-concentration bounds for the Dirichlet distribution. Besides the technical contribution, the paper presents applications and numerical evaluation along with working implementation in Python.
翻訳日:2021-05-03 19:40:19 公開日:2021-04-06
# LSTMに基づくディープラーニングモデルを用いた株式投資の収益性分析

Profitability Analysis in Stock Investment Using an LSTM-Based Deep Learning Model ( http://arxiv.org/abs/2104.06259v1 )

ライセンス: Link先を確認
Jaydip Sen, Abhishek Dutta, Sidra Mehtab(参考訳) 将来の株価を正確に予測するための堅牢なシステムを設計することは、常に非常に困難な研究課題とみなされてきた。 さらに難しいのは、予測された将来の株価に基づいて最適な株式ポートフォリオを構築するシステムを構築することだ。 本稿では,長期記憶ネットワーク(lstm,long-and-short -term memory network)ネットワーク上に構築した深層学習に基づく回帰モデルを提案する。 インド株式市場の15の重要セクターから選ばれた75の重要銘柄にモデルを配置する。 各株について、モデルが予測精度で評価される。 さらに、投資決定の基礎として株価の予測値を使用し、投資に対するリターンを算出する。 モデルの性能に関する詳細な結果が得られた。 分析の結果, システムの有効性と有効性を示し, 株式市場の投資家の視点から, セクターの収益性を比較することが可能となった。

Designing robust systems for precise prediction of future prices of stocks has always been considered a very challenging research problem. Even more challenging is to build a system for constructing an optimum portfolio of stocks based on the forecasted future stock prices. We present a deep learning-based regression model built on a long-and-short-term memory network (LSTM) network that automatically scraps the web and extracts historical stock prices based on a stock's ticker name for a specified pair of start and end dates, and forecasts the future stock prices. We deploy the model on 75 significant stocks chosen from 15 critical sectors of the Indian stock market. For each of the stocks, the model is evaluated for its forecast accuracy. Moreover, the predicted values of the stock prices are used as the basis for investment decisions, and the returns on the investments are computed. Extensive results are presented on the performance of the model. The analysis of the results demonstrates the efficacy and effectiveness of the system and enables us to compare the profitability of the sectors from the point of view of the investors in the stock market.
翻訳日:2021-05-03 19:39:57 公開日:2021-04-06
# 非対称組立作業に対する強化学習行動次元の漸進的拡張

Progressive extension of reinforcement learning action dimension for asymmetric assembly tasks ( http://arxiv.org/abs/2104.04078v1 )

ライセンス: Link先を確認
Yuhang Gai, Jiuming Guo, Dan Wu, Ken Chen(参考訳) 強化学習(rl)は、非対称アセンブリタスクのような複雑なタスクの制御戦略を構築する上で、常に望ましい実施形態である。 しかし,強化学習の収束速度は,その実用性を著しく制限している。 本稿では、RLとコンプライアンス制御を組み合わせることにより、まず収束を加速する。 そして、RLアルゴリズムの収束を最適化するために、完全に革新的な行動次元の拡張(PEAD)機構を提案する。 PEAD法はDDPG法とPPO法で検証される。 結果は,pead法がrlアルゴリズムのデータ効率と時間効率を向上させるとともに,rlの適用可能性を高める安定報酬を増大させることを示した。

Reinforcement learning (RL) is always the preferred embodiment to construct the control strategy of complex tasks, like asymmetric assembly tasks. However, the convergence speed of reinforcement learning severely restricts its practical application. In this paper, the convergence is first accelerated by combining RL and compliance control. Then a completely innovative progressive extension of action dimension (PEAD) mechanism is proposed to optimize the convergence of RL algorithms. The PEAD method is verified in DDPG and PPO. The results demonstrate the PEAD method will enhance the data-efficiency and time-efficiency of RL algorithms as well as increase the stable reward, which provides more potential for the application of RL.
翻訳日:2021-05-03 19:39:13 公開日:2021-04-06
# 深層学習を用いた教師なし行動分析と拡大(uBAM)

Unsupervised Behaviour Analysis and Magnification (uBAM) using Deep Learning ( http://arxiv.org/abs/2012.09237v3 )

ライセンス: Link先を確認
Biagio Brattoli, Uta Buechler, Michael Dorkenwald, Philipp Reiser, Linard Filli, Fritjof Helmchen, Anna-Sophia Wahl, Bjoern Ommer(参考訳) 運動行動分析は生体医学研究や臨床診断に不可欠であり、運動障害と介入による変化を識別するための非侵襲的戦略を提供する。 物理的なマーカーや仮想マーカーを配置する必要があるため、最先端の計測機動分析は時間と費用がかかる。 検出器のトレーニングや微調整に必要なキーポイントやアノテーションのマーキングに必要な労力に加えて、ユーザは重要なキーポイントを提供するために、事前に興味深い振る舞いを知る必要がある。 本研究では,非教師なし行動分析と拡大法(uBAM)を導入し,偏差の発見と拡大による行動分析を行う。 中心となる側面は姿勢と行動表現の教師なし学習であり、運動の客観的比較を可能にする。 振る舞いの偏差の発見と定量化に加えて,キーポイントやアノテーションを介さずに映像内の微妙な振る舞いの差異を視覚的に拡大する生成モデルを提案する。 異なる個人にまたがる偏差のこの拡大には、外見と行動の矛盾が不可欠である。 神経疾患患者の歯列者およびヒトに対する評価は,我々のアプローチの広範な適用性を示している。 また,視聴覚刺激と非教師なし行動分析を組み合わせることで,脳可塑性機能と関連した非侵襲的診断ツールとしての有用性が示された。

Motor behaviour analysis is essential to biomedical research and clinical diagnostics as it provides a non-invasive strategy for identifying motor impairment and its change caused by interventions. State-of-the-art instrumented movement analysis is time- and cost-intensive, since it requires placing physical or virtual markers. Besides the effort required for marking keypoints or annotations necessary for training or finetuning a detector, users need to know the interesting behaviour beforehand to provide meaningful keypoints. We introduce unsupervised behaviour analysis and magnification (uBAM), an automatic deep learning algorithm for analysing behaviour by discovering and magnifying deviations. A central aspect is unsupervised learning of posture and behaviour representations to enable an objective comparison of movement. Besides discovering and quantifying deviations in behaviour, we also propose a generative model for visually magnifying subtle behaviour differences directly in a video without requiring a detour via keypoints or annotations. Essential for this magnification of deviations even across different individuals is a disentangling of appearance and behaviour. Evaluations on rodents and human patients with neurological diseases demonstrate the wide applicability of our approach. Moreover, combining optogenetic stimulation with our unsupervised behaviour analysis shows its suitability as a non-invasive diagnostic tool correlating function to brain plasticity.
翻訳日:2021-05-03 03:12:41 公開日:2021-04-06
# 低ランクPSD行列のランク1測定値が小さい

Rank-One Measurements of Low-Rank PSD Matrices Have Small Feasible Sets ( http://arxiv.org/abs/2012.09768v2 )

ライセンス: Link先を確認
T. Mitchell Roddenberry, Santiago Segarra, Anastasios Kyrillidis(参考訳) 低ランク正正半定値(psd)行列センシング問題に対する解決定における制約集合の役割について検討した。 特に、およそ低ランクPSD行列の階数1の射影が与えられたとき、測定値を満たすPSD行列の集合の半径を特徴付ける。 この結果は、真の行列が正確に低ランクであるときにシングルトン解集合を保証するサンプリングレートを与え、目的関数やアルゴリズムの選択はその回復において不完全である。 この貢献の応用について論じ、類似問題に対する暗黙の正則化に関する最近の文献と比較する。 低ランク正規化を組み込まずにPSD行列回復に円錐投影法を適用することで,この結果の実用的意義を示す。

We study the role of the constraint set in determining the solution to low-rank, positive semidefinite (PSD) matrix sensing problems. The setting we consider involves rank-one sensing matrices: In particular, given a set of rank-one projections of an approximately low-rank PSD matrix, we characterize the radius of the set of PSD matrices that satisfy the measurements. This result yields a sampling rate to guarantee singleton solution sets when the true matrix is exactly low-rank, such that the choice of the objective function or the algorithm to be used is inconsequential in its recovery. We discuss applications of this contribution and compare it to recent literature regarding implicit regularization for similar problems. We demonstrate practical implications of this result by applying conic projection methods for PSD matrix recovery without incorporating low-rank regularization.
翻訳日:2021-05-02 07:34:48 公開日:2021-04-06
# 曲率解析によるネットワークモデルの潜時空間幾何学の同定

Identifying the latent space geometry of network models through analysis of curvature ( http://arxiv.org/abs/2012.10559v3 )

ライセンス: Link先を確認
Shane Lubold, Arun G. Chandrasekhar, Tyler H. McCormick(参考訳) 様々な分野や文脈のネットワークを統計的にモデル化することは、コネクション間の(しばしば高次の)依存のため、根本的に困難である。 共通のアプローチは、グラフ内の各人を低次元多様体上の位置に割り当てる。 この(相対的な)空間内の個人間の距離は、接続を形成する可能性に逆比例する。 潜在幾何学(多様体類、次元、曲率)の選択は、モデルの実質的な結論に連続的に影響する。 例えば多様体のより正の曲率は、より強固なコミュニティを奨励し、負の曲率はノード間の反発を引き起こす。 しかし、現在、潜在幾何の選択は事前モデリングの仮定であり、これらの選択をデータ駆動の方法で行う方法についてのガイダンスは限られている。 本研究では,定曲率の単純連結リーマン多様体(英語版)(comple connected, complete Riemannian manifolds of constant curvature)という,経験的に関係する潜在空間のクラスから,多様体のタイプ,次元,曲率を一貫して推定する手法を提案する。 私たちの核となる洞察は、クライク間の関係に基づいて、グラフをノイズの多い距離行列として表現することで得られます。 統計幾何学の結果を利用して、観測された距離が各候補の測地線に等尺的に埋め込まれるかどうかを推定する仮説実験を行った。 我々は,シミュレーションによるアプローチの正確性を探究し,そのアプローチを経済学や社会学,神経科学からのデータ集合に適用する。

Statistically modeling networks, across numerous disciplines and contexts, is fundamentally challenging because of (often high-order) dependence between connections. A common approach assigns each person in the graph to a position on a low-dimensional manifold. Distance between individuals in this (latent) space is inversely proportional to the likelihood of forming a connection. The choice of the latent geometry (the manifold class, dimension, and curvature) has consequential impacts on the substantive conclusions of the model. More positive curvature in the manifold, for example, encourages more and tighter communities; negative curvature induces repulsion among nodes. Currently, however, the choice of the latent geometry is an a priori modeling assumption and there is limited guidance about how to make these choices in a data-driven way. In this work, we present a method to consistently estimate the manifold type, dimension, and curvature from an empirically relevant class of latent spaces: simply connected, complete Riemannian manifolds of constant curvature. Our core insight comes by representing the graph as a noisy distance matrix based on the ties between cliques. Leveraging results from statistical geometry, we develop hypothesis tests to determine whether the observed distances could plausibly be embedded isometrically in each of the candidate geometries. We explore the accuracy of our approach with simulations and then apply our approach to data-sets from economics and sociology as well as neuroscience.
翻訳日:2021-05-01 11:07:50 公開日:2021-04-06
# 自己教師付き事前学習音響モデルの格子フリーMMI適応

Lattice-Free MMI Adaptation Of Self-Supervised Pretrained Acoustic Models ( http://arxiv.org/abs/2012.14252v2 )

ライセンス: Link先を確認
Apoorv Vyas and Srikanth Madikeri and Herv\'e Bourlard(参考訳) 本研究では,自己教師付き事前学習音響モデルの教師付き適応のための格子フリーMMI(LFMMI)を提案する。 我々はトランスフォーマーモデルを無転写のLibrispeechデータから数千時間プレトレーニングし、3つの異なるデータセット上で LFMMI による教師付き適応を行った。 LFMMIによる微調整の結果, クリーンおよび他のテストセットであるLibrispeech (100h), 10.8%, Switchboard (300h), 4.3%, Swahili (38h), 4.4%, Tagalog (84h) の相対的なWER改善率は, 教師付きデータでのみ訓練されたベースラインと比較して一貫して10%, 35.3%であった。

In this work, we propose lattice-free MMI (LFMMI) for supervised adaptation of self-supervised pretrained acoustic model. We pretrain a Transformer model on thousand hours of untranscribed Librispeech data followed by supervised adaptation with LFMMI on three different datasets. Our results show that fine-tuning with LFMMI, we consistently obtain relative WER improvements of 10% and 35.3% on the clean and other test sets of Librispeech (100h), 10.8% on Switchboard (300h), and 4.3% on Swahili (38h) and 4.4% on Tagalog (84h) compared to the baseline trained only with supervised data.
翻訳日:2021-04-19 10:53:30 公開日:2021-04-06
# 計算流体力学シミュレーションと自動機械学習遺伝的アルゴリズム(AutoML-GA)の高速エンジン設計最適化への応用

Application of an automated machine learning-genetic algorithm (AutoML-GA) coupled with computational fluid dynamics simulations for rapid engine design optimization ( http://arxiv.org/abs/2101.02653v3 )

ライセンス: Link先を確認
Opeoluwa Owoyele, Pinaki Pal, Alvaro Vidal Torreira, Daniel Probst, Matthew Shaxted, Michael Wilde, Peter Kelly Senecal(参考訳) 近年,計算流体力学(CFD)シミュレーションにおける機械学習に基づく代理モデルの利用が,エンジン設計の最適化に伴う計算コストの削減に期待できる技術として浮上している。 しかし、こうした手法は依然として欠点に苦しむ。 最大の欠点の1つは、デフォルトの機械学習(ML)ハイパーパラメータが、しばしば与えられた問題に対して非常に最適であることである。 これはしばしば、手動で異なるハイパーパラメータの設定を試すことによって解決されてきたが、高次元のハイパーパラメータ空間では効果がない。 この問題に加えて、トレーニングに必要なデータ量も事前には分かっていない。 本研究は,これらの課題に対処するために,内燃機関のサロゲートに基づく最適化のための自動アクティブラーニングアプローチであるAutoML-GAについて記述し,検証する。 このアプローチでは、少数のCFDシミュレーションから得られた初期データセットに基づいて、最適な機械学習ハイパーパラメータを見つけるためにベイズ最適化手法を用いる。 その後、MLサロゲート表面の最適設計を見つけるために遺伝的アルゴリズムが使用される。 最適設計付近では、投影された最適でcfdシミュレーションを繰り返し実行し、新たに得られたデータをトレーニングデータセットに追加することにより、解を洗練する。 AutoML-GAは、デフォルトのハイパーパラメータに比べてCFDシミュレーションの回数が少ないため、より良い最適化を実現することが示されている。 提案されたフレームワークは、広範な機械学習の専門知識を持たない業界の研究者やエンジニアが容易に利用できる、より手軽なアプローチの利点を提供する。

In recent years, the use of machine learning-based surrogate models for computational fluid dynamics (CFD) simulations has emerged as a promising technique for reducing the computational cost associated with engine design optimization. However, such methods still suffer from drawbacks. One main disadvantage of is that the default machine learning (ML) hyperparameters are often severely suboptimal for a given problem. This has often been addressed by manually trying out different hyperparameter settings, but this solution is ineffective in a high-dimensional hyperparameter space. Besides this problem, the amount of data needed for training is also not known a priori. In response to these issues that need to be addressed, the present work describes and validates an automated active learning approach, AutoML-GA, for surrogate-based optimization of internal combustion engines. In this approach, a Bayesian optimization technique is used to find the best machine learning hyperparameters based on an initial dataset obtained from a small number of CFD simulations. Subsequently, a genetic algorithm is employed to locate the design optimum on the ML surrogate surface. In the vicinity of the design optimum, the solution is refined by repeatedly running CFD simulations at the projected optimum and adding the newly obtained data to the training dataset. It is demonstrated that AutoML-GA leads to a better optimum with a lower number of CFD simulations, compared to the use of default hyperparameters. The proposed framework offers the advantage of being a more hands-off approach that can be readily utilized by researchers and engineers in industry who do not have extensive machine learning expertise.
翻訳日:2021-04-10 13:32:57 公開日:2021-04-06
# 3次元CNNによるbpMRIの終末前立腺癌検出 : 注意機構,臨床優先,非結合性偽陽性抑制の効果

End-to-end Prostate Cancer Detection in bpMRI via 3D CNNs: Effect of Attention Mechanisms, Clinical Priori and Decoupled False Positive Reduction ( http://arxiv.org/abs/2101.03244v7 )

ライセンス: Link先を確認
Anindo Saha, Matin Hosseinzadeh, Henkjan Huisman(参考訳) 臨床上有意な前立腺癌 (csPCa) のbpMRI(bi-parametric MR imaging) における自動局在化のための多段階コンピュータ支援診断(CAD)モデルを提案する。 深層注意機構はその検出ネットワークを駆動し、多分解能、塩分構造、高度に識別可能な特徴次元を標的とし、未熟な癌や前立腺を苦しめる幅広い良性病理からcspca病変を正確に同定する。 並行して、疎結合残差分類器は、高い感度や計算効率を犠牲にすることなく、一貫した偽陽性化を実現するために用いられる。 さらに、csPCaの空間的有病率と地域的区別を捉える確率論的解剖前駆体をCNNアーキテクチャに符号化し、モデル一般化をドメイン固有の臨床知識で導く。 このようなCNNベースのモデルは、1950年の前立腺bpMRIと放射線学的に推定されたアノテーションを組み合わせた大規模なデータセットを用いて、独立コホートにおける生検確認悪性腫瘍を検出するために訓練できると仮定する。 486の検査で、3dcadシステムは、患者1人当たり0.50$と1.46$false positive(s)で検出感度を8.69\pm5.22\%$と9.19\pm2.96\%$で達成し、患者ベースの診断では0.882$ aurocが最新の文献から4つの最先端ベースラインアーキテクチャ(u-seresnet, unet++, nnu-net, attention u-net)よりも優れている。 296の外部試験スキャンでは、アンサンブルCADシステムは、専門家の放射線学者(76.69 %$; $kappa=0.51 pm0.04$; $kappa=0.56 pm0.06$)と独立した病理学者(81.08 %$; $kappa=0.56

We present a novel multi-stage 3D computer-aided detection and diagnosis (CAD) model for automated localization of clinically significant prostate cancer (csPCa) in bi-parametric MR imaging (bpMRI). Deep attention mechanisms drive its detection network, targeting multi-resolution, salient structures and highly discriminative feature dimensions, in order to accurately identify csPCa lesions from indolent cancer and the wide range of benign pathology that can afflict the prostate gland. In parallel, a decoupled residual classifier is used to achieve consistent false positive reduction, without sacrificing high sensitivity or computational efficiency. In addition, a probabilistic anatomical prior, which captures the spatial prevalence and zonal distinction of csPCa, is computed and encoded into the CNN architecture to guide model generalization with domain-specific clinical knowledge. We hypothesize that such CNN-based models can be trained to detect biopsy-confirmed malignancies in an independent cohort, using a large dataset of 1950 prostate bpMRI paired with radiologically-estim ated annotations. For 486 institutional testing scans, the 3D CAD system achieves $83.69\pm5.22\%$ and $93.19\pm2.96\%$ detection sensitivity at $0.50$ and $1.46$ false positive(s) per patient, respectively, and $0.882$ AUROC in patient-based diagnosis $-$significantly outperforming four state-of-the-art baseline architectures (U-SEResNet, UNet++, nnU-Net, Attention U-Net) from recent literature. For 296 external testing scans, the ensembled CAD system shares moderate agreement with a consensus of expert radiologists ($76.69\%$; $kappa=0.51\pm0.04$) and independent pathologists ($81.08\%$; $kappa=0.56\pm0.06$); demonstrating strong generalization to histologically-confi rmed csPCa diagnosis.
翻訳日:2021-04-10 05:02:52 公開日:2021-04-06
# VisualVoice: モーダルな整合性を持つオーディオ・ビジュアル音声分離

VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency ( http://arxiv.org/abs/2101.03149v2 )

ライセンス: Link先を確認
Ruohan Gao and Kristen Grauman(参考訳) 音声と視覚の分離のための新しいアプローチを提案する。 ビデオが与えられたら、背景音や他の人間の話者が同時にいるにもかかわらず、顔に関連する音声を抽出する。 既存の手法では, 話者の唇の動きと発声音のアライメントの学習に重点を置いているが, 話者の顔の外観を付加的に活用し, 発声する可能性のある声質を分離することを提案する。 本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。 音声と視覚の音声分離と強調のための5つのベンチマークデータセットに最先端の結果を与え、さまざまなシナリオの現実のビデオにうまく一般化する。 ビデオの結果とコード: http://vision.cs.ute xas.edu/projects/Vis ualVoice/。

We introduce a new approach for audio-visual speech separation. Given a video, the goal is to extract the speech associated with a face in spite of simultaneous background sounds and/or other human speakers. Whereas existing methods focus on learning the alignment between the speaker's lip movements and the sounds they generate, we propose to leverage the speaker's face appearance as an additional prior to isolate the corresponding vocal qualities they are likely to produce. Our approach jointly learns audio-visual speech separation and cross-modal speaker embeddings from unlabeled video. It yields state-of-the-art results on five benchmark datasets for audio-visual speech separation and enhancement, and generalizes well to challenging real-world videos of diverse scenarios. Our video results and code: http://vision.cs.ute xas.edu/projects/Vis ualVoice/.
翻訳日:2021-04-10 04:59:41 公開日:2021-04-06
# (参考訳) AST:オーディオスペクトログラム変換器 [全文訳有]

AST: Audio Spectrogram Transformer ( http://arxiv.org/abs/2104.01778v2 )

ライセンス: CC BY 4.0
Yuan Gong, Yu-An Chung, James Glass(参考訳) 過去10年間で、畳み込みニューラルネットワーク(CNN)は、音声スペクトログラムから対応するラベルへの直接マッピングの学習を目的とした、エンドツーエンドの音声分類モデルのメインビルディングブロックとして広く採用されてきた。 長距離グローバルなコンテキストをよりよく捉えるために、最近のトレンドは、CNNの上に自己認識メカニズムを追加し、CNN対応ハイブリッドモデルを形成することである。 しかし、cnnへの依存が必要かどうか、また、注意に基づくニューラルネットワークがオーディオ分類において優れた性能を得るのに十分なものかどうかは不明である。 本稿では,Audio Spectrogram Transformer (AST) を導入することで,音声分類のための最初の畳み込みのない,純粋に注意に基づくモデルを提案する。 様々な音声分類ベンチマークでastを評価し,音声セット0.485地図,esc-50の95.6%,音声コマンドv2の98.1%の精度を新たに達成した。

In the past decade, convolutional neural networks (CNNs) have been widely adopted as the main building block for end-to-end audio classification models, which aim to learn a direct mapping from audio spectrograms to corresponding labels. To better capture long-range global context, a recent trend is to add a self-attention mechanism on top of the CNN, forming a CNN-attention hybrid model. However, it is unclear whether the reliance on a CNN is necessary, and if neural networks purely based on attention are sufficient to obtain good performance in audio classification. In this paper, we answer the question by introducing the Audio Spectrogram Transformer (AST), the first convolution-free, purely attention-based model for audio classification. We evaluate AST on various audio classification benchmarks, where it achieves new state-of-the-art results of 0.485 mAP on AudioSet, 95.6% accuracy on ESC-50, and 98.1% accuracy on Speech Commands V2.
翻訳日:2021-04-09 03:53:29 公開日:2021-04-06
# (参考訳) 強化学習を用いた近似ロバストNMPC [全文訳有]

Approximate Robust NMPC using Reinforcement Learning ( http://arxiv.org/abs/2104.02743v1 )

ライセンス: CC BY 4.0
Hossein Nejatbakhsh Esfahani, Arash Bahari Kordabad, Sebastien Gros(参考訳) 本稿では、障害や不確実性の存在下で非線形システムを制御するための強化学習に基づくロバスト非線形モデル予測制御(RL-RNMPC)フレームワークを提案する。 低計算複雑性の近似ロバスト非線形モデル予測制御(RNMPC)は、状態軌跡の不確かさが楕円体を介してモデル化される。 強化学習は楕円体近似の処理に用いられ、楕円体を生成するMPCパラメータを調整することにより、スキームの閉ループ性能を向上させる。 この手法は、静的障害物を避けながら、所望の軌道を追跡するシミュレーションされた車輪付き移動ロボット(WMR)でテストされる。

We present a Reinforcement Learning-based Robust Nonlinear Model Predictive Control (RL-RNMPC) framework for controlling nonlinear systems in the presence of disturbances and uncertainties. An approximate Robust Nonlinear Model Predictive Control (RNMPC) of low computational complexity is used in which the state trajectory uncertainty is modelled via ellipsoids. Reinforcement Learning is then used in order to handle the ellipsoidal approximation and improve the closed-loop performance of the scheme by adjusting the MPC parameters generating the ellipsoids. The approach is tested on a simulated Wheeled Mobile Robot (WMR) tracking a desired trajectory while avoiding static obstacles.
翻訳日:2021-04-09 03:18:41 公開日:2021-04-06
# (参考訳) InverseForm: 構造化境界認識セグメンテーションのためのロス関数 [全文訳有]

InverseForm: A Loss Function for Structured Boundary-Aware Segmentation ( http://arxiv.org/abs/2104.02745v1 )

ライセンス: CC BY 4.0
Shubhankar Borse, Ying Wang, Yizhe Zhang, Fatih Porikli(参考訳) 本稿では,推定と対象境界間のパラメトリック変換の程度を効率的に学習する逆変換ネットワークを用いた意味セグメンテーションのための新しい境界認識損失項を提案する。 このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完し、そのサイズと計算複雑性を増大させることなくセグメンテーションバックボーンモデルの一貫性と顕著な性能向上を可能にする。 都市景観,NYU-Depth-v2,PASCAL を含む3つの屋内および屋外セグメンテーション・ベンチマークにおける損失関数の定量的および定性的効果を解析し,複数のバックボーンネットワークのトレーニングフェーズに統合した。 実験の結果,提案手法はベースラインを一貫して上回り,また2つのデータセットに対して新たな最先端設定を行うことができた。

We present a novel boundary-aware loss term for semantic segmentation using an inverse-transformati on network, which efficiently learns the degree of parametric transformations between estimated and target boundaries. This plug-in loss term complements the cross-entropy loss in capturing boundary transformations and allows consistent and significant performance improvement on segmentation backbone models without increasing their size and computational complexity. We analyze the quantitative and qualitative effects of our loss function on three indoor and outdoor segmentation benchmarks, including Cityscapes, NYU-Depth-v2, and PASCAL, integrating it into the training phase of several backbone networks in both single-task and multi-task settings. Our extensive experiments show that the proposed method consistently outperforms baselines, and even sets the new state-of-the-art on two datasets.
翻訳日:2021-04-09 03:07:11 公開日:2021-04-06
# (参考訳) ELECTRAを用いたNLPの効率的な伝達学習 [全文訳有]

Efficient transfer learning for NLP with ELECTRA ( http://arxiv.org/abs/2104.02756v1 )

ライセンス: CC BY 4.0
Fran\c{c}ois Mercier(参考訳) Clarkら。 [2020] は計算予算に対する NLP 性能において ELECTRA アプローチは高い効率であると主張している。 ELECTRAを用いて低リソース環境でのNLPのSOTA性能に近い性能を計算コストの観点から実現できるか?

Clark et al. [2020] claims that the ELECTRA approach is highly efficient in NLP performances relative to computation budget. As such, this reproducibility study focus on this claim, summarized by the following question: Can we use ELECTRA to achieve close to SOTA performances for NLP in low-resource settings, in term of compute cost?
翻訳日:2021-04-09 02:51:31 公開日:2021-04-06
# (参考訳) 共変量と結果の両方に欠落したデータを用いた変数選択:インプテーションと機械学習 [全文訳有]

Variable selection with missing data in both covariates and outcomes: Imputation and machine learning ( http://arxiv.org/abs/2104.02769v1 )

ライセンス: CC BY 4.0
Liangyuan Hu and Jung-Yi Joyce Lin and Jiayi Ji(参考訳) 欠落したデータ問題は、健康研究においてどこにでもある。 共変量と結果の両方が存在する場合の変数選択は重要な統計研究テーマであるが、あまり研究されていない。 既存の文献は回帰モデルの直接パラメータ推定を提供するパラメトリック回帰技術に焦点を当てている。 実際、パラメトリック回帰モデルは、誤特定の影響を受けやすいため、変数選択に最適ではないことが多い。 機械学習手法はパラメトリック仮定を著しく弱め、モデリングの柔軟性を向上させるが、パラメトリックモデルに固有の共変量効果として自然に定義された変動重要度尺度は提供しない。 共変量と結果の両方がランダムに欠落し、一般的な欠落データパターンを持つ場合の一般変数選択手法を検討する。 このアプローチは、機械学習モデリング技術とブートストラップ計算の柔軟性を利用しており、これは共変量効果が直接利用できない非パラメトリックな手法に適応できる。 提案手法は, xgboost, random forests, bayesian additive regression tree (bart), conditional random forestsの4つの木ベースの機械学習手法と,lassoとbackward stepwiseの2つのパラメトリック手法を組み合わせることで,提案手法の実用的動作特性を検討する。 数値的な結果から、XGBoostとBARTは、さまざまな設定で総合的に最高のパフォーマンスを示している。 分析データの構造に適した方法を選択するためのガイダンスについて論じる。 さらに, メタボリックシンドロームの3年間の発症リスク要因のケーススタディと, 全国における女性健康研究のデータを用いて, その方法の実証を行った。

The missing data issue is ubiquitous in health studies. Variable selection in the presence of both missing covariates and outcomes is an important statistical research topic but has been less studied. Existing literature focuses on parametric regression techniques that provide direct parameter estimates of the regression model. In practice, parametric regression models are often sub-optimal for variable selection because they are susceptible to misspecification. Machine learning methods considerably weaken the parametric assumptions and increase modeling flexibility, but do not provide as naturally defined variable importance measure as the covariate effect native to parametric models. We investigate a general variable selection approach when both the covariates and outcomes can be missing at random and have general missing data patterns. This approach exploits the flexibility of machine learning modeling techniques and bootstrap imputation, which is amenable to nonparametric methods in which the covariate effects are not directly available. We conduct expansive simulations investigating the practical operating characteristics of the proposed variable selection approach, when combined with four tree-based machine learning methods, XGBoost, Random Forests, Bayesian Additive Regression Trees (BART) and Conditional Random Forests, and two commonly used parametric methods, lasso and backward stepwise selection. Numeric results show XGBoost and BART have the overall best performance across various settings. Guidance for choosing methods appropriate to the structure of the analysis data at hand are discussed. We further demonstrate the methods via a case study of risk factors for 3-year incidence of metabolic syndrome with data from the Study of Women's Health Across the Nation.
翻訳日:2021-04-09 02:40:21 公開日:2021-04-06
# (参考訳) submodular maximization (複数形 submodular maximizations)

The Power of Subsampling in Submodular Maximization ( http://arxiv.org/abs/2104.02772v1 )

ライセンス: CC BY 4.0
Christopher Harshaw, Ehsan Kazemi, Moran Feldman, Amin Karbasi(参考訳) 集中およびオンライン設定における部分モジュラ最大化のための統一的なアルゴリズム手法としてサブサンプリングを提案する。 アイデアは単純で、基底集合から独立した要素をサンプリングし、これらのサンプル要素に単純な組合せ技術(グリーディや局所探索など)を使用する。 このアプローチは,既存の手法よりもはるかに単純であるにもかかわらず,最適/最先端の結果をもたらすことを示す。 通常のオフライン設定では、$o(n + nk/p)$評価と実行可能性クエリを使用して、$p$-extendibleシステムに属するサブモジュラー関数を最大化するための$(p + 2 + o(1))$近似を求める。 近似比は単調部分モジュラーおよび線形目的に対してそれぞれ$p+1$および$p$に改善される。 ストリーミング設定では、$O(k)$メモリと$O(km/p)$評価とフィーザビリティクエリを使用して、$O(k)$メモリと$O(km/p)$のサブモジュール関数を最大化するための$(4p + 2 - o(1))$-approximation を得る。 近似比はモノトン部分モジュラー目的に対して4p$に向上する。 我々は,映像要約,位置情報要約,映画推薦タスクにおけるアルゴリズムの有効性を実証的に示す。

We propose subsampling as a unified algorithmic technique for submodular maximization in centralized and online settings. The idea is simple: independently sample elements from the ground set, and use simple combinatorial techniques (such as greedy or local search) on these sampled elements. We show that this approach leads to optimal/state-of-the -art results despite being much simpler than existing methods. In the usual offline setting, we present SampleGreedy, which obtains a $(p + 2 + o(1))$-approximation for maximizing a submodular function subject to a $p$-extendible system using $O(n + nk/p)$ evaluation and feasibility queries, where $k$ is the size of the largest feasible set. The approximation ratio improves to $p+1$ and $p$ for monotone submodular and linear objectives, respectively. In the streaming setting, we present SampleStreaming, which obtains a $(4p +2 - o(1))$-approximation for maximizing a submodular function subject to a $p$-matchoid using $O(k)$ memory and $O(km/p)$ evaluation and feasibility queries per element, where $m$ is the number of matroids defining the $p$-matchoid. The approximation ratio improves to $4p$ for monotone submodular objectives. We empirically demonstrate the effectiveness of our algorithms on video summarization, location summarization, and movie recommendation tasks.
翻訳日:2021-04-09 02:36:53 公開日:2021-04-06
# (参考訳) 自律走行車のローカライズ:コンピュータビジョンアプローチのための概念実証 [全文訳有]

Localization of Autonomous Vehicles: Proof of Concept for A Computer Vision Approach ( http://arxiv.org/abs/2104.02785v1 )

ライセンス: CC BY 4.0
Sara Zahedian, Kaveh Farokhi Sadabadi, Amir Nohekhan(参考訳) 本稿では,複雑なハードウェアシステムやカメラがなくても動作する自律走行車(AV)の視覚的位置決め手法を提案する。 ビジュアルローカライゼーション(Visual Localization)とは、周囲の視覚情報に基づいて物体の位置を見つける手法である。 ローカライゼーションの問題は長年にわたって注目されてきた。 しかし、視覚局在は輸送文学において比較的新しい主題である。 さらに、自動運転車の文脈におけるこの種のローカライゼーションの必然的適用は、この問題に対して交通機関から特別の注意が必要である。 本研究では,車両の走行中に写真撮影が可能な車両に搭載されたジオタグ画像とカメラのデータベースを必要とする2段階のローカライズ手法を提案する。 画像検索の第1ステップは、SIFTローカル特徴記述子を使用して、画像マッチングを使用して車両の初期位置を検出する。 次のステップは、カルマンフィルターを使用して、移動中の車両のより正確な位置を推定する。 導入されたメソッドのすべてのステージは、異なるpythonライブラリを使用して完全なシステムとして実装される。 提案システムは,KITTIデータセットを用いてテストし,車両の最終的な位置を求める際に平均2mの精度を示した。

This paper introduces a visual-based localization method for autonomous vehicles (AVs) that operate in the absence of any complicated hardware system but a single camera. Visual localization refers to techniques that aim to find the location of an object based on visual information of its surrounding area. The problem of localization has been of interest for many years. However, visual localization is a relatively new subject in the literature of transportation. Moreover, the inevitable application of this type of localization in the context of autonomous vehicles demands special attention from the transportation community to this problem. This study proposes a two-step localization method that requires a database of geotagged images and a camera mounted on a vehicle that can take pictures while the car is moving. The first step which is image retrieval uses SIFT local feature descriptor to find an initial location for the vehicle using image matching. The next step is to utilize the Kalman filter to estimate a more accurate location for the vehicle as it is moving. All stages of the introduced method are implemented as a complete system using different Python libraries. The proposed system is tested on the KITTI dataset and has shown an average accuracy of 2 meters in finding the final location of the vehicle.
翻訳日:2021-04-09 02:33:35 公開日:2021-04-06
# (参考訳) 粗雑音グラフアライメントのためのスパース部分最小方形 [全文訳有]

Sparse Partial Least Squares for Coarse Noisy Graph Alignment ( http://arxiv.org/abs/2104.02810v1 )

ライセンス: CC BY-SA 4.0
Michael Weylandt and George Michailidis and T. Mitchell Roddenberry(参考訳) グラフ信号処理(GSP)は、様々な領域で発生する信号を分析する強力なフレームワークを提供する。 gspの多くのアプリケーションでは、複数のネットワーク構造が利用可能であり、それぞれが同じ現象の異なる側面を捉えている。 これらの異なるデータソースを統合するために、グラフアライメント手法は2つのグラフの頂点間の最適な対応を見つけようとする。 この問題の一般化を考えると、頂点間の自然な一対一写像は存在しないが、各グラフのコミュニティ構造の間には対応がある。 この高いコミュニティレベルで構造を学ぼうとしているので、この問題を"粗い"グラフアライメントと呼んでいる。 そこで本研究では,観測されたグラフ構造を組み込んだ新しい正規化部分最小二乗法を提案し,その基礎となるブロック群集構造を反映してスパーシティを課す。 提案手法のアルゴリズムを効率よく提供し,その有効性をシミュレーションで実証する。

Graph signal processing (GSP) provides a powerful framework for analyzing signals arising in a variety of domains. In many applications of GSP, multiple network structures are available, each of which captures different aspects of the same underlying phenomenon. To integrate these different data sources, graph alignment techniques attempt to find the best correspondence between vertices of two graphs. We consider a generalization of this problem, where there is no natural one-to-one mapping between vertices, but where there is correspondence between the community structures of each graph. Because we seek to learn structure at this higher community level, we refer to this problem as "coarse" graph alignment. To this end, we propose a novel regularized partial least squares method which both incorporates the observed graph structures and imposes sparsity in order to reflect the underlying block community structure. We provide efficient algorithms for our method and demonstrate its effectiveness in simulations.
翻訳日:2021-04-09 02:25:08 公開日:2021-04-06
# (参考訳) ecole: milpソルバ内で学ぶためのライブラリ [全文訳有]

Ecole: A Library for Learning Inside MILP Solvers ( http://arxiv.org/abs/2104.02828v1 )

ライセンス: CC BY 4.0
Antoine Prouvost, Justin Dumouchelle, Maxime Gasse, Didier Ch\'etelat, Andrea Lodi(参考訳) 本稿では,組合せ最適化における機械学習の統合を容易にするライブラリであるEcole(Extensible Combinatorial Optimization Learning Environments)について述べる。 これはマルコフ決定プロセスとして解決するプロセスで実行しなければならないシーケンシャルな意思決定を公開する。 つまり、組合せ最適化問題の解を直接予測する代わりに、Ecoleは、制御可能なアルゴリズムとして機能する混合整数線形プログラミング解決器の最先端技術と連携して機械学習を動作させることができる。 ecoleは、新しいトレーニングタスクを定義するための拡張が容易な、計算効率の高い学習環境のコレクションを提供する。 ドキュメンテーションとコードはhttps://www.ecole.ai .comで見ることができる。

In this paper we describe Ecole (Extensible Combinatorial Optimization Learning Environments), a library to facilitate integration of machine learning in combinatorial optimization solvers. It exposes sequential decision making that must be performed in the process of solving as Markov decision processes. This means that, rather than trying to predict solutions to combinatorial optimization problems directly, Ecole allows machine learning to work in cooperation with a state-of-the-art a mixed-integer linear programming solver that acts as a controllable algorithm. Ecole provides a collection of computationally efficient, ready to use learning environments, which are also easy to extend to define novel training tasks. Documentation and code can be found at https://www.ecole.ai .
翻訳日:2021-04-09 02:13:05 公開日:2021-04-06
# robust semantic interpretability: revisiting concept activation vectors

Robust Semantic Interpretability: Revisiting Concept Activation Vectors ( http://arxiv.org/abs/2104.02768v1 )

ライセンス: Link先を確認
Jacob Pfau, Albert T. Young, Jerome Wei, Maria L. Wei, Michael J. Keiser(参考訳) 画像分類のための解釈可能性手法は、モデルが系統的に偏っているか、あるいは人間が望むのと同じ手がかりに従うかを明らかにすることによって、モデルの信頼性を評価する。 特徴属性の正当性は解釈可能性の文献において支配的であるが、これらの手法は画像内の物体のテクスチャ、色、性別といった意味概念に対処しない。 提案するRobust Concept Activation Vectors (RCAV) は,個々のモデル予測やモデル全体の振る舞いに対する意味概念の影響を定量化する。 RCAVは、概念勾配を計算し、与えられた概念に対するモデル感度を評価するために勾配上昇ステップを取る。 モデル非線型性を考慮した概念活性化ベクトルに関する以前の研究を一般化し、より厳密な仮説テストを導入することにより、RCAVは画像レベルでより正確かつデータセットレベルで堅牢な解釈を得られることを示す。 RCAVは、サリエンシ法と同様に、個々の予測の解釈をサポートする。 デバッグツールとしての解釈可能性手法の実用化および誘導バイアスを特定するための解釈可能性手法の科学的利用(例えば、)を評価する。 形態上のテクスチャ)は、2つのデータセットを構築し、セマンティック解釈可能性メソッドの現実的なベンチマークのためのメトリクスを伴います。 本ベンチマークでは, 解釈可能性手法の実用性を評価するために, 対実的拡張と負の制御の重要性を明らかにする。

Interpretability methods for image classification assess model trustworthiness by attempting to expose whether the model is systematically biased or attending to the same cues as a human would. Saliency methods for feature attribution dominate the interpretability literature, but these methods do not address semantic concepts such as the textures, colors, or genders of objects within an image. Our proposed Robust Concept Activation Vectors (RCAV) quantifies the effects of semantic concepts on individual model predictions and on model behavior as a whole. RCAV calculates a concept gradient and takes a gradient ascent step to assess model sensitivity to the given concept. By generalizing previous work on concept activation vectors to account for model non-linearity, and by introducing stricter hypothesis testing, we show that RCAV yields interpretations which are both more accurate at the image level and robust at the dataset level. RCAV, like saliency methods, supports the interpretation of individual predictions. To evaluate the practical use of interpretability methods as debugging tools, and the scientific use of interpretability methods for identifying inductive biases (e.g. texture over shape), we construct two datasets and accompanying metrics for realistic benchmarking of semantic interpretability methods. Our benchmarks expose the importance of counterfactual augmentation and negative controls for quantifying the practical usability of interpretability methods.
翻訳日:2021-04-08 13:07:31 公開日:2021-04-06
# AIの公正性測定に向けたCasual Conversationsデータセット

Towards measuring fairness in AI: the Casual Conversations dataset ( http://arxiv.org/abs/2104.02821v1 )

ライセンス: Link先を確認
Caner Hazirbas, Joanna Bitton, Brian Dolhansky, Jacqueline Pan, Albert Gordo, Cristian Canton Ferrer(参考訳) 本稿では,様々な年齢,性別,肌色,環境照明条件において,コンピュータビジョンと音響モデルの正確性を評価するための新しいデータセットを提案する。 私たちのデータセットは3,011人の被験者で構成されており、45,000以上のビデオがあり、1人あたり平均15本のビデオがある。 ビデオはアメリカの複数の州で撮影され、年齢、性別、肌の色など様々な種類の成人が撮影された。 重要な特徴は、各被験者が自分の好きなように参加することに同意したことである。 さらに、年齢と性別のアノテーションは、被験者自身によって提供される。 訓練されたアノテーターのグループは、フィッツパトリックの皮膚型尺度を用いて被験者の見かけの皮膚のトーンをラベル付けした。 また、低環境照明で記録された映像に対する注釈も提供する。 特定の属性にまたがる予測のロバスト性を測定するためのアプリケーションとして,deepfake detection challenge (dfdc) の受賞者トップ5について総合的な調査を行った。 実験により, 勝利モデルは皮膚の色調が濃く, 全身に一般化できないような特定の集団において, パフォーマンスが低いことが明らかとなった。 また,現在最先端の年齢と性別分類法についても検討した。 我々の実験は、様々な背景を持つ人々の公平な扱いの観点から、これらのモデルのスルー分析を提供する。

This paper introduces a novel dataset to help researchers evaluate their computer vision and audio models for accuracy across a diverse set of age, genders, apparent skin tones and ambient lighting conditions. Our dataset is composed of 3,011 subjects and contains over 45,000 videos, with an average of 15 videos per person. The videos were recorded in multiple U.S. states with a diverse set of adults in various age, gender and apparent skin tone groups. A key feature is that each subject agreed to participate for their likenesses to be used. Additionally, our age and gender annotations are provided by the subjects themselves. A group of trained annotators labeled the subjects' apparent skin tone using the Fitzpatrick skin type scale. Moreover, annotations for videos recorded in low ambient lighting are also provided. As an application to measure robustness of predictions across certain attributes, we provide a comprehensive study on the top five winners of the DeepFake Detection Challenge (DFDC). Experimental evaluation shows that the winning models are less performant on some specific groups of people, such as subjects with darker skin tones and thus may not generalize to all people. In addition, we also evaluate the state-of-the-art apparent age and gender classification methods. Our experiments provides a through analysis on these models in terms of fair treatment of people from various backgrounds.
翻訳日:2021-04-08 13:05:56 公開日:2021-04-06
# heuristics2annotate: バウンディングボックス回帰のための大規模マラソンデータセットの効率的なアノテーション

Heuristics2Annotate: Efficient Annotation of Large-Scale Marathon Dataset For Bounding Box Regression ( http://arxiv.org/abs/2104.02749v1 )

ライセンス: Link先を確認
Pranjal Singh Rajput, Yeshwanth Napolean, Jan van Gemert(参考訳) 特にマラソンランナーの大規模な個人再識別データセットにアノテートするのは難しい作業です。 カメラ視点、解像度、オクルージョン、照明といったシナリオのバリエーションは、問題を非自明にしている。 このような大規模データセットで手動で注釈付けするバウンディングボックスはコスト非効率である。 さらに、ビデオの混雑と排他性のため、複数の不規則なカメラでランナーのアイデンティティを調整することは難しい。 我々はマラソンランナーの大規模インザワイルドビデオデータセットを収集した。 このデータセットは、42台のハンドヘルドスマートフォンカメラで撮影した数千人のランナーを何時間も記録し、現実世界のシナリオをカバーする。 ビデオには混み合いや隠蔽があるため、ランナーのアノテーションは難しい課題となる。 このような大規模データセットのアノテーションにおける課題に対処するための新しい手法を提案する。 我々の手法は、時間と予算の観点から、アノテーションの全体的なコストを削減します。 アノテーションの労力と時間を削減するために、fps解析を実演する。 タイトバウンディングボックスを効率的に生成するためのアノテーション手法について検討した。 その結果,キーフレーム間のバウンディングボックスの補間は,他の手法の中で最も効率的なバウンディングボックス生成法であり,ナイーブベースライン法よりも3倍高速であることがわかった。 分離カメラにおけるランナーのアイデンティティを整合させる新しい方法を提案する。 最先端の人物認証システムと統合したカメラ間アライメントツールは、複数のカメラにまたがるランナーをオーバーラップしないビューでアライメントするのに十分かつ効果的であることが証明された。 提案するアノテーションフレームワークは,データセットのアノテーションコストを16倍に削減し,カメラ横断環境におけるランナーの93.64%を効果的に調整する。

Annotating a large-scale in-the-wild person re-identification dataset especially of marathon runners is a challenging task. The variations in the scenarios such as camera viewpoints, resolution, occlusion, and illumination make the problem non-trivial. Manually annotating bounding boxes in such large-scale datasets is cost-inefficient. Additionally, due to crowdedness and occlusion in the videos, aligning the identity of runners across multiple disjoint cameras is a challenge. We collected a novel large-scale in-the-wild video dataset of marathon runners. The dataset consists of hours of recording of thousands of runners captured using 42 hand-held smartphone cameras and covering real-world scenarios. Due to the presence of crowdedness and occlusion in the videos, the annotation of runners becomes a challenging task. We propose a new scheme for tackling the challenges in the annotation of such large dataset. Our technique reduces the overall cost of annotation in terms of time as well as budget. We demonstrate performing fps analysis to reduce the effort and time of annotation. We investigate several annotation methods for efficiently generating tight bounding boxes. Our results prove that interpolating bounding boxes between keyframes is the most efficient method of bounding box generation amongst several other methods and is 3x times faster than the naive baseline method. We introduce a novel way of aligning the identity of runners in disjoint cameras. Our inter-camera alignment tool integrated with the state-of-the-art person re-id system proves to be sufficient and effective in the alignment of the runners across multiple cameras with non-overlapping views. Our proposed framework of annotation reduces the annotation cost of the dataset by a factor of 16x, also effectively aligning 93.64% of the runners in the cross-camera setting.
翻訳日:2021-04-08 13:04:02 公開日:2021-04-06
# IndoFashion : インド民族服のアパレル分類

IndoFashion : Apparel Classification for Indian Ethnic Clothes ( http://arxiv.org/abs/2104.02830v1 )

ライセンス: Link先を確認
Pranjal Singh Rajput, Shivangi Aneja(参考訳) 布の分類は、eコマースウェブサイトがエンドユーザに正しい製品を表示するために使用する重要な研究課題である。 インドの服は男性と女性の両方に多くの服のカテゴリーがある。 サリー」や「ドティ」のような伝統的なインドの服は、tシャツやジーンズのような洋服とは大きく異なる。 また、民族衣装の様式や様式は洋服とは大きく異なる。 したがって、標準布のデータセットで訓練されたモデルは、民族衣装で惨めに失敗する。 これらの課題に対処するために,我々は,インド民族服の細かな分類のための15のカテゴリを持つ106k以上の画像の最初の大規模民族データセットを紹介する。 インドの多くのeコマースサイトからさまざまなデータセットを集めました。 次に,本データセットに基づく布分類タスクのベースラインの評価を行った。 最終的に88.43%の分類精度を得る。 われわれのデータセットは、布の分類、ランドマーク検出、特に民族服のためのいくつかのアルゴリズムの開発における研究を促進することを願っている。

Cloth categorization is an important research problem that is used by e-commerce websites for displaying correct products to the end-users. Indian clothes have a large number of clothing categories both for men and women. The traditional Indian clothes like "Saree" and "Dhoti" are worn very differently from western clothes like t-shirts and jeans. Moreover, the style and patterns of ethnic clothes have a very different distribution from western outfits. Thus the models trained on standard cloth datasets fail miserably on ethnic outfits. To address these challenges, we introduce the first large-scale ethnic dataset of over 106k images with 15 different categories for fine-grained classification of Indian ethnic clothes. We gathered a diverse dataset from a large number of Indian e-commerce websites. We then evaluate several baselines for the cloth classification task on our dataset. In the end, we obtain 88.43% classification accuracy. We hope that our dataset would foster research in the development of several algorithms such as cloth classification, landmark detection, especially for ethnic clothes.
翻訳日:2021-04-08 13:01:52 公開日:2021-04-06
# 創造性と機械学習: 調査

Creativity and Machine Learning: a Survey ( http://arxiv.org/abs/2104.02726v1 )

ライセンス: Link先を確認
Giorgio Franceschelli and Mirco Musolesi(参考訳) 機械学習とクリエイティビティの分野への関心が高まっている。 本稿では,計算創造性理論の歴史と現状,生成的深層学習を含む機械学習技術,およびそれに対応する自動評価手法について概説する。 この分野における重要な貢献について批判的な議論を行った後、この分野における現在の研究課題と新たな機会について概説する。

There is a growing interest in the area of machine learning and creativity. This survey presents an overview of the history and the state of the art of computational creativity theories, machine learning techniques, including generative deep learning, and corresponding automatic evaluation methods. After presenting a critical discussion of the key contributions in this area, we outline the current research challenges and emerging opportunities in this field.
翻訳日:2021-04-08 12:59:58 公開日:2021-04-06
# メカトロニクス系の異種多変量時系列データを用いたオートエンコーダに基づく表現学習

Autoencoder-based Representation Learning from Heterogeneous Multivariate Time Series Data of Mechatronic Systems ( http://arxiv.org/abs/2104.02784v1 )

ライセンス: Link先を確認
K.-P. Kortmann, M. Fehsenfeld and M. Wielitzka(参考訳) 現代のメカトロニクス系のセンサと制御データは、サンプリングレートと値範囲の異なる異種時系列としてしばしば利用できる。 教師付き機械学習の分野からの適切な分類と回帰手法は、例えば条件監視の文脈では予測タスクにすでに存在しているが、その性能はラベル付きトレーニングデータの数と強く一致している。 それらの規定は、人的時間や追加のセンサーという形で高い労力に結びつくことが多い。 本稿では,データベースの異種性に特化して対処し,既存の手法と比較してラベル付きトレーニングデータの量を削減するオートエンコーダネットワークを用いた教師なし特徴抽出手法を提案する。 異なるアプリケーションドメインからのメカトロニクスシステムの3つの公開データセットを使用して結果を検証する。

Sensor and control data of modern mechatronic systems are often available as heterogeneous time series with different sampling rates and value ranges. Suitable classification and regression methods from the field of supervised machine learning already exist for predictive tasks, for example in the context of condition monitoring, but their performance scales strongly with the number of labeled training data. Their provision is often associated with high effort in the form of person-hours or additional sensors. In this paper, we present a method for unsupervised feature extraction using autoencoder networks that specifically addresses the heterogeneous nature of the database and reduces the amount of labeled training data required compared to existing methods. Three public datasets of mechatronic systems from different application domains are used to validate the results.
翻訳日:2021-04-08 12:59:52 公開日:2021-04-06
# C2CL:コンタクトレス指紋照合

C2CL: Contact to Contactless Fingerprint Matching ( http://arxiv.org/abs/2104.02811v1 )

ライセンス: Link先を確認
Steven A. Grosz, Joshua J. Engelsma, and Anil K. Jain(参考訳) 接触指紋や指紋写真と接触指紋印象とのマッチングは、接触指紋取得の衛生上の優位性や、認証目的に十分な解像度で指紋の写真を撮影できる低価格携帯電話の普及により、新型コロナウイルス(COVID-19)の影響で注目されている。 本稿では,移動式指紋撮影アプリ,前処理アルゴリズム,マッチングアルゴリズムによって構成されるC2CLと呼ばれるエンドツーエンド自動システムについて述べる。i) 接触レス指紋のローリッジ・バレーコントラスト,i) ローロール,ピッチ,ヤウ,カメラとの距離,iii) 接触型指紋の非線形歪み,vi) スマートフォンカメラの様々な画像特性について述べる。 前処理アルゴリズムのセグメンテーション、強化、スケール、アンワープ、非接触指紋、マッチングアルゴリズムはminutiaeとテクスチャの表現を抽出します。 モバイルキャプチャーアプリを用いて取得した206名(親指2本、人差し指2本)のコンタクトレス2d指紋と対応するコンタクトベース指紋9,888のデータセットを用いて,提案アルゴリズムのクロスデータベース性能を評価する。 さらに、公開されている3つのデータセットのさらなる実験結果から、コンタクト指紋マッチングシステムと同等のコンタクトレス指紋マッチングの精度(96.67%から98.15%の範囲で遠方0.01%)が証明された。

Matching contactless fingerprints or finger photos to contact-based fingerprint impressions has received increased attention in the wake of COVID-19 due to the superior hygiene of the contactless acquisition and the widespread availability of low cost mobile phones capable of capturing photos of fingerprints with sufficient resolution for verification purposes. This paper presents an end-to-end automated system, called C2CL, comprised of a mobile finger photo capture app, preprocessing, and matching algorithms to handle the challenges inhibiting previous cross-matching methods; namely i) low ridge-valley contrast of contactless fingerprints, ii) varying roll, pitch, yaw, and distance of the finger to the camera, iii) non-linear distortion of contact-based fingerprints, and vi) different image qualities of smartphone cameras. Our preprocessing algorithm segments, enhances, scales, and unwarps contactless fingerprints, while our matching algorithm extracts both minutiae and texture representations. A sequestered dataset of 9,888 contactless 2D fingerprints and corresponding contact-based fingerprints from 206 subjects (2 thumbs and 2 index fingers for each subject) acquired using our mobile capture app is used to evaluate the cross-database performance of our proposed algorithm. Furthermore, additional experimental results on 3 publicly available datasets demonstrate, for the first time, contact to contactless fingerprint matching accuracy that is comparable to existing contact to contact fingerprint matching systems (TAR in the range of 96.67% to 98.15% at FAR=0.01%).
翻訳日:2021-04-08 12:58:12 公開日:2021-04-06
# TB-Net:胸部X線画像から結核症例を検出するための自己注意型深部畳み込みニューラルネットワークの設計

TB-Net: A Tailored, Self-Attention Deep Convolutional Neural Network Design for Detection of Tuberculosis Cases from Chest X-ray Images ( http://arxiv.org/abs/2104.03165v1 )

ライセンス: Link先を確認
Alexander Wong, James Ren Hou Lee, Hadi Rahmat-Khah, Ali Sabri, and Amer Alaref(参考訳) 結核(tb)は世界規模の健康問題であり、感染症による死亡の原因となっている。 結核治療における重要なステップは、リスクの高い集団のスクリーニングと疾患の早期発見であり、胸部X線像(CXR)は最も広く用いられている画像モダリティである。 このように、CXR解釈の専門知識を持つ訓練された医療従事者が不足しているリソース制限シナリオで使用する人工知能ベースのTBスクリーニングソリューションに、近年、大きな関心が寄せられている。 本研究は,TBのコンピュータ支援診断に対する世界保健機関(WHO)の最近の勧告に触発され,TBケーススクリーニングに適した自己注意型深層畳み込みニューラルネットワークTB-Netを導入する。 より具体的には、アテンションコンデンサを備えた高度にカスタマイズされたディープニューラルネットワークアーキテクチャを構築するために、マシン駆動設計探索を利用した。 我々はTB-Netの意思決定動作を検証するために,説明可能性に基づく性能検証プロセスを実施した。 結核cxrベンチマークデータセットを用いた実験により、tb-netは99.86%/100.0%/99.71% の精度/感度/特異性を達成することができた。 放射線検診では, 放射線検診で10年以上の経験を持つ2人の放射線検診医による放射線検診を行い, TB-Netにより診断された放射線検診症例に対して, 放射線検診の解釈と臨界因子の整合性を示した。 生産可能なソリューションではないが、COVID-Netイニシアチブの一部としてTB-Netのオープンソースリリースによって、研究者、臨床医、市民データサイエンティストがこの分野を前進させ、この世界的な公衆衛生危機と戦うことを期待している。

Tuberculosis (TB) remains a global health problem, and is the leading cause of death from an infectious disease. A crucial step in the treatment of tuberculosis is screening high risk populations and the early detection of the disease, with chest x-ray (CXR) imaging being the most widely-used imaging modality. As such, there has been significant recent interest in artificial intelligence-based TB screening solutions for use in resource-limited scenarios where there is a lack of trained healthcare workers with expertise in CXR interpretation. Motivated by this pressing need and the recent recommendation by the World Health Organization (WHO) for the use of computer-aided diagnosis of TB, we introduce TB-Net, a self-attention deep convolutional neural network tailored for TB case screening. More specifically, we leveraged machine-driven design exploration to build a highly customized deep neural network architecture with attention condensers. We conducted an explainability-drive n performance validation process to validate TB-Net's decision-making behaviour. Experiments using a tuberculosis CXR benchmark dataset showed that the proposed TB-Net is able to achieve accuracy/sensitivity /specificity of 99.86%/100.0%/99.71% . Radiologist validation was conducted on select cases by two board-certified radiologists with over 10 and 19 years of experience, respectively, and showed consistency between radiologist interpretation and critical factors leveraged by TB-Net for TB case detection for the case where radiologists identified anomalies. While not a production-ready solution, we hope that the open-source release of TB-Net as part of the COVID-Net initiative will support researchers, clinicians, and citizen data scientists in advancing this field in the fight against this global public health crisis.
翻訳日:2021-04-08 12:56:55 公開日:2021-04-06
# 線分を用いたライダー・モノクル表面の再構成

Lidar-Monocular Surface Reconstruction Using Line Segments ( http://arxiv.org/abs/2104.02761v1 )

ライセンス: Link先を確認
Victor Amblard, Timothy P. Osedach, Arnaud Croux, Andrew Speck and John J. Leonard(参考訳) Structure from Motion (SfM) はしばしば、適切な視覚的特徴を持たない環境での正確なポーズを見積もることに失敗する。 このような場合、これらの推定の精度に起因した最終3dメッシュの品質が低下する。 この問題を解決する一つの方法は、単眼カメラとLIDARのデータを組み合わせることである。 これにより、機能のない被験者を正確に表現しながら、詳細なディテールとテクスチャをキャプチャできる。 しかし,これら2つのセンサモードの融合は,その特性が根本的に異なるため困難である。 画像特徴とLIDAR点を直接融合させるのではなく、LIDARスキャンと画像データの両方で検出される一般的な幾何学的特徴を活用し、2つのセンサからのデータを高次空間で処理できるようにする。 特に,LIDARスキャンから抽出した3次元線と画像から検出した2次元線との対応関係について検討した。 また、検出および最適化された線分を利用して最終メッシュの品質を向上させる。 最近公開されたデータセットであるNewer College Datasetで、我々のアプローチをテストする。 本研究では,3Dメッシュの精度と完全度を,サーベイグレードの3Dスキャナーを用いて得られた真実と比較した。 提案手法は,高精度な地中真理推定を必要とせず,最先端のLIDARサーベイに匹敵する結果が得られることを示す。

Structure from Motion (SfM) often fails to estimate accurate poses in environments that lack suitable visual features. In such cases, the quality of the final 3D mesh, which is contingent on the accuracy of those estimates, is reduced. One way to overcome this problem is to combine data from a monocular camera with that of a LIDAR. This allows fine details and texture to be captured while still accurately representing featureless subjects. However, fusing these two sensor modalities is challenging due to their fundamentally different characteristics. Rather than directly fusing image features and LIDAR points, we propose to leverage common geometric features that are detected in both the LIDAR scans and image data, allowing data from the two sensors to be processed in a higher-level space. In particular, we propose to find correspondences between 3D lines extracted from LIDAR scans and 2D lines detected in images before performing a bundle adjustment to refine poses. We also exploit the detected and optimized line segments to improve the quality of the final mesh. We test our approach on the recently published dataset, Newer College Dataset. We compare the accuracy and the completeness of the 3D mesh to a ground truth obtained with a survey-grade 3D scanner. We show that our method delivers results that are comparable to a state-of-the-art LIDAR survey while not requiring highly accurate ground truth pose estimates.
翻訳日:2021-04-08 12:54:40 公開日:2021-04-06
# 新たな証言の次元:反射場実験によるビデオのリライティング

A New Dimension in Testimony: Relighting Video with Reflectance Field Exemplars ( http://arxiv.org/abs/2104.02773v1 )

ライセンス: Link先を確認
Loc Huynh, Bipin Kishore, Paul Debevec(参考訳) 本研究では,同じ被験者の平坦な環境下で照らされた映像の4次元反射場を推定する学習手法を提案する。 トレーニングデータには、被写体を照らし、様々なポーズや視点で反射場データを取得するために、一度に1つの光を使用する。 入力映像の照明環境を推定し、被写体の反射場を用いて入力照明環境によって照らされた被写体の合成画像を作成する。 次に、深層畳み込みニューラルネットワークを訓練し、合成画像から反射場を回帰させる。 また、画像と入力されたビデオフレームをマッチングすることで、ネットワークに対するフィードバックを提供するために、微分可能なレンダラを使用する。 この半教師付きトレーニングスキームにより、ニューラルネットワークはデータセットの見えないポーズを処理でき、照明推定誤差を補うことができる。 本手法はホロコーストの生存者の映像上で評価し,現実性と速度の両面で最先端の手法よりも優れていることを示す。

We present a learning-based method for estimating 4D reflectance field of a person given video footage illuminated under a flat-lit environment of the same subject. For training data, we use one light at a time to illuminate the subject and capture the reflectance field data in a variety of poses and viewpoints. We estimate the lighting environment of the input video footage and use the subject's reflectance field to create synthetic images of the subject illuminated by the input lighting environment. We then train a deep convolutional neural network to regress the reflectance field from the synthetic images. We also use a differentiable renderer to provide feedback for the network by matching the relit images with the input video frames. This semi-supervised training scheme allows the neural network to handle unseen poses in the dataset as well as compensate for the lighting estimation error. We evaluate our method on the video footage of the real Holocaust survivors and show that our method outperforms the state-of-the-art methods in both realism and speed.
翻訳日:2021-04-08 12:54:21 公開日:2021-04-06
# 酵母細胞の蛍光顕微鏡画像の完全自動エンドツーエンドプロセス:セグメント化から検出・分類まで

A fully automated end-to-end process for fluorescence microscopy images of yeast cells: From segmentation to detection and classification ( http://arxiv.org/abs/2104.02793v1 )

ライセンス: Link先を確認
Asmaa Haja and Lambert R.B. Schomaker(参考訳) 近年,大量の蛍光顕微鏡画像が高スループットの実験室で収集されている。 短時間ですべての画像から関連情報を分析・抽出することはほぼ不可能である。 小さな細胞区画を検出することは、生物学者が直面する多くの課題の1つだ。 本稿では, 酵母細胞の蛍光顕微鏡画像の自動分離, 検出, 分類を行う深層学習分野からの手法を用いたエンドツーエンドプロセスの構築により, この問題を解決することを目的とする。 この目的でマスクr-cnnを用いて大量の酵母細胞データを自動分割しラベル付けし,yolov4を用いて各酵母細胞のコンパートメントを自動的に検出・分類した。 この完全に自動化されたエンドツーエンドプロセスは、PerICo1プロジェクトでインタラクティブなe-Scienceサーバに統合されることを意図している。 さらに,NOP1pr-GFP-SWAT酵母データライブラリのデータから,最先端YOLOv4の検出と分類性能を評価した。 実験結果から,元の画像を4つのクアドラントに分割することにより,F1スコア98%の精度と速度で優れた検出と分類結果を出力し,顕微鏡のネイティブ解像度と現在のGPUメモリサイズに最適であることがわかった。 応用領域は酵母細胞における光学顕微鏡であるが、医療応用における多細胞画像にも応用できる。

In recent years, an enormous amount of fluorescence microscopy images were collected in high-throughput lab settings. Analyzing and extracting relevant information from all images in a short time is almost impossible. Detecting tiny individual cell compartments is one of many challenges faced by biologists. This paper aims at solving this problem by building an end-to-end process that employs methods from the deep learning field to automatically segment, detect and classify cell compartments of fluorescence microscopy images of yeast cells. With this intention we used Mask R-CNN to automatically segment and label a large amount of yeast cell data, and YOLOv4 to automatically detect and classify individual yeast cell compartments from these images. This fully automated end-to-end process is intended to be integrated into an interactive e-Science server in the PerICo1 project, which can be used by biologists with minimized human effort in training and operation to complete their various classification tasks. In addition, we evaluated the detection and classification performance of state-of-the-art YOLOv4 on data from the NOP1pr-GFP-SWAT yeast-cell data library. Experimental results show that by dividing original images into 4 quadrants YOLOv4 outputs good detection and classification results with an F1-score of 98% in terms of accuracy and speed, which is optimally suited for the native resolution of the microscope and current GPU memory sizes. Although the application domain is optical microscopy in yeast cells, the method is also applicable to multiple-cell images in medical applications
翻訳日:2021-04-08 12:54:03 公開日:2021-04-06
# VERB:単語表現のためのバイアス軽減手法の可視化と解釈

VERB: Visualizing and Interpreting Bias Mitigation Techniques for Word Representations ( http://arxiv.org/abs/2104.02797v1 )

ライセンス: Link先を確認
Archit Rathore, Sunipa Dev, Jeff M. Phillips, Vivek Srikumar, Yan Zheng, Chin-Chia Michael Yeh, Junpeng Wang, Wei Zhang, Bei Wang(参考訳) ワードベクトル埋め込みは、抽出されたデータのバイアスを包含し、増幅することが示されている。 その結果、これらのバイアスを単語表現で識別、緩和、減衰する多くの手法が提案されている。 本稿では,インタラクティブな可視化を利用して,最先端のデバイアス手法の解釈可能性とアクセシビリティを向上させる。 これを支援するために,DeBiasing System(VERB)の埋め込み表現の可視化について紹介する。これは,ユーザがデバイアス技術の内部動作の技術的理解と視覚的直感を得るのに役立つ,オープンソースのWebベース可視化ツールである。 特に、VERBは、これらの脱バイアス技術が高次元ワードベクトルの幾何学に与える影響を探索する上で、簡単に追跡できるユースケースを提供する。 様々なデバイアス技術が基礎となる幾何学をどのように変えるかを理解するために、VERBは各テクニックを原始変換の解釈可能なシーケンスに分解し、次元の減少とインタラクティブな視覚探索を用いて単語ベクトルへの影響を強調する。 VERBは、自然言語処理(NLP)の実践者を対象に、単語埋め込みの上に意思決定システムを設計している他、NLPにおける機械学習システムの公正性と倫理を扱う研究者も対象としている。 教育用視覚媒体としても機能し、NLP初心者が単語埋め込みにおけるバイアスを理解し緩和するのに役立つ。

Word vector embeddings have been shown to contain and amplify biases in data they are extracted from. Consequently, many techniques have been proposed to identify, mitigate, and attenuate these biases in word representations. In this paper, we utilize interactive visualization to increase the interpretability and accessibility of a collection of state-of-the-art debiasing techniques. To aid this, we present Visualization of Embedding Representations for deBiasing system ("VERB"), an open-source web-based visualization tool that helps the users gain a technical understanding and visual intuition of the inner workings of debiasing techniques, with a focus on their geometric properties. In particular, VERB offers easy-to-follow use cases in exploring the effects of these debiasing techniques on the geometry of high-dimensional word vectors. To help understand how various debiasing techniques change the underlying geometry, VERB decomposes each technique into interpretable sequences of primitive transformations and highlights their effect on the word vectors using dimensionality reduction and interactive visual exploration. VERB is designed to target natural language processing (NLP) practitioners who are designing decision-making systems on top of word embeddings, and also researchers working with fairness and ethics of machine learning systems in NLP. It can also serve as a visual medium for education, which helps an NLP novice to understand and mitigate biases in word embeddings.
翻訳日:2021-04-08 12:44:17 公開日:2021-04-06
# コミュニケーション効率の良いAgnostic Federated Averaging

Communication-Effici ent Agnostic Federated Averaging ( http://arxiv.org/abs/2104.02748v1 )

ライセンス: Link先を確認
Jae Ro, Mingqing Chen, Rajiv Mathews, Mehryar Mohri, Ananda Theertha Suresh(参考訳) フェデレーション学習のような分散学習環境では、トレーニングアルゴリズムは異なるクライアントに対してバイアスを負う可能性がある。 mohriとal。 (2019) はドメインに依存しない学習アルゴリズムを提案し,このバイアスを克服するために,クライアント分布の混合によって生成されたターゲット分布に対してモデルを最適化する。 さらに彼らは、クライアント数が少ないクロスサイロフェデレーション学習設定のためのアルゴリズムも提案している。 我々は、クライアントの数がはるかに多いデバイス間設定でこの問題を考慮する。 我々は,Mohriらが開発したドメインに依存しない目的を最小化するために,Agnostic Federated Averaging(AgnosticFe dAvg)と呼ばれる通信効率の高い分散アルゴリズムを提案する。 (2019)はセキュアアグリゲーションのような他のプライベートなメカニズムに適応できる。 我々は、連邦学習において自然発生ドメインの2つのタイプを強調し、AgnosticFedAvgは両方でうまく機能すると主張している。 不可知論的fedavgの実用性を示すために,シミュレーションとライブ実験の両方において,大規模言語モデリングタスクにおいて,数百万のユーザデバイスを対象としたスペイン語仮想キーボードのための言語モデルをトレーニングすることを含む,ポジティブな結果が報告されている。

In distributed learning settings such as federated learning, the training algorithm can be potentially biased towards different clients. Mohri et al. (2019) proposed a domain-agnostic learning algorithm, where the model is optimized for any target distribution formed by a mixture of the client distributions in order to overcome this bias. They further proposed an algorithm for the cross-silo federated learning setting, where the number of clients is small. We consider this problem in the cross-device setting, where the number of clients is much larger. We propose a communication-effici ent distributed algorithm called Agnostic Federated Averaging (or AgnosticFedAvg) to minimize the domain-agnostic objective proposed in Mohri et al. (2019), which is amenable to other private mechanisms such as secure aggregation. We highlight two types of naturally occurring domains in federated learning and argue that AgnosticFedAvg performs well on both. To demonstrate the practical effectiveness of AgnosticFedAvg, we report positive results for large-scale language modeling tasks in both simulation and live experiments, where the latter involves training language models for Spanish virtual keyboard for millions of user devices.
翻訳日:2021-04-08 12:43:53 公開日:2021-04-06
# 電力市場効率分析による機械学習駆動仮想入札

Machine Learning-Driven Virtual Bidding with Electricity Market Efficiency Analysis ( http://arxiv.org/abs/2104.02754v1 )

ライセンス: Link先を確認
Yinglun Li, Nanpeng Yu, Wei Wang(参考訳) 本稿では、リスク制約と価格感度の両方を考慮して、電力市場における仮想入札のための機械学習によるポートフォリオ最適化フレームワークを開発する。 アルゴリズム取引戦略は、利益を最大化するためにプロプライエタリ取引会社の観点から開発された。 市場クリアリングアルゴリズムの時間間依存性を活用し,リカレントニューラルネットワークを用いた位置境界価格(lmp)拡散予測モデルを開発した。 ネット仮想入札に対するLMP拡散感度を,制約付き勾配押し上げ木を用いた単調関数としてモデル化した。 我々は,提案した仮想入札取引戦略を利用して,仮想入札ポートフォリオの収益性と米国の電力市場全体の効率性を評価する。 PJM、ISO-NE、CAISOに関する総合的な実証分析は、価格感度を考慮した仮想入札ポートフォリオ最適化戦略が価格感度を無視する手法よりも明らかに優れていることを示している。 3つの電気市場の仮想入札ポートフォリオのシャープ比率は、S&P500種株価指数よりもはるかに高い。 また,CAISO の2つの決済システムの効率は PJM や ISO-NE よりも低いことがわかった。

This paper develops a machine learning-driven portfolio optimization framework for virtual bidding in electricity markets considering both risk constraint and price sensitivity. The algorithmic trading strategy is developed from the perspective of a proprietary trading firm to maximize profit. A recurrent neural network-based Locational Marginal Price (LMP) spread forecast model is developed by leveraging the inter-hour dependencies of the market clearing algorithm. The LMP spread sensitivity with respect to net virtual bids is modeled as a monotonic function with the proposed constrained gradient boosting tree. We leverage the proposed algorithmic virtual bid trading strategy to evaluate both the profitability of the virtual bid portfolio and the efficiency of U.S. wholesale electricity markets. The comprehensive empirical analysis on PJM, ISO-NE, and CAISO indicates that the proposed virtual bid portfolio optimization strategy considering the price sensitivity explicitly outperforms the one that neglects the price sensitivity. The Sharpe ratio of virtual bid portfolios for all three electricity markets are much higher than that of the S&P 500 index. It was also shown that the efficiency of CAISO's two-settlement system is lower than that of PJM and ISO-NE.
翻訳日:2021-04-08 12:43:33 公開日:2021-04-06
# 低リグレットアクティブラーニング

Low-Regret Active learning ( http://arxiv.org/abs/2104.02822v1 )

ライセンス: Link先を確認
Cenk Baykal, Lucas Liebenwein, Dan Feldman, Daniela Rus(参考訳) 我々は,学習に最も有用なラベル付きデータポイント(アクティブラーニング)を識別するオンライン学習アルゴリズムを開発した。 睡眠専門家による予測として能動的学習問題を定式化することにより、情報性の定義に関する情報的データを識別する枠組みを提供する。 私たちの研究の中心は、予測可能な(容易な)インスタンスに対する後悔を少なく抑えるために調整された、睡眠専門家のための効率的なアルゴリズムです。 これは、最先端のアクティブラーニング手法とは対照的で、圧倒的に欲望の選択に基づいており、様々な問題インスタンスで優れたパフォーマンスを保証することができない。 提案手法は,実世界のデータセットやモデルにおける一様サンプリングよりも,情報化尺度でインスタンス化されていること,および(ii)確実に一様サンプリングを上回っていることを示す実験結果を示す。

We develop an online learning algorithm for identifying unlabeled data points that are most informative for training (i.e., active learning). By formulating the active learning problem as the prediction with sleeping experts problem, we provide a framework for identifying informative data with respect to any given definition of informativeness. At the core of our work is an efficient algorithm for sleeping experts that is tailored to achieve low regret on predictable (easy) instances while remaining resilient to adversarial ones. This stands in contrast to state-of-the-art active learning methods that are overwhelmingly based on greedy selection, and hence cannot ensure good performance across varying problem instances. We present empirical results demonstrating that our method (i) instantiated with an informativeness measure consistently outperforms its greedy counterpart and (ii) reliably outperforms uniform sampling on real-world data sets and models.
翻訳日:2021-04-08 12:43:18 公開日:2021-04-06
# 中間予測条件付けによるctc型asrの条件独立性仮定の緩和

Relaxing the Conditional Independence Assumption of CTC-based ASR by Conditioning on Intermediate Predictions ( http://arxiv.org/abs/2104.02724v1 )

ライセンス: Link先を確認
Jumon Nozaki, Tatsuya Komatsu(参考訳) 本稿では,接続型時間分類(CTC)に基づく自動音声認識(ASR)モデルの条件独立性を緩和する手法を提案する。 我々は,最終層におけるCTC損失に加えて,中間層におけるCTC損失を補助するCTCベースのASRモデルを訓練する。 トレーニングと推論の間、中間層で生成された各予測は次の層の入力にまとめられ、それらの中間層上での最後の層の予測を条件付ける。 提案手法は実装が容易で,単純なモデルアーキテクチャと高速復号化速度という,CTCベースのASRの利点を保っている。 3種類のASRコーパスについて実験を行った。 提案手法は,計算オーバーヘッドの少ない標準CTCモデル(例えば,WSJコーパスの単語誤り率を20%以上削減するなど)を大幅に改善する。 さらに、TEDLium2コーパスとAISHELL-1コーパスでは、ビームサーチによる強力な自己回帰モデルと同等の性能を発揮するが、復号速度は少なくとも30倍高速である。

This paper proposes a method to relax the conditional independence assumption of connectionist temporal classification (CTC)-based automatic speech recognition (ASR) models. We train a CTC-based ASR model with auxiliary CTC losses in intermediate layers in addition to the original CTC loss in the last layer. During both training and inference, each generated prediction in the intermediate layers is summed to the input of the next layer to condition the prediction of the last layer on those intermediate predictions. Our method is easy to implement and retains the merits of CTC-based ASR: a simple model architecture and fast decoding speed. We conduct experiments on three different ASR corpora. Our proposed method improves a standard CTC model significantly (e.g., more than 20 % relative word error rate reduction on the WSJ corpus) with a little computational overhead. Moreover, for the TEDLIUM2 corpus and the AISHELL-1 corpus, it achieves a comparable performance to a strong autoregressive model with beam search, but the decoding speed is at least 30 times faster.
翻訳日:2021-04-08 12:40:12 公開日:2021-04-06
# 時空間仕様を用いたマルチエージェントシステムのニューラルネットワーク制御

Neural Network-based Control for Multi-Agent Systems from Spatio-Temporal Specifications ( http://arxiv.org/abs/2104.02737v1 )

ライセンス: Link先を確認
Suhail Alsalehi, Noushin Mehdipour, Ezio Bartocci and Calin Belta(参考訳) 時空間仕様を満たすために必要なマルチエージェントネットワークシステムの制御合成問題を解くためのフレームワークを提案する。 仕様言語としてspatio-Temporal ReachとEscape Logic(STREL)を用いる。 この論理は,多エージェントチームによる公式の満足度を捉えるスムーズな定量的意味論を定義する。 本稿では,新しい量的意味論を用いて,STREL仕様の制御合成問題を最適化し,ヒューリスティック法と勾配法を組み合わせた手法を提案する。 本手法はリアルタイム実装の要件を満たしない可能性があるため,オフライン最適化の結果を用いてニューラルネットワークをトレーニングし,現在の状態における制御入力を与える機械学習技術を開発した。 通信制約下での時空間仕様を満たすために必要なロボットチームのモデルに適用し,提案手法の有効性について述べる。

We propose a framework for solving control synthesis problems for multi-agent networked systems required to satisfy spatio-temporal specifications. We use Spatio-Temporal Reach and Escape Logic (STREL) as a specification language. For this logic, we define smooth quantitative semantics, which captures the degree of satisfaction of a formula by a multi-agent team. We use the novel quantitative semantics to map control synthesis problems with STREL specifications to optimization problems and propose a combination of heuristic and gradient-based methods to solve such problems. As this method might not meet the requirements of a real-time implementation, we develop a machine learning technique that uses the results of the off-line optimizations to train a neural network that gives the control inputs at current states. We illustrate the effectiveness of the proposed framework by applying it to a model of a robotic team required to satisfy a spatial-temporal specification under communication constraints.
翻訳日:2021-04-08 12:39:22 公開日:2021-04-06
# 視覚振動トモグラフィ : 単眼映像からの内部材料特性を推定する

Visual Vibration Tomography: Estimating Interior Material Properties from Monocular Video ( http://arxiv.org/abs/2104.02735v1 )

ライセンス: Link先を確認
Berthy Feng, Alexander C. Ogren, Chiara Daraio, Katherine L. Bouman(参考訳) 物体の内部の物質特性は、人間の目には見えないが、表面で観察される動きを決定する。 本研究では,物体の表面振動の単眼映像から物体の異種材料特性を直接推定する手法を提案する。 具体的には、3次元物体全体のヤング率と密度を既知の幾何で推定する。 これらの値がオブジェクト全体にどのように変化するかの知識は、欠陥を特徴づけたり、オブジェクトが異なる環境とどのように相互作用するかをシミュレートするのに役立ちます。 従来の非破壊試験手法は、一般的に均質化された材料特性や欠陥の有無を推定し、高価で特殊な器具を使用する。 単眼映像を用いて,(1)物体のサブピクセルの動きを測定し,その動きを画像空間モードに分解し,(2)観測された画像空間モードからヤング率と密度値を直接的に推定する手法を提案する。 シミュレーションビデオと実動画の両方において,本手法が表面運動を解析することで,材料特性を画像化できることが実証された。 特に,本手法では,実高速度映像から2dドラムヘッドの見当たらない欠陥を識別できる。

An object's interior material properties, while invisible to the human eye, determine motion observed on its surface. We propose an approach that estimates heterogeneous material properties of an object directly from a monocular video of its surface vibrations. Specifically, we estimate Young's modulus and density throughout a 3D object with known geometry. Knowledge of how these values change across the object is useful for characterizing defects and simulating how the object will interact with different environments. Traditional non-destructive testing approaches, which generally estimate homogenized material properties or the presence of defects, are expensive and use specialized instruments. We propose an approach that leverages monocular video to (1) measure and object's sub-pixel motion and decompose this motion into image-space modes, and (2) directly infer spatially-varying Young's modulus and density values from the observed image-space modes. On both simulated and real videos, we demonstrate that our approach is able to image material properties simply by analyzing surface motion. In particular, our method allows us to identify unseen defects on a 2D drum head from real, high-speed video.
翻訳日:2021-04-08 12:39:09 公開日:2021-04-06
# lovasz損失を持つu-netを用いた最初の到着選択と最寄り点選択法

First arrival picking using U-net with Lovasz loss and nearest point picking method ( http://arxiv.org/abs/2104.02805v1 )

ライセンス: Link先を確認
Pengyu Yuan, Wenyi Hu, Xuqing Wu, Jiefu Chen, Hien Van Nguyen(参考訳) 地震信号処理の最初の到達ピッキング問題を解決するため,ロバストなセグメンテーションとピッキングワークフローを提案した。 従来の分類アルゴリズムとは異なり、画像分割法は入力画像と同じ大きさの予測マップを出力することで位置情報を利用することができる。 第1の到達ピッキングの精度をさらに向上させるためにパラメータフリー最寄り点ピッキングアルゴリズムを提案する。 本アルゴリズムは, 合成クリーンデータ, 合成ノイズデータ, 合成ピッキング切断データ, フィールドデータに対して試験を行う。 すべてにおいて良好に動作し、ピッキング偏差はレシーバー毎に4.8msに達する。 第1の到着ピッキング問題を輪郭検出問題として定式化する。 cite{wu2019semi}と同様に、多くのイメージセグメンテーションタスクで最先端であることが証明されたため、セグメント化の実行にはU-netを使用します。 特に、従来のクロスエントロピー損失の代わりにLovasz損失を使用して、セグメンテーション性能の向上のためにネットワークをトレーニングする。 Lovasz の損失は Jaccard index や IoU (crossed-over-union) スコアのサロゲート損失であり、セグメンテーションタスクでよく使われる指標の1つである。 ピッキング部では、隣接する受信機間の第1の到達ピックのコヒーレンスを利用するために、新しいニアポイントピッキング(npp)方式を用いる。 本モデルは,高調波雑音を伴う合成データとフィールドデータの両方で検証,検証される。 本論文の主な貢献は次のとおりである。 セグメンテーションタスクにIoUを直接最適化するためにLovasz損失を使用した。 セグメンテーション精度に関するクロスエントロピー損失の改善を試験結果により検証する。 2. セグメンテーション出力が残した欠陥を克服する最寄りのポイント選択ポスト処理法を提案した。 3. ノイズ解析を行い,ノイズ合成データとフィールドデータの両方を用いてモデル検証を行った。

We proposed a robust segmentation and picking workflow to solve the first arrival picking problem for seismic signal processing. Unlike traditional classification algorithm, image segmentation method can utilize the location information by outputting a prediction map which has the same size of the input image. A parameter-free nearest point picking algorithm is proposed to further improve the accuracy of the first arrival picking. The algorithm is test on synthetic clean data, synthetic noisy data, synthetic picking-disconnected data and field data. It performs well on all of them and the picking deviation reaches as low as 4.8ms per receiver. The first arrival picking problem is formulated as the contour detection problem. Similar to \cite{wu2019semi}, we use U-net to perform the segmentation as it is proven to be state-of-the-art in many image segmentation tasks. Particularly, a Lovasz loss instead of the traditional cross-entropy loss is used to train the network for a better segmentation performance. Lovasz loss is a surrogate loss for Jaccard index or the so-called intersection-over-un ion (IoU) score, which is often one of the most used metrics for segmentation tasks. In the picking part, we use a novel nearest point picking (NPP) method to take the advantage of the coherence of the first arrival picking among adjacent receivers. Our model is tested and validated on both synthetic and field data with harmonic noises. The main contributions of this paper are as follows: 1. Used Lovasz loss to directly optimize the IoU for segmentation task. Improvement over the cross-entropy loss with regard to the segmentation accuracy is verified by the test result. 2. Proposed a nearest point picking post processing method to overcome any defects left by the segmentation output. 3. Conducted noise analysis and verified the model with both noisy synthetic and field datasets.
翻訳日:2021-04-08 12:38:50 公開日:2021-04-06
# 顔認識における合成データの適用性について

On the Applicability of Synthetic Data for Face Recognition ( http://arxiv.org/abs/2104.02815v1 )

ライセンス: Link先を確認
Haoyu Zhang, Marcel Grimmer, Raghavendra Ramachandra, Kiran Raja, Christoph Busch(参考訳) 顔認識機構を統合したEuropean Entry/Exit Systemなど,さまざまなアプリケーションに注目が集まっている。 同時に、バイオメトリック認証の急速な進歩は、トラベラーの人種的背景による差別的扱いを阻害するために、広範なパフォーマンステストを必要とする。 しかし、国境管理の一部として収集された顔画像の使用は欧州一般データ保護法によって制限され、当初の目的以外は処理されない。 そこで本研究では,StyleGANとStyleGAN2で生成した合成顔画像を用いて,大規模テストデータの緊急欠如を補う方法を提案する。 具体的には、2つのディープラーニングベース(SER-FIQ, FaceQnet v1)と1つの標準ベース(ISO/IEC TR 29794-5)顔画像品質評価アルゴリズムを用いて、FRGCデータセットから抽出した実顔画像と比較して合成顔画像の適用性を比較する。 最後に,インポスタスコア分布とユーティリティスコア分布の分析から,スタイルガンとスタイルガン2の差が無視できないこと,さらに実際の顔画像との差も明らかにした。

Face verification has come into increasing focus in various applications including the European Entry/Exit System, which integrates face recognition mechanisms. At the same time, the rapid advancement of biometric authentication requires extensive performance tests in order to inhibit the discriminatory treatment of travellers due to their demographic background. However, the use of face images collected as part of border controls is restricted by the European General Data Protection Law to be processed for no other reason than its original purpose. Therefore, this paper investigates the suitability of synthetic face images generated with StyleGAN and StyleGAN2 to compensate for the urgent lack of publicly available large-scale test data. Specifically, two deep learning-based (SER-FIQ, FaceQnet v1) and one standard-based (ISO/IEC TR 29794-5) face image quality assessment algorithm is utilized to compare the applicability of synthetic face images compared to real face images extracted from the FRGC dataset. Finally, based on the analysis of impostor score distributions and utility score distributions, our experiments reveal negligible differences between StyleGAN vs. StyleGAN2, and further also minor discrepancies compared to real face images.
翻訳日:2021-04-08 12:38:22 公開日:2021-04-06
# 時間多重符号化開口イメージング:圧縮撮像システムのための学習符号化開口と画素露光

Time-Multiplexed Coded Aperture Imaging: Learned Coded Aperture and Pixel Exposures for Compressive Imaging Systems ( http://arxiv.org/abs/2104.02820v1 )

ライセンス: Link先を確認
Edwin Vargas, Julien N.P. Martel, Gordon Wetzstein, Henry Arguello(参考訳) Coded Apertures (CA) を用いた圧縮撮像は、深度、光場、ハイパースペクトル画像などの量を1枚のスナップショットから復元するために使用できる強力な技術である。 CAをベースとした圧縮撮像システムの性能は、マスクの減衰パターンの特性、符号化(codification)と呼ばれる性質と、符号化されたスナップショットから興味を回復するために使用される計算手法の2つに大きく依存する。 本研究では,空間的に変化する画素シャッターと同期した時間変化CAを使用する方法を提案する。 センサの露光をcaマスクが変化し、センサの画素が同時に変化し、個別に「オン」または「オフ」を切り替える部分露光に分割する。 これは、既に存在するCA以外の光学部品を導入するのではなく、電子的に容易に実現可能な画素シャッターの変更を使用するため、事実上魅力的な符号化である。 提案するtmca(time multiplexed coded aperture)をエンドツーエンドに最適化し,圧縮光電界イメージングとハイパースペクトルイメージングの2つの異なる応用において,優れた再構成を実現するためのより良い符号化スナップショットを誘導できることを実証した。 シミュレーションと実際のキャプチャ(プロトタイプで作ったもの)の両方で、このコーデレーションは、これらのアプリケーションで4dB以上の最先端の圧縮画像システムより優れていることを実証する。

Compressive imaging using coded apertures (CA) is a powerful technique that can be used to recover depth, light fields, hyperspectral images and other quantities from a single snapshot. The performance of compressive imaging systems based on CAs mostly depends on two factors: the properties of the mask's attenuation pattern, that we refer to as "codification" and the computational techniques used to recover the quantity of interest from the coded snapshot. In this work, we introduce the idea of using time-varying CAs synchronized with spatially varying pixel shutters. We divide the exposure of a sensor into sub-exposures at the beginning of which the CA mask changes and at which the sensor's pixels are simultaneously and individually switched "on" or "off". This is a practically appealing codification as it does not introduce additional optical components other than the already present CA but uses a change in the pixel shutter that can be easily realized electronically. We show that our proposed time multiplexed coded aperture (TMCA) can be optimized end-to-end and induces better coded snapshots enabling superior reconstructions in two different applications: compressive light field imaging and hyperspectral imaging. We demonstrate both in simulation and on real captures (taken with prototypes we built) that this codification outperforms the state-of-the-art compressive imaging systems by more than 4dB in those applications.
翻訳日:2021-04-08 12:37:59 公開日:2021-04-06
# 条件物理学インフォームドニューラルネットワーク

Conditional physics informed neural networks ( http://arxiv.org/abs/2104.02741v1 )

ライセンス: Link先を確認
Alexander Kovacs, Lukas Exl, Alexander Kornell, Johann Fischbacher, Markus Hovorka, Markus Gusenbauer, Leoni Breth, Harald Oezelt, Masao Yano, Noritsugu Sakuma, Akihito Kinoshita, Tetsuya Shoji, Akira Kato, Thomas Schrefl(参考訳) 固有値問題の解を推定するための条件付きPINN(物理情報ニューラルネットワーク)を導入する。 PINNの概念は、特定の微分方程式の解だけでなく、問題のクラスに対する解を学ぶために拡張される。 局所欠陥の幅と強度に依存する永久磁石の保磁力場を推定することで,この概念を実証する。 ニューラルネットワークが磁化反転の物理を組み込んだ場合、教師なしの方法でトレーニングを実現することができる。 ラベル付きトレーニングデータを生成する必要はありません。 提示されたテストケースは過去に厳格に研究されてきた。 そこで,解析解との比較を詳細に,簡便に行う。 一つのディープニューラルネットワークが、問題全体に対する偏微分方程式の解を学習できることが示される。

We introduce conditional PINNs (physics informed neural networks) for estimating the solution of classes of eigenvalue problems. The concept of PINNs is expanded to learn not only the solution of one particular differential equation but the solutions to a class of problems. We demonstrate this idea by estimating the coercive field of permanent magnets which depends on the width and strength of local defects. When the neural network incorporates the physics of magnetization reversal, training can be achieved in an unsupervised way. There is no need to generate labeled training data. The presented test cases have been rigorously studied in the past. Thus, a detailed and easy comparison with analytical solutions is made. We show that a single deep neural network can learn the solution of partial differential equations for an entire class of problems.
翻訳日:2021-04-08 12:36:17 公開日:2021-04-06
# ニューラルネットワーク近似空間のサンプリング複雑度境界によるディープラーニングにおける理論と実践ギャップの証明

Proof of the Theory-to-Practice Gap in Deep Learning via Sampling Complexity bounds for Neural Network Approximation Spaces ( http://arxiv.org/abs/2104.02746v1 )

ライセンス: Link先を確認
Philipp Grohs, Felix Voigtlaender(参考訳) ニューラルネットワークでよく近似できる関数の近似や積分のための点サンプルに基づく(決定論的あるいはランダム化された)アルゴリズムの計算複雑性について検討する。 このようなアルゴリズム(最も顕著に確率的勾配降下とその変種)はディープラーニングの分野で広く使われている。 この分野で最も重要な問題の1つは、理論的に証明可能なニューラルネットワーク近似率をそのようなアルゴリズムで実現できるかどうかに関する問題である。 ニューラルネットワーク近似空間の新たなクラスにおける近似と積分の問題に対する硬度結果の証明によって、この疑問に否定的に答える。 特に, 深層学習における理論と実践のギャップを推測し, 実証的に観察した。 我々は、同値収束の近似率が(少なくとも理論的には)達成可能であることを示すことで、硬度結果を補完する。

We study the computational complexity of (deterministic or randomized) algorithms based on point samples for approximating or integrating functions that can be well approximated by neural networks. Such algorithms (most prominently stochastic gradient descent and its variants) are used extensively in the field of deep learning. One of the most important problems in this field concerns the question of whether it is possible to realize theoretically provable neural network approximation rates by such algorithms. We answer this question in the negative by proving hardness results for the problems of approximation and integration on a novel class of neural network approximation spaces. In particular, our results confirm a conjectured and empirically observed theory-to-practice gap in deep learning. We complement our hardness results by showing that approximation rates of a comparable order of convergence are (at least theoretically) achievable.
翻訳日:2021-04-08 12:36:07 公開日:2021-04-06
# エンド・ツー・エンド ASR モデルに対する普遍的摂動の探索

Exploring Targeted Universal Adversarial Perturbations to End-to-end ASR Models ( http://arxiv.org/abs/2104.02757v1 )

ライセンス: Link先を確認
Zhiyun Lu, Wei Han, Yu Zhang, Liangliang Cao(参考訳) エンド・ツー・エンドの自動音声認識(e2e asr)モデルは広く応用されているが、逆摂動に対するモデルの頑健性を理解する研究は少ない。 本稿では,e2e ASRモデルに対して,対象の普遍摂動ベクトルが存在するかどうかを考察する。 私たちのゴールは、任意の入力発話で"thank you"や空文字列など、与えられたターゲットの書き起こしを予測するためにモデルを誤解させるような摂動を見つけることです。 本研究では,加法的および予知的摂動の2つの異なる攻撃について検討し,その性能を最先端のLAS,CTC,RNN-Tモデルで検証した。 LASは3つのモデルの中で最も脆弱な摂動であることがわかった。 RNN-Tは、特に長い発話において、加法摂動に対してより堅牢である。 CTCは加法的および予知的摂動に対して堅牢である。 RNN-Tを攻撃するためには、先行する摂動は加法摂動よりも効果的であり、任意の長さの発話に対して同じ短いターゲットを予測するためにモデルを誤解させる可能性がある。

Although end-to-end automatic speech recognition (e2e ASR) models are widely deployed in many applications, there have been very few studies to understand models' robustness against adversarial perturbations. In this paper, we explore whether a targeted universal perturbation vector exists for e2e ASR models. Our goal is to find perturbations that can mislead the models to predict the given targeted transcript such as "thank you" or empty string on any input utterance. We study two different attacks, namely additive and prepending perturbations, and their performances on the state-of-the-art LAS, CTC and RNN-T models. We find that LAS is the most vulnerable to perturbations among the three models. RNN-T is more robust against additive perturbations, especially on long utterances. And CTC is robust against both additive and prepending perturbations. To attack RNN-T, we find prepending perturbation is more effective than the additive perturbation, and can mislead the models to predict the same short target on utterances of arbitrary length.
翻訳日:2021-04-08 12:34:14 公開日:2021-04-06
# セーフ・バイ・リペア:安全でない二層格子ニューラルネットワークコントローラの修復のための凸最適化手法

Safe-by-Repair: A Convex Optimization Approach for Repairing Unsafe Two-Level Lattice Neural Network Controllers ( http://arxiv.org/abs/2104.02788v1 )

ライセンス: Link先を確認
Ulices Santa Cruz and James Ferlez and Yasser Shoukry(参考訳) 本稿では、離散時間入力アフィンシステムにおいて、データ学習されたRectified Linear Unit (ReLU) Neural Network (NN) コントローラを修復する問題を考察する。 すなわち、このようなNNコントローラが利用可能であると仮定し、検証済みの異なる状態の安全な閉ループ動作の概念を同時に保ちながら、既知の"counterexample"状態の安全でない閉ループ動作の修復を試みる。 この目的のために、nnコントローラは2レベル格子(tll)アーキテクチャを持ち、そのようなネットワークを体系的かつ効率的に修復できるアルゴリズムを示すと仮定する。 この選択によって、我々のアプローチでは、TLLアーキテクチャのユニークなセマンティクスを使用して、修復問題を2つの大きく分離されたサブプロブレムに分割します。 次に,各部分問題を解くための十分条件の組を凸実現可能性問題としてキャスティングできることを示し,tll修復問題を分離するが著しく分離された凸最適化問題として定式化できることを示した。 最後に,四輪車のシンプルな動力学的モデルを用いて,TLLコントローラ上でのアルゴリズムの評価を行った。

In this paper, we consider the problem of repairing a data-trained Rectified Linear Unit (ReLU) Neural Network (NN) controller for a discrete-time, input-affine system. That is we assume that such a NN controller is available, and we seek to repair unsafe closed-loop behavior at one known "counterexample" state while simultaneously preserving a notion of safe closed-loop behavior on a separate, verified set of states. To this end, we further assume that the NN controller has a Two-Level Lattice (TLL) architecture, and exhibit an algorithm that can systematically and efficiently repair such an network. Facilitated by this choice, our approach uses the unique semantics of the TLL architecture to divide the repair problem into two significantly decoupled sub-problems, one of which is concerned with repairing the un-safe counterexample -- and hence is essentially of local scope -- and the other of which ensures that the repairs are realized in the output of the network -- and hence is essentially of global scope. We then show that one set of sufficient conditions for solving each these sub-problems can be cast as a convex feasibility problem, and this allows us to formulate the TLL repair problem as two separate, but significantly decoupled, convex optimization problems. Finally, we evaluate our algorithm on a TLL controller on a simple dynamical model of a four-wheel-car.
翻訳日:2021-04-08 12:33:55 公開日:2021-04-06
# neumip: マルチレゾリューション神経材料

NeuMIP: Multi-Resolution Neural Materials ( http://arxiv.org/abs/2104.02789v1 )

ライセンス: Link先を確認
Alexandr Kuznetsov, Krishna Mullia, Zexiang Xu, Milo\v{s} Ha\v{s}an and Ravi Ramamoorthi(参考訳) 我々は,様々な素材の外観を様々なスケールで表現・描画するニューラルネットワークNeuMIPを提案する。 古典的なプリフィルター (mipmapping) 法は拡散色のような単純な材料特性にうまく作用するが、正常、自己シャドーイング、繊維、より複雑な微細構造や反射率に一般化できない。 本研究では、従来のミップマップピラミッドを、完全に接続されたネットワークと組み合わせて、神経テクスチャのピラミッドに一般化する。 テッセルレーションを伴わずに複雑なパララックス効果を持つ材料をレンダリングできる新しい手法であるニューラルオフセットも導入する。 これは古典的パララックス写像を一般化するが、明示的なハイフィールドの監督なしで訓練される。 システム内の神経材料は,位置,入射方向,所望のフィルタカーネルサイズを含む7次元クエリをサポートする。 素材は(より多くのテクスチャチャンネルを除いて、標準的なmipmappingの順に)小さなストレージを持ち、一般的なモンテカルロ経路追跡システムに統合することができる。 本手法は様々な材料に応用し,細部にわたって複雑な外観を呈し,正確な視差,自己シャドーイング,その他の効果を示す。

We propose NeuMIP, a neural method for representing and rendering a variety of material appearances at different scales. Classical prefiltering (mipmapping) methods work well on simple material properties such as diffuse color, but fail to generalize to normals, self-shadowing, fibers or more complex microstructures and reflectances. In this work, we generalize traditional mipmap pyramids to pyramids of neural textures, combined with a fully connected network. We also introduce neural offsets, a novel method which allows rendering materials with intricate parallax effects without any tessellation. This generalizes classical parallax mapping, but is trained without supervision by any explicit heightfield. Neural materials within our system support a 7-dimensional query, including position, incoming and outgoing direction, and the desired filter kernel size. The materials have small storage (on the order of standard mipmapping except with more texture channels), and can be integrated within common Monte-Carlo path tracing systems. We demonstrate our method on a variety of materials, resulting in complex appearance across levels of detail, with accurate parallax, self-shadowing, and other effects.
翻訳日:2021-04-08 12:33:32 公開日:2021-04-06
# 遠隔音声認識のためのマイクロホンのランク付け学習

Learning to Rank Microphones for Distant Speech Recognition ( http://arxiv.org/abs/2104.02819v1 )

ライセンス: Link先を確認
Samuele Cornell, Alessio Brutti, Marco Matassoni, Stefano Squartini(参考訳) 遠隔音声認識のためのアドホックマイクロホンネットワークの完全活用は、まだ未解決の問題である。 経験的な証拠は、最高のマイクを選べば、フロントエンド処理に余計な労力を要さずに認識が大幅に向上することを示している。 現在のチャネル選択技術は、信号、デコーダ、または後方ベースの機能に依存している。 信号に基づく機能は計算に安価だが、必ずしも認識性能と相関しない。 代わりにデコーダと後方ベースの機能はより良い相関を示すが、かなりの計算資源を必要とする。 本研究では、ニューラルネットワークがトレーニングセット上での認識性能を直接利用して、利用可能なチャネルのランク付けをトレーニングする学習用フレームワークであるMicRankを提案することにより、チャネル選択の問題に取り組む。 提案手法は,配列幾何と認識バックエンドのタイプに関して不可知である。 目的から開発した合成データセットとchime-6データを用いて,分類戦略の異なる学習方法を検討する。 結果は、提案手法が以前の選択技術よりも大幅に改善され、oracle signalベースの指標よりも性能が向上していることを示している。

Fully exploiting ad-hoc microphone networks for distant speech recognition is still an open issue. Empirical evidence shows that being able to select the best microphone leads to significant improvements in recognition without any additional effort on front-end processing. Current channel selection techniques either rely on signal, decoder or posterior-based features. Signal-based features are inexpensive to compute but do not always correlate with recognition performance. Instead decoder and posterior-based features exhibit better correlation but require substantial computational resources. In this work, we tackle the channel selection problem by proposing MicRank, a learning to rank framework where a neural network is trained to rank the available channels using directly the recognition performance on the training set. The proposed approach is agnostic with respect to the array geometry and type of recognition back-end. We investigate different learning to rank strategies using a synthetic dataset developed on purpose and the CHiME-6 data. Results show that the proposed approach is able to considerably improve over previous selection techniques, reaching comparable and in some instances better performance than oracle signal-based measures.
翻訳日:2021-04-08 12:33:11 公開日:2021-04-06
# (参考訳) STT-MRAMをカスタマイズした効率的な高性能AI加速器の設計 [全文訳有]

Designing Efficient and High-performance AI Accelerators with Customized STT-MRAM ( http://arxiv.org/abs/2104.02199v1 )

ライセンス: CC BY 4.0
Kaniz Mishty, Mehdi Sadi(参考訳) 本稿では,STT-MRAMと再構成可能なコアを備えた,効率的かつ高性能なAI/Deep Learningアクセラレータの設計を実証する。 モデル駆動の詳細な設計空間探索に基づいて,高速加速器用スクラッチパッドを用いたオンチップSTT-MRAMバッファシステムの設計手法を提案する。 STT-MRAMのボラティリティは、AIモデルウェイトとアクティベーションマップのメモリ占有時間の解析的表現を用いて、熱安定性係数のスケーリングを考慮したプロセスと温度変化によって調整され、保持時間、エネルギ、リード/ライトレイテンシ、STT-MRAMの面積を最適化する。 14nm技術における現代のAIワークロードの解析とアクセラレータ実装から,STT-MRAM STT-AIを用いて設計したAIアクセラレータの有効性を検証する。 SRAMベースの実装と比較して、STT-AIアクセラレータは、アイソ精度で75%の領域と3%の省電力を達成する。 さらに、緩和されたビットエラー率と無視可能なAI精度のトレードオフにより、設計されたSTT-AI Ultraアクセラレータは、それぞれ通常のSRAMベースのアクセラレータよりも75.4%、面積と電力の3.5%の節約を達成した。

In this paper, we demonstrate the design of efficient and high-performance AI/Deep Learning accelerators with customized STT-MRAM and a reconfigurable core. Based on model-driven detailed design space exploration, we present the design methodology of an innovative scratchpad-assisted on-chip STT-MRAM based buffer system for high-performance accelerators. Using analytically derived expression of memory occupancy time of AI model weights and activation maps, the volatility of STT-MRAM is adjusted with process and temperature variation aware scaling of thermal stability factor to optimize the retention time, energy, read/write latency, and area of STT-MRAM. From the analysis of modern AI workloads and accelerator implementation in 14nm technology, we verify the efficacy of our designed AI accelerator with STT-MRAM STT-AI. Compared to an SRAM-based implementation, the STT-AI accelerator achieves 75% area and 3% power savings at iso-accuracy. Furthermore, with a relaxed bit error rate and negligible AI accuracy trade-off, the designed STT-AI Ultra accelerator achieves 75.4%, and 3.5% savings in area and power, respectively over regular SRAM-based accelerators.
翻訳日:2021-04-07 22:39:03 公開日:2021-04-06
# (参考訳) 抽象要約における推定時間選択のための注意ヘッドマスキング [全文訳有]

Attention Head Masking for Inference Time Content Selection in Abstractive Summarization ( http://arxiv.org/abs/2104.02205v1 )

ライセンス: CC BY 4.0
Shuyang Cao and Lu Wang(参考訳) トランスフォーマーに基づく抽象要約モデルにおけるコンテンツ選択を効果的に通知する方法 そこで本研究では,エンコーダ・デコーダの注意に応用し,推定時の突出コンテンツをピンポイントする,簡便かつ効果的な注意ヘッドマスキング手法を提案する。 アテンションヘッドマスクを用いることで,エンコーダ・デコーダアテンションと要約モデルのコンテンツ選択行動の関係を明らかにすることができる。 次に、その効果を、ドメイン内とドメイン間の両方の設定に基づく3つの文書要約データセットで実証する。 重要なことは、私たちのモデルはCNN/Daily MailやNew York Timesのデータセットで最先端のモデルよりも優れています。 さらに,この推論時間マスキング手法はデータ効率も高く,全cnn/dailymailデータセットで微調整されたbartを上回るトレーニングサンプルは20%に過ぎなかった。

How can we effectively inform content selection in Transformer-based abstractive summarization models? In this work, we present a simple-yet-effective attention head masking technique, which is applied on encoder-decoder attentions to pinpoint salient content at inference time. Using attention head masking, we are able to reveal the relation between encoder-decoder attentions and content selection behaviors of summarization models. We then demonstrate its effectiveness on three document summarization datasets based on both in-domain and cross-domain settings. Importantly, our models outperform prior state-of-the-art models on CNN/Daily Mail and New York Times datasets. Moreover, our inference-time masking technique is also data-efficient, requiring only 20% of the training samples to outperform BART fine-tuned on the full CNN/DailyMail dataset.
翻訳日:2021-04-07 22:12:06 公開日:2021-04-06
# (参考訳) 医学的会話を理解する: リッチな転写、信頼スコアと情報抽出 [全文訳有]

Understanding Medical Conversations: Rich Transcription, Confidence Scores & Information Extraction ( http://arxiv.org/abs/2104.02219v1 )

ライセンス: CC BY 4.0
Hagen Soltau, Mingqiu Wang, Izhak Shafran, Laurent El Shafey(参考訳) 本稿では,Google APIとして利用可能となる医療会話から臨床関連情報を抽出するための新しいコンポーネントについて述べる。 本稿では, 話者分割, 話者ロールラベリング, 句読取, キャピタライゼーションなどのリッチな書き起こしを生成できる, 長文音声に適したトランスフォーマベースリカレントニューラルネットワークトランスデューサ(RNN-T)モデルについて述べる。 代表的なテストセットでは、RNN-Tモデルの性能を異なるエンコーダ、ユニット、ストリーミング制約と比較する。 我々のトランスフォーマーベースのストリーミングモデルは、ASRタスクで約20%のWER、ダイアリゼーションタスクで6%のWDER、期間で43%のSER、コンマで52%のSER、質問マークで43%のSER、資本化で30%のSERを実行する。 認識器の音響的特徴と語彙的特徴の両方を利用する信頼モデルと組み合わせる。 モデルはおよそ0.37 NCEで動作する。 最後に、RNN-Tに基づくタグ付けモデルについて述べる。 モデルの性能はオントロジーによって異なり、f-scores は医薬品 0.90、症状 0.76、症状 0.75、診断 0.76、治療 0.61 である。 改善の余地はまだ残っているが,本研究の結果から,これらのモデルが実用化に十分正確であることが示唆された。

In this paper, we describe novel components for extracting clinically relevant information from medical conversations which will be available as Google APIs. We describe a transformer-based Recurrent Neural Network Transducer (RNN-T) model tailored for long-form audio, which can produce rich transcriptions including speaker segmentation, speaker role labeling, punctuation and capitalization. On a representative test set, we compare performance of RNN-T models with different encoders, units and streaming constraints. Our transformer-based streaming model performs at about 20% WER on the ASR task, 6% WDER on the diarization task, 43% SER on periods, 52% SER on commas, 43% SER on question marks and 30% SER on capitalization. Our recognizer is paired with a confidence model that utilizes both acoustic and lexical features from the recognizer. The model performs at about 0.37 NCE. Finally, we describe a RNN-T based tagging model. The performance of the model depends on the ontologies, with F-scores of 0.90 for medications, 0.76 for symptoms, 0.75 for conditions, 0.76 for diagnosis, and 0.61 for treatments. While there is still room for improvement, our results suggest that these models are sufficiently accurate for practical applications.
翻訳日:2021-04-07 21:59:57 公開日:2021-04-06
# (参考訳) IoTセキュリティ: マシンラーニングを使用したIoTのボットネット検出 [全文訳有]

IoT Security: Botnet detection in IoT using Machine learning ( http://arxiv.org/abs/2104.02231v1 )

ライセンス: CC BY-SA 4.0
Satish Pokhrel, Robert Abbas, Bhulok Aryal(参考訳) IoT(Internet of Things)アプリケーションとサービスの受け入れは、IoTに対する大きな関心が高まっている。 組織は、スマートウォッチのような小さなパーソナルデバイスから、スマートグリッドのネットワーク全体、スマートマイニング、スマート製造、自動運転車など、さまざまなIoTベースのガジェットを作成し始めている。 圧倒的な量とユビキタスな存在は、サイバー攻撃やデータ盗難の可能性を秘めている。 セキュリティはIoTにおける重要な課題のひとつだと考えられている。 この研究の主目的は、IoTネットワークにおけるボットネットベースの分散サービス拒否(DDoS)攻撃の検出と緩和に機械学習アルゴリズムを使用した革新的なモデルを提案することである。 提案モデルでは,ボットの脅威に関するセキュリティ問題に対処する。 K-Nearest Neighbour (KNN)、Naive Bayesモデル、Multi-layer Perception Artificial Neural Network (MLP ANN)といった機械学習アルゴリズムを使用して、データをBoT-IoTデータセットでトレーニングするモデルを開発した。 The best algorithm were selected by a reference point based on accuracy percentage and area under the receiver operating characteristics curve (ROC AUC) score。 特徴工学とSMOTE(Synthetic minority oversampling technique)は機械学習アルゴリズム(MLA)と組み合わせられた。 クラス不均衡データセットとクラスバランスデータセットで使用される3つのアルゴリズムのパフォーマンス比較が行われた。

The acceptance of Internet of Things (IoT) applications and services has seen an enormous rise of interest in IoT. Organizations have begun to create various IoT based gadgets ranging from small personal devices such as a smart watch to a whole network of smart grid, smart mining, smart manufacturing, and autonomous driver-less vehicles. The overwhelming amount and ubiquitous presence have attracted potential hackers for cyber-attacks and data theft. Security is considered as one of the prominent challenges in IoT. The key scope of this research work is to propose an innovative model using machine learning algorithm to detect and mitigate botnet-based distributed denial of service (DDoS) attack in IoT network. Our proposed model tackles the security issue concerning the threats from bots. Different machine learning algorithms such as K- Nearest Neighbour (KNN), Naive Bayes model and Multi-layer Perception Artificial Neural Network (MLP ANN) were used to develop a model where data are trained by BoT-IoT dataset. The best algorithm was selected by a reference point based on accuracy percentage and area under the receiver operating characteristics curve (ROC AUC) score. Feature engineering and Synthetic minority oversampling technique (SMOTE) were combined with machine learning algorithms (MLAs). Performance comparison of three algorithms used was done in class imbalance dataset and on the class balanced dataset.
翻訳日:2021-04-07 21:47:54 公開日:2021-04-06
# (参考訳) テーパー付き不動点を用いた微小エッジ上のニューラルネットワークの効率的な量子化 [全文訳有]

TENT: Efficient Quantization of Neural Networks on the tiny Edge with Tapered FixEd PoiNT ( http://arxiv.org/abs/2104.02233v1 )

ライセンス: CC BY 4.0
Hamed F. Langroudi, Vedant Karia, Tej Pandit, Dhireesha Kudithipudi(参考訳) 本研究では,TinyMLモデルにおけるテープ付き固定点数値フォーマットの利点を活用するために,新しい低精度フレームワークであるTENTを提案する。 本稿では,数値フォーマットの動的範囲と分布を,各層におけるディープニューラルネットワークモデルのパラメータ分布とマッチングするテーパ付き固定点量子化アルゴリズムを提案する。 TENTフレームワークを用いたテープ付き固定点加速器アーキテクチャを提案する。 その結果,ConvNet モデルと ResNet-18 モデルでは,エネルギーオーバーヘッドが ~17-30 % となると,分類タスクの精度は ~31 % 向上することがわかった。

In this research, we propose a new low-precision framework, TENT, to leverage the benefits of a tapered fixed-point numerical format in TinyML models. We introduce a tapered fixed-point quantization algorithm that matches the numerical format's dynamic range and distribution to that of the deep neural network model's parameter distribution at each layer. An accelerator architecture for the tapered fixed-point with TENT framework is proposed. Results show that the accuracy on classification tasks improves up to ~31 % with an energy overhead of ~17-30 % as compared to fixed-point, for ConvNet and ResNet-18 models.
翻訳日:2021-04-07 21:33:59 公開日:2021-04-06
# (参考訳) hBert + BiasCorp -- Web上で人種差別と戦う [全文訳有]

hBert + BiasCorp -- Fighting Racism on the Web ( http://arxiv.org/abs/2104.02242v1 )

ライセンス: CC BY 4.0
Olawale Onabola, Zhuang Ma, Yang Xie, Benjamin Akera, Abdulrahman Ibraheem, Jia Xue, Dianbo Liu, Yoshua Bengio(参考訳) 服従と過激な人種差別は現在も物理的およびオンラインのコミュニティに存在し、社会の様々な部分における多くの生活に影響を与えている。 この短い作品の中で、自然言語処理でこの社会的な問題に取り組む方法を紹介します。 これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。 最初のバッチ(45,000の手作業による注釈付き)は公開準備が整った。 現在、Amazon Mechanical Turkを使って残りのデータセットを手動でラベル付けする最終段階です。 BERTはいくつかの下流タスクで広く使われている。 本稿では,新しいホップフィールド層を用いて事前学習した bert モデルの特定の層を変更する hbert について述べる。 hBertはモデルの複雑さを減らし、様々な分布をうまく一般化する。 また、javascriptライブラリとchrome拡張アプリケーションもリリースしています。これは、開発者がwebアプリケーション(例えばチャットアプリケーション)でトレーニングされたモデルを活用し、ユーザがそれぞれweb上の人種的に偏ったコンテンツを識別し、報告できるようにします。

Subtle and overt racism is still present both in physical and online communities today and has impacted many lives in different segments of the society. In this short piece of work, we present how we're tackling this societal issue with Natural Language Processing. We are releasing BiasCorp, a dataset containing 139,090 comments and news segment from three specific sources - Fox News, BreitbartNews and YouTube. The first batch (45,000 manually annotated) is ready for publication. We are currently in the final phase of manually labeling the remaining dataset using Amazon Mechanical Turk. BERT has been used widely in several downstream tasks. In this work, we present hBERT, where we modify certain layers of the pretrained BERT model with the new Hopfield Layer. hBert generalizes well across different distributions with the added advantage of a reduced model complexity. We are also releasing a JavaScript library and a Chrome Extension Application, to help developers make use of our trained model in web applications (say chat application) and for users to identify and report racially biased contents on the web respectively.
翻訳日:2021-04-07 21:20:31 公開日:2021-04-06
# (参考訳) 集団カウントのための注意誘導型マルチスケールコンテキストアグリゲーションネットワーク [全文訳有]

Multi-Scale Context Aggregation Network with Attention-Guided for Crowd Counting ( http://arxiv.org/abs/2104.02245v1 )

ライセンス: CC BY 4.0
Xin Wang, Yang Zhao, Tangwen Yang, Qiuqi Ruan(参考訳) 群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。 さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。 本稿では,dcam(dance context-aware module)に基づくエンコーダと階層的注意誘導デコーダからなる,クラウドカウントのための単一カラムエンコーダ-デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。 スケール変動の問題に対処するため,拡張畳み込みを様々な受容場に密結合することにより,多スケールコンテキスト情報を集約するDCAMを構築した。 提案するdcamは,その長距離受容場と密集したサンプリングにより,群集領域の豊かなコンテクスト情報を捉えることができる。 さらに,背景雑音を抑制し,高品質な密度マップを生成するため,階層的注意誘導機構をデコーダに適用した。 これにより、セマンティックアテンションモジュール(SAM)に基づいた複数の監視を導入することで、エンコーダの浅い特徴マップからより有用な空間情報を統合することができる。 広範な実験により、提案手法は他の類似の最先端手法よりも優れた性能を3つの挑戦的なベンチマークデータセットで達成できることが証明された。 コードはhttps://github.com/K ingMV/MSCANetで入手できる。

Crowd counting aims to predict the number of people and generate the density map in the image. There are many challenges, including varying head scales, the diversity of crowd distribution across images and cluttered backgrounds. In this paper, we propose a multi-scale context aggregation network (MSCANet) based on single-column encoder-decoder architecture for crowd counting, which consists of an encoder based on a dense context-aware module (DCAM) and a hierarchical attention-guided decoder. To handle the issue of scale variation, we construct the DCAM to aggregate multi-scale contextual information by densely connecting the dilated convolution with varying receptive fields. The proposed DCAM can capture rich contextual information of crowd areas due to its long-range receptive fields and dense scale sampling. Moreover, to suppress the background noise and generate a high-quality density map, we adopt a hierarchical attention-guided mechanism in the decoder. This helps to integrate more useful spatial information from shallow feature maps of the encoder by introducing multiple supervision based on semantic attention module (SAM). Extensive experiments demonstrate that the proposed approach achieves better performance than other similar state-of-the-art methods on three challenging benchmark datasets for crowd counting. The code is available at https://github.com/K ingMV/MSCANet
翻訳日:2021-04-07 21:12:03 公開日:2021-04-06
# (参考訳) 咬合境界における双面外挿による深さ補完 [全文訳有]

Depth Completion with Twin Surface Extrapolation at Occlusion Boundaries ( http://arxiv.org/abs/2104.02253v1 )

ライセンス: CC BY 4.0
Saif Imran, Xiaoming Liu and Daniel Morris(参考訳) 深さ完了は、既知の深さ値のスパースセットから始まり、残りの画像画素の未知の深さを推定する。 ほとんどの方法はこれを深度補間としてモデル化し、空間的に異なる物体の間の空の空間に深度画素を誤って補間し、閉塞境界を越えて深度スミアリングする。 本稿では,咬合境界領域において前景と背景深度の両方を明示的にモデル化するマルチハイポテーゼ深度表現を提案する。 本手法は,これらの地域では補間ではなく,2面外挿を行うと考えられる。 次に,これらの外挿した表面を画像データを利用した1つの深度画像に融合する。 この手法の鍵となるのは、新しい双曲面表現で機能する非対称損失関数の利用である。 これにより、表面補間と表面融合を同時に行うネットワークを訓練できる。 我々は損失関数を特徴付け、他の一般的な損失と比較する。 最後に,本手法を,屋外実世界のデータセットであるKITTI,屋内実世界の深度データセットであるNYU2,高密度基底構造を持つ写真リアルな合成データセットであるVirtual KITTIの3つの異なるデータセットで検証し,技術状況の改善を示す。

Depth completion starts from a sparse set of known depth values and estimates the unknown depths for the remaining image pixels. Most methods model this as depth interpolation and erroneously interpolate depth pixels into the empty space between spatially distinct objects, resulting in depth-smearing across occlusion boundaries. Here we propose a multi-hypothesis depth representation that explicitly models both foreground and background depths in the difficult occlusion-boundary regions. Our method can be thought of as performing twin-surface extrapolation, rather than interpolation, in these regions. Next our method fuses these extrapolated surfaces into a single depth image leveraging the image data. Key to our method is the use of an asymmetric loss function that operates on a novel twin-surface representation. This enables us to train a network to simultaneously do surface extrapolation and surface fusion. We characterize our loss function and compare with other common losses. Finally, we validate our method on three different datasets; KITTI, an outdoor real-world dataset, NYU2, indoor real-world depth dataset and Virtual KITTI, a photo-realistic synthetic dataset with dense groundtruth, and demonstrate improvement over the state of the art.
翻訳日:2021-04-07 21:01:11 公開日:2021-04-06
# (参考訳) 異常胸部X線写真検出のためのAIシステムVinDr-CXRの臨床的検討 [全文訳有]

A clinical validation of VinDr-CXR, an AI system for detecting abnormal chest radiographs ( http://arxiv.org/abs/2104.02256v1 )

ライセンス: CC BY 4.0
Ngoc Huy Nguyen, Ha Quy Nguyen, Nghia Trung Nguyen, Thang Viet Nguyen, Hieu Huy Pham, Tuan Ngoc-Minh Nguyen(参考訳) 人工知能(AI)を用いた胸部X線写真診断システム(CAD)は,最近,放射線学者にとって第2の意見として大きな可能性を示している。 しかしながら,これらのシステムの性能は,概ねふりかえりの方法で固定データセット上で評価され,臨床における実際のパフォーマンスとは程遠いものであった。 本研究では,ベトナム北部のフトー総合病院で,X線スキャンVinDr-CXRの異常を検出するためのAIベースのシステムを検証するメカニズムを実証する。 AIシステムは、他のソースからの固定アノテーション付きデータセットでトレーニングされた後、病院のPicture Archiving and Communication System(PACS)に直接統合された。 病院情報システム(HIS)から抽出した6,285個の胸部X線検査を2020年の最後の2カ月間,AIの結果と照合し比較することにより,システムの性能を前向きに測定した。 放射線学報告の正常/異常状態は一連の規則によって決定され、根拠となる真実として機能した。 本システムは,胸部X線異常を検出するためのF1スコアと精度0.653(95% CI 0.635, 0.671)を達成する。 インラボのパフォーマンスが大幅に低下したにもかかわらず、この結果、実生活でのシステムの適用に対する高いレベルの信頼性が確立される。

Computer-Aided Diagnosis (CAD) systems for chest radiographs using artificial intelligence (AI) have recently shown a great potential as a second opinion for radiologists. The performances of such systems, however, were mostly evaluated on a fixed dataset in a retrospective manner and, thus, far from the real performances in clinical practice. In this work, we demonstrate a mechanism for validating an AI-based system for detecting abnormalities on X-ray scans, VinDr-CXR, at the Phu Tho General Hospital{a provincial hospital in the North of Vietnam. The AI system was directly integrated into the Picture Archiving and Communication System (PACS) of the hospital after being trained on a fixed annotated dataset from other sources. The performance of the system was prospectively measured by matching and comparing the AI results with the radiology reports of 6,285 chest X-ray examinations extracted from the Hospital Information System (HIS) over the last two months of 2020. The normal/abnormal status of a radiology report was determined by a set of rules and served as the ground truth. Our system achieves an F1 score{the harmonic average of the recall and the precision{of 0.653 (95% CI 0.635, 0.671) for detecting any abnormalities on chest X-rays. Despite a significant drop from the in-lab performance, this result establishes a high level of confidence in applying such a system in real-life situations.
翻訳日:2021-04-07 20:43:14 公開日:2021-04-06
# (参考訳) マルチヒエラルキー畳み込みネットワークによる高効率リモートフォトプレチモグラフ信号と顔ビデオクリップからの心拍数推定

Multi-hierarchical Convolutional Network for Efficient Remote Photoplethysmograph Signal and Heart Rate Estimation from Face Video Clips ( http://arxiv.org/abs/2104.02260v1 )

ライセンス: CC BY 4.0
Panpan Zhang, Bin Li, Jinye Peng, Wei Jiang(参考訳) 心拍リズムと心拍数(HR)は人体の重要な生理的パラメータである。 本研究では,顔ビデオクリップから遠隔生理学信号とHRを迅速に推定できる,効率的な多階層型時空間畳み込みネットワークを提案する。 まず、低レベル顔特徴生成(LFFG)モジュールを用いて顔色分布特性を抽出する。 次に,3次元時空間スタック畳み込みモジュール(STSC)と多階層特徴融合モジュール(MHFF)を用いて,多チャンネル特徴の時空間相関を強化する。 MHFFでは、フレーム間の顔の小さな動き情報を捕捉し、関心の自己適応領域(ROI)を生成するためにスパース光学フローを用いる。 最後に、信号予測モジュール(SP)を用いて推定rPPG信号を抽出する。 3つのデータセットの実験結果から,提案したネットワークは最先端手法よりも優れていた。

Heart beat rhythm and heart rate (HR) are important physiological parameters of the human body. This study presents an efficient multi-hierarchical spatio-temporal convolutional network that can quickly estimate remote physiological (rPPG) signal and HR from face video clips. First, the facial color distribution characteristics are extracted using a low-level face feature Generation (LFFG) module. Then, the three-dimensional (3D) spatio-temporal stack convolution module (STSC) and multi-hierarchical feature fusion module (MHFF) are used to strengthen the spatio-temporal correlation of multi-channel features. In the MHFF, sparse optical flow is used to capture the tiny motion information of faces between frames and generate a self-adaptive region of interest (ROI) skin mask. Finally, the signal prediction module (SP) is used to extract the estimated rPPG signal. The experimental results on the three datasets show that the proposed network outperforms the state-of-the-art methods.
翻訳日:2021-04-07 20:29:23 公開日:2021-04-06
# (参考訳) 共同スペクトル共有のための分散深層強化学習 [全文訳有]

Distributed Deep Reinforcement Learning for Collaborative Spectrum Sharing ( http://arxiv.org/abs/2104.02059v1 )

ライセンス: CC BY 4.0
Pranav M. Pawar, Amir Leshem(参考訳) ユーザ間のスペクトル共有は、あらゆる無線ネットワークの管理において根本的な問題である。 本稿では,一般的な未知チャネル下での集中管理を伴わない分散スペクトル協調の問題について論じる。 通信・コーディネーション・制御のコストはデバイス数や帯域幅の拡大とともに急速に増大しているため、明示的なシグナリングを使わないスペクトル協調のための分散技術を開発する必要があることは明らかである。 本稿では,ゲーム理論と深層Q-ラーニングを組み合わせることで,スペクトル協調問題に対する漸近的最適解を提供する。 本稿では,DQN(Deep Q-network)を用いた決定論的分散強化学習(D3RL)機構を提案する。 Q値とチャネルロードを使用してチャンネルを選択すると同時に、ユーザが利用可能なオプションを最も高いQ値を持ついくつかのチャンネルに制限し、最もロードの少ないチャンネルを選択する。 ゲーム理論と組合せ最適化の両方の知見を用いて、この手法が大負荷ネットワークに対して漸近的に最適であることを示す。 選択したチャネルと成功した伝送結果が深層Qネットワークの学習にフィードバックされ、それをQ値の学習に組み込む。 また,異なるD3RLの挙動を理解するために性能解析を行った。

Spectrum sharing among users is a fundamental problem in the management of any wireless network. In this paper, we discuss the problem of distributed spectrum collaboration without central management under general unknown channels. Since the cost of communication, coordination and control is rapidly increasing with the number of devices and the expanding bandwidth used there is an obvious need to develop distributed techniques for spectrum collaboration where no explicit signaling is used. In this paper, we combine game-theoretic insights with deep Q-learning to provide a novel asymptotically optimal solution to the spectrum collaboration problem. We propose a deterministic distributed deep reinforcement learning(D3RL) mechanism using a deep Q-network (DQN). It chooses the channels using the Q-values and the channel loads while limiting the options available to the user to a few channels with the highest Q-values and among those, it selects the least loaded channel. Using insights from both game theory and combinatorial optimization we show that this technique is asymptotically optimal for large overloaded networks. The selected channel and the outcome of the successful transmission are fed back into the learning of the deep Q-network to incorporate it into the learning of the Q-values. We also analyzed performance to understand the behavior of D3RL in differ
翻訳日:2021-04-07 20:28:24 公開日:2021-04-06
# (参考訳) 変形可能な残差畳み込みニューラルネットワークによるSAR画像の変化検出 [全文訳有]

Change Detection from SAR Images Based on Deformable Residual Convolutional Neural Networks ( http://arxiv.org/abs/2104.02299v1 )

ライセンス: CC BY 4.0
Junjie Wang, Feng Gao, Junyu Dong(参考訳) 畳み込みニューラルネットワーク(CNN)は合成開口レーダ(SAR)画像変化検出において大きな進歩を遂げている。 しかし、従来の畳み込みカーネルのサンプリング位置は固定されており、SAR画像の実際の構造に応じて変更することはできない。 さらに、オブジェクトは自然なシーンで異なるサイズで現れるため、ネットワークはより強力なマルチスケール表現能力を持つ必要がある。 本稿では,SAR画像変化検出のために,新規な \underline{D}eformable \underline{R}esidual Convolutional Neural \underline{N}etwork (DRNet) を提案する。 まず,提案するdrnetは変形可能な畳み込みサンプリング位置を導入し,畳み込みカーネルの形状を地盤物体の実際の構造に応じて適応的に調整することができる。 変形可能なサンプリング位置を作成するために、入力画像の空間情報に応じて画素毎に2次元オフセットを算出する。 そして、画素のサンプリング位置は、入力画像の空間構造を適応的に反映することができる。 さらに,1つのプーリング層内に階層的残差様接続を構築し,粒度レベルでのマルチスケール表現能力を向上させることにより,バニラプーリングに代わる新たなプーリングモジュールを提案する。 3つの実SARデータセットの実験結果から,DRNetの有効性が示された。

Convolutional neural networks (CNN) have made great progress for synthetic aperture radar (SAR) images change detection. However, sampling locations of traditional convolutional kernels are fixed and cannot be changed according to the actual structure of the SAR images. Besides, objects may appear with different sizes in natural scenes, which requires the network to have stronger multi-scale representation ability. In this paper, a novel \underline{D}eformable \underline{R}esidual Convolutional Neural \underline{N}etwork (DRNet) is designed for SAR images change detection. First, the proposed DRNet introduces the deformable convolutional sampling locations, and the shape of convolutional kernel can be adaptively adjusted according to the actual structure of ground objects. To create the deformable sampling locations, 2-D offsets are calculated for each pixel according to the spatial information of the input images. Then the sampling location of pixels can adaptively reflect the spatial structure of the input images. Moreover, we proposed a novel pooling module replacing the vanilla pooling to utilize multi-scale information effectively, by constructing hierarchical residual-like connections within one pooling layer, which improve the multi-scale representation ability at a granular level. Experimental results on three real SAR datasets demonstrate the effectiveness of the proposed DRNet.
翻訳日:2021-04-07 20:18:09 公開日:2021-04-06
# (参考訳) 線形自己注意に基づくハイパースペクトルとLiDARデータ分類 [全文訳有]

Hyperspectral and LiDAR data classification based on linear self-attention ( http://arxiv.org/abs/2104.02301v1 )

ライセンス: CC BY 4.0
Min Feng, Feng Gao, Jian Fang, Junyu Dong(参考訳) 本稿では,高スペクトル画像(HSI)とLiDARデータ共同分類のための効率的な線形自己注意融合モデルを提案する。 提案手法は,特徴抽出モジュール,注目モジュール,および融合モジュールから構成される。 注目モジュールは、任意のモデルで広く使用できる、プラグアンドプレイの線形自己注意モジュールである。 提案したモデルはヒューストンデータセットで95.40\%の精度を達成した。 実験結果は,提案手法が他の最先端モデルよりも優れていることを示す。

An efficient linear self-attention fusion model is proposed in this paper for the task of hyperspectral image (HSI) and LiDAR data joint classification. The proposed method is comprised of a feature extraction module, an attention module, and a fusion module. The attention module is a plug-and-play linear self-attention module that can be extensively used in any model. The proposed model has achieved the overall accuracy of 95.40\% on the Houston dataset. The experimental results demonstrate the superiority of the proposed method over other state-of-the-art models.
翻訳日:2021-04-07 20:09:53 公開日:2021-04-06
# (参考訳) リガンド生化学活性のバランシング予測 [全文訳有]

Balancing Predictive Relevance of Ligand Biochemical Activities ( http://arxiv.org/abs/2104.02307v1 )

ライセンス: CC BY 4.0
Marek Pecha(参考訳) 本稿では, 生物標的に対するリガンド生化学的活性の制御に関する予測関連モデルのバランスをとる手法を提案する。 従来の教師付き機械学習技術であるSupport Vector Machinesを用いて、非校正モデルのトレーニングを行う。 残念ながら、SVMには深刻な欠点があります。 トレーニングサンプルの中では、不均衡なデータセット、アウトレーヤ、高いマルチコリニティに敏感で、あるグループを別のグループよりも優先する原因になり得る。 したがって、モデルの予測関連性のバランスをとるには追加のキャリブレーションが必要である。 このバランスをとる手法として,Platt's Scalingを提案する。 得られた結果は、ExCAPEデータベースからエクスポートされたデータセットに基づいてトレーニングされた単一ターゲットモデル上で実証された。 従来の機械技術とは異なり、決定論的解法を用いた不確実性の低減に重点を置いている。

In this paper, we present a technique for balancing predictive relevance models related to supervised modelling ligand biochemical activities to biological targets. We train uncalibrated models employing conventional supervised machine learning technique, namely Support Vector Machines. Unfortunately, SVMs have a serious drawback. They are sensitive to imbalanced datasets, outliers and high multicollinearity among training samples, which could be a cause of preferencing one group over another. Thus, an additional calibration could be required for balancing a predictive relevance of models. As a technique for this balancing, we propose the Platt's scaling. The achieved results were demonstrated on single-target models trained on datasets exported from the ExCAPE database. Unlike traditional used machine techniques, we focus on decreasing uncertainty employing deterministic solvers.
翻訳日:2021-04-07 20:04:33 公開日:2021-04-06
# (参考訳) MuSLCAT:生波形の識別音楽モデリングのためのマルチスケール多層畳み込み注意変換器 [全文訳有]

MuSLCAT: Multi-Scale Multi-Level Convolutional Attention Transformer for Discriminative Music Modeling on Raw Waveforms ( http://arxiv.org/abs/2104.02309v1 )

ライセンス: CC BY 4.0
Kai Middlebrook, Shyam Sudhakaran, David Guy Brizan(参考訳) 本研究では,時系列情報と階層情報の両方を効率的なエンドツーエンドアーキテクチャでモデル化し,波形に基づく識別的音楽ネットワークの表現能力を向上させることを目的とする。 波形記録から直接複雑な音楽タグのロバスト表現を学ぶための新しいアーキテクチャであるmuslcat(multi-scale and multi-level convolutional attention transformer)を提案する。 また,マルチスケール・マルチレベル・コンボリューショナル・アテンション・ネットワークのための MuSLCAN と呼ばれる MuSLCAT の軽量版も導入した。 MuSLCAT と MuSLCAN モデルは、フロントエンドバックエンドアーキテクチャを統合することで、複数のスケールとレベルから特徴付けられる。 フロントエンドは2つのコンボリューション型アテンションネットワークとアテンション拡張コンボリューション(AAC)ブロックを用いて、長距離依存とマルチレベル相互作用をモデル化しながら、異なる周波数範囲をターゲットにしている。 バックエンドは、セルフアテンションを組み込んで、フロントエンドから抽出したマルチスケールとレベルの特徴を動的に再分類する。 MuSLCAT と MuSLCAN の違いは、そのバックエンドコンポーネントである。 MuSLCATのバックエンドはBERTの修正版である。 MuSLCAN は単純な AAC ブロックである。 提案した MuSLCAT および MuSLCAN アーキテクチャを,音楽タグ付けとジャンル認識のための4つのベンチマークデータセット上で,最先端のネットワークと比較することによって検証する。 実験の結果, MuSLCAT と MuSLCAN は, 最先端の波形モデルと比較すると, 比較的少ないパラメータで競合する結果が得られることがわかった。

In this work, we aim to improve the expressive capacity of waveform-based discriminative music networks by modeling both sequential (temporal) and hierarchical information in an efficient end-to-end architecture. We present MuSLCAT, or Multi-scale and Multi-level Convolutional Attention Transformer, a novel architecture for learning robust representations of complex music tags directly from raw waveform recordings. We also introduce a lightweight variant of MuSLCAT called MuSLCAN, short for Multi-scale and Multi-level Convolutional Attention Network. Both MuSLCAT and MuSLCAN model features from multiple scales and levels by integrating a frontend-backend architecture. The frontend targets different frequency ranges while modeling long-range dependencies and multi-level interactions by using two convolutional attention networks with attention-augmented convolution (AAC) blocks. The backend dynamically recalibrates multi-scale and level features extracted from the frontend by incorporating self-attention. The difference between MuSLCAT and MuSLCAN is their backend components. MuSLCAT's backend is a modified version of BERT. While MuSLCAN's is a simple AAC block. We validate the proposed MuSLCAT and MuSLCAN architectures by comparing them to state-of-the-art networks on four benchmark datasets for music tagging and genre recognition. Our experiments show that MuSLCAT and MuSLCAN consistently yield competitive results when compared to state-of-the-art waveform-based models yet require considerably fewer parameters.
翻訳日:2021-04-07 19:53:49 公開日:2021-04-06
# (参考訳) SERRANT:英語文法エラー型のための構文分類器 [全文訳有]

SERRANT: a syntactic classifier for English Grammatical Error Types ( http://arxiv.org/abs/2104.02310v1 )

ライセンス: CC BY 4.0
Leshem Choshen, Matanel Orenm Dmitry Nikolaev, Omri Abend(参考訳) SERRANTは、SErClとERRANTを組み合わせた英語文法エラーの自動分類のためのシステムとコードである。 SERRANT は ERRANT のアノテーションを使って情報を提供しており、それ以外は SErCl が提供するアノテーションを使用する。

SERRANT is a system and code for automatic classification of English grammatical errors that combines SErCl and ERRANT. SERRANT uses ERRANT's annotations when they are informative and those provided by SErCl otherwise.
翻訳日:2021-04-07 19:33:46 公開日:2021-04-06
# (参考訳) 拡散マップと機械学習による神経変性パーキンソン病のドーパミントランスポーターspect画像分類 [全文訳有]

Dopamine Transporter SPECT Image Classification for Neurodegenerative Parkinsonism via Diffusion Maps and Machine Learning Classifiers ( http://arxiv.org/abs/2104.02066v1 )

ライセンス: CC BY 4.0
Jun-En Ding, Chi-Hsiang Chu, Mong-Na Lo Huang, Chien-Ching Hsu(参考訳) 神経変性性パーキンソニズムはドーパミントランスポーター単光子放射CT(DaT-SPECT)により評価できる。 画像の生成には時間がかかるが、これらの画像はサーバ間変動を示し、これまで核医学医によって視覚的に解釈されてきた。 そこで本研究では,ディフュージョンマップと機械学習分類器をベースとして,SPECT画像を正規化と異常化という2つのタイプに分類する手法を提案する。 提案手法では,N症例の3次元画像をN対距離行列でNにマッピングし,拡散マップを用いて低次元空間にトレーニングセットを埋め込む。 さらに、nystr\"omのout-of-sample拡張も使用し、新しいサンプルポイントをテストセットとしてリミットスペースに組み込んでいます。 組込み空間における試験サンプルは,LDA(Linear Discriminant Analysis)を用いたアンサンブル分類器と,25倍のクロスバリデーション結果による投票手順の2種類に分類される。 1097名のパーキンソン病進行マーカー・イニシアチブ(PPMI)データセットと630名のKaohsiung Chang Gung Memorial Hospital(KCGMH-TW)の臨床コホートを用いて本手法の有効性を実証した。 ディフュージョンマップを用いて,局所線形埋め込み(LLE),等方写像アルゴリズム(Isomap),カーネル主成分分析(Kernel PCA)という,次元縮小のための3つの代替多様体法の性能を比較する。 また,2次元および3次元cnn法を用いて結果を比較した。 拡散マップ法は, PPMIから平均98%, KCGMH-TWデータセットから平均90%の精度で, クロスバリデーションの結果は25倍になった。 トレーニングとテストサンプルの全体的な正確性と堅牢性に関して、他の3つの方法よりも優れています。

Neurodegenerative parkinsonism can be assessed by dopamine transporter single photon emission computed tomography (DaT-SPECT). Although generating images is time-consuming, these images can show interobserver variability and they have been visually interprete by nuclear medicine physicians to date. Accordingly, this study aims to provide an automatic and robust method based on Diffusion Maps and machine learning classifiers to classify the SPECT images into two types, namely Normal and Abnormal DaT-SPECT image groups. In the proposed method, the 3D images of N patients are mapped to an N by N pairwise distance matrix and training set are embedded into a low-dimensional space by using diffusion maps. Moreover, we use Nystr\"om's out-of-sample extension, which embeds new sample points as the testing set in the reduced space. Testing samples in the embedded space are then classified into two types through the ensemble classifier with Linear Discriminant Analysis (LDA) and voting procedure through twenty-five-fold cross-validation results. The feasibility of the method is demonstrated via Parkinsonism Progression Markers Initiative (PPMI) dataset of 1097 subjects and a clinical cohort from Kaohsiung Chang Gung Memorial Hospital (KCGMH-TW) of 630 patients. We compare performances using Diffusion Maps with those of three alternative manifold methods for dimension reduction, namely Locally Linear Embedding (LLE), Isomorphic Mapping Algorithm (Isomap), and Kernel Principal Component Analysis (Kernel PCA). We also compare results using through 2D and 3D CNN methods. The diffusion maps method has an average accuracy of 98% from the PPMI and 90% from the KCGMH-TW dataset with twenty-five fold cross-validation results. It outperforms the other three methods concerning the overall accuracy and the robustness in the training and testing samples.
翻訳日:2021-04-07 19:29:25 公開日:2021-04-06
# (参考訳) Kalmanフィルタの正しい使い方:ノイズ推定は最適ではない [全文訳有]

Using Kalman Filter The Right Way: Noise Estimation Is Not Optimal ( http://arxiv.org/abs/2104.02372v1 )

ライセンス: CC BY 4.0
Ido Greenberg, Shie Mannor, Netanel Yannay(参考訳) カルマンフィルタ(KF)の雑音パラメータの決定は数十年前から行われている。 ノイズ推定は誤差最小化と等価であると考えられるため,様々な条件下での騒音推定に着目する。 しかし,KFの仮定にわずかに違反しても,有効雑音を著しく修正し,タスク間の等価性を破り,ノイズ推定を極めて準最適戦略とすることを示す。 特に、標準パラメータチューニングのKFと比較して新しい学習ベースのアルゴリズムをテストする人は、基本的に最適化されたアルゴリズムと最適化されていないアルゴリズムとの不公平な比較を行う。 本稿では,kfの対称および正定値(spd)パラメータに対して,勾配に基づく最適化を効率的に適用するための手法(コレスキー分解に基づく)を提案する。 この手法の利点はレーダトラッキングとビデオトラッキングの両方で実証される。 Radar Trackingでは、非線形ニューラルネットワークベースのモデルが、KFと比較してトラッキングエラーを著しく減少させる可能性があること、また、KFが最適化されると、この削減が完全に消滅することを示す。 詳細なケーススタディを通じて、KFは非自明な設計決定を必要とすること、パラメータ最適化によりKFはこれらの決定に対してより堅牢であることを示す。

Determining the noise parameters of a Kalman Filter (KF) has been researched for decades. The research focuses on estimation of the noise under various conditions, since noise estimation is considered equivalent to errors minimization. However, we show that even a seemingly small violation of KF assumptions can significantly modify the effective noise, breaking the equivalence between the tasks and making noise estimation a highly sub-optimal strategy. In particular, whoever tests a new learning-based algorithm in comparison to a (variant of) KF with standard parameters tuning, essentially conducts an unfair comparison between an optimized algorithm and a non-optimized one. We suggest a method (based on Cholesky decomposition) to apply gradient-based optimization efficiently to the symmetric and positive-definite (SPD) parameters of KF, so that KF can be optimized similarly to common neural networks. The benefits of this method are demonstrated for both Radar tracking and video tracking. For Radar tracking we also show how a non-linear neural-network-based model can seem to reduce the tracking errors significantly compared to a KF - and how this reduction entirely vanishes once the KF is optimized. Through a detailed case-study, we also demonstrate that KF requires non-trivial design-decisions to be made, and that parameters optimization makes KF more robust to these decisions.
翻訳日:2021-04-07 19:15:57 公開日:2021-04-06
# (参考訳) Prosobeeast Prosody Annotation Tool [全文訳有]

ProsoBeast Prosody Annotation Tool ( http://arxiv.org/abs/2104.02397v1 )

ライセンス: CC BY 4.0
Branislav Gerazov and Michael Wagner(参考訳) 音声コーパスのラベル付けは、手間と時間を要するプロセスである。 prosobeastアノテーションツールは、データの韻律的なランドスケープのインタラクティブな2次元表現を提供し、その類似性に基づいて輪郭を分散させることで、このプロセスを簡単かつ加速することを目指している。 このインタラクティブマップにより、ユーザは発話を検査し、ラベル付けすることができる。 このツールは、可変オートエンコーダを含む、次元削減と特徴埋め込みのための最先端のいくつかの手法を統合している。 ユーザはこれを使用すれば、データの適切な表現を見つけることができる。 加えて、これらの方法のほとんどが確率的であるため、それぞれが無限個の異なる韻律写像を生成するのに使うことができる。 webアプリは、ユーザがアノテーションプロセスでこれらの代替表現をシームレスに切り替えることができます。 サンプルの確率的にリッチなデータセットを用いた実験では、さまざまなデータの適切な表現を見つけることができ、アノテーションとラベルの修正に役立ちます。 このツールはコミュニティが利用するためのフリーソフトウェアとしてリリースされている。

The labelling of speech corpora is a laborious and time-consuming process. The ProsoBeast Annotation Tool seeks to ease and accelerate this process by providing an interactive 2D representation of the prosodic landscape of the data, in which contours are distributed based on their similarity. This interactive map allows the user to inspect and label the utterances. The tool integrates several state-of-the-art methods for dimensionality reduction and feature embedding, including variational autoencoders. The user can use these to find a good representation for their data. In addition, as most of these methods are stochastic, each can be used to generate an unlimited number of different prosodic maps. The web app then allows the user to seamlessly switch between these alternative representations in the annotation process. Experiments with a sample prosodically rich dataset have shown that the tool manages to find good representations of varied data and is helpful both for annotation and label correction. The tool is released as free software for use by the community.
翻訳日:2021-04-07 18:54:16 公開日:2021-04-06
# (参考訳) 蓄電池応用による経済問題に対するMPCによる強化学習 [全文訳有]

MPC-based Reinforcement Learning for Economic Problems with Application to Battery Storage ( http://arxiv.org/abs/2104.02411v1 )

ライセンス: CC BY 4.0
Arash Bahari Kordabad, Wenqi Cai, Sebastien Gros(参考訳) 本稿では,(ほぼ)バンバン構造を有する最適政策をしばしば生ずる純粋経済コストによる最適制御問題に関心を寄せる。 本稿では,モデル予測制御(MPC)に基づくポリシ近似と,モデル誤差やモデル誤差の存在下でのMPC閉ループ性能の最適化に決定論的ポリシー勾配法を用いることに着目する。 政策が(ほぼ)バンバン構造を持つ場合、政策勾配法は、政策パラメータに有意義なステップを生成するのに苦労する可能性がある。 この問題に対処するため,本研究では,内部点法に基づくホモトピー戦略を提案し,学習中の方針を緩和する。 本研究では,特定の電池貯蔵問題を調査し,本手法が従来手法よりも均質で高速な学習を実現することを示す。

In this paper, we are interested in optimal control problems with purely economic costs, which often yield optimal policies having a (nearly) bang-bang structure. We focus on policy approximations based on Model Predictive Control (MPC) and the use of the deterministic policy gradient method to optimize the MPC closed-loop performance in the presence of unmodelled stochasticity or model error. When the policy has a (nearly) bang-bang structure, we observe that the policy gradient method can struggle to produce meaningful steps in the policy parameters. To tackle this issue, we propose a homotopy strategy based on the interior-point method, providing a relaxation of the policy during the learning. We investigate a specific well-known battery storage problem, and show that the proposed method delivers a homogeneous and faster learning than a classical policy gradient approach.
翻訳日:2021-04-07 18:45:41 公開日:2021-04-06
# (参考訳) 教師と教師の対面深度幻覚による顔の認識向上 [全文訳有]

Teacher-Student Adversarial Depth Hallucination to Improve Face Recognition ( http://arxiv.org/abs/2104.02424v1 )

ライセンス: CC BY 4.0
Hardik Uppal, Alireza Sepas-Moghaddam, Michael Greenspan, Ali Etemad(参考訳) 本稿では,教師・学生生成支援ネットワーク(TS-GAN)を用いて,単一のRGB画像から深度画像を生成することにより,顔認識(FR)システムの認識精度を向上させる。 未知のデータセットにまたがってうまく一般化する手法のために,我々は,アーキテクチャの2つのコンポーネント,教師と学生を設計した。 教師は、ジェネレータと判別器で構成されており、入力RGBとペア深度画像との潜時マッピングを教師付き方式で学習する。 2つのジェネレータ(1つは教師と共有)と識別器から構成される学生は、ペア深度情報のない新しいRGBデータから学習し、一般化を改善する。 完全にトレーニングされた共有ジェネレータは実行時に使用でき、顔認識などの下流アプリケーションのためにRGBからの奥行きを幻覚することができる。 我々は,合成深度画像の生成において,TS-GANが他の手法よりも優れていることを示す厳密な実験を行った。 さらに、顔認識実験により、入力されたRGB画像と共に、平均値+1.2%、+2.6%、+2.6%のIIIT-D、EURECOM、LFWデータセットに対して、1つのRGBモダリティと比較して、私達の幻覚深度が様々なアーキテクチャで性能を高めることが示された。

We present the Teacher-Student Generative Adversarial Network (TS-GAN) to generate depth images from a single RGB image in order to boost the recognition accuracy of face recognition (FR) systems. For our method to generalize well across unseen datasets, we design two components in the architecture, a teacher and a student. The teacher, which itself consists of a generator and a discriminator, learns a latent mapping between input RGB and paired depth images in a supervised fashion. The student, which consists of two generators (one shared with the teacher) and a discriminator, learns from new RGB data with no available paired depth information, for improved generalization. The fully trained shared generator can then be used in runtime to hallucinate depth from RGB for downstream applications such as face recognition. We perform rigorous experiments to show the superiority of TS-GAN over other methods in generating synthetic depth images. Moreover, face recognition experiments demonstrate that our hallucinated depth along with the input RGB images boosts performance across various architectures when compared to a single RGB modality by average values of +1.2%, +2.6%, and +2.6% for IIIT-D, EURECOM, and LFW datasets respectively.
翻訳日:2021-04-07 18:35:18 公開日:2021-04-06
# (参考訳) the duo of artificial intelligence and big data forindustry 4.0: review of applications, techniques, challenges and future research directions

The Duo of Artificial Intelligence and Big Data forIndustry 4.0: Review of Applications, Techniques,Challenge s, and Future Research Directions ( http://arxiv.org/abs/2104.02425v1 )

ライセンス: CC BY 4.0
Senthil Kumar Jagatheesaperuma, Mohamed Rahouti, Kashif Ahmad, Mohsen Guizani, Ala Al-Fuqaha(参考訳) 経済、安全、持続可能なスマート製造の必要性の高まりと、新しいテクノロジーの実現者が組み合わさって、人工知能(ai)とビッグデータがスマート製造をサポートする道を切り開いた。 これは、AI、Industrial Internet of Things(IIoT)、ロボティクス、ビッグデータ、ブロックチェーン、5G通信の相当な統合が、スマート製造と現代産業の動的プロセスをサポートすることを意味する。 本稿では,AI とビッグデータの産業 4.0 のさまざまな側面を包括的に概観し,重要なアプリケーション,技術,関連する概念,重要な実現技術,課題,産業 5.0 の展開に向けた研究の視点に焦点をあてる。 詳細は、AIとビッグデータのデュオが、Industrial 4.0の異なるアプリケーションでどのように役立つかを強調し、分析する。 また、スマート産業におけるaiとビッグデータメソッドの展開の成功における重要な課題として、アベイラビリティ、バイアス、監査、管理、解釈可能性、コミュニケーション、さまざまな敵の攻撃やセキュリティ問題といったデータ関連の問題に特に重点を置いています。 簡単に言うと、私たちはパノラマレビューと議論を通じて、産業4.0アプリケーションに対するAIとビッグデータの重要性を調査しました。 我々は、この研究が将来の研究のベースラインとなると信じている。

The increasing need for economic, safe, and sustainable smart manufacturing combined with novel technological enablers, has paved the way for Artificial Intelligence (AI) and Big Data in support of smart manufacturing. This implies a substantial integration of AI, Industrial Internet of Things (IIoT), Robotics, Big data, Blockchain, 5G communications, in support of smart manufacturing and the dynamical processes in modern industries. In this paper, we provide a comprehensive overview of different aspects of AI and Big Data in Industry 4.0 with a particular focus on key applications, techniques, the concepts involved, key enabling technologies, challenges, and research perspective towards deployment of Industry 5.0. In detail, we highlight and analyze how the duo of AI and Big Data is helping in different applications of Industry 4.0. We also highlight key challenges in a successful deployment of AI and Big Data methods in smart industries with a particular emphasis on data-related issues, such as availability, bias, auditing, management, interpretability, communication, and different adversarial attacks and security issues. In a nutshell, we have explored the significance of AI and Big data towards Industry 4.0 applications through panoramic reviews and discussions. We believe, this work will provide a baseline for future research in the domain.
翻訳日:2021-04-07 18:20:45 公開日:2021-04-06
# (参考訳) PDE一般化のための潜在空間解法 [全文訳有]

A Latent space solver for PDE generalization ( http://arxiv.org/abs/2104.02452v1 )

ライセンス: CC BY 4.0
Rishikesh Ranade, Chris Hill, Haiyang He, Amir Maleki, Jay Pathak(参考訳) 本研究では、潜在空間における偏微分方程式(PDE)を解くためのハイブリッド解法を提案する。 解法は、反復推論戦略と解の初期化を組み合わせてPDE解の一般化を改善する。 この解法は工学的なケースでテストされ、その結果、いくつかのPDE条件によく当てはまることを示した。

In this work we propose a hybrid solver to solve partial differential equation (PDE)s in the latent space. The solver uses an iterative inferencing strategy combined with solution initialization to improve generalization of PDE solutions. The solver is tested on an engineering case and the results show that it can generalize well to several PDE conditions.
翻訳日:2021-04-07 18:19:27 公開日:2021-04-06
# (参考訳) 機械学習における形式的手法の検討

A Review of Formal Methods applied to Machine Learning ( http://arxiv.org/abs/2104.02466v1 )

ライセンス: CC BY 4.0
Caterina Urban and Antoine Min\'e(参考訳) 本稿では,機械学習システム検証の新たな分野に適用する,最先端の形式的手法について検討する。 形式的手法はハードウェアやソフトウェアシステムに対して厳密な正当性を保証する。 成熟したツールが利用可能になったことにより、業界では十分に確立されており、特に、厳格な認証プロセスの実施に伴って、安全クリティカルなアプリケーションをチェックするために利用されています。 機械学習が普及するにつれて、機械学習コンポーネントが重要なシステムに組み込まれると考えられている。 これは、彼らの安全と検証に関する疑問を提起する。 しかし、確立された形式的手法は古典に限られている。 非機械学習ソフトウェア。 機械学習を含むシステムを検証するフォーマルな方法の適用は、最近のみ検討され、音質、精度、スケーラビリティに新たな課題を提起している。 我々はまず,高レベルなスケーラビリティを提供するための抽象的解釈に基づく手法に焦点をあてた,安全クリティカルな分野であるavionic softwareにおいて確立された形式的手法とその使用を思い起こさせた。 これはゴールデンスタンダードを提供し、機械学習の検証に高い期待を抱かせる。 次に、機械学習のためにこれまでに開発された形式的手法を包括的かつ詳細にレビューし、その強みと限界を強調します。 その多くはトレーニングされたニューラルネットワークを検証し、smt、最適化、抽象的な解釈技術を使用している。 また、ベクターマシンや決定木アンサンブルをサポートする手法や、機械学習の重要だがしばしば無視される側面であるトレーニングやデータ準備を対象とする手法についても論じる。 最後に,機械学習システムの形式的検証に向けた今後の研究の方向性について述べる。

We review state-of-the-art formal methods applied to the emerging field of the verification of machine learning systems. Formal methods can provide rigorous correctness guarantees on hardware and software systems. Thanks to the availability of mature tools, their use is well established in the industry, and in particular to check safety-critical applications as they undergo a stringent certification process. As machine learning is becoming more popular, machine-learned components are now considered for inclusion in critical systems. This raises the question of their safety and their verification. Yet, established formal methods are limited to classic, i.e. non machine-learned software. Applying formal methods to verify systems that include machine learning has only been considered recently and poses novel challenges in soundness, precision, and scalability. We first recall established formal methods and their current use in an exemplar safety-critical field, avionic software, with a focus on abstract interpretation based techniques as they provide a high level of scalability. This provides a golden standard and sets high expectations for machine learning verification. We then provide a comprehensive and detailed review of the formal methods developed so far for machine learning, highlighting their strengths and limitations. The large majority of them verify trained neural networks and employ either SMT, optimization, or abstract interpretation techniques. We also discuss methods for support vector machines and decision tree ensembles, as well as methods targeting training and data preparation, which are critical but often neglected aspects of machine learning. Finally, we offer perspectives for future research directions towards the formal verification of machine learning systems.
翻訳日:2021-04-07 18:12:26 公開日:2021-04-06
# (参考訳) OodGAN: ドメイン外データ生成のためのジェネレータネットワーク [全文訳有]

OodGAN: Generative Adversarial Network for Out-of-Domain Data Generation ( http://arxiv.org/abs/2104.02484v1 )

ライセンス: CC BY 4.0
Petr Marek, Vishal Ishwar Naik, Vincent Auvray, Anuj Goyal(参考訳) 堅牢なダイアログシステムでは,OOD(Out-of-Domain)発話の検出が重要である。 ほとんどのダイアログシステムは、この目標を達成するために注釈付きOODデータのプールで訓練されている。 しかし、あるドメインに対して注釈付きOODデータを収集するのは、高価なプロセスである。 この問題を軽減するため、従来の研究では、任意のドメインに対してOODデータを自動的に生成するGANベースのモデルが提案されている。 しかし、これらのモデルはテキストと直接的に連携しない。 代わりに、テキストの潜在空間で動作し、これらのモデルに潜在空間にテキストをエンコードし、オートエンコーダのようなデコードするコンポーネントを含むよう強制する。 これらのコンポーネントはモデルの複雑さを高め、トレーニングが困難になる。 我々は,OODデータ生成のための逐次生成逆数ネットワーク(SeqGAN)モデルであるOodGANを提案する。 提案するモデルはテキスト上で直接動作するので,自動エンコーダを組み込む必要がなくなる。 OodGANモデルを用いて生成されたOODデータは、ROSTD(FPR 0.95の67%の相対的な改善)とOSQデータセット(FPR 0.95の28%の相対的な改善)のOOD検出指標における最先端のOOD検出指標よりも優れています(Zheng et al., 2020)。

Detecting an Out-of-Domain (OOD) utterance is crucial for a robust dialog system. Most dialog systems are trained on a pool of annotated OOD data to achieve this goal. However, collecting the annotated OOD data for a given domain is an expensive process. To mitigate this issue, previous works have proposed generative adversarial networks (GAN) based models to generate OOD data for a given domain automatically. However, these proposed models do not work directly with the text. They work with the text's latent space instead, enforcing these models to include components responsible for encoding text into latent space and decoding it back, such as auto-encoder. These components increase the model complexity, making it difficult to train. We propose OodGAN, a sequential generative adversarial network (SeqGAN) based model for OOD data generation. Our proposed model works directly on the text and hence eliminates the need to include an auto-encoder. OOD data generated using OodGAN model outperforms state-of-the-art in OOD detection metrics for ROSTD (67% relative improvement in FPR 0.95) and OSQ datasets (28% relative improvement in FPR 0.95) (Zheng et al., 2020).
翻訳日:2021-04-07 18:11:07 公開日:2021-04-06
# (参考訳) AI4D -- アフリカ言語プログラム [全文訳有]

AI4D -- African Language Program ( http://arxiv.org/abs/2104.02516v1 )

ライセンス: CC BY 4.0
Kathleen Siminyu, Godson Kalipe, Davor Orlic, Jade Abbott, Vukosi Marivate, Sackey Freshia, Prateek Sibal, Bhanu Neupane, David I. Adelani, Amelia Taylor, Jamiil Toure ALI, Kevin Degila, Momboladji Balogoun, Thierno Ibrahima DIOP, Davis David, Chayma Fourati, Hatem Haddad, Malek Naski(参考訳) 音声と言語技術の進歩は、音声検索、テキスト音声、音声認識、機械翻訳などのツールを可能にする。 しかし、これらは英語、フランス語、中国語のような高資源言語でしか利用できない。 デジタルの文脈で低リソースと見なされるアフリカ言語の基本的なデジタルリソースがなければ、これらの先進的なツールは手に入らないままである。 本研究は,1)クラウドソーシング,収集,キュレーションをオンラインの量的・質的課題を通じて実施する3部プロジェクトであるai4d-アフリカ言語プログラム,2)nlpタスク用にアノテーション付きデータセットを作成するための3~4ヶ月間の研究フェローの支援,3)これらのデータセットに基づいて機械学習課題をホストする3部プロジェクトについて詳述する。 これまでの作業の主な成果は、1)9以上のオープンソースの作成、2)さまざまなMLタスクにアノテートされたアフリカの言語データセット、2)競合するML課題のホスティングを通じて、これらのデータセットのベースラインモデルの作成である。

Advances in speech and language technologies enable tools such as voice-search, text-to-speech, speech recognition and machine translation. These are however only available for high resource languages like English, French or Chinese. Without foundational digital resources for African languages, which are considered low-resource in the digital context, these advanced tools remain out of reach. This work details the AI4D - African Language Program, a 3-part project that 1) incentivised the crowd-sourcing, collection and curation of language datasets through an online quantitative and qualitative challenge, 2) supported research fellows for a period of 3-4 months to create datasets annotated for NLP tasks, and 3) hosted competitive Machine Learning challenges on the basis of these datasets. Key outcomes of the work so far include 1) the creation of 9+ open source, African language datasets annotated for a variety of ML tasks, and 2) the creation of baseline models for these datasets through hosting of competitive ML challenges.
翻訳日:2021-04-07 18:02:50 公開日:2021-04-06
# (参考訳) 構音障害における最適なトランスポート適応 [全文訳有]

Optimal Transport-based Adaptation in Dysarthric Speech Tasks ( http://arxiv.org/abs/2104.02535v1 )

ライセンス: CC BY 4.0
Rosanna Turrisi and Leonardo Badino(参考訳) 多くの現実世界のアプリケーションでは、トレーニングデータ(ソース)とテストデータ(ターゲット)の分布のミスマッチは、機械学習アルゴリズムのパフォーマンスを著しく低下させる。 音声データでは、このミスマッチの原因には異なる音響環境や話者特性が含まれる。 本稿では,マルチソースドメイン/話者適応(MSDA/MSSA)を用いて,変形性音声の難解な文脈でこの問題に対処する。 具体的には,MSDA-WDJOT (Weighted Joint Optimal Transport) を用いた最適輸送方式を提案する。 本稿では,提案手法がベースラインモデルと最先端MSDAモデルの両方より優れており,最高の競合法よりも0.9%の精度で検出精度が向上する難聴検出におけるミスマッチ問題に直面する。 次に,MSDA-WJDOTを音声コマンド認識における変形性話者適応に用いる。 これにより、ベースラインと最高の競合モデルに対して、コマンドエラー率の相対的な削減がそれぞれ16%と7%になる。 興味深いことに、MSDA-WJDOTはソースとターゲットの類似点を提供する。 この場合の話者間の関係です この類似度を用いて,対象話者のDysarthric and Healthyスコアを定義し,95%の精度で変形を診断する。

In many real-world applications, the mismatch between distributions of training data (source) and test data (target) significantly degrades the performance of machine learning algorithms. In speech data, causes of this mismatch include different acoustic environments or speaker characteristics. In this paper, we address this issue in the challenging context of dysarthric speech, by multi-source domain/speaker adaptation (MSDA/MSSA). Specifically, we propose the use of an optimal-transport based approach, called MSDA via Weighted Joint Optimal Transport (MSDA-WDJOT). We confront the mismatch problem in dysarthria detection for which the proposed approach outperforms both the Baseline and the state-of-the-art MSDA models, improving the detection accuracy of 0.9% over the best competitor method. We then employ MSDA-WJDOT for dysarthric speaker adaptation in command speech recognition. This provides a Command Error Rate relative reduction of 16% and 7% over the baseline and the best competitor model, respectively. Interestingly, MSDA-WJDOT provides a similarity score between the source and the target, i.e. between speakers in this case. We leverage this similarity measure to define a Dysarthric and Healthy score of the target speaker and diagnose the dysarthria with an accuracy of 95%.
翻訳日:2021-04-07 17:52:55 公開日:2021-04-06
# (参考訳) ニューロモルフィックステレオビジョンセットアップを用いたリアルタイム刺激の瞬時ステレオ深さ推定 [全文訳有]

Instantaneous Stereo Depth Estimation of Real-World Stimuli with a Neuromorphic Stereo-Vision Setup ( http://arxiv.org/abs/2104.02541v1 )

ライセンス: CC BY 4.0
Nicoletta Risi, Enrico Calabrese, Giacomo Indiveri(参考訳) 2つの異なる視点で対応する特徴をマッチングして深度を再構築するステレオマッチング問題は、生物学において効率的に解決される。 しかし、古典的マシンビジョンアプローチの計算ボトルネックは依然として残っている。 イベントカメラの特性を活用することで、最近提案されたステレオビジョンのためのスパイキングニューラルネットワーク(SNN)アーキテクチャは、ステレオマッチング問題を単純化する可能性がある。 イベントカメラとスパイクベースのニューロモルフィックプロセッサを組み合わせるソリューションはすでにいくつか存在する。 しかし、それらはデジタルハードウェア上でシミュレートされるか、単純な刺激でテストされる。 本研究では,dhp19(dynamic vision sensor 3d human pose dataset)を用いて,脳にインスパイアされたイベントベースのステレオマッチングアーキテクチャを,複合信号型ニューロモルフィックプロセッサと実世界データで検証する。 実験の結果,このSNNアーキテクチャは偶然検出器と不均質感応ニューロンで構成されており,入力不均質の粗い推定を瞬時に行うことができ,リアルタイムに深度に移動する刺激の存在を検出することができることがわかった。

The stereo-matching problem, i.e., matching corresponding features in two different views to reconstruct depth, is efficiently solved in biology. Yet, it remains the computational bottleneck for classical machine vision approaches. By exploiting the properties of event cameras, recently proposed Spiking Neural Network (SNN) architectures for stereo vision have the potential of simplifying the stereo-matching problem. Several solutions that combine event cameras with spike-based neuromorphic processors already exist. However, they are either simulated on digital hardware or tested on simplified stimuli. In this work, we use the Dynamic Vision Sensor 3D Human Pose Dataset (DHP19) to validate a brain-inspired event-based stereo-matching architecture implemented on a mixed-signal neuromorphic processor with real-world data. Our experiments show that this SNN architecture, composed of coincidence detectors and disparity sensitive neurons, is able to provide a coarse estimate of the input disparity instantaneously, thereby detecting the presence of a stimulus moving in depth in real-time.
翻訳日:2021-04-07 17:39:47 公開日:2021-04-06
# (参考訳) EasyCall corpus: 変形性音声データセット [全文訳有]

EasyCall corpus: a dysarthric speech dataset ( http://arxiv.org/abs/2104.02542v1 )

ライセンス: CC BY 4.0
Rosanna Turrisi, Arianna Braccia, Marco Emanuele, Simone Giulietti, Maura Pugliatti, Mariachiara Sensi, Luciano Fadiga, Leonardo Badino(参考訳) 本稿では,イタリア語の音声コマンドデータセットであるeasycall corpusを提案する。 データセットは、24人の健常者と31人の健常者による21386の音声録音から成り、その個々の発話障害の程度は、治療結果尺度を通じて神経科医によって評価された。 このコーパスは、変形性関節症患者のためのASRベースの補助技術開発のためのリソースを提供することを目的としている。 特に,患者が家族や介護者とコミュニケーションする能力を向上させることを目的とした,商用スマートフォン用音声制御コンタクトアプリケーションの開発に利用することができる。 データセットを記録する前に、参加者は音声コントロールされた接触アプリケーションにおいて、どのコマンドが変形性個人によって採用されるかを評価する調査を行った。 さらにデータセットには、より堅牢なコマンド認識システムを構築するために活用できる、非コマンドのリスト(例えば、コマンドの近傍/内側またはコマンドに近い単語)が含まれている。 本報告では,現在市販のASRシステムにおいて,EasyCall Corpusでは性能が劣っていることを報告する。 この結果は、効果的な補助技術を開発するために、調音性音声コーパスの必要性を裏付けるものである。 我々の知る限りでは、このデータベースは今までで最も豊かな変形性音声コーパスを表している。

This paper introduces a new dysarthric speech command dataset in Italian, called EasyCall corpus. The dataset consists of 21386 audio recordings from 24 healthy and 31 dysarthric speakers, whose individual degree of speech impairment was assessed by neurologists through the Therapy Outcome Measure. The corpus aims at providing a resource for the development of ASR-based assistive technologies for patients with dysarthria. In particular, it may be exploited to develop a voice-controlled contact application for commercial smartphones, aiming at improving dysarthric patients' ability to communicate with their family and caregivers. Before recording the dataset, participants were administered a survey to evaluate which commands are more likely to be employed by dysarthric individuals in a voice-controlled contact application. In addition, the dataset includes a list of non-commands (i.e., words near/inside commands or phonetically close to commands) that can be leveraged to build a more robust command recognition system. At present commercial ASR systems perform poorly on the EasyCall Corpus as we report in this paper. This result corroborates the need for dysarthric speech corpora for developing effective assistive technologies. To the best of our knowledge, this database represents the richest corpus of dysarthric speech to date.
翻訳日:2021-04-07 17:28:32 公開日:2021-04-06
# (参考訳) 画像分類作業における畳み込みニューラルネットワーク記述のための白色箱法

White Box Methods for Explanations of Convolutional Neural Networks in Image Classification Tasks ( http://arxiv.org/abs/2104.02548v1 )

ライセンス: CC BY 4.0
Meghna P Ayyar, Jenny Benois-Pineau, Akka Zemmari(参考訳) 近年、複数のドメインからアプリケーションを解くためにディープラーニングが普及している。 畳み込みニューラルネットワーク(CNN)は特に、画像分類のタスクにおける技術性能の状態を実証している。 しかし、これらのネットワークによる決定は透明ではなく、人間が直接解釈することはできない。 ネットワークによる予測の背後にある推論を理解するために、いくつかのアプローチが提案されている。 本稿では,これらの手法を仮定と実装に基づいてグループ化するトポロジを提案する。 我々は、ネットワークの内部アーキテクチャの情報を利用してその決定を説明するホワイトボックスメソッドに重点を置いている。 画像分類と訓練されたcnnのタスクを考えると、本研究の目的は、ネットワークの決定への貢献に基づいて画像の各ピクセルに重要スコアを割り当てる、特定の画像の説明マップを作成するのに使用できる一連の方法の包括的かつ詳細な概要を提供することである。 また、より優れた比較を可能にするための実装に基づくホワイトボックス手法のさらなる分類を提案し、研究者が様々なシナリオに最適な方法を見つける手助けをする。

In recent years, deep learning has become prevalent to solve applications from multiple domains. Convolutional Neural Networks (CNNs) particularly have demonstrated state of the art performance for the task of image classification. However, the decisions made by these networks are not transparent and cannot be directly interpreted by a human. Several approaches have been proposed to explain to understand the reasoning behind a prediction made by a network. In this paper, we propose a topology of grouping these methods based on their assumptions and implementations. We focus primarily on white box methods that leverage the information of the internal architecture of a network to explain its decision. Given the task of image classification and a trained CNN, this work aims to provide a comprehensive and detailed overview of a set of methods that can be used to create explanation maps for a particular image, that assign an importance score to each pixel of the image based on its contribution to the decision of the network. We also propose a further classification of the white box methods based on their implementations to enable better comparisons and help researchers find methods best suited for different scenarios.
翻訳日:2021-04-07 17:20:57 公開日:2021-04-06
# (参考訳) 掘削に先立つ複雑な地質予測のための深層学習 [全文訳有]

Deep learning for prediction of complex geology ahead of drilling ( http://arxiv.org/abs/2104.02550v1 )

ライセンス: CC BY 4.0
Kristian Fossum, Sergey Alyaev, Jan Tveranger, Ahmed Elsheikh(参考訳) ジオステアリング動作中、掘削中に取得した新データに応じて井戸経路を故意に調整する。 特に複雑な環境で掘削する場合、一貫性のある高品質な意思決定を実現するために、意思決定支援システムは大量のデータと解釈の複雑さに対処するのに役立つ。 彼らはリアルタイム測定を確率的地球モデルに同化し、最新のモデルを使って意思決定の推奨を行うことができる。 近年、機械学習(ML)技術は、オンラインからオフラインまで計算コストを再分配する幅広い手法を可能にしている。 本稿では,ジオステアリング決定支援フレームワークに2つのML手法を導入する。 まず、GAN(Generative Adversarial Network)を用いて複雑な地球モデル表現を生成する。 次に、商用の深部電磁シミュレータをフォワードディープニューラルネットワーク(FDNN)を用いて表現する。 数値実験により、アンサンブルランダム化された最大可能性データ同化スキームにおけるGANとFDNNの組み合わせは、複雑な地質的不確かさをリアルタイムに推定することを示した。 これにより、坑井の背後および周辺で収集された測定からドリルビットよりも先に地質学的不確実性が減少する。

During a geosteering operation the well path is intentionally adjusted in response to the new data acquired while drilling. To achieve consistent high-quality decisions, especially when drilling in complex environments, decision support systems can help cope with high volumes of data and interpretation complexities. They can assimilate the real-time measurements into a probabilistic earth model and use the updated model for decision recommendations. Recently, machine learning (ML) techniques have enabled a wide range of methods that redistribute computational cost from on-line to off-line calculations. In this paper, we introduce two ML techniques into the geosteering decision support framework. Firstly, a complex earth model representation is generated using a Generative Adversarial Network (GAN). Secondly, a commercial extra-deep electromagnetic simulator is represented using a Forward Deep Neural Network (FDNN). The numerical experiments demonstrate that the combination of the GAN and the FDNN in an ensemble randomized maximum likelihood data assimilation scheme provides real-time estimates of complex geological uncertainty. This yields reduction of geological uncertainty ahead of the drill-bit from the measurements gathered behind and around the well bore.
翻訳日:2021-04-07 17:19:55 公開日:2021-04-06
# (参考訳) フーリエ画像変換器 [全文訳有]

Fourier Image Transformer ( http://arxiv.org/abs/2104.02555v1 )

ライセンス: CC BY-SA 4.0
Tim-Oliver Buchholz and Florian Jug(参考訳) トランスフォーマーアーキテクチャは、NLPタスクで顕著なパフォーマンスを示し、最近では画像補完や画像分類などのタスクにも使われている。 ここでは,全列の接頭辞が解像度の低下で全画像を記述する逐次画像表現を用いることを提案する。 このようなフーリエ領域符号化(fdes)を用いることで、低解像度入力による高分解能出力の予測と自己回帰画像補完タスクが等価となる。 さらに,エンコーダ・デコーダの設定により,フーリエ領域の観測結果に対して任意のフーリエ係数を問い合わせることができることを示す。 CT画像再構成における本手法の実用性について述べる。 要約すると、Fourier Image Transformer(FIT)は、畳み込みアーキテクチャに本質的にアクセスできない領域であるフーリエ空間における関連する画像解析タスクを解くのに利用できる。

Transformer architectures show spectacular performance on NLP tasks and have recently also been used for tasks such as image completion or image classification. Here we propose to use a sequential image representation, where each prefix of the complete sequence describes the whole image at reduced resolution. Using such Fourier Domain Encodings (FDEs), an auto-regressive image completion task is equivalent to predicting a higher resolution output given a low-resolution input. Additionally, we show that an encoder-decoder setup can be used to query arbitrary Fourier coefficients given a set of Fourier domain observations. We demonstrate the practicality of this approach in the context of computed tomography (CT) image reconstruction. In summary, we show that Fourier Image Transformer (FIT) can be used to solve relevant image analysis tasks in Fourier space, a domain inherently inaccessible to convolutional architectures.
翻訳日:2021-04-07 17:08:01 公開日:2021-04-06
# (参考訳) チャネル間相関のモデル化による話者埋め込み [全文訳有]

Speaker embeddings by modeling channel-wise correlations ( http://arxiv.org/abs/2104.02571v1 )

ライセンス: CC BY 4.0
Themos Stafylakis, Johan Rohdin, Lukas Burget(参考訳) ディープ2次元畳み込みニューラルネットワークで抽出された話者埋め込みは、時間軸に沿った平均または減衰プーリングを用いて、チャネル周波数対の1次および2次統計の線形層への投影としてモデル化される。 本稿では,与えられた周波数のチャネル間の対相関を統計として用いる別のプーリング手法について検討する。 本手法はコンピュータビジョンにおけるスタイル転送方式に着想を得て,チャネル関係の行列でモデル化された画像のスタイルを別の画像に転送することで,第1のスタイルと第2のコンテンツとを新たに生成する。 画像スタイルと話者特性, 画像内容と音素シーケンスの類似を描画することにより, ResNetアーキテクチャをエンドツーエンドで訓練するためのチャネルワイズ相関機能の利用について検討する。 voxcelebの実験により,提案法が話者認識に有効であることを示す。

Speaker embeddings extracted with deep 2D convolutional neural networks are typically modeled as projections of first and second order statistics of channel-frequency pairs onto a linear layer, using either average or attentive pooling along the time axis. In this paper we examine an alternative pooling method, where pairwise correlations between channels for given frequencies are used as statistics. The method is inspired by style-transfer methods in computer vision, where the style of an image, modeled by the matrix of channel-wise correlations, is transferred to another image, in order to produce a new image having the style of the first and the content of the second. By drawing analogies between image style and speaker characteristics, and between image content and phonetic sequence, we explore the use of such channel-wise correlations features to train a ResNet architecture in an end-to-end fashion. Our experiments on VoxCeleb demonstrate the effectiveness of the proposed pooling method in speaker recognition.
翻訳日:2021-04-07 16:51:28 公開日:2021-04-06
# (参考訳) 分散最適化のための時変グラフ上の加速度勾配追跡

Accelerated Gradient Tracking over Time-varying Graphs for Decentralized Optimization ( http://arxiv.org/abs/2104.02596v1 )

ライセンス: CC BY 4.0
Huan Li and Zhouchen Lin(参考訳) 時間変動グラフに対する分散最適化は、フェデレーション学習など、数百万のモバイルデバイスに格納された大量のデータを持つ現代の機械学習において、ますます一般的になっている。 本稿では、広く使われている加速度勾配追跡を再検討し、拡張する。 We prove the $\cal O(\frac{\gamma^2}{(1-\sigma_{\gamma})^2}\sqrt{\frac{L}{\epsilon}})$ and $\cal O((\frac{\gamma}{1-\sigma_{\gamma}})^{1.5}\sqrt{\frac{L}{\mu}}\log\frac{1}{\epsilon})$ complexities for the practical single loop accelerated gradient tracking over time-varying graphs when the problems are nonstrongly convex and strongly convex, respectively, where $\gamma$ and $\sigma_{\gamma}$ are two common constants charactering the network connectivity, $\epsilon$ is the desired precision, and $L$ and $\mu$ are the smoothness and strong convexity constants, respectively. 我々の複雑性は、$\cal o(\frac{1}{\epsilon^{5/7}})$と$\cal o((\frac{l}{\mu})^{5/7}\frac{1}{(1-\sigma)^{1.5}}\log\frac{1}{\epsilon})$の2つで著しく改善される。 複数のコンセンサスサブルーチンと組み合わせることで、ネットワーク接続定数への依存性をさらに改善することができる。 ネットワークが時間不変であるとき、我々の複素性は、非強凸問題と強凸問題の両方の多対数因子を隠すことなく、下界と正確に一致する。

Decentralized optimization over time-varying graphs has been increasingly common in modern machine learning with massive data stored on millions of mobile devices, such as in federated learning. This paper revisits and extends the widely used accelerated gradient tracking. We prove the $\cal O(\frac{\gamma^2}{(1-\sigma_{\gamma})^2}\sqrt{\frac{L}{\epsilon}})$ and $\cal O((\frac{\gamma}{1-\sigma_{\gamma}})^{1.5}\sqrt{\frac{L}{\mu}}\log\frac{1}{\epsilon})$ complexities for the practical single loop accelerated gradient tracking over time-varying graphs when the problems are nonstrongly convex and strongly convex, respectively, where $\gamma$ and $\sigma_{\gamma}$ are two common constants charactering the network connectivity, $\epsilon$ is the desired precision, and $L$ and $\mu$ are the smoothness and strong convexity constants, respectively. Our complexities improve significantly on the ones of $\cal O(\frac{1}{\epsilon^{5/7}})$ and $\cal O((\frac{L}{\mu})^{5/7}\frac{1}{(1-\sigma)^{1.5}}\log\frac{1}{\epsilon})$ proved in the original literature only for static graph. When combining with a multiple consensus subroutine, the dependence on the network connectivity constants can be further improved. When the network is time-invariant, our complexities exactly match the lower bounds without hiding any poly-logarithmic factor for both nonstrongly convex and strongly convex problems.
翻訳日:2021-04-07 16:40:56 公開日:2021-04-06
# (参考訳) 生成拡散モデルのノイズ推定 [全文訳有]

Noise Estimation for Generative Diffusion Models ( http://arxiv.org/abs/2104.02600v1 )

ライセンス: CC BY 4.0
Robin San-Roman, Eliya Nachmani, Lior Wolf(参考訳) 生成拡散モデルは、音声および画像生成の主要なモデルとして現れている。 しかし,少数のデノゲーションステップで良好に動作するためには,ノイズパラメータのセットの調整に費用がかかる必要がある。 本研究では,任意のステップ数に対して,これらのノイズパラメータをステップバイステップで調整可能な,単純で汎用的な学習手法を提案する。 さらに,拡散モデルの重みを変更することなく,少数のステップにおいて,合成結果を大幅に改善することができる。 私たちのアプローチは計算コストが無視できるものです。

Generative diffusion models have emerged as leading models in speech and image generation. However, in order to perform well with a small number of denoising steps, a costly tuning of the set of noise parameters is needed. In this work, we present a simple and versatile learning scheme that can step-by-step adjust those noise parameters, for any given number of steps, while the previous work needs to retune for each number separately. Furthermore, without modifying the weights of the diffusion model, we are able to significantly improve the synthesis results, for a small number of steps. Our approach comes at a negligible computation cost.
翻訳日:2021-04-07 16:39:27 公開日:2021-04-06
# (参考訳) MirrorNeRF:Multimiro r Catadioptric Imagingによるワンショットニューラルポートレート放射場 [全文訳有]

MirrorNeRF: One-shot Neural Portrait RadianceField from Multi-mirror Catadioptric Imaging ( http://arxiv.org/abs/2104.02607v1 )

ライセンス: CC BY 4.0
Ziyu Wang, Liao Wang, Fuqiang Zhao, Minye Wu, Lan Xu, Jingyi Yu(参考訳) 人間の肖像画のフォトリアリスティックな神経再構成とレンダリングは、多くのVR/ARアプリケーションに不可欠である。 それでも、既存のソリューションは本質的にマルチビューキャプチャ設定に依存しており、面倒なマルチビュー同期とキャリブレーションを取り除くためのワンショットソリューションは非常に難しい。 本稿では,複数の球面ミラーと1つの高解像度デジタルカメラを備えた立体撮像システムを用いた,単発の神経ポートレート自由視点レンダリング手法であるmirrornerfを提案する。 より具体的には、連続3次元空間における多彩な光サンプリングを可能にする球面ミラーアレイと、カメラとミラーアレイの効果的なオンライン校正を実現する軽量カタディオプトリシステムの設計を提案する。 また, 簡便な日常使用のために, 低コストかつカジュアルキャプチャ機能により, 簡便に触媒イメージングシステムを展開できる。 柔軟なシステム設定による不一致を暗黙的に補償する連続的変位場を学習するために,新しいニューラルウォーピング放射場表現を導入する。 さらに, 自己超越的な手法でカタディプトリデータから得られる固有幾何情報を活用する密度正則化手法を提案し, トレーニング効率を向上するだけでなく, 高いレンダリング品質を実現するために, より効果的な密度監督を行う。 広汎な実験により、人間の肖像画シーンのワンショット写真リアリスティックで高品質な外観自由視点レンダリングを実現するための手法の有効性と堅牢性を示した。

Photo-realistic neural reconstruction and rendering of the human portrait are critical for numerous VR/AR applications. Still, existing solutions inherently rely on multi-view capture settings, and the one-shot solution to get rid of the tedious multi-view synchronization and calibration remains extremely challenging. In this paper, we propose MirrorNeRF - a one-shot neural portrait free-viewpoint rendering approach using a catadioptric imaging system with multiple sphere mirrors and a single high-resolution digital camera, which is the first to combine neural radiance field with catadioptric imaging so as to enable one-shot photo-realistic human portrait reconstruction and rendering, in a low-cost and casual capture setting. More specifically, we propose a light-weight catadioptric system design with a sphere mirror array to enable diverse ray sampling in the continuous 3D space as well as an effective online calibration for the camera and the mirror array. Our catadioptric imaging system can be easily deployed with a low budget and the casual capture ability for convenient daily usages. We introduce a novel neural warping radiance field representation to learn a continuous displacement field that implicitly compensates for the misalignment due to our flexible system setting. We further propose a density regularization scheme to leverage the inherent geometry information from the catadioptric data in a self-supervision manner, which not only improves the training efficiency but also provides more effective density supervision for higher rendering quality. Extensive experiments demonstrate the effectiveness and robustness of our scheme to achieve one-shot photo-realistic and high-quality appearance free-viewpoint rendering for human portrait scenes.
翻訳日:2021-04-07 16:27:46 公開日:2021-04-06
# (参考訳) GAN生成画像は検出が容易か? 最先端技術の批判的分析 [全文訳有]

Are GAN generated images easy to detect? A critical analysis of the state-of-the-art ( http://arxiv.org/abs/2104.02617v1 )

ライセンス: CC BY 4.0
Diego Gragnaniello, Davide Cozzolino, Francesco Marra, Giovanni Poggi, Luisa Verdoliva(参考訳) ディープラーニングの出現により、生成されたメディアの品質が大幅に向上した。 しかし、フォトリアリズムのレベルが高まるにつれて、合成メディアと実際のメディアの区別が難しくなり、偽物や操作された情報をインターネットに広めることに深刻な懸念が高まっている。 この文脈では、合成媒体を安定かつタイムリーに検出する自動ツールを開発することが重要である。 本研究では,合成画像の検出に関する最先端の手法を分析し,最も成功した手法の重要な要素を強調し,既存の生成アーキテクチャと比較する。 ソーシャルネットワークにアップロードされたメディアや、新しい、目に見えないアーキテクチャによって生成されるような現実的で困難なシナリオに特別な注意を払って、検出器の一般化能力に対する適切な拡張とトレーニング戦略の影響を分析します。

The advent of deep learning has brought a significant improvement in the quality of generated media. However, with the increased level of photorealism, synthetic media are becoming hardly distinguishable from real ones, raising serious concerns about the spread of fake or manipulated information over the Internet. In this context, it is important to develop automated tools to reliably and timely detect synthetic media. In this work, we analyze the state-of-the-art methods for the detection of synthetic images, highlighting the key ingredients of the most successful approaches, and comparing their performance over existing generative architectures. We will devote special attention to realistic and challenging scenarios, like media uploaded on social networks or generated by new and unseen architectures, analyzing the impact of suitable augmentation and training strategies on the detectors' generalization ability.
翻訳日:2021-04-07 16:08:40 公開日:2021-04-06
# (参考訳) 不確実性認識ジョイントサルエントオブジェクトとカモフラージュオブジェクト検出 [全文訳有]

Uncertainty-aware Joint Salient Object and Camouflaged Object Detection ( http://arxiv.org/abs/2104.02628v1 )

ライセンス: CC BY 4.0
Aixuan Li and Jing Zhang and Yunqiu Lv and Bowen Liu and Tong Zhang and Yuchao Dai(参考訳) 視覚サルエント物体検出(sod)は、人間の注意を引くサルエント物体を見つけることを目的としているが、反対のカモフラージュ物体検出(cod)は、周囲に隠されたカモフラージュ物体を発見することを目的としている。 本稿では,この矛盾情報を活用して,有能な物体検出と擬似物体検出の両方の検出能力を向上するパラダイムを提案する。 まず、CODデータセットの簡単な正のサンプルをSODタスクのハードな正のサンプルとして利用し、SODモデルの堅牢性を改善することから始める。 次に、これらの2つのタスクの矛盾する属性を明示的にモデル化する類似度測定モジュールを導入する。 さらに,両タスクのデータセットにおけるラベル付けの不確かさを考慮し,高次類似度測定とネットワーク信頼度推定の両方を実現するための対向学習ネットワークを提案する。 ベンチマークデータセットによる実験結果から,本手法が両タスクのSOTA(State-of-the-ar t)性能につながることが示された。

Visual salient object detection (SOD) aims at finding the salient object(s) that attract human attention, while camouflaged object detection (COD) on the contrary intends to discover the camouflaged object(s) that hidden in the surrounding. In this paper, we propose a paradigm of leveraging the contradictory information to enhance the detection ability of both salient object detection and camouflaged object detection. We start by exploiting the easy positive samples in the COD dataset to serve as hard positive samples in the SOD task to improve the robustness of the SOD model. Then, we introduce a similarity measure module to explicitly model the contradicting attributes of these two tasks. Furthermore, considering the uncertainty of labeling in both tasks' datasets, we propose an adversarial learning network to achieve both higher order similarity measure and network confidence estimation. Experimental results on benchmark datasets demonstrate that our solution leads to state-of-the-art (SOTA) performance for both tasks.
翻訳日:2021-04-07 15:59:47 公開日:2021-04-06
# (参考訳) モデルデータ駆動構成応答:マルチスケール計算フレームワークへの応用

Model-data-driven constitutive responses: application to a multiscale computational framework ( http://arxiv.org/abs/2104.02650v1 )

ライセンス: CC BY-SA 4.0
Jan Niklas Fuhg, Christoph Boehm, Nikolaos Bouklas, Amelie Fau, Peter Wriggers, Michele Marino(参考訳) 構成応答を解析・導出する計算的マルチスケール手法は, 異なる長さスケールで情報を組み合わせる能力から, 工学的問題のツールとして利用されてきた。 しかし、非線形フレームワークにおけるそれらの応用は、高い計算コスト、数値的困難、および/または不正確性によって制限される。 本稿では,古典的構成法則(モデルに基づく),データ駆動補正成分,計算的マルチスケールアプローチを組み合わせたハイブリッド手法を提案する。 モデルベース材料表現は、モデルデータ駆動アプローチにつながる非線形数値均質化法により得られる低スケールのデータにより局所的に改善される。 したがって、マクロスケールシミュレーションは真のマイクロスケールの応答を明示的に取り入れ、オンラインマイクロマクロシミュレーションで得られるのと同じレベルの精度を維持するが、計算コストは古典的なモデル駆動の手法に匹敵する。 提案手法では,モデルとデータの両方が基本的な役割を担い,物理に基づく応答と機械学習のブラックボックスの相乗的統合を実現する。 大規模変形における材料応答と構造応答の両方を調査するために, 数値解析を2次元で実施した。

Computational multiscale methods for analyzing and deriving constitutive responses have been used as a tool in engineering problems because of their ability to combine information at different length scales. However, their application in a nonlinear framework can be limited by high computational costs, numerical difficulties, and/or inaccuracies. In this paper, a hybrid methodology is presented which combines classical constitutive laws (model-based), a data-driven correction component, and computational multiscale approaches. A model-based material representation is locally improved with data from lower scales obtained by means of a nonlinear numerical homogenization procedure leading to a model-data-driven approach. Therefore, macroscale simulations explicitly incorporate the true microscale response, maintaining the same level of accuracy that would be obtained with online micro-macro simulations but with a computational cost comparable to classical model-driven approaches. In the proposed approach, both model and data play a fundamental role allowing for the synergistic integration between a physics-based response and a machine learning black-box. Numerical applications are implemented in two dimensions for different tests investigating both material and structural responses in large deformation.
翻訳日:2021-04-07 15:43:22 公開日:2021-04-06
# (参考訳) 模倣と強化学習を用いた配車サービスのデータ駆動シミュレーション [全文訳有]

Data-Driven Simulation of Ride-Hailing Services using Imitation and Reinforcement Learning ( http://arxiv.org/abs/2104.02661v1 )

ライセンス: CC BY 4.0
Haritha Jayasinghe, Tarindu Jayatilaka, Ravin Gunawardena, Uthayasanker Thayasivam(参考訳) 配車プラットフォームの急速な成長は、ビジネスが利益を得るのに苦しむ競争の激しい市場を生み出し、より良い運営戦略の必要性を要求している。 しかし、現実世界の実験は、毎日数百万のユーザーを扱うため、これらのプラットフォームにとって危険で費用がかかる。 これにより、旅行料金やインセンティブといったプラットフォーム固有のパラメータの変更に対するユーザの反応を予測できるシミュレーション環境の必要性が生まれます。 このようなシミュレーションの構築は、何千人ものユーザが定期的に対話する動的な環境に存在するため、難しい。 本稿では,配車サービスにおけるユーザ,特にドライバの振る舞いを模倣し,予測する枠組みを提案する。 データ駆動型ハイブリッド強化学習と模倣学習アプローチを使っています。 まず、エージェントは、実世界のデータセットを用いてドライバの動作を模倣するために行動クローニングを利用する。 次に、模擬環境における事前学習エージェントの上に強化学習を適用し、プラットフォームの変化に適応できるようにする。 当社のフレームワークは,ドライバの行動パターンを予測するために,プラットフォーム固有のパラメータを実験するための,配車プラットフォームのための理想的な遊び場を提供する。

The rapid growth of ride-hailing platforms has created a highly competitive market where businesses struggle to make profits, demanding the need for better operational strategies. However, real-world experiments are risky and expensive for these platforms as they deal with millions of users daily. Thus, a need arises for a simulated environment where they can predict users' reactions to changes in the platform-specific parameters such as trip fares and incentives. Building such a simulation is challenging, as these platforms exist within dynamic environments where thousands of users regularly interact with one another. This paper presents a framework to mimic and predict user, specifically driver, behaviors in ride-hailing services. We use a data-driven hybrid reinforcement learning and imitation learning approach for this. First, the agent utilizes behavioral cloning to mimic driver behavior using a real-world data set. Next, reinforcement learning is applied on top of the pre-trained agents in a simulated environment, to allow them to adapt to changes in the platform. Our framework provides an ideal playground for ride-hailing platforms to experiment with platform-specific parameters to predict drivers' behavioral patterns.
翻訳日:2021-04-07 15:42:06 公開日:2021-04-06
# (参考訳) 難易度の高い視覚音のローカライズ [全文訳有]

Localizing Visual Sounds the Hard Way ( http://arxiv.org/abs/2104.02691v1 )

ライセンス: CC BY 4.0
Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea Vedaldi, Andrew Zisserman(参考訳) 本研究の目的は,手動のアノテーションを使わずにビデオで見られる音源をローカライズすることである。 我々の重要な技術的貢献は、音を発する物体を含む画像であっても、難解な画像断片を明示的に識別するようにネットワークを訓練することで、位置付け性能を大幅に向上させることである。 私たちは、ハードサンプルをマイニングするメカニズムを導入し、それを対照的な学習形式に自動的に追加することで、非常にエレガントにします。 提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。 さらに、最近導入されたVGG-Soundデータセットに対する新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを導入し、各ビデオクリップに表示される音源にバウンディングボックスアノテーションを明示的にマークする。 このデータセットは、類似の既存のものより20倍大きく、200以上のカテゴリにまたがる5Kビデオを含み、Flickr SoundNetとは違い、ビデオベースである。 VGG-SSでは,提案アルゴリズムが複数のベースラインに対して最先端の性能を達成することを示す。

The objective of this work is to localize sound sources that are visible in a video without using manual annotations. Our key technical contribution is to show that, by training the network to explicitly discriminate challenging image fragments, even for images that do contain the object emitting the sound, we can significantly boost the localization performance. We do so elegantly by introducing a mechanism to mine hard samples and add them to a contrastive learning formulation automatically. We show that our algorithm achieves state-of-the-art performance on the popular Flickr SoundNet dataset. Furthermore, we introduce the VGG-Sound Source (VGG-SS) benchmark, a new set of annotations for the recently-introduced VGG-Sound dataset, where the sound sources visible in each video clip are explicitly marked with bounding box annotations. This dataset is 20 times larger than analogous existing ones, contains 5K videos spanning over 200 categories, and, differently from Flickr SoundNet, is video-based. On VGG-SS, we also show that our algorithm achieves state-of-the-art performance against several baselines.
翻訳日:2021-04-07 15:32:13 公開日:2021-04-06
# (参考訳) 長期分布下における対向ロバスト性 [全文訳有]

Adversarial Robustness under Long-Tailed Distribution ( http://arxiv.org/abs/2104.02703v1 )

ライセンス: CC BY 4.0
Tong Wu, Ziwei Liu, Qingqiu Huang, Yu Wang and Dahua Lin(参考訳) 敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。 しかしながら、既存の敵の堅牢性に関する研究は主にバランスの取れたデータセットに焦点を当てている。 敵意の強固さをより現実的なシナリオに向かわせるため,本研究では,敵意の脆弱性や,長期にわたる配信下での防御について検討する。 特に,不均衡データが認識性能と敵対的ロバスト性の両方に与える影響を最初に明らかにし,本問題の本質的課題を明らかにする。 次に,既存の長尾認識手法を,対戦型学習フレームワークと併用して体系的に研究する。 1) 自然な精度は比較的容易に改善でき、2) 信頼性の低い精度の偽のゲインは信頼できない評価の下で存在し、3) 境界誤差は堅牢性の促進を制限する。 これらの観測から着想を得たRoBalは、2つの専用モジュール、スケール不変の分類器と、トレーニング段階でのマージンエンジニアリングと推論時の境界調整によるデータ再バランスからなるクリーンで効果的なフレームワークである。 大規模な実験は、我々のアプローチが他の最先端の防御方法よりも優れていることを示す。 われわれの知る限りでは、我々は長い尾の分布の下で敵の堅牢性に取り組む最初の人物であり、これは現実世界の堅牢性への重要な一歩だと考えている。 私たちのコードは、https://github.com/w utong16/Adversarial_ Long-Tail で利用可能です。

Adversarial robustness has attracted extensive studies recently by revealing the vulnerability and intrinsic characteristics of deep networks. However, existing works on adversarial robustness mainly focus on balanced datasets, while real-world data usually exhibits a long-tailed distribution. To push adversarial robustness towards more realistic scenarios, in this work we investigate the adversarial vulnerability as well as defense under long-tailed distributions. In particular, we first reveal the negative impacts induced by imbalanced data on both recognition performance and adversarial robustness, uncovering the intrinsic challenges of this problem. We then perform a systematic study on existing long-tailed recognition methods in conjunction with the adversarial training framework. Several valuable observations are obtained: 1) natural accuracy is relatively easy to improve, 2) fake gain of robust accuracy exists under unreliable evaluation, and 3) boundary error limits the promotion of robustness. Inspired by these observations, we propose a clean yet effective framework, RoBal, which consists of two dedicated modules, a scale-invariant classifier and data re-balancing via both margin engineering at training stage and boundary adjustment during inference. Extensive experiments demonstrate the superiority of our approach over other state-of-the-art defense methods. To our best knowledge, we are the first to tackle adversarial robustness under long-tailed distributions, which we believe would be a significant step towards real-world robustness. Our code is available at: https://github.com/w utong16/Adversarial_ Long-Tail .
翻訳日:2021-04-07 15:15:22 公開日:2021-04-06
# (参考訳) beat:オーディオコンディション付きコントラストビデオテクスチャ [全文訳有]

Strumming to the Beat: Audio-Conditioned Contrastive Video Textures ( http://arxiv.org/abs/2104.02687v1 )

ライセンス: CC BY 4.0
Medhini Narasimhan, Shiry Ginosar, Andrew Owens, Alexei A. Efros, Trevor Darrell(参考訳) コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。 ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。 しかし、この古典的な作品は、手作りの距離メトリクスの使用によって制限され、シンプルで反復的なビデオに制限された。 我々は、この距離メトリックを学習するために、自己教師型学習の最近の技術に基づき、より困難なダイナミックスにスケールする方法でフレームを比較することができ、オーディオなどの他のデータに条件付けることができます。 コントラスト学習を用いて訓練されたビデオ固有モデルを用いて,ビデオフレームの表現とフレーム間遷移確率を学習する。 テクスチャを合成するために,高遷移確率のフレームをランダムにサンプリングし,新しいシーケンスとトランジションの多様な時間的滑らかなビデオを生成する。 モデルは、微調整を必要とせずに、自然にオーディオ条件設定に拡張される。 我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。

We introduce a non-parametric approach for infinite video texture synthesis using a representation learned via contrastive learning. We take inspiration from Video Textures, which showed that plausible new videos could be generated from a single one by stitching its frames together in a novel yet consistent order. This classic work, however, was constrained by its use of hand-designed distance metrics, limiting its use to simple, repetitive videos. We draw on recent techniques from self-supervised learning to learn this distance metric, allowing us to compare frames in a manner that scales to more challenging dynamics, and to condition on other data, such as audio. We learn representations for video frames and frame-to-frame transition probabilities by fitting a video-specific model trained using contrastive learning. To synthesize a texture, we randomly sample frames with high transition probabilities to generate diverse temporally smooth videos with novel sequences and transitions. The model naturally extends to an audio-conditioned setting without requiring any finetuning. Our model outperforms baselines on human perceptual scores, can handle a diverse range of input videos, and can combine semantic and audio-visual cues in order to synthesize videos that synchronize well with an audio signal.
翻訳日:2021-04-07 14:44:00 公開日:2021-04-06
# STMとトピック・メタデータの関係を探る:ベイズ的アプローチ

Exploring Topic-Metadata Relationships with the STM: A Bayesian Approach ( http://arxiv.org/abs/2104.02496v1 )

ライセンス: Link先を確認
P. Schulze, S. Wiegrebe, P. W. Thurner, C. Heumann, M. A{\ss}enmacher, S. Wankm\"uller(参考訳) 構造トピックモデル(STM)のようなトピックモデルは、テキスト内の潜在トピッククラスタを推定する。 多くのトピックモデリングアプリケーションにおいて重要なステップは、発見されたトピック構造とテキスト文書に関連するメタデータの関係を探ることである。 そのような関係を推定するために使用される方法は、局所構造が直接観測されるのではなく、それ自身を推定することを考慮する必要がある。 例えば、STMの著者らは、合成法として知られるモンテカルロサンプリング技術を用いて、メタデータの共変量に対するサンプルトピック比の繰り返しLS回帰を行う。 本稿では,olsをより適切なベータレグレッションに置き換える,という2つの改良を提案する。 第2に, ベイズ的手法と頻度的手法の混合ではなく, 完全にベイズ的手法を提案する。 我々は,ドイツ議会議員によるTwitter投稿と異なるメタデータの共変量との関係を探索し,改善手法を実証した。

Topic models such as the Structural Topic Model (STM) estimate latent topical clusters within text. An important step in many topic modeling applications is to explore relationships between the discovered topical structure and metadata associated with the text documents. Methods used to estimate such relationships must take into account that the topical structure is not directly observed, but instead being estimated itself. The authors of the STM, for instance, perform repeated OLS regressions of sampled topic proportions on metadata covariates by using a Monte Carlo sampling technique known as the method of composition. In this paper, we propose two improvements: first, we replace OLS with more appropriate Beta regression. Second, we suggest a fully Bayesian approach instead of the current blending of frequentist and Bayesian methods. We demonstrate our improved methodology by exploring relationships between Twitter posts by German members of parliament (MPs) and different metadata covariates.
翻訳日:2021-04-07 14:27:53 公開日:2021-04-06
# 画像分類のための分類的ラベル表現

Beyond Categorical Label Representations for Image Classification ( http://arxiv.org/abs/2104.02226v1 )

ライセンス: Link先を確認
Boyuan Chen, Yu Li, Sunand Raghupathi, Hod Lipson(参考訳) データラベルの表現方法を選択することで、トレーニングされたモデルの品質に大きな影響を与えることが分かりました。 例えば、画像分類器を訓練して、従来の分類的確率ではなくオーディオラベルを回帰させると、より信頼性の高い分類が得られる。 この結果は、音声ラベルが単純な数値確率やテキストよりも複雑であることを考えると驚きである。 高次元、高エントロピーラベル表現は、より強いエラー信号を提供するため、一般的により有用であると仮定する。 この仮説は、定数行列、スペクトログラム、シャッフルスペクトル、ガウス混合、および様々な次元の均一ランダム行列を含む様々なラベル表現から証拠を得て支持する。 実験の結果, 高次元高エントロピーラベルは, 標準的な画像分類タスクにおけるテキスト(カテゴリ)ラベルと同等の精度が得られることがわかった。 これらの結果はラベル表現が以前考えられていたよりも重要な役割を担っていることを示唆している。 プロジェクトのウェブサイトは \url{https://www.creative machineslab.com/labe l-representation.htm l} にある。

We find that the way we choose to represent data labels can have a profound effect on the quality of trained models. For example, training an image classifier to regress audio labels rather than traditional categorical probabilities produces a more reliable classification. This result is surprising, considering that audio labels are more complex than simpler numerical probabilities or text. We hypothesize that high dimensional, high entropy label representations are generally more useful because they provide a stronger error signal. We support this hypothesis with evidence from various label representations including constant matrices, spectrograms, shuffled spectrograms, Gaussian mixtures, and uniform random matrices of various dimensionalities. Our experiments reveal that high dimensional, high entropy labels achieve comparable accuracy to text (categorical) labels on the standard image classification task, but features learned through our label representations exhibit more robustness under various adversarial attacks and better effectiveness with a limited amount of training data. These results suggest that label representation may play a more important role than previously thought. The project website is at \url{https://www.creative machineslab.com/labe l-representation.htm l}.
翻訳日:2021-04-07 14:27:39 公開日:2021-04-06
# コンテンツ適応型スーパーリゾリューションによる効率的な映像圧縮

Efficient Video Compression via Content-Adaptive Super-Resolution ( http://arxiv.org/abs/2104.02322v1 )

ライセンス: Link先を確認
Mehrdad Khani, Vibhaalakshmi Sivaraman, Mohammad Alizadeh(参考訳) ビデオ圧縮はインターネットビデオ配信の重要なコンポーネントである。 近年の研究では、ディープラーニング技術は人間の設計したアルゴリズムに匹敵したり、性能を上回ったりすることが示されている。 本稿では,映像品質を大幅に向上させる小型コンテンツ適応型超解像モデルにより,既存のコーデックを増強する手法を提案する。 SRVCは,映像を2つのビットストリームにエンコードする: (i) ダウンサンプリングされた低解像度映像を既存のコーデックで圧縮したコンテンツストリーム, (ii) ビデオの短いセグメント用にカスタマイズされた軽量超解像度ニューラルネットワークへの定期的な更新をエンコードするモデルストリーム。 SRVCは、圧縮された低解像度ビデオフレームを(時変の)超解像度モデルに渡して高解像度ビデオフレームを再構成することで、ビデオをデコードする。 以上の結果から, SRVC は同じ PSNR を実現するためには, H.265 ピクセルあたりの16% と DVC ビット毎の2% を必要とすることがわかった。 SRVCはNVIDIA V100 GPU上で毎秒90フレームで動作する。

Video compression is a critical component of Internet video delivery. Recent work has shown that deep learning techniques can rival or outperform human-designed algorithms, but these methods are significantly less compute and power-efficient than existing codecs. This paper presents a new approach that augments existing codecs with a small, content-adaptive super-resolution model that significantly boosts video quality. Our method, SRVC, encodes video into two bitstreams: (i) a content stream, produced by compressing downsampled low-resolution video with the existing codec, (ii) a model stream, which encodes periodic updates to a lightweight super-resolution neural network customized for short segments of the video. SRVC decodes the video by passing the decompressed low-resolution video frames through the (time-varying) super-resolution model to reconstruct high-resolution video frames. Our results show that to achieve the same PSNR, SRVC requires 16% of the bits-per-pixel of H.265 in slow mode, and 2% of the bits-per-pixel of DVC, a recent deep learning-based video compression scheme. SRVC runs at 90 frames per second on a NVIDIA V100 GPU.
翻訳日:2021-04-07 14:27:19 公開日:2021-04-06
# 物体検出のための複数インスタンスアクティブ学習

Multiple instance active learning for object detection ( http://arxiv.org/abs/2104.02324v1 )

ライセンス: Link先を確認
Tianning Yuan (1), Fang Wan (1), Mengying Fu (1), Jianzhuang Liu (2), Songcen Xu (2), Xiangyang Ji (3), Qixiang Ye (1) ((1) University of Chinese Academy of Sciences, Beijing, China, (2) Noah's Ark Lab, Huawei Technologies, Shenzhen, China, (3) Tsinghua University, Beijing, China)(参考訳) 画像認識のためのアクティブラーニングの実質的な進歩にもかかわらず、オブジェクト検出のためにインスタンスレベルのアクティブラーニング方法が不足している。 本稿では,インスタンスレベルの不確かさを観測することで,検出器訓練に最も有用な画像を選択するためのマルチインスタンスアクティブオブジェクト検出(mi-aod)を提案する。 MI-AODは、ラベル付き集合で訓練された2つの逆インスタンス分類器の相違を利用して、ラベル付き集合のインスタンス不確かさを予測するインスタンス不確実性学習モジュールを定義する。 MI-AODは、未ラベルの画像をインスタンスバッグとして扱い、画像の特徴アンカーをインスタンスとして扱い、マルチインスタンス学習(MIL)方式でインスタンスを再重み付けすることで、画像の不確実性を推定する。 反復的なインスタンスの不確実性学習と再重み付けは、インスタンスの不確実性と画像レベルの不確実性の間のギャップを埋めるために、ノイズの多いインスタンスの抑制を促進する。 MI-AODがインスタンスレベルのアクティブラーニングのためのソリッドベースラインを設定することを検証する実験。 一般的に使用されるオブジェクト検出データセットでは、特にラベル付き集合が小さい場合、MI-AODは最先端の手法よりも大きなマージンを持つ。 コードはhttps://github.com/y uantn/MI-AODで入手できる。

Despite the substantial progress of active learning for image recognition, there still lacks an instance-level active learning method specified for object detection. In this paper, we propose Multiple Instance Active Object Detection (MI-AOD), to select the most informative images for detector training by observing instance-level uncertainty. MI-AOD defines an instance uncertainty learning module, which leverages the discrepancy of two adversarial instance classifiers trained on the labeled set to predict instance uncertainty of the unlabeled set. MI-AOD treats unlabeled images as instance bags and feature anchors in images as instances, and estimates the image uncertainty by re-weighting instances in a multiple instance learning (MIL) fashion. Iterative instance uncertainty learning and re-weighting facilitate suppressing noisy instances, toward bridging the gap between instance uncertainty and image-level uncertainty. Experiments validate that MI-AOD sets a solid baseline for instance-level active learning. On commonly used object detection datasets, MI-AOD outperforms state-of-the-art methods with significant margins, particularly when the labeled sets are small. Code is available at https://github.com/y uantn/MI-AOD.
翻訳日:2021-04-07 14:26:56 公開日:2021-04-06
# Ensemble Deep Learning: A review

Ensemble deep learning: A review ( http://arxiv.org/abs/2104.02395v1 )

ライセンス: Link先を確認
M.A. Ganaie (1) and Minghui Hu (2) and M. Tanveer*(1) and P.N. Suganthan*(2) (* Corresponding Author (1) Department of Mathematics, Indian Institute of Technology Indore, Simrol, Indore, 453552, India (2) School of Electrical & Electronic Engineering, Nanyang Technological University, Singapore)(参考訳) アンサンブル学習はいくつかの個別モデルを組み合わせてより良い一般化性能を得る。 現在、多層処理アーキテクチャを持つディープラーニングモデルは、浅い分類モデルや伝統的な分類モデルよりも優れた性能を示している。 ディープアンサンブル学習モデルには、ディープラーニングモデルとアンサンブル学習の両方の利点が組み合わされ、最終的なモデルは一般化性能が向上する。 本稿では,最先端の深層アンサンブルモデルについて概説する。 アンサンブルモデルは、バグング、ブースティング、積み重ね、負相関に基づくディープアンサンブルモデル、明示的/単純化アンサンブル、均質/ヘテロゲニーアンサンブル、決定融合戦略、教師なし、半教師なし、強化学習、オンライン/インクリメンタル、マルチラベルベースのディープアンサンブルモデルといったアンサンブルモデルに広く分類されている。 異なる領域における深層アンサンブルモデルの応用についても概説する。 最後に,今後の提言と研究の方向性について述べる。

Ensemble learning combines several individual models to obtain better generalization performance. Currently, deep learning models with multilayer processing architecture is showing better performance as compared to the shallow or traditional classification models. Deep ensemble learning models combine the advantages of both the deep learning models as well as the ensemble learning such that the final model has better generalization performance. This paper reviews the state-of-art deep ensemble models and hence serves as an extensive summary for the researchers. The ensemble models are broadly categorised into ensemble models like bagging, boosting and stacking, negative correlation based deep ensemble models, explicit/implicit ensembles, homogeneous /heterogeneous ensemble, decision fusion strategies, unsupervised, semi-supervised, reinforcement learning and online/incremental, multilabel based deep ensemble models. Application of deep ensemble models in different domains is also briefly discussed. Finally, we conclude this paper with some future recommendations and research directions.
翻訳日:2021-04-07 14:26:36 公開日:2021-04-06
# gradSim: システム識別と視覚運動制御のための微分可能シミュレーション

gradSim: Differentiable simulation for system identification and visuomotor control ( http://arxiv.org/abs/2104.02646v1 )

ライセンス: Link先を確認
Krishna Murthy Jatavallabhula and Miles Macklin and Florian Golemo and Vikram Voleti and Linda Petrini and Martin Weiss and Breandan Considine and Jerome Parent-Levesque and Kevin Xie and Kenny Erleben and Liam Paull and Florian Shkurti and Derek Nowrouzezahrai and Sanja Fidler(参考訳) 本稿では,映像系列から直接物体の物理的特性,摩擦,弾性を推定する問題を考察する。 このようなシステム識別問題は、画像形成中の情報の損失により、基本的に不適切である。 現在のソリューションでは、収集に手間がかかり、変形可能な固体や布のような多くのシステムのために作成できない正確な3dラベルが必要である。 本稿では, 微分可能多量体シミュレーションと微分可能レンダリングを活用し, シーンダイナミクスと画像形成の進化を協調的にモデル化し, 3次元監督への依存を克服するフレームワークであるgradsimを提案する。 この新たな組み合わせにより、ビデオシーケンス内のピクセルから生成された物理属性へのバックプロパゲーションが可能になる。 さらに、我々の統合された計算グラフ -- 動的からレンダリングプロセスを通して - は、状態ベース(3D)の監督に頼ることなく、正確な3Dラベルに依存する技術よりもパフォーマンスの競争力を得ながら、挑戦的なビジュモータ制御タスクでの学習を可能にする。

We consider the problem of estimating an object's physical properties such as mass, friction, and elasticity directly from video sequences. Such a system identification problem is fundamentally ill-posed due to the loss of information during image formation. Current solutions require precise 3D labels which are labor-intensive to gather, and infeasible to create for many systems such as deformable solids or cloth. We present gradSim, a framework that overcomes the dependence on 3D supervision by leveraging differentiable multiphysics simulation and differentiable rendering to jointly model the evolution of scene dynamics and image formation. This novel combination enables backpropagation from pixels in a video sequence through to the underlying physical attributes that generated them. Moreover, our unified computation graph -- spanning from the dynamics and through the rendering process -- enables learning in challenging visuomotor control tasks, without relying on state-based (3D) supervision, while obtaining performance competitive to or better than techniques that rely on precise 3D labels.
翻訳日:2021-04-07 14:26:19 公開日:2021-04-06
# codetrans: 自己教師付きディープラーニングとハイパフォーマンスコンピューティングによるシリコンコードの言語解読に向けて

CodeTrans: Towards Cracking the Language of Silicone's Code Through Self-Supervised Deep Learning and High Performance Computing ( http://arxiv.org/abs/2104.02443v1 )

ライセンス: Link先を確認
Ahmed Elnaggar, Wei Ding, Llion Jones, Tom Gibbs, Tamas Feher, Christoph Angerer, Silvia Severini, Florian Matthes and Burkhard Rost(参考訳) 現在、多くの成熟した自然言語処理アプリケーションが人々の生活をより便利にしている。 このようなアプリケーションは、ソフトウェア工学の言語であるソースコードによって構築されます。 しかし、ソフトウェアエンジニアリングプロセスを楽にするためにソースコード言語を理解するアプリケーションは、あまり研究されていない。 同時に、トランスフォーマーモデル、特にトランスファーラーニングと組み合わせることで、自然言語処理タスクの強力な技術であることが証明されている。 これらのブレークスルーは、プロセスソースコードとソフトウェアエンジニアリングタスクのクラックに有望な方向を示している。 本稿では,13個のサブタスクを含む6つのソフトウェア工学タスクにおけるエンコーダ・デコーダトランスフォーマの有効性を検討する,ソフトウェア工学領域におけるタスク用エンコーダ・デコーダトランスフォーマモデルであるcodetransについて述べる。 さらに, シングルタスク学習, トランスファーラーニング, マルチタスク学習, 微調整によるマルチタスク学習など, 異なる学習方法の効果について検討した。 codetransはすべてのタスクで最先端のモデルを上回る。 ソフトウェアエンジニアリング領域における今後の作業の迅速化のために、CodeTransのトレーニング済みモデルを公開しました。 https://github.com/a gemagician/CodeTrans

Currently, a growing number of mature natural language processing applications make people's life more convenient. Such applications are built by source code - the language in software engineering. However, the applications for understanding source code language to ease the software engineering process are under-researched. Simultaneously, the transformer model, especially its combination with transfer learning, has been proven to be a powerful technique for natural language processing tasks. These breakthroughs point out a promising direction for process source code and crack software engineering tasks. This paper describes CodeTrans - an encoder-decoder transformer model for tasks in the software engineering domain, that explores the effectiveness of encoder-decoder transformer models for six software engineering tasks, including thirteen sub-tasks. Moreover, we have investigated the effect of different training strategies, including single-task learning, transfer learning, multi-task learning, and multi-task learning with fine-tuning. CodeTrans outperforms the state-of-the-art models on all the tasks. To expedite future works in the software engineering domain, we have published our pre-trained models of CodeTrans. https://github.com/a gemagician/CodeTrans
翻訳日:2021-04-07 14:26:03 公開日:2021-04-06
# 誘導バイアスを用いた半導体エッチングプロセスの新展開

A Novel Approach for Semiconductor Etching Process with Inductive Biases ( http://arxiv.org/abs/2104.02468v1 )

ライセンス: Link先を確認
Sanghoon Myung, Hyunjae Jang, Byungseon Choi, Jisu Ryu, Hyuk Kim, Sang Wuk Park, Changwook Jeong and Dae Sin Kim(参考訳) エッチングプロセスは半導体製造において最も重要なプロセスの1つである。 エッチングプロファイルを予測するために最先端ディープラーニングモデルを導入した。 しかし、物理学に違反する重要な問題は、説明可能な人工知能や予測の不確かさの表現といった様々な技術を通じて発見されている。 この問題に対処するため,本論文では,エッチングプロセスにインダクティブバイアスを適用するための新しい手法を提案する。 本手法は, 物理挙動を追従しながら, 物理シミュレータよりも高速に測定できることを示す。 私たちのアプローチは、より精度と低コストでエッチングプロセスを改善する新しい機会をもたらします。

The etching process is one of the most important processes in semiconductor manufacturing. We have introduced the state-of-the-art deep learning model to predict the etching profiles. However, the significant problems violating physics have been found through various techniques such as explainable artificial intelligence and representation of prediction uncertainty. To address this problem, this paper presents a novel approach to apply the inductive biases for etching process. We demonstrate that our approach fits the measurement faster than physical simulator while following the physical behavior. Our approach would bring a new opportunity for better etching process with higher accuracy and lower cost.
翻訳日:2021-04-07 14:25:45 公開日:2021-04-06
# 専門家モデル混合モデルにおけるモデル選択のための非漸近的ペナリゼーション基準

A non-asymptotic penalization criterion for model selection in mixture of experts models ( http://arxiv.org/abs/2104.02640v1 )

ライセンス: Link先を確認
TrungTin Nguyen, Hien Duy Nguyen, Faicel Chamroukhi and Florence Forbes(参考訳) 専門家の混合(MoE)は統計学と機械学習における一般的なモデルのクラスであり、その柔軟性と有効性から長年にわたって注目を集めてきた。 ガウス型局所化moe(glome)回帰モデルを用いて異種データをモデル化する。 このモデルは、統計的推定とモデル選択の問題に関して、計算的および理論的視点からの特徴選択を含む挑戦的な疑問を提起する。 本稿では,GLoMEモデルの成分数を推定する問題について,最大推定法を用いて検討する。 我々は,弱オラクルの不平等が評価者によって満足されることを保証するような罰則を低くする。 理論的結果を支援するため,シミュレーションおよび実データを用いて数値実験を行い,有限サンプルオラクル不等式の性能を示す。

Mixture of experts (MoE) is a popular class of models in statistics and machine learning that has sustained attention over the years, due to its flexibility and effectiveness. We consider the Gaussian-gated localized MoE (GLoME) regression model for modeling heterogeneous data. This model poses challenging questions with respect to the statistical estimation and model selection problems, including feature selection, both from the computational and theoretical points of view. We study the problem of estimating the number of components of the GLoME model, in a penalized maximum likelihood estimation framework. We provide a lower bound on the penalty that ensures a weak oracle inequality is satisfied by our estimator. To support our theoretical result, we perform numerical experiments on simulated and real data, which illustrate the performance of our finite-sample oracle inequality.
翻訳日:2021-04-07 14:25:38 公開日:2021-04-06
# テキスト誘導法知識グラフ推論

Text-guided Legal Knowledge Graph Reasoning ( http://arxiv.org/abs/2104.02284v1 )

ライセンス: Link先を確認
Luoqiu Li, Zhen Bi, Hongbin Ye, Shumin Deng, Hui Chen, Huaixiao Tou, Ningyu Zhang, Huajun Chen(参考訳) 近年は、法的な人工知能の繁栄と技術の発展を目撃している。 本稿では,関連する法律規定を予測することを目的とした,新しい法律提供予測(lpp)の適用法を提案する。 我々はこのタスクを,テキスト理解だけでなく,グラフ推論も必要とする,難解な知識グラフ補完問題として定式化する。 そこで本研究では,新しいテキストガイドグラフ推論手法を提案する。 広東省庁のWebサイトから現実の法的規定データを収集し、LegalLPPという法的データセットを構築します。 データセットの広範な実験結果から,本手法はベースラインよりも優れた性能を達成できることがわかった。 コードとデータセットは再現性のために \url{https://github.com/z junlp/LegalPP} で入手できる。

Recent years have witnessed the prosperity of legal artificial intelligence with the development of technologies. In this paper, we propose a novel legal application of legal provision prediction (LPP), which aims to predict the related legal provisions of affairs. We formulate this task as a challenging knowledge graph completion problem, which requires not only text understanding but also graph reasoning. To this end, we propose a novel text-guided graph reasoning approach. We collect amounts of real-world legal provision data from the Guangdong government service website and construct a legal dataset called LegalLPP. Extensive experimental results on the dataset show that our approach achieves better performance compared with baselines. The code and dataset are available in \url{https://github.com/z junlp/LegalPP} for reproducibility.
翻訳日:2021-04-07 14:25:25 公開日:2021-04-06
# 犬口笛を吹く: 常識と世界の知識でカントを理解するための中国のデータセット

Blow the Dog Whistle: A Chinese Dataset for Cant Understanding with Common Sense and World Knowledge ( http://arxiv.org/abs/2104.02704v1 )

ライセンス: Link先を確認
Canwen Xu and Wangchunshu Zhou and Tao Ge and Ke Xu and Julian McAuley and Furu Wei(参考訳) カントは、広告、喜劇、ドッグウィスル政治を理解するために重要である。 しかし、cantの計算研究は利用可能なデータセットの欠如によって妨げられている。 本稿では,計算言語学の観点から,カントの作成と理解のための多種多様な中国語データセットを提案する。 本研究では,単語埋め込み類似性と事前学習言語モデルについて,定量的かつ定性的な分析を行う。 実験によれば、このようなタスクには深い言語理解、常識、世界の知識が必要であるため、事前訓練された言語モデルのための優れたテストベッドとなり、モデルが他のタスクをより良く実行するのに役立つ。 コードはhttps://github.com/j etrunner/dogwhistleで入手できる。 データとリーダーボードはhttps://competitions .codalab.org/competi tions/30451で入手できる。

Cant is important for understanding advertising, comedies and dog-whistle politics. However, computational research on cant is hindered by a lack of available datasets. In this paper, we propose a large and diverse Chinese dataset for creating and understanding cant from a computational linguistics perspective. We formulate a task for cant understanding and provide both quantitative and qualitative analysis for tested word embedding similarity and pretrained language models. Experiments suggest that such a task requires deep language understanding, common sense, and world knowledge and thus can be a good testbed for pretrained language models and help models perform better on other tasks. The code is available at https://github.com/J etRunner/dogwhistle. The data and leaderboard are available at https://competitions .codalab.org/competi tions/30451.
翻訳日:2021-04-07 14:25:14 公開日:2021-04-06
# 拡張メモリを用いた仮説駆動型ストリーム学習

Hypothesis-driven Stream Learning with Augmented Memory ( http://arxiv.org/abs/2104.02206v1 )

ライセンス: Link先を確認
Mengmi Zhang, Rohil Badkundri, Morgan B. Talbot, Gabriel Kreiman(参考訳) ストリーム学習とは、データを何度も渡さずに、データの連続的なストリームを通じて知識を取得し、転送する能力を指す。 破滅的な忘れ方を避ける一般的な方法は、画像ピクセルとして保存された古い例のリプレイや生成モデルによって再生された新しい例を散在させることである。 本稿では,画像分類タスクにおけるストリーム学習について考察し,従来の知識を拡張メモリに限られた数の仮説で効率的に統合し,関連する仮説を再現し,破滅的忘れを避けるための新しい仮説駆動記憶ネットワークを提案する。 イメージピクセルリプレイと生成リプレイによる仮説駆動リプレイの利点は2つある。 まず、仮説に基づく知識統合は画像画素空間の冗長な情報を避け、メモリ使用効率を向上させる。 第二に、拡張メモリの仮説を新しいタスクを学習し、一般化と転送学習能力を改善するために再使用することができる。 提案手法を3つのストリーム学習オブジェクト認識データセットで評価した。 本手法は,より効率的なメモリ使用量を提供しながら,SOTA法よりも優れた性能を発揮する。 すべてのソースコードとデータはhttps://github.com/k reimanlab/AugMem.com で公開されている。

Stream learning refers to the ability to acquire and transfer knowledge across a continuous stream of data without forgetting and without repeated passes over the data. A common way to avoid catastrophic forgetting is to intersperse new examples with replays of old examples stored as image pixels or reproduced by generative models. Here, we considered stream learning in image classification tasks and proposed a novel hypotheses-driven Augmented Memory Network, which efficiently consolidates previous knowledge with a limited number of hypotheses in the augmented memory and replays relevant hypotheses to avoid catastrophic forgetting. The advantages of hypothesis-driven replay over image pixel replay and generative replay are two-fold. First, hypothesis-based knowledge consolidation avoids redundant information in the image pixel space and makes memory usage more efficient. Second, hypotheses in the augmented memory can be re-used for learning new tasks, improving generalization and transfer learning ability. We evaluated our method on three stream learning object recognition datasets. Our method performs comparably well or better than SOTA methods, while offering more efficient memory usage. All source code and data are publicly available https://github.com/k reimanlab/AugMem.
翻訳日:2021-04-07 14:24:44 公開日:2021-04-06
# 豚が飛ぶとき:合成シーンと自然シーンにおける文脈推論

When Pigs Fly: Contextual Reasoning in Synthetic and Natural Scenes ( http://arxiv.org/abs/2104.02215v1 )

ライセンス: Link先を確認
Philipp Bomatter, Mengmi Zhang, Dimitar Karev, Spandan Madan, Claire Tseng, Gabriel Kreiman(参考訳) 人間と機械の視覚にとってコンテキストは極めて重要であり、空気中の物体は豚よりも飛行機である可能性が高い。 文脈の豊富な概念は、物理規則、統計的共起、相対的対象サイズなどを含むいくつかの側面を含む。 これまで、ウェブからコンテキスト外写真をクラウドソースして、シーンのコンテキストを研究してきたが、コンテキスト違反の性質と程度を制御することは、非常に厄介な作業だった。 ここでは、シーンコンテキストをきめ細かく制御する多種多様な合成アウトオブコンテキストデータセット(OCD)を紹介する。 3次元シミュレーションエンジンを利用することで、仮想家庭環境における36の対象カテゴリにわたる重力、物体共起、相対サイズを体系的に制御する。 次に、OCDを用いた人間と機械の両方の視覚に対する文脈的手がかりの影響について、一連の実験を行った。 まず、心理物理学実験を行い、文脈外認識のための人間のベンチマークを確立し、次に最先端のコンピュータビジョンモデルと比較し、両者のギャップを定量化する。 最後に,マルチヘッドアテンションによるオブジェクトとコンテキスト情報を融合したコンテキスト認識型トランスフォーマモデルを提案する。 私たちのモデルはコンテキスト推論に有用な情報をキャプチャし、ocdや他の既存のアウトオブコンテキスト自然画像データセットのベースラインモデルと比較して、人間レベルのパフォーマンスとアウトオブコンテキスト条件のロバスト性を大幅に向上します。 すべてのソースコードとデータはhttps://github.com/k reimanlab/WhenPigsFl yContextで公開されている。

Context is of fundamental importance to both human and machine vision -- an object in the air is more likely to be an airplane, than a pig. The rich notion of context incorporates several aspects including physics rules, statistical co-occurrences, and relative object sizes, among others. While previous works have crowd-sourced out-of-context photographs from the web to study scene context, controlling the nature and extent of contextual violations has been an extremely daunting task. Here we introduce a diverse, synthetic Out-of-Context Dataset (OCD) with fine-grained control over scene context. By leveraging a 3D simulation engine, we systematically control the gravity, object co-occurrences and relative sizes across 36 object categories in a virtual household environment. We then conduct a series of experiments to gain insights into the impact of contextual cues on both human and machine vision using OCD. First, we conduct psycho-physics experiments to establish a human benchmark for out-of-context recognition, and then compare it with state-of-the-art computer vision models to quantify the gap between the two. Finally, we propose a context-aware recognition transformer model, fusing object and contextual information via multi-head attention. Our model captures useful information for contextual reasoning, enabling human-level performance and significantly better robustness in out-of-context conditions compared to baseline models across OCD and other existing out-of-context natural image datasets. All source code and data are publicly available https://github.com/k reimanlab/WhenPigsFl yContext.
翻訳日:2021-04-07 14:24:28 公開日:2021-04-06
# 弱い時間的行動局在に対する適応的相互スーパービジョン

Adaptive Mutual Supervision for Weakly-Supervised Temporal Action Localization ( http://arxiv.org/abs/2104.02357v1 )

ライセンス: Link先を確認
Chen Ju, Peisen Zhao, Siheng Chen, Ya Zhang, Xiaoyun Zhang, Qi Tian(参考訳) 弱教師付き時間的アクションローカライゼーションは、ビデオレベルのアクションカテゴリラベルだけで、未トリミングビデオ中のアクションをローカライズすることを目的としている。 従来の手法のほとんどは、簡単な局所化結果に苦しむクラスアクティベーションシーケンス(CAS)の不完全性問題を無視している。 そこで本研究では,基本分枝がcasを採用し,最も識別的行動領域を局在化するとともに,補助分枝が新しい適応的サンプリング器を用いて識別的行動領域を局在化する2つの分枝からなる適応的相互監督フレームワーク(ams)を提案する。 適応サンプリング器は、ベースブランチからCASと負に相関したサンプリング重みシーケンスで補助ブランチの入力を動的に更新し、補助ブランチにベースブランチで過小評価された動作領域をローカライズさせる。 これら2つの分枝間の相互強化を促進するために,相互に位置監視を行う。 各ブランチは、他のブランチから生成されたロケーション擬似ラベルをローカライズ監督として利用する。 複数の繰り返しで2つの枝を交互に最適化することで、段階的に作用領域を完成させる。 THUMOS14とActivityNet1.2の大規模な実験により、提案手法は最先端の手法よりも大幅に優れていることが示された。

Weakly-supervised temporal action localization aims to localize actions in untrimmed videos with only video-level action category labels. Most of previous methods ignore the incompleteness issue of Class Activation Sequences (CAS), suffering from trivial localization results. To solve this issue, we introduce an adaptive mutual supervision framework (AMS) with two branches, where the base branch adopts CAS to localize the most discriminative action regions, while the supplementary branch localizes the less discriminative action regions through a novel adaptive sampler. The adaptive sampler dynamically updates the input of the supplementary branch with a sampling weight sequence negatively correlated with the CAS from the base branch, thereby prompting the supplementary branch to localize the action regions underestimated by the base branch. To promote mutual enhancement between these two branches, we construct mutual location supervision. Each branch leverages location pseudo-labels generated from the other branch as localization supervision. By alternately optimizing the two branches in multiple iterations, we progressively complete action regions. Extensive experiments on THUMOS14 and ActivityNet1.2 demonstrate that the proposed AMS method significantly outperforms the state-of-the-art methods.
翻訳日:2021-04-07 14:24:03 公開日:2021-04-06
# メタ学習環境下での対話ドメイン適応のための学生教師アーキテクチャ

A Student-Teacher Architecture for Dialog Domain Adaptation under the Meta-Learning Setting ( http://arxiv.org/abs/2104.02689v1 )

ライセンス: Link先を確認
Kun Qian, Wei Wei, Zhou Yu(参考訳) これらのドメインのデータを集めながら、毎日多くの新しいダイアログドメインが作成されています。 したがって、データ駆動ダイアログモデルを構築する際に、異なるドメインに効率的に適応できるアルゴリズムを開発することが不可欠である。 ドメイン適応に関する最近の研究は、適応プロセスを最適化するのではなく、モデルにより良い初期化を与えることに重点を置いている。 本稿では,メタ教師モデルを取り入れた効率的なドメイン適応型タスク指向対話システムモデルを提案する。 まず、リッチリソースドメインのメタ学習環境において、ベースダイアログモデルとメタ教師モデルを逆向きにトレーニングする。 メタ教師は異なるドメインの異なるコンテキスト下でトークンの重要性を定量化する。 適応の間、メタ教師はダイアログモデルを指導し、より適応効率を達成するために重要なトークンに焦点を当てる。 我々は,MultiWOZとGoogle Schema-Guided Dialogueという2つのマルチドメインデータセット上でモデルを評価し,最先端のパフォーマンスを実現する。

Numerous new dialog domains are being created every day while collecting data for these domains is extremely costly since it involves human interactions. Therefore, it is essential to develop algorithms that can adapt to different domains efficiently when building data-driven dialog models. The most recent researches on domain adaption focus on giving the model a better initialization, rather than optimizing the adaptation process. We propose an efficient domain adaptive task-oriented dialog system model, which incorporates a meta-teacher model to emphasize the different impacts between generated tokens with respect to the context. We first train our base dialog model and meta-teacher model adversarially in a meta-learning setting on rich-resource domains. The meta-teacher learns to quantify the importance of tokens under different contexts across different domains. During adaptation, the meta-teacher guides the dialog model to focus on important tokens in order to achieve better adaptation efficiency. We evaluate our model on two multi-domain datasets, MultiWOZ and Google Schema-Guided Dialogue, and achieve state-of-the-art performance.
翻訳日:2021-04-07 14:23:18 公開日:2021-04-06
# Shapley Explanation Networks

Shapley Explanation Networks ( http://arxiv.org/abs/2104.02297v1 )

ライセンス: Link先を確認
Rui Wang, Xiaoqian Wang, David I. Inouye(参考訳) シェープ値は、最も人気のある特徴属性説明手法の1つである。 しかし、これまでのほとんどの研究は、急激な時間的複雑さと訓練中のシェープリーの説明に基づくモデル正規化の防止により計算的に要求される、ホック後のシェープリーの説明に焦点を当ててきた。 そこで本研究では,Shapleyの値自体を深層モデルにおける潜在表現として取り入れることで,モデリングパラダイムにおける第一級市民のShapley説明を実現することを提案する。 この本質的な説明アプローチによって、層的な説明、トレーニング中のモデルの説明規則化、テスト時の迅速な説明計算が可能になる。 入力を特定の関数を与えられたShapley表現に変換するShapley変換を定義する。 ニューラルネットワークモジュールとしてShapley変換を運用し、Shapleyモジュールを構成することで、ShapNetsと呼ばれる浅層ネットワークと深層ネットワークの両方を構築します。 我々はShallow ShapNetsがShapleyの正確な値を計算することを証明し、Deep ShapNetsはShapley値の欠如と精度特性を維持している。 私たちは、ShapNetがレイヤーワイドなShapley説明、トレーニング中の新しいShapley正規化、適切なパフォーマンスを維持しながら高速な計算を可能にする合成および実世界のデータセットを実証します。 コードはhttps://github.com/i nouye-lab/shapleyexp lanationnetworksで入手できる。

Shapley values have become one of the most popular feature attribution explanation methods. However, most prior work has focused on post-hoc Shapley explanations, which can be computationally demanding due to its exponential time complexity and preclude model regularization based on Shapley explanations during training. Thus, we propose to incorporate Shapley values themselves as latent representations in deep models thereby making Shapley explanations first-class citizens in the modeling paradigm. This intrinsic explanation approach enables layer-wise explanations, explanation regularization of the model during training, and fast explanation computation at test time. We define the Shapley transform that transforms the input into a Shapley representation given a specific function. We operationalize the Shapley transform as a neural network module and construct both shallow and deep networks, called ShapNets, by composing Shapley modules. We prove that our Shallow ShapNets compute the exact Shapley values and our Deep ShapNets maintain the missingness and accuracy properties of Shapley values. We demonstrate on synthetic and real-world datasets that our ShapNets enable layer-wise Shapley explanations, novel Shapley regularizations during training, and fast computation while maintaining reasonable performance. Code is available at https://github.com/i nouye-lab/ShapleyExp lanationNetworks.
翻訳日:2021-04-07 14:22:48 公開日:2021-04-06
# モデル適応を説明するための対比的説明

Contrastive Explanations for Explaining Model Adaptations ( http://arxiv.org/abs/2104.02459v1 )

ライセンス: Link先を確認
Andr\'e Artelt, Fabian Hinder, Valerie Vaquet, Robert Feldhans, Barbara Hammer(参考訳) 現実世界にデプロイされた意思決定システムは静的ではなく、モデル適応と呼ばれる現象が時間の経過とともに起こる。 aiベースの意思決定モデルの透明性と解釈性の必要性は広く受け入れられ、広く研究されている。 通常、説明手法は、説明しなければならない静的なシステムを仮定する。 非静的システムを説明することは、まだオープンな研究課題であり、モデル適応を説明する方法が課題となっている。% 非静的システムを説明することは、モデル適応を説明する方法の課題である。 本稿では,モデル適応を説明するためのフレームワークを,対照的な説明によって提案し,実際に評価する。 また,与えられたモデル適応によって影響を受けるデータ空間内の領域を自動的に発見する手法を提案する。

Many decision making systems deployed in the real world are not static - a phenomenon known as model adaptation takes place over time. The need for transparency and interpretability of AI-based decision models is widely accepted and thus have been worked on extensively. Usually, explanation methods assume a static system that has to be explained. Explaining non-static systems is still an open research question, which poses the challenge how to explain model adaptations.%Explain ing non-static systems is still an open research question, posing the challenge how to explain model adaptations. In this contribution, we propose and (empirically) evaluate a framework for explaining model adaptations by contrastive explanations. We also propose a method for automatically finding regions in data space that are affected by a given model adaptation and thus should be explained.
翻訳日:2021-04-07 14:22:26 公開日:2021-04-06
# 不均衡データ手法の調査

Survey of Imbalanced Data Methodologies ( http://arxiv.org/abs/2104.02240v1 )

ライセンス: Link先を確認
Lian Yu, Nengfeng Zhou(参考訳) 不均衡データセットは金融業界でよく見られよく研究されている問題である。 本稿では,データ不均衡を扱う一般的な手法をレビューし,比較する。 次に,uciおよびkeelデータセット上の複数のモデリングアルゴリズムにアンダーサンプリング/オーバーサンプリング手法を適用した。 クラス不均衡法, モデリングアルゴリズム, グリッド検索基準の比較を行った。

Imbalanced data set is a problem often found and well-studied in financial industry. In this paper, we reviewed and compared some popular methodologies handling data imbalance. We then applied the under-sampling/over- sampling methodologies to several modeling algorithms on UCI and Keel data sets. The performance was analyzed for class-imbalance methods, modeling algorithms and grid search criteria comparison.
翻訳日:2021-04-07 14:21:17 公開日:2021-04-06
# 生成逆数ネットワークにおける全モード被覆のためのレバレッジスコアサンプリング

Leverage Score Sampling for Complete Mode Coverage in Generative Adversarial Networks ( http://arxiv.org/abs/2104.02373v1 )

ライセンス: Link先を確認
Joachim Schreurs, Hannes De Meulemeester, Micha\"el Fanuel, Bart De Moor and Johan A.K. Suykens(参考訳) 一般的に、機械学習モデルは経験的期待を最小限に抑える。 その結果、トレーニングされたモデルは通常、データの大部分でうまく機能するが、データセットの密度の低い領域ではパフォーマンスが低下する可能性がある。 この問題は生成的モデリングにも現れる。 生成モデルは、経験的データ分布において頻度の低い未表現モードを見落としうる。 この問題は完全モードカバレッジとして知られている。 本稿では、標準手法と比較してモードカバレッジを大幅に改善し、任意のGANと容易に組み合わせることができるリッジレバレッジスコアに基づくサンプリング手順を提案する。 Ridge Leverage Scores (RLS) は、GAN識別器の次のラスト層と関連する明示的な特徴写像、またはガウスカーネルに対応する暗黙的な特徴写像を用いて計算される。 近年の完全モードカバレッジのアプローチに対する複数の評価は、提案したサンプリング戦略を用いて明らかに改善されている。

Commonly, machine learning models minimize an empirical expectation. As a result, the trained models typically perform well for the majority of the data but the performance may deteriorate on less dense regions of the dataset. This issue also arises in generative modeling. A generative model may overlook underrepresented modes that are less frequent in the empirical data distribution. This problem is known as complete mode coverage. We propose a sampling procedure based on ridge leverage scores which significantly improves mode coverage when compared to standard methods and can easily be combined with any GAN. Ridge Leverage Scores (RLSs) are computed by using an explicit feature map, associated with the next-to-last layer of a GAN discriminator or of a pre-trained network, or by using an implicit feature map corresponding to a Gaussian kernel. Multiple evaluations against recent approaches of complete mode coverage show a clear improvement when using the proposed sampling strategy.
翻訳日:2021-04-07 14:21:13 公開日:2021-04-06
# レイアウト生成のための変分トランスネットワーク

Variational Transformer Networks for Layout Generation ( http://arxiv.org/abs/2104.02416v1 )

ライセンス: Link先を確認
Diego Martin Arroyo, Janis Postels and Federico Tombari(参考訳) 異なる種類のレイアウト(例えば、)を合成できる生成モデル。 文書、ユーザインターフェース、家具の配置は、設計プロセスを助け、合成データの生成の第1ステップとして、その他のタスクにおいて有用なツールである。 レイアウト中の要素間の高レベルな関係を捉えるために,自己注意層の特性を活用し,よく知られた変分オートエンコーダ(VAE)の構成要素として利用する。 提案する変分変換ネットワーク(VTN)は,明示的な監督なしにマージン,アライメント,その他のグローバルな設計規則を学習することができる。 我々のモデルから採取したレイアウトは、トレーニングデータと高い類似性を示しながら、魅力的な多様性を示している。 異なるレイアウトタイプのVTNに対する公開ベンチマークに関する広範な評価では、最先端の多様性と知覚品質が得られる。 さらに,文書レイアウト検出パイプラインの一部として,本手法の有効性を示す。

Generative models able to synthesize layouts of different kinds (e.g. documents, user interfaces or furniture arrangements) are a useful tool to aid design processes and as a first step in the generation of synthetic data, among other tasks. We exploit the properties of self-attention layers to capture high level relationships between elements in a layout, and use these as the building blocks of the well-known Variational Autoencoder (VAE) formulation. Our proposed Variational Transformer Network (VTN) is capable of learning margins, alignments and other global design rules without explicit supervision. Layouts sampled from our model have a high degree of resemblance to the training data, while demonstrating appealing diversity. In an extensive evaluation on publicly available benchmarks for different layout types VTNs achieve state-of-the-art diversity and perceptual quality. Additionally, we show the capabilities of this method as part of a document layout detection pipeline.
翻訳日:2021-04-07 14:20:59 公開日:2021-04-06
# 統合マイズショット分類ベンチマークにおけるトランスファーとメタラーニングのアプローチの比較

Comparing Transfer and Meta Learning Approaches on a Unified Few-Shot Classification Benchmark ( http://arxiv.org/abs/2104.02638v1 )

ライセンス: Link先を確認
Vincent Dumoulin, Neil Houlsby, Utku Evci, Xiaohua Zhai, Ross Goroshin, Sylvain Gelly, Hugo Larochelle(参考訳) メタとトランスファーの学習は、2つの成功したアプローチのファミリーである。 極めて関連性の高い目標にもかかわらず、それぞれの家族の最先端は互いに独立して測定される。 評価基準の多様化の結果、異なるアプローチの直接的あるいは徹底的な比較が困難である。 このギャップを埋めるために,大規模なメタ学習ベンチマーク(meta-dataset, md)とトランスファー学習ベンチマーク(visual task adaptation benchmark, vtab)の両方において,最高のトランスファーとメタ学習者の家族間比較を行った。 その結果,ImageNetでのみトレーニングした場合においても,大規模転送方式(Big Transfer, BiT)はMD上での競合手法よりも優れていた。 対照的に、メタラーニングアプローチは、MDでトレーニングされ、検証されたとき、VTABで競うのに苦労する。 しかし、BiTには制限がなく、スケールを推し進めることによってMDタスクの性能は向上しない。 本研究では,評価基準の相違点を数多く明らかにし,それらのいくつかを性能の差から検討する。 この作業が各コミュニティからの洞察の共有を促進し、数発の学習の進捗を加速することを期待しています。

Meta and transfer learning are two successful families of approaches to few-shot learning. Despite highly related goals, state-of-the-art advances in each family are measured largely in isolation of each other. As a result of diverging evaluation norms, a direct or thorough comparison of different approaches is challenging. To bridge this gap, we perform a cross-family study of the best transfer and meta learners on both a large-scale meta-learning benchmark (Meta-Dataset, MD), and a transfer learning benchmark (Visual Task Adaptation Benchmark, VTAB). We find that, on average, large-scale transfer methods (Big Transfer, BiT) outperform competing approaches on MD, even when trained only on ImageNet. In contrast, meta-learning approaches struggle to compete on VTAB when trained and validated on MD. However, BiT is not without limitations, and pushing for scale does not improve performance on highly out-of-distribution MD tasks. In performing this study, we reveal a number of discrepancies in evaluation norms and study some of these in light of the performance gap. We hope that this work facilitates sharing of insights from each community, and accelerates progress on few-shot learning.
翻訳日:2021-04-07 14:20:43 公開日:2021-04-06
# 新しい並列適応クラスタリングとストリーミングデータへの応用

A New Parallel Adaptive Clustering and its Application to Streaming Data ( http://arxiv.org/abs/2104.02680v1 )

ライセンス: Link先を確認
Benjamin McLaughlin, Sung Ha Kang(参考訳) 本稿では,適切な数のクラスを同時に選択しながら,自動的にデータを分類する並列適応クラスタリング(pac)アルゴリズムを提案する。 クラスタリングは、データリダクション、パターン分析、分類を含む幅広い領域において、データ分析と理解のための重要なツールである。 しかし,クラスタリングの課題として,事前にクラスタ数を指定すること,大規模なデータセットのクラスタリングに伴う計算負担が継続する。 本稿では,クラスタ数を適応的に計算し,並列コンピューティングのパワーを活用することで,これらの課題に対処する新しい並列適応クラスタリング(PAC)アルゴリズムを提案する。 アルゴリズムは並列計算スレッド上でデータの分離サブセットをクラスタ化する。 並列スレッドの結果を効率的にクラスタリングする正規化集合 \mi{k}-means を開発した。 改良ステップはクラスタをさらに改善する。 PACアルゴリズムは、以前の時間ステップからの情報を再利用して計算を減らし、時間とともに変化するデータセットを適応的にクラスタリングする機能を提供する。 理論的解析と数値実験を行い,提案手法の性能評価を行い,その特性を検証し,提案手法の計算効率を実証する。

This paper presents a parallel adaptive clustering (PAC) algorithm to automatically classify data while simultaneously choosing a suitable number of classes. Clustering is an important tool for data analysis and understanding in a broad set of areas including data reduction, pattern analysis, and classification. However, the requirement to specify the number of clusters in advance and the computational burden associated with clustering large sets of data persist as challenges in clustering. We propose a new parallel adaptive clustering (PAC) algorithm that addresses these challenges by adaptively computing the number of clusters and leveraging the power of parallel computing. The algorithm clusters disjoint subsets of the data on parallel computation threads. We develop regularized set \mi{k}-means to efficiently cluster the results from the parallel threads. A refinement step further improves the clusters. The PAC algorithm offers the capability to adaptively cluster data sets which change over time by reusing the information from previous time steps to decrease computation. We provide theoretical analysis and numerical experiments to characterize the performance of the method, validate its properties, and demonstrate the computational efficiency of the method.
翻訳日:2021-04-07 14:19:48 公開日:2021-04-06
# マルチエージェント行動データセット:マウスdyadic social interaction

The Multi-Agent Behavior Dataset: Mouse Dyadic Social Interactions ( http://arxiv.org/abs/2104.02710v1 )

ライセンス: Link先を確認
Jennifer J. Sun, Tomomi Karigo, Dipam Chakraborty, Sharada P. Mohanty, David J. Anderson, Pietro Perona, Yisong Yue, Ann Kennedy(参考訳) マルチエージェント行動モデリングはエージェント間の相互作用を理解することを目的としている。 行動神経科学のマルチエージェントデータセットであるCaltech Mouse Social Interactions (CalMS21) データセットについて述べる。 我々のデータセットは、標準常住イントルーダアッセイにおける自由行動マウス間の社会的相互作用で構成されている。 calms21データセットは、マルチエージェントビヘイビアチャレンジ2021の一部であり、次のステップでは、マルチエージェントビヘイビアを研究する他のドメインのデータセットを組み込むことを目指しています。 行動研究を加速するために、calms21データセットは、3つの設定で自動行動分類手法の性能を評価するベンチマークを提供する。(1) 大規模行動データセットのトレーニングは、すべて1つの注釈によってアノテートされる、(2) スタイル転送は、行動定義におけるアノテーション間差異を学習する、(3) 限られた訓練データによって、関心のある新しい行動の学習である。 データセットは600万フレームのラベルなしのマウスの追跡されたポーズと、100万フレームの追跡されたポーズと対応するフレームレベルの振る舞いアノテーションで構成されている。 データセットの課題は、ラベル付きとラベルなしの追跡データの両方を使用して、行動を正確に分類できることと、新しい注釈や行動に一般化できることです。

Multi-agent behavior modeling aims to understand the interactions that occur between agents. We present a multi-agent dataset from behavioral neuroscience, the Caltech Mouse Social Interactions (CalMS21) Dataset. Our dataset consists of the social interactions between freely behaving mice in a standard resident-intruder assay. The CalMS21 dataset is part of the Multi-Agent Behavior Challenge 2021 and for our next step, we aim to incorporate datasets from other domains studying multi-agent behavior. To help accelerate behavioral studies, the CalMS21 dataset provides a benchmark to evaluate the performance of automated behavior classification methods in three settings: (1) for training on large behavioral datasets all annotated by a single annotator, (2) for style transfer to learn inter-annotator differences in behavior definitions, and (3) for learning of new behaviors of interest given limited training data. The dataset consists of 6 million frames of unlabelled tracked poses of interacting mice, as well as over 1 million frames with tracked poses and corresponding frame-level behavior annotations. The challenge of our dataset is to be able to classify behaviors accurately using both labelled and unlabelled tracking data, as well as being able to generalize to new annotators and behaviors.
翻訳日:2021-04-07 14:19:34 公開日:2021-04-06
# XNOR交通信号分類器のためのハードウェア高速化手法の探索

Exploration of Hardware Acceleration Methods for an XNOR Traffic Signs Classifier ( http://arxiv.org/abs/2104.02303v1 )

ライセンス: Link先を確認
Dominika Przewlocka-Rus, Marcin Kowalczyk, Tomasz Kryjak(参考訳) ディープラーニングアルゴリズムは多くの最先端のビジョンシステムの主要なコンポーネントであり、特に畳み込みニューラルネットワーク(CNN)は精度においてほとんどのソリューションより優れている。 このようなアルゴリズムをリアルタイムアプリケーションに適用するには、メモリと計算の複雑さの課題に対処する必要がある。 最初の問題に対処するために、精度の低いネットワーク、特にバイナリニューラルネットワーク(XNORとも呼ばれる)を使用します。 計算要求を満たすため,高並列・低消費電力FPGAデバイスを提案する。 本研究では,交通標識分類におけるXNORネットワークの高速化の可能性を検討する。 訓練されたバイナリネットワークは、2つの異なるアプローチを用いてZCU 104開発ボード上に実装され、Zynq UltraScale+ MPSoCデバイスを備えている。 まず、約450fpsで推論が可能なxnorネットワーク用のカスタムhdlアクセラレータを提案する。 さらによい結果が得られたのは、Xilinx FINNアクセラレーターである第2の手法により、約550フレームレートで入力画像を処理することができる。 どちらのアプローチも、テストセットで96%以上の精度を提供する。

Deep learning algorithms are a key component of many state-of-the-art vision systems, especially as Convolutional Neural Networks (CNN) outperform most solutions in the sense of accuracy. To apply such algorithms in real-time applications, one has to address the challenges of memory and computational complexity. To deal with the first issue, we use networks with reduced precision, specifically a binary neural network (also known as XNOR). To satisfy the computational requirements, we propose to use highly parallel and low-power FPGA devices. In this work, we explore the possibility of accelerating XNOR networks for traffic sign classification. The trained binary networks are implemented on the ZCU 104 development board, equipped with a Zynq UltraScale+ MPSoC device using two different approaches. Firstly, we propose a custom HDL accelerator for XNOR networks, which enables the inference with almost 450 fps. Even better results are obtained with the second method - the Xilinx FINN accelerator - enabling to process input images with around 550 frame rate. Both approaches provide over 96% accuracy on the test set.
翻訳日:2021-04-07 14:19:12 公開日:2021-04-06
# 物理世界のバックドア攻撃

Backdoor Attack in the Physical World ( http://arxiv.org/abs/2104.02361v1 )

ライセンス: Link先を確認
Yiming Li, Tongqing Zhai, Yong Jiang, Zhifeng Li, Shu-Tao Xia(参考訳) バックドア攻撃は、ディープニューラルネットワーク(DNN)に隠れたバックドアを注入することを目的としており、攻撃者が定義したトリガーによって隠れたバックドアがアクティベートされた場合、感染したモデルの予測が悪意的に変更される。 現在、既存のバックドア攻撃のほとんどは静的トリガーの設定を採用しており、トレーニング全体にわたって$$トリガーとテストイメージは同じ外観で、同じエリアに置かれている。 本稿では,この攻撃パラダイムをトリガー特性の分析により再検討する。 テスト画像のトリガーがトレーニングで使用されるものと一致していない場合、この攻撃パラダイムは脆弱であることを示す。 このような攻撃は、デジタル化された画像におけるトリガーの位置と外観が、トレーニングに使用されるものとは異なる可能性がある物理的な世界では、はるかに効果が低い。 さらに,このような脆弱性を緩和する方法についても論じる。 この研究がバックドア特性のさらなる探求を刺激し、より先進的なバックドア攻撃および防御方法の設計を支援することを期待している。

Backdoor attack intends to inject hidden backdoor into the deep neural networks (DNNs), such that the prediction of infected models will be maliciously changed if the hidden backdoor is activated by the attacker-defined trigger. Currently, most existing backdoor attacks adopted the setting of static trigger, $i.e.,$ triggers across the training and testing images follow the same appearance and are located in the same area. In this paper, we revisit this attack paradigm by analyzing trigger characteristics. We demonstrate that this attack paradigm is vulnerable when the trigger in testing images is not consistent with the one used for training. As such, those attacks are far less effective in the physical world, where the location and appearance of the trigger in the digitized image may be different from that of the one used for training. Moreover, we also discuss how to alleviate such vulnerability. We hope that this work could inspire more explorations on backdoor properties, to help the design of more advanced backdoor attack and defense methods.
翻訳日:2021-04-07 14:18:55 公開日:2021-04-06
# LT-LM:シングルショット格子再構成のための新しい非自己回帰型言語モデル

LT-LM: a novel non-autoregressive language model for single-shot lattice rescoring ( http://arxiv.org/abs/2104.02526v1 )

ライセンス: Link先を確認
Anton Mitrofanov, Mariya Korenevskaya, Ivan Podluzhny, Yuri Khokhlov, Aleksandr Laptev, Andrei Andrusenko, Aleksei Ilin, Maxim Korenevsky, Ivan Medennikov, Aleksei Romanenko(参考訳) ニューラルネットワークに基づく言語モデルは、現代の自動音声認識(ASR)システムの品質を改善するために、一般的な方法で使用されている。 既存の手法の多くは自己回帰言語モデルを使用するため、計算コストがかかる。 本稿では,格子全体をモデルへの単一呼び出しで処理する新しいリスコリング手法を提案する。 我々のリスコリングポリシーの重要な特徴は、非自己回帰型格子変換言語モデル(LT-LM)である。 このモデルは格子全体を入力として、各弧に対する新しい言語スコアを予測する。 さらに,LT-LM学習プロセスに大量のテキストデータを組み込むための人工格子生成手法を提案する。 我々の単発リスコリングは、実験における他のリスコリング手法よりも桁違いに高速に行う。 RNNLM格子の微細化やNベストの微細化よりも300倍以上高速で、WERでは若干劣っている。

Neural network-based language models are commonly used in rescoring approaches to improve the quality of modern automatic speech recognition (ASR) systems. Most of the existing methods are computationally expensive since they use autoregressive language models. We propose a novel rescoring approach, which processes the entire lattice in a single call to the model. The key feature of our rescoring policy is a novel non-autoregressive Lattice Transformer Language Model (LT-LM). This model takes the whole lattice as an input and predicts a new language score for each arc. Additionally, we propose the artificial lattices generation approach to incorporate a large amount of text data in the LT-LM training process. Our single-shot rescoring performs orders of magnitude faster than other rescoring methods in our experiments. It is more than 300 times faster than pruned RNNLM lattice rescoring and N-best rescoring while slightly inferior in terms of WER.
翻訳日:2021-04-07 14:18:25 公開日:2021-04-06
# 熱快適・エネルギー効率のためのインテリジェントビル管理システム:人工知能支援技術のシステムレビュー

Intelligent Building Control Systems for Thermal Comfort and Energy-Efficiency: A Systematic Review of Artificial Intelligence-Assiste d Techniques ( http://arxiv.org/abs/2104.02214v1 )

ライセンス: Link先を確認
Ghezlane Halhoul Merabet, Mohamed Essaaidi, Mohamed Ben Haddou, Basheer Qolomany, Junaid Qadir, Muhammad Anan, Ala Al-Fuqaha, Mohamed Riduan Abid, Driss Benhaddou(参考訳) 建設作業は、暖房、換気、空気調和(HVAC)の設置が増加し、熱快適性の改善が要求されるため、ほとんどの国で消費される一次エネルギーのかなりの割合を占めている。 建物内の快適な環境を維持しながら関連するエネルギー消費を減らすことは、目的と矛盾し、インテリジェントシステム設計を必要とする典型的な最適化問題である。 過去10年間で、HVACシステムにおけるエネルギー使用と、居住者に適切な室内快適度との間のスイートスポットを見つけるために、AI(Artificial Intelligence)技術に基づくさまざまな方法論が展開された。 本稿では, これらの手法の出力を評価し, その実装を検証し, 熱的快適性を維持しつつ, エネルギー効率を向上させる能力について検討し, 制御システム構築に使用するAI技術について, 包括的かつ詳細な体系的レビューを行う。 これにより、(1)エネルギー効率のよい建物内部の利用者に熱的快適さを届ける複雑さ、(2)それに伴う文献資料を総合的に把握し、そのような課題に取り組む研究者や専門家を支援することができる。 エネルギー消費と快適制御の両方のために開発された20のAIツールの中で、識別と認識パターン、最適化、予測制御といった機能がある。 この研究の結果に基づき、AI技術による制御の構築は研究の有望な領域であり、現在も進行中である、つまり、AIベースの制御のパフォーマンスは、まだ完全に満足できない。 これは主に、これらのアルゴリズムが通常、建物やより正確にはエネルギーセクターに欠けている大量の高品質の現実世界データを必要とするという事実による。

Building operations represent a significant percentage of the total primary energy consumed in most countries due to the proliferation of Heating, Ventilation and Air-Conditioning (HVAC) installations in response to the growing demand for improved thermal comfort. Reducing the associated energy consumption while maintaining comfortable conditions in buildings are conflicting objectives and represent a typical optimization problem that requires intelligent system design. Over the last decade, different methodologies based on the Artificial Intelligence (AI) techniques have been deployed to find the sweet spot between energy use in HVAC systems and suitable indoor comfort levels to the occupants. This paper performs a comprehensive and an in-depth systematic review of AI-based techniques used for building control systems by assessing the outputs of these techniques, and their implementations in the reviewed works, as well as investigating their abilities to improve the energy-efficiency, while maintaining thermal comfort conditions. This enables a holistic view of (1) the complexities of delivering thermal comfort to users inside buildings in an energy-efficient way, and (2) the associated bibliographic material to assist researchers and experts in the field in tackling such a challenge. Among the 20 AI tools developed for both energy consumption and comfort control, functions such as identification and recognition patterns, optimization, predictive control. Based on the findings of this work, the application of AI technology in building control is a promising area of research and still an ongoing, i.e., the performance of AI-based control is not yet completely satisfactory. This is mainly due in part to the fact that these algorithms usually need a large amount of high-quality real-world data, which is lacking in the building or, more precisely, the energy sector.
翻訳日:2021-04-07 14:18:11 公開日:2021-04-06
# 性の基礎: 機械学習アプリケーションにおけるジェンダーバイアスの概観

On the Basis of Sex: A Review of Gender Bias in Machine Learning Applications ( http://arxiv.org/abs/2104.02532v1 )

ライセンス: Link先を確認
Tal Feldman and Ashley Peake(参考訳) 機械学習モデルは社会のほぼすべての側面に展開され、多くの場合、多くの個人の社会福祉に影響を与える。 これらのモデルは大きな問題に対する合理化された解決策を提供するが、バイアスを含み、グループや個人を不公平に扱うことができる。 我々の知る限り、このレビューは機械学習の応用における性別バイアスに特に焦点を当てた最初の1つである。 まず,機械学習によるジェンダーバイアスの実践例を紹介する。 次に、機械学習モデルをより公平にする方法に対処するために、最も広く使われているフェアネスの形式化を詳述する。 具体的には、モデルが性差別の確率が高い領域に適用された最も影響力のあるバイアス緩和アルゴリズムについて論じる。 これらのアルゴリズムを,データから直接バイアスを取り除き,トレーニングを通じてモデルからバイアスを取り除くという,2つの包括的なアプローチに分類し,その代表例を示す。 社会は意思決定を助けるために人工知能にますます頼っているので、これらのモデルに存在する性別バイアスに対処することは必須である。 機械学習モデルの公平性を評価するツールを提供し、そのバイアスを軽減するために、aiにおける公平性のための複数のオープンソースパッケージについて議論する。

Machine Learning models have been deployed across almost every aspect of society, often in situations that affect the social welfare of many individuals. Although these models offer streamlined solutions to large problems, they may contain biases and treat groups or individuals unfairly. To our knowledge, this review is one of the first to focus specifically on gender bias in applications of machine learning. We first introduce several examples of machine learning gender bias in practice. We then detail the most widely used formalizations of fairness in order to address how to make machine learning models fairer. Specifically, we discuss the most influential bias mitigation algorithms as applied to domains in which models have a high propensity for gender discrimination. We group these algorithms into two overarching approaches -- removing bias from the data directly and removing bias from the model through training -- and we present representative examples of each. As society increasingly relies on artificial intelligence to help in decision-making, addressing gender biases present in these models is imperative. To provide readers with the tools to assess the fairness of machine learning models and mitigate the biases present in them, we discuss multiple open source packages for fairness in AI.
翻訳日:2021-04-07 14:17:44 公開日:2021-04-06
# 適応ノイズ注入による推論プライバシーの実現

Enabling Inference Privacy with Adaptive Noise Injection ( http://arxiv.org/abs/2104.02261v1 )

ライセンス: Link先を確認
Sanjay Kariyappa, Ousmane Dia and Moinuddin K Qureshi(参考訳) ユーザ対応のソフトウェアサービスは、クライアントの推論タスクを実行するDeep Neural Network(DNN)モデルをホストするリモートサーバにますます依存している。 このようなサービスでは、クライアントがサービスプロバイダに入力データを送信し、DNNを使用して処理し、クライアントに出力予測を返す必要があります。 画像や音声などの入力の豊富な性質から、入力は一次推論タスクを実行するために必要な情報よりも多くの情報を含むことが多い。 従って、プライマリ推論タスクに加えて、悪意のあるサービスプロバイダは入力から二次(センシティブ)属性を推測し、クライアントのプライバシを侵害することができる。 本研究の目的は、入力にノイズを注入し、一次分類タスクに関係のない特徴を隠すことにより、推論プライバシを改善することである。 そこで本研究では,クライアント側の軽量DNNを用いて各入力にノイズを注入し,それをサービスプロバイダに送信して推論を行うAdaptive Noise Injection (ANI)を提案する。 我々の重要な洞察は、各入力にノイズをカスタマイズすることで、ユーティリティとプライバシの間の最先端のトレードオフを達成することができる(最大48.5%の機密タスク精度の低下と1%の一次精度の低下)。 本手法では,感度特性の事前知識を必要とせず,計算オーバーヘッドを最小限に抑える。

User-facing software services are becoming increasingly reliant on remote servers to host Deep Neural Network (DNN) models, which perform inference tasks for the clients. Such services require the client to send input data to the service provider, who processes it using a DNN and returns the output predictions to the client. Due to the rich nature of the inputs such as images and speech, the input often contains more information than what is necessary to perform the primary inference task. Consequently, in addition to the primary inference task, a malicious service provider could infer secondary (sensitive) attributes from the input, compromising the client's privacy. The goal of our work is to improve inference privacy by injecting noise to the input to hide the irrelevant features that are not conducive to the primary classification task. To this end, we propose Adaptive Noise Injection (ANI), which uses a light-weight DNN on the client-side to inject noise to each input, before transmitting it to the service provider to perform inference. Our key insight is that by customizing the noise to each input, we can achieve state-of-the-art trade-off between utility and privacy (up to 48.5% degradation in sensitive-task accuracy with <1% degradation in primary accuracy), significantly outperforming existing noise injection schemes. Our method does not require prior knowledge of the sensitive attributes and incurs minimal computational overheads.
翻訳日:2021-04-07 14:16:57 公開日:2021-04-06
# 禁制による対向的ロバストネスの改ざん

Taming Adversarial Robustness via Abstaining ( http://arxiv.org/abs/2104.02334v1 )

ライセンス: Link先を確認
Abed AlRahman Al Makdah and Vaibhav Katewa and Fabio Pasqualetti(参考訳) 本研究では、二項分類問題を考慮し、それを二項仮説テストフレームワークに配置し、敵によって観測を妨害することができる。 分類器の対向ロバスト性を改善するために,予測に対する信頼度が低い場合には,分類器が判定を棄却する棄却オプションを含める。 本稿では, 対角的摂動に対する頑健さを抑えながら, 分類器の名目性能を定量的に評価する指標を提案する。 吸収領域の選択にどの方法が使われているかに関わらず,この2つの指標の間にはトレードオフが存在することを示す。 以上の結果から,分類器の頑健性は,その名目上の性能を犠牲にして向上することが示唆された。 さらに, 1次元二項分類問題に対して, 吸収領域を設計するために必要な条件を提供する。 我々はMNISTデータセットの理論的結果を検証し、一般的な多クラス分類問題にも性能と堅牢性のトレードオフがあることを数値的に示す。

In this work, we consider a binary classification problem and cast it into a binary hypothesis testing framework, where the observations can be perturbed by an adversary. To improve the adversarial robustness of a classifier, we include an abstaining option, where the classifier abstains from taking a decision when it has low confidence about the prediction. We propose metrics to quantify the nominal performance of a classifier with abstaining option and its robustness against adversarial perturbations. We show that there exist a tradeoff between the two metrics regardless of what method is used to choose the abstaining region. Our results imply that the robustness of a classifier with abstaining can only be improved at the expense of its nominal performance. Further, we provide necessary conditions to design the abstaining region for a 1-dimensional binary classification problem. We validate our theoretical results on the MNIST dataset, where we numerically show that the tradeoff between performance and robustness also exist for the general multi-class classification problems.
翻訳日:2021-04-07 14:16:31 公開日:2021-04-06
# deepregression:半構造化深分布回帰のためのフレキシブルニューラルネットワークフレームワーク

deepregression: a Flexible Neural Network Framework for Semi-Structured Deep Distributional Regression ( http://arxiv.org/abs/2104.02705v1 )

ライセンス: Link先を確認
David R\"ugamer, Ruolin Shen, Christina Bukas, Lisa Barros de Andrade e Sousa, Dominik Thalmeier, Nadja Klein, Chris Kolb, Florian Pfisterer, Philipp Kopper, Bernd Bischl, Christian L. M\"uller(参考訳) 本稿では,加法回帰モデルと深層ニューラルネットワークの組み合わせに基づく分布学習のための柔軟なフレームワークである半構造化深層分布回帰の実装について述べる。 Deepregressionはそれぞれ、ディープラーニングライブラリTensorFlowとPyTorchを使用して、RとPythonの両方で実装されている。 実装は,(1)様々な統計的・深層学習手法を組み合わせたモジュール型ニューラルネットワーク構築システム,(2)異なるサブネットワークの解釈可能な組み合わせを可能にする直交セル,(3)モデルの初期化に必要な前処理ステップで構成される。 ソフトウェアパッケージは、mgcvのような古典的な統計モデルフレームワークにインスパイアされた公式環境を介して、分布定義を使って、ユーザーフレンドリーな方法でモデルを定義することができる。 パッケージのモジュール設計と機能は、複雑な統計的および深層学習モデルの迅速かつ再現可能なプロトタイピングのためのユニークなリソースを提供すると同時に、古典的な統計モデルの必然的解釈性を同時に維持する。

This paper describes the implementation of semi-structured deep distributional regression, a flexible framework to learn distributions based on a combination of additive regression models and deep neural networks. deepregression is implemented in both R and Python, using the deep learning libraries TensorFlow and PyTorch, respectively. The implementation consists of (1) a modular neural network building system for the combination of various statistical and deep learning approaches, (2) an orthogonalization cell to allow for an interpretable combination of different subnetworks as well as (3) pre-processing steps necessary to initialize such models. The software package allows to define models in a user-friendly manner using distribution definitions via a formula environment that is inspired by classical statistical model frameworks such as mgcv. The packages' modular design and functionality provides a unique resource for rapid and reproducible prototyping of complex statistical and deep learning models while simultaneously retaining the indispensable interpretability of classical statistical models.
翻訳日:2021-04-07 14:16:15 公開日:2021-04-06
# 肺胸部X線の非平衡・マルチクラスコンピュータビジョン分類のためのインライン画像変換

In-Line Image Transformations for Imbalanced, Multiclass Computer Vision Classification of Lung Chest X-Rays ( http://arxiv.org/abs/2104.02238v1 )

ライセンス: Link先を確認
Alexandrea K. Ramnarine(参考訳) 人工知能(ai)は、現代技術の進歩により、健康と疾患を区別する解剖学と病理学の特徴を、高度に専門化された医師の正確さで学べるようになり、医療分野を混乱させている。 コンピュータビジョンAIアプリケーションは、肺胸X線(LCXR)などの医療画像を使用して、医師や放射線技師の解釈に加えて、第2のオピニオンを提供することで診断を容易にする。 現在のコロナウイルス(COVID-19)のパンデミックの出現を考えると、LCXRは感染封じ込めを間接的に支援するための迅速な洞察を提供するが、新しい疾患に対する確実にラベル付けされた画像データセットを作成することは容易ではない。 convolutional neural networks(cnns)のようなディープラーニング技術は、他の肺病理学において健康状態と疾患状態を区別する特徴を選択することができる。 さらに,本研究では,CNNアーキテクチャを用いて高速多クラスLCXRの94%の精度で分類する。

Artificial intelligence (AI) is disrupting the medical field as advances in modern technology allow common household computers to learn anatomical and pathological features that distinguish between healthy and disease with the accuracy of highly specialized, trained physicians. Computer vision AI applications use medical imaging, such as lung chest X-Rays (LCXRs), to facilitate diagnoses by providing second-opinions in addition to a physician's or radiologist's interpretation. Considering the advent of the current Coronavirus disease (COVID-19) pandemic, LCXRs may provide rapid insights to indirectly aid in infection containment, however generating a reliably labeled image dataset for a novel disease is not an easy feat, nor is it of highest priority when combating a global pandemic. Deep learning techniques such as convolutional neural networks (CNNs) are able to select features that distinguish between healthy and disease states for other lung pathologies; this study aims to leverage that body of literature in order to apply image transformations that would serve to balance the lack of COVID-19 LCXR data. Furthermore, this study utilizes a simple CNN architecture for high-performance multiclass LCXR classification at 94 percent accuracy.
翻訳日:2021-04-07 14:15:29 公開日:2021-04-06
# 相対的類似性を考慮したシーングラフ埋め込み

Scene Graph Embeddings Using Relative Similarity Supervision ( http://arxiv.org/abs/2104.02381v1 )

ライセンス: Link先を確認
Paridhi Maheshwari, Ritwick Chaudhry, Vishwa Vinay(参考訳) シーングラフは画像の基盤となる内容の強力な構造化表現であり、それらから派生した埋め込みは複数の下流タスクで有用であることが示されている。 本研究では,シーングラフの構造を利用するグラフ畳み込みネットワークを用い,セマンティックな画像検索に有用な画像埋め込みを生成する。 画像表現を学習するために伝統的に使用可能な分類中心の監督とは違って、ランキングコンテキストにおける相対的類似性ラベルから学習するタスクに対処する。 コントラスト学習パラダイムに根ざし,類似画像と類似画像のペアを操作し,それらの間の相対順序を埋め込み空間に強制する新しい損失関数を提案する。 このランク付け損失と直感的なトリプルサンプリング戦略が組み合わさって、検索タスクにおいてよく知られたコントラスト的損失よりも優れたロバスト表現をもたらすことを示す。 また,構造化されたシーン情報を利用した検索結果が,視覚的類似性検索と異なり,シーンのグローバルコンテキストを捉えた質的証拠を提供する。

Scene graphs are a powerful structured representation of the underlying content of images, and embeddings derived from them have been shown to be useful in multiple downstream tasks. In this work, we employ a graph convolutional network to exploit structure in scene graphs and produce image embeddings useful for semantic image retrieval. Different from classification-centr ic supervision traditionally available for learning image representations, we address the task of learning from relative similarity labels in a ranking context. Rooted within the contrastive learning paradigm, we propose a novel loss function that operates on pairs of similar and dissimilar images and imposes relative ordering between them in embedding space. We demonstrate that this Ranking loss, coupled with an intuitive triple sampling strategy, leads to robust representations that outperform well-known contrastive losses on the retrieval task. In addition, we provide qualitative evidence of how retrieved results that utilize structured scene information capture the global context of the scene, different from visual similarity search.
翻訳日:2021-04-07 14:15:10 公開日:2021-04-06
# Pinyin Mask-CTCと単語埋め込み正規化を用いた非自己回帰マンダリン音声スイッチング音声認識

Non-autoregressive Mandarin-English Code-switching Speech Recognition with Pinyin Mask-CTC and Word Embedding Regularization ( http://arxiv.org/abs/2104.02258v1 )

ライセンス: Link先を確認
Shun-Po Chuang, Heng-Jui Chang, Sung-Feng Huang, Hung-yi Lee(参考訳) マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。 しかし、2つの非常に異なる言語の文内言語切り替えは、CS音声の認識を困難にしている。 一方、最近成功した非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除し、優れた性能と高速な推論速度を達成した。 そこで本稿では,CS音声認識問題に対処するために,Mask-CTC NAR ASRフレームワークを利用した。 エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。 さらに,エンコーダとデコーダ間のギャップを埋めるために,文脈情報と投影行列の正規化によりデコーダを正則化する単語埋め込みラベル平滑化を提案する。 提案手法をSEAMEコーパス上で評価し,エキサイティングな結果を得た。

Mandarin-English code-switching (CS) is frequently used among East and Southeast Asian people. However, the intra-sentence language switching of the two very different languages makes recognizing CS speech challenging. Meanwhile, the recent successful non-autoregressive (NAR) ASR models remove the need for left-to-right beam decoding in autoregressive (AR) models and achieved outstanding performance and fast inference speed. Therefore, in this paper, we took advantage of the Mask-CTC NAR ASR framework to tackle the CS speech recognition issue. We propose changing the Mandarin output target of the encoder to Pinyin for faster encoder training, and introduce Pinyin-to-Mandarin decoder to learn contextualized information. Moreover, we propose word embedding label smoothing to regularize the decoder with contextualized information and projection matrix regularization to bridge that gap between the encoder and decoder. We evaluate the proposed methods on the SEAME corpus and achieved exciting results.
翻訳日:2021-04-07 14:13:18 公開日:2021-04-06
# ODE変換器:ニューラルネットワーク翻訳のための正規微分方程式モデル

ODE Transformer: An Ordinary Differential Equation-Inspired Model for Neural Machine Translation ( http://arxiv.org/abs/2104.02308v1 )

ライセンス: Link先を確認
Bei Li, Quan Du, Tao Zhou, Shuhan Zhou, Xin Zeng, Tong Xiao, Jingbo Zhu(参考訳) 残留ネットワークは正規微分方程式(ODE)に対する解のオイラー離散化であることが判明した。 本稿では, 変圧器とodeの数値的手法との関係について検討する。 本稿では, Transformer の残層ブロックを ODE の高次解として記述できることを示す。 これにより、ODEでよく動機付けられたRunge-Kuttaメソッドに似た新しいアーキテクチャ(ODE Transformerと呼ぶ)を設計できます。 トランスフォーマーの自然な拡張として、ode transformerは実装が容易でパラメータ効率がよい。 3つのWMTタスクに関する実験は、このモデルの汎用性を実証し、いくつかの強いベースラインに対する性能を大幅に改善した。 WMT'14 En-De と En-Fr のテストデータから 30.76 と 44.11 BLEU のスコアを得る。 これにより、WMT'14 En-Frタスクに新たな最先端技術が設定される。

It has been found that residual networks are an Euler discretization of solutions to Ordinary Differential Equations (ODEs). In this paper, we explore a deeper relationship between Transformer and numerical methods of ODEs. We show that a residual block of layers in Transformer can be described as a higher-order solution to ODEs. This leads us to design a new architecture (call it ODE Transformer) analogous to the Runge-Kutta method that is well motivated in ODEs. As a natural extension to Transformer, ODE Transformer is easy to implement and parameter efficient. Our experiments on three WMT tasks demonstrate the genericity of this model, and large improvements in performance over several strong baselines. It achieves 30.76 and 44.11 BLEU scores on the WMT'14 En-De and En-Fr test data. This sets a new state-of-the-art on the WMT'14 En-Fr task.
翻訳日:2021-04-07 14:12:59 公開日:2021-04-06
# 動的異種知識グラフ表現を用いたパーソナライズされたエンティティ解決

Personalized Entity Resolution with Dynamic Heterogeneous Knowledge Graph Representations ( http://arxiv.org/abs/2104.02667v1 )

ライセンス: Link先を確認
Ying Lin, Han Wang, Jiangning Chen, Tong Wang, Yue Liu, Heng Ji, Yang Liu, Premkumar Natarajan(参考訳) バーチャルアシスタントの普及は、知識ベースにおける参照エンティティにテキスト内の参照をリンクするタスクであるEntity Resolutionに新たな課題をもたらす。 特にショッピングドメインでは、顧客は明示的な名前ではなく暗黙的な発話(例えば「有機ミルク」)を使う傾向があり、多くの候補製品に繋がる。 一方、同じ質問に対して、異なる顧客は異なる結果を期待するかもしれない。 例えば、"add milk to my cart"では、顧客は特定の有機製品を参照し、一部の顧客は定期的に購入した製品を再注文したい場合があります。 これらの課題に対処するため、製品ランキングの精度を向上させるためにパーソナライズされた機能を活用する新しいフレームワークを提案する。 まず、顧客の購入履歴と製品知識グラフから、クロスソースな異種知識グラフを構築し、顧客と製品の埋め込みを共同で学習する。 その後、プロダクト、顧客、履歴の表現をニューラルリランキングモデルに組み込んで、どの候補が特定の顧客に購入される可能性が最も高いかを予測します。 実験の結果,本モデルは,最先端製品検索モデルと比較して,上位候補の精度を24.6%向上させることがわかった。

The growing popularity of Virtual Assistants poses new challenges for Entity Resolution, the task of linking mentions in text to their referent entities in a knowledge base. Specifically, in the shopping domain, customers tend to use implicit utterances (e.g., "organic milk") rather than explicit names, leading to a large number of candidate products. Meanwhile, for the same query, different customers may expect different results. For example, with "add milk to my cart", a customer may refer to a certain organic product, while some customers may want to re-order products they regularly purchase. To address these issues, we propose a new framework that leverages personalized features to improve the accuracy of product ranking. We first build a cross-source heterogeneous knowledge graph from customer purchase history and product knowledge graph to jointly learn customer and product embeddings. After that, we incorporate product, customer, and history representations into a neural reranking model to predict which candidate is most likely to be purchased for a specific customer. Experiments show that our model substantially improves the accuracy of the top ranked candidates by 24.6% compared to the state-of-the-art product search model.
翻訳日:2021-04-07 14:12:45 公開日:2021-04-06
# 人工膵システムにおける危険予測のためのコンテキスト対応モニタのデータ駆動設計

Data-driven Design of Context-aware Monitors for Hazard Prediction in Artificial Pancreas Systems ( http://arxiv.org/abs/2104.02545v1 )

ライセンス: Link先を確認
Xugui Zhou, Bulbul Ahmed, James H. Aylor, Philip Asare, Homa Alemzadeh(参考訳) 医療サイバー物理システム(MCPS)は、事故または悪意のある障害に対して脆弱であり、コントローラを標的にし、患者に安全上の危険と危害を与える可能性がある。 本稿では,早期の危険の兆候を検知し,MCPSで軽減するコンテキスト対応モニタを設計するためのモデルとデータ駆動型アプローチを提案する。 本稿では,信号時相論理(stl)を用いた安全でないシステムコンテキストの形式的仕様化のための枠組みと,モニター論理生成のためのクローズドループシステムからの実データやシミュレーションデータに基づく患者固有のstl公式の改良のための最適化手法を提案する。 我々は,2つの最先端閉ループ人工膵システム (APS) を用いてシミュレーションを行った。 その結果,複数のベースラインモニタで平均危険予測精度(F1スコア)を最大1.4倍に向上し,偽陽性および偽陰性率を低減し,患者の平均リスクを低減しつつ,54%の成功率でハザード緩和を実現することができた。

Medical Cyber-physical Systems (MCPS) are vulnerable to accidental or malicious faults that can target their controllers and cause safety hazards and harm to patients. This paper proposes a combined model and data-driven approach for designing context-aware monitors that can detect early signs of hazards and mitigate them in MCPS. We present a framework for formal specification of unsafe system context using Signal Temporal Logic (STL) combined with an optimization method for patient-specific refinement of STL formulas based on real or simulated faulty data from the closed-loop system for the generation of monitor logic. We evaluate our approach in simulation using two state-of-the-art closed-loop Artificial Pancreas Systems (APS). The results show the context-aware monitor achieves up to 1.4 times increase in average hazard prediction accuracy (F1-score) over several baseline monitors, reduces false-positive and false-negative rates, and enables hazard mitigation with a 54% success rate while decreasing the average risk for patients.
翻訳日:2021-04-07 14:12:27 公開日:2021-04-06
# カプセルネットワークにおけるカプセル畳み込みの加速方法

How to Accelerate Capsule Convolutions in Capsule Networks ( http://arxiv.org/abs/2104.02621v1 )

ライセンス: Link先を確認
Zhenhua Chen, Xiwen Li, Qian Lou, David Crandall(参考訳) CapsNetsにおけるルーティング手順の効率性を改善する方法について、多くの研究がなされている。 しかし、カプセル畳み込みの効率はほとんど無視されている。 基本的な計算単位としてニューロンではなくカプセルを使用するカプセル畳み込みは、現在のディープラーニングフレームワークの最適化ソリューションと互換性がない。 結果として、カプセル畳み込みは通常、これらのフレームワークで非常に遅い。 本研究では, カプセル畳み込みを, テンソルベースの組合せによる「複数個の小さなマトリクスの乗算」の操作と考えることができることを確かめた。 本研究では,CUDA APIを用いた2つのアクセラレーションスキームを開発し,それをカスタムCapsNet上でテストする。 その結果,提案手法は4倍の加速を達成できることがわかった。

How to improve the efficiency of routing procedures in CapsNets has been studied a lot. However, the efficiency of capsule convolutions has largely been neglected. Capsule convolution, which uses capsules rather than neurons as the basic computation unit, makes it incompatible with current deep learning frameworks' optimization solution. As a result, capsule convolutions are usually very slow with these frameworks. We observe that capsule convolutions can be considered as the operations of `multiplication of multiple small matrics' plus tensor-based combination. Based on this observation, we develop two acceleration schemes with CUDA APIs and test them on a custom CapsNet. The result shows that our solution achieves a 4X acceleration.
翻訳日:2021-04-07 14:12:09 公開日:2021-04-06
# 画像スタイライゼーションとドメインミックスアップによる水中物体検出における領域一般化の実現

Achieving Domain Generalization in Underwater Object Detection by Image Stylization and Domain Mixup ( http://arxiv.org/abs/2104.02230v1 )

ライセンス: Link先を確認
Pinhao Song, Linhui Dai, Peipei Yuan, Hong Liu and Runwei Ding(参考訳) 複雑な水中環境による領域シフト問題に直面した場合,既存の水中物体検出手法の性能は著しく低下する。 データセット内のドメイン数が制限されているため、ディープ検出器はごくわずかのドメインを記憶するだけで、一般化能力の低下につながる。 極端に、できるだけ多くのドメインで訓練された検出器がドメイン不変であると推測できる。 この観点から,データ拡張の観点からドメイン一般化手法を提案する。 まず、スタイル転送モデルは、あるソースドメインから別のソースドメインへ画像を変換し、トレーニングデータのドメインの多様性を高める。 第二に、異なるドメインを特徴レベルで補間すると、新しいドメインはドメイン多様体上でサンプリングできる。 我々の方法では、検出器はドメインシフトに対して堅牢である。 S-UODAC2020データセットに関する総合的な実験は、提案手法がドメイン不変表現を学習し、他のドメイン一般化手法より優れていることを示す。 ソースコードはhttps://github.com/m ousecpnで入手できる。

The performance of existing underwater object detection methods degrades seriously when facing domain shift problem caused by complicated underwater environments. Due to the limitation of the number of domains in the dataset, deep detectors easily just memorize a few seen domain, which leads to low generalization ability. Ulteriorly, it can be inferred that the detector trained on as many domains as possible is domain-invariant. Based on this viewpoint, we propose a domain generalization method from the aspect of data augmentation. First, the style transfer model transforms images from one source domain to another, enriching the domain diversity of the training data. Second, interpolating different domains on feature level, new domains can be sampled on the domain manifold. With our method, detectors will be robust to domain shift. Comprehensive experiments on S-UODAC2020 datasets demonstrate that the proposed method is able to learn domain-invariant representations, and outperforms other domain generalization methods. The source code is available at https://github.com/m ousecpn.
翻訳日:2021-04-07 14:10:44 公開日:2021-04-06
# ゼロショット学習のための海馬ヒューリスティック文字認識ネットワーク

Hippocampus-heuristi c Character Recognition Network for Zero-shot Learning ( http://arxiv.org/abs/2104.02236v1 )

ライセンス: Link先を確認
Shaowei Wang, Guanjie Huang, Xiangyu Luo(参考訳) 漢字認識は、その多種多様で複雑な構造のため、常に困難な課題であった。 最新の研究では、このような巨大な文字集合は、およそ500の基本的な中国根基の集合に分解でき、この問題を効果的に解決できることを示した。 新たな漢字が絶え間なく出現する一方で、基本根基の数が増加している。 既存のラジカルに完全に依存する現在の手法は、これらの新しい文字を識別するには柔軟性がなく、訓練段階でこれらの漢字を学習することなく認識することができない。 そこで本研究では,海馬の思考の方法に言及し,過激派の訓練によってのみ知覚されない漢字(いわゆるゼロショット学習)を認識できる新しい海馬・ヒューリスティック文字認識ネットワーク(hcrn)を提案する。 より具体的には、HCRNのネットワークアーキテクチャは、私たちによって設計された新しい擬似テーマネットワークであり、入力トレーニング文字のペアから特徴を学習し、それらを使って未知の漢字を予測することができる。 実験の結果,HCRNは堅牢で有効であることが示唆された。 正確に予測できる漢字は約16,330文字で、500文字しか訓練されていない。 HCRNの認識精度は、現在最先端の中国の急進的認識アプローチ(85.1%から99.9%)よりも15%高い。

The recognition of Chinese characters has always been a challenging task due to their huge variety and complex structures. The latest research proves that such an enormous character set can be decomposed into a collection of about 500 fundamental Chinese radicals, and based on which this problem can be solved effectively. While with the constant advent of novel Chinese characters, the number of basic radicals is also expanding. The current methods that entirely rely on existing radicals are not flexible for identifying these novel characters and fail to recognize these Chinese characters without learning all of their radicals in the training stage. To this end, this paper proposes a novel Hippocampus-heuristi c Character Recognition Network (HCRN), which references the way of hippocampus thinking, and can recognize unseen Chinese characters (namely zero-shot learning) only by training part of radicals. More specifically, the network architecture of HCRN is a new pseudo-siamese network designed by us, which can learn features from pairs of input training character samples and use them to predict unseen Chinese characters. The experimental results show that HCRN is robust and effective. It can accurately predict about 16,330 unseen testing Chinese characters relied on only 500 trained Chinese characters. The recognition accuracy of HCRN outperforms the state-of-the-art Chinese radical recognition approach by 15% (from 85.1% to 99.9%) for recognizing unseen Chinese characters.
翻訳日:2021-04-07 14:10:28 公開日:2021-04-06
# IronMask: ディープフェイステンプレートを保護するモジュールアーキテクチャ

IronMask: Modular Architecture for Protecting Deep Face Template ( http://arxiv.org/abs/2104.02239v1 )

ライセンス: Link先を確認
Sunpill Kim, Yunseong Jeong, Jinsu Kim, Jungkon Kim, Hyung Tae Lee and Jae Hong Seo(参考訳) 畳み込みニューラルネットワークは顔認識分野において顕著な進歩を遂げている。 顔認識の技術が進歩すればするほど、より差別的な特徴が顔テンプレートに反映される。 しかし、テンプレートが公開されると、ユーザのプライバシに対する脅威が高まる。 本稿では,角度距離メトリックを用いた任意の顔認識システムと組み合わせることが可能な,ironmaskと呼ばれる顔テンプレート保護のためのモジュラーアーキテクチャを提案する。 既存の顔テンプレート保護における性能劣化の主な原因であるバイナライゼーションの必要性を回避するため、実値テンプレートと互換性があり、性能劣化を最小限に抑えることができる新しい実値誤り訂正符号を提案する。 我々は、CMU-Multi-PIE、FEI、Color-FERETの3つのデータセットを用いた2つの顔認識、ArcFaceとCosFaceの広範な実験により、IronMaskの有効性を評価する。 実験結果によると、IronMaskは、ArcFaceと組み合わせると偽の受け入れ率(FAR)で99.79%、CosFaceで0%のFARで95.78%、既知の攻撃に対して少なくとも115ビットのセキュリティを提供する。

Convolutional neural networks have made remarkable progress in the face recognition field. The more the technology of face recognition advances, the greater discriminative features into a face template. However, this increases the threat to user privacy in case the template is exposed. In this paper, we present a modular architecture for face template protection, called IronMask, that can be combined with any face recognition system using angular distance metric. We circumvent the need for binarization, which is the main cause of performance degradation in most existing face template protections, by proposing a new real-valued error-correcting-cod e that is compatible with real-valued templates and can therefore, minimize performance degradation. We evaluate the efficacy of IronMask by extensive experiments on two face recognitions, ArcFace and CosFace with three datasets, CMU-Multi-PIE, FEI, and Color-FERET. According to our experimental results, IronMask achieves a true accept rate (TAR) of 99.79% at a false accept rate (FAR) of 0.0005% when combined with ArcFace, and 95.78% TAR at 0% FAR with CosFace, while providing at least 115-bit security against known attacks.
翻訳日:2021-04-07 14:10:07 公開日:2021-04-06
# 室内シーン解析のための3d-to-2d蒸留

3D-to-2D Distillation for Indoor Scene Parsing ( http://arxiv.org/abs/2104.02243v1 )

ライセンス: Link先を確認
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu(参考訳) rgb画像からの屋内シーンの意味解析は、閉塞、物体の歪み、視点の変化などにより非常に困難である。 RGB画像から抽出した2D特徴を,大規模3Dデータリポジトリ(ScanNet-v2)から抽出した3D特徴を活用できる新しい3D-to-2D蒸留フレームワークを提案する。 私たちの作品は3つの新しい貢献がある。 まず,事前訓練された3dネットワークから3d知識を抽出し,トレーニング中に2d特徴からシミュレーションされた3d特徴を学習するために2dネットワークを監督する。 次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。 第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。 様々なデータセット、ScanNet-V2、S3DIS、NYU-v2に関する大規模な実験は、我々のアプローチの優位性を実証している。 また, 実験結果から, 3D-to-2D蒸留によりモデルの一般化が向上することが示された。

Indoor scene semantic parsing from RGB images is very challenging due to occlusions, object distortion, and viewpoint variations. Going beyond prior works that leverage geometry information, typically paired depth maps, we present a new approach, a 3D-to-2D distillation framework, that enables us to leverage 3D features extracted from large-scale 3D data repository (e.g., ScanNet-v2) to enhance 2D features extracted from RGB images. Our work has three novel contributions. First, we distill 3D knowledge from a pretrained 3D network to supervise a 2D network to learn simulated 3D features from 2D features during the training, so the 2D network can infer without requiring 3D data. Second, we design a two-stage dimension normalization scheme to calibrate the 2D and 3D features for better integration. Third, we design a semantic-aware adversarial training model to extend our framework for training with unpaired 3D data. Extensive experiments on various datasets, ScanNet-V2, S3DIS, and NYU-v2, demonstrate the superiority of our approach. Also, experimental results show that our 3D-to-2D distillation improves the model generalization.
翻訳日:2021-04-07 14:09:45 公開日:2021-04-06
# コンテンツ対応GAN圧縮

Content-Aware GAN Compression ( http://arxiv.org/abs/2104.02244v1 )

ライセンス: Link先を確認
Yuchen Liu, Zhixin Shu, Yijun Li, Zhe Lin, Federico Perazzi, S.Y. Kung(参考訳) GAN(Generative Adversarial Network)、例えばStyleGAN2は、様々な画像生成および合成タスクにおいて重要な役割を果たすが、その高い計算コストはエッジデバイスへの効率的な展開を妨げる。 ジェネリック圧縮のアプローチを直接適用すると、多くのGAN圧縮作業の動機となるGANの貧弱な結果が得られる。 主に条件付きgan、例えばpix2pixやcycleganを加速するが、最先端の無条件ganを圧縮することは稀であり、より困難である。 本稿では,非条件GAN圧縮のための新しい手法を提案する。 まず,無条件のGANに特化して,効率的なチャネルプレーニングと知識蒸留方式を導入する。 次に, プルーニングと蒸留の両方の過程を導く新しいコンテンツ認識法を提案する。 コンテンツ認識により、人間の顔など、興味のある内容に重要でないチャネルを効果的にプルーピングし、蒸留をこれらの領域に集中させ、蒸留品質を大幅に向上させることができる。 StyleGAN2 と SN-GAN では、最先端圧縮法よりも大幅に改善されている。 特に,StyleGAN2のFLOPを,フルサイズモデルと比較して視覚的に無視可能な画質損失で11倍削減する。 より興味深いことに、様々な画像操作タスクに適用すると、圧縮されたモデルはより滑らかでより不規則なラテント多様体を形成し、画像編集に有効である。

Generative adversarial networks (GANs), e.g., StyleGAN2, play a vital role in various image generation and synthesis tasks, yet their notoriously high computational cost hinders their efficient deployment on edge devices. Directly applying generic compression approaches yields poor results on GANs, which motivates a number of recent GAN compression works. While prior works mainly accelerate conditional GANs, e.g., pix2pix and CycleGAN, compressing state-of-the-art unconditional GANs has rarely been explored and is more challenging. In this paper, we propose novel approaches for unconditional GAN compression. We first introduce effective channel pruning and knowledge distillation schemes specialized for unconditional GANs. We then propose a novel content-aware method to guide the processes of both pruning and distillation. With content-awareness, we can effectively prune channels that are unimportant to the contents of interest, e.g., human faces, and focus our distillation on these regions, which significantly enhances the distillation quality. On StyleGAN2 and SN-GAN, we achieve a substantial improvement over the state-of-the-art compression method. Notably, we reduce the FLOPs of StyleGAN2 by 11x with visually negligible image quality loss compared to the full-size model. More interestingly, when applied to various image manipulation tasks, our compressed model forms a smoother and better disentangled latent manifold, making it more effective for image editing.
翻訳日:2021-04-07 14:09:24 公開日:2021-04-06
# ワンクリック:弱い教師付き3dセマンティクスセグメンテーションのための自己学習アプローチ

One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation ( http://arxiv.org/abs/2104.02246v1 )

ライセンス: Link先を確認
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu(参考訳) ポイントクラウドのセマンティクスセグメンテーションは、しばしば大規模な注釈付きトレーニングデータを必要とするが、明らかにポイント単位でのラベルは準備が難しい。 最近の手法では、小さなポイントラベルで3Dネットワークをトレーニングする手法が提案されているが、極端にアプローチして"One Thing One Click"を提案する。 ネットワークトレーニングにおいて,これらの極端にスパースなラベルを活用するために,グラフ伝搬モジュールによって促進されるトレーニングとラベル伝搬を反復的に行う,新たな自己学習アプローチを設計する。 また,カテゴリ毎のプロトタイプを生成し,グラフノード間の類似性を明示的にモデル化して擬似ラベルを生成し,反復学習を指導する関係ネットワークを採用する。 scannet-v2 と s3dis の両方における実験の結果は、非常に疎結合なアノテーションを持つ我々の自己学習アプローチが、3d意味セグメンテーションのための既存の弱い教師付きメソッドを大きなマージンで上回っていることを示している。

Point cloud semantic segmentation often requires largescale annotated training data, but clearly, point-wise labels are too tedious to prepare. While some recent methods propose to train a 3D network with small percentages of point labels, we take the approach to an extreme and propose "One Thing One Click," meaning that the annotator only needs to label one point per object. To leverage these extremely sparse labels in network training, we design a novel self-training approach, in which we iteratively conduct the training and label propagation, facilitated by a graph propagation module. Also, we adopt a relation network to generate per-category prototype and explicitly model the similarity among graph nodes to generate pseudo labels to guide the iterative training. Experimental results on both ScanNet-v2 and S3DIS show that our self-training approach, with extremely-sparse annotations, outperforms all existing weakly supervised methods for 3D semantic segmentation by a large margin, and our results are also comparable to those of the fully supervised counterparts.
翻訳日:2021-04-07 14:09:03 公開日:2021-04-06
# クロスドメイン人物再同定のための複数共同学習による自己識別からの学習

Learning from Self-Discrepancy via Multiple Co-teaching for Cross-Domain Person Re-Identification ( http://arxiv.org/abs/2104.02265v1 )

ライセンス: Link先を確認
Suncheng Xiang, Yuzhuo Fu, Mengyuan Guan, Ting Liu(参考訳) ラベルのないターゲット画像に擬似ラベルを付けるクラスタリング戦略は、ドメイン適応における人物再識別(re-ID)アルゴリズムのトレンドとなっている。 これらのクラスタリングベースの方法の潜在的な制限は、常にノイズの多いラベルを導入する傾向があることです。 この制限に対処するため、直感的な解決策は、協調訓練を利用して擬似ラベルの品質を浄化することである。 しかしながら、必然的に高い類似性を共有する2つのネットワークの相補性は、トレーニングプロセスが進むにつれて徐々に弱まり、さらに悪いことに、これらのアプローチは通常、クラス内関係の自己相補性を考慮することを無視する。 この問題に対処するため,本稿では,非教師条件下での自己弁別問題に対する有望な方向性を開くために,ドメイン適応型人物再識別のための複数共同学習フレームワークを提案する。 それに加えて、平均学習メカニズムを利用して、違いを拡大し、より補完的な特徴を発見する。 大規模データセットを用いた包括的実験により,本手法は最新技術に比べて性能が向上することを示した。

Employing clustering strategy to assign unlabeled target images with pseudo labels has become a trend for person re-identification (re-ID) algorithms in domain adaptation. A potential limitation of these clustering-based methods is that they always tend to introduce noisy labels, which will undoubtedly hamper the performance of our re-ID system. To handle this limitation, an intuitive solution is to utilize collaborative training to purify the pseudo label quality. However, there exists a challenge that the complementarity of two networks, which inevitably share a high similarity, becomes weakened gradually as training process goes on; worse still, these approaches typically ignore to consider the self-discrepancy of intra-class relations. To address this issue, in this letter, we propose a multiple co-teaching framework for domain adaptive person re-ID, opening up a promising direction about self-discrepancy problem under unsupervised condition. On top of that, a mean-teaching mechanism is leveraged to enlarge the difference and discover more complementary features. Comprehensive experiments conducted on several large-scale datasets show that our method achieves competitive performance compared with the state-of-the-arts.
翻訳日:2021-04-07 14:08:38 公開日:2021-04-06
# 平面スウィープステレオを用いた多視点マルチパーソン3次元姿勢推定

Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo ( http://arxiv.org/abs/2104.02273v1 )

ライセンス: Link先を確認
Jiahao Lin, Gim Hee Lee(参考訳) 多視点多人数ポーズ推定のための既存のアプローチは、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立し、各人の3Dポーズ推定を解決する。 多視点対応を確立することは多人数場面では困難であり、不正確な対応は多段階パイプラインの最適性能に繋がる。 本研究では,平面スイープステレオを用いた多視点3Dポーズ推定手法を提案する。 具体的には,対象カメラビューにおける各2次元ポーズの接合部の深さ回帰を行う。 クロスビュー一貫性の制約は、平面スイープアルゴリズムを介して複数の参照カメラビューによって暗黙的に強制される。 本手法は,まず人ごとの相対的深度を推定し,まず人ごとの相対的深度を推定する。 3dポーズは、推定深度から単純なバックプロジェクションから得られる。 提案手法は,従来の最先端技術よりも効率的かつ優れたベンチマークデータセットである。 私たちのコードはhttps://github.com/j iahaoLjh/PlaneSweepP ose.comで利用可能です。

Existing approaches for multi-view multi-person 3D pose estimation explicitly establish cross-view correspondences to group 2D pose detections from multiple camera views and solve for the 3D pose estimation for each person. Establishing cross-view correspondences is challenging in multi-person scenes, and incorrect correspondences will lead to sub-optimal performance for the multi-stage pipeline. In this work, we present our multi-view 3D pose estimation approach based on plane sweep stereo to jointly address the cross-view fusion and 3D pose reconstruction in a single shot. Specifically, we propose to perform depth regression for each joint of each 2D pose in a target camera view. Cross-view consistency constraints are implicitly enforced by multiple reference camera views via the plane sweep algorithm to facilitate accurate depth regression. We adopt a coarse-to-fine scheme to first regress the person-level depth followed by a per-person joint-level relative depth estimation. 3D poses are obtained from a simple back-projection given the estimated depths. We evaluate our approach on benchmark datasets where it outperforms previous state-of-the-arts while being remarkably efficient. Our code is available at https://github.com/j iahaoLjh/PlaneSweepP ose.
翻訳日:2021-04-07 14:08:20 公開日:2021-04-06
# クラスインクリメンタル学習のための学習可能な拡張圧縮ネットワーク

Learnable Expansion-and-Compre ssion Network for Few-shot Class-Incremental Learning ( http://arxiv.org/abs/2104.02281v1 )

ライセンス: Link先を確認
Boyu Yang, Mingbao Lin, Binghao Liu, Mengying Fu, Chang Liu, Rongrong Ji and Qixiang Ye(参考訳) FSCIL(Few-shot class-incremental Learning)は,少数の監督下でモデルの表現能力を継続的に拡張することを目的とした,重要な課題である。 一方、新しいタスク(ノーベルクラス)を適合させると、古いタスク(オールドクラス)で訓練された機能は著しくドリフトし、破滅的な忘れ物になった。 一方、数発の新規な例で大量のモデルパラメータをトレーニングすることは、モデル過適合につながる。 本稿では,統合フレームワークにおける致命的な隠蔽問題とモデルオーバーフィッティング問題を同時に解決することを目的とした,学習可能な拡張圧縮ネットワーク(lec-net)を提案する。 ネットワークノードを暫定的に拡張することにより、lec-netは機能の表現能力を拡大し、モデル正規化の観点から古いネットワークの特徴ドリフトを緩和する。 拡張ネットワークノードを圧縮することにより、LEC-Netはモデルパラメータの最小増加を回避し、コンパクト表現の観点から拡張ネットワークの過度な適合を緩和する。 CUB/CIFAR-100データセットの実験では、LCC-Netはベースラインを5~7%改善し、最先端を5~6%向上した。 LEC-Netはまた、動的モデル拡張機能を備えた一般的な漸進的学習アプローチの可能性を示した。

Few-shot class-incremental learning (FSCIL), which targets at continuously expanding model's representation capacity under few supervisions, is an important yet challenging problem. On the one hand, when fitting new tasks (novel classes), features trained on old tasks (old classes) could significantly drift, causing catastrophic forgetting. On the other hand, training the large amount of model parameters with few-shot novel-class examples leads to model over-fitting. In this paper, we propose a learnable expansion-and-compre ssion network (LEC-Net), with the aim to simultaneously solve catastrophic forgetting and model over-fitting problems in a unified framework. By tentatively expanding network nodes, LEC-Net enlarges the representation capacity of features, alleviating feature drift of old network from the perspective of model regularization. By compressing the expanded network nodes, LEC-Net purses minimal increase of model parameters, alleviating over-fitting of the expanded network from a perspective of compact representation. Experiments on the CUB/CIFAR-100 datasets show that LEC-Net improves the baseline by 5~7% while outperforms the state-of-the-art by 5~6%. LEC-Net also demonstrates the potential to be a general incremental learning approach with dynamic model expansion capability.
翻訳日:2021-04-07 14:08:00 公開日:2021-04-06
# コントラスト的syn-to-real一般化

Contrastive Syn-to-Real Generalization ( http://arxiv.org/abs/2104.02290v1 )

ライセンス: Link先を確認
Wuyang Chen, Zhiding Yu, Shalini De Mello, Sifei Liu, Jose M. Alvarez, Zhangyang Wang, Anima Anandkumar(参考訳) 合成データのトレーニングは、ラベルやデータ共有シナリオに有用である。 しかし、合成訓練されたモデルはしばしばドメインギャップのため、実際のドメインでの一般化に苦しむ。 本研究では,学習した特徴埋め込みの多様性が一般化性能において重要な役割を担っていることを示す。 そこで本研究では,画像ネットの知識を生かして合成領域への過剰フィットを防止し,特徴埋め込みの多様性を帰納的バイアスとして促進し,一般化を改善するための新しい枠組みであるコントラスト・シンセティック・トゥ・リアル・ジェネライゼーション(csg)を提案する。 さらに,提案するcsgフレームワークを注意プーリング(aプール)により拡張し,モデルが意味的に重要な領域に焦点を合わせ,その一般化をさらに向上させる。 CSGの各種合成訓練における効果を実証し、ゼロショット領域の一般化に対する最先端性能を示す。

Training on synthetic data can be beneficial for label or data-scarce scenarios. However, synthetically trained models often suffer from poor generalization in real domains due to domain gaps. In this work, we make a key observation that the diversity of the learned feature embeddings plays an important role in the generalization performance. To this end, we propose contrastive synthetic-to-real generalization (CSG), a novel framework that leverages the pre-trained ImageNet knowledge to prevent overfitting to the synthetic domain, while promoting the diversity of feature embeddings as an inductive bias to improve generalization. In addition, we enhance the proposed CSG framework with attentional pooling (A-pool) to let the model focus on semantically important regions and further improve its generalization. We demonstrate the effectiveness of CSG on various synthetic training tasks, exhibiting state-of-the-art performance on zero-shot domain generalization.
翻訳日:2021-04-07 14:07:38 公開日:2021-04-06
# 不連続キーポイント回帰によるボトムアップ人間のポーズ推定

Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression ( http://arxiv.org/abs/2104.02300v1 )

ライセンス: Link先を確認
Zigang Geng, Ke Sun, Bin Xiao, Zhaoxiang Zhang, Jingdong Wang(参考訳) 本稿では,画像から人間のポーズを推定するボトムアップパラダイムに関心を寄せる。 キーポイント検出およびグループ化フレームワークよりも以前劣っていた高密度キーポイント回帰フレームワークについて検討する。 私たちのモチベーションは、キーポイントの位置をリグレッシブするには、キーポイント領域にフォーカスした表現を正しく学ぶ必要があるということです。 我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。 我々は,ピクセル単位の空間変換による適応畳み込みを採用し,キーポイント領域の画素を活性化し,それらから表現を学習する。 各分岐は専用の適応的畳み込みで表現を学び、1つのキーポイントを回帰する。 結果として生じる不整合表現は、それぞれキーポイント領域に参加することができ、したがってキーポイント回帰は空間的により正確である。 本研究では,提案手法がキーポイント検出およびグループ化手法より優れており,COCOとCrowdPoseの2つのベンチマークデータセットにおいて優れたボトムアップポーズ推定結果が得られることを示す。 コードとモデルはhttps://github.com/h rnet/dekrで入手できる。

In this paper, we are interested in the bottom-up paradigm of estimating human poses from an image. We study the dense keypoint regression framework that is previously inferior to the keypoint detection and grouping framework. Our motivation is that regressing keypoint positions accurately needs to learn representations that focus on the keypoint regions. We present a simple yet effective approach, named disentangled keypoint regression (DEKR). We adopt adaptive convolutions through pixel-wise spatial transformer to activate the pixels in the keypoint regions and accordingly learn representations from them. We use a multi-branch structure for separate regression: each branch learns a representation with dedicated adaptive convolutions and regresses one keypoint. The resulting disentangled representations are able to attend to the keypoint regions, respectively, and thus the keypoint regression is spatially more accurate. We empirically show that the proposed direct regression method outperforms keypoint detection and grouping methods and achieves superior bottom-up pose estimation results on two benchmark datasets, COCO and CrowdPose. The code and models are available at https://github.com/H RNet/DEKR.
翻訳日:2021-04-07 14:07:22 公開日:2021-04-06
# オブジェクトは違う:フレキシブルなモノクロ3dオブジェクト検出

Objects are Different: Flexible Monocular 3D Object Detection ( http://arxiv.org/abs/2104.02323v1 )

ライセンス: Link先を確認
Yunpeng Zhang, Jiwen Lu, Jie Zhou(参考訳) 深度情報のない単一画像からの3Dオブジェクトの正確な位置決定は、非常に難しい問題である。 既存のほとんどのメソッドは、様々な分布にかかわらず、すべてのオブジェクトに対して同じアプローチを採用しており、切り捨てられたオブジェクトのパフォーマンスが制限される。 本稿では, 乱れた物体を明示的に分離し, 物体深度推定のための複数のアプローチを適応的に組み合わせた, モノクロ3次元物体検出のための柔軟なフレームワークを提案する。 具体的には,長尾乱れオブジェクトを予測するための特徴マップのエッジを分離し,通常のオブジェクトの最適化に影響を与えないようにする。 さらに, 対象深度推定を, 直接回帰対象深さの不確実性誘導アンサンブルとして定式化し, 異なるキーポイント群からの深さを解いた。 実験により, 実時間効率を維持しつつ, KITTIベンチマークの試験セットにおいて, 適度レベルが27 %, ハードレベルが30 %, 最先端手法が27 %向上することを示した。 コードは \url{https://github.com/z hangyp15/MonoFlex} で入手できる。

The precise localization of 3D objects from a single image without depth information is a highly challenging problem. Most existing methods adopt the same approach for all objects regardless of their diverse distributions, leading to limited performance for truncated objects. In this paper, we propose a flexible framework for monocular 3D object detection which explicitly decouples the truncated objects and adaptively combines multiple approaches for object depth estimation. Specifically, we decouple the edge of the feature map for predicting long-tail truncated objects so that the optimization of normal objects is not influenced. Furthermore, we formulate the object depth estimation as an uncertainty-guided ensemble of directly regressed object depth and solved depths from different groups of keypoints. Experiments demonstrate that our method outperforms the state-of-the-art method by relatively 27\% for the moderate level and 30\% for the hard level in the test set of KITTI benchmark while maintaining real-time efficiency. Code will be available at \url{https://github.com/z hangyp15/MonoFlex}.
翻訳日:2021-04-07 14:07:03 公開日:2021-04-06
# rgb-infrared person再同定のための神経特徴探索

Neural Feature Search for RGB-Infrared Person Re-Identification ( http://arxiv.org/abs/2104.02366v1 )

ライセンス: Link先を確認
Yehansen Chen, Lin Wan, Zhihang Li, Qianyan Jing, Zongyuan Sun(参考訳) RGB-赤外線人物再識別(RGB-IR ReID)は、可視・赤外線カメラビューに対して興味のある人物をマッチングすることを目的とした、異質性検索問題である。 既存の作業の多くは,手作業で設計した機能選択モジュールを通じてパフォーマンス向上を実現している。 本稿では,ニューラル・フィーチャー・サーチ(nfs)と呼ばれる汎用パラダイムを用いて,特徴選択のプロセスを自動化する。 具体的には、NFSは二重レベルの特徴探索空間と微分可能な探索戦略を組み合わせて、粗粒度チャネルと細粒度空間画素のアイデンティティ関連キューを共同で選択する。 この組み合わせにより、NFSはバックグラウンドノイズを適応的にフィルタリングし、データ駆動方式で人体の情報的部分に集中することができる。 さらに、クロスモダリティコントラスト最適化スキームは、クラス間距離を最大化しながらモダリティの不一致を最小化できる検索特徴にnfsをさらに導く。 メインストリームベンチマークでの広範な実験により、この手法は最先端のデータベースよりも優れており、特にregdbデータセットでパフォーマンスが向上し、rank-1とmapでそれぞれ11.20%と8.64%の改善が得られた。

RGB-Infrared person re-identification (RGB-IR ReID) is a challenging cross-modality retrieval problem, which aims at matching the person-of-interest over visible and infrared camera views. Most existing works achieve performance gains through manually-designed feature selection modules, which often require significant domain knowledge and rich experience. In this paper, we study a general paradigm, termed Neural Feature Search (NFS), to automate the process of feature selection. Specifically, NFS combines a dual-level feature search space and a differentiable search strategy to jointly select identity-related cues in coarse-grained channels and fine-grained spatial pixels. This combination allows NFS to adaptively filter background noises and concentrate on informative parts of human bodies in a data-driven manner. Moreover, a cross-modality contrastive optimization scheme further guides NFS to search features that can minimize modality discrepancy whilst maximizing inter-class distance. Extensive experiments on mainstream benchmarks demonstrate that our method outperforms state-of-the-arts, especially achieving better performance on the RegDB dataset with significant improvement of 11.20% and 8.64% in Rank-1 and mAP, respectively.
翻訳日:2021-04-07 14:06:44 公開日:2021-04-06
# マルチパーソン・ポース・グルーピングのためのグラフニューラルネットワークを用いた空間文脈の学習

Learning Spatial Context with Graph Neural Network for Multi-Person Pose Grouping ( http://arxiv.org/abs/2104.02385v1 )

ライセンス: Link先を確認
Jiahao Lin, Gim Hee Lee(参考訳) イメージベース多人数ポーズ推定のためのボトムアップアプローチは,(1)キーポイント検出と(2)検出されたキーポイントのグループ化の2段階からなる。 現在のグループ化アプローチは、人間のポーズの空間構成を完全に無視する視覚機能のみから学習された埋め込みに依存している。 本研究では,グラフ分割問題としてグループ化タスクを定式化し,グラフニューラルネットワーク(gnn)を用いて親和性行列を学習する。 より具体的には、キーポイントの空間情報を活用し、グローバルな文脈から局所親和性を学ぶGeometry-Aware Association GNNを設計する。 学習された幾何学に基づく親和性は、強固なキーポイント結合を達成するために外観に基づく親和性とさらに融合する。 スペクトルクラスタリングは、ポーズインスタンスの形成のためにグラフを分割するために使用される。 2つのベンチマークデータセットによる実験結果から,提案手法は既存の外見のみのグルーピングフレームワークよりも優れており,ロバストグルーピングにおける空間コンテキストの利用の有効性が示されている。 ソースコードは、https://github.com/j iahaoLjh/PoseGroupin g.comで入手できる。

Bottom-up approaches for image-based multi-person pose estimation consist of two stages: (1) keypoint detection and (2) grouping of the detected keypoints to form person instances. Current grouping approaches rely on learned embedding from only visual features that completely ignore the spatial configuration of human poses. In this work, we formulate the grouping task as a graph partitioning problem, where we learn the affinity matrix with a Graph Neural Network (GNN). More specifically, we design a Geometry-aware Association GNN that utilizes spatial information of the keypoints and learns local affinity from the global context. The learned geometry-based affinity is further fused with appearance-based affinity to achieve robust keypoint association. Spectral clustering is used to partition the graph for the formation of the pose instances. Experimental results on two benchmark datasets show that our proposed method outperforms existing appearance-only grouping frameworks, which shows the effectiveness of utilizing spatial context for robust grouping. Source code is available at: https://github.com/j iahaoLjh/PoseGroupin g.
翻訳日:2021-04-07 14:06:22 公開日:2021-04-06
# 弱教師付きビデオサリエント物体検出

Weakly Supervised Video Salient Object Detection ( http://arxiv.org/abs/2104.02391v1 )

ライセンス: Link先を確認
Wangbo Zhao and Jing Zhang and Long Li and Nick Barnes and Nian Liu and Junwei Han(参考訳) ピクセルワイドなラベル付きトレーニングデータセットを用いた完全教師付きビデオサルエントオブジェクト検出では,時間と費用がかかるため,大幅な性能向上が達成されている。 データアノテーションの負担を軽減するため、relabeled "fixation guided scribble annotations" に基づいた、最初の弱い教師付きビデオサルエントオブジェクト検出モデルを提案する。 具体的には,新しい弱アノテーションに基づく効果的なマルチモーダル学習と長期時間文脈モデリングを実現するために,"出現-運動融合モジュール"と双方向convlstmベースのフレームワークを提案する。 さらに,新しいフォアグラウンド・バックグラウンドの類似度損失をデザインし,フレーム間の類似度をさらに探究する。 また,新しい擬似ラベル生成手法により,モデル性能を向上させるための弱いアノテーション強化戦略も導入された。 6つのベンチマークビデオサリエンシー検出データセットの広範な実験結果から,本ソリューションの有効性が示された。

Significant performance improvement has been achieved for fully-supervised video salient object detection with the pixel-wise labeled training datasets, which are time-consuming and expensive to obtain. To relieve the burden of data annotation, we present the first weakly supervised video salient object detection model based on relabeled "fixation guided scribble annotations". Specifically, an "Appearance-motion fusion module" and bidirectional ConvLSTM based framework are proposed to achieve effective multi-modal learning and long-term temporal context modeling based on our new weak annotations. Further, we design a novel foreground-backgroun d similarity loss to further explore the labeling similarity across frames. A weak annotation boosting strategy is also introduced to boost our model performance with a new pseudo-label generation technique. Extensive experimental results on six benchmark video saliency detection datasets illustrate the effectiveness of our solution.
翻訳日:2021-04-07 14:06:04 公開日:2021-04-06
# グローバルモーションアグリゲーションを用いた隠れ動作推定のための学習

Learning to Estimate Hidden Motions with Global Motion Aggregation ( http://arxiv.org/abs/2104.02409v1 )

ライセンス: Link先を確認
Shihao Jiang, Dylan Campbell, Yao Lu, Hongdong Li, Richard Hartley(参考訳) 閉塞は、局所的な証拠に依存する光学フローアルゴリズムに重大な課題をもたらす。 我々は、隠蔽された点を、第1フレームでイメージされているが、第2フレームではイメージされていないものと考え、標準定義を少しオーバーロードする。 これらの点の運動を推定するのは、特に2フレームの設定において非常に難しい。 これまでの作業はCNNに頼ってオクルージョンを学習し、あまり成功しないか、あるいは時間的滑らかさを使ってオクルージョンを推論するために複数のフレームを必要とする。 本稿では,画像の自己相似性をモデル化することにより,2フレームのケースではオクルージョン問題をよりよく解けると論じる。 本稿では,第1画像中の画素間の長距離依存性を探索し,対応する動き特徴に対してグローバルアグリゲーションを行うトランスフォーマティブ・アグリゲーション・モジュールを提案する。 本研究では,非閉塞領域の性能を損なうことなく,閉鎖領域における光学的流れの推定値を大幅に改善できることを実証する。 このアプローチは、挑戦的なSintelデータセットの新たな最先端結果を取得し、Sintel Finalでは13.6\%、Sintel Cleanでは13.7\%の平均終点誤差を改善する。 提出時点では,提案手法はすべての公開および未公開アプローチの中で,これらのベンチマークで第1位である。 コードはhttps://github.com/z acjiang/GMAで入手できる。

Occlusions pose a significant challenge to optical flow algorithms that rely on local evidences. We consider an occluded point to be one that is imaged in the first frame but not in the next, a slight overloading of the standard definition since it also includes points that move out-of-frame. Estimating the motion of these points is extremely difficult, particularly in the two-frame setting. Previous work relies on CNNs to learn occlusions, without much success, or requires multiple frames to reason about occlusions using temporal smoothness. In this paper, we argue that the occlusion problem can be better solved in the two-frame case by modelling image self-similarities. We introduce a global motion aggregation module, a transformer-based approach to find long-range dependencies between pixels in the first image, and perform global aggregation on the corresponding motion features. We demonstrate that the optical flow estimates in the occluded regions can be significantly improved without damaging the performance in non-occluded regions. This approach obtains new state-of-the-art results on the challenging Sintel dataset, improving the average end-point error by 13.6\% on Sintel Final and 13.7\% on Sintel Clean. At the time of submission, our method ranks first on these benchmarks among all published and unpublished approaches. Code is available at https://github.com/z acjiang/GMA .
翻訳日:2021-04-07 14:05:48 公開日:2021-04-06
# 共通動作の時間と空間への少数ショット変換

Few-Shot Transformation of Common Actions into Time and Space ( http://arxiv.org/abs/2104.02439v1 )

ライセンス: Link先を確認
Pengwan Yang and Pascal Mettes and Cees G. M. Snoek(参考訳) 本稿では,時間と空間における共有行動の局所化の課題を紹介する。 同一だが未知のアクションを含むいくつかのトリミングされたサポートビデオを考えると、長い未トリミングクエリビデオにおいて、そのアクションの時空間的ローカライズを試みる。 クラスラベル、インターバルバウンダリ、バウンダリボックスは一切必要ありません。 この課題に対処するため,提案を必要とせず,共用性学習と局所化予測に最適化された専用エンコーダ・デコーダ構造を持つ,新しいマイナショットトランスフォーマアーキテクチャを提案する。 AVAデータセットとUCF101-24データセットの再編成実験は、サポートビデオが騒々しい場合でも、数発の共通アクションローカライゼーションに対するアプローチの有効性を示す。 私たちは、時間的に共通なローカライズのために特別に設計されているわけではないが、この設定でのマイナショットとワンショットのステート・オブ・ザ・アートとの比較も好適である。 最後に,極小トランスフォーマはピクセル毎の共通動作局所化に容易に拡張できることを実証する。

This paper introduces the task of few-shot common action localization in time and space. Given a few trimmed support videos containing the same but unknown action, we strive for spatio-temporal localization of that action in a long untrimmed query video. We do not require any class labels, interval bounds, or bounding boxes. To address this challenging task, we introduce a novel few-shot transformer architecture with a dedicated encoder-decoder structure optimized for joint commonality learning and localization prediction, without the need for proposals. Experiments on our reorganizations of the AVA and UCF101-24 datasets show the effectiveness of our approach for few-shot common action localization, even when the support videos are noisy. Although we are not specifically designed for common localization in time only, we also compare favorably against the few-shot and one-shot state-of-the-art in this setting. Lastly, we demonstrate that the few-shot transformer is easily extended to common action localization per pixel.
翻訳日:2021-04-07 14:05:26 公開日:2021-04-06
# ボトムアップ型人物ポーズ推定のための単純:模倣とポイント学習を用いた単一ネットワーク

SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation ( http://arxiv.org/abs/2104.02486v1 )

ライセンス: Link先を確認
Jiabin Zhang, Zheng Zhu, Jiwen Lu, Junjie Huang, Guan Huang, Jie Zhou(参考訳) 実用アプリケーションは、多人数ポーズ推定アルゴリズムの精度と効率の両方を要求する。 しかし、高い精度と高速な推論速度は、それぞれトップダウンメソッドとボトムアップメソッドによって支配されている。 精度と効率のトレードオフをよりよくするために,新しい多人数ポーズ推定フレームワークSIngle-network with Mimicking と Point Learning for Bottom-up Human Pose Estimation (SIMPLE)を提案する。 具体的には、トレーニングプロセスにおいて、ハイパフォーマンスなトップダウンパイプラインからのポーズ知識をシンプルに模倣することを可能にし、推論中に高い効率を維持しながら、simpleの精度を著しく向上させる。 さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。 これは、2つのタスクが互いに干渉する可能性がある以前の作業とは全く異なる。 我々の知識を最大限に活用するために,まずポーズ推定において,異なる手法間における戦略の模倣と統一点学習の両方が提案されている。 実験では,COCO,MPII,PoseTrack データセットにおけるボトムアップ手法の最先端性能を実現する。 トップダウンアプローチと比較して、SIMPLEは同等の精度と高速な推論速度を持つ。

The practical application requests both accuracy and efficiency on multi-person pose estimation algorithms. But the high accuracy and fast inference speed are dominated by top-down methods and bottom-up methods respectively. To make a better trade-off between accuracy and efficiency, we propose a novel multi-person pose estimation framework, SIngle-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE). Specifically, in the training process, we enable SIMPLE to mimic the pose knowledge from the high-performance top-down pipeline, which significantly promotes SIMPLE's accuracy while maintaining its high efficiency during inference. Besides, SIMPLE formulates human detection and pose estimation as a unified point learning framework to complement each other in single-network. This is quite different from previous works where the two tasks may interfere with each other. To the best of our knowledge, both mimicking strategy between different method types and unified point learning are firstly proposed in pose estimation. In experiments, our approach achieves the new state-of-the-art performance among bottom-up methods on the COCO, MPII and PoseTrack datasets. Compared with the top-down approaches, SIMPLE has comparable accuracy and faster inference speed.
翻訳日:2021-04-07 14:05:06 公開日:2021-04-06
# クロスモダリティ同変制約付き弱教師付きセグメンテーション

Weakly supervised segmentation with cross-modality equivariant constraints ( http://arxiv.org/abs/2104.02488v1 )

ライセンス: Link先を確認
Gaurav Patel and Jose Dolz(参考訳) 弱い教師付き学習は、セマンティックセグメンテーションにおける大きなラベル付きデータセットの必要性を軽減するための魅力的な代替手段として登場した。 現在のアプローチのほとんどは、画像レベルのアノテーションから生成されるクラスアクティベーションマップ(CAM)を利用している。 それでも、結果として得られる地図は高い差別性を示しており、最適なプロキシピクセルレベルのラベルとして機能しない。 本稿では,マルチモーダル画像シナリオにおける自己スーパービジョンを活用した新しい学習戦略を提案する。 特に,提案手法は2つの観測結果に基づいている。 まず、完全教師付きセグメンテーションネットワークの学習は、データ拡張によって暗黙的に同値を課すが、この暗黙の制約は、画像タグで生成されたCAMでは消滅する。 第2に、画像モダリティ間の共通性は効率的な自己超越信号として利用でき、複数のモダリティで得られたCAMの不整合を補正する。 モデルを効果的に訓練するために、モダリティ内とモダリティ間等式を含む新しい損失関数を統合し、トレーニング中にこれらの制約を明確に課す。 さらに,クラス予測分布にkl-divergenceを追加し,モダリティ間の情報交換を容易にし,同変正規化器と組み合わせることで,モデルの性能をさらに向上させる。 汎用マルチモーダルブラッツデータセットを用いた徹底的な実験により,同一の学習条件下では,本手法が関連する最近の文献よりも優れていることが示された。

Weakly supervised learning has emerged as an appealing alternative to alleviate the need for large labeled datasets in semantic segmentation. Most current approaches exploit class activation maps (CAMs), which can be generated from image-level annotations. Nevertheless, resulting maps have been demonstrated to be highly discriminant, failing to serve as optimal proxy pixel-level labels. We present a novel learning strategy that leverages self-supervision in a multi-modal image scenario to significantly enhance original CAMs. In particular, the proposed method is based on two observations. First, the learning of fully-supervised segmentation networks implicitly imposes equivariance by means of data augmentation, whereas this implicit constraint disappears on CAMs generated with image tags. And second, the commonalities between image modalities can be employed as an efficient self-supervisory signal, correcting the inconsistency shown by CAMs obtained across multiple modalities. To effectively train our model, we integrate a novel loss function that includes a within-modality and a cross-modality equivariant term to explicitly impose these constraints during training. In addition, we add a KL-divergence on the class prediction distributions to facilitate the information exchange between modalities, which, combined with the equivariant regularizers further improves the performance of our model. Exhaustive experiments on the popular multi-modal BRATS dataset demonstrate that our approach outperforms relevant recent literature under the same learning conditions.
翻訳日:2021-04-07 14:04:47 公開日:2021-04-06
# 野生動物におけるディープアニメーションビデオ補間

Deep Animation Video Interpolation in the Wild ( http://arxiv.org/abs/2104.02495v1 )

ライセンス: Link先を確認
Li Siyao, Shiyu Zhao, Weijiang Yu, Wenxiu Sun, Dimitris N. Metaxas, Chen Change Loy, Ziwei Liu(参考訳) アニメーション業界では、このようなフレームのハンドドローイングが高価で時間を要するため、漫画ビデオは通常、低フレームレートで制作される。 したがって,アニメーションフレームを自動的に補間できる計算モデルを開発することが望ましい。 しかし,既存の映像補間手法ではアニメーションデータに満足な結果が得られなかった。 ナチュラルビデオと比較して、アニメーションビデオにはフレーム補間を難しくする2つの特徴がある: 1)漫画は線と滑らかな色片で構成されている。 滑らかなエリアにはテクスチャがなく、アニメーションビデオの正確な動きを推定することが難しい。 2)漫画は誇張によって物語を表現する。 運動のいくつかは非線形で非常に大きい。 本研究では,アニメーション映像の補間問題を初めて形式的に定義・検討する。 上記の課題に対処するため,我々は,2つの専用モジュールを粒度から精細に構成した効果的なフレームワークanimeinterpを提案する。 特に,1)セグメンツガイドマッチングは,一括コヒーレントな色片間のグローバルマッチングを活用することで,テクスチャの欠如を解消する。 2) リカレントフローリファインメントは,トランスフォーマチックアーキテクチャを用いたリカレント予測による"非線形・極大動作"の課題を解決する。 総合的なトレーニングと評価を容易にするため,リッチアノテーションを備えた12,000のトリプルレットからなる大規模アニメーショントリプルデータセットATD-12Kを構築した。 広範な実験により,提案手法が既存のアニメーション映像の補間手法を上回っていることを実証した。 特に、AnimeInterpは、野生のアニメーションシナリオに好意的な品質と堅牢性を示している。 提案されたデータセットとコードはhttps://github.com/l isiyao21/animeinterp /で入手できる。

In the animation industry, cartoon videos are usually produced at low frame rate since hand drawing of such frames is costly and time-consuming. Therefore, it is desirable to develop computational models that can automatically interpolate the in-between animation frames. However, existing video interpolation methods fail to produce satisfying results on animation data. Compared to natural videos, animation videos possess two unique characteristics that make frame interpolation difficult: 1) cartoons comprise lines and smooth color pieces. The smooth areas lack textures and make it difficult to estimate accurate motions on animation videos. 2) cartoons express stories via exaggeration. Some of the motions are non-linear and extremely large. In this work, we formally define and study the animation video interpolation problem for the first time. To address the aforementioned challenges, we propose an effective framework, AnimeInterp, with two dedicated modules in a coarse-to-fine manner. Specifically, 1) Segment-Guided Matching resolves the "lack of textures" challenge by exploiting global matching among color pieces that are piece-wise coherent. 2) Recurrent Flow Refinement resolves the "non-linear and extremely large motion" challenge by recurrent predictions using a transformer-like architecture. To facilitate comprehensive training and evaluations, we build a large-scale animation triplet dataset, ATD-12K, which comprises 12,000 triplets with rich annotations. Extensive experiments demonstrate that our approach outperforms existing state-of-the-art interpolation methods for animation videos. Notably, AnimeInterp shows favorable perceptual quality and robustness for animation scenarios in the wild. The proposed dataset and code are available at https://github.com/l isiyao21/AnimeInterp /.
翻訳日:2021-04-07 14:04:20 公開日:2021-04-06
# センターからの投票:ラジアルキーポイント投票によるrgb-d画像のdofポーズ推定

Vote from the Center: 6 DoF Pose Estimation in RGB-D Images by Radial Keypoint Voting ( http://arxiv.org/abs/2104.02527v1 )

ライセンス: Link先を確認
Yangzheng Wu, Mohsen Zand, Ali Etemad, Michael Greenspan(参考訳) 本稿では,既存のスキームよりも精度が高く,分散キーポイントのより小さな集合を可能にする,交差球面に基づく新しいキーポイント投票方式を提案する。 rgb-dデータ中の3dオブジェクトの6自由度位置推定のためのrcvpose法の基礎となり,特に咬合の取り扱いに有効である。 cnnは、各rgb画素の深さモードに対応する3d点と、オブジェクトフレームで定義された3つの分散キーポイントとの距離を推定するように訓練される。 推測では、この推定距離に等しい半径の球が、各3D点を中心に生成される。 これらの球面の表面は、キーポイント位置を示す3Dアキュムレータ空間の増分に投票する。 提案したラジアル投票方式は,従来のベクトルやオフセット方式よりも精度が高く,キーポイントの分散が困難である。 実験では、RCVPoseは非常に正確で競争力があり、LINEMOD 99.7%、YCB-Video 97.2%のデータセットで最先端の結果が得られた。

We propose a novel keypoint voting scheme based on intersecting spheres, that is more accurate than existing schemes and allows for a smaller set of more disperse keypoints. The scheme forms the basis of the proposed RCVPose method for 6 DoF pose estimation of 3D objects in RGB-D data, which is particularly effective at handling occlusions. A CNN is trained to estimate the distance between the 3D point corresponding to the depth mode of each RGB pixel, and a set of 3 disperse keypoints defined in the object frame. At inference, a sphere of radius equal to this estimated distance is generated, centered at each 3D point. The surface of these spheres votes to increment a 3D accumulator space, the peaks of which indicate keypoint locations. The proposed radial voting scheme is more accurate than previous vector or offset schemes, and robust to disperse keypoints. Experiments demonstrate RCVPose to be highly accurate and competitive, achieving state-of-the-art results on LINEMOD 99.7%, YCB-Video 97.2% datasets, and notably scoring +7.9% higher than previous methods on the challenging Occlusion LINEMOD 71.1% dataset.
翻訳日:2021-04-07 14:03:58 公開日:2021-04-06
# DCANet:セマンティックセグメンテーションのためのDense Context-Aware Network

DCANet: Dense Context-Aware Network for Semantic Segmentation ( http://arxiv.org/abs/2104.02533v1 )

ライセンス: Link先を確認
Yifu Liu, Chenfeng Xu and Xinyu Jin(参考訳) 文脈情報の優位性は、高度なセマンティックセグメンテーションにおいて徐々に現れ、コンパクトなコンテキスト関係を捉える学習は、複雑な場面を理解するのに役立つ。 マルチスケール・コンテキスト・フュージョンを利用したいくつかの先行研究とは対照的に,dcaモジュールという新しいモジュールを提案し,局所的詳細情報をグローバル依存と適応的に統合する。 コンテキスト関係によって駆動されるDCAモジュールは、コンテキスト情報の集約により、より強力な機能を生成することができる。 さらに,dcaモジュールに基づく2つの拡張構造を故意に設計し,さらに長期の文脈依存情報を捉えた。 DCAモジュールをカスケードまたは並列に組み合わせることで、ネットワークはプログレッシブ戦略を用いて、堅牢なセグメンテーションのためのマルチスケール特徴表現を改善する。 PASCAL VOC 2012、Cityscapes、ADE20Kを含む3つの挑戦的データセットに対する広範な実験により、我々のアプローチ(DCANet)の有望なパフォーマンスを実証的に実証した。

As the superiority of context information gradually manifests in advanced semantic segmentation, learning to capture the compact context relationship can help to understand the complex scenes. In contrast to some previous works utilizing the multi-scale context fusion, we propose a novel module, named Dense Context-Aware (DCA) module, to adaptively integrate local detail information with global dependencies. Driven by the contextual relationship, the DCA module can better achieve the aggregation of context information to generate more powerful features. Furthermore, we deliberately design two extended structures based on the DCA modules to further capture the long-range contextual dependency information. By combining the DCA modules in cascade or parallel, our networks use a progressive strategy to improve multi-scale feature representations for robust segmentation. We empirically demonstrate the promising performance of our approach (DCANet) with extensive experiments on three challenging datasets, including PASCAL VOC 2012, Cityscapes, and ADE20K.
翻訳日:2021-04-07 14:03:33 公開日:2021-04-06
# グラフニューラルネットワークと相対姿勢監視を用いた視覚カメラ再局在化

Visual Camera Re-Localization Using Graph Neural Networks and Relative Pose Supervision ( http://arxiv.org/abs/2104.02538v1 )

ライセンス: Link先を確認
Mehmet Ozgur Turkoglu, Eric Brachmann, Konrad Schindler, Gabriel Brostow, Aron Monszpart(参考訳) 視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。 最も高精細な方法は「構造ベース」であり、注意深く幾何学的な最適化を行い、モデルへの入力としてクエリカメラの固有性が必要である。 内在性がない場合、メソッドは様々な仮定をすることで精度を高める。 これはかなり良いローカライゼーションスコアをもたらすが、モデルは何らかの意味で「狭く」、例えば、コストのかかるテスト時間計算や深度センサー、あるいは複数のクエリフレームを必要とする。 対照的に,提案手法は特別な仮定をほとんど行わず,訓練やテストにおいてかなり軽量である。 我々のポーズ回帰ネットワークは、訓練シーンの相対的なポーズのみから学習する。 推論のために、クエリイメージとトレーニング対象をつなぐグラフを構築し、ノードにイメージ表現、エッジにイメージペア表現を備えたグラフニューラルネットワーク(gnn)を使用する。 メッセージを効率よく送ることで、両表現型を洗練して一貫したカメラポーズ推定を生成する。 標準的な屋内(7シーン)と屋外(Cambridge Landmarks)のカメラ再ローカライズベンチマークにおけるアプローチの有効性を検証する。 我々の相対ポーズ回帰法は絶対ポーズ回帰ネットワークの精度と一致し、相対ポーズモデルのテスト時間速度と非学習シーンへの一般化能力は維持する。

Visual re-localization means using a single image as input to estimate the camera's location and orientation relative to a pre-recorded environment. The highest-scoring methods are "structure based," and need the query camera's intrinsics as an input to the model, with careful geometric optimization. When intrinsics are absent, methods vie for accuracy by making various other assumptions. This yields fairly good localization scores, but the models are "narrow" in some way, eg., requiring costly test-time computations, or depth sensors, or multiple query frames. In contrast, our proposed method makes few special assumptions, and is fairly lightweight in training and testing. Our pose regression network learns from only relative poses of training scenes. For inference, it builds a graph connecting the query image to training counterparts and uses a graph neural network (GNN) with image representations on nodes and image-pair representations on edges. By efficiently passing messages between them, both representation types are refined to produce a consistent camera pose estimate. We validate the effectiveness of our approach on both standard indoor (7-Scenes) and outdoor (Cambridge Landmarks) camera re-localization benchmarks. Our relative pose regression method matches the accuracy of absolute pose regression networks, while retaining the relative-pose models' test-time speed and ability to generalize to non-training scenes.
翻訳日:2021-04-07 14:03:14 公開日:2021-04-06
# パーキングスロット検出のための注意グラフニューラルネットワーク

Attentional Graph Neural Network for Parking-slot Detection ( http://arxiv.org/abs/2104.02576v1 )

ライセンス: Link先を確認
Chen Min and Jiaolong Xu and Liang Xiao and Dawei Zhao and Yiming Nie and Bin Dai(参考訳) deep learningは最近、ビジョンベースのパーキングスロット検出で有望なパフォーマンスを実証した。 しかし、マーキングポイントのリンク情報の学習を考慮に入れた既存の手法はほとんどなく、複雑な後処理や誤検出が生じる。 本稿では,周辺画像のマーキングポイントをグラフ構造化データとして参照し,グラフニューラルネットワークを用いてマーキングポイント間の近隣情報を集約する,注目グラフニューラルネットワークに基づくパーキングスロット検出手法を提案する。 手動で設計した後処理がなければ、提案手法はエンドツーエンドのトレーニングが可能である。 提案手法が最先端の精度を実現するために,公開ベンチマークデータセットで大規模な実験を行った。 コードは \url{https://github.com/J iaolong/gcn-parking- slot} で公開されている。

Deep learning has recently demonstrated its promising performance for vision-based parking-slot detection. However, very few existing methods explicitly take into account learning the link information of the marking-points, resulting in complex post-processing and erroneous detection. In this paper, we propose an attentional graph neural network based parking-slot detection method, which refers the marking-points in an around-view image as graph-structured data and utilize graph neural network to aggregate the neighboring information between marking-points. Without any manually designed post-processing, the proposed method is end-to-end trainable. Extensive experiments have been conducted on public benchmark dataset, where the proposed method achieves state-of-the-art accuracy. Code is publicly available at \url{https://github.com/J iaolong/gcn-parking- slot}.
翻訳日:2021-04-07 14:02:53 公開日:2021-04-06
# 空中およびストリートビュー画像を用いた赤ヤシの大規模感染の自動検出

Automatic Large Scale Detection of Red Palm Weevil Infestation using Aerial and Street View Images ( http://arxiv.org/abs/2104.02598v1 )

ライセンス: Link先を確認
Dima Kagan, Galit Fuhrmann Alpert, Michael Fire(参考訳) レッド・パーム・ウィービルの広がりは、日付の栽培者、家主、政府に劇的に影響を与え、ヤシの木に対する絶え間ない脅威に対処せざるを得なくなった。 ヤシの寄生虫の早期発見は、樹木が倒壊から救えるようにするために重要であることが証明されており、最も一般的には、個々の木のモニタリングのために、局所的な物理的アクセスによって行われる。 本稿では,現在最先端の深層学習アルゴリズムと空中および街路レベルの画像データを用いて,レッドパームウィービルに寄生するヤシをモニタリングする新しい手法を提案する。 感染したヤシの木を検知するために,都市部のヤシ木の位置をマッピングし,10万件以上の航空画像と街路画像を分析した。 この手法を用いて各地のヤシの寄生木を発見し,確認した。

The spread of the Red Palm Weevil has dramatically affected date growers, homeowners and governments, forcing them to deal with a constant threat to their palm trees. Early detection of palm tree infestation has been proven to be critical in order to allow treatment that may save trees from irreversible damage, and is most commonly performed by local physical access for individual tree monitoring. Here, we present a novel method for surveillance of Red Palm Weevil infested palm trees utilizing state-of-the-art deep learning algorithms, with aerial and street-level imagery data. To detect infested palm trees we analyzed over 100,000 aerial and street-images, mapping the location of palm trees in urban areas. Using this procedure, we discovered and verified infested palm trees at various locations.
翻訳日:2021-04-07 14:02:40 公開日:2021-04-06
# マルチオブジェクト追跡のための局所メトリクス

Local Metrics for Multi-Object Tracking ( http://arxiv.org/abs/2104.02631v1 )

ライセンス: Link先を確認
Jack Valmadre, Alex Bewley, Jonathan Huang, Chen Sun, Cristian Sminchisescu, Cordelia Schmid(参考訳) 本稿では,マルチオブジェクト追跡のための時間的局所指標を提案する。 これらのメトリクスは、トラックマッチングに基づく既存のメトリクスを有限時間水平線に制限し、トラッカーが時間とともにアイデンティティを維持する能力に関する新たな洞察を提供することによって得られる。 さらに、地平線パラメータは、検出とアソシエーションの相対的な重要性を定義するための、新しい意味のあるメカニズムを提供し、不完全アソシエーションが許容できるアプリケーションにおいて共通のジレンマを提供する。 従来の平均追跡精度(ATA)測定値では,アソシエーションに対する感度が優れていることが示され,提案する局所変種ALTAが幅広い特徴を捉えることができた。 特にALTAは、検出とは無関係に、関連性の進歩を識別する能力が優れている。 さらに,4つの異なるエラータイプの影響を明らかにし,ALTAにも等しく適用可能なATAのエラー分解について述べる。 ALTAの診断機能は、MOT 2017とWaymo Open Datasetベンチマークで実証されている。

This paper introduces temporally local metrics for Multi-Object Tracking. These metrics are obtained by restricting existing metrics based on track matching to a finite temporal horizon, and provide new insight into the ability of trackers to maintain identity over time. Moreover, the horizon parameter offers a novel, meaningful mechanism by which to define the relative importance of detection and association, a common dilemma in applications where imperfect association is tolerable. It is shown that the historical Average Tracking Accuracy (ATA) metric exhibits superior sensitivity to association, enabling its proposed local variant, ALTA, to capture a wide range of characteristics. In particular, ALTA is better equipped to identify advances in association independent of detection. The paper further presents an error decomposition for ATA that reveals the impact of four distinct error types and is equally applicable to ALTA. The diagnostic capabilities of ALTA are demonstrated on the MOT 2017 and Waymo Open Dataset benchmarks.
翻訳日:2021-04-07 14:01:58 公開日:2021-04-06
# セマンティックセグメンテーションにおける教師なし領域適応のための潜在空間正規化

Latent Space Regularization for Unsupervised Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2104.02633v1 )

ライセンス: Link先を確認
Francesco Barbato, Marco Toldo, Umberto Michieli, Pietro Zanuttigh(参考訳) セマンティックセグメンテーションのための深い畳み込みニューラルネットワークは、優れた精度を実現することができるが、いくつかの大きな欠点もある。 本稿では,意味セグメンテーションにおける領域差を低減するために,機能レベルの空間整形正規化戦略を提案する。 特に、この目的のために、ソースおよびターゲットサンプルに対応する特徴ベクトルに対して、クラスタリング目標、垂直性制約、およびノルムアライメント目標を共同で実施する。 また,適応戦略の相対的効果を教師あり訓練と比較して捉えることのできる新しい尺度を提案する。 我々は,複数の合成実走行シーンベンチマークにおいて,最先端の実績を達成できる自律運転設定におけるそのような手法の有効性を検証する。

Deep convolutional neural networks for semantic segmentation allow to achieve outstanding accuracy, however they also have a couple of major drawbacks: first, they do not generalize well to distributions slightly different from the one of the training data; second, they require a huge amount of labeled data for their optimization. In this paper, we introduce feature-level space-shaping regularization strategies to reduce the domain discrepancy in semantic segmentation. In particular, for this purpose we jointly enforce a clustering objective, a perpendicularity constraint and a norm alignment goal on the feature vectors corresponding to source and target samples. Additionally, we propose a novel measure able to capture the relative efficacy of an adaptation strategy compared to supervised training. We verify the effectiveness of such methods in the autonomous driving setting achieving state-of-the-art results in multiple synthetic-to-real road scenes benchmarks.
翻訳日:2021-04-07 14:01:45 公開日:2021-04-06
# スーパーレゾリューションのためのテスト時間適応:あと数枚の画像にオーバーフィットするだけ

Test-Time Adaptation for Super-Resolution: You Only Need to Overfit on a Few More Images ( http://arxiv.org/abs/2104.02663v1 )

ライセンス: Link先を確認
Mohammad Saeed Rad, Thomas Yu, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 既存の参照(RF)ベースの超解像(SR)モデルは、テスト時に低分解能(LR)入力と組み合わせた高分解能RF画像の可用性を前提として、SRの知覚品質を改善する。 RF画像は、内容、色、コントラストなどに関して類似すべきである。 テスト画像では、実際のシナリオでの適用性が阻害される。 イメージの知覚的品質を高める他のアプローチ、例えば知覚的損失や敵対的損失は、psnr/ssimの大幅な減少によって、地対面への忠実度を劇的に低下させる傾向がある。 両課題に対処するため,本稿では,特徴抽出器のフィルタに関して,初期HR予測と同様の活性化パターンを持つ訓練データセットから,画像のサブセットにSRネットワークを微調整することにより,所定のLR入力上での事前学習SRネットワークからのHR予測の知覚品質を改善するための,単純かつ普遍的なアプローチを提案する。 特に,知覚的品質とpsnr/ssim値の観点から,これらの画像に対する微調整の効果を示す。 知覚的に駆動されるアプローチとは対照的に、細調整されたネットワークは、知覚的品質とPSNR/SSIMの変更を最小限に抑えたHR予測を生成する。 さらに, SRネットワークのフィルタに関する新しい数値実験を行い, フィルタ相関により, 提案手法から得られた細調整ネットワークのフィルタが, ベースラインネットワークやランダムな画像に微調整されたネットワークのフィルタよりも「理想的」フィルタに近いことを示す。

Existing reference (RF)-based super-resolution (SR) models try to improve perceptual quality in SR under the assumption of the availability of high-resolution RF images paired with low-resolution (LR) inputs at testing. As the RF images should be similar in terms of content, colors, contrast, etc. to the test image, this hinders the applicability in a real scenario. Other approaches to increase the perceptual quality of images, including perceptual loss and adversarial losses, tend to dramatically decrease fidelity to the ground-truth through significant decreases in PSNR/SSIM. Addressing both issues, we propose a simple yet universal approach to improve the perceptual quality of the HR prediction from a pre-trained SR network on a given LR input by further fine-tuning the SR network on a subset of images from the training dataset with similar patterns of activation as the initial HR prediction, with respect to the filters of a feature extractor. In particular, we show the effects of fine-tuning on these images in terms of the perceptual quality and PSNR/SSIM values. Contrary to perceptually driven approaches, we demonstrate that the fine-tuned network produces a HR prediction with both greater perceptual quality and minimal changes to the PSNR/SSIM with respect to the initial HR prediction. Further, we present novel numerical experiments concerning the filters of SR networks, where we show through filter correlation, that the filters of the fine-tuned network from our method are closer to "ideal" filters, than those of the baseline network or a network fine-tuned on random images.
翻訳日:2021-04-07 14:01:31 公開日:2021-04-06
# ReStyle: 反復リファインメントによる残留型スタイルGANエンコーダ

ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement ( http://arxiv.org/abs/2104.02699v1 )

ライセンス: Link先を確認
Yuval Alaluf, Or Patashnik, Daniel Cohen-Or(参考訳) 近年,GAN(Generative Adversarial Networks)によって,非条件画像合成のパワーが大幅に向上している。 トレーニングされたGANの潜在コードに画像を反転させるタスクは、ネットワークによって学習されたリッチなセマンティクスを活用することで、実際のイメージの操作を可能にするため、最も重要である。 本研究では, 電流インバージョン手法の限界を認識し, 繰り返し改良機構を導入して, 電流エンコーダに基づくインバージョン手法を拡張した新しいインバージョン方式を提案する。 与えられた実画像の潜在コードを単一のパスで直接予測する代わりに、エンコーダは、反転した潜在コードの現在の推定値に対する残差を自己補正的に予測する。 ReStyleという名前の残差ベースのエンコーダは、現在の最先端のエンコーダベースの手法と比べて、推論時間の無視できるほど精度が向上する。 ReStyleの動作を分析し、その反復性に関する貴重な洞察を得る。 次に、残余エンコーダの性能を評価し、最適化に基づく逆転や最先端エンコーダと比較して頑健さを解析する。

Recently, the power of unconditional image synthesis has significantly advanced through the use of Generative Adversarial Networks (GANs). The task of inverting an image into its corresponding latent code of the trained GAN is of utmost importance as it allows for the manipulation of real images, leveraging the rich semantics learned by the network. Recognizing the limitations of current inversion approaches, in this work we present a novel inversion scheme that extends current encoder-based inversion methods by introducing an iterative refinement mechanism. Instead of directly predicting the latent code of a given real image using a single pass, the encoder is tasked with predicting a residual with respect to the current estimate of the inverted latent code in a self-correcting manner. Our residual-based encoder, named ReStyle, attains improved accuracy compared to current state-of-the-art encoder-based methods with a negligible increase in inference time. We analyze the behavior of ReStyle to gain valuable insights into its iterative nature. We then evaluate the performance of our residual encoder and analyze its robustness compared to optimization-based inversion and state-of-the-art encoders.
翻訳日:2021-04-07 14:01:04 公開日:2021-04-06
# バッチポリシ最適化アルゴリズムの最適性について

On the Optimality of Batch Policy Optimization Algorithms ( http://arxiv.org/abs/2104.02293v1 )

ライセンス: Link先を確認
Chenjun Xiao, Yifan Wu, Tor Lattimore, Bo Dai, Jincheng Mei, Lihong Li, Csaba Szepesvari, Dale Schuurmans(参考訳) バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。 この問題に対する関心は近年大きく高まっているが、理論的基礎は未開発のままである。 この問題を理解するために,有限腕確率帯域設定におけるバッチポリシー最適化の限界と可能性を特徴付ける3つの結果を提案する。 まず,楽観的かつ悲観的な原理を共通フレームワークに統合し,一般的な分析を可能にする信頼調整インデックスアルゴリズムのクラスを導入する。 このファミリーに対して、信頼度調整されたインデックスアルゴリズムは、楽観的でも悲観的でも中立でも、極小最適であることを示す。 解析の結果,オンライン確率バンディットアルゴリズムの最適性を確立するために一般的に用いられるインスタンス依存最適性は,バッチ設定の任意のアルゴリズムでは達成できないことが明らかとなった。 特に、ある環境で最適に実行するアルゴリズムには、同じアルゴリズムが任意により大きな後悔に苦しむ別の環境が存在する。 そこで,アルゴリズムを識別する枠組みを確立するために,最適値予測の難しさを考慮に入れた新たな重み付き最小基準を導入する。 この基準を用いて、バッチポリシー最適化の悲観的な原則を正当化する方法について実証する。

Batch policy optimization considers leveraging existing data for policy construction before interacting with an environment. Although interest in this problem has grown significantly in recent years, its theoretical foundations remain under-developed. To advance the understanding of this problem, we provide three results that characterize the limits and possibilities of batch policy optimization in the finite-armed stochastic bandit setting. First, we introduce a class of confidence-adjusted index algorithms that unifies optimistic and pessimistic principles in a common framework, which enables a general analysis. For this family, we show that any confidence-adjusted index algorithm is minimax optimal, whether it be optimistic, pessimistic or neutral. Our analysis reveals that instance-dependent optimality, commonly used to establish optimality of on-line stochastic bandit algorithms, cannot be achieved by any algorithm in the batch setting. In particular, for any algorithm that performs optimally in some environment, there exists another environment where the same algorithm suffers arbitrarily larger regret. Therefore, to establish a framework for distinguishing algorithms, we introduce a new weighted-minimax criterion that considers the inherent difficulty of optimal value prediction. We demonstrate how this criterion can be used to justify commonly used pessimistic principles for batch policy optimization.
翻訳日:2021-04-07 13:59:55 公開日:2021-04-06
# 負相関学習による予測組み合わせの多様性の向上

Enhancing the Diversity of Predictions Combination by Negative Correlation Learning ( http://arxiv.org/abs/2104.02317v1 )

ライセンス: Link先を確認
Yun Bai, Ganglin Tian, Yanfei Kang, Suling Jia(参考訳) 予測の組み合わせは、出力空間の調整と組み合わせたモデルアプローチとして、近年研究や競争で盛んに行われている。 単純な平均は直感的で堅牢であり、予測の組み合わせのベンチマークとしてしばしば使用される。 しかしながら、サブモデルが事前に選択されていないため、パフォーマンスの悪いサブモデルによって全体の精度が低下する場合がある。 平均二乗誤差でランク付けした後、組み合わせの上位サブモデルを選択する研究もあるが、それらの共分散はこのアプローチに大きな利益をもたらすことはない。 本稿では,モデルプールにおけるモデルサブセットの選択を支援するために,負の相関学習を用いて,予測組み合わせにおけるサブモデルの多様性を検討することを提案する。 このアプローチを評価するために3つの公開データセットが適用される。 実験結果は,負相関学習を組み込んだ予測組合せにおけるサブモデルの多様性を示すだけでなく,単純な平均ベンチマークや重み付け平均法をはるかに上回る精度で予測する。 さらに, 負相関に対するペナルティ強度の調整により, 予測組み合わせは最高のサブモデルよりも優れていた。 本論文の価値は、その使いやすさと有効性にあるため、予測の組み合わせが多様性と正確性の両方を受け入れることができる。

Predictions combination, as a combination model approach with adjustments in the output space, has flourished in recent years in research and competitions. Simple average is intuitive and robust, and is often used as a benchmark in predictions combination. However, some poorly performing sub-models can reduce the overall accuracy because the sub-models are not selected in advance. Even though some studies have selected the top sub-models for the combination after ranking them by mean square error, the covariance of them causes this approach to not yield much benefit. In this paper, we suggest to consider the diversity of sub-models in the predictions combination, which can be adopted to assist in selecting the most diverse model subset in the model pool using negative correlation learning. Three publicly available datasets are applied to evaluate the approach. The experimental results not only show the diversity of sub-models in the predictions combination incorporating negative correlation learning, but also produce predictions with accuracy far exceeding that of the simple average benchmark and some weighted average methods. Furthermore, by adjusting the penalty strength for negative correlation, the predictions combination also outperform the best sub-model. The value of this paper lies in its ease of use and effectiveness, allowing the predictions combination to embrace both diversity and accuracy.
翻訳日:2021-04-07 13:59:35 公開日:2021-04-06
# リプシッツ連続性とデータ拡張によるGANの一般化

Generalization of GANs under Lipschitz continuity and data augmentation ( http://arxiv.org/abs/2104.02388v1 )

ライセンス: Link先を確認
Khoat Than and Nghia Vu(参考訳) generative adversarial network (gans) は様々な用途で広く使われている。 おそらく、GANは本当に複雑であり、その一般化についてはほとんど知られていない。 本稿では,GANの一般化に関する包括的分析を行う。 一般化エラーを明示的な構成に分解する: ジェネレータエラー + 判別器エラー + 最適化エラー。 最初の2つのエラーは、プレイヤーの家族の能力を示し、既約であり、オプティマイザ非依存である。 次に、リプシッツ連続性と一般化の間の新しいブリッジのおかげで、異なるシナリオで一様および非一様一般化境界を提供する。 我々の限界は、既存の限界のいくつかの大きな制限を克服する。 特に、我々の限界は、GAN損失のゼロ次情報と1次情報をペナルライズすることで一般化が向上することを示し、なぜリプシッツ制約を課すのかという長い謎に答える。 最後に、データ拡張が損失のゼロ・1次情報をペナルティ化し、プレイヤーがより一般化するのに役立つことを示し、その結果、GANに対するデータ拡張の高度に成功した利用法を説明する。

Generative adversarial networks (GANs) have been being widely used in various applications. Arguably, GANs are really complex, and little has been known about their generalization. In this paper, we make a comprehensive analysis about generalization of GANs. We decompose the generalization error into an explicit composition: generator error + discriminator error + optimization error. The first two errors show the capacity of the player's families, are irreducible and optimizer-independen t. We then provide both uniform and non-uniform generalization bounds in different scenarios, thanks to our new bridge between Lipschitz continuity and generalization. Our bounds overcome some major limitations of existing ones. In particular, our bounds show that penalizing the zero- and first-order informations of the GAN loss will improve generalization, answering the long mystery of why imposing a Lipschitz constraint can help GANs perform better in practice. Finally, we show why data augmentation penalizes the zero- and first-order informations of the loss, helping the players generalize better, and hence explaining the highly successful use of data augmentation for GANs.
翻訳日:2021-04-07 13:59:15 公開日:2021-04-06
# radarscenes: 自動車アプリケーションのための現実世界のレーダーポイントクラウドデータセット

RadarScenes: A Real-World Radar Point Cloud Data Set for Automotive Applications ( http://arxiv.org/abs/2104.02493v1 )

ライセンス: Link先を確認
Ole Schumann, Markus Hahn, Nicolas Scheiner, Fabio Weishaupt, Julius F. Tilly, J\"urgen Dickmann, Christian W\"ohler(参考訳) 4時間以上の運転から測定値とポイントワイズアノテーションを備えた新しい自動車レーダデータセットが提示された。 1台の試験車に搭載された4つのレーダセンサーから得られたデータを記録し、動的物体の個別検出を手動でクラスターにグループ化し、その後ラベル付けした。 このデータセットの目的は、移動道路利用者に焦点を当てた新しい(機械学習に基づく)レーダ認識アルゴリズムの開発を可能にすることである。 記録されたシーケンスの画像は、ドキュメンタリーカメラで撮影された。 将来のオブジェクト検出および分類アルゴリズムの評価のために,研究者が共通のアルゴリズムを評価できるように,スコア計算の提案を行う。 追加情報とダウンロード手順は、データセットのウェブサイト(www.radar-scenes.co m)で見ることができる。

A new automotive radar data set with measurements and point-wise annotations from more than four hours of driving is presented. Data provided by four series radar sensors mounted on one test vehicle were recorded and the individual detections of dynamic objects were manually grouped to clusters and labeled afterwards. The purpose of this data set is to enable the development of novel (machine learning-based) radar perception algorithms with the focus on moving road users. Images of the recorded sequences were captured using a documentary camera. For the evaluation of future object detection and classification algorithms, proposals for score calculation are made so that researchers can evaluate their algorithms on a common basis. Additional information as well as download instructions can be found on the website of the data set: www.radar-scenes.com .
翻訳日:2021-04-07 13:58:34 公開日:2021-04-06
# 物理インフォームドニューラルネット制御

Physics-Informed Neural Nets-based Control ( http://arxiv.org/abs/2104.02556v1 )

ライセンス: Link先を確認
Eric Aislan Antonelo, Eduardo Camponogara, Laio Oriel Seman, Eduardo Rehbein de Souza, Jean P. Jordanou, Jomi F. Hubner(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークの学習に既知の物理法則を課し、ラベル付きデータの要求を減少させながら、プロセスの物理を尊重することを保証する。 通常微分方程式(ODE)で表されるシステムでは、従来のPINNは連続時間入力変数を持ち、対応するODEの解を出力する。 元の形式では、PINNは制御入力が予測を著しく劣化させることなく長距離区間をシミュレートすることができない。 この文脈において、本研究は、物理学的インフォームドニューラルネットベース制御(pinc)と呼ばれる新しい枠組みを提案する。これは、問題を制御でき、事前に固定されていない長距離時間軸をシミュレートできる、新しいピンベースのアーキテクチャを提案する。 まず、システムの初期状態と制御動作を考慮に入れた新たな入力をネットワークに付加する。 そして、各小さな間隔が初期状態と制御動作の固定値に基づいて条件付けられたodeの解となるように、完全な時間軸上の応答を分割する。 完全な応答は、次の区間の初期状態を前の区間の終端状態に設定して形成する。 新しい手法は動的システムの最適制御を可能にし、制御アプリケーションで植物から収集されたデータと専門家からの事前知識を統合することができる。 本稿では,2つの非線形力学系,Van der Pol発振器と4タンク系の制御について述べる。

Physics-informed neural networks (PINNs) impose known physical laws into the learning of deep neural networks, making sure they respect the physics of the process while decreasing the demand of labeled data. For systems represented by Ordinary Differential Equations (ODEs), the conventional PINN has a continuous time input variable and outputs the solution of the corresponding ODE. In their original form, PINNs do not allow control inputs neither can they simulate for long-range intervals without serious degradation in their predictions. In this context, this work presents a new framework called Physics-Informed Neural Nets-based Control (PINC), which proposes a novel PINN-based architecture that is amenable to control problems and able to simulate for longer-range time horizons that are not fixed beforehand. First, the network is augmented with new inputs to account for the initial state of the system and the control action. Then, the response over the complete time horizon is split such that each smaller interval constitutes a solution of the ODE conditioned on the fixed values of initial state and control action. The complete response is formed by setting the initial state of the next interval to the terminal state of the previous one. The new methodology enables the optimal control of dynamic systems, making feasible to integrate a priori knowledge from experts and data collected from plants in control applications. We showcase our method in the control of two nonlinear dynamic systems: the Van der Pol oscillator and the four-tank system.
翻訳日:2021-04-07 13:58:05 公開日:2021-04-06
# 1-Grasp適応を用いた属性ベースロボットグラスピング

Attribute-Based Robotic Grasping with One-Grasp Adaptation ( http://arxiv.org/abs/2104.02271v1 )

ライセンス: Link先を確認
Yang Yang, Yuanhao Liu, Hengyue Liang, Xibai Lou, Changhyun Choi(参考訳) ロボットハンドリングは、最も基本的なロボット操作タスクの1つであり、積極的に研究されている。 しかし, ロボットに新たな対象物を手軽に把握する方法は, いまだに困難である。 本稿では,認識,把握,迅速な適応を容易にするオブジェクト属性を活用することで,課題に挑戦する。 本稿では,片粒適応機能を有する属性に基づくロボット把持のエンドツーエンド学習手法を提案する。 提案手法は,作業空間の画像とクエリテキストの埋め込みをゲートアテンション機構を用いて融合し,インスタンスの把握能力を予測する。 さらに,視覚属性とテキスト属性の合同距離空間を学習するために,把持前後のオブジェクト持続性を利用する。 シミュレーションでは様々な色や形状の基本的なオブジェクトのみを使用し,新しいオブジェクトや実世界のシーンに一般化する。 さらに,1つの把握データだけで新たなオブジェクトに適応でき,インスタンス把握性能が大幅に向上することを示す。 シミュレーションと実世界における実験結果から, 未知の物体に対する成功率を80%以上獲得し, 多数のベースラインを大きなマージンで上回る結果が得られた。

Robotic grasping is one of the most fundamental robotic manipulation tasks and has been actively studied. However, how to quickly teach a robot to grasp a novel target object in clutter remains challenging. This paper attempts to tackle the challenge by leveraging object attributes that facilitate recognition, grasping, and quick adaptation. In this work, we introduce an end-to-end learning method of attribute-based robotic grasping with one-grasp adaptation capability. Our approach fuses the embeddings of a workspace image and a query text using a gated-attention mechanism and learns to predict instance grasping affordances. Besides, we utilize object persistence before and after grasping to learn a joint metric space of visual and textual attributes. Our model is self-supervised in a simulation that only uses basic objects of various colors and shapes but generalizes to novel objects and real-world scenes. We further demonstrate that our model is capable of adapting to novel objects with only one grasp data and improving instance grasping performance significantly. Experimental results in both simulation and the real world demonstrate that our approach achieves over 80\% instance grasping success rate on unknown objects, which outperforms several baselines by large margins.
翻訳日:2021-04-07 13:57:42 公開日:2021-04-06
# デバイス上e2e音声認識におけるユーザ知覚遅延の解消

Dissecting User-Perceived Latency of On-Device E2E Speech Recognition ( http://arxiv.org/abs/2104.02207v1 )

ライセンス: Link先を確認
Yuan Shangguan, Rohit Prabhavalkar, Hang Su, Jay Mahadeokar, Yangyang Shi, Jiatong Zhou, Chunyang Wu, Duc Le, Ozlem Kalinli, Christian Fuegen, Michael L. Seltzer(参考訳) スマートフォンやスマートスピーカーなどの音声対応デバイスがますます普及するにつれて、デバイス上で直接動作する自動音声認識(ASR)システムの構築への関心が高まっている。 正確でコンパクトな他、このようなシステムでは、低ユーザ知覚レイテンシ(upl)で音声をデコードし、話すとすぐに単語を生成する必要がある。 本研究は,モデルアーキテクチャやトレーニング基準,ハイパーパラメータの復号化,エンドポイントパラメータなど,さまざまなテクニックがUPLに与える影響について検討する。 解析の結果,モデルのサイズ(パラメータ,入力チャンクサイズ)や,モデルが入力フレームを処理可能であることを反映した計算量(FLOPS,RTF)は,観測されたUPLと必ずしも強く相関していないことが示唆された。 したがって、従来のアルゴリズムによる遅延測定は、組込みデバイスにモデルがデプロイされたときに観測された遅延を正確に捉えるのに不十分である。 その代わり、トークン放出遅延やエンドポイント動作に影響する要因がuplに大きな影響を与えていることが分かりました。 我々は,最近提案されたアライメント正規化を用いて,ASRとエンドポイントを併用する際のレイテンシと単語エラー率の最良のトレードオフを実現する。

As speech-enabled devices such as smartphones and smart speakers become increasingly ubiquitous, there is growing interest in building automatic speech recognition (ASR) systems that can run directly on-device; end-to-end (E2E) speech recognition models such as recurrent neural network transducers and their variants have recently emerged as prime candidates for this task. Apart from being accurate and compact, such systems need to decode speech with low user-perceived latency (UPL), producing words as soon as they are spoken. This work examines the impact of various techniques -- model architectures, training criteria, decoding hyperparameters, and endpointer parameters -- on UPL. Our analyses suggest that measures of model size (parameters, input chunk sizes), or measures of computation (e.g., FLOPS, RTF) that reflect the model's ability to process input frames are not always strongly correlated with observed UPL. Thus, conventional algorithmic latency measurements might be inadequate in accurately capturing latency observed when models are deployed on embedded devices. Instead, we find that factors affecting token emission latency, and endpointing behavior significantly impact on UPL. We achieve the best trade-off between latency and word error rate when performing ASR jointly with endpointing, and using the recently proposed alignment regularization.
翻訳日:2021-04-07 13:57:06 公開日:2021-04-06
# flexi-transducer:マルチドメインオンデバイスシナリオのためのレイテンシ、精度、計算の最適化

Flexi-Transducer: Optimizing Latency, Accuracy and Compute forMulti-Domain On-Device Scenarios ( http://arxiv.org/abs/2104.02232v1 )

ライセンス: Link先を確認
Jay Mahadeokar, Yangyang Shi, Yuan Shangguan, Chunyang Wu, Alex Xiao, Hang Su, Duc Le, Ozlem Kalinli, Christian Fuegen, Michael L. Seltzer(参考訳) 組み込みデバイスのストレージと計算の制約は、単一のオンデバイスASRモデルが複数のユースケース/ドメインを提供するように要求されることが多い。 本稿では,デバイス上で自動音声認識を行うためのaFlexibleTransducer( FlexiT)を提案する。 具体的には、単一のコンパクトモデルを使用して、FlexiTは音声コマンドに対する高速な応答と正確な書き起こしを提供する。 柔軟性と精度の向上とレイテンシのトレードオフを実現するために、以下のテクニックが使用される。 まず、flexitがフレキシブルなデコーディングを実現するために、エンフォーマエンコーダにドメイン固有のセグメントサイズの変更を使用することを提案する。 次に、アライメント制限RNNT損失を用いて、異なるドメインに対するトークンの放出遅延を柔軟に制御する。 最後に、flexitモデルに追加入力としてドメインインジケータベクターを追加します。 手法の組み合わせにより、音声コマンドのユースケースに最適なレイテンシを保ちながら、予測シナリオのWERとリアルタイム係数を改善するために単一のモデルが使用できることを示す。

Often, the storage and computational constraints of embeddeddevices demand that a single on-device ASR model serve multiple use-cases / domains. In this paper, we propose aFlexibleTransducer( FlexiT) for on-device automatic speech recognition to flexibly deal with multiple use-cases / domains with different accuracy and latency requirements. Specifically, using a single compact model, FlexiT provides a fast response for voice commands, and accurate transcription but with more latency for dictation. In order to achieve flexible and better accuracy and latency trade-offs, the following techniques are used. Firstly, we propose using domain-specific altering of segment size for Emformer encoder that enables FlexiT to achieve flexible de-coding. Secondly, we use Alignment Restricted RNNT loss to achieve flexible fine-grained control on token emission latency for different domains. Finally, we add a domain indicator vector as an additional input to the FlexiT model. Using the combination of techniques, we show that a single model can be used to improve WERs and real time factor for dictation scenarios while maintaining optimal latency for voice commands use-cases
翻訳日:2021-04-07 13:56:43 公開日:2021-04-06
# 比較確率的推論のための優先構造

Preferential Structures for Comparative Probabilistic Reasoning ( http://arxiv.org/abs/2104.02287v1 )

ライセンス: Link先を確認
Matthew Harrison-Trainor, Wesley H. Holliday, and Thomas F. Icard III(参考訳) 不確実性に関する推論に対する定性的かつ定量的なアプローチは、不確実性を表現する言語が同じである場合でも、そのような推論を形式化するための異なる論理体系につながる。 相対的可能性に関する推論の場合、$\varphi\succsim\psi $ という形式で $\varphi$ が少なくとも$\psi$ と同じ確率であることを示す場合、事前順序付けされた優先構造を用いた標準的な定性的アプローチは、確率測度を用いた定量的アプローチよりも劇的に異なる論理体系をもたらす。 実際、標準的な優先的なアプローチは確率論的観点から間違っている推論の原則を検証する。 しかし、本論文では、優先的アプローチの自然な修正は、単一の確率測度ではなく、むしろ確率測度の集合を用いて、確率論的なアプローチと全く同じ論理体系をもたらすことを示す。 したがって、非単調論理の研究や信念の改訂で用いられる同じ優先構造は、不正確な確率に基づく相対確率的推論の研究にも用いられる。

Qualitative and quantitative approaches to reasoning about uncertainty can lead to different logical systems for formalizing such reasoning, even when the language for expressing uncertainty is the same. In the case of reasoning about relative likelihood, with statements of the form $\varphi\succsim\psi $ expressing that $\varphi$ is at least as likely as $\psi$, a standard qualitative approach using preordered preferential structures yields a dramatically different logical system than a quantitative approach using probability measures. In fact, the standard preferential approach validates principles of reasoning that are incorrect from a probabilistic point of view. However, in this paper we show that a natural modification of the preferential approach yields exactly the same logical system as a probabilistic approach--not using single probability measures, but rather sets of probability measures. Thus, the same preferential structures used in the study of non-monotonic logics and belief revision may be used in the study of comparative probabilistic reasoning based on imprecise probabilities.
翻訳日:2021-04-07 13:56:06 公開日:2021-04-06
# 空中アジャイル攻撃パターンに対する深層学習に基づく目標軌道予測を用いた非線形モデルに基づく誘導

Nonlinear Model Based Guidance with Deep Learning Based Target Trajectory Prediction Against Aerial Agile Attack Patterns ( http://arxiv.org/abs/2104.02491v1 )

ライセンス: Link先を確認
A. Sadik Satir, Umut Demir, Gulay Goktas Sever, N. Kemal Ure(参考訳) 本研究では,ディープラーニングに基づく軌道予測と非線形モデル予測制御を組み合わせたミサイル誘導アルゴリズムを提案する。 ミサイル誘導と脅威迎撃はよく研究されている問題であるが、既存のアルゴリズムの性能は目標が急速に方向を変えながら高い加速攻撃操作を引いているときに著しく低下する。 多くの脅威が同様の攻撃操作を行うため、これらの非線形軌道パターンは現代の機械学習手法で処理でき、高精度な軌道予測アルゴリズムを構築することができる。 我々は、シミュレーションされたアジャイル攻撃パターンのクラスに基づいて長期記憶ネットワーク(LSTM)をトレーニングし、この予測器と二次プログラミングに基づく非線形モデル予測制御(NMPC)を組み合わせる。 目標加速度予測(nmpc-tap)を用いた非線形モデルに基づく予測制御は,目標/脅威がアジャイル操作を実行しているシナリオにおいて,ミス距離の観点で比較アプローチを著しく上回っている。

In this work, we propose a novel missile guidance algorithm that combines deep learning based trajectory prediction with nonlinear model predictive control. Although missile guidance and threat interception is a well-studied problem, existing algorithms' performance degrades significantly when the target is pulling high acceleration attack maneuvers while rapidly changing its direction. We argue that since most threats execute similar attack maneuvers, these nonlinear trajectory patterns can be processed with modern machine learning methods to build high accuracy trajectory prediction algorithms. We train a long short-term memory network (LSTM) based on a class of simulated structured agile attack patterns, then combine this predictor with quadratic programming based nonlinear model predictive control (NMPC). Our method, named nonlinear model based predictive control with target acceleration predictions (NMPC-TAP), significantly outperforms compared approaches in terms of miss distance, for the scenarios where the target/threat is executing agile maneuvers.
翻訳日:2021-04-07 13:55:50 公開日:2021-04-06
# シンボリックQBF推論の複雑さの証明

Proof Complexity of Symbolic QBF Reasoning ( http://arxiv.org/abs/2104.02563v1 )

ライセンス: Link先を確認
Stefan Mengel, Friedrich Slivovsky(参考訳) 順序付き二項決定図(OBDD)で動作する量子ブール式(QBF)の記号的証明システムを導入・検討する。 これらのシステムは記号量子化子除去を行うqbfソルバをキャプチャし、有界パス幅と量子化子複雑性の公式の短い証明を与える。 その結果、標準クラス証明システム、特に(長距離)QU-ResolutionとIR-Calcから指数的分離が得られる。 さらに,通信複雑性から既知の下界を持ち上げる戦略抽出に基づく,記号的QBF証明システムのための下界技術を開発した。 これにより、基礎となる OBDD の変数順序に依存しない記号的 QBF 証明系に対して強い下位境界を導出することができ、証明系が NP-オラクルにアクセスできるとしても保持できる。

We introduce and investigate symbolic proof systems for Quantified Boolean Formulas (QBF) operating on Ordered Binary Decision Diagrams (OBDDs). These systems capture QBF solvers that perform symbolic quantifier elimination, and as such admit short proofs of formulas of bounded path-width and quantifier complexity. As a consequence, we obtain exponential separations from standard clausal proof systems, specifically (long-distance) QU-Resolution and IR-Calc. We further develop a lower bound technique for symbolic QBF proof systems based on strategy extraction that lifts known lower bounds from communication complexity. This allows us to derive strong lower bounds against symbolic QBF proof systems that are independent of the variable ordering of the underlying OBDDs, and that hold even if the proof system is allowed access to an NP-oracle.
翻訳日:2021-04-07 13:55:32 公開日:2021-04-06
# Pseudo-CT画像ペアを用いた自己監督学習に基づくCT聴取

Self-Supervised Learning based CT Denoising using Pseudo-CT Image Pairs ( http://arxiv.org/abs/2104.02326v1 )

ライセンス: Link先を確認
Dongkyu Won, Euijin Jung, Sion An, Philip Chikontwe, Sang Hyun Park(参考訳) 近年,地上の真理ラベルを使わずに画像認識を行う自己教師型学習手法が提案されている。 これらの手法は、画像にランダムまたはガウスノイズを追加して低品質の画像を作成し、そのモデルにノイズを与える。 理想的には、自己監督によって少数のトレーニングサンプルで高品質なCT画像を生成することができれば有益である。 しかし,ctノイズの複雑さから,ctの雑音除去性能は一般に制限されている。 この問題に対処するために,新しい自己教師型学習ベースCT法を提案する。 特に,低用量CT (LDCT) と正常用量CT (NDCT) のペアを用いて,低用量CT (LDCT) からCTノイズを予測できる事前訓練用CTノイズモデルとノイズモデルを訓練する。 与えられた試験LDCTに対して,事前学習した雑音モデルを用いて擬似LDCTとNDCTのペアを生成し,これらのペアを用いて擬似化モデルのパラメータを更新し,試験LDCTのノイズを除去する。 実写的なPseudo LDCTを作成するために,各画像から複数のノイズモデルを訓練し,ノイズモデルのアンサンブルを用いてノイズを生成する。 本手法を2016 aapm low-dose ct grand challengeデータセットで評価した。 提案するアンサンブル雑音モデルは,現実的なctノイズを生成することができるため,教師付き学習と自己教師付き学習により訓練された既存の雑音モデルの性能を大幅に向上させることができる。

Recently, Self-supervised learning methods able to perform image denoising without ground truth labels have been proposed. These methods create low-quality images by adding random or Gaussian noise to images and then train a model for denoising. Ideally, it would be beneficial if one can generate high-quality CT images with only a few training samples via self-supervision. However, the performance of CT denoising is generally limited due to the complexity of CT noise. To address this problem, we propose a novel self-supervised learning-based CT denoising method. In particular, we train pre-train CT denoising and noise models that can predict CT noise from Low-dose CT (LDCT) using available LDCT and Normal-dose CT (NDCT) pairs. For a given test LDCT, we generate Pseudo-LDCT and NDCT pairs using the pre-trained denoising and noise models and then update the parameters of the denoising model using these pairs to remove noise in the test LDCT. To make realistic Pseudo LDCT, we train multiple noise models from individual images and generate the noise using the ensemble of noise models. We evaluate our method on the 2016 AAPM Low-Dose CT Grand Challenge dataset. The proposed ensemble noise model can generate realistic CT noise, and thus our method significantly improves the denoising performance existing denoising models trained by supervised- and self-supervised learning.
翻訳日:2021-04-07 13:55:19 公開日:2021-04-06
# 連続手話認識のための視覚的アライメント制約

Visual Alignment Constraint for Continuous Sign Language Recognition ( http://arxiv.org/abs/2104.02330v1 )

ライセンス: Link先を確認
Yuecong Min, Aiming Hao, Xiujuan Chai, Xilin Chen(参考訳) 視覚に基づく連続手話認識 (CSLR) は、画像列から未分割のジェスチャーを認識することを目的としている。 CSLRモデルのトレーニングを改善するため、アライメントモデルの過度な適合を軽減するため、反復トレーニングスキームが広く採用されている。 反復的なトレーニング方式はパフォーマンスを向上させることができるが、トレーニング時間も増加する。 本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。 そこで本稿では,視覚的アライメント制約 (VAC) を用いて特徴抽出器のアライメントを向上する手法を提案する。 具体的には,視覚的特徴のみに基づいて予測を行い,短期的な視覚的特徴と長期的な文脈的特徴とを一致させる2つの補助的損失から構成される。 さらに,特徴抽出器とアライメントモデルの寄与度を評価するための2つの指標を提案する。 提案したVACは,2つのCSLRデータセット上での競合性能を実現し,その有効性を示す実験結果を得た。

Vision-based Continuous Sign Language Recognition (CSLR) aims to recognize unsegmented gestures from image sequences. To better train CSLR models, the iterative training scheme is widely adopted to alleviate the overfitting of the alignment model. Although the iterative training scheme can improve performance, it will also increase the training time. In this work, we revisit the overfitting problem in recent CTC-based CSLR works and attribute it to the insufficient training of the feature extractor. To solve this problem, we propose a Visual Alignment Constraint (VAC) to enhance the feature extractor with more alignment supervision. Specifically, the proposed VAC is composed of two auxiliary losses: one makes predictions based on visual features only, and the other aligns short-term visual and long-term contextual features. Moreover, we further propose two metrics to evaluate the contributions of the feature extractor and the alignment model, which provide evidence for the overfitting problem. The proposed VAC achieves competitive performance on two challenging CSLR datasets and experimental results show its effectiveness.
翻訳日:2021-04-07 13:54:57 公開日:2021-04-06
# 注意誘導型深層学習モデルに基づくmr画像の脳腫瘍分類

Brain Tumors Classification for MR images based on Attention Guided Deep Learning Model ( http://arxiv.org/abs/2104.02331v1 )

ライセンス: Link先を確認
Yuhao Zhang, Shuhang Wang, Haoxiang Wu, Kejia Hu, Shufan Ji(参考訳) 脳腫瘍の臨床的診断と治療において、手動画像読影は多くのエネルギーと時間を消費する。 近年,深層学習に基づく腫瘍自動分類技術が人々の視覚分野に参入している。 脳腫瘍は、発生源に応じて一次と二次の頭蓋内腫瘍に分けられる。 しかし、我々の知る限り、既存の脳腫瘍の研究はほとんどは頭蓋内腫瘍の画像に限られており、腫瘍の根源を分類することはできない。 腫瘍ソース分類の課題を解決するために,既存の技術を分析し,注意誘導型深層畳み込みニューラルネットワーク(cnn)モデルを提案する。 一方,本論文では腫瘍の有無を分類する精度を効果的に向上する手法を提案する。 脳mrデータセットでは、腫瘍の有無を識別するために10倍のクロスバリデーションで平均99.18%、腫瘍源を分類するために83.38%の精度が得られる。 実験の結果,本手法は医療専門家の方法と一致していることがわかった。 医師が脳腫瘍の効率的な診断を行うのを助ける。

In the clinical diagnosis and treatment of brain tumors, manual image reading consumes a lot of energy and time. In recent years, the automatic tumor classification technology based on deep learning has entered people's field of vision. Brain tumors can be divided into primary and secondary intracranial tumors according to their source. However, to our best knowledge, most existing research on brain tumors are limited to primary intracranial tumor images and cannot classify the source of the tumor. In order to solve the task of tumor source type classification, we analyze the existing technology and propose an attention guided deep convolution neural network (CNN) model. Meanwhile, the method proposed in this paper also effectively improves the accuracy of classifying the presence or absence of tumor. For the brain MR dataset, our method can achieve the average accuracy of 99.18% under ten-fold cross-validation for identifying the presence or absence of tumor, and 83.38% for classifying the source of tumor. Experimental results show that our method is consistent with the method of medical experts. It can assist doctors in achieving efficient clinical diagnosis of brain tumors.
翻訳日:2021-04-07 13:54:39 公開日:2021-04-06
# 網膜血管セグメンテーションのためのピラミッドU-Net

Pyramid U-Net for Retinal Vessel Segmentation ( http://arxiv.org/abs/2104.02333v1 )

ライセンス: Link先を確認
Jiawei Zhang, Yanchun Zhang, Xiaowei Xu(参考訳) 網膜血管は糖尿病や高血圧などの眼疾患の診断を補助し、その分節化は網膜画像の自動解析において特に重要である。 しかしながら、これらの血管構造、特に低コントラストと曖昧さのため、色の網膜画像から細い毛細血管を分離することは困難である。 本稿では,正確な網膜血管分割のためのピラミッドU-Netを提案する。 ピラミッドU-Netでは,提案するピラミッドスケールアグリゲーションブロック (PSAB) がエンコーダとデコーダの両方で採用され,高レベル,高レベル,高レベル,低レベルの特徴を集約する。 このようにして、粒度の細かいコンテキスト情報を各ブロックに共有して集約することにより、毛細血管の位置を改善する。 さらに性能を向上させるために、エンコーダとデコーダのpsabにピラミッド入力の強化とディープピラミッドの監督を含む2つの最適化を適用する。 エンコーダ内のPSABに対しては、拡張入力画像が追加入力として追加される。 デコーダのpsabに対して、スケールド中間出力はスケールドセグメンテーションラベルによって監視される。 我々のピラミッドU-Netは、パブリックDRIVEとCHASE-DB1データセットの最先端の手法よりも優れています。

Retinal blood vessel can assist doctors in diagnosis of eye-related diseases such as diabetes and hypertension, and its segmentation is particularly important for automatic retinal image analysis. However, it is challenging to segment these vessels structures, especially the thin capillaries from the color retinal image due to low contrast and ambiguousness. In this paper, we propose pyramid U-Net for accurate retinal vessel segmentation. In pyramid U-Net, the proposed pyramid-scale aggregation blocks (PSABs) are employed in both the encoder and decoder to aggregate features at higher, current and lower levels. In this way, coarse-to-fine context information is shared and aggregated in each block thus to improve the location of capillaries. To further improve performance, two optimizations including pyramid inputs enhancement and deep pyramid supervision are applied to PSABs in the encoder and decoder, respectively. For PSABs in the encoder, scaled input images are added as extra inputs. While for PSABs in the decoder, scaled intermediate outputs are supervised by the scaled segmentation labels. Extensive evaluations show that our pyramid U-Net outperforms the current state-of-the-art methods on the public DRIVE and CHASE-DB1 datasets.
翻訳日:2021-04-07 13:54:25 公開日:2021-04-06
# 属性特異的埋め込み学習によるきめ細かいファッション類似度予測

Fine-Grained Fashion Similarity Prediction by Attribute-Specific Embedding Learning ( http://arxiv.org/abs/2104.02429v1 )

ライセンス: Link先を確認
Jianfeng Dong, Zhe Ma, Xiaofeng Mao, Xun Yang, Yuan He, Richang Hong, Shouling Ji(参考訳) 本稿では, ファッションの微粒化を推し進める。 この類似性パラダイムでは、ファッションアイテム間の特定のデザイン/属性の観点から、類似性にもっと注意を払うべきです。 例えば、2つの服の首輪のデザインが似ているかどうか。 ファッション著作権保護など、ファッション関連の多くのアプリケーションで潜在的に有用である。 そこで本稿では,複数の属性固有の埋め込みを共同で学習する Attribute-Specific Embedding Network (ASEN) を提案する。 提案したASENはグローバルブランチとローカルブランチで構成されている。 グローバルブランチは全画像を入力として、グローバルパースペクティブから特徴を抽出し、ローカルブランチはズームインされた関心領域(RoI)w.r.tを入力として取る。 したがって、指定された属性はよりきめ細かい特徴を抽出することができる。 グローバルブランチとローカルブランチは異なる視点から特徴を抽出するので、それらは相互に相補的である。 さらに、各ブランチにおいて、Attribute対応空間注意とAttribute対応チャンネル注意という2つの注意モジュールが統合され、ASENが関連する領域を特定し、特定の属性のガイダンスの下で本質的なパターンをキャプチャできるようにすることにより、学習された属性固有の埋め込みがよりきめ細かな類似性を反映する。 ファッション関連データセットであるFashionAI、DARN、DeepFashionの広範囲にわたる実験は、ファッション類似性予測におけるASENの有効性とファッション再評価の可能性を示している。 コードとデータはhttps://github.com/m aryeon/asenppで入手できる。

This paper strives to predict fine-grained fashion similarity. In this similarity paradigm, one should pay more attention to the similarity in terms of a specific design/attribute between fashion items. For example, whether the collar designs of the two clothes are similar. It has potential value in many fashion related applications, such as fashion copyright protection. To this end, we propose an Attribute-Specific Embedding Network (ASEN) to jointly learn multiple attribute-specific embeddings, thus measure the fine-grained similarity in the corresponding space. The proposed ASEN is comprised of a global branch and a local branch. The global branch takes the whole image as input to extract features from a global perspective, while the local branch takes as input the zoomed-in region-of-interest (RoI) w.r.t. the specified attribute thus able to extract more fine-grained features. As the global branch and the local branch extract the features from different perspectives, they are complementary to each other. Additionally, in each branch, two attention modules, i.e., Attribute-aware Spatial Attention and Attribute-aware Channel Attention, are integrated to make ASEN be able to locate the related regions and capture the essential patterns under the guidance of the specified attribute, thus make the learned attribute-specific embeddings better reflect the fine-grained similarity. Extensive experiments on three fashion-related datasets, i.e., FashionAI, DARN, and DeepFashion, show the effectiveness of ASEN for fine-grained fashion similarity prediction and its potential for fashion reranking. Code and data are available at https://github.com/m aryeon/asenpp .
翻訳日:2021-04-07 13:54:04 公開日:2021-04-06
# 画像デノイジングのための効率的なモデル誘導深層ネットワーク探索

Searching Efficient Model-guided Deep Network for Image Denoising ( http://arxiv.org/abs/2104.02525v1 )

ライセンス: Link先を確認
Qian Ning, Weisheng Dong, Xin Li, Jinjian Wu, Leida Li, Guangming Shi(参考訳) neural architecture search(nas)は最近、さまざまなビジョンタスクに対する理解を再構築しました。 高レベルの視覚タスクにおけるNASの成功と同様に、NASを介してメモリと計算効率のよいソリューションを見つけることができる。 しかし、スーパーネットワークとサブアーキテクチャの最適化ギャップは、低レベルと高レベルの両方のビジョンにおいて未解決のままである。 本稿では,モデル誘導設計とNAS(MoD-NAS)を接続することで,このギャップを埋める新しい手法を提案する。 具体的には,モデル誘導フレームワークの下で新しい探索空間を構築し,より安定かつ効率的な微分探索戦略を開発することを提案する。 MoD-NASは、高度に再利用可能な幅探索戦略と密結合された探索ブロックを用いて、各層の動作と勾配勾配によるネットワーク幅と深さを自動的に選択する。 探索過程において,提案したMoG-NASは,モデル誘導フレームワークで設計したよりスムーズな探索空間により,モード崩壊を回避することができる。 いくつかの一般的なデータセットに対する実験結果から、我々のMoD-NASは、パラメータが少なく、フロップの数が少なく、テスト時間が少ない現在の最先端手法よりも、より優れたPSNR性能を実現していることが示された。

Neural architecture search (NAS) has recently reshaped our understanding on various vision tasks. Similar to the success of NAS in high-level vision tasks, it is possible to find a memory and computationally efficient solution via NAS with highly competent denoising performance. However, the optimization gap between the super-network and the sub-architectures has remained an open issue in both low-level and high-level vision. In this paper, we present a novel approach to filling in this gap by connecting model-guided design with NAS (MoD-NAS) and demonstrate its application into image denoising. Specifically, we propose to construct a new search space under model-guided framework and develop more stable and efficient differential search strategies. MoD-NAS employs a highly reusable width search strategy and a densely connected search block to automatically select the operations of each layer as well as network width and depth via gradient descent. During the search process, the proposed MoG-NAS is capable of avoiding mode collapse due to the smoother search space designed under the model-guided framework. Experimental results on several popular datasets show that our MoD-NAS has achieved even better PSNR performance than current state-of-the-art methods with fewer parameters, lower number of flops, and less amount of testing time.
翻訳日:2021-04-07 13:53:38 公開日:2021-04-06
# 仕事の未来:倫理

Future of work: ethics ( http://arxiv.org/abs/2104.02580v1 )

ライセンス: Link先を確認
David Pastor-Escuredo(参考訳) 新しい課題と新しい技術と計算ツールの存在を特徴とする次の新時代において、作業は再構築されなければならない。 過度な自動化がデジタル化プロセスの原動力のようだ。 置換は、人間の認知に対する人工知能とロボティクス開発を導くパラダイムである。 デジタル技術は人間のスキルを高め、人間の認知と能力をより生産的に活用するために設計されるべきである。 デジタル技術は、容易かつ安価に展開できるため、スケーラビリティも特徴である。 したがって、自動化は仕事の欠如と、人間の開発とビジネスのパフォーマンスにスケーラブルな負の影響をもたらす可能性がある。 持続可能な開発目標のレンズからデジタル化を考えると、社会を複雑な相互接続システムとみなすさまざまな分野や領域において、デジタル化がどう影響するかがわかる。 ここでは、AIとデータがどのように仕事の未来や持続可能な開発に影響を及ぼすかについての考察が、人間レベルの原則と体系的な原則を含む倫理的なコアに基づいている。

Work must be reshaped in the upcoming new era characterized by new challenges and the presence of new technologies and computational tools. Over-automation seems to be the driver of the digitalization process. Substitution is the paradigm leading Artificial Intelligence and robotics development against human cognition. Digital technology should be designed to enhance human skills and make more productive use of human cognition and capacities. Digital technology is characterized also by scalability because of its easy and inexpensive deployment. Thus, automation can lead to the absence of jobs and scalable negative impact in human development and the performance of business. A look at digitalization from the lens of Sustainable Development Goals can tell us how digitalization impact in different sectors and areas considering society as a complex interconnected system. Here, reflections on how AI and Data impact future of work and sustainable development are provided grounded on an ethical core that comprises human-level principles and also systemic principles.
翻訳日:2021-04-07 13:53:16 公開日:2021-04-06
# 動的グラフモデリングのための双曲変動グラフニューラルネットワーク

Hyperbolic Variational Graph Neural Network for Modeling Dynamic Graphs ( http://arxiv.org/abs/2104.02228v1 )

ライセンス: Link先を確認
Li Sun, Zhongbao Zhang, Jiawei Zhang, Feiyang Wang, Hao Peng, Sen Su and Philip S. Yu(参考訳) グラフの学習表現は、下流の幅広いアプリケーションにおいて重要な役割を果たす。 本稿では,先行研究の限界を,表現空間,モデリングダイナミクス,モデリングの不確実性という3つにまとめる。 このギャップを埋めるため,我々は,確率的ノード表現の推論を目的とした双曲空間における動的グラフ表現を初めて学習することを提案する。 双曲空間を扱うために,HVGNNと呼ばれる新しい双曲変動グラフニューラルネットワークを提案する。 特に,動力学をモデル化するために,理論的に接地した時間符号化手法に基づく時間gnn(tgnn)を導入する。 不確かさをモデル化するために,提案するtgnn上に構築した双曲グラフ変分オートエンコーダを考案し,双曲正規分布の確率ノード表現を生成する。 さらに,HVGNNの勾配に基づく学習を可能にするために,双曲正規分布のパラメータ化可能なサンプリングアルゴリズムを提案する。 大規模な実験により、HVGNNは実世界のデータセットで最先端のベースラインを上回ります。

Learning representations for graphs plays a critical role in a wide spectrum of downstream applications. In this paper, we summarize the limitations of the prior works in three folds: representation space, modeling dynamics and modeling uncertainty. To bridge this gap, we propose to learn dynamic graph representation in hyperbolic space, for the first time, which aims to infer stochastic node representations. Working with hyperbolic space, we present a novel Hyperbolic Variational Graph Neural Network, referred to as HVGNN. In particular, to model the dynamics, we introduce a Temporal GNN (TGNN) based on a theoretically grounded time encoding approach. To model the uncertainty, we devise a hyperbolic graph variational autoencoder built upon the proposed TGNN to generate stochastic node representations of hyperbolic normal distributions. Furthermore, we introduce a reparameterisable sampling algorithm for the hyperbolic normal distribution to enable the gradient-based learning of HVGNN. Extensive experiments show that HVGNN outperforms state-of-the-art baselines on real-world datasets.
翻訳日:2021-04-07 13:52:36 公開日:2021-04-06
# 都市洪水時の道路ネットワーク浸出状況予測のための時空間グラフ畳み込みネットワーク

Spatio-Temporal Graph Convolutional Networks for Road Network Inundation Status Prediction during Urban Flooding ( http://arxiv.org/abs/2104.02276v1 )

ライセンス: Link先を確認
Faxi Yuan, Yuanchang Xu, Qingchun Li, Ali Mostafavi(参考訳) 本研究の目的は,詳細な交通データに深層学習フレームワークを用いて,道路セグメントと隣接する道路セグメントの洪水状況を予測することである。 道路ネットワークの状況把握のための洪水予報モニタリングは,病院や避難所へのアクセス損失の評価などの危機対応活動を支援する上で重要な役割を担っている。 道路セグメントレベルでの道路ネットワークの洪水状況の予測に関する既存の研究は欠落している。 本研究は,道路区間に関する詳細な交通速度データを用いて,ハリス郡(テキサス州)の2017年ハリケーン・ハーヴェイで発生した道路セグメントレベルでの洪水時の道路ネットワーク状況を予測する3つの時空間グラフ畳み込みネットワーク(STGCN)モデルを設計,実装した。 モデル1は2つの時空間ブロックから構成され、道路セグメント間の隣接性と距離を考慮し、モデル2は道路セグメント間の標高差を考慮に入れた追加の高架ブロックを含む。 モデル3には3つのブロックが含まれており、道路セグメント間の距離と標高の差が生じる。 解析はSTGCNモデルを試験し、予測性能を評価した。 その結果,モデル1とモデル2は,モデル精度とリコール値が98%,モデル2が96%以上で,近い将来の道路ネットワーク浸水状況の予測性能(例:2~4時間)が向上していることがわかった。 洪水における道路ネットワークの信頼性の高い状況予測により, 被災地や災害管理機関が避難・救援資源提供計画を実施するのを回避できる。

The objective of this study is to predict the near-future flooding status of road segments based on their own and adjacent road segments current status through the use of deep learning framework on fine-grained traffic data. Predictive flood monitoring for situational awareness of road network status plays a critical role to support crisis response activities such as evaluation of the loss of access to hospitals and shelters. Existing studies related to near-future prediction of road network flooding status at road segment level are missing. Using fine-grained traffic speed data related to road sections, this study designed and implemented three spatio-temporal graph convolutional network (STGCN) models to predict road network status during flood events at the road segment level in the context of the 2017 Hurricane Harvey in Harris County (Texas, USA). Model 1 consists of two spatio-temporal blocks considering the adjacency and distance between road segments, while Model 2 contains an additional elevation block to account for elevation difference between road segments. Model 3 includes three blocks for considering the adjacency and the product of distance and elevation difference between road segments. The analysis tested the STGCN models and evaluated their prediction performance. Our results indicated that Model 1 and Model 2 have reliable and accurate performance for predicting road network flooding status in near future (e.g., 2-4 hours) with model precision and recall values larger than 98% and 96%, respectively. With reliable road network status predictions in floods, the proposed model can benefit affected communities to avoid flooded roads and the emergency management agencies to implement evacuation and relief resource delivery plans.
翻訳日:2021-04-07 13:52:21 公開日:2021-04-06
# 輸送需要モデルのための深層学習を取り入れた新しい活動パターン生成

A novel activity pattern generation incorporating deep learning for transport demand models ( http://arxiv.org/abs/2104.02278v1 )

ライセンス: Link先を確認
Danh T. Phan and Hai L. Vu(参考訳) 活動に基づく需要モデリングシステムにおいて,活動生成は重要な役割を果たす。 機械学習、特にディープラーニングはモード選択とトラフィックフロー予測にますます使われているが、アクティビティ生成タスクにおけるディープラーニングの利点を利用する研究は少ない。 本稿では,旅行ドメイン知識に深層学習を取り入れた新しい活動パターン生成フレームワークを提案する。 それぞれの活動スケジュールを,一次活動ツアーといくつかの二次活動ツアーとしてモデル化する。 次に、活動タイプを分類し、活動時間を予測するために、エンティティ埋め込みとランダムフォレストモデルを用いた異なるディープニューラルネットワークを開発する。 提案されたフレームワークは、トレーニングセットと検証セットの両方で個人のアクティビティパターンをキャプチャできる。 その結果,作業開始時刻と終了時刻,学校活動の精度が向上した。 フレームワークはまた、停止前と停止後の一次作業の開始パターンをうまく再現する。 これにより、高度な機械学習メソッドをデプロイして、トランスポート需要システムとそのアプリケーションのためのより信頼性の高いアクティビティトラバーパターンを生成する、有望な方向を提供する。

Activity generation plays an important role in activity-based demand modelling systems. While machine learning, especially deep learning, has been increasingly used for mode choice and traffic flow prediction, much less research exploiting the advantage of deep learning for activity generation tasks. This paper proposes a novel activity pattern generation framework by incorporating deep learning with travel domain knowledge. We model each activity schedule as one primary activity tour and several secondary activity tours. We then develop different deep neural networks with entity embedding and random forest models to classify activity type, as well as to predict activity times. The proposed framework can capture the activity patterns for individuals in both training and validation sets. Results show high accuracy for the start time and end time of work and school activities. The framework also replicates the start time patterns of stop-before and stop-after primary work activity well. This provides a promising direction to deploy advanced machine learning methods to generate more reliable activity-travel patterns for transport demand systems and their applications.
翻訳日:2021-04-07 13:51:51 公開日:2021-04-06
# NU-Wave:ニューラルオーディオアップサンプリングのための拡散確率モデル

NU-Wave: A Diffusion Probabilistic Model for Neural Audio Upsampling ( http://arxiv.org/abs/2104.02321v1 )

ライセンス: Link先を確認
Junhyeok Lee and Seungu Han(参考訳) 本研究では, 粗い16kHzまたは24kHz入力からサンプリングレート48kHzの波形を生成する最初のニューラルオーディオアップサンプリングモデルであるNU-Waveを紹介する。 nu-waveは、ニューラルボコーダに基づく音声スーパーレゾリューションのための最初の拡散確率モデルである。 nu-waveはsnr(signal-to-noise ratio)、lsd(log-spectral distance)、abxテストの精度で高性能な高品質オーディオを生成する。 すべての場合、NU-Waveはベースライン(5.4-21%)よりもモデル容量(3.0Mパラメータ)がかなり小さいにもかかわらずベースラインモデルより優れている。 私たちのモデルのオーディオサンプルはhttps://mindslab-ai. github.io/nuwaveで入手できます。

In this work, we introduce NU-Wave, the first neural audio upsampling model to produce waveforms of sampling rate 48kHz from coarse 16kHz or 24kHz inputs, while prior works could generate only up to 16kHz. NU-Wave is the first diffusion probabilistic model for audio super-resolution which is engineered based on neural vocoders. NU-Wave generates high-quality audio that achieves high performance in terms of signal-to-noise ratio (SNR), log-spectral distance (LSD), and accuracy of the ABX test. In all cases, NU-Wave outperforms the baseline models despite the substantially smaller model capacity (3.0M parameters) than baselines (5.4-21%). The audio samples of our model are available at https://mindslab-ai. github.io/nuwave, and the code will be made available soon.
翻訳日:2021-04-07 13:51:36 公開日:2021-04-06
# Runge-Kuttaネットワークを用いた点分類と特徴空間拡張

Point classification with Runge-Kutta networks and feature space augmentation ( http://arxiv.org/abs/2104.02369v1 )

ライセンス: Link先を確認
Elisa Giesecke and Axel Kr\"oner(参考訳) 本稿では,[\emph{benning et al., j. comput で考慮されたrunge-kuttaネットに基づくアプローチを組み合わせる。 dynamics, 9, 2019}]および[\emph{dupont et al., neurips}, 2019]における入力空間の強化技術により、ポイント分類問題におけるディープニューラルネットワークの数値的性能が向上するネットワークアーキテクチャが得られた。 このアプローチは、PyTorchで実装されたいくつかの例で説明されています。

In this paper we combine an approach based on Runge-Kutta Nets considered in [\emph{Benning et al., J. Comput. Dynamics, 9, 2019}] and a technique on augmenting the input space in [\emph{Dupont et al., NeurIPS}, 2019] to obtain network architectures which show a better numerical performance for deep neural networks in point classification problems. The approach is illustrated with several examples implemented in PyTorch.
翻訳日:2021-04-07 13:51:21 公開日:2021-04-06
# mSHINE: 異種情報ネットワーク埋め込みのためのマルチメタパス同時学習フレームワーク

mSHINE: A Multiple-meta-paths Simultaneous Learning Framework for Heterogeneous Information Network Embedding ( http://arxiv.org/abs/2104.02433v1 )

ライセンス: Link先を確認
Xinyi Zhang, Lihui Chen(参考訳) 近年,明示的なネットワーク構造を用いて情報量の多いオブジェクトをモデリングする能力によって,異種情報ネットワーク(HIN)が普及している。 ネットワーク埋め込みは,情報ネットワークを低次元空間に変換する効果的な手法として証明されている。 しかし、従来のネットワーク埋め込みアルゴリズムは、HINによって提供される潜在的に互換性のないセマンティクスを捕えるのに最適ではない。 この問題を解決するために、mSHINEと呼ばれる新しいメタパスベースのHIN表現学習フレームワークは、異なるメタパスに対して複数のノード表現を同時に学習するように設計されている。 より具体的には、RNN構造にインスパイアされた1つの表現学習モジュールを開発し、複数のノード表現を同時に学習することができる。 対象関数の設計したノード間の関連性を測定することにより、学習モジュールを下流リンク予測タスクに適用することができる。 適切なメタパスの事前知識がない場合に最適なメタパス選択コストを削減することが重要であるmSHINEの他のモジュールとして、初期メタパスを選択するための基準セットを提案する。 mSHINEの有効性を裏付けるために,5つの実世界のデータセットに対してノード分類とリンク予測を含む広範な実験を行った。 その結果、mshineは他のhin埋め込みメソッドよりも優れていることがわかった。

Heterogeneous information networks(HINs) become popular in recent years for its strong capability of modelling objects with abundant information using explicit network structure. Network embedding has been proved as an effective method to convert information networks into lower-dimensional space, whereas the core information can be well preserved. However, traditional network embedding algorithms are sub-optimal in capturing rich while potentially incompatible semantics provided by HINs. To address this issue, a novel meta-path-based HIN representation learning framework named mSHINE is designed to simultaneously learn multiple node representations for different meta-paths. More specifically, one representation learning module inspired by the RNN structure is developed and multiple node representations can be learned simultaneously, where each representation is associated with one respective meta-path. By measuring the relevance between nodes with the designed objective function, the learned module can be applied in downstream link prediction tasks. A set of criteria for selecting initial meta-paths is proposed as the other module in mSHINE which is important to reduce the optimal meta-path selection cost when no prior knowledge of suitable meta-paths is available. To corroborate the effectiveness of mSHINE, extensive experimental studies including node classification and link prediction are conducted on five real-world datasets. The results demonstrate that mSHINE outperforms other state-of-the-art HIN embedding methods.
翻訳日:2021-04-07 13:51:12 公開日:2021-04-06
# グラフニューラルネットワークを用いた構造的引用トレンド予測

Structured Citation Trend Prediction Using Graph Neural Networks ( http://arxiv.org/abs/2104.02562v1 )

ライセンス: Link先を確認
Daniel Cummings, Marcel Nassar(参考訳) 学術引用グラフは、学術分野全体の出版物間の引用関係を表す。 トップ引用論文は、研究者と実践者の両方にとって重要な、対応する領域における将来の傾向を明らかにするのが一般的である。 先行引用予測法は、しばしば初期引用傾向を確立する必要があり、グラフニューラルネットワーク(GNN)の最近の進歩を生かしていない。 我々は,出版時の論文の上位集合を予測するgnnベースのアーキテクチャを提案する。 実験では,さまざまなカンファレンスを対象とした一連の学術引用グラフをキュレートし,提案モデルがF1スコアで他の古典的機械学習モデルより優れていることを示す。

Academic citation graphs represent citation relationships between publications across the full range of academic fields. Top cited papers typically reveal future trends in their corresponding domains which is of importance to both researchers and practitioners. Prior citation prediction methods often require initial citation trends to be established and do not take advantage of the recent advancements in graph neural networks (GNNs). We present GNN-based architecture that predicts the top set of papers at the time of publication. For experiments, we curate a set of academic citation graphs for a variety of conferences and show that the proposed model outperforms other classic machine learning models in terms of the F1-score.
翻訳日:2021-04-07 13:50:48 公開日:2021-04-06
# Caputo分数微分に基づく最適化アルゴリズム

A Caputo fractional derivative-based algorithm for optimization ( http://arxiv.org/abs/2104.02259v1 )

ライセンス: Link先を確認
Yeonjong Shin, J\'er\^ome Darbon, George Em Karniadakis(参考訳) 本稿では,Caputo分数微分に基づく新しい最適化アルゴリズムを提案する。 カルテシアン座標に関してカプトー分数勾配を定義する際、一般的なカプトー分数勾配降下法(CFGD)を提案する。 CFGDは局所的に滑らかな対象関数の最も急降下方向を示す。 CFGDは3つのパラメータを指定する必要があり、パラメータの選択によってCFGDのバージョンが生成される。 我々は,非適応型,適応型,適応型という3つのバージョンを提案する。 二次目的関数に着目して収束解析を行う。 非適応CFGDがチコノフ正規化解に収束することを証明する。 2つの適応バージョンに対して、ある条件下での整数次定常点への収束を示す誤差境界を導出する。 二次関数に対するCFGDの明示的な公式を導出する。 その結果,適応型端末(at)cfgdは収束率の条件数依存性を緩和し,勾配降下の著しい加速(gd)をもたらすことがわかった。 非二次関数に対して、計算コストは二次点の数とGDのコストにほぼ比例するガウス・ヤコビ二次関数を用いたCFGDの効率的な実装を開発する。 数値実験により,gauss-jacobi二次点(単点を含む)を少数使用しても,at-cfgd は gd 上で加速することを示した。

We propose a novel Caputo fractional derivative-based optimization algorithm. Upon defining the Caputo fractional gradient with respect to the Cartesian coordinate, we present a generic Caputo fractional gradient descent (CFGD) method. We prove that the CFGD yields the steepest descent direction of a locally smoothed objective function. The generic CFGD requires three parameters to be specified, and a choice of the parameters yields a version of CFGD. We propose three versions -- non-adaptive, adaptive terminal and adaptive order. By focusing on quadratic objective functions, we provide a convergence analysis. We prove that the non-adaptive CFGD converges to a Tikhonov regularized solution. For the two adaptive versions, we derive error bounds, which show convergence to integer-order stationary point under some conditions. We derive an explicit formula of CFGD for quadratic functions. We computationally found that the adaptive terminal (AT) CFGD mitigates the dependence on the condition number in the rate of convergence and results in significant acceleration over gradient descent (GD). For non-quadratic functions, we develop an efficient implementation of CFGD using the Gauss-Jacobi quadrature, whose computational cost is approximately proportional to the number of the quadrature points and the cost of GD. Our numerical examples show that AT-CFGD results in acceleration over GD, even when a small number of the Gauss-Jacobi quadrature points (including a single point) is used.
翻訳日:2021-04-07 13:49:44 公開日:2021-04-06
# 話者検証のためのバイナリニューラルネットワーク

Binary Neural Network for Speaker Verification ( http://arxiv.org/abs/2104.02306v1 )

ライセンス: Link先を確認
Tinglong Zhu, Xiaoyi Qin, Ming Li(参考訳) ディープニューラルネットワークは音声領域における多くのタスクで成功しているが、ディープニューラルネットワークの計算とメモリコストが高いため、低リソースの組み込みデバイスに高性能ニューラルネットワークシステムを直接デプロイすることは困難である。 ニューラルネットワークのサイズを減らすメカニズムはいくつかある。 パラメータのプルーニング、パラメータの量子化など。 本稿では,二元的ニューラルネットワークを話者検証の課題に適用する方法に焦点をあてる。 提案されたトレーニングパラメータのバイナリ化は、ストレージスペース要件と計算コストを大幅に削減しながら、パフォーマンスをほとんど維持することができる。 実験の結果、畳み込みニューラルネットワークをバイナライズした後、ResNet34ベースのネットワークはVoxceleb1テストデータセットで約5%のEERを達成し、テキスト依存データセットで従来の実数ネットワークであるXiaoleを32倍のメモリセーブで上回ります。

Although deep neural networks are successful for many tasks in the speech domain, the high computational and memory costs of deep neural networks make it difficult to directly deploy highperformance Neural Network systems on low-resource embedded devices. There are several mechanisms to reduce the size of the neural networks i.e. parameter pruning, parameter quantization, etc. This paper focuses on how to apply binary neural networks to the task of speaker verification. The proposed binarization of training parameters can largely maintain the performance while significantly reducing storage space requirements and computational costs. Experiment results show that, after binarizing the Convolutional Neural Network, the ResNet34-based network achieves an EER of around 5% on the Voxceleb1 testing dataset and even outperforms the traditional real number network on the text-dependent dataset: Xiaole while having a 32x memory saving.
翻訳日:2021-04-07 13:49:23 公開日:2021-04-06
# 要求インタビューにおける音声とバイオフィードバックによるユーザエンゲージメント予測

Using Voice and Biofeedback to Predict User Engagement during Requirements Interviews ( http://arxiv.org/abs/2104.02410v1 )

ライセンス: Link先を確認
Alessio Ferrari, Thaide Huichapa, Paola Spoletini, Nicole Novielli, Davide Fucci, Daniela Girardi(参考訳) ユーザエンゲージメントの獲得は、ソフトウェア製品の機能に関するフィードバックを集める上で極めて重要です。 市場主導の文脈では、ユーザーのフィードバックを収集し分析する現在のアプローチは、製品レビューやソーシャルメディアから抽出された情報を活用する技術に基づいている。 これらのアプローチは、専門的なソフトウェア開発や、特定のユーザから情報を集める必要があるコンテキストではほとんど適用できない。 そのような場合、企業は製品に対するフィードバックを得るために対面のインタビューに頼る必要がある。 本稿では,生体計測データを,生理的・音声的特徴の観点から活用し,製品関連トピックに対するユーザの関与に関する情報をインタビューに補完する手法を提案する。 本研究では,Empatica E4リストバンドを用いて生理的データ(バイオフィードバック)を収集しながらユーザをインタビューし,一般的なラップトップのオーディオレコーダを通じて音声をキャプチャすることで,そのアプローチを評価する。 その結果,生体データを用いた教師付き機械学習アルゴリズムの学習によってユーザのエンゲージメントを予測でき,音声機能だけで十分な効果が得られることがわかった。 学習データを合成マイノリティオーバーサンプリング技術(SMOTE)で前処理する際、予測アルゴリズムの性能を最大化する。 本研究の結果から,バイオフィードバックと音声分析は,製品改善指向の要件の優先順位付けや,ユーザのエンゲージメントに基づく面接の促進に有効であることが示唆された。 さらに、音声機能の利用は、人間の分析者や音声ベースのチャットボットによって行われるリモートコミュニケーションにおける感情認識要求に特に有用である。

Capturing users engagement is crucial for gathering feedback about the features of a software product. In a market-driven context, current approaches to collect and analyze users feedback are based on techniques leveraging information extracted from product reviews and social media. These approaches are hardly applicable in bespoke software development, or in contexts in which one needs to gather information from specific users. In such cases, companies need to resort to face-to-face interviews to get feedback on their products. In this paper, we propose to utilize biometric data, in terms of physiological and voice features, to complement interviews with information about the engagement of the user on the discussed product-relevant topics. We evaluate our approach by interviewing users while gathering their physiological data (i.e., biofeedback) using an Empatica E4 wristband, and capturing their voice through the default audio-recorder of a common laptop. Our results show that we can predict users' engagement by training supervised machine learning algorithms on biometric data, and that voice features alone can be sufficiently effective. The performance of the prediction algorithms is maximised when pre-processing the training data with the synthetic minority oversampling technique (SMOTE). The results of our work suggest that biofeedback and voice analysis can be used to facilitate prioritization of requirements oriented to product improvement, and to steer the interview based on users' engagement. Furthermore, the usage of voice features can be particularly helpful for emotion-aware requirements elicitation in remote communication, either performed by human analysts or voice-based chatbots.
翻訳日:2021-04-07 13:49:08 公開日:2021-04-06
# dnn埋め込みの2パスレフトワンアウトガウス型pldaクラスタリングによる話者ダイアリゼーション

Speaker Diarization using Two-pass Leave-One-Out Gaussian PLDA Clustering of DNN Embeddings ( http://arxiv.org/abs/2104.02469v1 )

ライセンス: Link先を確認
Kiran Karra, Alan Mccree(参考訳) 最近開発されたvbxアプローチのような、話者ダイアリゼーションのための多くの現代的なシステムは、dnnスピーカー埋め込みのクラスタリングと再セグメンテーションに依存している。 このアプローチの2つの問題は、dnnがこのタスクに直接最適化されていないことと、パラメータが異なるアプリケーションに対して大幅に調整する必要があることである。 我々は最近,lgpクラスタリングアルゴリズムと,このスコアリング法の性能を直接最適化するdnnのトレーニング手法を用いて,この方向の進展を示した。 本稿では,この方式の2パスバージョンを新たに提案し,第2パスはより微細な時間分解能を用いて全体の性能を大幅に向上させる。 コールホームコーパスでは,タスク依存パラメータチューニングを使わずに,最初のエラー率を4\%以下で達成する。 また,複数のダイアリゼーションタスクに対するロバストな単一ソリューションへの大きな進歩を示す。

Many modern systems for speaker diarization, such as the recently-developed VBx approach, rely on clustering of DNN speaker embeddings followed by resegmentation. Two problems with this approach are that the DNN is not directly optimized for this task, and the parameters need significant retuning for different applications. We have recently presented progress in this direction with a Leave-One-Out Gaussian PLDA (LGP) clustering algorithm and an approach to training the DNN such that embeddings directly optimize performance of this scoring method. This paper presents a new two-pass version of this system, where the second pass uses finer time resolution to significantly improve overall performance. For the Callhome corpus, we achieve the first published error rate below 4\% without any task-dependent parameter tuning. We also show significant progress towards a robust single solution for multiple diarization tasks.
翻訳日:2021-04-07 13:48:43 公開日:2021-04-06
# wav2vec 2.0音響モデルの領域外適応のためのCTCとLFMMIの比較

Comparing CTC and LFMMI for out-of-domain adaptation of wav2vec 2.0 acoustic model ( http://arxiv.org/abs/2104.02558v1 )

ライセンス: Link先を確認
Apoorv Vyas, Srikanth Madikeri, Herv\'e Bourlard(参考訳) 本稿では,wav2vec 2.0の自己教師付き事前学習が,コネクショニスト時相分類(ctc)訓練における過剰適合問題を緩和し,学習データに制限のある自動音声認識のためのフラットスタートラッチフリーmmi(e2e-lfmmi)による性能ギャップを低減できるかどうかについて検討する。 その目的に向けて、事前訓練されたwav2vec 2.0 BASEモデルを使用し、ドメイン外(Switchboard)とクロスランガル(Babel)シナリオを含む3つの異なるデータセットでそれを微調整します。 以上の結果から,wav2vec 2.0モデルの教師付き適応において,E2E-LFMMIとCTCはともに同様の結果が得られた。 E2E-LFMMIとCTCによるwav2vec 2.0モデルの微調整を行い、E2E-LFMMIでトレーニングした教師ベースラインに対して、以下の相対的なWERの改善を得た。 クリーンセットの40%と44%,テストセットのLibrispeech(100h)の64%と58%の相対的な改善が得られました。 スイッチボード(300h)では,それぞれ33%,35%の相対的改善が得られた。 最後に,バベル言語では,スワヒリ語では26%,スワヒリ語では23%,タガログ語では17%,タガログ語では17%の相対的改善が得られた。

In this work, we investigate if the wav2vec 2.0 self-supervised pretraining helps mitigate the overfitting issues with connectionist temporal classification (CTC) training to reduce its performance gap with flat-start lattice-free MMI (E2E-LFMMI) for automatic speech recognition with limited training data. Towards that objective, we use the pretrained wav2vec 2.0 BASE model and fine-tune it on three different datasets including out-of-domain (Switchboard) and cross-lingual (Babel) scenarios. Our results show that for supervised adaptation of the wav2vec 2.0 model, both E2E-LFMMI and CTC achieve similar results; significantly outperforming the baselines trained only with supervised data. Fine-tuning the wav2vec 2.0 model with E2E-LFMMI and CTC we obtain the following relative WER improvements over the supervised baseline trained with E2E-LFMMI. We get relative improvements of 40% and 44% on the clean-set and 64% and 58% on the test set of Librispeech (100h) respectively. On Switchboard (300h) we obtain relative improvements of 33% and 35% respectively. Finally, for Babel languages, we obtain relative improvements of 26% and 23% on Swahili (38h) and 18% and 17% on Tagalog (84h) respectively.
翻訳日:2021-04-07 13:48:30 公開日:2021-04-06
# (参考訳) 深部グラフニューラルネットワークを用いたニュートリノ実験のためのEMシャワーのセグメンテーション [全文訳有]

Segmentation of EM showers for neutrino experiments with deep graph neural networks ( http://arxiv.org/abs/2104.02040v2 )

ライセンス: CC BY 4.0
Vladislav Belavin, Ekaterina Trofimova, Andrey Ustyuzhanin(参考訳) 電磁(EM)サンプリング熱量計で収集したデータからシャワーを復元する新しい手法を提案する。 このような検出器は高エネルギー物理学において、進行中の粒子のエネルギーと運動量を測定するために広く用いられている。 本研究では,多数の粒子がEmulsion Cloud Chamber (ECC) のれんがを通過し,電磁シャワーが発生する場合について考察する。 この状況は長い露光時間や大きな入力粒子フラックスで観測することができる。 例えば、SHiP実験はダークマター探索とニュートリノ物理研究にエマルション検出器を使用する計画である。 船舶実験のフルフラックスは5年間で約10,^{20}$の粒子が期待できる。 入射する粒子の量が多ければ多いので、重なり合うシャワーをたくさん観測する。 EMシャワーの復元は難しいセグメンテーション問題となる。 再構成パイプラインは,クラスタリングアルゴリズムの隣接行列を予測するグラフニューラルネットワークで構成されている。 グラフニューラルネットワークの性能向上のために,ECCれんがにおけるシャワー発生の幾何学的特性を考慮した新しい層型(EmulsionConv)を提案する。 重なり合うシャワーのクラスタリングのために,階層密度に基づくクラスタリングアルゴリズムを改良した。 本手法では, 入射粒子に関する情報は使用せず, エマルション検出器内の電磁シャワーの最大82%を同定する。 17,715ドルのシャワーの平均エネルギー解像度は27%だ。 電磁シャワーを再構成するためのアルゴリズムの主なテストベンチはsnd@lhcである。

We introduce a novel method for showers reconstruction from the data collected with electromagnetic (EM) sampling calorimeters. Such detectors are widely used in High Energy Physics to measure the energy and kinematics of in-going particles. In this work, we consider the case when a large number of particles pass through an Emulsion Cloud Chamber (ECC) brick, generating electromagnetic showers. This situation can be observed with long exposure times or large input particle flux. For example, SHiP experiment is planning to use emulsion detectors for dark matter search and neutrino physics investigation. The expected full flux of SHiP experiment is about $10^{20}$ particles over five years. Because of the high amount of in-going particles, we will observe a lot of overlapping showers. It makes EM showers reconstruction a challenging segmentation problem. Our reconstruction pipeline consists of a Graph Neural Network that predicts an adjacency matrix for the clustering algorithm. To improve Graph Neural Network's performance, we propose a new layer type (EmulsionConv) that takes into account geometrical properties of shower development in ECC brick. For the clustering of overlapping showers, we use a modified hierarchical density-based clustering algorithm. Our method does not use any prior information about the incoming particles and identifies up to 82% of electromagnetic showers in emulsion detectors. The mean energy resolution over $17,715$ showers is 27%. The main test bench for the algorithm for reconstructing electromagnetic showers is going to be SND@LHC.
翻訳日:2021-04-07 11:22:38 公開日:2021-04-06
# (参考訳) 部分帰納正規化分類器の系列を用いたクラス増分学習 [全文訳有]

Class-incremental Learning using a Sequence of Partial Implicitly Regularized Classifiers ( http://arxiv.org/abs/2104.01577v2 )

ライセンス: CC BY 4.0
Sobirdzhon Bobiev(参考訳) クラス増分学習では、トレーニングデータ全体にアクセスすることなく、複数のクラスを逐次学習することが目的である。 しかし、破滅的な忘れ事として知られる問題のため、ニューラルネットワークはそのような設定でかなりの性能低下を被る。 この問題は、学習したクラスを忘れることを減らすために、将来のステップでリプレイされる限られた数のサンプルを格納するexperience replayによってしばしば解決される。 事前訓練されたネットワークを特徴抽出器として使用する場合,1つの分類器を段階的に訓練するのではなく,複数の特殊分類器を訓練し,協調的に1つのクラスを予測できることを示す。 CIFAR100データセットを用いた実験により,提案手法はSOTAの性能を高いマージンで向上することを示した。

In class-incremental learning, the objective is to learn a number of classes sequentially without having access to the whole training data. However, due to a problem known as catastrophic forgetting, neural networks suffer substantial performance drop in such settings. The problem is often approached by experience replay, a method which stores a limited number of samples to be replayed in future steps to reduce forgetting of the learned classes. When using a pretrained network as a feature extractor, we show that instead of training a single classifier incrementally, it is better to train a number of specialized classifiers which do not interfere with each other yet can cooperatively predict a single class. Our experiments on CIFAR100 dataset show that the proposed method improves the performance over SOTA by a large margin.
翻訳日:2021-04-07 11:11:13 公開日:2021-04-06
# パーソナライズされたオンライン適応学習による神経臨床イベントシーケンス予測

Neural Clinical Event Sequence Prediction through Personalized Online Adaptive Learning ( http://arxiv.org/abs/2104.01787v2 )

ライセンス: Link先を確認
Jeong Min Lee and Milos Hauskrecht(参考訳) 臨床イベントシーケンスは、時間内の患者のケアの記録を表す数千の臨床イベントで構成される。 このようなシーケンスの正確な予測モデルを開発することは、患者の状態の表現を定義し、患者のケアを改善する上で非常に重要である。 臨床症状の予測モデルを学ぶ上で重要な課題は、患者固有の変動性である。 基礎となる臨床合併症に基づいて、各患者の配列は異なる臨床イベントから構成される。 しかし、このようなシーケンスから学習した集団モデルでは、イベントシーケンスの患者固有のダイナミクスを正確に予測することはできない。 この問題に対処するために,オンラインモデル更新を通じて個々の患者に対する予測を調整するための適応型イベントシーケンス予測フレームワークを開発した。

Clinical event sequences consist of thousands of clinical events that represent records of patient care in time. Developing accurate prediction models for such sequences is of a great importance for defining representations of a patient state and for improving patient care. One important challenge of learning a good predictive model of clinical sequences is patient-specific variability. Based on underlying clinical complications, each patient's sequence may consist of different sets of clinical events. However, population-based models learned from such sequences may not accurately predict patient-specific dynamics of event sequences. To address the problem, we develop a new adaptive event sequence prediction framework that learns to adjust its prediction for individual patients through an online model update.
翻訳日:2021-04-07 10:59:45 公開日:2021-04-06
# WhiteningBERT: 簡単に教師なしの文を埋め込む方法

WhiteningBERT: An Easy Unsupervised Sentence Embedding Approach ( http://arxiv.org/abs/2104.01767v2 )

ライセンス: Link先を確認
Junjie Huang, Duyu Tang, Wanjun Zhong, Shuai Lu, Linjun Shou, Ming Gong, Daxin Jiang, Nan Duan(参考訳) 文を教師なしの方法で埋め込むことは、実際に自然言語のマッチングや検索の問題に有用である。 本研究では,事前学習モデルに基づく教師なし文埋め込みの徹底的な検討を行う。 4つの事前学習モデルについて検討し,文意味論に関する7つのデータセットについて大規模実験を行った。 主な発見がある。 まず、[CLS]ベクターを使うよりも、すべてのトークンを平均化する方がよい。 第二に、トップ層とボトム層を組み合わせることは、トップ層だけを使うよりも良い。 最後に、10行未満のコードで簡単にホワイトニングベースのベクトル正規化戦略によって、一貫してパフォーマンスが向上する。

Producing the embedding of a sentence in an unsupervised way is valuable to natural language matching and retrieval problems in practice. In this work, we conduct a thorough examination of pretrained model based unsupervised sentence embeddings. We study on four pretrained models and conduct massive experiments on seven datasets regarding sentence semantics. We have there main findings. First, averaging all tokens is better than only using [CLS] vector. Second, combining both top andbottom layers is better than only using top layers. Lastly, an easy whitening-based vector normalization strategy with less than 10 lines of code consistently boosts the performance.
翻訳日:2021-04-07 10:59:36 公開日:2021-04-06
# グラフサンプリングに基づく一般化可能な人物再同定のための深度学習

Graph Sampling Based Deep Metric Learning for Generalizable Person Re-Identification ( http://arxiv.org/abs/2104.01546v2 )

ライセンス: Link先を確認
Shengcai Liao and Ling Shao(参考訳) 一般化可能な人物の再識別は、近年、その研究価値と実用価値から注目されている。 しかし、大規模なデータから学習する効率はあまり研究されていない。 本稿では,最も一般的なランダムサンプリング手法である有名なpkサンプリング器は,深層メトリクス学習において有益で効率的ではないと主張する。 オンラインのハードサンプルマイニングは学習効率をある程度向上させるが、ランダムサンプリング後のミニバッチでのマイニングはまだ限られている。 したがって、ハードサンプルマイニングをデータサンプリングステージに後退させる必要がある。 そこで本稿では,大規模メトリクス学習のためのグラフサンプリング(gs)と呼ばれる効率的なミニバッチサンプリング手法を提案する。 基本的な考え方は、各エポックの開始時にすべてのクラスに最も近い隣り合う関係グラフを構築することである。 そして、各ミニバッチはランダムに選択されたクラスとその隣のクラスから構成され、学習のための情報的で挑戦的な例を提供する。 適合した競争基準とともに、我々は、一般の個人を再識別する以前の芸術の状態を、ランク1の22.3%、mAPの15%まで大幅に改善する。 さらに、提案手法は競合ベースラインを最大4%上回り、トレーニング時間は最大でx6.6まで大幅に短縮され、大規模なデータセットであるRandPersonを8000IDでトレーニングする12.2時間から1.8時間に短縮された。 コードは \url{https://github.com/s hengcailiao/qaconv} で入手できる。

Generalizable person re-identification has recently got increasing attention due to its research values as well as practical values. However, the efficiency of learning from large-scale data has not yet been much studied. In this paper, we argue that the most popular random sampling method, the well-known PK sampler, is not informative and efficient for deep metric learning. Though online hard example mining improves the learning efficiency to some extent, the mining in mini batches after random sampling is still limited. Therefore, this inspires us that the hard example mining should be shifted backward to the data sampling stage. To address this, in this paper, we propose an efficient mini batch sampling method called Graph Sampling (GS) for large-scale metric learning. The basic idea is to build a nearest neighbor relationship graph for all classes at the beginning of each epoch. Then, each mini batch is composed of a randomly selected class and its nearest neighboring classes so as to provide informative and challenging examples for learning. Together with an adapted competitive baseline, we improve the previous state of the arts in generalizable person re-identification significantly, by up to 22.3% in Rank-1 and 15% in mAP. Besides, the proposed method also outperforms the competitive baseline by up to 4%, with the training time significantly reduced by up to x6.6, from 12.2 hours to 1.8 hours in training a large-scale dataset RandPerson with 8,000 IDs. Code is available at \url{https://github.com/S hengcaiLiao/QAConv}.
翻訳日:2021-04-07 10:59:30 公開日:2021-04-06
# どんな言語でもキーワードスポッティング

Few-Shot Keyword Spotting in Any Language ( http://arxiv.org/abs/2104.01454v2 )

ライセンス: Link先を確認
Mark Mazumder, Colby Banbury, Josh Meyer, Pete Warden, Vijay Janapa Reddi(参考訳) 任意の言語でキーワードスポッティングを行うための,数発の転送学習手法を提案する。 オープン音声コーパスを9言語で活用し,大規模多言語キーワードバンクの抽出を自動化し,組込みモデルの学習に利用する。 5つのトレーニング例で,キーワードスポッティングの埋め込みモデルを微調整し,これら9つの言語における埋め込みモデルでは見当たらない180の新しいキーワードのキーワード分類において,平均0.75のf1スコアを達成する。 この埋め込みモデルは、新しい言語にも一般化する。 埋め込みモデルでは見つからない13の言語にまたがる260のキーワードに対する5ショットモデルの平均F1スコアは0.65である。 キーワードスポッティングとキーワード検索の2つの文脈で5ショットモデルのストリーミング精度を検討する。 22の言語で440のキーワードにまたがって、平均85.2%のストリーミングキーワードスポッティング精度と1.2%の誤受率を達成し、キーワード検索における有望な初期結果を観察した。

We introduce a few-shot transfer learning method for keyword spotting in any language. Leveraging open speech corpora in nine languages, we automate the extraction of a large multilingual keyword bank and use it to train an embedding model. With just five training examples, we fine-tune the embedding model for keyword spotting and achieve an average F1 score of 0.75 on keyword classification for 180 new keywords unseen by the embedding model in these nine languages. This embedding model also generalizes to new languages. We achieve an average F1 score of 0.65 on 5-shot models for 260 keywords sampled across 13 new languages unseen by the embedding model. We investigate streaming accuracy for our 5-shot models in two contexts: keyword spotting and keyword search. Across 440 keywords in 22 languages, we achieve an average streaming keyword spotting accuracy of 85.2% with a false acceptance rate of 1.2%, and observe promising initial results on keyword search.
翻訳日:2021-04-07 10:59:05 公開日:2021-04-06
# SPGISpeech: 完全なエンドツーエンド音声認識のための5000時間分の財務音声

SPGISpeech: 5,000 hours of transcribed financial audio for fully formatted end-to-end speech recognition ( http://arxiv.org/abs/2104.02014v2 )

ライセンス: Link先を確認
Patrick K. O'Neill, Vitaly Lavrukhin, Somshubra Majumdar, Vahid Noroozi, Yuekai Zhang, Oleksii Kuchaiev, Jagadeesh Balam, Yuliya Dovzhenko, Keenan Freyberg, Michael D. Shulman, Boris Ginsburg, Shinji Watanabe, and Georg Kucsko(参考訳) 英語音声テキスト(STT)機械学習タスクでは、音響モデルは従来、未解決のラテン文字で訓練されており、必要な正書法(大文字化、句読点、非標準単語の非正規化など)は別個の後処理モデルによって説明される。 多くのフォーマッティングタスクは音響信号に存在する意味情報から恩恵を受けるが、書き起こしには欠如している。 本稿では,対象ラベルに対する完全フォーマットテキストを用いたエンドツーエンドのニューラルトランスクリプションを提案する。 そこで本研究では,5,000時間におよぶコーパスで学習したベースライン・コンフォーメータに基づくモデルを提案する。 STT研究コミュニティへのコントリビューションとして、https://datasets.ken sho.com/datasets/scr ibe.comで非商用利用用に無償でコーパスをリリースします。

In the English speech-to-text (STT) machine learning task, acoustic models are conventionally trained on uncased Latin characters, and any necessary orthography (such as capitalization, punctuation, and denormalization of non-standard words) is imputed by separate post-processing models. This adds complexity and limits performance, as many formatting tasks benefit from semantic information present in the acoustic signal but absent in transcription. Here we propose a new STT task: end-to-end neural transcription with fully formatted text for target labels. We present baseline Conformer-based models trained on a corpus of 5,000 hours of professionally transcribed earnings calls, achieving a CER of 1.7. As a contribution to the STT research community, we release the corpus free for non-commercial use at https://datasets.ken sho.com/datasets/scr ibe.
翻訳日:2021-04-07 10:58:48 公開日:2021-04-06