このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210820となっている論文です。

PDF登録状況(公開日: 20210820)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 視覚に基づく自律走行モデルと空間映像データの地理文脈認識 [全文訳有]

Geo-Context Aware Study of Vision-Based Autonomous Driving Models and Spatial Video Data ( http://arxiv.org/abs/2109.10895v1 )

ライセンス: CC BY 4.0
Suphanut Jamonnak, Ye Zhao, Xinyi Huang, and Md Amiruzzaman(参考訳) 視覚に基づくディープラーニング(DL)手法は,大規模クラウドソースのビデオデータセットから自律走行モデルの学習に大きな進歩をもたらした。 それらは車載カメラで捉えたビデオデータから瞬時運転行動を予測するように訓練されている。 本稿では,大規模ADMビデオデータとともに,自律走行モデル(ADM)予測研究のための地理コンテキスト対応可視化システムを開発する。 本研究は, DLモデルの性能と地理空間可視化技術を組み合わせることで, 地理的環境とシームレスに統合される。 モデル性能測定は、地図ビュー上の地理空間属性のセットとともに研究することができる。 ユーザーは、道路画像やビデオコンテンツとともに、街路レベルの分析で複数のDLモデルの予測行動を発見し、比較することができる。 そこでこのシステムは、自動運転におけるDLモデル設計者のための新しい視覚探索プラットフォームを提供する。 ユースケースとドメインエキスパートの評価は、可視化システムの有用性と有効性を示している。

Vision-based deep learning (DL) methods have made great progress in learning autonomous driving models from large-scale crowd-sourced video datasets. They are trained to predict instantaneous driving behaviors from video data captured by on-vehicle cameras. In this paper, we develop a geo-context aware visualization system for the study of Autonomous Driving Model (ADM) predictions together with large-scale ADM video data. The visual study is seamlessly integrated with the geographical environment by combining DL model performance with geospatial visualization techniques. Model performance measures can be studied together with a set of geospatial attributes over map views. Users can also discover and compare prediction behaviors of multiple DL models in both city-wide and street-level analysis, together with road images and video contents. Therefore, the system provides a new visual exploration platform for DL model designers in autonomous driving. Use cases and domain expert evaluation show the utility and effectiveness of the visualization system.
翻訳日:2021-09-27 00:00:21 公開日:2021-08-20
# (参考訳) 電子商取引におけるマルチモーダル事前学習の知識 [全文訳有]

Knowledge Perceived Multi-modal Pretraining in E-commerce ( http://arxiv.org/abs/2109.00895v1 )

ライセンス: CC BY 4.0
Yushan Zhu, Huaixiao Tou, Wen Zhang, Ganqiang Ye, Hui Chen, Ningyu Zhang and Huajun Chen(参考訳) 本稿では,Eコマース分野における製品データのマルチモーダル事前学習について述べる。 画像とテキストのモダリティのための現在のマルチモーダル事前学習法は、実電子商取引シナリオにおける多モーダル製品データの広範化問題であるモダリティの欠如とモダリティノイズに直面するロバスト性に欠ける。 そこで本研究では,マルチモーダル事前学習における知識モダリティを導入し,ノイズを補正し,画像とテキストのモダリティの欠如を補う手法K3Mを提案する。 モダリティエンコーディング層は、各モダリティの特徴を抽出する。 画像のモダリティとテキストのモダリティの独立性を維持するために初期対話的特徴融合モデルを設計し、画像、テキスト、知識のモダリティの情報を融合する構造集約モジュールを設計した、複数のモダリティの相互作用を効果的にモデル化することができる。 我々は,マスクオブジェクトモデリング(MOM),マスク言語モデリング(MLM),リンク予測モデリング(LPM)の3つの事前訓練タスクで,K3Mを事前訓練する。 実世界のeコマースデータセットと一連の製品ベースのダウンストリームタスクの実験結果は、モダリティノイズやモダリティミスが存在する場合、k3mはベースラインや最先端のメソッドよりもパフォーマンスが大幅に向上していることを示している。

In this paper, we address multi-modal pretraining of product data in the field of E-commerce. Current multi-modal pretraining methods proposed for image and text modalities lack robustness in the face of modality-missing and modality-noise, which are two pervasive problems of multi-modal product data in real E-commerce scenarios. To this end, we propose a novel method, K3M, which introduces knowledge modality in multi-modal pretraining to correct the noise and supplement the missing of image and text modalities. The modal-encoding layer extracts the features of each modality. The modal-interaction layer is capable of effectively modeling the interaction of multiple modalities, where an initial-interactive feature fusion model is designed to maintain the independence of image modality and text modality, and a structure aggregation module is designed to fuse the information of image, text, and knowledge modalities. We pretrain K3M with three pretraining tasks, including masked object modeling (MOM), masked language modeling (MLM), and link prediction modeling (LPM). Experimental results on a real-world E-commerce dataset and a series of product-based downstream tasks demonstrate that K3M achieves significant improvements in performances than the baseline and state-of-the-art methods when modality-noise or modality-missing exists.
翻訳日:2021-09-05 11:00:47 公開日:2021-08-20
# (参考訳) Transformer-based NLPによる定性的因果構造抽出 [全文訳有]

Extracting Qualitative Causal Structure with Transformer-Based NLP ( http://arxiv.org/abs/2108.13304v1 )

ライセンス: CC BY 4.0
Scott E. Friedman and Ian H. Magnusson and Sonja M. Schmer-Galunder(参考訳) 定性的因果関係は、世界の離散的または連続的な相互作用の方向、依存性、時間的制約、単調性制約をコンパクトに表現する。 日常言語や学術言語では、量(例えば睡眠がストレスを減少させる)、離散的な事象や実体(例えばタンパク質が他のタンパク質の転写を阻害する)、意図的または機能的要因(例えば、病院の患者は痛みを和らげるように祈る)の間の相互作用を表現できる。 本稿では,(1)言語に記述された変数や要因,(2)これらの変数に対する質的因果関係,(3)因果関係を制約する修飾子や等級を共同で同定し抽出するトランスフォーマティブベースのnlpアーキテクチャを提案する。 このアプローチを実証し,学術出版物,ニュース記事,ソーシャルメディアからのテキスト入力処理という2つのユースケースから得られる有望な結果を紹介する。

Qualitative causal relationships compactly express the direction, dependency, temporal constraints, and monotonicity constraints of discrete or continuous interactions in the world. In everyday or academic language, we may express interactions between quantities (e.g., sleep decreases stress), between discrete events or entities (e.g., a protein inhibits another protein's transcription), or between intentional or functional factors (e.g., hospital patients pray to relieve their pain). This paper presents a transformer-based NLP architecture that jointly identifies and extracts (1) variables or factors described in language, (2) qualitative causal relationships over these variables, and (3) qualifiers and magnitudes that constrain these causal relationships. We demonstrate this approach and include promising results from in two use cases, processing textual inputs from academic publications, news articles, and social media.
翻訳日:2021-09-05 10:35:26 公開日:2021-08-20
# リレーショナルトリプル抽出のための条件付きカスケードモデル

A Conditional Cascade Model for Relational Triple Extraction ( http://arxiv.org/abs/2108.13303v1 )

ライセンス: Link先を確認
Feiliang Ren, Longhui Zhang, Shujuan Yin, Xiaofeng Zhao, Shilei Liu, Bochao Li(参考訳) タグ付けに基づく手法は,関係性三重項抽出における主流手法の一つである。 しかし、多くは階級不均衡の問題に悩まされている。 本稿では,この問題を2つの側面から解決する,新しいタグ付けモデルを提案する。 まず,モデルレベルでは,サンプルの総数を大幅に削減できる3段階抽出フレームワークを提案する。 第2に,モデル内レベルでは,主要なクラスのサンプルを直接無視できるクロスエントロピー損失に基づく信頼しきい値を提案する。 提案モデルをnytとwebnlgで評価した。 大規模な実験により、上記の問題に効果的に対処でき、両方のデータセットで最先端の結果が得られることが示された。 私たちのモデルのソースコードは以下の通りである。

Tagging based methods are one of the mainstream methods in relational triple extraction. However, most of them suffer from the class imbalance issue greatly. Here we propose a novel tagging based model that addresses this issue from following two aspects. First, at the model level, we propose a three-step extraction framework that can reduce the total number of samples greatly, which implicitly decreases the severity of the mentioned issue. Second, at the intra-model level, we propose a confidence threshold based cross entropy loss that can directly neglect some samples in the major classes. We evaluate the proposed model on NYT and WebNLG. Extensive experiments show that it can address the mentioned issue effectively and achieves state-of-the-art results on both datasets. The source code of our model is available at: https://github.com/n eukg/ConCasRTE.
翻訳日:2021-09-05 08:54:15 公開日:2021-08-20
# IEEE AVテストチャレンジへのシナリオとVerifAIの取り組み

Addressing the IEEE AV Test Challenge with Scenic and VerifAI ( http://arxiv.org/abs/2108.13796v1 )

ライセンス: Link先を確認
Kesav Viswanadha, Francis Indaheng, Justin Wong, Edward Kim, Ellen Kalvan, Yash Pant, Daniel J. Fremont, Sanjit A. Seshia(参考訳) 本稿では,IEEE AVテストチャレンジのシミュレーションにおいて,自律走行車(AV)のテストに対する我々の公式なアプローチを要約する。 我々は,知的サイバー物理システムのための形式駆動シミュレーションに関するこれまでの研究を生かした,系統的なテストフレームワークを実証する。 まず、複数のエージェントを含むインタラクティブなシナリオをモデル化し、生成するために、シナリオを特定するための確率的プログラミング言語であるraitiseを使用しました。 シナリオプログラムは抽象的なシナリオを、物理的なオブジェクトの構成と時間とともにその振る舞いの分布として定義する。 抽象的なシナリオからサンプリングすると、AVのテストケースとして実行できる多くの具体的なシナリオが得られる。 抽象的な駆動シナリオを符号化するScanicプログラムから始めて、VerifAIツールキットを使用して、複数のAV評価指標に関して、シナリオ内の障害ケースを検索できる。 さまざまな現実的なトラフィックシナリオから始まるオープンソースのオートパイロットApolloの具体的な障害シナリオを特定することで、テストフレームワークの有効性を実証する。

This paper summarizes our formal approach to testing autonomous vehicles (AVs) in simulation for the IEEE AV Test Challenge. We demonstrate a systematic testing framework leveraging our previous work on formally-driven simulation for intelligent cyber-physical systems. First, to model and generate interactive scenarios involving multiple agents, we used Scenic, a probabilistic programming language for specifying scenarios. A Scenic program defines an abstract scenario as a distribution over configurations of physical objects and their behaviors over time. Sampling from an abstract scenario yields many different concrete scenarios which can be run as test cases for the AV. Starting from a Scenic program encoding an abstract driving scenario, we can use the VerifAI toolkit to search within the scenario for failure cases with respect to multiple AV evaluation metrics. We demonstrate the effectiveness of our testing framework by identifying concrete failure scenarios for an open-source autopilot, Apollo, starting from a variety of realistic traffic scenarios.
翻訳日:2021-09-05 08:53:38 公開日:2021-08-20
# LSHインデックスとCNN Resnet50に基づくWeb画像検索エンジン

Web image search engine based on LSH index and CNN Resnet50 ( http://arxiv.org/abs/2108.13301v1 )

ライセンス: Link先を確認
Marco Parola, Alice Nannini, Stefano Poleggi(参考訳) CBIR(Content Based Image Retrieval)システムを実装するためには,効率的な検索手法を採用することが不可欠である。 この結果を達成する1つの方法は近似探索手法を利用することである。 実際、非常に大量のデータを扱う場合、正確な検索方法を用いることでシステムは非常に遅くなります。 このプロジェクトでは、CBIRシステムを実装するためにLocality Sensitive Hashing(LSH)インデックスを採用し、深い特徴の高速な類似検索を可能にします。 具体的には、画像から深い特徴を抽出するために転送学習技術を利用する。このフェーズでは、2つの有名な畳み込みニューラルネットワーク(CNN)を用いて特徴抽出を行う: Resnet50とResnet50v2。 次に、前述の2つのCNNの上に構築された、完全に接続されたディープニューラルネットワークを試して、データセット上でそれらを微調整します。 どちらのケースでも、インデックスの導入が結果にどの程度影響するかをよりよく理解するため、LSHインデックス実装内の機能とシーケンシャルスキャン内の機能をインデックス化します。 最後に、結果セットの関連性を評価し、異なる実験で得られたmAP(平均精度)値を、比較結果の数とLSH指数のハイパーパラメータ値の変化について計算する。

To implement a good Content Based Image Retrieval (CBIR) system, it is essential to adopt efficient search methods. One way to achieve this results is by exploiting approximate search techniques. In fact, when we deal with very large collections of data, using an exact search method makes the system very slow. In this project, we adopt the Locality Sensitive Hashing (LSH) index to implement a CBIR system that allows us to perform fast similarity search on deep features. Specifically, we exploit transfer learning techniques to extract deep features from images; this phase is done using two famous Convolutional Neural Networks (CNNs) as features extractors: Resnet50 and Resnet50v2, both pre-trained on ImageNet. Then we try out several fully connected deep neural networks, built on top of both of the previously mentioned CNNs in order to fine-tuned them on our dataset. In both of previous cases, we index the features within our LSH index implementation and within a sequential scan, to better understand how much the introduction of the index affects the results. Finally, we carry out a performance analysis: we evaluate the relevance of the result set, computing the mAP (mean Average Precision) value obtained during the different experiments with respect to the number of done comparison and varying the hyper-parameter values of the LSH index.
翻訳日:2021-09-05 08:53:24 公開日:2021-08-20
# (参考訳) ガウス混合モデルのベイズ推定に関する調査

A survey on Bayesian inference for Gaussian mixture model ( http://arxiv.org/abs/2108.11753v1 )

ライセンス: CC BY 4.0
Jun Lu(参考訳) クラスタリングは、主に教師なし学習、クラスタリング、分類、密度推定の分野への応用によって、機械学習のコア技術となっている。 emアルゴリズムとして知られる混合モデルに基づく手のクラスタリングには、通常、混合モデルのパラメータを最大確率推定フレームワークに推定する、頻繁なアプローチが存在する。 有限かつ無限ガウス混合モデルに対するベイズ的アプローチは、すべての変数に対する点推定と関連する不確かさを全推定の後方分布の形で生成する。 この調査の唯一の目的は、後のセクションでそれらの応用をシームレスに導入するために、有限かつ無限のガウス混合モデルに対するベイズ推定における概念と数学的ツールを自己完結的に導入することである。 しかし,この分野に関する有用かつ興味深い結果をすべてカバーできないことを明確に認識し,この議論を行うためのスコープのpaucity,例えばスティックブレーキングとポリアのurnアプローチによるディリクレ試料生成の分離分析を想定した。 本稿では,dirichletプロセス混合モデルの分野における文献について,関連分野のより詳細な紹介を行う。 優れた例としては(Frigyik et al., 2010; Murphy, 2012; Gelman et al., 2014; Hoff, 2009)がある。 この調査は、主にガウス混合モデル(例えば、ディリクレ・プリア、中華料理のプロセス)の目的、重要背景およびテクニックの要約であり、最も重要なのは、現代の応用に光を当てた手法の起源と複雑さである。 数学的前提条件は確率の最初のコースである。 この控えめな背景以外は、開発は自己完結しており、厳密な証明が提供される。

Clustering has become a core technology in machine learning, largely due to its application in the field of unsupervised learning, clustering, classification, and density estimation. A frequentist approach exists to hand clustering based on mixture model which is known as the EM algorithm where the parameters of the mixture model are usually estimated into a maximum likelihood estimation framework. Bayesian approach for finite and infinite Gaussian mixture model generates point estimates for all variables as well as associated uncertainty in the form of the whole estimates' posterior distribution. The sole aim of this survey is to give a self-contained introduction to concepts and mathematical tools in Bayesian inference for finite and infinite Gaussian mixture model in order to seamlessly introduce their applications in subsequent sections. However, we clearly realize our inability to cover all the useful and interesting results concerning this field and given the paucity of scope to present this discussion, e.g., the separated analysis of the generation of Dirichlet samples by stick-breaking and Polya's Urn approaches. We refer the reader to literature in the field of the Dirichlet process mixture model for a much detailed introduction to the related fields. Some excellent examples include (Frigyik et al., 2010; Murphy, 2012; Gelman et al., 2014; Hoff, 2009). This survey is primarily a summary of purpose, significance of important background and techniques for Gaussian mixture model, e.g., Dirichlet prior, Chinese restaurant process, and most importantly the origin and complexity of the methods which shed light on their modern applications. The mathematical prerequisite is a first course in probability. Other than this modest background, the development is self-contained, with rigorous proofs provided throughout.
翻訳日:2021-08-29 12:20:43 公開日:2021-08-20
# (参考訳) adversarial oversampingは私たちに役立つか? [全文訳有]

Does Adversarial Oversampling Help us? ( http://arxiv.org/abs/2108.10697v1 )

ライセンス: CC BY 4.0
Tanmoy Dam, Md Meftahul Ferdaus, Sreenatha G. Anavatti, Senthilnath Jayavelu, Hussein A. Abbass(参考訳) 従来のオーバーサンプリング手法は、データセットのクラス不均衡を処理するために一般的に使用される。 このオーバーサンプリングアプローチは分類器とは独立であり、エンドツーエンドのソリューションを提供しない。 そこで本研究では,ジェネレータ,判別器,マルチクラス分類器のドメイン制約を混合した3プレイヤー対局型エンド・ツー・エンド方式を提案する。 敵対的なマイノリティオーバーサンプリングではなく、adversarial oversampling(ao)とdata-space oversampling(do)アプローチを提案する。 AOでは、ジェネレータは分類器と識別器の両方を騙して更新するが、DOでは分類器を好んで識別器を騙して更新する。 分類器を更新する際、AOの実際のサンプルと合成されたサンプルの両方を考慮する。 しかしdoでは、実際のサンプルを好み、サブセットクラス固有の生成されたサンプルをだまします。 多数派クラスに対する分類器のバイアスを軽減するため、少数派サンプルは分数率で過剰サンプリングされる。 このような実装はより堅牢な分類境界を提供する。 提案手法の有効性は,高次元・高度不均衡・大規模多クラス表型データセットを用いて検証した。 平均クラス特定精度 (ACSA) によって測定された結果, 提案手法は, ベースライン分類器と比較して, より良い分類精度(0.7%から49.27%の範囲での改善)を提供することが示された。

Traditional oversampling methods are generally employed to handle class imbalance in datasets. This oversampling approach is independent of the classifier; thus, it does not offer an end-to-end solution. To overcome this, we propose a three-player adversarial game-based end-to-end method, where a domain-constraints mixture of generators, a discriminator, and a multi-class classifier are used. Rather than adversarial minority oversampling, we propose an adversarial oversampling (AO) and a data-space oversampling (DO) approach. In AO, the generator updates by fooling both the classifier and discriminator, however, in DO, it updates by favoring the classifier and fooling the discriminator. While updating the classifier, it considers both the real and synthetically generated samples in AO. But, in DO, it favors the real samples and fools the subset class-specific generated samples. To mitigate the biases of a classifier towards the majority class, minority samples are over-sampled at a fractional rate. Such implementation is shown to provide more robust classification boundaries. The effectiveness of our proposed method has been validated with high-dimensional, highly imbalanced and large-scale multi-class tabular datasets. The results as measured by average class specific accuracy (ACSA) clearly indicate that the proposed method provides better classification accuracy (improvement in the range of 0.7% to 49.27%) as compared to the baseline classifier.
翻訳日:2021-08-26 01:59:04 公開日:2021-08-20
# (参考訳) データ駆動型スマートポンジスキーム検出 [全文訳有]

Data-driven Smart Ponzi Scheme Detection ( http://arxiv.org/abs/2108.09305v1 )

ライセンス: CC BY 4.0
Yuzhi Liang, Weijing Wu, Kai Lei and Feiyang Wang(参考訳) smart ponzi schemeは、ethereumスマートコントラクトアカウントと暗号通貨を使用してponziスキームを実装する、新しいタイプの経済犯罪である。 スマートPonziスキームは、多くの投資家の興味を害してきたが、スマートPonziスキームの検出に関する研究は依然として非常に限られている。 既存のスマートポンジスキーム検出手法は、機能工学やモデルポータビリティの貧弱さにおいて多くの人材を必要とする。 本稿では,これらの問題を解決するために,データ駆動型スマートポンジ・スキーム検出システムを提案する。 このシステムは動的グラフ埋め込み技術を用いて、アカウントトランザクションに関連するマルチソースおよびマルチモーダルデータに基づいて、アカウントの表現を自動的に学習する。 従来の手法と比較して、提案システムは非常に限定的な人間とコンピュータの相互作用を必要とする。 我々の知る限りでは、動的グラフ埋め込みによるスマートPonziスキーム検出の実装はこれが初めてである。 実験結果から,本手法は既存のスマートポンジスキーム検出法よりもはるかに優れていることがわかった。

A smart Ponzi scheme is a new form of economic crime that uses Ethereum smart contract account and cryptocurrency to implement Ponzi scheme. The smart Ponzi scheme has harmed the interests of many investors, but researches on smart Ponzi scheme detection is still very limited. The existing smart Ponzi scheme detection methods have the problems of requiring many human resources in feature engineering and poor model portability. To solve these problems, we propose a data-driven smart Ponzi scheme detection system in this paper. The system uses dynamic graph embedding technology to automatically learn the representation of an account based on multi-source and multi-modal data related to account transactions. Compared with traditional methods, the proposed system requires very limited human-computer interaction. To the best of our knowledge, this is the first work to implement smart Ponzi scheme detection through dynamic graph embedding. Experimental results show that this method is significantly better than the existing smart Ponzi scheme detection methods.
翻訳日:2021-08-26 01:50:58 公開日:2021-08-20
# (参考訳) D-DARTS:分散微分可能なアーキテクチャ検索 [全文訳有]

D-DARTS: Distributed Differentiable Architecture Search ( http://arxiv.org/abs/2108.09306v1 )

ライセンス: CC BY 4.0
Alexandre Heuillet, Hedi Tabia, Hichem Arioui, Kamal Youcef-Toumi(参考訳) 微分可能なArchiTecture Search(DARTS)は、Stochastic Gradient Descent(SGD)とウェイトシェアリングを利用して、検索コストを大幅に削減する最もトレンドのあったNeural Architecture Search(NAS)手法の1つである。 しかし、検索スペースを大幅に減らし、潜在的に有望なアーキテクチャが発見されないようにする。 本稿では,複数のニューラルネットワークをセルレベルでネストさせることでこの問題に対処し,より多様なアーキテクチャを実現するd-dartを提案する。 さらに,いくつかのセルからより深いアーキテクチャを導出し,性能の向上と計算時間を節約できる新しいアルゴリズムを提案する。 我々のソリューションは、CIFAR-10、CIFAR-100、ImageNetに対して、従来のベースラインよりもパラメータをはるかに少なくし、ハードウェア効率のよいニューラルネットワークを実現することができる。

Differentiable ARchiTecture Search (DARTS) is one of the most trending Neural Architecture Search (NAS) methods, drastically reducing search cost by resorting to Stochastic Gradient Descent (SGD) and weight-sharing. However, it also greatly reduces the search space, thus excluding potential promising architectures from being discovered. In this paper, we propose D-DARTS, a novel solution that addresses this problem by nesting several neural networks at cell-level instead of using weight-sharing to produce more diversified and specialized architectures. Moreover, we introduce a novel algorithm which can derive deeper architectures from a few trained cells, increasing performance and saving computation time. Our solution is able to provide state-of-the-art results on CIFAR-10, CIFAR-100 and ImageNet while using significantly less parameters than previous baselines, resulting in more hardware-efficient neural networks.
翻訳日:2021-08-26 01:28:12 公開日:2021-08-20
# 説明可能な人工知能による心不全生存予測モデルの改良

Improvement of a Prediction Model for Heart Failure Survival through Explainable Artificial Intelligence ( http://arxiv.org/abs/2108.10717v1 )

ライセンス: Link先を確認
Pedro A. Moreno-Sanchez(参考訳) 心臓血管疾患とその関連する心不全は、世界中で大きな死因の1つであり、医師がその発症と医学的結果を検出し予測することが最優先事項である。 人工知能(AI)により、医師は臨床指標を発見し、診断と治療を強化することができる。 具体的には、説明可能なAIは、結果の解釈可能性の低い臨床予測モデルを改善するためのツールを提供する。 本研究は、心不全を患った299人の患者からなるデータセットを用いて、心不全生存予測モデルの説明可能性分析と評価を行う。 このモデルでは、最高のアンサンブルツリーアルゴリズムを選択できるデータワークフローパイプラインと、最高の機能選択テクニックが採用されている。 さらに,モデルの説明可能性分析にはポストホック法が用いられている。 この論文の主な貢献は、精度-説明可能性バランスに基づいてHF生存率の最良の予測モデルを選択するための説明可能性駆動型アプローチである。 したがって、最もバランスの取れた予測モデルでは、12のうち5つの選択された特徴(フォローアップ時間、血清クレアチニン、放出率、年齢、糖尿病)に対してエクストラツリー分類器を実装し、それぞれ85.1%と79.5%のバランスの取れた精度を、クロスバリデーションと新しい未知のデータで達成している。 フォローアップ時間は、血清クレアチニンとエジェクションフラクションに続く最も影響のある特徴である。 本論文で提示されたHF生存予測モデルは、医師に直感を与え、通常、ブラックボックスAI臨床ソリューションの推論をよりよく理解し、より合理的でデータ駆動的な決定を行うことにより、臨床予測モデルのさらなる導入を改善することができる。

Cardiovascular diseases and their associated disorder of heart failure are one of the major death causes globally, being a priority for doctors to detect and predict its onset and medical consequences. Artificial Intelligence (AI) allows doctors to discover clinical indicators and enhance their diagnosis and treatments. Specifically, explainable AI offers tools to improve the clinical prediction models that experience poor interpretability of their results. This work presents an explainability analysis and evaluation of a prediction model for heart failure survival by using a dataset that comprises 299 patients who suffered heart failure. The model employs a data workflow pipeline able to select the best ensemble tree algorithm as well as the best feature selection technique. Moreover, different post-hoc techniques have been used for the explainability analysis of the model. The paper's main contribution is an explainability-drive n approach to select the best prediction model for HF survival based on an accuracy-explainabil ity balance. Therefore, the most balanced explainable prediction model implements an Extra Trees classifier over 5 selected features (follow-up time, serum creatinine, ejection fraction, age and diabetes) out of 12, achieving a balanced-accuracy of 85.1% and 79.5% with cross-validation and new unseen data respectively. The follow-up time is the most influencing feature followed by serum-creatinine and ejection-fraction. The explainable prediction model for HF survival presented in this paper would improve a further adoption of clinical prediction models by providing doctors with intuitions to better understand the reasoning of, usually, black-box AI clinical solutions, and make more reasonable and data-driven decisions.
翻訳日:2021-08-25 14:26:42 公開日:2021-08-20
# 最適, モデル予測, 適応制御のためのAlphaZeroからの教訓

Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control ( http://arxiv.org/abs/2108.10315v1 )

ライセンス: Link先を確認
Dimitri Bertsekas(参考訳) 本稿では,オフライントレーニングによるオンライン意思決定の効果を説明する分析と洞察(可視化に基づくものが多い)を提供することを目的としている。 特に、統一的な抽象数学的枠組みを通じて、値空間とロールアウトの近似に関するAlphaZero/TD-Gammonの原理が、離散的かつ連続的な探索空間の両方を含む決定論的および確率的最適制御問題に非常に広く適用されていることを示す。 さらに、これらのアイデアはモデル予測制御、適応制御、分散制御、離散およびベイズ最適化、ニューラルネットワークに基づく値とポリシー近似、離散最適化のためのヒューリスティックアルゴリズムといった他の重要な方法論と効果的に統合することができる。

In this paper we aim to provide analysis and insights (often based on visualization), which explain the beneficial effects of on-line decision making on top of off-line training. In particular, through a unifying abstract mathematical framework, we show that the principal AlphaZero/TD-Gammon ideas of approximation in value space and rollout apply very broadly to deterministic and stochastic optimal control problems, involving both discrete and continuous search spaces. Moreover, these ideas can be effectively integrated with other important methodologies such as model predictive control, adaptive control, decentralized control, discrete and Bayesian optimization, neural network-based value and policy approximations, and heuristic algorithms for discrete optimization.
翻訳日:2021-08-25 14:12:18 公開日:2021-08-20
# (参考訳) loop: ディープメトリック学習のための最適なハードネガティブ埋め込みを探す [全文訳有]

LoOp: Looking for Optimal Hard Negative Embeddings for Deep Metric Learning ( http://arxiv.org/abs/2108.09335v1 )

ライセンス: CC BY 4.0
Bhavya Vasudeva, Puneesh Deora, Saumik Bhattacharya, Umapada Pal, Sukalpa Chanda(参考訳) ディープメトリック学習は、画像検索やクラスタリングなど、さまざまな視覚タスクのための距離メトリクスを効果的に学習するために使用されています。 トレーニングプロセスを支援するため、既存の方法は、最も情報性の高いサンプルを抽出するためにハードマイニング戦略を使用するか、追加のネットワークを使用してハードシンセサイザーを生成する。 このようなアプローチは異なる課題に直面し、前者では偏りのある埋め込みにつながり、(i)より難しい最適化(ii)より遅いトレーニング速度(iii)後者ではモデルの複雑さが高くなる。 これらの課題を克服するために,我々は埋め込み空間における最適ハード負(ループ)を求める新しいアプローチを提案し,各タプルを最大限に活用し,対の正と対の負の間の最小距離を計算する。 マイニングに基づく手法とは異なり,本手法では組込みの対間の空間全体を考慮し,最適なハード負を計算する。 我々のアプローチと代表的なメトリック学習損失を組み合わせた大規模な実験により、3つのベンチマークデータセットのパフォーマンスが大幅に向上した。

Deep metric learning has been effectively used to learn distance metrics for different visual tasks like image retrieval, clustering, etc. In order to aid the training process, existing methods either use a hard mining strategy to extract the most informative samples or seek to generate hard synthetics using an additional network. Such approaches face different challenges and can lead to biased embeddings in the former case, and (i) harder optimization (ii) slower training speed (iii) higher model complexity in the latter case. In order to overcome these challenges, we propose a novel approach that looks for optimal hard negatives (LoOp) in the embedding space, taking full advantage of each tuple by calculating the minimum distance between a pair of positives and a pair of negatives. Unlike mining-based methods, our approach considers the entire space between pairs of embeddings to calculate the optimal hard negatives. Extensive experiments combining our approach and representative metric learning losses reveal a significant boost in performance on three benchmark datasets.
翻訳日:2021-08-25 13:57:28 公開日:2021-08-20
# (参考訳) 経時的非定常成分分析 : 非侵襲的胎児心電図抽出への応用 [全文訳有]

Temporally Nonstationary Component Analysis; Application to Noninvasive Fetal Electrocardiogram Extraction ( http://arxiv.org/abs/2108.09353v1 )

ライセンス: CC BY 4.0
Fahimeh Jamshidian-Tehrani and Reza Sameni and Christian Jutten(参考訳) 目的: 時間的非定常信号の混合は、生体医学的応用において非常に一般的である。 音源信号の非定常性を信号分離の識別特性として用いることができる。 本稿では,信号と雑音の線形多チャンネル混合から時間的非定常成分を抽出するための半盲点分離アルゴリズムを提案する。 方法: 時間的非定常事象の検出と融合のための仮説テストを提案し, アドホック指標を用いて, イノベーションプロセスの第1次および第2次統計をモニタリングする。 概念実証として、一般的な枠組みは、母性腹部から取得した非侵襲的な胎児心記録、一般に入手可能なデータセット、1)ローカルパワー変動検出器、2)拡張カルマンフィルタのイノベーションプロセス特性を用いたモデルデバイエーション検出器という2種類の非定常検出器を使用してカスタマイズされ、テストされる。 結果: 提案手法の性能は, 信号対雑音比の異なる白色雑音と有色雑音の存在下で評価される。 結論と意義:提案手法は汎用的であり,多くの機械学習アプリケーションにおいて繰り返し発生する問題である多変量データの推定モデルから,非定常事象やサンプル偏差の抽出に利用できる。

Objective: Mixtures of temporally nonstationary signals are very common in biomedical applications. The nonstationarity of the source signals can be used as a discriminative property for signal separation. Herein, a semi-blind source separation algorithm is proposed for the extraction of temporally nonstationary components from linear multichannel mixtures of signals and noises. Methods: A hypothesis test is proposed for the detection and fusion of temporally nonstationary events, by using ad hoc indexes for monitoring the first and second order statistics of the innovation process. As proof of concept, the general framework is customized and tested over noninvasive fetal cardiac recordings acquired from the maternal abdomen, over publicly available datasets, using two types of nonstationarity detectors: 1) a local power variations detector, and 2) a model-deviations detector using the innovation process properties of an extended Kalman filter. Results: The performance of the proposed method is assessed in presence of white and colored noise, in different signal-to-noise ratios. Conclusion and Significance: The proposed scheme is general and it can be used for the extraction of nonstationary events and sample deviations from a presumed model in multivariate data, which is a recurrent problem in many machine learning applications.
翻訳日:2021-08-25 13:32:06 公開日:2021-08-20
# (参考訳) patch2cad:パッチワイズ埋め込み学習による1枚の画像からの字形検索 [全文訳有]

Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval from a Single Image ( http://arxiv.org/abs/2108.09368v1 )

ライセンス: CC BY 4.0
Weicheng Kuo, Anelia Angelova, Tsung-Yi Lin, Angela Dai(参考訳) rgb画像入力による物体形状の3次元知覚は,空間的3次元実世界環境におけるイメージベース知覚の基盤となる意味的シーン理解に向けている。 オブジェクトのイメージビューと3次元形状のマッピングを実現するため,既存の大規模データベースからCADモデルに先立って,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案し,オブジェクトの画像ビューのパッチとCAD幾何学のパッチとの対応性を確立する。 これにより、データベース内の正確な一致なしに、類似したCADを新しい画像ビューに検索する部分類似性推論が可能になる。 パッチ埋め込みは,単一の入力画像におけるcadモデル形状とポーズのエンドツーエンド推定において,形状推定のためのよりロバストなcad検索を提供する。 ScanNetの複雑な画像を用いた実験により、我々のアプローチはCADの正確な一致のない実世界のシナリオにおける最先端技術よりも堅牢であることが示された。

3D perception of object shapes from RGB image input is fundamental towards semantic scene understanding, grounding image-based perception in our spatially 3-dimensional real-world environments. To achieve a mapping between image views of objects and 3D shapes, we leverage CAD model priors from existing large-scale databases, and propose a novel approach towards constructing a joint embedding space between 2D images and 3D CAD models in a patch-wise fashion -- establishing correspondences between patches of an image view of an object and patches of CAD geometry. This enables part similarity reasoning for retrieving similar CADs to a new image view without exact matches in the database. Our patch embedding provides more robust CAD retrieval for shape estimation in our end-to-end estimation of CAD model shape and pose for detected objects in a single input image. Experiments on in-the-wild, complex imagery from ScanNet show that our approach is more robust than state of the art in real-world scenarios without any exact CAD matches.
翻訳日:2021-08-25 13:12:03 公開日:2021-08-20
# (参考訳) インド生物多様性知識管理のためのオントロジーInBiodiv-O [全文訳有]

InBiodiv-O: An Ontology for Indian Biodiversity Knowledge Management ( http://arxiv.org/abs/2108.09372v1 )

ライセンス: CC BY 4.0
Archana Patel, Sarika Jain, Narayan C. Debnath, Vishal Lama(参考訳) 生物多様性情報を提示するには,生物とその生息地に関するあらゆる種類のデータを接続する意味モデルが必要である。 モデルは、マシンを理解するための人間の知識をエンコードできなければならない。 オントロジーは、生物多様性領域で広く使われている(単に機械処理可能ではなく)最もリッチな機械解釈と明示的な意味論を提供する。 生物多様性領域のための様々なオントロジーが開発されているが、現在の展望を概観すると、インドは多国籍国の一つであるにもかかわらず、これらのオントロジーはインド生物多様性情報を定義することができない。 インドの生物多様性情報を意味的に分析するには、webで利用可能な非構造化フォーマットから、このドメインの本質的な用語をすべて記述したオントロジーを構築することが不可欠である。 ゆえに、オントロジーのキュレーションはこれらが実装されている領域に大きく依存するため、普遍的利用の準備が整っていない理想的な方法論は定義されていない。 本論文の目的は,提案手法に基づいて,インドにおける生物多様性情報のすべての項を意味的にエンコードするオントロジーを開発することである。 提案するオントロジーの包括的評価は、オントロジーが特定の領域によく構築されていることを示している。

To present the biodiversity information, a semantic model is required that connects all kinds of data about living creatures and their habitats. The model must be able to encode human knowledge for machines to be understood. Ontology offers the richest machine-interpretabl e (rather than just machine-processable) and explicit semantics that are being extensively used in the biodiversity domain. Various ontologies are developed for the biodiversity domain however a review of the current landscape shows that these ontologies are not capable to define the Indian biodiversity information though India is one of the megadiverse countries. To semantically analyze the Indian biodiversity information, it is crucial to build an ontology that describes all the essential terms of this domain from the unstructured format of the data available on the web. Since, the curation of the ontologies heavily depends on the domain where these are implemented hence there is no ideal methodology is defined yet to be ready for universal use. The aim of this article is to develop an ontology that semantically encodes all the terms of Indian biodiversity information in all its dimensions based on the proposed methodology. The comprehensive evaluation of the proposed ontology depicts that ontology is well built in the specified domain.
翻訳日:2021-08-25 12:57:07 公開日:2021-08-20
# (参考訳) 産業用RecSysトレーニングにおけるデータ取り込みパイプラインの理解と共同設計 [全文訳有]

Understanding and Co-designing the Data Ingestion Pipeline for Industry-Scale RecSys Training ( http://arxiv.org/abs/2108.09373v1 )

ライセンス: CC BY 4.0
Mark Zhao, Niket Agarwal, Aarti Basant, Bugra Gedik, Satadru Pan, Mustafa Ozdal, Rakesh Komuravelli, Jerry Pan, Tianshu Bao, Haowei Lu, Sundaram Narayanan, Jack Langman, Kevin Wilfong, Harsha Rastogi, Carole-Jean Wu, Christos Kozyrakis, Parik Pol(参考訳) トレーニングデータの保存と前処理を担当するデータ取り込みパイプラインは、あらゆる機械学習トレーニングジョブの重要なコンポーネントである。 facebookでは、サービス全体でレコメンデーションモデルを幅広く使用しています。 これらのモデルをトレーニングするためのデータ取り込み要件はかなり大きい。 本稿では,産業規模のレコメンデーションモデルトレーニングにおけるデータ取り込み課題の広範な特徴について述べる。 まず、データセットのストレージ要件は巨大で可変であり、ローカルストレージ容量を超える。 第二に、データの読み込みと前処理は計算コストが高く、トレーナー自身よりも計算量、メモリ、ネットワークリソースがかなり必要になります。 これらの要求はトレーニングスループットを大幅に削減し、現在のトレーニング前処理ソリューションを使用するとGPUリソースを浪費する。 これらの課題に対処するため、データ取り込みパイプラインを分解する。 分散ストレージノード上に構築された中央データウェアハウスが含まれている。 データプリプロセッシングサービス(data pre processing service, dpp)は、数百のノードにスケール可能な、完全に分散したプリプロセッシングサービスで、トレーニングスループットを56%削減できるデータストールを排除します。 我々はストレージとDPPをまたいだ重要な最適化を行い、ストレージと前処理のスループットをそれぞれ1.9倍と2.3倍に向上させ、データ取り込みの実質的な電力要求に対処する。 私たちは学んだ教訓に近づき、大規模なデータ取り込みを取り巻く重要な課題と機会を取り上げます。

The data ingestion pipeline, responsible for storing and preprocessing training data, is an important component of any machine learning training job. At Facebook, we use recommendation models extensively across our services. The data ingestion requirements to train these models are substantial. In this paper, we present an extensive characterization of the data ingestion challenges for industry-scale recommendation model training. First, dataset storage requirements are massive and variable; exceeding local storage capacities. Secondly, reading and preprocessing data is computationally expensive, requiring substantially more compute, memory, and network resources than are available on trainers themselves. These demands result in drastically reduced training throughput, and thus wasted GPU resources, when current on-trainer preprocessing solutions are used. To address these challenges, we present a disaggregated data ingestion pipeline. It includes a central data warehouse built on distributed storage nodes. We introduce Data PreProcessing Service (DPP), a fully disaggregated preprocessing service that scales to hundreds of nodes, eliminating data stalls that can reduce training throughput by 56%. We implement important optimizations across storage and DPP, increasing storage and preprocessing throughput by 1.9x and 2.3x, respectively, addressing the substantial power requirements of data ingestion. We close with lessons learned and cover the important remaining challenges and opportunities surrounding data ingestion at scale.
翻訳日:2021-08-25 12:42:41 公開日:2021-08-20
# (参考訳) フーリエニューラル演算子ネットワーク:光音響波動方程式の高速で一般的な解法 [全文訳有]

Fourier Neural Operator Networks: A Fast and General Solver for the Photoacoustic Wave Equation ( http://arxiv.org/abs/2108.09374v1 )

ライセンス: CC BY 4.0
Steven Guan, Ko-Tsung Hsu, and Parag V. Chitnis(参考訳) 光音響伝搬のためのシミュレーションツールは、画質に影響するパラメータに対する定量的・質的洞察を提供することで、光音響イメージングの進歩において重要な役割を果たす。 光音響波動方程式を数値的に解く古典的手法は、空間の微細な離散化に依存し、大きな計算格子に対して計算コストがかかる。 本研究では,FNO(Fourier Neural Operator)ネットワークを高速なデータ駆動深層学習法として応用し,同質媒質中の2次元光音響波動方程式を解く。 FNOネットワークと疑似スペクトル時間領域の比較により、FNOネットワークは小さな誤差で比較可能なシミュレーションを生成し、桁違いに高速であった。 さらに、FNOネットワークは一般化可能であり、トレーニングデータでは観測できないシミュレーションを生成することができる。

Simulation tools for photoacoustic wave propagation have played a key role in advancing photoacoustic imaging by providing quantitative and qualitative insights into parameters affecting image quality. Classical methods for numerically solving the photoacoustic wave equation relies on a fine discretization of space and can become computationally expensive for large computational grids. In this work, we apply Fourier Neural Operator (FNO) networks as a fast data-driven deep learning method for solving the 2D photoacoustic wave equation in a homogeneous medium. Comparisons between the FNO network and pseudo-spectral time domain approach demonstrated that the FNO network generated comparable simulations with small errors and was several orders of magnitude faster. Moreover, the FNO network was generalizable and can generate simulations not observed in the training data.
翻訳日:2021-08-25 12:02:59 公開日:2021-08-20
# (参考訳) 非均一曲面上の特異性予測のための多視点幾何モデル [全文訳有]

A Multiple-View Geometric Model for Specularity Prediction on Non-Uniformly Curved Surfaces ( http://arxiv.org/abs/2108.09378v1 )

ライセンス: CC BY 4.0
Alexandre Morgand (1) Mohamed Tamaazousti (2) and Adrien Bartoli (3) ((1) SLAMcore ltd, London, UK (2) Universit\'e Paris Saclay, CEA, LIST, Gif-sur-Yvette, France (3) IP-UMR 6602 - CNRS/UCA/CHU, Clermont-Ferrand, France)(参考訳) 特異性予測は、拡張現実(AR)、同時局在マッピング(SLAM)、3次元再構成と物質モデリングで使用できる重要な視覚的手がかりを提供することによって、多くのコンピュータビジョンアプリケーションにとって不可欠である。 しかし、カメラポーズ、シーンの幾何学、光源、材料特性など、シーンからの多数の情報を必要とする課題である。 我々の以前の研究では、特定のカメラのポーズのスペクティリティ・イメージの輪郭に合致する楕円体を用いて明示的なモデルを作成することでこの問題に対処しました。 これらの楕円体に基づくアプローチは、Joint-LIght Material Specularity (JOLIMAS)と呼ばれるモデルの族に属する。 しかし、我々の最新のアプローチはまだ一様曲面に限られている。 本稿では、JOLIMASを任意の表面形状に一般化し、計算性能を犠牲にすることなく、特異性予測の質を改善した。 提案手法は, 先行研究から幾何学的仮定を取り上げるために, 表面曲率と鏡面形状とのリンクを確立する。 従来の研究とは対照的に、我々の新しいモデルは物理に基づく局所照明モデルであるTorrance-Sparrowから構築され、より良いモデル再構成を提供する。 本モデルを用いた特異性予測は, 形状曲率の異なる合成および実数列において, 最新のJOLIMASバージョンと比較した。 本手法は,ビデオを用いた補足資料で示されるように,リアルタイム設定を含む投機性予測における従来のアプローチを上回っている。

Specularity prediction is essential to many computer vision applications by giving important visual cues that could be used in Augmented Reality (AR), Simultaneous Localisation and Mapping (SLAM), 3D reconstruction and material modeling, thus improving scene understanding. However, it is a challenging task requiring numerous information from the scene including the camera pose, the geometry of the scene, the light sources and the material properties. Our previous work have addressed this task by creating an explicit model using an ellipsoid whose projection fits the specularity image contours for a given camera pose. These ellipsoid-based approaches belong to a family of models called JOint-LIght MAterial Specularity (JOLIMAS), where we have attempted to gradually remove assumptions on the scene such as the geometry of the specular surfaces. However, our most recent approach is still limited to uniformly curved surfaces. This paper builds upon these methods by generalising JOLIMAS to any surface geometry while improving the quality of specularity prediction, without sacrificing computation performances. The proposed method establishes a link between surface curvature and specularity shape in order to lift the geometric assumptions from previous work. Contrary to previous work, our new model is built from a physics-based local illumination model namely Torrance-Sparrow, providing a better model reconstruction. Specularity prediction using our new model is tested against the most recent JOLIMAS version on both synthetic and real sequences with objects of varying shape curvatures. Our method outperforms previous approaches in specularity prediction, including the real-time setup, as shown in the supplementary material using videos.
翻訳日:2021-08-25 10:56:52 公開日:2021-08-20
# (参考訳) 画像からの逆グラフパターンの検出とセグメンテーション [全文訳有]

Detecting and Segmenting Adversarial Graphics Patterns from Images ( http://arxiv.org/abs/2108.09383v1 )

ライセンス: CC BY-SA 4.0
Xiangyu Qu (1) and Stanley H. Chan (1) ((1) Purdue University)(参考訳) 敵の攻撃はコンピュータビジョンシステムのセキュリティに重大な脅威をもたらすが、ソーシャルメディア業界は常に、不適切な画像をアップロードし、人工的なグラフィックパターンを追加することで自動スクリーニングシステムを騙そうとする別のタイプの「敵の攻撃」に直面している。 本稿では,人工的なグラフィックパターン分割問題のような攻撃に対する防御を定式化する。 本稿では,いくつかのセグメンテーションアルゴリズムの有効性を評価し,その性能の観察に基づいて,この問題に適した新しい手法を提案する。 大規模な実験により,提案手法はベースラインよりも優れ,有望な一般化能力を有しており,人工グラフィックパターンのセグメント化において最も重要な側面であることがわかった。

Adversarial attacks pose a substantial threat to computer vision system security, but the social media industry constantly faces another form of "adversarial attack" in which the hackers attempt to upload inappropriate images and fool the automated screening systems by adding artificial graphics patterns. In this paper, we formulate the defense against such attacks as an artificial graphics pattern segmentation problem. We evaluate the efficacy of several segmentation algorithms and, based on observation of their performance, propose a new method tailored to this specific problem. Extensive experiments show that the proposed method outperforms the baselines and has a promising generalization capability, which is the most crucial aspect in segmenting artificial graphics patterns.
翻訳日:2021-08-25 10:38:59 公開日:2021-08-20
# (参考訳) 地域保健センターにおけるcovid-19モニタリングとppe需要予測のためのマルチタスク学習フレームワーク [全文訳有]

A Multi-Task Learning Framework for COVID-19 Monitoring and Prediction of PPE Demand in Community Health Centres ( http://arxiv.org/abs/2108.09402v1 )

ライセンス: CC BY 4.0
Bonaventure Chidube Molokwu, Shaon Bhatta Shuvo, Ziad Kobti, Anne Snowdon(参考訳) 現在、世界は新たなSARS-CoV-2の拡散を制御・防止するための適切な緩和技術を模索している。 本稿では,SARS-CoV-2の効果と,地域保健センターにおける個人・保護・機器消費を協調的に予測する特有なマルチタスク学習フレームワークを提案する。 ウイルス(sars-cov-2)の効果を研究や解析によって予測することで、sars-cov-2の増殖と拡散を促進する要因について理解することができる。 そのため、この集団は広く認知され、2019年のコロナウイルスの流行を緩和するため、より積極的に慎重になる可能性がある(共同-19)。 さらに、個人保護装置の需要の理解と予測は、地域保健センターにおける医療従事者の効率と安全性を促進する。 SARS-CoV-2の新規な性質と変異により、この点に関しての文献や研究は比較的少ない。 これらの既存の文献はエージェントベースモデル、機械学習モデル、数学的モデルのいずれかを用いて問題文の解決を試みた。 これを踏まえて,本研究は,課題文をマルチタスク学習問題としてモデル化することで,既存の文献に追加する。 以上の結果から,SARS-CoV-2の拡散に影響を及ぼす最も重要な要因は,政府の行動や人的要因であることが明らかとなった。

Currently, the world seeks to find appropriate mitigation techniques to control and prevent the spread of the new SARS-CoV-2. In our paper herein, we present a peculiar Multi-Task Learning framework that jointly predicts the effect of SARS-CoV-2 as well as Personal-Protective- Equipment consumption in Community Health Centres for a given populace. Predicting the effect of the virus (SARS-CoV-2), via studies and analyses, enables us to understand the nature of SARS-CoV- 2 with reference to factors that promote its growth and spread. Therefore, these foster widespread awareness; and the populace can become more proactive and cautious so as to mitigate the spread of Corona Virus Disease 2019 (COVID- 19). Furthermore, understanding and predicting the demand for Personal Protective Equipment promotes the efficiency and safety of healthcare workers in Community Health Centres. Owing to the novel nature and strains of SARS-CoV-2, relatively few literature and research exist in this regard. These existing literature have attempted to solve the problem statement(s) using either Agent-based Models, Machine Learning Models, or Mathematical Models. In view of this, our work herein adds to existing literature via modeling our problem statements as Multi- Task Learning problems. Results from our research indicate that government actions and human factors are the most significant determinants that influence the spread of SARS-CoV-2.
翻訳日:2021-08-25 10:22:25 公開日:2021-08-20
# 一人ひとりのチャットボット:不適切なユーザープロファイルに基づく個人化チャットボットの作成

One Chatbot Per Person: Creating Personalized Chatbots based on Implicit User Profiles ( http://arxiv.org/abs/2108.09355v1 )

ライセンス: Link先を確認
Zhengyi Ma, Zhicheng Dou, Yutao Zhu, Hanxun Zhong, Ji-Rong Wen(参考訳) パーソナライズされたチャットボットは、本物のユーザーのように振る舞う一貫したパーソナリティを持つチャットボットを内在させ、より有益な反応を与え、さらにパーソナルアシスタントとして振る舞うことに焦点を当てている。 既存のパーソナライズされたアプローチは、いくつかのテキスト記述を明示的なユーザプロファイルとして組み込もうとした。 しかし、そのような明示的なプロファイルの取得は高価で時間がかかるため、大規模な実世界のアプリケーションでは実用的ではない。 さらに、制限された事前定義プロファイルは、実際のユーザの言語動作を無視し、ユーザの関心の変化とともに自動的に更新されない。 本稿では,チャットボット構築のための大規模ユーザ対話履歴から暗黙のユーザプロファイルを自動的に学習する手法を提案する。 具体的には,Transformerの利点を言語理解に活かし,ユーザの履歴応答から一般ユーザプロファイルを構築するためにパーソナライズされた言語モデルを訓練する。 入力ポストに対する関連する履歴応答を強調するために、過去の応答後ペアのキー値メモリネットワークをさらに確立し、動的応答後ユーザプロファイルを構築する。 動的プロファイルは、ユーザーがどの投稿に対してどのように反応したかを主に記述している。 ユーザの頻繁に使われる単語を明示的に利用するために、汎用語彙から単語を生成し、ユーザのパーソナライズされた語彙から1つの単語をコピーすることを含む、2つの復号戦略を融合するパーソナライズドデコーダを設計する。 2つの実世界のデータセットに対する実験は、既存の手法と比較して、我々のモデルの大幅な改善を示している。

Personalized chatbots focus on endowing chatbots with a consistent personality to behave like real users, give more informative responses, and further act as personal assistants. Existing personalized approaches tried to incorporate several text descriptions as explicit user profiles. However, the acquisition of such explicit profiles is expensive and time-consuming, thus being impractical for large-scale real-world applications. Moreover, the restricted predefined profile neglects the language behavior of a real user and cannot be automatically updated together with the change of user interests. In this paper, we propose to learn implicit user profiles automatically from large-scale user dialogue history for building personalized chatbots. Specifically, leveraging the benefits of Transformer on language understanding, we train a personalized language model to construct a general user profile from the user's historical responses. To highlight the relevant historical responses to the input post, we further establish a key-value memory network of historical post-response pairs, and build a dynamic post-aware user profile. The dynamic profile mainly describes what and how the user has responded to similar posts in history. To explicitly utilize users' frequently used words, we design a personalized decoder to fuse two decoding strategies, including generating a word from the generic vocabulary and copying one word from the user's personalized vocabulary. Experiments on two real-world datasets show the significant improvement of our model compared with existing methods.
翻訳日:2021-08-24 16:05:49 公開日:2021-08-20
# 能動学習における影響選択

Influence Selection for Active Learning ( http://arxiv.org/abs/2108.09331v1 )

ライセンス: Link先を確認
Zhuoming Liu, Hao Ding, Huaping Zhong, Weijia Li, Jifeng Dai, Conghui He(参考訳) 既存のアクティブラーニング手法では、異なるタスクやモデル固有の基準に基づいて、サンプルの不確実性やラベル付きデータセットの多様性の影響を評価してサンプルを選択する。 本稿では,モデル性能に最も有意な影響を与える非ラベルサンプルを選択するアクティブラーニング(isal)に対する影響選択を提案する。 アクティブな学習シナリオにおける未ラベルサンプルの影響を得るために,未ラベルサンプル影響計算(Untrained Unlabeled sample Influence calculated, UUIC)を設計し,その影響を計算した未ラベルサンプルの予測勾配を推定する。 UUICの有効性を証明するため,理論的および実験的解析を行った。 UUICは任意のニューラルネットワークから容易に得られるモデル勾配に依存するため、我々のアクティブラーニングアルゴリズムはタスク非依存でモデル非依存である。 ISALは、異なるデータセットで異なるタスクに対して異なるアクティブな学習設定で最先端のパフォーマンスを達成する。 従来の手法と比較して,CIFAR10,VOC2012,COC Oでは,アノテーションのコストを少なくとも12%,13%,16%削減する。

The existing active learning methods select the samples by evaluating the sample's uncertainty or its effect on the diversity of labeled datasets based on different task-specific or model-specific criteria. In this paper, we propose the Influence Selection for Active Learning(ISAL) which selects the unlabeled samples that can provide the most positive Influence on model performance. To obtain the Influence of the unlabeled sample in the active learning scenario, we design the Untrained Unlabeled sample Influence Calculation(UUIC) to estimate the unlabeled sample's expected gradient with which we calculate its Influence. To prove the effectiveness of UUIC, we provide both theoretical and experimental analyses. Since the UUIC just depends on the model gradients, which can be obtained easily from any neural network, our active learning algorithm is task-agnostic and model-agnostic. ISAL achieves state-of-the-art performance in different active learning settings for different tasks with different datasets. Compared with previous methods, our method decreases the annotation cost at least by 12%, 13% and 16% on CIFAR10, VOC2012 and COCO, respectively.
翻訳日:2021-08-24 16:00:11 公開日:2021-08-20
# プライバシ保護医療プラットフォームのための時空間スプリット学習 : COVID-19 CT, X線, コレステロールデータを用いたケーススタディ

Spatio-Temporal Split Learning for Privacy-Preserving Medical Platforms: Case Studies with COVID-19 CT, X-Ray, and Cholesterol Data ( http://arxiv.org/abs/2108.10147v1 )

ライセンス: Link先を確認
Yoo Jeong Ha, Minjae Yoo, Gusang Lee, Soyi Jung, Sae Won Choi, Joongheon Kim, and Seehwan Yoo(参考訳) 機械学習は、特に高精度な医療アプリケーションで使用される場合、大量のサンプルデータを必要とする。 しかし、患者記録は、通常、機関間で共有されていない最も機密性の高い個人情報の1つである。 本稿では、プライバシに敏感な組織間のコラボレーションを可能にするための転換点である分散ディープニューラルネットワークフレームワークである時空間分割学習を提案する。 我々の時空間分割学習は、分散機械学習を最小限のプライバシーで効率的に行う方法を示している。 提案する分割学習は,多数のクライアントと集中型サーバで構成される。 各クライアントは、プライバシ保護層として機能する1つの隠蔽層しか持たず、集中型サーバは、他の隠蔽層と出力層から構成される。 集中型サーバはトレーニングデータにアクセスせず、プライバシ保存層から受信したパラメータでディープニューラルネットワークをトレーニングするため、元のデータのプライバシが保証される。 複数のクライアントが空間的に分散して、さまざまな参加者のさまざまなデータセットをカバーすることにより、私たちは学習プロセスを一時的に分割し、プライバシー保護層を他の学習プロセスから切り離し、プライバシー侵害を最小限に抑えることができるのです。 本稿では,コロナウイルス感染症 (COVID-19) 胸部CT, MU (MU) RA-ography (MU) X線画像, コレステロール値の多地点時分割学習アルゴリズムを用いて, 医療データのプライバシー確保を図りながら, 医療データを解析する方法を示す。

Machine learning requires a large volume of sample data, especially when it is used in high-accuracy medical applications. However, patient records are one of the most sensitive private information that is not usually shared among institutes. This paper presents spatio-temporal split learning, a distributed deep neural network framework, which is a turning point in allowing collaboration among privacy-sensitive organizations. Our spatio-temporal split learning presents how distributed machine learning can be efficiently conducted with minimal privacy concerns. The proposed split learning consists of a number of clients and a centralized server. Each client has only has one hidden layer, which acts as the privacy-preserving layer, and the centralized server comprises the other hidden layers and the output layer. Since the centralized server does not need to access the training data and trains the deep neural network with parameters received from the privacy-preserving layer, privacy of original data is guaranteed. We have coined the term, spatio-temporal split learning, as multiple clients are spatially distributed to cover diverse datasets from different participants, and we can temporally split the learning process, detaching the privacy preserving layer from the rest of the learning process to minimize privacy breaches. This paper shows how we can analyze the medical data whilst ensuring privacy using our proposed multi-site spatio-temporal split learning algorithm on Coronavirus Disease-19 (COVID-19) chest Computed Tomography (CT) scans, MUsculoskeletal RAdiographs (MURA) X-ray images, and cholesterol levels.
翻訳日:2021-08-24 15:56:45 公開日:2021-08-20
# 歪んだ画像に対する早期出力ディープニューラルネットワーク:効率的なエッジオフロードを提供する

Early-exit deep neural networks for distorted images: providing an efficient edge offloading ( http://arxiv.org/abs/2108.09343v1 )

ライセンス: Link先を確認
Roberto G. Pacheco, Fernanda D.V.R. Oliveira and Rodrigo S. Couto(参考訳) ディープニューラルネットワーク(DNN)のエッジオフロードは、早期出力のDNNを使用することで、入力の複雑さに適応することができる。 これらのDNNはアーキテクチャ全体にわたってサイドブランチを持ち、推論をエッジで早期に終了させることができる。 枝は与えられた入力の精度を推定する。 この推定精度がしきい値に達すると、推論はエッジで終了する。 そうでなければ、エッジはクラウドに推論をオフロードし、残りのDNN層を処理する。 しかし、画像分類のためのDNNは歪んだ画像を扱うため、枝の推定精度に悪影響を及ぼす。 その結果、エッジはより多くの推論をクラウドにオフロードする。 この研究は、画像歪みに対する堅牢性を改善するために、特定の歪みタイプで訓練されたエキスパートサイドブランチを導入する。 エッジは歪みタイプを検出し、推論を行う適切な専門家ブランチを選択する。 このアプローチはエッジ上の推定精度を高め、オフロードの決定を改善する。 エッジがDNN推論をAmazon EC2インスタンスにオフロードする現実的なシナリオで、私たちの提案を検証する。

Edge offloading for deep neural networks (DNNs) can be adaptive to the input's complexity by using early-exit DNNs. These DNNs have side branches throughout their architecture, allowing the inference to end earlier in the edge. The branches estimate the accuracy for a given input. If this estimated accuracy reaches a threshold, the inference ends on the edge. Otherwise, the edge offloads the inference to the cloud to process the remaining DNN layers. However, DNNs for image classification deals with distorted images, which negatively impact the branches' estimated accuracy. Consequently, the edge offloads more inferences to the cloud. This work introduces expert side branches trained on a particular distortion type to improve robustness against image distortion. The edge detects the distortion type and selects appropriate expert branches to perform the inference. This approach increases the estimated accuracy on the edge, improving the offloading decisions. We validate our proposal in a realistic scenario, in which the edge offloads DNN inference to Amazon EC2 instances.
翻訳日:2021-08-24 15:54:08 公開日:2021-08-20
# mm-vit:圧縮ビデオ動作認識用マルチモーダルビデオトランス

MM-ViT: Multi-Modal Video Transformer for Compressed Video Action Recognition ( http://arxiv.org/abs/2108.09322v1 )

ライセンス: Link先を確認
Jiawei Chen, Chiu Man Ho(参考訳) 本稿では,マルチモーダルビデオトランスフォーマタ (mm-vit) と呼ばれる,ビデオ動作認識のための純粋トランスフォーマティブ方式を提案する。 復号化RGBフレームのみを利用する他のスキームとは異なり、MM-ViTは圧縮されたビデオ領域でのみ動作し、Iフレーム、モーションベクトル、残差、オーディオ波形など、利用可能なすべてのモダリティを利用する。 複数のモーダル性から抽出された多数の時空間トークンを扱うために,空間,時間,モダリティ次元をまたいだ自己アテンションを分解するスケーラブルなモデル変異体を開発した。 さらに, リッチなモーダル間相互作用とその効果をさらに探究するため, トランスフォーマービルディングブロックにシームレスに統合可能な3つの異なるクロスモーダル注意機構を開発・比較した。 3つの公開行動認識ベンチマーク(UCF-101, Something-Something- v2, Kinetics-600)の大規模な実験は、MM-ViTが最先端のビデオトランスフォーマーを効率と精度の両方で上回り、計算量の多いCNNと同等か等に優れていることを示した。

This paper presents a pure transformer-based approach, dubbed the Multi-Modal Video Transformer (MM-ViT), for video action recognition. Different from other schemes which solely utilize the decoded RGB frames, MM-ViT operates exclusively in the compressed video domain and exploits all readily available modalities, i.e., I-frames, motion vectors, residuals and audio waveform. In order to handle the large number of spatiotemporal tokens extracted from multiple modalities, we develop several scalable model variants which factorize self-attention across the space, time and modality dimensions. In addition, to further explore the rich inter-modal interactions and their effects, we develop and compare three distinct cross-modal attention mechanisms that can be seamlessly integrated into the transformer building block. Extensive experiments on three public action recognition benchmarks (UCF-101, Something-Something- v2, Kinetics-600) demonstrate that MM-ViT outperforms the state-of-the-art video transformers in both efficiency and accuracy, and performs better or equally well to the state-of-the-art CNN counterparts with computationally-heav y optical flow.
翻訳日:2021-08-24 15:50:13 公開日:2021-08-20
# BlockCopy: ブロックスパース機能プロパゲーションとオンラインポリシによる高解像度ビデオ処理

BlockCopy: High-Resolution Video Processing with Block-Sparse Feature Propagation and Online Policies ( http://arxiv.org/abs/2108.09376v1 )

ライセンス: Link先を確認
Thomas Verelst, Tinne Tuytelaars(参考訳) 本稿では,プリトレーニングされたフレームベースのcnnを高速化し,標準フレーム毎フレーム処理と比較してより効率的に映像処理を行うblockcopyを提案する。 この目的のために、軽量ポリシーネットワークは、画像内の重要な領域を決定し、カスタムブロックスパース畳み込みを用いて、選択された領域のみに操作を適用する。 非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。 実行方針は、真理アノテーションを必要とせず、オンラインで強化学習を用いて訓練される。 提案手法は,最先端のart(center and scale predictor, mgan, swiftnet)と標準ベースラインネットワーク(mask-rcnn, deeplabv3+)の両方を用いて,歩行者検出,インスタンスセグメンテーション,セマンティクスセグメンテーションなどの密集した予測タスクについて実証する。 BlockCopyはFLOPSの大幅な削減と推論の高速化を実現している。

In this paper we propose BlockCopy, a scheme that accelerates pretrained frame-based CNNs to process video more efficiently, compared to standard frame-by-frame processing. To this end, a lightweight policy network determines important regions in an image, and operations are applied on selected regions only, using custom block-sparse convolutions. Features of non-selected regions are simply copied from the preceding frame, reducing the number of computations and latency. The execution policy is trained using reinforcement learning in an online fashion without requiring ground truth annotations. Our universal framework is demonstrated on dense prediction tasks such as pedestrian detection, instance segmentation and semantic segmentation, using both state of the art (Center and Scale Predictor, MGAN, SwiftNet) and standard baseline networks (Mask-RCNN, DeepLabV3+). BlockCopy achieves significant FLOPS savings and inference speedup with minimal impact on accuracy.
翻訳日:2021-08-24 15:49:48 公開日:2021-08-20
# Cascade Watchdog:アウトリーチ検出のための多層対向ガード

Cascade Watchdog: A Multi-tiered Adversarial Guard for Outlier Detection ( http://arxiv.org/abs/2108.09375v1 )

ライセンス: Link先を確認
Glauco A. Amigo Gal\'an and Justin Bui and Robert J. Marks(参考訳) 分散コンテンツの同定は、ニューラルネットワークの実装の成功に不可欠である。 watchdogの技術はこれらの入力の検出をサポートするために開発されているが、その性能は利用可能なデータ量によって制限される。 生成的敵ネットワークは、優れた精度でファクシミリを生成する機能を含む、多数の能力を示した。 本稿では,gan生成データを用いて開発した多層ウォッチドッグを用いて,分散検出精度の向上を実現した。 カスケードウォッチドッグは、より検出が難しい分散要素に似た利用可能なデータ量を増やすために、逆のトレーニングを使用する。 そして、特殊第2ガードを順次追加する。 その結果, 極めて低い偽陽性率を維持しつつ, 最も困難な分布外入力の検出において, 安定かつ有意な改善が得られた。

The identification of out-of-distribution content is critical to the successful implementation of neural networks. Watchdog techniques have been developed to support the detection of these inputs, but the performance can be limited by the amount of available data. Generative adversarial networks have displayed numerous capabilities, including the ability to generate facsimiles with excellent accuracy. This paper presents and empirically evaluates a multi-tiered watchdog, which is developed using GAN generated data, for improved out-of-distribution detection. The cascade watchdog uses adversarial training to increase the amount of available data similar to the out-of-distribution elements that are more difficult to detect. Then, a specialized second guard is added in sequential order. The results show a solid and significant improvement on the detection of the most challenging out-of-distribution inputs while preserving an extremely low false positive rate.
翻訳日:2021-08-24 15:38:43 公開日:2021-08-20
# ウィンドフォールクロースによる安全なトランスフォーメーションAI

Safe Transformative AI via a Windfall Clause ( http://arxiv.org/abs/2108.09404v1 )

ライセンス: Link先を確認
Paolo Bova, Jonas Emanuel M\"uller, Benjamin Harack(参考訳) 社会はすぐにトランスフォーメーション人工知能(tai:transformative artificial intelligence)を見ることができた。 tai showの競争モデルは、安全になる前にtaiシステムを展開する強力な競争圧力にさらされている。 本稿では、開発者が最終的に非常に大きな利益のかなりの部分を良い原因に寄付することを約束するWindfall Clauseという、この問題に対する解決策を提案する。 しかし、Windfall Clauseにとって重要な課題は、企業が参加する理由がなければならないことだ。 企業はこれらのコミットメントが信頼できると信じなければならない。 我々は、これらの課題を克服するWindfall Clauseを企業や政策立案者がどのように設計できるかを示すために、Windfall ClauseとTAIコンペティションのモデルを拡張します。 企業は幅広いシナリオでWindfall Clauseに参加することで利益を得る。 また、競争がより危険な場合、企業はより頻繁にウィンドフォール条項に参加します。 企業が互いの能力を習得しても、企業がウィンドフォール・クロースへの支持を辞退することはめったにない。 これらの3つの知見は,TAIの安全開発を促進するためにウィンドフォール・クロースを用いたケースを強化するものである。

Society could soon see transformative artificial intelligence (TAI). Models of competition for TAI show firms face strong competitive pressure to deploy TAI systems before they are safe. This paper explores a proposed solution to this problem, a Windfall Clause, where developers commit to donating a significant portion of any eventual extremely large profits to good causes. However, a key challenge for a Windfall Clause is that firms must have reason to join one. Firms must also believe these commitments are credible. We extend a model of TAI competition with a Windfall Clause to show how firms and policymakers can design a Windfall Clause which overcomes these challenges. Encouragingly, firms benefit from joining a Windfall Clause under a wide range of scenarios. We also find that firms join the Windfall Clause more often when the competition is more dangerous. Even when firms learn each other's capabilities, firms rarely wish to withdraw their support for the Windfall Clause. These three findings strengthen the case for using a Windfall Clause to promote the safe development of TAI.
翻訳日:2021-08-24 15:34:54 公開日:2021-08-20
# OSRM-CCTV:プライバシー、匿名、安全のためのCCTV対応ルーティングおよびナビゲーションシステム(プレプリント)

OSRM-CCTV: Open-source CCTV-aware routing and navigation system for privacy, anonymity and safety (Preprint) ( http://arxiv.org/abs/2108.09369v1 )

ライセンス: Link先を確認
Lauri Sintonen, Hannu Turtiainen, Andrei Costin, Timo Hamalainen, Tuomo Lahtinen(参考訳) 過去数十年間、世界中のクローズド・サーキット・テレビ(cctv)カメラの利用が拡大し、広範に広まり、不当に利用され、プライバシーのリスクが懸念されてきた。 IoT(Internet of Things)接続やAI(Artificial Intelligence)ベースの顔認識など、多くのCCTVカメラの最近の追加機能により、プライバシ擁護者の間での懸念が増している。 したがって、プライバシ、安全性、サイバーセキュリティ機能を提供するpal \emph{CCTV-aware solution}が存在する必要がある。 我々は、ルーティングやナビゲーションシステム(OpenStreetMap、Google Mapsなど)を通じて、カメラの存在が知られている領域のプライバシーと安全性の両方を提供する、プライバシー問題に対処するソリューションを開発することが重要なステップであると主張している。 しかし、現在、オンラインでもオフラインでも、CCTV対応の機能を提供していない。 本稿では,プライバシ,匿名性,安全性アプリケーション用に設計された,最初のcctv対応ルーティングおよびナビゲーションシステムであるosrm-cctvを紹介する。 システムの有効性とユーザビリティを,少数の合成および実世界の例で検証し,実証する。 当社の作業の検証に加えて,システムの開発と広範な採用をさらに促進するために,osrm-cctvをオープンソースとしてリリースします。

For the last several decades, the increased, widespread, unwarranted, and unaccountable use of Closed-Circuit TeleVision (CCTV) cameras globally has raised concerns about privacy risks. Additional recent features of many CCTV cameras, such as Internet of Things (IoT) connectivity and Artificial Intelligence (AI)-based facial recognition, only increase concerns among privacy advocates. Therefore, on par \emph{CCTV-aware solutions} must exist that provide privacy, safety, and cybersecurity features. We argue that an important step forward is to develop solutions addressing privacy concerns via routing and navigation systems (e.g., OpenStreetMap, Google Maps) that provide both privacy and safety options for areas where cameras are known to be present. However, at present no routing and navigation system, whether online or offline, provide corresponding CCTV-aware functionality. In this paper we introduce OSRM-CCTV -- the first and only CCTV-aware routing and navigation system designed and built for privacy, anonymity and safety applications. We validate and demonstrate the effectiveness and usability of the system on a handful of synthetic and real-world examples. To help validate our work as well as to further encourage the development and wide adoption of the system, we release OSRM-CCTV as open-source.
翻訳日:2021-08-24 15:23:26 公開日:2021-08-20
# beyond tracking: 生物群における新しい相互作用の発見にディープラーニングを使用する

Beyond Tracking: Using Deep Learning to Discover Novel Interactions in Biological Swarms ( http://arxiv.org/abs/2108.09394v1 )

ライセンス: Link先を確認
Taeyeong Choi, Benjamin Pyenson, Juergen Liebig, Theodore P. Pavlic(参考訳) 生物群を理解するための多くのディープラーニングフレームワークは、ビデオ観察から別々に収集された個々のレベルのデータ(例えば、個人の特徴の空間座標)に集団行動の知覚モデルに適合するように設計されている。 自動追跡の大幅な進歩にもかかわらず、これらの方法は同時に多数の動物を追跡する際に、非常に高価または信頼性が低い。 さらに、このアプローチでは、集団行動における重要なパターンを説明するのに十分な特徴を含むヒューマン・チョーセンの特徴を仮定する。 これらの問題に対処するため,我々は,システムレベルの状態を全体から直接予測する深層ネットワークモデルのトレーニングを提案する。 結果の予測モデルは人間の理解した予測値に基づいていないため、深層ネットワークモデルの潜伏変数に隠された情報とビデオデータ自体を結合した説明モジュール(Grad-CAMなど)を用いて、観察された個々の行動の側面がグループ行動の予測に最も有益であるかを人間の観察者に伝える。 これは行動生態学における人工知能の例であり、人間-aiチームにおける知識の共創である。 概念実証として,50以上のハルペグナトス塩分アリのコロニーの20日間のビデオ記録を用いて,個々のアノテーションが提供されないと,訓練されたモデルがビデオフレーム全体に"importance map"を生成して,繁殖階層の再形成の解決に寄与するデュエル(aiには事前知識がない)などの重要な行動の領域を強調することができることを示した。 実験結果に基づいて, 潜在的な利用可能性と現状の課題について考察する。

Most deep-learning frameworks for understanding biological swarms are designed to fit perceptive models of group behavior to individual-level data (e.g., spatial coordinates of identified features of individuals) that have been separately gathered from video observations. Despite considerable advances in automated tracking, these methods are still very expensive or unreliable when tracking large numbers of animals simultaneously. Moreover, this approach assumes that the human-chosen features include sufficient features to explain important patterns in collective behavior. To address these issues, we propose training deep network models to predict system-level states directly from generic graphical features from the entire view, which can be relatively inexpensive to gather in a completely automated fashion. Because the resulting predictive models are not based on human-understood predictors, we use explanatory modules (e.g., Grad-CAM) that combine information hidden in the latent variables of the deep-network model with the video data itself to communicate to a human observer which aspects of observed individual behaviors are most informative in predicting group behavior. This represents an example of augmented intelligence in behavioral ecology -- knowledge co-creation in a human-AI team. As proof of concept, we utilize a 20-day video recording of a colony of over 50 Harpegnathos saltator ants to showcase that, without any individual annotations provided, a trained model can generate an "importance map" across the video frames to highlight regions of important behaviors, such as dueling (which the AI has no a priori knowledge of), that play a role in the resolution of reproductive-hierarc hy re-formation. Based on the empirical results, we also discuss the potential use and current challenges.
翻訳日:2021-08-24 15:23:05 公開日:2021-08-20
# 強化学習とアタックグラフを用いたクラウンジュエル分析

Crown Jewels Analysis using Reinforcement Learning with Attack Graphs ( http://arxiv.org/abs/2108.09358v1 )

ライセンス: Link先を確認
Rohit Gangupantulu, Tyler Cody, Abdul Rahman, Christopher Redino, Ryan Clark, Paul Park(参考訳) サイバー攻撃は国家や企業に存在の脅威をもたらす。 現在の実践は、厳密なサイバー地形分析と戦場の情報準備の代わりに脅威モデルを用いた断片的分析を好んでいる。 強化学習を用いた自動浸透試験は、ネットワーク構造とサイバー地形によって駆動される方法論を新たに開発するための有望なアプローチを提供する。 本稿では,強化学習を用いたクラウンジュエル分析法であるcja-rlを用いて,クラウンジュエルを活用するための重要な地形とアプローチの道筋を同定する手法を提案する。 我々の実験では、CJA-RLは、複数のクラウン宝石を用いたネットワークを利用するための理想的なエントリポイント、チョークポイント、ピボットを特定し、CJA-RLと強化学習が一般に浸透試験にどのように役立つかを示した。

Cyber attacks pose existential threats to nations and enterprises. Current practice favors piece-wise analysis using threat-models in the stead of rigorous cyber terrain analysis and intelligence preparation of the battlefield. Automated penetration testing using reinforcement learning offers a new and promising approach for developing methodologies that are driven by network structure and cyber terrain, that can be later interpreted in terms of threat-models, but that are principally network-driven analyses. This paper presents a novel method for crown jewel analysis termed CJA-RL that uses reinforcement learning to identify key terrain and avenues of approach for exploiting crown jewels. In our experiment, CJA-RL identified ideal entry points, choke points, and pivots for exploiting a network with multiple crown jewels, exemplifying how CJA-RL and reinforcement learning for penetration testing generally can benefit computer network operations workflows.
翻訳日:2021-08-24 15:21:20 公開日:2021-08-20
# 多入力多出力トランスベースハイブリッドニューラルネットワークによる多クラスプライバシー開示検出

A Multi-input Multi-output Transformer-based Hybrid Neural Network for Multi-class Privacy Disclosure Detection ( http://arxiv.org/abs/2108.08483v2 )

ライセンス: Link先を確認
A K M Nuhil Mehdy, Hoda Mehrpouyan(参考訳) ユーザのデータプライバシに関する懸念は,コミュニケーションプラットフォームやソーシャルネットワークサイトの増加,オンライン公開談話へのユーザの参加の増加などにより,最高水準に達している。 リスクや影響を意識せずに、電子メール、テキストメッセージ、ソーシャルメディアを通じて個人情報を交換する人が増えている。 自然言語処理(NLP)分野の研究者は、大量のデータがテキスト形式で交換されるため、テキストデータのプライベート情報を識別、分類、衛生化するためのツールと戦略の開発に集中している。 しかし, 検出手法の多くは, テキスト中の事前識別キーワードの存在にのみ依存しており, 特定の文脈における発話の基本的な意味の推測を無視している。 したがって、いくつかの状況では、これらのツールとアルゴリズムは開示を検知できず、結果が誤分類される。 本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。 我々の目標は、状況の文脈で、開示/非開示コンテンツの分類を改善することである。 我々は5400のツイートを含む人間の注釈付き地上真理データセットでモデルを訓練し、評価した。 その結果,提案モデルでは2つのタスクを共同で学習することで,77.4%の精度でツイートによるプライバシー開示を識別でき,その情報タイプを99%の印象的な精度で分類することができた。

The concern regarding users' data privacy has risen to its highest level due to the massive increase in communication platforms, social networking sites, and greater users' participation in online public discourse. An increasing number of people exchange private information via emails, text messages, and social media without being aware of the risks and implications. Researchers in the field of Natural Language Processing (NLP) have concentrated on creating tools and strategies to identify, categorize, and sanitize private information in text data since a substantial amount of data is exchanged in textual form. However, most of the detection methods solely rely on the existence of pre-identified keywords in the text and disregard the inference of the underlying meaning of the utterance in a specific context. Hence, in some situations, these tools and algorithms fail to detect disclosure, or the produced results are miss-classified. In this paper, we propose a multi-input, multi-output hybrid neural network which utilizes transfer-learning, linguistics, and metadata to learn the hidden patterns. Our goal is to better classify disclosure/non-discl osure content in terms of the context of situation. We trained and evaluated our model on a human-annotated ground truth dataset, containing a total of 5,400 tweets. The results show that the proposed model was able to identify privacy disclosure through tweets with an accuracy of 77.4% while classifying the information type of those tweets with an impressive accuracy of 99%, by jointly learning for two separate tasks.
翻訳日:2021-08-24 11:28:59 公開日:2021-08-20
# (参考訳) 分解二次数を用いたグラフスラム最適化のための幾何学的プリミティブの統一表現 [全文訳有]

Unified Representation of Geometric Primitives for Graph-SLAM Optimization Using Decomposed Quadrics ( http://arxiv.org/abs/2108.08957v1 )

ライセンス: CC BY 4.0
Weikun Zhen, Huai Yu, Yaoyu Hu, Sebastian Scherer(参考訳) SLAM問題では、高レベルのランドマークは、従来のポイントベースのランドマークと比較してコンパクトで情報的なマップを構築する可能性がある。 この研究は、点、線、平面、楕円形、シリンダー、円錐など、最も頻繁に使用される高水準幾何学的プリミティブのパラメータ化問題に焦点を当てている。 まず、これらの幾何学的プリミティブの統一表現を \emph{quadrics} を用いて提示し、一貫した簡潔な定式化をもたらす。 さらに,二次の対称的および縮退的性質を開示する二次の分解モデルについても検討する。 この分解に基づいて,グラフスラム問題の設定において,物理的に有意な二次因子を展開する。 最後に, シミュレーション実験において, 分解された定式化はベースラインパラメータ化よりも, 観測ノイズに対する効率とロバスト性が向上することを示した。 実世界の実験では、提案したバックエンドフレームワークがコンパクトで規則化された地図を構築できることが実証されている。

In Simultaneous Localization And Mapping (SLAM) problems, high-level landmarks have the potential to build compact and informative maps compared to traditional point-based landmarks. This work is focused on the parameterization problem of high-level geometric primitives that are most frequently used, including points, lines, planes, ellipsoids, cylinders, and cones. We first present a unified representation of those geometric primitives using \emph{quadrics} which yields a consistent and concise formulation. Then we further study a decomposed model of quadrics that discloses the symmetric and degenerated nature of quadrics. Based on the decomposition, we develop physically meaningful quadrics factors in the settings of the graph-SLAM problem. Finally, in simulation experiments, it is shown that the decomposed formulation has better efficiency and robustness to observation noises than baseline parameterizations. And in real-world experiments, the proposed back-end framework is demonstrated to be capable of building compact and regularized maps.
翻訳日:2021-08-23 23:29:42 公開日:2021-08-20
# (参考訳) Plug and Play - モデルに基づく強化学習 [全文訳有]

Plug and Play, Model-Based Reinforcement Learning ( http://arxiv.org/abs/2108.08960v1 )

ライセンス: CC BY 4.0
Majid Abdolshah, Hung Le, Thommen Karimpanal George, Sunil Gupta, Santu Rana, Svetha Venkatesh(参考訳) 強化学習アプローチのサンプル効率の一般化は、特に多くのコンポーネントを持つ複雑なシーンにおいて、常に課題となっている。 本稿では、既知のオブジェクトクラスから新しいオブジェクトをゼロショットで統合できるオブジェクトベースの表現であるPlug and Play Markov Decision Processesを紹介する。 これはグローバル遷移ダイナミクスを局所遷移関数の結合として表現することで実現され、それぞれシーン内の1つのアクティブなオブジェクトに関するものである。 オブジェクトクラスからの遷移ダイナミクスは事前学習可能であるため、新しい環境で使う準備ができている。 それぞれのアクティブオブジェクトにも報酬関数が付与される。 中央報酬関数がないため、関連するオブジェクトの報酬関数を更新するだけで、オブジェクトの追加や削除を効率的に行うことができる。 このような場合に報奨機能を適用するための新しい転校学習機構も提案されている。 実験により,様々なセットアップにおいてサンプル効率が達成できることが示される。

Sample-efficient generalisation of reinforcement learning approaches have always been a challenge, especially, for complex scenes with many components. In this work, we introduce Plug and Play Markov Decision Processes, an object-based representation that allows zero-shot integration of new objects from known object classes. This is achieved by representing the global transition dynamics as a union of local transition functions, each with respect to one active object in the scene. Transition dynamics from an object class can be pre-learnt and thus would be ready to use in a new environment. Each active object is also endowed with its reward function. Since there is no central reward function, addition or removal of objects can be handled efficiently by only updating the reward functions of objects involved. A new transfer learning mechanism is also proposed to adapt reward function in such cases. Experiments show that our representation can achieve sample-efficiency in a variety of set-ups.
翻訳日:2021-08-23 23:15:44 公開日:2021-08-20
# (参考訳) CloudShield: クラウドにおけるリアルタイム異常検出 [全文訳有]

CloudShield: Real-time Anomaly Detection in the Cloud ( http://arxiv.org/abs/2108.08977v1 )

ライセンス: CC BY 4.0
Zecheng He, Ruby B. Lee(参考訳) クラウドコンピューティングでは,不審な動作が自動異常検出システムによって検出できることが望ましい。 異常検出は過去にも研究されてきたが、クラウドコンピューティングでは未解決である。 課題は、クラウドサーバの通常の振る舞いを特徴づけること、良心と悪意のある異常(攻撃)を区別すること、誤報による警告疲労を防ぐことである。 CloudShieldは,クラウドコンピューティングの現実的で一般化可能なリアルタイム異常検出システムである。 cloudshieldは、さまざまなクラウドワークロードでトレーニング済みの一般的なディープラーニングモデルを使用して、正常な振る舞いを予測し、モデル再構成エラー分布を調べることで、リアルタイムかつ連続的な検出を行う。 異常が検出されると、警告疲労を軽減するため、cloudshieldは予測エラー分布を調べることで、良性プログラム、既知の攻撃、ゼロデイ攻撃を自動的に区別する。 提案するcloudshieldを代表的クラウドベンチマークで評価する。 評価の結果,モデル事前トレーニングを使用したCloudShieldは,幅広いクラウドワークロードに適用可能であることがわかった。 特に、CloudShieldは、最近提案された投機的実行攻撃、例えばSpectreやMeltdown攻撃をミリ秒で検出できる。 さらに、cloudshieldは既知の攻撃や潜在的なゼロデイ攻撃を良質なプログラムと正確に区別し、優先順位付けする。 これにより、誤報を最大99.0%減らすことができる。

In cloud computing, it is desirable if suspicious activities can be detected by automatic anomaly detection systems. Although anomaly detection has been investigated in the past, it remains unsolved in cloud computing. Challenges are: characterizing the normal behavior of a cloud server, distinguishing between benign and malicious anomalies (attacks), and preventing alert fatigue due to false alarms. We propose CloudShield, a practical and generalizable real-time anomaly and attack detection system for cloud computing. Cloudshield uses a general, pretrained deep learning model with different cloud workloads, to predict the normal behavior and provide real-time and continuous detection by examining the model reconstruction error distributions. Once an anomaly is detected, to reduce alert fatigue, CloudShield automatically distinguishes between benign programs, known attacks, and zero-day attacks, by examining the prediction error distributions. We evaluate the proposed CloudShield on representative cloud benchmarks. Our evaluation shows that CloudShield, using model pretraining, can apply to a wide scope of cloud workloads. Especially, we observe that CloudShield can detect the recently proposed speculative execution attacks, e.g., Spectre and Meltdown attacks, in milliseconds. Furthermore, we show that CloudShield accurately differentiates and prioritizes known attacks, and potential zero-day attacks, from benign programs. Thus, it significantly reduces false alarms by up to 99.0%.
翻訳日:2021-08-23 23:04:16 公開日:2021-08-20
# (参考訳) 変分推論を用いたショット動作認識 [全文訳有]

Few Shot Activity Recognition Using Variational Inference ( http://arxiv.org/abs/2108.08990v1 )

ライセンス: CC BY 4.0
Neeraj Kumar, Siddhansh Narang(参考訳) ここ数年、いくつかのラベル付き例しか持たない新しいクラスを認識できるモデルを学ぶことは驚くべき進歩を遂げている。 アクション認識のためのFSL(Few-shot Learning)は、トレーニングデータの少数のインスタンスで表される新しいアクションカテゴリを認識する上で難しい課題である。 本稿では,ショット動作認識の少ない新しい変分推論型アーキテクチャフレームワーク(hf-ar)を提案する。 本フレームワークは,体積保存型世帯フローを活用し,新しいクラスの柔軟な後方分布を学習する。 これにより、人間の活動認識に対する最先端のアプローチに比べて優れたパフォーマンスが得られる。 アプローチはベースモデルとアダプタモデルで構成される。 私たちのアーキテクチャはベースモデルとアダプタモデルで構成されています。 ベースモデルは見たクラスでトレーニングされ、入力されたビデオから抽出された空間的および時間的洞察を表す埋め込みを計算します。 Resnet-152とLSTMベースのエンコーダデコーダモデルの組み合わせ。 アダプタモデルは、少数のショットアプローチで高い精度を与える柔軟な後方分布を計算するために、一連の家計変換を適用する。 UCF101、HMDB51、Something-V2の3つのよく知られたデータセットに対する大規模な実験は、1ショットと5ショットの分類において、RGBフレームシーケンスのみを入力として使用する最先端のいくつかのショットアプローチと比較して、類似またはより良いパフォーマンスを示す。 我々の知識を最大限に活用するために、我々はまず、後方分布のフルランク共分散行列を捉えるために、世帯変換とともに変分推論を初めて探求し、活動認識におけるわずかなショットラーニングを行う。

There has been a remarkable progress in learning a model which could recognise novel classes with only a few labeled examples in the last few years. Few-shot learning (FSL) for action recognition is a challenging task of recognising novel action categories which are represented by few instances in the training data. We propose a novel variational inference based architectural framework (HF-AR) for few shot activity recognition. Our framework leverages volume-preserving Householder Flow to learn a flexible posterior distribution of the novel classes. This results in better performance as compared to state-of-the-art few shot approaches for human activity recognition. approach consists of base model and an adapter model. Our architecture consists of a base model and an adapter model. The base model is trained on seen classes and it computes an embedding that represent the spatial and temporal insights extracted from the input video, e.g. combination of Resnet-152 and LSTM based encoder-decoder model. The adapter model applies a series of Householder transformations to compute a flexible posterior distribution that lends higher accuracy in the few shot approach. Extensive experiments on three well-known datasets: UCF101, HMDB51 and Something-Something- V2, demonstrate similar or better performance on 1-shot and 5-shot classification as compared to state-of-the-art few shot approaches that use only RGB frame sequence as input. To the best of our knowledge, we are the first to explore variational inference along with householder transformations to capture the full rank covariance matrix of posterior distribution, for few shot learning in activity recognition.
翻訳日:2021-08-23 22:36:04 公開日:2021-08-20
# (参考訳) セマンティック・セグメンテーションされた深度画像からの室内シーン生成 [全文訳有]

Indoor Scene Generation from a Collection of Semantic-Segmented Depth Images ( http://arxiv.org/abs/2108.09022v1 )

ライセンス: CC BY 4.0
Ming-Jia Yang and Yu-Xiao Guo and Bin Zhou and Xin Tong(参考訳) 本稿では,異なる未知のシーンから捉えた,意味的セグメントの奥行き画像の集合から学習した生成モデルを用いて,室内3次元シーンを作成する手法を提案する。 特定の大きさの部屋が与えられた場合、ランダムにサンプリングされた潜伏コードから室内の3Dオブジェクトを自動的に生成する。 室内シーンのタイプ,位置,その他の特性を室内で表現し,完全な室内シーンの集合からシーンレイアウトを学習する既存の方法とは異なり,本手法は室内シーンを3次元意味的シーンボリュームとしてモデル化し,2.5次元部分的な3次元シーンの集合から体積生成逆数ネットワーク(GAN)を学習する。 この目的のために,生成した3次元意味シーンボリュームをセマンティックセグメンテーション深度画像に投影するために微分可能な投影層を適用し,2.5d意味セグメンテーション深度画像から完全な3次元シーンボリュームを学習する新しいマルチビュー判別器を設計する。 既存の手法と比較して,本手法は3次元シーンのモデリングと取得の作業量を効率的に削減するだけでなく,より優れたオブジェクト形状と詳細なレイアウトを生成する。 本手法は屋内シーンの異なるデータセットを用いて評価し,その利点を示す。 また,実シーンのRGB画像から推定したセマンティックセグメンテーション深度画像から室内3次元シーンを生成する手法を拡張した。

We present a method for creating 3D indoor scenes with a generative model learned from a collection of semantic-segmented depth images captured from different unknown scenes. Given a room with a specified size, our method automatically generates 3D objects in a room from a randomly sampled latent code. Different from existing methods that represent an indoor scene with the type, location, and other properties of objects in the room and learn the scene layout from a collection of complete 3D indoor scenes, our method models each indoor scene as a 3D semantic scene volume and learns a volumetric generative adversarial network (GAN) from a collection of 2.5D partial observations of 3D scenes. To this end, we apply a differentiable projection layer to project the generated 3D semantic scene volumes into semantic-segmented depth images and design a new multiple-view discriminator for learning the complete 3D scene volume from 2.5D semantic-segmented depth images. Compared to existing methods, our method not only efficiently reduces the workload of modeling and acquiring 3D scenes for training, but also produces better object shapes and their detailed layouts in the scene. We evaluate our method with different indoor scene datasets and demonstrate the advantages of our method. We also extend our method for generating 3D indoor scenes from semantic-segmented depth images inferred from RGB images of real scenes.
翻訳日:2021-08-23 22:24:17 公開日:2021-08-20
# (参考訳) autolay: 自動運転のためのアモーダルレイアウト推定のベンチマーク [全文訳有]

AutoLay: Benchmarking amodal layout estimation for autonomous driving ( http://arxiv.org/abs/2108.09047v1 )

ライセンス: CC BY 4.0
Kaustubh Mani, N. Sai Shankar, Krishna Murthy Jatavallabhula and K. Madhava Krishna(参考訳) 単眼カメラから撮影した画像や映像が与えられた場合、アモーダルレイアウト推定は鳥の視線における意味や占有度を予測するタスクである。 amodalという用語は、シーン内のエンティティが画像空間に隠されたり、取り除かれたりする理由でもある。 この問題にいくつかの取り組みが取り組んできたが、タスク仕様、データセット、評価プロトコルの標準化が欠如している。 モノクロ画像からのアモーダルレイアウト推定のためのデータセットとベンチマークであるAutoLayを用いて,これらのギャップに対処する。 AutoLayは、KITTIとArgoverseという2つの一般的なデータセットからイメージを駆動する。 レーン,歩道,車両などの細かな属性に加えて,意味的にアノテートされた3dポイントクラウドも提供する。 いくつかのベースラインと最先端アプローチを実装し、データとコードを解放します。

Given an image or a video captured from a monocular camera, amodal layout estimation is the task of predicting semantics and occupancy in bird's eye view. The term amodal implies we also reason about entities in the scene that are occluded or truncated in image space. While several recent efforts have tackled this problem, there is a lack of standardization in task specification, datasets, and evaluation protocols. We address these gaps with AutoLay, a dataset and benchmark for amodal layout estimation from monocular images. AutoLay encompasses driving imagery from two popular datasets: KITTI and Argoverse. In addition to fine-grained attributes such as lanes, sidewalks, and vehicles, we also provide semantically annotated 3D point clouds. We implement several baselines and bleeding edge approaches, and release our data and code.
翻訳日:2021-08-23 22:09:29 公開日:2021-08-20
# (参考訳) somesci - a 5 star open data gold standard knowledge graph of software mentions in scientific article [全文訳有]

SoMeSci- A 5 Star Open Data Gold Standard Knowledge Graph of Software Mentions in Scientific Articles ( http://arxiv.org/abs/2108.09070v1 )

ライセンス: CC BY 4.0
David Schindler, Felix Bensmann, Stefan Dietze and Frank Kr\"uger(参考訳) 科学的調査で使用されるソフトウェアに関する知識は、例えばデータ処理に関わる証明と方法の理解を可能にするために、いくつかの理由から重要である。 しかし、ソフトウェアは通常、正式に言及されるのではなく、調査の学術的な説明の中で非公式に言及され、自動的な情報抽出と曖昧さの解消の必要性が高まる。 信頼できる根拠データがないことを考慮し、科学論文におけるソフトウェア言及のゴールド標準知識グラフであるsomesci(software mentions in science)を提示する。 1367年のpubmed centralの記事で言及された3756のソフトウェアのうち、高品質なアノテーション(irr: $\kappa{=}.82$)を含んでいる。 ソフトウェアについての平凡な言及に加えて、バージョン、開発者、URL、引用などの追加情報のための関係ラベルも提供しています。 さらに,アプリケーションやプラグイン,プログラミング環境といった異なるタイプと,使用や生成といったさまざまなタイプの言及を区別する。 私たちの知る限り、SoMeSciは科学論文におけるソフトウェア言及に関する最も包括的なコーパスであり、名前付きエンティティ認識、関係抽出、エンティティの曖昧さ、エンティティリンクのためのトレーニングサンプルを提供します。 最後に、潜在的なユースケースをスケッチし、ベースライン結果を提供する。

Knowledge about software used in scientific investigations is important for several reasons, for instance, to enable an understanding of provenance and methods involved in data handling. However, software is usually not formally cited, but rather mentioned informally within the scholarly description of the investigation, raising the need for automatic information extraction and disambiguation. Given the lack of reliable ground truth data, we present SoMeSci (Software Mentions in Science) a gold standard knowledge graph of software mentions in scientific articles. It contains high quality annotations (IRR: $\kappa{=}.82$) of 3756 software mentions in 1367 PubMed Central articles. Besides the plain mention of the software, we also provide relation labels for additional information, such as the version, the developer, a URL or citations. Moreover, we distinguish between different types, such as application, plugin or programming environment, as well as different types of mentions, such as usage or creation. To the best of our knowledge, SoMeSci is the most comprehensive corpus about software mentions in scientific articles, providing training samples for Named Entity Recognition, Relation Extraction, Entity Disambiguation, and Entity Linking. Finally, we sketch potential use cases and provide baseline results.
翻訳日:2021-08-23 21:58:07 公開日:2021-08-20
# (参考訳) kompetenzerwerbsf\&q uot;orderung durch e-assessment: individuelle kompetenzerfassung am beispiel des fachs mathematik [全文訳有]

Kompetenzerwerbsf\&q uot;orderung durch E-Assessment: Individuelle Kompetenzerfassung am Beispiel des Fachs Mathematik ( http://arxiv.org/abs/2108.09072v1 )

ライセンス: CC BY 4.0
Roy Meissner, Claudia Ruhland, Katja Ihsberner(参考訳) 本稿では,マイクロアセスメントとe-アセスメントを数学的領域に応用して,獲得した個々のスキルや不足したスキルを自動的に決定し,これらの情報に基づいて,ソフトウェア支援プロセスにおける不足スキルや追加スキルの獲得を指導する概念について述べる。 この概念に必要なモデルは、デジタルで作成され、注釈付きのe-assesment item pool、トピックを含むドメインのデジタルモデリング、必要な能力、導入的および連続的な材料、およびデジタル個別モデルであり、コンピテンシーを確実に記録し、それらの損失に関する側面を統合することができる。

In this article, we present a concept of how micro- and e-assessments can be used for the mathematical domain to automatically determine acquired and missing individual skills and, based on these information, guide individuals to acquire missing or additional skills in a software-supported process. The models required for this concept are a digitally prepared and annotated e-assessment item pool, a digital modeling of the domain that includes topics, necessary competencies, as well as introductory and continuative material, as well as a digital individual model, which can reliably record competencies and integrates aspects about the loss of such.
翻訳日:2021-08-23 21:43:49 公開日:2021-08-20
# (参考訳) 共同SARとマルチスペクトル土地被覆分類のための自己教師付き学習 [全文訳有]

Self-supervised learning for joint SAR and multispectral land cover classification ( http://arxiv.org/abs/2108.09075v1 )

ライセンス: CC BY 4.0
Antonio Montanaro, Diego Valsesia, Giulia Fracastoro, Enrico Magli(参考訳) ラベル付きデータが少ない場合でも、効果的なモデルを構築する能力によって、自己教師付き学習技術が人気を集めている。 本稿では,マルチスペクトルと合成開口レーダ画像の融合など,マルチチャネルモデルの自己教師型トレーニングのためのフレームワークと具体的なタスクを提案する。 提案手法は,土地被覆分類のラベルと相関する学習機能に非常に有効であることを示す。 これは、感覚のモダリティ間のギャップを埋めることを促進し、入力のスペクトル特性を利用する事前訓練タスクの明示的な設計によって実現される。 限定ラベルが利用可能であれば,sarを用いた土地被覆分類のための自己教師付き事前学習と教師付き微調整を用いることで,純粋教師付き学習,imagenetでのトレーニングからの初期化,近年のコンピュータビジョンタスクに対する自己教師付きアプローチといった従来のアプローチを上回っている。

Self-supervised learning techniques are gaining popularity due to their capability of building models that are effective, even when scarce amounts of labeled data are available. In this paper, we present a framework and specific tasks for self-supervised training of multichannel models, such as the fusion of multispectral and synthetic aperture radar images. We show that the proposed self-supervised approach is highly effective at learning features that correlate with the labels for land cover classification. This is enabled by an explicit design of pretraining tasks which promotes bridging the gaps between sensing modalities and exploiting the spectral characteristics of the input. When limited labels are available, using the proposed self-supervised pretraining and supervised finetuning for land cover classification with SAR and multispectral data outperforms conventional approaches such as purely supervised learning, initialization from training on Imagenet and recent self-supervised approaches for computer vision tasks.
翻訳日:2021-08-23 21:18:49 公開日:2021-08-20
# (参考訳) PASTO:レコメンデーションシステムにおける戦略的パラメータ最適化 -確率は決定論的よりも優れている [全文訳有]

PASTO: Strategic Parameter Optimization in Recommendation Systems -- Probabilistic is Better than Deterministic ( http://arxiv.org/abs/2108.09076v1 )

ライセンス: CC BY 4.0
Weicong Ding, Hanlin Tang, Jingshuo Feng, Lei Yuan, Sen Yang, Guangxu Yang, Jie Zheng, Jing Wang, Qiang Su, Dong Zheng, Xuezhong Qiu, Yongqi Liu, Yuxuan Chen, Yang Liu, Chao Song, Dongying Kong, Kai Ren, Peng Jiang, Qiao Lian, Ji Liu(参考訳) 現実世界のレコメンデーションシステムは2つのフェーズから構成されることが多い。 第1フェーズでは、複数の予測モデルが、異なる即時ユーザアクションの確率を生成する。 第2フェーズでは、これらの予測は一連の"戦略パラメータ"に従って集約され、より長いユーザのエンゲージメント、収益の可能性の向上、コミュニティ/ネットワーク間インタラクションなど、さまざまなビジネス目標のセットに適合する。 正確な予測モデルの構築に加えて、この一連の「戦略パラメータ」を最適化し、一次目標を最適化し、二次ガードレールが損傷を受けないようにすることも重要である。 本研究は,複数の制約付き目標を持つ場合において,確率的戦略パラメータレジームが1つの決定論的パラメータを見つける標準的なレジームよりも優れた価値を得られることを発見した。 新しい確率的体系は、戦略パラメータの選択よりも最適な分布を学習し、各ユーザがプラットフォームを訪れたときに、その分布から1つの戦略パラメータをサンプリングすることである。 最適確率解を追求するために,不偏確率勾配が利用できない確率的構成最適化問題へと問題を定式化する。 当社のアプローチは、数億人の日々のユーザを抱える人気のあるソーシャルネットワークプラットフォームに適用され、推奨タスクにおけるユーザエンゲージメントの+0.22%、最適な決定論的パラメータ戦略を用いた広告最適化シナリオにおける収益の+1.7%を達成する。

Real-world recommendation systems often consist of two phases. In the first phase, multiple predictive models produce the probability of different immediate user actions. In the second phase, these predictions are aggregated according to a set of 'strategic parameters' to meet a diverse set of business goals, such as longer user engagement, higher revenue potential, or more community/network interactions. In addition to building accurate predictive models, it is also crucial to optimize this set of 'strategic parameters' so that primary goals are optimized while secondary guardrails are not hurt. In this setting with multiple and constrained goals, this paper discovers that a probabilistic strategic parameter regime can achieve better value compared to the standard regime of finding a single deterministic parameter. The new probabilistic regime is to learn the best distribution over strategic parameter choices and sample one strategic parameter from the distribution when each user visits the platform. To pursue the optimal probabilistic solution, we formulate the problem into a stochastic compositional optimization problem, in which the unbiased stochastic gradient is unavailable. Our approach is applied in a popular social network platform with hundreds of millions of daily users and achieves +0.22% lift of user engagement in a recommendation task and +1.7% lift in revenue in an advertising optimization scenario comparing to using the best deterministic parameter strategy.
翻訳日:2021-08-23 20:58:36 公開日:2021-08-20
# (参考訳) 残差チャネル事前指導による構造保存レーダリング [全文訳有]

Structure-Preserving Deraining with Residue Channel Prior Guidance ( http://arxiv.org/abs/2108.09079v1 )

ライセンス: CC BY-SA 4.0
Qiaosi Yi, Juncheng Li, Qinyan Dai, Faming Fang, Guixu Zhang, and Tieyong Zeng(参考訳) 降雨が画像の可視性を著しく低下させ、画像の認識と解析に影響を及ぼすため、多くの高レベルコンピュータビジョンタスクにおいて単一画像のレーディングは重要である。 近年,降雨除去のための多くのCNN手法が提案されている。 これらの手法は雨害の一部を除去することができるが、現実のシナリオに適応し、透明で正確な構造で高品質な無雨画像を復元することは困難である。 そこで本研究では,RCP ガイダンスを用いた構造保存評価ネットワーク (SPDNet) を提案する。 SPDNetは、RCPの指導のもと、澄んだ正確な構造を持つ高品質な無雨画像を直接生成するが、降雨仮定には依存しない。 具体的には,画像のRCPには降雨画像よりも正確な構造情報が含まれていることがわかった。 そこで我々は,無雨画像の構造情報を保護するために,このネットワークを導入した。 一方,雨画像の背景情報を学習するためのバックボーンとして,wmlm(wavelet-based multi-level module)を提案し,rcp情報を活用した対話型核融合モジュール(ifm)を提案する。 また,rcpの精度を徐々に向上させ,その結果を進行経路に改良するための反復的指導戦略を提案する。 合成と実世界の両方のデータセットに対する大規模な実験結果から,提案したモデルが新たな最先端の結果を得られることが示された。 コード:https://github.com/ Joyies/SPDNet

Single image deraining is important for many high-level computer vision tasks since the rain streaks can severely degrade the visibility of images, thereby affecting the recognition and analysis of the image. Recently, many CNN-based methods have been proposed for rain removal. Although these methods can remove part of the rain streaks, it is difficult for them to adapt to real-world scenarios and restore high-quality rain-free images with clear and accurate structures. To solve this problem, we propose a Structure-Preserving Deraining Network (SPDNet) with RCP guidance. SPDNet directly generates high-quality rain-free images with clear and accurate structures under the guidance of RCP but does not rely on any rain-generating assumptions. Specifically, we found that the RCP of images contains more accurate structural information than rainy images. Therefore, we introduced it to our deraining network to protect structure information of the rain-free image. Meanwhile, a Wavelet-based Multi-Level Module (WMLM) is proposed as the backbone for learning the background information of rainy images and an Interactive Fusion Module (IFM) is designed to make full use of RCP information. In addition, an iterative guidance strategy is proposed to gradually improve the accuracy of RCP, refining the result in a progressive path. Extensive experimental results on both synthetic and real-world datasets demonstrate that the proposed model achieves new state-of-the-art results. Code: https://github.com/J oyies/SPDNet
翻訳日:2021-08-23 20:36:34 公開日:2021-08-20
# (参考訳) Fastformer: 追加アテンションは必要なだけ [全文訳有]

Fastformer: Additive Attention is All You Need ( http://arxiv.org/abs/2108.09084v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) Transformerは、テキスト理解のための強力なモデルである。 しかし、入力シーケンス長の2次複雑さのため、非効率である。 変圧器の加速には多くの方法があるが、長いシーケンスでは効率が悪いか、十分に効果的ではない。 本稿では,付加的注意に基づく効率的な変圧器モデルであるfastformerを提案する。 Fastformerでは、トークン間のペアワイズ相互作用をモデル化する代わりに、まずグローバルコンテキストをモデル化するために追加アテンション機構を使用し、さらにグローバルコンテキスト表現との相互作用に基づいて各トークン表現を変換する。 このように、fastformerは線形複雑性を伴う効果的なコンテキストモデリングを実現することができる。 5つのデータセットに関する広範囲な実験により、fastformerは既存の多くのトランスフォーマーモデルよりもはるかに効率的であり、同時に、同等あるいはそれ以上の長いテキストモデリング性能を達成することができる。

Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.
翻訳日:2021-08-23 20:22:40 公開日:2021-08-20
# (参考訳) DL-Traff:都市交通予測のためのディープラーニングモデルの調査とベンチマーク [全文訳有]

DL-Traff: Survey and Benchmark of Deep Learning Models for Urban Traffic Prediction ( http://arxiv.org/abs/2108.09091v1 )

ライセンス: CC BY 4.0
Renhe Jiang, Du Yin, Zhaonan Wang, Yizhuo Wang, Jiewen Deng, Hangchen Liu, Zekun Cai, Jinliang Deng, Xuan Song, Ryosuke Shibasaki(参考訳) 今日では、IoT(IoT of Things)とCPS(Cyber-Physical Systems)技術の急速な発展に伴い、携帯電話、カーナビゲーションシステム、交通センサーから大規模な時空間データが発生している。 このようなデータに最先端のディープラーニング技術を活用することで、都市交通予測はAIとインテリジェントトランスポーテーションシステムコミュニティに大きな注目を集めている。 問題は3次元テンソル(T, N, C)で一様にモデル化することができ、Tは全時間ステップを表し、Nは空間領域(メッシュ格子またはグラフノード)のサイズを表し、Cは情報チャネルを表す。 特定のモデリング戦略に従って、最先端のディープラーニングモデルは、グリッドベース、グラフベース、多変量時系列モデルという3つのカテゴリに分けられる。 本研究では,まず,ディープトラヒックモデルと広く使用されているデータセットを総合的にレビューし,その性能を同じ設定とメトリクスで総合的に評価する標準ベンチマークを構築した。 私たちの研究であるDL-Traffは、TensorFlowとPyTorchの2つの人気のあるディープラーニングフレームワークで実装されています。 DL-Traffでは、時空間データ分析に関心のある研究者に有用なリソースを提供したいと思っています。

Nowadays, with the rapid development of IoT (Internet of Things) and CPS (Cyber-Physical Systems) technologies, big spatiotemporal data are being generated from mobile phones, car navigation systems, and traffic sensors. By leveraging state-of-the-art deep learning technologies on such data, urban traffic prediction has drawn a lot of attention in AI and Intelligent Transportation System community. The problem can be uniformly modeled with a 3D tensor (T, N, C), where T denotes the total time steps, N denotes the size of the spatial domain (i.e., mesh-grids or graph-nodes), and C denotes the channels of information. According to the specific modeling strategy, the state-of-the-art deep learning models can be divided into three categories: grid-based, graph-based, and multivariate time-series models. In this study, we first synthetically review the deep traffic models as well as the widely used datasets, then build a standard benchmark to comprehensively evaluate their performances with the same settings and metrics. Our study named DL-Traff is implemented with two most popular deep learning frameworks, i.e., TensorFlow and PyTorch, which is already publicly available as two GitHub repositories https://github.com/d eepkashiwa20/DL-Traf f-Grid and https://github.com/d eepkashiwa20/DL-Traf f-Graph. With DL-Traff, we hope to deliver a useful resource to researchers who are interested in spatiotemporal data analysis.
翻訳日:2021-08-23 20:09:50 公開日:2021-08-20
# (参考訳) 階層型無線ネットワークにおけるモビリティアウェアクラスタフェデレーション学習 [全文訳有]

Mobility-Aware Cluster Federated Learning in Hierarchical Wireless Networks ( http://arxiv.org/abs/2108.09103v1 )

ライセンス: CC BY 4.0
Chenyuan Feng, Howard H. Yang, Deshun Hu, Zhiwei Zhao, Tony Q. S. Quek, and Geyong Min(参考訳) 無線ネットワークにおける連合学習(fl)アルゴリズムの実装は、幅広い注目を集めている。 しかし,ユーザモビリティが学習性能に与える影響を考察した研究は少ない。 この研究ギャップを埋めるために、まず、モバイルユーザーが複数のエッジアクセスポイントを移動できる無線ネットワークにおける階層的フェデレーション学習(HFL)アルゴリズムを特徴付ける理論モデルを構築し、不整合FLトレーニングを補完する。 次に,ユーザの移動性を考慮したHFLの収束解析を行う。 分析の結果,HFLの学習性能はハイモービルユーザで著しく低下していることがわかった。 そして、この学習性能の低下は、少数の参加者と、ユーザのローカルデータ間での大規模なデータ分散の相違によって悪化する。 これらの問題を回避するために,アクセス機構,ローカル更新ルール,モデル集約方式を再設計し,モビリティ対応クラスタフェデレーション学習(MACFL)アルゴリズムを提案する。 最後に,HFLとMACFLの学習性能を評価する実験を行った。 その結果,MACFLは,非独立・同一分布データを持つユーザの場合,モビリティが高いユーザの場合,少数のユーザの場合の3つの異なるケースにおいて,学習性能を向上させることができることがわかった。

Implementing federated learning (FL) algorithms in wireless networks has garnered a wide range of attention. However, few works have considered the impact of user mobility on the learning performance. To fill this research gap, firstly, we develop a theoretical model to characterize the hierarchical federated learning (HFL) algorithm in wireless networks where the mobile users may roam across multiple edge access points, leading to incompletion of inconsistent FL training. Secondly, we provide the convergence analysis of HFL with user mobility. Our analysis proves that the learning performance of HFL deteriorates drastically with highly-mobile users. And this decline in the learning performance will be exacerbated with small number of participants and large data distribution divergences among local data of users. To circumvent these issues, we propose a mobility-aware cluster federated learning (MACFL) algorithm by redesigning the access mechanism, local update rule and model aggregation scheme. Finally, we provide experiments to evaluate the learning performance of HFL and our MACFL. The results show that our MACFL can enhance the learning performance, especially for three different cases, namely, the case of users with non-independent and identical distribution data, the case of users with high mobility, and the cases with a small number of users.
翻訳日:2021-08-23 19:49:22 公開日:2021-08-20
# (参考訳) airbert: 視覚言語ナビゲーションのためのドメイン内事前トレーニング

Airbert: In-domain Pretraining for Vision-and-Language Navigation ( http://arxiv.org/abs/2108.09105v1 )

ライセンス: CC BY 4.0
Pierre-Louis Guhur, Makarand Tapaswi, Shizhe Chen, Ivan Laptev, Cordelia Schmid(参考訳) ビジョン・アンド・ランゲージナビゲーション(VLN)は、エンボディエージェントが自然言語命令を使って現実的な環境をナビゲートできるようにすることを目的としている。 ドメイン固有のトレーニングデータの不足や画像や言語入力の多様性の高さを考えると、VLNエージェントの未知環境への一般化は依然として困難である。 近年, 一般化のための事前学習が検討されているが, 汎用画像キャプチャーデータセットや既存の小型VLN環境の利用は最適ではない。 本稿では,大規模かつ多様なドメイン内VLNデータセットであるBnBを紹介する。 私たちはまず、オンラインレンタルマーケットプレイスから何十万ものリストから画像キャプチャ(IC)ペアを収集します。 次に、ICペアを用いて、数百万のVLNパス命令(PI)ペアを生成する自動戦略を提案する。 さらに,PIペア内の時間秩序の学習を改善するシャッフル損失を提案する。 差別的かつ生成的な設定に適応可能なBnBプレトレーニングのAirbertモデルを使用し、Room-to-Room(R2R)ナビゲーションとRemote Referring Expression(REVERIE)ベンチマークの最先端性を示す。 さらに、ドメイン内事前トレーニングは、いくつかの住宅からのVLN命令でのみモデルをトレーニングする、挑戦的な数ショットのVLN評価において、性能を著しく向上させる。

Vision-and-language navigation (VLN) aims to enable embodied agents to navigate in realistic environments using natural language instructions. Given the scarcity of domain-specific training data and the high diversity of image and language inputs, the generalization of VLN agents to unseen environments remains challenging. Recent methods explore pretraining to improve generalization, however, the use of generic image-caption datasets or existing small-scale VLN environments is suboptimal and results in limited improvements. In this work, we introduce BnB, a large-scale and diverse in-domain VLN dataset. We first collect image-caption (IC) pairs from hundreds of thousands of listings from online rental marketplaces. Using IC pairs we next propose automatic strategies to generate millions of VLN path-instruction (PI) pairs. We further propose a shuffling loss that improves the learning of temporal order inside PI pairs. We use BnB pretrain our Airbert model that can be adapted to discriminative and generative settings and show that it outperforms state of the art for Room-to-Room (R2R) navigation and Remote Referring Expression (REVERIE) benchmarks. Moreover, our in-domain pretraining significantly increases performance on a challenging few-shot VLN evaluation, where we train the model only on VLN instructions from a few houses.
翻訳日:2021-08-23 19:13:40 公開日:2021-08-20
# (参考訳) 画像に基づくカメラ定位のための連続学習 [全文訳有]

Continual Learning for Image-Based Camera Localization ( http://arxiv.org/abs/2108.09112v1 )

ライセンス: CC BY 4.0
Shuzhe Wang and Zakaria Laskar and Iaroslav Melekhov and Xiaotian Li and Juho Kannala(参考訳) 拡張現実、自動運転、ロボット工学など、いくつかの新興技術にとって、視覚的ローカライゼーションは重要な要素である。 深層ニューラルネットワークを用いた入力画像からのカメラポーズ/3Dシーン座標の直接回帰は大きな可能性を示している。 しかし、これらの手法はトレーニング中にすべてのシーンが同時に利用可能な静止データ分布を仮定する。 本稿では,連続的な学習環境における視覚的ローカライゼーションの問題にアプローチする。 以上の結果から,非定常データも分類領域と同様,深層ネットワークにおいて視覚的局所化のための破滅的な忘れを生じさせることが示された。 この問題に対処するために,固定バッファからのイメージの保存と再生に基づく強力なベースラインを提案する。 さらに,バッファリングプロセスにおける既存のサンプリング戦略を視覚的ローカライゼーションの問題に適用する,カバレッジスコア(Buff-CS)に基づく新しいサンプリング手法を提案する。 その結果,2つの難易度データセット – 7scene,12scene,19sce ne – において,標準バッファリング法よりも一貫性のある改善が得られた。

For several emerging technologies such as augmented reality, autonomous driving and robotics, visual localization is a critical component. Directly regressing camera pose/3D scene coordinates from the input image using deep neural networks has shown great potential. However, such methods assume a stationary data distribution with all scenes simultaneously available during training. In this paper, we approach the problem of visual localization in a continual learning setup -- whereby the model is trained on scenes in an incremental manner. Our results show that similar to the classification domain, non-stationary data induces catastrophic forgetting in deep networks for visual localization. To address this issue, a strong baseline based on storing and replaying images from a fixed buffer is proposed. Furthermore, we propose a new sampling method based on coverage score (Buff-CS) that adapts the existing sampling strategies in the buffering process to the problem of visual localization. Results demonstrate consistent improvements over standard buffering methods on two challenging datasets -- 7Scenes, 12Scenes, and also 19Scenes by combining the former scenes.
翻訳日:2021-08-23 19:12:36 公開日:2021-08-20
# (参考訳) 適応ユニバーサルトランスを用いた意味コミュニケーション [全文訳有]

Semantic Communication with Adaptive Universal Transformer ( http://arxiv.org/abs/2108.09119v1 )

ライセンス: CC BY 4.0
Qingyang Zhou, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, and Honggang Zhang(参考訳) ディープラーニング(DL)の開発により、自然言語処理(NLP)によって、大量の言語テキストを分析し、理解することが可能になった。 そこで我々は,NLPの助けを借りて,雑音の多いチャネル上での協調的セマンティック・ソースとチャネル・コーディングによるセマンティック・コミュニケーションを実現する。 しかし、この目的を実現するための既存の方法は、各文に含まれる意味情報の差を無視しながら、NLPの固定変換器を使用することである。 そこで本稿では,ユニバーサルトランスフォーマーを用いた新しい意味コミュニケーションシステムを提案する。 従来の変圧器と比較して、ユニバーサル変圧器に適応循環機構を導入する。 循環機構の導入により、新しい意味コミュニケーションシステムは、異なる意味情報を持つ文を送信し、様々なチャンネル条件下でより優れたエンドツーエンド性能を実現することができる。

With the development of deep learning (DL), natural language processing (NLP) makes it possible for us to analyze and understand a large amount of language texts. Accordingly, we can achieve a semantic communication in terms of joint semantic source and channel coding over a noisy channel with the help of NLP. However, the existing method to realize this goal is to use a fixed transformer of NLP while ignoring the difference of semantic information contained in each sentence. To solve this problem, we propose a new semantic communication system based on Universal Transformer. Compared with the traditional transformer, an adaptive circulation mechanism is introduced in the Universal Transformer. Through the introduction of the circulation mechanism, the new semantic communication system can be more flexible to transmit sentences with different semantic information, and achieve better end-to-end performance under various channel conditions.
翻訳日:2021-08-23 18:56:00 公開日:2021-08-20
# (参考訳) 探索空間のクラスタリング解析からの教訓:NAS初期化へのセントロイド的アプローチ [全文訳有]

Lessons from the Clustering Analysis of a Search Space: A Centroid-based Approach to Initializing NAS ( http://arxiv.org/abs/2108.09126v1 )

ライセンス: CC BY 4.0
Kalifou Rene Traore, Andr\'es Camero, Xiao Xiang Zhu(参考訳) ニューラルアーキテクチャサーチ(NAS)の研究は、より効率的で低コストな手法を設計することを目的としたアルゴリズム開発に多くの努力が注がれている。 しかしながら,これらの手法の初期化に関する調査は依然として少なく,現在,ほとんどのNAS手法は探索に先立って情報を取得するため,確率的初期化手順に依存している。 しかし、最近のNASベンチマークにより、低計算リソースのプロトタイピングが可能になった。 本研究では、NASベンチマークの可用性を活用し、データ駆動初期化手法を用いてNASアルゴリズムを高速化することを提案する。 特に,二段階法を提案する。 まず、探索空間の校正クラスタリング解析を行う。 次に、センチロイドを抽出してNASアルゴリズムを初期化する。 我々はNAS-bench-101の進化アルゴリズムであるAging Evolutionを用いて提案手法を検証した。 その結果,ランダム初期化と比較して,より高速な収束と最終解の性能向上が達成された。

Lots of effort in neural architecture search (NAS) research has been dedicated to algorithmic development, aiming at designing more efficient and less costly methods. Nonetheless, the investigation of the initialization of these techniques remain scare, and currently most NAS methodologies rely on stochastic initialization procedures, because acquiring information prior to search is costly. However, the recent availability of NAS benchmarks have enabled low computational resources prototyping. In this study, we propose to accelerate a NAS algorithm using a data-driven initialization technique, leveraging the availability of NAS benchmarks. Particularly, we proposed a two-step methodology. First, a calibrated clustering analysis of the search space is performed. Second, the centroids are extracted and used to initialize a NAS algorithm. We tested our proposal using Aging Evolution, an evolutionary algorithm, on NAS-bench-101. The results show that, compared to a random initialization, a faster convergence and a better performance of the final solution is achieved.
翻訳日:2021-08-23 18:47:07 公開日:2021-08-20
# (参考訳) tabgnn: 表データ予測のための多重グラフニューラルネットワーク [全文訳有]

TabGNN: Multiplex Graph Neural Network for Tabular Data Prediction ( http://arxiv.org/abs/2108.09127v1 )

ライセンス: CC0 1.0
Xiawei Guo, Yuhan Quan, Huan Zhao, Quanming Yao, Yong Li, Weiwei Tu(参考訳) タブラルデータ予測(TDP)は最も一般的な産業応用の1つであり、予測性能を向上させるために様々な手法が設計されている。 しかし、既存の作品は機能的な相互作用に重点を置いており、例えば同じ教育水準のユーザーが負債を返済するのと同じような能力を持つなど、サンプル関係を無視している。 本稿では,サンプル関係を明示的に体系的にモデル化することにより,最近普及したグラフニューラルネットワーク(gnn)に基づく新しいフレームワークtabgnnを提案する。 具体的には,まず多面的サンプル関係をモデル化するために多重グラフを構築し,次に,各サンプルに対する拡張表現を学習するための多重グラフニューラルネットワークを設計する。 当社のTabGNNと表型ソリューションを統合するため、学習した埋め込みと元の埋め込みを結合し、ソリューション内の予測モデルに供給する。 分類と回帰を含む11のTDPデータセットの実験は、TabGNNが4Paradigmの表計算ソリューションであるAutoFEと比較して、一貫してパフォーマンスを改善することができることを示している。

Tabular data prediction (TDP) is one of the most popular industrial applications, and various methods have been designed to improve the prediction performance. However, existing works mainly focus on feature interactions and ignore sample relations, e.g., users with the same education level might have a similar ability to repay the debt. In this work, by explicitly and systematically modeling sample relations, we propose a novel framework TabGNN based on recently popular graph neural networks (GNN). Specifically, we firstly construct a multiplex graph to model the multifaceted sample relations, and then design a multiplex graph neural network to learn enhanced representation for each sample. To integrate TabGNN with the tabular solution in our company, we concatenate the learned embeddings and the original ones, which are then fed to prediction models inside the solution. Experiments on eleven TDP datasets from various domains, including classification and regression ones, show that TabGNN can consistently improve the performance compared to the tabular solution AutoFE in 4Paradigm.
翻訳日:2021-08-23 18:37:38 公開日:2021-08-20
# (参考訳) 微分可能な深量子化を伴う半教師付きネットワーク埋め込み [全文訳有]

Semi-supervised Network Embedding with Differentiable Deep Quantisation ( http://arxiv.org/abs/2108.09128v1 )

ライセンス: CC BY 4.0
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li(参考訳) ネットワークの正確な低次元埋め込みを学ぶことは、多くのダウンストリームネットワーク分析タスクを促進するため、重要なタスクである。 大規模なネットワークでは、トレーニング済みの埋め込みは保存するスペースをかなり必要としており、ストレージと処理は困難である。 半教師付きネットワーク埋め込みに関するこれまでの研究に基づいて、ネットワーク埋め込みのための微分可能なDNNベースの量子化法であるd-SNEQを開発した。 d-SNEQは、学習した量子化符号にリッチな高次情報を与えるためにランクロスを組み込み、トレーニング済みの埋め込みのサイズを大幅に圧縮し、ストレージフットプリントを削減し、検索速度を高速化する。 また,高次情報保存におけるモデル性能を,比較的直接的に評価するための新しい評価基準,経路予測を提案する。 本研究では,d-sneqがリンク予測,パス予測,ノード分類,ノード推薦において最先端の埋め込み手法を上回り,空間的かつ時間的効率が向上することを示す。

Learning accurate low-dimensional embeddings for a network is a crucial task as it facilitates many downstream network analytics tasks. For large networks, the trained embeddings often require a significant amount of space to store, making storage and processing a challenge. Building on our previous work on semi-supervised network embedding, we develop d-SNEQ, a differentiable DNN-based quantisation method for network embedding. d-SNEQ incorporates a rank loss to equip the learned quantisation codes with rich high-order information and is able to substantially compress the size of trained embeddings, thus reducing storage footprint and accelerating retrieval speed. We also propose a new evaluation metric, path prediction, to fairly and more directly evaluate model performance on the preservation of high-order information. Our evaluation on four real-world networks of diverse characteristics shows that d-SNEQ outperforms a number of state-of-the-art embedding methods in link prediction, path prediction, node classification, and node recommendation while being far more space- and time-efficient.
翻訳日:2021-08-23 18:21:53 公開日:2021-08-20
# (参考訳) グローバルバイアスオプティマイザによるフェデレーション学習の高速化 [全文訳有]

Accelerating Federated Learning with a Global Biased Optimiser ( http://arxiv.org/abs/2108.09134v1 )

ライセンス: CC BY 4.0
Jed Mills, Jia Hu, Geyong Min, Rui Jin, Siwei Zheng, Jin Wang(参考訳) Federated Learning(FL)は、データプライバシを維持するために、クライアントデバイスを離れるトレーニングデータなしでモデルを協調訓練する機械学習の分野における最近の開発である。 現実的な設定では、総トレーニングセットは、FL収束速度と最終的なモデル性能を損なうために広範囲に表示され、非独立で直接的でない分散(非IID)方式でクライアントに分散される。 本稿では,FedGBO(Federated Global Biased Optimiser)アルゴリズムを用いて,適応最適化手法をFLに適用する手法を提案する。 FedGBOは、FLの局所的なトレーニングフェーズにおいて、グローバルバイアス付きオプティマイザ値のセットを適用することでFLを加速し、非IIDデータから'client-drift'を減らし、適応運動量/学習率法の恩恵を受ける。 一般化オプティマイザによるFedGBO更新は偏りのある勾配とオプティマイザの更新を伴う集中的な更新と見なすことができ、この理論的枠組みを用いて運動量-確率的グラディエントDescentを用いてFedGBOの収束を証明することができる。 また、4つの現実的なベンチマークFLデータセットと3つの一般的な適応最適化器を用いて、異なる適応FLアプローチの性能を比較し、FedGBOが低通信と計算コストを考慮して高い競争性能を持つことを示した。

Federated Learning (FL) is a recent development in the field of machine learning that collaboratively trains models without the training data leaving client devices, in order to preserve data-privacy. In realistic settings, the total training set is distributed over clients in a highly non-Independent and Identically Distributed (non-IID) fashion, which has been shown extensively to harm FL convergence speed and final model performance. We propose a novel, generalised approach for applying adaptive optimisation techniques to FL with the Federated Global Biased Optimiser (FedGBO) algorithm. FedGBO accelerates FL by applying a set of global biased optimiser values during the local training phase of FL, which helps to reduce `client-drift' from non-IID data, whilst also benefiting from adaptive momentum/learning-ra te methods. We show that the FedGBO update with a generic optimiser can be viewed as a centralised update with biased gradients and optimiser update, and use this theoretical framework to prove the convergence of FedGBO using momentum-Stochastic Gradient Descent. We also perform extensive experiments using 4 realistic benchmark FL datasets and 3 popular adaptive optimisers to compare the performance of different adaptive-FL approaches, demonstrating that FedGBO has highly competitive performance considering its low communication and computation costs, and providing highly practical insights for the use of adaptive optimisation in FL.
翻訳日:2021-08-23 17:59:33 公開日:2021-08-20
# (参考訳) ネットワークのための教師なしドメイン適応ハッシュ

Unsupervised Domain-adaptive Hash for Networks ( http://arxiv.org/abs/2108.09136v1 )

ライセンス: CC BY 4.0
Tao He, Lianli Gao, Jingkuan Song, Yuan-Fang Li(参考訳) 実世界のデータは、効率的で効果的な学習アルゴリズムを必要とする大規模ネットワークによって自然に表現できる。 同時に、ラベルは一部のネットワークでのみ利用可能であり、これらのアルゴリズムはラベルのないネットワークに適応できるようにする必要がある。 ドメイン適応型ハッシュ学習は、検索時間とストレージフットプリントのコストが低く、多くの実用的なタスクにおいて、コンピュータビジョンコミュニティでかなりの成功を収めています。 しかし、マルチドメインネットワークには適用されていない。 本研究では,ネットワークのための教師なしのドメイン適応型ハッシュ学習手法udahの開発により,このギャップを埋める。 具体的には,(1)ハードグループ指向のコントラスト損失によるネットワーク構造保存,(2)緩和のない教師付きハッシュ,(3)ドメイン横断型識別器,(4)セマンティックセンターアライメントの4つのコンポーネントを開発する。 我々は,リンク予測,ノード分類,隣接推薦などのタスクにおいて,提案手法の有効性と効率を評価するために,幅広い実験を行った。 評価結果は,従来の従来の離散埋め込み手法よりも優れた性能が得られることを示す。

Abundant real-world data can be naturally represented by large-scale networks, which demands efficient and effective learning algorithms. At the same time, labels may only be available for some networks, which demands these algorithms to be able to adapt to unlabeled networks. Domain-adaptive hash learning has enjoyed considerable success in the computer vision community in many practical tasks due to its lower cost in both retrieval time and storage footprint. However, it has not been applied to multiple-domain networks. In this work, we bridge this gap by developing an unsupervised domain-adaptive hash learning method for networks, dubbed UDAH. Specifically, we develop four {task-specific yet correlated} components: (1) network structure preservation via a hard groupwise contrastive loss, (2) relaxation-free supervised hashing, (3) cross-domain intersected discriminators, and (4) semantic center alignment. We conduct a wide range of experiments to evaluate the effectiveness and efficiency of our method on a range of tasks including link prediction, node classification, and neighbor recommendation. Our evaluation results demonstrate that our model achieves better performance than the state-of-the-art conventional discrete embedding methods over all the tasks.
翻訳日:2021-08-23 17:35:03 公開日:2021-08-20
# (参考訳) デジタルホログラフィのための畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT) [全文訳有]

Convolutional Neural Network (CNN) vs Visual Transformer (ViT) for Digital Holography ( http://arxiv.org/abs/2108.09147v1 )

ライセンス: CC BY 4.0
St\'ephane Cuenat, Rapha\"el Couturier(参考訳) デジタルホログラフィー(DH)では、その振幅と位相を再構成するために、ホログラムから対象距離を抽出することが重要である。 このステップはオートフォーカスと呼ばれ、まず画像のスタックを再構成し、エントロピーや分散といった焦点距離を用いて各再構成画像をシャープすることで解決する。 最もシャープな画像に対応する距離を焦点位置とする。 このアプローチは効率的ではあるが、計算的な要求と時間を要する。 本稿では,Deep Learning (DL) を用いて距離の決定を行う。 2つのディープラーニング(DL)アーキテクチャを比較する。畳み込みニューラルネットワーク(CNN)とビジュアルトランスフォーマー(ViT)である。 ViTとCNNは、分類問題としてオートフォーカスの問題に対処するために使用される。 2つの連続するクラス間の距離が100{\mu}mとなる最初の試み [11] と比較して、提案手法により、この距離を1{\mu}mに劇的に削減することができる。さらに、ViTは、CNNよりも精度が良く、より堅牢である。

In Digital Holography (DH), it is crucial to extract the object distance from a hologram in order to reconstruct its amplitude and phase. This step is called auto-focusing and it is conventionally solved by first reconstructing a stack of images and then by sharpening each reconstructed image using a focus metric such as entropy or variance. The distance corresponding to the sharpest image is considered the focal position. This approach, while effective, is computationally demanding and time-consuming. In this paper, the determination of the distance is performed by Deep Learning (DL). Two deep learning (DL) architectures are compared: Convolutional Neural Network (CNN)and Visual transformer (ViT). ViT and CNN are used to cope with the problem of auto-focusing as a classification problem. Compared to a first attempt [11] in which the distance between two consecutive classes was 100{\mu}m, our proposal allows us to drastically reduce this distance to 1{\mu}m. Moreover, ViT reaches similar accuracy and is more robust than CNN.
翻訳日:2021-08-23 17:34:01 公開日:2021-08-20
# (参考訳) メモリアテンションを考慮したグループベース識別画像キャプション [全文訳有]

Group-based Distinctive Image Captioning with Memory Attention ( http://arxiv.org/abs/2108.09151v1 )

ライセンス: CC0 1.0
Jiuniu Wang, Wenjia Xu, Qingzhong Wang, Antoni B. Chan(参考訳) 自然言語による画像記述は画像キャプションとして広く知られており、コンピュータビジョンや自然言語生成技術の発展により一貫した進歩を遂げている。 従来のキャプションモデルは、BLEU、CIDEr、SPICEといった一般的な指標に基づいて高い精度を達成するが、他の類似画像とターゲット画像を区別するキャプションの能力は低い。 特徴あるキャプションを生成するために、いくつかの先駆者たちは、1つの入力画像に焦点を当てた対照的な学習や、表向きのキャプションを再強調する。 しかし、類似のイメージグループ内のオブジェクト(例えば、同じアルバム内のアイテムやプロパティ、またはきめ細かいイベント)間の関係は無視される。 本稿では,グループベースの識別キャプションモデル(gdiscap)を用いて,画像キャプションの識別性を向上させる。 特に,画像群に特有のオブジェクト特徴を格納するグループベースのメモリアテンション(GMA)モジュールを提案する。 これらのユニークなオブジェクトの特徴は、キャプションを生成するときに強調され、より特徴的なキャプションをもたらす。 さらに、言語デコーダとGMAを監督するために、接頭辞節中の特徴語を選択する。 最後に,キャプションの識別性を評価するために,新しい評価基準である特徴語率(DisWordRate)を提案する。 定量的な結果から,提案手法は複数のベースラインモデルの識別性を著しく改善し,精度と識別性の両方において最先端の性能を実現することが示唆された。 ユーザスタディの結果は定量的評価と一致し,新たな指標であるDisWordRateの合理性を示す。

Describing images using natural language is widely known as image captioning, which has made consistent progress due to the development of computer vision and natural language generation techniques. Though conventional captioning models achieve high accuracy based on popular metrics, i.e., BLEU, CIDEr, and SPICE, the ability of captions to distinguish the target image from other similar images is under-explored. To generate distinctive captions, a few pioneers employ contrastive learning or re-weighted the ground-truth captions, which focuses on one single input image. However, the relationships between objects in a similar image group (e.g., items or properties within the same album or fine-grained events) are neglected. In this paper, we improve the distinctiveness of image captions using a Group-based Distinctive Captioning Model (GdisCap), which compares each image with other images in one similar group and highlights the uniqueness of each image. In particular, we propose a group-based memory attention (GMA) module, which stores object features that are unique among the image group (i.e., with low similarity to objects in other images). These unique object features are highlighted when generating captions, resulting in more distinctive captions. Furthermore, the distinctive words in the ground-truth captions are selected to supervise the language decoder and GMA. Finally, we propose a new evaluation metric, distinctive word rate (DisWordRate) to measure the distinctiveness of captions. Quantitative results indicate that the proposed method significantly improves the distinctiveness of several baseline models, and achieves the state-of-the-art performance on both accuracy and distinctiveness. Results of a user study agree with the quantitative evaluation and demonstrate the rationality of the new metric DisWordRate.
翻訳日:2021-08-23 17:26:08 公開日:2021-08-20
# (参考訳) 微調整を必要とするラベル騒音のコントラスト表現 [全文訳有]

Contrastive Representations for Label Noise Require Fine-Tuning ( http://arxiv.org/abs/2108.09154v1 )

ライセンス: CC BY 4.0
Pierre Nodet and Vincent Lemaire and Alexis Bondu and Antoine Cornu\'ejols(参考訳) 本稿では,ラベルノイズロバスト分類ヘッドと対比表現の組み合わせにより,最新の性能を実現するためには,表現の微調整が必要となることを示す。 微調整された表現が凍った表現よりも優れていることが示されるので、適切な出発点が与えられた場合、ノイズロバスト分類ヘッドは確かに有意義な表現を促進することができると結論付けることができる。 6つの方法と9つの異なる種類のノイズインスタンス(1つ、対称、非対称)を特徴とする総合的なパフォーマンス図を作成する実験を行った。 雑音の存在下では、コントラスト表現の微調整により、6つの方法がエンドツーエンド学習よりも優れた結果を得ることができ、最新の技術との比較で新しい参照を表現することができることを示した。 結果もノイズレベルに対して顕著に安定している。

In this paper we show that the combination of a Contrastive representation with a label noise-robust classification head requires fine-tuning the representation in order to achieve state-of-the-art performances. Since fine-tuned representations are shown to outperform frozen ones, one can conclude that noise-robust classification heads are indeed able to promote meaningful representations if provided with a suitable starting point. Experiments are conducted to draw a comprehensive picture of performances by featuring six methods and nine noise instances of three different kinds (none, symmetric, and asymmetric). In presence of noise the experiments show that fine tuning of Contrastive representation allows the six methods to achieve better results than end-to-end learning and represent a new reference compare to the recent state of art. Results are also remarkable stable versus the noise level.
翻訳日:2021-08-23 17:20:32 公開日:2021-08-20
# (参考訳) コールディテール記録に基づくユーザのローカライズ [全文訳有]

User Localization Based on Call Detail Records ( http://arxiv.org/abs/2108.09157v1 )

ライセンス: CC BY 4.0
Buddhi Ayesha, Bhagya Jeewanthi, Charith Chitraranjan, Amal Shehan Perera, Amal S. Kumarage(参考訳) 交通計画を含む多くの分野において、人間の移動性を理解することは不可欠である。 現在、このような分析の主要な情報源は調査である。 しかし、近年、多くの研究者が旅行パターンを特定するためにCDR(Call Detail Records)に注目している。 CDRは人間の移動行動と相関している。 しかし、CDRデータを使用する場合の大きな問題の1つは、データと負荷共有効果などの他のアーティファクトの解像度が低いため、ユーザの正確な位置を特定することが難しいことである。 既存のアプローチには一定の制限がある。 cdrを用いた以前の研究では、ユーザをローカライズする際にセルタワーの送信電力を考慮せず、負荷共有効果を特定するために単純化されたアプローチを用いる。 さらに、利用者の全体は、異なるセグメントの移動パターンの違いを無視する一つのグループであると考えている。 本研究は,CDRからのユーザ位置定位のための新しい手法を導入し,負荷共有効果の検出を改善し,送信電力を考慮に入れ,モデルのパラメータを学習するために,ユーザを異なるグループに分割する手法を提案する。 さらに本研究は,既存の制限に対処し,40億近いcdrデータポイントと旅行調査データと自発的に収集したモバイルデータを用いて,生成した結果の検証を行う。

Understanding human mobility is essential for many fields, including transportation planning. Currently, surveys are the primary source for such analysis. However, in the recent past, many researchers have focused on Call Detail Records (CDR) for identifying travel patterns. CDRs have shown correlation to human mobility behavior. However, one of the main issues in using CDR data is that it is difficult to identify the precise location of the user due to the low spacial resolution of the data and other artifacts such as the load sharing effect. Existing approaches have certain limitations. Previous studies using CDRs do not consider the transmit power of cell towers when localizing the users and use an oversimplified approach to identify load sharing effects. Furthermore, they consider the entire population of users as one group neglecting the differences in mobility patterns of different segments of users. This research introduces a novel methodology to user position localization from CDRs through improved detection of load sharing effects, by taking the transmit power into account, and segmenting the users into distinct groups for the purpose of learning any parameters of the model. Moreover, this research uses several methods to address the existing limitations and validate the generated results using nearly 4 billion CDR data points with travel survey data and voluntarily collected mobile data.
翻訳日:2021-08-23 17:06:08 公開日:2021-08-20
# (参考訳) 等価共有メモリを用いたニューラル会話生成モデル [全文訳有]

A Neural Conversation Generation Model via Equivalent Shared Memory Investigation ( http://arxiv.org/abs/2108.09164v1 )

ライセンス: CC BY 4.0
Changzhen Ji, Yating Zhang, Xiaozhong Liu, Adam Jatowt, Changlong Sun, Conghui Zhu and Tiejun Zhao(参考訳) 自然言語生成(NLG)における課題としての会話生成は,近年ますます注目を集めている。 最近の多くの作品では、外部知識とともにシーケンスからシーケンスへの構造を採用しており、それによって生成された会話の品質が向上した。 にもかかわらず、類似した会話から抽出された知識を発話生成に利用した作品はほとんどない。 顧客サービスや法廷の議論領域での会話を例として、本質的なエンティティやフレーズ、関連するロジックや相互関係を抽出し、類似の会話インスタンスから借用できることは明らかである。 このような情報は会話生成を改善するのに役立つ。 本稿では,類似した会話の有用な情報を記憶し,発話生成を改善するための新しい読解・記憶フレームワークであるdeep reading memory network(drmn)を提案する。 弊社のモデルは、正義とeコマースの2つの大規模な会話データセットに適用する。 実験により、提案したモデルが最先端のアプローチより優れていることが証明された。

Conversation generation as a challenging task in Natural Language Generation (NLG) has been increasingly attracting attention over the last years. A number of recent works adopted sequence-to-sequence structures along with external knowledge, which successfully enhanced the quality of generated conversations. Nevertheless, few works utilized the knowledge extracted from similar conversations for utterance generation. Taking conversations in customer service and court debate domains as examples, it is evident that essential entities/phrases, as well as their associated logic and inter-relationships can be extracted and borrowed from similar conversation instances. Such information could provide useful signals for improving conversation generation. In this paper, we propose a novel reading and memory framework called Deep Reading Memory Network (DRMN) which is capable of remembering useful information of similar conversations for improving utterance generation. We apply our model to two large-scale conversation datasets of justice and e-commerce fields. Experiments prove that the proposed model outperforms the state-of-the-art approaches.
翻訳日:2021-08-23 16:57:12 公開日:2021-08-20
# (参考訳) クラッタシーンの領域レベルアクティブラーニング [全文訳有]

Region-level Active Learning for Cluttered Scenes ( http://arxiv.org/abs/2108.09186v1 )

ライセンス: CC BY 4.0
Michael Laielli, Giscard Biamby, Dian Chen, Adam Loeffler, Phat Dat Nguyen, Ross Luo, Trevor Darrell, Sayna Ebrahimi(参考訳) オブジェクト検出のためのアクティブラーニングは、個々の検出を画像レベルの選択基準に集約する方法で分類のために開発された技術を適用することで、従来より実現されている。 これは通常、ラベル付けのために選択された全ての画像は徹底的に注釈付けされなければならないというコストのかかる仮定と結合される。 これにより、精巧なビジョンデータセットと、実際のイメージで発生するデータ不均衡や視覚的なクラッタの存在下での苦労が、徐々に改善される。 画像レベルのアプローチの代替案は、文学において驚くほど過小評価されている。 本稿では,従来の画像レベルおよびオブジェクトレベルのアプローチを,同じ画像から近接する冗長なクエリを回避し,ラベラーのコンテキストスイッチを最小化することで空間的多様性を促進する,一般化された領域レベルのアプローチに組み込む新たな戦略を提案する。 このアプローチはラベリングの労力を大幅に削減し,クラス不均衡と乱雑なシーンを持つ現実データに対するレアオブジェクト検索を改善する。

Active learning for object detection is conventionally achieved by applying techniques developed for classification in a way that aggregates individual detections into image-level selection criteria. This is typically coupled with the costly assumption that every image selected for labelling must be exhaustively annotated. This yields incremental improvements on well-curated vision datasets and struggles in the presence of data imbalance and visual clutter that occurs in real-world imagery. Alternatives to the image-level approach are surprisingly under-explored in the literature. In this work, we introduce a new strategy that subsumes previous Image-level and Object-level approaches into a generalized, Region-level approach that promotes spatial-diversity by avoiding nearby redundant queries from the same image and minimizes context-switching for the labeler. We show that this approach significantly decreases labeling effort and improves rare object search on realistic data with inherent class-imbalance and cluttered scenes.
翻訳日:2021-08-23 16:40:44 公開日:2021-08-20
# (参考訳) Smart Bird: 効率的かつ効果的なトランスのための学習可能なスパースアテンション [全文訳有]

Smart Bird: Learnable Sparse Attention for Efficient and Effective Transformer ( http://arxiv.org/abs/2108.09193v1 )

ライセンス: CC0 1.0
Chuhan Wu, Fangzhao Wu, Tao Qi, Yongfeng Huang(参考訳) トランスフォーマーはNLPで大成功を収めた。 しかし、変圧器の自己着脱機構の二次的複雑性は長い列を扱うのに非効率である。 既存の多くの作品では、ある位置やランダムに選択されたトークンのトークンに通常出席する密度の高いものの代わりに、ばらばらな自己アテンションを計算することでトランスフォーマーを加速しようと試みている。 しかし、手動で選択されたトークンやランダムトークンはコンテキストモデリングには役に立たない。 本稿では,学習可能なスパースアテンションを持つ効率的かつ効率的なトランスフォーマーであるSmart Birdを提案する。 Smart Birdでは、トークン間の潜在的な重要な相互作用を見つけることを目的として、1ヘッドの低次元トランスフォーマーを用いてスケッチされた注目行列を最初に計算する。 次に、スケッチされた注目行列から得られた確率スコアに基づいてトークンペアをサンプリングし、異なる注目ヘッドに対して異なるスパース注意指標行列を生成する。 最後に、インデックス行列に従ってトークン埋め込みを選択し、スパースアテンションネットワークの入力を形成する。 テキストモデリングにおけるSmart Birdの有効性と有効性を検証した6つのベンチマークデータセットの大規模な実験。

Transformer has achieved great success in NLP. However, the quadratic complexity of the self-attention mechanism in Transformer makes it inefficient in handling long sequences. Many existing works explore to accelerate Transformers by computing sparse self-attention instead of a dense one, which usually attends to tokens at certain positions or randomly selected tokens. However, manually selected or random tokens may be uninformative for context modeling. In this paper, we propose Smart Bird, which is an efficient and effective Transformer with learnable sparse attention. In Smart Bird, we first compute a sketched attention matrix with a single-head low-dimensional Transformer, which aims to find potential important interactions between tokens. We then sample token pairs based on their probability scores derived from the sketched attention matrix to generate different sparse attention index matrices for different attention heads. Finally, we select token embeddings according to the index matrices to form the input of sparse attention networks. Extensive experiments on six benchmark datasets for different tasks validate the efficiency and effectiveness of Smart Bird in text modeling.
翻訳日:2021-08-23 16:28:10 公開日:2021-08-20
# (参考訳) ディープオーディオ埋め込みによるパーシングバードソング [全文訳有]

Parsing Birdsong with Deep Audio Embeddings ( http://arxiv.org/abs/2108.09203v1 )

ライセンス: CC BY 4.0
Irina Tolkova, Brian Chu, Marcel Hedman, Stefan Kahl, Holger Klinck(参考訳) 鳥類の個体数のモニタリングは、保全活動や生物多様性の喪失の理解において重要な役割を担っている。 このプロセスの自動化は、受動的音響モニタリングのようなセンシング技術と、ディープラーニングのような分析ツールの両方によって促進されている。 しかし、機械学習モデルは、トレーニングデータで遭遇しない例に一般化することがしばしば困難である。 本研究では,特徴的呼出と環境騒音を特定するための半教師付きアプローチを提案する。 我々は,畳み込みオートエンコーダと2つの事前学習ネットワークを含む音声サンプルの潜伏表現を学習するために,複数の手法を用いて学習し,その結果の埋め込みをドメインの専門家にグループ化し,クラスタラベルを識別する。 本手法は,環境音響データセットの潜在構造を把握し,分類精度を向上できることを示す。

Monitoring of bird populations has played a vital role in conservation efforts and in understanding biodiversity loss. The automation of this process has been facilitated by both sensing technologies, such as passive acoustic monitoring, and accompanying analytical tools, such as deep learning. However, machine learning models frequently have difficulty generalizing to examples not encountered in the training data. In our work, we present a semi-supervised approach to identify characteristic calls and environmental noise. We utilize several methods to learn a latent representation of audio samples, including a convolutional autoencoder and two pre-trained networks, and group the resulting embeddings for a domain expert to identify cluster labels. We show that our approach can improve classification precision and provide insight into the latent structure of environmental acoustic datasets.
翻訳日:2021-08-23 16:15:50 公開日:2021-08-20
# (参考訳) ガウス過程帯域に対する最適順序簡易レグレット [全文訳有]

Optimal Order Simple Regret for Gaussian Process Bandits ( http://arxiv.org/abs/2108.09262v1 )

ライセンス: CC BY 4.0
Sattar Vakili, Nacime Bouziani, Sepehr Jalali, Alberto Bernacchia, Da-shan Shiu(参考訳) 連続、おそらく非凸の逐次最適化を考えると、目的関数 $f$ を評価するのに費用がかかる。 この問題は、再生カーネルヒルベルト空間(RKHS)に$f$を持つガウス過程(GP)バンディットとしてキャストできる。 いくつかの学習アルゴリズムのアート解析の状況は、単純な後悔性能における下限と上限の差が顕著であることを示している。 N$ が探索試行数であり、$\gamma_N$ が最大情報ゲインであるとき、既存の境界よりもかなり厳密な純粋探索アルゴリズムの単純な後悔性能に基づいて $\tilde{\mathcal{O}}(\sqrt{\gamma_N/N})$ を証明します。 この境界は、後悔に関する下限が知られている場合の対数的要因まで最適であることを示す。 これらの結果を確立するために,幅広い関心を持つrkhs要素に適用可能なgpモデルの新規かつ鋭い信頼区間を示す。

Consider the sequential optimization of a continuous, possibly non-convex, and expensive to evaluate objective function $f$. The problem can be cast as a Gaussian Process (GP) bandit where $f$ lives in a reproducing kernel Hilbert space (RKHS). The state of the art analysis of several learning algorithms shows a significant gap between the lower and upper bounds on the simple regret performance. When $N$ is the number of exploration trials and $\gamma_N$ is the maximal information gain, we prove an $\tilde{\mathcal{O}}(\sqrt{\gamma_N/N})$ bound on the simple regret performance of a pure exploration algorithm that is significantly tighter than the existing bounds. We show that this bound is order optimal up to logarithmic factors for the cases where a lower bound on regret is known. To establish these results, we prove novel and sharp confidence intervals for GP models applicable to RKHS elements which may be of broader interest.
翻訳日:2021-08-23 16:05:53 公開日:2021-08-20
# (参考訳) 実用的・高速運動量ベース電力方式

Practical and Fast Momentum-Based Power Methods ( http://arxiv.org/abs/2108.09264v1 )

ライセンス: CC BY 4.0
Tahseen Rabbani, Apollo Jain, Arjun Rajkumar, Furong Huang(参考訳) Power Methodは、ストリーミングPCA、スペクトルクラスタリング、低ランク行列近似などの機械学習タスクに広く応用された古典的アルゴリズムである。 バニラパワー法の蒸留目的は、行列の最大の固有値(絶対値)とその固有ベクトルを決定することである。 運動量に基づくスキームは電力法を高速化するために用いられるが、既存のアルゴリズムで最適収束率を達成するには、実行時に利用できない追加のスペクトル情報に批判的に依存する。 本稿では,遅延運動量法 (dmpower) とストリーミング方式である遅延運動量ストリーミング法 (dmstream) の2つの新しい運動量ベース電力法を提案する。 提案手法は不正確なデフレを生かし, 極端に制約の少ないハイパーパラメータ要求でほぼ最適収束を実現することができる。 摂動論のレンズを通して両アルゴリズムの収束解析を行う。 さらに,dmpowerがバニラパワー法を日常的に上回っており,両アルゴリズムが完全なスペクトル知識を持つ既存の高速化手法を実行するoracleの収束速度と一致することを実験的に証明した。

The power method is a classical algorithm with broad applications in machine learning tasks, including streaming PCA, spectral clustering, and low-rank matrix approximation. The distilled purpose of the vanilla power method is to determine the largest eigenvalue (in absolute modulus) and its eigenvector of a matrix. A momentum-based scheme can be used to accelerate the power method, but achieving an optimal convergence rate with existing algorithms critically relies on additional spectral information that is unavailable at run-time, and sub-optimal initializations can result in divergence. In this paper, we provide a pair of novel momentum-based power methods, which we call the delayed momentum power method (DMPower) and a streaming variant, the delayed momentum streaming method (DMStream). Our methods leverage inexact deflation and are capable of achieving near-optimal convergence with far less restrictive hyperparameter requirements. We provide convergence analyses for both algorithms through the lens of perturbation theory. Further, we experimentally demonstrate that DMPower routinely outperforms the vanilla power method and that both algorithms match the convergence speed of an oracle running existing accelerated methods with perfect spectral knowledge.
翻訳日:2021-08-23 15:35:59 公開日:2021-08-20
# (参考訳) 近似ベイズ型ニューラルドプライメージング [全文訳有]

Approximate Bayesian Neural Doppler Imaging ( http://arxiv.org/abs/2108.09266v1 )

ライセンス: CC BY 4.0
A. Asensio Ramos, C. Diaz Baso, O. Kochukhov(参考訳) 回転する活動星の表面温度分布は、ドップラーイメージング法で定期的にマッピングされる。 表面の不均一性は、可視半球の位置によって波長が変化する高分解能分光観測の特徴を生んでいる。 インバージョン問題は、滑らかさや最大エントロピーを仮定した最大アポテリオ正規化法を用いて体系的に解決されている。 本研究の目的は、恒星の表面温度の後方分布へのアクセスを提供することにより、ベイズ推理問題を完全に解決することである。 任意の回転位相でサンプリングされたスペクトル範囲の分光観測のために,高次元の後方分布を近似するモデルを作成するために,amortized neural posterior estimationを用いた。 後部分布は条件正規化フローと近似され、任意の分布への近似の標本化が容易で柔軟である。 分光観測を条件にすると、後方分布から試料を得るのに非常に効率的な方法が得られる。 観測の条件付けは、任意の波長サンプリングと回転位相を扱えるトランスフォーマーエンコーダを用いて得られる。 私たちのモデルは毎秒何千もの後方サンプルを生成できる。 非常に高い信号と雑音の観測のためのモデルの検証は,拡張度を過大評価しながらも,後部を正確に近似していることを示す。 このモデルを適度に速い回転子 ii の peg に適用し、温度不均質性の最初のベイズ写像を生成する。 条件付き正規化フローは、磁気特性の制約など、恒星物理学におけるより複雑な問題において近似ベイズ推論を実行するための非常に有望なツールである。

The non-uniform surface temperature distribution of rotating active stars is routinely mapped with the Doppler Imaging technique. Inhomogeneities in the surface produce features in high-resolution spectroscopic observations that shift in wavelength depending on their position on the visible hemisphere. The inversion problem has been systematically solved using maximum a-posteriori regularized methods assuming smoothness or maximum entropy. Our aim in this work is to solve the full Bayesian inference problem, by providing access to the posterior distribution of the surface temperature in the star. We use amortized neural posterior estimation to produce a model that approximates the high-dimensional posterior distribution for spectroscopic observations of selected spectral ranges sampled at arbitrary rotation phases. The posterior distribution is approximated with conditional normalizing flows, which are flexible, tractable and easy to sample approximations to arbitrary distributions. When conditioned on the spectroscopic observations, they provide a very efficient way of obtaining samples from the posterior distribution. The conditioning on observations is obtained through the use of Transformer encoders, which can deal with arbitrary wavelength sampling and rotation phases. Our model can produce thousands of posterior samples per second. Our validation of the model for very high signal-to-noise observations shows that it correctly approximates the posterior, although with some overestimation of the broadening. We apply the model to the moderately fast rotator II Peg, producing the first Bayesian map of its temperature inhomogenities. We conclude that conditional normalizing flows are a very promising tool to carry out approximate Bayesian inference in more complex problems in stellar physics, like constraining the magnetic properties.
翻訳日:2021-08-23 15:34:54 公開日:2021-08-20
# (参考訳) 科学データセットと分析パイプラインのためのレコメンダシステム [全文訳有]

A Recommender System for Scientific Datasets and Analysis Pipelines ( http://arxiv.org/abs/2108.09275v1 )

ライセンス: CC BY 4.0
Mandana Mazaheri, Gregory Kiar, Tristan Glatard(参考訳) 科学データセットと分析パイプラインは、オープンサイエンスの利益のために公開されつつある。 しかしながら、どのパイプラインとデータセットを適切に使用できるかを確実に識別するメカニズムが欠けている。 高品質な公開データセットやパイプラインの増加を考えると、明確な互換性の欠如は、これらのリソースの発見性と再利用性を脅かしている。 本研究では,前回の実行実績に基づくパイプラインやデータセットを推薦するための協調フィルタリングシステムの実現可能性について検討する。 我々は、オープンニューロサイエンスの全国的イニシアチブであるcanadian open neuroscience platformから抽出されたデータセットとパイプラインを用いてシステムを評価する。 システムが提供する勧告(auc$=0.83$)は、以前の知識やパイプラインやデータセットの記述(auc$=0.63$)を使用するドメインの専門家による推奨よりもはるかに優れている。 特にドメインの専門家は、前処理のレベルなど、パイプラインとデータセットのインタラクションの低レベルな技術的側面を無視することが多い。 証明に基づくパイプラインとデータセットレコメンデータは、オープンサイエンスリソースの共有と利用に有効であり、有益である、と結論付けている。 今後の作業は、より包括的な実績トレースの収集と、本番環境にシステムを展開することに集中する。

Scientific datasets and analysis pipelines are increasingly being shared publicly in the interest of open science. However, mechanisms are lacking to reliably identify which pipelines and datasets can appropriately be used together. Given the increasing number of high-quality public datasets and pipelines, this lack of clear compatibility threatens the findability and reusability of these resources. We investigate the feasibility of a collaborative filtering system to recommend pipelines and datasets based on provenance records from previous executions. We evaluate our system using datasets and pipelines extracted from the Canadian Open Neuroscience Platform, a national initiative for open neuroscience. The recommendations provided by our system (AUC$=0.83$) are significantly better than chance and outperform recommendations made by domain experts using their previous knowledge as well as pipeline and dataset descriptions (AUC$=0.63$). In particular, domain experts often neglect low-level technical aspects of a pipeline-dataset interaction, such as the level of pre-processing, which are captured by a provenance-based system. We conclude that provenance-based pipeline and dataset recommenders are feasible and beneficial to the sharing and usage of open-science resources. Future work will focus on the collection of more comprehensive provenance traces, and on deploying the system in production.
翻訳日:2021-08-23 14:55:40 公開日:2021-08-20
# (参考訳) MG-GAN:歩行者軌道予測における分布外サンプル防止のための多世代モデル [全文訳有]

MG-GAN: A Multi-Generator Model Preventing Out-of-Distribution Samples in Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2108.09274v1 )

ライセンス: CC BY 4.0
Patrick Dendorfer, Sven Elflein, Laura Leal-Taixe(参考訳) 歩行者の軌道予測は不確実かつ多様性のため困難である。 生成的敵ネットワークは将来の軌道上の分布を学習できるが、将来の軌道の分布が複数の、おそらくは切断されたモードの混合である場合、分布外サンプルを予測する傾向がある。 そこで本研究では,歩行者追跡予測のためのマルチジェネレータモデルを提案する。 各ジェネレータは、シーンの1つの主要なモードにルーティングする軌跡上の分布を学習するのを専門とし、第2のネットワークはこれらのジェネレータ上のカテゴリ分布を動的およびシーン入力に基づいて学習する。 このアーキテクチャにより、特殊なジェネレータから効果的にサンプルをサンプリングでき、単一ジェネレータメソッドと比較して分散サンプルを大幅に削減できます。

Pedestrian trajectory prediction is challenging due to its uncertain and multimodal nature. While generative adversarial networks can learn a distribution over future trajectories, they tend to predict out-of-distribution samples when the distribution of future trajectories is a mixture of multiple, possibly disconnected modes. To address this issue, we propose a multi-generator model for pedestrian trajectory prediction. Each generator specializes in learning a distribution over trajectories routing towards one of the primary modes in the scene, while a second network learns a categorical distribution over these generators, conditioned on the dynamics and scene input. This architecture allows us to effectively sample from specialized generators and to significantly reduce the out-of-distribution samples compared to single generator methods.
翻訳日:2021-08-23 14:24:40 公開日:2021-08-20
# 深部領域一般化のための識別領域不変逆ネットワーク

Discriminative Domain-Invariant Adversarial Network for Deep Domain Generalization ( http://arxiv.org/abs/2108.08995v1 )

ライセンス: Link先を確認
Mohammad Mahfujur Rahman, Clinton Fookes, Sridha Sridharan(参考訳) ドメイン一般化アプローチは、異なる分布を持つ複数のトレーニングソースドメインから未知のターゲットドメインに対するドメイン不変予測モデルを学ぶことを目的としている。 これは機械学習とコンピュータビジョンのコミュニティにおいて、挑戦的でトピック的な問題である。 以前のドメイン一般化のアプローチでは、すべてのドメインの条件分布はソースドメイン全体にわたって同じであり、限界分布を最小化することでドメイン不変量モデルを学ぶと仮定している。 しかし、トレーニングソースドメインの安定した条件分布の仮定は実際には成立しない。 ソース領域から学習した超平面は、クラスタの境界に散らばったサンプルを、対応するクラス中心から遠ざかるサンプルを誤って分類する。 上記の2つの欠点に対処するため、ドメイン一般化のための識別的ドメイン不変逆数ネットワーク(DDIAN)を提案する。 特徴の判別性は識別機能モジュールを通じて保証され、ドメイン不変機能はグローバルドメインとローカルサブドメインアライメントモジュールを介して保証される。 いくつかのベンチマークにおいて、DDIANは、最先端のドメイン一般化アプローチと比較して、トレーニング中に見つからないターゲットデータに対するより良い予測を達成している。

Domain generalization approaches aim to learn a domain invariant prediction model for unknown target domains from multiple training source domains with different distributions. Significant efforts have recently been committed to broad domain generalization, which is a challenging and topical problem in machine learning and computer vision communities. Most previous domain generalization approaches assume that the conditional distribution across the domains remain the same across the source domains and learn a domain invariant model by minimizing the marginal distributions. However, the assumption of a stable conditional distribution of the training source domains does not really hold in practice. The hyperplane learned from the source domains will easily misclassify samples scattered at the boundary of clusters or far from their corresponding class centres. To address the above two drawbacks, we propose a discriminative domain-invariant adversarial network (DDIAN) for domain generalization. The discriminativeness of the features are guaranteed through a discriminative feature module and domain-invariant features are guaranteed through the global domain and local sub-domain alignment modules. Extensive experiments on several benchmarks show that DDIAN achieves better prediction on unseen target data during training compared to state-of-the-art domain generalization approaches.
翻訳日:2021-08-23 13:40:18 公開日:2021-08-20
# VAE-CE: 遠方VAEを用いた視覚的コントラスト記述

VAE-CE: Visual Contrastive Explanation using Disentangled VAEs ( http://arxiv.org/abs/2108.09159v1 )

ライセンス: Link先を確認
Yoeri Poels, Vlado Menkovski(参考訳) 分類モデルの目標は、正しいラベルをデータに割り当てることである。 ほとんどの場合、このデータはラベルのセットによって完全には記述されない。 多くの場合、各データポイントをより正確に記述できる、意味のある概念の豊富なセットがドメインに存在する。 このような概念はモデルの分類を解釈するのに非常に有用である。 本稿では,高次概念を持つデータを表す変分オートエンコーダに基づくコントラスト説明(vae-ce)と呼ばれるモデルを提案し,この表現を分類と説明生成の両方に利用する。 説明は対照的な方法で作成され、なぜデータポイントが別のクラスではなく1つのクラスに割り当てられるのかを伝える。 説明は入力データポイントの変換のセットとして指定され、各ステップは対照的なクラスに変化する概念を表す。 我々は,各次元を分離する新しい教師あり手法を用いて拡張した,異方性vaeを用いてモデルを構築した。 合成データとMNISTの分析は、解離と説明の両方へのアプローチが他の方法よりも有利であることを示している。

The goal of a classification model is to assign the correct labels to data. In most cases, this data is not fully described by the given set of labels. Often a rich set of meaningful concepts exist in the domain that can much more precisely describe each datapoint. Such concepts can also be highly useful for interpreting the model's classifications. In this paper we propose a model, denoted as Variational Autoencoder-based Contrastive Explanation (VAE-CE), that represents data with high-level concepts and uses this representation for both classification and generating explanations. The explanations are produced in a contrastive manner, conveying why a datapoint is assigned to one class rather than an alternative class. An explanation is specified as a set of transformations of the input datapoint, with each step depicting a concept changing towards the contrastive class. We build the model using a disentangled VAE, extended with a new supervised method for disentangling individual dimensions. An analysis on synthetic data and MNIST shows that the approaches to both disentanglement and explanation provide benefits over other methods.
翻訳日:2021-08-23 13:39:59 公開日:2021-08-20
# 弱い修正グラフ埋め込みを用いたTwitterユーザ表現

Twitter User Representation using Weakly Supervised Graph Embedding ( http://arxiv.org/abs/2108.08988v1 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser(参考訳) ソーシャルメディアプラットフォームは、ユーザーが様々なコンテンツ上で複数のオンライン活動に参加するための便利な手段を提供する。 しかし、この急激なアクセスは多様な情報を増やし、ソーシャルメディアで共有される人々のライフスタイル決定を理解するために、ユーザータイプを特徴付けることは困難である。 本稿では,ユーザタイプを理解するための弱い教師付きグラフ埋め込みベースフレームワークを提案する。 本研究では,Twitterの「ヨガ」や「ケトダイエット」に焦点をあてて,Twitterのツイートに対して弱い監督力を用いて学習したユーザ埋め込みを評価する。 実世界のデータセットの実験では、提案されたフレームワークがユーザタイプを検出するベースラインを上回っている。 最後に、データセットから異なるタイプのユーザ(例えば、実践者対プロモーション)のデータ分析について説明する。 ライフスタイル関連のツイート(ヨガ、ケトなど)に集中しながら、ユーザ表現の構築方法は、他のドメインに容易に一般化します。

Social media platforms provide convenient means for users to participate in multiple online activities on various contents and create fast widespread interactions. However, this rapidly growing access has also increased the diverse information, and characterizing user types to understand people's lifestyle decisions shared in social media is challenging. In this paper, we propose a weakly supervised graph embedding based framework for understanding user types. We evaluate the user embedding learned using weak supervision over well-being related tweets from Twitter, focusing on 'Yoga', 'Keto diet'. Experiments on real-world datasets demonstrate that the proposed framework outperforms the baselines for detecting user types. Finally, we illustrate data analysis on different types of users (e.g., practitioner vs. promotional) from our dataset. While we focus on lifestyle-related tweets (i.e., yoga, keto), our method for constructing user representation readily generalizes to other domains.
翻訳日:2021-08-23 13:39:43 公開日:2021-08-20
# オープンリレーショナルモデリング: エンティティ間の関係を定義することを学ぶ

Open Relation Modeling: Learning to Define Relations between Entities ( http://arxiv.org/abs/2108.09241v1 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu(参考訳) エンティティ間の関係は、例えば、知識グラフ(KG)内のエンティティまたは事実の両方を含む文など、異なるインスタンスで表すことができる。 しかし、これらの事例は、エンティティ間の一般的な関係を正しく捉えていないかもしれないし、人間によっては理解しづらいかもしれないし、知識ソースの不完全さのためにも見当たらないかもしれない。 本稿では,2つのエンティティが与えられたとき,それらの関係を記述するコヒーレント文を生成するオープンリレーションモデリングタスクを提案する。 そこで本研究では,機械にエンティティの定義から学習させることで,定義的関係記述を生成する方法を提案する。 具体的には、抽出されたエンティティペアに条件付き定義を生成するために、事前学習言語モデル(PLM)を微調整する。 エンティティ間のplm推論を支援し、オープンリレーションモデリングのためにplmに追加のリレーショナル知識を提供するため、kgsに推論パスを取り入れ、推論パス選択機構を含む。 我々は, PLM が信頼度推定によって解釈可能かつ情報的推論経路を選択できることを示し, 選択した経路が PLM を誘導し, より優れた関係記述を生成することを示す。 実験の結果,本モデルは,エンティティと関係の代表的特徴を捉えた簡潔で有益な関係記述を生成できることがわかった。

Relations between entities can be represented by different instances, e.g., a sentence containing both entities or a fact in a Knowledge Graph (KG). However, these instances may not well capture the general relations between entities, may be difficult to understand by humans, even may not be found due to the incompleteness of the knowledge source. In this paper, we introduce the Open Relation Modeling task - given two entities, generate a coherent sentence describing the relation between them. To solve this task, we propose to teach machines to generate definition-like relation descriptions by letting them learn from definitions of entities. Specifically, we fine-tune Pre-trained Language Models (PLMs) to produce definitions conditioned on extracted entity pairs. To help PLMs reason between entities and provide additional relational knowledge to PLMs for open relation modeling, we incorporate reasoning paths in KGs and include a reasoning path selection mechanism. We show that PLMs can select interpretable and informative reasoning paths by confidence estimation, and the selected path can guide PLMs to generate better relation descriptions. Experimental results show that our model can generate concise but informative relation descriptions that capture the representative characteristics of entities and relations.
翻訳日:2021-08-23 13:39:26 公開日:2021-08-20
# CIGLI:言語と画像からの条件付き画像生成

CIGLI: Conditional Image Generation from Language & Image ( http://arxiv.org/abs/2108.08955v1 )

ライセンス: Link先を確認
Xiaopeng Lu, Lynnette Ng, Jared Fernandez, Hao Zhu(参考訳) マルチモーダル世代は近年広く研究されている。 現在の研究方向は、画像に基づいてテキストを生成するか、その逆である。 本稿では,cigli: conditional image generation from language and imageというタスクを提案する。 テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。 テキスト記述が両方の画像からの情報を記述し,その記述のみを分析するだけで画像を生成することができないことを保証するために,新たなデータセットを設計した。 そこで本研究では,定量的(自動)評価と質的(人間)評価により,確立した2つのベースライン法の性能を向上させる新しい言語・画像融合モデルを提案する。 コードとデータセットはhttps://github.com/v incentlux/cigliで入手できる。

Multi-modal generation has been widely explored in recent years. Current research directions involve generating text based on an image or vice versa. In this paper, we propose a new task called CIGLI: Conditional Image Generation from Language and Image. Instead of generating an image based on text as in text-image generation, this task requires the generation of an image from a textual description and an image prompt. We designed a new dataset to ensure that the text description describes information from both images, and that solely analyzing the description is insufficient to generate an image. We then propose a novel language-image fusion model which improves the performance over two established baseline methods, as evaluated by quantitative (automatic) and qualitative (human) evaluations. The code and dataset is available at https://github.com/v incentlux/CIGLI.
翻訳日:2021-08-23 13:39:04 公開日:2021-08-20
# ローカライズ、グループ、選択:シーンテキストモデリングによるテキストVQAの強化

Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling ( http://arxiv.org/abs/2108.08965v1 )

ライセンス: Link先を確認
Xiaopeng Lu, Zhen Fan, Yansen Wang, Jean Oh, Carolyn P. Rose(参考訳) マルチモーダルな文脈理解における重要な課題として,テキストVQA (Visual Question Answering) は,画像中のテキスト情報を読み取って質問応答を行うことを目的とする。 Text-VQAは、クロスモーダルグラウンド機能に加えて、大量のシーン・テキスト関係の理解を必要とするため、オリジナルのVQAタスクと差別化されている。 本稿では,複数の側面からこの問題に対処する新しいモデルであるLocalize, Group, and Select(LOGOS)を提案する。 LOGOSは2つのグラウンディングタスクを活用して、画像のキー情報をよりよくローカライズし、シーンテキストクラスタリングを使用して個々のOCRトークンをグループ化し、OCRテキストの異なるソースから最適な回答を選択することを学ぶ。 実験により、LOGOSは2つのText-VQAベンチマークにおいて、追加のOCRアノテーションデータを用いることなく、従来の最先端メソッドよりも優れていることが示された。 アブレーション研究と分析は、異なるモダリティをブリッジし、シーンテキストをよりよく理解するLOGOSの能力を示している。

As an important task in multimodal context understanding, Text-VQA (Visual Question Answering) aims at question answering through reading text information in images. It differentiates from the original VQA task as Text-VQA requires large amounts of scene-text relationship understanding, in addition to the cross-modal grounding capability. In this paper, we propose Localize, Group, and Select (LOGOS), a novel model which attempts to tackle this problem from multiple aspects. LOGOS leverages two grounding tasks to better localize the key information of the image, utilizes scene text clustering to group individual OCR tokens, and learns to select the best answer from different sources of OCR (Optical Character Recognition) texts. Experiments show that LOGOS outperforms previous state-of-the-art methods on two Text-VQA benchmarks without using additional OCR annotation data. Ablation studies and analysis demonstrate the capability of LOGOS to bridge different modalities and better understand scene text.
翻訳日:2021-08-23 13:38:52 公開日:2021-08-20
# 弱教師付き関節異常検出と分類

Weakly-supervised Joint Anomaly Detection and Classification ( http://arxiv.org/abs/2108.08996v1 )

ライセンス: Link先を確認
Snehashis Majhi, Srijan Das, Francois Bremond, Ratnakar Dash and Pankaj Kumar Sa(参考訳) 強盗、爆発、事故などの異常行為。 現実世界の監視システムに 人命と財産の喪失を 防ぐための即時行動が必要です 最近の監視システムにおける自動化は、異常を検出することができるが、異常を分類し、必要な予防措置を取るための人間の努力が必要である。 これは現実のシナリオに対して異常検出と分類を行う方法論が欠如しているためである。 即時行動を必要とする異常を検出・分類できる完全自動化型監視システムを考えると,共同異常検出・分類手法が必要となる。 近代的な深層建築を訓練するための重要な要素である, 異常クラスに関連する濃密な注釈付きビデオが利用できないため, 異常の同時検出と分類が困難になる。 さらに、手作業でやることは不可能に思える。 そこで本研究では,弱い教師付き学習パラダイムを採用し,単一フレームワークにおける異常検出と分類を共同で行う手法を提案する。 濃密な時間的アノテーションの代わりに弱教師付き学習では、ビデオレベルのラベルだけが学習に十分である。 提案モデルは,大規模公開可能なUCF-Crimeデータセット上で検証され,最先端の結果が得られた。

Anomaly activities such as robbery, explosion, accidents, etc. need immediate actions for preventing loss of human life and property in real world surveillance systems. Although the recent automation in surveillance systems are capable of detecting the anomalies, but they still need human efforts for categorizing the anomalies and taking necessary preventive actions. This is due to the lack of methodology performing both anomaly detection and classification for real world scenarios. Thinking of a fully automatized surveillance system, which is capable of both detecting and classifying the anomalies that need immediate actions, a joint anomaly detection and classification method is a pressing need. The task of joint detection and classification of anomalies becomes challenging due to the unavailability of dense annotated videos pertaining to anomalous classes, which is a crucial factor for training modern deep architecture. Furthermore, doing it through manual human effort seems impossible. Thus, we propose a method that jointly handles the anomaly detection and classification in a single framework by adopting a weakly-supervised learning paradigm. In weakly-supervised learning instead of dense temporal annotations, only video-level labels are sufficient for learning. The proposed model is validated on a large-scale publicly available UCF-Crime dataset, achieving state-of-the-art results.
翻訳日:2021-08-23 13:38:33 公開日:2021-08-20
# 解析合成ネットワークを用いた単一水中画像強調

Single Underwater Image Enhancement Using an Analysis-Synthesis Network ( http://arxiv.org/abs/2108.09023v1 )

ライセンス: Link先を確認
Zhengyong Wang, Liquan Shen, Mei Yu, Yufei Lin and Qiuyu Zhu(参考訳) 水中画像強調のためのほとんどの深層モデルは、水中画像形成モデルに基づく合成データセットの訓練に頼っている。 Although promising performances have been achieved, they are still limited by two problems: (1) existing underwater image synthesis models have an intrinsic limitation, in which the homogeneous ambient light is usually randomly generated and many important dependencies are ignored, and thus the synthesized training data cannot adequately express characteristics of real underwater environments; (2) most of deep models disregard lots of favorable underwater priors and heavily rely on training data, which extensively limits their application ranges. これらの制限に対処するために、改良された環境光合成方程式を組み込んだ新しい水中合成データセットがまず確立された。 改訂された方程式は、RGBチャネルにおける周囲光の強度値と、表面オブジェクトの深さや水の種類などの多くの依存関係との間の複雑な数学的関係を明確に定義し、実際の水中のシーンの外観をシミュレートするのに役立つ。 第2に,先行(水中ドメイン知識)とデータ情報(水中歪み分布)の協調による水中画像の効果的向上が可能な統合フレームワークANA-SYNを提案する。 提案フレームワークは、分析ネットワークと合成ネットワークと、事前探索のためのものと、事前統合のためのものである。 より正確な事前情報を活用するために、解析ネットワークにおいて、入力画像の各先行画像の重要性を探索し、適応重み付けモジュールを動的に再分類するように設計する。 一方、合成ネットワークに新しい事前誘導モジュールを導入し、先行特徴とデータ特徴を効果的に集約し、より合理的な画像強調を行うためのより良いハイブリッド情報を提供する。

Most deep models for underwater image enhancement resort to training on synthetic datasets based on underwater image formation models. Although promising performances have been achieved, they are still limited by two problems: (1) existing underwater image synthesis models have an intrinsic limitation, in which the homogeneous ambient light is usually randomly generated and many important dependencies are ignored, and thus the synthesized training data cannot adequately express characteristics of real underwater environments; (2) most of deep models disregard lots of favorable underwater priors and heavily rely on training data, which extensively limits their application ranges. To address these limitations, a new underwater synthetic dataset is first established, in which a revised ambient light synthesis equation is embedded. The revised equation explicitly defines the complex mathematical relationship among intensity values of the ambient light in RGB channels and many dependencies such as surface-object depth, water types, etc, which helps to better simulate real underwater scene appearances. Secondly, a unified framework is proposed, named ANA-SYN, which can effectively enhance underwater images under collaborations of priors (underwater domain knowledge) and data information (underwater distortion distribution). The proposed framework includes an analysis network and a synthesis network, one for priors exploration and another for priors integration. To exploit more accurate priors, the significance of each prior for the input image is explored in the analysis network and an adaptive weighting module is designed to dynamically recalibrate them. Meanwhile, a novel prior guidance module is introduced in the synthesis network, which effectively aggregates the prior and data features and thus provides better hybrid information to perform the more reasonable image enhancement.
翻訳日:2021-08-23 13:38:14 公開日:2021-08-20
# 分布的ロバスト学習

Distributionally Robust Learning ( http://arxiv.org/abs/2108.08993v1 )

ライセンス: Link先を確認
Ruidi Chen, Ioannis Ch. Paschalidis(参考訳) このモノグラフは、ワッサーシュタイン計量の下で分布ロバスト最適化(DRO)を用いてデータ中の(分配的な)摂動に頑健な包括的な統計学習フレームワークを開発する。 ワッサーシュタイン計量とDROの定式化の基本的な性質から始め、抽出可能な定式化に到達する双対性を探求し、漸近的かつ性能保証とともに有限サンプルを開発する。 i) 分布的ロバストな線形回帰, (ii) 予測系における群構造を伴う分布的ロバスト回帰, (iii) 分布的ロバストな多重出力回帰と多クラス分類, (iv) 分布的ロバストな回帰と近近距離推定を組み合わせた最適意思決定, (v) 分布的ロバストな半教師付き学習, (vi) 分布的ロバストな強化学習など, 一連の学習問題を考える。 各問題に対する扱いやすいdro緩和が導出され、ロバスト性と正則化の関係が確立され、解の予測と推定誤差の境界が得られる。 理論以外にも,合成データと実データを用いた数値実験やケーススタディも含む。 実際のデータ実験は、すべて健康情報学のさまざまな問題と関連づけられている。

This monograph develops a comprehensive statistical learning framework that is robust to (distributional) perturbations in the data using Distributionally Robust Optimization (DRO) under the Wasserstein metric. Beginning with fundamental properties of the Wasserstein metric and the DRO formulation, we explore duality to arrive at tractable formulations and develop finite-sample, as well as asymptotic, performance guarantees. We consider a series of learning problems, including (i) distributionally robust linear regression; (ii) distributionally robust regression with group structure in the predictors; (iii) distributionally robust multi-output regression and multiclass classification, (iv) optimal decision making that combines distributionally robust regression with nearest-neighbor estimation; (v) distributionally robust semi-supervised learning, and (vi) distributionally robust reinforcement learning. A tractable DRO relaxation for each problem is being derived, establishing a connection between robustness and regularization, and obtaining bounds on the prediction and estimation errors of the solution. Beyond theory, we include numerical experiments and case studies using synthetic and real data. The real data experiments are all associated with various health informatics problems, an application area which provided the initial impetus for this work.
翻訳日:2021-08-23 13:37:49 公開日:2021-08-20
# 低ランク動的モード分解のための最先端アルゴリズム

State-Of-The-Art Algorithms For Low-Rank Dynamic Mode Decomposition ( http://arxiv.org/abs/2108.09160v1 )

ライセンス: Link先を確認
Patrick Heas and Cedric Herzet(参考訳) この技術ノートは,低ランクダイナミックモード分解(DMD)を用いた高次元力学系の線形近似のための最先端アルゴリズムを概観する。 論文のいくつかの部分を「低ランクな動的モード分解:正確かつトラクタブルな解」と繰り返しながら、この研究は最先端の手法の全体像を構築するのに有用な追加の詳細を提供する。

This technical note reviews sate-of-the-art algorithms for linear approximation of high-dimensional dynamical systems using low-rank dynamic mode decomposition (DMD). While repeating several parts of our article "low-rank dynamic mode decomposition: an exact and tractable solution", this work provides additional details useful for building a comprehensive picture of state-of-the-art methods.
翻訳日:2021-08-23 13:37:23 公開日:2021-08-20
# 不均衡トレーニングデータを用いた医用画像分類のための半教師付き学習

Semi-supervised learning for medical image classification using imbalanced training data ( http://arxiv.org/abs/2108.08956v1 )

ライセンス: Link先を確認
Tri Huynh, Aiden Nibali and Zhen He(参考訳) 医用画像分類は、高価で時間を要するアノテーションプロトコルによるラベル付き例の欠如と、より広い人口における疾患陽性個体の相対的不足によるクラスラベルの不均衡の2つの理由により、しばしば困難である。 ラベルの欠如を扱うための半教師付き学習(SSL)手法は存在するが、一般にクラス不均衡の問題には対処しない。 本研究では,摂動型SSL方式における整合性損失の代替として,適応的Blended Consistency Loss (ABCL)を提案する。 ABCLは、クラス周波数に応じて、目標とする一貫性損失のクラス分布を適応的に混合してデータスキューに対処する。 abclを用いた実験により,2つの不均衡医用画像分類データセットにおける非重み付け平均リコールの改善が,クラス不均衡対策として設計されていない既存の一貫性損失と比較して明らかにされた。

Medical image classification is often challenging for two reasons: a lack of labelled examples due to expensive and time-consuming annotation protocols, and imbalanced class labels due to the relative scarcity of disease-positive individuals in the wider population. Semi-supervised learning (SSL) methods exist for dealing with a lack of labels, but they generally do not address the problem of class imbalance. In this study we propose Adaptive Blended Consistency Loss (ABCL), a drop-in replacement for consistency loss in perturbation-based SSL methods. ABCL counteracts data skew by adaptively mixing the target class distribution of the consistency loss in accordance with class frequency. Our experiments with ABCL reveal improvements to unweighted average recall on two different imbalanced medical image classification datasets when compared with existing consistency losses that are not designed to counteract class imbalance.
翻訳日:2021-08-23 13:37:00 公開日:2021-08-20
# 自然分布シフトを用いたオンライン連続学習:ビジュアルデータを用いた実証的研究

Online Continual Learning with Natural Distribution Shifts: An Empirical Study with Visual Data ( http://arxiv.org/abs/2108.09020v1 )

ライセンス: Link先を確認
Zhipeng Cai and Ozan Sener and Vladlen Koltun(参考訳) 継続的な学習は、複数のタスクや環境を通して知識を学習し、保持する問題である。 研究は主に、新しいタスク/クラスを離散的な時間間隔で追加するインクリメンタルな分類設定に焦点を当てている。 このような「オフライン」設定は、エージェントがタスクを追加しても時間制限なく複数の学習エポックを実行できるため、効果的かつ効率的に学習するエージェントの能力を評価するものではない。 タスク境界のない単一連続ストリームであるオンライン連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。 オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。 訓練されたモデルは、情報保持を評価するために履歴データに基づいて評価される。 大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを導入する。 大規模解析により、連続学習における勾配に基づく最適化の重要かつ未観測の現象を特定し、実データを用いて勾配に基づくオンライン連続学習を改善する効果的な戦略を提案する。 ソースコードとデータセットは、 https://github.com/I ntelLabs/continualle arning.comで入手できる。

Continual learning is the problem of learning and retaining knowledge through time over multiple tasks and environments. Research has primarily focused on the incremental classification setting, where new tasks/classes are added at discrete time intervals. Such an "offline" setting does not evaluate the ability of agents to learn effectively and efficiently, since an agent can perform multiple learning epochs without any time limitation when a task is added. We argue that "online" continual learning, where data is a single continuous stream without task boundaries, enables evaluating both information retention and online learning efficacy. In online continual learning, each incoming small batch of data is first used for testing and then added to the training set, making the problem truly online. Trained models are later evaluated on historical data to assess information retention. We introduce a new benchmark for online continual visual learning that exhibits large scale and natural distribution shifts. Through a large-scale analysis, we identify critical and previously unobserved phenomena of gradient-based optimization in continual learning, and propose effective strategies for improving gradient-based online continual learning with real data. The source code and dataset are available in: https://github.com/I ntelLabs/continualle arning.
翻訳日:2021-08-23 13:36:44 公開日:2021-08-20
# CNNを医療用トランスフォーマーに置き換える時が来たか?

Is it Time to Replace CNNs with Transformers for Medical Images? ( http://arxiv.org/abs/2108.09038v1 )

ライセンス: Link先を確認
Christos Matsoukas, Johan Fredin Haslum, Magnus S\"oderberg and Kevin Smith(参考訳) 畳み込みニューラルネットワーク(cnns)は、医療画像の自動診断に対するデファクトアプローチとして10年間にわたって支配されてきた。 近年、視覚トランスフォーマー(vits)はcnnの代替品として登場し、同様のレベルの性能を実現しつつ、医療画像処理に有益ないくつかの興味深い特性を持っている。 この作業では、トランスフォーマーベースのモデルに移行する時期なのか、CNNで作業を続けるべきなのか、簡単にトランスフォーマーに切り替えられるのか、検討する。 もしそうなら、医用画像診断のためにViTsに切り替える利点と欠点は何でしょうか? これらの質問は、3つの主要な医療画像データセットに関する一連の実験で考察する。 以上の結果から,既定ハイパーパラメータを用いた市販の視覚トランスフォーマーはimagenetで事前トレーニングした場合はcnnと同等であり,自己スーパービジョンで事前トレーニングした場合はcnnのトランスフォーマーよりも優れていた。

Convolutional Neural Networks (CNNs) have reigned for a decade as the de facto approach to automated medical image diagnosis. Recently, vision transformers (ViTs) have appeared as a competitive alternative to CNNs, yielding similar levels of performance while possessing several interesting properties that could prove beneficial for medical imaging tasks. In this work, we explore whether it is time to move to transformer-based models or if we should keep working with CNNs - can we trivially switch to transformers? If so, what are the advantages and drawbacks of switching to ViTs for medical image diagnosis? We consider these questions in a series of experiments on three mainstream medical image datasets. Our findings show that, while CNNs perform better when trained from scratch, off-the-shelf vision transformers using default hyperparameters are on par with CNNs when pretrained on ImageNet, and outperform their CNN counterparts when pretrained using self-supervision.
翻訳日:2021-08-23 13:36:26 公開日:2021-08-20
# 逆ロバスト分類器の生成能力の理解に向けて

Towards Understanding the Generative Capability of Adversarially Robust Classifiers ( http://arxiv.org/abs/2108.09093v1 )

ライセンス: Link先を確認
Yao Zhu, Jiacheng Ma, Jiacheng Sun, Zewei Chen, Rongxin Jiang, Zhenguo Li(参考訳) 最近では、逆向きに頑健な分類器が生成モデルに匹敵する優れた画像を生成できる興味深い現象が発見されている。 我々は,この現象をエネルギーの観点から検討し,新しい説明を与える。 我々は、エネルギー関数の観点から、対向例生成、対向訓練、画像生成を再構成する。 逆行訓練は, 生成能力の鍵となる, 実データを中心とした低エネルギーで平坦なエネルギー関数の獲得に寄与することがわかった。 また,我々の新たな理解に基づいて,高品質な画像を生成し,広範囲の攻撃下で新たな最先端のロバスト性を実現する,より優れた対人訓練手法であるJEATを提案する。 JEATが生成した画像のインセプションスコア(CIFAR-10)は8.80であり、オリジナルの堅牢な分類器(7.50)よりもはるかに優れている。 特に, CIFAR-10 (57.20%から62.04%) と CIFAR-100 (30.03%から30.18%) に対して, 余分なトレーニングデータなしで新たな最先端の堅牢性を実現する。

Recently, some works found an interesting phenomenon that adversarially robust classifiers can generate good images comparable to generative models. We investigate this phenomenon from an energy perspective and provide a novel explanation. We reformulate adversarial example generation, adversarial training, and image generation in terms of an energy function. We find that adversarial training contributes to obtaining an energy function that is flat and has low energy around the real data, which is the key for generative capability. Based on our new understanding, we further propose a better adversarial training method, Joint Energy Adversarial Training (JEAT), which can generate high-quality images and achieve new state-of-the-art robustness under a wide range of attacks. The Inception Score of the images (CIFAR-10) generated by JEAT is 8.80, much better than original robust classifiers (7.50). In particular, we achieve new state-of-the-art robustness on CIFAR-10 (from 57.20% to 62.04%) and CIFAR-100 (from 30.03% to 30.18%) without extra training data.
翻訳日:2021-08-23 13:36:08 公開日:2021-08-20
# fedskel: スケルトン勾配更新によるヘテロジニアスシステムの効率的なフェデレーション学習

FedSkel: Efficient Federated Learning on Heterogeneous Systems with Skeleton Gradients Update ( http://arxiv.org/abs/2108.09081v1 )

ライセンス: Link先を確認
Junyu Luo, Jianlei Yang, Xucheng Ye, Xin Guo, Weisheng Zhao(参考訳) フェデレーション学習は、異なる参加者からのデータ分析を実行しながら、ユーザのプライバシーを保護することを目的としている。 しかし,様々な計算能力と通信ボトルネックにより,異種システムのトレーニング効率を保証することは困難である。 本研究では,モデルの本質的部分であるスケルトンネットワークを更新するだけで,エッジデバイス上での計算効率と通信効率のよいフェデレーション学習を実現するためのFedSkelを提案する。 fedskelは、不均衡データセットを持つ実際のエッジデバイスで評価される。 実験の結果、CONV層のバックプロパゲーションの最大5.52$\times$スピードアップ、トレーニングプロセス全体の1.82$\times$スピードアップを実現し、64.8%の通信コストを削減できることがわかった。

Federated learning aims to protect users' privacy while performing data analysis from different participants. However, it is challenging to guarantee the training efficiency on heterogeneous systems due to the various computational capabilities and communication bottlenecks. In this work, we propose FedSkel to enable computation-efficien t and communication-effici ent federated learning on edge devices by only updating the model's essential parts, named skeleton networks. FedSkel is evaluated on real edge devices with imbalanced datasets. Experimental results show that it could achieve up to 5.52$\times$ speedups for CONV layers' back-propagation, 1.82$\times$ speedups for the whole training process, and reduce 64.8% communication cost, with negligible accuracy loss.
翻訳日:2021-08-23 13:34:58 公開日:2021-08-20
# コールドスタートレコメンデーションにおけるライフタイム値最適化のための強化学習

Reinforcement Learning to Optimize Lifetime Value in Cold-Start Recommendation ( http://arxiv.org/abs/2108.09141v1 )

ライセンス: Link先を確認
Luo Ji and Qin Qi and Bingqing Han and Hongxia Yang(参考訳) 現代のEコマースプラットフォームにおいて、レコメンダシステムは重要な役割を果たす。 ユーザーとアイテム間の歴史的相互作用が欠如しているため、コールドスタート推奨は難しい問題である。 コールドスタート問題を軽減するため、既存の手法では補助情報としてコンテンツや文脈情報を導入している。 しかしながら、これらの手法は推奨項目が時間とともに着実に振る舞うと仮定する一方で、典型的なEコマースのシナリオでは、一般的にその期間を通して非常に異なるパフォーマンスを持つ。 このような場合、通常従来の方法では無視される項目の観点から長期的なリターンを考えることは有益である。 強化学習 (Reinforcement Learning, RL) はこのような長期最適化問題に自然に適合し, 推薦者が高い潜在的な項目を識別し, ユーザインプレッションを積極的に割り当てて成長を促進させ, 多周期累積ゲインを改善する。 このアイデアにインスパイアされたプロセスは、部分観測可能かつ制御可能なマルコフ決定プロセス(POC-MDP)としてモデル化され、アイテム寿命値(LTV)を推奨に組み込むアクタークリティカルなRLフレームワーク(RL-LTV)が提案される。 RL-LTVにおいて、批評家はアイテムの歴史的軌跡を研究し、新鮮なアイテムの将来のLTVを予測する一方、アクターは将来のLTV期待を最大化するスコアベースのポリシーを提案する。 アクターが提案するスコアは、古典的なランキングスコアとデュアルランクのフレームワークで組み合わせられるため、レコメンデーションはLTVの考慮とバランスがとれる。 本手法は,最大規模のEコマースプラットフォームであるITVとGMVの相対的な改善率8.67%と18.03%で,強力なライブベースラインを上回っている。

Recommender system plays a crucial role in modern E-commerce platform. Due to the lack of historical interactions between users and items, cold-start recommendation is a challenging problem. In order to alleviate the cold-start issue, most existing methods introduce content and contextual information as the auxiliary information. Nevertheless, these methods assume the recommended items behave steadily over time, while in a typical E-commerce scenario, items generally have very different performances throughout their life period. In such a situation, it would be beneficial to consider the long-term return from the item perspective, which is usually ignored in conventional methods. Reinforcement learning (RL) naturally fits such a long-term optimization problem, in which the recommender could identify high potential items, proactively allocate more user impressions to boost their growth, therefore improve the multi-period cumulative gains. Inspired by this idea, we model the process as a Partially Observable and Controllable Markov Decision Process (POC-MDP), and propose an actor-critic RL framework (RL-LTV) to incorporate the item lifetime values (LTV) into the recommendation. In RL-LTV, the critic studies historical trajectories of items and predict the future LTV of fresh item, while the actor suggests a score-based policy which maximizes the future LTV expectation. Scores suggested by the actor are then combined with classical ranking scores in a dual-rank framework, therefore the recommendation is balanced with the LTV consideration. Our method outperforms the strong live baseline with a relative improvement of 8.67% and 18.03% on IPV and GMV of cold-start items, on one of the largest E-commerce platform.
翻訳日:2021-08-23 13:34:42 公開日:2021-08-20
# ディープラーニングモデルへの量子化バックドア

Quantization Backdoors to Deep Learning Models ( http://arxiv.org/abs/2108.09187v1 )

ライセンス: Link先を確認
Hua Ma, Huming Qiu, Yansong Gao, Zhi Zhang, Alsharif Abuadbba, Anmin Fu, Said Al-Sarawi, Derek Abbott(参考訳) 現在、ディープラーニング(DL)モデルをユビキタスエッジのInternet of Thingsデバイスにデプロイする需要は急増している。 しかし、DLモデルは多くの場合、サイズが大きく、大規模な計算を必要とするため、リソースが制限され32ビット浮動小数点演算が利用できないIoTデバイスに直接配置できない。 モデル量子化(model quantization)は実用的なソリューションであり、大きな高精度モデルから小さな低精度モデルに、モデル推論精度を保ちつつ、無益に計算後、モバイルデバイスや組み込みシステムへのdlデプロイを可能にする。 この研究は、標準的な量子化操作を悪用してバックドアを起動できることを明らかにする。 我々は、バックドアが休眠状態であるためにトリガーの存在下でバックドア効果を持たない完全な精度のバックドアモデルが、これまで唯一製品対応の量子化フレームワークであるデフォルトのtensorflow-lite量子化によって活性化できることを実証する。 すべての訓練されたフロート-32バックドアモデルがトリガー入力の存在下においてもバックドア効果を示さないことを確認した。 Neural CleanseやSTRIPといった最先端のフロントエンド検出アプローチは、float-32モデルのバックドアを識別できない。 フロート32の各モデルが標準のtflite後トレーニング量子化によってint-8フォーマットモデルに変換されると、バックドアは量子化モデルで活性化され、トリガーで入力すると100%近い攻撃成功率を示し、トリガーでない入力では正常に振る舞う。 この研究は、エンドユーザがオンデバイストレーニング後のモデル量子化ツールキットを使用して、フロントエンドの検査をパスしてもdlモデルのクロスプラットフォームオーバーホールをセキュリティ研究者に通知することで、ステルス的なセキュリティ脅威が発生することを強調する。

There is currently a burgeoning demand for deploying deep learning (DL) models on ubiquitous edge Internet of Things devices attributing to their low latency and high privacy preservation. However, DL models are often large in size and require large-scale computation, which prevents them from being placed directly onto IoT devices where resources are constrained and 32-bit floating-point operations are unavailable. Model quantization is a pragmatic solution, which enables DL deployment on mobile devices and embedded systems by effortlessly post-quantizing a large high-precision model into a small low-precision model while retaining the model inference accuracy. This work reveals that the standard quantization operation can be abused to activate a backdoor. We demonstrate that a full-precision backdoored model that does not have any backdoor effect in the presence of a trigger -- as the backdoor is dormant -- can be activated by the default TensorFlow-Lite quantization, the only product-ready quantization framework to date. We ascertain that all trained float-32 backdoored models exhibit no backdoor effect even in the presence of trigger inputs. State-of-the-art frontend detection approaches, such as Neural Cleanse and STRIP, fail to identify the backdoor in the float-32 models. When each of the float-32 models is converted into an int-8 format model through the standard TFLite post-training quantization, the backdoor is activated in the quantized model, which shows a stable attack success rate close to 100% upon inputs with the trigger, while behaves normally upon non-trigger inputs. This work highlights that a stealthy security threat occurs when end users utilize the on-device post-training model quantization toolkits, informing security researchers of cross-platform overhaul of DL models post quantization even if they pass frontend inspections.
翻訳日:2021-08-23 13:34:09 公開日:2021-08-20
# RISの位相構成のための分散ロバスト最適化

Federated Distributionally Robust Optimization for Phase Configuration of RISs ( http://arxiv.org/abs/2108.09026v1 )

ライセンス: Link先を確認
Chaouki Ben Issaid, Sumudu Samarakoon, Mehdi Bennis, and H. Vincent Poor(参考訳) 本稿では,教師付き学習環境における多種性RIS型に対する堅牢な再構成可能なインテリジェントサーフェス(RIS)支援ダウンリンク通信の問題について検討する。 異種RIS設計上のダウンリンク通信を分散的に最適化する方法を学ぶ異なる労働者としてモデル化することにより、分散学習問題を分散的に頑健な定式化を用いて解決し、その収束率を確立した。 これにより、最悪の作業者のグローバルモデルパフォーマンスが、他の作業者のパフォーマンスに近いことを保証する。 シミュレーションの結果,提案アルゴリズムは,競合ベースラインと同等の最悪の分布テスト精度を達成するために,通信ラウンド(約50%)を少なくできることがわかった。

In this article, we study the problem of robust reconfigurable intelligent surface (RIS)-aided downlink communication over heterogeneous RIS types in the supervised learning setting. By modeling downlink communication over heterogeneous RIS designs as different workers that learn how to optimize phase configurations in a distributed manner, we solve this distributed learning problem using a distributionally robust formulation in a communication-effici ent manner, while establishing its rate of convergence. By doing so, we ensure that the global model performance of the worst-case worker is close to the performance of other workers. Simulation results show that our proposed algorithm requires fewer communication rounds (about 50% lesser) to achieve the same worst-case distribution test accuracy compared to competitive baselines.
翻訳日:2021-08-23 13:32:50 公開日:2021-08-20
# AdvDrop:DNNに対する情報ドロップによる敵攻撃

AdvDrop: Adversarial Attack to DNNs by Dropping Information ( http://arxiv.org/abs/2108.09034v1 )

ライセンス: Link先を確認
Ranjie Duan, Yuefeng Chen, Dantong Niu, Yun Yang, A. K. Qin, Yuan He(参考訳) 人間は、失われた情報を持つ視覚オブジェクトを容易に認識することができる。 漫画だ しかし、ディープニューラルネットワーク(dnn)の視覚知覚に関しては、抽象オブジェクト(情報を失った視覚オブジェクト)を認識する能力は依然として課題である。 本研究は,DNNの性能が,わずかな情報しか失わない画像においても低下するか,という逆の視点から,この問題を考察する。 そこで本研究では,画像の既存情報を削除することで,敵の例を再現する新たな攻撃手法であるtextit{AdvDrop}を提案する。 これまでは、ほとんどの敵攻撃は、クリーンな画像に余計な乱雑な情報を加えていた。 従来の研究に対抗して,本研究では,DNNモデルの対角的堅牢性について,非知覚的な詳細をクラフト対向例に落とし込むことにより,新たな視点で検討する。 広範にわたる実験により, \textit{advdrop}の有効性を実証し,この新たなタイプの敵対的例は,現在の防衛システムによって防御されるのがより困難であることを示す。

Human can easily recognize visual objects with lost information: even losing most details with only contour reserved, e.g. cartoon. However, in terms of visual perception of Deep Neural Networks (DNNs), the ability for recognizing abstract objects (visual objects with lost information) is still a challenge. In this work, we investigate this issue from an adversarial viewpoint: will the performance of DNNs decrease even for the images only losing a little information? Towards this end, we propose a novel adversarial attack, named \textit{AdvDrop}, which crafts adversarial examples by dropping existing information of images. Previously, most adversarial attacks add extra disturbing information on clean images explicitly. Opposite to previous works, our proposed work explores the adversarial robustness of DNN models in a novel perspective by dropping imperceptible details to craft adversarial examples. We demonstrate the effectiveness of \textit{AdvDrop} by extensive experiments, and show that this new type of adversarial examples is more difficult to be defended by current defense systems.
翻訳日:2021-08-23 13:32:25 公開日:2021-08-20
# SMedBERT:医療用テキストマイニングのための構造化意味論的知識強化型事前学習言語モデル

SMedBERT: A Knowledge-Enhanced Pre-trained Language Model with Structured Semantics for Medical Text Mining ( http://arxiv.org/abs/2108.08983v1 )

ライセンス: Link先を確認
Taolin Zhang, Zerui Cai, Chengyu Wang, Minghui Qiu, Bite Yang, Xiaofeng He(参考訳) 近年,言語理解能力を高めるために知識事実を注入することにより,事前学習言語モデル(PLM)の性能が大幅に向上している。 医学領域では、膨大な医学用語とそれらの複雑な関係がテキストで理解しにくいため、背景知識源は特に有用である。 本研究では,大規模医療コーパスを訓練した医療用PLMであるSMedBERTを紹介する。SMedBERTでは,近縁者の近縁者からの深い構造的意味的知識を取り入れて,異種関係情報を学習し,エンティティタイプの意味的表現を同質な隣接エンティティ構造に注入する。 外部機能としての知識統合は別として、知識グラフ内のリンクエンティティの隣人をテキスト参照のグローバルなコンテキストとして利用し、共有された隣人を介してコミュニケーションし、セマンティック表現を豊かにすることを提案する。 SMedBERTは、様々な知識集約的な中国の医療タスクにおいて、強いベースラインを著しく上回ることを示した。 質問応答や質問マッチング,自然言語推論など,他のタスクのパフォーマンスも向上している。

Recently, the performance of Pre-trained Language Models (PLMs) has been significantly improved by injecting knowledge facts to enhance their abilities of language understanding. For medical domains, the background knowledge sources are especially useful, due to the massive medical terms and their complicated relations are difficult to understand in text. In this work, we introduce SMedBERT, a medical PLM trained on large-scale medical corpora, incorporating deep structured semantic knowledge from neighbors of linked-entity.In SMedBERT, the mention-neighbor hybrid attention is proposed to learn heterogeneous-entity information, which infuses the semantic representations of entity types into the homogeneous neighboring entity structure. Apart from knowledge integration as external features, we propose to employ the neighbors of linked-entities in the knowledge graph as additional global contexts of text mentions, allowing them to communicate via shared neighbors, thus enrich their semantic representations. Experiments demonstrate that SMedBERT significantly outperforms strong baselines in various knowledge-intensive Chinese medical tasks. It also improves the performance of other tasks such as question answering, question matching and natural language inference.
翻訳日:2021-08-23 13:31:49 公開日:2021-08-20
# GEDIT: Baidu Mapsにおける共同POIとアクセシビリティ抽出のための地理的拡張および依存性誘導タグ

GEDIT: Geographic-Enhanced and Dependency-Guided Tagging for Joint POI and Accessibility Extraction at Baidu Maps ( http://arxiv.org/abs/2108.09104v1 )

ライセンス: Link先を確認
Yibo Sun, Jizhou Huang, Chunyuan Yuan, Miao Fan, Haifeng Wang, Ming Liu, Bing Qin(参考訳) poi(point-of-interes t)のタイムリーなアクセシビリティリマインダーの提供は、場所の発見や訪問判断に対するユーザの満足度向上に重要な役割を果たします。 しかし、ビジネスの変化の動的な性質のため、POIデータベースを現実世界のデータベースと同期させることは困難です。 この問題を軽減するために,非構造化テキストからPOIの言及を共同で抽出し,それらが結合したアクセシビリティラベルを識別する実用的なソリューションを定式化し提示する。 非構造化テキストから<poi名,アクセシビリティラベル>ペアを生成することを目的として,シーケンスタグ問題としてこのタスクにアプローチする。 この課題は,(1)POI の名称が新しいエンティティやブランドの登録に成功するためにしばしば新しくコピーされた単語であり,(2) テキスト内に複数のペアが存在し,各POI をアクセシビリティラベルと組み合わせるために1対のマッピングや複数対のマッピングを必要とする,という2つの問題のために難しい。 そこで本稿では,GEDIT(Geographic-En hanced and Dependency-GuIded sequence Tagging)モデルを提案する。 まず、チャレンジ#1を緩和するために、テキスト表現を学ぶために、地理エンハンスド事前学習モデルを開発した。 第2の課題を緩和するために,関係グラフ畳み込みネットワークを適用し,解析された依存木から木ノード表現を学習する。 最後に、事前に学習した表現をCRF層に統合し、入力することで、ニューラルシーケンスタグ付けモデルを構築する。 実世界のデータセット上で行われた大規模な実験は、GEDITの優位性と有効性を示している。 さらに、すでにBaidu Mapsで本番環境にデプロイされている。 統計によれば、提案されたソリューションは、同じ量の文書を扱うためにかなりの人的労力と労働コストを節約でき、poiアクセシビリティ維持のための実用的な方法であることが示されている。

Providing timely accessibility reminders of a point-of-interest (POI) plays a vital role in improving user satisfaction of finding places and making visiting decisions. However, it is difficult to keep the POI database in sync with the real-world counterparts due to the dynamic nature of business changes. To alleviate this problem, we formulate and present a practical solution that jointly extracts POI mentions and identifies their coupled accessibility labels from unstructured text. We approach this task as a sequence tagging problem, where the goal is to produce <POI name, accessibility label> pairs from unstructured text. This task is challenging because of two main issues: (1) POI names are often newly-coined words so as to successfully register new entities or brands and (2) there may exist multiple pairs in the text, which necessitates dealing with one-to-many or many-to-one mapping to make each POI coupled with its accessibility label. To this end, we propose a Geographic-Enhanced and Dependency-guIded sequence Tagging (GEDIT) model to concurrently address the two challenges. First, to alleviate challenge #1, we develop a geographic-enhanced pre-trained model to learn the text representations. Second, to mitigate challenge #2, we apply a relational graph convolutional network to learn the tree node representations from the parsed dependency tree. Finally, we construct a neural sequence tagging model by integrating and feeding the previously pre-learned representations into a CRF layer. Extensive experiments conducted on a real-world dataset demonstrate the superiority and effectiveness of GEDIT. In addition, it has already been deployed in production at Baidu Maps. Statistics show that the proposed solution can save significant human effort and labor costs to deal with the same amount of documents, which confirms that it is a practical way for POI accessibility maintenance.
翻訳日:2021-08-23 13:31:27 公開日:2021-08-20
# Span-based BERTリレーション抽出モデルを用いた正常化解剖情報による放射線学的所見の抽出

Extracting Radiological Findings With Normalized Anatomical Information Using a Span-Based BERT Relation Extraction Model ( http://arxiv.org/abs/2108.09211v1 )

ライセンス: Link先を確認
Kevin Lybarger, Aashka Damani, Martin Gunn, Ozlem Uzuner, Meliha Yetisgen(参考訳) 医療画像は、多くのがんを含む多くの医学的問題の診断と治療に重要である。 医用イメージングレポートは、放射線医の発見と観察を精査し、非構造的医療画像の非構造的テキスト表現を作成する。 このテキストエンコードされた情報の大規模利用には、構造化されていないテキストを構造化された意味表現に変換する必要がある。 放射線学的所見に関連する放射線学的報告における解剖学的情報の抽出と正規化について検討する。 本研究では,BERTを用いてエンティティと関係を共同抽出するスパンベース関係抽出モデルを用いて,この抽出と正規化タスクについて検討する。 本研究は, 身体部分・臓器系, 発生頻度, 長さ, 多様性など, 抽出および正規化性能に影響を与える要因について検討する。 放射学現象の性能向上と高品質な意味表現の創出について論じる。

Medical imaging is critical to the diagnosis and treatment of numerous medical problems, including many forms of cancer. Medical imaging reports distill the findings and observations of radiologists, creating an unstructured textual representation of unstructured medical images. Large-scale use of this text-encoded information requires converting the unstructured text to a structured, semantic representation. We explore the extraction and normalization of anatomical information in radiology reports that is associated with radiological findings. We investigate this extraction and normalization task using a span-based relation extraction model that jointly extracts entities and relations using BERT. This work examines the factors that influence extraction and normalization performance, including the body part/organ system, frequency of occurrence, span length, and span diversity. It discusses approaches for improving performance and creating high-quality semantic representations of radiological phenomena.
翻訳日:2021-08-23 13:30:52 公開日:2021-08-20
# ブロードXAIのための説明可能な強化学習:概念的枠組みと調査

Explainable Reinforcement Learning for Broad-XAI: A Conceptual Framework and Survey ( http://arxiv.org/abs/2108.09003v1 )

ライセンス: Link先を確認
Richard Dazeley, Peter Vamplew, Francisco Cruz(参考訳) Broad Explainable Artificial Intelligenceは、単一のダタムに基づいて個々の決定を解釈することから離れ、複数の機械学習アルゴリズムから、説明者のコミュニケーションニーズに合わせたエージェントの振る舞いの一貫性のある説明への統合的な説明を提供することを目指している。 本稿では,Broad-XAIの開発に必要な認知モデルのバックボーンとして,強化学習(RL)手法を提案する。 RLは、さまざまなシーケンシャルな意思決定問題の解決に成功している一連のアプローチである。 しかし、これらのアルゴリズムはすべてブラックボックス問題解決器として動作し、複雑な値と関数の配列を通して意思決定ポリシーを省略する。 説明可能なRL(XRL)は、エージェントから概念を抽出する技術を開発することを目的とした、比較的最近の研究分野である。 本稿では,現在のXRL研究を統合し,Broad-XAI開発のバックボーンとしてRLを用いるCausal XRL Framework(CXF)という概念的フレームワークを導入することを目的とする。 さらに,RL手法には,エージェントが環境に適応できるように,さまざまな技術が組み込まれていることも認識している。 CXFは、多くの標準RL拡張を組み入れ、外部オントロジーや通信設備と統合して、エージェントが結果を説明する質問に答え、決定を正当化できるように設計されている。

Broad Explainable Artificial Intelligence moves away from interpreting individual decisions based on a single datum and aims to provide integrated explanations from multiple machine learning algorithms into a coherent explanation of an agent's behaviour that is aligned to the communication needs of the explainee. Reinforcement Learning (RL) methods, we propose, provide a potential backbone for the cognitive model required for the development of Broad-XAI. RL represents a suite of approaches that have had increasing success in solving a range of sequential decision-making problems. However, these algorithms all operate as black-box problem solvers, where they obfuscate their decision-making policy through a complex array of values and functions. EXplainable RL (XRL) is relatively recent field of research that aims to develop techniques to extract concepts from the agent's: perception of the environment; intrinsic/extrinsic motivations/beliefs; Q-values, goals and objectives. This paper aims to introduce a conceptual framework, called the Causal XRL Framework (CXF), that unifies the current XRL research and uses RL as a backbone to the development of Broad-XAI. Additionally, we recognise that RL methods have the ability to incorporate a range of technologies to allow agents to adapt to their environment. CXF is designed for the incorporation of many standard RL extensions and integrated with external ontologies and communication facilities so that the agent can answer questions that explain outcomes and justify its decisions.
翻訳日:2021-08-23 13:30:39 公開日:2021-08-20
# 幾何学変換を用いた外乱画像のGANインバージョン

GAN Inversion for Out-of-Range Images with Geometric Transformations ( http://arxiv.org/abs/2108.08998v1 )

ライセンス: Link先を確認
Kyoungkook Kang, Seongtae Kim, Sunghyun Cho(参考訳) 実画像のセマンティック編集を成功させるためには、事前訓練されたGANモデルのドメインと整合するドメイン内潜在コードを見つけるために、GANインバージョン法が重要である。 残念ながら、そのようなドメイン内の潜伏符号は、GANモデルのトレーニング画像と一致する範囲内の画像に対してのみ見つかる。 本稿では,GANモデルのトレーニング画像と幾何学的に一致しない領域外画像のセマンティック編集のための新しいGAN変換手法であるBDInvertを提案する。 意味的に編集可能な潜在コードを見つけるために、bdinvertは入力された範囲外画像を元の潜在コード空間よりも別の潜在コード空間に反転させる。 また,代替空間における意味編集をサポートする解を求めるための正規化逆変換法を提案する。 実験の結果,BDInvertは幾何学的変換による領域外画像のセマンティックな編集を効果的にサポートすることがわかった。

For successful semantic editing of real images, it is critical for a GAN inversion method to find an in-domain latent code that aligns with the domain of a pre-trained GAN model. Unfortunately, such in-domain latent codes can be found only for in-range images that align with the training images of a GAN model. In this paper, we propose BDInvert, a novel GAN inversion approach to semantic editing of out-of-range images that are geometrically unaligned with the training images of a GAN model. To find a latent code that is semantically editable, BDInvert inverts an input out-of-range image into an alternative latent space than the original latent space. We also propose a regularized inversion method to find a solution that supports semantic editing in the alternative space. Our experiments show that BDInvert effectively supports semantic editing of out-of-range images with geometric transformations.
翻訳日:2021-08-23 13:29:12 公開日:2021-08-20
# 人工三次元形状のためのディープバーチャルマーカー

Deep Virtual Markers for Articulated 3D Shapes ( http://arxiv.org/abs/2108.09000v1 )

ライセンス: Link先を確認
Hyomin Kim, Jungeon Kim, Jaewon Kam, Jaesik Park, Seungyong Lee(参考訳) 我々は,様々な種類の3Dデータに対して,密集した正確な位置情報を推定するフレームワークであるディープ仮想マーカーを提案する。 我々は、人間のような3次元調音モデルの3Dポイントを仮想マーカーラベルにマッピングするフレームワークを設計し、構築する。 この枠組みを実現するために,分散畳み込みニューラルネットワークを採用し,調音モデルの3d点を仮想マーカーラベルに分類する。 測地線距離に基づくリッチで高密度なクラス間関係を学習するために, ソフトラベルを用いた分類法を提案する。 仮想マーカーのローカライズ精度を測定するために,faustチャレンジをテストし,その結果が最先端を上回った。 また,汎用性テスト,見つからないデータ評価,および異なる3次元データタイプ(メシと深度マップ)において優れた性能を示す。 非剛性登録、テクスチャ転送、深度マップからのリアルタイム高密度マーカー予測などの仮想マーカーを用いた追加の応用を示す。

We propose deep virtual markers, a framework for estimating dense and accurate positional information for various types of 3D data. We design a concept and construct a framework that maps 3D points of 3D articulated models, like humans, into virtual marker labels. To realize the framework, we adopt a sparse convolutional neural network and classify 3D points of an articulated model into virtual marker labels. We propose to use soft labels for the classifier to learn rich and dense interclass relationships based on geodesic distance. To measure the localization accuracy of the virtual markers, we test FAUST challenge, and our result outperforms the state-of-the-art. We also observe outstanding performance on the generalizability test, unseen data evaluation, and different 3D data types (meshes and depth maps). We show additional applications using the estimated virtual markers, such as non-rigid registration, texture transfer, and realtime dense marker prediction from depth maps.
翻訳日:2021-08-23 13:28:54 公開日:2021-08-20
# 条件付き画像生成のためのデュアルプロジェクション生成対向ネットワーク

Dual Projection Generative Adversarial Networks for Conditional Image Generation ( http://arxiv.org/abs/2108.09016v1 )

ライセンス: Link先を確認
Ligong Han, Martin Renqiang Min, Anastasis Stathopoulos, Yu Tian, Ruijiang Gao, Asim Kadav, Dimitris Metaxas(参考訳) conditional generative adversarial networks (cgans) は標準の無条件ganフレームワークを拡張してサンプルから共同データラベル分布を学習し、高忠実度画像を生成する強力な生成モデルとして確立されている。 このようなモデルのトレーニングの課題は、クラス情報をジェネレータや判別器に適切に注入することにある。 識別器では、(1)ラベルを直接入力として組み込むか、(2)ラベルを補助的な分類損失に含めることにより、クラス条件付けを行うことができる。 本稿では,前者がクラス条件付き偽・実データ分布 $p(\text{image}|\text{class})$ ({\em data matching}) を直接調整し,後者がデータ条件付きクラス分布 $p(\text{class}|\text{image})$ ({\em label matching}) を直接調整することを示す。 分類自体が本質的に難しい場合、クラス分離性は直接サンプル品質に変換されず、負担となるが、異なるクラスの特徴が同一点にマッピングされ、したがって分離不能になる場合、識別器はジェネレータに有用なガイダンスを提供することができない。 この直観に動機づけられて, 2重射影gan (p2gan) モデルを提案し,このモデルを用いて「emデータマッチング」と「emラベルマッチング」のバランスをとることを学ぶ。 次に、補助分類を用いた改良されたcGANモデルを提案し、$f$-divergenceを最小化することにより、偽条件と実条件を直接調整する。 gaussian(mog)データセットとcifar100、imagenet、vggface2を含む様々な実世界のデータセットを合成した実験により、提案モデルの有効性が示された。

Conditional Generative Adversarial Networks (cGANs) extend the standard unconditional GAN framework to learning joint data-label distributions from samples, and have been established as powerful generative models capable of generating high-fidelity imagery. A challenge of training such a model lies in properly infusing class information into its generator and discriminator. For the discriminator, class conditioning can be achieved by either (1) directly incorporating labels as input or (2) involving labels in an auxiliary classification loss. In this paper, we show that the former directly aligns the class-conditioned fake-and-real data distributions $P(\text{image}|\text{class})$ ({\em data matching}), while the latter aligns data-conditioned class distributions $P(\text{class}|\text{image})$ ({\em label matching}). Although class separability does not directly translate to sample quality and becomes a burden if classification itself is intrinsically difficult, the discriminator cannot provide useful guidance for the generator if features of distinct classes are mapped to the same point and thus become inseparable. Motivated by this intuition, we propose a Dual Projection GAN (P2GAN) model that learns to balance between {\em data matching} and {\em label matching}. We then propose an improved cGAN model with Auxiliary Classification that directly aligns the fake and real conditionals $P(\text{class}|\text{image})$ by minimizing their $f$-divergence. Experiments on a synthetic Mixture of Gaussian (MoG) dataset and a variety of real-world datasets including CIFAR100, ImageNet, and VGGFace2 demonstrate the efficacy of our proposed models.
翻訳日:2021-08-23 13:28:36 公開日:2021-08-20
# DeFRCN:Few-Shotオブジェクト検出のためのより高速なR-CNN

DeFRCN: Decoupled Faster R-CNN for Few-Shot Object Detection ( http://arxiv.org/abs/2108.09017v1 )

ライセンス: Link先を確認
Limeng Qiao, Yuxuan Zhao, Zhiyuan Li, Xi Qiu, Jianan Wu and Chi Zhang(参考訳) 未確認クラスの注釈を付した極めて少ない例から,新規な物体を迅速に検出することを目的とした少数ショット物体検出は,コミュニティにおいて大きな研究関心を集めている。 既存のアプローチの多くは、r-cnnを基本的な検出フレームワークとして採用しているが、データスカルスシナリオの最適化された考慮が欠如しているため、その性能は満足できないことが多い。 本稿では,従来のFaster R-CNNを詳しく検討し,その矛盾点を2つの直交的視点(RPN対RCNN)とマルチタスク(クラス化対ローカライゼーション)から解析する。 これらの問題を解決するために,Decoupled Faster R-CNN (DeFRCN) というシンプルなアーキテクチャを提案する。 具体的には、マルチステージデカップリングのためのグラディエントデカップリング層とマルチタスクデカップリングのためのプロトタイプキャリブレーションブロックを導入することで、より高速なR-CNNを拡張する。 前者は,次の層と前層を分離する特徴フォワード動作と勾配バックワード動作を再定義した,新しい深層であり,後者は,検出器の提案を入力として,元の分類スコアを追加のペアワイズスコアで高めるオフラインプロトタイプベースの分類モデルである。 複数のベンチマークに関する広範囲な実験によって、我々のフレームワークは他の既存のアプローチよりも著しく優れていることが分かり、わずかな文献で新しい最先端の手法を確立しました。

Few-shot object detection, which aims at detecting novel objects rapidly from extremely few annotated examples of previously unseen classes, has attracted significant research interest in the community. Most existing approaches employ the Faster R-CNN as basic detection framework, yet, due to the lack of tailored considerations for data-scarce scenario, their performance is often not satisfactory. In this paper, we look closely into the conventional Faster R-CNN and analyze its contradictions from two orthogonal perspectives, namely multi-stage (RPN vs. RCNN) and multi-task (classification vs. localization). To resolve these issues, we propose a simple yet effective architecture, named Decoupled Faster R-CNN (DeFRCN). To be concrete, we extend Faster R-CNN by introducing Gradient Decoupled Layer for multi-stage decoupling and Prototypical Calibration Block for multi-task decoupling. The former is a novel deep layer with redefining the feature-forward operation and gradient-backward operation for decoupling its subsequent layer and preceding layer, and the latter is an offline prototype-based classification model with taking the proposals from detector as input and boosting the original classification scores with additional pairwise scores for calibration. Extensive experiments on multiple benchmarks show our framework is remarkably superior to other existing approaches and establishes a new state-of-the-art in few-shot literature.
翻訳日:2021-08-23 13:27:51 公開日:2021-08-20
# Pixel Contrastive-Consiste nt Semi-Supervised Semantic Segmentation

Pixel Contrastive-Consiste nt Semi-Supervised Semantic Segmentation ( http://arxiv.org/abs/2108.09025v1 )

ライセンス: Link先を確認
Yuanyi Zhong, Bodi Yuan, Hong Wu, Zhiqiang Yuan, Jian Peng, Yu-Xiong Wang(参考訳) 本稿では,画像拡張間のラベル空間一貫性特性と異なる画素間の特徴空間コントラスト特性という,セグメンテーションモデルの正則性の2つのデシデラタを共同で達成した,新しい半教師付き意味セグメンテーション法を提案する。 画素レベルL2損失と画素コントラスト損失をそれぞれ2つの目的に活用する。 ピクセルのコントラスト損失に関わる計算効率問題と偽負ノイズ問題に対処するため、さらにいくつかの負サンプリング手法を紹介し、検討する。 大規模な実験では、VOC、Cityscapes、COCOデータセットから派生したいくつかの挑戦的な半教師付き設定において、DeepLab-v3+アーキテクチャによる手法(PC2Seg)の最先端性能を実証している。

We present a novel semi-supervised semantic segmentation method which jointly achieves two desiderata of segmentation model regularities: the label-space consistency property between image augmentations and the feature-space contrastive property among different pixels. We leverage the pixel-level L2 loss and the pixel contrastive loss for the two purposes respectively. To address the computational efficiency issue and the false negative noise issue involved in the pixel contrastive loss, we further introduce and investigate several negative sampling techniques. Extensive experiments demonstrate the state-of-the-art performance of our method (PC2Seg) with the DeepLab-v3+ architecture, in several challenging semi-supervised settings derived from the VOC, Cityscapes, and COCO datasets.
翻訳日:2021-08-23 13:27:21 公開日:2021-08-20
# 空間記憶ネットワークと時間記憶ネットワークによる人物再同定

Video-based Person Re-identification with Spatial and Temporal Memory Networks ( http://arxiv.org/abs/2108.09039v1 )

ライセンス: Link先を確認
Chanho Eom, Geon Lee, Junghyup Lee, Bumsub Ham(参考訳) reID(re-based person re-identification)は、複数のカメラにまたがる問い合わせ者と同じアイデンティティを持つ人物の動画を検索することを目的としている。 背景クラッタやフレーム上の部分閉塞といった人物ビデオの空間的および時間的邪魔は、この課題を画像ベースの人物のリードよりも難しくする。 空間的注意散逸が特定の場所に一貫して現れるのを観察し、時間的注意散逸は、例えば、最初の数フレームで部分的閉塞が発生するいくつかのパターンを示し、そのようなパターンは、どのフレームにフォーカスするか(例えば、時間的注意)を予測するための情報的手がかりを提供する。 そこで我々は,STMN(Spatial and Temporal Memory Networks)を提案する。 空間記憶は、ビデオフレームに頻繁に現れる空間的邪魔者の特徴を記憶し、時間記憶は、ビデオの典型的な時間的パターンに最適化された注意を節約する。 空間的および時間的記憶を利用してフレームレベルの人物表現を洗練し、洗練されたフレームレベルの特徴をシーケンスレベルの人物表現に集約し、人物ビデオにおける空間的および時間的邪魔を効果的に処理する。 また,メモリ拡散損失により,モデルがメモリ内でのみ特定の項目に対処できないことも紹介する。 MARS, DukeMTMC-VideoReID, LS-VID などの標準ベンチマーク実験の結果, 本手法の有効性が示された。

Video-based person re-identification (reID) aims to retrieve person videos with the same identity as a query person across multiple cameras. Spatial and temporal distractors in person videos, such as background clutter and partial occlusions over frames, respectively, make this task much more challenging than image-based person reID. We observe that spatial distractors appear consistently in a particular location, and temporal distractors show several patterns, e.g., partial occlusions occur in the first few frames, where such patterns provide informative cues for predicting which frames to focus on (i.e., temporal attentions). Based on this, we introduce a novel Spatial and Temporal Memory Networks (STMN). The spatial memory stores features for spatial distractors that frequently emerge across video frames, while the temporal memory saves attentions which are optimized for typical temporal patterns in person videos. We leverage the spatial and temporal memories to refine frame-level person representations and to aggregate the refined frame-level features into a sequence-level person representation, respectively, effectively handling spatial and temporal distractors in person videos. We also introduce a memory spread loss preventing our model from addressing particular items only in the memories. Experimental results on standard benchmarks, including MARS, DukeMTMC-VideoReID, and LS-VID, demonstrate the effectiveness of our method.
翻訳日:2021-08-23 13:27:03 公開日:2021-08-20
# フルフレームビデオ安定化に向けた境界外映像合成

Out-of-boundary View Synthesis Towards Full-Frame Video Stabilization ( http://arxiv.org/abs/2108.09041v1 )

ライセンス: Link先を確認
Yufei Xu, Jing Zhang, Dacheng Tao(参考訳) ワーピングベースのビデオ安定化器は、各画素の変位と、不安定なフレームからのワープ安定化を制限し、カメラ軌道を円滑にする。 しかし、ウォーピング中に境界の外の視点が得られないため、安定したフレームの境界付近の穴は、視覚的な一貫性を維持するために破棄されなければならない(つまり、トリッピング)ため、安定性とトリッピング比のトレードオフにつながる。 本稿では,新しいアウトオブバウンダリビュー合成(OVS)手法を提案することにより,この問題に対処する試みを行う。 隣接フレームと各フレーム内の空間コヒーレンスの性質により、OVSは各参照フレームに隣接フレームをアライメントすることで、境界外ビューを外挿する。 技術的には、まず光学フローを計算し、親和性に応じて外部境界領域に伝播し、それに従って画素をワープする。 OVSは、既存のワーピングベースの安定化器にプラグアンドプレイモジュールとして統合することができ、安定した結果のトリミング比を大幅に改善することができる。 また、切り欠き・再サイズによるジッタ増幅効果が低下し、安定性が向上する。 NUSベンチマークの実験結果から,OVSは客観的指標と主観的視覚的品質の観点から,5つの最先端手法の性能を向上させることができることが示された。 コードはhttps://github.com/A nnbless/OVS_Stabiliz ationで公開されている。

Warping-based video stabilizers smooth camera trajectory by constraining each pixel's displacement and warp stabilized frames from unstable ones accordingly. However, since the view outside the boundary is not available during warping, the resulting holes around the boundary of the stabilized frame must be discarded (i.e., cropping) to maintain visual consistency, and thus does leads to a tradeoff between stability and cropping ratio. In this paper, we make a first attempt to address this issue by proposing a new Out-of-boundary View Synthesis (OVS) method. By the nature of spatial coherence between adjacent frames and within each frame, OVS extrapolates the out-of-boundary view by aligning adjacent frames to each reference one. Technically, it first calculates the optical flow and propagates it to the outer boundary region according to the affinity, and then warps pixels accordingly. OVS can be integrated into existing warping-based stabilizers as a plug-and-play module to significantly improve the cropping ratio of the stabilized results. In addition, stability is improved because the jitter amplification effect caused by cropping and resizing is reduced. Experimental results on the NUS benchmark show that OVS can improve the performance of five representative state-of-the-art methods in terms of objective metrics and subjective visual quality. The code is publicly available at https://github.com/A nnbless/OVS_Stabiliz ation.
翻訳日:2021-08-23 13:26:38 公開日:2021-08-20
# 無接触指紋認識システム

A Contactless Fingerprint Recognition System ( http://arxiv.org/abs/2108.09048v1 )

ライセンス: Link先を確認
Aman Attrish, Nagasai Bharat, Vijay Anand, and Vivek Kanhangad(参考訳) 指紋は最も広く研究されている生体計測特性の1つである。 具体的には、接触型指紋認識システムが、その堅牢性、ポータビリティ、およびこの分野における広範な研究により、優位に立つ。 しかし、これらのシステムは衛生、物理的接触によるセンサーの劣化、潜在指紋の脅威などの問題に苦しんでいる。 本稿では,画像センサを用いて距離から指紋を捕捉する非接触指紋認識システムを提案する。 撮影された指の写真はさらに処理され、グローバルかつローカルな機能(minutiaeベース)が得られる。 特に、シアム畳み込みニューラルネットワーク(cnn)は、与えられた指の写真からグローバルな特徴を抽出するように設計されている。 提案システムはcnnベースの特徴とminutiaeに基づく特徴のマッチングスコアを計算する。 最後に、2つのスコアを融合してプローブと参照指紋テンプレートの最終マッチングスコアを得る。 最も重要なのは、Nvidia Jetson Nano開発キットを使用して、最小レイテンシと許容整合精度で、リアルタイムに非接触指紋認識を行うシステムである。 提案システムの性能評価は, 内装型IITI非接触指紋データセット(IITI-CFD)を用いて行った。 提案方式は,IITI-CFDで2.19%のエラー率を達成する。

Fingerprints are one of the most widely explored biometric traits. Specifically, contact-based fingerprint recognition systems reign supreme due to their robustness, portability and the extensive research work done in the field. However, these systems suffer from issues such as hygiene, sensor degradation due to constant physical contact, and latent fingerprint threats. In this paper, we propose an approach for developing a contactless fingerprint recognition system that captures finger photo from a distance using an image sensor in a suitable environment. The captured finger photos are then processed further to obtain global and local (minutiae-based) features. Specifically, a Siamese convolutional neural network (CNN) is designed to extract global features from a given finger photo. The proposed system computes matching scores from CNN-based features and minutiae-based features. Finally, the two scores are fused to obtain the final matching score between the probe and reference fingerprint templates. Most importantly, the proposed system is developed using the Nvidia Jetson Nano development kit, which allows us to perform contactless fingerprint recognition in real-time with minimum latency and acceptable matching accuracy. The performance of the proposed system is evaluated on an in-house IITI contactless fingerprint dataset (IITI-CFD) containing 105train and 100 test subjects. The proposed system achieves an equal-error-rate of 2.19% on IITI-CFD.
翻訳日:2021-08-23 13:26:14 公開日:2021-08-20
# カーネル共有並列atrous畳み込みを用いた単一画像デフォーカスデブラリング

Single Image Defocus Deblurring Using Kernel-Sharing Parallel Atrous Convolutions ( http://arxiv.org/abs/2108.09108v1 )

ライセンス: Link先を確認
Hyeongseok Son, Junyong Lee, Sunghyun Cho, Seungyong Lee(参考訳) 本稿では,逆カーネルに基づく単一画像デフォーカスデブルリングのための新しい深層学習手法を提案する。 デフォーカス画像では、ぼやけた形状はピクセル間で似ているが、ぼやけた大きさは空間的に異なる。 この特性を逆カーネルで活用するために,デフォーカスボケの大きさのみが形状を維持しながら変化する場合,対応する逆カーネルの形状は同一のままであり,スケールのみが変化するという観察を活用した。 そこで本研究では,単一画像デフォーカスデブラリングのための逆カーネルの特性を組み込んだカーネル共有並列atrous convolutional (kpac)ブロックを提案する。 異なるスケールで逆カーネルの不変形状を効果的にシミュレートするために、KPACは複数のアトラスな畳み込み層で同じ畳み込み重みを共有する。 逆カーネルの様々なスケールを効率的にシミュレートするために、KPACは異なるダイレーションを持つ少数のアトラスな畳み込み層で構成され、ピクセルごとのスケールの注意を学習し、レイヤーの出力を集約する。 KPACはまた、形状注意を利用して、各アトラス畳み込み層における複数の畳み込みフィルタの出力を組み合わせ、わずかに異なる形状のデフォーカスぼけに対処する。 提案手法は,従来の手法よりもはるかに少ないパラメータで,最先端の性能を実現する。

This paper proposes a novel deep learning approach for single image defocus deblurring based on inverse kernels. In a defocused image, the blur shapes are similar among pixels although the blur sizes can spatially vary. To utilize the property with inverse kernels, we exploit the observation that when only the size of a defocus blur changes while keeping the shape, the shape of the corresponding inverse kernel remains the same and only the scale changes. Based on the observation, we propose a kernel-sharing parallel atrous convolutional (KPAC) block specifically designed by incorporating the property of inverse kernels for single image defocus deblurring. To effectively simulate the invariant shapes of inverse kernels with different scales, KPAC shares the same convolutional weights among multiple atrous convolution layers. To efficiently simulate the varying scales of inverse kernels, KPAC consists of only a few atrous convolution layers with different dilations and learns per-pixel scale attentions to aggregate the outputs of the layers. KPAC also utilizes the shape attention to combine the outputs of multiple convolution filters in each atrous convolution layer, to deal with defocus blur with a slightly varying shape. We demonstrate that our approach achieves state-of-the-art performance with a much smaller number of parameters than previous methods.
翻訳日:2021-08-23 13:25:54 公開日:2021-08-20
# regenmorph: アタック・リジェネレーションによる、現実的なgan生成顔モーフィング攻撃

ReGenMorph: Visibly Realistic GAN Generated Face Morphing Attacks by Attack Re-generation ( http://arxiv.org/abs/2108.09130v1 )

ライセンス: Link先を確認
Naser Damer, Kiran Raja, Marius S\"u{\ss}milch, Sushma Venkatesh, Fadi Boutros, Meiling Fang, Florian Kirchbuchner, Raghavendra Ramachandra, Arjan Kuijper(参考訳) フェイスモーフィング攻撃は、複数のアイデンティティの顔として検証可能な顔画像を作成することを目的としている。 形態素顔検出器(MFD)を作成する一方で、あらゆる可能な攻撃タイプに対する訓練は、優れた検出性能を達成するために不可欠である。 そこで, モーフィング攻撃の新たな手法を検討することにより, MADの一般化が可能となる。 画像レベル, ランドマーク補間, 潜時空間レベルでのモーフィング攻撃は, 生成的対向ネットワークにおいて潜時ベクトルを操作することによって行われる。 初期の結果は様々なブレンドアーティファクトとなり、後者は合成的なストリミングアーティファクトとなる。 この研究は、新しいモーフィングパイプラインReGenMorphを提示し、GANをベースとした生成物を用いてLMAブレンディングアーティファクトを除去し、潜伏空間の操作を排除し、従来のものと比べて視覚的にリアルなモーフィング画像をもたらす。 生成したregenmorph appearanceは、最近のmorphingアプローチと比較され、顔認識の脆弱性や、既知の攻撃や未知の攻撃を検知する可能性について評価されている。

Face morphing attacks aim at creating face images that are verifiable to be the face of multiple identities, which can lead to building faulty identity links in operations like border checks. While creating a morphed face detector (MFD), training on all possible attack types is essential to achieve good detection performance. Therefore, investigating new methods of creating morphing attacks drives the generalizability of MADs. Creating morphing attacks was performed on the image level, by landmark interpolation, or on the latent-space level, by manipulating latent vectors in a generative adversarial network. The earlier results in varying blending artifacts and the latter results in synthetic-like striping artifacts. This work presents the novel morphing pipeline, ReGenMorph, to eliminate the LMA blending artifacts by using a GAN-based generation, as well as, eliminate the manipulation in the latent space, resulting in visibly realistic morphed images compared to previous works. The generated ReGenMorph appearance is compared to recent morphing approaches and evaluated for face recognition vulnerability and attack detectability, whether as known or unknown attacks.
翻訳日:2021-08-23 13:25:30 公開日:2021-08-20
# 物体点雲の教師なし領域適応のための幾何アウェア自己学習

Geometry-Aware Self-Training for Unsupervised Domain Adaptationon Object Point Clouds ( http://arxiv.org/abs/2108.09169v1 )

ライセンス: Link先を確認
Longkun Zou, Hui Tang, Ke Chen, Kui Jia(参考訳) オブジェクトの点クラウド表現は、一貫性のないデータ取得手順の観点から大きな幾何学的変動を持つため、多様で制御不能な形状表現のクロスデータセットによるドメインの不一致が生じる。 実用的かつ実現可能な視点でポイントベースジオメトリの非知覚分布の識別を改善するため,本論文では,オブジェクトポイントクラウド分類の教師なし領域適応のための新しい幾何認識自己学習法を提案する。 具体的には,2つの新しい自己教師付き幾何学習タスクを特徴正規化として,意味カテゴリーのドメイン共有表現を学習することを目的とした。 一方、表現学習は、自発的な回転ラベルを持つ点雲サンプルを線形に混合することで、局所幾何学のグローバルな位相的構成を捉えることができる。 一方,データセットにまたがる多様な点分布は,新しい曲率対応歪み定位法を用いて正規化することができる。 PointDA-10データセットの実験により、GAST法は最先端の手法よりも大幅に優れていることが示された。

The point cloud representation of an object can have a large geometric variation in view of inconsistent data acquisition procedure, which thus leads to domain discrepancy due to diverse and uncontrollable shape representation cross datasets. To improve discrimination on unseen distribution of point-based geometries in a practical and feasible perspective, this paper proposes a new method of geometry-aware self-training (GAST) for unsupervised domain adaptation of object point cloud classification. Specifically, this paper aims to learn a domain-shared representation of semantic categories, via two novel self-supervised geometric learning tasks as feature regularization. On one hand, the representation learning is empowered by a linear mixup of point cloud samples with their self-generated rotation labels, to capture a global topological configuration of local geometries. On the other hand, a diverse point distribution across datasets can be normalized with a novel curvature-aware distortion localization. Experiments on the PointDA-10 dataset show that our GAST method can significantly outperform the state-of-the-art methods.
翻訳日:2021-08-23 13:25:06 公開日:2021-08-20
# 大腸癌組織検出のための非教師なしドメイン適応を用いた自己ルール適応型マルチソース特徴学習

Self-Rule to Adapt: Generalized Multi-source Feature Learning Using Unsupervised Domain Adaptation for Colorectal Cancer Tissue Detection ( http://arxiv.org/abs/2108.09178v1 )

ライセンス: Link先を確認
Christian Abbet, Linda Studer, Andreas Fischer, Heather Dawson, Inti Zlobec, Behzad Bozorgtabar, Jean-Philippe Thiran(参考訳) 教師付き学習は、特にデジタル病理学の分野での取得に費用がかかるラベル付きデータの可用性によって制限される。 オープンソースのデータを事前トレーニングやドメイン適応に利用することで、この問題を克服することができる。 しかし、トレーニング済みのネットワークは、組織染色、型、テクスチャのバリエーションにより同一に分布しない新しいテストドメインに一般化できないことが多い。 さらに、現在のドメイン適応メソッドは、主に完全なラベル付きソースデータセットに依存している。 本研究では,自己教師型学習を利用してドメイン適応を行い,完全ラベル付きソースデータセットの必要性を解消するSRAを提案する。 SRAは、いくつかのラベル付きソースドメインのデータから得られた識別知識を、追加の組織アノテーションを必要としない新しいターゲットドメインに効果的に転送することができる。 本手法は、ドメイン内およびドメイン間自己監督と視覚的類似性を捉えることにより、両方のドメインの構造を利用する。 さらに,マルチソースドメインからアーキテクチャを学べるように,このアプローチの一般化した定式化を提案する。 提案手法は大腸組織型分類のドメイン適応基準を上回っており,本手法の社内臨床コホートに対するアプローチをさらに検証する。 コードとモデルはオープンソースである。 https://github.com/c hristianabbet/sra。

Supervised learning is constrained by the availability of labeled data, which are especially expensive to acquire in the field of digital pathology. Making use of open-source data for pre-training or using domain adaptation can be a way to overcome this issue. However, pre-trained networks often fail to generalize to new test domains that are not distributed identically due to variations in tissue stainings, types, and textures. Additionally, current domain adaptation methods mainly rely on fully-labeled source datasets. In this work, we propose SRA, which takes advantage of self-supervised learning to perform domain adaptation and removes the necessity of a fully-labeled source dataset. SRA can effectively transfer the discriminative knowledge obtained from a few labeled source domain's data to a new target domain without requiring additional tissue annotations. Our method harnesses both domains' structures by capturing visual similarity with intra-domain and cross-domain self-supervision. Moreover, we present a generalized formulation of our approach that allows the architecture to learn from multi-source domains. We show that our proposed method outperforms baselines for domain adaptation of colorectal tissue type classification and further validate our approach on our in-house clinical cohort. The code and models are available open-source: https://github.com/c hristianabbet/SRA.
翻訳日:2021-08-23 13:24:48 公開日:2021-08-20
# 頭部ポーズ推定のためのオフセットアンサンブルからの知識蒸留

Knowledge Distillation from Ensemble of Offsets for Head Pose Estimation ( http://arxiv.org/abs/2108.09183v1 )

ライセンス: Link先を確認
Andrey Sheka, Victor Samun(参考訳) 本稿では,頭部ポーズを単一画像から推定する手法を提案する。 この推定は、ニューラルネットワーク(NN)を2段階に分けて行う。 第一段階では1つの回帰ヘッドと4つの回帰ヘッドを持つベースNNを分類(RvC)ヘッドで訓練した。 顔境界ボックスの小さなオフセットを用いてオフセットのアンサンブルを構築する。 第2段階では、ベースNNのオフセットのアンサンブルから、RvCヘッド1つで最終NNへの知識蒸留(KD)を行う。 メインテストプロトコルでは、オフセットアンサンブルの使用によりベースnnの結果が改善され、kdはオフセットアンサンブルから結果が改善される。 kdは、ナンセンス版と比較して平均7.7\%で結果を改善する。 メインテストプロトコル上のNNは、AFLW2000の最先端結果を改善し、最小のギャップしか持たず、BIWIの最先端結果を改善する。 私たちのNNは頭ポーズデータのみを使用しますが、以前の最先端モデルはトレーニング中に顔のランドマークも使用しています。 我々は,300W-LP,AFLW,AFLW20 00,BIWIデータセット用のトレーニングNNとフェイスバウンディングボックスを公開している。 KD-ResNet152 は最良の結果であり、KD-ResNet18 は AFLW2000 データセットよりも優れた結果が得られる。

This paper proposes a method for estimating the head pose from a single image. This estimation uses a neural network (NN) obtained in two stages. In the first stage, we trained the base NN, which has one regression head and four regression via classification (RvC) heads. We build the ensemble of offsets using small offsets of face bounding boxes. In the second stage, we perform knowledge distillation (KD) from the ensemble of offsets of the base NN into the final NN with one RvC head. On the main test protocol, the use of the offset ensemble improves the results of the base NN, and the KD improves the results from the offset ensemble. The KD improves the results by an average of 7.7\% compared to the non-ensemble version. The proposed NN on the main test protocol improves the state-of-the-art result on AFLW2000 and approaches, with only a minimal gap, the state-of-the-art result on BIWI. Our NN uses only head pose data, but the previous state-of-the-art model also uses facial landmarks during training. We have made publicly available trained NNs and face bounding boxes for the 300W-LP, AFLW, AFLW2000, and BIWI datasets. KD-ResNet152 has the best results, and KD-ResNet18 has a better result on the AFLW2000 dataset than any previous method.
翻訳日:2021-08-23 13:24:28 公開日:2021-08-20
# 想像力によるフォトリアリスティックカラー化に向けて

Towards Photorealistic Colorization by Imagination ( http://arxiv.org/abs/2108.09195v1 )

ライセンス: Link先を確認
Chenyang Lei and Yue Wu and Qifeng Chen(参考訳) 本稿では,人間の想像過程を模倣した画像自動カラー化手法を提案する。 われわれのイマジネーションモジュールは、白黒写真とコンテキスト関係のカラー画像を生成するように設計されている。 白黒画像が与えられた後、私たちの想像モジュールはまずコンテキスト情報を抽出し、条件付き画像合成ネットワーク(セマンティック画像合成モデルなど)を用いて色と多彩な画像を合成する。 次に,フォトリアリスティックなカラー化のための想像力の指導により,白黒画像をカラー化するカラー化モジュールを設計した。 実験の結果,最先端画像のカラー化手法よりも色鮮やかで多彩な結果が得られた。 ソースコードは公開される予定だ。

We present a novel approach to automatic image colorization by imitating the imagination process of human experts. Our imagination module is designed to generate color images that are context-correlated with black-and-white photos. Given a black-and-white image, our imagination module firstly extracts the context information, which is then used to synthesize colorful and diverse images using a conditional image synthesis network (e.g., semantic image synthesis model). We then design a colorization module to colorize the black-and-white images with the guidance of imagination for photorealistic colorization. Experimental results show that our work produces more colorful and diverse results than state-of-the-art image colorization methods. Our source codes will be publicly available.
翻訳日:2021-08-23 13:24:07 公開日:2021-08-20
# データアグリゲーションと変換によるビジュアルドメイン間の一般化

Exploring Data Aggregation and Transformations to Generalize across Visual Domains ( http://arxiv.org/abs/2108.09208v1 )

ライセンス: Link先を確認
Antono D'Innocente(参考訳) コンピュータビジョンは、ディープラーニングの進歩、高速でスケーラブルなハードウェアソリューション、構造化画像データの大規模利用により、近年繁栄している。 教師付きタスクとバックプロパゲーションを訓練した畳み込みニューラルネットワークは、生のピクセルから意味のある表現を自動的に抽出し、画像理解において浅い方法を超える。 ネットワークはトレーニング信号のみからパラメータを学習し、トレーニングとテストの分布が異なる場合は通常、パフォーマンスが悪くなります。 この問題を軽減するため、ドメイン一般化(DG)、ドメイン適応(DA)とそのバリエーションの研究が増加している。 この論文は、データセットバイアス問題を解決する新しい効果的な方法を提示し、これらの研究トピックに寄与する。 本稿では,データ拡張とマルチタスク統合による機能集約戦略と視覚変換を利用するドメイン一般化とドメイン適応の新しいフレームワークを提案する。 また,オブジェクト検出モデルをテスト時に任意の分布サンプルに適応させるアルゴリズムを設計する。 実験を通じて,提案手法が確立したdgおよびdaベンチマークにおいて,最先端のアプローチに勝ることを示す。

Computer vision has flourished in recent years thanks to Deep Learning advancements, fast and scalable hardware solutions and large availability of structured image data. Convolutional Neural Networks trained on supervised tasks with backpropagation learn to extract meaningful representations from raw pixels automatically, and surpass shallow methods in image understanding. Though convenient, data-driven feature learning is prone to dataset bias: a network learns its parameters from training signals alone, and will usually perform poorly if train and test distribution differ. To alleviate this problem, research on Domain Generalization (DG), Domain Adaptation (DA) and their variations is increasing. This thesis contributes to these research topics by presenting novel and effective ways to solve the dataset bias problem in its various settings. We propose new frameworks for Domain Generalization and Domain Adaptation which make use of feature aggregation strategies and visual transformations via data-augmentation and multi-task integration of self-supervision. We also design an algorithm that adapts an object detection model to any out of distribution sample at test time. With through experimentation, we show how our proposed solutions outperform competitive state-of-the-art approaches in established DG and DA benchmarks.
翻訳日:2021-08-23 13:23:54 公開日:2021-08-20
# シーン信頼度予測とタグ付けを組み合わせた映像広告コンテンツ構造化

Video Ads Content Structuring by Combining Scene Confidence Prediction and Tagging ( http://arxiv.org/abs/2108.09215v1 )

ライセンス: Link先を確認
Tomoyuki Suzuki and Antonio Tejero-de-Pablos(参考訳) ビデオ広告のセグメンテーションとタグ付けは、(1)ビデオシーンの構造が複雑で(2)複数のモダリティ(例えば、視覚、音声、テキストなど)が含まれている、という2つの主な理由から難しい課題である。 以前の作品は、主にアクティビティビデオ(例えば)に焦点を当てていた。 「クッキング」「スポーツ」) ビデオ広告コンテンツ構造化の課題に取り組むためにどのように活用できるかは明らかになっていない。 本稿では,まずシーンの境界を提示し,各シーンに対する信頼度スコアと,そのシーンに予測されるタグクラスを組み合わせた2段階の手法を提案する。 提案手法に用いたネットワークアーキテクチャとモダリティに関する広範な実験結果を提供する。 我々の組み合わせた手法は、挑戦的な“Tencent〜ビデオ”データセットの以前のベースラインを改善する。

Video ads segmentation and tagging is a challenging task due to two main reasons: (1) the video scene structure is complex and (2) it includes multiple modalities (e.g., visual, audio, text.). While previous work focuses mostly on activity videos (e.g. "cooking", "sports"), it is not clear how they can be leveraged to tackle the task of video ads content structuring. In this paper, we propose a two-stage method that first provides the boundaries of the scenes, and then combines a confidence score for each segmented scene and the tag classes predicted for that scene. We provide extensive experimental results on the network architectures and modalities used for the proposed method. Our combined method improves the previous baselines on the challenging "Tencent Advertisement Video" dataset.
翻訳日:2021-08-23 13:23:33 公開日:2021-08-20
# 点雲解析のための二重近傍深部核融合ネットワーク

Dual-Neighborhood Deep Fusion Network for Point Cloud Analysis ( http://arxiv.org/abs/2108.09228v1 )

ライセンス: Link先を確認
Guoquan Xu, Hezhi Cao, Yifan Zhang, Jianwei Wan, Ke Xu, Yanxin Ma(参考訳) 畳み込みニューラルネットワークは、理想的な点雲の分類において顕著な成果を上げてきたが、非理想化された点雲の分類は依然として難しい課題である。 本稿では,DNDFN,すなわちDual-Neighborhood Deep Fusion Networkを提案する。 DNDFNには2つのキーポイントがある。 一つは、地域とグローバルな地区の組み合わせである。 最寄りの近傍(knn)またはボールクエリは、ローカルな近傍をキャプチャできるが、長距離の依存関係を無視する。 TNラーニング(TN-Learning)と呼ばれる訓練可能な近隣学習メソドを提案する。 TN学習と組み合わせて、よりリッチな近隣情報を得る。 もう1つは情報伝達畳み込み(it-conv)で、2点間の構造情報を学習し、それを通して特徴を伝達することができる。 DNDFNを検証する4つのタスクにまたがる、理想化および非理想化ベンチマークの広範なエクスペラメントは、芸術の状態を達成している。

Convolutional neural network has made remarkable achievements in classification of idealized point cloud, however, non-idealized point cloud classification is still a challenging task. In this paper, DNDFN, namely, Dual-Neighborhood Deep Fusion Network, is proposed to deal with this problem. DNDFN has two key points. One is combination of local neighborhood and global neigh-borhood. nearest neighbor (kNN) or ball query can capture the local neighborhood but ignores long-distance dependencies. A trainable neighborhood learning meth-od called TN-Learning is proposed, which can capture the global neighborhood. TN-Learning is combined with them to obtain richer neighborhood information. The other is information transfer convolution (IT-Conv) which can learn the structural information between two points and transfer features through it. Extensive exper-iments on idealized and non-idealized benchmarks across four tasks verify DNDFN achieves the state of the arts.
翻訳日:2021-08-23 13:23:19 公開日:2021-08-20
# 識別領域に基づくマルチラベルゼロショット学習

Discriminative Region-based Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2108.09301v1 )

ライセンス: Link先を確認
Sanath Narayan, Akshita Gupta, Salman Khan, Fahad Shahbaz Khan, Ling Shao, Mubarak Shah(参考訳) マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、複数のオブジェクトが自然画像に共存できるため、標準のシングルラベルZSLのより現実的な対位法である。 しかし、複数のオブジェクトの出現は推論を複雑にし、視覚的特徴の領域固有の処理を必要とする。 既存のマルチラベルZSL手法では,すべてのクラスに共通する注目マップを用いて,地域機能への参加に向けた共通アプローチを採っている。 このような共有マップは、クラス数が大きければ関連する場所を差別的に重視しない、拡散した注意を導く。 さらに、空間的にプールされた視覚的特徴をクラスセマンティクスにマッピングすると、クラス間の特徴の絡み合いが生じ、分類が妨げられる。 本稿では,地域別識別可能性保存型マルチラベルゼロショット分類への代替アプローチを提案する。 本手法では,領域レベルの特徴を保存する空間分解能を維持し,bi-level attention module (biam) を用いて地域情報とシーンコンテキスト情報の両方を組み込むことにより,特徴を豊かにする。 拡張された領域レベルの特徴をクラスセマンティクスにマッピングし、それらのクラス予測のみを空間的にプールして画像レベルの予測を得る。 提案手法は, NUS-WIDE と Open Images の2つの大規模マルチラベルゼロショットベンチマークに新たな技術状況を設定する。 NUS-WIDE では,ZSL の絶対値が 6.9% mAP となる。

Multi-label zero-shot learning (ZSL) is a more realistic counter-part of standard single-label ZSL since several objects can co-exist in a natural image. However, the occurrence of multiple objects complicates the reasoning and requires region-specific processing of visual features to preserve their contextual cues. We note that the best existing multi-label ZSL method takes a shared approach towards attending to region features with a common set of attention maps for all the classes. Such shared maps lead to diffused attention, which does not discriminatively focus on relevant locations when the number of classes are large. Moreover, mapping spatially-pooled visual features to the class semantics leads to inter-class feature entanglement, thus hampering the classification. Here, we propose an alternate approach towards region-based discriminability-pre serving multi-label zero-shot classification. Our approach maintains the spatial resolution to preserve region-level characteristics and utilizes a bi-level attention module (BiAM) to enrich the features by incorporating both region and scene context information. The enriched region-level features are then mapped to the class semantics and only their class predictions are spatially pooled to obtain image-level predictions, thereby keeping the multi-class features disentangled. Our approach sets a new state of the art on two large-scale multi-label zero-shot benchmarks: NUS-WIDE and Open Images. On NUS-WIDE, our approach achieves an absolute gain of 6.9% mAP for ZSL, compared to the best published results.
翻訳日:2021-08-23 13:23:02 公開日:2021-08-20
# ASAT: 時系列における適応型対人訓練

ASAT: Adaptively Scaled Adversarial Training in Time Series ( http://arxiv.org/abs/2108.08976v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Wei Li, Ruihan Bao, Keiko Harimoto, Yunfang Wu, Xu Sun(参考訳) 敵のトレーニングは、敵の例に対する堅牢性を改善するためにニューラルネットワークを強化する方法である。 潜在的な敵の例に対するセキュリティ上の懸念に加えて、敵のトレーニングはニューラルネットワークの性能を改善し、堅牢なニューラルネットワークをトレーニングし、ニューラルネットワークの解釈可能性を提供する。 本研究は,金融分野を例として,時系列分析における敵対的トレーニングの導入に向けた第一歩である。 本稿では,時間依存の重み付けによって異なる時間帯のデータを扱うことにより,適応的スケールの対人訓練(ASAT)を時系列解析で提案する。 実験の結果,提案したASATはニューラルネットワークの精度と対角的堅牢性の両方を向上できることがわかった。 ニューラルネットワークの強化に加えて,入力次元の感度と重要度を調べるために,次元方向の対向感度指標を提案する。 提案する指標を用いて,ブラックボックスニューラルネットワークの判断基盤を説明することができる。

Adversarial training is a method for enhancing neural networks to improve the robustness against adversarial examples. Besides the security concerns of potential adversarial examples, adversarial training can also improve the performance of the neural networks, train robust neural networks, and provide interpretability for neural networks. In this work, we take the first step to introduce adversarial training in time series analysis by taking the finance field as an example. Rethinking existing researches of adversarial training, we propose the adaptively scaled adversarial training (ASAT) in time series analysis, by treating data at different time slots with time-dependent importance weights. Experimental results show that the proposed ASAT can improve both the accuracy and the adversarial robustness of neural networks. Besides enhancing neural networks, we also propose the dimension-wise adversarial sensitivity indicator to probe the sensitivities and importance of input dimensions. With the proposed indicator, we can explain the decision bases of black box neural networks.
翻訳日:2021-08-23 13:22:22 公開日:2021-08-20
# 構造パターン分類データセットの特徴に明示的に暗黙的に符号化されたバイアスを発見するファジィルー不確実性尺度

A fuzzy-rough uncertainty measure to discover bias encoded explicitly or implicitly in features of structured pattern classification datasets ( http://arxiv.org/abs/2108.09098v1 )

ライセンス: Link先を確認
Gonzalo N\'apoles, Lisa Koutsoviti Koumeri(参考訳) パターン認識問題を解決するために使用される表データに符号化されたバイアスを測定する必要性は、アカデミアや議員、企業によって広く認識されている。 これまでの研究では、ファジィフー集合論に依存するファジィフー不確実性(fuzzy-rough uncer-tainty)と呼ばれるバイアス定量化尺度を提案した。 直観は、保護された特徴は決定クラスのファジィロー境界領域を著しく変えるべきではないと規定している。 これが起こる範囲は、意思決定コンテキストにおける不確実性として表現されるバイアスのプロキシである。 我々の主な利点は、どんな機械学習予測モデルにも依存せず、距離関数にも依存しないことです。 本稿では,保護属性と非保護属性の相関によって定義される非保護特徴において暗黙的に符号化されるバイアスの存在を探究することにより,本研究を拡張した。 この分析は、ドメインの専門家がバイアスに取り組む方法を決定する前に評価すべき4つのシナリオにつながります。 さらに,境界領域の変化を最善に捉えたファジィ作用素と距離関数を決定するための感度解析を行う。

The need to measure bias encoded in tabular data that are used to solve pattern recognition problems is widely recognized by academia, legislators and enterprises alike. In previous work, we proposed a bias quantification measure, called fuzzy-rough uncer-tainty, which relies on the fuzzy-rough set theory. The intuition dictates that protected features should not change the fuzzy-rough boundary regions of a decision class significantly. The extent to which this happens is a proxy for bias expressed as uncertainty in adecision-making context. Our measure's main advantage is that it does not depend on any machine learning prediction model but adistance function. In this paper, we extend our study by exploring the existence of bias encoded implicitly in non-protected featuresas defined by the correlation between protected and unprotected attributes. This analysis leads to four scenarios that domain experts should evaluate before deciding how to tackle bias. In addition, we conduct a sensitivity analysis to determine the fuzzy operatorsand distance function that best capture change in the boundary regions.
翻訳日:2021-08-23 13:22:06 公開日:2021-08-20
# 観察対象の決定による因果効果の効率的なオンライン推定

Efficient Online Estimation of Causal Effects by Deciding What to Observe ( http://arxiv.org/abs/2108.09265v1 )

ライセンス: Link先を確認
Shantanu Gupta, Zachary C. Lipton, David Childers(参考訳) 研究者はしばしばデータ融合の問題に直面し、複数のデータソースが利用可能であり、それぞれが異なる変数のサブセットをキャプチャする。 問題定式化は典型的にはデータを取得するが、実際にはデータ取得は進行中のプロセスである。 本稿では,どのデータソースに対して問い合わせを行うかを決定することにより,確率モデル(例えば因果効果)の任意の関数を可能な限り効率的に推定することを目的とする。 モーメント条件として構造的仮定を符号化するフレームワークであるオンラインモーメント選択(OMS)を提案する。 各ステップにおける最適な行動は、部分的には、関心の機能を識別する瞬間に依存する。 我々のアルゴリズムは、現在のモーメントの推定値から示唆される最良の行動を選択することで探索のバランスをとる。 我々は,(1)探索-then-commit (OMS-ETC) と(2)探索-then-greedy (OMS-ETG) の2つの選択戦略を提案する。 平均処理効果推定のセットアップをインスタンス化し、因果グラフによって構造的仮定が与えられ、データソースには仲介者、共同設立者、機器変数のサブセットが含まれる可能性がある。

Researchers often face data fusion problems, where multiple data sources are available, each capturing a distinct subset of variables. While problem formulations typically take the data as given, in practice, data acquisition can be an ongoing process. In this paper, we aim to estimate any functional of a probabilistic model (e.g., a causal effect) as efficiently as possible, by deciding, at each time, which data source to query. We propose online moment selection (OMS), a framework in which structural assumptions are encoded as moment conditions. The optimal action at each step depends, in part, on the very moments that identify the functional of interest. Our algorithms balance exploration with choosing the best action as suggested by current estimates of the moments. We propose two selection strategies: (1) explore-then-commit (OMS-ETC) and (2) explore-then-greedy (OMS-ETG), proving that both achieve zero asymptotic regret as assessed by MSE. We instantiate our setup for average treatment effect estimation, where structural assumptions are given by a causal graph and data sources may include subsets of mediators, confounders, and instrumental variables.
翻訳日:2021-08-23 13:21:45 公開日:2021-08-20
# GitHub Copilotのコードコントリビューションに関する実証的サイバーセキュリティ評価

An Empirical Cybersecurity Evaluation of GitHub Copilot's Code Contributions ( http://arxiv.org/abs/2108.09293v1 )

ライセンス: Link先を確認
Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, Ramesh Karri(参考訳) コンピュータコードを自動的に生成するツールを含む、人間がコンピュータシステムの設計を支援するAIベースのシステムを設計することへの関心は急速に高まっている。 最も有名なのは、オープンソースのGitHubコードでトレーニングされた言語モデルである、最初の自己記述型の‘AIペアプログラマ’であるGitHub Copilotである。 しかし、コードにはしばしばバグが含まれているため、Copilotが処理した大量の未検証コードを考えると、言語モデルが悪用可能なバグのあるコードから学べることは確かです。 これにより、copilotのコードコントリビュートに対するセキュリティの懸念が高まる。 本研究では,GitHub Copilotがセキュアでないコードを推奨する原因となる状況と状況について,体系的に調査する。 この分析を実行するために、copilotにハイリスクcweに関連するシナリオでコードを生成するように促します。 MITREの"Top 25"リストから引用)。 弱点の多様性、プロンプトの多様性、ドメインの多様性を考慮して、3つの異なるコード生成軸でcopilotのパフォーマンスを調べます。 総じて、Copilotが完成するための89のシナリオを生成し、1,692のプログラムを生成します。 これらのうち、約40%が脆弱であることが分かりました。

There is burgeoning interest in designing AI-based systems to assist humans in designing computing systems, including tools that automatically generate computer code. The most notable of these comes in the form of the first self-described `AI pair programmer', GitHub Copilot, a language model trained over open-source GitHub code. However, code often contains bugs - and so, given the vast quantity of unvetted code that Copilot has processed, it is certain that the language model will have learned from exploitable, buggy code. This raises concerns on the security of Copilot's code contributions. In this work, we systematically investigate the prevalence and conditions that can cause GitHub Copilot to recommend insecure code. To perform this analysis we prompt Copilot to generate code in scenarios relevant to high-risk CWEs (e.g. those from MITRE's "Top 25" list). We explore Copilot's performance on three distinct code generation axes -- examining how it performs given diversity of weaknesses, diversity of prompts, and diversity of domains. In total, we produce 89 different scenarios for Copilot to complete, producing 1,692 programs. Of these, we found approximately 40% to be vulnerable.
翻訳日:2021-08-23 13:21:24 公開日:2021-08-20
# RGB-Dカメラを用いた動的物体の時空間テクスチャ再構成

Spatiotemporal Texture Reconstruction for Dynamic Objects Using a Single RGB-D Camera ( http://arxiv.org/abs/2108.09007v1 )

ライセンス: Link先を確認
Hyomin Kim, Jungeon Kim, Hyeonseo Nam, Jaesik Park, and Seungyong Lee(参考訳) 本稿では,1台のRGB-Dカメラを用いて動的物体の時空間テクスチャマップを生成する方法を提案する。 フレームワークの入力は3DテンプレートモデルとRGB-D画像シーケンスである。 単一カメラ設定のフレームには目に見えない領域があるため、そのような領域のテクスチャを他のフレームから借用する必要がある。 我々は,mrf最適化として問題を定式化し,動的物体の時空間的テクスチャを再構成するためのコスト関数を定義する。 実験により,我々の時空間テクスチャは,単一のテクスチャマップを用いたアプローチよりも,捕獲対象のアクティブな外観を再現できることが示された。

This paper presents an effective method for generating a spatiotemporal (time-varying) texture map for a dynamic object using a single RGB-D camera. The input of our framework is a 3D template model and an RGB-D image sequence. Since there are invisible areas of the object at a frame in a single-camera setup, textures of such areas need to be borrowed from other frames. We formulate the problem as an MRF optimization and define cost functions to reconstruct a plausible spatiotemporal texture for a dynamic object. Experimental results demonstrate that our spatiotemporal textures can reproduce the active appearances of captured objects better than approaches using a single texture map.
翻訳日:2021-08-23 13:20:51 公開日:2021-08-20
# patchcleanser: 画像分類器の敵パッチに対する証明可能な堅牢な防御

PatchCleanser: Certifiably Robust Defense against Adversarial Patches for Any Image Classifier ( http://arxiv.org/abs/2108.09135v1 )

ライセンス: Link先を確認
Chong Xiang, Saeed Mahloujifar, Prateek Mittal(参考訳) 画像分類モデルに対する逆パッチ攻撃は、モデル誤分類を誘導するために、局所的な制限された画像領域(すなわちパッチ)内で、反対に作られたピクセルを注入することを目的としている。 この攻撃は、被害者のオブジェクトにパッチを印刷して取り付けることで、物理的世界で実現でき、コンピュータビジョンシステムに現実世界の脅威を課すことができる。 この脅威に対処するため、画像分類器と互換性のある敵対パッチに対する堅牢な防御手段として、PatchCleanserを提案する。 PatchCleanserでは、入力画像上に2ラウンドのピクセルマスキングを行い、対向パッチの効果を中和する。 マスクの第1ラウンドでは、入力画像に慎重に生成されたマスクのセットを適用し、マスク画像毎にモデル予測を評価する。 全画像のモデル予測が一致した一致に達した場合、一致した予測ラベルを出力する。 そうでない場合は、2枚マスキング画像のモデル予測を評価し、正しい予測ラベルをロバストに復元する第2ラウンドのマスキングを行う。 特に、脅威モデル内の任意の適応的ホワイトボックス攻撃に対して、特定の画像に対して常に正しい予測を行い、認証された堅牢性を達成することを証明できます。 我々は,ImageNet, ImageNette, CIFAR-10, CIFAR-100, SVHN, Flowers-102データセットに対する防衛を広範囲に評価し,我々の防衛が最先端の分類モデルと類似したクリーンな精度を達成し,先行研究から証明された堅牢性を著しく向上させることを示した。 特に、当社の防御は、1000クラスのimagenetデータセット上のどこでも2%ピクセルの正方形パッチに対して、83.8%のクリーンな精度と60.4%のtop-1認定ロバストな精度を達成できます。

The adversarial patch attack against image classification models aims to inject adversarially crafted pixels within a localized restricted image region (i.e., a patch) for inducing model misclassification. This attack can be realized in the physical world by printing and attaching the patch to the victim object and thus imposes a real-world threat to computer vision systems. To counter this threat, we propose PatchCleanser as a certifiably robust defense against adversarial patches that is compatible with any image classifier. In PatchCleanser, we perform two rounds of pixel masking on the input image to neutralize the effect of the adversarial patch. In the first round of masking, we apply a set of carefully generated masks to the input image and evaluate the model prediction on every masked image. If model predictions on all one-masked images reach a unanimous agreement, we output the agreed prediction label. Otherwise, we perform a second round of masking to settle the disagreement, in which we evaluate model predictions on two-masked images to robustly recover the correct prediction label. Notably, we can prove that our defense will always make correct predictions on certain images against any adaptive white-box attacker within our threat model, achieving certified robustness. We extensively evaluate our defense on the ImageNet, ImageNette, CIFAR-10, CIFAR-100, SVHN, and Flowers-102 datasets and demonstrate that our defense achieves similar clean accuracy as state-of-the-art classification models and also significantly improves certified robustness from prior works. Notably, our defense can achieve 83.8% top-1 clean accuracy and 60.4% top-1 certified robust accuracy against a 2%-pixel square patch anywhere on the 1000-class ImageNet dataset.
翻訳日:2021-08-23 13:20:40 公開日:2021-08-20
# PowerLinear Activation関数とCNNの第1層への応用

PowerLinear Activation Functions with application to the first layer of CNNs ( http://arxiv.org/abs/2108.09256v1 )

ライセンス: Link先を確認
Kamyar Nasiri, Kamaledin Ghiasi-Shirazi(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンと画像処理における未解決問題を扱う最先端のツールとなっている。 畳み込み演算子は線形演算子であるため、CNNの性能を改善するためにいくつかの一般化が提案されている。 畳み込み演算子の能力を高める一つの方法は、内部積演算子に活性化関数を適用することである。 本稿では,畳み込み演算子の多項式核一般化に基づく電力線形活性化関数を提案する。 EvenPowLin関数はPowerLinearアクティベーション関数のメインブランチである。 このタイプの活性化関数は正の入力領域にも負の入力領域にも飽和しない。 また、負の入力は正の入力と同じ大きさで活性化される。 これらの特徴により、EvenPowLinアクティベーション機能はCNNアーキテクチャの第1層で利用でき、入力画像の複雑な機能を学ぶことができる。 さらに、EvenPowLinのアクティベーション関数はCNNモデルで使用されており、通常のアクティベーション関数よりもはるかに優れたグレースケールイメージのインバージョンを正確に分類することができる。

Convolutional neural networks (CNNs) have become the state-of-the-art tool for dealing with unsolved problems in computer vision and image processing. Since the convolution operator is a linear operator, several generalizations have been proposed to improve the performance of CNNs. One way to increase the capability of the convolution operator is by applying activation functions on the inner product operator. In this paper, we will introduce PowerLinear activation functions, which are based on the polynomial kernel generalization of the convolution operator. EvenPowLin functions are the main branch of the PowerLinear activation functions. This class of activation functions is saturated neither in the positive input region nor in the negative one. Also, the negative inputs are activated with the same magnitude as the positive inputs. These features made the EvenPowLin activation functions able to be utilized in the first layer of CNN architectures and learn complex features of input images. Additionally, EvenPowLin activation functions are used in CNN models to classify the inversion of grayscale images as accurately as the original grayscale images, which is significantly better than commonly used activation functions.
翻訳日:2021-08-23 13:20:01 公開日:2021-08-20
# Zoom, Enhance! サーベイランスGANアップサンプリングの測定

Zoom, Enhance! Measuring Surveillance GAN Up-sampling ( http://arxiv.org/abs/2108.09285v1 )

ライセンス: Link先を確認
Jake Sparkman and Abdalla Al-Ayrot and Utkarsh Contractor(参考訳) ディープニューラルネットワークは多くのコンピュータビジョンやパターン認識アプリケーションで非常にうまく使われている。 畳み込みニューラルネットワーク(CNN)は、アートイメージの分類の状況を示す一方で、ジェネレーティブ・アドバイサル・ネットワーク(GAN)は、画像生成におけるアート機能の状態を提供する。 本稿では,cnnとgansのセキュリティおよび監視分野におけるアップサンプリング手法を実験するために,その適用範囲を拡張した。 この研究を通じて,監視領域におけるcnnおよびganに基づく画像およびビデオのアップサンプリングにおけるアート技術の評価,比較,対比を行う。 本研究は, 監視領域におけるGANベースのイメージアップサンプリングを比較するための強力な画像品質評価(IQA)指標として, DISTSを確立するための実験的証拠を提供する。

Deep Neural Networks have been very successfully used for many computer vision and pattern recognition applications. While Convolutional Neural Networks(CNNs) have shown the path to state of art image classifications, Generative Adversarial Networks or GANs have provided state of art capabilities in image generation. In this paper we extend the applications of CNNs and GANs to experiment with up-sampling techniques in the domains of security and surveillance. Through this work we evaluate, compare and contrast the state of art techniques in both CNN and GAN based image and video up-sampling in the surveillance domain. As a result of this study we also provide experimental evidence to establish DISTS as a stronger Image Quality Assessment(IQA) metric for comparing GAN Based Image Up-sampling in the surveillance domain.
翻訳日:2021-08-23 13:19:44 公開日:2021-08-20
# Shuffleモデルにおける均一性テスト:よりシンプルで、より速く、より高速に

Uniformity Testing in the Shuffle Model: Simpler, Better, Faster ( http://arxiv.org/abs/2108.08987v1 )

ライセンス: Link先を確認
Cl\'ement L. Canonne and Hongyi Lyu(参考訳) 一様性テスト、または独立した観察が一様に分布しているかどうかのテストは、分布テストの原型的問題である。 過去数年間、データに対するプライバシーの制約の下での均一性テストに重点が置かれ、セントラルディファレンシャルプライバシ(dp)、ローカルプライバシ(ldp)、パンプライバシ(pan-privacy)、そして最近ではディファレンシャルプライバシのシャッフルモデルといった、さまざまなプライバシモデルの下で、プライベートでデータ効率の高いアルゴリズムを取得してきた。 本研究では、シャッフルモデルにおける既知の一様性テストアルゴリズムの解析をかなり単純化し、近年の「シャッフルによるプライバシー増幅」の結果を用いて、初等かつ合理化された引数で同じ保証を得る代替アルゴリズムを提供する。

Uniformity testing, or testing whether independent observations are uniformly distributed, is the prototypical question in distribution testing. Over the past years, a line of work has been focusing on uniformity testing under privacy constraints on the data, and obtained private and data-efficient algorithms under various privacy models such as central differential privacy (DP), local privacy (LDP), pan-privacy, and, very recently, the shuffle model of differential privacy. In this work, we considerably simplify the analysis of the known uniformity testing algorithm in the shuffle model, and, using a recent result on "privacy amplification via shuffling," provide an alternative algorithm attaining the same guarantees with an elementary and streamlined argument.
翻訳日:2021-08-23 13:19:31 公開日:2021-08-20
# 発生的敵ネットワークによる温室効果ガス排出の予測

Mitigating Greenhouse Gas Emissions Through Generative Adversarial Networks Based Wildfire Prediction ( http://arxiv.org/abs/2108.08952v1 )

ライセンス: Link先を確認
Sifat Chowdhury, Kai Zhu, Yu Zhang(参考訳) 過去10年間で、特にカリフォルニア州では、世界中で山火事の数が大幅に増加した。 森林火災によって放出される温室効果ガス(ghg)の高濃度濃度は地球温暖化を悪化させ、さらなる火災のリスクを増大させる。 したがって、野火発生の正確な予測は、大規模で長期にわたる野火の発生を防止し、ghg排出量を減少させるのに大いに役立つ。 火災リスク予測のための様々な手法が検討されている。 しかしながら、多くの自然要因と人間の要因の複雑な相関と野火の点火は予測タスクを非常に困難にする。 本稿では,山火事リスク予測のための深層学習に基づくデータ拡張手法を提案する。 火災の着火に責任を負う多様な特徴からなるデータセットを構築し, リスクレベルの目標値と関連するすべての特徴との間の基盤となるパターンを探索するために, 条件付き表層生成敵ネットワークを利用する。 公平かつ包括的に比較すると,提案手法は,提案手法と他の5つのベースライン法を比較した。 また,ロバスト性を相関させるため,提案手法の性能を別のデータセットで検証した結果,効率性も向上した。 提案手法を適用すれば, 温室効果ガス排出削減のため, 森林火災対策の予防策を講じることができる。

Over the past decade, the number of wildfire has increased significantly around the world, especially in the State of California. The high-level concentration of greenhouse gas (GHG) emitted by wildfires aggravates global warming that further increases the risk of more fires. Therefore, an accurate prediction of wildfire occurrence greatly helps in preventing large-scale and long-lasting wildfires and reducing the consequent GHG emissions. Various methods have been explored for wildfire risk prediction. However, the complex correlations among a lot of natural and human factors and wildfire ignition make the prediction task very challenging. In this paper, we develop a deep learning based data augmentation approach for wildfire risk prediction. We build a dataset consisting of diverse features responsible for fire ignition and utilize a conditional tabular generative adversarial network to explore the underlying patterns between the target value of risk levels and all involved features. For fair and comprehensive comparisons, we compare our proposed scheme with five other baseline methods where the former outperformed most of them. To corroborate the robustness, we have also tested the performance of our method with another dataset that also resulted in better efficiency. By adopting the proposed method, we can take preventive strategies of wildfire mitigation to reduce global GHG emissions.
翻訳日:2021-08-23 13:18:58 公開日:2021-08-20
# unsplit: data-oblivious model inversion, model steal, label inference attackによるスプリット学習

UnSplit: Data-Oblivious Model Inversion, Model Stealing, and Label Inference Attacks Against Split Learning ( http://arxiv.org/abs/2108.09033v1 )

ライセンス: Link先を確認
Ege Erdogan, Alptekin Kupcu, A. Ercument Cicek(参考訳) ディープニューラルネットワークのトレーニングには大規模なデータが必要であり、プライバシの懸念を伴う分散あるいはアウトソースの設定で作業しなければならない場合が多い。 Split Learningフレームワークは、クライアントとサーバ間でモデルを分割することで、この問題に対処することを目指している。 サーバはモデルの一部のクライアントにアクセスできないため、このスキームはプライバシを提供すると考えられている。 これは2つの新しい攻撃によるものではない。 1) クライアントのニューラルネットワークアーキテクチャの知識のみを取り入れた真に正確な分割学習サーバは, クライアントが攻撃を検出することなく, 入力サンプルを復元し, クライアントモデルと機能的に類似したモデルを得ることができることを示す。 さらに,分割学習を用いてトレーニングラベルの保護を行う場合,誠実だが正確なサーバがラベルを完全な精度で推測できることを示す。 我々は、3つのベンチマークデータセットを用いて攻撃をテストし、攻撃の有効性に影響を与えるシステム全体の様々な特性を調査した。 その結果,平文分割学習パラダイムは深刻なセキュリティリスクを生じさせ,誤ったセキュリティ感覚をもたらさないことが分かった。

Training deep neural networks requires large scale data, which often forces users to work in a distributed or outsourced setting, accompanied with privacy concerns. Split learning framework aims to address this concern by splitting up the model among the client and the server. The idea is that since the server does not have access to client's part of the model, the scheme supposedly provides privacy. We show that this is not true via two novel attacks. (1) We show that an honest-but-curious split learning server, equipped only with the knowledge of the client neural network architecture, can recover the input samples and also obtain a functionally similar model to the client model, without the client being able to detect the attack. (2) Furthermore, we show that if split learning is used naively to protect the training labels, the honest-but-curious server can infer the labels with perfect accuracy. We test our attacks using three benchmark datasets and investigate various properties of the overall system that affect the attacks' effectiveness. Our results show that plaintext split learning paradigm can pose serious security risks and provide no more than a false sense of security.
翻訳日:2021-08-23 13:18:39 公開日:2021-08-20
# SplitGuard: スプリットラーニングにおけるトレーニングハイジャック攻撃の検出と緩和

SplitGuard: Detecting and Mitigating Training-Hijacking Attacks in Split Learning ( http://arxiv.org/abs/2108.09052v1 )

ライセンス: Link先を確認
Ege Erdogan, Alptekin Kupcu, A. Ercument Cicek(参考訳) 分割学習のような分散ディープラーニングフレームワークは、最近、参加者のグループが生データを共有せずにディープニューラルネットワークを協調的にトレーニングできるように提案されている。 特にスプリットラーニングは、クライアントとサーバの間のニューラルネットワークを分割して、クライアントが初期レイヤを計算し、サーバが残りのレイヤを計算することで、この目標を達成する。 しかし,本手法では,クライアントのプライベートデータを盗もうとする悪意のあるサーバに対して,クライアントモデルから選択したタスクを学習するためのユニークな攻撃ベクトルを導入する。 具体的な例がすでに提案されているように、このようなトレーニングハイジャック攻撃は、スプリットラーニングクライアントのデータプライバシに重大なリスクをもたらす。 本論文では,スプリット学習クライアントが,トレーニングハイジャック攻撃の対象であるか否かを検知する手法であるSplitGuardを提案する。 我々は,その効果を実験的に評価し,その利用に関する諸点を詳細に検討した。 スプリットガードは、敵が回収した情報の量を最小限に抑えつつ、トレーニングハイジャック攻撃を効果的に検出できると結論付けた。

Distributed deep learning frameworks, such as split learning, have recently been proposed to enable a group of participants to collaboratively train a deep neural network without sharing their raw data. Split learning in particular achieves this goal by dividing a neural network between a client and a server so that the client computes the initial set of layers, and the server computes the rest. However, this method introduces a unique attack vector for a malicious server attempting to steal the client's private data: the server can direct the client model towards learning a task of its choice. With a concrete example already proposed, such training-hijacking attacks present a significant risk for the data privacy of split learning clients. In this paper, we propose SplitGuard, a method by which a split learning client can detect whether it is being targeted by a training-hijacking attack or not. We experimentally evaluate its effectiveness, and discuss in detail various points related to its use. We conclude that SplitGuard can effectively detect training-hijacking attacks while minimizing the amount of information recovered by the adversaries.
翻訳日:2021-08-23 13:18:19 公開日:2021-08-20
# 転送学習,再帰学習,アンサンブル学習の併用によるインドにおける複数日先行covid-19症例予測

Combination of Transfer Learning, Recursive Learning and Ensemble Learning for Multi-Day Ahead COVID-19 Cases Prediction in India using Gated Recurrent Unit Networks ( http://arxiv.org/abs/2108.09131v1 )

ライセンス: Link先を確認
Debasrita Chakraborty, Debayan Goswami, Susmita Ghosh, Ashish Ghosh, Jonathan H. Chan(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、インドの医療インフラに大きな課題をもたらした。 第2波でより多くの人が被害を受け、病院は過密になり、物資や酸素が尽きてしまった。 このシナリオでは、それまでの新型コロナウイルス感染者数の予測は、限られた資源や物資のより良い利用に役立った可能性がある。 この写本は、新型コロナウイルス(covid-19)の新規感染者、新規死亡者、および数日間のアクティブケースの予測を扱っている。 提案手法は,主予測モデルとしてゲートリカレントユニットネットワークを用いる。 調査は、米国、ブラジル、スペイン、バングラデシュの4カ国のデータに基づいて事前訓練された4つのモデルを構築し、インドのデータに基づいて微調整または再訓練された。 選ばれた4カ国は異なる種類の感染曲線を経験しているため、事前学習は様々な状況を考慮したモデルへの移行学習を提供する。 4つのモデルはそれぞれ、インドのテストデータに対して再帰的学習法を用いた数日間の予測を行う。 最終的な予測は、異なるモデルの組み合わせの予測の集合から得られる。 スペインとブラジルのこの手法は、他の伝統的な回帰モデルと比較して、すべての組み合わせの中で最高のパフォーマンスを達成している。

The current COVID-19 pandemic has put a huge challenge on the Indian health infrastructure. With more and more people getting affected during the second wave, the hospitals were over-burdened, running out of supplies and oxygen. In this scenario, prediction of the number of COVID-19 cases beforehand might have helped in the better utilization of limited resources and supplies. This manuscript deals with the prediction of new COVID-19 cases, new deaths and total active cases for multiple days in advance. The proposed method uses gated recurrent unit networks as the main predicting model. A study is conducted by building four models that are pre-trained on the data from four different countries (United States of America, Brazil, Spain and Bangladesh) and are fine-tuned or retrained on India's data. Since the four countries chosen have experienced different types of infection curves, the pre-training provides a transfer learning to the models incorporating diverse situations into account. Each of the four models then give a multiple days ahead predictions using recursive learning method for the Indian test data. The final prediction comes from an ensemble of the predictions of the combination of different models. This method with two countries, Spain and Brazil, is seen to achieve the best performance amongst all the combinations as well as compared to other traditional regression models.
翻訳日:2021-08-23 13:18:00 公開日:2021-08-20
# 量子ドットアレイにおける電荷状態遷移の自動発見のための凸ポリトープの推定

Estimation of Convex Polytopes for Automatic Discovery of Charge State Transitions in Quantum Dot Arrays ( http://arxiv.org/abs/2108.09133v1 )

ライセンス: Link先を確認
Oswin Krause, Torbj{\o}rn Rasmussen, Bertram Brovang, Anasua Chatterjee, Ferdinand Kuemmeth(参考訳) スピンベースの量子ドットアレイでは、量子計算アプリケーションの主要な技術である材料や製造のインプレッションがデバイスの振る舞いに影響を与え、チューニングパラメータによって補償される。 これらのデバイスパラメータの自動チューニングは、機械学習にとって大きな課題となる。 本稿では、スピン量子ビットアレイにおける電子の遷移を制御するための最初の実用的なアルゴリズムを提案する。 計算幾何学への接続を利用して、そのタスクを計測から凸ポリトープを推定する。 提案アルゴリズムは,与えられたポリトープのすべての面の個数,形状,サイズを求めるために,能動的学習を用いる。 我々は,人工多面体および実2x2スピン量子ビットアレイ上で,本アルゴリズムを検証した。 以上の結果から, 測定精度の順に小型のファセットを含め, ポリトープのファセットを確実に発見できることが示唆された。 本稿では,基礎となる推定問題のnp硬さの意義を考察し,将来的なスピン量子デバイス制御のための設計上の考察,限界,チューニング戦略について概説する。

In spin based quantum dot arrays, a leading technology for quantum computation applications, material or fabrication imprecisions affect the behaviour of the device, which is compensated via tuning parameters. Automatic tuning of these device parameters constitutes a formidable challenge for machine-learning. Here, we present the first practical algorithm for controlling the transition of electrons in a spin qubit array. We exploit a connection to computational geometry and phrase the task as estimating a convex polytope from measurements. Our proposed algorithm uses active learning, to find the count, shapes and sizes of all facets of a given polytope. We test our algorithm on artifical polytopes as well as a real 2x2 spin qubit array. Our results show that we can reliably find the facets of the polytope, including small facets with sizes on the order of the measurement precision. We discuss the implications of the NP-hardness of the underlying estimation problem and outline design considerations, limitations and tuning strategies for controlling future large-scale spin qubit devices.
翻訳日:2021-08-23 13:17:38 公開日:2021-08-20
# trans4trans:リアルタイムナビゲーション支援における透明物体と意味シーンセグメンテーションのための効率的なトランスフォーマー

Trans4Trans: Efficient Transformer for Transparent Object and Semantic Scene Segmentation in Real-World Navigation Assistance ( http://arxiv.org/abs/2108.09174v1 )

ライセンス: Link先を確認
Jiaming Zhang, Kailun Yang, Angela Constantinescu, Kunyu Peng, Karin M\"uller, Rainer Stiefelhagen(参考訳) ガラスの壁やドアのような透明な物体は、視力や盲目の人々の移動を妨げる建築上の障害を構成する。 例えば、ガラスのドアの後ろのオープンスペースは、正しく認識され、相互作用しない限りアクセスできない。 しかし、従来の補助技術は、これらの安全クリティカルな透明物体のセグメンテーションをほとんどカバーしていない。 本稿では,一般物体と透明物体をセグメンテーション可能な,透過性(trans4trans)知覚モデルのための新しいデュアルヘッドトランスフォーマを用いたウェアラブルシステムを構築する。 2つの密接なセグメンテーション結果とシステム内の深度情報を組み合わせることで、ユーザが安全にナビゲートし、透明な障害物の交渉を支援する。 本稿では,トランスフォーマーベースのデコーダにおいて,マルチスケールの特徴解釈を行う軽量トランスフォーマー解析モジュール(TPM)を提案する。 TPMから恩恵を受けるため、ダブルデコーダは対応するデータセットからのジョイントラーニングを実行して堅牢性を追求し、一方可搬性のあるGPU上で効率を維持できる。 Trans4Transモデル全体は対称エンコーダデコーダアーキテクチャで構築されており、Stanford2D3DとTrans10K-v2データセットのテストセットでは、それぞれ45.13%と75.14%のmIoUが得られる。 屋内および屋外の場面におけるユーザスタディと各種プレテストを通じて,本システムの有用性と信頼性を広く検証した。 一方、Tran4Transモデルでは、シーンデータセットの駆動に優れたパフォーマンスがある。 一般的な環境、悪天候、交通事故のシナリオに対応する都市景観、ACDC、DAD-segデータセットでは、mIoUスコアは81.5%、76.3%、39.2%となり、実際の輸送用途において高い効率と堅牢性を示している。

Transparent objects, such as glass walls and doors, constitute architectural obstacles hindering the mobility of people with low vision or blindness. For instance, the open space behind glass doors is inaccessible, unless it is correctly perceived and interacted with. However, traditional assistive technologies rarely cover the segmentation of these safety-critical transparent objects. In this paper, we build a wearable system with a novel dual-head Transformer for Transparency (Trans4Trans) perception model, which can segment general- and transparent objects. The two dense segmentation results are further combined with depth information in the system to help users navigate safely and assist them to negotiate transparent obstacles. We propose a lightweight Transformer Parsing Module (TPM) to perform multi-scale feature interpretation in the transformer-based decoder. Benefiting from TPM, the double decoders can perform joint learning from corresponding datasets to pursue robustness, meanwhile maintain efficiency on a portable GPU, with negligible calculation increase. The entire Trans4Trans model is constructed in a symmetrical encoder-decoder architecture, which outperforms state-of-the-art methods on the test sets of Stanford2D3D and Trans10K-v2 datasets, obtaining mIoU of 45.13% and 75.14%, respectively. Through a user study and various pre-tests conducted in indoor and outdoor scenes, the usability and reliability of our assistive system have been extensively verified. Meanwhile, the Tran4Trans model has outstanding performances on driving scene datasets. On Cityscapes, ACDC, and DADA-seg datasets corresponding to common environments, adverse weather, and traffic accident scenarios, mIoU scores of 81.5%, 76.3%, and 39.2% are obtained, demonstrating its high efficiency and robustness for real-world transportation applications.
翻訳日:2021-08-23 13:17:04 公開日:2021-08-20
# 逆例の物理心電図信号への応用

Application of Adversarial Examples to Physical ECG Signals ( http://arxiv.org/abs/2108.08972v1 )

ライセンス: Link先を確認
Taiga Ono (1), Takeshi Sugawara (2), Jun Sakuma (3), Tatsuya Mori (1 and 4) ((1) Waseda University, (2) The University of Electro-Communicatio ns, (3) University of Tsukuba, (4) RIKEN AIP)(参考訳) 本研究の目的は,機械学習アルゴリズムを用いた心臓診断システムに対する対人攻撃の現実性と実現可能性を評価することである。 そこで本研究では,心電図(ECG)のビート・バイ・ビート分類システムに特化して適合する逆行性摂動である逆行性ビートを導入する。 まず,ECG分類ニューラルネットワークモデルの逆例を生成するアルゴリズムを定式化し,その攻撃成功率について検討する。 次に,物理的環境におけるその実現可能性を評価するために,ecgセンサの読み出しに逆ビートを注入する悪意のある信号生成器を設計することで,ハードウェア攻撃を行う。 我々の知識を最大限に活用するために、我々の研究は、ECGの敵例の熟練度を物理的に評価する最初のものである。 実世界の実験では、40回のうち3~5回、敵ビートが2分間にわたって診断結果の操作に成功したことが示されています。 最後に,攻撃者の動機や制約を明確に定義することで,攻撃の全体的な実現可能性と影響について検討する。

This work aims to assess the reality and feasibility of the adversarial attack against cardiac diagnosis system powered by machine learning algorithms. To this end, we introduce adversarial beats, which are adversarial perturbations tailored specifically against electrocardiograms (ECGs) beat-by-beat classification system. We first formulate an algorithm to generate adversarial examples for the ECG classification neural network model, and study its attack success rate. Next, to evaluate its feasibility in a physical environment, we mount a hardware attack by designing a malicious signal generator which injects adversarial beats into ECG sensor readings. To the best of our knowledge, our work is the first in evaluating the proficiency of adversarial examples for ECGs in a physical setup. Our real-world experiments demonstrate that adversarial beats successfully manipulated the diagnosis results 3-5 times out of 40 attempts throughout the course of 2 minutes. Finally, we discuss the overall feasibility and impact of the attack, by clearly defining motives and constraints of expected attackers along with our experimental results.
翻訳日:2021-08-23 13:16:30 公開日:2021-08-20
# ディープシーケンスモデリング:アセット価格における開発と応用

Deep Sequence Modeling: Development and Applications in Asset Pricing ( http://arxiv.org/abs/2108.08999v1 )

ライセンス: Link先を確認
Lin William Cong, Ke Tang, Jingyuan Wang, Yang Zhang(参考訳) 我々はアセットリターンを予測し,人工知能の顕著な手法である深部シーケンスモデリングを用いてリスク・プレアミアを計測する。 資産の返却は、しばしば従来の時系列モデルでは効果的に捉えられないシーケンシャルな依存を示すため、シーケンスモデリングはデータ駆動アプローチと優れたパフォーマンスで有望な経路を提供する。 本稿では,まず,深層シーケンスモデルの開発を概観し,それらの応用を資産価格で紹介し,その利点と限界について論じる。 次に、米国株のデータを用いて、これらの手法の比較分析を行う。 我々は、複雑な履歴パス依存を取り入れたシーケンスモデリングが投資家全般にどのような恩恵をもたらすかを実証し、LSTM(Long- and Short-term Memory)ベースのモデルが最高のアウト・オブ・サンプル性能を持つことを示した。

We predict asset returns and measure risk premia using a prominent technique from artificial intelligence -- deep sequence modeling. Because asset returns often exhibit sequential dependence that may not be effectively captured by conventional time series models, sequence modeling offers a promising path with its data-driven approach and superior performance. In this paper, we first overview the development of deep sequence models, introduce their applications in asset pricing, and discuss their advantages and limitations. We then perform a comparative analysis of these methods using data on U.S. equities. We demonstrate how sequence modeling benefits investors in general through incorporating complex historical path dependence, and that Long- and Short-term Memory (LSTM) based models tend to have the best out-of-sample performance.
翻訳日:2021-08-23 13:16:13 公開日:2021-08-20
# ゼロデイアタックに対する適応型深層学習型侵入検知システム

An Adaptable Deep Learning-Based Intrusion Detection System to Zero-Day Attacks ( http://arxiv.org/abs/2108.09199v1 )

ライセンス: Link先を確認
Mahdi Soltani, Behzad Ousat, Mahdi Jafari Siavoshani, Amir Hossein Jahangir(参考訳) 侵入検知システム(IDS)は、コンピュータネットワークにおけるセキュリティ監視の重要な要素である。 IDSは、悪意のあるトラフィックと良性のあるトラフィックを区別し、組織の資産を対象とした攻撃タイプを決定する。 IDSの主な課題は、新しい(すなわちゼロデイの)攻撃に直面し、それらを良質なトラフィックと既存の攻撃から切り離すことである。 高度な特徴の自動抽出における深層学習ベースのIDSの力と、時間とコストのかかる署名抽出プロセスからの独立性に加えて、上記の課題は新世代のIDSにも残っている。 本稿では,新たな攻撃に対処する深層学習型IDSのためのフレームワークを提案する。 このフレームワークは、セキュリティスコープにおいて、深層構造の特殊な層に基づく従来のクラスタリングに加えて、深層ノベルティベースの分類器を使用する最初のアプローチである。 さらに, DOC++ を DOC のより新しいバージョンとして導入する。 また,前処理フェーズにdeep intrusion detection(did)フレームワークを採用し,コンテンツベースの攻撃を検出するディープラーニングアルゴリズムの能力を向上させる。 DOC,DOC++,OpenMax,AutoSVMの4つのアルゴリズムをフレームワークの新規分類器として比較し,CIC-IDS2017とCSE-CIC-IDS2018データセットの両方を用いて評価を行った。 その結果,DOC++はオープンセット認識モジュールの最良の実装であることがわかった。 さらに、クラスタリングとポストトレーニングフェーズの完全性と均一性は、このモデルが教師付きラベリングと更新フェーズに十分であることを示す。

The intrusion detection system (IDS) is an essential element of security monitoring in computer networks. An IDS distinguishes the malicious traffic from the benign one and determines the attack types targeting the assets of the organization. The main challenge of an IDS is facing new (i.e., zero-day) attacks and separating them from benign traffic and existing types of attacks. Along with the power of the deep learning-based IDSes in auto-extracting high-level features and its independence from the time-consuming and costly signature extraction process, the mentioned challenge still exists in this new generation of IDSes. In this paper, we propose a framework for deep learning-based IDSes addressing new attacks. This framework is the first approach using both deep novelty-based classifiers besides the traditional clustering based on the specialized layer of deep structures, in the security scope. Additionally, we introduce DOC++ as a newer version of DOC as a deep novelty-based classifier. We also employ the Deep Intrusion Detection (DID) framework for the preprocessing phase, which improves the ability of deep learning algorithms to detect content-based attacks. We compare four different algorithms (including DOC, DOC++, OpenMax, and AutoSVM) as the novelty classifier of the framework and use both the CIC-IDS2017 and CSE-CIC-IDS2018 datasets for the evaluation. Our results show that DOC++ is the best implementation of the open set recognition module. Besides, the completeness and homogeneity of the clustering and post-training phase prove that this model is good enough for the supervised labeling and updating phase.
翻訳日:2021-08-23 13:15:57 公開日:2021-08-20
# (参考訳) 時系列予測のための特徴重み付きスタックリング : COVID-19エピデミック曲線を事例として [全文訳有]

Feature-weighted Stacking for Nonseasonal Time Series Forecasts: A Case Study of the COVID-19 Epidemic Curves ( http://arxiv.org/abs/2108.08723v2 )

ライセンス: CC0 1.0
Pieter Cawood and Terence L. van Zyl(参考訳) 本研究は,新型コロナウイルスのパンデミックの初期に発生したような,季節的でない時系列での利用の可能性について,その予測手法について検討する。 重要なフェーズにおいて、組織や意思決定者にデータ駆動決定を提供するため、予測方法の改善が不可欠である。 予備予測段階における予測能力を証明する2つの予測モデルと2つのメタ機能の組み合わせを用いて,遅延データ融合を提案する。 最終的なアンサンブルには、ベースモデルとして予言と長期記憶(LSTM)ニューラルネットワークが含まれる。 ベースモデルは多層パーセプトロン(MLP)によって結合され、各ベースモデルの予測精度と最も高い相関を示すメタ特徴を考慮に入れられる。 さらに,メタ機能の導入により,一般的に7日から14日間の2つの予測地平線におけるアンサンブルの予測精度が向上することを示す。 本研究は,従来の統計モデルと深層学習モデルを組み合わせて,異なる領域と季節の時系列のより正確な予測モデルを作成することの価値を実証する。

We investigate ensembling techniques in forecasting and examine their potential for use in nonseasonal time-series similar to those in the early days of the COVID-19 pandemic. Developing improved forecast methods is essential as they provide data-driven decisions to organisations and decision-makers during critical phases. We propose using late data fusion, using a stacked ensemble of two forecasting models and two meta-features that prove their predictive power during a preliminary forecasting stage. The final ensembles include a Prophet and long short term memory (LSTM) neural network as base models. The base models are combined by a multilayer perceptron (MLP), taking into account meta-features that indicate the highest correlation with each base model's forecast accuracy. We further show that the inclusion of meta-features generally improves the ensemble's forecast accuracy across two forecast horizons of seven and fourteen days. This research reinforces previous work and demonstrates the value of combining traditional statistical models with deep learning models to produce more accurate forecast models for time-series from different domains and seasonality.
翻訳日:2021-08-23 10:45:50 公開日:2021-08-20
# 新しいクラス発見のための統一目的

A Unified Objective for Novel Class Discovery ( http://arxiv.org/abs/2108.08536v2 )

ライセンス: Link先を確認
Enrico Fini and Enver Sangineto and St\'ephane Lathuili\`ere and Zhun Zhong and Moin Nabi and Elisa Ricci(参考訳) 本稿では,新しいクラス発見(NCD)の問題について考察する。 NCDは、異なるが関連するクラスを含むラベル付き集合の事前知識を活用して、ラベルなし集合で新しいオブジェクトカテゴリを推論することを目的としている。 既存のアプローチでは、通常ラベル付きサンプルとラベル付サンプルの特別な損失項を含む複数の目的関数を考慮し、しばしば補助正規化項を必要とする。 本稿では,この従来の手法から脱却し,教師なし学習と教師なし学習の相乗効果を優先して,新しいクラスを発見するための統一目的関数 (uno) を導入する。 多視点自己ラベル戦略を用いて、基底真理ラベルと均質に扱うことができる擬似ラベルを生成する。 これは、既知のクラスと未知のクラスの両方で動作する単一の分類目標につながる。 その単純さにもかかわらず、UNOはいくつかのベンチマーク(CIFAR-100で約10%、ImageNetで+8%)で最先端の成果を上げている。 プロジェクトページは、https://ncd-uno.gith ub.io.com/で入手できる。

In this paper, we study the problem of Novel Class Discovery (NCD). NCD aims at inferring novel object categories in an unlabeled set by leveraging from prior knowledge of a labeled set containing different, but related classes. Existing approaches tackle this problem by considering multiple objective functions, usually involving specialized loss terms for the labeled and the unlabeled samples respectively, and often requiring auxiliary regularization terms. In this paper, we depart from this traditional scheme and introduce a UNified Objective function (UNO) for discovering novel classes, with the explicit purpose of favoring synergy between supervised and unsupervised learning. Using a multi-view self-labeling strategy, we generate pseudo-labels that can be treated homogeneously with ground truth labels. This leads to a single classification objective operating on both known and unknown classes. Despite its simplicity, UNO outperforms the state of the art by a significant margin on several benchmarks (~+10% on CIFAR-100 and +8% on ImageNet). The project page is available at: https://ncd-uno.gith ub.io.
翻訳日:2021-08-23 10:34:47 公開日:2021-08-20
# マルチエージェント政策勾配のばらつきの解決

Settling the Variance of Multi-Agent Policy Gradients ( http://arxiv.org/abs/2108.08612v2 )

ライセンス: Link先を確認
Jakub Grudzien Kuba, Muning Wen, Yaodong Yang, Linghui Meng, Shangding Gu, Haifeng Zhang, David Henry Mguni, Jun Wang(参考訳) ポリシーグラデーション(pg)法は一般的な強化学習(rl)手法であり、勾配推定のばらつきを減らすためにベースラインがしばしば適用される。 マルチエージェント RL (MARL) では、PG定理は自然に拡張できるが、エージェント数とともに勾配推定のばらつきが急速に増加するにつれて、マルチエージェント PG (MAPG) 法の有効性は低下する。 本稿では,まず,mapg推定器の分散に対するエージェント数とエージェントの探索の寄与度を定量化することにより,mapg法の厳密な解析を行う。 この分析に基づいて、最小分散を実現する最適ベースライン(OB)を導出する。 OBと比較して,バニラMAPGやCOMAといった既存のMARLアルゴリズムの過度な分散を測定する。 深層ニューラルネットワークの利用を考えると,marl の既存の pg メソッドにシームレスに接続可能な,サブロゲート版の ob も提案する。 マルチエージェント MuJoCo と StarCraft のベンチマークでは,OB 技術はトレーニングを効果的に安定化し,マルチエージェント PPO と COMA アルゴリズムの性能を著しく向上させる。

Policy gradient (PG) methods are popular reinforcement learning (RL) methods where a baseline is often applied to reduce the variance of gradient estimates. In multi-agent RL (MARL), although the PG theorem can be naturally extended, the effectiveness of multi-agent PG (MAPG) methods degrades as the variance of gradient estimates increases rapidly with the number of agents. In this paper, we offer a rigorous analysis of MAPG methods by, firstly, quantifying the contributions of the number of agents and agents' explorations to the variance of MAPG estimators. Based on this analysis, we derive the optimal baseline (OB) that achieves the minimal variance. In comparison to the OB, we measure the excess variance of existing MARL algorithms such as vanilla MAPG and COMA. Considering using deep neural networks, we also propose a surrogate version of OB, which can be seamlessly plugged into any existing PG methods in MARL. On benchmarks of Multi-Agent MuJoCo and StarCraft challenges, our OB technique effectively stabilises training and improves the performance of multi-agent PPO and COMA algorithms by a significant margin.
翻訳日:2021-08-23 10:34:28 公開日:2021-08-20
# 不確かなプロセストレース実現の確率推定

Probability Estimation of Uncertain Process Trace Realizations ( http://arxiv.org/abs/2108.08615v2 )

ライセンス: Link先を確認
Marco Pegoraro, Bianka Bakullari, Merih Seran Uysal, Wil M.P. van der Aalst(参考訳) プロセスマイニングは、イベントログと呼ばれるデータベースでしばしば収集されるイベントデータを分析する科学的分野である。 近年、不確定なイベントログが注目され、非決定論的かつ確率的イベント属性が含まれ、多くの現実的シナリオを表現している。 本稿では,各シナリオの確率を確実に推定し,その分析を可能にする手法を提案する。 実験により,本手法で計算した確率は,特定の結果の発生確率と密接に一致し,不確定なデータに対する信頼性の高い分析が可能となった。

Process mining is a scientific discipline that analyzes event data, often collected in databases called event logs. Recently, uncertain event logs have become of interest, which contain non-deterministic and stochastic event attributes that may represent many possible real-life scenarios. In this paper, we present a method to reliably estimate the probability of each of such scenarios, allowing their analysis. Experiments show that the probabilities calculated with our method closely match the true chances of occurrence of specific outcomes, enabling more trustworthy analyses on uncertain data.
翻訳日:2021-08-23 10:34:07 公開日:2021-08-20
# Neural-GIF: 衣服の人々をアニメーションするためのニューラルネットワーク一般化インシシシット機能

Neural-GIF: Neural Generalized Implicit Functions for Animating People in Clothing ( http://arxiv.org/abs/2108.08807v2 )

ライセンス: Link先を確認
Garvita Tiwari, Nikolaos Sarafianos, Tony Tung, Gerard Pons-Moll(参考訳) 本稿では,身体のポーズ機能として衣服の人々をアニメーション化するために,ニューラル一般インシシット関数(Neural-GIF)を提案する。 様々なポーズの被験者の連続したスキャンを与えられた場合、我々は新しいポーズのキャラクターをアニメーション化することを学ぶ。 既存の方法は、人体(または衣服)のテンプレートベースの表現に依存している。 しかし、そのようなモデルは通常、固定解像度と限定解像度を持ち、難しいデータ前処理ステップを必要とし、複雑な衣服では使用できない。 動きを調音および非剛性変形に分解するテンプレートベースの手法から着想を得たが、この概念を暗黙的な形状学習に一般化し、より柔軟なモデルを得る。 空間内のすべての点を正準空間に写像し、そこでは符号付き距離場を評価する前に、学習された変形場をモデル非剛性効果に適用する。 我々の定式化は、現在のアプローチと共通するテンプレート登録を計算せずに、衣服や軟組織の複雑な非剛性変形の学習を可能にする。 neural-gifは生の3dスキャンで訓練でき、複雑な表面形状や変形を再現できる。 さらに、モデルは新しいポーズに一般化することができる。 本手法は,多様な衣服スタイルの各種公開データセットから様々な文字を抽出し,定量的・定性的にベースライン法よりも有意な改善が見られた。 また、モデルを複数の形状設定に拡張します。 さらなる研究を刺激するため、モデル、コード、データはhttps://virtualhuman s.mpi-inf.mpg.de/neu ralgif/で公開します。

We present Neural Generalized Implicit Functions(Neural-GIF ), to animate people in clothing as a function of the body pose. Given a sequence of scans of a subject in various poses, we learn to animate the character for new poses. Existing methods have relied on template-based representations of the human body (or clothing). However such models usually have fixed and limited resolutions, require difficult data pre-processing steps and cannot be used with complex clothing. We draw inspiration from template-based methods, which factorize motion into articulation and non-rigid deformation, but generalize this concept for implicit shape learning to obtain a more flexible model. We learn to map every point in the space to a canonical space, where a learned deformation field is applied to model non-rigid effects, before evaluating the signed distance field. Our formulation allows the learning of complex and non-rigid deformations of clothing and soft tissue, without computing a template registration as it is common with current approaches. Neural-GIF can be trained on raw 3D scans and reconstructs detailed complex surface geometry and deformations. Moreover, the model can generalize to new poses. We evaluate our method on a variety of characters from different public datasets in diverse clothing styles and show significant improvements over baseline methods, quantitatively and qualitatively. We also extend our model to multiple shape setting. To stimulate further research, we will make the model, code and data publicly available at: https://virtualhuman s.mpi-inf.mpg.de/neu ralgif/
翻訳日:2021-08-23 10:33:56 公開日:2021-08-20
# 屋外セルトラフィックを考慮した空間時間予測のための多変量・伝搬グラフ注意ネットワーク

Multivariate and Propagation Graph Attention Network for Spatial-Temporal Prediction with Outdoor Cellular Traffic ( http://arxiv.org/abs/2108.08307v2 )

ライセンス: Link先を確認
Chung-Yi Lin, Hung-Ting Su, Shen-Lung Tung, Winston H. Hsu(参考訳) 時空間予測は知的輸送にとって重要な問題であり,交通制御や事故防止といったタスクに有用である。 これまでの研究は、センサーから収集された大規模トラフィックデータに依存していた。 しかし、装置とメンテナンスコストのため、すべての領域にセンサーを配備する可能性は低い。 本稿では, 通信企業における1日20億件以上のデータから抽出した屋外セルラートラフィックを, 利用者移動によって誘導される屋外セルラートラフィックが交通量に大きく関係していることから, この問題に対処する。 都市における道路交差点について検討し、歴史的屋外セル交通を前提として、全交差点の屋外セルトラフィックを予測することを目的としている。 さらに,2つの拡張グラフアテンションネットワーク(GAT)で構成される多変量空間時間予測モデルを提案する。 GATは多変量セルトラフィック間の相関を探索するために用いられる。 別のGATは、空間依存を捕捉する効率を高めるために、アテンションメカニズムをグラフ伝播に活用する。 実験により,提案モデルが,我々のデータセットにおける最先端のメソッドを大幅に上回ることを示した。

Spatial-temporal prediction is a critical problem for intelligent transportation, which is helpful for tasks such as traffic control and accident prevention. Previous studies rely on large-scale traffic data collected from sensors. However, it is unlikely to deploy sensors in all regions due to the device and maintenance costs. This paper addresses the problem via outdoor cellular traffic distilled from over two billion records per day in a telecom company, because outdoor cellular traffic induced by user mobility is highly related to transportation traffic. We study road intersections in urban and aim to predict future outdoor cellular traffic of all intersections given historic outdoor cellular traffic. Furthermore, We propose a new model for multivariate spatial-temporal prediction, mainly consisting of two extending graph attention networks (GAT). First GAT is used to explore correlations among multivariate cellular traffic. Another GAT leverages the attention mechanism into graph propagation to increase the efficiency of capturing spatial dependency. Experiments show that the proposed model significantly outperforms the state-of-the-art methods on our dataset.
翻訳日:2021-08-23 10:33:29 公開日:2021-08-20
# データベースにおける一貫性のある問合せ応答のための二階述語仕様と量化子除去

Second-Order Specifications and Quantifier Elimination for Consistent Query Answering in Databases ( http://arxiv.org/abs/2108.08423v2 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) 一貫性のないデータベースからのクエリに対する一貫性のある回答は、データベースの可能なすべての修復から同時に取得される回答である。 修復は、元の一貫性のないインスタンスと最小に異なる一貫性のあるインスタンスである。 データベースの修復は、解法論理プログラムの安定モデルとして特定できることが以前に示されている。 本稿では,この修復プログラムを用いて,一貫した問合せ応答の問題を推論問題w.r.tに変換する方法について述べる。 2階述語論理で書かれた理論。 また, 2次量子化器の除去手法を適用して, 代わりに1次理論を得る方法も検討した。

Consistent answers to a query from a possibly inconsistent database are answers that are simultaneously retrieved from every possible repair of the database. Repairs are consistent instances that minimally differ from the original inconsistent instance. It has been shown before that database repairs can be specified as the stable models of a disjunctive logic program. In this paper we show how to use the repair programs to transform the problem of consistent query answering into a problem of reasoning w.r.t. a theory written in second-order predicate logic. It also investigated how a first-order theory can be obtained instead by applying second-order quantifier elimination techniques.
翻訳日:2021-08-23 10:33:12 公開日:2021-08-20