このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210816となっている論文です。

PDF登録状況(公開日: 20210816)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) BiHPF:ロバストディープフェイク検出用両側高パスフィルタ [全文訳有]

BiHPF: Bilateral High-Pass Filters for Robust Deepfake Detection ( http://arxiv.org/abs/2109.00911v1 )

ライセンス: CC BY 4.0
Yonghyun Jeong, Doyeon Kim, Seungjai Min, Seongho Joe, Youngjune Gwon, Jongwon Choi(参考訳) 多くの生成モデルの進歩には、2つの効果がある: リアルな合成画像の単純で簡単な生成であるだけでなく、それらの画像が悪用されるリスクも増大する。 したがって、GANモデルやオブジェクトカテゴリの合成画像に対して、トレーニングフェーズ中に見えないものを含む一般化された検出器を開発することが重要である。 しかし、従来の手法はトレーニング設定に大きく依存しており、未知のドメインでテストすると劇的に性能が低下する。 この問題を解決するために, 生成モデルの合成画像で見られる周波数レベルのアーティファクトの効果を増幅するバイラテラルハイパスフィルタ (BiHPF) を提案する。 多数の実験結果から,未検出領域でテストした場合でも,本手法は他の最先端手法よりも優れていることが確認された。

The advancement in numerous generative models has a two-fold effect: a simple and easy generation of realistic synthesized images, but also an increased risk of malicious abuse of those images. Thus, it is important to develop a generalized detector for synthesized images of any GAN model or object category, including those unseen during the training phase. However, the conventional methods heavily depend on the training settings, which cause a dramatic decline in performance when tested with unknown domains. To resolve the issue and obtain a generalized detection ability, we propose Bilateral High-Pass Filters (BiHPF), which amplify the effect of the frequency-level artifacts that are known to be found in the synthesized images of generative models. Numerous experimental results validate that our method outperforms other state-of-the-art methods, even when tested with unseen domains.
翻訳日:2021-09-05 12:45:12 公開日:2021-08-16
# LinkedIn検索のためのディープ自然言語処理

Deep Natural Language Processing for LinkedIn Search ( http://arxiv.org/abs/2108.13300v1 )

ライセンス: Link先を確認
Weiwei Guo, Xiaowei Liu, Sida Wang, Michaeel Kazi, Zhiwei Wang, Zhoutong Fu, Jun Jia, Liang Zhang, Huiji Gao, Bo Long(参考訳) 多くの検索システムは、検索クエリ、ユーザプロファイル、ドキュメントなど、大量の自然言語データを扱う。 ディープラーニングに基づく自然言語処理(deep nlp)が有効な検索システムを構築するには,テキストデータセマンティクスを徹底的に理解する必要がある。 本稿では,クエリインテント予測(分類),クエリタグ付け(系列タグ),ドキュメントランキング(ランク),クエリ自動補完(言語モデリング),クエリ提案(系列)の5つの代表的なタスクに対して,深いnlp手法を適用するための包括的研究を行う。 また、他の多くのタスクに適用可能な6番目のタスクとしてBERT事前トレーニングを導入します。 6つのタスクのモデル設計と実験を通じて、読者は4つの重要な質問に対する回答を見つけることができる。 ディープNLPはいつ検索システムで役立つのか? (2). レイテンシの課題に対処するには? (3). モデルの堅牢性を保証するには? この作業はLinkedIn検索の既存の取り組みに基づいており、LinkedInの商用検索エンジンで大規模にテストされている。 私たちの経験は、業界や研究コミュニティに有用な洞察を与えることができると信じています。

Many search systems work with large amounts of natural language data, e.g., search queries, user profiles, and documents. Building a successful search system requires a thorough understanding of textual data semantics, where deep learning based natural language processing techniques (deep NLP) can be of great help. In this paper, we introduce a comprehensive study for applying deep NLP techniques to five representative tasks in search systems: query intent prediction (classification), query tagging (sequential tagging), document ranking (ranking), query auto completion (language modeling), and query suggestion (sequence to sequence). We also introduce BERT pre-training as a sixth task that can be applied to many of the other tasks. Through the model design and experiments of the six tasks, readers can find answers to four important questions: (1). When is deep NLP helpful/not helpful in search systems? (2). How to address latency challenges? (3). How to ensure model robustness? This work builds on existing efforts of LinkedIn search, and is tested at scale on LinkedIn's commercial search engines. We believe our experiences can provide useful insights for the industry and research communities.
翻訳日:2021-09-05 08:52:08 公開日:2021-08-16
# 機械学習モデル構築のワークフローにおける機能ナノマテリアル設計

Functional Nanomaterials Design in the Workflow of Building Machine-Learning Models ( http://arxiv.org/abs/2108.13171v1 )

ライセンス: Link先を確認
Zhexu Xi(参考訳) 機械学習(ml)技術は、新しい機能性材料の設計、合成、製造、キャラクタリゼーション、応用、特にナノメートルスケールでの高速かつ高効率な発見によって、化学および材料科学の多くの分野に革命をもたらした。 理由は時間効率、予測精度、そして優れた一般化能力が、徐々に従来の実験や計算の作業に取って代わるからである。 mlは、与えられたパラメータからの性質や機能を予測すること、ナノアーキテクチャの設計、その他の目的のために特定のモデルを生成することなど、mlモデルを構築するための基本的な手順の下で、分子/材料の組み合わせに関するより包括的な洞察を提供する。 ナノマテリアル発見の進歩の鍵は、入力指紋と出力値を定量的にリンクする方法である。 最後に、この素晴らしい分野において、いくつかの素晴らしい機会と技術的な課題が解決されます。

Machine-learning (ML) techniques have revolutionized a host of research fields of chemical and materials science with accelerated, high-efficiency discoveries in design, synthesis, manufacturing, characterization and application of novel functional materials, especially at the nanometre scale. The reason is the time efficiency, prediction accuracy and good generalization abilities, which gradually replaces the traditional experimental or computational work. With enormous potentiality to tackle more real-world problems, ML provides a more comprehensive insight into combinations with molecules/materials under the fundamental procedures for constructing ML models, like predicting properties or functionalities from given parameters, nanoarchitecture design and generating specific models for other purposes. The key to the advances in nanomaterials discovery is how input fingerprints and output values can be linked quantitatively. Finally, some great opportunities and technical challenges are concluded in this fantastic field.
翻訳日:2021-09-05 08:51:27 公開日:2021-08-16
# (参考訳) ドメインに依存しないデータ品質検査の統計的学習 [全文訳有]

Statistical Learning to Operationalize a Domain Agnostic Data Quality Scoring ( http://arxiv.org/abs/2108.08905v1 )

ライセンス: CC BY 4.0
Sezal Chug, Priya Kaushal, Ponnurangam Kumaraguru, Tavpritesh Sethi(参考訳) データは想像不可能な速度で拡大しており、この開発によってデータの品質の責任がもたらされる。 データ品質(data quality)とは、ある組織における意思決定や計画といった様々な操作において、存在する情報の関連性をいう。 大部分のデータ品質はアドホックなベースで測定されるため、開発された概念はいずれも実用的な応用を提供していない。 現在の実証研究は、具体的な自動データ品質プラットフォームを定式化し、入力データセットの品質を評価し、品質ラベル、スコア、包括的なレポートを生成する。 我々は,healthdata.gov,open data.nhsおよびdhsプログラムの様々なデータセットを用いて,品質スコアの変動を観察し,主成分分析(pca)を用いてラベルを定式化する。 本研究の結果,9つの品質指標,すなわちプロヴァンス,データセット特性,均一性,メタデータ結合性,欠落セルと重複行の割合,データの歪度,分類列の不一致率,属性間の相関を包含する指標が明らかになった。 この研究は、ミューテーションテストのアプローチに続くメトリクスの実証的なケーススタディと検証も提供する。 本研究は、DQスコア、レポート、ラベルを提供するために、受信したデータセットとメタデータを利用する自動プラットフォームを提供する。 この研究の結果は、データサイエンティストにとって有用であり、この品質ラベルの価値は、それぞれの実践的応用のためにデータをデプロイする前に信頼を喚起する。

Data is expanding at an unimaginable rate, and with this development comes the responsibility of the quality of data. Data Quality refers to the relevance of the information present and helps in various operations like decision making and planning in a particular organization. Mostly data quality is measured on an ad-hoc basis, and hence none of the developed concepts provide any practical application. The current empirical study was undertaken to formulate a concrete automated data quality platform to assess the quality of incoming dataset and generate a quality label, score and comprehensive report. We utilize various datasets from healthdata.gov, opendata.nhs and Demographics and Health Surveys (DHS) Program to observe the variations in the quality score and formulate a label using Principal Component Analysis(PCA). The results of the current empirical study revealed a metric that encompasses nine quality ingredients, namely provenance, dataset characteristics, uniformity, metadata coupling, percentage of missing cells and duplicate rows, skewness of data, the ratio of inconsistencies of categorical columns, and correlation between these attributes. The study also provides an illustrative case study and validation of the metric following Mutation Testing approaches. This research study provides an automated platform which takes an incoming dataset and metadata to provide the DQ score, report and label. The results of this study would be useful to data scientists as the value of this quality label would instill confidence before deploying the data for his/her respective practical application.
翻訳日:2021-08-29 13:26:31 公開日:2021-08-16
# 臨床ノートからの表現型予測のためのハイブリッド深層学習法

Hybrid deep learning methods for phenotype prediction from clinical notes ( http://arxiv.org/abs/2108.10682v1 )

ライセンス: Link先を確認
Sahar Khalafi, Nasser Ghadiri and Milad Moradi(参考訳) 二次電子健康記録における臨床ノートから患者コホートを同定することは臨床情報管理の基本的な課題である。 患者コホート識別は、患者表現型を特定する必要がある。 しかし,臨床ノート数の増加に伴い,手作業で分析することが困難になっている。 したがって, 臨床概念の自動抽出は, 患者表現型を正しく同定するための必須課題となる。 本稿では,自然言語処理とディープラーニングモデルを用いて患者表現型を自動的に抽出し,辞書や人的介入なしに患者表現型を決定するハイブリッドモデルを提案する。 提案するハイブリッドモデルは,神経双方向シーケンスモデル(bilstmまたはbigru)と畳み込みニューラルネットワーク(cnn)に基づいて,退院報告における患者の表現型を同定する。 さらに、各表現型に関するより多くの特徴を抽出するために、追加のcnn層をハイブリッドモデルと並列に実行する。 入力層としてfasttext や word2vec などの事前学習された埋め込みを使い,患者表現型同定における他の埋め込みの性能評価を行った。 また,深層学習モデルによる患者の表現型識別のための退院報告に対する追加データクリーニングステップの適用効果も測定した。 集中治療iii(mimic iii)データベースのための医療情報マート(medical information mart)における退院報告を用いた。 内部比較実験の結果,既存モデルよりも性能が向上した。 追加のcnn層を持つ拡張モデルは、元のハイブリッドモデルよりも比較的高いf1-scoreを得た。

Identifying patient cohorts from clinical notes in secondary electronic health records is a fundamental task in clinical information management. The patient cohort identification needs to identify the patient phenotypes. However, with the growing number of clinical notes, it becomes challenging to analyze the data manually. Therefore, automatic extraction of clinical concepts would be an essential task to identify the patient phenotypes correctly. This paper proposes a novel hybrid model for automatically extracting patient phenotypes using natural language processing and deep learning models to determine the patient phenotypes without dictionaries and human intervention. The proposed hybrid model is based on a neural bidirectional sequence model (BiLSTM or BiGRU) and a Convolutional Neural Network (CNN) for identifying patient's phenotypes in discharge reports. Furthermore, to extract more features related to each phenotype, an extra CNN layer is run parallel to the hybrid proposed model. We used pre-trained embeddings such as FastText and Word2vec separately as the input layers to evaluate other embedding's performance in identifying patient phenotypes. We also measured the effect of applying additional data cleaning steps on discharge reports to identify patient phenotypes by deep learning models. We used discharge reports in the Medical Information Mart for Intensive Care III (MIMIC III) database. Experimental results in internal comparison demonstrate significant performance improvement over existing models. The enhanced model with an extra CNN layer obtained a relatively higher F1-score than the original hybrid model.
翻訳日:2021-08-29 12:12:18 公開日:2021-08-16
# Covid-19ワクチン接種に関するTwitter上の誤解:パンデミックに関するインフォデミックの探索的研究

Misleading the Covid-19 vaccination discourse on Twitter: An exploratory study of infodemic around the pandemic ( http://arxiv.org/abs/2108.10735v1 )

ライセンス: Link先を確認
Shakshi Sharma, Rajesh Sharma, and Anwitaman Datta(参考訳) 本研究では,中規模のツイートコーパス(約20万)を収集した。 新型コロナウイルスの予防接種は7ヶ月(2020年9月~2021年3月)にまたがる。 トランスファー学習のアプローチに従って,事前学習されたトランスフォーマーベースのxlnetモデルを用いて,ツイートを誤解や誤解を招くことなく分類し,結果のランダムなサブセットに対して検証する。 これに基づいて,誤解を招いたコーパス内のつぶやきの特性を,誤解を伴わないものと比較する。 この探索分析により、様々なmlモデルを用いてツイートを(非)ミスリーディングとして分類するために活用できる特徴(感情、ハッシュタグ、名詞、代名詞など)を説明可能な方法で設計することができる。 具体的には、最大90%の精度で予測にいくつかのMLモデルを使用し、SHAP Explainable AI(XAI)ツールを使用して、各機能の重要性を説明する。 本研究の推進力は、主に、コビッドウイルスの予防接種に関するオンライン談話の洞察を得るための探索的分析であるが、これらの知見が、誤情報を緩和するためのより実用的なアプローチの基盤となっていることを概説して、論文を締めくくる。 キュレートされたデータセットとコードは公開されており(Githubリポジトリ)、研究コミュニティ全体がこの作業を再現、比較、構築することができる。

In this work, we collect a moderate-sized representative corpus of tweets (200,000 approx.) pertaining Covid-19 vaccination spanning over a period of seven months (September 2020 - March 2021). Following a Transfer Learning approach, we utilize the pre-trained Transformer-based XLNet model to classify tweets as Misleading or Non-Misleading and validate against a random subset of results manually. We build on this to study and contrast the characteristics of tweets in the corpus that are misleading in nature against non-misleading ones. This exploratory analysis enables us to design features (such as sentiments, hashtags, nouns, pronouns, etc) that can, in turn, be exploited for classifying tweets as (Non-)Misleading using various ML models in an explainable manner. Specifically, several ML models are employed for prediction, with up to 90% accuracy, and the importance of each feature is explained using SHAP Explainable AI (XAI) tool. While the thrust of this work is principally exploratory analysis in order to obtain insights on the online discourse on Covid-19 vaccination, we conclude the paper by outlining how these insights provide the foundations for a more actionable approach to mitigate misinformation. The curated dataset and code is made available (Github repository) so that the research community at large can reproduce, compare against, or build upon this work.
翻訳日:2021-08-29 12:11:56 公開日:2021-08-16
# (参考訳) 無線エッジネットワーク上でのクラスタ化フェデレーション学習を支援するクライアント選択手法 [全文訳有]

Client Selection Approach in Support of Clustered Federated Learning over Wireless Edge Networks ( http://arxiv.org/abs/2108.08768v1 )

ライセンス: CC BY 4.0
Abdullatif Albaseer, Mohamed Abdallah, Ala Al-Fuqaha, and Aiman Erbad(参考訳) クラスタ型フェデレーションマルチタスク学習(cfl)は、データが不均衡で非i.i.dで分散する場合に信頼性の高い特殊モデルを得るための効率的なスキームとして導入された。 クライアント間の(非独立かつ同一の)ファッション。 類似度測定基準(cosine similarity)は、コサイン類似性(cosine similarity)のように、クライアントのグループに特別なモデルを与えるために使用することができるが、サーバがすべてのクライアントを連合学習ラウンドに巻き込む必要があるため、このプロセスは困難である。 したがって、ネットワークエッジにおける帯域幅の制限やレイテンシの制約により、クライアントのサブセットが定期的に選択されることが不可欠である。 そこで本研究では,全クライアント群で高いテスト精度を実現する専用機械学習モデルを得るための収束率を高速化する新しいクライアント選択アルゴリズムを提案する。 具体的には、端末の異種性を利用してクライアントのラウンドレイテンシに基づいてスケジュールし、モデル更新により多くの時間を消費するクライアントの帯域幅の再利用を利用するクライアント選択手法を提案する。 そして、サーバは事前に定義されたしきい値に基づいて、モデル平均化とクライアントのクラスタ化を行います。 特定のクラスタが定常点に達すると、提案アルゴリズムはモデルの更新に少ないレイテンシでクライアントを選択することで、そのグループに対してグレディスケジューリングアルゴリズムを使用する。 広範な実験により,提案手法はトレーニング時間を短縮し,収束率を最大50%向上させるとともに,各クライアントにローカルデータ分布に適した専用モデルを付与することを示した。

Clustered Federated Multitask Learning (CFL) was introduced as an efficient scheme to obtain reliable specialized models when data is imbalanced and distributed in a non-i.i.d. (non-independent and identically distributed) fashion amongst clients. While a similarity measure metric, like the cosine similarity, can be used to endow groups of the client with a specialized model, this process can be arduous as the server should involve all clients in each of the federated learning rounds. Therefore, it is imperative that a subset of clients is selected periodically due to the limited bandwidth and latency constraints at the network edge. To this end, this paper proposes a new client selection algorithm that aims to accelerate the convergence rate for obtaining specialized machine learning models that achieve high test accuracies for all client groups. Specifically, we introduce a client selection approach that leverages the devices' heterogeneity to schedule the clients based on their round latency and exploits the bandwidth reuse for clients that consume more time to update the model. Then, the server performs model averaging and clusters the clients based on predefined thresholds. When a specific cluster reaches a stationary point, the proposed algorithm uses a greedy scheduling algorithm for that group by selecting the clients with less latency to update the model. Extensive experiments show that the proposed approach lowers the training time and accelerates the convergence rate by up to 50% while imbuing each client with a specialized model that is fit for its local data distribution.
翻訳日:2021-08-21 06:48:16 公開日:2021-08-16
# マルチビューネットワーク埋め込みのための深層コントラスト学習

Deep Contrastive Learning for Multi-View Network Embedding ( http://arxiv.org/abs/2108.08296v1 )

ライセンス: Link先を確認
Mengqi Zhang, Yanqiao Zhu, Shu Wu and Liang Wang(参考訳) マルチビューネットワーク埋め込みは、ネットワーク内のノードを低次元ベクトルに投影し、複数の関係や属性情報を保存することを目的としている。 コントラスト学習に基づく手法はこの課題において有望な性能を示した。 しかし、最も対照的な学習ベースの手法は、主に高品質なグラフ埋め込みに依存し、異なるグラフビュー間の関係をあまり探さない。 これらの欠陥に対処するため、我々は、多視点ネットワーク埋め込み(CREME)のための新しいノード間コントラスト学習フレームワークを設計し、主に2つの対照的な目的であるマルチビュー融合InfoMaxとインタービューInfoMinを設計する。 前者は異なるグラフビューから生成された埋め込みから情報を抽出し、後者は異なるグラフビューを区別し、それらの間の補完的な情報をキャプチャする。 具体的には、まずビューエンコーダを適用して各グラフビュー表現を生成し、マルチビューアグリゲータを使用してこれらの表現を融合する。 そして,2つの対照目標を1つの学習目標に統合し,学習を行う。 3つの実世界のデータセットに対する大規模な実験は、CREMEが既存の手法を一貫して上回っていることを示している。

Multi-view network embedding aims at projecting nodes in the network to low-dimensional vectors, while preserving their multiple relations and attribute information. Contrastive learning-based methods have preliminarily shown promising performance in this task. However, most contrastive learning-based methods mostly rely on high-quality graph embedding and explore less on the relationships between different graph views. To deal with these deficiencies, we design a novel node-to-node Contrastive learning framework for Multi-view network Embedding (CREME), which mainly contains two contrastive objectives: Multi-view fusion InfoMax and Inter-view InfoMin. The former objective distills information from embeddings generated from different graph views, while the latter distinguishes different graph views better to capture the complementary information between them. Specifically, we first apply a view encoder to generate each graph view representation and utilize a multi-view aggregator to fuse these representations. Then, we unify the two contrastive objectives into one learning objective for training. Extensive experiments on three real-world datasets show that CREME outperforms existing methods consistently.
翻訳日:2021-08-20 14:43:47 公開日:2021-08-16
# AIRCHITECT: カスタムアーキテクチャ設計とマッピング空間の学習

AIRCHITECT: Learning Custom Architecture Design and Mapping Space ( http://arxiv.org/abs/2108.08295v1 )

ライセンス: Link先を確認
Ananda Samajdar, Jan Moritz Joseph, Matthew Denton, Tushar Krishna(参考訳) 設計空間探索は、最大限の性能とエネルギー効率を抑えるために、カスタムアーキテクチャの設計・展開に重要なステップであるが費用がかかる。 従来、最適化にはシミュレーションやヒューリスティックツールを使用して設計空間を反復的にサンプリングする必要がある。 本稿では,機械学習を用いて最適化タスクを学習する可能性について検討し,学習モデルを用いてカスタムアーキテクチャの設計とマッピング空間の最適パラメータを予測し,探索ステップをバイパスする。 本稿では,最適なアレイ設計,SRAMバッファサイズ,マッピング,スケジュール決定を含む3つのケーススタディを用いて,サイストリックアレイに基づくカスタムアーキテクチャ設計とマッピング空間について検討する。 これらのケーススタディのパービュー内では,設計空間をキャプチャし,ワークロードや設計制約を問う場合の最適設計とマッピングパラメータの予測を"一般化"するためにモデルをトレーニングすることが可能であることを示す。 我々は,最適化空間の体系的設計認識と統計的分析を行い,設計空間のパターンを強調する。 アーキテクチャ設計とマッピングを機械学習問題として定式化し、トレーニングと推論に既存のMLモデルを活用できるようにします。 私たちはAIRCHITECTと呼ばれるカスタムネットワークアーキテクチャを設計し、訓練し、最大94.3%のテスト精度でアーキテクチャ設計空間を学習し、平均(GeoMean)で99.9%の最適な構成を予測できる。

Design space exploration is an important but costly step involved in the design/deployment of custom architectures to squeeze out maximum possible performance and energy efficiency. Conventionally, optimizations require iterative sampling of the design space using simulation or heuristic tools. In this paper we investigate the possibility of learning the optimization task using machine learning and hence using the learnt model to predict optimal parameters for the design and mapping space of custom architectures, bypassing any exploration step. We use three case studies involving the optimal array design, SRAM buffer sizing, mapping, and schedule determination for systolic-array-based custom architecture design and mapping space. Within the purview of these case studies, we show that it is possible to capture the design space and train a model to "generalize" prediction the optimal design and mapping parameters when queried with workload and design constraints. We perform systematic design-aware and statistical analysis of the optimization space for our case studies and highlight the patterns in the design space. We formulate the architecture design and mapping as a machine learning problem that allows us to leverage existing ML models for training and inference. We design and train a custom network architecture called AIRCHITECT, which is capable of learning the architecture design space with as high as 94.3% test accuracy and predicting optimal configurations which achieve on average (GeoMean) of 99.9% the best possible performance on a test dataset with $10^5$ GEMM workloads.
翻訳日:2021-08-20 14:40:26 公開日:2021-08-16
# (参考訳) OACAL: ユーザオブジェクトを弱めるためのモジュール一貫性ソリューションを見つける [全文訳有]

OACAL: Finding Module-Consistent Solutions to Weaken User Obligations ( http://arxiv.org/abs/2108.08282v1 )

ライセンス: CC BY 4.0
Pengcheng Jiang and Kenji Tei(参考訳) ui組み込みマシンやシステムと対話するユーザは、事前に決められた順序でアクションを実行し、特定の機能目標を達成する必要がある。 しかし、そのような義務はしばしばユーザーによって厳密に守られず、特にセキュリティクリティカルなシステムではセキュリティプロパティに違反する可能性がある。 予期せぬユーザの振る舞いを意識してセキュリティを改善するために、システムは仕様のアクションの順序を変更して、より堅牢なものに再設計することができる。 一方,機能変更後に一貫性が保たれると予測している。 本稿では,ユーザ義務の弱化による攻撃シナリオに対応する仕様修正を自動的に生成する効率的なアルゴリズムを提案する。 提案手法では,全ての修正が元の仕様として機能の完全性を維持し,新しい再結合手法を用いて生成する。 次に、セキュリティ要件を満たした認定リビジョンを、モデルチェックと機械学習技術を組み合わせたハイブリッドアプローチによって効率的に検出する。 本アルゴリズムは,その性能を,望ましい修正のカバレッジと探索速度に関する最先端のアプローチと比較することで評価する。

Users interacting with a UI-embedded machine or system are typically obliged to perform their actions in a pre-determined order, to successfully achieve certain functional goals. However, such obligations are often not followed strictly by users, which may lead to the violation to security properties, especially in security-critical systems. In order to improve the security with the awareness of unexpected user behaviors, a system can be redesigned to a more robust one by changing the order of actions in its specification. Meanwhile, we anticipate that the functionalities would remain consistent following the modifications. In this paper, we propose an efficient algorithm to automatically produce specification revisions tackling with attack scenarios caused by the weakened user obligations. By our algorithm, all the revisions maintain the integrity of the functionalities as the original specification, which are generated using a novel recomposition approach. Then, the qualified revisions that can satisfy the security requirements would be efficiently spotted by a hybrid approach combining model checking and machine learning techniques. We evaluate our algorithm by comparing its performance with a state-of-the-art approach regarding their coverage and searching speed of the desirable revisions.
翻訳日:2021-08-20 01:01:12 公開日:2021-08-16
# (参考訳) ブラックボックスモデルに対するパレート最適解釈の合成 [全文訳有]

Synthesizing Pareto-Optimal Interpretations for Black-Box Models ( http://arxiv.org/abs/2108.07307v1 )

ライセンス: CC BY 4.0
Hazem Torfah, Shetal Shah, Supratik Chakraborty, S. Akshay, Sanjit A. Seshia(参考訳) ブラックボックス機械学習モデルの振る舞いを「説明」する解釈を合成するための新しい多目的最適化手法を提案する。 ブラックボックスモデルの人間理解可能な解釈を構築するには、しばしば相反する目的のバランスをとる必要がある。 単純な解釈は人間にとって理解しやすいが、複雑な解釈の予測では正確ではない。 既存の解釈合成法は単一の目的関数を使用し、しばしば単一の解釈クラスに最適化される。 対照的に、より汎用的で多目的な合成フレームワークを提供し、(1)解釈を合成すべき構文テンプレートのクラスをユーザが選択できるようにし、(2)解釈の正確性と説明可能性の両方について定量的に測定する。 与えられたブラックボックスに対して、我々の手法は正確性と説明可能性の尺度に関するパレート最適解釈の集合を導出する。 重み付けされた最大満足度などの量的制約解決への還元により、基礎となる多目的最適化問題を解くことができることを示す。 提案手法の利点を実証するため,ブラックボックス型ニューラルネットワーク分類器の解釈に応用した。 我々の実験は、しばしば既存のアプローチで見逃される解釈に対して、豊かで多様な選択のセットが存在することを示している。

We present a new multi-objective optimization approach for synthesizing interpretations that "explain" the behavior of black-box machine learning models. Constructing human-understandable interpretations for black-box models often requires balancing conflicting objectives. A simple interpretation may be easier to understand for humans while being less precise in its predictions vis-a-vis a complex interpretation. Existing methods for synthesizing interpretations use a single objective function and are often optimized for a single class of interpretations. In contrast, we provide a more general and multi-objective synthesis framework that allows users to choose (1) the class of syntactic templates from which an interpretation should be synthesized, and (2) quantitative measures on both the correctness and explainability of an interpretation. For a given black-box, our approach yields a set of Pareto-optimal interpretations with respect to the correctness and explainability measures. We show that the underlying multi-objective optimization problem can be solved via a reduction to quantitative constraint solving, such as weighted maximum satisfiability. To demonstrate the benefits of our approach, we have applied it to synthesize interpretations for black-box neural-network classifiers. Our experiments show that there often exists a rich and varied set of choices for interpretations that are missed by existing approaches.
翻訳日:2021-08-19 01:47:01 公開日:2021-08-16
# (参考訳) 自己監督型学習のクラスタ化:土地被覆マッピングへの適用 [全文訳有]

Clustering augmented Self-Supervised Learning: Anapplication to Land Cover Mapping ( http://arxiv.org/abs/2108.07323v1 )

ライセンス: CC BY 4.0
Rahul Ghosh, Xiaowei Jia, Chenxi Lin, Zhenong Jin, Vipin Kumar(参考訳) リモートセンシングで大規模なアノテートデータセットを収集することは、しばしばコストがかかるため、高度な機械学習モデルをトレーニングする上で大きな障害になる可能性がある。 この問題に対処する一般的なテクニックは、自由に利用可能な大規模データセット上でDeep Neural Networks(DNN)を事前トレーニングするという考え方に基づいており、このような大規模ラベル付きデータセットが利用できないことと、異なるセンサーの空間的およびスペクトル的解像度の変化に起因するデータソースの不均一性のためにリモートセンシングには使用できない。 自己教師付き学習は、人間のアノテーションを使わずにラベルのない画像から特徴表現を学習する代替手法である。 本稿では,自己教師型学習のためのクラスタリングに基づくプレテキストタスクを用いて,土地被覆マッピングの新しい手法を提案する。 本手法は,セグメンテーション性能,識別的特徴表現学習,基盤となるクラスタ構造の観点から,社会に関係のある2つのアプリケーションに対して有効であることを示す。 また,アノテート予算が限定された場合のマッピング精度を向上させるため,本手法から得られたクラスタを用いたアクティブサンプリングの有効性を示した。

Collecting large annotated datasets in Remote Sensing is often expensive and thus can become a major obstacle for training advanced machine learning models. Common techniques of addressing this issue, based on the underlying idea of pre-training the Deep Neural Networks (DNN) on freely available large datasets, cannot be used for Remote Sensing due to the unavailability of such large-scale labeled datasets and the heterogeneity of data sources caused by the varying spatial and spectral resolution of different sensors. Self-supervised learning is an alternative approach that learns feature representation from unlabeled images without using any human annotations. In this paper, we introduce a new method for land cover mapping by using a clustering based pretext task for self-supervised learning. We demonstrate the effectiveness of the method on two societally relevant applications from the aspect of segmentation performance, discriminative feature representation learning and the underlying cluster structure. We also show the effectiveness of the active sampling using the clusters obtained from our method in improving the mapping accuracy given a limited budget of annotating.
翻訳日:2021-08-19 01:18:06 公開日:2021-08-16
# (参考訳) TUM-VIE: TUM Stereo Visual-Inertial Event Dataset [全文訳有]

TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset ( http://arxiv.org/abs/2108.07329v1 )

ライセンス: CC BY 4.0
Simon Klenk, Jason Chui, Nikolaus Demmel, Daniel Cremers(参考訳) イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルの明るさの変化を測定する。 従来のフレームベースのカメラに比べて、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など多くの利点がある。 したがって、これらのセンサーはロボット工学や仮想現実応用に適している。 イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。 スポーツ中の急激な動きや高ダイナミックレンジシナリオを含む、屋内および屋外環境における様々なハンドヘルドおよびヘッドマウントシーケンスで構成されている。 データセットには、ステレオイベントデータ、20Hzのステレオグレースケールフレーム、200HzのIMUデータが含まれている。 すべてのセンサー間のタイムスタンプはハードウェアで同期される。 イベントカメラには1280x720ピクセルの大きなセンサーが含まれており、既存のステレオイベントデータセットで使用されるセンサー(少なくとも10倍)よりもはるかに大きい。 各シーケンスの開始と終了の間に120Hzのモーションキャプチャシステムから地中真実のポーズを提供し、軌道評価に使用することができる。 TUM-VIEは、最先端のビジュアルSLAMアルゴリズムが失敗したり、大きなドリフトが発生したりする、困難なシーケンスを含んでいる。 したがって、私たちのデータセットは、イベントベースの視覚慣性認識アルゴリズムに関する将来の研究の境界を推し進めるのに役立つ。

Event cameras are bio-inspired vision sensors which measure per pixel brightness changes. They offer numerous benefits over traditional, frame-based cameras, including low latency, high dynamic range, high temporal resolution and low power consumption. Thus, these sensors are suited for robotics and virtual reality applications. To foster the development of 3D perception and navigation algorithms with event cameras, we present the TUM-VIE dataset. It consists of a large variety of handheld and head-mounted sequences in indoor and outdoor environments, including rapid motion during sports and high dynamic range scenarios. The dataset contains stereo event data, stereo grayscale frames at 20Hz as well as IMU data at 200Hz. Timestamps between all sensors are synchronized in hardware. The event cameras contain a large sensor of 1280x720 pixels, which is significantly larger than the sensors used in existing stereo event datasets (at least by a factor of ten). We provide ground truth poses from a motion capture system at 120Hz during the beginning and end of each sequence, which can be used for trajectory evaluation. TUM-VIE includes challenging sequences where state-of-the art visual SLAM algorithms either fail or result in large drift. Hence, our dataset can help to push the boundary of future research on event-based visual-inertial perception algorithms.
翻訳日:2021-08-19 01:03:55 公開日:2021-08-16
# (参考訳) グループレベルラベルを用いた弱教師付き分類 [全文訳有]

Weakly Supervised Classification Using Group-Level Labels ( http://arxiv.org/abs/2108.07330v1 )

ライセンス: CC BY 4.0
Guruprasad Nayak, Rahul Ghosh, Xiaowei Jia, Vipin Kumar(参考訳) 多くのアプリケーションでは、予測モデルのトレーニングに適切なラベル付きデータを見つけることが大きな課題である。 本稿では,インスタンスレベルのバイナリ分類モデルを学習するために,グループレベルのバイナリラベルを弱い監督として使用する手法を提案する。 アグリゲートラベルは、グループレベルのアノテートが安くなり、プライバシーを侵害することなくアノテートされたデータを提供する唯一の方法となるいくつかのドメインで一般的である。 グループレベルのラベルを個々のインスタンスのクラス条件ノイズ(CCN)ラベルとしてモデル化し,強ラベル付きインスタンスでトレーニングされたモデルの予測を正規化するためにノイズラベルを使用する。 土地被覆マッピングの実世界適用実験は, クラス不均衡の有無の両方において, グループレベルラベルを活用するための提案手法の有用性を示す。

In many applications, finding adequate labeled data to train predictive models is a major challenge. In this work, we propose methods to use group-level binary labels as weak supervision to train instance-level binary classification models. Aggregate labels are common in several domains where annotating on a group-level might be cheaper or might be the only way to provide annotated data without infringing on privacy. We model group-level labels as Class Conditional Noisy (CCN) labels for individual instances and use the noisy labels to regularize predictions of the model trained on the strongly-labeled instances. Our experiments on real-world application of land cover mapping shows the utility of the proposed method in leveraging group-level labels, both in the presence and absence of class imbalance.
翻訳日:2021-08-19 00:53:57 公開日:2021-08-16
# (参考訳) 知識ベースに基づく質問応答のための生成的関係リンク [全文訳有]

Generative Relation Linking for Question Answering over Knowledge Bases ( http://arxiv.org/abs/2108.07337v1 )

ライセンス: CC BY 4.0
Gaetano Rossiello, Nandana Mihindukulasooriya, Ibrahim Abdelaziz, Mihaela Bornea, Alfio Gliozzo, Tahira Naseem, Pavan Kapanipathi(参考訳) 関連づけは知識ベース上で質問応答を可能にするために不可欠である。 関連づけ性能の向上には様々な取り組みがあるが、現在の最先端手法では最適な結果が得られず、エンドツーエンドの質問応答性能に悪影響を及ぼす。 そこで本研究では,事前学習されたシーケンス・ツー・シーケンスモデルの利用を促進する生成問題として,それをフレーム化するための新しい手法を提案する。 このようなシーケンス・ツー・シーケンスモデルを,対象の知識ベースから構造化データを読み込むという考え方で拡張し,そのモデルが知識ベースのニュアンスを処理できるようにする。 さらに,議論-関係ペアの一覧からなる構造化アウトプットを生成し,知識検証ステップを可能にするために,モデルをトレーニングする。 dbpediaとwikidataから派生した4つのデータセット上の既存の関係リンクシステムと比較した。 本手法は,異なる知識ベースに適応可能なより単純なモデルを用いながら,最先端よりも大幅な改善を報告している。

Relation linking is essential to enable question answering over knowledge bases. Although there are various efforts to improve relation linking performance, the current state-of-the-art methods do not achieve optimal results, therefore, negatively impacting the overall end-to-end question answering performance. In this work, we propose a novel approach for relation linking framing it as a generative problem facilitating the use of pre-trained sequence-to-sequence models. We extend such sequence-to-sequence models with the idea of infusing structured data from the target knowledge base, primarily to enable these models to handle the nuances of the knowledge base. Moreover, we train the model with the aim to generate a structured output consisting of a list of argument-relation pairs, enabling a knowledge validation step. We compared our method against the existing relation linking systems on four different datasets derived from DBpedia and Wikidata. Our method reports large improvements over the state-of-the-art while using a much simpler model that can be easily adapted to different knowledge bases.
翻訳日:2021-08-19 00:41:25 公開日:2021-08-16
# (参考訳) scene designer: スケッチからのシーン検索と合成のための統一モデル [全文訳有]

Scene Designer: a Unified Model for Scene Search and Synthesis from Sketch ( http://arxiv.org/abs/2108.07353v1 )

ライセンス: CC BY 4.0
Leo Sampaio Ferraz Ribeiro and Tu Bui and John Collomosse and Moacir Ponti(参考訳) シーンデザイナは,シーン構成のフリーハンドスケッチを用いた画像検索と生成のための新しい手法である。 物体の外観と相対的な位置の両方を記述する図面。 私たちの中心となる貢献は、スケッチされたコンポジションを画像にマッチさせるクロスモーダル検索埋め込みとレイアウト合成のためのオブジェクトエンベッドの両方を学ぶための単一の統一モデルです。 コントラスト学習環境下でグラフニューラルネットワーク(gnn)とトランスフォーマー(transformer)が要求されるのは,オブジェクトの種類,外観,配置の相関関係を学習し,コヒーレントなシーンレイアウトを合成するマスク生成モジュールを駆動すると同時に,シーンのスケッチベースのビジュアル検索も提供する点である。

Scene Designer is a novel method for searching and generating images using free-hand sketches of scene compositions; i.e. drawings that describe both the appearance and relative positions of objects. Our core contribution is a single unified model to learn both a cross-modal search embedding for matching sketched compositions to images, and an object embedding for layout synthesis. We show that a graph neural network (GNN) followed by Transformer under our novel contrastive learning setting is required to allow learning correlations between object type, appearance and arrangement, driving a mask generation module that synthesises coherent scene layouts, whilst also delivering state of the art sketch based visual search of scenes.
翻訳日:2021-08-19 00:27:02 公開日:2021-08-16
# (参考訳) 時間ドリフト下の確率的最適化:反復平均化、ステップ減衰、高確率保証

Stochastic optimization under time drift: iterate averaging, step decay, and high probability guarantees ( http://arxiv.org/abs/2108.07356v1 )

ライセンス: CC BY 4.0
Joshua Cutler, Dmitriy Drusvyatskiy, Zaid Harchaoui(参考訳) 未知の確率力学に基づいて時間的に進化している凸関数を最小化する問題を考察する。 このような問題は、概念のドリフトと確率的追跡の名のもと、機械学習や信号処理の文献に多い。 我々は,確率的アルゴリズムの予測と高い確率の両方で有効な境界に焦点をあて,平均化を繰り返す新しい非漸近収束保証を提供する。 特に, ステップ決定スケジュールを備える場合, 近位確率勾配法の追従効率は初期化品質にのみ依存することを示した。 さらに結果は、パフォーマンス予測フレームワークのように、動的が時間と決定変数自体に共同に依存するような設定にまで自然に拡張されます。

We consider the problem of minimizing a convex function that is evolving in time according to unknown and possibly stochastic dynamics. Such problems abound in the machine learning and signal processing literature, under the names of concept drift and stochastic tracking. We provide novel non-asymptotic convergence guarantees for stochastic algorithms with iterate averaging, focusing on bounds valid both in expectation and with high probability. Notably, we show that the tracking efficiency of the proximal stochastic gradient method depends only logarithmically on the initialization quality, when equipped with a step-decay schedule. The results moreover naturally extend to settings where the dynamics depend jointly on time and on the decision variable itself, as in the performative prediction framework.
翻訳日:2021-08-19 00:11:39 公開日:2021-08-16
# (参考訳) BN-NAS: バッチ正規化によるニューラルネットワーク検索 [全文訳有]

BN-NAS: Neural Architecture Search with Batch Normalization ( http://arxiv.org/abs/2108.07375v1 )

ライセンス: CC BY 4.0
Boyu Chen, Peixia Li, Baopu Li, Chen Lin, Chuming Li, Ming Sun, Junjie Yan, Wanli Ouyang(参考訳) 本稿では,Batch Normalization (BN-NAS) を用いたニューラルアーキテクチャサーチ(BN-NAS)を提案する。 BN-NASはNASにおけるモデルトレーニングと評価に必要な時間を著しく短縮することができる。 具体的には,非常に初期のトレーニング段階でのサブネット性能を予測するためのbnに基づく指標を提案する。 BNに基づくインジケータは,スーパーネットトレーニング中にのみBNパラメータをトレーニングすることで,トレーニング効率の向上を促進する。 これは、bnパラメータのみのトレーニングがネットワークアーキテクチャ探索のネットワーク収束を加速するのに対し、スーパーネット全体のトレーニングは必要ないという我々の観測に基づく。 広範な実験により,本手法はスーパーネットの訓練時間を10回以上短縮し,精度を損なうことなく,サブネットの評価時間を60万回以上短縮できることを示した。

We present BN-NAS, neural architecture search with Batch Normalization (BN-NAS), to accelerate neural architecture search (NAS). BN-NAS can significantly reduce the time required by model training and evaluation in NAS. Specifically, for fast evaluation, we propose a BN-based indicator for predicting subnet performance at a very early training stage. The BN-based indicator further facilitates us to improve the training efficiency by only training the BN parameters during the supernet training. This is based on our observation that training the whole supernet is not necessary while training only BN parameters accelerates network convergence for network architecture search. Extensive experiments show that our method can significantly shorten the time of training supernet by more than 10 times and shorten the time of evaluating subnets by more than 600,000 times without losing accuracy.
翻訳日:2021-08-19 00:10:23 公開日:2021-08-16
# isoscore: ベクトル空間利用の均一性を測定する

IsoScore: Measuring the Uniformity of Vector Space Utilization ( http://arxiv.org/abs/2108.07344v1 )

ライセンス: Link先を確認
William Rudman, Nate Gillman, Taylor Rayne, Carsten Eickhoff(参考訳) 最近の分散語表現の成功は、その空間分布の性質を分析することへの関心を高めた。 現在のメトリクスは、文脈化された単語埋め込みモデルは、ベクトル空間にトークンを埋め込むとき、すべての次元を均一に利用しないことを示唆している。 ここでは、既存の測度は脆弱であり、点雲の真の空間分布を難読化する傾向がある。 この問題を改善するため,我々は,点雲が空間ベクトル空間を均一に利用する程度を定量化する新しい計量isoscoreを提案する。 その結果,isoscoreは平均不変性や使用次元数との直接対応など,既存のスコアが持っていない性質として望ましい性質がいくつかあることが分かった。 さらに、isoscoreは概念的に直感的で計算効率が良く、任意のベクトル空間における点雲の分布を分析するのに適しており、必ずしも単語埋め込みのみに限定されるわけではない。 さらに、IsoScoreを用いて、平均コサイン類似性などの空間分布の脆度測定値を用いて導出された最近のNLP文献の結論が不完全あるいは完全に不正確であることを示す。

The recent success of distributed word representations has led to an increased interest in analyzing the properties of their spatial distribution. Current metrics suggest that contextualized word embedding models do not uniformly utilize all dimensions when embedding tokens in vector space. Here we argue that existing metrics are fragile and tend to obfuscate the true spatial distribution of point clouds. To ameliorate this issue, we propose IsoScore: a novel metric which quantifies the degree to which a point cloud uniformly utilizes the ambient vector space. We demonstrate that IsoScore has several desirable properties such as mean invariance and direct correspondence to the number of dimensions used, which are properties that existing scores do not possess. Furthermore, IsoScore is conceptually intuitive and computationally efficient, making it well suited for analyzing the distribution of point clouds in arbitrary vector spaces, not necessarily limited to those of word embeddings alone. Additionally, we use IsoScore to demonstrate that a number of recent conclusions in the NLP literature that have been derived using brittle metrics of spatial distribution, such as average cosine similarity, may be incomplete or altogether inaccurate.
翻訳日:2021-08-18 13:27:15 公開日:2021-08-16
# ファインチューニングはフェデレーションラーニングに最適

Fine-tuning is Fine in Federated Learning ( http://arxiv.org/abs/2108.07313v1 )

ライセンス: Link先を確認
Gary Cheng, Karan Chadha, John Duchi(参考訳) 本研究では,フェデレーション学習アルゴリズムとその変種の性能を漸近的枠組みで検討する。 私たちの出発点は、複数の批判目標としての連合学習の定式化であり、クライアントのすべての情報を使用して、各クライアントの損失を最小限に抑えることを目標としています。 そこで、あるクライアントに対して、理論的に様々なアルゴリズムの性能を高次元漸近極限で比較する線形回帰モデルを提案する。 この漸近的マルチクリエーションアプローチは、自然にフェデレーション学習の高次元で多デバイスな性質をモデル化し、パーソナライズがフェデレーション学習の中心であることを示唆している。 本理論は,federated averaging (ftfa) および ridge regularized variant ridge-tuned federated averaging (rtfa) が,より洗練されたメタラーニングや近位正規化アプローチと競合していることを示唆している。 概念的にシンプルであることに加えて、FTFAとRTFAは競合製品よりも計算効率が良い。 我々は、EMNIST、CIFAR-100、シェークスピア、Stack Overflowデータセットのフェデレーションバージョンに関する広範な実験で、理論的な主張を裏付ける。

We study the performance of federated learning algorithms and their variants in an asymptotic framework. Our starting point is the formulation of federated learning as a multi-criterion objective, where the goal is to minimize each client's loss using information from all of the clients. We propose a linear regression model, where, for a given client, we theoretically compare the performance of various algorithms in the high-dimensional asymptotic limit. This asymptotic multi-criterion approach naturally models the high-dimensional, many-device nature of federated learning and suggests that personalization is central to federated learning. Our theory suggests that Fine-tuned Federated Averaging (FTFA), i.e., Federated Averaging followed by local training, and the ridge regularized variant Ridge-tuned Federated Averaging (RTFA) are competitive with more sophisticated meta-learning and proximal-regularized approaches. In addition to being conceptually simpler, FTFA and RTFA are computationally more efficient than its competitors. We corroborate our theoretical claims with extensive experiments on federated versions of the EMNIST, CIFAR-100, Shakespeare, and Stack Overflow datasets.
翻訳日:2021-08-18 13:24:22 公開日:2021-08-16
# テキストコーパスにおける予め定義されたトピックの動的サリエンスを定量化するNLP手法

An NLP approach to quantify dynamic salience of predefined topics in a text corpus ( http://arxiv.org/abs/2108.07345v1 )

ライセンス: Link先を確認
A. Bock, A. Palladino, S. Smith-Heisters, I. Boardman, E. Pellegrini, E.J. Bienenstock, A. Valenti(参考訳) オンラインニュースメディアの普及は、地理的興味のある場所における社会的・文化的トレンドをプロファイル化し理解することを目的としたアナリストにとって、貴重な資源と重要な課題を同時に提示する。 重要な出来事、傾向、回答を文書化した多くのニュースレポートが、ある場所の社会的特徴をより民主的に表現する一方で、重要なトレンドを抽出するコーパス全体を理解することは、一人のアナリストやチームにとって大きな課題である。 本稿では, 自然言語処理技術を用いて, テキストの大規模なコーパスを通じて, 関心トピックの集合が時間とともにどのように変化するかを定量化する手法を提案する。 事前に定義されたトピックを考慮すれば、それらのトピックにマップし、通常のベースラインから逸脱する利用パターンを持つ、用語の集合(n-gram)を識別し、ランク付けすることができます。 n-gramの使用の創発、消失、あるいは顕著な変化は、関心事のコーパス内のトピックのダイナミックなサリエンスを示す。

The proliferation of news media available online simultaneously presents a valuable resource and significant challenge to analysts aiming to profile and understand social and cultural trends in a geographic location of interest. While an abundance of news reports documenting significant events, trends, and responses provides a more democratized picture of the social characteristics of a location, making sense of an entire corpus to extract significant trends is a steep challenge for any one analyst or team. Here, we present an approach using natural language processing techniques that seeks to quantify how a set of pre-defined topics of interest change over time across a large corpus of text. We found that, given a predefined topic, we can identify and rank sets of terms, or n-grams, that map to those topics and have usage patterns that deviate from a normal baseline. Emergence, disappearance, or significant variations in n-gram usage present a ground-up picture of a topic's dynamic salience within a corpus of interest.
翻訳日:2021-08-18 13:23:35 公開日:2021-08-16
# pnp-3d:3dポイントクラウドのためのプラグアンドプレイ

PnP-3D: A Plug-and-Play for 3D Point Clouds ( http://arxiv.org/abs/2108.07378v1 )

ライセンス: Link先を確認
Shi Qiu, Saeed Anwar, Nick Barnes(参考訳) ディープラーニングパラダイムの助けを借りて、視覚分析のために多くのポイントクラウドネットワークが発明された。 しかし、ポイントクラウドデータの所定の情報が十分に活用されていないため、これらのネットワークの開発には大きな可能性がある。 そこで,提案するpnp-3dは,明示的な3次元空間と暗黙的特徴空間から,より局所的な文脈とグローバルバイリニア応答を伴って,基本ポイントクラウドの特徴表現を洗練することを目的としている。 このアプローチを徹底的に評価するために,分類,意味セグメンテーション,オブジェクト検出という3つの標準ポイントクラウド分析タスクについて実験を行い,各タスクから3つの最先端ネットワークを選択し評価した。 pnp-3dはプラグアンドプレイモジュールとして機能し、確立されたネットワークのパフォーマンスを大幅に向上させることができる。 4つの広く使われているpoint cloudベンチマークで最先端の結果を得るとともに、包括的なアブレーション研究と可視化を行い、このアプローチの利点を実証する。 コードはhttps://github.com/S hiQiu0419/pnp-3dで入手できる。

With the help of the deep learning paradigm, many point cloud networks have been invented for visual analysis. However, there is great potential for development of these networks since the given information of point cloud data has not been fully exploited. To improve the effectiveness of existing networks in analyzing point cloud data, we propose a plug-and-play module, PnP-3D, aiming to refine the fundamental point cloud feature representations by involving more local context and global bilinear response from explicit 3D space and implicit feature space. To thoroughly evaluate our approach, we conduct experiments on three standard point cloud analysis tasks, including classification, semantic segmentation, and object detection, where we select three state-of-the-art networks from each task for evaluation. Serving as a plug-and-play module, PnP-3D can significantly boost the performances of established networks. In addition to achieving state-of-the-art results on four widely used point cloud benchmarks, we present comprehensive ablation studies and visualizations to demonstrate our approach's advantages. The code will be available at https://github.com/S hiQiu0419/pnp-3d.
翻訳日:2021-08-18 13:22:27 公開日:2021-08-16
# 自然言語処理と生成のためのデータセットとモデル文書化のための再利用可能なテンプレートとガイド:ハグフェイスとgemデータとモデルカードのケーススタディ

Reusable Templates and Guides For Documenting Datasets and Models for Natural Language Processing and Generation: A Case Study of the HuggingFace and GEM Data and Model Cards ( http://arxiv.org/abs/2108.07374v1 )

ライセンス: Link先を確認
Angelina McMillan-Major, Salomey Osei, Juan Diego Rodriguez, Pawan Sasanka Ammanamanchi, Sebastian Gehrmann and Yacine Jernite(参考訳) 特に自然言語処理(nlp)ツールの構築に関わる人々の背景、スキル、インセンティブが多岐にわたることを考えると、ドキュメントガイドラインやデータセットやモデルの使い易いテンプレートの開発は難しい作業です。 それでも、NLPの分野にまたがる標準ドキュメントプラクティスの採用は、NLPデータセットとモデルのよりアクセスしやすく詳細な説明を促進すると同時に、研究者や開発者の作業の反映を支援する。 ドキュメントの標準化を支援するために,再利用可能なドキュメンテーションテンプレートの開発を目的とした2つのケーススタディを示す。HuggingFaceデータカード,NLPにおけるデータセットの汎用カード,自然言語生成を重視したGEMベンチマークデータとモデルカードだ。 関連したステークホルダのグループの特定,一連のガイド原則の定義,既存のテンプレートの基盤としての利用,フィードバックに基づく反復的なリビジョンなど,テンプレートの開発プロセスについて説明します。

Developing documentation guidelines and easy-to-use templates for datasets and models is a challenging task, especially given the variety of backgrounds, skills, and incentives of the people involved in the building of natural language processing (NLP) tools. Nevertheless, the adoption of standard documentation practices across the field of NLP promotes more accessible and detailed descriptions of NLP datasets and models, while supporting researchers and developers in reflecting on their work. To help with the standardization of documentation, we present two case studies of efforts that aim to develop reusable documentation templates -- the HuggingFace data card, a general purpose card for datasets in NLP, and the GEM benchmark data and model cards with a focus on natural language generation. We describe our process for developing these templates, including the identification of relevant stakeholder groups, the definition of a set of guiding principles, the use of existing templates as our foundation, and iterative revisions based on feedback.
翻訳日:2021-08-18 13:14:20 公開日:2021-08-16
# CaraNet:小さな医療対象のセグメンテーションのためのコンテキスト軸逆アテンションネットワーク

CaraNet: Context Axial Reverse Attention Network for Segmentation of Small Medical Objects ( http://arxiv.org/abs/2108.07368v1 )

ライセンス: Link先を確認
Ange Lou, Shuyue Guan and Murray Loew(参考訳) 疾患の診断と治療には, 医用画像の正確かつ確実な分離が重要である。 様々な物体のサイズ、形状、および走査モーダル性のため、これは難しい課題である。 近年、多くの畳み込みニューラルネットワーク(CNN)がセグメンテーションタスク用に設計され、大きな成功を収めている。 しかしながら、オブジェクトのサイズを完全に考慮した研究はほとんどなく、したがって、小さなオブジェクトのセグメンテーションにおける性能が低かった。 これは病気の早期発見に大きな影響を与える可能性がある。 本稿では,近年の最先端モデルと比較して,小型オブジェクトのセグメンテーション性能を向上させるためのコンテキスト軸予約注意ネットワーク(CaraNet)を提案する。 脳腫瘍(BraTS 2018)とポリープ(Kvasir-SEG, CVC-ColonDB, CVC-ClinicDB, CVC-300, ETIS-LaribPolypDB)のセグメンテーションについて検討した。 われわれのCaraNetは、Diceのセグメンテーションの精度だけでなく、小さな医療オブジェクトのセグメンテーションにおいて明確なアドバンテージも示している。

Segmenting medical images accurately and reliably is important for disease diagnosis and treatment. It is a challenging task because of the wide variety of objects' sizes, shapes, and scanning modalities. Recently, many convolutional neural networks (CNN) have been designed for segmentation tasks and achieved great success. Few studies, however, have fully considered the sizes of objects and thus most demonstrate poor performance on segmentation of small objects segmentation. This can have significant impact on early detection of disease. This paper proposes a Context Axial Reserve Attention Network (CaraNet) to improve the segmentation performance on small objects compared with recent state-of-the-art models. We test our CaraNet on brain tumor (BraTS 2018) and polyp (Kvasir-SEG, CVC-ColonDB, CVC-ClinicDB, CVC-300 and ETIS-LaribPolypDB) segmentation. Our CaraNet not only achieves the top-rank mean Dice segmentation accuracy, but also shows a distinct advantage in segmentation of small medical objects.
翻訳日:2021-08-18 13:10:44 公開日:2021-08-16
# 機械学習を用いたオピオイド流行の要因の解明

Understanding the factors driving the opioid epidemic using machine learning ( http://arxiv.org/abs/2108.07301v1 )

ライセンス: Link先を確認
Sachin Gavali, Chuming Chen, Julie Cowart, Xi Peng, Shanshan Ding, Cathy Wu and Tammy Anderson(参考訳) 近年、米国は前例のない量の薬物過剰摂取によるオピオイドの流行を経験している。 研究は、このような過剰摂取による死亡は、近隣レベルの特徴と関連しており、効果的な介入を特定する機会を与えている。 通常、通常の最小方形 (OLS) や最大同値推定 (MLE) のような手法は、そのような有害な結果を説明する上で重要な地域レベルの要因を文書化するために用いられる。 しかし、これらの手法は、境界要素間の非線形関係を確かめる能力が低い。 そこで本研究では,デラウェア州におけるオピオイドリスクの同定に機械学習を用いた手法を適用し,これらの要因の相関をシェープ・アダプティブ・説明(SHAP)を用いて検討する。 その結果, 近隣環境に関連する要因は, 教育や犯罪に続き, オピオイドリスクの上昇と高い相関関係があることが判明した。 また,疫病の動態の変化を理解するため,長年にわたる相関関係の変化についても検討した。 また,近年,法的なオピオイド(処方用オピオイド)から違法薬物(ヘロインやフェンタニルなど)への移行に伴い,環境・犯罪・健康関連変数とオピオイドリスクとの相関が顕著に高まり,経済・社会・社会・デポジカル変数の相関が減少していることが明らかとなった。 教育関連要因の相関は, 開始時から高く, 近年は若干増加しており, オピオイド流行に対する意識の高まりが示唆されている。

In recent years, the US has experienced an opioid epidemic with an unprecedented number of drugs overdose deaths. Research finds such overdose deaths are linked to neighborhood-level traits, thus providing opportunity to identify effective interventions. Typically, techniques such as Ordinary Least Squares (OLS) or Maximum Likelihood Estimation (MLE) are used to document neighborhood-level factors significant in explaining such adverse outcomes. These techniques are, however, less equipped to ascertain non-linear relationships between confounding factors. Hence, in this study we apply machine learning based techniques to identify opioid risks of neighborhoods in Delaware and explore the correlation of these factors using Shapley Additive explanations (SHAP). We discovered that the factors related to neighborhoods environment, followed by education and then crime, were highly correlated with higher opioid risk. We also explored the change in these correlations over the years to understand the changing dynamics of the epidemic. Furthermore, we discovered that, as the epidemic has shifted from legal (i.e., prescription opioids) to illegal (e.g.,heroin and fentanyl) drugs in recent years, the correlation of environment, crime and health related variables with the opioid risk has increased significantly while the correlation of economic and socio-demographic variables has decreased. The correlation of education related factors has been higher from the start and has increased slightly in recent years suggesting a need for increased awareness about the opioid epidemic.
翻訳日:2021-08-18 13:09:03 公開日:2021-08-16
# モナドバンドルと強化学習を用いたヘテロティック弦モデルの構築

Heterotic String Model Building with Monad Bundles and Reinforcement Learning ( http://arxiv.org/abs/2108.07316v1 )

ライセンス: Link先を確認
Andrei Constantin, Thomas R. Harvey, Andre Lukas(参考訳) 文字列圧縮を所定の特性で構築する手段として強化学習を用いる。 具体的には,モナド束をもつカラビ・ヤウ3次元多様体上の異種SO(10) GUTモデルについて,現象学的に有望な例を探索する。 膨大な数のバンドルと実行可能な選択のスパース性のため、体系的なスキャンに基づく手法はこのモデルのクラスには適さない。 ピカール数 2 と 3 を持つ2つの特定の多様体に焦点を合わせることにより、強化学習がモナド束の探索に成功できることが示される。 トレーニングは最小限のコンピューティングリソースで達成でき、非常に効率的なポリシーネットワークにつながる。 約100%のエピソードと少数のステップで、現象学的に有望な状態を生成する。 このようにして、何百もの新しい候補標準モデルが見つかる。

We use reinforcement learning as a means of constructing string compactifications with prescribed properties. Specifically, we study heterotic SO(10) GUT models on Calabi-Yau three-folds with monad bundles, in search of phenomenologically promising examples. Due to the vast number of bundles and the sparseness of viable choices, methods based on systematic scanning are not suitable for this class of models. By focusing on two specific manifolds with Picard numbers two and three, we show that reinforcement learning can be used successfully to explore monad bundles. Training can be accomplished with minimal computing resources and leads to highly efficient policy networks. They produce phenomenologically promising states for nearly 100% of episodes and within a small number of steps. In this way, hundreds of new candidate standard models are found.
翻訳日:2021-08-18 13:08:35 公開日:2021-08-16
# 未知信号に対するウォッチドッグを含む共通波形の分類

Classification of Common Waveforms Including a Watchdog for Unknown Signals ( http://arxiv.org/abs/2108.07339v1 )

ライセンス: Link先を確認
C. Tanner Fredieu, Justin Bui, Anthony Martone, Robert J. Marks II, Charles Baylis, R. Michael Buehrer(参考訳) 本稿では,受信した信号サンプルを,通信網やレーダネットワークで使用される4つの共通波形(single carrier(sc),single-c arrier frequency division multiple access(sc-fdma),直交周波数分割多重化(ofdm),線形周波数変調(lfm)のうちの1つから抽出する,深層マルチ層パーセプトロンモデル(deep multi-layer perceptron model architecture)の利用について検討する。 信号の同期は、未知の時間と周波数オフセットが存在すると仮定するので不要である。 深層CNNアーキテクチャを持つオートエンコーダについても検討を行い,未知の波形タイプの新しい第5分類カテゴリを作成する。 これはレーダおよび通信波形の根平均二乗誤差(rmse)から最小および最大しきい値を算出することにより達成される。 分類器とオートエンコーダは協調してスペクトル領域を監視し、未知の波形を検出するとともに、動作領域内の共通波形を識別する。 実験の結果, 分類器の分類精度は0dbより100\%高く, 精度は83.2\%, 精度は94.7\%, 信号障害は5dbであった。 anomaly detectorの結果,高値高速フーリエ変換(fft)サイズの場合,snrで100\%,snrが0dbより大きい0dbで85.3\%の精度を示した。 信号に付加ノイズが導入されると正確な検出率は低下し、78.1\%は-5dB、56.5\%は10dBとなる。 しかし,これらの低速度は,FFTサイズが大きくなることで緩和できる可能性が示唆された。

In this paper, we examine the use of a deep multi-layer perceptron model architecture to classify received signal samples as coming from one of four common waveforms, Single Carrier (SC), Single-Carrier Frequency Division Multiple Access (SC-FDMA), Orthogonal Frequency Division Multiplexing (OFDM), and Linear Frequency Modulation (LFM), used in communication and radar networks. Synchronization of the signals is not needed as we assume there is an unknown and uncompensated time and frequency offset. An autoencoder with a deep CNN architecture is also examined to create a new fifth classification category of an unknown waveform type. This is accomplished by calculating a minimum and maximum threshold values from the root mean square error (RMSE) of the radar and communication waveforms. The classifier and autoencoder work together to monitor a spectrum area to identify the common waveforms inside the area of operation along with detecting unknown waveforms. Results from testing showed the classifier had 100\% classification rate above 0 dB with accuracy of 83.2\% and 94.7\% at -10 dB and -5 dB, respectively, with signal impairments present. Results for the anomaly detector showed 85.3\% accuracy at 0 dB with 100\% at SNR greater than 0 dB with signal impairments present when using a high-value Fast Fourier Transform (FFT) size. Accurate detection rates decline as additional noise is introduced to the signals, with 78.1\% at -5 dB and 56.5\% at -10 dB. However, these low rates seen can be potentially mitigated by using even higher FFT sizes also shown in our results.
翻訳日:2021-08-18 13:08:20 公開日:2021-08-16
# 大規模言語モデルを用いたプログラム合成

Program Synthesis with Large Language Models ( http://arxiv.org/abs/2108.07732v1 )

ライセンス: Link先を確認
Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, Charles Sutton(参考訳) 本稿では,汎用プログラミング言語におけるプログラム合成のための大規模言語モデルの生成限界について検討する。 我々は,MBPPとMathQA-Pythonの2つの新しいベンチマークにおいて,これらのモデル(244Mと137Bパラメータ)のコレクションを評価した。 我々のベンチマークは、これらのモデルが自然言語記述から短いPythonプログラムを合成する能力を測定するために設計されている。 Mostly Basic Programming Problems (MBPP)データセットには974のプログラミングタスクが含まれている。 mathqa-pythonデータセットは、mathqaベンチマークのpythonバージョンであり、より複雑なテキストからコードを合成するモデルの能力を評価する23914の問題を含んでいる。 両方のデータセットにおいて、合成性能はモデルサイズと対数的にスケールする。 私たちの最大のモデルは、コードデータセットを微調整しなくても、よく設計されたプロンプトを使って、MBPPによる問題の59.6%のソリューションを合成することができます。 データセットの保持部分の微調整により、ほとんどのモデルサイズで約10パーセントのパフォーマンスが向上する。 MathQA-Pythonデータセットでは、最大の微調整モデルの精度は83.8%である。 さらに、私たちはモデルがコードに関する対話に参加する能力を研究し、ソリューションを改善するために人間のフィードバックを取り入れます。 ヒトからの自然言語フィードバックは、モデルの初期予測と比較してエラー率を半減することがわかった。 さらに、これらのモデルが不足している場所と、どのプログラムを生成するのが最も難しいかについて、エラー解析を行います。 最後に,プログラム実行結果の予測を微調整することで,これらのモデルのセマンティックグラウンド化を検討する。 最良のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。

This paper explores the limits of the current generation of large language models for program synthesis in general purpose programming languages. We evaluate a collection of such models (with between 244M and 137B parameters) on two new benchmarks, MBPP and MathQA-Python, in both the few-shot and fine-tuning regimes. Our benchmarks are designed to measure the ability of these models to synthesize short Python programs from natural language descriptions. The Mostly Basic Programming Problems (MBPP) dataset contains 974 programming tasks, designed to be solvable by entry-level programmers. The MathQA-Python dataset, a Python version of the MathQA benchmark, contains 23914 problems that evaluate the ability of the models to synthesize code from more complex text. On both datasets, we find that synthesis performance scales log-linearly with model size. Our largest models, even without finetuning on a code dataset, can synthesize solutions to 59.6 percent of the problems from MBPP using few-shot learning with a well-designed prompt. Fine-tuning on a held-out portion of the dataset improves performance by about 10 percentage points across most model sizes. On the MathQA-Python dataset, the largest fine-tuned model achieves 83.8 percent accuracy. Going further, we study the model's ability to engage in dialog about code, incorporating human feedback to improve its solutions. We find that natural language feedback from a human halves the error rate compared to the model's initial prediction. Additionally, we conduct an error analysis to shed light on where these models fall short and what types of programs are most difficult to generate. Finally, we explore the semantic grounding of these models by fine-tuning them to predict the results of program execution. We find that even our best models are generally unable to predict the output of a program given a specific input.
翻訳日:2021-08-18 13:06:55 公開日:2021-08-16
# (参考訳) Proportionate Algorithms Exploit Sparsity? [全文訳有]

Do Proportionate Algorithms Exploit Sparsity? ( http://arxiv.org/abs/2108.06846v1 )

ライセンス: CC BY 4.0
Markus V. S. Lima, Gabriel S. Chaves, Tadeu N. Ferreira, and Paulo S. R. Diniz(参考訳) スパーシティを利用する適応フィルタは、いわゆる比例型アルゴリズムである「proportional-update principle」に従うアルゴリズムが広く使われている、非常に活発な研究分野である。 実際、比例型アルゴリズムには何百もの研究があり、その利点は広く知られている。 本稿では、比例更新の未検討の欠点と限界とその実践的影響について論じる。 我々の発見には、いくつかのスパースシナリオにおけるこれらのアルゴリズムの低性能の理論的正当化、および非定常および圧縮可能なシステムを扱う場合が含まれる。 理論を裏付けるシミュレーション結果が提示される。

Adaptive filters exploiting sparsity have been a very active research field, among which the algorithms that follow the "proportional-update principle", the so-called proportionate-type algorithms, are very popular. Indeed, there are hundreds of works on proportionate-type algorithms and, therefore, their advantages are widely known. This paper addresses the unexplored drawbacks and limitations of using proportional updates and their practical impacts. Our findings include the theoretical justification for the poor performance of these algorithms in several sparse scenarios, and also when dealing with non-stationary and compressible systems. Simulation results corroborating the theory are presented.
翻訳日:2021-08-18 00:44:17 公開日:2021-08-16
# (参考訳) 量子強化学習入門:理論とペニランに基づく実装 [全文訳有]

Introduction to Quantum Reinforcement Learning: Theory and PennyLane-based Implementation ( http://arxiv.org/abs/2108.06849v1 )

ライセンス: CC BY 4.0
Yunseok Kwak, Won Joon Yun, Soyi Jung, Jong-Kook Kim, Joongheon Kim(参考訳) 量子コンピューティングの出現により、研究者は既存の多くの研究に量子回路を適用することができる。 量子回路と量子ディファレンシャルプログラミングを利用することで、 textit{Quantum Machine Learning} (QML) など多くの研究が行われている。 特に、量子強化学習は量子機械学習の可能性をテストするための良い分野であり、多くの研究が行われている。 本研究は,変分量子回路を用いた量子強化学習の概念を導入し,実装と実験を通じてその可能性を確認する。 まず,量子強化学習の背景知識と作業原理を提示するとともに,pennylaneライブラリを用いた実装方法を指導する。 本研究で得られた実験結果から,量子強化学習のパワーと可能性についても考察する。

The emergence of quantum computing enables for researchers to apply quantum circuit on many existing studies. Utilizing quantum circuit and quantum differential programming, many research are conducted such as \textit{Quantum Machine Learning} (QML). In particular, quantum reinforcement learning is a good field to test the possibility of quantum machine learning, and a lot of research is being done. This work will introduce the concept of quantum reinforcement learning using a variational quantum circuit, and confirm its possibility through implementation and experimentation. We will first present the background knowledge and working principle of quantum reinforcement learning, and then guide the implementation method using the PennyLane library. We will also discuss the power and possibility of quantum reinforcement learning from the experimental results obtained through this work.
翻訳日:2021-08-18 00:32:55 公開日:2021-08-16
# (参考訳) 分類とトピックモデリングによる潜在的なセキュリティ脅威発見のためのサイバー脅威インテリジェンスの生成 [全文訳有]

Generating Cyber Threat Intelligence to Discover Potential Security Threats Using Classification and Topic Modeling ( http://arxiv.org/abs/2108.06862v1 )

ライセンス: CC BY 4.0
Md Imran Hossen, Ashraful Islam, Farzana Anowar, Eshtiak Ahmed, Mohammad Masudur Rahman(参考訳) サイバー攻撃や脅威の多様さにより、サイバーセキュリティコミュニティは、従来のセキュリティ制御メカニズムを高度なレベルまで拡張し、自動化ツールが潜在的なセキュリティ脅威に遭遇できるようにしてきた。 サイバー脅威インテリジェンス(CTI)という用語は、データに基づくサイバーセキュリティの脅威の自動予測によって、積極的にかつ堅牢なメカニズムのひとつとして表現されている。 一般に、CTIは様々なソースからデータを収集し分析する。 オンラインセキュリティフォーラム、サイバー愛好家、アナリスト、さらにはサイバー犯罪者でさえサイバーやコンピュータセキュリティに関する話題について議論し、分析に基づいて潜在的な脅威を発見するソーシャルメディア。 あらゆる議論のマニュアル分析として、すなわち、 オンラインプラットフォームへの投稿は時間がかかり、非効率であり、エラーに影響を受けやすい。自動ツールとしてのctiは、サイバー脅威を検出するために一意に実行できる。 本稿では,異なる教師付きおよび教師なし学習技術を用いて,ハッカーフォーラムから関連するCTIを特定し,探索することを目的とする。 この目的のために,実際のハッカーフォーラムからデータを収集し,バイナリデータセットとマルチクラスデータセットという2つのデータセットを構築した。 当社のバイナリデータセットには,サイバーセキュリティ関連ポストを含む2つのクラスと,セキュリティ関連のないポストを含む2つのクラスが含まれています。 このデータセットは単純なキーワード検索技術を用いて構築される。 同様のアプローチで、セキュリティ関連の投稿の投稿を5つの異なる脅威カテゴリに分類する。 次に、いくつかの機械学習分類器とディープニューラルネットワークベースの分類器を適用し、データセット上でそれらの性能を比較する。 私たちはまた、nulled.ioという名前のラベルを基調とするリークデータセットで分類器をテストしました。 さらに、教師なし技術を用いてデータセットを探索する。 潜在ディリクレ転位(LDA)と非負行列因子化(NMF)。

Due to the variety of cyber-attacks or threats, the cybersecurity community has been enhancing the traditional security control mechanisms to an advanced level so that automated tools can encounter potential security threats. Very recently a term, Cyber Threat Intelligence (CTI) has been represented as one of the proactive and robust mechanisms because of its automated cybersecurity threat prediction based on data. In general, CTI collects and analyses data from various sources e.g. online security forums, social media where cyber enthusiasts, analysts, even cybercriminals discuss cyber or computer security related topics and discovers potential threats based on the analysis. As the manual analysis of every such discussion i.e. posts on online platforms is time-consuming, inefficient, and susceptible to errors, CTI as an automated tool can perform uniquely to detect cyber threats. In this paper, our goal is to identify and explore relevant CTI from hacker forums by using different supervised and unsupervised learning techniques. To this end, we collect data from a real hacker forum and constructed two datasets: a binary dataset and a multi-class dataset. Our binary dataset contains two classes one containing cybersecurity-releva nt posts and another one containing posts that are not related to security. This dataset is constructed using simple keyword search technique. Using a similar approach, we further categorize posts from security-relevant posts into five different threat categories. We then applied several machine learning classifiers along with deep neural network-based classifiers and use them on the datasets to compare their performances. We also tested the classifiers on a leaked dataset with labels named nulled.io as our ground truth. We further explore the datasets using unsupervised techniques i.e. Latent Dirichlet Allocation (LDA) and Non-negative Matrix Factorization (NMF).
翻訳日:2021-08-18 00:22:30 公開日:2021-08-16
# (参考訳) Nowcasting-Nets: IMERGを用いた降水開始のためのディープニューラルネットワーク構造

Nowcasting-Nets: Deep Neural Network Structures for Precipitation Nowcasting Using IMERG ( http://arxiv.org/abs/2108.06868v1 )

ライセンス: CC BY 4.0
Mohammad Reza Ehsani, Ariyan Zarei, Hoshin V. Gupta, Kobus Barnard, Ali Behrangi(参考訳) 降雨の正確かつタイムリーな推定は、危険警報(フラッシュフラッドや地すべりなど)の発行には不可欠である。 現在のリモートセンシングされた降水製品には、衛星データの取得と処理に関連する遅延が数時間ある。 これらの製品に堅牢なストリーミングシステムを適用することで、(原則として)このレイテンシを低減し、適用性、価値、影響を改善することができます。 しかし,このようなシステムの開発は大気のカオス的性質によって複雑であり,本研究では降水系の構造に生じる一連の急速な変化を,再帰的および畳み込み型深層ニューラルネットワーク構造を用いた2つのアプローチ(以下,nowcasting-nets)を開発し,降水流速化の課題に対処した。 アメリカ合衆国東部大陸(conus)のgpm(imerg)降水データに対するグローバル降水測定(gpm)統合多衛星検索法を用いて5つのモデルを訓練し、東部および西部大陸の独立データを対象に実験を行った。 モデルは最大1.5時間までのリードタイムを予測できるように設計され、フィードバックループアプローチを用いて予測時間を4.5時間まで延長する能力も検討された。 モデル性能はRandom Forest(RF)とLinear Regression(LR)の機械学習手法と、最新の観測を予測として用いた永続化ベンチマーク(BM)とを比較した。 個別の IMERG 観測を参考として, 降水イベントに関する総合統計とケーススタディの両方について実験を行った。 Nowcasting-Netモデルが提供する予測は全体的に優れており、Convolutional Nowcasting Network with Residual Head (CNC-R) は25%、28%、そして46%の改善を達成している。

Accurate and timely estimation of precipitation is critical for issuing hazard warnings (e.g., for flash floods or landslides). Current remotely sensed precipitation products have a few hours of latency, associated with the acquisition and processing of satellite data. By applying a robust nowcasting system to these products, it is (in principle) possible to reduce this latency and improve their applicability, value, and impact. However, the development of such a system is complicated by the chaotic nature of the atmosphere, and the consequent rapid changes that can occur in the structures of precipitation systems In this work, we develop two approaches (hereafter referred to as Nowcasting-Nets) that use Recurrent and Convolutional deep neural network structures to address the challenge of precipitation nowcasting. A total of five models are trained using Global Precipitation Measurement (GPM) Integrated Multi-satellitE Retrievals for GPM (IMERG) precipitation data over the Eastern Contiguous United States (CONUS) and then tested against independent data for the Eastern and Western CONUS. The models were designed to provide forecasts with a lead time of up to 1.5 hours and, by using a feedback loop approach, the ability of the models to extend the forecast time to 4.5 hours was also investigated. Model performance was compared against the Random Forest (RF) and Linear Regression (LR) machine learning methods, and also against a persistence benchmark (BM) that used the most recent observation as the forecast. Independent IMERG observations were used as a reference, and experiments were conducted to examine both overall statistics and case studies involving specific precipitation events. Overall, the forecasts provided by the Nowcasting-Net models are superior, with the Convolutional Nowcasting Network with Residual Head (CNC-R) achieving 25%, 28%, and 46% improvement in the test ...
翻訳日:2021-08-17 23:54:10 公開日:2021-08-16
# (参考訳) イノベーション検索によるデータクラスタリングの実現 [全文訳有]

Provable Data Clustering via Innovation Search ( http://arxiv.org/abs/2108.06888v1 )

ライセンス: CC BY 4.0
Weiwei Li, Mostafa Rahmani, Ping Li(参考訳) 本稿では,高次元環境空間から収集したデータポイントが線形部分空間の結合にある部分空間クラスタリング問題について述べる。 サブスペースクラスタリングは、サブスペース間の交差の次元が大きくなると困難になり、自己表現に基づく手法のほとんどはクラスタ間の交差に敏感になる。 自己表現に基づく手法とは対照的に、最近提案されたクラスタリング手法であるInnovation Pursuitは、隣接行列を構築するための最適な方向(イノベーションの方向)を計算した。 本稿では,イノベーション追求アルゴリズムに着目し,サブスペースが深く交差した際のその印象的な性能に光を当てる。 部分空間が互いに十分に一貫性を持っていなければならない既存の方法のほとんどとは対照的に、イノベーションの追求は、部分空間の革新的構成要素が互いに十分に一貫性を欠くことのみを必要とする。 これらの新しい十分条件により、クラスターは互いに強く近接する。 提案した理論解析により, 数値的および理論的結果の両面から, 単純かつ効果的な投影法が提案され, イノベーション・スーツの性能向上を図っている。

This paper studies the subspace clustering problem in which data points collected from high-dimensional ambient space lie in a union of linear subspaces. Subspace clustering becomes challenging when the dimension of intersection between subspaces is large and most of the self-representation based methods are sensitive to the intersection between the span of clusters. In sharp contrast to the self-representation based methods, a recently proposed clustering method termed Innovation Pursuit, computed a set of optimal directions (directions of innovation) to build the adjacency matrix. This paper focuses on the Innovation Pursuit Algorithm to shed light on its impressive performance when the subspaces are heavily intersected. It is shown that in contrast to most of the existing methods which require the subspaces to be sufficiently incoherent with each other, Innovation Pursuit only requires the innovative components of the subspaces to be sufficiently incoherent with each other. These new sufficient conditions allow the clusters to be strongly close to each other. Motivated by the presented theoretical analysis, a simple yet effective projection based technique is proposed which we show with both numerical and theoretical results that it can boost the performance of Innovation Pursuit.
翻訳日:2021-08-17 23:52:43 公開日:2021-08-16
# (参考訳) 深層学習を用いた認知的復号化の課題

Challenges for cognitive decoding using deep learning methods ( http://arxiv.org/abs/2108.06896v1 )

ライセンス: CC BY 4.0
Armin W. Thomas, Christopher R\'e, Russell A. Poldrack(参考訳) 認知デコーディングにおいて、研究者は、その領域の活動から識別できる認知状態(例えば、ギャンブルの受容/削除)を識別することによって、脳領域の表現を特徴付けることを目的としている。 深層学習(DL)手法は、複雑なデータの汎用的な表現を学習する未整合能力を備えた認知的復号化に非常に有望である。 しかし、認知的復号化における彼らの広範な応用は、解釈可能性の欠如と、それを小さなデータセットに適用し、再現性と堅牢性を確保することの難しさによって妨げられている。 本稿では,最近の人工知能とトランスファー学習の進歩を活かし,dlモデリング結果の再現性とロバスト性を改善するための具体的な推奨を行うとともに,これらの課題へのアプローチを提案する。

In cognitive decoding, researchers aim to characterize a brain region's representations by identifying the cognitive states (e.g., accepting/rejecting a gamble) that can be identified from the region's activity. Deep learning (DL) methods are highly promising for cognitive decoding, with their unmatched ability to learn versatile representations of complex data. Yet, their widespread application in cognitive decoding is hindered by their general lack of interpretability as well as difficulties in applying them to small datasets and in ensuring their reproducibility and robustness. We propose to approach these challenges by leveraging recent advances in explainable artificial intelligence and transfer learning, while also providing specific recommendations on how to improve the reproducibility and robustness of DL modeling results.
翻訳日:2021-08-17 23:35:05 公開日:2021-08-16
# (参考訳) 政策改善基準付きニューラル・トゥ・ツリー政策蒸留 [全文訳有]

Neural-to-Tree Policy Distillation with Policy Improvement Criterion ( http://arxiv.org/abs/2108.06898v1 )

ライセンス: CC BY 4.0
Zhao-Hua Li, Yang Yu, Yingfeng Chen, Ke Chen, Zhipeng Hu, Changjie Fan(参考訳) 深層強化学習は、難しい意思決定タスクで有望な成果を上げていますが、その成功の主な骨は -- 深層ニューラルネットワークが大半はブラックボックスです。 ブラックボックスモデルに対する洞察を得るための実現可能な方法は、それをif-thenルールで構成され、容易に把握して検証できる決定木のような解釈可能なモデルに蒸留することである。 しかしながら、伝統的なモデル蒸留は、通常、強化学習に違反する定常データ分布仮定の下で教師あり学習タスクである。 したがって、小さなエラーでもモデルの振る舞いをクローンする典型的なポリシー蒸留は、データの分散シフトをもたらす可能性があり、その結果、低い忠実性または低い性能で不満足な蒸留ポリシーモデルが得られる。 本稿では, 蒸留の目的を挙動クローニングから有効性評価の最大化へ変更することで, この問題に対処することを提案する。 新規蒸留目的は、近似累積報酬を最大化し、データシフト効果を制御する臨界状態における悲惨な挙動をより重視する。 本手法は,いくつかのジムタスク,商用戦闘ゲーム,自動運転車シミュレータを用いて評価する。 実験の結果,提案手法は,行動のクローン化よりも高い累積報酬を保存でき,元の手法よりも一貫性のある方針が得られた。 さらに, 蒸留した決定木から抽出した規則を調べることにより, 提案手法が合理的かつ堅牢な決定をもたらすことを示す。

While deep reinforcement learning has achieved promising results in challenging decision-making tasks, the main bones of its success --- deep neural networks are mostly black-boxes. A feasible way to gain insight into a black-box model is to distill it into an interpretable model such as a decision tree, which consists of if-then rules and is easy to grasp and be verified. However, the traditional model distillation is usually a supervised learning task under a stationary data distribution assumption, which is violated in reinforcement learning. Therefore, a typical policy distillation that clones model behaviors with even a small error could bring a data distribution shift, resulting in an unsatisfied distilled policy model with low fidelity or low performance. In this paper, we propose to address this issue by changing the distillation objective from behavior cloning to maximizing an advantage evaluation. The novel distillation objective maximizes an approximated cumulative reward and focuses more on disastrous behaviors in critical states, which controls the data shift effect. We evaluate our method on several Gym tasks, a commercial fight game, and a self-driving car simulator. The empirical results show that the proposed method can preserve a higher cumulative reward than behavior cloning and learn a more consistent policy to the original one. Moreover, by examining the extracted rules from the distilled decision trees, we demonstrate that the proposed method delivers reasonable and robust decisions.
翻訳日:2021-08-17 23:34:07 公開日:2021-08-16
# (参考訳) 最適トレーニングデータセットを用いた最適アクタークリティカルポリシー [全文訳有]

Optimal Actor-Critic Policy with Optimized Training Datasets ( http://arxiv.org/abs/2108.06911v1 )

ライセンス: CC BY 4.0
Chayan Banerjee, Zhiyong Chen, Nasimul Noman and Mohsen Zamani(参考訳) アクタークリティカル(AC)アルゴリズムは、強化学習問題の解法における有効性と高い性能で知られているが、サンプリング効率も低い。 ACベースの政策最適化プロセスは反復的であり、エージェント環境システムに頻繁にアクセスしてポリシーをロールアウトし、報酬と状態(すなわち、報酬)を収集することでポリシーを評価し、更新する必要がある。 サンプル)とそれらから学ぶこと。 最終的には、最適なポリシーを学ぶために大量のサンプルが必要です。 サンプリング効率を向上させるため,ACプロセスから収集したサンプルをはるかに少ないトレーニングデータセットを最適化する手法を提案する。 データセット最適化は、最良のエピソードのみの操作、ポリシーパラメータ適合モデル、遺伝的アルゴリズムモジュールで構成されている。 最適化されたトレーニングデータセットによって訓練された最適ポリシーネットワークは、自律力学系を制御する多くの現代のacアルゴリズムよりも優れた性能を示す。 標準ベンチマークによる評価では,本手法はサンプリング効率を向上し,最適収束の高速化とデータ効率の向上を実現している。

Actor-critic (AC) algorithms are known for their efficacy and high performance in solving reinforcement learning problems, but they also suffer from low sampling efficiency. An AC based policy optimization process is iterative and needs to frequently access the agent-environment system to evaluate and update the policy by rolling out the policy, collecting rewards and states (i.e. samples), and learning from them. It ultimately requires a huge number of samples to learn an optimal policy. To improve sampling efficiency, we propose a strategy to optimize the training dataset that contains significantly less samples collected from the AC process. The dataset optimization is made of a best episode only operation, a policy parameter-fitness model, and a genetic algorithm module. The optimal policy network trained by the optimized training dataset exhibits superior performance compared to many contemporary AC algorithms in controlling autonomous dynamical systems. Evaluation on standard benchmarks show that the method improves sampling efficiency, ensures faster convergence to optima, and is more data-efficient than its counterparts.
翻訳日:2021-08-17 23:21:16 公開日:2021-08-16
# (参考訳) Polyp-PVT:ピラミッド型ビジョントランスを用いたポリプセグメンテーション [全文訳有]

Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers ( http://arxiv.org/abs/2108.06932v1 )

ライセンス: CC BY 4.0
Bo Dong, Wenhai Wang, Deng-Ping Fan, Jinpeng Li, Huazhu Fu, Ling Shao(参考訳) 多くのpolypセグメンテーション手法は、CNNをバックボーンとして使用しており、エンコーダとデコーダの間で情報を交換する際には、1)異なるレベルの特徴間のコントリビューションの違いを考慮に入れ、2)これらの特徴を融合するための効果的なメカニズムを設計する。 既存のCNN方式と異なり、より強力で堅牢な表現を学習するトランスフォーマーエンコーダを採用している。 さらに,ポリープの画像取得の影響と可溶性を考慮して,カスケード融合モジュール(cfm),カモフラージュ識別モジュール(cim),類似性集約モジュール(sam)の3つの新規モジュールを導入する。 これらのうち、CFMは高レベルの特徴からポリプの意味情報と位置情報を収集し、CIMは低レベルの特徴に変装したポリプ情報をキャプチャする。 SAMの助けを借りて,ポリプ領域のピクセルの特徴をポリプ領域全体に高レベルな意味的位置情報で拡張し,クロスレベルな特徴を効果的に融合させる。 提案モデルでは,特徴の雑音を効果的に抑制し,表現能力を大幅に向上させる。 5つの広く採用されているデータセットの大規模な実験により、提案モデルは既存の手法よりも様々な困難な状況(例えば、外観の変化、小さなオブジェクト)に対してより堅牢であり、新しい最先端のパフォーマンスを実現することが示されている。 提案されたモデルはhttps://github.com/D engPingFan/Polyp-PVT で公開されている。

Most polyp segmentation methods use CNNs as their backbone, leading to two key issues when exchanging information between the encoder and decoder: 1) taking into account the differences in contribution between different-level features; and 2) designing effective mechanism for fusing these features. Different from existing CNN-based methods, we adopt a transformer encoder, which learns more powerful and robust representations. In addition, considering the image acquisition influence and elusive properties of polyps, we introduce three novel modules, including a cascaded fusion module (CFM), a camouflage identification module (CIM), a and similarity aggregation module (SAM). Among these, the CFM is used to collect the semantic and location information of polyps from high-level features, while the CIM is applied to capture polyp information disguised in low-level features. With the help of the SAM, we extend the pixel features of the polyp area with high-level semantic position information to the entire polyp area, thereby effectively fusing cross-level features. The proposed model, named \ourmodel, effectively suppresses noises in the features and significantly improves their expressive capabilities. Extensive experiments on five widely adopted datasets show that the proposed model is more robust to various challenging situations (e.g., appearance changes, small objects) than existing methods, and achieves the new state-of-the-art performance. The proposed model is available at https://github.com/D engPingFan/Polyp-PVT .
翻訳日:2021-08-17 23:04:06 公開日:2021-08-16
# (参考訳) TL-SDD:少数のサンプルを用いた転写学習による表面欠陥検出手法 [全文訳有]

TL-SDD: A Transfer Learning-Based Method for Surface Defect Detection with Few Samples ( http://arxiv.org/abs/2108.06939v1 )

ライセンス: CC BY 4.0
Jiahui Cheng, Bin Guo, Jiaqi Liu, Sicong Liu, Guangzhi Wu, Yueqi Sun, Zhiwen Yu(参考訳) 表面欠陥検出は、製品の品質を保証するために製造業においてますます重要な役割を果たす。 多くの深層学習手法が表面欠陥検出タスクで広く使われており、欠陥の分類や位置においてよく機能することが証明されている。 しかし、深層学習に基づく検出手法は訓練に大量のデータを必要とすることが多く、欠陥カテゴリの分布が不均衡であることが多いため、実際の産業シナリオには適用できない。 言い換えれば、一般的な欠陥クラスは多くのサンプルを持つが、まれな欠陥クラスは極めて少ないサンプルを持ち、これらのメソッドがまれな欠陥クラスを適切に検出することは困難である。 そこで本論文では,表面欠陥検出のための新しいトランスファー学習に基づく手法であるtl-sddを提案する。 まず、共通の欠陥クラスから稀な欠陥クラスに知識を移すための2段階のトレーニングスキームを採用する。 次に,Metric-based Surface Defect Detection (M-SDD)モデルを提案する。 1)特徴抽出モジュール:高レベルの意味情報と低レベルの構造情報を組み合わせた特徴融合を含む。 2) 機能再重み付けモジュール: 特徴の重要性を示す再重み付けベクトルに例を変換する。 3)距離距離加群:各カテゴリの表現への距離を計算することで欠陥を分類する距離空間を学習する。 最後に, アルミニウムプロファイルの表面欠陥を含む実データを用いて, 提案手法の性能を検証する。 基準法と比較すると, 稀な欠陥クラスに対して, 提案手法の性能は1.98%向上した。

Surface defect detection plays an increasingly important role in manufacturing industry to guarantee the product quality. Many deep learning methods have been widely used in surface defect detection tasks, and have been proven to perform well in defects classification and location. However, deep learning-based detection methods often require plenty of data for training, which fail to apply to the real industrial scenarios since the distribution of defect categories is often imbalanced. In other words, common defect classes have many samples but rare defect classes have extremely few samples, and it is difficult for these methods to well detect rare defect classes. To solve the imbalanced distribution problem, in this paper we propose TL-SDD: a novel Transfer Learning-based method for Surface Defect Detection. First, we adopt a two-phase training scheme to transfer the knowledge from common defect classes to rare defect classes. Second, we propose a novel Metric-based Surface Defect Detection (M-SDD) model. We design three modules for this model: (1) feature extraction module: containing feature fusion which combines high-level semantic information with low-level structural information. (2) feature reweighting module: transforming examples to a reweighting vector that indicates the importance of features. (3) distance metric module: learning a metric space in which defects are classified by computing distances to representations of each category. Finally, we validate the performance of our proposed method on a real dataset including surface defects of aluminum profiles. Compared to the baseline methods, the performance of our proposed method has improved by up to 11.98% for rare defect classes.
翻訳日:2021-08-17 22:23:14 公開日:2021-08-16
# (参考訳) 属性強調特徴を用いたビデオ人物再同定 [全文訳有]

Video Person Re-identification using Attribute-enhanced Features ( http://arxiv.org/abs/2108.06946v1 )

ライセンス: CC BY 4.0
Tianrui Chai, Zhiyuan Chen, Annan Li, Jiaxin Chen, Xinyu Mei, Yunhong Wang(参考訳) ビデオベースの人物再識別(re-id)は、重複しないカメラにまたがる人々を監視ビデオで関連付けることを目的としている。 性別、年齢、服装などの歩行者属性は、リッチで補足的な情報を含んでいるが、ビデオパーソンのリidでは探索されにくい。 本研究では,属性支援型ビデオ人物Re-IDのためのAttribute Salience Assisted Network (ASA-Net) という新しいネットワークアーキテクチャを提案する。 提案されているAttribute Salient Region Enhance (ASRE)モジュールは、歩行者の体にもっと正確に対応できる。 第2に,対象歩行者の視角や移動といった,同一性に欠ける対象的・対象的関連要因が,歩行者の2次元的外観に大きく影響することを発見した。 この問題は、Pose~\&~Motion-Invariant(PM I)三重項損失と呼ばれる新しい三重項損失を通じて、アイデンティティ関連属性とアイデンティティ関連属性の両方を調べることで緩和することができる。

Video-based person re-identification (Re-ID) which aims to associate people across non-overlapping cameras using surveillance video is a challenging task. Pedestrian attribute, such as gender, age and clothing characteristics contains rich and supplementary information but is less explored in video person Re-ID. In this work, we propose a novel network architecture named Attribute Salience Assisted Network (ASA-Net) for attribute-assisted video person Re-ID, which achieved considerable improvement to existing works by two methods.First, to learn a better separation of the target from background, we propose to learn the visual attention from middle-level attribute instead of high-level identities. The proposed Attribute Salient Region Enhance (ASRE) module can attend more accurately on the body of pedestrian. Second, we found that many identity-irrelevant but object or subject-relevant factors like the view angle and movement of the target pedestrian can greatly influence the two dimensional appearance of a pedestrian. This problem can be mitigated by investigating both identity-relevant and identity-irrelevant attributes via a novel triplet loss which is referred as the Pose~\&~Motion-Invariant (PMI) triplet loss.
翻訳日:2021-08-17 22:12:36 公開日:2021-08-16
# (参考訳) デヴァナガリ文字におけるヒンディー語歌詞の知識グラフ表現を用いた文脈感情分析 [全文訳有]

Contextual Mood Analysis with Knowledge Graph Representation for Hindi Song Lyrics in Devanagari Script ( http://arxiv.org/abs/2108.06947v1 )

ライセンス: CC BY 4.0
Makarand Velankar, Rachita Kotian and Parag Kulkarni(参考訳) 歌詞は歌の気分を伝える上で重要な役割を担い、音楽のコミュニケーションを理解し解釈するための情報である。 従来の自然言語処理アプローチでは、ヒンディー語のテキストを英語に翻訳して分析する。 このアプローチは歌詞に適さないが、本来意味のある文脈的意味を失う可能性がある。 このようにして、デバナガリテキスト分析システムを開発する必要性が明らかになった。 実験には、5つの異なる気分で均等に分布した300曲の歌詞のデータセットを使用する。 提案システムは,Devanagariテキスト形式でヒンディー語歌詞の文脈的気分分析を行う。 コンテキスト分析は知識ベースとして保存され、新しいデータを使ったインクリメンタルな学習アプローチを使って更新される。 ムードと関連する重要な文脈用語を備えた文脈知識グラフは、使用される歌詞データセットのグラフィカル表現を提供する。 その結果, 気分予測の精度は64%であった。 この作品は、要約、索引付け、文脈検索、文脈に基づく分類、文書のグループ化といったヒンディー語文学作品に関連するアプリケーションに容易に拡張できる。

Lyrics play a significant role in conveying the song's mood and are information to understand and interpret music communication. Conventional natural language processing approaches use translation of the Hindi text into English for analysis. This approach is not suitable for lyrics as it is likely to lose the inherent intended contextual meaning. Thus, the need was identified to develop a system for Devanagari text analysis. The data set of 300 song lyrics with equal distribution in five different moods is used for the experimentation. The proposed system performs contextual mood analysis of Hindi song lyrics in Devanagari text format. The contextual analysis is stored as a knowledge base, updated using an incremental learning approach with new data. Contextual knowledge graph with moods and associated important contextual terms provides the graphical representation of the lyric data set used. The testing results show 64% accuracy for the mood prediction. This work can be easily extended to applications related to Hindi literary work such as summarization, indexing, contextual retrieval, context-based classification and grouping of documents.
翻訳日:2021-08-17 21:47:37 公開日:2021-08-16
# (参考訳) カーネルヒルベルト空間再生における一様関数推定器 [全文訳有]

Uniform Function Estimators in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2108.06953v1 )

ライセンス: CC BY 4.0
Paul Dommel and Alois Pichler(参考訳) 本稿では,ランダムな位置で重畳された誤差で観測される関数再構成の回帰問題に対処する。 カーネルヒルベルト空間を再現する際の問題に対処する。 しばしばガウス確率場を用いて導出される推定器は、再現された核ヒルベルト空間の平均ノルムに条件付き期待値に収束することが示され、この関数推定器の局所的および一様収束が示唆される。 カーネルをプリセレクトすることで、問題は次元性の呪いに苦しむことはない。 本論文は推定器の統計特性を解析する。 コンバージェンス特性を導出し,サンプルサイズの増大に寄与するコンバーゼンス率を保留する。

This paper addresses the problem of regression to reconstruct functions, which are observed with superimposed errors at random locations. We address the problem in reproducing kernel Hilbert spaces. It is demonstrated that the estimator, which is often derived by employing Gaussian random fields, converges in the mean norm of the reproducing kernel Hilbert space to the conditional expectation and this implies local and uniform convergence of this function estimator. By preselecting the kernel, the problem does not suffer from the curse of dimensionality. The paper analyzes the statistical properties of the estimator. We derive convergence properties and provide a conservative rate of convergence for increasing sample sizes.
翻訳日:2021-08-17 21:39:13 公開日:2021-08-16
# (参考訳) wikichurches: 現実の課題を伴うアーキテクチャスタイルのきめ細かいデータセット [全文訳有]

WikiChurches: A Fine-Grained Dataset of Architectural Styles with Real-World Challenges ( http://arxiv.org/abs/2108.06959v1 )

ライセンス: CC BY-SA 4.0
Bj\"orn Barz, Joachim Denzler(参考訳) 建築様式分類のための新しいデータセットを導入し,教会建築の9,485枚の画像から構成した。 画像とスタイルのラベルはウィキペディアから作成されている。 このデータセットは、微妙な視覚的特徴に基づくクラス間のきめ細かい区別、比較的小さなサンプルサイズ、高度に不均衡なクラス分布、視点のばらつき、ラベルの階層的な構成など、現実世界のさまざまな課題のベンチマークとして機能する。 さらに,4つのカテゴリの139の教会に対して,特徴的な視覚特徴のバウンディングボックスアノテーションを631個提供する。 これらのアノテーションは、例えば、細かい粒度の分類の研究に役立ち、異なるオブジェクト部分に関する専門家の知識がしばしば利用できる。 https://doi.org/10.5 281/zenodo.5166987

We introduce a novel dataset for architectural style classification, consisting of 9,485 images of church buildings. Both images and style labels were sourced from Wikipedia. The dataset can serve as a benchmark for various research fields, as it combines numerous real-world challenges: fine-grained distinctions between classes based on subtle visual features, a comparatively small sample size, a highly imbalanced class distribution, a high variance of viewpoints, and a hierarchical organization of labels, where only some images are labeled at the most precise level. In addition, we provide 631 bounding box annotations of characteristic visual features for 139 churches from four major categories. These annotations can, for example, be useful for research on fine-grained classification, where additional expert knowledge about distinctive object parts is often available. Images and annotations are available at: https://doi.org/10.5 281/zenodo.5166987
翻訳日:2021-08-17 21:14:04 公開日:2021-08-16
# (参考訳) メトリック学習を用いたタスク感性概念ドリフト検出器 [全文訳有]

Task-Sensitive Concept Drift Detector with Metric Learning ( http://arxiv.org/abs/2108.06980v1 )

ライセンス: CC BY 4.0
Andrea Castellani, Sebastian Schmitt, Barbara Hammer(参考訳) データ内のドリフトを検出することは機械学習アプリケーションにとって不可欠であり、処理されたデータの統計の変化は、通常、訓練されたモデルの性能に大きな影響を及ぼす。 利用可能なドリフト検出手法のほとんどは、推論時間中に真のラベルにアクセスする必要がある。 現実のシナリオでは、真のラベルはモデルトレーニング時にのみ利用できる。 そこで本研究では,推論中に真のラベルにアクセスすることなくドリフトを検出するタスクセンシティブドリフト検出フレームワークを提案する。 入力データの制約付き低次元埋め込み表現のメトリック学習を利用しており、分類タスクに最適である。 ドリフトが分類性能に影響する実際のドリフトを検出することができるが、ドリフトによって分類性能に影響されない仮想ドリフトを適切に無視することができる。 提案フレームワークでは,受信したデータサンプルの統計値の変化を検出するための実際の手法を自由に選択できる。 また,指数的移動平均と修正された$z$-scoreに基づく2つの変化検出法を提案する。 本稿では, 検出精度, 偽陽性率, 検出遅延の標準指標を1つの値に蓄積する新しい指標を用いて, 提案手法の性能評価を行う。 9つのベンチマークデータセットの異なる種類のドリフトによる実験的評価は、提案されたフレームワークがドリフトを確実に検出でき、最先端のドリフト検出アプローチよりも優れていることを示している。

Detecting drifts in data is essential for machine learning applications, as changes in the statistics of processed data typically has a profound influence on the performance of trained models. Most of the available drift detection methods require access to true labels during inference time. In a real-world scenario, true labels usually available only during model training. In this work, we propose a novel task-sensitive drift detection framework, which is able to detect drifts without access to true labels during inference. It utilizes metric learning of a constrained low-dimensional embedding representation of the input data, which is best suited for the classification task. It is able to detect real drift, where the drift affects the classification performance, while it properly ignores virtual drift, where the classification performance is not affected by the drift. In the proposed framework, the actual method to detect a change in the statistics of incoming data samples can be chosen freely. We also propose the two change detection methods, which are based on the exponential moving average and a modified $z$-score, respectively. We evaluate the performance of the proposed framework with a novel metric, which accumulates the standard metrics of detection accuracy, false positive rate and detection delay into one value. Experimental evaluation on nine benchmarks datasets, with different types of drift, demonstrates that the proposed framework can reliably detect drifts, and outperforms state-of-the-art unsupervised drift detection approaches.
翻訳日:2021-08-17 21:00:30 公開日:2021-08-16
# (参考訳) ゼロショットデータ生成を改善する一例 [全文訳有]

A Single Example Can Improve Zero-Shot Data Generation ( http://arxiv.org/abs/2108.06991v1 )

ライセンス: CC BY 4.0
Pavel Burnyshev, Valentin Malykh, Andrey Bout, Ekaterina Artemova, Irina Piontkovskaya(参考訳) 分散シフトに対する堅牢性、特定のユーザグループへの適応、パーソナライゼーション、ドメイン外検出といった意図分類のサブタスクは、実験と評価のために広範囲で柔軟なデータセットを必要とする。 このようなデータセットの収集には時間と労力がかかるため,データセットの収集にテキスト生成手法を提案する。 ジェネレータは、与えられた意図に属する発話を生成するように訓練されるべきである。 タスク指向発話を生成するための2つのアプローチを検討する。 ゼロショットアプローチでは、モデルは見た意図から発話を生成するように訓練され、さらにトレーニング中に意図を認識できない発話を生成するために使用される。 ワンショットのアプローチでは、モデルはテストの意図から1つの発話で示されます。 提案する2つの手法を用いて,データセットの自動生成と人間による評価を行う。 その結果,生成したデータの属性は,クラウドソーシングによって収集された元のテストセットに近いことがわかった。

Sub-tasks of intent classification, such as robustness to distribution shift, adaptation to specific user groups and personalization, out-of-domain detection, require extensive and flexible datasets for experiments and evaluation. As collecting such datasets is time- and labor-consuming, we propose to use text generation methods to gather datasets. The generator should be trained to generate utterances that belong to the given intent. We explore two approaches to generating task-oriented utterances. In the zero-shot approach, the model is trained to generate utterances from seen intents and is further used to generate utterances for intents unseen during training. In the one-shot approach, the model is presented with a single utterance from a test intent. We perform a thorough automatic, and human evaluation of the dataset generated utilizing two proposed approaches. Our results reveal that the attributes of the generated data are close to original test sets, collected via crowd-sourcing.
翻訳日:2021-08-17 20:58:42 公開日:2021-08-16
# (参考訳) 言語理解のための効果的な非自己回帰モデル [全文訳有]

An Effective Non-Autoregressive Model for Spoken Language Understanding ( http://arxiv.org/abs/2108.07005v1 )

ライセンス: CC0 1.0
Lizhi Cheng, Weijia Jia, Wenmian Yang(参考訳) タスク指向対話システムの中核的なコンポーネントである音声言語理解(SLU)は,人間の忍耐による推論遅延の短縮を期待している。 非自己回帰SLUモデルは推論速度を明らかに向上させるが、各スロットチャンク間の逐次依存性情報の欠如に起因する非協調スロット問題に悩まされる。 そこで本稿では,この欠点を解消するために,スロットラベル生成(slg)タスクとlrm(layered refine mechanism)を含む,非自己回帰型sluモデルであるlayered-refine transformerを提案する。 slgはトークンシーケンスと生成されたスロットラベルで次のスロットラベルを生成することで定義される。 SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。 lrmは、transformerの中間状態からの予備slu結果を予測し、最終予測を導くためにそれらを利用する。 2つの公開データセットに対する実験により、我々のモデルはSLU性能を著しく改善し(精度は1.5倍)、最先端のベースラインよりも推論プロセスを大幅に高速化する(10倍以上)。

Spoken Language Understanding (SLU), a core component of the task-oriented dialogue system, expects a shorter inference latency due to the impatience of humans. Non-autoregressive SLU models clearly increase the inference speed but suffer uncoordinated-slot problems caused by the lack of sequential dependency information among each slot chunk. To gap this shortcoming, in this paper, we propose a novel non-autoregressive SLU model named Layered-Refine Transformer, which contains a Slot Label Generation (SLG) task and a Layered Refine Mechanism (LRM). SLG is defined as generating the next slot label with the token sequence and generated slot labels. With SLG, the non-autoregressive model can efficiently obtain dependency information during training and spend no extra time in inference. LRM predicts the preliminary SLU results from Transformer's middle states and utilizes them to guide the final prediction. Experiments on two public datasets indicate that our model significantly improves SLU performance (1.5\% on Overall accuracy) while substantially speed up (more than 10 times) the inference process over the state-of-the-art baseline.
翻訳日:2021-08-17 20:45:18 公開日:2021-08-16
# (参考訳) アクティベーション・レンジ・スーパービジョンを用いた畳み込みニューラルネットワークにおけるハードウェアフォールトトレランスの安全事例に向けて [全文訳有]

Towards a Safety Case for Hardware Fault Tolerance in Convolutional Neural Networks Using Activation Range Supervision ( http://arxiv.org/abs/2108.07019v1 )

ライセンス: CC BY 4.0
Florian Geissler, Syed Qutub, Sayanta Roychowdhury, Ali Asgari, Yang Peng, Akash Dhamasia, Ralf Graefe, Karthik Pattabiraman, and Michael Paulitsch(参考訳) 畳み込みニューラルネットワーク(CNN)は、人間のロボットインタラクションや自動運転を含む、多くの安全クリティカルなコンピュータビジョンアプリケーションの一部として確立されている。 実際の実装では、基盤となるプラットフォームメモリを損なうハードウェアソフトエラーに対する堅牢性を保証する必要がある。 従来観測されていたアクティベーションクリッピング技術の有効性に基づいて,レンジ監視がビットフリップに関する信頼性の高い障害検出器と緩和器を表現し,8つの浮動小数点データ表現を採用することを示し,分類器CNNのプロトタイプ安全ケースを構築した。 我々はさらに,サイレントデータの破損と誤りの可能性を効果的に抑制する,新しい非一様範囲制限法について検討する。 安全関連エンド・ツー・エンドのユースケースとして,ResNet-50と交通カメラデータセットMIOVisionを用いて,車両分類シナリオにおけるアプローチのメリットを示す。 この研究で得られた量的証拠は、さらに複雑なCNNの安全性論を刺激するために活用することができる。

Convolutional neural networks (CNNs) have become an established part of numerous safety-critical computer vision applications, including human robot interactions and automated driving. Real-world implementations will need to guarantee their robustness against hardware soft errors corrupting the underlying platform memory. Based on the previously observed efficacy of activation clipping techniques, we build a prototypical safety case for classifier CNNs by demonstrating that range supervision represents a highly reliable fault detector and mitigator with respect to relevant bit flips, adopting an eight-exponent floating point data representation. We further explore novel, non-uniform range restriction methods that effectively suppress the probability of silent data corruptions and uncorrectable errors. As a safety-relevant end-to-end use case, we showcase the benefit of our approach in a vehicle classification scenario, using ResNet-50 and the traffic camera data set MIOVision. The quantitative evidence provided in this work can be leveraged to inspire further and possibly more complex CNN safety arguments.
翻訳日:2021-08-17 20:29:46 公開日:2021-08-16
# (参考訳) RGBビデオからの非拘束手指再建に向けて [全文訳有]

Towards unconstrained joint hand-object reconstruction from RGB videos ( http://arxiv.org/abs/2108.07044v1 )

ライセンス: CC BY 4.0
Yana Hasson, G\"ul Varol, Ivan Laptev, Cordelia Schmid(参考訳) 本研究は,単眼映像から手と操作対象の3次元再構成を実現することを目的としている。 ハンドオブジェクト操作の再構築は、ロボット工学と人間のデモから学ぶ大きな可能性を秘めている。 しかし、この問題に対する教師付き学習アプローチでは、3Dの監督が必要であり、3Dの真理が利用できる実験室の設定やシミュレータに制限されている。 本稿では,まず,双方向オブジェクトインタラクションをシームレスに処理可能なハンドオブジェクト再構築のための学習フリーフィッティング手法を提案する。 提案手法は, 物体検出, ハンドポーズ推定, インスタンスセグメンテーションの共通手法で得られた手がかりに依拠する。 我々は,このアプローチを定量的に評価し,トレーニングデータが利用できないさまざまな難易度を持つデータセットに適用可能であることを示す。

Our work aims to obtain 3D reconstruction of hands and manipulated objects from monocular videos. Reconstructing hand-object manipulations holds a great potential for robotics and learning from human demonstrations. The supervised learning approach to this problem, however, requires 3D supervision and remains limited to constrained laboratory settings and simulators for which 3D ground truth is available. In this paper we first propose a learning-free fitting approach for hand-object reconstruction which can seamlessly handle two-hand object interactions. Our method relies on cues obtained with common methods for object detection, hand pose estimation and instance segmentation. We quantitatively evaluate our approach and show that it can be applied to datasets with varying levels of difficulty for which training data is unavailable.
翻訳日:2021-08-17 20:10:05 公開日:2021-08-16
# (参考訳) FaPN:高密度画像予測のための特徴整列ピラミッドネットワーク [全文訳有]

FaPN: Feature-aligned Pyramid Network for Dense Image Prediction ( http://arxiv.org/abs/2108.07058v1 )

ライセンス: CC BY 4.0
Shihua, Huang, Zhichao, Lu, Ran, Cheng, Cheng, He(参考訳) 近年の深層ニューラルネットワークの進歩は、高密度画像予測において飛躍的な進歩を遂げている。 しかし、機能アライメントの問題は、既存のほとんどのシンプルさのアプローチによって無視されているままである。 アップサンプリングされた特徴と局所的な特徴の間の直接のピクセル付加は、不一致コンテキストを持つ特徴写像につながり、その結果、特にオブジェクト境界における予測における誤分類に変換される。 本稿では,画素の変換オフセットを学習し,高次特徴を文脈的に整列させる機能アライメントモジュールと,空間的詳細が充実した低次特徴を強調する機能選択モジュールを提案する。 次に,これら2つのモジュールをトップダウンピラミッドアーキテクチャに統合し,機能整合ピラミッドネットワーク(fapn)を提案する。 4つの密集予測タスクと4つのデータセットに関する大規模な実験的評価は、FaPNの有効性を示し、FPNとFaster / Mask R-CNNを合わせると、AP/mIoUの1.2-2.6ポイントがFPNよりも大幅に改善された。 特に、私たちのFaPNは Mask-Former に統合された ADE20K 上で56.7% mIoU の最先端を実現している。 コードはhttps://github.com/E MI-Group/FaPNから入手できる。

Recent advancements in deep neural networks have made remarkable leap-forwards in dense image prediction. However, the issue of feature alignment remains as neglected by most existing approaches for simplicity. Direct pixel addition between upsampled and local features leads to feature maps with misaligned contexts that, in turn, translate to mis-classifications in prediction, especially on object boundaries. In this paper, we propose a feature alignment module that learns transformation offsets of pixels to contextually align upsampled higher-level features; and another feature selection module to emphasize the lower-level features with rich spatial details. We then integrate these two modules in a top-down pyramidal architecture and present the Feature-aligned Pyramid Network (FaPN). Extensive experimental evaluations on four dense prediction tasks and four datasets have demonstrated the efficacy of FaPN, yielding an overall improvement of 1.2 - 2.6 points in AP / mIoU over FPN when paired with Faster / Mask R-CNN. In particular, our FaPN achieves the state-of-the-art of 56.7% mIoU on ADE20K when integrated within Mask-Former. The code is available from https://github.com/E MI-Group/FaPN.
翻訳日:2021-08-17 19:54:07 公開日:2021-08-16
# (参考訳) 風速予測のためのマルチストリームグラフ注意ネットワーク [全文訳有]

Multistream Graph Attention Networks for Wind Speed Forecasting ( http://arxiv.org/abs/2108.07063v1 )

ライセンス: CC BY-SA 4.0
Dogan Aykas and Siamak Mehrkanoon(参考訳) 信頼性と正確な風速予測は、経済、ビジネス、経営など多くの産業分野で大きな影響を与えている。 本稿では,グラフアテンションネットワーク(gat)に基づく風速予測の新しいモデルを提案する。 特に,提案モデルでは,学習可能な隣接行列を組み込んでGATアーキテクチャを拡張し,気象変動毎の注意点獲得を目的とした新しい注意機構を導入する。 多変量多次元気象データの空間的特性と時間的特性を両立させるために,GATモデルとLSTM層を併用した。 デンマークとオランダのいくつかの都市から収集された実際の気象データを用いて実験を行い、提案モデルの性能を評価する。 風速予測に用いた従来のアーキテクチャと比較して,提案手法は気象データの複雑な入出力関係をよりよく学習できることを示す。 さらに、学習した注意重みのおかげで、このモデルは、研究された予測タスクのために最も重要な気象変数と都市に関する追加の洞察を提供する。

Reliable and accurate wind speed prediction has significant impact in many industrial sectors such as economic, business and management among others. This paper presents a new model for wind speed prediction based on Graph Attention Networks (GAT). In particular, the proposed model extends GAT architecture by equipping it with a learnable adjacency matrix as well as incorporating a new attention mechanism with the aim of obtaining attention scores per weather variable. The output of the GAT based model is combined with the LSTM layer in order to exploit both the spatial and temporal characteristics of the multivariate multidimensional historical weather data. Real weather data collected from several cities in Denmark and Netherlands are used to conduct the experiments and evaluate the performance of the proposed model. We show that in comparison to previous architectures used for wind speed prediction, the proposed model is able to better learn the complex input-output relationships of the weather data. Furthermore, thanks to the learned attention weights, the model provides an additional insights on the most important weather variables and cities for the studied prediction task.
翻訳日:2021-08-17 19:38:03 公開日:2021-08-16
# (参考訳) ROSITA:クロスモーダル・イントラモーダル知識統合による視覚・言語セマンティックアライメントの強化 [全文訳有]

ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration ( http://arxiv.org/abs/2108.07073v1 )

ライセンス: CC BY 4.0
Yuhao Cui, Zhou Yu, Chunqi Wang, Zhongzhou Zhao, Ji Zhang, Meng Wang, Jun Yu(参考訳) Vision-and-Language Pretraining (VLP)は、大量の画像テキストペアから汎用的なマルチモーダル表現を学ぶことを目的としている。 様々な試みが提案されているが、画像とテキストのペア間の微粒なセマンティックアライメントの学習は、それらのアプローチにおいて重要な役割を果たす。 しかしながら、既存のVLPアプローチのほとんどは、学習されたアライメントの有効性を制限し、それらのモデルの性能をさらに制限するイメージテキストペア内の本質的な知識を十分に活用していない。 この目的のために,ROSITAと呼ばれる新しいVLP手法を導入し,シーングラフの相互・内部知識を統合し,セマンティックアライメントを強化する。 具体的には、シーングラフ構造を優先的に使用してマスキング言語(リージョン)モデリングを行う新しい構造知識マスキング(SKM)戦略を導入し、モダリティ間の干渉情報を排除し、セマンティックアライメントを強化する。 広範囲にわたるアブレーション研究と包括的分析は、ROSITAのセマンティックアライメントにおける有効性を検証する。 ドメイン内データセットとドメイン外データセットの両方で事前訓練されたROSITAは、6つのベンチマークデータセット上での3つの典型的な視覚・言語タスクにおいて、既存の最先端のVLPメソッドを著しく上回っている。

Vision-and-language pretraining (VLP) aims to learn generic multimodal representations from massive image-text pairs. While various successful attempts have been proposed, learning fine-grained semantic alignments between image-text pairs plays a key role in their approaches. Nevertheless, most existing VLP approaches have not fully utilized the intrinsic knowledge within the image-text pairs, which limits the effectiveness of the learned alignments and further restricts the performance of their models. To this end, we introduce a new VLP method called ROSITA, which integrates the cross- and intra-modal knowledge in a unified scene graph to enhance the semantic alignments. Specifically, we introduce a novel structural knowledge masking (SKM) strategy to use the scene graph structure as a priori to perform masked language (region) modeling, which enhances the semantic alignments by eliminating the interference information within and across modalities. Extensive ablation studies and comprehensive analysis verifies the effectiveness of ROSITA in semantic alignments. Pretrained with both in-domain and out-of-domain datasets, ROSITA significantly outperforms existing state-of-the-art VLP methods on three typical vision-and-language tasks over six benchmark datasets.
翻訳日:2021-08-17 19:28:08 公開日:2021-08-16
# (参考訳) 情報検索のための深層テキストマッチングモデルの理解に向けて [全文訳有]

Toward the Understanding of Deep Text Matching Models for Information Retrieval ( http://arxiv.org/abs/2108.07081v1 )

ライセンス: CC BY 4.0
Lijuan Chen, Yanyan Lan, Liang Pang, Jiafeng Guo, Xueqi Cheng(参考訳) 意味的テキストマッチングは情報検索において重要な問題である。 近年,この領域ではディープラーニング技術が広く用いられ,性能が大幅に向上している。 しかし、ほとんどのモデルはブラックボックスであり、ディープラーニングの解釈性が悪いため、マッチングプロセスで何が起こったのかを理解するのは難しい。 本稿ではこの問題に対処することを目的とする。 鍵となる考え方は、情報検索において、既存の深層テキストマッチング手法がいくつかの基本的なヒューリスティックを満たすかどうかをテストすることである。 具体的には, 項周波数制約, 項識別制約, 長さ正規化制約, TF長制約の4つのヒューリスティックスを用いる。 深いマッチングモデルは通常多くのパラメータを含むため、これらの複雑な関数に関する理論的研究を行うのは難しい。 本稿では,実験的なテスト手法を提案する。 具体的には、まず制約の仮定を満たすためにクエリとドキュメントを構築し、次に、元のデータセットでトレーニングされた深層テキストマッチングモデルを拡張するテストを行う。 また、帰属に基づく解釈法、すなわち統合的勾配法を用いて詳細な分析を行い、実現可能な改善を導く。 LETOR 4.0 と MS Marco の実験結果から,研究対象の深層テキストマッチング手法である表現法と対話法が,統計学における高い確率の制約を満たすことがわかった。 さらに、これらの制約をセマンティックセッティングに拡張し、すべての深層テキストマッチングモデルに対してより満足できることを示す。 これらの経験的発見は、なぜディープテキストマッチングモデルが情報検索においてよく機能するのかを明確に理解する。 提案手法は,将来の深層テキストマッチングモデルをテストする上で有用であると考えられる。

Semantic text matching is a critical problem in information retrieval. Recently, deep learning techniques have been widely used in this area and obtained significant performance improvements. However, most models are black boxes and it is hard to understand what happened in the matching process, due to the poor interpretability of deep learning. This paper aims at tackling this problem. The key idea is to test whether existing deep text matching methods satisfy some fundamental heuristics in information retrieval. Specifically, four heuristics are used in our study, i.e., term frequency constraint, term discrimination constraint, length normalization constraints, and TF-length constraint. Since deep matching models usually contain many parameters, it is difficult to conduct a theoretical study for these complicated functions. In this paper, We propose an empirical testing method. Specifically, We first construct some queries and documents to make them satisfy the assumption in a constraint, and then test to which extend a deep text matching model trained on the original dataset satisfies the corresponding constraint. Besides, a famous attribution based interpretation method, namely integrated gradient, is adopted to conduct detailed analysis and guide for feasible improvement. Experimental results on LETOR 4.0 and MS Marco show that all the investigated deep text matching methods, both representation and interaction based methods, satisfy the above constraints with high probabilities in statistics. We further extend these constraints to the semantic settings, which are shown to be better satisfied for all the deep text matching models. These empirical findings give clear understandings on why deep text matching models usually perform well in information retrieval. We believe the proposed evaluation methodology will be useful for testing future deep text matching models.
翻訳日:2021-08-17 19:10:16 公開日:2021-08-16
# (参考訳) 信頼できる深層学習のための構造同定と活用

Identifying and Exploiting Structures for Reliable Deep Learning ( http://arxiv.org/abs/2108.07083v1 )

ライセンス: CC BY 4.0
Amartya Sanyal(参考訳) ディープラーニングの研究は、コンピュータビジョン、自然言語処理、強化学習を含む幅広いタスクにおいて、驚くほど急速に進歩しているのを最近目撃した。 これらのシステムの異常なパフォーマンスは、よりよい生活に革命をもたらすことができるという印象を与えます。 しかし、最近の研究が指摘しているように、これらのシステムは、敵の攻撃に対する脆弱性(szegedy et al)を含む、現実世界での使用に信頼性のないいくつかの問題に苦しんでいる。 (248]),音を記憶する傾向(zhangら)がみられた。 [292]) 誤った予測(誤訳)を過信している(Guo et al)。 (99])、プライベートデータを扱うのに不適格(gilad-bachrach et al.)。 [88]). 本論では,これら各問題を詳細に検討し,その原因を調査し,実際に緩和するための計算コストの低いアルゴリズムを提案する。 これを実現するために、深層ニューラルネットワークの構造を同定し、上記の深層学習アルゴリズムの信頼性の低い原因を緩和する。

Deep learning research has recently witnessed an impressively fast-paced progress in a wide range of tasks including computer vision, natural language processing, and reinforcement learning. The extraordinary performance of these systems often gives the impression that they can be used to revolutionise our lives for the better. However, as recent works point out, these systems suffer from several issues that make them unreliable for use in the real world, including vulnerability to adversarial attacks (Szegedy et al. [248]), tendency to memorise noise (Zhang et al. [292]), being over-confident on incorrect predictions (miscalibration) (Guo et al. [99]), and unsuitability for handling private data (Gilad-Bachrach et al. [88]). In this thesis, we look at each of these issues in detail, investigate their causes, and propose computationally cheap algorithms for mitigating them in practice. To do this, we identify structures in deep neural networks that can be exploited to mitigate the above causes of unreliability of deep learning algorithms.
翻訳日:2021-08-17 18:54:56 公開日:2021-08-16
# (参考訳) 画像検索のためのDeep Self-Adaptive Hashing [全文訳有]

Deep Self-Adaptive Hashing for Image Retrieval ( http://arxiv.org/abs/2108.07094v1 )

ライセンス: CC BY 4.0
Qinghong Lin, Xiaojun Chen, Qin Zhang, Shangxuan Tian, Yudong Chen(参考訳) ハッシュ技術はその計算と記憶効率のために画像検索に広く利用されている。 近年,人間のアノテーションのコストが高く,深層学習技術の優位性により,教師なしのハッシュ法が注目されている。 しかし、ほとんどの深い教師なしハッシュ法は、通常、事前訓練された特徴空間におけるペア関係をモデル化するために類似性行列を事前計算する。 次に、この類似性マトリクスはハッシュ学習のガイドに使用され、データペアのほとんどが同等に扱われる。 1) 事前計算された類似度行列は、ハッシュ学習プロセスから変更不能で切り離され、基礎となる意味情報の探索ができない。 2) 情報的データ対は、多数の非情報的データ対に埋もれうる。 上記の問題を解決するため、我々は2つの特別な設計で意味情報を適応的にキャプチャする \textbf{deep self-adaptive hashing~(dsah)} モデルを提案する。 まず,近辺をベースとした類似度行列を最初に構築し,この類似度行列を新しい更新戦略で改良し,学習した表現の背後にある意味構造をさらに調査する。 第2に、PICを用いたデータペアの優先度を測定し、それらに適応重みを割り当てる。これは、より異種なデータペアがハッシュ学習のためのより差別的な情報を含んでいるという仮定に依存する。 いくつかのベンチマークデータセットにおける広範囲な実験は、上記の2つの技術がディープハッシュモデルが自己適応的な方法で優れた性能を達成するのを促進することを証明している。

Hashing technology has been widely used in image retrieval due to its computational and storage efficiency. Recently, deep unsupervised hashing methods have attracted increasing attention due to the high cost of human annotations in the real world and the superiority of deep learning technology. However, most deep unsupervised hashing methods usually pre-compute a similarity matrix to model the pairwise relationship in the pre-trained feature space. Then this similarity matrix would be used to guide hash learning, in which most of the data pairs are treated equivalently. The above process is confronted with the following defects: 1) The pre-computed similarity matrix is inalterable and disconnected from the hash learning process, which cannot explore the underlying semantic information. 2) The informative data pairs may be buried by the large number of less-informative data pairs. To solve the aforementioned problems, we propose a \textbf{Deep Self-Adaptive Hashing~(DSAH)} model to adaptively capture the semantic information with two special designs: \textbf{Adaptive Neighbor Discovery~(AND)} and \textbf{Pairwise Information Content~(PIC)}. Firstly, we adopt the AND to initially construct a neighborhood-based similarity matrix, and then refine this initial similarity matrix with a novel update strategy to further investigate the semantic structure behind the learned representation. Secondly, we measure the priorities of data pairs with PIC and assign adaptive weights to them, which is relies on the assumption that more dissimilar data pairs contain more discriminative information for hash learning. Extensive experiments on several benchmark datasets demonstrate that the above two technologies facilitate the deep hashing model to achieve superior performance in a self-adaptive manner.
翻訳日:2021-08-17 18:52:34 公開日:2021-08-16
# (参考訳) 多中心糖尿病予測のためのタスクワイズ・スプリット・グラディエントブースティングツリー [全文訳有]

Task-wise Split Gradient Boosting Trees for Multi-center Diabetes Prediction ( http://arxiv.org/abs/2108.07107v1 )

ライセンス: CC BY 4.0
Mingcheng Chen, Zhenghui Wang, Zhiyun Zhao, Weinan Zhang, Xiawei Guo, Jian Shen, Yanru Qu, Jieli Lu, Min Xu, Yu Xu, Tiange Wang, Mian Li, Wei-Wei Tu, Yong Yu, Yufang Bi, Weiqing Wang, Guang Ning(参考訳) 糖尿病予測は、社会医療分野における重要なデータサイエンス応用である。 糖尿病予測課題には2つの主な課題がある: 人口統計学と代謝学のデータが異なるためデータの不均一性、単一の医療センターにおける糖尿病症例の数が通常限られているためデータ不足である。 上記の課題に取り組むために,データの不均一性を扱うために勾配強化決定木 (gbdt) を採用し,データ不足を解決するためにマルチタスク学習 (mtl) を導入する。 この目的のために,多施設糖尿病予測タスクにTSGB(Task-wise Split Gradient Boosting Trees)を提案する。 具体的には,GBDTの学習目標を理論的に分析し,木構築中に個別にタスクを評価するタスクゲインを導入する。 第2に,GBDT を MTL に直接適用する際の問題,すなわち負のタスクゲイン問題を明らかにする。 最後に,タスク利得統計に基づくmtlにおけるgbdtの分割手法であるタスク利得統計(task-wise split)を提案する。 大規模な現実世界の糖尿病データセットと一般的に使用されるベンチマークデータセットに関する大規模な実験は、TSGBがいくつかの最先端の手法に対して優れたパフォーマンスを達成することを実証している。 詳細なケーススタディは、負のタスクゲイン問題の解析をさらに支援し、洞察に富んだ発見を提供する。 TSGB法は早期診断のためのオンライン糖尿病リスク評価ソフトウェアとして展開されている。

Diabetes prediction is an important data science application in the social healthcare domain. There exist two main challenges in the diabetes prediction task: data heterogeneity since demographic and metabolic data are of different types, data insufficiency since the number of diabetes cases in a single medical center is usually limited. To tackle the above challenges, we employ gradient boosting decision trees (GBDT) to handle data heterogeneity and introduce multi-task learning (MTL) to solve data insufficiency. To this end, Task-wise Split Gradient Boosting Trees (TSGB) is proposed for the multi-center diabetes prediction task. Specifically, we firstly introduce task gain to evaluate each task separately during tree construction, with a theoretical analysis of GBDT's learning objective. Secondly, we reveal a problem when directly applying GBDT in MTL, i.e., the negative task gain problem. Finally, we propose a novel split method for GBDT in MTL based on the task gain statistics, named task-wise split, as an alternative to standard feature-wise split to overcome the mentioned negative task gain problem. Extensive experiments on a large-scale real-world diabetes dataset and a commonly used benchmark dataset demonstrate TSGB achieves superior performance against several state-of-the-art methods. Detailed case studies further support our analysis of negative task gain problems and provide insightful findings. The proposed TSGB method has been deployed as an online diabetes risk assessment software for early diagnosis.
翻訳日:2021-08-17 18:34:32 公開日:2021-08-16
# (参考訳) NIST SRE CTS Superset:電話話者認識のための大規模データセット [全文訳有]

NIST SRE CTS Superset: A large-scale dataset for telephony speaker recognition ( http://arxiv.org/abs/2108.07118v1 )

ライセンス: CC BY 4.0
Seyed Omid Sadjadi(参考訳) この文書は、national institute of standards and technology (nist) speaker recognition evaluation (sre) conversational telephone speech (cts) supersetの簡単な説明を提供する。 CTSスーパーセットは、研究コミュニティに大規模なデータセットと、テレフォニー(狭帯域)話者認識システムを効果的に訓練・開発するために使用できる均一なメタデータを提供することを目的として作られた。 音声の持続時間は[10, 60s]の範囲で均一に分布する6800人以上の話者からの電話音声セグメントが多数含まれている。 セグメントは、GreybeardコーパスやLinguistic Data Consortium (LDC)が収集したSwitchboard and Mixerシリーズを含む以前のSREデータセット(SRE1996-2012)のコンパイルに使用されたソースコーパスから抽出された。 簡単な説明に加えて,ctsスーパーセットで学習したシステムを用いて得られたnist 2020 cts話者認識課題における話者認識結果についても報告する。 結果は、チャレンジの基準ベースラインとして機能する。

This document provides a brief description of the National Institute of Standards and Technology (NIST) speaker recognition evaluation (SRE) conversational telephone speech (CTS) Superset. The CTS Superset has been created in an attempt to provide the research community with a large-scale dataset along with uniform metadata that can be used to effectively train and develop telephony (narrowband) speaker recognition systems. It contains a large number of telephony speech segments from more than 6800 speakers with speech durations distributed uniformly in the [10s, 60s] range. The segments have been extracted from the source corpora used to compile prior SRE datasets (SRE1996-2012), including the Greybeard corpus as well as the Switchboard and Mixer series collected by the Linguistic Data Consortium (LDC). In addition to the brief description, we also report speaker recognition results on the NIST 2020 CTS Speaker Recognition Challenge, obtained using a system trained with the CTS Superset. The results will serve as a reference baseline for the challenge.
翻訳日:2021-08-17 18:13:17 公開日:2021-08-16
# (参考訳) AIREX:未モニタリング都市における大気質推定のためのニューラルネットワークによるアプローチ [全文訳有]

AIREX: Neural Network-based Approach for Air Quality Inference in Unmonitored Cities ( http://arxiv.org/abs/2108.07120v1 )

ライセンス: CC BY 4.0
Yuya Sasaki, Kei Harada, Shohei Yamasaki, Makoto Onizuka(参考訳) 都市大気汚染は、人間の健康と生活の質に影響を与える主要な環境問題である。 継続的に空気質情報を取得するために監視局が設置されているが、全ての地域をカバーするわけではない。 このように、空間的に微細な空気質推定法は数多く存在する。 既存の方法では、監視対象都市のみでの空気質の推測が目的であるため、監視対象都市では空気質の推測は行わない。 本稿ではまず,未モニタリング都市における大気質推定について検討する。 未モニタリング都市における空気質を正確に推定するために,ニューラルネットワークによるAIREX手法を提案する。 AIREXの斬新さは、複数の都市間での空気質の相関関係を学習するために、分割・コンカレント原理に基づく機械学習技術であるMix-of-expertsアプローチを採用している。 性能をさらに高めるため、監視対象都市から監視対象都市内の場所への空気質推定の影響を計算するために注意メカニズムを採用している。 実世界の空気質データセットの実験を通して、AIREXは最先端の手法よりも高い精度を達成することを示す。

Urban air pollution is a major environmental problem affecting human health and quality of life. Monitoring stations have been established to continuously obtain air quality information, but they do not cover all areas. Thus, there are numerous methods for spatially fine-grained air quality inference. Since existing methods aim to infer air quality of locations only in monitored cities, they do not assume inferring air quality in unmonitored cities. In this paper, we first study the air quality inference in unmonitored cities. To accurately infer air quality in unmonitored cities, we propose a neural network-based approach AIREX. The novelty of AIREX is employing a mixture-of-experts approach, which is a machine learning technique based on the divide-and-conquer principle, to learn correlations of air quality between multiple cities. To further boost the performance, it employs attention mechanisms to compute impacts of air quality inference from the monitored cities to the locations in the unmonitored city. We show, through experiments on a real-world air quality dataset, that AIREX achieves higher accuracy than state-of-the-art methods.
翻訳日:2021-08-17 18:07:14 公開日:2021-08-16
# (参考訳) プログラム合成ツールとしてのオートエンコーダ [全文訳有]

Autoencoders as Tools for Program Synthesis ( http://arxiv.org/abs/2108.07129v1 )

ライセンス: CC BY 4.0
Sander de Bruin, Vadim Liventsev, Milan Petkovi\'c(参考訳) 近年,ソースコードの言語モデリングに関する研究が盛んに行われている。 アプリケーションはコードの提案と完了からコードの要約まで幅広い。 しかし、業界レベルプログラミング言語の完全なプログラム合成は、広く研究されていない。 本研究では,産業用プログラミング言語のプログラム合成のための変分オートエンコーダモデルを提案する。 本モデルは,ソースコードの内部階層構造を取り入れ,解析木で動作する。 木上のソースコードの潜在表現を学習することにより、より多くの情報をキャプチャし、標準の自己回帰オートエンコーダモデルよりも高いパフォーマンスを達成する。 さらに,本モデルでは木構造の性質から,線形列ではなく木の経路上で自己回帰操作を行う。 したがって、自己回帰モデルが処理するシーケンスのサイズは、爆発と消滅の共通問題を緩和する木全体のサイズではなく、木の幅と深さに比例してスケールする。

Recently there have been many advances in research on language modeling of source code. Applications range from code suggestion and completion to code summarization. However, complete program synthesis of industry-grade programming languages has not been researched extensively. In this work, we introduce a variational autoencoder model for program synthesis of industry-grade programming languages. Our model incorporates the internal hierarchical structure of source codes and operates on parse trees. By learning a latent representation of source code over trees, we capture more information and achieve a higher performance than standard autoregressive autoencoder models. Furthermore, due to the tree-structured nature of our model, the autoregressive operations are performed on paths of trees instead of linear sequences. Therefore, the size of the sequences that the autoregressive model processes, scales proportionally to the width and depth of the tree instead of the total size of the tree which mitigates the common problem of exploding and vanishing gradients.
翻訳日:2021-08-17 17:55:44 公開日:2021-08-16
# (参考訳) 医療画像データセットにおける異常データ同定のためのセミスーパービジョン・シームズネットワーク [全文訳有]

Semi-Supervised Siamese Network for Identifying Bad Data in Medical Imaging Datasets ( http://arxiv.org/abs/2108.07130v1 )

ライセンス: CC BY 4.0
Niamh Belton, Aonghus Lawlor, Kathleen M. Curran(参考訳) 医療画像データセットに存在するノイズの多いデータは、現実世界のデータを扱うための堅牢なモデルの開発に役立つ。 しかし、悪いデータに解剖学的情報が不足している場合、モデルの性能に重大な悪影響を及ぼす可能性がある。 本稿では,半教師付きシームズネットワークを用いて,悪いデータを特定する手法を提案する。 この方法は、視野に主要な解剖学的構造が存在することを保証するために、非専門家によってレビューされる医療画像の小さなプールのみを必要とする。 モデルは、この参照セットをトレーニングし、参照セットとデータセット内の他のすべての医療画像の間の距離を計算するために、Siameseネットワークを使用して悪いデータを識別する。 この手法は、悪いデータを特定するための0.989のAUC(Area Under the Curve)を達成する。 コードはhttps://git.io/JYFuV .comで入手できる。

Noisy data present in medical imaging datasets can often aid the development of robust models that are equipped to handle real-world data. However, if the bad data contains insufficient anatomical information, it can have a severe negative effect on the model's performance. We propose a novel methodology using a semi-supervised Siamese network to identify bad data. This method requires only a small pool of 'reference' medical images to be reviewed by a non-expert human to ensure the major anatomical structures are present in the Field of View. The model trains on this reference set and identifies bad data by using the Siamese network to compute the distance between the reference set and all other medical images in the dataset. This methodology achieves an Area Under the Curve (AUC) of 0.989 for identifying bad data. Code will be available at https://git.io/JYFuV .
翻訳日:2021-08-17 17:36:01 公開日:2021-08-16
# (参考訳) 小型データセット上のCTスキャン画像からのCOVID-19自動診断のためのデータ拡張とCNN分類 [全文訳有]

Data Augmentation and CNN Classification For Automatic COVID-19 Diagnosis From CT-Scan Images On Small Dataset ( http://arxiv.org/abs/2108.07148v1 )

ライセンス: CC BY 4.0
Weijun Tan, Hongwei Guo(参考訳) 肺CT画像からのCOVID1-19自動診断フレームワークを提案する。 焦点は、小さなデータセットの信号処理と分類であり、2d cnn分類モデルの一般化能力を改善するためのデータ準備と拡張の探求に力を入れている。 本論文では,複数のHounsfield Unit(HU)正規化ウィンドウを用いた一意かつ効果的なデータ拡張手法を提案する。 また、元のスライス画像は、背景を除外するために切り抜かれ、フィルターを適用してクローズドlung画像をフィルタする。 分類ネットワークでは,特徴ピラミッドネットワーク (fpn) を用いて2次元密度ネットとxceptionを用いた。 分類精度をさらに向上するため、複数のCNNモデルとHUウィンドウのアンサンブルを使用する。 トレーニング・検証データセットでは,患者の分類精度は93.39%である。

We present an automatic COVID1-19 diagnosis framework from lung CT images. The focus is on signal processing and classification on small datasets with efforts putting into exploring data preparation and augmentation to improve the generalization capability of the 2D CNN classification models. We propose a unique and effective data augmentation method using multiple Hounsfield Unit (HU) normalization windows. In addition, the original slice image is cropped to exclude background, and a filter is applied to filter out closed-lung images. For the classification network, we choose to use 2D Densenet and Xception with the feature pyramid network (FPN). To further improve the classification accuracy, an ensemble of multiple CNN models and HU windows is used. On the training/validation dataset, we achieve a patient classification accuracy of 93.39%.
翻訳日:2021-08-17 17:32:14 公開日:2021-08-16
# (参考訳) MMChat:ソーシャルメディア上のマルチモーダルチャットデータセット [全文訳有]

MMChat: Multi-Modal Chat Dataset on Social Media ( http://arxiv.org/abs/2108.07154v1 )

ライセンス: CC BY 4.0
Yinhe Zheng, Guanyi Chen, Xin Liu, Ke Lin(参考訳) 会話にマルチモーダルコンテキストを組み込むことは、より魅力的な対話システムを開発するための重要なステップである。 本稿では,MMChatの大規模多モーダル対話コーパス(32.4M生対話,120.84Kフィルタ対話)を導入することで,この方向を探る。 クラウドソースや架空の映画から収集された以前のコーパスとは異なり、mmchatはソーシャルメディア上の実際の会話から収集された画像ベースの対話を含んでいる。 特に、共通コミュニケーションにおける画像開始対話は、会話が進むにつれて、画像以外の話題に偏る可能性がある。 画像特徴に注意ルーティング機構を適用し,対話生成タスクにおけるこの問題に対処するためのベンチマークモデルを開発した。 実験は、画像特徴を組み込むの有用性と、画像特徴のスパース性に対処するための効果を示す。

Incorporating multi-modal contexts in conversation is an important step for developing more engaging dialogue systems. In this work, we explore this direction by introducing MMChat: a large scale multi-modal dialogue corpus (32.4M raw dialogues and 120.84K filtered dialogues). Unlike previous corpora that are crowd-sourced or collected from fictitious movies, MMChat contains image-grounded dialogues collected from real conversations on social media, in which the sparsity issue is observed. Specifically, image-initiated dialogues in common communications may deviate to some non-image-grounded topics as the conversation proceeds. We develop a benchmark model to address this issue in dialogue generation tasks by adapting the attention routing mechanism on image features. Experiments demonstrate the usefulness of incorporating image features and the effectiveness in handling the sparsity of image features.
翻訳日:2021-08-17 17:23:10 公開日:2021-08-16
# (参考訳) ロバストトリミングk-means [全文訳有]

Robust Trimmed k-means ( http://arxiv.org/abs/2108.07186v1 )

ライセンス: CC BY 4.0
Olga Dorabiala, J. Nathan Kutz, Aleksandr Aravkin(参考訳) クラスタリングは教師なし学習の基本的なツールであり、与えられたデータセットの類似点と類似点を区別してオブジェクトをグループ化するのに使われる。 最も一般的なクラスタリングアルゴリズムの1つはk-meansである。 残念なことに、実世界のデータを扱う場合、多くの従来のクラスタリングアルゴリズムは、グループ間の明確な分離の欠如、ノイズの多い観測、および/またはデータポイントの出力によって妥協される。 したがって、データ分析を成功させるためには、堅牢な統計アルゴリズムが必要である。 k平均クラスタリングを堅牢化する現在の方法は、シングルまたはマルチメンバーシップデータに特化しているが、どちらの場合にも競合しない。 本稿では,k-meansアルゴリズムの拡張を提案する。これはロバストなトリミングk-means (rtkm) と呼ばれ,異常点とクラスタ点を同時に識別し,単一または複数メンバのデータに適用できる。 実世界の様々なデータセット上でRTKMをテストし、アウトレイアのない単一メンバシップデータとマルチメンバシップデータでRTKMが競合することを示す。 また、RTKMはその相対的な利点を利用して、外乱を含むマルチメンバシップデータにおいて、他の手法よりも優れていることを示す。

Clustering is a fundamental tool in unsupervised learning, used to group objects by distinguishing between similar and dissimilar features of a given data set. One of the most common clustering algorithms is k-means. Unfortunately, when dealing with real-world data many traditional clustering algorithms are compromised by lack of clear separation between groups, noisy observations, and/or outlying data points. Thus, robust statistical algorithms are required for successful data analytics. Current methods that robustify k-means clustering are specialized for either single or multi-membership data, but do not perform competitively in both cases. We propose an extension of the k-means algorithm, which we call Robust Trimmed k-means (RTKM) that simultaneously identifies outliers and clusters points and can be applied to either single- or multi-membership data. We test RTKM on various real-world datasets and show that RTKM performs competitively with other methods on single membership data with outliers and multi-membership data without outliers. We also show that RTKM leverages its relative advantages to outperform other methods on multi-membership data containing outliers.
翻訳日:2021-08-17 17:12:10 公開日:2021-08-16
# (参考訳) Masked Face Recognition Challenge: WebFace260Mトラックレポート [全文訳有]

Masked Face Recognition Challenge: The WebFace260M Track Report ( http://arxiv.org/abs/2108.07189v1 )

ライセンス: CC BY 4.0
Zheng Zhu and Guan Huang and Jiankang Deng and Yun Ye and Junjie Huang and Xinze Chen and Jiagang Zhu and Tian Yang and Jia Guo and Jiwen Lu and Dalong Du and Jie Zhou(参考訳) WHOの統計によると、新型コロナウイルスの感染者は204,617,027人以上で、2021年8月12日までに全世界で4,323,247人が死亡した。 新型コロナウイルスの感染拡大に伴い、ほぼ全員がマスクを着用している。 伝統的に、顔認識のアプローチは主に非閉塞顔のプロセスであり、眼、鼻、口などの顔の特徴を含んでいる。 空港や研究所で認証用のマスクを外すと、ウイルス感染のリスクが高まり、現在の顔認識システムにとって大きな課題となる。 突然の流行により、MFR(Mal-world masked face recognition)ベンチマークがまだ公開されていない。 以上の課題に対処するため,ICCV 2021 の COVID Workshop および Masked Face Recognition Challenge の下で Face Bio-metrics を組織した。 超大規模WebFace260MベンチマークとFRUITS(Face Recognition Under Inference Time Constraint)プロトコルによって実現されているこのチャレンジ(WebFace260M Track)は、実用的なMFRのフロンティアを推し進めることを目的としている。 公共評価セットは、ほとんどが飽和またはノイズを含むため、精巧な2,478人の有名人と60,926人の顔からなる新しいテストセットが集められている。 一方、世界最大規模のマスクテストセットを収集します。 WebFace260M Trackの最初のフェーズでは、69のチーム(833のソリューション)がチャレンジに参加し、49のチームがベースラインのパフォーマンスを上回っました。 チャレンジの第2フェーズは2021年10月1日と進行中のleaderboardまでである。 我々はこの報告書を今後積極的に更新する。

According to WHO statistics, there are more than 204,617,027 confirmed COVID-19 cases including 4,323,247 deaths worldwide till August 12, 2021. During the coronavirus epidemic, almost everyone wears a facial mask. Traditionally, face recognition approaches process mostly non-occluded faces, which include primary facial features such as the eyes, nose, and mouth. Removing the mask for authentication in airports or laboratories will increase the risk of virus infection, posing a huge challenge to current face recognition systems. Due to the sudden outbreak of the epidemic, there are yet no publicly available real-world masked face recognition (MFR) benchmark. To cope with the above-mentioned issue, we organize the Face Bio-metrics under COVID Workshop and Masked Face Recognition Challenge in ICCV 2021. Enabled by the ultra-large-scale WebFace260M benchmark and the Face Recognition Under Inference Time conStraint (FRUITS) protocol, this challenge (WebFace260M Track) aims to push the frontiers of practical MFR. Since public evaluation sets are mostly saturated or contain noise, a new test set is gathered consisting of elaborated 2,478 celebrities and 60,926 faces. Meanwhile, we collect the world-largest real-world masked test set. In the first phase of WebFace260M Track, 69 teams (total 833 solutions) participate in the challenge and 49 teams exceed the performance of our baseline. There are second phase of the challenge till October 1, 2021 and on-going leaderboard. We will actively update this report in the future.
翻訳日:2021-08-17 16:58:32 公開日:2021-08-16
# (参考訳) bloomnet:bloomの学習結果分類のための頑健なトランスフォーマーベースモデル [全文訳有]

BloomNet: A Robust Transformer based model for Bloom's Learning Outcome Classification ( http://arxiv.org/abs/2108.07249v1 )

ライセンス: CC BY 4.0
Abdul Waheed, Muskan Goyal, Nimisha Mittal, Deepak Gupta, Ashish Khanna, Moolchand Sharma(参考訳) ブルーム分類学は、教育学習目標を認知、感情、精神運動の3つのレベルに分類する共通のパラダイムである。 教育プログラムの最適化のためには、ブルーム分類の認知レベルに応じてコース学習結果(CLO)を設計することが重要である。 通常、機関の管理者は、CLOと試験質問をブルーム分類レベルにマッピングする面倒な作業を手作業で完了します。 そこで本研究では,コース学習結果(clos)を分類するために,言語情報だけでなく意味情報もキャプチャするブルームネットというトランスフォーマーモデルを提案する。 bloomnetをさまざまな基本セットと強力なベースラインと比較し、実験されたすべてのベースラインよりも性能が良いことを観察した。 さらに,我々のモデルがトレーニング中に遭遇しない異なる分布について評価することで,ブルームネットの一般化能力をテストし,他のモデルと比較して分布シフトの影響を受けにくいことを観察した。 広範な結果分析を行うことで,本研究の成果を裏付ける。 Ablation studyでは,意味情報とともに言語情報を明示的にカプセル化することで,OOD(out-of-distriio n)一般化能力とともに,IDD(independent and samely distributed)性能のモデルを改善することが観察された。

Bloom taxonomy is a common paradigm for categorizing educational learning objectives into three learning levels: cognitive, affective, and psychomotor. For the optimization of educational programs, it is crucial to design course learning outcomes (CLOs) according to the different cognitive levels of Bloom Taxonomy. Usually, administrators of the institutions manually complete the tedious work of mapping CLOs and examination questions to Bloom taxonomy levels. To address this issue, we propose a transformer-based model named BloomNet that captures linguistic as well semantic information to classify the course learning outcomes (CLOs). We compare BloomNet with a diverse set of basic as well as strong baselines and we observe that our model performs better than all the experimented baselines. Further, we also test the generalization capability of BloomNet by evaluating it on different distributions which our model does not encounter during training and we observe that our model is less susceptible to distribution shift compared to the other considered models. We support our findings by performing extensive result analysis. In ablation study we observe that on explicitly encapsulating the linguistic information along with semantic information improves the model on IID (independent and identically distributed) performance as well as OOD (out-of-distribution ) generalization capability.
翻訳日:2021-08-17 16:47:44 公開日:2021-08-16
# (参考訳) 氷河スケールにおける変分推論 [全文訳有]

Variational Inference at Glacier Scale ( http://arxiv.org/abs/2108.07263v1 )

ライセンス: CC BY-SA 4.0
Douglas J. Brinkerhoff(参考訳) 本研究では, 表面速度の観測から, 空間的に変化する基底トラクションと氷床モデルの氷軟度パラメータの完全な後部分布を, 自然な勾配降下と組み合わせた確率的変動推論を用いて解析し, 変動分布の近似を求める。 パラメータの上にガウス過程を配置し、カーネルの固有関数の観点から問題をキャストすることにより、パラメータの滑らかさと長さスケールに関する事前の仮定をかなり制御し、推論を抽出可能とする。 合成例では、この手法が既知のパラメータを回復し、相互不確定性を考慮し、観測された表面速度に影響を与えることを発見した。 南東グリーンランドのHelheim Glacierへの適用により,我々の手法が氷河規模の問題にスケールすることを示した。 観測ノイズモデルの選択にかかわらず, 遅い流れの領域における後部不確実性が高いことがわかった。

We characterize the complete joint posterior distribution over spatially-varying basal traction and and ice softness parameters of an ice sheet model from observations of surface speed by using stochastic variational inference combined with natural gradient descent to find an approximating variational distribution. By placing a Gaussian process prior over the parameters and casting the problem in terms of eigenfunctions of a kernel, we gain substantial control over prior assumptions on parameter smoothness and length scale, while also rendering the inference tractable. In a synthetic example, we find that this method recovers known parameters and accounts for mutual indeterminacy, both of which can influence observed surface speed. In an application to Helheim Glacier in Southeast Greenland, we show that our method scales to glacier-sized problems. We find that posterior uncertainty in regions of slow flow is high regardless of the choice of observational noise model.
翻訳日:2021-08-17 16:33:34 公開日:2021-08-16
# (参考訳) 基礎モデルの機会とリスクについて

On the Opportunities and Risks of Foundation Models ( http://arxiv.org/abs/2108.07258v1 )

ライセンス: CC BY 4.0
Rishi Bommasani and Drew A. Hudson and Ehsan Adeli and Russ Altman and Simran Arora and Sydney von Arx and Michael S. Bernstein and Jeannette Bohg and Antoine Bosselut and Emma Brunskill and Erik Brynjolfsson and Shyamal Buch and Dallas Card and Rodrigo Castellon and Niladri Chatterji and Annie Chen and Kathleen Creel and Jared Quincy Davis and Dora Demszky and Chris Donahue and Moussa Doumbouya and Esin Durmus and Stefano Ermon and John Etchemendy and Kawin Ethayarajh and Li Fei-Fei and Chelsea Finn and Trevor Gale and Lauren Gillespie and Karan Goel and Noah Goodman and Shelby Grossman and Neel Guha and Tatsunori Hashimoto and Peter Henderson and John Hewitt and Daniel E. Ho and Jenny Hong and Kyle Hsu and Jing Huang and Thomas Icard and Saahil Jain and Dan Jurafsky and Pratyusha Kalluri and Siddharth Karamcheti and Geoff Keeling and Fereshte Khani and Omar Khattab and Pang Wei Koh and Mark Krass and Ranjay Krishna and Rohith Kuditipudi and Ananya Kumar and Faisal Ladhak and Mina Lee and Tony Lee and Jure Leskovec and Isabelle Levent and Xiang Lisa Li and Xuechen Li and Tengyu Ma and Ali Malik and Christopher D. Manning and Suvir Mirchandani and Eric Mitchell and Zanele Munyikwa and Suraj Nair and Avanika Narayan and Deepak Narayanan and Ben Newman and Allen Nie and Juan Carlos Niebles and Hamed Nilforoshan and Julian Nyarko and Giray Ogut and Laurel Orr and Isabel Papadimitriou and Joon Sung Park and Chris Piech and Eva Portelance and Christopher Potts and Aditi Raghunathan and Rob Reich and Hongyu Ren and Frieda Rong and Yusuf Roohani and Camilo Ruiz and Jack Ryan and Christopher R\'e and Dorsa Sadigh and Shiori Sagawa and Keshav Santhanam and Andy Shih and Krishnan Srinivasan and Alex Tamkin and Rohan Taori and Armin W. Thomas and Florian Tram\`er and Rose E. Wang and William Wang and Bohan Wu and Jiajun Wu and Yuhuai Wu and Sang Michael Xie and Michihiro Yasunaga and Jiaxuan You and Matei Zaharia and Michael Zhang and Tianyi Zhang and Xikun Zhang and Yuhui Zhang and Lucia Zheng and Kaitlyn Zhou and Percy Liang(参考訳) AIは、大規模なデータに基づいてトレーニングされ、幅広い下流タスクに適応可能なモデル(BERT、DALL-E、GPT-3など)の台頭とともにパラダイムシフトを受けている。 これらのモデルファウンデーションモデルを使用して、批判的に中心的だが不完全な特性を強調する。 この報告書は、基礎モデルの能力(例えば、言語、視覚、ロボット工学、推論、ヒューマンインタラクション)と技術的原則(例えば、モデルアーキテクチャ、トレーニング手順、データ、システム、セキュリティ、評価、理論)から応用(例えば、法律、医療、教育)、社会的影響(例えば、不平等、誤用、経済および環境への影響、法的および倫理的考慮)まで、基礎モデルの機会とリスクに関する詳細な説明を提供する。 基礎モデルは従来のディープラーニングとトランスファー学習に基づいているが、そのスケールによって新たな創発的能力が生まれ、多くのタスクにまたがる効果が均質化のインセンティブとなる。 均質化は強力なレバレッジを提供するが、基礎モデルの欠陥は下流のすべての適応モデルによって継承されるので注意を要する。 基盤モデルの広範な展開が差し迫っているにもかかわらず、現時点では、それらがどのように機能するか、いつ失敗するのか、そして、その創発的な特性によって何ができるのかを明確に理解できていない。 これらの問題に取り組むために、基礎モデルに関する批判的な研究の多くは、その根本的な社会学的性質と共生する深い学際的な協力が必要であると信じています。

AI is undergoing a paradigm shift with the rise of models (e.g., BERT, DALL-E, GPT-3) that are trained on broad data at scale and are adaptable to a wide range of downstream tasks. We call these models foundation models to underscore their critically central yet incomplete character. This report provides a thorough account of the opportunities and risks of foundation models, ranging from their capabilities (e.g., language, vision, robotics, reasoning, human interaction) and technical principles (e.g., model architectures, training procedures, data, systems, security, evaluation, theory) to their applications (e.g., law, healthcare, education) and societal impact (e.g., inequity, misuse, economic and environmental impact, legal and ethical considerations). Though foundation models are based on conventional deep learning and transfer learning, their scale results in new emergent capabilities, and their effectiveness across so many tasks incentivizes homogenization. Homogenization provides powerful leverage but demands caution, as the defects of the foundation model are inherited by all the adapted models downstream. Despite the impending widespread deployment of foundation models, we currently lack a clear understanding of how they work, when they fail, and what they are even capable of due to their emergent properties. To tackle these questions, we believe much of the critical research on foundation models will require deep interdisciplinary collaboration commensurate with their fundamentally sociotechnical nature.
翻訳日:2021-08-17 15:55:50 公開日:2021-08-16
# ウォルドって誰? テキストと画像で人々をつなぐ

Who's Waldo? Linking People Across Text and Images ( http://arxiv.org/abs/2108.07253v1 )

ライセンス: Link先を確認
Claire Yuqing Cui, Apoorv Khandelwal, Yoav Artzi, Noah Snavely, Hadar Averbuch-Elor(参考訳) 本稿では,人物中心の視覚接地のためのタスクとベンチマークデータセットと,キャプションで名付けられた人と画像に写っている人とをリンクする問題を提案する。 主にオブジェクトベースである視覚グラウンディングの以前の作業とは対照的に,新たなタスクでは,キャプション内の人物の名前をマスクして,このようなイメージキャプチャペアでトレーニングされた手法を,名前と外観の関連を学習するよりも,コンテキスト的な手がかり(複数人間のリッチなインタラクションなど)に集中させる。 この作業を容易にするために、Wikimedia Commonsの画像キャプチャデータから自動的にマイニングされる新しいデータセット、Who's Waldoを導入する。 本稿では,この課題に対する強力なベースラインを克服するトランスフォーマーベースの手法を提案し,研究コミュニティにデータを公開し,視覚と言語の両方を考慮した文脈モデルの開発を加速させている。

We present a task and benchmark dataset for person-centric visual grounding, the problem of linking between people named in a caption and people pictured in an image. In contrast to prior work in visual grounding, which is predominantly object-based, our new task masks out the names of people in captions in order to encourage methods trained on such image-caption pairs to focus on contextual cues (such as rich interactions between multiple people), rather than learning associations between names and appearances. To facilitate this task, we introduce a new dataset, Who's Waldo, mined automatically from image-caption data on Wikimedia Commons. We propose a Transformer-based method that outperforms several strong baselines on this task, and are releasing our data to the research community to spur work on contextual models that consider both vision and language.
翻訳日:2021-08-17 15:31:22 公開日:2021-08-16
# 階層型無限関係モデル

Hierarchical Infinite Relational Model ( http://arxiv.org/abs/2108.07208v1 )

ライセンス: Link先を確認
Feras A. Saad, Vikash K. Mansinghka(参考訳) 本稿では、雑音、スパース、不均一な関係データに対する新しい確率的生成モデルである階層的無限リレーショナルモデル(HIRM)について述べる。 ドメインの集合上で定義された関係の集合を考えると、このモデルはまず、上位レベルの中華料理店のプロセスを用いて複数の重複しない関係のクラスターを推論する。 各関係のクラスタ内で、dirichletプロセス混合物を使用してドメインエンティティを分割し、関係値の確率分布をモデル化する。 HIRMは標準無限リレーショナルモデルを一般化し、依存検出、クラスタリング、密度推定を含む様々なデータ解析タスクに使用できる。 ギブスサンプリングによるベイズ後部推論のための新しいアルゴリズムを提案する。 提案手法は,最大1800万セルからなる20個のオブジェクト属性データセットの密度推定ベンチマークにおいて有効であり,それを用いて政治・ゲノム学から実世界のデータセットの相関構造を発見する。

This paper describes the hierarchical infinite relational model (HIRM), a new probabilistic generative model for noisy, sparse, and heterogeneous relational data. Given a set of relations defined over a collection of domains, the model first infers multiple non-overlapping clusters of relations using a top-level Chinese restaurant process. Within each cluster of relations, a Dirichlet process mixture is then used to partition the domain entities and model the probability distribution of relation values. The HIRM generalizes the standard infinite relational model and can be used for a variety of data analysis tasks including dependence detection, clustering, and density estimation. We present new algorithms for fully Bayesian posterior inference via Gibbs sampling. We illustrate the efficacy of the method on a density estimation benchmark of twenty object-attribute datasets with up to 18 million cells and use it to discover relational structure in real-world datasets from politics and genomics.
翻訳日:2021-08-17 15:31:05 公開日:2021-08-16
# 対向ロバスト性のためのニューラル・アーキテクチャ・ディレーション

Neural Architecture Dilation for Adversarial Robustness ( http://arxiv.org/abs/2108.06885v1 )

ライセンス: Link先を確認
Yanxi Li, Zhaohui Yang, Yunhe Wang, Chang Xu(参考訳) 過去数十年間の畳み込みニューラルネットワーク(CNN)のアーキテクチャとスケールの大幅な進歩により、特定のタスクにおける人間のパフォーマンスに容易に到達または超えることができる。 しかし、最近発見されたCNNの欠点は、敵の攻撃に弱いことである。 CNNの対向ロバスト性は、対向トレーニングによって改善できるが、標準精度と対向ロバスト性との間にはトレードオフがある。 本稿では,ニューラルネットワークの観点から,精度の高いバックボーンcnnの頑健性を改善することを目的とした。 最小限の計算オーバーヘッドの下では、拡張アーキテクチャの導入は、敵対的堅牢性を追求しながら、バックボーンCNNの標準的な性能と親和性が期待できる。 標準および逆誤差境界に関する理論的解析は、ニューラルネットワーク拡張アルゴリズムを自然に動機づける。 実世界のデータセットとベンチマークニューラルネットワークの実験結果から,提案アルゴリズムの有効性が実証された。

With the tremendous advances in the architecture and scale of convolutional neural networks (CNNs) over the past few decades, they can easily reach or even exceed the performance of humans in certain tasks. However, a recently discovered shortcoming of CNNs is that they are vulnerable to adversarial attacks. Although the adversarial robustness of CNNs can be improved by adversarial training, there is a trade-off between standard accuracy and adversarial robustness. From the neural architecture perspective, this paper aims to improve the adversarial robustness of the backbone CNNs that have a satisfactory accuracy. Under a minimal computational overhead, the introduction of a dilation architecture is expected to be friendly with the standard performance of the backbone CNN while pursuing adversarial robustness. Theoretical analyses on the standard and adversarial error bounds naturally motivate the proposed neural architecture dilation algorithm. Experimental results on real-world datasets and benchmark neural networks demonstrate the effectiveness of the proposed algorithm to balance the accuracy and adversarial robustness.
翻訳日:2021-08-17 15:29:43 公開日:2021-08-16
# 敵攻撃の属性と相互作用の解釈

Interpreting Attributions and Interactions of Adversarial Attacks ( http://arxiv.org/abs/2108.06895v1 )

ライセンス: Link先を確認
Xin Wang, Shuyun Lin, Hao Zhang, Yufei Zhu, Quanshi Zhang(参考訳) 本稿では,敵の摂動が攻撃課題にどのように寄与するかという観点から,敵の攻撃を説明することを目的とする。 我々は,シェープリー値に基づいて,攻撃コストの低減に対する異なる画像領域の属性を推定する。 逆摂動画素間の相互作用を定義し定量化し、摂動マップ全体を比較的独立した摂動成分に分解する。 摂動マップの分解は、逆向きに訓練されたDNNが通常訓練されたDNNよりも前景の摂動成分が多いことを示している。 さらに、通常訓練されたDNNと比較して、逆学習されたDNNは、真のカテゴリのスコアを主に減少させる多くのコンポーネントを持つ。 分析は敵の攻撃に対する理解に新たな洞察を与える。

This paper aims to explain adversarial attacks in terms of how adversarial perturbations contribute to the attacking task. We estimate attributions of different image regions to the decrease of the attacking cost based on the Shapley value. We define and quantify interactions among adversarial perturbation pixels, and decompose the entire perturbation map into relatively independent perturbation components. The decomposition of the perturbation map shows that adversarially-traine d DNNs have more perturbation components in the foreground than normally-trained DNNs. Moreover, compared to the normally-trained DNN, the adversarially-traine d DNN have more components which mainly decrease the score of the true category. Above analyses provide new insights into the understanding of adversarial attacks.
翻訳日:2021-08-17 15:29:26 公開日:2021-08-16
# パッチアタックの不変性:3D Poseに対するパッチアタックの感度は?

Patch Attack Invariance: How Sensitive are Patch Attacks to 3D Pose? ( http://arxiv.org/abs/2108.07229v1 )

ライセンス: Link先を確認
Max Lennon, Nathan Drenkow, Philippe Burlina(参考訳) 摂動に基づく攻撃は、物理的に実現できないが、敵機械学習(ML)研究の主要な重点となっている。 対照的にパッチベースの攻撃は物理的に実現可能だが、ほとんどの作業は最近の3dへの進出で2dドメインにフォーカスしている。 パッチ攻撃のロバスト性特性と3dポーズへの不均一性を特徴付けることは重要であるが、完全には解明されていない。 To this end, several contributions are made here: A) we develop a new metric called mean Attack Success over Transformations (mAST) to evaluate patch attack robustness and invariance; and B), we systematically assess robustness of patch attacks to 3D position and orientation for various conditions; in particular, we conduct a sensitivity analysis which provides important qualitative insights into attack effectiveness as a function of the 3D pose of a patch relative to the camera (rotation, translation) and sets forth some properties for patch attack 3D invariance; and C), we draw novel qualitative conclusions including: 1) we demonstrate that for some 3D transformations, namely rotation and loom, increasing the training distribution support yields an increase in patch success over the full range at test time. 2) 平面外回転角の程度に依存するパッチ攻撃効果の基本的な遮断限界の存在に関する新たな知見を提供する。 これらの知見は将来の3Dパッチ攻撃と防御の設計を総合的に導くものである。

Perturbation-based attacks, while not physically realizable, have been the main emphasis of adversarial machine learning (ML) research. Patch-based attacks by contrast are physically realizable, yet most work has focused on 2D domain with recent forays into 3D. Characterizing the robustness properties of patch attacks and their invariance to 3D pose is important, yet not fully elucidated, and is the focus of this paper. To this end, several contributions are made here: A) we develop a new metric called mean Attack Success over Transformations (mAST) to evaluate patch attack robustness and invariance; and B), we systematically assess robustness of patch attacks to 3D position and orientation for various conditions; in particular, we conduct a sensitivity analysis which provides important qualitative insights into attack effectiveness as a function of the 3D pose of a patch relative to the camera (rotation, translation) and sets forth some properties for patch attack 3D invariance; and C), we draw novel qualitative conclusions including: 1) we demonstrate that for some 3D transformations, namely rotation and loom, increasing the training distribution support yields an increase in patch success over the full range at test time. 2) We provide new insights into the existence of a fundamental cutoff limit in patch attack effectiveness that depends on the extent of out-of-plane rotation angles. These findings should collectively guide future design of 3D patch attacks and defenses.
翻訳日:2021-08-17 15:29:18 公開日:2021-08-16
# マルチフォーマット情報抽出のための効果的なシステム

An Effective System for Multi-format Information Extraction ( http://arxiv.org/abs/2108.06957v1 )

ライセンス: Link先を確認
Yaduo Liu, Longhui Zhang, Shujuan Yin, Xiaofeng Zhao, Feiliang Ren(参考訳) 2021年のLanguage and Intelligence Challengeにおけるマルチフォーマット情報抽出タスクは、様々な次元からの情報抽出を包括的に評価するように設計されている。 それは複数のスロット関係抽出サブタスクと、文レベルと文書レベルの両方からイベントを抽出する2つのイベント抽出サブタスクで構成される。 本稿では,このマルチフォーマット情報抽出コンペティションタスクのシステムについて述べる。 具体的には、関係抽出サブタスクに対して、従来の三重抽出タスクに変換し、既存のモデルを完全に活用する投票方式を設計する。 文レベルのイベント抽出サブタスクでは,NERタスクに変換し,ポインタラベルに基づく抽出手法を用いる。 さらに,アノテートされたトリガ情報がイベント抽出に有効であることを考慮し,補助トリガ認識モデルを設計し,マルチタスク学習機構を用いてトリガ機能をイベント抽出モデルに統合する。 文書レベルのイベント抽出サブタスクに対して,Encoder-Decoder ベースの手法を設計し,Transformer のようなデコーダを提案する。 最後に、当社のシステムは、この多形式情報抽出タスクのテストセットリーダボード上で第4位にランク付けし、そのf1スコアは、関係抽出のサブタスク、文レベルのイベント抽出、文書レベルのそれぞれ79.887%、85.179%、70.828%である。 私たちのモデルのコードは、https://github.com/n eukg/MultiIE}で利用可能です。

The multi-format information extraction task in the 2021 Language and Intelligence Challenge is designed to comprehensively evaluate information extraction from different dimensions. It consists of an multiple slots relation extraction subtask and two event extraction subtasks that extract events from both sentence-level and document-level. Here we describe our system for this multi-format information extraction competition task. Specifically, for the relation extraction subtask, we convert it to a traditional triple extraction task and design a voting based method that makes full use of existing models. For the sentence-level event extraction subtask, we convert it to a NER task and use a pointer labeling based method for extraction. Furthermore, considering the annotated trigger information may be helpful for event extraction, we design an auxiliary trigger recognition model and use the multi-task learning mechanism to integrate the trigger features into the event extraction model. For the document-level event extraction subtask, we design an Encoder-Decoder based method and propose a Transformer-alike decoder. Finally,our system ranks No.4 on the test set leader-board of this multi-format information extraction task, and its F1 scores for the subtasks of relation extraction, event extractions of sentence-level and document-level are 79.887%, 85.179%, and 70.828% respectively. The codes of our model are available at {https://github.com/n eukg/MultiIE}.
翻訳日:2021-08-17 15:28:13 公開日:2021-08-16
# AdaCon:資源制約組み込みデバイスに対する適応的コンテキスト認識オブジェクト検出

AdaCon: Adaptive Context-Aware Object Detection for Resource-Constrained Embedded Devices ( http://arxiv.org/abs/2108.06850v1 )

ライセンス: Link先を確認
Marina Neseem and Sherief Reda(参考訳) 畳み込みニューラルネットワークは、オブジェクト検出タスクにおいて最先端の精度を達成する。 しかし、リソース制約のあるエッジデバイスへの展開に挑戦する計算とエネルギーの要求が大きい。 オブジェクト検出は、イメージを入力として、画像内の既存のオブジェクトクラスとそれらの位置を識別する。 本稿では,オブジェクト検出モデルの効率を高めるために,異なる対象カテゴリが協調して発生する確率について,事前の知識を活用する。 特に,本手法は空間的共起確率に基づいて対象カテゴリをクラスタリングする。 これらのクラスタを使って適応的なネットワークを設計します。 実行中、ブランチコントローラは、入力フレームの空間的コンテキストに基づいて、ネットワークのどの部分(s)を実行するかを決定する。 cocoデータセットを用いた実験により,我々の適応対象検出モデルは最大45%のエネルギー消費削減,最大27%のレイテンシ削減を実現し,オブジェクト検出の平均精度 (ap) の損失が小さいことを示した。

Convolutional Neural Networks achieve state-of-the-art accuracy in object detection tasks. However, they have large computational and energy requirements that challenge their deployment on resource-constrained edge devices. Object detection takes an image as an input, and identifies the existing object classes as well as their locations in the image. In this paper, we leverage the prior knowledge about the probabilities that different object categories can occur jointly to increase the efficiency of object detection models. In particular, our technique clusters the object categories based on their spatial co-occurrence probability. We use those clusters to design an adaptive network. During runtime, a branch controller decides which part(s) of the network to execute based on the spatial context of the input frame. Our experiments using COCO dataset show that our adaptive object detection model achieves up to 45% reduction in the energy consumption, and up to 27% reduction in the latency, with a small loss in the average precision (AP) of object detection.
翻訳日:2021-08-17 15:27:51 公開日:2021-08-16
# 任意視点を用いた3次元形状認識のための学習標準ビュー表現

Learning Canonical View Representation for 3D Shape Recognition with Arbitrary Views ( http://arxiv.org/abs/2108.07084v1 )

ライセンス: Link先を確認
Xin Wei, Yifei Gong, Fudong Wang, Xing Sun(参考訳) 本稿では,任意の視点,すなわち任意の数と視点の位置から3次元形状を認識することに焦点を当てる。 これは、ビューベースの3D形状認識のための挑戦的で現実的な設定である。 この課題に対処するための標準ビュー表現を提案する。 まず,任意のビューの本来の特徴を,任意のビュー特徴を最適なトランスポートを用いて学習可能な参照ビュー特徴の集合に合わせることにより,標準ビュー表現と呼ばれる一定数のビュー特徴に変換する。 このように、任意のビューを持つ各3次元形状は、一定の数の標準ビュー特徴によって表現され、さらに集約されて、形状認識のためのリッチで堅牢な3次元形状表現を生成する。 また,正準ビュー表現のビュー特徴をユークリッド空間の散乱点に埋め込むことができるよう,正準ビュー特徴分離制約を提案する。 ModelNet40, ScanObjectNN, RGBDデータセットを用いた実験により, 固定された視点設定下での競合結果が得られ, 任意の視点設定下では適用可能な手法よりも大幅に優れていた。

In this paper, we focus on recognizing 3D shapes from arbitrary views, i.e., arbitrary numbers and positions of viewpoints. It is a challenging and realistic setting for view-based 3D shape recognition. We propose a canonical view representation to tackle this challenge. We first transform the original features of arbitrary views to a fixed number of view features, dubbed canonical view representation, by aligning the arbitrary view features to a set of learnable reference view features using optimal transport. In this way, each 3D shape with arbitrary views is represented by a fixed number of canonical view features, which are further aggregated to generate a rich and robust 3D shape representation for shape recognition. We also propose a canonical view feature separation constraint to enforce that the view features in canonical view representation can be embedded into scattered points in a Euclidean space. Experiments on the ModelNet40, ScanObjectNN, and RGBD datasets show that our method achieves competitive results under the fixed viewpoint settings, and significantly outperforms the applicable methods under the arbitrary view setting.
翻訳日:2021-08-17 15:27:36 公開日:2021-08-16
# ニーズ評価のための支援ベクトルマシンを用いた増分と密度に基づく時空間アルゴリズムを用いたフィリピン災害関連つぶやきのクラスタリング2

Clustering Filipino Disaster-Related Tweets Using Incremental and Density-Based Spatiotemporal Algorithm with Support Vector Machines for Needs Assessment 2 ( http://arxiv.org/abs/2108.06853v1 )

ライセンス: Link先を確認
Ocean M. Barba, Franz Arvin T. Calbay, Angelica Jane S. Francisco, Angel Luis D. Santos, Charmaine S. Ponay(参考訳) ソーシャルメディアは、人々が情報を得てコミュニケーションをとる方法に大きな役割を果たしてきた。 これは特に災害時の苦難によるニーズの表現に役立っている。 投稿はデフォルトで公開されているので、Twitterは災害時に最も有用なソーシャルメディアサイトの一つだ。 この研究は、フィリピン人によるtwitter上での災難中のニーズを評価することを目的としている。 データを収集し、災害関連か、Na\\ive Bayes分類器と無関係に分類した。 その後、災害関連ツイートはインクリメンタルクラスタリングアルゴリズムを使用して災害タイプ毎にクラスタ化され、さらに密度ベースの時空間クラスタリングアルゴリズムを使用してツイートの位置と時間に基づいてサブクラスタ化される。 最後に、Support Vector Machinesを用いて、ツイートは避難所、救助、救済、現金、祈りなど、表現されたニーズに応じて分類された。 その結果,増分クラスタリングアルゴリズムと密度に基づく時空間クラスタリングアルゴリズムは,それぞれ47.20%と82.28%のf-measureスコアでツイートをクラスタ化することができた。 また、Na\"ive Bayes"とSupport Vector Machinesは、それぞれ平均F値スコア97%、平均精度77.57%と分類することができた。

Social media has played a huge part on how people get informed and communicate with one another. It has helped people express their needs due to distress especially during disasters. Because posts made through it are publicly accessible by default, Twitter is among the most helpful social media sites in times of disaster. With this, the study aims to assess the needs expressed during calamities by Filipinos on Twitter. Data were gathered and classified as either disaster-related or unrelated with the use of Na\"ive Bayes classifier. After this, the disaster-related tweets were clustered per disaster type using Incremental Clustering Algorithm, and then sub-clustered based on the location and time of the tweet using Density-based Spatiotemporal Clustering Algorithm. Lastly, using Support Vector Machines, the tweets were classified according to the expressed need, such as shelter, rescue, relief, cash, prayer, and others. After conducting the study, results showed that the Incremental Clustering Algorithm and Density-Based Spatiotemporal Clustering Algorithm were able to cluster the tweets with f-measure scores of 47.20% and 82.28% respectively. Also, the Na\"ive Bayes and Support Vector Machines were able to classify with an average f-measure score of 97% and an average accuracy of 77.57% respectively.
翻訳日:2021-08-17 15:26:57 公開日:2021-08-16
# autochart: chart-to-text生成タスク用のデータセット

AutoChart: A Dataset for Chart-to-Text Generation Task ( http://arxiv.org/abs/2108.06897v1 )

ライセンス: Link先を確認
Jiawen Zhu, Jinye Ran, Roy Ka-wei Lee, Kenny Choo and Zhi Li(参考訳) チャートの分析的記述は、学界と産業に多くの応用があるエキサイティングで重要な研究分野である。 しかし、この困難な課題は計算言語学研究コミュニティから限られた注目を集めている。 本稿では,この重要な領域のさらなる研究を促進するために,グラフの分析記述のための大規模なデータセットであるtextsf{AutoChart}を提案する。 具体的には、チャートとその分析記述を自動的に生成する新しいフレームワークを提供する。 生成したチャートと記述に対して広範囲な人・機械による評価を行い、生成したテキストが情報的かつ一貫性があり、対応するチャートに関連があることを実証した。

The analytical description of charts is an exciting and important research area with many applications in academia and industry. Yet, this challenging task has received limited attention from the computational linguistics research community. This paper proposes \textsf{AutoChart}, a large dataset for the analytical description of charts, which aims to encourage more research into this important area. Specifically, we offer a novel framework that generates the charts and their analytical description automatically. We conducted extensive human and machine evaluations on the generated charts and descriptions and demonstrate that the generated texts are informative, coherent, and relevant to the corresponding charts.
翻訳日:2021-08-17 15:26:35 公開日:2021-08-16
# Recommender System Retrainingのための因果増分グラフ畳み込み

Causal Incremental Graph Convolution for Recommender System Retraining ( http://arxiv.org/abs/2108.06889v1 )

ライセンス: Link先を確認
Sihao Ding, Fuli Feng, Xiangnan He, Yong Liao, Jun Shi, and Yongdong Zhang(参考訳) 実世界のレコメンデーションシステムは、新しいデータを維持するために定期的に再トレーニングする必要がある。 本研究では,グラフ畳み込みネットワーク(GCN)に基づくコラボレーティブレコメンデーションのための最先端技術であるレコメンデーションモデルを効率的に再学習する方法を検討する。 高効率を追求するために,モデル更新に新たなデータのみを使用するように目標を設定したが,モデルの完全なリトレーニングに比べて推奨精度を犠牲にしなかった。 これは、相互作用データがモデル構築のためのグラフ構造とモデル学習のための損失関数の両方に関与しているのに対して、古いグラフ構造はモデル更新で使用できないため、実現は容易ではない。 そこで本研究では,完全グラフ畳み込みの出力を推定するために,2つの新しい演算子である \textit{incremental graph convolution} (igc) と \textit{colliding effect distillation} (ced) からなる \textit{causal incremental graph convolution} アプローチを提案する。 特に,古い表現とインクリメンタルグラフを巧みに結合し,長期的および短期的な選好信号を効果的に融合する,iccの単純かつ効果的なモジュールを考案する。 CEDは、インクリメンタルグラフにない非アクティブノードの最新の問題を回避することを目的としており、因果推論を通じて新しいデータを非アクティブノードに接続する。 特に、cedは衝突器の制御による不活性ノードの表現に対する新しいデータの因果効果を推定する。 3つの実世界のデータセットに関する広範な実験は、既存のリトレーニングメカニズムに対する精度の向上と大幅なスピードアップの両方を示している。

Real-world recommender system needs to be regularly retrained to keep with the new data. In this work, we consider how to efficiently retrain graph convolution network (GCN) based recommender models, which are state-of-the-art techniques for collaborative recommendation. To pursue high efficiency, we set the target as using only new data for model updating, meanwhile not sacrificing the recommendation accuracy compared with full model retraining. This is non-trivial to achieve, since the interaction data participates in both the graph structure for model construction and the loss function for model learning, whereas the old graph structure is not allowed to use in model updating. Towards the goal, we propose a \textit{Causal Incremental Graph Convolution} approach, which consists of two new operators named \textit{Incremental Graph Convolution} (IGC) and \textit{Colliding Effect Distillation} (CED) to estimate the output of full graph convolution. In particular, we devise simple and effective modules for IGC to ingeniously combine the old representations and the incremental graph and effectively fuse the long-term and short-term preference signals. CED aims to avoid the out-of-date issue of inactive nodes that are not in the incremental graph, which connects the new data with inactive nodes through causal inference. In particular, CED estimates the causal effect of new data on the representation of inactive nodes through the control of their collider. Extensive experiments on three real-world datasets demonstrate both accuracy gains and significant speed-ups over the existing retraining mechanism.
翻訳日:2021-08-17 15:25:30 公開日:2021-08-16
# ブロックチェーンベースの信頼できる連合学習アーキテクチャ

Blockchain-based Trustworthy Federated Learning Architecture ( http://arxiv.org/abs/2108.06912v1 )

ライセンス: Link先を確認
Sin Kit Lo, Yue Liu, Qinghua Lu, Chen Wang, Xiwei Xu, Hye-Young Paik, Liming Zhu(参考訳) フェデレーション学習(federated learning)は、クライアント(組織やデバイス)がモデルをローカルにトレーニングし、ローカルデータを外部に転送することなく、ローカルモデル更新に基づいてグローバルモデルを定式化する、新たなプライバシ保護aiテクニックである。 しかし、連合学習システムは信頼性を達成し、責任あるAI原則を具現化するのに苦労する。 特に,統合学習システムでは,マルチステークホルダーの関与やクライアントデータ分布の不均一性による説明責任と公平性の課題に直面している。 フェデレーション学習システムの説明責任と公正性を高めるために,ブロックチェーンベースの信頼できるフェデレーション学習アーキテクチャを提案する。 まず、説明責任を実現するためにスマートコントラクトベースのデータモデル証明レジストリを設計する。 さらに,トレーニングデータの公平性を高めるために,重み付きフェアデータサンプラーアルゴリズムを提案する。 提案手法をcovid-19 x線検出ユースケースを用いて評価する。 評価結果は,説明責任の実現と公平性向上が可能であることを示す。 提案アルゴリズムは,モデルの一般化と精度の観点から,既定のフェデレーション学習環境よりも優れた性能が得られる。

Federated learning is an emerging privacy-preserving AI technique where clients (i.e., organisations or devices) train models locally and formulate a global model based on the local model updates without transferring local data externally. However, federated learning systems struggle to achieve trustworthiness and embody responsible AI principles. In particular, federated learning systems face accountability and fairness challenges due to multi-stakeholder involvement and heterogeneity in client data distribution. To enhance the accountability and fairness of federated learning systems, we present a blockchain-based trustworthy federated learning architecture. We first design a smart contract-based data-model provenance registry to enable accountability. Additionally, we propose a weighted fair data sampler algorithm to enhance fairness in training data. We evaluate the proposed approach using a COVID-19 X-ray detection use case. The evaluation results show that the approach is feasible to enable accountability and improve fairness. The proposed algorithm can achieve better performance than the default federated learning setting in terms of the model's generalisation and accuracy.
翻訳日:2021-08-17 15:25:00 公開日:2021-08-16
# ディープラーニングに基づくマルチモーダル融合モデルを用いたクリケットデータ解析のための効率的な特徴表現

Efficient Feature Representations for Cricket Data Analysis using Deep Learning based Multi-Modal Fusion Model ( http://arxiv.org/abs/2108.07139v1 )

ライセンス: Link先を確認
Souridas Alaka, Rishikesh Sreekumar, Hrithwik Shalu(参考訳) 現代のクリケットではデータ分析が必須となっている。 効果的なチーム管理から、勝利予測まで、すべてが何らかの分析方法を使用します。 効率的なデータ分析には有意義なデータ表現が必要である。 本研究では,適応型(学習可能な)埋め込みを用いて,関係する特徴(プレイヤー,チームなど)を表現する。 この研究に使用されるデータは、古典的なT20トーナメントIPL(Indian Premier League)から収集される。 正確なデータ分析のための特徴の有意義な表現の学習を自然に促進するため、コントラスト損失の最小化により、独自の埋め込み(興味のある特徴を表す)を共同で学習する深層表現学習フレームワークを定式化する。 我々は,inningsの全体的な実行率に基づいて階層的クラスタリングによって得られた一連のクラスを対象とする。 フレームワークは、フレームワークの信頼性を示すために、全体的な実行率予測のタスクベースの分析が行われた。

Data analysis has become a necessity in the modern era of cricket. Everything from effective team management to match win predictions use some form of analytics. Meaningful data representations are necessary for efficient analysis of data. In this study we investigate the use of adaptive (learnable) embeddings to represent inter-related features (such as players, teams, etc). The data used for this study is collected from a classical T20 tournament IPL (Indian Premier League). To naturally facilitate the learning of meaningful representations of features for accurate data analysis, we formulate a deep representation learning framework which jointly learns a custom set of embeddings (which represents our features of interest) through the minimization of a contrastive loss. We base our objective on a set of classes obtained as a result of hierarchical clustering on the overall run rate of an innings. It's been assessed that the framework ensures greater generality in the obtained embeddings, on top of which a task based analysis of overall run rate prediction was done to show the reliability of the framework.
翻訳日:2021-08-17 15:24:44 公開日:2021-08-16
# 現実チェックによるディープラーニングモデルの解釈と改善

Interpreting and improving deep-learning models with reality checks ( http://arxiv.org/abs/2108.06847v1 )

ライセンス: Link先を確認
Chandan Singh, Wooseok Ha, and Bin Yu(参考訳) 最近のディープラーニングモデルは、多くの変数の複雑な関数を、しばしば解釈可能性の犠牲で学習することで、印象的な予測性能を達成した。 本章は、1つの予測のために特徴群と特徴群に重きを置くことによってモデルを解釈することを目的とした最近の研究を扱っている。 重要なことに、提案された属性は、分離された特徴に加えて、機能間の相互作用に重要である。 これらの属性は、バイオイメージング、宇宙画像、自然言語処理など、現実世界の領域にまたがる洞察をもたらす。 次に、これらの帰属がニューラルネットワークの一般化を直接改善したり、単純なモデルに組み込むのにどのように役立つかを示す。 本章全体を通して,提案する解釈手法を精査するための現実チェックの利用を強調する。

Recent deep-learning models have achieved impressive predictive performance by learning complex functions of many variables, often at the cost of interpretability. This chapter covers recent work aiming to interpret models by attributing importance to features and feature groups for a single prediction. Importantly, the proposed attributions assign importance to interactions between features, in addition to features in isolation. These attributions are shown to yield insights across real-world domains, including bio-imaging, cosmology image and natural-language processing. We then show how these attributions can be used to directly improve the generalization of a neural network or to distill it into a simple model. Throughout the chapter, we emphasize the use of reality checks to scrutinize the proposed interpretation techniques.
翻訳日:2021-08-17 15:23:28 公開日:2021-08-16
# 潜在固定データ構造によるグラフ上の非局所特徴の集約

Non-Local Feature Aggregation on Graphs via Latent Fixed Data Structures ( http://arxiv.org/abs/2108.07028v1 )

ライセンス: Link先を確認
Mostafa Rahmani, Rasoul Shafipour, Ping Li(参考訳) プーリング層を用いて単純な方法で非局所特徴集約を行うために順序が使用できる画像/テキストデータとは対照的に、グラフはテンソル表現を欠き、主に要素回りのmax/mean関数を使用して局所抽出された特徴ベクトルを集約する。 本稿では,Latent Fixed Data Structure (LFDS) を用いて抽出した特徴ベクトルを集約するグラフニューラルネットワーク(GNN)において,グローバルな特徴集約のための新しい手法を提案する。 ローカル抽出された特徴ベクトルをLFDSでソート/分散し、潜在ニューラルネットワーク(CNN/GNN)を用いてLFDSで特徴集約を行う。 提案手法はlfdの選択に基づいていくつかの新しいグローバル特徴集約手法を設計するために用いられる。 本稿では,ループ,3次元テンソル(画像),シーケンス,データ駆動グラフ,抽出したローカル特徴ベクトルを分類・分配するアルゴリズムなど,複数のLFDSを紹介する。 提案手法の計算複雑性は入力グラフの次数に線形であるが,競争的あるいはよりよい結果が得られる。

In contrast to image/text data whose order can be used to perform non-local feature aggregation in a straightforward way using the pooling layers, graphs lack the tensor representation and mostly the element-wise max/mean function is utilized to aggregate the locally extracted feature vectors. In this paper, we present a novel approach for global feature aggregation in Graph Neural Networks (GNNs) which utilizes a Latent Fixed Data Structure (LFDS) to aggregate the extracted feature vectors. The locally extracted feature vectors are sorted/distributed on the LFDS and a latent neural network (CNN/GNN) is utilized to perform feature aggregation on the LFDS. The proposed approach is used to design several novel global feature aggregation methods based on the choice of the LFDS. We introduce multiple LFDSs including loop, 3D tensor (image), sequence, data driven graphs and an algorithm which sorts/distributes the extracted local feature vectors on the LFDS. While the computational complexity of the proposed methods are linear with the order of input graphs, they achieve competitive or better results.
翻訳日:2021-08-17 15:23:16 公開日:2021-08-16
# 関心領域の自動計測と運転軌道検出

Vehicle-counting with Automatic Region-of-Interest and Driving-Trajectory detection ( http://arxiv.org/abs/2108.07135v1 )

ライセンス: Link先を確認
Malolan Vasu, Nelson Abreu, Raysa V\'asquez and Christian L\'opez(参考訳) 車両カウントシステムは、車両分析と交通インシデント検出に役立つ。 残念ながら、既存のほとんどの方法は、関心領域(ROI)、関心の動き、または交通カメラから車両を数えるための基準点または線を確立するために、ある程度のレベルの人間入力を必要とする。 この研究は、カメラのROIを自動的に識別する交通ビデオから車両をカウントする方法と、車両の走行軌跡を紹介する。 これにより、発展途上国で頻繁に使われているPan-Tilt-Zoomカメラで使用することができる。 予備的な結果は、提案手法がROIの57.05%を平均的に交わり、テストしたトラヒックビデオカメラの車両数で平均17.44%の絶対誤差を達成したことを示している。

Vehicle counting systems can help with vehicle analysis and traffic incident detection. Unfortunately, most existing methods require some level of human input to identify the Region of interest (ROI), movements of interest, or to establish a reference point or line to count vehicles from traffic cameras. This work introduces a method to count vehicles from traffic videos that automatically identifies the ROI for the camera, as well as the driving trajectories of the vehicles. This makes the method feasible to use with Pan-Tilt-Zoom cameras, which are frequently used in developing countries. Preliminary results indicate that the proposed method achieves an average intersection over the union of 57.05% for the ROI and a mean absolute error of just 17.44% at counting vehicles of the traffic video cameras tested.
翻訳日:2021-08-17 15:22:22 公開日:2021-08-16
# 勾配消失から逃れる : 注意機構におけるソフトマックスの周期的代替

Escaping the Gradient Vanishing: Periodic Alternatives of Softmax in Attention Mechanism ( http://arxiv.org/abs/2108.07153v1 )

ライセンス: Link先を確認
Shulun Wang, Bin Liu and Feng Liu(参考訳) softmaxはニューラルネットワークで多クラス分類、ゲート構造、アテンション機構に広く使われている。 入力が正規分布であるという統計的仮定は、softmaxの勾配安定性を支持する。 しかし, 変圧器などの注意機構では, 組込み間の相関スコアが通常分布しないことが多いため, 勾配消失問題が現れ, 実験による検証によりこの点が証明される。 本研究では,指数関数を周期関数で置き換えることを提案し,値と勾配の観点からソフトマックスの潜在的な周期的代替品を探索する。 LeViTに言及した簡易なデモ実験により,本手法は勾配問題を緩和し,Softmaxとその変種と比較して大幅に改善できることが証明された。 さらに,ソフトマックスのプレ正規化の影響を数学と実験を通して解析する。 最後に,デモの深さを増大させ,本手法の深部構造への適用性を実証する。

Softmax is widely used in neural networks for multiclass classification, gate structure and attention mechanisms. The statistical assumption that the input is normal distributed supports the gradient stability of Softmax. However, when used in attention mechanisms such as transformers, since the correlation scores between embeddings are often not normally distributed, the gradient vanishing problem appears, and we prove this point through experimental confirmation. In this work, we suggest that replacing the exponential function by periodic functions, and we delve into some potential periodic alternatives of Softmax from the view of value and gradient. Through experiments on a simply designed demo referenced to LeViT, our method is proved to be able to alleviate the gradient problem and yield substantial improvements compared to Softmax and its variants. Further, we analyze the impact of pre-normalization for Softmax and our methods through mathematics and experiments. Lastly, we increase the depth of the demo and prove the applicability of our method in deep structures.
翻訳日:2021-08-17 15:22:07 公開日:2021-08-16
# ハードネスを考慮した動的カリキュラム学習による自己指導型学習の改善 : デジタル病理学への応用

Improving Self-supervised Learning with Hardness-aware Dynamic Curriculum Learning: An Application to Digital Pathology ( http://arxiv.org/abs/2108.07183v1 )

ライセンス: Link先を確認
Chetan L Srinidhi, Anne L Martel(参考訳) 自己教師付き学習(SSL)は近年,多くの画像解析タスクに有用な汎用的な視覚表現を学習する大きな可能性を示している。 その顕著な成功にもかかわらず、既存のSSLメソッドは、ラベル付きトレーニングインスタンスの数が少ない場合や、転送ドメイン間のドメインシフトが重要である場合、ダウンストリームタスクに一般化できない。 本稿では,hadcl(hardness-awar e dynamic curriculum learning)アプローチを提案し,カリキュラム学習のレンズを通して,自己教師付き事前学習表現の改善を試みる。 SSLの堅牢性と一般化性を改善するために,ミニバッチダウンストリームの微調整において,簡単かつ非常に難しいサンプルを動的に活用する。 段階的なカリキュラム学習によって,事前学習された表現は,ドメイン内およびドメイン外の両方の分散データに対して著しく強化され,適応可能であることが判明した。 パッチワイドおよびスライドレベルの分類問題に対して,3つのヒストロジーベンチマークデータセットに対して広範な検証を行った。 カリキュラムに基づく微調整は,auc(area-under-the- curve)スコアが1.7%,領域外分布データが2.2%と,標準的な微調整よりも大幅に改善した。 さらに、我々のアプローチはSSLメソッドに対してより汎用的で適応可能であり、追加のオーバーヘッド複雑性を課さないことを実証的に示しています。 また,組織学におけるパッチベースとスライドベースのカリキュラム学習の役割を概説し,カリキュラムベースのSSLメソッドの微調整の成功に関する実践的な知見を提供する。 コードはhttps://github.com/s rinidhiPY/ICCVCDPATH 2021-ID-8でリリースされる。

Self-supervised learning (SSL) has recently shown tremendous potential to learn generic visual representations useful for many image analysis tasks. Despite their notable success, the existing SSL methods fail to generalize to downstream tasks when the number of labeled training instances is small or if the domain shift between the transfer domains is significant. In this paper, we attempt to improve self-supervised pretrained representations through the lens of curriculum learning by proposing a hardness-aware dynamic curriculum learning (HaDCL) approach. To improve the robustness and generalizability of SSL, we dynamically leverage progressive harder examples via easy-to-hard and hard-to-very-hard samples during mini-batch downstream fine-tuning. We discover that by progressive stage-wise curriculum learning, the pretrained representations are significantly enhanced and adaptable to both in-domain and out-of-domain distribution data. We performed extensive validation on three histology benchmark datasets on both patch-wise and slide-level classification problems. Our curriculum based fine-tuning yields a significant improvement over standard fine-tuning, with a minimum improvement in area-under-the-curve (AUC) score of 1.7% and 2.2% on in-domain and out-of-domain distribution data, respectively. Further, we empirically show that our approach is more generic and adaptable to any SSL methods and does not impose any additional overhead complexity. Besides, we also outline the role of patch-based versus slide-based curriculum learning in histopathology to provide practical insights into the success of curriculum based fine-tuning of SSL methods. Code will be released at https://github.com/s rinidhiPY/ICCVCDPATH 2021-ID-8
翻訳日:2021-08-17 15:21:53 公開日:2021-08-16
# aegis: 垂直連合学習のための信頼度が高く、自動的、正確な検証フレームワーク

Aegis: A Trusted, Automatic and Accurate Verification Framework for Vertical Federated Learning ( http://arxiv.org/abs/2108.06958v1 )

ライセンス: Link先を確認
Cengguang Zhang, Junxue Zhang, Di Chai, Kai Chen(参考訳) 垂直連合学習(VFL)は、データのプライバシーを確保するために、ホモモルフィック暗号化や秘密共有ベースのSecureBoostなど、さまざまなプライバシ保護アルゴリズムを活用する。 しかし、これらのアルゴリズムはすべて半正直なセキュアな定義を必要とし、現実世界のアプリケーションに懸念を生じさせる。 本稿では,VFLジョブのセキュリティを検証するための信頼性,自動,高精度な検証フレームワークであるAegisを紹介する。 aegisは、フレームワークのセキュリティを確保するために、ローカルパーティから分離される。 さらに、VFLジョブを有限状態マシンとして定義することにより、VFLアルゴリズムに自動的に適応し、異なるアルゴリズムを均一に検証し、ジョブ全体を再現し、より正確な検証を提供する。 我々は金融データと医療データについて異なる脅威モデルを用いてaegisを実装し評価する。 評価の結果,1) aegisは95%の脅威モデルを検出でき,2)vflのジョブ時間の84%以内で詳細な検証結果が得られることがわかった。

Vertical federated learning (VFL) leverages various privacy-preserving algorithms, e.g., homomorphic encryption or secret sharing based SecureBoost, to ensure data privacy. However, these algorithms all require a semi-honest secure definition, which raises concerns in real-world applications. In this paper, we present Aegis, a trusted, automatic, and accurate verification framework to verify the security of VFL jobs. Aegis is separated from local parties to ensure the security of the framework. Furthermore, it automatically adapts to evolving VFL algorithms by defining the VFL job as a finite state machine to uniformly verify different algorithms and reproduce the entire job to provide more accurate verification. We implement and evaluate Aegis with different threat models on financial and medical datasets. Evaluation results show that: 1) Aegis can detect 95% threat models, and 2) it provides fine-grained verification results within 84% of the total VFL job time.
翻訳日:2021-08-17 15:20:37 公開日:2021-08-16
# APReL: アクティブな推論に基づく逆学習アルゴリズムのためのライブラリ

APReL: A Library for Active Preference-based Reward Learning Algorithms ( http://arxiv.org/abs/2108.07259v1 )

ライセンス: Link先を確認
Erdem B\i y\i k, Aditi Talati, Dorsa Sadigh(参考訳) 報酬学習(reward learning)はロボットの基本的な問題であり、ロボットは人間の欲望に合わせて行動する。 多くの選好ベースの学習アルゴリズムとアクティブクエリ技術がこの問題の解決策として提案されている。 本稿では,研究者や実践者が既存の手法を試し,問題の様々なモジュールに対して独自のアルゴリズムを容易に開発できる,アクティブな選好に基づく報酬学習アルゴリズムライブラリaprelを提案する。

Reward learning is a fundamental problem in robotics to have robots that operate in alignment with what their human user wants. Many preference-based learning algorithms and active querying techniques have been proposed as a solution to this problem. In this paper, we present APReL, a library for active preference-based reward learning algorithms, which enable researchers and practitioners to experiment with the existing techniques and easily develop their own algorithms for various modules of the problem.
翻訳日:2021-08-17 15:20:18 公開日:2021-08-16
# MobIE: 移動領域における名前付きエンティティ認識、エンティティリンク、関係抽出のためのドイツのデータセット

MobIE: A German Dataset for Named Entity Recognition, Entity Linking and Relation Extraction in the Mobility Domain ( http://arxiv.org/abs/2108.06955v1 )

ライセンス: Link先を確認
Leonhard Hennig and Phuc Tran Truong and Aleksandra Gabryszak(参考訳) 地理的にリンク可能なエンティティのための,20の粗い,きめ細かいエンティティタイプとエンティティリンク情報を備えた,ドイツ語のデータセットであるMobIEを提案する。 データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含み、そのうち13.1Kは知識ベースにリンクされている。 データセットのサブセットは7つのモビリティ関連のn-aryリレーションタイプを持つ人間アノテーションであり、残りのドキュメントはsnorkelフレームワークで実装された弱い教師付きラベリングアプローチを使用してアノテートされる。 我々の知る限り、このデータセットは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語のデータセットであり、これらの基本的な情報抽出タスクの共用およびマルチタスク学習に使用できる。 MobIEはhttps://github.com/d fki-nlp/mobie.comで公開しています。

We present MobIE, a German-language dataset, which is human-annotated with 20 coarse- and fine-grained entity types and entity linking information for geographically linkable entities. The dataset consists of 3,232 social media texts and traffic reports with 91K tokens, and contains 20.5K annotated entities, 13.1K of which are linked to a knowledge base. A subset of the dataset is human-annotated with seven mobility-related, n-ary relation types, while the remaining documents are annotated using a weakly-supervised labeling approach implemented with the Snorkel framework. To the best of our knowledge, this is the first German-language dataset that combines annotations for NER, EL and RE, and thus can be used for joint and multi-task learning of these fundamental information extraction tasks. We make MobIE public at https://github.com/d fki-nlp/mobie.
翻訳日:2021-08-17 15:18:44 公開日:2021-08-16
# 制約付きテキストの低資源言語への超並列翻訳のためのアクティブラーニング

Active Learning for Massively Parallel Translation of Constrained Text into Low Resource Languages ( http://arxiv.org/abs/2108.07127v1 )

ライセンス: Link先を確認
Zhong Zhou and Alex Waibel(参考訳) 我々は、前もって知られ、多くの言語で利用可能なクローズドテキストを、新しく、非常に低いリソース言語に翻訳する。 ほとんどの人間の翻訳作業は、連続するページ/チャプタを順に翻訳する部分ベースのアプローチを採用しており、機械翻訳には適さないかもしれない。 テキストのコヒーレンスを局所的に最適化する部分ベースアプローチと,テキストの包括性を高めるランダムサンプリングアプローチを比較した。 その結果,ランダムサンプリング手法はより優れた性能を示した。 聖書から約1,000行のシードコーパスを訓練し、聖書の残りの部分(約30,000行)でテストする場合、ランダムサンプリングは、英語を模擬低資源言語として用いた+11.0BLEU、マヤ語であるイースタン・ポコムチを用いた+4.9BLEUのパフォーマンス向上をもたらす。 さらに,機械翻訳モデルを更新する3つの方法と,人間が編集後のデータ量を増やす方法を比較した。 自己スーパービジョンを使わずに語彙更新後のトレーニングに新しい後編集データを追加することが最善であることが判明した。 本稿では,人間と機械がシームレスに連携して,閉じたテキストを極めて低いリソース言語に翻訳するアルゴリズムを提案する。

We translate a closed text that is known in advance and available in many languages into a new and severely low resource language. Most human translation efforts adopt a portion-based approach to translate consecutive pages/chapters in order, which may not suit machine translation. We compare the portion-based approach that optimizes coherence of the text locally with the random sampling approach that increases coverage of the text globally. Our results show that the random sampling approach performs better. When training on a seed corpus of ~1,000 lines from the Bible and testing on the rest of the Bible (~30,000 lines), random sampling gives a performance gain of +11.0 BLEU using English as a simulated low resource language, and +4.9 BLEU using Eastern Pokomchi, a Mayan language. Furthermore, we compare three ways of updating machine translation models with increasing amount of human post-edited data through iterations. We find that adding newly post-edited data to training after vocabulary update without self-supervision performs the best. We propose an algorithm for human and machine to work together seamlessly to translate a closed text into a severely low resource language.
翻訳日:2021-08-17 15:18:28 公開日:2021-08-16
# 期待されるエンティティ比損失による名前付きエンティティ認識

Partially Supervised Named Entity Recognition via the Expected Entity Ratio Loss ( http://arxiv.org/abs/2108.07216v1 )

ライセンス: Link先を確認
Thomas Effland and Michael Collins(参考訳) エンティティアノテーションが欠落している場合、名前付きエンティティ認識器を学習する。 我々は、この設定を潜在変数のタグ付けとしてアプローチし、新しい損失である期待されたエンティティ比を提案し、体系的に欠落したタグの存在下でモデルを学ぶ。 我々のアプローチは理論的に健全かつ実証的に有用であることを示します。 実験的には、さまざまな言語、アノテーションシナリオ、ラベル付きデータの量にわたって、強力で最先端のベースラインのパフォーマンスを満たしているか、あるいは上回っていることが分かりました。 特に,Mayhewらによる従来の最先端手法を著しく上回っていることが判明した。 (2019年)、Li et al。 (2021) by +12.7 and +2.3 F1 score in a challenge set with only 1,000 biased annotations, averageed across 7 datasets。 また,我々のアプローチと組み合わせると,新しいスパースアノテーションスキームが,控えめなアノテーション予算に対して徹底的なアノテーションよりも優れていることを示す。

We study learning named entity recognizers in the presence of missing entity annotations. We approach this setting as tagging with latent variables and propose a novel loss, the Expected Entity Ratio, to learn models in the presence of systematically missing tags. We show that our approach is both theoretically sound and empirically useful. Experimentally, we find that it meets or exceeds performance of strong and state-of-the-art baselines across a variety of languages, annotation scenarios, and amounts of labeled data. In particular, we find that it significantly outperforms the previous state-of-the-art methods from Mayhew et al. (2019) and Li et al. (2021) by +12.7 and +2.3 F1 score in a challenging setting with only 1,000 biased annotations, averaged across 7 datasets. We also show that, when combined with our approach, a novel sparse annotation scheme outperforms exhaustive annotation for modest annotation budgets.
翻訳日:2021-08-17 15:17:58 公開日:2021-08-16
# メモリ拡張フロー再構成とフローガイドフレーム予測によるハイブリッドビデオ異常検出フレームワーク

A Hybrid Video Anomaly Detection Framework via Memory-Augmented Flow Reconstruction and Flow-Guided Frame Prediction ( http://arxiv.org/abs/2108.06852v1 )

ライセンス: Link先を確認
Zhian Liu, Yongwei Nie, Chengjiang Long, Qing Zhang, Guiqing Li(参考訳) 本稿では,ビデオ異常検出のためのフロー再構成とフレーム予測をシームレスに統合したハイブリッドフレームワークである$\text{HF}^2$-VADを提案する。 まず, ml-memae-sc (multi-level memory module in a autoencoder with skip connections) のネットワークを設計し, 光フロー再構成のための正規パターンを記憶し, 異常事象をより大きなフロー再構成誤差と敏感に識別する。 さらに, 再構成フローを条件として, ビデオフレームと光フローとの相関度が高い条件付き変分オートエンコーダ(cvae)を用いて, 先行する複数のフレームに対して次のフレームを予測した。 CVAEにより、フロー再構成の品質は本質的にフレーム予測の品質に影響を及ぼす。 そのため、異常事象の再構成の不十分な光学フローは、最終的な予測される将来のフレームの品質をさらに悪化させ、異常をより検出可能とした。 実験の結果,提案手法の有効性が示された。 コードは \href{https://github.com/l iuzhian/hf2vad}{https://github.com/l iuzhian/hf2vad} で入手できる。

In this paper, we propose $\text{HF}^2$-VAD, a Hybrid framework that integrates Flow reconstruction and Frame prediction seamlessly to handle Video Anomaly Detection. Firstly, we design the network of ML-MemAE-SC (Multi-Level Memory modules in an Autoencoder with Skip Connections) to memorize normal patterns for optical flow reconstruction so that abnormal events can be sensitively identified with larger flow reconstruction errors. More importantly, conditioned on the reconstructed flows, we then employ a Conditional Variational Autoencoder (CVAE), which captures the high correlation between video frame and optical flow, to predict the next frame given several previous frames. By CVAE, the quality of flow reconstruction essentially influences that of frame prediction. Therefore, poorly reconstructed optical flows of abnormal events further deteriorate the quality of the final predicted future frame, making the anomalies more detectable. Experimental results demonstrate the effectiveness of the proposed method. Code is available at \href{https://github.com/L iUzHiAn/hf2vad}{https://github.com/L iUzHiAn/hf2vad}.
翻訳日:2021-08-17 15:05:48 公開日:2021-08-16
# 変圧器, 相対ランク, 自己整合による非参照画像品質評価

No-Reference Image Quality Assessment via Transformers, Relative Ranking, and Self-Consistency ( http://arxiv.org/abs/2108.06858v1 )

ライセンス: Link先を確認
S. Alireza Golestaneh, Saba Dadsetan, Kris M. Kitani(参考訳) No-Reference Image Quality Assessment (NR-IQA)の目標は、主観的評価に基づいて知覚画像の品質を推定することであり、プリスタン参照画像が存在しないため複雑で未解決な問題である。 本稿では、変換器における畳み込みニューラルネットワーク(CNN)と自己保持機構を利用して、入力画像から局所的特徴と非局所的特徴の両方を抽出することにより、NR-IQAタスクに対処する新しいモデルを提案する。 cnnsを介して画像の局所構造情報を取り込み、抽出したcnns特徴間の局所バイアスを回避し、画像の非局所表現を得るため、抽出された特徴のトランスフォーマを使用して、トランスフォーマモデルへの逐次入力としてモデル化する。 さらに、主観的スコアと目的スコアの単調性相関を改善するために、各バッチ内の画像間の相対的距離情報を利用し、それらの相対的ランキングを強制する。 最後に、NR-IQAモデルの性能は等変変換を適用すると劣化する(例)。 入力に対する水平反転)。 そこで本研究では,NRIQAモデルのロバスト性を改善するために,自己整合性を自己超越の源として活用する手法を提案する。 具体的には、各画像の品質評価モデルの出力と変換(水平反転)との間の自己整合性を適用し、リッチな自己監督情報を活用し、モデルの不確実性を低減する。 本研究の有効性を実証するため, 標準IQAデータセット(合成および認証の両方)を用いて評価し, 各種データセットの最先端結果が得られたことを示す。

The goal of No-Reference Image Quality Assessment (NR-IQA) is to estimate the perceptual image quality in accordance with subjective evaluations, it is a complex and unsolved problem due to the absence of the pristine reference image. In this paper, we propose a novel model to address the NR-IQA task by leveraging a hybrid approach that benefits from Convolutional Neural Networks (CNNs) and self-attention mechanism in Transformers to extract both local and non-local features from the input image. We capture local structure information of the image via CNNs, then to circumvent the locality bias among the extracted CNNs features and obtain a non-local representation of the image, we utilize Transformers on the extracted features where we model them as a sequential input to the Transformer model. Furthermore, to improve the monotonicity correlation between the subjective and objective scores, we utilize the relative distance information among the images within each batch and enforce the relative ranking among them. Last but not least, we observe that the performance of NR-IQA models degrades when we apply equivariant transformations (e.g. horizontal flipping) to the inputs. Therefore, we propose a method that leverages self-consistency as a source of self-supervision to improve the robustness of NRIQA models. Specifically, we enforce self-consistency between the outputs of our quality assessment model for each image and its transformation (horizontally flipped) to utilize the rich self-supervisory information and reduce the uncertainty of the model. To demonstrate the effectiveness of our work, we evaluate it on seven standard IQA datasets (both synthetic and authentic) and show that our model achieves state-of-the-art results on various datasets.
翻訳日:2021-08-17 15:05:26 公開日:2021-08-16
# プローブ可能なダーツと計算病理学への応用

Probeable DARTS with Application to Computational Pathology ( http://arxiv.org/abs/2108.06859v1 )

ライセンス: Link先を確認
Sheyang Tang, Mahdi S. Hosseini, Lina Chen, Sonal Varma, Corwyn Rowsell, Savvas Damaskinos, Konstantinos N. Plataniotis, Zhou Wang(参考訳) AI技術は、特にディープニューラルネットワークの助けを借りて、計算病理学(CPath)において顕著な成果を上げている。 しかし、ネットワーク性能はアーキテクチャ設計と非常に関連しており、一般にドメイン知識を持つ人間の専門家を必要とする。 本稿では,近年のニューラルアーキテクチャサーチ(NAS)の進歩により,CPathアプリケーションに最適なネットワークを見つけることで,この課題に対処する。 特に,DARTS(Dariable Architecture Search)の効率性について検討する。 まず、元のDARTSがCIFARデータセットに適切なハイパーパラメータチューニングを欠いていること、および適応最適化戦略を用いて一般化問題にどう対処できるかを示す。 次に、組織組織型データセット(ADP)上で最適なネットワークアーキテクチャを探索し、CPathアプリケーションに検索フレームワークを適用した。 その結果,検索したネットワークは,予測精度と計算複雑性の観点から,最先端ネットワークよりも優れていた。 我々はさらに,新たなcpathアプリケーションへの検索ネットワークの転送可能性,ダウンスケール入力に対するロバスト性,予測の信頼性を実証するための広範な実験を行った。

AI technology has made remarkable achievements in computational pathology (CPath), especially with the help of deep neural networks. However, the network performance is highly related to architecture design, which commonly requires human experts with domain knowledge. In this paper, we combat this challenge with the recent advance in neural architecture search (NAS) to find an optimal network for CPath applications. In particular, we use differentiable architecture search (DARTS) for its efficiency. We first adopt a probing metric to show that the original DARTS lacks proper hyperparameter tuning on the CIFAR dataset, and how the generalization issue can be addressed using an adaptive optimization strategy. We then apply our searching framework on CPath applications by searching for the optimum network architecture on a histological tissue type dataset (ADP). Results show that the searched network outperforms state-of-the-art networks in terms of prediction accuracy and computation complexity. We further conduct extensive experiments to demonstrate the transferability of the searched network to new CPath applications, the robustness against downscaled inputs, as well as the reliability of predictions.
翻訳日:2021-08-17 15:04:55 公開日:2021-08-16
# テキスト対応単一画像のハイライト除去

Text-Aware Single Image Specular Highlight Removal ( http://arxiv.org/abs/2108.06881v1 )

ライセンス: Link先を確認
Shiyu Hou, Chaoqun Wang, Weize Quan, Jingen Jiang, Dong-Ming Yan(参考訳) 単一の入力画像から望ましくないスペックのハイライトを取り除くことは、多くのコンピュータビジョンやグラフィックタスクにとって非常に重要である。 既存の手法では、医用画像や特定対象画像のハイライトを除去するが、テキストで画像を扱うことはできない。 また,テキスト認識におけるスペクティカルハイライトの影響は,テキスト検出と認識コミュニティで研究されることは稀である。 そこで,本稿ではまず,テキスト対応の単一画像ハイライト除去問題を提起し,研究する。 中心となる目標は、テキスト画像からハイライトを取り除き、テキストの検出と認識の精度を向上させることである。 この課題に対処するため、まず3つの高品質なデータセットを詳細なアノテーションで収集し、関連する研究を促進するために適切にリリースする。 そこで我々は,ハイライト検出ネットワークとハイライト除去ネットワークを含む新しい2段階ネットワークを設計した。 ハイライト検出ネットワークの出力は、ハイライト除去ネットワークをガイドするためにハイライト領域に関する追加情報を提供する。 また,エンド・ツー・エンドのテキスト検出・認識評価と補助視覚品質評価を含む測定セットを提案する。 収集したデータセットに対する大規模な実験により,提案手法の優れた性能が示された。

Removing undesirable specular highlight from a single input image is of crucial importance to many computer vision and graphics tasks. Existing methods typically remove specular highlight for medical images and specific-object images, however, they cannot handle the images with text. In addition, the impact of specular highlight on text recognition is rarely studied by text detection and recognition community. Therefore, in this paper, we first raise and study the text-aware single image specular highlight removal problem. The core goal is to improve the accuracy of text detection and recognition by removing the highlight from text images. To tackle this challenging problem, we first collect three high-quality datasets with fine-grained annotations, which will be appropriately released to facilitate the relevant research. Then, we design a novel two-stage network, which contains a highlight detection network and a highlight removal network. The output of highlight detection network provides additional information about highlight regions to guide the subsequent highlight removal network. Moreover, we suggest a measurement set including the end-to-end text detection and recognition evaluation and auxiliary visual quality evaluation. Extensive experiments on our collected datasets demonstrate the superior performance of the proposed method.
翻訳日:2021-08-17 15:04:37 公開日:2021-08-16
# CarveMix:脳病変分割のための簡易データ拡張法

CarveMix: A Simple Data Augmentation Method for Brain Lesion Segmentation ( http://arxiv.org/abs/2108.06883v1 )

ライセンス: Link先を確認
Xinru Zhang, Chenghao Liu, Ni Ou, Xiangzhu Zeng, Xiaoliang Xiong, Yizhou Yu, Zhiwen Liu, Chuyang Ye(参考訳) 脳病変のセグメンテーションは臨床診断に有用なツールであり、畳み込みニューラルネットワーク(CNN)はそのタスクにおいて前例のない成功を収めた。 データ拡張はcnnのトレーニングを改善するために広く用いられている戦略であり、脳病変のセグメント化のための拡張法の設計はまだ未解決の問題である。 そこで本研究では,CNNを用いた脳病変分類のための単純なデータ拡張手法であるCarveMixを提案する。 mixupやcutmixといった他の"mix"ベースの手法と同様に、carvemixは既存の2つのラベル付き画像を組み合わせて新しいラベル付きサンプルを生成する。 しかし、画像の組み合わせに基づくこれらの拡張戦略とは異なり、CarveMixは病変を認識して組み合わせを行い、生成された画像に対して適切なアノテーションを作成する。 具体的には、あるラベル付き画像から、病変の位置と形状に応じて関心領域(ROI)を彫り、確率分布からROIのサイズをサンプリングする。 次に、彫刻されたROIが第2ラベル付き画像の対応するボクセルを置き換え、それに応じて第2画像のアノテーションも置き換える。 このように、ネットワークトレーニングのための新しいラベル付き画像を生成し、病変情報が保存される。 提案手法を評価するため,2つの脳病変データセットを用いて実験を行った。 その結果,他の単純なデータ拡張手法と比較してセグメント化精度が向上した。

Brain lesion segmentation provides a valuable tool for clinical diagnosis, and convolutional neural networks (CNNs) have achieved unprecedented success in the task. Data augmentation is a widely used strategy that improves the training of CNNs, and the design of the augmentation method for brain lesion segmentation is still an open problem. In this work, we propose a simple data augmentation approach, dubbed as CarveMix, for CNN-based brain lesion segmentation. Like other "mix"-based methods, such as Mixup and CutMix, CarveMix stochastically combines two existing labeled images to generate new labeled samples. Yet, unlike these augmentation strategies based on image combination, CarveMix is lesion-aware, where the combination is performed with an attention on the lesions and a proper annotation is created for the generated image. Specifically, from one labeled image we carve a region of interest (ROI) according to the lesion location and geometry, and the size of the ROI is sampled from a probability distribution. The carved ROI then replaces the corresponding voxels in a second labeled image, and the annotation of the second image is replaced accordingly as well. In this way, we generate new labeled images for network training and the lesion information is preserved. To evaluate the proposed method, experiments were performed on two brain lesion datasets. The results show that our method improves the segmentation accuracy compared with other simple data augmentation approaches.
翻訳日:2021-08-17 15:04:21 公開日:2021-08-16
# gan圧縮用オンライン多粒度蒸留

Online Multi-Granularity Distillation for GAN Compression ( http://arxiv.org/abs/2108.06908v1 )

ライセンス: Link先を確認
Yuxi Ren, Jie Wu, Xuefeng Xiao, Jianchao Yang(参考訳) generative adversarial networks (gans) は、優れた画像を得ることに成功したが、計算コストやメモリ使用量の軽微さから、リソースに制約のあるデバイスにデプロイするのは面倒である。 GANを圧縮する最近の試みは目覚ましい結果を得たが、潜在的なモデル冗長性が存在し、さらに圧縮することができる。 この問題を解決するため,我々は軽量なGANを得るためのオンライン多粒度蒸留(OMGD)方式を提案し,計算要求の少ない高忠実度画像の生成に寄与する。 我々は,GAN指向圧縮のための単一段階オンライン蒸留を普及させる最初の試みについて紹介する。 補完的な教師ジェネレータとネットワーク層は、様々な次元から視覚的忠実性を高めるために、包括的で多彩な概念を提供する。 4つのベンチマークデータセットの実験結果から、OMGDは画像品質を損なわずにPix2PixとCycleGANで40倍MACと82.5倍パラメータを圧縮することに成功した。 OMGDは、リソース制約のあるデバイスにリアルタイム画像翻訳をデプロイするための、実現可能なソリューションを提供する。 私たちのコードとモデルは、https://github.com/b ytedance/OMGDで公開されています。

Generative Adversarial Networks (GANs) have witnessed prevailing success in yielding outstanding images, however, they are burdensome to deploy on resource-constrained devices due to ponderous computational costs and hulking memory usage. Although recent efforts on compressing GANs have acquired remarkable results, they still exist potential model redundancies and can be further compressed. To solve this issue, we propose a novel online multi-granularity distillation (OMGD) scheme to obtain lightweight GANs, which contributes to generating high-fidelity images with low computational demands. We offer the first attempt to popularize single-stage online distillation for GAN-oriented compression, where the progressively promoted teacher generator helps to refine the discriminator-free based student generator. Complementary teacher generators and network layers provide comprehensive and multi-granularity concepts to enhance visual fidelity from diverse dimensions. Experimental results on four benchmark datasets demonstrate that OMGD successes to compress 40x MACs and 82.5X parameters on Pix2Pix and CycleGAN, without loss of image quality. It reveals that OMGD provides a feasible solution for the deployment of real-time image translation on resource-constrained devices. Our code and models are made public at: https://github.com/b ytedance/OMGD.
翻訳日:2021-08-17 15:03:57 公開日:2021-08-16
# 3次元スパース畳み込みニューラルネットワークのための補間アウェアパディング

Interpolation-Aware Padding for 3D Sparse Convolutional Neural Networks ( http://arxiv.org/abs/2108.06925v1 )

ライセンス: Link先を確認
Yu-Qi Yang, Peng-Shuai Wang, Yang Liu(参考訳) スパースボクセルベースの3D畳み込みニューラルネットワーク(CNN)は、様々な3D視覚タスクに広く利用されている。 スパースボクセルベースの3D CNNは、3D入力からスパース非空ボクセルを生成し、3D畳み込み操作のみを実行する。 本稿では,空でないボクセルに隣接した空のボクセルをパッドして3次元CNN計算に巻き込み,三角補間によるポイントワイドな特徴を計算する際に,近隣のボクセルがすべて存在するように,簡易で効果的なパディング方式を提案する。 セマンティックセグメンテーションや3次元検出といったポイントワイドな特徴が不可欠である細粒度3次元視覚タスクでは、近接補間やゼロパディングやオクツリーパディング方式による正規化トリ線形補間を用いて既存のネットワークよりも高い予測精度を実現する。 様々な3次元分割と検出タスクの広範囲な比較を通じて,特徴補間と合わせてパディング方式による3次元スパースCNNの優位性を実証した。

Sparse voxel-based 3D convolutional neural networks (CNNs) are widely used for various 3D vision tasks. Sparse voxel-based 3D CNNs create sparse non-empty voxels from the 3D input and perform 3D convolution operations on them only. We propose a simple yet effective padding scheme --- interpolation-aware padding to pad a few empty voxels adjacent to the non-empty voxels and involve them in the 3D CNN computation so that all neighboring voxels exist when computing point-wise features via the trilinear interpolation. For fine-grained 3D vision tasks where point-wise features are essential, like semantic segmentation and 3D detection, our network achieves higher prediction accuracy than the existing networks using the nearest neighbor interpolation or the normalized trilinear interpolation with the zero-padding or the octree-padding scheme. Through extensive comparisons on various 3D segmentation and detection tasks, we demonstrate the superiority of 3D sparse CNNs with our padding scheme in conjunction with feature interpolation.
翻訳日:2021-08-17 15:03:35 公開日:2021-08-16
# 確率的トレーニング戦略による教師なし人物の再識別

Unsupervised Person Re-identification with Stochastic Training Strategy ( http://arxiv.org/abs/2108.06938v1 )

ライセンス: Link先を確認
Tianyang Liu, Yutian Lin and Bo Du(参考訳) 教師なしの人物再識別(re-ID)は、そのスケーラビリティと現実世界のアプリケーションの可能性から研究の関心が高まりつつある。 state-of-the-art unsupervised re-idメソッドは通常、クラスタリングベースの戦略に従い、クラスタ化によって擬似ラベルを生成し、インスタンスの特徴を格納するメモリを保持し、コントラスト学習のためのクラスタのセンタロイドを表現する。 このアプローチには2つの問題がある。 まず、教師なし学習によって生成されるセントロイドは完璧なプロトタイプではないかもしれない。 イメージをセントロイドに近づけるように強制すると、反復中にクラスタリングエラーを蓄積するクラスタリングの結果が強調される。 第2に、以前の方法は異なるトレーニングイテレーションで得られた機能を利用して、1セントロイドを表現するが、これは現在のトレーニングサンプルと一致しない。 そこで本稿では,確率的学習戦略を用いた教師なしre-ID手法を提案する。 具体的には,クラスタからのランダムインスタンスを使用してクラスタレベルのメモリを更新してコントラスト学習を行う,確率的更新メモリを採用する。 このように、ランダムに選択された画像間の関係を学習し、信頼できない擬似ラベルによるトレーニングバイアスを回避する。 確率記憶は、一貫性を維持するために常に最新に分類される。 さらに、カメラのばらつきを解消するため、クラスタリング中に、異なるカメラ領域からの距離バイアスを低減し、アイデンティティのばらつきを強調する統一距離行列を提案する。

Unsupervised person re-identification (re-ID) has attracted increasing research interests because of its scalability and possibility for real-world applications. State-of-the-art unsupervised re-ID methods usually follow a clustering-based strategy, which generates pseudo labels by clustering and maintains a memory to store instance features and represent the centroid of the clusters for contrastive learning. This approach suffers two problems. First, the centroid generated by unsupervised learning may not be a perfect prototype. Forcing images to get closer to the centroid emphasizes the result of clustering, which could accumulate clustering errors during iterations. Second, previous methods utilize features obtained at different training iterations to represent one centroid, which is not consistent with the current training sample, since the features are not directly comparable. To this end, we propose an unsupervised re-ID approach with a stochastic learning strategy. Specifically, we adopt a stochastic updated memory, where a random instance from a cluster is used to update the cluster-level memory for contrastive learning. In this way, the relationship between randomly selected pair of images are learned to avoid the training bias caused by unreliable pseudo labels. The stochastic memory is also always up-to-date for classifying to keep the consistency. Besides, to relieve the issue of camera variance, a unified distance matrix is proposed during clustering, where the distance bias from different camera domain is reduced and the variances of identities is emphasized.
翻訳日:2021-08-17 15:03:15 公開日:2021-08-16
# シーンテキスト認識のためのデータ拡張

Data Augmentation for Scene Text Recognition ( http://arxiv.org/abs/2108.06949v1 )

ライセンス: Link先を確認
Rowel Atienza(参考訳) シーンテキスト認識(STR)は、自然界におけるテキストの出現の可能性が大きいため、コンピュータビジョンにおいて難しい課題である。 ほとんどのSTRモデルは、十分に大きくて一般公開された実際のデータセットがないため、トレーニングのために合成データセットに依存しています。 STRモデルは実データを用いて評価されるため、トレーニングとテストのミスマッチは、特にノイズ、アーティファクト、幾何学、構造などの影響を受ける挑戦的なテキストに対して、モデルの低パフォーマンスをもたらす。 本稿では,STR用に設計した36個の画像拡張関数からなるSTRAugを紹介する。 それぞれの機能は、カメラセンサーによる自然なシーンや、信号処理操作によって引き起こされるが、トレーニングデータセットではあまり表現されていないテキストイメージ特性を模倣する。 RandAugmentを用いた強力なベースラインモデルに適用すると、STRAugは通常のテストデータセットと不規則なテストデータセットのSTRモデルの全体的な絶対精度を、Rosettaで最大2.10%、R2AMで1.48%、CRNNで1.30%、RAREで1.35%、TRBAで1.06%、GCRNNで0.89%向上させる。 STRAug関数が提供するAPIの多様性と単純さにより、STRの既存のデータ拡張メソッドのレプリケーションと検証が容易になる。 STRAugはhttps://github.com/r oatienza/straug.comで入手できる。

Scene text recognition (STR) is a challenging task in computer vision due to the large number of possible text appearances in natural scenes. Most STR models rely on synthetic datasets for training since there are no sufficiently big and publicly available labelled real datasets. Since STR models are evaluated using real data, the mismatch between training and testing data distributions results into poor performance of models especially on challenging text that are affected by noise, artifacts, geometry, structure, etc. In this paper, we introduce STRAug which is made of 36 image augmentation functions designed for STR. Each function mimics certain text image properties that can be found in natural scenes, caused by camera sensors, or induced by signal processing operations but poorly represented in the training dataset. When applied to strong baseline models using RandAugment, STRAug significantly increases the overall absolute accuracy of STR models across regular and irregular test datasets by as much as 2.10% on Rosetta, 1.48% on R2AM, 1.30% on CRNN, 1.35% on RARE, 1.06% on TRBA and 0.89% on GCRNN. The diversity and simplicity of API provided by STRAug functions enable easy replication and validation of existing data augmentation methods for STR. STRAug is available at https://github.com/r oatienza/straug.
翻訳日:2021-08-17 15:02:53 公開日:2021-08-16
# セマンティックセグメンテーションにおけるドメイン適応のためのマルチターゲット対応フレームワーク

Multi-Target Adversarial Frameworks for Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2108.06962v1 )

ライセンス: Link先を確認
Antoine Saporta and Tuan-Hung Vu and Matthieu Cord and Patrick P\'erez(参考訳) 本稿では,複数の対象領域が存在する場合,意味セグメンテーションのための教師なしドメイン適応(unsupervised domain adaptation,uda)のタスクについて述べる。 このようなマルチターゲット適応は、現実世界の自律システムが扱わなければならないさまざまなシナリオに不可欠である。 ラベル付きソースセットとラベルなしのターゲットセットとのドメインギャップだけでなく、異なるターゲットドメイン間で後者内に存在する分散シフトにも直面するため、これは難しいセットアップである。 この目的のために, 対象ドメインを対象ドメインに明示的にアライメントするマルチ差別化器と, マルチ教師/シングル学生の蒸留機構により, ターゲット非依存のモデルを学ぶマルチターゲット知識伝達器と, セマンティックセグメンテーションにおいて新たに提案された4つのマルチターゲットベンチマークを用いて評価を行った。 すべてのテストシナリオにおいて、我々のアプローチはベースラインを一貫して上回り、新しいタスクの競争標準を設定します。

In this work, we address the task of unsupervised domain adaptation (UDA) for semantic segmentation in presence of multiple target domains: The objective is to train a single model that can handle all these domains at test time. Such a multi-target adaptation is crucial for a variety of scenarios that real-world autonomous systems must handle. It is a challenging setup since one faces not only the domain gap between the labeled source set and the unlabeled target set, but also the distribution shifts existing within the latter among the different target domains. To this end, we introduce two adversarial frameworks: (i) multi-discriminator, which explicitly aligns each target domain to its counterparts, and (ii) multi-target knowledge transfer, which learns a target-agnostic model thanks to a multi-teacher/single -student distillation mechanism.The evaluation is done on four newly-proposed multi-target benchmarks for UDA in semantic segmentation. In all tested scenarios, our approaches consistently outperform baselines, setting competitive standards for the novel task.
翻訳日:2021-08-17 15:02:27 公開日:2021-08-16
# 3次元高精細マスク面提示アタック検出チャレンジ

3D High-Fidelity Mask Face Presentation Attack Detection Challenge ( http://arxiv.org/abs/2108.06968v1 )

ライセンス: Link先を確認
Ajian Liu, Chenxu Zhao, Zitong Yu, Anyang Su, Xing Liu, Zijian Kong, Jun Wan, Sergio Escalera, Hugo Jair Escalante, Zhen Lei, Guodong Guo(参考訳) 顔認識システムに対する3Dマスクの脅威はますます深刻で、研究者によって広く懸念されている。 アルゴリズムの研究を容易にするため、大規模なハイフィデリティマスクデータセット、すなわちCASIA-SURF HiFiMask(略してHiFiMask)が収集された。 具体的には、75人の被験者から記録された54,600本のビデオと、新しい7種類のセンサーの下で225本のリアルマスクで構成されている。 このデータセットと、オープンセットシナリオ下でのアルゴリズムの識別と一般化能力を評価するプロトコル3に基づいて、3次元マスク顔提示検出チャレンジを組織し、3次元マスクによる攻撃検出の研究を推進した。 開発段階では195チームが参加し、最終ラウンドには合計18チームが出場した。 結果はすべて組織チームによって検証され、再実行され、結果が最終ランキングに使用された。 本稿では,使用するデータセットの導入,プロトコルの定義,評価基準の算出,競技結果の要約と公開など,課題の概要について述べる。 最後に,このコンペティションによって提供されるマスク攻撃検出の上位ランキングアルゴリズム,結論要約,研究アイデアの導入と分析に焦点をあてる。

The threat of 3D masks to face recognition systems is increasingly serious and has been widely concerned by researchers. To facilitate the study of the algorithms, a large-scale High-Fidelity Mask dataset, namely CASIA-SURF HiFiMask (briefly HiFiMask) has been collected. Specifically, it consists of a total amount of 54, 600 videos which are recorded from 75 subjects with 225 realistic masks under 7 new kinds of sensors. Based on this dataset and Protocol 3 which evaluates both the discrimination and generalization ability of the algorithm under the open set scenarios, we organized a 3D High-Fidelity Mask Face Presentation Attack Detection Challenge to boost the research of 3D mask-based attack detection. It attracted 195 teams for the development phase with a total of 18 teams qualifying for the final round. All the results were verified and re-run by the organizing team, and the results were used for the final ranking. This paper presents an overview of the challenge, including the introduction of the dataset used, the definition of the protocol, the calculation of the evaluation criteria, and the summary and publication of the competition results. Finally, we focus on introducing and analyzing the top ranking algorithms, the conclusion summary, and the research ideas for mask attack detection provided by this competition.
翻訳日:2021-08-17 15:02:09 公開日:2021-08-16
# 距離対応量子化

Distance-aware Quantization ( http://arxiv.org/abs/2108.06983v1 )

ライセンス: Link先を確認
Dohyung kim, Junghyup Lee, Bumsub Ham(参考訳) 本稿では,ネットワークアーキテクチャを軽量化するために,重みやアクティベーションのビット幅を削減するネットワーク量子化の問題に対処する。 量子化法では、全精度を最も近い量子化値にマッピングするために丸い関数を用いるが、この演算は微分できない。 勾配に基づくオプティマイザを用いた量子化ネットワークのトレーニングには,主に2つのアプローチがある。 まず、ストレートスルー推定器(ste)は丸めの零導関数を同一関数の導関数に置き換え、勾配ミスマッチ問題を引き起こす。 第2に、ソフト量子化器は、トレーニング時の連続関数による丸めを近似し、テスト時の量子化に丸めを利用する。 これは勾配ミスマッチを緩和するが、量子化器のギャップ問題を引き起こす。 我々は、両方の問題を統一したフレームワークで緩和する。 この目的のために,距離対応量子化器 (DAQ) と呼ばれる,距離対応ソフトラウンドリング (DASR) と温度制御器からなる新しい量子化器を導入する。 勾配ミスマッチ問題を緩和するために、dasrは、全精度値と量子化値の間の距離に基づく割当て問題として量子化を定式化できるという我々の洞察に基づいて、離散丸めをカーネルソフトargmaxと近似する。 制御器は、入力に応じてDASRの温度パラメータを適応的に調整し、量子化器ギャップ問題に対処する。 標準ベンチマークによる実験結果から,DAQはベルやホイッスルを使わずに,様々なビット幅で高い性能を発揮することが示された。

We address the problem of network quantization, that is, reducing bit-widths of weights and/or activations to lighten network architectures. Quantization methods use a rounding function to map full-precision values to the nearest quantized ones, but this operation is not differentiable. There are mainly two approaches to training quantized networks with gradient-based optimizers. First, a straight-through estimator (STE) replaces the zero derivative of the rounding with that of an identity function, which causes a gradient mismatch problem. Second, soft quantizers approximate the rounding with continuous functions at training time, and exploit the rounding for quantization at test time. This alleviates the gradient mismatch, but causes a quantizer gap problem. We alleviate both problems in a unified framework. To this end, we introduce a novel quantizer, dubbed a distance-aware quantizer (DAQ), that mainly consists of a distance-aware soft rounding (DASR) and a temperature controller. To alleviate the gradient mismatch problem, DASR approximates the discrete rounding with the kernel soft argmax, which is based on our insight that the quantization can be formulated as a distance-based assignment problem between full-precision values and quantized ones. The controller adjusts the temperature parameter in DASR adaptively according to the input, addressing the quantizer gap problem. Experimental results on standard benchmarks show that DAQ outperforms the state of the art significantly for various bit-widths without bells and whistles.
翻訳日:2021-08-17 15:01:47 公開日:2021-08-16
# 変化は至る所にある:リモートセンシング画像における単一時間監視対象変化検出

Change is Everywhere: Single-Temporal Supervised Object Change Detection in Remote Sensing Imagery ( http://arxiv.org/abs/2108.07002v1 )

ライセンス: Link先を確認
Zhuo Zheng, Ailong Ma, Liangpei Zhang, Yanfei Zhong(参考訳) 高空間分解能 (hsr) リモートセンシング画像では、バイチンポラル教師付き学習は、常に多くの対のラベル付きバイチンポラル画像を用いた変化検出を支配している。 しかし、大規模なバイテンポラルHSRリモートセンシング画像のラベル付けは非常に高価で時間を要する。 本稿では,非ペア画像の物体変化を監視信号として活用する新たな視点から,変化検出のための単時間教師付き学習(star)を提案する。 STARは, {textbf{unpaired} ラベル付き画像のみを用いて高精度な変化検出装置を訓練し,実世界のバイテンポラル画像に一般化する。 STARの有効性を評価するため,ChangeStarと呼ばれるシンプルな変更検出器を設計し,ChangeMixinモジュールによる深いセマンティックセグメンテーションアーキテクチャを再利用する。 包括的実験の結果,changestarは単一時間監督下では大きなマージンでベースラインを上回っており,バイテンポラル監督下では優れたパフォーマンスを達成していることがわかった。 コードはhttps://github.com/Z -Zheng/ChangeStarで入手できる。

For high spatial resolution (HSR) remote sensing images, bitemporal supervised learning always dominates change detection using many pairwise labeled bitemporal images. However, it is very expensive and time-consuming to pairwise label large-scale bitemporal HSR remote sensing images. In this paper, we propose single-temporal supervised learning (STAR) for change detection from a new perspective of exploiting object changes in unpaired images as supervisory signals. STAR enables us to train a high-accuracy change detector only using \textbf{unpaired} labeled images and generalize to real-world bitemporal images. To evaluate the effectiveness of STAR, we design a simple yet effective change detector called ChangeStar, which can reuse any deep semantic segmentation architecture by the ChangeMixin module. The comprehensive experimental results show that ChangeStar outperforms the baseline with a large margin under single-temporal supervision and achieves superior performance under bitemporal supervision. Code is available at https://github.com/Z -Zheng/ChangeStar
翻訳日:2021-08-17 15:01:18 公開日:2021-08-16
# 効率的なエッジ検出のための画素差分ネットワーク

Pixel Difference Networks for Efficient Edge Detection ( http://arxiv.org/abs/2108.07009v1 )

ライセンス: Link先を確認
Zhuo Su, Wenzhe Liu, Zitong Yu, Dewen Hu, Qing Liao, Qi Tian, Matti Pietik\"ainen, Li Liu(参考訳) 近年、深層畳み込みニューラルネットワーク(CNN)は、リッチで抽象的なエッジ表現能力を持つエッジ検出において、人間レベルの性能を実現することができる。 しかし、CNNベースのエッジ検出の高性能化は、メモリとエネルギー消費の大きいCNNバックボーンによって達成される。 また,従来のエッジ検出器であるcanny, sobel, lbpの知識が,急速な深層学習時代にはほとんど研究されていないことは驚きである。 これらの問題に対処するために,Pixel Difference Network (PiDiNet) という,シンプルで軽量で効果的なエッジ検出アーキテクチャを提案する。 BSDS500、NYUD、Multicueの大規模な実験は、その効果と高いトレーニングと推論効率を示すために提供される。 意外なことに、BSDS500データセットとVOCデータセットのみをスクラッチからトレーニングすると、100 FPSで100Mパラメータ未満のBSDS500データセット上で、人間の知覚(ODS F測定では0.807対0.803)の記録結果を上回ることができる。 0.1M未満のパラメータを持つPiDiNetのより高速なバージョンは、200FPSのアーティファクトで同等のパフォーマンスを達成できる。 NYUDとMulticueのデータセットの結果は、同様の観察結果を示している。 コードはhttps://github.com/z huoinoulu/pidinetで入手できる。

Recently, deep Convolutional Neural Networks (CNNs) can achieve human-level performance in edge detection with the rich and abstract edge representation capacities. However, the high performance of CNN based edge detection is achieved with a large pretrained CNN backbone, which is memory and energy consuming. In addition, it is surprising that the previous wisdom from the traditional edge detectors, such as Canny, Sobel, and LBP are rarely investigated in the rapid-developing deep learning era. To address these issues, we propose a simple, lightweight yet effective architecture named Pixel Difference Network (PiDiNet) for efficient edge detection. Extensive experiments on BSDS500, NYUD, and Multicue are provided to demonstrate its effectiveness, and its high training and inference efficiency. Surprisingly, when training from scratch with only the BSDS500 and VOC datasets, PiDiNet can surpass the recorded result of human perception (0.807 vs. 0.803 in ODS F-measure) on the BSDS500 dataset with 100 FPS and less than 1M parameters. A faster version of PiDiNet with less than 0.1M parameters can still achieve comparable performance among state of the arts with 200 FPS. Results on the NYUD and Multicue datasets show similar observations. The codes are available at https://github.com/z huoinoulu/pidinet.
翻訳日:2021-08-17 15:01:00 公開日:2021-08-16
# 実世界の禁止項目検出に向けて:大規模X線ベンチマーク

Towards Real-World Prohibited Item Detection: A Large-Scale X-ray Benchmark ( http://arxiv.org/abs/2108.07020v1 )

ライセンス: Link先を確認
Boying Wang and Libo Zhang and Longyin Wen and Xianglong Liu and Yanjun Wu(参考訳) コンピュータビジョン技術を用いた自動セキュリティ検査は,クラス内分散,クラス不均衡,オクルージョンといったさまざまな要因により,現実のシナリオでは難しい課題である。 以前の方法のほとんどは、大規模なデータセットがないため、禁止されたアイテムが故意に乱雑なオブジェクトに隠れているケースをほとんど解決しません。 実世界の禁止アイテム検出に向けて,PIDrayという名の大規模データセットを収集し,特に故意に隠蔽されたアイテムの検出を実世界のシナリオでカバーする。 大量の努力を払って、私たちのデータセットには、高品質な注釈付きセグメンテーションマスクとバウンディングボックスを備えた47,677ドルのX線画像に、禁止アイテムの12ドルカテゴリが含まれています。 我々の知る限りでは、これまでで最大の禁止アイテム検出データセットである。 一方,我々は,sdanet (selective dense attention network) を設計して,集中型注意モジュールと依存的リファインメントモジュールからなる,強いベースラインを構築する。 空間的およびチャネル的に密着した注意によって形成される密着モジュールは、性能を高めるための識別的特徴を学習するために設計されている。 依存性リファインメントモジュールは、マルチスケール機能の依存関係を利用するために使用される。 収集したPIDrayデータセットで行った大規模な実験により,提案手法は最先端の手法に対して,特に故意に隠された項目を検出するために好適に機能することが示された。

Automatic security inspection using computer vision technology is a challenging task in real-world scenarios due to various factors, including intra-class variance, class imbalance, and occlusion. Most of the previous methods rarely solve the cases that the prohibited items are deliberately hidden in messy objects due to the lack of large-scale datasets, restricted their applications in real-world scenarios. Towards real-world prohibited item detection, we collect a large-scale dataset, named as PIDray, which covers various cases in real-world scenarios for prohibited item detection, especially for deliberately hidden items. With an intensive amount of effort, our dataset contains $12$ categories of prohibited items in $47,677$ X-ray images with high-quality annotated segmentation masks and bounding boxes. To the best of our knowledge, it is the largest prohibited items detection dataset to date. Meanwhile, we design the selective dense attention network (SDANet) to construct a strong baseline, which consists of the dense attention module and the dependency refinement module. The dense attention module formed by the spatial and channel-wise dense attentions, is designed to learn the discriminative features to boost the performance. The dependency refinement module is used to exploit the dependencies of multi-scale features. Extensive experiments conducted on the collected PIDray dataset demonstrate that the proposed method performs favorably against the state-of-the-art methods, especially for detecting the deliberately hidden items.
翻訳日:2021-08-17 15:00:39 公開日:2021-08-16
# ゼロショット学習のための構造認識特徴生成

Structure-Aware Feature Generation for Zero-Shot Learning ( http://arxiv.org/abs/2108.07032v1 )

ライセンス: Link先を確認
Lianbo Zhang, Shaoli Huang, Xinchao Wang, Wei Liu, Dacheng Tao(参考訳) zero-shot learning (zsl) は属性埋め込みなどの補助情報を活用することで、見当たらないカテゴリの認識を目標としている。 奨励的な結果が得られたにも拘わらず、以前のZSLアプローチは目に見える特徴の識別能力の改善に重点を置いていたが、サンプルとプロトタイプの幾何学的構造をほとんど見落としていた。 その後の属性ベース生成対数ネットワーク(GAN)は、サンプル生成におけるトポロジ情報を無視し、また、見知らぬクラスの視覚的特徴の分類において、劣る性能を得る。 本稿では,SA-GANと呼ばれる新しい構造認識特徴生成手法を導入し,潜在空間と生成ネットワークの両方を学習する際のトポロジ的構造を明示的に説明する。 具体的には、識別的潜在空間を学習する際に初期幾何構造を保存するための制約損失を導入し、構造認識型判別器と再構成モジュールから追加の教師あり信号を含むgan訓練を行う。 前者は偽のサンプルと実際のサンプルをクラスプロトタイプとの親和性に基づいて区別し、後者は生成された潜在空間から元の特徴空間を再構築することを目指している。 このトポロジー保存機構により,unseenクラスの一般化能力が大幅に向上し,分類性能が向上する。 4つのベンチマークによる実験は、提案手法が一貫して最先端技術を上回ることを示している。 私たちのコードは補足資料に載っており、公開も予定しています。

Zero-Shot Learning (ZSL) targets at recognizing unseen categories by leveraging auxiliary information, such as attribute embedding. Despite the encouraging results achieved, prior ZSL approaches focus on improving the discriminant power of seen-class features, yet have largely overlooked the geometric structure of the samples and the prototypes. The subsequent attribute-based generative adversarial network (GAN), as a result, also neglects the topological information in sample generation and further yields inferior performances in classifying the visual features of unseen classes. In this paper, we introduce a novel structure-aware feature generation scheme, termed as SA-GAN, to explicitly account for the topological structure in learning both the latent space and the generative networks. Specifically, we introduce a constraint loss to preserve the initial geometric structure when learning a discriminative latent space, and carry out our GAN training with additional supervising signals from a structure-aware discriminator and a reconstruction module. The former supervision distinguishes fake and real samples based on their affinity to class prototypes, while the latter aims to reconstruct the original feature space from the generated latent space. This topology-preserving mechanism enables our method to significantly enhance the generalization capability on unseen-classes and consequently improve the classification performance. Experiments on four benchmarks demonstrate that the proposed approach consistently outperforms the state of the art. Our code can be found in the supplementary material and will also be made publicly available.
翻訳日:2021-08-17 15:00:15 公開日:2021-08-16
# ネットワーク階層の観点からの移動可能かつロバストな対向摂動生成の探索

Exploring Transferable and Robust Adversarial Perturbation Generation from the Perspective of Network Hierarchy ( http://arxiv.org/abs/2108.07033v1 )

ライセンス: Link先を確認
Ruikui Wang, Yuanfang Guo, Ruijie Yang and Yunhong Wang(参考訳) 攻撃例の転送性とロバスト性は、ブラックボックス攻撃の実用的かつ重要な2つの特性である。 本稿では,ネットワーク階層の観点から,ネットワークを階層的に分類し,出力ステージ,中間ステージ,入力ステージに分類できる効果的な機構について検討する。 ソースモデルの超特殊化により,出力段階における逆摂動の伝達性とロバスト性が向上することがほとんどない。 そこで本論文では,中間段階と入力段階に着目し,伝送可能かつ頑健な逆摂動生成(TRAP)法を提案する。 具体的には,中間段階における摂動発生の正確な方向誘導を連続的に計算する動的誘導機構を提案する。 入力段階では、既存手法で採用されている単一形式変換拡張の代わりに、多形アフィン変換拡張を利用して入力の多様性をさらに強化し、対向摂動の堅牢性と伝達性を高める。 大規模な実験により、TRAPは特定の干渉に対して印象的な伝達性と高い堅牢性を達成できることが示された。

The transferability and robustness of adversarial examples are two practical yet important properties for black-box adversarial attacks. In this paper, we explore effective mechanisms to boost both of them from the perspective of network hierarchy, where a typical network can be hierarchically divided into output stage, intermediate stage and input stage. Since over-specialization of source model, we can hardly improve the transferability and robustness of the adversarial perturbations in the output stage. Therefore, we focus on the intermediate and input stages in this paper and propose a transferable and robust adversarial perturbation generation (TRAP) method. Specifically, we propose the dynamically guided mechanism to continuously calculate accurate directional guidances for perturbation generation in the intermediate stage. In the input stage, instead of the single-form transformation augmentations adopted in the existing methods, we leverage multiform affine transformation augmentations to further enrich the input diversity and boost the robustness and transferability of the adversarial perturbations. Extensive experiments demonstrate that our TRAP achieves impressive transferability and high robustness against certain interferences.
翻訳日:2021-08-17 14:59:50 公開日:2021-08-16
# 組込みシステムのための効率的な画像分類学習パイプラインの実現に向けて

Towards Efficient and Data Agnostic Image Classification Training Pipeline for Embedded Systems ( http://arxiv.org/abs/2108.07049v1 )

ライセンス: Link先を確認
Kirill Prokofiev and Vladislav Sovrasov(参考訳) 現在、ディープラーニングに基づく手法は、画像Net、CIFAR、SVHN、Caltech 101、SUN397など、広く使われているデータセットのうち、画像分類タスクにおいて顕著な進歩を遂げている。 上記各データセットのsota性能は、モデルアーキテクチャの注意深くチューニングし、対象データの特性に応じたトレーニングトリックによって得られる。 このアプローチは学術的な記録の設定を可能にするが、平均的なデータ科学者が実際に遭遇するすべての画像分類タスクに対して、洗練されたトレーニングパイプラインを構築するのに十分なリソースを持つのは現実的ではない。 本研究は,画像分類における最新の拡張および正規化手法の見直しと,エポックの総数,初期学習率,スケジュールなどの重要なハイパーパラメータを自動的に選択する方法の探索に重点を置いている。 軽量なCNNアーキテクチャ(BileNetV3やEfficientNetなど)と十分な正規化レベルとデータ学習率スケジュールを備えたトレーニング手順により、各タスクにパラメータを手動でチューニングすることなく、さまざまな下流画像分類タスクに対して合理的なパフォーマンスを実現することができる。 結果モデルは計算効率が良く、OpenVINOツールキットを使ってCPUにデプロイできる。 OpenVINO Training Extensions(https://g ithub.com/openvinoto olkit/training_exten sions)の一部としてソースコードが公開されている。

Nowadays deep learning-based methods have achieved a remarkable progress at the image classification task among a wide range of commonly used datasets (ImageNet, CIFAR, SVHN, Caltech 101, SUN397, etc.). SOTA performance on each of the mentioned datasets is obtained by careful tuning of the model architecture and training tricks according to the properties of the target data. Although this approach allows setting academic records, it is unrealistic that an average data scientist would have enough resources to build a sophisticated training pipeline for every image classification task he meets in practice. This work is focusing on reviewing the latest augmentation and regularization methods for the image classification and exploring ways to automatically choose some of the most important hyperparameters: total number of epochs, initial learning rate value and it's schedule. Having a training procedure equipped with a lightweight modern CNN architecture (like bileNetV3 or EfficientNet), sufficient level of regularization and adaptive to data learning rate schedule, we can achieve a reasonable performance on a variety of downstream image classification tasks without manual tuning of parameters to each particular task. Resulting models are computationally efficient and can be deployed to CPU using the OpenVINO toolkit. Source code is available as a part of the OpenVINO Training Extensions (https://github.com/ openvinotoolkit/trai ning_extensions).
翻訳日:2021-08-17 14:59:31 公開日:2021-08-16
# PIT:クロスFoV領域適応のための位置不変変換

PIT: Position-Invariant Transform for Cross-FoV Domain Adaptation ( http://arxiv.org/abs/2108.07142v1 )

ライセンス: Link先を確認
Qiqi Gu, Qianyu Zhou, Minghao Xu, Zhengyang Feng, Guangliang Cheng, Xuequan Lu, Jianping Shi, Lizhuang Ma(参考訳) クロスドメインオブジェクト検出とセマンティクスセグメンテーションは近年目覚ましい進歩を遂げている。 既存のアプローチでは、背景、照明、天候などの外部環境から生じるドメインシフトを主に考慮しているが、カメラ固有のパラメータは異なるドメインに共通して現れており、ドメイン適応への影響は極めて稀である。 本稿では,fov(field of view)ギャップが,ソース領域とターゲット領域の間に顕著なインスタンス出現の差異を引き起こすことを観察する。 さらに,両領域間のFoVギャップは,FoV増加率(ソースFoV<ターゲットFoV)とFoV減少率の両方でドメイン適応性能を損なうことが判明した。 観測結果に動機づけられ、異なる領域の画像をよりよく整列する \textbf{position-invariant transform} (pit) を提案する。 また、変換/アライメントされた画像を元の画像空間にマッピングする逆PITを導入し、トレーニングプロセスの高速化のために損失再重み付け戦略を設計する。 本手法は,既存のクロスドメイン検出/セグメンテーションフレームワークに容易に接続でき,計算オーバーヘッドが無視できる。 本手法は,最先端技術におけるクロスドメインオブジェクト検出とセグメンテーションの両方の性能向上に有効であることを示す。 私たちのコードはhttps://github.com/s heepooo/PIT-Position -Invariant-Transform で利用可能です。

Cross-domain object detection and semantic segmentation have witnessed impressive progress recently. Existing approaches mainly consider the domain shift resulting from external environments including the changes of background, illumination or weather, while distinct camera intrinsic parameters appear commonly in different domains, and their influence for domain adaptation has been very rarely explored. In this paper, we observe that the Field of View (FoV) gap induces noticeable instance appearance differences between the source and target domains. We further discover that the FoV gap between two domains impairs domain adaptation performance under both the FoV-increasing (source FoV < target FoV) and FoV-decreasing cases. Motivated by the observations, we propose the \textbf{Position-Invariant Transform} (PIT) to better align images in different domains. We also introduce a reverse PIT for mapping the transformed/aligned images back to the original image space and design a loss re-weighting strategy to accelerate the training process. Our method can be easily plugged into existing cross-domain detection/segmentati on frameworks while bringing about negligible computational overhead. Extensive experiments demonstrate that our method can soundly boost the performance on both cross-domain object detection and segmentation for state-of-the-art techniques. Our code is available at https://github.com/s heepooo/PIT-Position -Invariant-Transform .
翻訳日:2021-08-17 14:59:09 公開日:2021-08-16
# 深部機能の暗号化の重要性について

On the Importance of Encrypting Deep Features ( http://arxiv.org/abs/2108.07147v1 )

ライセンス: Link先を確認
Xingyang Ni, Heikki Huttunen, Esa Rahtu(参考訳) 本研究では,ユーザデータの特徴ベクトルが既知の仮定と,推論のためのブラックボックスAPIの2つの仮定でモデル反転攻撃を解析する。 一方、既存の研究の限界は、より実践的な設定を選択することで解決される。 個人再識別における最先端モデルの実験を行い,2つの攻撃シナリオ(補助属性の認識とユーザデータの再構築)について検討した。 その結果、敵は厳しい制約下でも敏感な情報を推測することに成功した。 一方、特に本番環境での機械学習モデルでは、特徴ベクトルを暗号化することが推奨される。 AESのような従来の暗号化手法の代替として、ShuffleBitsと呼ばれるシンプルだが効果的な方法が提示される。 具体的には、各浮動小数点数のバイナリシーケンスがシャッフルされる。 ワンタイムパッドスキームを使用してデプロイされ、任意のニューラルネットワークに適用可能なプラグイン・アンド・プレイモジュールとして機能し、結果として生成されたモデルは暗号化形式で深い機能を直接出力する。 ソースコードはhttps://github.com/n ixingyang/shufflebit sで公開されている。

In this study, we analyze model inversion attacks with only two assumptions: feature vectors of user data are known, and a black-box API for inference is provided. On the one hand, limitations of existing studies are addressed by opting for a more practical setting. Experiments have been conducted on state-of-the-art models in person re-identification, and two attack scenarios (i.e., recognizing auxiliary attributes and reconstructing user data) are investigated. Results show that an adversary could successfully infer sensitive information even under severe constraints. On the other hand, it is advisable to encrypt feature vectors, especially for a machine learning model in production. As an alternative to traditional encryption methods such as AES, a simple yet effective method termed ShuffleBits is presented. More specifically, the binary sequence of each floating-point number gets shuffled. Deployed using the one-time pad scheme, it serves as a plug-and-play module that is applicable to any neural network, and the resulting model directly outputs deep features in encrypted form. Source code is publicly available at https://github.com/n ixingyang/ShuffleBit s.
翻訳日:2021-08-17 14:58:43 公開日:2021-08-16
# MSR-GCN:人間の動き予測のためのマルチスケール残差グラフ畳み込みネットワーク

MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human Motion Prediction ( http://arxiv.org/abs/2108.07152v1 )

ライセンス: Link先を確認
Lingwei Dang, Yongwei Nie, Chengjiang Long, Qing Zhang, Guiqing Li(参考訳) 人間の動き予測は、将来のポーズの確率性と周期性のために難しい課題である。 近年,グラフ畳み込みネットワークはポーズ関節間の動的関係を学習するのに非常に有効であることが証明されている。 一方、人間のポーズを再帰的に抽象化し、複数のスケールで一連のポーズを得ることができる。 抽象レベルが向上するにつれて、ポーズの動きがより安定し、それによって予測も得られる。 本稿では,人間のポーズ予測タスクをエンドツーエンドで行うためのマルチスケール残留グラフ畳み込みネットワーク(MSR-GCN)を提案する。 GCNは細粒度から粗粒度、粗粒度から粗粒度までの特徴を抽出するために用いられる。 各スケールで抽出された特徴を結合してデコードし、入力とターゲットポーズの間の残差を取得する。 中間的な監視は予測されたすべてのポーズに課され、ネットワークはより代表的な機能を学ぶように強制される。 提案手法は、Human3.6MデータセットとCMU Mocapデータセットの2つの標準ベンチマークデータセットで評価される。 実験の結果,本手法は最先端手法よりも優れていた。 コードと事前訓練されたモデルはhttps://github.com/D roliven/MSRGCN.comで入手できる。

Human motion prediction is a challenging task due to the stochasticity and aperiodicity of future poses. Recently, graph convolutional network has been proven to be very effective to learn dynamic relations among pose joints, which is helpful for pose prediction. On the other hand, one can abstract a human pose recursively to obtain a set of poses at multiple scales. With the increase of the abstraction level, the motion of the pose becomes more stable, which benefits pose prediction too. In this paper, we propose a novel Multi-Scale Residual Graph Convolution Network (MSR-GCN) for human pose prediction task in the manner of end-to-end. The GCNs are used to extract features from fine to coarse scale and then from coarse to fine scale. The extracted features at each scale are then combined and decoded to obtain the residuals between the input and target poses. Intermediate supervisions are imposed on all the predicted poses, which enforces the network to learn more representative features. Our proposed approach is evaluated on two standard benchmark datasets, i.e., the Human3.6M dataset and the CMU Mocap dataset. Experimental results demonstrate that our method outperforms the state-of-the-art approaches. Code and pre-trained models are available at https://github.com/D roliven/MSRGCN.
翻訳日:2021-08-17 14:58:29 公開日:2021-08-16
# ハード3次元ポーズ推定のための学習骨格グラフニューラルネットワーク

Learning Skeletal Graph Neural Networks for Hard 3D Pose Estimation ( http://arxiv.org/abs/2108.07181v1 )

ライセンス: Link先を確認
Ailing Zeng, Xiao Sun, Lei Yang, Nanxuan Zhao, Minhao Liu, Qiang Xu(参考訳) 単視点2次元から3次元のポーズ推定問題を解くために,様々なディープラーニング技術が提案されている。 平均予測精度は長年にわたって大幅に改善されてきたが、深度あいまいさ、自己閉塞性、複雑または稀なポーズなどのハードポーズのパフォーマンスは、まだ十分ではない。 本研究では,これらの難解なポーズを対象とし,新しい骨格型GNN学習ソリューションを提案する。 具体的には,gnn学習における望ましくないノイズを抑制しつつ,隣接ノードから関連情報を効果的に抽出するホップアウェア階層型チャネルスキーズ融合層を提案する。 さらに, 3次元ポーズ推定にロバストで効果的な時間対応動的グラフ構築手法を提案する。 Human3.6Mデータセットによる実験結果から,提案手法は平均予測精度10.3倍の精度向上を実現し,最先端技術によるハードポーズを大幅に改善することが示された。 さらに,提案手法を骨格に基づく動作認識タスクに適用し,最先端性能を実現する。 私たちのコードはhttps://github.com/a ilingzengzzz/Skeleta l-GNNで公開されています。

Various deep learning techniques have been proposed to solve the single-view 2D-to-3D pose estimation problem. While the average prediction accuracy has been improved significantly over the years, the performance on hard poses with depth ambiguity, self-occlusion, and complex or rare poses is still far from satisfactory. In this work, we target these hard poses and present a novel skeletal GNN learning solution. To be specific, we propose a hop-aware hierarchical channel-squeezing fusion layer to effectively extract relevant information from neighboring nodes while suppressing undesired noises in GNN learning. In addition, we propose a temporal-aware dynamic graph construction procedure that is robust and effective for 3D pose estimation. Experimental results on the Human3.6M dataset show that our solution achieves 10.3\% average prediction accuracy improvement and greatly improves on hard poses over state-of-the-art techniques. We further apply the proposed technique on the skeleton-based action recognition task and also achieve state-of-the-art performance. Our code is available at https://github.com/a ilingzengzzz/Skeleta l-GNN.
翻訳日:2021-08-17 14:58:11 公開日:2021-08-16
# 複雑な映像シーンのためのリアルタイム人間中心セグメンテーション

Real-time Human-Centric Segmentation for Complex Video Scenes ( http://arxiv.org/abs/2108.07199v1 )

ライセンス: Link先を確認
Ran Yu, Chenyu Tian, Weihao Xia, Xinyuan Zhao, Haoqian Wang, Yujiu Yang(参考訳) 人間」に関連する既存のビデオタスクのほとんどは、ビデオ内の未特定の他のタスクを無視して、有能な人間のセグメンテーションに焦点を当てている。 複雑なビデオの中ですべての人間のセグメンテーションと追跡に焦点を当てた研究はほとんどなく、歩行者や他の州の人間(例えば、座ったり、乗ったり、閉じこもったりなど)が含まれる。 本稿では,hvisnet と略される新しいフレームワークを提案する。このフレームワークは,1段階検出器に基づくビデオに提示されたすべての人物をセグメント化し,追跡するものである。 複雑なシーンをより良く評価するために、我々はhvis(human video instance segmentation)と呼ばれる新しいベンチマークを提供している。 広汎な実験により,提案したHVISNetは,特に複雑な映像シーンにおいて,リアルタイム推論速度(30FPS)の精度で最先端の手法よりも優れていた。 また,各個体の識別にバウンディングボックスの中央を用いると,特に密閉条件下では,セグメンテーション精度が著しく低下することがわかった。 この一般的な現象はあいまいな正のサンプル問題と呼ばれる。 この問題を軽減するために,インナーセンターサンプリングという機構を提案し,インスタンス分割の精度を向上させる。 このようなプラグアンドプレイインナーセンターサンプリング機構は、一段検出器に基づく任意のインスタンスセグメンテーションモデルに組み込んで性能を向上させることができる。 特に、閉塞されたヒトの場合、最先端の手法では4.1mAPの改善がある。 コードとデータはhttps://github.com/i igroup/hvisnetで入手できる。

Most existing video tasks related to "human" focus on the segmentation of salient humans, ignoring the unspecified others in the video. Few studies have focused on segmenting and tracking all humans in a complex video, including pedestrians and humans of other states (e.g., seated, riding, or occluded). In this paper, we propose a novel framework, abbreviated as HVISNet, that segments and tracks all presented people in given videos based on a one-stage detector. To better evaluate complex scenes, we offer a new benchmark called HVIS (Human Video Instance Segmentation), which comprises 1447 human instance masks in 805 high-resolution videos in diverse scenes. Extensive experiments show that our proposed HVISNet outperforms the state-of-the-art methods in terms of accuracy at a real-time inference speed (30 FPS), especially on complex video scenes. We also notice that using the center of the bounding box to distinguish different individuals severely deteriorates the segmentation accuracy, especially in heavily occluded conditions. This common phenomenon is referred to as the ambiguous positive samples problem. To alleviate this problem, we propose a mechanism named Inner Center Sampling to improve the accuracy of instance segmentation. Such a plug-and-play inner center sampling mechanism can be incorporated in any instance segmentation models based on a one-stage detector to improve the performance. In particular, it gains 4.1 mAP improvement on the state-of-the-art method in the case of occluded humans. Code and data are available at https://github.com/I IGROUP/HVISNet.
翻訳日:2021-08-17 14:57:53 公開日:2021-08-16
# カメラポッド回帰におけるCNN手法の限界の再評価

Reassessing the Limitations of CNN Methods for Camera Pose Regression ( http://arxiv.org/abs/2108.07260v1 )

ライセンス: Link先を確認
Tony Ng, Adrian Lopez-Rodriguez, Vassileios Balntas, Krystian Mikolajczyk(参考訳) 本稿では,屋外及び屋内シナリオにおけるカメラポーズ推定の問題に対処する。 2Dから3Dのマッチングを頼りにしている現在トップパフォーマンスの手法と比較して,同クラスの既存手法よりもはるかに高い精度で画像からカメラポーズを直接回帰できるモデルを提案する。 まず、回帰メソッドが最先端にある理由を分析し、新しいアプローチでパフォーマンスギャップを橋渡しします。 具体的には,新しいトレーニングビューを合成するためのトレーニングセットから確率分布に導かれたポーズを生成する新しいトレーニング手法により,バイアス付きトレーニングデータを克服する方法を提案する。 最後に,本手法を2つのベンチマークで評価し,従来の回帰型手法,検索手法,局所的特徴マッチングを用いた3dパイプラインと比較して,性能が大幅に向上したことを示す。

In this paper, we address the problem of camera pose estimation in outdoor and indoor scenarios. In comparison to the currently top-performing methods that rely on 2D to 3D matching, we propose a model that can directly regress the camera pose from images with significantly higher accuracy than existing methods of the same class. We first analyse why regression methods are still behind the state-of-the-art, and we bridge the performance gap with our new approach. Specifically, we propose a way to overcome the biased training data by a novel training technique, which generates poses guided by a probability distribution from the training set for synthesising new training views. Lastly, we evaluate our approach on two widely used benchmarks and show that it achieves significantly improved performance compared to prior regression-based methods, retrieval techniques as well as 3D pipelines with local feature matching.
翻訳日:2021-08-17 14:57:21 公開日:2021-08-16
# ガウス過程を用いた局所解釈可能なモデル非依存的説明

Locally Interpretable Model Agnostic Explanations using Gaussian Processes ( http://arxiv.org/abs/2108.06907v1 )

ライセンス: Link先を確認
Aditya Saini, Ranjitha Prasad(参考訳) データ集約型ドメインの大幅なパフォーマンス向上により、機械学習(ML)は研究コミュニティに大きな関心を集めている。 しかし、これらのMLモデルはブラックボックスであることが判明し、解釈が難しいため、生産性は直接的に低下する。 LIME(Local Interpretable Model-Agnostic Explanations)は、単一インスタンスの予測を説明する一般的なテクニックである。 LIMEは単純で多用途であるが、生成された説明の不安定さに悩まされている。 本稿では,局所的解釈可能なモデルのガウス過程(GP)に基づくバリエーションを提案する。 我々はベイズ最適化における獲得関数に基づくスマートサンプリング戦略を採用する。 さらに,各特徴に対して異なる長大パラメータを持つGPにおける自己相関決定に基づく共分散関数を用いて,長大パラメータの相反が特徴説明として機能する。 2つの実世界のデータセットにおける提案手法の性能を示し,提案手法の安定性を実証する。 さらに,提案手法は,LIMEに比べてはるかに少ないサンプルを用いて忠実な説明を生成可能であることを示す。

Owing to tremendous performance improvements in data-intensive domains, machine learning (ML) has garnered immense interest in the research community. However, these ML models turn out to be black boxes, which are tough to interpret, resulting in a direct decrease in productivity. Local Interpretable Model-Agnostic Explanations (LIME) is a popular technique for explaining the prediction of a single instance. Although LIME is simple and versatile, it suffers from instability in the generated explanations. In this paper, we propose a Gaussian Process (GP) based variation of locally interpretable models. We employ a smart sampling strategy based on the acquisition functions in Bayesian optimization. Further, we employ the automatic relevance determination based covariance function in GP, with separate length-scale parameters for each feature, where the reciprocal of lengthscale parameters serve as feature explanations. We illustrate the performance of the proposed technique on two real-world datasets, and demonstrate the superior stability of the proposed technique. Furthermore, we demonstrate that the proposed technique is able to generate faithful explanations using much fewer samples as compared to LIME.
翻訳日:2021-08-17 14:53:48 公開日:2021-08-16
# 一般ゲームにおける準最適no-regret学習

Near-Optimal No-Regret Learning in General Games ( http://arxiv.org/abs/2108.06924v1 )

ライセンス: Link先を確認
Constantinos Daskalakis, Maxwell Fishelson, Noah Golowich(参考訳) 回帰バイアスを伴う乗法重み更新の共通変種であるOptimistic Hedgeは、マルチプレイヤーの一般サムゲームにおいて、${\rm poly}(\log T)$ regretとなることを示す。 特に、ゲーム中のすべてのプレイヤーが楽観的なヘッジを使用して、これまでのプレイの歴史に応じて戦略を反復的に更新し、t$のインタラクションの後、各プレイヤーは${\rm poly}(\log t)$という完全な後悔を経験する。 我々の限界は指数関数的に改善され、ゲームにおける標準の非回帰学習者によって達成可能な$O({T}^{1/2})$後悔、非回帰学習者によって達成可能な$O(T^{1/4})$後悔(Syrgkanis et al., 2015)、そして最近2プレイヤーゲーム(Chen & Pen, 2020)においてOptimistic Hedge(英語版)のために最近示された${O}(T^{1/6})$後悔が達成される。 我々の境界の系は、最適化的ヘッジが一般ゲームにおける粗相関平衡に$\tilde{O}\left(\frac 1T\right)$で収束するということである。

We show that Optimistic Hedge -- a common variant of multiplicative-weigh ts-updates with recency bias -- attains ${\rm poly}(\log T)$ regret in multi-player general-sum games. In particular, when every player of the game uses Optimistic Hedge to iteratively update her strategy in response to the history of play so far, then after $T$ rounds of interaction, each player experiences total regret that is ${\rm poly}(\log T)$. Our bound improves, exponentially, the $O({T}^{1/2})$ regret attainable by standard no-regret learners in games, the $O(T^{1/4})$ regret attainable by no-regret learners with recency bias (Syrgkanis et al., 2015), and the ${O}(T^{1/6})$ bound that was recently shown for Optimistic Hedge in the special case of two-player games (Chen & Pen, 2020). A corollary of our bound is that Optimistic Hedge converges to coarse correlated equilibrium in general games at a rate of $\tilde{O}\left(\frac 1T\right)$.
翻訳日:2021-08-17 14:53:34 公開日:2021-08-16
# 拡散写像に基づく多様体上の勾配計算とその応用

A diffusion-map-based algorithm for gradient computation on manifolds and applications ( http://arxiv.org/abs/2108.06988v1 )

ライセンス: Link先を確認
Alvaro Almeida Gomez, Ant\^onio J. Silva Neto, Jorge P. Zubelli(参考訳) 多様体内の点における関数評価の(正規分布)ランダムなサンプルに基づいて、ユークリッド空間の境界を持つ部分多様体の内部点に定義された与えられた関数の勾配を復元する。 このアプローチは拡散写像の理論で提案されたラプラス・ベルトラミ作用素の推定に基づいている。 得られた展開の解析収束結果が証明され、ユークリッド部分多様体上で定義される非凸最適化問題に対処する効率的なアルゴリズムが提案される。 Cryogenic electron microscopy (Cryo-EM) において, 後処理ツールとしての方法論を検証する。 また,本手法を古典球充填問題に適用する。

We recover the gradient of a given function defined on interior points of a submanifold with boundary of the Euclidean space based on a (normally distributed) random sample of function evaluations at points in the manifold. This approach is based on the estimates of the Laplace-Beltrami operator proposed in the theory of Diffusion-Maps. Analytical convergence results of the resulting expansion are proved, and an efficient algorithm is proposed to deal with non-convex optimization problems defined on Euclidean submanifolds. We test and validate our methodology as a post-processing tool in Cryogenic electron microscopy (Cryo-EM). We also apply the method to the classical sphere packing problem.
翻訳日:2021-08-17 14:53:06 公開日:2021-08-16
# 暗黙的Q値を持つ暗黙的正規化RL

Implicitly Regularized RL with Implicit Q-Values ( http://arxiv.org/abs/2108.07041v1 )

ライセンス: Link先を確認
Nino Vieillard, Marcin Andrychowicz, Anton Raichuk, Olivier Pietquin, Matthieu Geist(参考訳) Q$関数は、多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレードポリシー w.r.t に従って振る舞う。 は$Q$。 これは、ポリシーを明示的にモデル化することなく、環境のモデルなしでアクションの選択を可能にする強力なツールである。 しかし、このスキームは、ソフトマックスを正確に計算できないため、少数のアクションを持つ離散的なアクションタスクでのみ使用できる。 特に、現代のアクター-批判的アーキテクチャにおける連続的なアクション空間を扱うために関数近似を使うことは、本質的にソフトマックスの正確な計算を妨げている。 対数政治と値関数の和として$Q$-関数を暗黙的にパラメータ化することでこの問題を軽減することを提案する。 結果として得られるパラメトリゼーションは、大きなアクション空間に適した実用的なオフポリシー深層rlアルゴリズムを導出し、ポリシーと$q$-valueの間のソフトマックス関係を強制する。 近似動的プログラミングの観点からは、値反復の正規化版と等価性を示し、エントロピーとkullback-leiblerの正規化の両方を考慮し、有益な誤差伝播結果を享受する。 次に,従来の制御課題におけるアルゴリズムの評価を行い,その結果が最先端の手法と競合することを示す。

The $Q$-function is a central quantity in many Reinforcement Learning (RL) algorithms for which RL agents behave following a (soft)-greedy policy w.r.t. to $Q$. It is a powerful tool that allows action selection without a model of the environment and even without explicitly modeling the policy. Yet, this scheme can only be used in discrete action tasks, with small numbers of actions, as the softmax cannot be computed exactly otherwise. Especially the usage of function approximation, to deal with continuous action spaces in modern actor-critic architectures, intrinsically prevents the exact computation of a softmax. We propose to alleviate this issue by parametrizing the $Q$-function implicitly, as the sum of a log-policy and of a value function. We use the resulting parametrization to derive a practical off-policy deep RL algorithm, suitable for large action spaces, and that enforces the softmax relation between the policy and the $Q$-value. We provide a theoretical analysis of our algorithm: from an Approximate Dynamic Programming perspective, we show its equivalence to a regularized version of value iteration, accounting for both entropy and Kullback-Leibler regularization, and that enjoys beneficial error propagation results. We then evaluate our algorithm on classic control tasks, where its results compete with state-of-the-art methods.
翻訳日:2021-08-17 14:52:57 公開日:2021-08-16
# WiseR:因果グラフモデルのためのエンドツーエンド構造学習とデプロイメントフレームワーク

WiseR: An end-to-end structure learning and deployment framework for causal graphical models ( http://arxiv.org/abs/2108.07046v1 )

ライセンス: Link先を確認
Shubham Maheshwari, Khushbu Pahwa, Tavpritesh Sethi(参考訳) 構造学習は、複雑な生物学的データの因果的および機械的モデリングに対する表現的で多目的で説明可能なアプローチを提供する。 我々は,グラフニューラルネットワークとベイズネットワークを用いた堅牢な因果グラフモデルを学習,評価,展開するためのオープンソースアプリケーションwiseRを提案する。 新型コロナウイルスの臨床データセットにおけるバイオマーカー発見への応用を通じて,本アプリケーションの有用性を実証する。

Structure learning offers an expressive, versatile and explainable approach to causal and mechanistic modeling of complex biological data. We present wiseR, an open source application for learning, evaluating and deploying robust causal graphical models using graph neural networks and Bayesian networks. We demonstrate the utility of this application through application on for biomarker discovery in a COVID-19 clinical dataset.
翻訳日:2021-08-17 14:52:32 公開日:2021-08-16
# 機械学習による脆弱電力網の故障検出と解釈

Detecting and interpreting faults in vulnerable power grids with machine learning ( http://arxiv.org/abs/2108.07060v1 )

ライセンス: Link先を確認
Odin Foldvik Eikeland, Inga Sets{\aa} Holmstrand, Sigurd Bakkejord, Matteo Chiesa, Filippo Maria Bianchi(参考訳) 予定外の停電は、顧客とグリッドオペレーターの両方に深刻な影響をもたらす。 このような事態に対処するためには、配電ネットワークにおける割り込みの原因を特定する必要がある。 本研究は,北極圏のノルウェー人コミュニティの電力網に焦点をあて,その原因が不明ないくつかの障害を経験する。 まず,関連する気象データと,電力品質計が記録した現在の電力品質に関する情報からなるデータセットを構築する。 次に,障害発生を予測するために機械学習手法を採用する。 実験の結果,線形および非線形の分類器の分類性能は良好であった。 このことは、電力品質と気象変数が電力乱れをうまく説明していることを示している。 分類器の決定過程を解釈することは、障害の主な原因を理解するための貴重な洞察を与える。 従来の機能選択メソッドは、平均的に、データセットの障害発生を主に説明する変数のみを示すことができる。 このようなグローバルな解釈を提供するだけでなく、個々の障害を説明する変数の特定のセットを特定することも重要である。 この課題に対処するために,我々は最近,統合勾配と呼ばれる深層学習モデルの意思決定過程を解釈する手法を採用した。 提案手法は,配電系統の運用者が停電を防止・緩和するための戦略を実装する上で有用な,特定の障害の発生に関する詳細な洞察を得ることを可能にする。

Unscheduled power disturbances cause severe consequences both for customers and grid operators. To defend against such events, it is necessary to identify the causes of interruptions in the power distribution network. In this work, we focus on the power grid of a Norwegian community in the Arctic that experiences several faults whose sources are unknown. First, we construct a data set consisting of relevant meteorological data and information about the current power quality logged by power-quality meters. Then, we adopt machine-learning techniques to predict the occurrence of faults. Experimental results show that both linear and non-linear classifiers achieve good classification performance. This indicates that the considered power-quality and weather variables explain well the power disturbances. Interpreting the decision process of the classifiers provides valuable insights to understand the main causes of disturbances. Traditional features selection methods can only indicate which are the variables that, on average, mostly explain the fault occurrences in the dataset. Besides providing such a global interpretation, it is also important to identify the specific set of variables that explain each individual fault. To address this challenge, we adopt a recent technique to interpret the decision process of a deep learning model, called Integrated Gradients. The proposed approach allows to gain detailed insights on the occurrence of a specific fault, which are valuable for the distribution system operators to implement strategies to prevent and mitigate power disturbances.
翻訳日:2021-08-17 14:52:26 公開日:2021-08-16
# 部分観察による神経予測モニタリング

Neural Predictive Monitoring under Partial Observabilit ( http://arxiv.org/abs/2108.07134v1 )

ライセンス: Link先を確認
Francesca Cairoli, Luca Bortolussi, Nicola Paoletti(参考訳) 我々は、予測監視(pm)の問題、すなわち、現在の状態からシステムの実行時に将来の違反を予測する問題を考える。 私たちは、実行時に状態の部分的かつ騒がしい観察しかできない、最も現実的な設定の下で動作します。 このような設定は、到達可能性予測の精度と信頼性に直接影響を与え、システムの安全性を損なう。 本研究では,部分可観測性 (po) に拘わらず,正確で信頼性の高い到達可能性予測を行うpmの学習ベース手法を提案する。 我々は,ハイブリッドシステムの到達可能性に近似するディープニューラルネットワークを用いたpm手法であるneural prediction monitoring(npm)を構築し,それをpoケースに拡張する。 本稿では、粗い観測を直接操作するエンドツーエンドアプローチと、中間状態推定ステップを導入する2段階アプローチの2つのソリューションを提案し、比較する。 いずれのソリューションも,1)予測領域の形式における確率的保証,2)予測の不確実性の音速推定を共形予測に頼っている。 後者を用いて、信頼できない(そしておそらく誤った)予測を特定し、不確実な入力(アクティブラーニング)のモニターを再訓練し改善する。 提案手法は,精度の高い到達可能性予測と誤差検出,カバレッジ保証のある厳密な予測領域を実現する。

We consider the problem of predictive monitoring (PM), i.e., predicting at runtime future violations of a system from the current state. We work under the most realistic settings where only partial and noisy observations of the state are available at runtime. Such settings directly affect the accuracy and reliability of the reachability predictions, jeopardizing the safety of the system. In this work, we present a learning-based method for PM that produces accurate and reliable reachability predictions despite partial observability (PO). We build on Neural Predictive Monitoring (NPM), a PM method that uses deep neural networks for approximating hybrid systems reachability, and extend it to the PO case. We propose and compare two solutions, an end-to-end approach, which directly operates on the rough observations, and a two-step approach, which introduces an intermediate state estimation step. Both solutions rely on conformal prediction to provide 1) probabilistic guarantees in the form of prediction regions and 2) sound estimates of predictive uncertainty. We use the latter to identify unreliable (and likely erroneous) predictions and to retrain and improve the monitors on these uncertain inputs (i.e., active learning). Our method results in highly accurate reachability predictions and error detection, as well as tight prediction regions with guaranteed coverage.
翻訳日:2021-08-17 14:52:09 公開日:2021-08-16
# 物理学インフォームドニューラルネットワークによる弾性の双調和方程式の解と同定

A Physics Informed Neural Network Approach to Solution and Identification of Biharmonic Equations of Elasticity ( http://arxiv.org/abs/2108.07243v1 )

ライセンス: Link先を確認
Mohammad Vahab and Ehsan Haghighat and Maryam Khaleghi and Nasser Khalili(参考訳) 本研究では,エアリー応力関数とフーリエ級数との併用による物理情報ニューラルネットワーク(PINN)の適用について検討し,弾性および弾性板理論の参照バイハーモニック問題に対する最適解を求める。 バイハーモニックな関係は古典的な数値法で解くのが難しい4階偏微分方程式(PDE)であり、PINNでは対処されていない。 本研究は、非常に正確で評価が速いパラメータを最小に含む効率的なニューラルネットワークの構築を導く、古典的解析手法の新たな応用を強調する。 特に,Airy ストレス関数を用いた特徴空間の強化は,バイハーモニック PDE に対するPINN ソリューションの精度を大幅に向上させることができる。

We explore an application of the Physics Informed Neural Networks (PINNs) in conjunction with Airy stress functions and Fourier series to find optimal solutions to a few reference biharmonic problems of elasticity and elastic plate theory. Biharmonic relations are fourth-order partial differential equations (PDEs) that are challenging to solve using classical numerical methods, and have not been addressed using PINNs. Our work highlights a novel application of classical analytical methods to guide the construction of efficient neural networks with the minimal number of parameters that are very accurate and fast to evaluate. In particular, we find that enriching feature space using Airy stress functions can significantly improve the accuracy of PINN solutions for biharmonic PDEs.
翻訳日:2021-08-17 14:51:47 公開日:2021-08-16
# 有向ネットワークのためのロバスト階層クラスタリング:公理的アプローチ

Robust Hierarchical Clustering for Directed Networks: An Axiomatic Approach ( http://arxiv.org/abs/2108.07247v1 )

ライセンス: Link先を確認
Gunnar Carlsson, Facundo M\'emoli, Santiago Segarra(参考訳) 本稿では,木質的アプローチによる有向ネットワークに対する頑健な階層的クラスタリング手法の完全な分類学的特徴について述べる。 まず,階層クラスタリングにおけるロバスト性の概念,すなわち線形スケール保存,安定性,排他性の3つの実用的性質を紹介する。 線形スケール保存は、測定単位の変更を強制する一方、安定性は、入力ネットワークにおける有界摂動がクラスタリング出力における有界摂動を含むことを保証する。 興奮性(exisiveness)は、クラスタリング結果の局所的な一貫性を指す。 アルゴリズム的には、抽出性はデータのサブセットのみをクラスタリングすることで計算の複雑さを低減し、理論的にはデータセット全体をクラスタリングする際に同じ階層的結果が観測されることを保証できることを意味する。 これら3つの特性と並行して,ネットワークの集合上での動作の仕様を通じてクラスタリング手法を記述するための生成モデルである表現可能性の概念を導入する。 我々の主な成果は、この生成モデルを利用して、有向ネットワークに対する全てのロバスト -- 排他的、線形スケール保存および安定 -- 階層的クラスタリング手法の正確な特徴を与えることである。 また,本手法の実装に対処し,実データへのアプリケーション記述を行う。

We provide a complete taxonomic characterization of robust hierarchical clustering methods for directed networks following an axiomatic approach. We begin by introducing three practical properties associated with the notion of robustness in hierarchical clustering: linear scale preservation, stability, and excisiveness. Linear scale preservation enforces imperviousness to change in units of measure whereas stability ensures that a bounded perturbation in the input network entails a bounded perturbation in the clustering output. Excisiveness refers to the local consistency of the clustering outcome. Algorithmically, excisiveness implies that we can reduce computational complexity by only clustering a subset of our data while theoretically guaranteeing that the same hierarchical outcome would be observed when clustering the whole dataset. In parallel to these three properties, we introduce the concept of representability, a generative model for describing clustering methods through the specification of their action on a collection of networks. Our main result is to leverage this generative model to give a precise characterization of all robust -- i.e., excisive, linear scale preserving, and stable -- hierarchical clustering methods for directed networks. We also address the implementation of our methods and describe an application to real data.
翻訳日:2021-08-17 14:51:32 公開日:2021-08-16
# エンド・ツー・エンド適応モンテカルロ分極と超解像

End-to-End Adaptive Monte Carlo Denoising and Super-Resolution ( http://arxiv.org/abs/2108.06915v1 )

ライセンス: Link先を確認
Xinyue Wei, Haozhi Huang, Yujin Shi, Hongliang Yuan, Li Shen, Jue Wang(参考訳) 古典的なモンテカルロパストレースは、高い計算コストで高品質のレンダリングを実現することができる。 最近の研究は、このプロセスを加速するためにディープニューラルネットワークを使用しており、後処理において超高解像度またはデノイングニューラルネットワークを用いて、低解像度または少ないサンプルレンダリングを改善する。 しかし、デノイジングとスーパーレゾリューションは以前の作品では別々に検討されてきた。 本研究では,モンテカルロの経路追跡を,srd(joint super- resolution and denoising)によりさらに促進できることを示す。 この新しいタイプのジョイントフィルタリングは、低解像度で少ないサンプル(ノイズの多い)画像をパストレーシングによってレンダリングし、ディープニューラルネットワークに供給することで、高分解能でクリーンな画像を生成することができる。 この作業の主な貢献は、SRDタスク用に特別に設計された、新しいエンドツーエンドのネットワークアーキテクチャである。 共有コンポーネントを持つ2つのカスケードステージを含む。 変形可能な畳み込みをネットワーク設計に導入する上で重要な洞察となる、非常に異なる受容場を必要とすることを発見した。 実験の結果,提案手法は従来の手法とSRDタスクで適用されたバリエーションよりも優れていた。

The classic Monte Carlo path tracing can achieve high quality rendering at the cost of heavy computation. Recent works make use of deep neural networks to accelerate this process, by improving either low-resolution or fewer-sample rendering with super-resolution or denoising neural networks in post-processing. However, denoising and super-resolution have only been considered separately in previous work. We show in this work that Monte Carlo path tracing can be further accelerated by joint super-resolution and denoising (SRD) in post-processing. This new type of joint filtering allows only a low-resolution and fewer-sample (thus noisy) image to be rendered by path tracing, which is then fed into a deep neural network to produce a high-resolution and clean image. The main contribution of this work is a new end-to-end network architecture, specifically designed for the SRD task. It contains two cascaded stages with shared components. We discover that denoising and super-resolution require very different receptive fields, a key insight that leads to the introduction of deformable convolution into the network design. Extensive experiments show that the proposed method outperforms previous methods and their variants adopted for the SRD task.
翻訳日:2021-08-17 14:48:13 公開日:2021-08-16
# 転がりシャッターカメラの連続時間時空間校正--IMUシステム

Continuous-Time Spatiotemporal Calibration of a Rolling Shutter Camera---IMU System ( http://arxiv.org/abs/2108.07200v1 )

ライセンス: Link先を確認
Jianzhu Huai, Yuan Zhuang, Qicheng Yuan, Yukai Lin(参考訳) ローリングシャッター(RS)機構は、スマートフォンや自動運転車に不可欠な、コンシューマグレードのカメラで広く利用されている。 RS効果は、カメラとシーンの間の相対的な動きに画像の歪みをもたらす。 この効果はビデオの安定化、運動による構造、視覚支援オドメトリにおいて考慮され、rs効果を考慮し、最近の研究により初期のグローバルシャッター(gs)法が改善されている。 しかし、rsがセンサアセンブリにおけるカメラの時空間的キャリブレーションにどのように影響するかはまだ不明であり、上述のアプリケーションでの性能向上に不可欠である。 この研究は、カメラ-IMUシステムを例に挙げ、時空間キャリブレーションにおけるRS効果を考察する。 この目的を達成するために,キャリブレーションターゲットを用いて,連続時間Bスプラインを有するRSカメラIMUシステムのキャリブレーション手法を開発した。 gsカメラのキャリブレーションとは異なり、ターゲットのランドマークの全ての観察は、連続的なbスプラインが取り付けられたユニークなカメラのポーズを持つ。 4セットの公衆キャリブレーションデータから生成されたシミュレーションデータから,rsは外部パラメータに顕著に影響を与え,スマートフォンカメラのように約1$^\circ$,約2$cm$の誤差を生じさせることが示された。 2つの産業用カメラ-IMUシステムによって収集された実データにより、RS効果を考慮すると、より正確で一貫した時空間キャリブレーションが得られることがわかった。 さらに,本手法は,RSのライン間遅延を正確に校正する。 シミュレーションと校正のコードは公開されている。

The rolling shutter (RS) mechanism is widely used by consumer-grade cameras, which are essential parts in smartphones and autonomous vehicles. The RS effect leads to image distortion upon relative motion between a camera and the scene. This effect needs to be considered in video stabilization, structure from motion, and vision-aided odometry, for which recent studies have improved earlier global shutter (GS) methods by accounting for the RS effect. However, it is still unclear how the RS affects spatiotemporal calibration of the camera in a sensor assembly, which is crucial to good performance in aforementioned applications. This work takes the camera-IMU system as an example and looks into the RS effect on its spatiotemporal calibration. To this end, we develop a calibration method for a RS-camera-IMU system with continuous-time B-splines by using a calibration target. Unlike in calibrating GS cameras, every observation of a landmark on the target has a unique camera pose fitted by continuous-time B-splines. With simulated data generated from four sets of public calibration data, we show that RS can noticeably affect the extrinsic parameters, causing errors about 1$^\circ$ in orientation and 2 $cm$ in translation with a RS setting as in common smartphone cameras. With real data collected by two industrial camera-IMU systems, we find that considering the RS effect gives more accurate and consistent spatiotemporal calibration. Moreover, our method also accurately calibrates the inter-line delay of the RS. The code for simulation and calibration is publicly available.
翻訳日:2021-08-17 14:47:51 公開日:2021-08-16
# マルチエージェント強化学習による無線MACプロトコルの創発

The Emergence of Wireless MAC Protocols with Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.07144v1 )

ライセンス: Link先を確認
Mateus P. Mota, Alvaro Valcarce, Jean-Marie Gorce, Jakob Hoydis(参考訳) 本稿では,Multi-agent Deep Deterministic Policy gradient (MADDPG)アルゴリズムを利用して,基地局 (BS) とユーザ機器 (UE) がマルチアクセスシナリオでメディアアクセス制御 (MAC) プロトコルを作成できるようにする新しいフレームワークを提案する。 このフレームワークでは、BSとUEは強化学習(RL)エージェントであり、データを提供するために協力することを学ぶ必要がある。 ネットワークノードは、制御メッセージの意味に関する事前の合意なしに、制御メッセージを交換して、ネットワークを横断してデータを配信することができる。 このようなフレームワークでは、エージェントはチャネルアクセスポリシーだけでなく、シグナリングポリシーも学ばなければならない。 エージェント間のコラボレーションは、提案アルゴリズムとエージェント間のコミュニケーションが削除されたアブレーションバージョンを比較することによって重要であることが示されている。 競合のないベースラインと比較すると,我々のフレームワークは優れた性能を実現しており,新しいプロトコルを効果的に学習することができる。

In this paper, we propose a new framework, exploiting the multi-agent deep deterministic policy gradient (MADDPG) algorithm, to enable a base station (BS) and user equipment (UE) to come up with a medium access control (MAC) protocol in a multiple access scenario. In this framework, the BS and UEs are reinforcement learning (RL) agents that need to learn to cooperate in order to deliver data. The network nodes can exchange control messages to collaborate and deliver data across the network, but without any prior agreement on the meaning of the control messages. In such a framework, the agents have to learn not only the channel access policy, but also the signaling policy. The collaboration between agents is shown to be important, by comparing the proposed algorithm to ablated versions where either the communication between agents or the central critic is removed. The comparison with a contention-free baseline shows that our framework achieves a superior performance in terms of goodput and can effectively be used to learn a new protocol.
翻訳日:2021-08-17 14:47:10 公開日:2021-08-16
# IADA: 形式検証とエキスパートガイダンスを用いた反復的逆データ拡張

IADA: Iterative Adversarial Data Augmentation Using Formal Verification and Expert Guidance ( http://arxiv.org/abs/2108.06871v1 )

ライセンス: Link先を確認
Ruixuan Liu and Changliu Liu(参考訳) ニューラルネットワーク(NN)は、その顕著な性能の分類タスクに広く使われている。 しかし,nnsのロバスト性と精度はトレーニングデータに大きく依存する。 多くのアプリケーションでは、大量のトレーニングデータが通常は利用できない。 この課題に対処するため,本研究では,不十分なトレーニングデータからニューラルネットワークモデルを学習するための反復的逆データ拡張(IADA)フレームワークを提案する。 この手法は、正式な検証を用いて最も「紛らわしい」入力サンプルを識別し、人間のガイダンスを利用して、これらのサンプルを用いてトレーニングデータを安全かつ反復的に増強する。 提案するフレームワークは,人工2Dデータセット,MNISTデータセット,人間の動作データセットに適用される。 IADAを完全連結NN分類器に適用することにより、学習モデルの堅牢性と精度を向上させることができることを示す。 MNISTデータセットの通常の教師付きトレーニングと比較すると、平均摂動は107.4%改善した。 分類精度は、それぞれ2Dデータセットで1.77%、3.76%、10.85%、MNISTデータセットで10.85%向上した。

Neural networks (NNs) are widely used for classification tasks for their remarkable performance. However, the robustness and accuracy of NNs heavily depend on the training data. In many applications, massive training data is usually not available. To address the challenge, this paper proposes an iterative adversarial data augmentation (IADA) framework to learn neural network models from an insufficient amount of training data. The method uses formal verification to identify the most "confusing" input samples, and leverages human guidance to safely and iteratively augment the training data with these samples. The proposed framework is applied to an artificial 2D dataset, the MNIST dataset, and a human motion dataset. By applying IADA to fully-connected NN classifiers, we show that our training method can improve the robustness and accuracy of the learned model. By comparing to regular supervised training, on the MNIST dataset, the average perturbation bound improved 107.4%. The classification accuracy improved 1.77%, 3.76%, 10.85% on the 2D dataset, the MNIST dataset, and the human motion dataset respectively.
翻訳日:2021-08-17 14:45:55 公開日:2021-08-16
# 連合学習における新しい属性再構成攻撃

A Novel Attribute Reconstruction Attack in Federated Learning ( http://arxiv.org/abs/2108.06910v1 )

ライセンス: Link先を確認
Lingjuan Lyu, Chen Chen(参考訳) フェデレーテッド・ラーニング(FL)は、多数の参加者がプライベートトレーニングデータを公開することなく、共同MLモデルを構築するための、有望な学習パラダイムとして登場した。 既存のfl設計は、データプライバシを侵害するためにシステム内外の敵によって悪用される脆弱性を示すことが示されている。 しかし、現在のほとんどの研究は、FLでは実用的ではない少数のデータに対する勾配を利用して攻撃を行う。 本研究では,参加者が前回の作業のように,実例やバッチ平均勾配ではなく,エポック平均勾配(局所トレーニングの少なくとも1エポック後の勾配を共有する)を共有する,より実践的で興味深いシナリオを検討する。 FLシステムにおいて、悪意のあるサーバによって起動される属性再構成攻撃(ARA)の最初の系統的評価を行い、共有エポック平均局所モデル勾配が犠牲者の局所トレーニングデータの感度特性を明らかにすることを実証的に示す。 この目的を達成するために,cos-matchingと呼ばれるより効率的で効率的な勾配マッチング手法を開発し,トレーニングデータ属性を再構築する。 実世界のさまざまなデータセット、シナリオ、仮定に対する攻撃を評価します。 提案手法が既存のベースラインよりも優れた属性攻撃性能を実現することを示す。

Federated learning (FL) emerged as a promising learning paradigm to enable a multitude of participants to construct a joint ML model without exposing their private training data. Existing FL designs have been shown to exhibit vulnerabilities which can be exploited by adversaries both within and outside of the system to compromise data privacy. However, most current works conduct attacks by leveraging gradients on a small batch of data, which is less practical in FL. In this work, we consider a more practical and interesting scenario in which participants share their epoch-averaged gradients (share gradients after at least 1 epoch of local training) rather than per-example or small batch-averaged gradients as in previous works. We perform the first systematic evaluation of attribute reconstruction attack (ARA) launched by the malicious server in the FL system, and empirically demonstrate that the shared epoch-averaged local model gradients can reveal sensitive attributes of local training data of any victim participant. To achieve this goal, we develop a more effective and efficient gradient matching based method called cos-matching to reconstruct the training data attributes. We evaluate our attacks on a variety of real-world datasets, scenarios, assumptions. Our experiments show that our proposed method achieves better attribute attack performance than most existing baselines.
翻訳日:2021-08-17 14:45:38 公開日:2021-08-16
# flying guide dog: ドローンとトランスフォーマチックセグメンテーションを利用した視覚障害者の歩行可能な経路発見

Flying Guide Dog: Walkable Path Discovery for the Visually Impaired Utilizing Drones and Transformer-based Semantic Segmentation ( http://arxiv.org/abs/2108.07007v1 )

ライセンス: Link先を確認
Haobin Tan, Chang Chen, Xinyu Luo, Jiaming Zhang, Constantin Seibold, Kailun Yang and Rainer Stiefelhagen(参考訳) 視覚障害者(bvip)は、環境を効果的に感知する能力が欠如しており、特に都市部では屋外歩行が困難である。 したがって、BVIP支援ツールは非常に重要である。 本稿では,ドローンとストリートビューセマンティックセグメンテーションを用いたBVIP支援のための新しい"フライングガイドドッグ"プロトタイプを提案する。 セグメンテーション予測から抽出された歩行可能領域に基づいて、ドローンは自動的に動きを調整でき、ユーザーは歩行可能経路に沿って歩くことができる。 歩行者の交通信号の色を認識することで、プロトタイプはユーザーが安全に通りを横断するのに役立つ。 さらに,交通信号の認識を目的としたPedestrian and Vehicle Traffic Lights (PVTL) という新しいデータセットを導入する。 実世界のシナリオにおけるユーザ調査の結果,プロトタイプは効果的で使いやすいことを示し,bvip支援に関する新たな洞察を与えました。

Lacking the ability to sense ambient environments effectively, blind and visually impaired people (BVIP) face difficulty in walking outdoors, especially in urban areas. Therefore, tools for assisting BVIP are of great importance. In this paper, we propose a novel "flying guide dog" prototype for BVIP assistance using drone and street view semantic segmentation. Based on the walkable areas extracted from the segmentation prediction, the drone can adjust its movement automatically and thus lead the user to walk along the walkable path. By recognizing the color of pedestrian traffic lights, our prototype can help the user to cross a street safely. Furthermore, we introduce a new dataset named Pedestrian and Vehicle Traffic Lights (PVTL), which is dedicated to traffic light recognition. The result of our user study in real-world scenarios shows that our prototype is effective and easy to use, providing new insight into BVIP assistance.
翻訳日:2021-08-17 14:44:41 公開日:2021-08-16
# 多段階最適化によるフェデレーション学習の通信コスト削減

Reducing the Communication Cost of Federated Learning through Multistage Optimization ( http://arxiv.org/abs/2108.06869v1 )

ライセンス: Link先を確認
Charlie Hou, Kiran K. Thekumparampil, Giulia Fanti, Sewoong Oh(参考訳) 連合学習(federated learning, fl)の中心的な問題は、多くのクライアントに分散した異種データ上でモデルをトレーニングする通信コストを最小化する最適化アルゴリズムを設計する方法である。 通信を減らすための一般的なテクニックは、クライアントがサーバと通信する前にローカルデータを複数の最適化する(例えば、FedAvg、SCAFFOLD)というローカルステップを使うことである。 これは集中型の手法とは対照的で、クライアントは通信ラウンド毎に1ステップの最適化を行う(Minibatch SGDなど)。 近年の1次手法の通信複雑性の低下は、局所的な手法が純粋に均質なデータ(Woodworth et al., 2020)に対して最適であるのに対し、集中的な手法は高次データに対して最適であることを示している。 中間の異質性レベルでは、下限に一致するアルゴリズムは知られていない。 本稿では,全不均一レベルにおける下界にほぼ一致する多段階最適化手法を提案する。 まず、局所的なメソッドを不均一性によって引き起こされるエラーフロアまで実行し、次に残りのステップに対して集中的なメソッドに切り替える。 我々の分析は、FL[Charles et al., 2020; Reddi et al., 2020]で経験的に必要となる段階的崩壊法を説明するのに役立つかもしれない。 画像分類タスクにおけるスキームの実用性を実証する。

A central question in federated learning (FL) is how to design optimization algorithms that minimize the communication cost of training a model over heterogeneous data distributed across many clients. A popular technique for reducing communication is the use of local steps, where clients take multiple optimization steps over local data before communicating with the server (e.g., FedAvg, SCAFFOLD). This contrasts with centralized methods, where clients take one optimization step per communication round (e.g., Minibatch SGD). A recent lower bound on the communication complexity of first-order methods shows that centralized methods are optimal over highly-heterogeneous data, whereas local methods are optimal over purely homogeneous data [Woodworth et al., 2020]. For intermediate heterogeneity levels, no algorithm is known to match the lower bound. In this paper, we propose a multistage optimization scheme that nearly matches the lower bound across all heterogeneity levels. The idea is to first run a local method up to a heterogeneity-induce d error floor; next, we switch to a centralized method for the remaining steps. Our analysis may help explain empirically-successf ul stepsize decay methods in FL [Charles et al., 2020; Reddi et al., 2020]. We demonstrate the scheme's practical utility in image classification tasks.
翻訳日:2021-08-17 14:43:15 公開日:2021-08-16
# GC-TTS:幾何制約による話者適応

GC-TTS: Few-shot Speaker Adaptation with Geometric Constraints ( http://arxiv.org/abs/2108.06890v1 )

ライセンス: Link先を確認
Ji-Hoon Kim, Sang-Hoon Lee, Ji-Hyun Lee, Hong-Gyu Jung, and Seong-Whan Lee(参考訳) few-shot speaker adaptationはtts(text-to-speech)システムであり、少数の訓練データを用いて新しい話者の声を再現することを目的としている。 少数の話者適応システムでは、多くの試みがなされているが、データ量によっては、対象話者と話者の類似性に差がある。 このギャップを埋めるため, 話者類似性を大幅に改善した高品質な話者適応を実現するGC-TTSを提案する。 具体的には,2つの幾何学的制約を生かして識別話者表現を学習する。 ここで、ttsモデルは十分な量のデータを持つベーススピーカー向けに事前訓練され、それから2つの幾何学的制約のある数分のデータに基づいて、新しいスピーカー用に微調整される。 2つの幾何学的制約により、モデルは限られたデータから識別可能な話者埋め込みを抽出することができ、それが可知音声の合成につながる。 我々は,gc-ttsの有効性を,一般的な方法と本質的な方法と比較し,検証する。 実験の結果、gc-ttsは、わずか数分の訓練データから高品質な音声を生成できることが示され、対象話者との話者類似性の観点からの標準技術よりも優れていた。

Few-shot speaker adaptation is a specific Text-to-Speech (TTS) system that aims to reproduce a novel speaker's voice with a few training data. While numerous attempts have been made to the few-shot speaker adaptation system, there is still a gap in terms of speaker similarity to the target speaker depending on the amount of data. To bridge the gap, we propose GC-TTS which achieves high-quality speaker adaptation with significantly improved speaker similarity. Specifically, we leverage two geometric constraints to learn discriminative speaker representations. Here, a TTS model is pre-trained for base speakers with a sufficient amount of data, and then fine-tuned for novel speakers on a few minutes of data with two geometric constraints. Two geometric constraints enable the model to extract discriminative speaker embeddings from limited data, which leads to the synthesis of intelligible speech. We discuss and verify the effectiveness of GC-TTS by comparing it with popular and essential methods. The experimental results demonstrate that GC-TTS generates high-quality speech from only a few minutes of training data, outperforming standard techniques in terms of speaker similarity to the target speaker.
翻訳日:2021-08-17 14:42:50 公開日:2021-08-16
# 物理インフォームド変圧器DeepONetによる脆性材料のひび割れ経路予測

A physics-informed variational DeepONet for predicting the crack path in brittle materials ( http://arxiv.org/abs/2108.06905v1 )

ライセンス: Link先を確認
Somdatta Goswami, Minglang Yin, Yue Yu, George Karniadakis(参考訳) 故障軌道、予測可能な故障ゾーンの特定、損傷統計は脆性破壊の応用における重要な関連性の一つである。 これらの関連量を確実に推定する高忠実度数値解法は存在するが、計算上はクラックの高分解能を必要とする。 さらに、ドメインパラメータや材料特性の小さな変化であっても、独立した集中シミュレーションを行う必要がある。 したがって、計算負担を軽減するために高速で一般化可能な代理モデルが必要であるが、破壊力学の不連続性はそのようなモデルを開発する上で大きな課題となる。 脆性破壊解析のための物理インフォームによるDeepONet(V-DeepONet) の変分定式化を提案する。 v-deeponetは、欠陥の初期構成を関連する関心分野(例えば損傷や変位場)にマッピングするように訓練されている。 ネットワークがトレーニングされると、そのドメイン上の初期クラック設定とロードステップに対して、グローバルソリューション全体が迅速に取得できる。 もともとのDeepONetはデータ駆動型に過ぎなかったが、V-DeepONetの学習には変分形式による支配方程式を導入し、ラベル付きデータも利用している。 脆性破壊の2つのベンチマークによるV-DeepOnetの有効性を実証し,その精度を高忠実度解析器を用いて検証した。 物理法則を符号化し、ネットワークをトレーニングするデータも、フラクチャーモデリングが揺らぎに非常に敏感であることを考慮して、補間と外挿の両方を正確に行うことができる代理モデルをレンダリングする。 The proposed hybrid training of V-DeepONet is superior than state-of-the-art method and can be applied to a wide array of dynamical systems with complex response。

Failure trajectories, identifying the probable failure zones, and damage statistics are some of the key quantities of relevance in brittle fracture applications. High-fidelity numerical solvers that reliably estimate these relevant quantities exist but they are computationally demanding requiring a high resolution of the crack. Moreover, independent intensive simulations need to be carried out even for a small change in domain parameters and/or material properties. Therefore, fast and generalizable surrogate models are needed to alleviate the computational burden but the discontinuous nature of fracture mechanics presents a major challenge to developing such models. We propose a physics-informed variational formulation of DeepONet (V-DeepONet) for brittle fracture analysis. V-DeepONet is trained to map the initial configuration of the defect to the relevant fields of interests (e.g., damage and displacement fields). Once the network is trained, the entire global solution can be rapidly obtained for any initial crack configuration and loading steps on that domain. While the original DeepONet is solely data-driven, we take a different path to train the V-DeepONet by imposing the governing equations in variational form and we also use some labelled data. We demonstrate the effectiveness of V-DeepOnet through two benchmarks of brittle fracture, and we verify its accuracy using results from high-fidelity solvers. Encoding the physical laws and also some data to train the network renders the surrogate model capable of accurately performing both interpolation and extrapolation tasks, considering that fracture modeling is very sensitive to fluctuations. The proposed hybrid training of V-DeepONet is superior to state-of-the-art methods and can be applied to a wide array of dynamical systems with complex responses.
翻訳日:2021-08-17 14:42:31 公開日:2021-08-16
# 時系列解析のための複雑なネットワークアプローチと神経筋疾患診断への応用

A complex network approach to time series analysis with application in diagnosis of neuromuscular disorders ( http://arxiv.org/abs/2108.06920v1 )

ライセンス: Link先を確認
Samaneh Samiei, Nasser Ghadiri and Behnaz Ansari(参考訳) 筋電図 (emg) は、神経筋活動と筋形態を示す生体医学信号である。 この時系列を用いて神経筋疾患を正確に診断する専門家。 現代のデータ分析技術は、医学を含む様々な分野の応用で時系列データをグラフや複雑なネットワークにマッピングするための新しいアプローチを導入している。 結果として得られたネットワークは、時系列の医師の所見を補完するために使用できる全く異なる視力を発達させる。 これにより、分析がより豊かになり、エラーが減少し、疾患の診断がより正確になり、治療プロセスの精度と速度が向上する。 マッピングプロセスは、時系列から本質的なデータを失う可能性があり、全ての時系列特徴を保持できない。 結果として、重要な特徴を維持しながら、時系列を適切に表現できるアプローチの実現が不可欠である。 本稿では,可視化グラフ法を用いたemg時系列による既存手法の精度の制限を克服するために,graphtsというネットワーク開発手法を提案する。 この目的のために、EMG信号は前処理され、標準的な可視グラフアルゴリズムによって複雑なネットワークにマッピングされる。 その結果得られるネットワークは、健康的なサンプルと患者のサンプルを区別することができる。 次のステップでは、最適特徴抽出後の分類器への入力として、発達したネットワークの特性を特徴行列の形で与える。 ディープニューラルネットワークによる提案手法の性能評価では、トレーニングデータの99.30%、テストデータの99.18%が正確である。 したがって,健康,筋症,ニューロパチーemgの時系列の特徴とネットワーク表現の充実に加えて,精度,正確性,リコール,f-scoreの向上が期待できる。

Electromyography (EMG) refers to a biomedical signal indicating neuromuscular activity and muscle morphology. Experts accurately diagnose neuromuscular disorders using this time series. Modern data analysis techniques have recently led to introducing novel approaches for mapping time series data to graphs and complex networks with applications in diverse fields, including medicine. The resulting networks develop a completely different visual acuity that can be used to complement physician findings of time series. This can lead to a more enriched analysis, reduced error, more accurate diagnosis of the disease, and increased accuracy and speed of the treatment process. The mapping process may cause the loss of essential data from the time series and not retain all the time series features. As a result, achieving an approach that can provide a good representation of the time series while maintaining essential features is crucial. This paper proposes a new approach to network development named GraphTS to overcome the limited accuracy of existing methods through EMG time series using the visibility graph method. For this purpose, EMG signals are pre-processed and mapped to a complex network by a standard visibility graph algorithm. The resulting networks can differentiate between healthy and patient samples. In the next step, the properties of the developed networks are given in the form of a feature matrix as input to classifiers after extracting optimal features. Performance evaluation of the proposed approach with deep neural network shows 99.30% accuracy for training data and 99.18% for test data. Therefore, in addition to enriched network representation and covering the features of time series for healthy, myopathy, and neuropathy EMG, the proposed technique improves accuracy, precision, recall, and F-score.
翻訳日:2021-08-17 14:42:02 公開日:2021-08-16
# 侵入試験のための強化学習におけるサイバー地形の利用

Using Cyber Terrain in Reinforcement Learning for Penetration Testing ( http://arxiv.org/abs/2108.07124v1 )

ライセンス: Link先を確認
Rohit Gangupantulu, Tyler Cody, Paul Park, Abdul Rahman, Logan Eisenbeiser, Dan Radke, Ryan Clark(参考訳) 強化学習 (Reinforcement Learning, RL) は、侵入試験のための攻撃グラフに適用されているが、訓練されたエージェントは、(サイバー)地形の概念を含む戦場(IPB)のインテリジェンス準備で取得される運用上のニュアンスを欠いているため、現実を反映していない。 特に、現在のプラクティスでは、Common Vulnerability Scoring System(CVSS)とそのコンポーネントのみを使用してアタックグラフを構築している。 本稿では,icbによる障害物のサイバー地形解析,接近路,重要地形,観測と火の場,カバーと隠蔽に関する概念を用いて,攻撃グラフを構築する手法を提案する。 本稿では,ファイアウォールを障害物として扱い,(1)報酬空間と(2)状態力学で表される例を示す。 地形解析は,RLのグラフに現実性をもたらすことができることを示す。

Reinforcement learning (RL) has been applied to attack graphs for penetration testing, however, trained agents do not reflect reality because the attack graphs lack operational nuances typically captured within the intelligence preparation of the battlefield (IPB) that include notions of (cyber) terrain. In particular, current practice constructs attack graphs exclusively using the Common Vulnerability Scoring System (CVSS) and its components. We present methods for constructing attack graphs using notions from IPB on cyber terrain analysis of obstacles, avenues of approach, key terrain, observation and fields of fire, and cover and concealment. We demonstrate our methods on an example where firewalls are treated as obstacles and represented in (1) the reward space and (2) the state dynamics. We show that terrain analysis can be used to bring realism to attack graphs for RL.
翻訳日:2021-08-17 14:41:37 公開日:2021-08-16
# (参考訳) m-RevNet: モーメント付きディープ可逆ニューラルネットワーク

m-RevNet: Deep Reversible Neural Networks with Momentum ( http://arxiv.org/abs/2108.05862v2 )

ライセンス: CC BY 4.0
Duo Li and Shang-Hua Gao(参考訳) 近年,深層残留ネットワークと一階常微分方程式(odes)の関係が明らかにされている。 本研究では,2階のODEでディープ・ニューラル・アーキテクチャの設計をさらにブリッジし,m-RevNetと呼ばれる新しい可逆ニューラルネットワークを提案する。 可逆性により、前方パスのアクティベーション値にアクセスすることなく後方パスを行うことができ、トレーニング中の記憶負荷を大幅に軽減できる。 さらに、二階 odes に基づく理論的基礎は、バニラ残差ネットワークよりも強力な表現力を持つ m-revnet を付与する。 ある種の学習シナリオでは、標準的なResNetが失敗しながらm-RevNetが成功することを分析的に実証的に明らかにします。 画像分類と意味セグメンテーションベンチマークに関する包括的実験により,メモリ効率と認識性能の両方において,resnetよりもm-revnetが優れていることが示された。

In recent years, the connections between deep residual networks and first-order Ordinary Differential Equations (ODEs) have been disclosed. In this work, we further bridge the deep neural architecture design with the second-order ODEs and propose a novel reversible neural network, termed as m-RevNet, that is characterized by inserting momentum update to residual blocks. The reversible property allows us to perform backward pass without access to activation values of the forward pass, greatly relieving the storage burden during training. Furthermore, the theoretical foundation based on second-order ODEs grants m-RevNet with stronger representational power than vanilla residual networks, which potentially explains its performance gains. For certain learning scenarios, we analytically and empirically reveal that our m-RevNet succeeds while standard ResNet fails. Comprehensive experiments on various image classification and semantic segmentation benchmarks demonstrate the superiority of our m-RevNet over ResNet, concerning both memory efficiency and recognition performance.
翻訳日:2021-08-17 11:14:09 公開日:2021-08-16
# (参考訳) simcvd:半教師付き医用画像セグメンテーションのための単純コントラストボクセルワイズ表現蒸留法 [全文訳有]

SimCVD: Simple Contrastive Voxel-Wise Representation Distillation for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2108.06227v2 )

ライセンス: CC BY 4.0
Chenyu You, Yuan Zhou, Ruihan Zhao, Lawrence Staib, James S. Duncan(参考訳) 医療画像分析におけるセグメンテーションの自動化は、大量の手動ラベル付きデータを必要とする課題である。 しかし、既存の学習ベースのアプローチの多くは、手動で注釈付けされた医療データに悩まされることが多いため、正確で堅牢な医用画像セグメンテーションにおいて大きな問題となる。 加えて、既存の半教師付きアプローチの多くは、教師付きアプローチに比べて堅牢ではなく、幾何学的構造と意味情報の明確なモデリングが欠如しており、どちらもセグメンテーションの精度を制限している。 そこで本研究では,最先端のボクセル表現学習を著しく向上させる,単純なコントラスト蒸留フレームワークであるSimCVDを提案する。 まず,入力ボリュームを2つの視点で把握し,対象境界の符号付き距離マップを,マスクとして2つの独立したドロップアウトしか持たない,教師なしのトレーニング戦略について述べる。 この単純なアプローチは驚くほどうまく機能し、ラベル付きデータの少ない以前の完全な教師付きメソッドと同じレベルで動作する。 我々は、ドロップアウトをデータ拡張の最小の形式と見なすことができ、ネットワークを表現の崩壊に頑健にする、と仮定する。 次に, 対の類似性を蒸留して構造蒸留を行うことを提案する。 我々は,SimCVDを左心房隔離チャレンジ(LA)とNIH膵CTデータセットの2つの一般的なデータセットで評価した。 The results on the LA dataset showed that in two type of labeled ratios (i.e. 20% and 10%) that SimCVD achieve a average Dice score of 90.85% and 89.03%, a 0.91% and 2.22% improve than previous best results。 本手法は,医用画像合成や登録などの下流業務の一般的な枠組みとして,SimCVDを活用することを約束して,エンドツーエンドで訓練することができる。

Automated segmentation in medical image analysis is a challenging task that requires a large amount of manually labeled data. However, most existing learning-based approaches usually suffer from limited manually annotated medical data, which poses a major practical problem for accurate and robust medical image segmentation. In addition, most existing semi-supervised approaches are usually not robust compared with the supervised counterparts, and also lack explicit modeling of geometric structure and semantic information, both of which limit the segmentation accuracy. In this work, we present SimCVD, a simple contrastive distillation framework that significantly advances state-of-the-art voxel-wise representation learning. We first describe an unsupervised training strategy, which takes two views of an input volume and predicts their signed distance maps of object boundaries in a contrastive objective, with only two independent dropout as mask. This simple approach works surprisingly well, performing on the same level as previous fully supervised methods with much less labeled data. We hypothesize that dropout can be viewed as a minimal form of data augmentation and makes the network robust to representation collapse. Then, we propose to perform structural distillation by distilling pair-wise similarities. We evaluate SimCVD on two popular datasets: the Left Atrial Segmentation Challenge (LA) and the NIH pancreas CT dataset. The results on the LA dataset demonstrate that, in two types of labeled ratios (i.e., 20% and 10%), SimCVD achieves an average Dice score of 90.85% and 89.03% respectively, a 0.91% and 2.22% improvement compared to previous best results. Our method can be trained in an end-to-end fashion, showing the promise of utilizing SimCVD as a general framework for downstream tasks, such as medical image synthesis and registration.
翻訳日:2021-08-17 11:13:10 公開日:2021-08-16
# 光対向攻撃

Optical Adversarial Attack ( http://arxiv.org/abs/2108.06247v2 )

ライセンス: Link先を確認
Abhiram Gnanasambandam, Alex M. Sherman, Stanley H. Chan(参考訳) OPAD(OPtical ADversarial attack)を提案する。 OPADは、物理的に物体に触れることなく画像分類器を騙すことを目的とした物理的空間における敵攻撃である。 OPADの原則は、対象オブジェクトの外観を変更するために構造化照明を使用することである。 システムは低コストのプロジェクター、カメラ、コンピュータで構成されている。 この問題の課題は、プロジェクターの放射応答の非線形性と、シーンの空間的に変化するスペクトル応答である。 従来の手法で生成された攻撃は、そのようなプロジェクタカメラモデルの補正を調整されない限り、この設定では機能しない。 提案手法では, プロジェクタ・カメラモデルを用いて対角攻撃最適化を行い, 新たな攻撃定式化を導出する。 実験により解の妥当性が証明された。 OPADは、ホワイトボックス、ブラックボックス、ターゲット、ターゲット外攻撃の背景照明の存在下で、本物の3Dオブジェクトを光学的に攻撃することができる。 システムの基本性能限界を定量化するために理論的解析を行う。

We introduce OPtical ADversarial attack (OPAD). OPAD is an adversarial attack in the physical space aiming to fool image classifiers without physically touching the objects (e.g., moving or painting the objects). The principle of OPAD is to use structured illumination to alter the appearance of the target objects. The system consists of a low-cost projector, a camera, and a computer. The challenge of the problem is the non-linearity of the radiometric response of the projector and the spatially varying spectral response of the scene. Attacks generated in a conventional approach do not work in this setting unless they are calibrated to compensate for such a projector-camera model. The proposed solution incorporates the projector-camera model into the adversarial attack optimization, where a new attack formulation is derived. Experimental results prove the validity of the solution. It is demonstrated that OPAD can optically attack a real 3D object in the presence of background lighting for white-box, black-box, targeted, and untargeted attacks. Theoretical analysis is presented to quantify the fundamental performance limit of the system.
翻訳日:2021-08-17 10:50:29 公開日:2021-08-16
# 近似アーチ型解析のための確率論的手法

Probabilistic methods for approximate archetypal analysis ( http://arxiv.org/abs/2108.05767v2 )

ライセンス: Link先を確認
Ruijian Han, Braxton Osting, Dong Wang, Yiming Xu(参考訳) Archetypal Analysisは探索データ分析のための教師なし学習手法である。 アーキティパル解析の適用性を制限する大きな課題の1つは、既存のアルゴリズム固有の計算複雑性である。 本稿では,この問題を部分的に解決するための新しい近似手法を提案する。 確率的アイデアを高次元幾何から利用して,データの次元と表現の濃度をそれぞれ減少させる2つの前処理手法を導入する。 低次元の線型部分空間におおむね埋め込まれており、対応する表現の凸包がいくつかの頂点を持つポリトープによってよく近似されている場合、本手法はアーチ型解析のスケーリングを効果的に低減できることを示す。 さらに、還元問題の解は予測誤差の点でほぼ最適である。 本手法は他の加速度法と組み合わせることで,根本的解析の複雑さをさらに軽減することができる。 本手法を適度な大規模データセットの要約に応用し,本手法の有用性を示す。

Archetypal analysis is an unsupervised learning method for exploratory data analysis. One major challenge that limits the applicability of archetypal analysis in practice is the inherent computational complexity of the existing algorithms. In this paper, we provide a novel approximation approach to partially address this issue. Utilizing probabilistic ideas from high-dimensional geometry, we introduce two preprocessing techniques to reduce the dimension and representation cardinality of the data, respectively. We prove that, provided the data is approximately embedded in a low-dimensional linear subspace and the convex hull of the corresponding representations is well approximated by a polytope with a few vertices, our method can effectively reduce the scaling of archetypal analysis. Moreover, the solution of the reduced problem is near-optimal in terms of prediction errors. Our approach can be combined with other acceleration techniques to further mitigate the intrinsic complexity of archetypal analysis. We demonstrate the usefulness of our results by applying our method to summarize several moderately large-scale datasets.
翻訳日:2021-08-17 10:50:10 公開日:2021-08-16