このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210807となっている論文です。

PDF登録状況(公開日: 20210807)

TitleAuthorsAbstract論文公表日・翻訳日
# W2v-BERT:自己監督型音声事前学習のためのコントラスト学習とマスケッド言語モデリングの組み合わせ

W2v-BERT: Combining Contrastive Learning and Masked Language Modeling for Self-Supervised Speech Pre-Training ( http://arxiv.org/abs/2108.06209v1 )

ライセンス: Link先を確認
Yu-An Chung, Yu Zhang, Wei Han, Chung-Cheng Chiu, James Qin, Ruoming Pang, Yonghui Wu(参考訳) 事前学習型自然言語処理モデルにおけるマスク付き言語モデリング~(MLM)の成功に触発されて、自己教師付き音声表現学習のためのMLMを探索するw2v-BERTを提案する。 w2v-BERTは、コントラスト学習とMLMを組み合わせたフレームワークであり、前者は入力された連続音声信号を有限個の識別音声トークンに識別するモデルを訓練し、後者は、識別されたトークンを消費するマスク付き予測タスクを解くことで、文脈化された音声表現を学習するモデルを訓練する。 反復的な再クラスタ化と再トレーニングプロセスに依存するHumberTや、別々に訓練された2つのモジュールを結合するvq-wav2vecのような既存のMLMベースのスピーチ事前トレーニングフレームワークとは対照的に、w2v-BERTは2つの自己管理タスク~(コントラストタスクとMLM)を同時に解くことで、エンドツーエンドで最適化することができる。 実験の結果, Libri-Light~60kコーパスを教師なしデータとして用いた場合の, LibriSpeechベンチマークにおける最先端の事前訓練モデルと比較して, w2v-BERTは競合する結果が得られることがわかった。 特に、コンバータベースのwav2vec~2.0やHuBERTのような公開モデルと比較すると、テストクリーンおよびテスト他のサブセットに対する相対 WER の減少率は~5\%から~10\%である。 googleの音声検索トラフィックデータセットに適用すると、w2v-bertは内部コンフォーメータベースのwav2vec~2.0を30%以上上回っています。

Motivated by the success of masked language modeling~(MLM) in pre-training natural language processing models, we propose w2v-BERT that explores MLM for self-supervised speech representation learning. w2v-BERT is a framework that combines contrastive learning and MLM, where the former trains the model to discretize input continuous speech signals into a finite set of discriminative speech tokens, and the latter trains the model to learn contextualized speech representations via solving a masked prediction task consuming the discretized tokens. In contrast to existing MLM-based speech pre-training frameworks such as HuBERT, which relies on an iterative re-clustering and re-training process, or vq-wav2vec, which concatenates two separately trained modules, w2v-BERT can be optimized in an end-to-end fashion by solving the two self-supervised tasks~(the contrastive task and MLM) simultaneously. Our experiments show that w2v-BERT achieves competitive results compared to current state-of-the-art pre-trained models on the LibriSpeech benchmarks when using the Libri-Light~60k corpus as the unsupervised data. In particular, when compared to published models such as conformer-based wav2vec~2.0 and HuBERT, our model shows~5\% to~10\% relative WER reduction on the test-clean and test-other subsets. When applied to the Google's Voice Search traffic dataset, w2v-BERT outperforms our internal conformer-based wav2vec~2.0 by more than~30\% relatively.
翻訳日:2021-08-22 14:37:48 公開日:2021-08-07
# (参考訳) Screen2Words:マルチモーダル学習によるモバイルUIの自動要約 [全文訳有]

Screen2Words: Automatic Mobile UI Summarization with Multimodal Learning ( http://arxiv.org/abs/2108.03353v1 )

ライセンス: CC BY 4.0
Bryan Wang, Gang Li, Xin Zhou, Zhourong Chen, Tovi Grossman, Yang Li(参考訳) モバイルユーザインタフェース要約は、画面の重要なコンテンツや機能を伝えるために、モバイル画面の簡潔な言語記述を生成する。 screen2wordsは,ui画面の本質情報をコヒーレントな言語句に自動的にカプセル化する,新しい画面要約手法である。 モバイル画面の要約には、テキスト、画像、構造、UIセマンティクスなど、モバイルUIのマルチモーダルデータの総合的な理解が必要です。 人手による大規模画面要約データセットの収集と解析を行った。 当社のデータセットには、$\sim$22kのユニークなui画面にわたる112k以上の言語要約が含まれています。 次に、異なる構成の深いモデルセットを実験しました。 自動精度測定と人体評価の両方でこれらのモデルを評価することで,モバイル画面に高品質な要約を生成できることを示す。 Screen2Wordsの潜在的なユースケースを示し、私たちのデータセットとモデルをオープンソースにして、さらなるブリッジング言語とユーザインターフェースの基礎を築きます。

Mobile User Interface Summarization generates succinct language descriptions of mobile screens for conveying important contents and functionalities of the screen, which can be useful for many language-based application scenarios. We present Screen2Words, a novel screen summarization approach that automatically encapsulates essential information of a UI screen into a coherent language phrase. Summarizing mobile screens requires a holistic understanding of the multi-modal data of mobile UIs, including text, image, structures as well as UI semantics, motivating our multi-modal learning approach. We collected and analyzed a large-scale screen summarization dataset annotated by human workers. Our dataset contains more than 112k language summarization across $\sim$22k unique UI screens. We then experimented with a set of deep models with different configurations. Our evaluation of these models with both automatic accuracy metrics and human rating shows that our approach can generate high-quality summaries for mobile screens. We demonstrate potential use cases of Screen2Words and open-source our dataset and model to lay the foundations for further bridging language and user interfaces.
翻訳日:2021-08-12 04:22:11 公開日:2021-08-07
# (参考訳) HelpViz: テキストベースのインストラクションからコンテキストビジュアルモバイルチュートリアルの自動生成 [全文訳有]

HelpViz: Automatic Generation of Contextual Visual MobileTutorials from Text-Based Instructions ( http://arxiv.org/abs/2108.03356v1 )

ライセンス: CC BY 4.0
Mingyuan Zhong, Gang Li, Peggy Chi, Yang Li(参考訳) 我々は,web上に豊富なテキストに基づく説明文からコンテキストの視覚的なチュートリアルを生成するツールである helpviz を提案する。 HelpVizは、命令解析モデルを通じて各テキスト命令から一連のアクションを抽出し、Androidエミュレータの配列を管理するシミュレーションインフラストラクチャ上で抽出されたアクションを実行することで、テキスト命令をバッチでグラフィカルなチュートリアルに変換する。 各命令の自動実行は、画像、ビデオ、各ステップのクリック要素などのメタデータを含む、グラフィカルおよび構造的な資産のセットを生成する。 helpvizは、構文解析されたテキスト命令と生成されたアセットを組み合わせることでチュートリアルを合成し、ユーザの進捗を追跡し、次のステップをハイライトすることで、ユーザインタラクションへのチュートリアルをコンテキスト化する。 helpvizによる実験では,チュートリアル実行の堅牢性が向上し,参加者はテキストベースの命令よりも helpviz が生成したチュートリアルを好んだ。 HelpVizは、大規模なモバイルインタラクションのためのコンテキストビジュアルチュートリアルを生成するためのコスト効率のよいアプローチを約束する。

We present HelpViz, a tool for generating contextual visual mobile tutorials from text-based instructions that are abundant on the web. HelpViz transforms text instructions to graphical tutorials in batch, by extracting a sequence of actions from each text instruction through an instruction parsing model, and executing the extracted actions on a simulation infrastructure that manages an array of Android emulators. The automatic execution of each instruction produces a set of graphical and structural assets, including images, videos, and metadata such as clicked elements for each step. HelpViz then synthesizes a tutorial by combining parsed text instructions with the generated assets, and contextualizes the tutorial to user interaction by tracking the user's progress and highlighting the next step. Our experiments with HelpViz indicate that our pipeline improved tutorial execution robustness and that participants preferred tutorials generated by HelpViz over text-based instructions. HelpViz promises a cost-effective approach for generating contextual visual tutorials for mobile interaction at scale.
翻訳日:2021-08-12 04:01:23 公開日:2021-08-07
# (参考訳) バイアス対策とは何か? [全文訳有]

What do Bias Measures Measure? ( http://arxiv.org/abs/2108.03362v1 )

ライセンス: CC BY 4.0
Sunipa Dev, Emily Sheng, Jieyu Zhao, Jiao Sun, Yu Hou, Mattie Sanseverino, Jiin Kim, Nanyun Peng, Kai-Wei Chang(参考訳) 自然言語処理(nlp)モデルは、性別、人種、国籍といった保護された属性に関する社会バイアスを広める。 これらのバイアスと関連する害を緩和し介入を作成するためには、そのようなバイアスを検出して測定することが不可欠である。 多くの既存の研究が異なるタスクに対するバイアス評価手法を提案しているが、これらの尺度がそれぞれどのようなバイアスと規範にどのような影響があるか、どのように異なる尺度が比較されるかを理解する必要がある。 このギャップに対処するため、本研究では、関連するNLPタスク、メトリクス、データセット、社会的バイアス、およびそれに対応する害の関数として、NLPの既存のバイアス尺度を包括的に調査する。 この調査はまた、メリットとデメリットを示すために、さまざまなカテゴリにメトリクスを整理している。 最後に,その開発,分類,適切な利用を支援するバイアス尺度の文書化標準を提案する。

Natural Language Processing (NLP) models propagate social biases about protected attributes such as gender, race, and nationality. To create interventions and mitigate these biases and associated harms, it is vital to be able to detect and measure such biases. While many existing works propose bias evaluation methodologies for different tasks, there remains a need to cohesively understand what biases and normative harms each of these measures captures and how different measures compare. To address this gap, this work presents a comprehensive survey of existing bias measures in NLP as a function of the associated NLP tasks, metrics, datasets, and social biases and corresponding harms. This survey also organizes metrics into different categories to present advantages and disadvantages. Finally, we propose a documentation standard for bias measures to aid their development, categorization, and appropriate usage.
翻訳日:2021-08-12 03:43:46 公開日:2021-08-07
# (参考訳) Gated Recurrent Units を用いた時間行動定位 [全文訳有]

Temporal Action Localization Using Gated Recurrent Units ( http://arxiv.org/abs/2108.03375v1 )

ライセンス: CC BY 4.0
Hassan Keshvari Khojasteh, Hoda Mohammadzade, Hamid Behroozi(参考訳) 時間的行動ローカライゼーション(TAL)タスクは、各アクションの開始と終了を予測することを目的としており、そのクラスラベルは現実世界に多くの応用がある。 しかし、その複雑さのため、研究者はアクション認識タスクと比較して大きな成果を得ていない。 この複雑さは、ビデオ内のさまざまなアクションの正確な開始時間と終了時間の予測に関連している。 本稿では, Gated Recurrent Unit (GRU) に基づく新しいネットワークと, TALタスクのための2つの新しい後処理手法を提案する。 具体的には、GRU-Splittedモデルと呼ばれる、GRUの出力層に対する新しい設計を提案する。 さらに、線形補間を用いて、正確な開始時間と終了時間でアクションプロポーザルを生成する。 最後に、生成された提案を適切にランク付けするために、Learning to Rank (LTR)アプローチを使用します。 thumos14データセットにおける提案手法の性能評価を行った。 その結果,提案手法の性能は最先端技術に比べて優れていた。 特に、Intersection over Union (IoU) 0.7における平均平均精度(mAP)測定では、27.52%が最先端の手法よりも5.12%良い。

Temporal Action Localization (TAL) task in which the aim is to predict the start and end of each action and its class label has many applications in the real world. But due to its complexity, researchers have not reached great results compared to the action recognition task. The complexity is related to predicting precise start and end times for different actions in any video. In this paper, we propose a new network based on Gated Recurrent Unit (GRU) and two novel post-processing ideas for TAL task. Specifically, we propose a new design for the output layer of the GRU resulting in the so-called GRU-Splitted model. Moreover, linear interpolation is used to generate the action proposals with precise start and end times. Finally, to rank the generated proposals appropriately, we use a Learn to Rank (LTR) approach. We evaluated the performance of the proposed method on Thumos14 dataset. Results show the superiority of the performance of the proposed method compared to state-of-the-art. Especially in the mean Average Precision (mAP) metric at Intersection over Union (IoU) 0.7, we get 27.52% which is 5.12% better than that of state-of-the-art methods.
翻訳日:2021-08-12 03:21:21 公開日:2021-08-07
# (参考訳) マルチタスクメタラーニングによるパーソナライズド対話の生成 [全文訳有]

Generating Personalized Dialogue via Multi-Task Meta-Learning ( http://arxiv.org/abs/2108.03377v1 )

ライセンス: CC BY 4.0
Jing Yang Lee, Kong Aik Lee, Woon Seng Gan(参考訳) パーソナライズされた対話生成に対する従来のアプローチは、一般的に大きなコーパスと事前に定義されたペルソナ情報を必要とする。 しかし、実世界の環境では、大量のトレーニングデータのコーパスやペルソナ情報を容易に利用できない。 このような現実的な制約に対処するために,大規模なコーパスや事前定義されたペルソナ情報に頼ることなく,新たなペルソナに適応するためのモデルをトレーニングする,新しいマルチタスクメタ学習手法を提案する。 代わりに、モデルは対話コンテキストのみに基づいてパーソナライズされた応答を生成することをタスクとする。 先行研究と異なり,本手法では訓練中にのみ提供されたペルソナ情報を活用し,補助ペルソナ再構築タスクを導入する。 本稿では,マルチタスクメタラーニング(MTML)フレームワークと,代替マルチタスクメタラーニング(AMTML)フレームワークという,マルチタスクメタラーニング手法を採用する2つのフレームワークを紹介する。 実験の結果,MTMLとAMTMLを併用すると,対人関係が向上することがわかった。

Conventional approaches to personalized dialogue generation typically require a large corpus, as well as predefined persona information. However, in a real-world setting, neither a large corpus of training data nor persona information are readily available. To address these practical limitations, we propose a novel multi-task meta-learning approach which involves training a model to adapt to new personas without relying on a large corpus, or on any predefined persona information. Instead, the model is tasked with generating personalized responses based on only the dialogue context. Unlike prior work, our approach leverages on the provided persona information only during training via the introduction of an auxiliary persona reconstruction task. In this paper, we introduce 2 frameworks that adopt the proposed multi-task meta-learning approach: the Multi-Task Meta-Learning (MTML) framework, and the Alternating Multi-Task Meta-Learning (AMTML) framework. Experimental results show that utilizing MTML and AMTML results in dialogue responses with greater persona consistency.
翻訳日:2021-08-12 03:10:00 公開日:2021-08-07
# (参考訳) シンプルなポイントクラウドから屋内レイアウトを学ぶ [全文訳有]

Learning Indoor Layouts from Simple Point-Clouds ( http://arxiv.org/abs/2108.03378v1 )

ライセンス: CC BY 4.0
Md. Tareq Mahmood and Mohammed Eunus Ali(参考訳) 屋内空間のレイアウトの再構築は、屋内位置に基づくサービスの拡大に不可欠である。 屋内位置に基づくサービスの普及における重要な課題の1つは、既存の建物の屋内空間モデル(例えば、フロアプラン)を捉える複雑な性質のため、屋内空間マップが利用できないことである。 本稿では,GoogleのTangoのようなスマートフォンで得られた点雲から部屋を認識できるフロアプランの自動生成システムを提案する。 特に,ポインタネットワークを用いたリカレントニューラルネットワークアプローチと,Mask-RCNNを用いた畳み込みニューラルネットワークアプローチの2つのアプローチを提案する。 実験結果から, 異種環境下での部屋の形状を効果的に同定し, 室内形状を再現できることが示唆された。

Reconstructing a layout of indoor spaces has been a crucial part of growing indoor location based services. One of the key challenges in the proliferation of indoor location based services is the unavailability of indoor spatial maps due to the complex nature of capturing an indoor space model (e.g., floor plan) of an existing building. In this paper, we propose a system to automatically generate floor plans that can recognize rooms from the point-clouds obtained through smartphones like Google's Tango. In particular, we propose two approaches - a Recurrent Neural Network based approach using Pointer Network and a Convolutional Neural Network based approach using Mask-RCNN to identify rooms (and thereby floor plans) from point-clouds. Experimental results on different datasets demonstrate approximately 0.80-0.90 Intersection-over-Un ion scores, which show that our models can effectively identify the rooms and regenerate the shapes of the rooms in heterogeneous environment.
翻訳日:2021-08-12 02:56:40 公開日:2021-08-07
# GANmapper: 地理的コンテンツフィリング

GANmapper: geographical content filling ( http://arxiv.org/abs/2108.04232v1 )

ライセンス: Link先を確認
Abraham Noah Wu, Filip Biljecki(参考訳) 本稿では,GAN(Generative Adversarial Network)を用いた空間データ生成手法を提案する。 当社のコントリビューションでは、粗大で広く利用可能な地理空間データを使用して、構築された環境のより細かいスケールで、あまり利用できない機能のマップを作成します。 衛星画像または陸上測量)。 本研究では, 土地利用データと道路ネットワークを入力として, 建物のフットプリントを生成し, 世界中の9都市で実験を行った。 本手法は,我々がオープンにリリースするツールで実装し,都市形態の近似地図を生成することが可能であり,空間データ基盤の完全性と品質を高めることにより,他の種類の地理情報の拡張が一般的である。 特に、詳細で高解像度のデータを欠いている場所や、OpenStreetMapのような不確実または不均一な品質でマップされている場所では特に有用である。 結果の質は都市形態や規模に影響されている。 多くの場合、実験は建物の位置、量、形状を真に示す傾向があるため、有望なパフォーマンスを示唆している。 この研究は、エネルギー、気候、都市形態学など、これまで必要だったデータを欠いた領域でのいくつかの応用を支援する可能性がある。

We present a new method to create spatial data using a generative adversarial network (GAN). Our contribution uses coarse and widely available geospatial data to create maps of less available features at the finer scale in the built environment, bypassing their traditional acquisition techniques (e.g. satellite imagery or land surveying). In the work, we employ land use data and road networks as input to generate building footprints, and conduct experiments in 9 cities around the world. The method, which we implement in a tool we release openly, enables generating approximate maps of the urban form, and it is generalisable to augment other types of geoinformation, enhancing the completeness and quality of spatial data infrastructure. It may be especially useful in locations missing detailed and high-resolution data and those that are mapped with uncertain or heterogeneous quality, such as much of OpenStreetMap. The quality of the results is influenced by the urban form and scale. In most cases, experiments suggest promising performance as the method tends to truthfully indicate the locations, amount, and shape of buildings. The work has the potential to support several applications, such as energy, climate, and urban morphology studies in areas previously lacking required data.
翻訳日:2021-08-11 14:34:05 公開日:2021-08-07
# (参考訳) 時間多層位置対応グラフニューラルネットワーク(TMP-GNN)の欠測データ推定 [全文訳有]

Missing Data Estimation in Temporal Multilayer Position-aware Graph Neural Network (TMP-GNN) ( http://arxiv.org/abs/2108.03400v1 )

ライセンス: CC BY 4.0
Bahareh Najafi, Saeedeh Parsaeefard, Alberto Leon-Garcia(参考訳) GNNは、様々な領域において、様々なノードレベル、エッジレベル、グラフレベルの予測タスクで高い効果を発揮することが証明されている。 既存のアプローチは主に静的グラフに焦点を当てている。 しかし、エッジで時間とともに変化する多くのグラフが消えるか、ノードまたはエッジ属性が別の時間に変化する可能性がある。 時間変化グラフにおけるノードの表現学習におけるそのような進化を考えることが不可欠である。 本稿では,時間的関係の相互依存性を埋め込み計算に組み込んだ動的グラフのノード埋め込み手法である,時間的多層位置対応グラフニューラルネットワーク(TMP-GNN)を提案する。 時間的多層グラフの2つの異なる表現に対するTMP-GNNの性能評価を行った。 この性能はノードレベルの予測タスクにおいて最も人気のあるGNNに対して評価される。 そして、TMP-GNNをディープラーニングフレームワークに組み込んで、欠落したデータを推定し、その性能を我々の以前の実験から得られた有能なGNNと比較する。 実世界の4つのデータセットの実験結果は、ペアワイズノード分類タスクにおいて、LOC AUCの最大58%、特にノード数が比較的多く接続度が低いグラフにおいて、特徴推定の欠如において、低いMAEの最大96%となる。

GNNs have been proven to perform highly effective in various node-level, edge-level, and graph-level prediction tasks in several domains. Existing approaches mainly focus on static graphs. However, many graphs change over time with their edge may disappear, or node or edge attribute may alter from one time to the other. It is essential to consider such evolution in representation learning of nodes in time varying graphs. In this paper, we propose a Temporal Multilayered Position-aware Graph Neural Network (TMP-GNN), a node embedding approach for dynamic graph that incorporates the interdependence of temporal relations into embedding computation. We evaluate the performance of TMP-GNN on two different representations of temporal multilayered graphs. The performance is assessed against the most popular GNNs on node-level prediction tasks. Then, we incorporate TMP-GNN into a deep learning framework to estimate missing data and compare the performance with their corresponding competent GNNs from our former experiment, and a baseline method. Experimental results on four real-world datasets yield up to 58% of lower ROC AUC for pairwise node classification task, and 96% of lower MAE in missing feature estimation, particularly for graphs with a relatively high number of nodes and lower mean degree of connectivity.
翻訳日:2021-08-11 14:02:23 公開日:2021-08-07
# (参考訳) 異常拡散データの教師なし学習 [全文訳有]

Unsupervised learning of anomalous diffusion data ( http://arxiv.org/abs/2108.03411v1 )

ライセンス: CC BY-SA 4.0
Gorka Mu\~noz-Gil, Guillem Guig\'o i Corominas, Maciej Lewenstein(参考訳) 拡散過程のキャラクタリゼーションは、様々な物理現象を理解する上で重要な要素である。 これらの多くはブラウン運動から逸脱し、異常な拡散を引き起こす。 これらの過程を記述するための様々な理論モデルが存在するが、その現象の確率的性質と信頼性のあるデータを利用するのが困難であるため、実験的な設定への応用は困難であることが多い。 後者はしばしば短くてノイズの多い軌道であり、通常の統計的なアプローチでは特徴付けが難しい。 近年,教師付き機械学習手法による理論と実験の橋渡しに目覚ましい取り組みが行われ,驚くべき結果が得られた。 本研究では,異常拡散データにおける教師なし手法の利用について検討する。 データのラベル付けを必要とせずに,主な拡散特性を学習可能であることを示す。 このような手法を用いて,異常拡散モデルの識別と物理パラメータの抽出を行う。 さらに, 既存の拡散モデルの合成によって表される新しい種類の拡散を見出す可能性についても検討する。 最後に,本手法を実験データで使用することを示し,教師あり学習が適用できない場合にその利点を示す。

The characterization of diffusion processes is a keystone in our understanding of a variety of physical phenomena. Many of these deviate from Brownian motion, giving rise to anomalous diffusion. Various theoretical models exists nowadays to describe such processes, but their application to experimental setups is often challenging, due to the stochastic nature of the phenomena and the difficulty to harness reliable data. The latter often consists on short and noisy trajectories, which are hard to characterize with usual statistical approaches. In recent years, we have witnessed an impressive effort to bridge theory and experiments by means of supervised machine learning techniques, with astonishing results. In this work, we explore the use of unsupervised methods in anomalous diffusion data. We show that the main diffusion characteristics can be learnt without the need of any labelling of the data. We use such method to discriminate between anomalous diffusion models and extract their physical parameters. Moreover, we explore the feasibility of finding novel types of diffusion, in this case represented by compositions of existing diffusion models. At last, we showcase the use of the method in experimental data and demonstrate its advantages for cases where supervised learning is not applicable.
翻訳日:2021-08-11 13:44:37 公開日:2021-08-07
# (参考訳) PSViT:Token PoolingとAtention Sharingによるより良いビジョントランスフォーマー [全文訳有]

PSViT: Better Vision Transformer via Token Pooling and Attention Sharing ( http://arxiv.org/abs/2108.03428v1 )

ライセンス: CC BY 4.0
Boyu Chen, Peixia Li, Baopu Li, Chuming Li, Lei Bai, Chen Lin, Ming Sun, Junjie Yan, Wanli Ouyang(参考訳) 本稿では,視覚変換器(ViT)を用いた画像認識における冗長性の2つのレベルを観察する。 まず、ネットワーク全体を通してトークンの数を固定すると、空間レベルで冗長な特徴が生じる。 第二に、異なるトランス層間の注意マップは冗長である。 以上の結果に基づいて,トークンプーリングとアテンション共有を備えたPSViTを提案し,冗長性を低減し,特徴表現能力を効果的に向上し,より高速なトレードオフを実現する。 具体的には、PSViTでは、トークンプーリングを、空間レベルでトークンの数を減らす操作として定義することができる。 また、隣接する層間に強い相関関係を持つ注目マップを再利用するために、隣接する変圧器層間にアテンション共有を構築する。 そして、異なるトークンプーリングおよびアテンション共有機構のための可能な組み合わせのコンパクトセットを構築する。 提案するコンパクトセットに基づいて,各レイヤのトークン数と注目するレイヤの選択を,データから自動的に学習されるハイパーパラメータとして扱うことができる。 実験の結果,提案手法はdeitと比較して画像ネット分類の精度を最大6.6%向上できることがわかった。

In this paper, we observe two levels of redundancies when applying vision transformers (ViT) for image recognition. First, fixing the number of tokens through the whole network produces redundant features at the spatial level. Second, the attention maps among different transformer layers are redundant. Based on the observations above, we propose a PSViT: a ViT with token Pooling and attention Sharing to reduce the redundancy, effectively enhancing the feature representation ability, and achieving a better speed-accuracy trade-off. Specifically, in our PSViT, token pooling can be defined as the operation that decreases the number of tokens at the spatial level. Besides, attention sharing will be built between the neighboring transformer layers for reusing the attention maps having a strong correlation among adjacent layers. Then, a compact set of the possible combinations for different token pooling and attention sharing mechanisms are constructed. Based on the proposed compact set, the number of tokens in each layer and the choices of layers sharing attention can be treated as hyper-parameters that are learned from data automatically. Experimental results show that the proposed scheme can achieve up to 6.6% accuracy improvement in ImageNet classification compared with the DeiT.
翻訳日:2021-08-11 13:26:57 公開日:2021-08-07
# (参考訳) 教師なし人物再同定のための識別表現学習に向けて [全文訳有]

Towards Discriminative Representation Learning for Unsupervised Person Re-identification ( http://arxiv.org/abs/2108.03439v1 )

ライセンス: CC0 1.0
Takashi Isobe, Dong Li, Lu Tian, Weihua Chen, Yi Shan, Shengjin Wang(参考訳) 本研究では、ソースドメインでアノテーションが利用できるがターゲットではない人物再IDに対する教師なしドメイン適応の問題に対処する。 従来の方法は2段階の最適化パイプラインに従っており、まずネットワークはソース上で事前トレーニングされ、次に機能クラスタリングによって生成された擬似ラベルでターゲットに対して微調整される。 このような方法には2つの主要な制限がある。 1)ラベルノイズは,対象クラスを認識するための識別的特徴の学習を妨げる可能性がある。 2) ドメインギャップは、ソースからターゲットへの知識伝達を妨げる可能性がある。 これらの問題を緩和するための3種類の技術スキームを提案する。 まず,特徴学習とクラスタ精製の反復最適化により,教師なしの方法で雑音耐性表現を学習するクラスタ間コントラスト学習アルゴリズム(ccl)を提案する。 第2に、プログレッシブドメイン適応(PDA)戦略を採用し、ソースとターゲットデータのドメインギャップを徐々に緩和する。 第3に、フーリエ空間における余剰制約を課すことにより、re-IDモデルのクラス分離性をさらに最大化するフーリエ拡張(FA)を提案する。 これらのスキームは識別的特徴表現の学習を容易にすることができる。 実験により,MMT を8.1 %,9.9 %,11.4 %,11.1 % の mAP をそれぞれマーケット・ツー・デューク・ツー・マーケット,マーケット・ツー・MSMT,デューク・ツー・MSMT のタスクで上回っているような,最先端の非教師なしの Re-ID 手法に対する顕著な改善が得られた。

In this work, we address the problem of unsupervised domain adaptation for person re-ID where annotations are available for the source domain but not for target. Previous methods typically follow a two-stage optimization pipeline, where the network is first pre-trained on source and then fine-tuned on target with pseudo labels created by feature clustering. Such methods sustain two main limitations. (1) The label noise may hinder the learning of discriminative features for recognizing target classes. (2) The domain gap may hinder knowledge transferring from source to target. We propose three types of technical schemes to alleviate these issues. First, we propose a cluster-wise contrastive learning algorithm (CCL) by iterative optimization of feature learning and cluster refinery to learn noise-tolerant representations in the unsupervised manner. Second, we adopt a progressive domain adaptation (PDA) strategy to gradually mitigate the domain gap between source and target data. Third, we propose Fourier augmentation (FA) for further maximizing the class separability of re-ID models by imposing extra constraints in the Fourier space. We observe that these proposed schemes are capable of facilitating the learning of discriminative feature representations. Experiments demonstrate that our method consistently achieves notable improvements over the state-of-the-art unsupervised re-ID methods on multiple benchmarks, e.g., surpassing MMT largely by 8.1\%, 9.9\%, 11.4\% and 11.1\% mAP on the Market-to-Duke, Duke-to-Market, Market-to-MSMT and Duke-to-MSMT tasks, respectively.
翻訳日:2021-08-11 13:08:33 公開日:2021-08-07
# (参考訳) 思考と感情の状態を決定する機械学習ツール [全文訳有]

A Machine Learning Tool to Determine State of Mind and Emotion ( http://arxiv.org/abs/2108.03444v1 )

ライセンス: CC BY 4.0
Rodrigo S. Jamisola Jr(参考訳) 本稿では,人間専門家の助けを借りずに,質問紙を通じて個人の心の状態や感情を自動的に判断する機械学習ツールの開発の可能性を検討する。 心と感情の状態は、この作品において、論理や理性に基づいていない好み、感情、意見に関連するものとして定義される。 人が「私は...感じる」と言うことから答えを出す場合です。 このツールは心理学者の専門知識を模倣するように設計されており、心理学の正式な知識を持たない。 そのアイデアは、ユーザーから集めた何千という質問を通じて、純粋に計算方法によって専門知識を構築することだ。 薬物依存症、アルコール依存症、性的魅力、hivステータス、コミットメントの程度、活動の傾向などを診断することを目的としている。 まず,関連文献を提示し,データ収集手法に従って分類する。 別の分類は、好み、感情、グループ化、ルールに基づいて作成され、より深い解釈と心と感情の状態の理解を達成する。 第2に,10質問と292回答のオンライン中毒アンケートを用いて,提案ツールを開発した。 さらに、構築された機械学習モデルを通じて、依存の次元に関する最初の調査が提示される。 機械学習手法、すなわち、人工知能ニューラルネットワーク(ANN)とサポートベクターマシン(SVM)は、応答者の真、偽、あるいは状態の度合いを決定するために使用される。

This paper investigates the possibility of creating a machine learning tool that automatically determines the state of mind and emotion of an individual through a questionnaire, without the aid of a human expert. The state of mind and emotion is defined in this work as pertaining to preference, feelings, or opinion that is not based on logic or reason. It is the case when a person gives out an answer to start by saying, "I feel...". The tool is designed to mimic the expertise of a psychologist and is built without any formal knowledge of psychology. The idea is to build the expertise by purely computational methods through thousands of questions collected from users. It is aimed towards possibly diagnosing substance addiction, alcoholism, sexual attraction, HIV status, degree of commitment, activity inclination, etc. First, the paper presents the related literature and classifies them according to data gathering methods. Another classification is created according to preference, emotion, grouping, and rules to achieve a deeper interpretation and better understanding of the state of mind and emotion. Second, the proposed tool is developed using an online addiction questionnaire with 10 questions and 292 respondents. In addition, an initial investigation on the dimension of addiction is presented through the built machine learning model. Machine learning methods, namely, artificial neural network (ANN) and support vector machine (SVM), are used to determine a true or false or degree of state of a respondent.
翻訳日:2021-08-11 13:06:40 公開日:2021-08-07
# (参考訳) マルチモードプロセス監視のための自己学習スパースPCA [全文訳有]

Self-learning sparse PCA for multimode process monitoring ( http://arxiv.org/abs/2108.03449v1 )

ライセンス: CC BY 4.0
Jingxin Zhang, Donghua Zhou, Maoyin Chen(参考訳) 本稿では,連続モードに対する自己学習能力を有する,新しいスパース主成分分析アルゴリズムを提案する。そこでは,変数の重要度を測定するためにシナプス知能が用いられ,先行モードの学習知識を保存するために正規化項が加えられる。 従来のマルチモードモニタリング方法とは異なり、モニタリングモデルは現在のモデルと新しいモードが到着した時に新しいデータに基づいて更新され、シーケンシャルモードの顕著なパフォーマンスを提供する。 さらに、スクラッチから頻繁にモデルを再トレーニングし、以前のモードからデータを格納する必要がないため、計算とストレージリソースは長期的に保存される。 さらに重要なことに、モデルはパラメータの空間性のために優れた解釈可能性を持つ。 最後に,提案アルゴリズムの有効性を示すために,数値ケースと実用的な粉砕システムを採用した。

This paper proposes a novel sparse principal component analysis algorithm with self-learning ability for successive modes, where synaptic intelligence is employed to measure the importance of variables and a regularization term is added to preserve the learned knowledge of previous modes. Different from traditional multimode monitoring methods, the monitoring model is updated based on the current model and new data when a new mode arrives, thus delivering prominent performance for sequential modes. Besides, the computation and storage resources are saved in the long run, because it is not necessary to retrain the model from scratch frequently and store data from previous modes. More importantly, the model furnishes excellent interpretability owing to the sparsity of parameters. Finally, a numerical case and a practical pulverizing system are adopted to illustrate the effectiveness of the proposed algorithm.
翻訳日:2021-08-11 12:30:36 公開日:2021-08-07
# (参考訳) k-merによるSARS-CoV-2変数同定 [全文訳有]

A k-mer Based Approach for SARS-CoV-2 Variant Identification ( http://arxiv.org/abs/2108.03465v1 )

ライセンス: CC0 1.0
Sarwan Ali, Bikram Sahoo, Naimat Ullah, Alexander Zelikovskiy, Murray Patterson, Imdadullah Khan(参考訳) 新型コロナウイルス(COVID-19)が世界中に急速に広まり、継続的な突然変異が続く中、SARS-CoV-2の様々な変種(および未知)を識別するシステムを設計することが重要である。 特定の変種を特定することは、その拡散パターンを理解し、モデル化し、効果的な緩和戦略を設計し、将来のアウトブレイクを防ぐのに役立つ。 また、既知のワクチンのそれぞれの変異に対する有効性の研究や、ブレイクスルー感染の可能性をモデル化する上で重要な役割を担っている。 スパイクタンパク質は、新型コロナウイルスの変異に関連する情報や変数のほとんどを含んでいることが知られている。 本稿では,ヒトにおけるウイルスの異なる変異の分類にスパイク配列を用いる。 アミノ酸のオーダーを保存することが,下位の分類器の性能向上に寄与することを示す。 また、少数のトレーニングサンプル(データの1〜%$)のみを使用して、ベースラインアルゴリズムを上回るようにモデルをトレーニングできることも示しています。 最後に,変異体同定に重要な役割を果たす異なるアミノ酸の重要性と,米国疾病予防管理センター(cdc)の報告とどのように一致するかを示す。

With the rapid spread of the novel coronavirus (COVID-19) across the globe and its continuous mutation, it is of pivotal importance to design a system to identify different known (and unknown) variants of SARS-CoV-2. Identifying particular variants helps to understand and model their spread patterns, design effective mitigation strategies, and prevent future outbreaks. It also plays a crucial role in studying the efficacy of known vaccines against each variant and modeling the likelihood of breakthrough infections. It is well known that the spike protein contains most of the information/variatio n pertaining to coronavirus variants. In this paper, we use spike sequences to classify different variants of the coronavirus in humans. We show that preserving the order of the amino acids helps the underlying classifiers to achieve better performance. We also show that we can train our model to outperform the baseline algorithms using only a small number of training samples ($1\%$ of the data). Finally, we show the importance of the different amino acids which play a key role in identifying variants and how they coincide with those reported by the USA's Centers for Disease Control and Prevention (CDC).
翻訳日:2021-08-11 12:14:41 公開日:2021-08-07
# (参考訳) 道路交通事故解析のためのクラスタリングアルゴリズム [全文訳有]

Clustering Algorithms to Analyze the Road Traffic Crashes ( http://arxiv.org/abs/2108.03490v1 )

ライセンス: CC BY 4.0
Mahnaz Rafia Islam, Israt Jahan Jenny, Moniruzzaman Nayon, Md. Rajibul Islam, Md Amiruzzaman, M. Abdullah-Al-Wadud(参考訳) 道路事故データの適切なクラスタリング法と最適なクラスタ数を選択することは、時に混乱し難い。 本稿では, クラスター事故発生領域に適用された既存手法の欠点を解析し, 騒音を伴うアプリケーションの密度に基づく空間クラスタリング(DBSCAN)と, クラスタリング構造(OPTICS)を識別するための順序付け点を用いることを推奨する。 ノースカロライナの道路事故の事例を実データで比較した結果,これらのアルゴリズムによりより有効性と効率が向上した。

Selecting an appropriate clustering method as well as an optimal number of clusters in road accident data is at times confusing and difficult. This paper analyzes shortcomings of different existing techniques applied to cluster accident-prone areas and recommends using Density-Based Spatial Clustering of Applications with Noise (DBSCAN) and Ordering Points To Identify the Clustering Structure (OPTICS) to overcome them. Comparative performance analysis based on real-life data on the recorded cases of road accidents in North Carolina also show more effectiveness and efficiency achieved by these algorithms.
翻訳日:2021-08-11 12:02:03 公開日:2021-08-07
# (参考訳) 過パラメータ化GANにおける近似ラスト収束 [全文訳有]

Approximate Last Iterate Convergence in Overparameterized GANs ( http://arxiv.org/abs/2108.03491v1 )

ライセンス: CC BY 4.0
Elbert Du(参考訳) 本研究では,前処理で導入されたImplicit Update and Predictive Methodsのダイナミクスが,ニューラルネットワークの幅とともに近傍の面積が縮小する過パラメータ化GANにおいて,最適近傍への最後の反復収束を満足することを示した。 これは、平均的な反復収束を保証した以前の結果とは対照的である。

In this work, we showed that the Implicit Update and Predictive Methods dynamics introduced in prior work satisfy last iterate convergence to a neighborhood around the optimum in overparameterized GANs, where the size of the neighborhood shrinks with the width of the neural network. This is in contrast to prior results, which only guaranteed average iterate convergence.
翻訳日:2021-08-11 11:52:59 公開日:2021-08-07
# (参考訳) kinematics clusteringは外傷性脳損傷予測のための頭部衝撃サブタイピングを可能にする [全文訳有]

Kinematics clustering enables head impact subtyping for better traumatic brain injury prediction ( http://arxiv.org/abs/2108.03498v1 )

ライセンス: CC BY 4.0
Xianghao Zhan, Yiheng Li, Yuzhe Liu, Nicholas J. Cecchi, Olivier Gevaert, Michael M. Zeineh, Gerald A. Grant, David B. Camarillo(参考訳) 外傷性脳損傷は、様々な種類の頭部衝撃によって引き起こされる。 しかし、運動学的特性が異なるため、多くの脳損傷リスク推定モデルは、人間が持続する可能性のある様々な影響に対して一般化できない。 頭部衝撃サブタイプの現在の定義は、衝撃源(例えば、フットボール、交通事故)に基づいており、衝撃源全体の衝撃の固有運動学的類似性を反映していない可能性がある。 キネマティックスに基づく衝撃サブタイプの新たな定義を検討するため,シミュレーション,大学フットボール,総合格闘技,カーレースなどさまざまなソースから3,161個の頭部衝撃を収集した。 我々は,K平均クラスタリングを用いて,頭部回転運動学から16の時間的特徴をクラスタリングした。 次に, 累積ひずみ損傷に対するサブタイプ特異的リッジ回帰モデル(しきい値15%)を開発し, 異なる音源からの衝撃を混合するベースライン法と比較して推定精度を大幅に向上させ, 1モデル(r^2は0.7から0.9)を開発した。 キネマティックな特徴の影響を調べるために, 回帰精度に基づいて最重要特徴(最大角加速度, z軸に沿った最大角加速度, y軸に沿った最大線形加速度)を提示し, サブタイプを分割した各特徴の臨界点を求めるためにロジスティック回帰を用いた。 この研究により、研究者はデータ駆動方式で頭部衝撃サブタイプを定義でき、より一般化可能な脳損傷リスク推定につながる。

Traumatic brain injury can be caused by various types of head impacts. However, due to different kinematic characteristics, many brain injury risk estimation models are not generalizable across the variety of impacts that humans may sustain. The current definitions of head impact subtypes are based on impact sources (e.g., football, traffic accident), which may not reflect the intrinsic kinematic similarities of impacts across the impact sources. To investigate the potential new definitions of impact subtypes based on kinematics, 3,161 head impacts from various sources including simulation, college football, mixed martial arts, and car racing were collected. We applied the K-means clustering to cluster the impacts on 16 standardized temporal features from head rotation kinematics. Then, we developed subtype-specific ridge regression models for cumulative strain damage (using the threshold of 15%), which significantly improved the estimation accuracy compared with the baseline method which mixed impacts from different sources and developed one model (R^2 from 0.7 to 0.9). To investigate the effect of kinematic features, we presented the top three critical features (maximum resultant angular acceleration, maximum angular acceleration along the z-axis, maximum linear acceleration along the y-axis) based on regression accuracy and used logistic regression to find the critical points for each feature that partitioned the subtypes. This study enables researchers to define head impact subtypes in a data-driven manner, which leads to more generalizable brain injury risk estimation.
翻訳日:2021-08-11 11:36:49 公開日:2021-08-07
# (参考訳) 知覚的画像統計を保存するための学習フォブレーション再構成法 [全文訳有]

Learning Foveated Reconstruction to Preserve Perceived Image Statistics ( http://arxiv.org/abs/2108.03499v1 )

ライセンス: CC BY 4.0
Luca Surace (Universit\`a della Svizzera italiana), Marek Wernikowski (West Pomeranian University of Technology), Okan Tursun (Universit\`a della Svizzera italiana), Karol Myszkowski (Max Planck Institute for Informatics), Rados{\l}aw Mantiuk (West Pomeranian University of Technology), Piotr Didyk (Universit\`a della Svizzera italiana)(参考訳) foveated image reconstructionは、人間の視覚系の網膜の感度に応じて分布するわずかなサンプルセットからフルイメージを回復し、離心性によって急速に低下する。 近年,ジェネレーティブ・アドバイサル・ネットワークの利用は画像情報の幻覚化に成功し,そのような課題に対して有望な解決策であることが示されている。 他の教師付き学習手法と同様に、この手法では損失関数の定義とトレーニング戦略が出力品質に大きな影響を及ぼす。 本研究では,人間の視覚システムの能力や限界を十分に認識し,視覚的に重要な特徴を再構築するなど,望ましくない再建技術の訓練を効率的に指導する方法を疑問視する。 GANをベースとした解法の性質から,異なるサンプル密度に対する幻覚に対する人間の感受性に着目する。 本稿では,新しい心理物理学実験,データセット,foveated image reconstructionのトレーニング手順を提案する。 この戦略は、出力における知覚上重要なずれのみを罰することによって、ジェネレータネットワークに柔軟性を提供する。 その結果,自然画像統計よりも知覚画像統計を保存することを目的とした。 我々は,新たに訓練した客観的指標とユーザ実験を用いて,戦略を評価し,代替ソリューションと比較する。

Foveated image reconstruction recovers full image from a sparse set of samples distributed according to the human visual system's retinal sensitivity that rapidly drops with eccentricity. Recently, the use of Generative Adversarial Networks was shown to be a promising solution for such a task as they can successfully hallucinate missing image information. Like for other supervised learning approaches, also for this one, the definition of the loss function and training strategy heavily influences the output quality. In this work, we pose the question of how to efficiently guide the training of foveated reconstruction techniques such that they are fully aware of the human visual system's capabilities and limitations, and therefore, reconstruct visually important image features. Due to the nature of GAN-based solutions, we concentrate on the human's sensitivity to hallucination for different input sample densities. We present new psychophysical experiments, a dataset, and a procedure for training foveated image reconstruction. The strategy provides flexibility to the generator network by penalizing only perceptually important deviations in the output. As a result, the method aims to preserve perceived image statistics rather than natural image statistics. We evaluate our strategy and compare it to alternative solutions using a newly trained objective metric and user experiments.
翻訳日:2021-08-11 11:18:59 公開日:2021-08-07
# (参考訳) ロシア語テキスト要約のための微調整GPT-3 [全文訳有]

Fine-tuning GPT-3 for Russian Text Summarization ( http://arxiv.org/abs/2108.03502v1 )

ライセンス: CC BY 4.0
Alexandr Nikolich, Arina Puchkova(参考訳) 自動要約技術(automatic summarization techniques)は、コアメッセージと最も関連するアイデアを維持しながら、テキストに与えられる情報を短縮し、一般化することを目的としている。 このタスクは、様々な方法でアプローチし、処理することができるが、最先端のモデルの既存のローカライズにもかかわらず、ロシア語に特化したソリューションを作成する試みは、それほど多く行われていない。 本稿では,ロシアニュースのコーポラ上でテキストを要約するrugpt3機能を紹介することを目的としている。 さらに、モデルの出力がランダムになりにくくなり、元のテキストに結びつくように、ハイパーパラメータチューニングを採用する。 得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、最先端のモデルの性能を超えることができることを示す。 感性のある要約を作成できたにもかかわらず,本モデルは,原文に含まれる名前付きエンティティ(姓,地名,日付など)の変更や,所定の文書に記載された事実からの逸脱,要約の情報の繰り返しなど,多くの欠陥を抱えている。

Automatic summarization techniques aim to shorten and generalize information given in the text while preserving its core message and the most relevant ideas. This task can be approached and treated with a variety of methods, however, not many attempts have been made to produce solutions specifically for the Russian language despite existing localizations of the state-of-the-art models. In this paper, we aim to showcase ruGPT3 ability to summarize texts, fine-tuning it on the corpora of Russian news with their corresponding human-generated summaries. Additionally, we employ hyperparameter tuning so that the model's output becomes less random and more tied to the original text. We evaluate the resulting texts with a set of metrics, showing that our solution can surpass the state-of-the-art model's performance without additional changes in architecture or loss function. Despite being able to produce sensible summaries, our model still suffers from a number of flaws, namely, it is prone to altering Named Entities present in the original text (such as surnames, places, dates), deviating from facts stated in the given document, and repeating the information in the summary.
翻訳日:2021-08-11 10:36:28 公開日:2021-08-07
# (参考訳) 超画素型オブジェクト提案のためのDeepFHセグメンテーション [全文訳有]

DeepFH Segmentations for Superpixel-based Object Proposal Refinement ( http://arxiv.org/abs/2108.03503v1 )

ライセンス: CC BY 4.0
Christian Wilms and Simone Frintrop(参考訳) クラスに依存しないオブジェクト提案生成は多くのオブジェクト検出パイプラインにおいて重要な第一歩である。 しかし、現代のシステムのオブジェクト提案は、セグメンテーションの観点ではかなり不正確であり、オブジェクトの境界にほぼ従わない。 典型的なリファインメントステップは数千の提案には適用されないため、オブジェクト提案生成システムのためのスーパーピクセルベースのリファインメントシステムを提案する。 詳細なスーパーピクセルとスーパーピクセルプールを深い特徴に利用して、エンド・ツー・エンドの学習システムで初期粗い提案を洗練する。 さらに,Felzenszwalb と Huttenlocher (FH) のセグメンテーションを深部特徴で強化し,セグメンテーション結果の改善とオブジェクト提案の改良を実現した新しいDeepFHセグメンテーションを提案する。 LVISアノテーションを用いたCOCOデータセットでは、DeepFHスーパーピクセルに基づく精細化が最先端の手法より優れており、より正確なオブジェクト提案につながることを示す。

Class-agnostic object proposal generation is an important first step in many object detection pipelines. However, object proposals of modern systems are rather inaccurate in terms of segmentation and only roughly adhere to object boundaries. Since typical refinement steps are usually not applicable to thousands of proposals, we propose a superpixel-based refinement system for object proposal generation systems. Utilizing precise superpixels and superpixel pooling on deep features, we refine initial coarse proposals in an end-to-end learned system. Furthermore, we propose a novel DeepFH segmentation, which enriches the classic Felzenszwalb and Huttenlocher (FH) segmentation with deep features leading to improved segmentation results and better object proposal refinements. On the COCO dataset with LVIS annotations, we show that our refinement based on DeepFH superpixels outperforms state-of-the-art methods and leads to more precise object proposals.
翻訳日:2021-08-11 10:28:37 公開日:2021-08-07
# (参考訳) ロッキーチケットネットワークにおける会員推測攻撃 [全文訳有]

Membership Inference Attacks on Lottery Ticket Networks ( http://arxiv.org/abs/2108.03506v1 )

ライセンス: CC BY 4.0
Aadesh Bagmar, Shishira R Maiya, Shruti Bidwalka, Amol Deshpande(参考訳) Lottery Ticket仮説の脆弱性は、メンバーシップ推論攻撃の見地からは研究されていない。 この研究を通じて、私たちは最初に、宝くじのチケットネットワークがメンバーシップ推論攻撃に対して等しく脆弱であることを示す。 メンバーシップ推論攻撃 (MIA) は、データサンプルが訓練されたモデルのトレーニングセットに属するか否かを決定するプロセスである。 メンバーシップ推論攻撃は、ターゲット攻撃に使用できるトレーニングデータに関する重要な情報を漏洩する可能性がある。 最近のディープラーニングモデルは、非常に大きなメモリフットプリントを持ち、トレーニングや描画推論に関連する計算コストが高いことが多い。 Lottery Ticket仮説は、同じ回数の繰り返しにおいてテスト精度の点で、少なくとも元のモデルの性能と一致する小さなサブネットワークを見つけるために、ネットワークをプルークするために使用される。 CIFAR-10, CIFAR-100, ImageNetデータセットを用いて画像分類を行い, 攻撃精度が類似していることを確認する。 また,攻撃精度は,データセット内のクラス数やネットワークの幅に応じて直接的に変化することも確認した。 これらの攻撃は高い精度でモデル間で伝達可能であることを示す。

The vulnerability of the Lottery Ticket Hypothesis has not been studied from the purview of Membership Inference Attacks. Through this work, we are the first to empirically show that the lottery ticket networks are equally vulnerable to membership inference attacks. A Membership Inference Attack (MIA) is the process of determining whether a data sample belongs to a training set of a trained model or not. Membership Inference Attacks could leak critical information about the training data that can be used for targeted attacks. Recent deep learning models often have very large memory footprints and a high computational cost associated with training and drawing inferences. Lottery Ticket Hypothesis is used to prune the networks to find smaller sub-networks that at least match the performance of the original model in terms of test accuracy in a similar number of iterations. We used CIFAR-10, CIFAR-100, and ImageNet datasets to perform image classification tasks and observe that the attack accuracies are similar. We also see that the attack accuracy varies directly according to the number of classes in the dataset and the sparsity of the network. We demonstrate that these attacks are transferable across models with high accuracy.
翻訳日:2021-08-11 10:12:16 公開日:2021-08-07
# (参考訳) continuitylearner:線分分割のための幾何連続性特徴学習 [全文訳有]

ContinuityLearner: Geometric Continuity Feature Learning for Lane Segmentation ( http://arxiv.org/abs/2108.03507v1 )

ライセンス: CC BY 4.0
Haoyu Fang, Jing Zhu, Yi Fang(参考訳) レーンのセグメンテーションは、車線マークが閉塞や極端照明によって弱いテクスチャ一貫性を示すが、一般的な畳み込みニューラルネットワーク(CNN)が意味オブジェクトを学習できない交通画像において強力な幾何学的連続性を示すため、自律運転システム設計において難しい問題である。 従来のcnnにレーンの幾何学的手がかりを学習させるため,continuitylearnerという深層ネットワークを提案する。 特に,提案するcnnに基づくパラダイムでは,クラス依存画像特徴マップを生成する新しいコンテキストエンコーディング画像特徴学習ネットワークと,レーンの空間情報と視覚情報の両方を融合して幾何学的連続性特徴表現を利用する新しい符号化層を含む。 continuitylearnerは、レーンの幾何学的連続性特徴に基づいており、統合的かつ連続的なインスタンスセマンティクスを用いて、トラフィックシナリオにおけるレーンを直接予測するように訓練されている。 CULaneデータセットとTusimpleベンチマークの実験結果から、ContinuityLearnerはレーンセグメンテーションにおける他の最先端技術よりも優れた性能を示している。

Lane segmentation is a challenging issue in autonomous driving system designing because lane marks show weak textural consistency due to occlusion or extreme illumination but strong geometric continuity in traffic images, from which general convolution neural networks (CNNs) are not capable of learning semantic objects. To empower conventional CNNs in learning geometric clues of lanes, we propose a deep network named ContinuityLearner to better learn geometric prior within lane. Specifically, our proposed CNN-based paradigm involves a novel Context-encoding image feature learning network to generate class-dependent image feature maps and a new encoding layer to exploit the geometric continuity feature representation by fusing both spatial and visual information of lane together. The ContinuityLearner, performing on the geometric continuity feature of lanes, is trained to directly predict the lane in traffic scenarios with integrated and continuous instance semantic. The experimental results on the CULane dataset and the Tusimple benchmark demonstrate that our ContinuityLearner has superior performance over other state-of-the-art techniques in lane segmentation.
翻訳日:2021-08-11 10:04:16 公開日:2021-08-07
# (参考訳) 多言語構成ウィキデータ質問 [全文訳有]

Multilingual Compositional Wikidata Questions ( http://arxiv.org/abs/2108.03509v1 )

ライセンス: CC BY 4.0
Ruixiang Cui, Rahul Aralikatte, Heather Lent, Daniel Hershcovich(参考訳) セマンティック解析により、人間は自然な相互作用を通じて膨大な知識資源を活用できる。 しかし、パーサーは主に、文法規則から生成された英語データに基づいた現在の標準ベンチマークであるcfq(keysers et al., 2020)のような英語リソース向けに設計され、評価されている。 本稿では,ウィキデータに基づく複数言語で並列な問合せペアのデータセットを作成する手法を提案し,構成ウィキデータ質問 (CWQ) と呼ばれるデータセットを提案する。 このデータを用いて,ヘブライ語,カンナダ語,中国語,英語のセマンティクスパーサーを訓練し,評価し,多言語セマンティクス解析の強みと弱みをよりよく理解する。 ゼロショットクロスリンガルトランスファーの実験では、事前訓練された多言語エンコーダでもモデルが有効なクエリを生成していないことが示されている。 我々の方法論、データセット、そしてその結果は、既存のリソースよりも現実的で多様な設定でのセマンティック解析の今後の研究に役立つだろう。

Semantic parsing allows humans to leverage vast knowledge resources through natural interaction. However, parsers are mostly designed for and evaluated on English resources, such as CFQ (Keysers et al., 2020), the current standard benchmark based on English data generated from grammar rules and oriented towards Freebase, an outdated knowledge base. We propose a method for creating a multilingual, parallel dataset of question-query pairs, grounded in Wikidata, and introduce such a dataset called Compositional Wikidata Questions (CWQ). We utilize this data to train and evaluate semantic parsers for Hebrew, Kannada, Chinese and English, to better understand the current strengths and weaknesses of multilingual semantic parsing. Experiments on zero-shot cross-lingual transfer demonstrate that models fail to generate valid queries even with pretrained multilingual encoders. Our methodology, dataset and results will facilitate future research on semantic parsing in more realistic and diverse settings than has been possible with existing resources.
翻訳日:2021-08-11 09:52:16 公開日:2021-08-07
# (参考訳) 音声信号から選択した情報的特徴量を用いたcough検出 [全文訳有]

Cough Detection Using Selected Informative Features from Audio Signals ( http://arxiv.org/abs/2108.03538v1 )

ライセンス: CC BY 4.0
Xinru Chen, Menghan Hu, Guangtao Zhai(参考訳) カフは呼吸器疾患や肺疾患の一般的な症状である。 干ばつ検出は、新型コロナウイルスなどの流行を予防、評価、防除するために重要である。 本稿では,cough音声信号からcoughイベントを検出するモデルを提案する。 モデルは、ESC-50データセットと自己記録コークス記録を組み合わせたデータセットでトレーニングされる。 本試験データセットは、類人病院の呼吸器疾患部入院患者から収集した入院者コークス記録を含む。 我々は,Random Frog,Uninformative Variable Elimination (UVE) およびVIPアルゴリズムによって選択された特徴数に基づいて,それぞれ15のコークス検出モデルを構築した。 最適モデルは、UVEアルゴリズムによりMel Frequency Cepstral Coefficients (MFCC) から選択された20の特徴に基づいており、SVM線形二クラス分類器で分類される。 最良のcough検出モデルは、94.9%、97.1%、93.1%、0.95の精度、リコール、精度、およびf1-scoreを実現する。 特徴ベクトルの次元を小さくした優れた性能は、スマートフォンなどのモバイルデバイスに適用される可能性を示し、カフ検出を遠隔および非接触にする。

Cough is a common symptom of respiratory and lung diseases. Cough detection is important to prevent, assess and control epidemic, such as COVID-19. This paper proposes a model to detect cough events from cough audio signals. The models are trained by the dataset combined ESC-50 dataset with self-recorded cough recordings. The test dataset contains inpatient cough recordings collected from inpatients of the respiratory disease department in Ruijin Hospital. We totally build 15 cough detection models based on different feature numbers selected by Random Frog, Uninformative Variable Elimination (UVE), and Variable influence on projection (VIP) algorithms respectively. The optimal model is based on 20 features selected from Mel Frequency Cepstral Coefficients (MFCC) features by UVE algorithm and classified with Support Vector Machine (SVM) linear two-class classifier. The best cough detection model realizes the accuracy, recall, precision and F1-score with 94.9%, 97.1%, 93.1% and 0.95 respectively. Its excellent performance with fewer dimensionality of the feature vector shows the potential of being applied to mobile devices, such as smartphones, thus making cough detection remote and non-contact.
翻訳日:2021-08-11 09:33:38 公開日:2021-08-07
# (参考訳) OSCAR-Net:画像属性に対するオブジェクト中心のシーングラフアテンション [全文訳有]

OSCAR-Net: Object-centric Scene Graph Attention for Image Attribution ( http://arxiv.org/abs/2108.03541v1 )

ライセンス: CC BY 4.0
Eric Nguyen, Tu Bui, Vishy Swaminathan, John Collomosse(参考訳) 画像は強力な物語を伝えるが、常に信頼できない。 画像と信頼できる情報源(属性)をマッチングすることで、ユーザーはオンラインで遭遇した画像のより深い判断をすることができる。 このようなマッチングを行うためのロバストな画像ハッシュアルゴリズムを提案する。 我々のハッシュは、微妙な視覚的詳細の操作に敏感であり、画像によって語られるストーリーを実質的に変えることができる。 しかし、ハッシュは良性変換(品質、コーデック、サイズ、形状などの変化)に不変である。 オンライン再配布中に イメージで経験しました 私たちの重要なコントリビューションはOSCAR-Net(Object-cen tric Scene Graph Attention for Image Attribution Network)です。 OSCAR-Netは、各オブジェクトの視覚的外観とその空間的関係のきめ細かい変化に対応するシーングラフ表現を構築する。 ネットワークは、オリジナルおよび操作された画像のデータセット上のコントラスト学習によって訓練され、数百万の画像にスケールするコンテンツフィンガープリントのためのアートイメージハッシュの状態が得られる。

Images tell powerful stories but cannot always be trusted. Matching images back to trusted sources (attribution) enables users to make a more informed judgment of the images they encounter online. We propose a robust image hashing algorithm to perform such matching. Our hash is sensitive to manipulation of subtle, salient visual details that can substantially change the story told by an image. Yet the hash is invariant to benign transformations (changes in quality, codecs, sizes, shapes, etc.) experienced by images during online redistribution. Our key contribution is OSCAR-Net (Object-centric Scene Graph Attention for Image Attribution Network); a robust image hashing model inspired by recent successes of Transformers in the visual domain. OSCAR-Net constructs a scene graph representation that attends to fine-grained changes of every object's visual appearance and their spatial relationships. The network is trained via contrastive learning on a dataset of original and manipulated images yielding a state of the art image hash for content fingerprinting that scales to millions of images.
翻訳日:2021-08-11 09:24:00 公開日:2021-08-07
# 伝達学習による類似言語翻訳の改善

Improving Similar Language Translation With Transfer Learning ( http://arxiv.org/abs/2108.03533v1 )

ライセンス: Link先を確認
Ife Adebara and Muhammad Abdul-Mageed(参考訳) 本稿では,(低リソース)類似言語間を翻訳するために,事前学習したニューラルマシン翻訳モデルに基づくトランスファー学習について検討する。 この作業は、wmt 2021の類似言語翻訳共有タスクへの私たちの貢献の一部で、フランス語-バンバラ語、スペイン語-カタルーニャ語、スペイン語-ポルトガル語の両方の異なる言語ペアのモデルを提出しました。 カタルーニャ-スペイン (82.79$ bleu) とポルトガル-スペイン (87.11$ bleu) のモデルは、公式な共有タスク評価でトップ1にランクインし、フランス-バンバラペアのモデルを提出した唯一のチームです。

We investigate transfer learning based on pre-trained neural machine translation models to translate between (low-resource) similar languages. This work is part of our contribution to the WMT 2021 Similar Languages Translation Shared Task where we submitted models for different language pairs, including French-Bambara, Spanish-Catalan, and Spanish-Portuguese in both directions. Our models for Catalan-Spanish ($82.79$ BLEU) and Portuguese-Spanish ($87.11$ BLEU) rank top 1 in the official shared task evaluation, and we are the only team to submit models for the French-Bambara pairs.
翻訳日:2021-08-10 15:50:23 公開日:2021-08-07
# NASOA: モデル動物園によるタスク指向オンラインファインチューニングの高速化を目指す

NASOA: Towards Faster Task-oriented Online Fine-tuning with a Zoo of Models ( http://arxiv.org/abs/2108.03434v1 )

ライセンス: Link先を確認
Hang Xu, Ning Kang, Gengwei Zhang, Chuanlong Xie, Xiaodan Liang, Zhenguo Li(参考訳) 事前訓練されたimagenetモデルの微調整は、様々なコンピュータビジョンタスクに対してシンプルで効果的で人気のあるアプローチである。 微調整の一般的な実践は、固定された事前訓練モデルによるデフォルトのハイパーパラメータ設定を採用することであるが、どちらも特定のタスクや時間制約に最適化されていない。 さらに、タスクがストリームに順次到着するクラウドコンピューティングやGPUクラスタでは、より高速なオンライン微調整が、お金、エネルギー消費、CO2排出量を節約するためのより望ましい、現実的な戦略です。 本稿では,NASOA というニューラルアーキテクチャ検索とオンライン適応フレームワークを,ユーザの要求に応じてより高速なタスク指向の微調整のために提案する。 具体的には、NASOAはまずオフラインのNASを採用し、トレーニング効率の良いネットワークのグループを特定し、事前訓練されたモデル動物園を形成する。 フレキシブルで効率的な探索を実現するために,新しい結合ブロックとマクロレベルの探索空間を提案する。 そして、過去の課題から経験を蓄積して適応モデルによる微調整性能を推定することにより、最も適したモデルをピックアップし、目的のタスクごとに一発でパーソナライズされたトレーニング体制を生成するオンラインスケジュール生成器を提案する。 結果のモデル動物園は、例えばSOTAモデルよりも訓練効率が高い。 RegNetY-16GFより1.6倍、EfficientNetB3より1.7倍速い。 複数のデータセットの実験でも、NASOAはより優れた微調整結果、すなわち、はるかに優れた結果が得られることが示されている。 様々な制約とタスクの下でRegNetシリーズの最高のパフォーマンスよりも約2.1%精度が向上した。

Fine-tuning from pre-trained ImageNet models has been a simple, effective, and popular approach for various computer vision tasks. The common practice of fine-tuning is to adopt a default hyperparameter setting with a fixed pre-trained model, while both of them are not optimized for specific tasks and time constraints. Moreover, in cloud computing or GPU clusters where the tasks arrive sequentially in a stream, faster online fine-tuning is a more desired and realistic strategy for saving money, energy consumption, and CO2 emission. In this paper, we propose a joint Neural Architecture Search and Online Adaption framework named NASOA towards a faster task-oriented fine-tuning upon the request of users. Specifically, NASOA first adopts an offline NAS to identify a group of training-efficient networks to form a pretrained model zoo. We propose a novel joint block and macro-level search space to enable a flexible and efficient search. Then, by estimating fine-tuning performance via an adaptive model by accumulating experience from the past tasks, an online schedule generator is proposed to pick up the most suitable model and generate a personalized training regime with respect to each desired task in a one-shot fashion. The resulting model zoo is more training efficient than SOTA models, e.g. 6x faster than RegNetY-16GF, and 1.7x faster than EfficientNetB3. Experiments on multiple datasets also show that NASOA achieves much better fine-tuning results, i.e. improving around 2.1% accuracy than the best performance in RegNet series under various constraints and tasks; 40x faster compared to the BOHB.
翻訳日:2021-08-10 15:50:10 公開日:2021-08-07
# 唇読解のための時空間注意機構と知識蒸留

Spatio-Temporal Attention Mechanism and Knowledge Distillation for Lip Reading ( http://arxiv.org/abs/2108.03543v1 )

ライセンス: Link先を確認
Shahd Elashmawy, Marian Ramsis, Hesham M. Eraqi, Farah Eldeshnawy, Hadeel Mabrouk, Omar Abugabal, Nourhan Sakr(参考訳) 音声・音声・視覚音声認識の分野での進歩にもかかわらず、一部の音素の曖昧さのため、視覚音声認識システムはまだ未探索である。 本研究では,3つのコントリビューションを組み合わせた新しい唇読解モデルを提案する。 まず、モデルフロントエンドは、入力された視覚フレームから情報データを抽出するのに役立つ時空間的注意機構を採用する。 第二に、モデルバックエンドはシーケンスレベルおよびフレームレベルの知識蒸留(KD)技術を使用しており、視覚モデルトレーニング中に音声データを活用することができる。 第3に,顔ランドマーク検出に基づくリップアリゲーションを含むデータ前処理パイプラインを採用する。 LRWリップ読み取りデータセットベンチマークでは、時空間の注意、知識蒸留、唇調整の貢献がそれぞれ88.43%、88.64%、88.37%と顕著な精度向上が示されている。

Despite the advancement in the domain of audio and audio-visual speech recognition, visual speech recognition systems are still quite under-explored due to the visual ambiguity of some phonemes. In this work, we propose a new lip-reading model that combines three contributions. First, the model front-end adopts a spatio-temporal attention mechanism to help extract the informative data from the input visual frames. Second, the model back-end utilizes a sequence-level and frame-level Knowledge Distillation (KD) techniques that allow leveraging audio data during the visual model training. Third, a data preprocessing pipeline is adopted that includes facial landmarks detection-based lip-alignment. On LRW lip-reading dataset benchmark, a noticeable accuracy improvement is demonstrated; the spatio-temporal attention, Knowledge Distillation, and lip-alignment contributions achieved 88.43%, 88.64%, and 88.37% respectively.
翻訳日:2021-08-10 15:49:44 公開日:2021-08-07
# 選び方を学ぶ

Learning to Elect ( http://arxiv.org/abs/2108.02768v2 )

ライセンス: Link先を確認
Cem Anil, Xuchan Bao(参考訳) 投票システムには、推薦システム、ウェブ検索、製品デザイン、選挙など幅広いアプリケーションがある。 汎用分析ツールの欠如により、ユースケースごとに望ましい投票ルールを手作業で設計することは困難である。 そのため,各シナリオを対象とした投票ルールを自動的に発見することが望ましい。 本稿では,Set Transformersや完全連結グラフネットワーク,DeepSetsといったセットインプットニューラルネットワークアーキテクチャが,理論的にも経験的にも投票規則の学習に適していることを示す。 特に,これらのネットワークモデルは,複数の既存投票ルールを模倣して,位置ベース(複数,ボルダなど)と比較ベース(ケメニー,コープランド,マクシミンなど)の両方の説得力のある正確性を実現するだけでなく,異なる社会福祉機能を最大化する最適に近い投票ルールも発見できることを示す。 さらに, 学習した投票ルールは, 異なる投票率分布と, 訓練中は見当たらない選挙規模によく一般化する。

Voting systems have a wide range of applications including recommender systems, web search, product design and elections. Limited by the lack of general-purpose analytical tools, it is difficult to hand-engineer desirable voting rules for each use case. For this reason, it is appealing to automatically discover voting rules geared towards each scenario. In this paper, we show that set-input neural network architectures such as Set Transformers, fully-connected graph networks and DeepSets are both theoretically and empirically well-suited for learning voting rules. In particular, we show that these network models can not only mimic a number of existing voting rules to compelling accuracy --- both position-based (such as Plurality and Borda) and comparison-based (such as Kemeny, Copeland and Maximin) --- but also discover near-optimal voting rules that maximize different social welfare functions. Furthermore, the learned voting rules generalize well to different voter utility distributions and election sizes unseen during training.
翻訳日:2021-08-10 15:49:02 公開日:2021-08-07
# 低密度分離超平面のインクリメンタル推定による大規模データセットのクラスタリング

Clustering Large Data Sets with Incremental Estimation of Low-density Separating Hyperplanes ( http://arxiv.org/abs/2108.03442v1 )

ライセンス: Link先を確認
David P. Hofmeyr(参考訳) 教師なし文脈における低密度超平面分離器の効率的な取得法を提案する。 低密度セパレータは、セパレータの異なる側への割り当てに基づいて、データの集合のパーティションを得るのに使うことができる。 提案手法は,基本分布と平滑化核の畳み込みに関して,超平面上の集積密度に確率的勾配降下を適用することに基づいている。 平滑化カーネルの帯域幅がゼロに向かって減少する場合には、真の基底密度に対するこれらの更新のバイアスがゼロとなる傾向にあり、超平面上の密度の最小値への収束が得られる。 低密度超平面の集まりによって引き起こされる分割の後処理は、適切な数のクラスターを自動的に選択できる効率的で正確なクラスタリング方法をもたらす。 提案手法による実験により、関連するベンチマークと比較した場合の速度と精度の両面で高い競争力を示す。 提案されたアプローチを実装するコードは、https://github.com/D avidHofmeyr/iMDHからRパッケージとして入手できる。

An efficient method for obtaining low-density hyperplane separators in the unsupervised context is proposed. Low density separators can be used to obtain a partition of a set of data based on their allocations to the different sides of the separators. The proposed method is based on applying stochastic gradient descent to the integrated density on the hyperplane with respect to a convolution of the underlying distribution and a smoothing kernel. In the case where the bandwidth of the smoothing kernel is decreased towards zero, the bias of these updates with respect to the true underlying density tends to zero, and convergence to a minimiser of the density on the hyperplane can be obtained. A post-processing of the partition induced by a collection of low-density hyperplanes yields an efficient and accurate clustering method which is capable of automatically selecting an appropriate number of clusters. Experiments with the proposed approach show that it is highly competitive in terms of both speed and accuracy when compared with relevant benchmarks. Code to implement the proposed approach is available in the form of an R package from https://github.com/D avidHofmeyr/iMDH.
翻訳日:2021-08-10 15:47:34 公開日:2021-08-07
# von Neumann条件分岐を用いた移動学習

Learning to Transfer with von Neumann Conditional Divergence ( http://arxiv.org/abs/2108.03531v1 )

ライセンス: Link先を確認
Ammar Shaker and Shujian Yu(参考訳) 特徴表現の類似性は、ドメイン適応と一般化の成功において重要な役割を果たす。 特徴の類似性は、境界分布の不分散と条件分布の近さの両方を含み、希望する応答が$y$(例えばクラスラベル)である。 残念なことに、従来のメソッドは常に$y$の情報を考慮せずにそのような特徴を学習し、結果として条件分布のミスマッチや、データ分布の根底にある差別的構造が混在する可能性がある。 本研究では,最近提案されたフォン・ノイマン条件分岐を導入し,複数の領域間の遷移性を改善する。 この新しい分岐は微分可能であり、機能間の機能依存度や$y$を簡単に定量化することができる。 複数のソースタスクが与えられた場合、この分散性を統合して識別情報を$y$で取得し、それらのソースタスクが同時に、あるいは逐次的に観察されていることを前提に、新しい学習目標を設計する。 どちらのシナリオでも、新しいタスクの一般化誤差が小さく、ソースタスク(シーケンシャルな設定)を忘れないという点で、最先端のメソッドに対して好ましい性能が得られる。

The similarity of feature representations plays a pivotal role in the success of domain adaptation and generalization. Feature similarity includes both the invariance of marginal distributions and the closeness of conditional distributions given the desired response $y$ (e.g., class labels). Unfortunately, traditional methods always learn such features without fully taking into consideration the information in $y$, which in turn may lead to a mismatch of the conditional distributions or the mix-up of discriminative structures underlying data distributions. In this work, we introduce the recently proposed von Neumann conditional divergence to improve the transferability across multiple domains. We show that this new divergence is differentiable and eligible to easily quantify the functional dependence between features and $y$. Given multiple source tasks, we integrate this divergence to capture discriminative information in $y$ and design novel learning objectives assuming those source tasks are observed either simultaneously or sequentially. In both scenarios, we obtain favorable performance against state-of-the-art methods in terms of smaller generalization error on new tasks and less catastrophic forgetting on source tasks (in the sequential setup).
翻訳日:2021-08-10 15:47:19 公開日:2021-08-07
# 深層畳み込みネットワークの一般化に及ぼすエイリアシングの影響

Impact of Aliasing on Generalization in Deep Convolutional Networks ( http://arxiv.org/abs/2108.03489v1 )

ライセンス: Link先を確認
Cristina Vasconcelos, Hugo Larochelle, Vincent Dumoulin, Rob Romijnders, Nicolas Le Roux, Ross Goroshin(参考訳) 深層畳み込みネットワークの一般化に対するエイリアシングの影響を調査し,広く使用されているアーキテクチャの構造上の制約により,データ拡張方式だけでは防止できないことを示した。 周波数解析理論からの洞察を引き合いに出し、resnet と efficientnet のアーキテクチャを詳しく調べ、それぞれの主要コンポーネントにおけるエイリアスと情報損失のトレードオフをレビューする。 特にネットワークが学習能力に欠ける場所で,訓練不能な低パスフィルタを重要箇所に挿入することにより,エイリアスを緩和する方法を示す。 これらの単純なアーキテクチャの変更は、i.i.d.の一般化に大きな改善をもたらす。 ImageNet-C [11] の自然汚職によるイメージ分類や Meta-Dataset [26] での少数ショット学習など,配布外条件もさらに強化されている。 最先端の成果は、トレーニング可能なパラメータの追加や、オープンソースのコードベースのデフォルトのハイパーパラメータを使用することなく、両方のデータセットで達成される。

We investigate the impact of aliasing on generalization in Deep Convolutional Networks and show that data augmentation schemes alone are unable to prevent it due to structural limitations in widely used architectures. Drawing insights from frequency analysis theory, we take a closer look at ResNet and EfficientNet architectures and review the trade-off between aliasing and information loss in each of their major components. We show how to mitigate aliasing by inserting non-trainable low-pass filters at key locations, particularly where networks lack the capacity to learn them. These simple architectural changes lead to substantial improvements in generalization on i.i.d. and even more on out-of-distribution conditions, such as image classification under natural corruptions on ImageNet-C [11] and few-shot learning on Meta-Dataset [26]. State-of-the art results are achieved on both datasets without introducing additional trainable parameters and using the default hyper-parameters of open source codebases.
翻訳日:2021-08-10 15:45:20 公開日:2021-08-07
# Realistic Adversarial Data AugmentationによるMR画像のセグメンテーションの強化

Enhancing MR Image Segmentation with Realistic Adversarial Data Augmentation ( http://arxiv.org/abs/2108.03429v1 )

ライセンス: Link先を確認
Chen Chen, Chen Qin, Cheng Ouyang, Shuo Wang, Huaqi Qiu, Liang Chen, Giacomo Tarroni, Wenjia Bai, Daniel Rueckert(参考訳) 医療画像分割タスクにおけるニューラルネットワークの成功は通常、モデルトレーニングのための大きなラベル付きデータセットに依存する。 しかし、大規模な医療画像の取得と手動によるラベル付けは、リソース集約的で高価であり、データ共有やプライバシーの問題のため、時には実用的ではない。 この課題に対処するために、トレーニングデータを利用する際の効率を改善し、シミュレートされながら現実的な変換によってデータセットを拡大する逆データ拡張手法を提案する。 具体的には,訓練中にデータ拡張モデルとセグメンテーションネットワークを共同で最適化し,下流タスクのネットワーク一般化可能性を高めるための有用な例を生成する汎用タスク駆動学習フレームワークを提案する。 データ拡張モデルは、測光および幾何学的画像変換のセットを利用し、磁気共鳴(mr)イメージングに存在しうる現実的な複雑な画像変化をシミュレートする。 提案した逆データ拡張は生成ネットワークに依存しず,汎用セグメンテーションネットワークのプラグインモジュールとして使用できる。 計算効率が高く、教師付き学習と半教師付き学習の両方に適用できる。 本研究は,2つのMR画像分割課題である心臓セグメンテーションと前立腺セグメンテーションを分析し,評価する。 提案手法は, モデル一般化能力を改善しつつラベル付きデータの必要性を軽減し, 医用画像の応用における実用的価値を示す。

The success of neural networks on medical image segmentation tasks typically relies on large labeled datasets for model training. However, acquiring and manually labeling a large medical image set is resource-intensive, expensive, and sometimes impractical due to data sharing and privacy issues. To address this challenge, we propose an adversarial data augmentation approach to improve the efficiency in utilizing training data and to enlarge the dataset via simulated but realistic transformations. Specifically, we present a generic task-driven learning framework, which jointly optimizes a data augmentation model and a segmentation network during training, generating informative examples to enhance network generalizability for the downstream task. The data augmentation model utilizes a set of photometric and geometric image transformations and chains them to simulate realistic complex imaging variations that could exist in magnetic resonance (MR) imaging. The proposed adversarial data augmentation does not rely on generative networks and can be used as a plug-in module in general segmentation networks. It is computationally efficient and applicable for both supervised and semi-supervised learning. We analyze and evaluate the method on two MR image segmentation tasks: cardiac segmentation and prostate segmentation. Results show that the proposed approach can alleviate the need for labeled data while improving model generalization ability, indicating its practical value in medical imaging applications.
翻訳日:2021-08-10 15:43:51 公開日:2021-08-07
# タスク指向ダイアログ管理におけるディープラーニングアプローチの実証評価

An empirical assessment of deep learning approaches to task-oriented dialog management ( http://arxiv.org/abs/2108.03478v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Mat\v{e}j\r{u}, David Griol, Zoraida Callejas, Jos\'e Manuel Molina, Araceli Sanchis(参考訳) ディープ・ラーニングは、音声認識などの会話インタフェースに関連する領域において、非常に肯定的な結果を提供しているが、ダイアログ管理の潜在的な利点はまだ十分に研究されていない。 本稿では、異なるアプリケーションドメインから3つのダイアログコーパスを抽出し、サイズ、寸法、システム応答の異なるディープラーニングダイアログ管理のための異なる構成の評価を行う。 その結果,特徴抽出,入力表現,文脈考慮,深層ニューラルネットワークのハイパーパラメータなど,精度に影響を与える可能性のあるいくつかの側面が特定できた。

Deep learning is providing very positive results in areas related to conversational interfaces, such as speech recognition, but its potential benefit for dialog management has still not been fully studied. In this paper, we perform an assessment of different configurations for deep-learned dialog management with three dialog corpora from different application domains and varying in size, dimensionality and possible system responses. Our results have allowed us to identify several aspects that can have an impact on accuracy, including the approaches used for feature extraction, input representation, context consideration and the hyper-parameters of the deep neural networks employed.
翻訳日:2021-08-10 15:43:29 公開日:2021-08-07
# HetEmotionNet:マルチモーダル感情認識のための2ストリーム不均一グラフリカレントニューラルネットワーク

HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition ( http://arxiv.org/abs/2108.03354v1 )

ライセンス: Link先を確認
Ziyu Jia, Youfang Lin, Jing Wang, Zhiyang Feng, Xiangheng Xie, Caijie Chen(参考訳) 生理的信号に基づくマルチメディア刺激下での人間の感情の研究は、新たな分野であり、マルチモーダル信号に基づく感情認識において重要な進歩を遂げている。 しかし、感情認識のための空間スペクトル・時間領域の特徴の相補性を十分に活用することや、マルチモーダル信号間の不均一性と相関をモデル化することは困難である。 本稿では,感情認識のためのマルチモーダルな生理的信号を用いて,hetemotionnetという2流不均質グラフリカレントニューラルネットワークを提案する。 具体的には、hetemotionnetは空間-時間-ストリームと空間-スペクトルストリームで構成され、統一されたフレームワークで空間-スペクトル-時間-ドメインの特徴を融合することができる。 各ストリームは、不均一性をモデル化するグラフトランスフォーマーネットワークと、相関をモデル化するグラフ畳み込みネットワークと、時間領域またはスペクトル領域依存性をキャプチャするゲートリカレントユニットとから構成される。 2つの実世界のデータセットに関する広範囲な実験により、提案モデルが最先端のベースラインよりも優れたパフォーマンスを実現することを実証した。

The research on human emotion under multimedia stimulation based on physiological signals is an emerging field, and important progress has been achieved for emotion recognition based on multi-modal signals. However, it is challenging to make full use of the complementarity among spatial-spectral-tem poral domain features for emotion recognition, as well as model the heterogeneity and correlation among multi-modal signals. In this paper, we propose a novel two-stream heterogeneous graph recurrent neural network, named HetEmotionNet, fusing multi-modal physiological signals for emotion recognition. Specifically, HetEmotionNet consists of the spatial-temporal stream and the spatial-spectral stream, which can fuse spatial-spectral-tem poral domain features in a unified framework. Each stream is composed of the graph transformer network for modeling the heterogeneity, the graph convolutional network for modeling the correlation, and the gated recurrent unit for capturing the temporal domain or spectral domain dependency. Extensive experiments on two real-world datasets demonstrate that our proposed model achieves better performance than state-of-the-art baselines.
翻訳日:2021-08-10 15:42:56 公開日:2021-08-07
# グラフニューラルネットワークの同時攻撃とその説明

Jointly Attacking Graph Neural Network and its Explanations ( http://arxiv.org/abs/2108.03388v1 )

ライセンス: Link先を確認
Wenqi Fan, Wei Jin, Xiaorui Liu, Han Xu, Xianfeng Tang, Suhang Wang, Qing Li, Jiliang Tang, Jianping Wang, Charu Aggarwal(参考訳) グラフニューラルネットワーク(GNN)は多くのグラフ関連タスクのパフォーマンスを向上した。 この大きな成功にもかかわらず、近年の研究では、GNNは敵の攻撃に対して非常に脆弱であることが示されている。 一方、GNN(GNNExplainer)の説明は、その予測に最も影響を与える小さなサブグラフと特徴を生成することにより、訓練されたGNNモデルをよりよく理解する。 本稿では,まず,GNNExplainerが検査ツールとして機能し,グラフの対向摂動を検出する能力を有することを示す実証的研究を行う。 この発見は、グラフニューラルネットワークとその説明が、悪意のある欲望を持つグラフを修正することによって、共同で攻撃できるかどうかという、新たな問題調査の動機付けとなります。 敵の攻撃とGNNExplainerの回避という目標が互いに本質的に矛盾するため、この問題に答えることは難しい。 本稿では,新たな攻撃フレームワーク(GEAttack)を提案し,その脆弱性を同時に活用することで,GNNモデルとその説明の両方を攻撃できることを示す。 GNNExplainer と PGExplainer の2つの実環境データセットに対する大規模な実験により,提案手法の有効性が示された。

Graph Neural Networks (GNNs) have boosted the performance for many graph-related tasks. Despite the great success, recent studies have shown that GNNs are highly vulnerable to adversarial attacks, where adversaries can mislead the GNNs' prediction by modifying graphs. On the other hand, the explanation of GNNs (GNNExplainer) provides a better understanding of a trained GNN model by generating a small subgraph and features that are most influential for its prediction. In this paper, we first perform empirical studies to validate that GNNExplainer can act as an inspection tool and have the potential to detect the adversarial perturbations for graphs. This finding motivates us to further initiate a new problem investigation: Whether a graph neural network and its explanations can be jointly attacked by modifying graphs with malicious desires? It is challenging to answer this question since the goals of adversarial attacks and bypassing the GNNExplainer essentially contradict each other. In this work, we give a confirmative answer to this question by proposing a novel attack framework (GEAttack), which can attack both a GNN model and its explanations by simultaneously exploiting their vulnerabilities. Extensive experiments on two explainers (GNNExplainer and PGExplainer) under various real-world datasets demonstrate the effectiveness of the proposed method.
翻訳日:2021-08-10 15:42:36 公開日:2021-08-07
# 機械学習による5gネットワーク接続システムのセキュリティ解析

Machine Learning Assisted Security Analysis of 5G-Network-Connected Systems ( http://arxiv.org/abs/2108.03514v1 )

ライセンス: Link先を確認
Tanujay Saha, Najwa Aaraj, Niraj K. Jha(参考訳) 通信システムのコアネットワークアーキテクチャは、第5世代(5g)ネットワークにおけるパラダイムシフトを経ている。 5Gネットワークは、ソフトウェア定義インフラストラクチャに移行し、ハードウェアベースのネットワーク機能への依存を減らす。 ネットワーク機能仮想化やソフトウェア定義ネットワークといった新しい技術は、この移行を可能にする5Gコアネットワーク(5GCN)アーキテクチャに組み込まれている。 これにより、ネットワークの効率性、性能、堅牢性が大幅に向上した。 しかし、これによりコアネットワークがより脆弱になり、ソフトウェアシステムは一般にハードウェアシステムよりも侵入しやすくなった。 本稿では,5GCNの総合的なセキュリティ分析フレームワークについて述べる。 このアプローチの斬新さは、機械学習を通じてソフトウェア定義および仮想化された5GCNのアタックグラフの作成と解析にある。 この分析は、5GCNで119の新しいエクスプロイトの可能性を示している。 5G認証およびキーアグリーメントプロトコルに対する5つの新しい攻撃を発生させる5GCN脆弱性の攻撃の可能性を示す。 ネットワーク、プロトコル、アプリケーション層のアタックを組み合わせることで、複雑なアタックベクトルを生成します。 ケーススタディでは、これらの攻撃ベクトルを使用して、WhatsAppが5Gネットワーク上で動作している4つの新しいセキュリティ抜けを見つける。

The core network architecture of telecommunication systems has undergone a paradigm shift in the fifth-generation (5G)networks. 5G networks have transitioned to software-defined infrastructures, thereby reducing their dependence on hardware-based network functions. New technologies, like network function virtualization and software-defined networking, have been incorporated in the 5G core network (5GCN) architecture to enable this transition. This has resulted in significant improvements in efficiency, performance, and robustness of the networks. However, this has also made the core network more vulnerable, as software systems are generally easier to compromise than hardware systems. In this article, we present a comprehensive security analysis framework for the 5GCN. The novelty of this approach lies in the creation and analysis of attack graphs of the software-defined and virtualized 5GCN through machine learning. This analysis points to 119 novel possible exploits in the 5GCN. We demonstrate that these possible exploits of 5GCN vulnerabilities generate five novel attacks on the 5G Authentication and Key Agreement protocol. We combine the attacks at the network, protocol, and the application layers to generate complex attack vectors. In a case study, we use these attack vectors to find four novel security loopholes in WhatsApp running on a 5G network.
翻訳日:2021-08-10 15:42:17 公開日:2021-08-07
# Row-wise Dilated Attention によるステレオ水滴除去

Stereo Waterdrop Removal with Row-wise Dilated Attention ( http://arxiv.org/abs/2108.03457v1 )

ライセンス: Link先を確認
Zifan Shi, Na Fan, Dit-Yan Yeung, Qifeng Chen(参考訳) 既存の自動運転やロボットの視覚システムは、窓やカメラレンズに付着した水滴に敏感である。 最近の水滴除去アプローチでは、単一の画像が入力として取り込まれ、水滴の背後に欠けているコンテンツを忠実に復元できないことが多い。 そこで本稿では,ステレオ画像を用いた水滴除去モデルを提案する。 ステレオ画像から水滴をよりよく検出・除去するために,2つのステレオ画像間の効果的な情報伝達のために,注目領域を拡大する新しい行ワイドアテンションモジュールを提案する。 さらに,ステレオ画像の左右の整合性を高めるため,地中不一致マップとアテンションスコアとのアテンション整合性損失を提案する。 関連するデータセットが利用できないため、ウォータードロップなしでステレオ画像を含む現実世界のデータセットを収集します。 データセットを広範囲に実験した結果,本モデルは定量的および定性的に最先端の手法を上回っていることが示唆された。 我々のソースコードとステレオウォータードロップデータセットは \href{https://github.com/V ivianSZF/Stereo-Wate rdrop-Removal}{https://github.com/V ivianSZF/Stereo-Wate rdrop-Removal} で入手できる。

Existing vision systems for autonomous driving or robots are sensitive to waterdrops adhered to windows or camera lenses. Most recent waterdrop removal approaches take a single image as input and often fail to recover the missing content behind waterdrops faithfully. Thus, we propose a learning-based model for waterdrop removal with stereo images. To better detect and remove waterdrops from stereo images, we propose a novel row-wise dilated attention module to enlarge attention's receptive field for effective information propagation between the two stereo images. In addition, we propose an attention consistency loss between the ground-truth disparity map and attention scores to enhance the left-right consistency in stereo images. Because of related datasets' unavailability, we collect a real-world dataset that contains stereo images with and without waterdrops. Extensive experiments on our dataset suggest that our model outperforms state-of-the-art methods both quantitatively and qualitatively. Our source code and the stereo waterdrop dataset are available at \href{https://github.com/V ivianSZF/Stereo-Wate rdrop-Removal}{https://github.com/V ivianSZF/Stereo-Wate rdrop-Removal}
翻訳日:2021-08-10 15:39:41 公開日:2021-08-07
# Seq2Seqのティニーニューラルモデル

Tiny Neural Models for Seq2Seq ( http://arxiv.org/abs/2108.03340v1 )

ライセンス: Link先を確認
Arun Kandoor(参考訳) タスク指向ダイアログシステムにおけるアプリケーションとセマンティック解析モデルは、デバイス上で実行するために効率的なシーケンス・トゥ・シークエンス(seq2seq)アーキテクチャを必要とする。 そこで本研究では,pQRNN-MAttと呼ばれるプロジェクションベースのエンコーダデコーダモデルを提案する。 プロジェクション法に基づく研究はエンコーダのみのモデルに限られており、これがSeq2seqアーキテクチャに拡張した最初の研究であると考えている。 その結果得られた量子化モデルは3.5MB未満で、デバイス上のレイテンシクリティカルなアプリケーションに適している。 多言語意味解析データセットmtopでは,平均モデル性能がlstmベースのseq2seqモデルよりも85倍小さいにもかかわらず,事前学習された組込みを使用する。 さらに, t5/bert などの大規模事前学習モデルの蒸留に有効であった。

Semantic parsing models with applications in task oriented dialog systems require efficient sequence to sequence (seq2seq) architectures to be run on-device. To this end, we propose a projection based encoder-decoder model referred to as pQRNN-MAtt. Studies based on projection methods were restricted to encoder-only models, and we believe this is the first study extending it to seq2seq architectures. The resulting quantized models are less than 3.5MB in size and are well suited for on-device latency critical applications. We show that on MTOP, a challenging multilingual semantic parsing dataset, the average model performance surpasses LSTM based seq2seq model that uses pre-trained embeddings despite being 85x smaller. Furthermore, the model can be an effective student for distilling large pre-trained models such as T5/BERT.
翻訳日:2021-08-10 15:38:24 公開日:2021-08-07
# 制約マルコフ決定過程による制御可能な要約

Controllable Summarization with Constrained Markov Decision Process ( http://arxiv.org/abs/2108.03405v1 )

ライセンス: Link先を確認
Hou Pong Chan, Lu Wang, Irwin King(参考訳) 本研究では、ユーザが生成した要約の特定の属性(例えば、長さ制限)を制御できる可制御テキスト要約について検討する。 本研究では,制限付きマルコフ決定プロセス(CMDP)に基づく新しいトレーニングフレームワークを提案する。 報酬関数は、生成者が人間の記述した参照に類似するように促し、制約は生成した要約がユーザの要求に違反することを明示的に防止するために使用される。 このフレームワークは,各側面の具体的な制約を考案し,長さ,包括実体,抽象性など,要約の重要な属性を制御するために利用することができる。 一般的なベンチマーク実験の結果, CMDPフレームワークは, 属性の要求に応じて情報的な要約を生成するのに役立つことがわかった。

We study controllable text summarization which allows users to gain control on a particular attribute (e.g., length limit) of the generated summaries. In this work, we propose a novel training framework based on Constrained Markov Decision Process (CMDP), which conveniently includes a reward function along with a set of constraints, to facilitate better summarization control. The reward function encourages the generation to resemble the human-written reference, while the constraints are used to explicitly prevent the generated summaries from violating user-imposed requirements. Our framework can be applied to control important attributes of summarization, including length, covered entities, and abstractiveness, as we devise specific constraints for each of these aspects. Extensive experiments on popular benchmarks show that our CMDP framework helps generate informative summaries while complying with a given attribute's requirement.
翻訳日:2021-08-10 15:38:12 公開日:2021-08-07
# DySR: サービスバンドル勧告のための動的表現学習と調整ベースモデル

DySR: A Dynamic Representation Learning and Aligning based Model for Service Bundle Recommendation ( http://arxiv.org/abs/2108.03360v1 )

ライセンス: Link先を確認
Mingyi Liu and Zhiying Tu and Xiaofei Xu and Zhongjie Wang(参考訳) サービスの数と多様性が増加し、要求満足度の間にサービスを効果的に再利用する上で大きな課題が生じる。 多くのサービスバンドルレコメンデーション研究が行われ、素晴らしい結果が得られた。 しかし、これらの手法の性能を改善する余地はまだ十分にある。 これらの研究の根本的な問題は、時間とともにサービスの進化とサービスと要求の間の表現ギャップを無視していることです。 本稿では,これらの問題に取り組むために,dysrと呼ばれる動的表現学習モデルを提案する。 DySRは変換関数を学習することでサービスと要求の表現ギャップをなくし、動的グラフ表現学習を通じて進化する社会環境におけるサービス表現を得る。 ProgrammableWebの実際のデータセットで実施された大規模な実験によると、DySRは一般的な評価指標で既存の最先端メソッドよりも優れており、F1@5$を36.1\%から69.3\%に改善している。

An increasing number and diversity of services are available, which result in significant challenges to effective reuse service during requirement satisfaction. There have been many service bundle recommendation studies and achieved remarkable results. However, there is still plenty of room for improvement in the performance of these methods. The fundamental problem with these studies is that they ignore the evolution of services over time and the representation gap between services and requirements. In this paper, we propose a dynamic representation learning and aligning based model called DySR to tackle these issues. DySR eliminates the representation gap between services and requirements by learning a transformation function and obtains service representations in an evolving social environment through dynamic graph representation learning. Extensive experiments conducted on a real-world dataset from ProgrammableWeb show that DySR outperforms existing state-of-the-art methods in commonly used evaluation metrics, improving $F1@5$ from $36.1\%$ to $69.3\%$.
翻訳日:2021-08-10 15:37:07 公開日:2021-08-07
# 大腿骨骨折分類のための視覚トランスフォーマー

Vision Transformers for femur fracture classification ( http://arxiv.org/abs/2108.03414v1 )

ライセンス: Link先を確認
Leonardo Tanzi and Andrea Audisio and Giansalvo Cirrincione and Alessandro Aprato and Enrico Vezzetti(参考訳) 目的: 近年, 科学コミュニティは, 骨骨折の分類を改善するコンピュータ支援診断(cad)ツールの開発に力を入れている。 しかし,提案するデータを用いたサブタイプの破壊分類の結果は最適とはほど遠い。 本稿では, 自己着脱機構を活用し, 破壊分類を改善するため, 最新かつ高性能な深層学習技術である視覚トランスフォーマ(vit)を提案する。 方法: 4207 手動でアノテートした画像を用いて, AO/OTA分類に従えば, 文献で使用される大腿骨近位部骨折のデータセットとしては最大である。 ViTアーキテクチャは、古典的な畳み込みニューラルネットワーク(CNN)や、連続したCNNがカスケードで構成する多段階アーキテクチャと比較・使用した。 このアプローチの信頼性を示すために,1) 画像の最も関連する領域を可視化するために注意マップを用い, 2) 一般的なcnnとvitの性能を教師なしの学習手法で比較し,3) 11名の専門家に対してvitの助けなしに150の大腿骨近位骨折の画像の評価と分類を依頼した。 結果: ViTはテスト画像の83%を正確に予測することができた。 精度は0.77 (ci 0.64-0.90), 0.76 (ci 0.62-0.91), 0.77 (ci 0.64-0.89) であった。 診断改善率は平均29%であった。 結論: 骨骨折分類におけるトランスフォーマーの可能性を示した。 史上最大かつ最もリッチなデータセットを持つサブフラクチャーで、初めて良い結果が得られた。

Objectives: In recent years, the scientific community has focused on the development of Computer-Aided Diagnosis (CAD) tools that could improve bone fractures' classification. However, the results of the classification of fractures in subtypes with the proposed datasets were far from optimal. This paper proposes a very recent and outperforming deep learning technique, the Vision Transformer (ViT), in order to improve the fracture classification, by exploiting its self-attention mechanism. Methods: 4207 manually annotated images were used and distributed, by following the AO/OTA classification, in different fracture types, the largest labeled dataset of proximal femur fractures used in literature. The ViT architecture was used and compared with a classic Convolutional Neural Network (CNN) and a multistage architecture composed by successive CNNs in cascade. To demonstrate the reliability of this approach, 1) the attention maps were used to visualize the most relevant areas of the images, 2) the performance of a generic CNN and ViT was also compared through unsupervised learning techniques, and 3) 11 specialists were asked to evaluate and classify 150 proximal femur fractures' images with and without the help of the ViT. Results: The ViT was able to correctly predict 83% of the test images. Precision, recall and F1-score were 0.77 (CI 0.64-0.90), 0.76 (CI 0.62-0.91) and 0.77 (CI 0.64-0.89), respectively. The average specialists' diagnostic improvement was 29%. Conclusions: This paper showed the potential of Transformers in bone fracture classification. For the first time, good results were obtained in sub-fractures with the largest and richest dataset ever.
翻訳日:2021-08-10 15:36:49 公開日:2021-08-07
# AlphaStarの再考

Rethinking of AlphaStar ( http://arxiv.org/abs/2108.03452v1 )

ライセンス: Link先を確認
Ruo-Ze Liu(参考訳) ゲーム『StarCraft II』のグランドマスターレベルを達成するプログラムであるAlphaStar(AS)について異なる視点を示す。 AI研究の大きな進歩と見なされている。 しかし,本論文では,ASの問題点について述べるとともに,その欠点と,その論文で無視されている重要な詳細について述べる。 これらの問題は2つの問題を引き起こす。 ひとつは、ASの構築から何が得られますか? もう1つは 人間との戦いは 公平なのか? 議論の後、これらの問題の今後の研究方向について述べる。 本研究は,asの再現コードに基づいており,そのコードはオンラインで利用可能である。

We present a different view for AlphaStar (AS), the program achieving Grand-Master level in the game StarCraft II. It is considered big progress for AI research. However, in this paper, we present problems with the AS, some of which are the defects of it, and some of which are important details that are neglected in its article. These problems arise two questions. One is that what can we get from the built of AS? The other is that does the battle between it with humans fair? After the discussion, we present the future research directions for these problems. Our study is based on a reproduction code of the AS, and the codes are available online.
翻訳日:2021-08-10 15:36:22 公開日:2021-08-07
# 後方対応型表現のための隣接コンセンサスコントラスト学習

Neighborhood Consensus Contrastive Learning for Backward-Compatible Representation ( http://arxiv.org/abs/2108.03372v1 )

ライセンス: Link先を確認
Shengsen Wu, Liang Chen, Yihang Lou, YanBai, Tao Bai, Minghua Deng, Lingyu Duan(参考訳) オブジェクト再識別(ReID)では、ディープラーニング技術の開発には、しばしばモデル更新とデプロイが含まれる。 新しいモデルをデプロイする場合、大規模なギャラリーの画像機能を再抽出することは耐えられない。 したがって、"古い"機能と互換性のある"新しい"機能を再抽出プロセスから解放するために、後方互換性のある表現を提案する。 既存の後方互換性のある手法は、単に埋め込み空間または識別空間の制約を実行し、古い埋め込みのクラス内分散を無視し、新しい埋め込みの識別可能性を傷つけるリスクをもたらす。 本研究では,埋め込み構造と判別的知識を併用した近所コンセンサス視点から下位互換表現を学習する,近所コンセンサスコントラストコントラストコントラスト学習(nccl)手法を提案する。 NCCLでは、新しい埋め込みが整列され、マルチクラスタビューの古い埋め込みによって改善される。 さらに,古い組込みを低信頼性でフィルタし,互換性の堅牢性をさらに向上させる手法を提案する。 提案手法は,新しいモデルの精度を損なうことなく後方互換性を確保する。 また、ほとんどのシナリオでは、新しいモデルの精度も改善できます。

In object re-identification (ReID), the development of deep learning techniques often involves model update and deployment. It is unbearable to re-extract image features of the large-scale gallery when deploying new models. Therefore, backward-compatible representation is proposed to enable the "new" features compatible with "old"' features, free from the re-extracting process. The existing backward-compatible methods simply conduct constraints in the embedding space or discriminative space and ignore the intra-class variance of the old embeddings, resulting in a risk of damaging the discriminability of new embeddings. In this work, we propose a Neighborhood Consensus Contrastive Learning (NCCL) method, which learns backward-compatible representation from a neighborhood consensus perspective with both embedding structures and discriminative knowledge. With NCCL, the new embeddings are aligned and improved with old embeddings in a multi-cluster view. Besides, we also propose a scheme to filter the old embeddings with low credibility, which can further improve the compatibility robustness. Our method ensures backward compatibility without impairing the accuracy of the new model. And it can even improve the new model's accuracy in most scenarios.
翻訳日:2021-08-10 15:32:36 公開日:2021-08-07
# 異世界シーンを用いた分類された反射除去データセット

A Categorized Reflection Removal Dataset with Diverse Real-world Scenes ( http://arxiv.org/abs/2108.03380v1 )

ライセンス: Link先を確認
Chenyang Lei, Xuhua Huang, Chenyang Qi, Yankun Zhao, Wenxiu Sun, Qiong Yan, Qifeng Chen(参考訳) 多様な実世界シーンを持つ大規模な反射除去データセットが欠如しているため、既存の反射除去方法は合成データと少量の実世界データで訓練されているため、異なる反射除去方法の長所や短所を徹底的に評価することは困難である。 さらに、既存の実世界のベンチマークやデータセットは、リフレクションのタイプや外観(滑らかさ、強度など)に基づいて画像データを分類しないため、リフレクション除去メソッドの分析が難しい。 そこで,我々は,分類,多様性,実世界(cdr)の新たなリフレクション除去データセットを構築した。 RAWデータに基づくパイプラインを使用して、完全に整列された入力画像と送信画像を取得する。 データセットは様々な環境下で様々なガラスタイプを使用して構築され、多様性が保証される。 複数の反射除去法を分析し,我々のデータセットを広範囲に実験した結果,最先端の反射除去法は一般にぼやけた反射ではうまく機能するが,他の種類の実世界の反射では満足のいく性能を得ることができないことがわかった。 われわれのデータセットは、現実世界のリフレクションをよりよく除去する新しい方法の開発に役立つと信じている。 私たちのデータセットはhttps://alexzhao-hug ga.github.io/real-wo rld-reflection-remov al/で利用可能です。

Due to the lack of a large-scale reflection removal dataset with diverse real-world scenes, many existing reflection removal methods are trained on synthetic data plus a small amount of real-world data, which makes it difficult to evaluate the strengths or weaknesses of different reflection removal methods thoroughly. Furthermore, existing real-world benchmarks and datasets do not categorize image data based on the types and appearances of reflection (e.g., smoothness, intensity), making it hard to analyze reflection removal methods. Hence, we construct a new reflection removal dataset that is categorized, diverse, and real-world (CDR). A pipeline based on RAW data is used to capture perfectly aligned input images and transmission images. The dataset is constructed using diverse glass types under various environments to ensure diversity. By analyzing several reflection removal methods and conducting extensive experiments on our dataset, we show that state-of-the-art reflection removal methods generally perform well on blurry reflection but fail in obtaining satisfying performance on other types of real-world reflection. We believe our dataset can help develop novel methods to remove real-world reflection better. Our dataset is available at https://alexzhao-hug ga.github.io/Real-Wo rld-Reflection-Remov al/.
翻訳日:2021-08-10 15:32:19 公開日:2021-08-07
# 空間注意学習への情報ボトルネックアプローチ

Information Bottleneck Approach to Spatial Attention Learning ( http://arxiv.org/abs/2108.03418v1 )

ライセンス: Link先を確認
Qiuxia Lai and Yu Li and Ailing Zeng and Minhao Liu and Hanqiu Sun and Qiang Xu(参考訳) ヒト視覚システム(hvs)における選択的視覚注意機構は、自然シーンを知覚するための視覚認識に到達するための情報量を制限し、計算能力に制限のあるリアルタイムに近い情報処理を可能にする [koch and ullman, 1987]。 この種の選択性は情報圧縮と予測精度のトレードオフを求める「情報ボトルネック(ib)」として機能する。 しかし、このような情報制約が深層ニューラルネットワーク(dnn)の注意メカニズムで検討されることはほとんどない。 本稿では,視覚認識のためのdnn構造のためのibインスパイアされた空間注意モジュールを提案する。 モジュールは入力画像の中間表現として入力され、注目変調表現とタスクラベルとのMIを最大化しつつ、注目変調表現と入力との相互情報(MI)を最小化する変動2D注目マップを出力する。 注意マップが通過する情報をさらに制限するために、トレーニング中に学習可能なアンカー値のセットに連続的な注意スコアを量子化する。 広範な実験により、ibに触発された空間的注意機構は、背景を抑えながら関心領域を適切に強調するアテンションマップと、視覚認識タスク(画像分類、きめ細かい認識、クロスドメイン分類など)のための標準dnn構造をブートストラップできることが示されている。 注意マップは、実験で検証されたDNNの意思決定に対して解釈可能である。 私たちのコードはhttps://github.com/a shleylqx/aib.gitで利用可能です。

The selective visual attention mechanism in the human visual system (HVS) restricts the amount of information to reach visual awareness for perceiving natural scenes, allowing near real-time information processing with limited computational capacity [Koch and Ullman, 1987]. This kind of selectivity acts as an 'Information Bottleneck (IB)', which seeks a trade-off between information compression and predictive accuracy. However, such information constraints are rarely explored in the attention mechanism for deep neural networks (DNNs). In this paper, we propose an IB-inspired spatial attention module for DNN structures built for visual recognition. The module takes as input an intermediate representation of the input image, and outputs a variational 2D attention map that minimizes the mutual information (MI) between the attention-modulated representation and the input, while maximizing the MI between the attention-modulated representation and the task label. To further restrict the information bypassed by the attention map, we quantize the continuous attention scores to a set of learnable anchor values during training. Extensive experiments show that the proposed IB-inspired spatial attention mechanism can yield attention maps that neatly highlight the regions of interest while suppressing backgrounds, and bootstrap standard DNN structures for visual recognition tasks (e.g., image classification, fine-grained recognition, cross-domain classification). The attention maps are interpretable for the decision making of the DNNs as verified in the experiments. Our code is available at https://github.com/a shleylqx/AIB.git.
翻訳日:2021-08-10 15:31:58 公開日:2021-08-07
# 顔の周期一貫性による表情の学習

Learning Facial Representations from the Cycle-consistency of Face ( http://arxiv.org/abs/2108.03427v1 )

ライセンス: Link先を確認
Jia-Ren Chang, Yong-Sheng Chen, Wei-Chen Chiu(参考訳) 顔は、アイデンティティ、表情、ポーズ、顔のスタイルなど、多くの面で大きな変化を示します。 したがって、これらの特徴を特に教師なしの方法で顔画像から切り離して抽出することは大きな課題である。 本研究では,非ラベルの顔画像から表情を学習する自由監督信号として,顔特性の周期整合性を導入する。 この学習は、顔の動きサイクル一貫性とアイデンティティサイクル一貫性の制約を重畳することによって実現される。 顔の動きのサイクル整合性の主な考え方は、表情のある顔が与えられた場合、顔の動きの除去によって中性顔に非表現を施し、さらに元の顔に再構成するために再表現を行うことである。 アイデンティティ・サイクル・コンシステンシーの主な考え方は、特徴の再正規化によってそのアイデンティティの与えられた中立的な面を剥奪し、平均的な顔に個人的属性を加えることで、中立的な顔に再同一性を持たせることである。 トレーニング時には、2つの異なる顔表現をアンタングルしてサイクル一貫性のある顔再構成を行う。 実験時には,表情認識や頭部ポーズ回帰など,様々なタスクにおける顔表現の評価に線形プロトコルスキームを用いる。 また、学習した表情を人物認識、フロンダル化、画像間翻訳に直接適用することができる。 実験により,提案手法は既存の手法と競合することを示し,異種表現に埋め込まれたリッチでユニークな情報を示す。 コードはhttps://github.com/J iaRenChang/FaceCycle で入手できる。

Faces manifest large variations in many aspects, such as identity, expression, pose, and face styling. Therefore, it is a great challenge to disentangle and extract these characteristics from facial images, especially in an unsupervised manner. In this work, we introduce cycle-consistency in facial characteristics as free supervisory signal to learn facial representations from unlabeled facial images. The learning is realized by superimposing the facial motion cycle-consistency and identity cycle-consistency constraints. The main idea of the facial motion cycle-consistency is that, given a face with expression, we can perform de-expression to a neutral face via the removal of facial motion and further perform re-expression to reconstruct back to the original face. The main idea of the identity cycle-consistency is to exploit both de-identity into mean face by depriving the given neutral face of its identity via feature re-normalization and re-identity into neutral face by adding the personal attributes to the mean face. At training time, our model learns to disentangle two distinct facial representations to be useful for performing cycle-consistent face reconstruction. At test time, we use the linear protocol scheme for evaluating facial representations on various tasks, including facial expression recognition and head pose regression. We also can directly apply the learnt facial representations to person recognition, frontalization and image-to-image translation. Our experiments show that the results of our approach is competitive with those of existing methods, demonstrating the rich and unique information embedded in the disentangled representations. Code is available at https://github.com/J iaRenChang/FaceCycle .
翻訳日:2021-08-10 15:31:29 公開日:2021-08-07
# ニューラルodeを用いた変形可能な画像登録

Deformable Image Registration using Neural ODEs ( http://arxiv.org/abs/2108.03443v1 )

ライセンス: Link先を確認
Yifan Wu, Tom Z.Jiahao, Jiancong Wang, Paul A.Yushkevich, James C.Gee, M.Ani Hsieh(参考訳) 変形可能な画像登録は、与えられた画像対間の空間的対応を見つけることを目的としており、医療画像分析の領域において最も重要な問題の一つである。 本稿では,ニューラル常微分方程式(NODE)を利用した汎用的で高速かつ高精度な微分型画像登録フレームワークを提案する。 各ボクセルを移動粒子としてモデル化し、3次元画像中の全てのボクセルの集合を対象変形場を決定する高次元力学系として考える。 従来の最適化手法と比較して、我々のフレームワークは実行時間を数十分から数十秒に短縮する。 近年のデータ駆動型ディープラーニングと比較すると,大量のトレーニングデータを必要としないため,我々のフレームワークはよりアクセスしやすい。 提案手法の登録結果は,様々な測定値において最先端技術を上回り,変形可能な画像登録のタスクに好適なモデリング手法であることを示す。

Deformable image registration, aiming to find spatial correspondence between a given image pair, is one of the most critical problems in the domain of medical image analysis. In this paper, we present a generic, fast, and accurate diffeomorphic image registration framework that leverages neural ordinary differential equations (NODEs). We model each voxel as a moving particle and consider the set of all voxels in a 3D image as a high-dimensional dynamical system whose trajectory determines the targeted deformation field. Compared with traditional optimization-based methods, our framework reduces the running time from tens of minutes to tens of seconds. Compared with recent data-driven deep learning methods, our framework is more accessible since it does not require large amounts of training data. Our experiments show that the registration results of our method outperform state-of-the-arts under various metrics, indicating that our modeling approach is well fitted for the task of deformable image registration.
翻訳日:2021-08-10 15:31:02 公開日:2021-08-07
# 生成前処理による教師なしポートレートシャドー除去

Unsupervised Portrait Shadow Removal via Generative Priors ( http://arxiv.org/abs/2108.03466v1 )

ライセンス: Link先を確認
Yingqing He, Yazhou Xing, Tianjia Zhang, Qifeng Chen(参考訳) ポートレート画像は、しばしば、カジュアルな物体や顔自体によって投げられる望ましくない影に苦しむ。 既存のポートレートシャドウ除去法は大規模合成データセットのトレーニングを必要とするが、トレーニングデータなしでポートレートシャドウ除去を行う最初の非教師なし手法を提案する。 私たちの重要なアイデアは、プレトレーニングされたstylegan2に埋め込まれた生成的な顔前処理を活用することです。 そこで我々は,影画像と影のない画像の混合により,影像を構成する層分解問題として影除去タスクを定式化する。 本稿では,分解過程の学習に有効なプログレッシブ最適化アルゴリズムを提案する。 また,肖像画のタトゥー除去や透かし除去にも応用できる。 実世界のポートレートシャドウデータセットの定性的および定量的実験により,本手法が教師付きシャドウ除去法で同等の性能を発揮することを示す。 ソースコードはhttps://github.com/Y ingqingHe/Shadow-Rem oval-via-Generative- Priorsで公開しています。

Portrait images often suffer from undesirable shadows cast by casual objects or even the face itself. While existing methods for portrait shadow removal require training on a large-scale synthetic dataset, we propose the first unsupervised method for portrait shadow removal without any training data. Our key idea is to leverage the generative facial priors embedded in the off-the-shelf pretrained StyleGAN2. To achieve this, we formulate the shadow removal task as a layer decomposition problem: a shadowed portrait image is constructed by the blending of a shadow image and a shadow-free image. We propose an effective progressive optimization algorithm to learn the decomposition process. Our approach can also be extended to portrait tattoo removal and watermark removal. Qualitative and quantitative experiments on a real-world portrait shadow dataset demonstrate that our approach achieves comparable performance with supervised shadow removal methods. Our source code is available at https://github.com/Y ingqingHe/Shadow-Rem oval-via-Generative- Priors.
翻訳日:2021-08-10 15:30:49 公開日:2021-08-07
# 蒸留法による疾患診断の試み

A distillation based approach for the diagnosis of diseases ( http://arxiv.org/abs/2108.03470v1 )

ライセンス: Link先を確認
Hmrishav Bandyopadhyay, Shuvayan Ghosh Dastidar, Bisakh Mondal, Biplab Banerjee, Nibaran Das(参考訳) 現在、Covid-19は世界中で深刻な脅威となっている。 病気のスクリーニング時間を短縮し、毎日数千人が感染しても、この病気に抵抗するためのワクチンの開発に努めている。 我々はコンピュータビジョンの助けを借りて,Chest X-Ray画像からのCovid-19や肺炎などの疾患の自動スクリーニング手法を提案する。 計算コストの重いコンピュータビジョン分類アルゴリズムとは違い,我々は知識蒸留に基づくアプローチを提案し,精度を保ちながらモデル深度を下げることができる。 本稿では,情報の流れの連続性を補助する補助中間補助ネットワークを用いた標準蒸留モジュールの強化について述べる。 このアプローチに従い、精度を損なうことなく、3つの畳み込みブロックからなる非常に軽い学生ネットワークを構築することができる。 そこで本研究では,より高速なスクリーニングにつながるだけでなく,ローエンドデバイス上でシームレスに動作できる疾患の分類法を提案する。

Presently, Covid-19 is a serious threat to the world at large. Efforts are being made to reduce disease screening times and in the development of a vaccine to resist this disease, even as thousands succumb to it everyday. We propose a novel method of automated screening of diseases like Covid-19 and pneumonia from Chest X-Ray images with the help of Computer Vision. Unlike computer vision classification algorithms which come with heavy computational costs, we propose a knowledge distillation based approach which allows us to bring down the model depth, while preserving the accuracy. We make use of an augmentation of the standard distillation module with an auxiliary intermediate assistant network that aids in the continuity of the flow of information. Following this approach, we are able to build an extremely light student network, consisting of just 3 convolutional blocks without any compromise on accuracy. We thus propose a method of classification of diseases which can not only lead to faster screening, but can also operate seamlessly on low-end devices.
翻訳日:2021-08-10 15:30:33 公開日:2021-08-07
# 付加負荷の低減:外科用機器セグメンテーションにおける合成画像を用いた能動的学習

Reducing Annotating Load: Active Learning with Synthetic Images in Surgical Instrument Segmentation ( http://arxiv.org/abs/2108.03534v1 )

ライセンス: Link先を確認
Haonan Peng, Shan Lin, Daniel King, Yun-Hsuan Su, Randall A. Bly, Kris S. Moe, Blake Hannaford(参考訳) ロボット支援手術の内視鏡視における正確な機器分割は,装置の反射や組織との頻繁な接触により困難である。 ディープニューラルネットワーク(DNN)は競争力があり、近年は好まれている。 しかし、ラベル付きデータに対するDNNの飢えは、大量のアノテーションをもたらす。 そこで本稿では,この作業負荷の軽減を動機とし,アクティブな合成画像を用いてラベル付き実画像の使用を減らす汎用組込み方式を提案する。 各アクティブな学習イテレーションにおいて、最も情報に富んだ未ラベルの画像は、まずアクティブな学習によってクエリされ、次にラベル付けされる。 次に、これらの選択された画像に基づいて合成画像を生成する。 楽器と背景は切り抜かれ、境界付近でブレンドと融合によってランダムに結合される。 本法の有効性は腹腔内手術データ2セットと腹腔内手術データ1セットで検証した。 その結果、特にアノテーションの予算が小さい場合には、パフォーマンスが大幅に向上することが示された。 また,異なる種類の合成画像,ブレンディング方法,および外部背景の有効性についても検討した。 すべてのコードは、https://github.com/h aonanpeng/active_syn _generatorでオープンソースである。

Accurate instrument segmentation in endoscopic vision of robot-assisted surgery is challenging due to reflection on the instruments and frequent contacts with tissue. Deep neural networks (DNN) show competitive performance and are in favor in recent years. However, the hunger of DNN for labeled data poses a huge workload of annotation. Motivated by alleviating this workload, we propose a general embeddable method to decrease the usage of labeled real images, using active generated synthetic images. In each active learning iteration, the most informative unlabeled images are first queried by active learning and then labeled. Next, synthetic images are generated based on these selected images. The instruments and backgrounds are cropped out and randomly combined with each other with blending and fusion near the boundary. The effectiveness of the proposed method is validated on 2 sinus surgery datasets and 1 intraabdominal surgery dataset. The results indicate a considerable improvement in performance, especially when the budget for annotation is small. The effectiveness of different types of synthetic images, blending methods, and external background are also studied. All the code is open-sourced at: https://github.com/H aonanPeng/active_syn _generator.
翻訳日:2021-08-10 15:30:18 公開日:2021-08-07
# エッジ型グラフトランスフォーマー: グラフにはグローバルな自己完結だけで十分

Edge-augmented Graph Transformers: Global Self-attention is Enough for Graphs ( http://arxiv.org/abs/2108.03348v1 )

ライセンス: Link先を確認
Md Shamim Hussain, Mohammed J. Zaki and Dharmashankar Subramanian(参考訳) トランスフォーマリンニューラルネットワークは、テキストや画像などの非構造化データに対して最先端の結果を得たが、グラフ構造化データへの採用は限られている。 これは部分的には、基本的なトランスフレームワークに複雑な構造情報を組み込むのが難しいためである。 本稿では,変圧器のエッジチャネルに対する簡易かつ強力な拡張を提案する。 結果として得られるフレームワークは、Edge-augmented Graph Transformer (EGT)と呼ばれ、ノード情報だけでなく、構造情報を直接受け入れ、処理し、出力することができる。 この単純な追加により、トランスフォーマーのキー要素であるグローバルな自己アテンションをグラフに直接使用することができ、ノード間の長距離インタラクションの恩恵を受けることができます。 さらに、エッジチャネルは構造情報を層から層へと進化させ、エッジ上の予測タスクをこれらのチャネルから直接引き出すことができる。 さらに,EGTの性能を向上させるために,特異値分解に基づく位置符号化を導入する。 我々のフレームワークはグローバルなノード機能集約に依存しており、周辺地域のローカル機能集約に依存しているグラフ畳み込みネットワーク(GCN)よりも優れたパフォーマンスを実現している。 ベンチマークデータセットの幅広い実験において,教師付き学習環境におけるEGTの性能を検証する。 この結果から,畳み込み集約はグラフに必須な帰納的バイアスではなく,グローバルな自己意識がグラフ畳み込みの柔軟で適応的な代替手段となる可能性が示唆された。

Transformer neural networks have achieved state-of-the-art results for unstructured data such as text and images but their adoption for graph-structured data has been limited. This is partly due to the difficulty in incorporating complex structural information in the basic transformer framework. We propose a simple yet powerful extension to the transformer - residual edge channels. The resultant framework, which we call Edge-augmented Graph Transformer (EGT), can directly accept, process and output structural information as well as node information. This simple addition allows us to use global self-attention, the key element of transformers, directly for graphs and comes with the benefit of long-range interaction among nodes. Moreover, the edge channels allow the structural information to evolve from layer to layer, and prediction tasks on edges can be derived directly from these channels. In addition to that, we introduce positional encodings based on Singular Value Decomposition which can improve the performance of EGT. Our framework, which relies on global node feature aggregation, achieves better performance compared to Graph Convolutional Networks (GCN), which rely on local feature aggregation within a neighborhood. We verify the performance of EGT in a supervised learning setting on a wide range of experiments on benchmark datasets. Our findings indicate that convolutional aggregation is not an essential inductive bias for graphs and global self-attention can serve as a flexible and adaptive alternative to graph convolution.
翻訳日:2021-08-10 15:13:47 公開日:2021-08-07
# MNISTデータセットに基づく分散型フェデレーション学習における学習パラメータとメカニズムの影響

The Effect of Training Parameters and Mechanisms on Decentralized Federated Learning based on MNIST Dataset ( http://arxiv.org/abs/2108.03508v1 )

ライセンス: Link先を確認
Zhuofan Zhang, Mi Zhou, Kaicheng Niu, and Chaouki Abdallah(参考訳) フェデレーション学習は分散データでのモデルのトレーニングに適したアルゴリズムであるが、中央の"サーバー"ノードの必要性はボトルネックである。 本稿ではまず,分散連邦学習(DFL)の概念を紹介する。 次に,モデルアグリゲーションの頻度変更,独立かつ同一分散(iid)データセットのパーティショニングから部分的グローバル共有による非iidパーティショニングへの切り替え,クライアント間の最適化方法の相違,部分共有によるセグメンテーションへのモデル分割など,さまざまなセットアップ実験を行った。 すべての実験はMNISTの手書き桁データセット上で実行される。 修正したトレーニング手順は概して堅牢だが、最適ではない。 また,モデル重みのばらつきが大きすぎる場合のトレーニングの失敗も観察する。 オープンソースの実験コードはgithub\footnote{codeは \url{https://github.com/z hzhang2018/decentral izedfl}}にアップロードされている。

Federated Learning is an algorithm suited for training models on decentralized data, but the requirement of a central "server" node is a bottleneck. In this document, we first introduce the notion of Decentralized Federated Learning (DFL). We then perform various experiments on different setups, such as changing model aggregation frequency, switching from independent and identically distributed (IID) dataset partitioning to non-IID partitioning with partial global sharing, using different optimization methods across clients, and breaking models into segments with partial sharing. All experiments are run on the MNIST handwritten digits dataset. We observe that those altered training procedures are generally robust, albeit non-optimal. We also observe failures in training when the variance between model weights is too large. The open-source experiment code is accessible through GitHub\footnote{Code was uploaded at \url{https://github.com/z hzhang2018/Decentral izedFL}}.
翻訳日:2021-08-10 15:13:22 公開日:2021-08-07
# インドの農家は何とおっしゃいますか。 クラウドソーシングによる害虫監視手法

What a million Indian farmers say?: A crowdsourcing-based method for pest surveillance ( http://arxiv.org/abs/2108.03374v1 )

ライセンス: Link先を確認
Poonam Adhikari, Ritesh Kumar, S.R.S Iyengar, Rishemjit Kaur(参考訳) 農作物の害虫の検出には、手作業によるサンプリングやセンサー、レーダーなど、さまざまな技術が使用されている。 しかし、これらの手法は大きな領域をカバーできず、非経済的で複雑であるため、スケーラビリティに問題がある。 本稿では,電話で収集したリアルタイムファーマー問合せを用いて害虫調査を行うクラウドソーシング手法を提案する。 我々は、過去のデータを集約分析してパターンを見つけ、害虫発生の今後の知見を得るデータ駆動戦略を開発した。 本研究では,時間的粒度の高い広い地域を包み込むことのできる害虫監視の正確かつ経済的手法であることを示した。 害虫の集団を予測することは、農家が適切なタイミングで決定を下すのに役立つだろう。 これはまた、政府や政策立案者が必要に応じて必要な準備をし、食料の安全を確保するのに役立つ。

Many different technologies are used to detect pests in the crops, such as manual sampling, sensors, and radar. However, these methods have scalability issues as they fail to cover large areas, are uneconomical and complex. This paper proposes a crowdsourced based method utilising the real-time farmer queries gathered over telephones for pest surveillance. We developed data-driven strategies by aggregating and analyzing historical data to find patterns and get future insights into pest occurrence. We showed that it can be an accurate and economical method for pest surveillance capable of enveloping a large area with high spatio-temporal granularity. Forecasting the pest population will help farmers in making informed decisions at the right time. This will also help the government and policymakers to make the necessary preparations as and when required and may also ensure food security.
翻訳日:2021-08-10 15:10:17 公開日:2021-08-07
# 解集合プログラミングにおける最適性による解列挙

Solution Enumeration by Optimality in Answer Set Programming ( http://arxiv.org/abs/2108.03474v1 )

ライセンス: Link先を確認
Jukka Pajunen, Tomi Janhunen(参考訳) 組合せ探索問題を考えると、一つの解を見つけるだけでなく(すべて)その解を列挙したり、存在しないことを示すのに非常に有用である。 目的関数が与えられた場合、最適解についても同様に述べることができる。 この仕事は最適解の素数列挙を超越しており、最適性による解の列挙(seo)の計算タスクに対処する。 このタスクは Answer Set Programming (ASP) の文脈で研究され、問題の(最適)解は問題を符号化する論理プログラムの解集合でキャプチャされる。 既存の解解法は、既に全ての(最適)解集合の列挙をサポートしている。 しかし,本研究では,最適解集合の列挙を厳密な最適解集合を超えて一般化し,最適解集合の列挙を最適性(ASEO)の順に導く。 このアプローチは、最高の k 個の解集合または無限の設定に適用できるが、これは目的関数に基づいて解集合をソートする過程に相当する。 本研究の主な貢献として,上記の解集合列挙のタスクに対して,最初の一般アルゴリズムを提案する。 さらに,ASEOの潜在的なユースケースについて述べる。 まず、asp.netで形式化され解決された多くの最適化問題において、次善のソリューションにいかに効率的にアクセスできるかについて検討する。 次に,ASEOがベイジアンネットワークに有効なサンプリング手法を提供することを示す。

Given a combinatorial search problem, it may be highly useful to enumerate its (all) solutions besides just finding one solution, or showing that none exists. The same can be stated about optimal solutions if an objective function is provided. This work goes beyond the bare enumeration of optimal solutions and addresses the computational task of solution enumeration by optimality (SEO). This task is studied in the context of Answer Set Programming (ASP) where (optimal) solutions of a problem are captured with the answer sets of a logic program encoding the problem. Existing answer-set solvers already support the enumeration of all (optimal) answer sets. However, in this work, we generalize the enumeration of optimal answer sets beyond strictly optimal ones, giving rise to the idea of answer set enumeration in the order of optimality (ASEO). This approach is applicable up to the best k answer sets or in an unlimited setting, which amounts to a process of sorting answer sets based on the objective function. As the main contribution of this work, we present the first general algorithms for the aforementioned tasks of answer set enumeration. Moreover, we illustrate the potential use cases of ASEO. First, we study how efficiently access to the next-best solutions can be achieved in a number of optimization problems that have been formalized and solved in ASP. Second, we show that ASEO provides us with an effective sampling technique for Bayesian networks.
翻訳日:2021-08-10 15:10:03 公開日:2021-08-07
# 衛星画像と地形を用いた無人航空機のリアルタイム測地

Real-time Geo-localization Using Satellite Imagery and Topography for Unmanned Aerial Vehicles ( http://arxiv.org/abs/2108.03344v1 )

ライセンス: Link先を確認
Shuxiao Chen, Xiangyu Wu, Mark W. Mueller and Koushil Sreenath(参考訳) 無人航空機(UAV)による自律飛行の能力は近年著しく向上している。 しかし、GPSを用いた環境における高速で堅牢な地理的局在化のような基本的な問題は未解決のままである。 既存の研究は主に、様々な状況において、様々な計算時間のコストでローカライゼーションの精度を向上させることに集中しており、しばしば強力な地上局マシンの使用を必要とする。 画像ベースのジオローカライズをオンライン化し,uav上での軽量組込みシステムに対して実用的なものにするために,シーンの変更に信頼性があり,リソース割り当ての計算に柔軟で,共通のカメラ配置に適応可能なフレームワークを提案する。 このフレームワークは、オフラインデータベースの準備とオンライン推論の2つのステージで構成されている。 第1段階では、衛星と地形図上に定量化された潜在的な車両ポーズから見えるように、カラー画像と深度マップがレンダリングされる。 データベースは、レンダリングされた画像のグローバルおよびローカルディスクリプタで集約される。 第2段階では、キャプチャされた実世界のクエリ画像毎に、データベースから上位のグローバルマッチを検索し、車両のポーズをローカルディスクリプタマッチングによってさらに洗練する。 2つの異なるUAVプラットフォーム上でのイメージベースローカライゼーションのフィールド実験を行い、その結果を検証した。

The capabilities of autonomous flight with unmanned aerial vehicles (UAVs) have significantly increased in recent times. However, basic problems such as fast and robust geo-localization in GPS-denied environments still remain unsolved. Existing research has primarily concentrated on improving the accuracy of localization at the cost of long and varying computation time in various situations, which often necessitates the use of powerful ground station machines. In order to make image-based geo-localization online and pragmatic for lightweight embedded systems on UAVs, we propose a framework that is reliable in changing scenes, flexible about computing resource allocation and adaptable to common camera placements. The framework is comprised of two stages: offline database preparation and online inference. At the first stage, color images and depth maps are rendered as seen from potential vehicle poses quantized over the satellite and topography maps of anticipated flying areas. A database is then populated with the global and local descriptors of the rendered images. At the second stage, for each captured real-world query image, top global matches are retrieved from the database and the vehicle pose is further refined via local descriptor matching. We present field experiments of image-based localization on two different UAV platforms to validate our results.
翻訳日:2021-08-10 15:08:53 公開日:2021-08-07
# 順序分割を伴う論理プログラムの好ましいモデルの論理的特徴付け

A Logical Characterization of the Preferred Models of Logic Programs with Ordered Disjunction ( http://arxiv.org/abs/2108.03369v1 )

ライセンス: Link先を確認
Angelos Charalambidis, Panos Rondogiannis, Antonis Troumpoukis(参考訳) lpods (ordered disjunction) を持つ論理プログラムは、プログラムルールの先頭の選好度が低下した代替表現能力を持つ古典論理プログラムを拡張する。 順序分割の操作的意味が明確であるにもかかわらず、その意味論に関する重要な公的な問題が存在する。 特に、LPODの最も好まれるモデルを決定するための純粋にモデル理論的なアプローチは存在しない。 現在、最も好まれるモデルの選択は、プログラムのモデルのみに基づいておらず、ある場合には直観に反する結果を生み出す技術を用いて行われる。 プログラムの最も好まれるモデルを特定するために、追加の真理値を使用するLPODに対して、新しいモデル理論のセマンティクスを提供する。 提案手法は従来のLPODのセマンティクスの欠点を克服するものである。 さらに、新しいアプローチは、節の先頭に順序と古典的区別の両方を持つことができる論理プログラムの自然なクラスの意味論を定義するのに使うことができる。 これにより、厳格な選好レベルだけでなく、同等に好まれる代替案を表現できるプログラムが可能になる。 この研究はTPLPの受け入れを検討中である。

Logic Programs with Ordered Disjunction (LPODs) extend classical logic programs with the capability of expressing alternatives with decreasing degrees of preference in the heads of program rules. Despite the fact that the operational meaning of ordered disjunction is clear, there exists an important open issue regarding its semantics. In particular, there does not exist a purely model-theoretic approach for determining the most preferred models of an LPOD. At present, the selection of the most preferred models is performed using a technique that is not based exclusively on the models of the program and in certain cases produces counterintuitive results. We provide a novel, model-theoretic semantics for LPODs, which uses an additional truth value in order to identify the most preferred models of a program. We demonstrate that the proposed approach overcomes the shortcomings of the traditional semantics of LPODs. Moreover, the new approach can be used to define the semantics of a natural class of logic programs that can have both ordered and classical disjunctions in the heads of clauses. This allows programs that can express not only strict levels of preferences but also alternatives that are equally preferred. This work is under consideration for acceptance in TPLP.
翻訳日:2021-08-10 15:06:42 公開日:2021-08-07
# 人工知能によるカスタマイズ製造工場:鍵となる技術、応用、課題

Artificial Intelligence-Driven Customized Manufacturing Factory: Key Technologies, Applications, and Challenges ( http://arxiv.org/abs/2108.03383v1 )

ライセンス: Link先を確認
Jiafu Wan, Xiaomin Li, Hong-Ning Dai, Andrew Kusiak, Miguel Mart\'inez-Garc\'ia, Di Li(参考訳) 大規模なバッチ生産の伝統的な生産パラダイムは、個々の顧客の要求を満たす柔軟性を提供していない。 新しい世代のスマートファクトリは、新しいマルチ変数と小さなバッチでカスタマイズされた生産モードをサポートすることが期待されている。 そのため、人工知能(AI)は、コンピュータ、通信、制御を含む製造および情報通信技術の統合を加速することにより、より高い付加価値製造を可能にしている。 カスタマイズされたスマートファクトリの特徴は、自己受容、運用最適化、動的再構成、インテリジェントな意思決定などである。 AI技術は、製造システムが環境を認識し、外部のニーズに適応し、インテリジェント生産、ネットワークコラボレーション、拡張されたサービスモデルといったビジネスモデルを含むプロセス知識を抽出することを可能にする。 本稿では、カスタマイズ製造(CM)におけるAIの実装に焦点を当てる。 AI駆動のカスタマイズされたスマートファクトリのアーキテクチャが紹介される。 インテリジェントな製造装置の詳細、インテリジェントな情報インタラクション、フレキシブルな製造ラインの構築について紹介する。 機械学習、マルチエージェントシステム、モノのインターネット、ビッグデータ、クラウドエッジコンピューティングなど、CMで使用可能な最先端のAI技術について調査する。 カスタマイズされたスマートファクトリーのai対応技術は、カスタマイズされたパッケージングのケーススタディで検証される。 実験の結果,AI支援型CMは高い生産柔軟性と効率性を提供することが示された。 CMにおけるAIに関する課題とソリューションについても論じる。

The traditional production paradigm of large batch production does not offer flexibility towards satisfying the requirements of individual customers. A new generation of smart factories is expected to support new multi-variety and small-batch customized production modes. For that, Artificial Intelligence (AI) is enabling higher value-added manufacturing by accelerating the integration of manufacturing and information communication technologies, including computing, communication, and control. The characteristics of a customized smart factory are to include self-perception, operations optimization, dynamic reconfiguration, and intelligent decision-making. The AI technologies will allow manufacturing systems to perceive the environment, adapt to the external needs, and extract the process knowledge, including business models, such as intelligent production, networked collaboration, and extended service models. This paper focuses on the implementation of AI in customized manufacturing (CM). The architecture of an AI-driven customized smart factory is presented. Details of intelligent manufacturing devices, intelligent information interaction, and construction of a flexible manufacturing line are showcased. The state-of-the-art AI technologies of potential use in CM, i.e., machine learning, multi-agent systems, Internet of Things, big data, and cloud-edge computing are surveyed. The AI-enabled technologies in a customized smart factory are validated with a case study of customized packaging. The experimental results have demonstrated that the AI-assisted CM offers the possibility of higher production flexibility and efficiency. Challenges and solutions related to AI in CM are also discussed.
翻訳日:2021-08-10 15:06:23 公開日:2021-08-07
# ゼロショット音源分離・転写・合成のための統一モデル

A Unified Model for Zero-shot Music Source Separation, Transcription and Synthesis ( http://arxiv.org/abs/2108.03456v1 )

ライセンス: Link先を確認
Liwei Lin, Qiuqiang Kong, Junyan Jiang and Gus Xia(参考訳) そこで本研究では,(1)混合音楽音声からの個々の音源の合成,2)MIDIノートへの変換,3)分離した音源の音色に基づく新曲の合成,の3つのタスクの統一モデルを提案する。 このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。 そこで我々は,ソース分離のためのエンコーダ・デコーダ・ニューラルアーキテクチャに基づいて,ピッチ音のアンタングル化モジュールを設計した。 主な帰納バイアスは、ピッチ表現のためのベクトル量子化と音色表現のためのピッチ変換不変量である。 さらに,\textit{zero-shot}学習を実現するために,クエリ・バイ・サンプル法を適用した。つまり,このモデルは,\textit{unseen}楽器のソース分離,転写,合成を行うことができる。 現在のデザインは2つのモノフォニック楽器の混合音に焦点を当てている。 実験結果から,本モデルは既存のマルチタスクベースラインよりも優れており,書き起こしスコアは分離作業の強力な補助役として機能することがわかった。

We propose a unified model for three inter-related tasks: 1) to \textit{separate} individual sound sources from a mixed music audio, 2) to \textit{transcribe} each sound source to MIDI notes, and 3) to\textit{ synthesize} new pieces based on the timbre of separated sources. The model is inspired by the fact that when humans listen to music, our minds can not only separate the sounds of different instruments, but also at the same time perceive high-level representations such as score and timbre. To mirror such capability computationally, we designed a pitch-timbre disentanglement module based on a popular encoder-decoder neural architecture for source separation. The key inductive biases are vector-quantization for pitch representation and pitch-transformation invariant for timbre representation. In addition, we adopted a query-by-example method to achieve \textit{zero-shot} learning, i.e., the model is capable of doing source separation, transcription, and synthesis for \textit{unseen} instruments. The current design focuses on audio mixtures of two monophonic instruments. Experimental results show that our model outperforms existing multi-task baselines, and the transcribed score serves as a powerful auxiliary for separation tasks.
翻訳日:2021-08-10 15:06:02 公開日:2021-08-07
# 強化学習を用いた電気自動車充電ステーションの効率的な表現

Efficient Representation for Electric Vehicle Charging Station Operations using Reinforcement Learning ( http://arxiv.org/abs/2108.03236v1 )

ライセンス: Link先を確認
Kyung-bin Kwon, Hao Zhu(参考訳) 電気自動車充電ステーション(EVCS)は、電化輸送の迅速な移行を可能にするために重要である。 強化学習(rl)を用いてこの問題を解決するため、状態/動作空間の次元はevの数に比例してスケールし、非常に大きく時間的に変動する。 この次元問題は一般RLアルゴリズムの効率性と収束性に影響を与える。 我々は,ev充電の緊急時,すなわちラキシティ値に基づく集約方式を開発した。 個別のEVスケジュールの実現性を保証するEVCSの総充電パワーのみを検討するために、最低遅延第一規則(LLF)を採用する。 さらに,同一の最適方針を達成することを保証できる等価な状態アグリゲーションを提案する。 提案手法に基づき,線形ガウス政策の最適パラメータを求めるために,ポリシー勾配法が用いられる。 数値実験により,提案手法の性能向上を検証し,既存の近似法と比較して高い報酬とより効果的な方針を得ることができた。

Effectively operating electrical vehicle charging station (EVCS) is crucial for enabling the rapid transition of electrified transportation. To solve this problem using reinforcement learning (RL), the dimension of state/action spaces scales with the number of EVs and is thus very large and time-varying. This dimensionality issue affects the efficiency and convergence properties of generic RL algorithms. We develop aggregation schemes that are based on the emergency of EV charging, namely the laxity value. A least-laxity first (LLF) rule is adopted to consider only the total charging power of the EVCS which ensures the feasibility of individual EV schedules. In addition, we propose an equivalent state aggregation that can guarantee to attain the same optimal policy. Based on the proposed representation, policy gradient method is used to find the best parameters for the linear Gaussian policy . Numerical results have validated the performance improvement of the proposed representation approaches in attaining higher rewards and more effective policies as compared to existing approximation based approach.
翻訳日:2021-08-10 15:04:42 公開日:2021-08-07
# クロスドメイン勧告に関する調査--分類学,方法,今後の方向性

A Survey on Cross-domain Recommendation: Taxonomies, Methods, and Future Directions ( http://arxiv.org/abs/2108.03357v1 )

ライセンス: Link先を確認
Tianzi Zang, Yanmin Zhu, Haobing Liu, Ruohan Zhang, Jiadi Yu(参考訳) 従来のレコメンデーションシステムは、CDR(Cross-Domain Recommendation)の出現と発展を促進する2つの長期的障害、すなわちデータ空間とコールドスタートの問題に直面している。 CDRの中核となる考え方は、他のドメインから収集された情報を活用して、1つのドメインにおける2つの問題を緩和することである。 過去10年間で、多くの取り組みがクロスドメインレコメンデーションに取り組んできた。 近年,ディープラーニングとニューラルネットワークが開発され,数多くの手法が登場している。 しかしながら、CDRに関する体系的な調査は限られており、特に最新の提案手法や、それらが対処するレコメンデーションシナリオやレコメンデーションタスクについてである。 本稿では,まず,異なる推薦シナリオと推薦タスクを分類するクロスドメイン推薦の2段階分類法を提案する。 次に、異なるレコメンデーションシナリオの下で既存のクロスドメインレコメンデーションアプローチを構造化的に紹介・要約する。 一般的に使用されるデータセットも整理します。 本調査の結論は,本分野に関するいくつかの潜在的研究指針を提供することである。

Traditional recommendation systems are faced with two long-standing obstacles, namely, data sparsity and cold-start problems, which promote the emergence and development of Cross-Domain Recommendation (CDR). The core idea of CDR is to leverage information collected from other domains to alleviate the two problems in one domain. Over the last decade, many efforts have been engaged for cross-domain recommendation. Recently, with the development of deep learning and neural networks, a large number of methods have emerged. However, there is a limited number of systematic surveys on CDR, especially regarding the latest proposed methods as well as the recommendation scenarios and recommendation tasks they address. In this survey paper, we first proposed a two-level taxonomy of cross-domain recommendation which classifies different recommendation scenarios and recommendation tasks. We then introduce and summarize existing cross-domain recommendation approaches under different recommendation scenarios in a structured manner. We also organize datasets commonly used. We conclude this survey by providing several potential research directions about this field.
翻訳日:2021-08-10 15:04:14 公開日:2021-08-07
# 同型暗号を用いたフェデレーション学習によるセキュアなニューロイメージング解析

Secure Neuroimaging Analysis using Federated Learning with Homomorphic Encryption ( http://arxiv.org/abs/2108.03437v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Hamza Saleem, Tanmay Ghai, Nikhil Dhinagar, Umang Gupta, Chrysovalantis Anastasiou, Greg Ver Steeg, Srivatsan Ravi, Muhammad Naveed, Paul M. Thompson and Jose Luis Ambite(参考訳) フェデレートラーニング(FL)は、個々のデータを集中した場所に転送することなく、さまざまな異なるリモートデータソース上で機械学習モデルの分散計算を可能にする。 これにより、モデルの一般化性と計算の効率的なスケーリングが向上し、より多くのソースとより大きなデータセットがフェデレーションに追加される。 それにもかかわらず、最近のメンバーシップ攻撃は、モデルパラメータや要約統計が中央サイトと共有されるときに、プライベートまたはセンシティブな個人情報が漏洩したり、推測されることがあることを示している。 本研究では,完全同型暗号(FHE)を用いたセキュアFLフレームワークを提案する。 具体的には、ciphertextのパッキングと再スケーリングの恩恵を受ける近似浮動小数点互換スキームであるckks構成を使用する。 大規模脳MRIデータセットの評価において、提案したセキュアFLフレームワークを用いて、分散MRIスキャンから人物の年齢を予測する深層学習モデルを訓練し、暗号化されたフェデレーションモデルと暗号化されていないフェデレーションモデルの間で学習性能が劣化しないことを実証した。

Federated learning (FL) enables distributed computation of machine learning models over various disparate, remote data sources, without requiring to transfer any individual data to a centralized location. This results in an improved generalizability of models and efficient scaling of computation as more sources and larger datasets are added to the federation. Nevertheless, recent membership attacks show that private or sensitive personal data can sometimes be leaked or inferred when model parameters or summary statistics are shared with a central site, requiring improved security solutions. In this work, we propose a framework for secure FL using fully-homomorphic encryption (FHE). Specifically, we use the CKKS construction, an approximate, floating point compatible scheme that benefits from ciphertext packing and rescaling. In our evaluation on large-scale brain MRI datasets, we use our proposed secure FL framework to train a deep learning model to predict a person's age from distributed MRI scans, a common benchmarking task, and demonstrate that there is no degradation in the learning performance between the encrypted and non-encrypted federated models.
翻訳日:2021-08-10 15:03:56 公開日:2021-08-07