このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210613となっている論文です。

PDF登録状況(公開日: 20210613)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) FGLP: モバイルユーザーのためのファイングラインド位置予測システム [全文訳有]

FGLP: A Federated Fine-Grained Location Prediction System for Mobile Users ( http://arxiv.org/abs/2106.08946v1 )

ライセンス: CC BY 4.0
Xiaopeng Jiang, Shuai Zhao, Guy Jacobson, Rittwik Jana, Wen-Ling Hsu, Manoop Talasila, Syed Anwar Aftab, Yi Chen, Cristian Borcea(参考訳) スマートフォン上のきめ細かい位置予測は、アプリ/システムパフォーマンスを改善するために使用できる。 アプリケーションシナリオには、予測されたユーザの位置における5gネットワーク品質の関数としてビデオ品質適応、予測されたユーザの位置に基づいてコンテンツレンダリングを高速化する拡張現実アプリが含まれる。 このようなユースケースではgpsエラーと同じ範囲の予測誤差が必要であり、位置予測に関する既存の作業では、このレベルの精度を達成できない。 携帯電話上で収集されたGPSトレースに基づいて,モバイルユーザの詳細な位置情報予測(FGLP)システムを提案する。 FGLPには、フェデレーション学習フレームワークと予測モデルという2つのコンポーネントがある。 このフレームワークは、ユーザの電話だけでなく、システムのすべてのユーザからの学習をコーディネートするサーバ上でも動作する。 FGLPは、ユーザーの位置データを抽象的な2D空間の相対的なポイントとして表現し、異なる物理空間をまたぐ学習を可能にする。 このモデルは、Bidirectional Long Short-Term Memory (BiLSTM)とConvolutional Neural Networks (CNN)を融合し、BiLSTMはモバイルユーザーの速度と方向を学習し、CNNはユーザーの動きの好みなどの情報を学ぶ。 FGLPは、フェデレーション学習を使用してユーザのプライバシーを保護し、帯域幅の消費を減らす。 実験の結果,ユーザ60万人を超えるデータセットを用いて,fglpが予測精度でベースラインモデルを上回ることを実証した。 また,fglpがトランスファー学習と協調して動作し,モデルの再利用性が期待できることを示した。 最後に、いくつかのタイプのAndroidスマートフォンのベンチマーク結果から、実生活におけるFGLPの実現可能性を示している。

Fine-grained location prediction on smart phones can be used to improve app/system performance. Application scenarios include video quality adaptation as a function of the 5G network quality at predicted user locations, and augmented reality apps that speed up content rendering based on predicted user locations. Such use cases require prediction error in the same range as the GPS error, and no existing works on location prediction can achieve this level of accuracy. We present a system for fine-grained location prediction (FGLP) of mobile users, based on GPS traces collected on the phones. FGLP has two components: a federated learning framework and a prediction model. The framework runs on the phones of the users and also on a server that coordinates learning from all users in the system. FGLP represents the user location data as relative points in an abstract 2D space, which enables learning across different physical spaces. The model merges Bidirectional Long Short-Term Memory (BiLSTM) and Convolutional Neural Networks (CNN), where BiLSTM learns the speed and direction of the mobile users, and CNN learns information such as user movement preferences. FGLP uses federated learning to protect user privacy and reduce bandwidth consumption. Our experimental results, using a dataset with over 600,000 users, demonstrate that FGLP outperforms baseline models in terms of prediction accuracy. We also demonstrate that FGLP works well in conjunction with transfer learning, which enables model reusability. Finally, benchmark results on several types of Android phones demonstrate FGLP's feasibility in real life.
翻訳日:2021-06-18 13:40:38 公開日:2021-06-13
# (参考訳) タスク拡張を伴うエピソディクス訓練を用いた医用画像分類の領域一般化 [全文訳有]

Domain Generalization on Medical Imaging Classification using Episodic Training with Task Augmentation ( http://arxiv.org/abs/2106.06908v1 )

ライセンス: CC BY 4.0
Chenxin Li, Qi Qi, Xinghao Ding, Yue Huang, Dong Liang and Yizhou Yu(参考訳) 医療画像データセットは通常、スキャナベンダやイメージングプロトコルのバリエーションによってドメインシフトを示す。 これにより、機械学習モデルの一般化能力に関する懸念が高まる。 ドメイン一般化(Domain Generalization, DG)は、複数のソースドメインからモデルを学習し、直接見えないテストドメインに一般化することを目的としている。 DGに対処するために、最近のモデル非依存メタラーニング(MAML)が導入され、新しいテストタスクの学習を容易にするために、以前のトレーニングタスクから知識を伝達する。 しかし、臨床実践では、通常は少数の注釈付きソースドメインしか使用できないため、トレーニングタスク生成の能力が低下し、パラダイムにおけるトレーニングタスクへの過剰フィットのリスクが高まる。 本稿では,医用画像分類におけるタスク強化を用いた新しいDG法を提案する。 メタラーニングに基づき, エピソジック学習のパラダイムを構築し, エピソジック・トレーニング・タスク・シミュレーションからDGの実際のテストタスクへの知識伝達を構築する。 実際の医療展開において,限られた数のソースドメインに動機づけられたタスクレベルのオーバーフィッティングを考慮し,トレーニングタスク生成時の多様性を高めるタスク拡張を提案する。 確立された学習フレームワークにより、トレーニングドメインの深い埋め込みを規則化する新しいメタオブジェクトをさらに活用する。 本手法の有効性を検証するため,病理組織像と腹部CT画像の実験を行った。

Medical imaging datasets usually exhibit domain shift due to the variations of scanner vendors, imaging protocols, etc. This raises the concern about the generalization capacity of machine learning models. Domain generalization (DG), which aims to learn a model from multiple source domains such that it can be directly generalized to unseen test domains, seems particularly promising to medical imaging community. To address DG, recent model-agnostic meta-learning (MAML) has been introduced, which transfers the knowledge from previous training tasks to facilitate the learning of novel testing tasks. However, in clinical practice, there are usually only a few annotated source domains available, which decreases the capacity of training task generation and thus increases the risk of overfitting to training tasks in the paradigm. In this paper, we propose a novel DG scheme of episodic training with task augmentation on medical imaging classification. Based on meta-learning, we develop the paradigm of episodic training to construct the knowledge transfer from episodic training-task simulation to the real testing task of DG. Motivated by the limited number of source domains in real-world medical deployment, we consider the unique task-level overfitting and we propose task augmentation to enhance the variety during training task generation to alleviate it. With the established learning framework, we further exploit a novel meta-objective to regularize the deep embedding of training domains. To validate the effectiveness of the proposed method, we perform experiments on histopathological images and abdominal CT images.
翻訳日:2021-06-18 13:25:41 公開日:2021-06-13
# (参考訳) gigaspeech: 1万時間の書き起こしオーディオを備えた進化するマルチドメインasrコーパス [全文訳有]

GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of Transcribed Audio ( http://arxiv.org/abs/2106.06909v1 )

ライセンス: CC BY 4.0
Guoguo Chen, Shuzhou Chai, Guanbo Wang, Jiayu Du, Wei-Qiang Zhang, Chao Weng, Dan Su, Daniel Povey, Jan Trmal, Junbo Zhang, Mingjie Jin, Sanjeev Khudanpur, Shinji Watanabe, Shuaijiang Zhao, Wei Zou, Xiangang Li, Xuchen Yao, Yongqing Wang, Yujun Wang, Zhao You, Zhiyong Yan(参考訳) 本稿では,GigaSpeechについて紹介する。GigaSpeechは,教師あり訓練に適した高品質ラベル付き音声1万時間,半教師なし訓練に適した総音声4万時間を備えた,多分野英語音声認識コーパスである。 約4万時間に及ぶ録音された音声は、まずオーディオブック、ポッドキャスト、youtubeから収集され、読み書きと自発的な話し方、そして芸術、科学、スポーツなど様々なトピックをカバーしている。 音声認識訓練に適した文セグメントを作成し,低品質の書き起こしでセグメントをフィルタする新たな強制アライメントとセグメント化パイプラインを提案する。 システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。 1万時間のxlトレーニングサブセットでは、フィルタリング/バリデーション段階で単語エラー率を4%に、他の小さなトレーニングサブセットでは0%にキャプチャしています。 一方、開発と評価セットとテスト評価セットは、高い転写品質を確保するために、プロのヒューマントランスクリバーによって再処理される。 一般的な音声認識ツールキット(athena、espnet、kaldi、pika)にはベースラインシステムが提供されている。

This paper introduces GigaSpeech, an evolving, multi-domain English speech recognition corpus with 10,000 hours of high quality labeled audio suitable for supervised training, and 40,000 hours of total audio suitable for semi-supervised and unsupervised training. Around 40,000 hours of transcribed audio is first collected from audiobooks, podcasts and YouTube, covering both read and spontaneous speaking styles, and a variety of topics, such as arts, science, sports, etc. A new forced alignment and segmentation pipeline is proposed to create sentence segments suitable for speech recognition training, and to filter out segments with low-quality transcription. For system training, GigaSpeech provides five subsets of different sizes, 10h, 250h, 1000h, 2500h, and 10000h. For our 10,000-hour XL training subset, we cap the word error rate at 4% during the filtering/validation stage, and for all our other smaller training subsets, we cap it at 0%. The DEV and TEST evaluation sets, on the other hand, are re-processed by professional human transcribers to ensure high transcription quality. Baseline systems are provided for popular speech recognition toolkits, namely Athena, ESPnet, Kaldi and Pika.
翻訳日:2021-06-18 12:59:35 公開日:2021-06-13
# (参考訳) DMSANet:デュアルマルチスケールアテンションネットワーク [全文訳有]

DMSANet: Dual Multi Scale Attention Network ( http://arxiv.org/abs/2106.08382v1 )

ライセンス: CC BY 4.0
Abhinav Sagar(参考訳) 最近の注意機構はコンピュータビジョンコミュニティで非常に人気がある。 ネットワークの性能を改善するために多くの作業がなされているが、ほとんど常に計算の複雑さが増大する。 本稿では,最良性能を実現するだけでなく,既存モデルに比べてパラメータの少ない新しいアテンションモジュールを提案する。 私たちの注目モジュールは、軽量な性質のため、他の畳み込みニューラルネットワークと容易に統合できます。 提案ネットワークはDual Multi Scale Attention Network (DMSANet) と呼ばれる2つの部分から構成される。第1部は様々なスケールの特徴を抽出して集約するために使用され、第2部は空間的およびチャネル的アテンションモジュールを並列に使用し、局所的特徴とグローバルな依存関係を適応的に統合する。 我々は、イメージネットデータセット上の画像分類、オブジェクト検出およびインスタンスセグメンテーションにおいて、MS COCOデータセット上でのネットワーク性能をベンチマークした。

Attention mechanism of late has been quite popular in the computer vision community. A lot of work has been done to improve the performance of the network, although almost always it results in increased computational complexity. In this paper, we propose a new attention module that not only achieves the best performance but also has lesser parameters compared to most existing models. Our attention module can easily be integrated with other convolutional neural networks because of its lightweight nature. The proposed network named Dual Multi Scale Attention Network (DMSANet) is comprised of two parts: the first part is used to extract features at various scales and aggregate them, the second part uses spatial and channel attention modules in parallel to adaptively integrate local features with their global dependencies. We benchmark our network performance for Image Classification on ImageNet dataset, Object Detection and Instance Segmentation both on MS COCO dataset.
翻訳日:2021-06-18 12:48:28 公開日:2021-06-13
# (参考訳) 広帯域平均場変動ベイズ型ニューラルネットワークによるデータ無視 [全文訳有]

Wide Mean-Field Variational Bayesian Neural Networks Ignore the Data ( http://arxiv.org/abs/2106.07052v1 )

ライセンス: CC BY 4.0
Beau Coker, Weiwei Pan, Finale Doshi-Velez(参考訳) 変分推論は、現代の機械学習で人気がある超過パラメータニューラルネットワークの近似的な後進推論を可能にする。 残念なことに、そのような後肢は様々な病理行動を示すことが知られている。 単層ベイズニューラルネットワークにおける隠れ単位の数が無限大になる傾向にあるため、平均場変動推論の下での関数空間後部平均は0に収束し、データを完全に無視する。 これはガウス過程に収束する真の後流とは対照的である。 我々の研究は、変分推論におけるKL分散の過正規化に関する洞察を提供する。

Variational inference enables approximate posterior inference of the highly over-parameterized neural networks that are popular in modern machine learning. Unfortunately, such posteriors are known to exhibit various pathological behaviors. We prove that as the number of hidden units in a single-layer Bayesian neural network tends to infinity, the function-space posterior mean under mean-field variational inference actually converges to zero, completely ignoring the data. This is in contrast to the true posterior, which converges to a Gaussian process. Our work provides insight into the over-regularization of the KL divergence in variational inference.
翻訳日:2021-06-17 18:05:09 公開日:2021-06-13
# (参考訳) 最適化と遅延によるオンライン学習

Online Learning with Optimism and Delay ( http://arxiv.org/abs/2106.06885v1 )

ライセンス: CC BY 4.0
Genevieve Flaspohler, Francesco Orabona, Judah Cohen, Soukayna Mouatadid, Miruna Oprescu, Paulo Orenstein and Lester Mackey(参考訳) リアルタイムの気候や天気予報の需要に触発されて,パラメータチューニングを必要としない楽観的なオンライン学習アルゴリズムを開発し,遅延フィードバックの下で最適な後悔の保証を行う。 私たちのアルゴリズム(dorm、dormp、adahedged)は、遅延したオンライン学習から楽観的なオンライン学習へと新しい還元によって生まれます。 この遅延・アズ・オプティミズムの観点と,新しい楽観的学習の分析とを組み合わせることで,その頑健さをヒントの誤りにさらし,遅延の存在下で効果的なヒント戦略を学習する新しいメタアルゴリズムを提案する。 我々は,4つの季節下気候予測課題について,我々のアルゴリズムをベンチマークすることで,最先端の予測モデルと比較して低い後悔を示す。

Inspired by the demands of real-time climate and weather forecasting, we develop optimistic online learning algorithms that require no parameter tuning and have optimal regret guarantees under delayed feedback. Our algorithms -- DORM, DORMP, and AdaHedgeD -- arise from a novel reduction of delayed online learning to optimistic online learning that reveals how optimistic hints can mitigate the regret penalty caused by delay. We pair this delay-as-optimism perspective with a new analysis of optimistic learning that exposes its robustness to hinting errors and a new meta-algorithm for learning effective hinting strategies in the presence of delay. We conclude by benchmarking our algorithms on four subseasonal climate forecasting tasks, demonstrating low regret relative to state-of-the-art forecasting models.
翻訳日:2021-06-17 15:58:36 公開日:2021-06-13
# (参考訳) 時空間ポアソン点過程:イベントカメラデータのアライメントのための簡易モデル [全文訳有]

The Spatio-Temporal Poisson Point Process: A Simple Model for the Alignment of Event Camera Data ( http://arxiv.org/abs/2106.06887v1 )

ライセンス: CC BY 4.0
Cheng Gu, Erik Learned-Miller, Daniel Sheldon, Guillermo Gallego, Pia Bideau(参考訳) 生物学的視覚システムにインスパイアされたイベントカメラは、視覚情報の自然かつ効率的な表現を提供する。 視覚情報は、局所的な明るさ変化によって引き起こされるイベントの形で取得される。 カメラのセンサーの各ピクセル位置は、非常に高時間分解能のイベントを非同期かつ独立に記録する。 しかし、ほとんどの明るさ変化はカメラとシーンの相対的な動きによって引き起こされるため、単一のセンサー位置で記録されたイベントは同じワールドポイントにはほとんど対応しない。 イベントカメラから意味のある情報を抽出するには、同じ世界ポイントによって引き起こされたイベントを登録することが有用である。 本研究では,その自然時空間構造を捉えるイベントデータの新しいモデルを提案する。 まずはイベントデータのアライメントモデルの開発から始めます。 すなわち、すでに完全に登録されているかのように、データのモデルを開発する。 特に、アライメントされたデータを時空間ポアソン点過程としてモデル化する。 このモデルに基づいて,アライン化されていないイベントを登録するための最大可能性アプローチを開発した。 つまり、観測されたイベントの変換が、私たちのモデルの下で可能な限り起こりそうなものを見つけます。 特に、最高のイベントアライメントにつながるカメラの回転を抽出します。 davis 240cデータセットにおける回転速度推定のための新しい技術精度を示す。 さらに,本手法は,いくつかの競合手法よりも高速で,計算量も少ない。

Event cameras, inspired by biological vision systems, provide a natural and data efficient representation of visual information. Visual information is acquired in the form of events that are triggered by local brightness changes. Each pixel location of the camera's sensor records events asynchronously and independently with very high temporal resolution. However, because most brightness changes are triggered by relative motion of the camera and the scene, the events recorded at a single sensor location seldom correspond to the same world point. To extract meaningful information from event cameras, it is helpful to register events that were triggered by the same underlying world point. In this work we propose a new model of event data that captures its natural spatio-temporal structure. We start by developing a model for aligned event data. That is, we develop a model for the data as though it has been perfectly registered already. In particular, we model the aligned data as a spatio-temporal Poisson point process. Based on this model, we develop a maximum likelihood approach to registering events that are not yet aligned. That is, we find transformations of the observed events that make them as likely as possible under our model. In particular we extract the camera rotation that leads to the best event alignment. We show new state of the art accuracy for rotational velocity estimation on the DAVIS 240C dataset. In addition, our method is also faster and has lower computational complexity than several competing methods.
翻訳日:2021-06-17 15:57:28 公開日:2021-06-13
# (参考訳) Depthwise Feature Interaction Network を用いた沿岸湿原のハイパースペクトル・マルチスペクトル分類 [全文訳有]

Hyperspectral and Multispectral Classification for Coastal Wetland Using Depthwise Feature Interaction Network ( http://arxiv.org/abs/2106.06896v1 )

ライセンス: CC BY 4.0
Yunhao Gao, Wei Li, Mengmeng Zhang, Jianbu Wang, Weiwei Sun, Ran Tao, Qian Du(参考訳) 海岸湿地のモニタリングは、海洋生態系と陸生態系の保護に非常に重要である。 しかし、複雑な環境や植生の混ざり合い、アクセスの困難さから、沿岸の湿地を正確に分類し、それらの種を伝統的な分類器で識別することは不可能である。 性能向上のためのマルチソースリモートセンシングデータの統合にもかかわらず、マルチソースデータからの補完的なメリットの獲得と活用には依然として課題がある。 本稿では,湿地分類のためのDeepwise Feature Interaction Network (DFINet)を提案する。 深さ方向のクロスアテンションモジュールは、多元特徴ペアから自己相関と相互相関を抽出するように設計されている。 このように分類には有意義な補完的情報が強調される。 DFINetは一貫性損失、識別損失、分類損失の調整によって最適化される。 したがって、DFINetは損失関数の規則性の下で標準解空間に到達し、空間整合性と特徴識別は保存される。 2つのハイパースペクトルおよびマルチスペクトルウェットランドデータセットの総合的な実験結果から、提案したDFINetは総合的精度で他の競合手法よりも優れていることが示された。

The monitoring of coastal wetlands is of great importance to the protection of marine and terrestrial ecosystems. However, due to the complex environment, severe vegetation mixture, and difficulty of access, it is impossible to accurately classify coastal wetlands and identify their species with traditional classifiers. Despite the integration of multisource remote sensing data for performance enhancement, there are still challenges with acquiring and exploiting the complementary merits from multisource data. In this paper, the Deepwise Feature Interaction Network (DFINet) is proposed for wetland classification. A depthwise cross attention module is designed to extract self-correlation and cross-correlation from multisource feature pairs. In this way, meaningful complementary information is emphasized for classification. DFINet is optimized by coordinating consistency loss, discrimination loss, and classification loss. Accordingly, DFINet reaches the standard solution-space under the regularity of loss functions, while the spatial consistency and feature discrimination are preserved. Comprehensive experimental results on two hyperspectral and multispectral wetland datasets demonstrate that the proposed DFINet outperforms other competitive methods in terms of overall accuracy.
翻訳日:2021-06-17 15:42:07 公開日:2021-06-13
# (参考訳) Top-k$アテンションによるメモリ効率変換器 [全文訳有]

Memory-efficient Transformers via Top-$k$ Attention ( http://arxiv.org/abs/2106.06899v1 )

ライセンス: CC BY 4.0
Ankit Gupta, Guy Dar, Shaya Goodman, David Ciprut, Jonathan Berant(参考訳) 変圧器におけるドット製品注目の成功に続いて、入力長に関する二次複雑性に対処するために、最近多くの近似が提案されている。 これらの変種はメモリと計算効率が良いが、バニラアテンションを用いて訓練された人気のある事前学習言語モデルで直接使用することはできない。 本研究では,バニラ注意の簡易かつ高精度な近似手法を提案する。 クエリをチャンクで処理し、各クエリに対してキーに関するトップ$k$スコアを計算します。 a) そのメモリ使用量は入力サイズにおいて線形であり、パフォーマーやrfa(英語版)のような線形注意型と同様に(b) 修正済み事前トレーニングを必要としないバニラ注意のドロップイン代替であり、(c) 慣れ親しんだクエリーキー値フレームワークにキャストした後、フィードフォワード層でかなりのメモリ節約につながる可能性がある。 長距離アリーナベンチマークにおけるマルチヘッドアテンション層と,複数のqaデータセットにおけるt5とunifiedqaのフィードフォワード層に対して,トップ$k$近似のクオリティを評価する。 私たちのアプローチは、スクラッチからのトレーニング、微調整、ゼロショット推論など、複数のセットアップにおいてバニラの注意をほぼ同一視する精度を示しています。

Following the success of dot-product attention in Transformers, numerous approximations have been recently proposed to address its quadratic complexity with respect to the input length. While these variants are memory and compute efficient, it is not possible to directly use them with popular pre-trained language models trained using vanilla attention, without an expensive corrective pre-training stage. In this work, we propose a simple yet highly accurate approximation for vanilla attention. We process the queries in chunks, and for each query, compute the top-$k$ scores with respect to the keys. Our approach offers several advantages: (a) its memory usage is linear in the input size, similar to linear attention variants, such as Performer and RFA (b) it is a drop-in replacement for vanilla attention that does not require any corrective pre-training, and (c) it can also lead to significant memory savings in the feed-forward layers after casting them into the familiar query-key-value framework. We evaluate the quality of top-$k$ approximation for multi-head attention layers on the Long Range Arena Benchmark, and for feed-forward layers of T5 and UnifiedQA on multiple QA datasets. We show our approach leads to accuracy that is nearly-identical to vanilla attention in multiple setups including training from scratch, fine-tuning, and zero-shot inference.
翻訳日:2021-06-17 15:18:37 公開日:2021-06-13
# (参考訳) 進化的分類に基づくLSTMモデルを用いたCovid-19ツイートの知覚分析 [全文訳有]

Sentiment Analysis of Covid-19 Tweets using Evolutionary Classification-Based LSTM Model ( http://arxiv.org/abs/2106.06910v1 )

ライセンス: CC BY-SA 4.0
Arunava Kumar Chakraborty, Sourav Das and Anup Kumar Kolya(参考訳) 新型コロナウイルス(COVID-19)が世界中で急速に流行し、数百万人の命に影響を及ぼす中、多くの国がその強度を確認するために完全なロックダウンを宣言した。 このロックダウン期間中、ソーシャルメディアのplat-formsは、このパンデミックに関する情報を世界中に広める上で重要な役割を果たしてきた。 このような悲惨な状況を踏まえて,twitter上の人々の反応を,このパンデミックに基づいて直接的あるいは間接的に,acカウントで分析する実験的なアプローチを開発した。 本稿では,コロナウイルスやコビッドウイルスに関する大量のツイートの感情分析について述べる。 まず、進化的分類とn-gram分析を用いて、Covid-19流行に関連するトピックに対する世論感情の傾向を分析した。 そして、そのクラスに基づいて、収集したツイートの感情評価を算出した。 最後に、Covid-19データに対する感情を予測するために、2種類のレーティングツイートを使用して長期ネットワークをトレーニングし、全体の精度84.46%を得た。

As the Covid-19 outbreaks rapidly all over the world day by day and also affects the lives of million, a number of countries declared complete lock-down to check its intensity. During this lockdown period, social media plat-forms have played an important role to spread information about this pandemic across the world, as people used to express their feelings through the social networks. Considering this catastrophic situation, we developed an experimental approach to analyze the reactions of people on Twitter taking into ac-count the popular words either directly or indirectly based on this pandemic. This paper represents the sentiment analysis on collected large number of tweets on Coronavirus or Covid-19. At first, we analyze the trend of public sentiment on the topics related to Covid-19 epidemic using an evolutionary classification followed by the n-gram analysis. Then we calculated the sentiment ratings on collected tweet based on their class. Finally, we trained the long-short term network using two types of rated tweets to predict sentiment on Covid-19 data and obtained an overall accuracy of 84.46%.
翻訳日:2021-06-17 14:49:09 公開日:2021-06-13
# (参考訳) non-transferable learning:モデル検証と認可のための新しいアプローチ [全文訳有]

Non-Transferable Learning: A New Approach for Model Verification and Authorization ( http://arxiv.org/abs/2106.06916v1 )

ライセンス: CC0 1.0
Lixu Wang, Shichao Xu, Ruiqi Xu, Xiao Wang, Qi Zhu(参考訳) サービスとしての人工知能の人気が高まる中、知的所有権として十分に訓練されたモデルを保護することがますます重要になっている。 一般的に、所有権の検証と使用許可という2つの一般的な保護方法がある。 本稿では,学習モデルにおける排他的データ表現を捕捉し,モデル一般化能力を特定の領域に限定する新しい手法であるNon-Transferable Learning (NTL)を提案する。 このアプローチは、モデルの検証と承認の両方に効果的なソリューションを提供する。 所有権検証では、透かし技術は一般的に使用されるが、しばしば洗練された透かし除去法に弱い。 我々のNTLベースのモデル検証アプローチは、その代わりに、CIFAR10とSTL10とVisDAデータセットの4つの手法の広範な実験で示されているように、最先端の透かし除去手法に対する堅牢な耐性を提供する。 使用許可については、事前のソリューションでは、特定のユーザに対してモデルの使用を許可することに重点を置いている。 当社のNTLベースの認証アプローチは、不正なデータに対する使用性能を著しく低下させることで、データ中心の使用保護を提供します。 その効果は、様々なデータセットの実験を通しても示される。

As Artificial Intelligence as a Service gains popularity, protecting well-trained models as intellectual property is becoming increasingly important. Generally speaking, there are two common protection methods: ownership verification and usage authorization. In this paper, we propose Non-Transferable Learning (NTL), a novel approach that captures the exclusive data representation in the learned model and restricts the model generalization ability to certain domains. This approach provides effective solutions to both model verification and authorization. For ownership verification, watermarking techniques are commonly used but are often vulnerable to sophisticated watermark removal methods. Our NTL-based model verification approach instead provides robust resistance to state-of-the-art watermark removal methods, as shown in extensive experiments for four of such methods over the digits, CIFAR10 & STL10, and VisDA datasets. For usage authorization, prior solutions focus on authorizing specific users to use the model, but authorized users can still apply the model to any data without restriction. Our NTL-based authorization approach instead provides data-centric usage protection by significantly degrading the performance of usage on unauthorized data. Its effectiveness is also shown through experiments on a variety of datasets.
翻訳日:2021-06-17 14:42:51 公開日:2021-06-13
# (参考訳) ATRAS: 対角的にトレーニングされたロバストアーキテクチャ検索 [全文訳有]

ATRAS: Adversarially Trained Robust Architecture Search ( http://arxiv.org/abs/2106.06917v1 )

ライセンス: CC BY 4.0
Yigit Alparslan, Edward Kim(参考訳) 本稿では,アーキテクチャ完全性が対向的ロバスト性に及ぼす影響について検討する。 CIFAR-10とMNISTデータセットで異なるアーキテクチャでモデルをトレーニングする。 各モデルごとに、レイヤの数とレイヤ内のノード数が異なるのです。 各アーキテクチャ候補に対して、FGSM(Fast Gradient Sign Method)を用いて、未目標の敵攻撃を発生させ、それらの攻撃を防御するために敵の訓練を使用する。 各アーキテクチャ候補について, モデルに対する事前攻撃, 後攻撃, 防御後の精度, アーキテクチャパラメータ, モデル精度に対する完全性の影響を報告する。

In this paper, we explore the effect of architecture completeness on adversarial robustness. We train models with different architectures on CIFAR-10 and MNIST dataset. For each model, we vary different number of layers and different number of nodes in the layer. For every architecture candidate, we use Fast Gradient Sign Method (FGSM) to generate untargeted adversarial attacks and use adversarial training to defend against those attacks. For each architecture candidate, we report pre-attack, post-attack and post-defense accuracy for the model as well as the architecture parameters and the impact of completeness to the model accuracies.
翻訳日:2021-06-17 14:18:27 公開日:2021-06-13
# (参考訳) 画像合成のための逆ロバストネットワークの反転 [全文訳有]

Inverting Adversarially Robust Networks for Image Synthesis ( http://arxiv.org/abs/2106.06927v1 )

ライセンス: CC BY 4.0
Renan A. Rojas-Gomez, Raymond A. Yeh, Minh N. Do, Anh Nguyen(参考訳) 敵対的にロバストな分類器に関する最近の研究は、それらの表現が人間の知覚と一致しがちであり、画像合成や復元の用途に魅力的であることを示唆している。 いくつかのダウンストリームタスクで経験的な結果が得られるが、その利点は遅くて敏感な最適化ベースの技術に限られている。 さらに、生成モデルに対するそれらの使用は未検討のままである。 本研究は,特徴反転モデルに対する知覚的プリミティブとしてロバスト表現を用いることを提案し,標準的非ロバスト画像特徴に関してその利点を示す。 画像にロバスト表現を適用することで,cnnを用いた特徴反転モデルの再構成精度が大幅に向上することを示す。 さらに、複数のスケールで画像を再構築できる。 そこで本研究では,ロバスト表現に基づく符号化復号ネットワークを提案し,異常検出,スタイル転送,画像デノイジングなどのアプリケーションに対してそのアドバンテージを示す。

Recent research in adversarially robust classifiers suggests their representations tend to be aligned with human perception, which makes them attractive for image synthesis and restoration applications. Despite favorable empirical results on a few downstream tasks, their advantages are limited to slow and sensitive optimization-based techniques. Moreover, their use on generative models remains unexplored. This work proposes the use of robust representations as a perceptual primitive for feature inversion models, and show its benefits with respect to standard non-robust image features. We empirically show that adopting robust representations as an image prior significantly improves the reconstruction accuracy of CNN-based feature inversion models. Furthermore, it allows reconstructing images at multiple scales out-of-the-box. Following these findings, we propose an encoding-decoding network based on robust representations and show its advantages for applications such as anomaly detection, style transfer and image denoising.
翻訳日:2021-06-17 14:11:38 公開日:2021-06-13
# (参考訳) 抽象ドメインの学習:強化学習における検証可能な保証のための新しいアプローチ [全文訳有]

Learning on Abstract Domains: A New Approach for Verifiable Guarantee in Reinforcement Learning ( http://arxiv.org/abs/2106.06931v1 )

ライセンス: CC BY 4.0
Peng Jin, Min Zhang, Jianwen Li, Li Han, Xuejun Wen(参考訳) システム動作の動的連続性と組込みニューラルネットワークのブラックボックス機能のために,DRL(Deep Reinforcement Learning)システムの形式的検証は難しい作業である。 本稿では,具体的なシステム状態ではなく,有限抽象領域上でDRLシステムを学習するための新しい抽象的アプローチを提案する。 入力状態が有限なニューラルネットワークを生成し、モデルチェック技術を用いてDRLシステムを直接検証する。 我々のアプローチは既存のDRLアルゴリズムや市販モデルチェッカーと直交する。 得られたプロトタイプのトレーニングと検証フレームワークを実装し,最先端ベンチマークで広範な実験を行う。 その結果,本手法で訓練されたシステムは,抽象化せずに訓練されたシステムと同等の性能を保ちながら,より効率的に検証できることがわかった。

Formally verifying Deep Reinforcement Learning (DRL) systems is a challenging task due to the dynamic continuity of system behaviors and the black-box feature of embedded neural networks. In this paper, we propose a novel abstraction-based approach to train DRL systems on finite abstract domains instead of concrete system states. It yields neural networks whose input states are finite, making hosting DRL systems directly verifiable using model checking techniques. Our approach is orthogonal to existing DRL algorithms and off-the-shelf model checkers. We implement a resulting prototype training and verification framework and conduct extensive experiments on the state-of-the-art benchmark. The results show that the systems trained in our approach can be verified more efficiently while they retain comparable performance against those that are trained without abstraction.
翻訳日:2021-06-17 13:51:42 公開日:2021-06-13
# (参考訳) ネットワークトラフィック分類のためのアクティブラーニング:技術調査 [全文訳有]

Active Learning for Network Traffic Classification: A Technical Survey ( http://arxiv.org/abs/2106.06933v1 )

ライセンス: CC BY 4.0
Amin Shahraki, Mahmoud Abbasi, Amir Taherkordi and Anca Delia Jurcut(参考訳) ネットワークトラフィック分類(NTC)は、QoS(Quality of Service)のプロビジョニングやセキュリティ目的など、さまざまなネットワーク管理業務において重要なコンポーネントとなっている。 NTC手法の共通手法としての機械学習(ML)アルゴリズムは、適切な精度を達成し、暗号化されたトラフィックを処理することができる。 しかし、MLベースのNTC技術は、多くの実世界のアプリケーションで使われているラベル付きトラフィックデータの不足に悩まされている。 本研究では、アクティブラーニング(AL)と呼ばれるMLのアクティブな形態の適用性について検討し、ラベル付けすべきインスタンスを積極的に選択することで、多数のラベル付きサンプルの必要性を低減する。 本研究はまず,NTCにおけるML手法の活用分野における文献調査とともに,NTCとその基礎的課題について概説する。 次に、ALの概念を導入し、NTCの文脈で議論し、この分野の文献をレビューする。 さらに,NTCにおけるALの使用に関する課題と課題について論じる。 さらに技術調査として,NTCにおけるALの広範な適用性を示す実験を行った。 シミュレーションの結果,ALは少ないデータ量で高い精度が得られることがわかった。

Network Traffic Classification (NTC) has become an important component in a wide variety of network management operations, e.g., Quality of Service (QoS) provisioning and security purposes. Machine Learning (ML) algorithms as a common approach for NTC methods can achieve reasonable accuracy and handle encrypted traffic. However, ML-based NTC techniques suffer from the shortage of labeled traffic data which is the case in many real-world applications. This study investigates the applicability of an active form of ML, called Active Learning (AL), which reduces the need for a high number of labeled examples by actively choosing the instances that should be labeled. The study first provides an overview of NTC and its fundamental challenges along with surveying the literature in the field of using ML techniques in NTC. Then, it introduces the concepts of AL, discusses it in the context of NTC, and review the literature in this field. Further, challenges and open issues in the use of AL for NTC are discussed. Additionally, as a technical survey, some experiments are conducted to show the broad applicability of AL in NTC. The simulation results show that AL can achieve high accuracy with a small amount of data.
翻訳日:2021-06-17 13:35:40 公開日:2021-06-13
# (参考訳) Common Sense Beyond English: Commonsense Reasoningのための多言語言語モデルの評価と改善 [全文訳有]

Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning ( http://arxiv.org/abs/2106.06937v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Seyeon Lee, Xiaoyang Qiao, Xiang Ren(参考訳) 常識推論の研究は今のところ英語に限られている。 汎用多言語言語モデル (ml-lms) の評価と改善を行い, 英語以外の共通理解推論 (csr) の推進を支援する。 我々は11言語で561kの文からなるミッキーコーパスを収集し、ML-LMの分析と改善に使用できる。 そこで本研究では,ml-lmの共通性を評価する言語非依存な探索タスクであるmickey probeを提案する。 さらに、英語版を15言語に翻訳することで、X-CSQAとX-CODAHという2つの新しいデータセットを作成し、ML-LMを言語間共通文推論のために評価する。 英語以外の性能を改善するために,多言語コントラスト事前学習(MCP)という,シンプルで効果的な手法を提案する。 文表現を大幅に強化し、両方のベンチマークで大きなパフォーマンス向上をもたらす。

Commonsense reasoning research has so far been limited to English. We aim to evaluate and improve popular multilingual language models (ML-LMs) to help advance commonsense reasoning (CSR) beyond English. We collect the Mickey Corpus, consisting of 561k sentences in 11 different languages, which can be used for analyzing and improving ML-LMs. We propose Mickey Probe, a language-agnostic probing task for fairly evaluating the common sense of popular ML-LMs across different languages. In addition, we also create two new datasets, X-CSQA and X-CODAH, by translating their English versions to 15 other languages, so that we can evaluate popular ML-LMs for cross-lingual commonsense reasoning. To improve the performance beyond English, we propose a simple yet effective method -- multilingual contrastive pre-training (MCP). It significantly enhances sentence representations, yielding a large performance gain on both benchmarks.
翻訳日:2021-06-17 11:39:47 公開日:2021-06-13
# (参考訳) 教師なし学習におけるクロスモーダル注意一貫性 [全文訳有]

Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning ( http://arxiv.org/abs/2106.06939v1 )

ライセンス: CC BY 4.0
Shaobo Min, Qi Dai, Hongtao Xie, Chuang Gan, Yongdong Zhang, Jingdong Wang(参考訳) クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を与える。 既存の方法は、視覚的および音声的表現による異なるビデオクリップの識別に焦点を当てている。 人間の視覚知覚は音が発する領域に到達し、聴覚知覚は音の周波数を測り、それを双方向の局所対応と呼ぶ。 このような監督は直感的であるが、対照的な学習フレームワークでは十分に研究されていない。 本稿では,双方向局所対応性を検討するためのプリテキストタスクcross-modal attention consistency (cmac)を提案する。 CMACアプローチは、視覚信号から純粋に発生する局所的注意と音響信号の誘導により発生する対象的注意とを一致させることを目的としており、音響的注意に基づく周波数グラウンドリングに類似したアライメントを行う。 CMACアプローチは、追加のモード内相互作用を考慮することで、双方向アライメントの強化に有効である。 6つのダウンストリームベンチマークでの大規模な実験により、CMACはビジュアルとオーディオの両モードで最先端のパフォーマンスを向上させることができることが示された。

Cross-modal correlation provides an inherent supervision for video unsupervised representation learning. Existing methods focus on distinguishing different video clips by visual and audio representations. We human visual perception could attend to regions where sounds are made, and our auditory perception could also ground their frequencies of sounding objects, which we call bidirectional local correspondence. Such supervision is intuitive but not well explored in the contrastive learning framework. This paper introduces a pretext task, Cross-Modal Attention Consistency (CMAC), for exploring the bidirectional local correspondence property. The CMAC approach aims to align the regional attention generated purely from the visual signal with the target attention generated under the guidance of acoustic signal, and do a similar alignment for frequency grounding on the acoustic attention. Accompanied by a remoulded cross-modal contrastive loss where we consider additional within-modal interactions, the CMAC approach works effectively for enforcing the bidirectional alignment. Extensive experiments on six downstream benchmarks demonstrate that CMAC can improve the state-of-the-art performance on both visual and audio modalities.
翻訳日:2021-06-17 11:19:26 公開日:2021-06-13
# (参考訳) ばらつき低減型分類器によるランダム化平滑化 [全文訳有]

Boosting Randomized Smoothing with Variance Reduced Classifiers ( http://arxiv.org/abs/2106.06946v1 )

ライセンス: CC BY 4.0
Mikl\'os Z. Horv\'ath, Mark Niklas M\"uller, Marc Fischer, Martin Vechev(参考訳) ランダム化平滑化(Randomized Smoothing, RRS)は,雑音下でのベースモデルの評価によりロバスト性証明を得るための有望な手法である。 この研究において、 (i) アンサンブルがRSのベースモデルとして特に適した選択である理由を理論的に動機付け、 (ii) この選択を実証的に確認し、複数の設定で結果を得る。 我々の研究の重要な洞察は、RSで導入された摂動に対するアンサンブルのばらつきが、与えられた入力に対してはるかに一貫した分類をもたらし、その結果、難しいサンプルに対して証明可能なラジイが大幅に増加するということである。 また, rsのサンプル複雑性を最大50倍低減し, 計算オーバーヘッドを大幅に削減する鍵最適化も導入する。 実験により,CIFAR-10とImageNetでは,3~10の分類器のみのアンサンブルが,平均認定半径(ACR)に対して,最強の単一モデルにおいて,5%から21%向上することが確認された。 後者では、1.11の最先端のACRを実現する。 結果を公開するために必要なすべてのコードとモデルをリリースします。

Randomized Smoothing (RS) is a promising method for obtaining robustness certificates by evaluating a base model under noise. In this work we: (i) theoretically motivate why ensembles are a particularly suitable choice as base models for RS, and (ii) empirically confirm this choice, obtaining state of the art results in multiple settings. The key insight of our work is that the reduced variance of ensembles over the perturbations introduced in RS leads to significantly more consistent classifications for a given input, in turn leading to substantially increased certifiable radii for difficult samples. We also introduce key optimizations which enable an up to 50-fold decrease in sample complexity of RS, thus drastically reducing its computational overhead. Experimentally, we show that ensembles of only 3 to 10 classifiers consistently improve on the strongest single model with respect to their average certified radius (ACR) by 5% to 21% on both CIFAR-10 and ImageNet. On the latter, we achieve a state-of-the-art ACR of 1.11. We release all code and models required to reproduce our results upon publication.
翻訳日:2021-06-16 14:40:22 公開日:2021-06-13
# (参考訳) 多変量時系列におけるグラフニューラルネットワークに基づく異常検出 [全文訳有]

Graph Neural Network-Based Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2106.06947v1 )

ライセンス: CC BY 4.0
Ailin Deng, Bryan Hooi(参考訳) 高次元時系列データ(センサデータなど)が与えられた場合、システム障害や攻撃といった異常事象をどうやって検出できるのか? さらに難しいのは、複雑なセンサー間の関係をキャプチャして、これらの関係から逸脱する異常を検出して説明する方法です。 近年,ディープラーニングのアプローチにより,高次元データセットにおける異常検出が改善されているが,既存の手法では変数間の既存の関係構造を明示的に学習したり,時系列の予測に使用することはない。 提案手法は,構造学習アプローチとグラフニューラルネットワークを組み合わせることで,検出された異常に対する説明可能性を提供する。 実世界の2つのセンサデータセットと地上の真理異常を用いた実験により,本手法はベースラインアプローチよりも高精度に異常を検出し,センサ間の相関関係を正確に把握し,検出された異常の根本原因を推定できることを示した。

Given high-dimensional time series data (e.g., sensor data), how can we detect anomalous events, such as system faults and attacks? More challengingly, how can we do this in a way that captures complex inter-sensor relationships, and detects and explains anomalies which deviate from these relationships? Recently, deep learning approaches have enabled improvements in anomaly detection in high-dimensional datasets; however, existing methods do not explicitly learn the structure of existing relationships between variables, or use them to predict the expected behavior of time series. Our approach combines a structure learning approach with graph neural networks, additionally using attention weights to provide explainability for the detected anomalies. Experiments on two real-world sensor datasets with ground truth anomalies show that our method detects anomalies more accurately than baseline approaches, accurately captures correlations between sensors, and allows users to deduce the root cause of a detected anomaly.
翻訳日:2021-06-16 13:59:48 公開日:2021-06-13
# (参考訳) 反復的マグニチュード・プルーニングの理解に向けて:なぜロッテティケットが勝つのか [全文訳有]

Towards Understanding Iterative Magnitude Pruning: Why Lottery Tickets Win ( http://arxiv.org/abs/2106.06955v1 )

ライセンス: CC BY 4.0
Jaron Maene, Mingxiao Li, Marie-Francine Moens(参考訳) 宝くじの仮説では、スパースサブネットはランダムに初期化された高密度ネットワークに存在し、それらが居住する高密度ネットワークと同じ精度でトレーニングすることができる。 しかし、その後の研究ではこれを大規模モデルで再現できず、初期化ではなく早期安定状態に戻す必要があった。 線形モード接続に関して安定なトレーニング手法を用いることで、大規模なネットワークを初期化に完全に巻き戻すことができることを示す。 共通ビジョンタスクに関する我々のその後の実験は、Evci et al の仮説に強い信頼を与える。 (2020b)宝くじは単に同一地域(必ずしも同一盆地に限るわけではないが)に再出発する。 これらの結果から,既存の宝くじ券は,反復的な等級プルーニングによる濃密な訓練がなければ見つからなかったことが示唆された。

The lottery ticket hypothesis states that sparse subnetworks exist in randomly initialized dense networks that can be trained to the same accuracy as the dense network they reside in. However, the subsequent work has failed to replicate this on large-scale models and required rewinding to an early stable state instead of initialization. We show that by using a training method that is stable with respect to linear mode connectivity, large networks can also be entirely rewound to initialization. Our subsequent experiments on common vision tasks give strong credence to the hypothesis in Evci et al. (2020b) that lottery tickets simply retrain to the same regions (although not necessarily to the same basin). These results imply that existing lottery tickets could not have been found without the preceding dense training by iterative magnitude pruning, raising doubts about the use of the lottery ticket hypothesis.
翻訳日:2021-06-16 13:45:49 公開日:2021-06-13
# (参考訳) AutoScore-Survival: 直感的生存データを用いた解釈可能な機械学習に基づく時間-時間スコアの開発 [全文訳有]

AutoScore-Survival: Developing interpretable machine learning-based time-to-event scores with right-censored survival data ( http://arxiv.org/abs/2106.06957v1 )

ライセンス: CC BY 4.0
Feng Xie, Yilin Ning, Han Yuan, Benjamin Alan Goldstein, Marcus Eng Hock Ong, Nan Liu, Bibhas Chakraborty(参考訳) スコアリングシステムは高度に解釈可能であり、医療研究の時間対事象の結果を評価するために広く使われている。 しかし、既存の時間からイベントまでのスコアは、臨床医の知識に基づいて、いくつかの手動で選択した変数を使ってアドホックに作られており、堅牢で効率的な総合スコア生成方法の必要性が示唆されている。 AutoScoreは、以前は解釈可能な機械学習スコアジェネレータとして開発され、機械学習とポイントベースのスコアの両方を強力な識別性とアクセシビリティに統合した。 我々はさらにそれを時間-イベントデータに拡張し、右検閲されたサバイバルデータで時間-イベントスコアを自動的に生成するautoscore-survivalを開発した。 ランダムサバイバルフォレストは変数の選択に効率的なソリューションを提供し、コックス回帰はスコア重み付けに使われた。 本手法は,集中治療室における90日間の死亡率を実生活で検討し,生存モデル(cox)とランダムサバイバルフォレストとの比較を行った。 AutoScore-Survival由来のスコアリングモデルは、従来の変数選択法(例えば、ペナル化可能性アプローチとステップワイズ変数選択)を用いて構築されたサバイバルモデルよりも同義であり、その性能は同じ変数セットを使用したサバイバルモデルに匹敵するものであった。 AutoScore-Survival は 0.782 (95% CI: 0.767-0.794) の曲線で同等の積分領域を達成しているが、整数値の時間-値スコアは計算や解釈が容易であるため臨床応用に好適である。 提案するautoscore-survivalは、自動で堅牢で使いやすい機械学習ベースの臨床スコアジェネレータを、イベントの時間的成果を研究するために提供します。 臨床応用のための時間-時間スコアの開発を促進するための体系的なガイドラインを提供する。

Scoring systems are highly interpretable and widely used to evaluate time-to-event outcomes in healthcare research. However, existing time-to-event scores are predominantly created ad-hoc using a few manually selected variables based on clinician's knowledge, suggesting an unmet need for a robust and efficient generic score-generating method. AutoScore was previously developed as an interpretable machine learning score generator, integrated both machine learning and point-based scores in the strong discriminability and accessibility. We have further extended it to time-to-event data and developed AutoScore-Survival, for automatically generating time-to-event scores with right-censored survival data. Random survival forest provides an efficient solution for selecting variables, and Cox regression was used for score weighting. We illustrated our method in a real-life study of 90-day mortality of patients in intensive care units and compared its performance with survival models (i.e., Cox) and the random survival forest. The AutoScore-Survival-d erived scoring model was more parsimonious than survival models built using traditional variable selection methods (e.g., penalized likelihood approach and stepwise variable selection), and its performance was comparable to survival models using the same set of variables. Although AutoScore-Survival achieved a comparable integrated area under the curve of 0.782 (95% CI: 0.767-0.794), the integer-valued time-to-event scores generated are favorable in clinical applications because they are easier to compute and interpret. Our proposed AutoScore-Survival provides an automated, robust and easy-to-use machine learning-based clinical score generator to studies of time-to-event outcomes. It provides a systematic guideline to facilitate the future development of time-to-event scores for clinical applications.
翻訳日:2021-06-16 13:26:42 公開日:2021-06-13
# (参考訳) シーンテキスト認識のためのエンコーダデコーダフレームワークの表現と相関 [全文訳有]

Representation and Correlation Enhanced Encoder-Decoder Framework for Scene Text Recognition ( http://arxiv.org/abs/2106.06960v1 )

ライセンス: CC BY 4.0
Mengmeng Cui, Wei Wang, Jinjin Zhang, Liang Wang(参考訳) シーン認識タスクでは注意に基づくエンコーダ・デコーダフレームワークが広く使われている。 しかし,現状のSOTA(State-of-the-ar t)手法では,入力されたテキスト画像の局所的な視覚的・グローバル的コンテキスト情報の効率的な利用や,シーン処理モジュール(エンコーダ)とテキスト処理モジュール(デコーダ)との堅牢な相関性が向上する。 本稿では,これらの欠陥に対処し,性能ボトルネックを解消するRepresentation and correlation Enhanced Encoder-Decoder Framework(RCEED)を提案する。 エンコーダモジュールでは、局所視覚特徴、グローバルコンテキスト特徴、位置情報を整列して融合させ、小型の包括的特徴マップを生成する。 デコーダモジュールでは,シーン特徴空間とテキスト特徴空間の相関性を高めるために2つの手法を用いる。 1)デコーダの初期化は、エンコーダからエクスポートされた全体的特徴と大域的視認ベクトルによって導かれる。 2) マルチヘッド・ジェネラル・アテンションが生成する特徴量豊富なスリープベクターを用いて,RNNの反復と各タイミングにおけるキャラクタ予測を支援する。 また,変更可能なテキストに対するモデルの一般化を改善するために, layernorm-dropout lstm セルを設計した。 ベンチマーク実験により、シーンテキスト認識タスク、特に不規則なタスクにおけるRCEEDの利点が示された。

Attention-based encoder-decoder framework is widely used in the scene text recognition task. However, for the current state-of-the-art(SOT A) methods, there is room for improvement in terms of the efficient usage of local visual and global context information of the input text image, as well as the robust correlation between the scene processing module(encoder) and the text processing module(decoder). In this paper, we propose a Representation and Correlation Enhanced Encoder-Decoder Framework(RCEED) to address these deficiencies and break performance bottleneck. In the encoder module, local visual feature, global context feature, and position information are aligned and fused to generate a small-size comprehensive feature map. In the decoder module, two methods are utilized to enhance the correlation between scene and text feature space. 1) The decoder initialization is guided by the holistic feature and global glimpse vector exported from the encoder. 2) The feature enriched glimpse vector produced by the Multi-Head General Attention is used to assist the RNN iteration and the character prediction at each time step. Meanwhile, we also design a Layernorm-Dropout LSTM cell to improve model's generalization towards changeable texts. Extensive experiments on the benchmarks demonstrate the advantageous performance of RCEED in scene text recognition tasks, especially the irregular ones.
翻訳日:2021-06-16 13:14:44 公開日:2021-06-13
# (参考訳) 放射線学レポート作成のための後方探査・蒸留と先行知識 [全文訳有]

Exploring and Distilling Posterior and Prior Knowledge for Radiology Report Generation ( http://arxiv.org/abs/2106.06963v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Xian Wu, Shen Ge, Wei Fan, Yuexian Zou(参考訳) 診断放射線学の現在の臨床実践を改善することができる。 一方、放射線科医は報告執筆の重荷を軽減でき、一方、放射線科医に異常を思い出させ、誤診や診断の欠如を避けることができる。 しかし、このタスクは、深刻な視覚的およびテキスト的データバイアスのため、データ駆動型ニューラルネットワークでは難しい仕事である。 そこで本研究では,まず異常領域を調査し,異常領域に病題タグを割り当てる放射線科医の作業パターンを模倣し,その後,過去の医学的知識と先行的作業経験の蓄積を経時的に頼りに報告書を作成するための後・優先的知識探索・蒸留アプローチ(ppked)を提案する。 PPKEDには、後続知識エクスプローラー(PoKE)、事前知識エクスプローラー(PrKE)、マルチドメイン知識ディステラー(MKD)の3つのモジュールが含まれている。 prkeは、以前の医学的知識グラフ(医学的知識)と以前の放射線学レポート(作業経験)から事前知識を探索し、テキスト的データのバイアスを軽減する。 調査された知識は、最終報告を生成するためにMKDによって蒸留される。 提案手法はMIMIC-CXRとIU-Xrayのデータセットに基づいて評価され,これらの2つのデータセットにおける従来の最先端モデルよりも優れている。

Automatically generating radiology reports can improve current clinical practice in diagnostic radiology. On one hand, it can relieve radiologists from the heavy burden of report writing; On the other hand, it can remind radiologists of abnormalities and avoid the misdiagnosis and missed diagnosis. Yet, this task remains a challenging job for data-driven neural networks, due to the serious visual and textual data biases. To this end, we propose a Posterior-and-Prior Knowledge Exploring-and-Distil ling approach (PPKED) to imitate the working patterns of radiologists, who will first examine the abnormal regions and assign the disease topic tags to the abnormal regions, and then rely on the years of prior medical knowledge and prior working experience accumulations to write reports. Thus, the PPKED includes three modules: Posterior Knowledge Explorer (PoKE), Prior Knowledge Explorer (PrKE) and Multi-domain Knowledge Distiller (MKD). In detail, PoKE explores the posterior knowledge, which provides explicit abnormal visual regions to alleviate visual data bias; PrKE explores the prior knowledge from the prior medical knowledge graph (medical knowledge) and prior radiology reports (working experience) to alleviate textual data bias. The explored knowledge is distilled by the MKD to generate the final reports. Evaluated on MIMIC-CXR and IU-Xray datasets, our method is able to outperform previous state-of-the-art models on these two datasets.
翻訳日:2021-06-16 13:00:14 公開日:2021-06-13
# (参考訳) エレファントの形状:単語埋め込み空間のマクロ特性に関する研究 [全文訳有]

Shape of Elephant: Study of Macro Properties of Word Embeddings Spaces ( http://arxiv.org/abs/2106.06964v1 )

ライセンス: CC BY 4.0
Alexey Tikhonov(参考訳) 事前訓練された単語表現は多くのNLPタスクにおいて重要な要素となった。 しかし、この単語のグローバルな幾何学はいまだに理解されていない。 本稿では,標準的な単語埋め込みクラウドが,解釈可能な頂点を持つ高次元単純体として形成されていることを実証し,それらの頂点を列挙する簡単な方法を提案する。 提案手法は,GloVe空間と高速テキスト空間の単純な頂点を検出・記述できることを示す。

Pre-trained word representations became a key component in many NLP tasks. However, the global geometry of the word embeddings remains poorly understood. In this paper, we demonstrate that a typical word embeddings cloud is shaped as a high-dimensional simplex with interpretable vertices and propose a simple yet effective method for enumeration of these vertices. We show that the proposed method can detect and describe vertices of the simplex for GloVe and fasttext spaces.
翻訳日:2021-06-16 12:43:27 公開日:2021-06-13
# (参考訳) 胸部X線自動生成のためのコントラスト注意 [全文訳有]

Contrastive Attention for Automatic Chest X-ray Report Generation ( http://arxiv.org/abs/2106.06965v1 )

ライセンス: CC BY 4.0
Fenglin Liu, Changchang Yin, Xian Wu, Shen Ge, Ping Zhang, Xu Sun(参考訳) 近年,胸部x線画像の自動生成を目的とした胸部x線レポート生成が研究の関心を集めている。 胸部x線レポート生成の重要な課題は、異常領域を正確に捉えて記述することである。 ほとんどの場合、正常領域が胸部X線像全体を支配し、これらの正常領域の対応する記述が最終報告を支配している。 このようなデータバイアスのため、学習ベースのモデルは異常な領域に到達できない可能性がある。 本研究では,異常領域を効果的に捉え,記述するために,コントラスト注意(CA)モデルを提案する。 caモデルは、現在の入力画像のみに焦点を当てる代わりに、現在の入力画像と通常の画像を比較することで、コントラスト情報を蒸留する。 取得したコントラスト情報は、異常領域の視覚的特徴をよりよく表すことができる。 公開IU-X-rayとMIMIC-CXRデータセットの実験によると、いくつかの既存のモデルにCAを組み込むことで、ほとんどのメトリクスでパフォーマンスが向上する。 さらに、解析によれば、CAモデルは既存のモデルが異常な領域によりよく対応し、解釈可能な診断に不可欠なより正確な記述を提供するのに役立つ。 具体的には、2つの公開データセットで最先端の結果を得る。

Recently, chest X-ray report generation, which aims to automatically generate descriptions of given chest X-ray images, has received growing research interests. The key challenge of chest X-ray report generation is to accurately capture and describe the abnormal regions. In most cases, the normal regions dominate the entire chest X-ray image, and the corresponding descriptions of these normal regions dominate the final report. Due to such data bias, learning-based models may fail to attend to abnormal regions. In this work, to effectively capture and describe abnormal regions, we propose the Contrastive Attention (CA) model. Instead of solely focusing on the current input image, the CA model compares the current input image with normal images to distill the contrastive information. The acquired contrastive information can better represent the visual features of abnormal regions. According to the experiments on the public IU-X-ray and MIMIC-CXR datasets, incorporating our CA into several existing models can boost their performance across most metrics. In addition, according to the analysis, the CA model can help existing models better attend to the abnormal regions and provide more accurate descriptions which are crucial for an interpretable diagnosis. Specifically, we achieve the state-of-the-art results on the two public datasets.
翻訳日:2021-06-16 12:40:29 公開日:2021-06-13
# (参考訳) GANのゲーム: 生成的敵ネットワークのためのゲーム理論モデル [全文訳有]

Game of GANs: Game Theoretical Models for Generative Adversarial Networks ( http://arxiv.org/abs/2106.06976v1 )

ライセンス: CC BY 4.0
Monireh Mohebbi Moghadam, Bahar Boroumand, Mohammad Jalali, Arman Zareian, Alireza Daei Javad, and Mohammad Hossein Manshaei(参考訳) AIコミュニティにおける有望な研究方向としてのジェネレーティブ・アドバイサル・ネットワークは、最近、高品質な現実データを生成する能力によって、かなりの注目を集めている。 GANは、ナッシュ均衡に達するために敵対的に訓練された2つのニューラルネットワーク間の競合ゲームである。 ここ数年のGANの改善にもかかわらず、解決すべき問題がいくつか残っている。 このようにして、これらの問題にどのように取り組み、進歩していくかは、研究の関心の高まりに繋がる。 本稿では, GANにおけるゲーム理論を活用する文献をレビューし, ゲームモデルが特定の生成モデルの課題を緩和し, GANの性能を向上させる方法について述べる。 特に,基本的なGANモデルやゲーム理論の背景など,いくつかの前提条件について概観する。 その後、最先端のソリューションを3つの重要なカテゴリにまとめる分類法を提示する: 修正ゲームモデル、修正アーキテクチャ、修正学習方法。 本分類は,ゲーム理論的な観点からのアプローチによる基本モデルの修正に基づくものである。 さらに,各カテゴリをいくつかのサブカテゴリに分類する。 提案する分類法に従い,各クラスの主な目的を考察し,各グループにおける最近の研究を概観する。 最後に,本分野における課題について考察し,今後の研究課題について述べる。

Generative Adversarial Network, as a promising research direction in the AI community, recently attracts considerable attention due to its ability to generating high-quality realistic data. GANs are a competing game between two neural networks trained in an adversarial manner to reach a Nash equilibrium. Despite the improvement accomplished in GANs in the last years, there remain several issues to solve. In this way, how to tackle these issues and make advances leads to rising research interests. This paper reviews literature that leverages the game theory in GANs and addresses how game models can relieve specific generative models' challenges and improve the GAN's performance. In particular, we firstly review some preliminaries, including the basic GAN model and some game theory backgrounds. After that, we present our taxonomy to summarize the state-of-the-art solutions into three significant categories: modified game model, modified architecture, and modified learning method. The classification is based on the modifications made in the basic model by the proposed approaches from the game-theoretic perspective. We further classify each category into several subcategories. Following the proposed taxonomy, we explore the main objective of each class and review the recent work in each group. Finally, we discuss the remaining challenges in this field and present the potential future research topics.
翻訳日:2021-06-16 11:47:07 公開日:2021-06-13
# (参考訳) CUR分解のための2方向スペクトル探索と共同カラム/ロウサブセット選択への応用 [全文訳有]

Two-way Spectrum Pursuit for CUR Decomposition and Its Application in Joint Column/Row Subset Selection ( http://arxiv.org/abs/2106.06983v1 )

ライセンス: CC BY 4.0
Ashkan Esmaeili, Mohsen Joneidi, Mehrdad Salimitari, Umar Khalid, and Nazanin Rahnavard(参考訳) 本稿では,列と行の同時選択の問題に対処する。 行列の列空間と行空間は、それぞれその左特異ベクトルと右特異ベクトルによって分割される。 しかし、特異ベクトルは行列の実際の列/行に含まれない。 本稿では,実際の列/行のサブセットを選択することにより,列/行の最も構造的な情報をキャプチャする反復的手法を提案する。 このアルゴリズムは、CUR行列分解の正確な解を提供する双方向スペクトル探索(TWSP)と呼ばれる。 TWSPは線形複雑性 w.r.t を持つため、幅広い応用に適用できる。 オリジナルの列/行の数。 認知無線ネットワークにおける通信路とセンサの選択,情報ユーザとコンテンツ検出,効率的な教師付きデータ削減のためのTWSPの適用を実証した。

The problem of simultaneous column and row subset selection is addressed in this paper. The column space and row space of a matrix are spanned by its left and right singular vectors, respectively. However, the singular vectors are not within actual columns/rows of the matrix. In this paper, an iterative approach is proposed to capture the most structural information of columns/rows via selecting a subset of actual columns/rows. This algorithm is referred to as two-way spectrum pursuit (TWSP) which provides us with an accurate solution for the CUR matrix decomposition. TWSP is applicable in a wide range of applications since it enjoys a linear complexity w.r.t. number of original columns/rows. We demonstrated the application of TWSP for joint channel and sensor selection in cognitive radio networks, informative users and contents detection, and efficient supervised data reduction.
翻訳日:2021-06-16 10:31:27 公開日:2021-06-13
# (参考訳) マルチチャネルランダムトレース推定を用いた低メモリ確率バックプロパゲーション [全文訳有]

Low-memory stochastic backpropagation with multi-channel randomized trace estimation ( http://arxiv.org/abs/2106.06998v1 )

ライセンス: CC BY 4.0
Mathias Louboutin, Ali Siahkoohi, Rongrong Wang, Felix J. Herrmann(参考訳) 最先端のアクセラレータと高度に最適化されたオープンソフトウェアフレームワークを組み合わせることで、ディープニューラルネットワークのパフォーマンスが大幅に向上した。 これらの開発は多くのブレークスルーの原因となっているが、ビデオエンコーディングや3Dのセマンティックセグメンテーションといった大規模問題の解決に向けた進歩は、オンプレミスメモリへのアクセスが制限されることが多いため妨げられている。 バックプロパゲーション中のアクティベーションを回復するために、ネットワーク層の(最適)チェックポイントや反転可能性に頼る代わりに、マルチチャネルのランダム化トレース推定手法を用いて、ニューラルネットワークにおける畳み込み層の勾配を近似する。 他の手法と比較して、このアプローチは単純で分析に適しており、メモリフットプリントを大幅に削減する。 ランダム化トレース推定はトレーニング中に確率性をもたらすが、確率的勾配勾配を用いた場合、誘導誤差が勾配誤差と同じ順序である限り、これはほとんど帰結しない。 本稿では,確率的バックプロパゲーションでトレーニングしたネットワークの性能と,メモリ使用量を最大化し,計算オーバーヘッドを最小化しながらエラーを制御する方法について述べる。

Thanks to the combination of state-of-the-art accelerators and highly optimized open software frameworks, there has been tremendous progress in the performance of deep neural networks. While these developments have been responsible for many breakthroughs, progress towards solving large-scale problems, such as video encoding and semantic segmentation in 3D, is hampered because access to on-premise memory is often limited. Instead of relying on (optimal) checkpointing or invertibility of the network layers -- to recover the activations during backpropagation -- we propose to approximate the gradient of convolutional layers in neural networks with a multi-channel randomized trace estimation technique. Compared to other methods, this approach is simple, amenable to analyses, and leads to a greatly reduced memory footprint. Even though the randomized trace estimation introduces stochasticity during training, we argue that this is of little consequence as long as the induced errors are of the same order as errors in the gradient due to the use of stochastic gradient descent. We discuss the performance of networks trained with stochastic backpropagation and how the error can be controlled while maximizing memory usage and minimizing computational overhead.
翻訳日:2021-06-16 10:23:10 公開日:2021-06-13
# (参考訳) noise2score: クリーン画像のない自己教師付き画像に対するtweedieのアプローチ [全文訳有]

Noise2Score: Tweedie's Approach to Self-Supervised Image Denoising without Clean Images ( http://arxiv.org/abs/2106.07009v1 )

ライセンス: CC BY 4.0
Kwanyoung Kim, Jong Chul Ye(参考訳) 近年,画像の鮮明な参照を伴わず,ディープネットワークを訓練する研究が盛んに行われている。 しかし、代表的なアプローチとして、 noise2noise、 noise2void、stein's unbiased risk estimator (sure) などがある。 互いに異なるようで、一貫性のある数学的構造を見つけることは困難です。 これに対処するために、ここでは、一見異なるアプローチを統合するために欠落しているリンクを明らかにする、 noise2scoreと呼ばれる新しいアプローチを紹介します。 具体的には,後続分布のモードを見つけることで,クリーンな画像を用いずに画像にノイズを与える問題に対処できることを示すとともに,tweedieの公式がスコア関数(すなわちスコア関数)を通じて明示的な解を与えることを示す。 ログ可能性の勾配)。 そこで本手法では,ノイズ2ノイズやNose2Voidと密接な関係を持つ残差復号化オートエンコーダを用いて,雑音画像からスコア関数を安定して推定する手法を提案する。 noise2scoreのアプローチは非常に普遍的なので、同じネットワークトレーニングを使用して、指数関数的な家族分布やノイズパラメータによって破損した画像からノイズを除去することができます。 gaussian, poisson, gamma ノイズを用いた広範囲な実験により, (c)bsd68, set12, kodak などのベンチマークデータセットにおいて, noise2score が最先端の自己教師あり分別法を大幅に上回ることを示した。

Recently, there has been extensive research interest in training deep networks to denoise images without clean reference. However, the representative approaches such as Noise2Noise, Noise2Void, Stein's unbiased risk estimator (SURE), etc. seem to differ from one another and it is difficult to find the coherent mathematical structure. To address this, here we present a novel approach, called Noise2Score, which reveals a missing link in order to unite these seemingly different approaches. Specifically, we show that image denoising problems without clean images can be addressed by finding the mode of the posterior distribution and that the Tweedie's formula offers an explicit solution through the score function (i.e. the gradient of log likelihood). Our method then uses the recent finding that the score function can be stably estimated from the noisy images using the amortized residual denoising autoencoder, the method of which is closely related to Noise2Noise or Nose2Void. Our Noise2Score approach is so universal that the same network training can be used to remove noises from images that are corrupted by any exponential family distributions and noise parameters. Using extensive experiments with Gaussian, Poisson, and Gamma noises, we show that Noise2Score significantly outperforms the state-of-the-art self-supervised denoising methods in the benchmark data set such as (C)BSD68, Set12, and Kodak, etc.
翻訳日:2021-06-16 10:02:33 公開日:2021-06-13
# (参考訳) コンテンツ、ネットワーク、外因性信号を用いたディープカスケード予測のための不完全ガンマ積分 [全文訳有]

Incomplete Gamma Integrals for Deep Cascade Prediction using Content, Network, and Exogenous Signals ( http://arxiv.org/abs/2106.07012v1 )

ライセンス: CC BY 4.0
Subhabrata Dutta, Shravika Mittal, Dipankar Das, Soumen Chakrabarti, Tanmoy Chakraborty(参考訳) 情報カスケード(リツイートなど)の振る舞いは広範囲にモデル化されている。 ポイントプロセスに基づく生成モデルは長い間カスケード成長の推定に使われてきたが、ディープラーニングは多様な機能統合を大幅に強化してきた。 カスケードデータの2つの重要な時間的信号が,我々の知識に強調あるいは報告されていない。 まず、カスケード根の人気はカスケードの大きさに強く影響することが知られているが、その効果は時間とともに急速に低下する。 第2に、ルート内容の新規性(ストリーミング外部コーパスに関する)と結果として生じるカスケードの相対サイズとの間には、測定可能な正の相関がある。 これらの観測に応答して、GammaCasを提案する。これは、時間のパラメトリック関数としての新しいカスケード成長モデルであり、コンテンツ(例えば、ツイートテキスト)、ネットワーク機能(例えば、ルートユーザーのフォロワー)、および外因性イベントソース(例えば、オンラインニュース)からの深い影響信号を組み合わせたものである。 特に,本モデルは,カスケードサイズを予測するために時間とともに統合されるカスケードレート関数のパラメータを提供するカスタマイズされたリカレントネットワークを介して,これらの信号を処理する。 ネットワークパラメータは観測されたカスケードを使用してエンドツーエンドでトレーニングされる。 GammaCasは、大規模なリツイートカスケードとタイムアラインのオンラインニュースのデータセットで、最近の7つのベースラインを大幅に上回り、Kendallの$\tau$相関とMean Absolute Percentage Errorの$35.63$低下の18.98%で最高のベースラインを上回った。 大規模なアブレーションとケーススタディは、リツイートカスケードダイナミクスに関する興味深い洞察を発掘する。

The behaviour of information cascades (such as retweets) has been modelled extensively. While point process-based generative models have long been in use for estimating cascade growths, deep learning has greatly enhanced diverse feature integration. We observe two significant temporal signals in cascade data that have not been emphasized or reported to our knowledge. First, the popularity of the cascade root is known to influence cascade size strongly; but the effect falls off rapidly with time. Second, there is a measurable positive correlation between the novelty of the root content (with respect to a streaming external corpus) and the relative size of the resulting cascade. Responding to these observations, we propose GammaCas, a new cascade growth model as a parametric function of time, which combines deep influence signals from content (e.g., tweet text), network features (e.g., followers of the root user), and exogenous event sources (e.g., online news). Specifically, our model processes these signals through a customized recurrent network, whose states then provide the parameters of the cascade rate function, which is integrated over time to predict the cascade size. The network parameters are trained end-to-end using observed cascades. GammaCas outperforms seven recent and diverse baselines significantly on a large-scale dataset of retweet cascades coupled with time-aligned online news -- it beats the best baseline with an 18.98% increase in terms of Kendall's $\tau$ correlation and $35.63$ reduction in Mean Absolute Percentage Error. Extensive ablation and case studies unearth interesting insights regarding retweet cascade dynamics.
翻訳日:2021-06-16 09:46:01 公開日:2021-06-13
# (参考訳) Styleformer: スタイルベクトル付きトランスフォーマーベースの生成対向ネットワーク [全文訳有]

Styleformer: Transformer based Generative Adversarial Networks with Style Vector ( http://arxiv.org/abs/2106.07023v1 )

ライセンス: CC BY 4.0
Jeeseung Park, Younggeun Kim(参考訳) 我々はganアーキテクチャのためのスタイルベースジェネレータであるが、畳み込みフリーのトランスフォーマレータであるstyleformerを提案する。 本稿では,トランスフォーマーが高品質な画像を生成する方法を説明し,畳み込み操作が画像のグローバルな特徴を捉えにくいという欠点を克服する。 さらに、StyleGAN2の復調を変更し、既存のトランスフォーマー構造(残留接続、層正規化など)を変更して、畳み込みのない構造を持つ強力なスタイルベースジェネレータを作成する。 また、Linformerを適用してStyleformerを軽量化することで、Styleformerは高解像度の画像を生成し、スピードとメモリの面で改善する。 CIFAR-10のような低解像度画像データセットとLSUN-churchのような高解像度画像データセットを実験した。 Styleformer は CIFAR-10 上で FID 2.82 と IS 9.94 を記録しており、これは現在の最先端モデルに匹敵するパフォーマンスであり、非条件設定でより少ないパラメータを持つ StyleGAN2-ADA を含む全ての GAN 生成モデルより優れている。 また, STL-10 と CelebA でそれぞれ FID 20.11 , IS 10.16 , FID 3.66 を新たに実現した。 コードはhttps://github.com/j eeseung-park/stylefo rmerでリリースします。

We propose Styleformer, which is a style-based generator for GAN architecture, but a convolution-free transformer-based generator. In our paper, we explain how a transformer can generate high-quality images, overcoming the disadvantage that convolution operations are difficult to capture global features in an image. Furthermore, we change the demodulation of StyleGAN2 and modify the existing transformer structure (e.g., residual connection, layer normalization) to create a strong style-based generator with a convolution-free structure. We also make Styleformer lighter by applying Linformer, enabling Styleformer to generate higher resolution images and result in improvements in terms of speed and memory. We experiment with the low-resolution image dataset such as CIFAR-10, as well as the high-resolution image dataset like LSUN-church. Styleformer records FID 2.82 and IS 9.94 on CIFAR-10, a benchmark dataset, which is comparable performance to the current state-of-the-art and outperforms all GAN-based generative models, including StyleGAN2-ADA with fewer parameters on the unconditional setting. We also both achieve new state-of-the-art with FID 20.11, IS 10.16, and FID 3.66, respectively on STL-10 and CelebA. We release our code at https://github.com/J eeseung-Park/Stylefo rmer.
翻訳日:2021-06-16 09:23:12 公開日:2021-06-13
# (参考訳) 機械学習におけるカテゴリー理論

Category Theory in Machine Learning ( http://arxiv.org/abs/2106.07032v1 )

ライセンス: CC BY 4.0
Dan Shiebler, Bruno Gavranovi\'c, Paul Wilson(参考訳) 過去20年間、機械学習はあらゆるテクノロジー分野に浸透してきた。 同時に、多くの研究者がカテゴリ理論を統一言語として使用し始め、異なる科学分野間のコミュニケーションを促進している。 したがって、機械学習に圏論を適用することには、驚くべき関心がある。 これらのアプリケーションにまたがるモチベーション、目標、共通テーマの文書化を目指しています。 グラデーションベース学習,確率学習,等変学習に着目する。

Over the past two decades machine learning has permeated almost every realm of technology. At the same time, many researchers have begun using category theory as a unifying language, facilitating communication between different scientific disciplines. It is therefore unsurprising that there is a burgeoning interest in applying category theory to machine learning. We aim to document the motivations, goals and common themes across these applications. We touch on gradient-based learning, probability, and equivariant learning.
翻訳日:2021-06-16 09:08:22 公開日:2021-06-13
# (参考訳) 深ベイズ教師なし生涯学習

Deep Bayesian Unsupervised Lifelong Learning ( http://arxiv.org/abs/2106.07035v1 )

ライセンス: CC BY 4.0
Tingting Zhao, Zifeng Wang, Aria Masoomi, Jennifer Dy(参考訳) 生涯学習(英: Lifelong Learning, LL)とは、従来の知識を維持しながら、段階的に利用可能な情報を用いて、新しい問題を継続的に学習し、解決する能力である。 最近、ラベル付きデータのストリームでSupervised Lifelong Learning (SLL)に多くの注目を集めている。 対照的に、データ分布と未知のクラスラベルが時間とともに進化するときに、未学習データをストリーミングすることで、Unsupervised Lifelong Learning(ULL)の課題を解決することに重点を置いている。 ベイジアンフレームワークは、過去の知識を取り入れ、信念を新たなデータで順次更新することが自然である。 我々は、ullの完全なベイズ推論フレームワークを開発し、新しいエンドツーエンドのdeep bayesian unsupervised lifelong learning (dbull)アルゴリズムを用いて、潜在表現を学習しながら、ラベルなしデータで過去を忘れることなく、段階的に新しいクラスタを発見できる。 過去の知識を効率的に維持するために,生データの潜在表現の十分な統計情報を用いて,新しい知識保存機構を開発する。 新たなクラスターをオンザフライで検出するために,非パラメトリックベイズ統計手法に触発された推論において,クラスタの自動発見と冗長性除去戦略を開発した。 LLとバッチ設定の両方で画像およびテキストコーパスベンチマークデータセットを用いて,本手法の有効性を示す。

Lifelong Learning (LL) refers to the ability to continually learn and solve new problems with incremental available information over time while retaining previous knowledge. Much attention has been given lately to Supervised Lifelong Learning (SLL) with a stream of labelled data. In contrast, we focus on resolving challenges in Unsupervised Lifelong Learning (ULL) with streaming unlabelled data when the data distribution and the unknown class labels evolve over time. Bayesian framework is natural to incorporate past knowledge and sequentially update the belief with new data. We develop a fully Bayesian inference framework for ULL with a novel end-to-end Deep Bayesian Unsupervised Lifelong Learning (DBULL) algorithm, which can progressively discover new clusters without forgetting the past with unlabelled data while learning latent representations. To efficiently maintain past knowledge, we develop a novel knowledge preservation mechanism via sufficient statistics of the latent representation for raw data. To detect the potential new clusters on the fly, we develop an automatic cluster discovery and redundancy removal strategy in our inference inspired by Nonparametric Bayesian statistics techniques. We demonstrate the effectiveness of our approach using image and text corpora benchmark datasets in both LL and batch settings.
翻訳日:2021-06-16 09:07:39 公開日:2021-06-13
# (参考訳) タンパク質-リガンドドッキングサロゲートモデル:深層学習型仮想スクリーニングのためのSARS-CoV-2ベンチマーク [全文訳有]

Protein-Ligand Docking Surrogate Models: A SARS-CoV-2 Benchmark for Deep Learning Accelerated Virtual Screening ( http://arxiv.org/abs/2106.07036v1 )

ライセンス: CC BY 4.0
Austin Clyde, Thomas Brettin, Alex Partin, Hyunseung Yoo, Yadu Babuji, Ben Blaiszik, Andre Merzky, Matteo Turilli, Shantenu Jha, Arvind Ramanathan, Rick Stevens(参考訳) タンパク質リガンドドドッキングにおけるサロゲートモデル精度の検討のためのベンチマークを提案する。 我々は、SARS-CoV-2プロテオーム全体にわたって、15個の受容体または結合部位に1300万個の 'in-stock'' 分子からなる一貫したセットで、2億の3D構造と2D構造スコアからなるデータセットを共有している。 我々の研究によると、サロゲートドッキングモデルは、同じスーパーコンピュータノードタイプの標準ドッキングプロトコルよりも6桁高いスループットを持つ。 1日で10億分子(gpu秒あたり50kの予測)に対して各ターゲットを実行することで、高速サーロゲートモデルのパワーを実証する。 本稿では,サロゲートMLモデルをプレフィルタとして利用するドッキングワークフローを紹介する。 我々のワークフローは、標準技術よりも10倍早く化合物のライブラリをスクリーニングし、基礎となるベストスコア0.1倍の化合物を検出するエラー率は0.01倍未満である。 スピードアップの分析では、ドッキングパラダイムの下でより多くの分子をスクリーンに表示するためには、計算速度ではなくモデルの精度から、もう1桁のスピードアップが生まれなければならないと説明されています。 これは、サロゲートモデルの精度の向上に注力し、大量の複合ライブラリを現在の技術より100倍、あるいは1000倍高速にスクリーニングする能力を向上させるための強力な証拠であると考えています。

We propose a benchmark to study surrogate model accuracy for protein-ligand docking. We share a dataset consisting of 200 million 3D complex structures and 2D structure scores across a consistent set of 13 million ``in-stock'' molecules over 15 receptors, or binding sites, across the SARS-CoV-2 proteome. Our work shows surrogate docking models have six orders of magnitude more throughput than standard docking protocols on the same supercomputer node types. We demonstrate the power of high-speed surrogate models by running each target against 1 billion molecules in under a day (50k predictions per GPU seconds). We showcase a workflow for docking utilizing surrogate ML models as a pre-filter. Our workflow is ten times faster at screening a library of compounds than the standard technique, with an error rate less than 0.01\% of detecting the underlying best scoring 0.1\% of compounds. Our analysis of the speedup explains that to screen more molecules under a docking paradigm, another order of magnitude speedup must come from model accuracy rather than computing speed (which, if increased, will not anymore alter our throughput to screen molecules). We believe this is strong evidence for the community to begin focusing on improving the accuracy of surrogate models to improve the ability to screen massive compound libraries 100x or even 1000x faster than current techniques.
翻訳日:2021-06-16 09:06:29 公開日:2021-06-13
# (参考訳) 言語理解モデルにおける問合せ予算を伴うターゲットモデル非依存逆攻撃 [全文訳有]

Target Model Agnostic Adversarial Attacks with Query Budgets on Language Understanding Models ( http://arxiv.org/abs/2106.07047v1 )

ライセンス: CC BY 4.0
Jatin Chauhan, Karan Bhukar, Manohar Kaul(参考訳) BERTやXLNetのようなモデルが登場したことで、自然言語理解モデルの大幅な改善があったが、これらのニューラルネットワークベースの分類器はブラックボックスの敵攻撃に対して脆弱であり、攻撃者はターゲットモデルの出力をクエリすることしか許されない。 すなわち、許容されるクエリ数(クエリ予算)の制限と、前回の攻撃モデルを非現実的かつ非効率にするために、異なる事前訓練されたモデル(転送可能性)を容易に転送できる攻撃の作成である。 本稿では,攻撃対象モデルに対して高い攻撃伝達性を有するターゲットモデル非攻撃攻撃法を提案する。 提案手法は, 基本手法と比較して, 限られたクエリ予算の制約の下で, 高い変換可能な文を生成する。

Despite significant improvements in natural language understanding models with the advent of models like BERT and XLNet, these neural-network based classifiers are vulnerable to blackbox adversarial attacks, where the attacker is only allowed to query the target model outputs. We add two more realistic restrictions on the attack methods, namely limiting the number of queries allowed (query budget) and crafting attacks that easily transfer across different pre-trained models (transferability), which render previous attack models impractical and ineffective. Here, we propose a target model agnostic adversarial attack method with a high degree of attack transferability across the attacked models. Our empirical studies show that in comparison to baseline methods, our method generates highly transferable adversarial sentences under the restriction of limited query budgets.
翻訳日:2021-06-16 08:53:08 公開日:2021-06-13
# (参考訳) GenSF: 生成事前学習モデルとスロットフィリングの同時適応 [全文訳有]

GenSF: Simultaneous Adaptation of Generative Pre-trained Models and Slot Filling ( http://arxiv.org/abs/2106.07055v1 )

ライセンス: CC BY 4.0
Shikib Mehri, Maxine Eskenazi(参考訳) 転校学習では,事前学習したモデルと下流課題の強い整合を実現することが不可欠である。 従来の作業では、移行学習パラダイムの本質的なスケーラビリティを犠牲にして、タスク固有の事前学習目標を提案していた。 むしろ、事前学習したモデルと下流タスクの定式化の両方を同時に変更することで、強い調整を実現し、より効率的で、転校学習のスケーラビリティを保ちます。 GenSF(Generative Slot Filling)は,スロットフィリングのための生成学習済みオープンドメインダイアログモデルである。 GenSF(1)は,タスクに関する帰納バイアスを取り入れて事前学習モデルに適応し,(2)スロットフィリングを改良して下流タスクに適応し,事前学習モデルの性能を向上する。 GenSFは、数ショットとゼロショットの設定で大きく向上した2つのスロットフィリングデータセットに対して、最先端の結果を達成する。 ゼロショットスロット充填による9f1スコア向上を達成した。 これは、事前訓練されたモデルと下流タスクの間の強いアライメントの価値を強調します。

In transfer learning, it is imperative to achieve strong alignment between a pre-trained model and a downstream task. Prior work has done this by proposing task-specific pre-training objectives, which sacrifices the inherent scalability of the transfer learning paradigm. We instead achieve strong alignment by simultaneously modifying both the pre-trained model and the formulation of the downstream task, which is more efficient and preserves the scalability of transfer learning. We present GenSF (Generative Slot Filling), which leverages a generative pre-trained open-domain dialog model for slot filling. GenSF (1) adapts the pre-trained model by incorporating inductive biases about the task and (2) adapts the downstream task by reformulating slot filling to better leverage the pre-trained model's capabilities. GenSF achieves state-of-the-art results on two slot filling datasets with strong gains in few-shot and zero-shot settings. We achieve a 9 F1 score improvement in zero-shot slot filling. This highlights the value of strong alignment between the pre-trained model and the downstream task.
翻訳日:2021-06-16 08:34:15 公開日:2021-06-13
# (参考訳) ゼロショットダイアログのためのスキーマ誘導パラダイム [全文訳有]

Schema-Guided Paradigm for Zero-Shot Dialog ( http://arxiv.org/abs/2106.07056v1 )

ライセンス: CC BY 4.0
Shikib Mehri, Maxine Eskenazi(参考訳) 課題や領域に柔軟に対応可能な対話システムを開発することはダイアログ研究の大きな課題である。 ニューラルネットワークは、トレーニングデータからタスク固有のダイアログポリシを暗黙的に記憶する。 この暗黙記憶はゼロショット転送学習を妨げていると仮定する。 この目的のために我々は,タスク固有のダイアログポリシをモデルに明示的に提供する,スキーマ誘導パラダイムを活用している。 本稿では,Schema Attention Model (SAM)を導入し,STARコーパスのスキーマ表現を改善した。 SAMはゼロショット設定が大幅に改善され、前の作業よりも+22のF1スコアが向上した。 これらの結果は,ダイアログにおけるゼロショット一般化の可能性を検証する。 SAMの有効性を示すためのアブレーション実験も提示されている。

Developing mechanisms that flexibly adapt dialog systems to unseen tasks and domains is a major challenge in dialog research. Neural models implicitly memorize task-specific dialog policies from the training data. We posit that this implicit memorization has precluded zero-shot transfer learning. To this end, we leverage the schema-guided paradigm, wherein the task-specific dialog policy is explicitly provided to the model. We introduce the Schema Attention Model (SAM) and improved schema representations for the STAR corpus. SAM obtains significant improvement in zero-shot settings, with a +22 F1 score improvement over prior work. These results validate the feasibility of zero-shot generalizability in dialog. Ablation experiments are also presented to demonstrate the efficacy of SAM.
翻訳日:2021-06-16 08:22:15 公開日:2021-06-13
# (参考訳) HistoTransfer: 病理学における伝達学習の理解 [全文訳有]

HistoTransfer: Understanding Transfer Learning for Histopathology ( http://arxiv.org/abs/2106.07068v1 )

ライセンス: CC BY 4.0
Yash Sharma, Lubaina Ehsan, Sana Syed, Donald E. Brown(参考訳) デジタル病理学と人工知能の進歩により、深層学習に基づくコンピュータビジョン技術により、疾患の診断と予後を自動化できる。 しかし、WSIは独自の計算とアルゴリズムの課題を提示している。 WSIはギガピクセルサイズのもので、ディープニューラルネットワークのトレーニングに直接使用することができない。 したがって、モデリングには2段階のアプローチが採用されている: パッチ表現はまず抽出され、次にwsi予測のための集計が行われる。 これらのアプローチには、パッチエンコーダをトレーニングするための詳細なピクセルレベルのアノテーションが必要である。 しかし、これらのアノテーションを得ることは医療専門家にとって時間がかかり、退屈である。 転送学習はこのギャップに対処するために使用され、ImageNetで事前トレーニングされたディープラーニングアーキテクチャはパッチレベルの表現を生成するために使用される。 imagenetは病理組織学データと大きく異なるが、事前訓練されたネットワークは病理組織学データで印象的なパフォーマンスを示すことが示されている。 また, 自己教師とマルチタスク学習の進歩と複数の病理組織学データのリリースは, 病理組織特異的ネットワークのリリースにつながった。 本研究では,imagenetで訓練されたネットワークから抽出した特徴と病理組織学データの比較を行った。 スライドレベルのアグリゲーションには,これらの抽出した機能に対して注意プーリングネットワークを使用する。 より複雑なネットワークを用いて学習した機能が性能向上につながるかどうかを検討する。 我々は,単純なtop-kサンプリング手法を微調整フレームワークに適用し,中心的カーネルアライメントを用いた冷凍ネットワークと微調整ネットワーク間の表現類似性について検討した。 さらに,中間ブロック表現が特徴抽出に適しているか,imagenetアーキテクチャが病理組織学に不必要に大きいかを調べるため,resnet18とdrknet121のブロックを切断し,その性能を検討する。

Advancement in digital pathology and artificial intelligence has enabled deep learning-based computer vision techniques for automated disease diagnosis and prognosis. However, WSIs present unique computational and algorithmic challenges. WSIs are gigapixel-sized, making them infeasible to be used directly for training deep neural networks. Hence, for modeling, a two-stage approach is adopted: Patch representations are extracted first, followed by the aggregation for WSI prediction. These approaches require detailed pixel-level annotations for training the patch encoder. However, obtaining these annotations is time-consuming and tedious for medical experts. Transfer learning is used to address this gap and deep learning architectures pre-trained on ImageNet are used for generating patch-level representation. Even though ImageNet differs significantly from histopathology data, pre-trained networks have been shown to perform impressively on histopathology data. Also, progress in self-supervised and multi-task learning coupled with the release of multiple histopathology data has led to the release of histopathology-speci fic networks. In this work, we compare the performance of features extracted from networks trained on ImageNet and histopathology data. We use an attention pooling network over these extracted features for slide-level aggregation. We investigate if features learned using more complex networks lead to gain in performance. We use a simple top-k sampling approach for fine-tuning framework and study the representation similarity between frozen and fine-tuned networks using Centered Kernel Alignment. Further, to examine if intermediate block representation is better suited for feature extraction and ImageNet architectures are unnecessarily large for histopathology, we truncate the blocks of ResNet18 and DenseNet121 and examine the performance.
翻訳日:2021-06-16 08:09:35 公開日:2021-06-13
# (参考訳) 対比較による群衆からの半検証学習 [全文訳有]

Semi-verified Learning from the Crowd with Pairwise Comparisons ( http://arxiv.org/abs/2106.07080v1 )

ライセンス: CC BY 4.0
Shiwei Zeng and Jie Shen(参考訳) 本研究では,最近の研究の関心の高まりを生かした,boolean-valued関数の"em crowdsourced pac learning"の問題について検討する。 特に、学習者は、与えられたインスタンスのラベルまたは一対のインスタンスの比較タグを取得するために、群衆に問い合わせることができる。 これは難しい問題であり、最近になって、群衆の大半が正しいシナリオのために予算効率のアルゴリズムが確立された。 本研究は,学習を一般的に不可能にしている多数派が誤りであることを示す。 また,Charikar~et~al.〜(2017)の半検証モデルの下では,常に正しいアノテーションを返却する信頼できる託主に対して(限定的な)アクセスが可能であり,ラベル付けコストがリッチで容易に得られるクエリによって著しく軽減される一方で,基礎となる関数を学習可能であることを示す。

We study the problem of {\em crowdsourced PAC learning} of Boolean-valued functions through enriched queries, a problem that has attracted a surge of recent research interests. In particular, we consider that the learner may query the crowd to obtain a label of a given instance or a comparison tag of a pair of instances. This is a challenging problem and only recently have budget-efficient algorithms been established for the scenario where the majority of the crowd are correct. In this work, we investigate the significantly more challenging case that the majority are incorrect which renders learning impossible in general. We show that under the {semi-verified model} of Charikar~et~al.~(201 7), where we have (limited) access to a trusted oracle who always returns the correct annotation, it is possible to learn the underlying function while the labeling cost is significantly mitigated by the enriched and more easily obtained queries.
翻訳日:2021-06-16 08:01:59 公開日:2021-06-13
# (参考訳) 調査:データ拡張のための画像の混合と削除 [全文訳有]

Survey: Image Mixing and Deleting for Data Augmentation ( http://arxiv.org/abs/2106.07085v1 )

ライセンス: CC BY 4.0
Humza Naveed(参考訳) データ拡張は、深い神経ネットワークの性能向上に広く利用されている。 例えば、ドロップアウト、正規化、画像拡張など、ニューラルネットワークの一般化の過剰化や一般化を避けるために多くのアプローチが提案されている。 データ拡張内のサブ領域の1つは、画像の混合と削除である。 この特定のタイプの拡張は、2つのイメージを混合するか、画像領域を削除して隠すか、ネットワークが混乱させるイメージの特定の特性を画像内のオブジェクトの全体構造に重きを置くように強制する。 このアプローチを用いてトレーニングしたモデルでは,imgageの混合や削除なしにトレーニングしたモデルと比較して,性能や一般化が良好であることが示された。 このトレーニングで得られるその他のメリットは、画像破損に対する堅牢性である。 計算コストの低減と近年の成功により,画像の混合・削除技術が数多く提案されている。 本稿では,これらの手法について,カット・削除・カット・ミックス・ミックスアップの3つのカテゴリに分けて詳細なレビューを行う。 論文の第2部では、これらの画像分類、きめ細かい画像認識、物体検出のアプローチを実証的に評価し、このカテゴリのデータ拡張により、ディープニューラルネットワーク全体の性能が向上することを示した。

Data augmentation has been widely used to improve deep nerual networks performance. Numerous approaches are suggested, for example, dropout, regularization and image augmentation, to avoid over-ftting and enhancing generalization of neural networks. One of the sub-area within data augmentation is image mixing and deleting. This specific type of augmentation either mixes two images or delete image regions to hide or make certain characteristics of images confusing for the network to force it to emphasize on overall structure of object in image. The model trained with this approach has shown to perform and generalize well as compared to one trained without imgage mixing or deleting. Additional benefit achieved with this method of training is robustness against image corruptions. Due to its low compute cost and success in recent past, many techniques of image mixing and deleting are proposed. This paper provides detailed review on these devised approaches, dividing augmentation strategies in three main categories cut and delete, cut and mix and mixup. The second part of paper emprically evaluates these approaches for image classification, finegrained image recognition and object detection where it is shown that this category of data augmentation improves the overall performance for deep neural networks.
翻訳日:2021-06-16 07:35:26 公開日:2021-06-13
# (参考訳) 高精度・ロバスト画像分類のためのオンオフセンター・サーラウンド受容場 [全文訳有]

On-Off Center-Surround Receptive Fields for Accurate and Robust Image Classification ( http://arxiv.org/abs/2106.07091v1 )

ライセンス: CC BY 4.0
Zahra Babaiee, Ramin Hasani, Mathias Lechner, Daniela Rus, Radu Grosu(参考訳) 照明条件の変化に対するロバスト性は、あらゆる深部視覚システムにとって重要な目標である。 そこで本研究では, 脊椎動物の視覚処理系において, 興奮中心, 抑制周囲の経路, 短くてOOCSの2つの残留成分で, 畳み込みニューラルネットワークの受容領域を拡張した。 中心の経路は、中心に光刺激があるが周囲にはないのに対し、外側の経路は中心に光刺激がないために興奮するが、周囲には光刺激がない。 我々は, ガウスの差異を通したoocs経路の設計を行い, その分散を受容野の大きさから解析的に計算した。 OOCS経路は光刺激に対する応答において互いに補完し、この方法で強力なエッジ検出能力を確保し、結果として、挑戦的な照明条件下で正確で堅牢な推論を行う。 OOCSエッジ表現によって供給されるネットワークが、標準的な深層モデルと比較して精度と照度が向上することを示す広範な実証的証拠を提供する。

Robustness to variations in lighting conditions is a key objective for any deep vision system. To this end, our paper extends the receptive field of convolutional neural networks with two residual components, ubiquitous in the visual processing system of vertebrates: On-center and off-center pathways, with excitatory center and inhibitory surround; OOCS for short. The on-center pathway is excited by the presence of a light stimulus in its center but not in its surround, whereas the off-center one is excited by the absence of a light stimulus in its center but not in its surround. We design OOCS pathways via a difference of Gaussians, with their variance computed analytically from the size of the receptive fields. OOCS pathways complement each other in their response to light stimuli, ensuring this way a strong edge-detection capability, and as a result, an accurate and robust inference under challenging lighting conditions. We provide extensive empirical evidence showing that networks supplied with the OOCS edge representation gain accuracy and illumination-robustn ess compared to standard deep models.
翻訳日:2021-06-16 07:22:14 公開日:2021-06-13
# (参考訳) 自動走行車におけるブラックボックス攻撃に対するカメラ-LiDARセマンティックレベル融合のセキュリティ解析 [全文訳有]

Security Analysis of Camera-LiDAR Semantic-Level Fusion Against Black-Box Attacks on Autonomous Vehicles ( http://arxiv.org/abs/2106.07098v1 )

ライセンス: CC BY 4.0
R. Spencer Hallyburton, Yupei Liu, Miroslav Pajic(参考訳) 安全で信頼性の高い意思決定を可能にするために、自動運転車はセンサーデータを知覚アルゴリズムに供給し、環境を理解する。 センサ・フュージョン、特にセマンティック・フュージョンとマルチフレーム・トラッキングは、ますます3Dオブジェクトの検出に人気が高まっている。 近年,深層ニューラルネットワークに基づくlidarベースの知覚は,lidarスプーフィング攻撃に対して脆弱であることが示されている。 そこで本研究では,スプーフィング攻撃下でのカメラ-LiDAR融合の最初の解析と,任意のAVコンテキストにおけるセマンティックフュージョンの最初のセキュリティ解析を行う。 まず第一に、核融合は既存の防御よりも、ナイーブなスプーフィングに対する防御よりも成功している。 しかし、このフラストラム攻撃はAVに対する新たな攻撃のクラスとして定義し、セマンティックカメラ-LiDAR融合が標的モデルに対して70%から90%の成功率でフラストラム攻撃に対する広範な脆弱性を示すことを示した。 重要なことに、攻撃者は攻撃を成功させるために平均20個未満のランダムなスプーフポイントを必要とします。 最後に,マルチフレーム攻撃の影響を示すことにより,知覚攻撃の縦方向の影響を初めて分析する。

To enable safe and reliable decision-making, autonomous vehicles (AVs) feed sensor data to perception algorithms to understand the environment. Sensor fusion, and particularly semantic fusion, with multi-frame tracking is becoming increasingly popular for detecting 3D objects. Recently, it was shown that LiDAR-based perception built on deep neural networks is vulnerable to LiDAR spoofing attacks. Thus, in this work, we perform the first analysis of camera-LiDAR fusion under spoofing attacks and the first security analysis of semantic fusion in any AV context. We find first that fusion is more successful than existing defenses at guarding against naive spoofing. However, we then define the frustum attack as a new class of attacks on AVs and find that semantic camera-LiDAR fusion exhibits widespread vulnerability to frustum attacks with between 70% and 90% success against target models. Importantly, the attacker needs less than 20 random spoof points on average for successful attacks - an order of magnitude less than established maximum capability. Finally, we are the first to analyze the longitudinal impact of perception attacks by showing the impact of multi-frame attacks.
翻訳日:2021-06-16 07:00:41 公開日:2021-06-13
# (参考訳) Bias: フレンドかフォアか? 自己紹介におけるジェンダーステレオタイプのユーザ受容 [全文訳有]

Bias: Friend or Foe? User Acceptance of Gender Stereotypes in Automated Career Recommendations ( http://arxiv.org/abs/2106.07112v1 )

ライセンス: CC BY 4.0
Clarice Wang, Kathryn Wang, Andrew Bian, Rashidul Islam, Kamrun Naher Keya, James Foulde, Shimei Pan(参考訳) 現在、AIアルゴリズムにおける差別バイアスを軽減することを目的とした、公正な人工知能(AI)と機械学習(ML)研究への関心が高まっている。 性別、年齢、人種の線に沿っています この領域におけるほとんどの研究は、公正なAIアルゴリズムの開発に重点を置いているが、この研究において、公正なAIアルゴリズム自体が現実の世界でその意図された結果を達成するには不十分であることを示している。 キャリアレコメンデーションをケーススタディとして用い,ジェンダーの偏りを抑える機械学習技術を用いて,公正なAIレコメンデーションを構築する。 オフライン評価の結果、偏りのない推奨者は正確さを犠牲にすることなく、より公平なキャリアレコメンデーションを行うことがわかった。 それにもかかわらず、200人以上の大学生のオンラインユーザー調査により、平均的な参加者は偏りのあるシステムよりも元の偏りのあるシステムを好むことが明らかになった。 具体的には,性別格差が推薦の受諾の決定要因であることが判明した。 言い換えれば、この結果は、人間の性別バイアスに対処せずに、ai推奨のジェンダーバイアス問題に完全に対処できないことを示している。

Currently, there is a surge of interest in fair Artificial Intelligence (AI) and Machine Learning (ML) research which aims to mitigate discriminatory bias in AI algorithms, e.g. along lines of gender, age, and race. While most research in this domain focuses on developing fair AI algorithms, in this work, we show that a fair AI algorithm on its own may be insufficient to achieve its intended results in the real world. Using career recommendation as a case study, we build a fair AI career recommender by employing gender debiasing machine learning techniques. Our offline evaluation showed that the debiased recommender makes fairer career recommendations without sacrificing its accuracy. Nevertheless, an online user study of more than 200 college students revealed that participants on average prefer the original biased system over the debiased system. Specifically, we found that perceived gender disparity is a determining factor for the acceptance of a recommendation. In other words, our results demonstrate we cannot fully address the gender bias issue in AI recommendations without addressing the gender bias in humans.
翻訳日:2021-06-16 06:31:14 公開日:2021-06-13
# オフライン強化学習のためのベルマン整合悲観論

Bellman-consistent Pessimism for Offline Reinforcement Learning ( http://arxiv.org/abs/2106.06926v1 )

ライセンス: Link先を確認
Tengyang Xie, Ching-An Cheng, Nan Jiang, Paul Mineiro, Alekh Agarwal(参考訳) 悲観主義の使用は、徹底的な探索を欠いたデータセットについての推論が、最近オフラインの強化学習において注目されている。 アルゴリズムに頑丈さが加わったにも拘わらず、過度に悲観的な推論は、良い政策の発見を先延ばしする上でも同様に打撃を与える可能性がある。 本稿では,一般関数近似に対するベルマン整合悲観主義の概念を紹介する: 値関数に対する点回り下界を計算する代わりに,ベルマン方程式に一致する関数の集合上の初期状態における悲観主義を実装する。 我々の理論的な保証は、探索的設定において標準としてベルマン閉包のみを必要とするが、その場合ボーナスに基づく悲観主義は保証を提供しない。 より強い関数近似仮定が成立する線型 MDP の特別な場合においても、作用空間が有限である場合のサンプル複雑性において、この結果は $\mathcal{O}(d)$ による最近のボーナスベースのアプローチにより改善される。 驚くべきことに、我々のアルゴリズムは後見の最良のバイアス分散トレードオフに自動的に適応するが、ほとんどの以前のアプローチは、事前の余分なハイパーパラメータをチューニングする必要がある。

The use of pessimism, when reasoning about datasets lacking exhaustive exploration has recently gained prominence in offline reinforcement learning. Despite the robustness it adds to the algorithm, overly pessimistic reasoning can be equally damaging in precluding the discovery of good policies, which is an issue for the popular bonus-based pessimism. In this paper, we introduce the notion of Bellman-consistent pessimism for general function approximation: instead of calculating a point-wise lower bound for the value function, we implement pessimism at the initial state over the set of functions consistent with the Bellman equations. Our theoretical guarantees only require Bellman closedness as standard in the exploratory setting, in which case bonus-based pessimism fails to provide guarantees. Even in the special case of linear MDPs where stronger function-approximati on assumptions hold, our result improves upon a recent bonus-based approach by $\mathcal{O}(d)$ in its sample complexity when the action space is finite. Remarkably, our algorithms automatically adapt to the best bias-variance tradeoff in the hindsight, whereas most prior approaches require tuning extra hyperparameters a priori.
翻訳日:2021-06-15 16:38:24 公開日:2021-06-13
# サブテキスト認識のためのマルチタスクベンチマークSASICM

SASICM A Multi-Task Benchmark For Subtext Recognition ( http://arxiv.org/abs/2106.06944v1 )

ライセンス: Link先を確認
Hua Yan, Weikang Xiao, Feng Han, Jian Zhao, Furao Shen(参考訳) サブテキストは1つ以上の表現変換の後に取得できる深い意味論の一種である。 意図を表現する一般的な方法として、勉強する価値がある。 本稿では,機械学習を用いてサブテキストが存在するかどうかをコンピュータに理解させようとする。 ソースデータは、人気のソーシャルメディア(例えば、)から得られる中国のデータセットを構築します。 Weibo、Netease Music、Zhihu、Bilibili)。 また,サブテキスト認識のためのベースラインモデルSASICMを構築した。 プレトレーニングモデルがGloVeであるSASICMgのF1スコアは64.37%であり、BERTベースのモデルよりも3.97%高く、サポートベクターマシン、ロジスティック回帰分類器、最大エントロピー分類器、ナイーブベイズ分類器と決定木を含む従来の手法よりも12.7%高く、MARINやBTMを含む最先端技術よりも2.39%高い。 プレトレーニングモデルがBERTであるSASICMBERTのF1スコアは65.12%であり、SASICMgよりも0.75%高い。 sasicmg と sasicmbert の精度はそれぞれ 71.16% と 70.76% であり、前述した他の方法と競合する。

Subtext is a kind of deep semantics which can be acquired after one or more rounds of expression transformation. As a popular way of expressing one's intentions, it is well worth studying. In this paper, we try to make computers understand whether there is a subtext by means of machine learning. We build a Chinese dataset whose source data comes from the popular social media (e.g. Weibo, Netease Music, Zhihu, and Bilibili). In addition, we also build a baseline model called SASICM to deal with subtext recognition. The F1 score of SASICMg, whose pretrained model is GloVe, is as high as 64.37%, which is 3.97% higher than that of BERT based model, 12.7% higher than that of traditional methods on average, including support vector machine, logistic regression classifier, maximum entropy classifier, naive bayes classifier and decision tree and 2.39% higher than that of the state-of-the-art, including MARIN and BTM. The F1 score of SASICMBERT, whose pretrained model is BERT, is 65.12%, which is 0.75% higher than that of SASICMg. The accuracy rates of SASICMg and SASICMBERT are 71.16% and 70.76%, respectively, which can compete with those of other methods which are mentioned before.
翻訳日:2021-06-15 16:34:10 公開日:2021-06-13
# サンプルトリプレットと画像変換を用いたsiameseネットワークトレーニング

Siamese Network Training Using Sampled Triplets and Image Transformation ( http://arxiv.org/abs/2106.07015v1 )

ライセンス: Link先を確認
Ammar N. Abbas and David Moser(参考訳) この装置は、水面上の物体を2台のサーマルカメラで検出し、ユーザーが人間の目(夜、霧など)が見えないシナリオで物体を検出し、回避するのに役立つ。 障害物衝突を自律的に避けるためには、オブジェクトをリアルタイムで追跡し、各オブジェクトに特定のアイデンティティを割り当て、そのダイナミクス(軌道、速度など)を決定する必要がある。 推定衝突予測をしました 次の作業では、コンピュータビジョン(CV)のための機械学習(ML)アプローチである畳み込みニューラルネットワーク(CNN)が、Pythonのハイレベルプログラミング環境としてTensorFlowを使用して使用された。 アルゴリズムを検証するために、適切な評価のために作業中に作成されたアノテーションツールを使用してテストセットが生成される。 検証後、アルゴリズムはプラットフォーム上にデプロイされ、テストボートが生成したシーケンスでテストされる。

The device used in this work detects the objects over the surface of the water using two thermal cameras which aid the users to detect and avoid the objects in scenarios where the human eyes cannot (night, fog, etc.). To avoid the obstacle collision autonomously, it is required to track the objects in real-time and assign a specific identity to each object to determine its dynamics (trajectory, velocity, etc.) for making estimated collision predictions. In the following work, a Machine Learning (ML) approach for Computer Vision (CV) called Convolutional Neural Network (CNN) was used using TensorFlow as the high-level programming environment in Python. To validate the algorithm a test set was generated using an annotation tool that was created during the work for proper evaluation. Once validated, the algorithm was deployed on the platform and tested with the sequence generated by the test boat.
翻訳日:2021-06-15 16:32:38 公開日:2021-06-13
# トランスフォーマーのように考える

Thinking Like Transformers ( http://arxiv.org/abs/2106.06981v1 )

ライセンス: Link先を確認
Gail Weiss, Yoav Goldberg, Eran Yahav(参考訳) Transformerの背後にある計算モデルは何ですか? リカレントニューラルネットワークは有限状態マシンに直接的な並列性を持ち、アーキテクチャの変種や訓練されたモデルに関する明確な議論と考察を可能にする。 本稿では,プログラミング言語の形でトランスフォーマエンコーダの計算モデルを提案することで,それを変えることを目的とする。 我々はトランスフォーマー・エンコーダの基本コンポーネント -- 注意とフィードフォワード計算 -- を単純なプリミティブにマッピングし、そこでプログラミング言語を形成する: 制限付きアクセスシーケンス処理言語(RASP)。 RASP が Transformer で学習可能なタスクに対するソリューションプログラムにどのように使用できるか,そして RASP ソリューションを模倣するために Transformer をどのようにトレーニングできるかを示す。 特に、ヒストグラム、ソート、ダイク言語のためのRASPプログラムを提供する。 RASPプログラムを解析すると,タスクをトランスフォーマーにエンコードするために必要な最大数のヘッドとレイヤが示される。 最後に、最近の研究で見られる現象を説明するために、抽象化から得られた洞察がどのように使われるかを見る。

What is the computational model behind a Transformer? Where recurrent neural networks have direct parallels in finite state machines, allowing clear discussion and thought around architecture variants or trained models, Transformers have no such familiar parallel. In this paper we aim to change that, proposing a computational model for the transformer-encoder in the form of a programming language. We map the basic components of a transformer-encoder -- attention and feed-forward computation -- into simple primitives, around which we form a programming language: the Restricted Access Sequence Processing Language (RASP). We show how RASP can be used to program solutions to tasks that could conceivably be learned by a Transformer, and how a Transformer can be trained to mimic a RASP solution. In particular, we provide RASP programs for histograms, sorting, and Dyck-languages. We further use our model to relate their difficulty in terms of the number of required layers and attention heads: analyzing a RASP program implies a maximum number of heads and layers necessary to encode a task in a transformer. Finally, we see how insights gained from our abstraction might be used to explain phenomena seen in recent works.
翻訳日:2021-06-15 16:31:38 公開日:2021-06-13
# アクター批判と政策グラディエントの間のギャップを特徴づける

Characterizing the Gap Between Actor-Critic and Policy Gradient ( http://arxiv.org/abs/2106.06932v1 )

ライセンス: Link先を確認
Junfeng Wen, Saurabh Kumar, Ramki Gummadi, Dale Schuurmans(参考訳) アクタークリティカル(AC)法は、強化学習においてユビキタスである。 AC法は政策勾配 (PG) と密接に関連していると考えられるが, その正確な関係は以前にも明らかではなかった。 本稿では、累積報酬目標(PG)の真の政策勾配を回復するAC目標/段階の正確な調整を同定することにより、AC法とPG法のギャップを説明する。 さらに,ac法を俳優と批評家の間での2人プレイのstackelbergゲームとして見ることにより,より一般的な分析の特別な場合として,stackelbergのポリシー勾配を復元できることを示した。 これらの結果に基づいて,AC と PG の補正を推定する実用的なアルゴリズムである Residual Actor-Critic と Stackelberg Actor-Critic を開発した。 一般的な表表および連続環境における実験により,提案手法は既存の交流方式のサンプル効率と最終的な性能の両方を改善することができる。

Actor-critic (AC) methods are ubiquitous in reinforcement learning. Although it is understood that AC methods are closely related to policy gradient (PG), their precise connection has not been fully characterized previously. In this paper, we explain the gap between AC and PG methods by identifying the exact adjustment to the AC objective/gradient that recovers the true policy gradient of the cumulative reward objective (PG). Furthermore, by viewing the AC method as a two-player Stackelberg game between the actor and critic, we show that the Stackelberg policy gradient can be recovered as a special case of our more general analysis. Based on these results, we develop practical algorithms, Residual Actor-Critic and Stackelberg Actor-Critic, for estimating the correction between AC and PG and use these to modify the standard AC algorithm. Experiments on popular tabular and continuous environments show the proposed corrections can improve both the sample efficiency and final performance of existing AC methods.
翻訳日:2021-06-15 16:30:15 公開日:2021-06-13
# boolnet:バイナリニューラルネットワークのエネルギー消費を最小化する

BoolNet: Minimizing The Energy Consumption of Binary Neural Networks ( http://arxiv.org/abs/2106.06991v1 )

ライセンス: Link先を確認
Nianhui Guo, Joseph Bethge, Haojin Yang, Kai Zhong, Xuefei Ning, Christoph Meinel and Yu Wang(参考訳) 最近のBNN(Binary Neural Networks)の研究は、BNNの精度ギャップを32ビットに狭めるという有望な進歩を遂げている。 しかし、精度の向上は、しばしば32ビットのコンポーネントを追加する特別なモデル設計に基づいている。 さらに、以前のほとんどのBNNでは、機能マップと対応するバイナリ畳み込みブロックを囲むショートカットに32ビットを使用しており、精度を効果的に維持するのに役立つが、メモリ、エネルギ、コンピューティングリソースに制限のあるハードウェアアクセラレータには適していない。 そこで我々は,BNNネットワーク設計において,精度とエネルギー消費のバランスをとるにはどうすればよいのか,という疑問を提起する。 本稿では,本研究の根本的課題を幅広く研究し,最もよく使用される32ビットコンポーネントを含まない新しいBNNアーキテクチャを提案する。 ImageNetの実験結果によると、BoolNetはBNNアーキテクチャのBi-RealNetよりも1.2\%高い精度で4.6倍のエネルギー削減を達成できる。 コードとトレーニングされたモデルは、https://github.com/h pi-xnor/BoolNet.comで入手できる。

Recent works on Binary Neural Networks (BNNs) have made promising progress in narrowing the accuracy gap of BNNs to their 32-bit counterparts. However, the accuracy gains are often based on specialized model designs using additional 32-bit components. Furthermore, almost all previous BNNs use 32-bit for feature maps and the shortcuts enclosing the corresponding binary convolution blocks, which helps to effectively maintain the accuracy, but is not friendly to hardware accelerators with limited memory, energy, and computing resources. Thus, we raise the following question: How can accuracy and energy consumption be balanced in a BNN network design? We extensively study this fundamental problem in this work and propose a novel BNN architecture without most commonly used 32-bit components: \textit{BoolNet}. Experimental results on ImageNet demonstrate that BoolNet can achieve 4.6x energy reduction coupled with 1.2\% higher accuracy than the commonly used BNN architecture Bi-RealNet. Code and trained models are available at: https://github.com/h pi-xnor/BoolNet.
翻訳日:2021-06-15 16:29:57 公開日:2021-06-13
# アトラスによるマニフォールドの表現とメトリック学習

Atlas Based Representation and Metric Learning on Manifolds ( http://arxiv.org/abs/2106.07062v1 )

ライセンス: Link先を確認
Eric O. Korman(参考訳) 本稿では,ニューラルネットワークに基づく表現学習タスクのターゲット空間として,グラフの集合として表される位相多様体の利用について検討する。 これは、エンコーダのネットワークアーキテクチャの出力に対する簡単な調整と、正規化のための最大平均不一致(MMD)に基づく損失関数の追加によって達成される。 表現とメトリック学習のほとんどのアルゴリズムは、我々のフレームワークに容易に適応でき、その効果は、simclr(表現学習)と標準三重項損失トレーニング(計量学習)を、多様体符号化空間を持つように調整することで示します。 実験の結果,低次元符号化におけるベースライン上での性能向上が得られた。 三重項トレーニングの場合、多様体のセットアップとは独立に、MDDの損失は単独(すなわち)であることが分かる。 平坦なユークリッド対象空間を維持しつつも、mmdの損失を使って正規化する)典型的な高次元ユークリッド対象空間のベースラインよりも性能が向上する。 実験を再現するためのコードはhttps://github.com/e korman/neurve.orgにある。

We explore the use of a topological manifold, represented as a collection of charts, as the target space of neural network based representation learning tasks. This is achieved by a simple adjustment to the output of an encoder's network architecture plus the addition of a maximal mean discrepancy (MMD) based loss function for regularization. Most algorithms in representation and metric learning are easily adaptable to our framework and we demonstrate its effectiveness by adjusting SimCLR (for representation learning) and standard triplet loss training (for metric learning) to have manifold encoding spaces. Our experiments show that we obtain a substantial performance boost over the baseline for low dimensional encodings. In the case of triplet training, we also find, independent of the manifold setup, that the MMD loss alone (i.e. keeping a flat, euclidean target space but using an MMD loss to regularize it) increases performance over the baseline in the typical, high-dimensional Euclidean target spaces. Code for reproducing experiments is provided at https://github.com/e korman/neurve .
翻訳日:2021-06-15 16:27:51 公開日:2021-06-13
# ランダムウォークの遷移結合によるグラフ最適輸送

Graph Optimal Transport with Transition Couplings of Random Walks ( http://arxiv.org/abs/2106.07106v1 )

ライセンス: Link先を確認
Kevin O'Connor, Bongsoo Yi, Kevin McGoff, Andrew B. Nobel(参考訳) 定常マルコフ連鎖の観点から,グラフ間の最適輸送に対する新しいアプローチを提案する。 重み付きグラフは、グラフのエッジ重みに応じて遷移分布を持つ頂点集合上のランダムウォークによって定常マルコフ連鎖に関連付けられる。 この接続を描画した後、定常マルコフ連鎖の最適輸送技術を用いて、研究中のグラフの比較とアライメントを行う方法について述べる。 特に、2つのグラフに関連付けられたマルコフ連鎖を最適に同期させ、期待されるコストを最小限に抑えるグラフ最適遷移結合問題(GraphOTC)を提案する。 ジョイント同期チェーンは2つのグラフの頂点と辺のアライメントを生じさせ、同期チェーンの期待コストは2つのグラフ間の距離または相似性の尺度として作用する。 我々は,GraphOTCが複数のタスクやデータセットに対するグラフ最適輸送において,既存の最先端技術と同等以上の性能を示すことを示す。 最後に、FusedOTC問題と呼ばれるGraphOTC問題を一般化し、特殊なケースとしてGraphOTCとOTのコストを回収する。

We present a novel approach to optimal transport between graphs from the perspective of stationary Markov chains. A weighted graph may be associated with a stationary Markov chain by means of a random walk on the vertex set with transition distributions depending on the edge weights of the graph. After drawing this connection, we describe how optimal transport techniques for stationary Markov chains may be used in order to perform comparison and alignment of the graphs under study. In particular, we propose the graph optimal transition coupling problem, referred to as GraphOTC, in which the Markov chains associated to two given graphs are optimally synchronized to minimize an expected cost. The joint synchronized chain yields an alignment of the vertices and edges in the two graphs, and the expected cost of the synchronized chain acts as a measure of distance or dissimilarity between the two graphs. We demonstrate that GraphOTC performs equal to or better than existing state-of-the-art techniques in graph optimal transport for several tasks and datasets. Finally, we also describe a generalization of the GraphOTC problem, called the FusedOTC problem, from which we recover the GraphOTC and OT costs as special cases.
翻訳日:2021-06-15 16:27:33 公開日:2021-06-13
# 非IIDフェデレーション学習のための適応動的プルーニング

Adaptive Dynamic Pruning for Non-IID Federated Learning ( http://arxiv.org/abs/2106.06921v1 )

ライセンス: Link先を確認
Sixing Yu, Phuong Nguyen, Ali Anwar, Ali Jannesari(参考訳) Federated Learning~(FL)は、データセキュリティとプライバシを犠牲にすることなく機械学習モデルをトレーニングする新たなパラダイムとして登場した。 携帯電話などのエッジデバイスでの学習モデルは、FLの最も一般的なユースケースの1つである。 しかしながら、エッジデバイスの限られた計算能力とエネルギー制限は、モデルトレーニングとデプロイメントの両方、特にリソース不足のDeep Neural Networks~(DNN)にFLの採用を妨げる。 この目的のために、多くのモデル圧縮手法が提案され、ネットワークプルーニングが最もよく知られている。 しかし、与えられたモデルに対するプルーニングポリシーはデータセットに依存しており、非独立かつIdentically Distributed~(Non-IID ) FLエッジデバイスには適さない。 本稿では,非IIDデータセット上での推論高速化にデータセット認識動的プルーニングを適用し,エッジデバイスに対する適応的なプルーニング手法を提案する。 提案手法は,モデル品質をエッジデバイスで維持しつつ,2\times$~($50\%$ flops reduction)の推論を高速化することを示す。

Federated Learning~(FL) has emerged as a new paradigm of training machine learning models without sacrificing data security and privacy. Learning models at edge devices such as cell phones is one of the most common use case of FL. However, the limited computing power and energy constraints of edge devices hinder the adoption of FL for both model training and deployment, especially for the resource-hungry Deep Neural Networks~(DNNs). To this end, many model compression methods have been proposed and network pruning is among the most well-known. However, a pruning policy for a given model is highly dataset-dependent, which is not suitable for non-Independent and Identically Distributed~(Non-IID ) FL edge devices. In this paper, we present an adaptive pruning scheme for edge devices in an FL system, which applies dataset-aware dynamic pruning for inference acceleration on Non-IID datasets. Our evaluation shows that the proposed method accelerates inference by $2\times$~($50\%$ FLOPs reduction) while maintaining the model's quality on edge devices.
翻訳日:2021-06-15 16:25:22 公開日:2021-06-13
# NDPNet:小ショット微細ゲイン画像分類のための新しい非線形データ投影ネットワーク

NDPNet: A novel non-linear data projection network for few-shot fine-gained image classification ( http://arxiv.org/abs/2106.06988v1 )

ライセンス: Link先を確認
Weichuan Zhangy, Xuefang Liuy, Zhe Xue, Yongsheng Gao, Changming Sun(参考訳) fsfgicは,クエリ画像とサポートクラス間の類似性を,ごく少数の例から推定することで,転送可能な機能埋め込みネットワークを学習することを目的としている。 本研究では,FSFGICアーキテクチャの設計に非線形データプロジェクションの概念を導入して,有限ショット学習における限られたサンプル問題に対処すると同時に,きめ細かい画像分類のためのモデルの識別性を高めることを提案する。 具体的には, 効果的なメトリック学習に必要な意味的特徴を得るだけでなく, 入力画像から細部まで細部まで, 特徴を再エンハンスする機能を持つ, 特徴再抽象埋め込みネットワークの設計を行った。 次に,提案する類似度メトリック学習ネットワークにおいて,問合せ画像の記述子と支援クラスを異なる非線形空間に投影し,識別的投影因子を学習する。 この設計は、同一クラス内のサンプル間の距離を小さくし、異なるクラスからのサンプル間の距離を小さくし、異なるカテゴリからのサンプル間の結合関係を減らすために、FSFGICタスクの挑戦的で制限された条件で効果的に操作できる。 さらに,提案した非線形データプロジェクトに基づく新たな類似度尺度を提案し,クエリ画像とサポートセットの特徴情報の関連性を評価する。 提案したアーキテクチャは,任意のエピソードトレーニング機構にスクラッチからエンド・ツー・エンド・トレーニングに簡単に組み込むことができる。 FSFGICタスクに関する大規模な実験は、提案手法が最先端のベンチマークよりも優れていることを示す。

Metric-based few-shot fine-grained image classification (FSFGIC) aims to learn a transferable feature embedding network by estimating the similarities between query images and support classes from very few examples. In this work, we propose, for the first time, to introduce the non-linear data projection concept into the design of FSFGIC architecture in order to address the limited sample problem in few-shot learning and at the same time to increase the discriminability of the model for fine-grained image classification. Specifically, we first design a feature re-abstraction embedding network that has the ability to not only obtain the required semantic features for effective metric learning but also re-enhance such features with finer details from input images. Then the descriptors of the query images and the support classes are projected into different non-linear spaces in our proposed similarity metric learning network to learn discriminative projection factors. This design can effectively operate in the challenging and restricted condition of a FSFGIC task for making the distance between the samples within the same class smaller and the distance between samples from different classes larger and for reducing the coupling relationship between samples from different categories. Furthermore, a novel similarity measure based on the proposed non-linear data project is presented for evaluating the relationships of feature information between a query image and a support set. It is worth to note that our proposed architecture can be easily embedded into any episodic training mechanisms for end-to-end training from scratch. Extensive experiments on FSFGIC tasks demonstrate the superiority of the proposed methods over the state-of-the-art benchmarks.
翻訳日:2021-06-15 16:25:04 公開日:2021-06-13
# 乳癌診断のための弱教師付き高分解能マンモグラフィ画像分割

Weakly-supervised High-resolution Segmentation of Mammography Images for Breast Cancer Diagnosis ( http://arxiv.org/abs/2106.07049v1 )

ライセンス: Link先を確認
Kangning Liu, Yiqiu Shen, Nan Wu, Jakub Ch{\l}\k{e}dowski, Carlos Fernandez-Granda, Krzysztof J. Geras(参考訳) 近年,深層学習分類器は画像に基づく診断において有望な結果を示した。 しかし、これらのモデルの出力を解釈することは依然として困難である。 がん診断において、入力画像の領域、すなわち出力に責任を持つ領域を局在させることにより、解釈可能性を達成することができる。 病変の場所。 または、セグメンテーションまたは検出モデルは、悪性病変の位置を示すピクセルワイズアノテーションで訓練することができる。 残念ながら、そのようなラベルの取得は労働集約的であり、医療の専門知識を必要とする。 この困難を克服するために、弱教師付きローカライゼーションを利用することができる。 これらの手法により、ニューラルネットワーク分類器は、分類タスクに最も関係のある入力の領域(例えば、)をハイライトした有能マップを出力することができる。 マンモグラムの悪性病変) 画像レベルのラベル(例)のみを使用する。 訓練中、患者ががんを患っているかどうか。 高解像度画像に適用すると、既存の手法は低解像度の塩分マップを生成する。 これは画像サイズに関して不審な病変が小さいアプリケーションでは問題となる。 本研究では,高分解能画像の弱教師付きセグメンテーションを行うニューラルネットワークアーキテクチャを提案する。 提案モデルでは、粗いレベルの局所化により興味のある領域を選択し、その領域のきめ細かいセグメンテーションを行う。 このモデルを乳がん検診に応用し, 臨床的に現実的な大規模データセットで検証した。 Dice類似度スコアを用いて,良性病変および悪性病変の局所化性能において既存手法よりも高い成績を示し,それぞれ39.6%,20.0%の改善率を示した。 コードとモデルの重み付けはhttps://github.com/n yukat/GLAMで確認できる。

In the last few years, deep learning classifiers have shown promising results in image-based medical diagnosis. However, interpreting the outputs of these models remains a challenge. In cancer diagnosis, interpretability can be achieved by localizing the region of the input image responsible for the output, i.e. the location of a lesion. Alternatively, segmentation or detection models can be trained with pixel-wise annotations indicating the locations of malignant lesions. Unfortunately, acquiring such labels is labor-intensive and requires medical expertise. To overcome this difficulty, weakly-supervised localization can be utilized. These methods allow neural network classifiers to output saliency maps highlighting the regions of the input most relevant to the classification task (e.g. malignant lesions in mammograms) using only image-level labels (e.g. whether the patient has cancer or not) during training. When applied to high-resolution images, existing methods produce low-resolution saliency maps. This is problematic in applications in which suspicious lesions are small in relation to the image size. In this work, we introduce a novel neural network architecture to perform weakly-supervised segmentation of high-resolution images. The proposed model selects regions of interest via coarse-level localization, and then performs fine-grained segmentation of those regions. We apply this model to breast cancer diagnosis with screening mammography, and validate it on a large clinically-realistic dataset. Measured by Dice similarity score, our approach outperforms existing methods by a large margin in terms of localization performance of benign and malignant lesions, relatively improving the performance by 39.6% and 20.0%, respectively. Code and the weights of some of the models are available at https://github.com/n yukat/GLAM
翻訳日:2021-06-15 16:24:39 公開日:2021-06-13
# 効率的な意味セグメンテーションモデルの半教師あり学習のためのベースライン

A baseline for semi-supervised learning of efficient semantic segmentation models ( http://arxiv.org/abs/2106.07075v1 )

ライセンス: Link先を確認
Ivan Grubi\v{s}i\'c (1), Marin Or\v{s}i\'c (1), Sini\v{s}a \v{S}egvi\'c (1) ((1) University of Zagreb, Faculty of Electrical Engineering and Computing)(参考訳) 半教師付き学習は、ピクセルレベルの基底真理のコストが高いため、密集した予測コンテキストで特に興味深い。 残念なことに、そのようなアプローチのほとんどは、非常に遅いトレーニングとGPU RAMに対する高い要求のために研究を妨げる古いアーキテクチャで評価されている。 標準アーキテクチャと効率的なアーキテクチャの両方で非常にうまく機能する、シンプルで効果的なベースラインを提供することで、この懸念に対処します。 我々のベースラインは、一方向の一貫性と非線形幾何学的および測光的摂動に基づく。 我々は,学生の分枝のみを摂動させることの利点を示し,そのような行動のもっともらしい説明を示す。 CityscapesとCIFAR-10の実験は、以前の作業に関して競争力のある性能を示した。

Semi-supervised learning is especially interesting in the dense prediction context due to high cost of pixel-level ground truth. Unfortunately, most such approaches are evaluated on outdated architectures which hamper research due to very slow training and high requirements on GPU RAM. We address this concern by presenting a simple and effective baseline which works very well both on standard and efficient architectures. Our baseline is based on one-way consistency and non-linear geometric and photometric perturbations. We show advantage of perturbing only the student branch and present a plausible explanation of such behaviour. Experiments on Cityscapes and CIFAR-10 demonstrate competitive performance with respect to prior work.
翻訳日:2021-06-15 16:24:16 公開日:2021-06-13
# feshi: 機能マップベースのステルスハードウェア固有の攻撃

FeSHI: Feature Map Based Stealthy Hardware Intrinsic Attack ( http://arxiv.org/abs/2106.06895v1 )

ライセンス: Link先を確認
Tolulope Odetola, Faiq Khalid, Travis Sandefur, Hawzhin Mohammed and Syed Rafay Hasan(参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン、自然言語処理、その他多くのアプリケーションで顕著な性能を示しているが、高い計算量とかなりのメモリ要件を示している。 これらの制限に対処するため、特にリソース制約のあるデバイスでは、cnnでのクラウドコンピューティングの利用がより普及している。 これは、CNN用の組み込みハードウェアアクセラレータを開発する動機となった、プライバシとレイテンシに関する懸念が伴っている。 しかし、専門的な加速器の設計は市場投入までの時間と生産コストを増加させる。 したがって、市場投入までの時間と最先端技術へのアクセスを減らすため、CNNのハードウェアマッピングと組み込みアクセラレータへのデプロイメントは、信頼できないサードパーティにアウトソースされることが多い。 これらのaiotシステムは、cnnレイヤがパーティショニングされ、これらのデバイスが複雑なcnnタスクを協調的に計算する異なるリソース制約されたaiotノードデバイス間の水平的なコラボレーションを予測する。 そこで本論文では,この攻撃面を利用してFeSHIと呼ばれるHTベースの攻撃を提案する。 この攻撃は、cnnの層別特徴マップの統計分布、すなわちガウス分布を利用して、非常に低いトリガー確率でステルスhtの2つのトリガーを設計する。 提案攻撃の有効性を説明するため,PYNQにLeNetとLeNet-3Dを配置し,MNISTとCIFAR-10データセットをそれぞれ分類し,FeSHIを試験した。 実験の結果,FeSHIは最大2%余剰UTTを使用し,全体の資源オーバーヘッドは原設計と比較して1%未満であることがわかった。

Convolutional Neural Networks (CNN) have shown impressive performance in computer vision, natural language processing, and many other applications, but they exhibit high computations and substantial memory requirements. To address these limitations, especially in resource-constrained devices, the use of cloud computing for CNNs is becoming more popular. This comes with privacy and latency concerns that have motivated the designers to develop embedded hardware accelerators for CNNs. However, designing a specialized accelerator increases the time-to-market and cost of production. Therefore, to reduce the time-to-market and access to state-of-the-art techniques, CNN hardware mapping and deployment on embedded accelerators are often outsourced to untrusted third parties, which is going to be more prevalent in futuristic artificial intelligence of things (AIoT) systems. These AIoT systems anticipate horizontal collaboration among different resource-constrained AIoT node devices, where CNN layers are partitioned and these devices collaboratively compute complex CNN tasks Therefore, there is a dire need to explore this attack surface for designing secure embedded hardware accelerators for CNNs. Towards this goal, in this paper, we exploited this attack surface to propose an HT-based attack called FeSHI. This attack exploits the statistical distribution i.e., Gaussian distribution, of the layer-by-layer feature maps of the CNN to design two triggers for stealthy HT with a very low probability of triggering. To illustrate the effectiveness of the proposed attack, we deployed the LeNet and LeNet-3D on PYNQ to classify the MNIST and CIFAR-10 datasets, respectively, and tested FeSHI. The experimental results show that FeSHI utilizes up to 2% extra LUTs, and the overall resource overhead is less than 1% compared to the original designs
翻訳日:2021-06-15 16:21:48 公開日:2021-06-13
# スパイキングニューロモルフィックハードウェアに実装したバックプロパゲーションアルゴリズム

The Backpropagation Algorithm Implemented on Spiking Neuromorphic Hardware ( http://arxiv.org/abs/2106.07030v1 )

ライセンス: Link先を確認
Alpha Renner, Forrest Sheldon, Anatoly Zlotnik, Louis Tao, Andrew Sornborger(参考訳) 自然言語システムの能力は、新しい世代の機械学習アルゴリズムや、高速で低消費電力の情報処理が可能なニューロモルフィックな超大規模集積(VLSI)回路に影響を与えた。 しかし、現代の機械学習のアルゴリズムは神経生理学的に妥当ではないため、ニューロモルフィックなハードウェアでは直接実装できない。 特に、バックプロパゲーションアルゴリズムである現代のディープラーニングの成果は、ニューロモルフィックハードウェアへの変換が困難であることが証明されている。 本研究では,intelのloihiニューロモルフィック・リサーチ・プロセッサに実装した,パルス制御による動的情報調整と処理に基づくニューロモルフィック・スパイキングバックプロパゲーションアルゴリズムを提案する。 MNISTデータセットから桁の分類を学習する3層回路の実証を実証する。 この実装は、現代のディープラーニングアプリケーションにおいて、非常に並列で低消費電力で低遅延のニューロモルフィックプロセッサを使用するための経路を示す。

The capabilities of natural neural systems have inspired new generations of machine learning algorithms as well as neuromorphic very large-scale integrated (VLSI) circuits capable of fast, low-power information processing. However, most modern machine learning algorithms are not neurophysiologically plausible and thus are not directly implementable in neuromorphic hardware. In particular, the workhorse of modern deep learning, the backpropagation algorithm, has proven difficult to translate to neuromorphic hardware. In this study, we present a neuromorphic, spiking backpropagation algorithm based on pulse-gated dynamical information coordination and processing, implemented on Intel's Loihi neuromorphic research processor. We demonstrate a proof-of-principle three-layer circuit that learns to classify digits from the MNIST dataset. This implementation shows a path for using massively parallel, low-power, low-latency neuromorphic processors in modern deep learning applications.
翻訳日:2021-06-15 16:21:18 公開日:2021-06-13
# 随伴認識による影響最大化--強化学習アプローチ

Contingency-Aware Influence Maximization: A Reinforcement Learning Approach ( http://arxiv.org/abs/2106.07039v1 )

ライセンス: Link先を確認
Haipeng Chen, Wei Qiu, Han-Ching Ou, Bo An, Milind Tambe(参考訳) 影響の最大化(IM)問題は、影響の広がりを最大化するソーシャルネットワーク内のシードノードのサブセットを見つけることを目的としている。 そこで本研究では,招待されたノードが種子になるかどうかを不確実視するim問題のサブクラスに着目し,その問題であるコンティンジェンシー・アウェア・imについて述べる。 このような緊急対応IMは、低資源コミュニティ(例えば、疾病予防の認識を広げるなど)の非営利団体に応用するために重要である。 初期の成功にもかかわらず、より多くのコミュニティにソリューションを広める上での大きな実践上の障害は、欲望のあるアルゴリズムの膨大な実行時間と、この分野の非営利団体のためのハイパフォーマンスコンピューティング(hpc)の欠如である。 グラフ上での組合せ最適化に強化学習(RL)を用いることで、マルコフ決定プロセス(MDP)として問題を定式化し、RLを用いて歴史的に見られたネットワーク上のIMポリシーを学習し、テストフェーズで無視できないランタイムを持つネットワークに一般化する。 対象とする問題の諸性質を十分に活用するために,国益化と理論的根拠を持つ報酬形成を含む既存手法を改良する2つの技術革新を提案する。 実験結果から,本手法はテスト段階では無視可能な実行環境を保ちながら,最先端のIM手法に匹敵する影響を達成できることが示された。

The influence maximization (IM) problem aims at finding a subset of seed nodes in a social network that maximize the spread of influence. In this study, we focus on a sub-class of IM problems, where whether the nodes are willing to be the seeds when being invited is uncertain, called contingency-aware IM. Such contingency aware IM is critical for applications for non-profit organizations in low resource communities (e.g., spreading awareness of disease prevention). Despite the initial success, a major practical obstacle in promoting the solutions to more communities is the tremendous runtime of the greedy algorithms and the lack of high performance computing (HPC) for the non-profits in the field -- whenever there is a new social network, the non-profits usually do not have the HPCs to recalculate the solutions. Motivated by this and inspired by the line of works that use reinforcement learning (RL) to address combinatorial optimization on graphs, we formalize the problem as a Markov Decision Process (MDP), and use RL to learn an IM policy over historically seen networks, and generalize to unseen networks with negligible runtime at test phase. To fully exploit the properties of our targeted problem, we propose two technical innovations that improve the existing methods, including state-abstraction and theoretically grounded reward shaping. Empirical results show that our method achieves influence as high as the state-of-the-art methods for contingency-aware IM, while having negligible runtime at test phase.
翻訳日:2021-06-15 16:21:04 公開日:2021-06-13
# ビザンチン-ロバスト分散学習のための乗算器の確率交代方向法

Stochastic Alternating Direction Method of Multipliers for Byzantine-Robust Distributed Learning ( http://arxiv.org/abs/2106.06891v1 )

ライセンス: Link先を確認
Feng Lin, Weiyu Li, Qing Ling(参考訳) 本稿では,ビザンチン攻撃下での分散学習問題を解決することを目的とする。 基盤となる分散システムでは、未知だが悪意のあるワーカ(ビザンチンワーカと呼ばれる)が任意のメッセージをマスタに送信し、データの破損、計算エラー、悪意のある攻撃などによって学習プロセスをバイアスすることができる。 以前の研究では、ビザンチン攻撃に対処するためにトータル・ミュータント(tv)ノルムペナルテッド近似定式化(英語版)(total variation:tv)を検討しており、テレビ・ノーム・ペナルティ(英語版)は通常の労働者のローカル変数を近接させ、一方でビザンチン労働者が送った異常を許容する。 そこで本研究では, 分割可能な問題構造をフル活用した乗算器 (ADMM) のビザンチン・ロバスト確率交互方向法を提案する。 理論的には、提案手法は、k が反復数であり、近傍の大きさがビザンチン労働者の数によって決定されるという軽微な仮定の下で、最適解の有界近傍に O(1/k) の速度で収束することを証明している。 mnistおよびcovertypeデータセットに関する数値実験により,様々なビザンチン攻撃に対する提案手法の有効性が示された。

This paper aims to solve a distributed learning problem under Byzantine attacks. In the underlying distributed system, a number of unknown but malicious workers (termed as Byzantine workers) can send arbitrary messages to the master and bias the learning process, due to data corruptions, computation errors or malicious attacks. Prior work has considered a total variation (TV) norm-penalized approximation formulation to handle the Byzantine attacks, where the TV norm penalty forces the regular workers' local variables to be close, and meanwhile, tolerates the outliers sent by the Byzantine workers. To solve the TV norm-penalized approximation formulation, we propose a Byzantine-robust stochastic alternating direction method of multipliers (ADMM) that fully utilizes the separable problem structure. Theoretically, we prove that the proposed method converges to a bounded neighborhood of the optimal solution at a rate of O(1/k) under mild assumptions, where k is the number of iterations and the size of neighborhood is determined by the number of Byzantine workers. Numerical experiments on the MNIST and COVERTYPE datasets demonstrate the effectiveness of the proposed method to various Byzantine attacks.
翻訳日:2021-06-15 16:19:06 公開日:2021-06-13
# 適応資産価格のためのニュースベース機械学習モデル

A News-based Machine Learning Model for Adaptive Asset Pricing ( http://arxiv.org/abs/2106.07103v1 )

ライセンス: Link先を確認
Liao Zhu, Haoxuan Wu, Martin T. Wells(参考訳) 本稿では、金融ニュースに基づいて株価のリターンを説明・予測するために、新たな資産価格モデル、ニューズ埋め込みUMAP選択(NEUS)モデルを提案する。 さまざまな機械学習アルゴリズムの組み合わせを用いて、まず、財務ニュースから各ベース資産の埋め込みベクトルを導出する。 そして、それらの企業の埋め込みに基づいて基礎資産のコレクションを得る。 その後、各株について、高次元統計手法で株価のリターンを説明し予測するための基本資産を選択する。 この新しいモデルは、Fama-French 5-factorモデルよりもはるかに優れた適合性と予測能力を持つ。

The paper proposes a new asset pricing model -- the News Embedding UMAP Selection (NEUS) model, to explain and predict the stock returns based on the financial news. Using a combination of various machine learning algorithms, we first derive a company embedding vector for each basis asset from the financial news. Then we obtain a collection of the basis assets based on their company embedding. After that for each stock, we select the basis assets to explain and predict the stock return with high-dimensional statistical methods. The new model is shown to have a significantly better fitting and prediction power than the Fama-French 5-factor model.
翻訳日:2021-06-15 16:18:42 公開日:2021-06-13
# DP-NormFedAvg:プライバシ保護フェデレーション学習のためのクライアントアップデートの標準化

DP-NormFedAvg: Normalizing Client Updates for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2106.07094v1 )

ライセンス: Link先を確認
Rudrajit Das, Abolfazl Hashemi, Sujay Sanghavi, Inderjit S. Dhillon(参考訳) 本稿では,フェデレートラーニング(FL)におけるクライアントとサーバ間の差分プライベートな量子化通信の促進に焦点をあてる。 この目的に向けて、我々はクライアントに対して、ローカルパラメータの変更に伴う \textit{private quantized} のみの \textit{unit vector} バージョンをサーバに送ることを提案している。 我々はこのアルゴリズムを「texttt{DP-NormFedAvg}」と呼び、滑らかな準凸関数(ディープニューラルネットワークの最適化をモデル化するための非凸関数の重要なクラス)上で、その次数収束速度が \texttt{FedAvg} と同じであることを示す。 また、単位ノルムベクトルに対する新たな微分プライベート量子化機構であるQTDLを導入し、これをtexttt{DP-NormFedAvg} で使用する。 QTDLは、プライバシーを提供するために、ラプラシア風の分布を持つ \textit{discrete} ノイズを用いる。 提案手法では,サンプル毎のクライアント損失に対する成長条件の仮定の下で,プライバシによるラウンド毎の通信コストはモデル次元に対して$\mathcal{o}(1)$である。 最後に,CIFAR-10 と Fashion-MNIST で学習した完全連結ニューラルネットワークの実験により,提案手法の有効性を示す。

In this paper, we focus on facilitating differentially private quantized communication between the clients and server in federated learning (FL). Towards this end, we propose to have the clients send a \textit{private quantized} version of only the \textit{unit vector} along the change in their local parameters to the server, \textit{completely throwing away the magnitude information}. We call this algorithm \texttt{DP-NormFedAvg} and show that it has the same order-wise convergence rate as \texttt{FedAvg} on smooth quasar-convex functions (an important class of non-convex functions for modeling optimization of deep neural networks), thereby establishing that discarding the magnitude information is not detrimental from an optimization point of view. We also introduce QTDL, a new differentially private quantization mechanism for unit-norm vectors, which we use in \texttt{DP-NormFedAvg}. QTDL employs \textit{discrete} noise having a Laplacian-like distribution on a \textit{finite support} to provide privacy. We show that under a growth-condition assumption on the per-sample client losses, the extra per-coordinate communication cost in each round incurred due to privacy by our method is $\mathcal{O}(1)$ with respect to the model dimension, which is an improvement over prior work. Finally, we show the efficacy of our proposed method with experiments on fully-connected neural networks trained on CIFAR-10 and Fashion-MNIST.
翻訳日:2021-06-15 16:15:58 公開日:2021-06-13
# InfoBehavior:階層的グループ化による超長期行動系列の自己教師型表現学習

InfoBehavior: Self-supervised Representation Learning for Ultra-long Behavior Sequence via Hierarchical Grouping ( http://arxiv.org/abs/2106.06905v1 )

ライセンス: Link先を確認
Runshi Liu, Pengda Qin, Yuhong Li, Weigao Wen, Dong Li, Kefeng Deng, Qiang Wu(参考訳) 電子商取引会社は、リスクの高い商品を販売する異常な売り手と向き合わなければならない。 通常、リスクは製品の内容(タイトルやイメージなど)と販売者の振る舞いを共同で考慮することで特定できる。 本研究は,販売者の行動習慣を反映して,行動系列がリスク発見の手がかりとなる行動特徴抽出に焦点を当てている。 従来の特徴抽出技術はドメインの専門家に大きく依存し、新しいタスクにうまく適応する。 本稿では,高コストな特徴選択手法ではなく,超長生動作列から有意義表現を自動的に抽出する自己教師あり手法infobehaviorを提案する。 infobehaviorは長期的な依存関係のモデリングに優れた能力を持つため、双方向トランスフォーマを特徴エンコーダとして利用する。 しかし、Transformerが要求する時間とメモリは、シーケンス長の増加とともに2倍に増加するため、コモディティGPUには難航する。 そこで本研究では,超長生動作シーケンスを長処理可能な高レベル埋め込みシーケンスに集約する階層的グループ化戦略を提案する。 さらに,2種類のプレテキストタスクを導入する。 シーケンス関連プレテキストタスクは、マスクアウトされた粗粒/細粒の動作シーケンスを他の「ディトラクタ」行動シーケンスに対して正しく選択する対照的なトレーニング目標を定義する。 事前学習したInfoBehaviorの動作表現は、他のサイド情報からの機能と直接的に統合して、幅広い下流タスクをサポートすることができることを示す。 実験の結果,InfoBehaviorは製品リスク管理と知的財産保護の性能を大幅に向上させることがわかった。

E-commerce companies have to face abnormal sellers who sell potentially-risky products. Typically, the risk can be identified by jointly considering product content (e.g., title and image) and seller behavior. This work focuses on behavior feature extraction as behavior sequences can provide valuable clues for the risk discovery by reflecting the sellers' operation habits. Traditional feature extraction techniques heavily depend on domain experts and adapt poorly to new tasks. In this paper, we propose a self-supervised method InfoBehavior to automatically extract meaningful representations from ultra-long raw behavior sequences instead of the costly feature selection procedure. InfoBehavior utilizes Bidirectional Transformer as feature encoder due to its excellent capability in modeling long-term dependency. However, it is intractable for commodity GPUs because the time and memory required by Transformer grow quadratically with the increase of sequence length. Thus, we propose a hierarchical grouping strategy to aggregate ultra-long raw behavior sequences to length-processable high-level embedding sequences. Moreover, we introduce two types of pretext tasks. Sequence-related pretext task defines a contrastive-based training objective to correctly select the masked-out coarse-grained/fine- grained behavior sequences against other "distractor" behavior sequences; Domain-related pretext task designs a classification training objective to correctly predict the domain-specific statistical results of anomalous behavior. We show that behavior representations from the pre-trained InfoBehavior can be directly used or integrated with features from other side information to support a wide range of downstream tasks. Experimental results demonstrate that InfoBehavior significantly improves the performance of Product Risk Management and Intellectual Property Protection.
翻訳日:2021-06-15 16:12:45 公開日:2021-06-13
# RCURRENCY: Recurrent Neural Network-based Forecasting System を用いたライブデジタルアセット取引

RCURRENCY: Live Digital Asset Trading Using a Recurrent Neural Network-based Forecasting System ( http://arxiv.org/abs/2106.06972v1 )

ライセンス: Link先を確認
Yapeng Jasper Hu, Ralph van Gurp, Ashay Somai, Hugo Kooijman and Jan S. Rellermeyer (Distributed Systems Group, Delft University of Technology)(参考訳) 一貫性のあるアルファ世代、すなわち市場の優位性を維持することは、資産トレーダーが確実に利益を生み出す能力を支える。 技術的指標とトレーディング戦略は、いつ購入/保有/売却するかを決定するツールとして一般的に使用されるが、これらは既知の値を扱うという事実によって制限されている。 過去数十年にわたり、複数の研究が従来の市場での株式取引における人工知能の可能性を調査し、成功している。 本稿では,rnnベースのトレーディングエンジンであるrcurrencyについて紹介する。このrnnベースのトレーディングエンジンは,実環境において資産ポートフォリオをうまく管理できる高度に揮発性のあるデジタル資産市場におけるデータを予測する。 資産価値予測と従来の取引ツールを組み合わせることで、RCURRENCYは特定の時点におけるデジタル通貨の購入、保持、販売の可否を決定する。 実験の結果、区間$t$のデータを考えると、次の区間$t+1$におけるデータの0.5\%未満の誤差の予測が得られることがわかった。 バックテストによるシステム評価では、RCURRENCYは、実際の歴史的取引データを用いてシミュレーションされた実環境において、安定したデジタル資産のポートフォリオを維持するだけでなく、時間とともにポートフォリオの価値を高めることができる。

Consistent alpha generation, i.e., maintaining an edge over the market, underpins the ability of asset traders to reliably generate profits. Technical indicators and trading strategies are commonly used tools to determine when to buy/hold/sell assets, yet these are limited by the fact that they operate on known values. Over the past decades, multiple studies have investigated the potential of artificial intelligence in stock trading in conventional markets, with some success. In this paper, we present RCURRENCY, an RNN-based trading engine to predict data in the highly volatile digital asset market which is able to successfully manage an asset portfolio in a live environment. By combining asset value prediction and conventional trading tools, RCURRENCY determines whether to buy, hold or sell digital currencies at a given point in time. Experimental results show that, given the data of an interval $t$, a prediction with an error of less than 0.5\% of the data at the subsequent interval $t+1$ can be obtained. Evaluation of the system through backtesting shows that RCURRENCY can be used to successfully not only maintain a stable portfolio of digital assets in a simulated live environment using real historical trading data but even increase the portfolio value over time.
翻訳日:2021-06-15 16:09:03 公開日:2021-06-13
# 自律走行車におけるコンピュータビジョンと人工知能を用いた軌道制御の実験的検討

Experimental Analysis of Trajectory Control Using Computer Vision and Artificial Intelligence for Autonomous Vehicles ( http://arxiv.org/abs/2106.07003v1 )

ライセンス: Link先を確認
Ammar N. Abbas, Muhammad Asad Irshad, and Hossam Hassan Ammar(参考訳) レーン境界の認識は、自律軌道制御に関連するタスクに不可欠である。 本稿では,ハフ変換,ブロブ解析,鳥の眼球図など,いくつかのレーン検出手法について実験的に考察した。 境界からのレーンマークの抽象化に続いて、次のアプローチでは、ステアリングとスピード制御の制御に知覚に基づく制御法則を適用する。 以下の例では、オープンループ応答、pid制御、およびニューラルネットワーク制御則をグラフ統計によって比較分析する。 Raspberry Piに接続されたワイヤレスストリーミングカメラの周囲の認識を得る。 カメラが受信した信号を前処理した後、出力はraspberry piに送信され、入力を処理し、シリアル通信を介してarduinoを介してモーターに制御を伝達する。

Perception of the lane boundaries is crucial for the tasks related to autonomous trajectory control. In this paper, several methodologies for lane detection are discussed with an experimental illustration: Hough transformation, Blob analysis, and Bird's eye view. Following the abstraction of lane marks from the boundary, the next approach is applying a control law based on the perception to control steering and speed control. In the following, a comparative analysis is made between an open-loop response, PID control, and a neural network control law through graphical statistics. To get the perception of the surrounding a wireless streaming camera connected to Raspberry Pi is used. After pre-processing the signal received by the camera the output is sent back to the Raspberry Pi that processes the input and communicates the control to the motors through Arduino via serial communication.
翻訳日:2021-06-15 16:08:40 公開日:2021-06-13
# 新型コロナウイルスX線画像の理解を深める対話型畳み込みニューラルネットワーク(ICNN)

An Interaction-based Convolutional Neural Network (ICNN) Towards Better Understanding of COVID-19 X-ray Images ( http://arxiv.org/abs/2106.06911v1 )

ライセンス: Link先を確認
Shaw-Hwa Lo, Yiqiao Yin(参考訳) 説明可能な人工知能(XAI)の分野は、予測性能を犠牲にすることなく、説明可能な、解釈可能な機械学習(あるいはディープラーニング)手法を構築することを目指している。 畳み込みニューラルネットワーク(CNN)は、特に画像分類において予測に成功している。 しかし、これらの有名なディープラーニングモデルは、以前のデータセットから再利用された多数の事前学習されたフィルタに基づいて、数千万のパラメータを使用する。 本稿では,局所情報の関連性を仮定しない対話型畳み込みニューラルネットワーク(ICNN)を提案する。 代わりに、モデルフリーインフルエンススコア(Iスコア)を用いて、画像から影響情報を直接抽出し、重要な可変モジュールを形成する。 提案手法は,モデルの説明力を犠牲にすることなく,covid-19胸部x線画像の分類を行う実世界のデータセット上で,99.8%の最先端予測性能を実現することを実証する。 提案した設計は、ヒト診断の前に新型コロナウイルス患者を効果的にスクリーニングし、大規模データセットにおける将来のXAI問題に対処するためのベンチマークとなる。

The field of Explainable Artificial Intelligence (XAI) aims to build explainable and interpretable machine learning (or deep learning) methods without sacrificing prediction performance. Convolutional Neural Networks (CNNs) have been successful in making predictions, especially in image classification. However, these famous deep learning models use tens of millions of parameters based on a large number of pre-trained filters which have been repurposed from previous data sets. We propose a novel Interaction-based Convolutional Neural Network (ICNN) that does not make assumptions about the relevance of local information. Instead, we use a model-free Influence Score (I-score) to directly extract the influential information from images to form important variable modules. We demonstrate that the proposed method produces state-of-the-art prediction performance of 99.8% on a real-world data set classifying COVID-19 Chest X-ray images without sacrificing the explanatory power of the model. This proposed design can efficiently screen COVID-19 patients before human diagnosis, and will be the benchmark for addressing future XAI problems in large-scale data sets.
翻訳日:2021-06-15 16:02:27 公開日:2021-06-13
# 可逆ステガノグラフィのためのディープラーニング:原則と洞察

Deep Learning for Reversible Steganography: Principles and Insights ( http://arxiv.org/abs/2106.06924v1 )

ライセンス: Link先を確認
Ching-Chun Chang, Xu Wang, Sisheng Chen, Isao Echizen, Victor Sanchez, and Chang-Tsun Li(参考訳) Deep-learning\texten dash{centric} reversible steganographyは有望な研究パラダイムとして登場した。 可逆性ステガノグラフィにディープラーニングを適用する直接の方法は、パラメータを共同で訓練した1対のエンコーダとデコーダを構築し、ステガノグラフィシステム全体を学習することである。 しかし、このエンドツーエンドのフレームワークは、ブラックボックスのようなこの種のモノリシックなシステムが複雑な可逆的なメカニズムを作成または複製することが困難であるため、可逆性要件に反する。 この問題に対応するため、最近のアプローチでは、ステガノグラフィーシステムを構築し、モジュールを独立して作業する。 特に、ニューラルネットワークはデータ分散を学ぶために分析モジュールにデプロイされ、残りのタスクを処理するために確立されたメカニズムが呼び出される。 本稿では, 解析モジュールが画素強度予測の目的を果たす, 予測エラー変調と呼ばれる可逆的な計算手法を用いて, モジュラー・フレームワークを検証し, ディープ・ニューラルネットワークを展開する。 本研究の主な焦点は、深層学習\textendash{based}コンテキスト対応ピクセル強度予測である。 本稿では,画素の初期化が予測精度に及ぼす影響や2層埋め込みにおける不確実性伝播の影響など,関連する文献で報告された未解決問題に対処する。 さらに、文脈対応画素強度予測と低レベルコンピュータビジョンの関連性を確立し、いくつかの先進ニューラルネットワークの性能を解析する。

Deep-learning\texten dash{centric} reversible steganography has emerged as a promising research paradigm. A direct way of applying deep learning to reversible steganography is to construct a pair of encoder and decoder, whose parameters are trained jointly, thereby learning the steganographic system as a whole. This end-to-end framework, however, falls short of the reversibility requirement because it is difficult for this kind of monolithic system, as a black box, to create or duplicate intricate reversible mechanisms. In response to this issue, a recent approach is to carve up the steganographic system and work on modules independently. In particular, neural networks are deployed in an analytics module to learn the data distribution, while an established mechanism is called upon to handle the remaining tasks. In this paper, we investigate the modular framework and deploy deep neural networks in a reversible steganographic scheme referred to as prediction-error modulation, in which an analytics module serves the purpose of pixel intensity prediction. The primary focus of this study is on deep-learning\texten dash{based} context-aware pixel intensity prediction. We address the unsolved issues reported in related literature, including the impact of pixel initialisation on prediction accuracy and the influence of uncertainty propagation in dual-layer embedding. Furthermore, we establish a connection between context-aware pixel intensity prediction and low-level computer vision and analyse the performance of several advanced neural networks.
翻訳日:2021-06-15 16:02:11 公開日:2021-06-13
# Ego-Centric Action Detectionのためのより強力なベースライン

A Stronger Baseline for Ego-Centric Action Detection ( http://arxiv.org/abs/2106.06942v1 )

ライセンス: Link先を確認
Zhiwu Qing, Ziyuan Huang, Xiang Wang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Mingqian Tang, Changxin Gao, Marcelo H. Ang Jr, Nong Sang,(参考訳) 本技術報告では,CVPR2021ワークショップで開催された2021 EPIC-KITCHENS-100コンペティションで使用したエゴセントリックなビデオアクション検出手法について分析する。 私たちのタスクの目標は、アクションの開始時刻と終了時刻を、長い未トリミングビデオで特定し、アクションカテゴリを予測することです。 我々は、ショートデュレーションアクションに適応できる提案を生成するためにスライディングウィンドウ戦略を採用する。 さらに,同ネットワークでは分類と提案が矛盾していることを示す。 2つのタスクの分離により、高い効率で検出性能が向上する。 これらの戦略を単純に活用することで,1つのモデルを用いたEPIC-KITCHENS-100行動検出実験において,平均mAPの基準法を1.7%上回る16.10\%の性能を達成した。

This technical report analyzes an egocentric video action detection method we used in the 2021 EPIC-KITCHENS-100 competition hosted in CVPR2021 Workshop. The goal of our task is to locate the start time and the end time of the action in the long untrimmed video, and predict action category. We adopt sliding window strategy to generate proposals, which can better adapt to short-duration actions. In addition, we show that classification and proposals are conflict in the same network. The separation of the two tasks boost the detection performance with high efficiency. By simply employing these strategy, we achieved 16.10\% performance on the test set of EPIC-KITCHENS-100 Action Detection challenge using a single model, surpassing the baseline method by 11.7\% in terms of average mAP.
翻訳日:2021-06-15 16:01:48 公開日:2021-06-13
# マンニフォルドから抜け出さない:GANの潜在空間における局所座標の発見

Do Not Escape From the Manifold: Discovering the Local Coordinates on the Latent Space of GANs ( http://arxiv.org/abs/2106.06959v1 )

ライセンス: Link先を確認
Jaewoong Choi, Changyeon Yoon, Junho Lee, Jung Ho Park, Geonho Hwang, Myungjoo Kang(参考訳) 本稿では,GAN(Generative Adversarial Networks)の中間潜伏空間における局所幾何学的軌道方向を求める手法を提案する。 これらの方向は、潜在符号における接空間の順序基底として定義される。 潜在空間の固有スパース性によって動機づけられた基礎は、部分ネットワークの微分の低ランク近似問題を解くことによって発見される。 さらに、局所トラバーサル基底は、潜在空間上の自然な反復トラバーサルをもたらす。 反復曲線トラバーサルは、線形トラバーサルに比べて強い摂動下でも、潜在コードの軌道が潜在空間に近いため、画像上で安定したトラバーサルを示す。 この安定性は、与えられた画像のより多様なバリエーションをもたらす。 提案手法は,様々なGANモデルに適用可能であるが,変動の潜伏因子のより良い非絡み合いを示すことで有名なStyleGAN2のW空間に着目した。 定量的・定性的な分析により、w-空間は、解釈可能な変動のある程度のグローバル一貫性を示す一方で、まだグローバルに歪められていることを示す証拠が得られる。 特に、W-空間と部分空間トラバーサルの大域的ワープページを定量化するためにグラスマン多様体上のいくつかのメトリクスを導入し、トラバーサル方向の安定性をテストする。

In this paper, we propose a method to find local-geometry-aware traversal directions on the intermediate latent space of Generative Adversarial Networks (GANs). These directions are defined as an ordered basis of tangent space at a latent code. Motivated by the intrinsic sparsity of the latent space, the basis is discovered by solving the low-rank approximation problem of the differential of the partial network. Moreover, the local traversal basis leads to a natural iterative traversal on the latent space. Iterative Curve-Traversal shows stable traversal on images, since the trajectory of latent code stays close to the latent space even under the strong perturbations compared to the linear traversal. This stability provides far more diverse variations of the given image. Although the proposed method can be applied to various GAN models, we focus on the W-space of the StyleGAN2, which is renowned for showing the better disentanglement of the latent factors of variation. Our quantitative and qualitative analysis provides evidence showing that the W-space is still globally warped while showing a certain degree of global consistency of interpretable variation. In particular, we introduce some metrics on the Grassmannian manifolds to quantify the global warpage of the W-space and the subspace traversal to test the stability of traversal directions.
翻訳日:2021-06-15 16:01:32 公開日:2021-06-13
# 単一画像超解像のためのフィードバックピラミッド注意ネットワーク

Feedback Pyramid Attention Networks for Single Image Super-Resolution ( http://arxiv.org/abs/2106.06966v1 )

ライセンス: Link先を確認
Huapeng Wu, Jie Gui, Jun Zhang, James T. Kwok, Zhihui Wei(参考訳) 近年,畳み込みニューラルネットワーク (CNN) に基づく画像超解像 (SR) 法は,大幅な性能向上を実現している。 しかし、cnnベースの手法の多くはフィードフォワードアーキテクチャの設計に重点を置いており、通常人間の視覚システムに存在するフィードバック機構の探索を怠っている。 本稿では,特徴の相互依存を完全に活用するためのフィードバックピラミッドアテンションネットワーク(FPAN)を提案する。 具体的には,高レベル情報を用いた低レベル特徴表現を強化するために,新しいフィードバック接続構造を開発した。 本手法では,第1段階の各レイヤの出力を次の状態の対応するレイヤの入力として使用し,以前の低レベルフィルタを再更新する。 さらに,グローバルコンテキスト情報を異なるスケールでモデル化するピラミッド型非局所構造を導入し,ネットワークの識別表現を改善した。 各種データセットに対する大規模な実験結果から, 最先端SR法と比較してFPANの優位性が示された。

Recently, convolutional neural network (CNN) based image super-resolution (SR) methods have achieved significant performance improvement. However, most CNN-based methods mainly focus on feed-forward architecture design and neglect to explore the feedback mechanism, which usually exists in the human visual system. In this paper, we propose feedback pyramid attention networks (FPAN) to fully exploit the mutual dependencies of features. Specifically, a novel feedback connection structure is developed to enhance low-level feature expression with high-level information. In our method, the output of each layer in the first stage is also used as the input of the corresponding layer in the next state to re-update the previous low-level filters. Moreover, we introduce a pyramid non-local structure to model global contextual information in different scales and improve the discriminative representation of the network. Extensive experimental results on various datasets demonstrate the superiority of our FPAN in comparison with the state-of-the-art SR methods.
翻訳日:2021-06-15 16:01:13 公開日:2021-06-13
# nlhd:低光度画像強調のための画素レベル非局所レチネックスモデル

NLHD: A Pixel-Level Non-Local Retinex Model for Low-Light Image Enhancement ( http://arxiv.org/abs/2106.06971v1 )

ライセンス: Link先を確認
Hou Hao, Hou Yingkun, Shi Yuxuan, Wei Benzheng, Xu Jun(参考訳) 多くの既存手法で低照度画像強調にレチネックスモデルを適用している。 低照度画像のより適切な分解は、より良い画像強調を実現するのに役立つ。 本稿では,新しい画素レベル非局所ハール変換に基づく照明・反射分解法(nlhd)を提案する。 各類似画素群上のハール変換の特異な低周波係数を用いて照明成分を再構成し、残りの高周波係数を用いて反射率成分を再構成する。 マッチングされた類似画素群における画素の完全類似性と単純な分離可能なhaar変換は、より適切な画像分解を得るのに役立つため、画像輝度向上手順において画像のシャープ化が困難となる。 指数変換と対数変換はそれぞれ照明成分に実装される。 そして、これら2つの変換の結果に対する最小の融合戦略を用いて、より自然な照明成分の強化を実現する。 ガンマ値が1未満の指数変換により暗黒領域で生成されたモザイクアーティファクトを緩和し、対数変換による明るい領域の過剰な強化による情報損失を低減することができる。 最後に、強化された照明と反射率にretinexモデルを適用して画像強調を行う。 また、局所雑音レベル推定に基づく雑音抑圧法と非局所飽和低減に基づく色偏差補正法を開発した。 これらの2つの方法は、極暗い低照度画像の強化結果に通常示されるノイズや色差を減衰させることができる。 ベンチマークデータセットを用いた実験により,提案手法は従来の手法よりも主観的および客観的な評価において,低照度画像強調結果が得られることがわかった。

Retinex model has been applied to low-light image enhancement in many existing methods. More appropriate decomposition of a low-light image can help achieve better image enhancement. In this paper, we propose a new pixel-level non-local Haar transform based illumination and reflectance decomposition method (NLHD). The unique low-frequency coefficient of Haar transform on each similar pixel group is used to reconstruct the illumination component, and the rest of all high-frequency coefficients are employed to reconstruct the reflectance component. The complete similarity of pixels in a matched similar pixel group and the simple separable Haar transform help to obtain more appropriate image decomposition; thus, the image is hardly sharpened in the image brightness enhancement procedure. The exponential transform and logarithmic transform are respectively implemented on the illumination component. Then a minimum fusion strategy on the results of these two transforms is utilized to achieve more natural illumination component enhancement. It can alleviate the mosaic artifacts produced in the darker regions by the exponential transform with a gamma value less than 1 and reduce information loss caused by excessive enhancement of the brighter regions due to the logarithmic transform. Finally, the Retinex model is applied to the enhanced illumination and reflectance to achieve image enhancement. We also develop a local noise level estimation based noise suppression method and a non-local saturation reduction based color deviation correction method. These two methods can respectively attenuate noise or color deviation usually presented in the enhanced results of the extremely dark low-light images. Experiments on benchmark datasets show that the proposed method can achieve better low-light image enhancement results on subjective and objective evaluations than most existing methods.
翻訳日:2021-06-15 16:00:59 公開日:2021-06-13
# 完璧なフィルタリングは、dmriデータの完璧な位相補正につながるか?

Is Perfect Filtering Enough Leading to Perfect Phase Correction for dMRI data? ( http://arxiv.org/abs/2106.06992v1 )

ライセンス: Link先を確認
Liu Feihong, Yang Junwei, He Xiaowei, Zhou Luping, Feng Jun, Shen Dinggang(参考訳) 信号と雑音の比が複雑で低いため、等級に基づく拡散MRIは、信号の大きさが誤って上昇し、分数異方性(FA)のような一般的な拡散指標に偏りが生じるノイズフロアによって構築される。 従来の位相補正法ではノイズフリーな背景位相を推定するフィルタの改良が検討されている。 本研究は, 位相補正手順に飛び込んだ後, 完全フィルタでもノイズの記号記号を識別できないため, 位相補正には不十分であると主張し, 人工物(\textit{i.e)を生じる。 任意の信号損失)。 この知見により,ノイズフロアの定義を複雑な極座標系に一般化し,ノイズ記号の識別を便利に行うキャリブレーション手法を提案する。 キャリブレーション手順は概念的にはシンプルで実装が容易で、外部技術に頼らず、明確な有効性を維持している。

Being complex-valued and low in signal-to-noise ratios, magnitude-based diffusion MRI is confounded by the noise-floor that falsely elevates signal magnitude and incurs bias to the commonly used diffusion indices, such as fractional anisotropy (FA). To avoid noise-floor, most existing phase correction methods explore improving filters to estimate the noise-free background phase. In this work, after diving into the phase correction procedures, we argue that even a perfect filter is insufficient for phase correction because the correction procedures are incapable of distinguishing sign-symbols of noise, resulting in artifacts (\textit{i.e.}, arbitrary signal loss). With this insight, we generalize the definition of noise-floor to a complex polar coordinate system and propose a calibration procedure that could conveniently distinguish noise sign symbols. The calibration procedure is conceptually simple and easy to implement without relying on any external technique while keeping distinctly effective.
翻訳日:2021-06-15 16:00:35 公開日:2021-06-13
# 軽量画像超解像のためのピラミッド密度注意ネットワーク

Pyramidal Dense Attention Networks for Lightweight Image Super-Resolution ( http://arxiv.org/abs/2106.06996v1 )

ライセンス: Link先を確認
Huapeng Wu, Jie Gui, Jun Zhang, James T. Kwok, Zhihui Wei(参考訳) 近年,深部畳み込み型ニューラルネットワークは画像超解像(SR)において優れた性能を発揮しているが,メモリコストが大きいため,組込みデバイスでは容易には適用できない。 この問題を解決するために,本論文では,軽量画像超解像のためのピラミッド型高密度注意ネットワーク(PDAN)を提案する。 提案手法では,ピラミッド状密集ブロック内の密集層幅を徐々に増やすことで,深い特徴を効率的に抽出することができる。 一方, 群数が線形に増大する適応群畳み込みと, 密畳み込み層はパラメータ爆発を緩和するために導入された。 さらに, 空間次元とチャネル次元の相互次元相互作用を, リッチな識別的特徴表現を提供するための効率的な方法で捉えるための, 新たな共同注意点も提示する。 その結果,本手法は最先端の軽量SR法と比較して優れた性能を示すことがわかった。

Recently, deep convolutional neural network methods have achieved an excellent performance in image superresolution (SR), but they can not be easily applied to embedded devices due to large memory cost. To solve this problem, we propose a pyramidal dense attention network (PDAN) for lightweight image super-resolution in this paper. In our method, the proposed pyramidal dense learning can gradually increase the width of the densely connected layer inside a pyramidal dense block to extract deep features efficiently. Meanwhile, the adaptive group convolution that the number of groups grows linearly with dense convolutional layers is introduced to relieve the parameter explosion. Besides, we also present a novel joint attention to capture cross-dimension interaction between the spatial dimensions and channel dimension in an efficient way for providing rich discriminative feature representations. Extensive experimental results show that our method achieves superior performance in comparison with the state-of-the-art lightweight SR methods.
翻訳日:2021-06-15 16:00:17 公開日:2021-06-13
# 畳み込みニューラルネットワークを用いた衛星画像のためのNIRスペクトルバンドの生成

Generation of the NIR spectral Band for Satellite Images with Convolutional Neural Networks ( http://arxiv.org/abs/2106.07020v1 )

ライセンス: Link先を確認
Svetlana Illarionova, Dmitrii Shadrin, Alexey Trekin, Vladimir Ignatiev, Ivan Oseledets(参考訳) 多スペクトルリモートセンシング画像の近赤外(NIR)スペクトル範囲(780 - 2500nm)は、特に植生評価に関して、土地被覆分類にとって重要な情報を提供する。 NIRの有用性にもかかわらず、一般的なRGBには必ずしも同伴しない。 ディープニューラルネットワークによる画像処理の最近の成果は、画像のカラー化問題のような人工的なスペクトル情報を生成することができる。 本研究では,この手法が視覚的に類似した画像を生成するだけでなく,コンピュータビジョンアルゴリズムの性能を向上しリモートセンシング課題を解決できる人工スペクトル帯域を生成することができるかを検討することを目的とした。 我々は,高解像度衛星画像のRGBチャネルのみを用いて,NIR帯域生成作業におけるGAN(Generative Adversarial Network)アプローチについて検討した。 森林分断課題を解決するためのモデル性能に生成されたチャネルが与える影響を評価する。 その結果,RGB(0.947,0.914F1スコア)のみを用いたベースラインモデルと比較して,生成NIRを用いた場合のモデル精度が向上した。 本研究は,ラベル付きデータの必要量を削減する応用課題において,余剰帯域の生成とその実装の利点を示す。

The near-infrared (NIR) spectral range (from 780 to 2500 nm) of the multispectral remote sensing imagery provides vital information for the landcover classification, especially concerning the vegetation assessment. Despite the usefulness of NIR, common RGB is not always accompanied by it. Modern achievements in image processing via deep neural networks allow generating artificial spectral information, such as for the image colorization problem. In this research, we aim to investigate whether this approach can produce not only visually similar images but also an artificial spectral band that can improve the performance of computer vision algorithms for solving remote sensing tasks. We study the generative adversarial network (GAN) approach in the task of the NIR band generation using just RGB channels of high-resolution satellite imagery. We evaluate the impact of a generated channel on the model performance for solving the forest segmentation task. Our results show an increase in model accuracy when using generated NIR comparing to the baseline model that uses only RGB (0.947 and 0.914 F1-score accordingly). Conducted study shows the advantages of generating the extra band and its implementation in applied challenges reducing the required amount of labeled data.
翻訳日:2021-06-15 16:00:02 公開日:2021-06-13
# リボーンメカニズム:畳み込みニューラルネットワークにおける負相情報フローの再考

Reborn Mechanism: Rethinking the Negative Phase Information Flow in Convolutional Neural Network ( http://arxiv.org/abs/2106.07026v1 )

ライセンス: Link先を確認
Zhicheng Cai, Kaizhu Huang, Chenglei Peng(参考訳) 本稿では,畳み込みニューラルネットワーク(cnn)のための新しい非線形活性化機構を提案する。 負の位相値を切り離すReLUとは対照的に、リボーン機構は死んだ神経細胞の再生と再構築の能力を楽しむ。 他の改良されたReLU関数と比較して、リボーン機構は負の位相情報を利用するためのより適切な方法を導入する。 大規模な実験により、この活性化機構によりモデル表現能力が大幅に向上し、元のReLU関数の利点を維持しつつ入力データ情報の利用性が向上することが検証された。 さらに、リボーン機構は従来のCNNでは達成できない非対称性を実現し、チャネル補償手法として機能し、競争力や性能も向上するが、従来の手法よりも学習パラメータが少ない。 rebornメカニズムは様々なベンチマークデータセットでテストされ、いずれも以前の非線形アクティベーション関数よりも優れたパフォーマンスを得た。

This paper proposes a novel nonlinear activation mechanism typically for convolutional neural network (CNN), named as reborn mechanism. In sharp contrast to ReLU which cuts off the negative phase value, the reborn mechanism enjoys the capacity to reborn and reconstruct dead neurons. Compared to other improved ReLU functions, reborn mechanism introduces a more proper way to utilize the negative phase information. Extensive experiments validate that this activation mechanism is able to enhance the model representation ability more significantly and make the better use of the input data information while maintaining the advantages of the original ReLU function. Moreover, reborn mechanism enables a non-symmetry that is hardly achieved by traditional CNNs and can act as a channel compensation method, offering competitive or even better performance but with fewer learned parameters than traditional methods. Reborn mechanism was tested on various benchmark datasets, all obtaining better performance than previous nonlinear activation functions.
翻訳日:2021-06-15 15:59:43 公開日:2021-06-13
# NASAMODIS機器の教師なし機械学習モデルにおけるスワップギャップの低減効果

Reducing Effects of Swath Gaps on Unsupervised Machine Learning Models for NASA MODIS Instruments ( http://arxiv.org/abs/2106.07113v1 )

ライセンス: Link先を確認
Sarah Chen, Esther Cao, Anirudh Koul, Siddha Ganju, Satyarth Praveen, Meher Anand Kasam(参考訳) これらの経路の性質のため、NASATerraとNASA Aqua衛星は、データのない領域であるスワストギャップを含む画像を捉えている。 スワストギャップは完全に関心領域(ROI)と重なり、マシンラーニング(ML)モデルでは画像全体が使用不能になることが多い。 この問題はROIがほとんど起こらない場合(例えば)さらに悪化する。 ハリケーン)で、発生時に部分的にはスワストギャップと重なり合う。 注釈付きデータを監視として使用することで、モデルはフォーカス領域とスワストギャップの区別を学ぶことができる。 しかし、アノテーションは高価であり、既存のデータの大部分は未注釈である。 そこで我々は,CNNがROIに集中できるように,スワストギャップの存在を著しく除去する拡張手法を提案し,トレーニングにスワストギャップを持つデータを使用することに成功した。 我々は、UC Merced Land Use Datasetで実験を行い、空のポリゴン(最大20%)を通してスワストギャップを追加し、その後、スワストギャップを埋めるために拡張技術を適用します。 swathギャップを満たしたデータでトレーニングしたモデルと、元のswathギャップのないデータでトレーニングされたモデルを比較し、高いパフォーマンスに注目する。 さらに,swathギャップに注意を払わずにトレーニングしたネットワークの有効性を可視化するアクティベーションマップを用いて定性解析を行う。 また,本研究の結果を人体ベースラインで評価し,ある場合において,人間の評価者でさえ,元の衛星画像とスワストギャップを埋めた画像とを区別しないほど,スワストギャップの埋め合わせが現実的であることを示す。 この手法はラベルのないデータを対象としているため、様々な空間データ領域の大規模無注釈データセットに対して広く一般化され、影響を受けやすい。

Due to the nature of their pathways, NASA Terra and NASA Aqua satellites capture imagery containing swath gaps, which are areas of no data. Swath gaps can overlap the region of interest (ROI) completely, often rendering the entire imagery unusable by Machine Learning (ML) models. This problem is further exacerbated when the ROI rarely occurs (e.g. a hurricane) and, on occurrence, is partially overlapped with a swath gap. With annotated data as supervision, a model can learn to differentiate between the area of focus and the swath gap. However, annotation is expensive and currently the vast majority of existing data is unannotated. Hence, we propose an augmentation technique that considerably removes the existence of swath gaps in order to allow CNNs to focus on the ROI, and thus successfully use data with swath gaps for training. We experiment on the UC Merced Land Use Dataset, where we add swath gaps through empty polygons (up to 20 percent areas) and then apply augmentation techniques to fill the swath gaps. We compare the model trained with our augmentation techniques on the swath gap-filled data with the model trained on the original swath gap-less data and note highly augmented performance. Additionally, we perform a qualitative analysis using activation maps that visualizes the effectiveness of our trained network in not paying attention to the swath gaps. We also evaluate our results with a human baseline and show that, in certain cases, the filled swath gaps look so realistic that even a human evaluator did not distinguish between original satellite images and swath gap-filled images. Since this method is aimed at unlabeled data, it is widely generalizable and impactful for large scale unannotated datasets from various space data domains.
翻訳日:2021-06-15 15:59:29 公開日:2021-06-13
# 会話音声認識のためのクロスセンスニューラルネットワークモデル

Cross-sentence Neural Language Models for Conversational Speech Recognition ( http://arxiv.org/abs/2106.06922v1 )

ライセンス: Link先を確認
Shih-Hsuan Chiu, Tien-Hong Lo and Berlin Chen(参考訳) 自動音声認識(ASR)における重要な研究の方向性は、より洗練された言語モデル(LM)を用いたASRシステムの出力仮説を再現する効果的な手法の開発である。 ASR N-best仮説の現在の主流の考え方は、リカレントニューラルネットワーク(RNN)ベースのLMまたはその変種を採用することであり、従来のn-gram LMよりも様々なASRタスクで性能が優れている。 長い会話のような実際のシナリオでは、連続した文の連続は、話題のコヒーレンス、語彙のエントレインメント、隣接ペアといった会話レベルの情報を豊富に含んでいるが、未検討のままである。 そこで我々はまず, ASR N-best を予測問題として定式化し, 先行文の単語使用法を考慮し, 今後の文の ASR N-best 仮説を再帰的に再帰する, 効果的な横断型ニューラルネットワーク LM アプローチを提案する。 さらに,asr性能を向上させるために,クロスセンテンス履歴のタスク固有のグローバルトピック情報を抽出することも検討した。 AMI対話型ベンチマークコーパスで実施した広範囲な実験により,提案手法の有効性と妥当性が示唆された。

An important research direction in automatic speech recognition (ASR) has centered around the development of effective methods to rerank the output hypotheses of an ASR system with more sophisticated language models (LMs) for further gains. A current mainstream school of thoughts for ASR N-best hypothesis reranking is to employ a recurrent neural network (RNN)-based LM or its variants, with performance superiority over the conventional n-gram LMs across a range of ASR tasks. In real scenarios such as a long conversation, a sequence of consecutive sentences may jointly contain ample cues of conversation-level information such as topical coherence, lexical entrainment and adjacency pairs, which however remains to be underexplored. In view of this, we first formulate ASR N-best reranking as a prediction problem, putting forward an effective cross-sentence neural LM approach that reranks the ASR N-best hypotheses of an upcoming sentence by taking into consideration the word usage in its precedent sentences. Furthermore, we also explore to extract task-specific global topical information of the cross-sentence history in an unsupervised manner for better ASR performance. Extensive experiments conducted on the AMI conversational benchmark corpus indicate the effectiveness and feasibility of our methods in comparison to several state-of-the-art reranking methods.
翻訳日:2021-06-15 15:54:34 公開日:2021-06-13
# Neural Bellman-Ford Networks: リンク予測のための汎用グラフニューラルネットワークフレームワーク

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction ( http://arxiv.org/abs/2106.06935v1 )

ライセンス: Link先を確認
Zhaocheng Zhu, Zuobai Zhang, Louis-Pascal Xhonneux, Jian Tang(参考訳) リンク予測はグラフの基本的なタスクである。 本稿では,従来のパスベース手法に着想を得て,リンク予測のためのパスに基づく汎用的で柔軟な表現学習フレームワークを提案する。 具体的には、一対のノードの表現をすべての経路表現の一般化和として定義し、各経路表現を経路の辺表現の一般化積として定義する。 最短経路問題を解くためのベルマン・フォードアルゴリズムに動機づけられ、提案する経路定式化は一般化されたベルマン・フォードアルゴリズムによって効率的に解くことができることを示した。 経路定式化の能力をさらに向上するため,一般化されたベルマン・フォードアルゴリズムにおいて,学習演算子による経路定式化を解決する汎用グラフニューラルネットワークフレームワークであるNeural Bellman-Ford Network (NBFNet)を提案する。 NBFNetは、境界条件、乗算演算子、和演算子に対応する3つのニューラル成分、INDICATOR、MESSAGE、AGGREGATE関数で一般化されたベルマンフォードアルゴリズムをパラメータ化する。 NBFNetは非常に一般的で、多くの伝統的なパスベースの手法をカバーしており、同質グラフと多値グラフ(例えば知識グラフ)の両方に適用することができる。 均質グラフと知識グラフの両方の実験により、提案されたNBFNetは、トランスダクティブとインダクティブの両方で既存の手法よりも優れた性能を示し、新しい最先端の結果を達成している。

Link prediction is a very fundamental task on graphs. Inspired by traditional path-based methods, in this paper we propose a general and flexible representation learning framework based on paths for link prediction. Specifically, we define the representation of a pair of nodes as the generalized sum of all path representations, with each path representation as the generalized product of the edge representations in the path. Motivated by the Bellman-Ford algorithm for solving the shortest path problem, we show that the proposed path formulation can be efficiently solved by the generalized Bellman-Ford algorithm. To further improve the capacity of the path formulation, we propose the Neural Bellman-Ford Network (NBFNet), a general graph neural network framework that solves the path formulation with learned operators in the generalized Bellman-Ford algorithm. The NBFNet parameterizes the generalized Bellman-Ford algorithm with 3 neural components, namely INDICATOR, MESSAGE and AGGREGATE functions, which corresponds to the boundary condition, multiplication operator, and summation operator respectively. The NBFNet is very general, covers many traditional path-based methods, and can be applied to both homogeneous graphs and multi-relational graphs (e.g., knowledge graphs) in both transductive and inductive settings. Experiments on both homogeneous graphs and knowledge graphs show that the proposed NBFNet outperforms existing methods by a large margin in both transductive and inductive settings, achieving new state-of-the-art results.
翻訳日:2021-06-15 15:48:43 公開日:2021-06-13
# ANNのフリーランチ:効率よく正確なスパイクニューラルネットワークの校正を目指して

A Free Lunch From ANN: Towards Efficient, Accurate Spiking Neural Networks Calibration ( http://arxiv.org/abs/2106.06984v1 )

ライセンス: Link先を確認
Yuhang Li, Shikuang Deng, Xin Dong, Ruihao Gong, Shi Gu(参考訳) スパイキングニューラルネットワーク(SNN)は、次世代のニューラルネットワークのひとつとして認識されている。 従来、SNNは、パラメータをそのまま保ちながら、ReLUアクティベーションをスパイクアクティベーションに置き換えるだけで、事前訓練されたANNから変換できる。 おそらく、この研究で、ANNからSNNへの変換中にパラメータを校正する適切な方法が、大幅な改善をもたらすことを示しています。 SNNキャリブレーション(SNN Calibration)は,事前学習したニューラルネットワーク(ANN)の知識を活用することで,安価だが極めて効果的な手法である。 理論的には変換誤差とその層間伝播の解析から始め,誤差層を層間補正するキャリブレーションアルゴリズムを提案する。 キャリブレーションはほんの数回のトレーニングデータと数分で完了する。 さらに,我々のキャリブレーションアルゴリズムは,MobileNetやRegNetを含む大規模画像Netデータセット上で,最先端アーキテクチャのSNNを生成することができる。 広範な実験により,アルゴリズムの有効性と効率が実証された。 例えば、imagenetでmobilenetをベースラインに変換する場合、当社の高度なパイプラインでは、トップ1の精度が最大69%向上します。 コードはhttps://github.com/y hhhli/snn_calibratio nでリリースされる。

Spiking Neural Network (SNN) has been recognized as one of the next generation of neural networks. Conventionally, SNN can be converted from a pre-trained ANN by only replacing the ReLU activation to spike activation while keeping the parameters intact. Perhaps surprisingly, in this work we show that a proper way to calibrate the parameters during the conversion of ANN to SNN can bring significant improvements. We introduce SNN Calibration, a cheap but extraordinarily effective method by leveraging the knowledge within a pre-trained Artificial Neural Network (ANN). Starting by analyzing the conversion error and its propagation through layers theoretically, we propose the calibration algorithm that can correct the error layer-by-layer. The calibration only takes a handful number of training data and several minutes to finish. Moreover, our calibration algorithm can produce SNN with state-of-the-art architecture on the large-scale ImageNet dataset, including MobileNet and RegNet. Extensive experiments demonstrate the effectiveness and efficiency of our algorithm. For example, our advanced pipeline can increase up to 69% top-1 accuracy when converting MobileNet on ImageNet compared to baselines. Codes are released at https://github.com/y hhhli/SNN_Calibratio n.
翻訳日:2021-06-15 15:48:16 公開日:2021-06-13
# 変形器:順序非依存分布推定トランス

The DEformer: An Order-Agnostic Distribution Estimating Transformer ( http://arxiv.org/abs/2106.06989v1 )

ライセンス: Link先を確認
Michael A. Alcorn, Anh Nguyen(参考訳) 順序に依存しない自己回帰分布推定(OADE)、すなわち任意の順序で特徴が生じる自己回帰分布推定は、生成機械学習において難しい問題である。 OADEの以前の作業では、各特徴を入力ベクトル内の特定の固定位置に割り当てることで、特徴識別(ピクセル位置など)を符号化していた。 結果として、これらの入力のために構築されたアーキテクチャは、入力重量またはモデル重量を戦略的にマスクして、データセットの完全な関節分布を順序に依存しない方法で推測するために必要な様々な条件分布を学習する必要がある。 本稿では,各特徴の同一性が入力にその値と共に含まれる特徴同一性を符号化する別の手法を提案する。 この特徴の同一性エンコーディング戦略により、シーケンシャルなデータを変更せずにoadeタスクに適用できるように設計されたニューラルアーキテクチャが実現される。 概念実証として、この入力に基づいて訓練されたトランスフォーマ("deformer"、すなわち分布推定トランスフォーマ)が、完全に順序非依存でありながら、固定順序自己回帰分布推定アルゴリズムの平均負のログ類似性に近づくことにより、バイナリ化mnistを効果的にモデル化できることを示す。

Order-agnostic autoregressive distribution estimation (OADE), i.e., autoregressive distribution estimation where the features can occur in an arbitrary order, is a challenging problem in generative machine learning. Prior work on OADE has encoded feature identity (e.g., pixel location) by assigning each feature to a distinct fixed position in an input vector. As a result, architectures built for these inputs must strategically mask either the input or model weights to learn the various conditional distributions necessary for inferring the full joint distribution of the dataset in an order-agnostic way. In this paper, we propose an alternative approach for encoding feature identities, where each feature's identity is included alongside its value in the input. This feature identity encoding strategy allows neural architectures designed for sequential data to be applied to the OADE task without modification. As a proof of concept, we show that a Transformer trained on this input (which we refer to as "the DEformer", i.e., the distribution estimating Transformer) can effectively model binarized-MNIST, approaching the average negative log-likelihood of fixed order autoregressive distribution estimating algorithms while still being entirely order-agnostic.
翻訳日:2021-06-15 15:47:57 公開日:2021-06-13
# ベイズニューラルネットワークのポストホック損失校正

Post-hoc loss-calibration for Bayesian neural networks ( http://arxiv.org/abs/2106.06997v1 )

ライセンス: Link先を確認
Meet P. Vadera, Soumya Ghosh, Kenney Ng, Benjamin M. Marlin(参考訳) ベイズ決定理論は、扱いやすい後方分布が利用可能であるときに不確実性の下で最適に振る舞うためのエレガントな枠組みを提供する。 しかし、現代のベイズモデルでは、通常、粗いサロゲートに近似する難解な後部を含む。 この困難さは、高ユーティリティな決定を優先する後部近似を学習することを目的とした損失校正技術を生み出した。 本稿では,ベイズニューラルネットワークに着目して,近似的後続予測分布の補正手法を開発し,高ユーティリティな決定を推奨する。 これまでの研究とは対照的に、このアプローチは近似推論アルゴリズムの選択に無関係であり、償却を通じて効率的なテスト時間決定を可能にし、経験的に高い品質の決定を生み出す。 タスクやデータセットの多様性にまたがる制御実験により,本手法の有効性を実証する。

Bayesian decision theory provides an elegant framework for acting optimally under uncertainty when tractable posterior distributions are available. Modern Bayesian models, however, typically involve intractable posteriors that are approximated with, potentially crude, surrogates. This difficulty has engendered loss-calibrated techniques that aim to learn posterior approximations that favor high-utility decisions. In this paper, focusing on Bayesian neural networks, we develop methods for correcting approximate posterior predictive distributions encouraging them to prefer high-utility decisions. In contrast to previous work, our approach is agnostic to the choice of the approximate inference algorithm, allows for efficient test time decision making through amortization, and empirically produces higher quality decisions. We demonstrate the effectiveness of our approach through controlled experiments spanning a diversity of tasks and datasets.
翻訳日:2021-06-15 15:47:34 公開日:2021-06-13
# 複合コンクリートの圧縮強度予測と最適化のための拡張多モデル回帰法

An Extended Multi-Model Regression Approach for Compressive Strength Prediction and Optimization of a Concrete Mixture ( http://arxiv.org/abs/2106.07034v1 )

ライセンス: Link先を確認
Seyed Arman Taghizadeh Motlagh (1), Mehran Naghizadehrokni (2) ((1) Azad University, Central Tehran Branch (IAUCTB), (2) RWTH Aachen University, Lehrstuhl fur Geotechnik im Bauwesen und Institut fur Geomechanik und Untergrundtechnik)(参考訳) 実験試験に伴う大幅な遅れとコストのため, コンクリート圧縮強度のモデルベース評価は強度予測と混合最適化の両方のため, 高価値である。 この点に関して、利用可能な実験データセットを用いて、優れた予測モデルを達成するために、最先端の回帰モデルを用いた最近の研究がいくつかある。 それにもかかわらず、使用済みのモデルはそれぞれ、入力データの特定の性質にうまく適応できるが、ハイパーパラメータの選択に対する感度と学習戦略のため、個々のモデルの精度は限られている。 本研究では,複数の回帰法を組み合わせた重み付けによる予測モデルの精度向上に向けて,さらなる一歩を踏み出した。 さらに,得られたマルチ回帰モデルに基づいて,GAに基づく多目的混合最適化を提案する。 特に, 人工ニューラルネットワークに基づく回帰法, ランダム森林回帰法, 多項式回帰法を共同で実装し, コンクリートの圧縮強度を予測するデータ支援フレームワークを提案する。 個々の回帰モデルの結果は線形重み付け戦略によって結合され、2次凸最適化問題としてトレーニングデータセットに最適化される。 定式化問題の凸性のため、大域的最適重み付け戦略は標準数値解法によって得られることに留意すべきである。 提案するgaベースの最適化により、利用可能なデータセットを用いてコスト-csトレードオフのparetoフロントが得られた。 さらに,提案手法の精度は,数値シミュレーションにより,文献において利用可能な単一モデル回帰法よりも優れていることを示す。

Due to the significant delay and cost associated with experimental tests, a model based evaluation of concrete compressive strength is of high value, both for the purpose of strength prediction as well as the mixture optimization. In this regard, several recent studies have employed state-of-the-art regression models in order to achieve a good prediction model, employing available experimental data sets. Nevertheless, while each of the employed models can better adapt to a specific nature of the input data, the accuracy of each individual model is limited due to the sensitivity to the choice of hyperparameters and the learning strategy. In the present work, we take a further step towards improving the accuracy of the prediction model via the weighted combination of multiple regression methods. Moreover, a (GA)-based multi-objective mixture optimization is proposed, building on the obtained multi-regression model. In particular, we present a data aided framework where the regression methods based on artificial neural network, random forest regression, and polynomial regression are jointly implemented to predict the compressive strength of concrete. The outcome of the individual regression models are then combined via a linear weighting strategy and optimized over the training data set as a quadratic convex optimization problem. It is worth mentioning that due to the convexity of the formulated problem, the globally optimum weighting strategy is obtained via standard numerical solvers. Employing the proposed GA-based optimization, a Pareto front of the cost-CS trade-of has been obtained employing the available data set. Moreover, the resulting accuracy of the proposed multi-model prediction method is shown to outperform the available single-model regression methods in the literature by a valuable margin, via numerical simulations.
翻訳日:2021-06-15 15:47:22 公開日:2021-06-13
# リンクレコメンデーションのための露出バイアスの補正

Correcting Exposure Bias for Link Recommendation ( http://arxiv.org/abs/2106.07041v1 )

ライセンス: Link先を確認
Shantanu Gupta, Hao Wang, Zachary C. Lipton, Yuyang Wang(参考訳) リンク予測手法は、例えば、学術論文やソーシャルネットワークの友人に引用を提案するために、リコメンデーターシステムによく適用される。 しかし、ユーザーが特定の関連項目に対して体系的に過度に露出されると、露出バイアスが発生することがある。 例えば、引用ネットワークでは、著者は自身の分野の論文に遭遇しやすくなり、したがって優先的に引用する。 このバイアスは、ナイーブに訓練されたリンク予測器を通じて伝播し、バイアス評価と高い一般化誤差(真の関連性によって評価される)の両方をもたらす。 さらに、このバイアスはフィードバックループによって悪化する可能性がある。 我々は,このバイアスやフィードバックループを緩和するために,既知の露光確率を利用する推定器を提案する。 次に,データから露光確率を学ぶための損失関数を提供する。 最後に,実世界の引用ネットワークに基づく半合成データを用いた実験により,提案手法が関連する引用を確実に識別することを示す。 さらに,本手法は,推奨論文の研究分野においてより多様性をもたらす。 コードはhttps://github.com/s hantanu95/exposure-b ias-link-recで入手できる。

Link prediction methods are frequently applied in recommender systems, e.g., to suggest citations for academic papers or friends in social networks. However, exposure bias can arise when users are systematically underexposed to certain relevant items. For example, in citation networks, authors might be more likely to encounter papers from their own field and thus cite them preferentially. This bias can propagate through naively trained link predictors, leading to both biased evaluation and high generalization error (as assessed by true relevance). Moreover, this bias can be exacerbated by feedback loops. We propose estimators that leverage known exposure probabilities to mitigate this bias and consequent feedback loops. Next, we provide a loss function for learning the exposure probabilities from data. Finally, experiments on semi-synthetic data based on real-world citation networks, show that our methods reliably identify (truly) relevant citations. Additionally, our methods lead to greater diversity in the recommended papers' fields of study. The code is available at https://github.com/s hantanu95/exposure-b ias-link-rec.
翻訳日:2021-06-15 15:46:59 公開日:2021-06-13
# FairCanary: 迅速な継続的説明可能なフェアネス

FairCanary: Rapid Continuous Explainable Fairness ( http://arxiv.org/abs/2106.07057v1 )

ライセンス: Link先を確認
Avijit Ghosh, Aalok Shanbhag(参考訳) 機械学習(ML)モデルは、非常に最小限の規制で、保釈金や貸与などの高い利害決定を行うために、今日の社会のあらゆる面で使用されている。 このようなシステムは社会バイアスの伝播と増幅の両方に極めて脆弱であり、研究の関心が高まっている。 従来の公平度測定の大きな問題の1つは、分布の全体形に注意を払わず、主に正あるいは負の結果に焦点を当ててバイアスの完全な範囲を隠蔽する、狭い定義である。 さらに、これらのメトリクスは、しばしば互いに矛盾し、問題の文脈的および法的状況によって厳しく抑制され、継続的なアウトプットに対するサポート不足、クラスラベルの要件など技術的な制約があり、説明できない。 本稿では,上記の欠点に対処するQuantile Demographic Driftを提案する。 この計量はグループ内の特権を測定するためにも用いられる。 既存の帰属法によって容易に解釈でき、また相似比較の原理によって自然に個々人の公平性にも拡張できる。 この新たな公正度スコアを,ラベルを必要とせずに実運用MLモデルのバイアスを検出するように設計された,新たなシステムの基盤とする。 このシステムをFairCanaryと呼んでいるのは、ライブデプロイされたモデルのバイアスを検出し、炭鉱の先駆的なカナリアのような責任ある機能セットに警告を絞り込む能力があるからです。

Machine Learning (ML) models are being used in all facets of today's society to make high stake decisions like bail granting or credit lending, with very minimal regulations. Such systems are extremely vulnerable to both propagating and amplifying social biases, and have therefore been subject to growing research interest. One of the main issues with conventional fairness metrics is their narrow definitions which hide the complete extent of the bias by focusing primarily on positive and/or negative outcomes, whilst not paying attention to the overall distributional shape. Moreover, these metrics are often contradictory to each other, are severely restrained by the contextual and legal landscape of the problem, have technical constraints like poor support for continuous outputs, the requirement of class labels, and are not explainable. In this paper, we present Quantile Demographic Drift, which addresses the shortcomings mentioned above. This metric can also be used to measure intra-group privilege. It is easily interpretable via existing attribution techniques, and also extends naturally to individual fairness via the principle of like-for-like comparison. We make this new fairness score the basis of a new system that is designed to detect bias in production ML models without the need for labels. We call the system FairCanary because of its capability to detect bias in a live deployed model and narrow down the alert to the responsible set of features, like the proverbial canary in a coal mine.
翻訳日:2021-06-15 15:46:44 公開日:2021-06-13
# 強化学習問題におけるエキスパート知識の統合のための新しいソフトコンピューティング手法

A new soft computing method for integration of expert's knowledge in reinforcement learn-ing problems ( http://arxiv.org/abs/2106.07088v1 )

ライセンス: Link先を確認
Mohsen Annabestani, Ali Abedi, Mohammad Reza Nematollahi, and Mohammad Bagher Naghibi Sis-tani(参考訳) 本稿では,強化学習問題における人間の知識を活用するファジィ行動選択法を提案する。 最も現在のアクション状態の値の推定に基づいて、提案されたファジィ非線形マッピングは、アクションの各メンバが次のステップで選択される確率にサインする。 ユーザの調整可能なパラメータを導入し、学習プロセスを通じてエージェントの欲望行動を決定するアクション選択ポリシを制御する。 このパラメータは、softmaxアクション選択ポリシーにおける温度パラメータの役割に似ているが、このパラメータはファジィルールベースで修正することで人間の知識を学習エージェントに反映するため、そのチューニングプロセスはより知識指向になる。 シミュレーションの結果,強化学習にファジィ論理を組み込むことにより,学習アルゴリズムの収束率が向上し,優れた性能が得られることがわかった。

This paper proposes a novel fuzzy action selection method to leverage human knowledge in reinforcement learning problems. Based on the estimates of the most current action-state values, the proposed fuzzy nonlinear mapping as-signs each member of the action set to its probability of being chosen in the next step. A user tunable parameter is introduced to control the action selection policy, which determines the agent's greedy behavior throughout the learning process. This parameter resembles the role of the temperature parameter in the softmax action selection policy, but its tuning process can be more knowledge-oriented since this parameter reflects the human knowledge into the learning agent by making modifications in the fuzzy rule base. Simulation results indicate that including fuzzy logic within the reinforcement learning in the proposed manner improves the learning algorithm's convergence rate, and provides superior performance.
翻訳日:2021-06-15 15:43:18 公開日:2021-06-13
# 新型コロナウイルスの診断支援のための物理インフォームド肺超音波画像符号化ニューラルネットワークへのアプローチ

An Approach Towards Physics Informed Lung Ultrasound Image Scoring Neural Network for Diagnostic Assistance in COVID-19 ( http://arxiv.org/abs/2106.06980v1 )

ライセンス: Link先を確認
Mahesh Raveendranatha Panicker, Yale Tung Chen, Gayathri M, Madhavanunni A N, Kiran Vishnu Narayan, C Kesavadas and A P Vinod(参考訳) 超音波は、新型コロナウイルス(COVID-19)の流行に伴う肺の定期的かつ継続的なモニタリングのための必然的な診断ツールになりつつある。 本研究では,肺超音波(lus)の重要な特徴である胸膜下領域を自動的に強調する音響伝搬に基づく特徴抽出法を提案する。 その後、音響物理に基づく特徴マップを用いて形成されたマルチチャネル入力を融合して、LUSNetと呼ばれるニューラルネットワークを訓練し、肺感染症の重症度の異なる5つのクラスに分類し、COVID-19の進行を追跡する。 提案手法が取得の種類に依存しないことを保証するため,U-netアーキテクチャからなるLUSNetを音響特徴マップを用いて教師なしで訓練し,エンコーダ・デコーダアーキテクチャが関心領域の特徴を学習していることを保証する。 U-net出力とU-netエンコーダ出力の新たな組み合わせは、肺感染症の重症度を分類するために用いられる。 新型コロナウイルスの患者10名に対する全回復期間に対するLUS画像のアプローチに関する詳細な分析では、平均5倍のクロスバリデーション精度、感度、特異性はそれぞれ5000コマで97%、93%、98%となっている。 この分析は、新型コロナウイルスのパンデミックの場合のように入力データセットが限定的かつ多様である場合、グレースケールの画像とともに音響伝搬に基づく特徴を組み合わせ、ニューラルネットワークの性能を大幅に改善し、ラベル付けとトリアージのプロセスを支援することも示している。

Ultrasound is fast becoming an inevitable diagnostic tool for regular and continuous monitoring of the lung with the recent outbreak of COVID-19. In this work, a novel approach is presented to extract acoustic propagation-based features to automatically highlight the region below pleura, which is an important landmark in lung ultrasound (LUS). Subsequently, a multichannel input formed by using the acoustic physics-based feature maps is fused to train a neural network, referred to as LUSNet, to classify the LUS images into five classes of varying severity of lung infection to track the progression of COVID-19. In order to ensure that the proposed approach is agnostic to the type of acquisition, the LUSNet, which consists of a U-net architecture is trained in an unsupervised manner with the acoustic feature maps to ensure that the encoder-decoder architecture is learning features in the pleural region of interest. A novel combination of the U-net output and the U-net encoder output is employed for the classification of severity of infection in the lung. A detailed analysis of the proposed approach on LUS images over the infection to full recovery period of ten confirmed COVID-19 subjects shows an average five-fold cross-validation accuracy, sensitivity, and specificity of 97%, 93%, and 98% respectively over 5000 frames of COVID-19 videos. The analysis also shows that, when the input dataset is limited and diverse as in the case of COVID-19 pandemic, an aided effort of combining acoustic propagation-based features along with the gray scale images, as proposed in this work, improves the performance of the neural network significantly and also aids the labelling and triaging process.
翻訳日:2021-06-15 15:42:01 公開日:2021-06-13
# 画像ランドマークの学習:肺超音波映像における教師なしキーポイント検出

Learning the Imaging Landmarks: Unsupervised Key point Detection in Lung Ultrasound Videos ( http://arxiv.org/abs/2106.06987v1 )

ライセンス: Link先を確認
Arpan Tripathi, Mahesh Raveendranatha Panicker, Abhilash R Hareendranathan, Yale Tung Chen, Jacob L Jaremko, Kiran Vishnu Narayan and Kesavadas C(参考訳) 肺超音波 (lus) は, 非侵襲性, 非イオン化性, 可搬性, 消毒性などの利点を活かし, 肺感染症の連続的および定期的モニタリングのための画像診断法である。 LUSを用いたトリアージのための臨床医が評価する主要なランドマークは、胸膜、A線、B線である。 これらのランドマークの自動検出には多くの取り組みがあった。 しかし、いくつかの事前定義されたランドマーク制限は、新型コロナウイルスのような新しい病態の場合、実際のイメージングバイオマーカーを明かさない可能性がある。 むしろ、多くのニューラルネットワークアルゴリズムが利用できるため、重要なランドマークの識別はデータによって行われるべきである。 この研究は、新型コロナウイルス(COVID-19)感染のさまざまな段階でのLUSビデオで重要なLUSのランドマークを教師なしで検出する試みとしては、初めてのものだ。 我々は、トランスポーターニューラルネットワークの比較的新しいアプローチを適用し、ビデオの周期的な動きと比較的安定した外観に基づいて、胸膜、A、B線を自動的にマークし追跡した。 unsupervised pleura detectionの初期結果は、1081のlusビデオフレームを用いて91.8%の精度を示した。

Lung ultrasound (LUS) is an increasingly popular diagnostic imaging modality for continuous and periodic monitoring of lung infection, given its advantages of non-invasiveness, non-ionizing nature, portability and easy disinfection. The major landmarks assessed by clinicians for triaging using LUS are pleura, A and B lines. There have been many efforts for the automatic detection of these landmarks. However, restricting to a few pre-defined landmarks may not reveal the actual imaging biomarkers particularly in case of new pathologies like COVID-19. Rather, the identification of key landmarks should be driven by data given the availability of a plethora of neural network algorithms. This work is a first of its kind attempt towards unsupervised detection of the key LUS landmarks in LUS videos of COVID-19 subjects during various stages of infection. We adapted the relatively newer approach of transporter neural networks to automatically mark and track pleura, A and B lines based on their periodic motion and relatively stable appearance in the videos. Initial results on unsupervised pleura detection show an accuracy of 91.8% employing 1081 LUS video frames.
翻訳日:2021-06-15 15:41:31 公開日:2021-06-13
# inadvert:注意の強化とフィッシング防止のためのインタラクティブで適応的な偽装プラットフォーム

INADVERT: An Interactive and Adaptive Counterdeception Platform for Attention Enhancement and Phishing Prevention ( http://arxiv.org/abs/2106.06907v1 )

ライセンス: Link先を確認
Linan Huang and Quanyan Zhu(参考訳) 人間の生来の脆弱性や獲得した脆弱性を悪用する欺く攻撃は、情報やインフラのセキュリティに深刻な脅威をもたらしている。 本研究は,ユーザの不注意や対視覚障害を防止するために,リアルタイムにインタラクティブな視覚支援を生成するシステム的ソリューションであるinadvertを提案する。 INADVERTプラットフォームは、視線追跡結果と適切なデータ圧縮に基づいて、視線位置と時間によってキャプチャされたユーザのさまざまな注意状況に視覚補助を適応させる。 システムレベルの指標を抽出し,ユーザの平均的注意度を評価し,ユーザのマインドウォーダー行動の大きさと頻度を特徴付ける。 これらの指標は強化学習によるユーザの注意の適応的な強化に寄与する。 注意強化機構における最適なハイパーパラメータを決定するために,不注意プラットフォームの設計を効率的に更新し,ユーザのフィッシング認識の精度を最大化するベイズ最適化に基づくアルゴリズムを開発した。

Deceptive attacks exploiting the innate and the acquired vulnerabilities of human users have posed severe threats to information and infrastructure security. This work proposes INADVERT, a systematic solution that generates interactive visual aids in real-time to prevent users from inadvertence and counter visual-deception attacks. Based on the eye-tracking outcomes and proper data compression, the INADVERT platform automatically adapts the visual aids to the user's varying attention status captured by the gaze location and duration. We extract system-level metrics to evaluate the user's average attention level and characterize the magnitude and frequency of the user's mind-wandering behaviors. These metrics contribute to an adaptive enhancement of the user's attention through reinforcement learning. To determine the optimal hyper-parameters in the attention enhancement mechanism, we develop an algorithm based on Bayesian optimization to efficiently update the design of the INADVERT platform and maximize the accuracy of the users' phishing recognition.
翻訳日:2021-06-15 15:40:33 公開日:2021-06-13
# wase: カクテルパーティー環境における話者抽出のための学習時間

WASE: Learning When to Attend for Speaker Extraction in Cocktail Party Environments ( http://arxiv.org/abs/2106.07016v1 )

ライセンス: Link先を確認
Yunzhe Hao, Jiaming Xu, Peng Zhang, Bo Xu(参考訳) 話者抽出問題において,音声入力,唇運動,表情,空間情報を含む対象話者の追跡と抽出に,対象話者からの付加情報が寄与することがわかった。 しかし、聴覚場面の分析や心理学において強調されている音の発声を気にする人はいない。 そこで我々は,発声手がかりを明示的にモデル化し,話者抽出タスクの有効性を検証した。 さらに、オンセット/オフセットのキューまで拡張し、パフォーマンスを改善しました。 タスクの観点から、我々のオンセット/オフセットモデルでは、話者抽出と話者依存音声活動検出の相補的な組み合わせである複合タスクを完成させる。 また、voiceprintとonset/offset cuesを組み合わせた。 音声プリントはターゲットの音声特性をモデル化し、オンセット/オフセットは音声の開始/終了情報をモデル化する。 聴覚シーン分析の観点からは、2つの知覚的手がかりの組み合わせは聴覚対象の完全性を促進することができる。 実験結果は、ほぼ半分のパラメータを使用して、最先端のパフォーマンスに近い。 この研究が音声処理と心理学のコミュニティを刺激し、それら間のコミュニケーションに貢献することを願っている。 私たちのコードはhttps://github.com/a ispeech-lab/wase/で利用可能です。

In the speaker extraction problem, it is found that additional information from the target speaker contributes to the tracking and extraction of the target speaker, which includes voiceprint, lip movement, facial expression, and spatial information. However, no one cares for the cue of sound onset, which has been emphasized in the auditory scene analysis and psychology. Inspired by it, we explicitly modeled the onset cue and verified the effectiveness in the speaker extraction task. We further extended to the onset/offset cues and got performance improvement. From the perspective of tasks, our onset/offset-based model completes the composite task, a complementary combination of speaker extraction and speaker-dependent voice activity detection. We also combined voiceprint with onset/offset cues. Voiceprint models voice characteristics of the target while onset/offset models the start/end information of the speech. From the perspective of auditory scene analysis, the combination of two perception cues can promote the integrity of the auditory object. The experiment results are also close to state-of-the-art performance, using nearly half of the parameters. We hope that this work will inspire communities of speech processing and psychology, and contribute to communication between them. Our code will be available in https://github.com/a ispeech-lab/wase/.
翻訳日:2021-06-15 15:40:17 公開日:2021-06-13
# カオスシステム学習のためのマルコフニューラル演算子

Markov Neural Operators for Learning Chaotic Systems ( http://arxiv.org/abs/2106.06898v1 )

ライセンス: Link先を確認
Zongyi Li, Nikola Kovachki, Kamyar Azizzadenesheli, Burigede Liu, Kaushik Bhattacharya, Andrew Stuart, Anima Anandkumar(参考訳) カオスシステムは不安定であるため予測が難しいことで悪名高い。 小さな誤差は各時間ステップのシミュレーションに蓄積され、結果として全く異なる軌道となる。 しかし、多くの著名なカオス系の軌道は、低次元部分空間 (attractor) に存在する。 システムがマルコフ系であれば、引き付け子は無限小時間ステップの進化を写像するマルコフ作用素によって一意に決定される。 これにより、正確な軌道を予測できない場合でもマルコフ作用素を学習することでカオスシステムの挙動を予測することができる。 近年,PDEの分解能不変解演算子を学習するための新しいフレームワークが提案されている。 本研究では,局所的なワンステップ進化情報のみを用いてマルコフ神経演算子(MNO)を訓練する。 次に、学習した演算子を合成し、グローバルアトラクタおよび不変測度を得る。 そのようなマルコフ神経作用素は離散半群を形成し、崩壊も爆発もしない経験的に観察する。 実験により、ニューラル作用素は、倉本-シヴァシンスキー方程式やナビエ-ストークス方程式のようなカオス系の従来の手法よりも正確で安定であることが示された。

Chaotic systems are notoriously challenging to predict because of their instability. Small errors accumulate in the simulation of each time step, resulting in completely different trajectories. However, the trajectories of many prominent chaotic systems live in a low-dimensional subspace (attractor). If the system is Markovian, the attractor is uniquely determined by the Markov operator that maps the evolution of infinitesimal time steps. This makes it possible to predict the behavior of the chaotic system by learning the Markov operator even if we cannot predict the exact trajectory. Recently, a new framework for learning resolution-invariant solution operators for PDEs was proposed, known as neural operators. In this work, we train a Markov neural operator (MNO) with only the local one-step evolution information. We then compose the learned operator to obtain the global attractor and invariant measure. Such a Markov neural operator forms a discrete semigroup and we empirically observe that does not collapse or blow up. Experiments show neural operators are more accurate and stable compared to previous methods on chaotic systems such as the Kuramoto-Sivashinsky and Navier-Stokes equations.
翻訳日:2021-06-15 15:37:21 公開日:2021-06-13
# ナビゲーションのためのマルチモーダルシーン対応ユーザ意図推定

Multi-modal Scene-compliant User Intention Estimation for Navigation ( http://arxiv.org/abs/2106.06920v1 )

ライセンス: Link先を確認
Kavindie Katuwandeniya, Stefan H. Kiss, Lei Shi, and Jaime Valls Miro(参考訳) 本研究では,移動車両の運用時にユーザ意図分布を生成するマルチモーダルフレームワークを提案する。 モデルは、過去の観測された軌道から学習し、視覚環境由来のトラバーサビリティ情報を利用して、将来の軌道のセットを生成し、移動エージェントの知覚行動共有制御戦略に直接組み込むか、車両の慎重な操作を監督するための安全層として使用する。 提案手法は, 長期記憶セルを有する条件付き生成逆向ネットワークを基盤とし, 過去の軌道上で条件づけられた軌道分布をキャプチャし, 畳み込みニューラルネットワークを用いた視覚セグメンテーションによるトラバーサビリティ確率と融合する。 提案したデータ駆動型フレームワークは、予測された軌跡(基礎的真実を逆転する)の誤りを文学(例)で同等の戦略から大幅に減少させる。 エージェントの過去の履歴以外の情報を説明できないソーシャルGAN(Social-GAN)。 実験は、オープンソースの都市運転シミュレータcarlaにカスタム車椅子モデルが組み込まれたデータセットで行われ、提案されたフレームワークが、小さな注釈なしのデータセットで使用できることを証明した。

A multi-modal framework to generated user intention distributions when operating a mobile vehicle is proposed in this work. The model learns from past observed trajectories and leverages traversability information derived from the visual surroundings to produce a set of future trajectories, suitable to be directly embedded into a perception-action shared control strategy on a mobile agent, or as a safety layer to supervise the prudent operation of the vehicle. We base our solution on a conditional Generative Adversarial Network with Long-Short Term Memory cells to capture trajectory distributions conditioned on past trajectories, further fused with traversability probabilities derived from visual segmentation with a Convolutional Neural Network. The proposed data-driven framework results in a significant reduction in error of the predicted trajectories (versus the ground truth) from comparable strategies in the literature (e.g. Social-GAN) that fail to account for information other than the agent's past history. Experiments were conducted on a dataset collected with a custom wheelchair model built onto the open-source urban driving simulator CARLA, proving also that the proposed framework can be used with a small, un-annotated dataset.
翻訳日:2021-06-15 15:37:07 公開日:2021-06-13
# sounddet: 生波形からの多声音のイベント検出と定位

SoundDet: Polyphonic Sound Event Detection and Localization from Raw Waveform ( http://arxiv.org/abs/2106.06969v1 )

ライセンス: Link先を確認
Yuhang He, Niki Trigoni, Andrew Markham(参考訳) 本稿では,多音質移動音のイベント検出と局所化のための,エンドツーエンドのトレーニング可能な軽量フレームワークであるsounddetを提案する。 従来の手法では、生の波形を時間周波数表現に前処理することでこの問題にアプローチしている。 事前の手法はセグメント的にも検出され、不完全かつ部分的な検出に繋がる。 SoundDetは、新しいアプローチを採用し、生のマルチチャネル波形を直接消費し、時空間音イベントを検出対象の完全な ` `sound-object' として扱う。 具体的には、sounddetはバックボーンニューラルネットワークと、時間検出と空間局在のための2つの並列ヘッドで構成される。 生波形のサンプリング率が大きいことから、バックボーンネットワークはまず位相感受性と周波数選択性のあるフィルタバンクの集合を学習し、標準の1D/2D畳み込みよりも計算的かつパラメトリックに効率的である。 次に、時間的変化が大きいイベントを予測する際の課題に対処するため、高密度な音声イベント提案マップを構築する。 密集した提案マップは、時間重なり合いマップと、時間的検出精度と運動整合性の観点から、提案の事象に対する信頼度を測定する動き平滑性マップである。 この2つのマップは、SoundDetを時空間的に統一された方法でトレーニングすることを保証します。 公開DCASEデータセットにおける実験結果から, セグメントベースと新たに提案したイベントベース評価システムにおけるSoundDetの利点が示された。

We present a new framework SoundDet, which is an end-to-end trainable and light-weight framework, for polyphonic moving sound event detection and localization. Prior methods typically approach this problem by preprocessing raw waveform into time-frequency representations, which is more amenable to process with well-established image processing pipelines. Prior methods also detect in segment-wise manner, leading to incomplete and partial detections. SoundDet takes a novel approach and directly consumes the raw, multichannel waveform and treats the spatio-temporal sound event as a complete ``sound-object" to be detected. Specifically, SoundDet consists of a backbone neural network and two parallel heads for temporal detection and spatial localization, respectively. Given the large sampling rate of raw waveform, the backbone network first learns a set of phase-sensitive and frequency-selective bank of filters to explicitly retain direction-of-arrival information, whilst being highly computationally and parametrically efficient than standard 1D/2D convolution. A dense sound event proposal map is then constructed to handle the challenges of predicting events with large varying temporal duration. Accompanying the dense proposal map are a temporal overlapness map and a motion smoothness map that measure a proposal's confidence to be an event from temporal detection accuracy and movement consistency perspective. Involving the two maps guarantees SoundDet to be trained in a spatio-temporally unified manner. Experimental results on the public DCASE dataset show the advantage of SoundDet on both segment-based and our newly proposed event-based evaluation system.
翻訳日:2021-06-15 15:36:48 公開日:2021-06-13
# 連合学習におけるプライバシとロバストネスの相互作用の理解

Understanding the Interplay between Privacy and Robustness in Federated Learning ( http://arxiv.org/abs/2106.07033v1 )

ライセンス: Link先を確認
Yaowei Han, Yang Cao, Masatoshi Yoshikawa(参考訳) フェデレートラーニング(FL)は、データサンプルを交換することなく、複数のクライアント間でアルゴリズムをトレーニングする、プライバシー保護機械学習の有望なパラダイムとして浮上している。 最近の研究は、FLにおけるいくつかのプライバシーと堅牢性の弱点を強調し、これらの懸念に、ローカルディファレンシャルプライバシ(LDP)と、従来のMLでよく研究された方法を用いて対処している。 しかし, LDPがFLの対向的堅牢性にどのような影響を及ぼすかは明らかになっていない。 このギャップを埋めるために、この研究はFLの対角的堅牢性に対するLDPの影響を包括的に理解しようと試みる。 プライベートでロバストなflシステムの原則設計への第一歩となるため、相互作用の明確化は重要である。 局所的微分プライバシーは, 理論的解析と実証的検証を用いて, 対向的ロバスト性に正と負の両方の影響があることを確認した。

Federated Learning (FL) is emerging as a promising paradigm of privacy-preserving machine learning, which trains an algorithm across multiple clients without exchanging their data samples. Recent works highlighted several privacy and robustness weaknesses in FL and addressed these concerns using local differential privacy (LDP) and some well-studied methods used in conventional ML, separately. However, it is still not clear how LDP affects adversarial robustness in FL. To fill this gap, this work attempts to develop a comprehensive understanding of the effects of LDP on adversarial robustness in FL. Clarifying the interplay is significant since this is the first step towards a principled design of private and robust FL systems. We certify that local differential privacy has both positive and negative effects on adversarial robustness using theoretical analysis and empirical verification.
翻訳日:2021-06-15 15:36:21 公開日:2021-06-13
# RadArnomaly:データ操作攻撃からレーダーシステムを保護する

RadArnomaly: Protecting Radar Systems from Data Manipulation Attacks ( http://arxiv.org/abs/2106.07074v1 )

ライセンス: Link先を確認
Shai Cohen and Efrat Levy and Avi Shaked and Tair Cohen and Yuval Elovici and Asaf Shabtai(参考訳) レーダーシステムは、主に航空機、ミサイル、衛星、水上艇の追跡に使用される。 多くの場合、レーダーシステムによって検出された物体に関する情報は、ミサイルシステムやオペレーターが使用するグラフィカルユーザインタフェースなどの周辺消費システムに送られ、使用される。 これらのシステムはデータストリームを処理し、受信したデータに基づいてリアルタイムで運用上の決定を行う。 これを踏まえ、レーダーシステムが提供する情報の信頼性と可用性が重要になっている。 サイバーセキュリティの分野は継続的に進化しているが、レーダシステムにおける異常検出に焦点を当てた以前の研究はない。 本稿では,レーダーシステムのデータストリームにおける異常を検出するための深層学習に基づく手法を提案する。 そこで本研究では,数値的特徴とカテゴリ的特徴の埋め込み表現との相関を教師なしで学習する新しい手法を提案する。 提案手法は,データストリーム内のクリティカルフィールドの悪質な操作を検知する手法であり,メッセージドロップの試みを検出するためのタイミング-間隔異常検出機構によって補完される。 提案手法の評価には実レーダシステムデータを用いる。 本研究では,様々なデータストリーム操作攻撃(平均検出率は88%,偽アラームは1.59%)とメッセージ投下攻撃(平均検出率は92%,偽アラームは2.2%)に対して高い検出精度を示す。

Radar systems are mainly used for tracking aircraft, missiles, satellites, and watercraft. In many cases, information regarding the objects detected by the radar system is sent to, and used by, a peripheral consuming system, such as a missile system or a graphical user interface used by an operator. Those systems process the data stream and make real-time, operational decisions based on the data received. Given this, the reliability and availability of information provided by radar systems has grown in importance. Although the field of cyber security has been continuously evolving, no prior research has focused on anomaly detection in radar systems. In this paper, we present a deep learning-based method for detecting anomalies in radar system data streams. We propose a novel technique which learns the correlation between numerical features and an embedding representation of categorical features in an unsupervised manner. The proposed technique, which allows the detection of malicious manipulation of critical fields in the data stream, is complemented by a timing-interval anomaly detection mechanism proposed for the detection of message dropping attempts. Real radar system data is used to evaluate the proposed method. Our experiments demonstrate the method's high detection accuracy on a variety of data stream manipulation attacks (average detection rate of 88% with 1.59% false alarms) and message dropping attacks (average detection rate of 92% with 2.2% false alarms).
翻訳日:2021-06-15 15:36:05 公開日:2021-06-13
# 雑音と外乱の有無を考慮した特徴マッチングマップの最適検出

Optimal detection of the feature matching map in presence of noise and outliers ( http://arxiv.org/abs/2106.07044v1 )

ライセンス: Link先を確認
Tigran Galstyan, Arshak Minasyan, Arnak Dalalyan(参考訳) 我々は, 2 組の 2 組の$d$ 次元ベクトル間のマッチング写像を雑音観測から求める問題を考える。 一致する写像は射影であり、第二集合のベクトルが十分に分離されている場合に限り一貫して推定できる。 主な結果は、高次元の設定において、未知の注入の検出領域は、イリアー・イリアー距離が少なくとも$d^{1/4}$で、イリアー・アウトリー距離が少なくとも$d^{1/2}$となるベクトルの集合によって特徴づけられることを示している。 これらの値は、一致した点間の距離の対数の和を最小化する推定マッチングを用いて達成される。 また、これらのレートの最適性を確立する下位境界も証明する。 最後に, 合成データと実世界データの両方に関する数値実験の結果を報告し, 本研究で研究した推定器の特性についてさらなる知見を与える。

We consider the problem of finding the matching map between two sets of $d$ dimensional vectors from noisy observations, where the second set contains outliers. The matching map is then an injection, which can be consistently estimated only if the vectors of the second set are well separated. The main result shows that, in the high-dimensional setting, a detection region of unknown injection can be characterized by the sets of vectors for which the inlier-inlier distance is of order at least $d^{1/4}$ and the inlier-outlier distance is of order at least $d^{1/2}$. These rates are achieved using the estimated matching minimizing the sum of logarithms of distances between matched pairs of points. We also prove lower bounds establishing optimality of these rates. Finally, we report results of numerical experiments on both synthetic and real world data that illustrate our theoretical results and provide further insight into the properties of the estimators studied in this work.
翻訳日:2021-06-15 15:31:27 公開日:2021-06-13
# 平均回帰型MDPのサンプル複雑度について

Towards Tight Bounds on the Sample Complexity of Average-reward MDPs ( http://arxiv.org/abs/2106.07046v1 )

ライセンス: Link先を確認
Yujia Jin, Aaron Sidford(参考訳) 生成モデルにアクセスできる無限水平平均回帰マルコフ決定過程 (MDP) において,$\epsilon$-optimal Policy を求める場合のサンプルの複雑さに対して,新しい上限と下位境界を証明した。 すべてのポリシーの確率遷移行列の混合時間が最大$t_\mathrm{mix}$である場合、状態-アクションペアあたり$\widetilde{o}(t_\mathrm{mix} \epsilon^{-3})$ (oblivious) サンプルを使用して問題を解決するアルゴリズムを提供する。 さらに,不明瞭なサンプルを計算するアルゴリズムでは,最悪の場合,$t_\mathrm{mix}$ に対する線形依存が必要であることを示す下限を与える。 我々は,無限水平平均回帰MDPと割引MDPの接続を確立することで,さらなる有用性を実現する。

We prove new upper and lower bounds for sample complexity of finding an $\epsilon$-optimal policy of an infinite-horizon average-reward Markov decision process (MDP) given access to a generative model. When the mixing time of the probability transition matrix of all policies is at most $t_\mathrm{mix}$, we provide an algorithm that solves the problem using $\widetilde{O}(t_\mathrm{mix} \epsilon^{-3})$ (oblivious) samples per state-action pair. Further, we provide a lower bound showing that a linear dependence on $t_\mathrm{mix}$ is necessary in the worst case for any algorithm which computes oblivious samples. We obtain our results by establishing connections between infinite-horizon average-reward MDPs and discounted MDPs of possible further utility.
翻訳日:2021-06-15 15:31:11 公開日:2021-06-13
# RGB核融合とTV-TV最小化による高スペクトル像の高分解能化

Enhanced Hyperspectral Image Super-Resolution via RGB Fusion and TV-TV Minimization ( http://arxiv.org/abs/2106.07066v1 )

ライセンス: Link先を確認
Marija Vella, Bowen Zhang, Wei Chen, Jo\~ao F. C. Mota(参考訳) ハイパースペクトル(HS)画像には、リモートセンシング、監視、天文学などの応用において重要な、詳細なスペクトル情報が含まれている。 しかし、HSカメラのハードウェア制限のため、撮像された画像は空間解像度が低い。 それらを改善するために、低分解能ハイパースペクトル画像は、融合ベースHS画像超解像と呼ばれる技術により、従来の高分解能RGB画像と融合する。 現在、このタスクにおける最高のパフォーマンスは、ディープラーニング(DL)メソッドによって達成されている。 しかし、ネットワークによる学習パラメータは各テスト画像に適用されるため、このような方法では、回収された画像において入力測定が満たされる保証はできない。 逆に、モデルベースのアルゴリズムはそのような測定一貫性を保証するのが一般的である。 これらの観測から着想を得て,学習とモデルに基づく手法を統合する枠組みを提案する。 実験の結果, モデルベース, dlベースいずれにおいても, 空間分解能, スペクトル分解能に優れる画像が得られた。

Hyperspectral (HS) images contain detailed spectral information that has proven crucial in applications like remote sensing, surveillance, and astronomy. However, because of hardware limitations of HS cameras, the captured images have low spatial resolution. To improve them, the low-resolution hyperspectral images are fused with conventional high-resolution RGB images via a technique known as fusion based HS image super-resolution. Currently, the best performance in this task is achieved by deep learning (DL) methods. Such methods, however, cannot guarantee that the input measurements are satisfied in the recovered image, since the learned parameters by the network are applied to every test image. Conversely, model-based algorithms can typically guarantee such measurement consistency. Inspired by these observations, we propose a framework that integrates learning and model based methods. Experimental results show that our method produces images of superior spatial and spectral resolution compared to the current leading methods, whether model- or DL-based.
翻訳日:2021-06-15 15:30:51 公開日:2021-06-13
# モデル不確実性下におけるガウスプロセスに基づく安全臨界制御のポイントワイズ実現可能性

Pointwise Feasibility of Gaussian Process-based Safety-Critical Control under Model Uncertainty ( http://arxiv.org/abs/2106.07108v1 )

ライセンス: Link先を確認
Fernando Casta\~neda, Jason J. Choi, Bike Zhang, Claire J. Tomlin, Koushil Sreenath(参考訳) 制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。 これらは一般に、安全クリティカルな制御入力の問題を解決するmin-norm quadratic Program(CBF-CLF-QP)に組み込まれる制約を構築するために使用される。 しかし、これらの制約はシステムのモデルに依存するため、このモデルが不正確な場合、安全性と安定性の保証は容易に失われる。 本稿では,CBF と CLF を用いた安全クリティカルコントローラのモデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。 モデルの不確実性は状態入力と制御入力の両方に影響される。 このようなモデルの不確かさがcbfとclfのダイナミクスに与える影響について確率的境界を導出する。 GP-CBF-CLF-SOCPと呼ばれるミニノーム凸最適化プログラムに組み込むことのできる安全性と安定性の制約を構築する。 本論文の主な理論的結果として,提案した最適化問題のポイントワイズ実現に必要かつ十分な条件を提示する。 これらの条件は、安全性を保証するために実際のシステムから収集されたデータの分散に対する最小限の要件が何であるかを理解するための出発点となり得ると信じている。 最後に,自動車システムの適応型クルーズ制御器の数値シミュレーションにより,提案手法を検証する。

Control Barrier Functions (CBFs) and Control Lyapunov Functions (CLFs) are popular tools for enforcing safety and stability of a controlled system, respectively. They are commonly utilized to build constraints that can be incorporated in a min-norm quadratic program (CBF-CLF-QP) which solves for a safety-critical control input. However, since these constraints rely on a model of the system, when this model is inaccurate the guarantees of safety and stability can be easily lost. In this paper, we present a Gaussian Process (GP)-based approach to tackle the problem of model uncertainty in safety-critical controllers that use CBFs and CLFs. The considered model uncertainty is affected by both state and control input. We derive probabilistic bounds on the effects that such model uncertainty has on the dynamics of the CBF and CLF. Then, we use these bounds to build safety and stability chance constraints that can be incorporated in a min-norm convex optimization program, called GP-CBF-CLF-SOCP. As the main theoretical result of the paper, we present necessary and sufficient conditions for pointwise feasibility of the proposed optimization problem. We believe that these conditions could serve as a starting point towards understanding what are the minimal requirements on the distribution of data collected from the real system in order to guarantee safety. Finally, we validate the proposed framework with numerical simulations of an adaptive cruise controller for an automotive system.
翻訳日:2021-06-15 15:30:34 公開日:2021-06-13
# 対流がまばらなブラインドデコンボリューション

Convex Sparse Blind Deconvolution ( http://arxiv.org/abs/2106.07053v1 )

ライセンス: Link先を確認
Qingyun Sun and David Donoho(参考訳) ブラインドデコンボリューション問題では、未知のフィルタと未知の信号の畳み込みを観測し、フィルタと信号の再構成を試みる。 この問題は一般には不可能に思える。 経験上、これらの分野のいくつかはヒューリスティックな手法で成功している ― 経済的に非常に重要な分野でさえ ― 無線通信や石油探査において。 今日のファッショナブルなヒューリスティックな定式化は、非凸最適化の問題を引き起こす。 ブラインドデコンボリューションが、反復可能かつ自然に発生する状況下で解くことができるという事実は、理論的なパズルを生じさせる。 報告された成功と理論の限られた理解の間にギャップを埋めるため、信号の間隔を仮定して、粗近似を真のフィルタに変換し、真のフィルタの高精度な回復を可能にする凸最適化問題を示す。 提案手法は,逆フィルタ出力のL1最小化に基づく。 信号のばらつきを仮定した最小化器の性能を著しく保証し, 提案手法が真の逆フィルタを正確に回復し, シフトと再スケーリングを行うことを示す。 最初の近似の精度が低ければ低いほど、正確な回復を可能にするためにスパーシティに頼らざるを得なくなる。 私たちの知る限り、この種のトレードオフはこれが初めてです。 このトレードオフが次元から独立していることは驚きだと思います。 また,高い確率で$n\geq o(k \log(k) )$ の下で高精度な再構成を行うための有限$n$保証を開発した。 さらに, 真の逆フィルタが無限に長い場合の安定近似を示し, 確率的あるいは逆的な雑音によって観測が汚染される場合への保証を拡張する。

In the blind deconvolution problem, we observe the convolution of an unknown filter and unknown signal and attempt to reconstruct the filter and signal. The problem seems impossible in general, since there are seemingly many more unknowns than knowns . Nevertheless, this problem arises in many application fields; and empirically, some of these fields have had success using heuristic methods -- even economically very important ones, in wireless communications and oil exploration. Today's fashionable heuristic formulations pose non-convex optimization problems which are then attacked heuristically as well. The fact that blind deconvolution can be solved under some repeatable and naturally-occurring circumstances poses a theoretical puzzle. To bridge the gulf between reported successes and theory's limited understanding, we exhibit a convex optimization problem that -- assuming signal sparsity -- can convert a crude approximation to the true filter into a high-accuracy recovery of the true filter. Our proposed formulation is based on L1 minimization of inverse filter outputs. We give sharp guarantees on performance of the minimizer assuming sparsity of signal, showing that our proposal precisely recovers the true inverse filter, up to shift and rescaling. There is a sparsity/initial accuracy tradeoff: the less accurate the initial approximation, the greater we rely on sparsity to enable exact recovery. To our knowledge this is the first reported tradeoff of this kind. We consider it surprising that this tradeoff is independent of dimension. We also develop finite-$N$ guarantees, for highly accurate reconstruction under $N\geq O(k \log(k) )$ with high probability. We further show stable approximation when the true inverse filter is infinitely long and extend our guarantees to the case where the observations are contaminated by stochastic or adversarial noise.
翻訳日:2021-06-15 15:28:33 公開日:2021-06-13