このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210317となっている論文です。

PDF登録状況(公開日: 20210317)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 分類型アーキテクチャを用いたCNNに基づく二重JPEG画像の一次量子化行列推定 [全文訳有]

Boosting CNN-based primary quantization matrix estimation of double JPEG images via a classification-like architecture ( http://arxiv.org/abs/2012.00468v2 )

ライセンス: CC BY 4.0
Benedetta Tondi, Andrea Costranzo, Dequ Huang and Bin Li(参考訳) JPEG圧縮画像の一次量子化行列を推定することは、画像の過去の歴史に関する重要な情報を推測できるため、画像鑑定において重要な問題である。 さらに、異なる画像領域にまたがる一次量子化行列の不一致は、二重jpeg改ざん画像におけるスプライシングのローカライズに使用できる。 従来のモデルベースのアプローチは、第1と第2の圧縮品質とJPEGグリッドのアライメントに関する特定の仮定の下で機能する。 近年,多種多様な条件下で動作可能な深層学習型推定器が提案されている。 この方法は、標準回帰問題として推定を解くために訓練された畳み込みニューラルネットワーク(CNN)に基づいている。 本稿では,量子化係数の整数性を利用して,シミル分類アーキテクチャを用いて推定を行う深層学習手法を提案する。 CNNは、推定の精度と平均平方誤差(MSE)の両方を考慮した損失関数で訓練される。 その結果, 統計的解析, 特に深層学習回帰に基づく最先端手法と比較して, 提案手法の優れた性能が確認された。 さらに,第1圧縮格子と第2圧縮格子のアライメントと前圧縮と第2圧縮のJPEG品質の組み合わせに関して,一般の操作条件下で作業する手法の能力は,これらの情報を事前に知らない実用的応用において非常に重要である。

Estimating the primary quantization matrix of double JPEG compressed images is a problem of relevant importance in image forensics since it allows to infer important information about the past history of an image. In addition, the inconsistencies of the primary quantization matrices across different image regions can be used to localize splicing in double JPEG tampered images. Traditional model-based approaches work under specific assumptions on the relationship between the first and second compression qualities and on the alignment of the JPEG grid. Recently, a deep learning-based estimator capable to work under a wide variety of conditions has been proposed, that outperforms tailored existing methods in most of the cases. The method is based on a Convolutional Neural Network (CNN) that is trained to solve the estimation as a standard regression problem. By exploiting the integer nature of the quantization coefficients, in this paper, we propose a deep learning technique that performs the estimation by resorting to a simil-classification architecture. The CNN is trained with a loss function that takes into account both the accuracy and the Mean Square Error (MSE) of the estimation. Results confirm the superior performance of the proposed technique, compared to the state-of-the art methods based on statistical analysis and, in particular, deep learning regression. Moreover, the capability of the method to work under general operative conditions, regarding the alignment of the second compression grid with the one of first compression and the combinations of the JPEG qualities of former and second compression, is very relevant in practical applications, where these information are unknown a priori.
翻訳日:2021-05-31 07:02:54 公開日:2021-03-17
# 判別器勾配流による深部生成モデルの精錬

Refining Deep Generative Models via Discriminator Gradient Flow ( http://arxiv.org/abs/2012.00780v3 )

ライセンス: Link先を確認
Abdul Fatir Ansari, Ming Liang Ang, Harold Soh(参考訳) 深層生成モデリングは近年目覚ましい進歩を遂げており、実世界のデータによく似たシミュレーションサンプル(画像など)を見るのが一般的になっている。 しかし、生成品質は一般に任意のモデルに一貫性がなく、サンプル間で劇的に変化する。 本稿では,実データ分布と生成データ分布間のエントロピー規則化f-分節の勾配流によるサンプル生成を改善する新しい手法であるDGflowを紹介する。 勾配流は非線型フォッカー・プランク方程式(英語版)の形をとり、等価なマッケイン・ブラソフ過程からのサンプリングによって容易にシミュレートできる。 下地試料を精製することにより, 従来の方法 (DRS & MH-GAN) による無駄な試料拒絶を回避することができる。 特定のGAN変種に焦点を当てた既存の研究と比較すると、ベクトル値の批評家を持つGANや、VAEや正規化フローのようなより深い生成モデルにも改善アプローチを適用することができる。 複数の合成、画像、テキストデータセットの実証結果から、DGflowは様々な生成モデルで生成されたサンプルの品質を大幅に向上させ、最先端の識別器最適輸送(DOT)法と識別器駆動遅延サンプリング(DDLS)法を上回ります。

Deep generative modeling has seen impressive advances in recent years, to the point where it is now commonplace to see simulated samples (e.g., images) that closely resemble real-world data. However, generation quality is generally inconsistent for any given model and can vary dramatically between samples. We introduce Discriminator Gradient flow (DGflow), a new technique that improves generated samples via the gradient flow of entropy-regularized f-divergences between the real and the generated data distributions. The gradient flow takes the form of a non-linear Fokker-Plank equation, which can be easily simulated by sampling from the equivalent McKean-Vlasov process. By refining inferior samples, our technique avoids wasteful sample rejection used by previous methods (DRS & MH-GAN). Compared to existing works that focus on specific GAN variants, we show our refinement approach can be applied to GANs with vector-valued critics and even other deep generative models such as VAEs and Normalizing Flows. Empirical results on multiple synthetic, image, and text datasets demonstrate that DGflow leads to significant improvement in the quality of generated samples for a variety of generative models, outperforming the state-of-the-art Discriminator Optimal Transport (DOT) and Discriminator Driven Latent Sampling (DDLS) methods.
翻訳日:2021-05-30 20:12:03 公開日:2021-03-17
# (参考訳) トラベルセールスマン問題の強化学習とlin-kernighan-helsga unアルゴリズムの併用 [全文訳有]

Combining Reinforcement Learning with Lin-Kernighan-Helsga un Algorithm for the Traveling Salesman Problem ( http://arxiv.org/abs/2012.04461v6 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Kun He and Jianrong Zhou and Yan Jin and Chu-Min Li(参考訳) 本稿では,NP-hard組合せ最適化問題であるトラベリングセールスマン問題(TSP)に対処する。 本稿では,3つの強化学習手法(Q-learning,Sarsa,Mo nte Carlo)と,Lin-Kernighan-Helsg aun (LKH) と呼ばれるTSPアルゴリズムを組み合わせた可変戦略強化手法を提案する。 VSR-LKHは、LKHの非フレキシブルトラバース操作を置き換え、強化学習によって各探索ステップで選択を学習する。 最大85,900都市でのTSPLIBによる111TSPベンチマーク実験の結果,提案手法の優れた性能を示した。

We address the Traveling Salesman Problem (TSP), a famous NP-hard combinatorial optimization problem. And we propose a variable strategy reinforced approach, denoted as VSR-LKH, which combines three reinforcement learning methods (Q-learning, Sarsa and Monte Carlo) with the well-known TSP algorithm, called Lin-Kernighan-Helsga un (LKH). VSR-LKH replaces the inflexible traversal operation in LKH, and lets the program learn to make choice at each search step by reinforcement learning. Experimental results on 111 TSP benchmarks from the TSPLIB with up to 85,900 cities demonstrate the excellent performance of the proposed method.
翻訳日:2021-05-17 05:15:27 公開日:2021-03-17
# (参考訳) STELAR : 潜伏した疫学的規則化を伴う時空間的テンソル因子化 [全文訳有]

STELAR: Spatio-temporal Tensor Factorization with Latent Epidemiological Regularization ( http://arxiv.org/abs/2012.04747v2 )

ライセンス: CC BY 4.0
Nikos Kargas, Cheng Qian, Nicholas D. Sidiropoulos, Cao Xiao, Lucas M. Glass, Jimeng Sun(参考訳) 効果的な対策を講じるためには、新型コロナウイルスなどの伝染病の正確な予測が不可欠である。 本研究では,多くの地域での流行の進展を同時に予測するテンソル法を開発した。 ケースカウントの3方向時空間テンソル(位置,属性,時間)を構築し,STELARという潜在疫学モデル正規化を用いた非負のテンソル分解を提案する。 先行きのスラブを予測できない標準的なテンソル因子分解法とは異なり、ステラーは広く採用された疫学モデルの離散時間差分方程式系を通じて潜時時間正規化を組み込むことで長期予測を可能にする。 我々は,共通の流行プロファイルサブタイプを捉え,協調学習と予測を改善するために,位置・属性レベルの疫学ダイナミクスの代わりに潜在性を用いている。 我々は、カウンティレベルと州レベルのCOVID-19データの両方を用いて実験を行い、このモデルが流行の興味深い潜伏パターンを識別できることを示す。 最後に,提案手法の予測能力を評価し,基準値よりも優れた性能を示し,最大21%のルート平均二乗誤差,25%の絶対誤差を郡レベルの予測で達成した。

Accurate prediction of the transmission of epidemic diseases such as COVID-19 is crucial for implementing effective mitigation measures. In this work, we develop a tensor method to predict the evolution of epidemic trends for many regions simultaneously. We construct a 3-way spatio-temporal tensor (location, attribute, time) of case counts and propose a nonnegative tensor factorization with latent epidemiological model regularization named STELAR. Unlike standard tensor factorization methods which cannot predict slabs ahead, STELAR enables long-term prediction by incorporating latent temporal regularization through a system of discrete-time difference equations of a widely adopted epidemiological model. We use latent instead of location/attribute-l evel epidemiological dynamics to capture common epidemic profile sub-types and improve collaborative learning and prediction. We conduct experiments using both county- and state-level COVID-19 data and show that our model can identify interesting latent patterns of the epidemic. Finally, we evaluate the predictive ability of our method and show superior performance compared to the baselines, achieving up to 21% lower root mean square error and 25% lower mean absolute error for county-level prediction.
翻訳日:2021-05-16 23:51:10 公開日:2021-03-17
# ターゲット再識別のためのコンテキスト対応グラフ畳み込みネットワーク

Context-Aware Graph Convolution Network for Target Re-identification ( http://arxiv.org/abs/2012.04298v3 )

ライセンス: Link先を確認
Deyi Ji, Haoran Wang, Hanzhe Hu, Weihao Gan, Wei Wu, Junjie Yan(参考訳) 既存の再同定法は、深層畳み込みネットワークを用いたロバストで識別的な特徴の学習に焦点を当てている。 しかし、それらの多くはコンテンツの類似性を別々に考えており、クエリやギャラリーセットのコンテキスト情報を利用できない。 プローブ・ギャラリーとギャラリー・ギャラリーの関係のため、厳密なサンプルは限られた情報や誤解を招く情報のためにうまく解決できない。 本稿では,グラフノードにプローブ・ギャレリー関係を符号化し,グラフエッジ接続をギャラリー・ギャレリー関係により適切に制御する新しいコンテキスト・アウェアグラフ畳み込みネットワーク(CAGCN)を提案する。 このように、ハードサンプルは、グラフ推論の間、他の簡単なサンプル間のコンテキスト情報フローに対応できる。 具体的には,適切なグラフサイズを維持しつつ,正のサンプルに対する高いリコールを得るための効果的なハードギャラリー・サンプラーを採用することで,計算複雑性の低いトレーニングプロセスにおける不均衡問題を弱体化することができる。

Most existing re-identification methods focus on learning robust and discriminative features with deep convolution networks. However, many of them consider content similarity separately and fail to utilize the context information of the query and gallery sets, e.g. probe-gallery and gallery-gallery relations, thus hard samples may not be well solved due to the limited or even misleading information. In this paper, we present a novel Context-Aware Graph Convolution Network (CAGCN), where the probe-gallery relations are encoded into the graph nodes and the graph edge connections are well controlled by the gallery-gallery relations. In this way, hard samples can be addressed with the context information flows among other easy samples during the graph reasoning. Specifically, we adopt an effective hard gallery sampler to obtain high recall for positive samples while keeping a reasonable graph size, which can also weaken the imbalanced problem in training process with low computation complexity.Experimen ts show that the proposed method achieves state-of-the-art performance on both person and vehicle re-identification datasets in a plug and play fashion with limited overhead.
翻訳日:2021-05-16 21:16:28 公開日:2021-03-17
# 対物生成:テキストの制御された対物生成を目指して

Generate Your Counterfactuals: Towards Controlled Counterfactual Generation for Text ( http://arxiv.org/abs/2012.04698v2 )

ライセンス: Link先を確認
Nishtha Madaan, Inkit Padhi, Naveen Panwar, Diptikalyan Saha(参考訳) 機械学習は近年大きく成長しており、教育評価、信用リスク、医療、雇用、刑事司法などのためのMLシステムの普及につながっている。 MLとNLPシステムの信頼性は重要な側面であり、彼らが行う決定が公平で堅牢であることを保証する必要がある。 そこで我々は,これらのMLシステムをテストする上で重要な,対実テキストの集合を生成するためのフレームワークGYCを提案する。 主な貢献は,a) GYC, 生成が妥当で多様性があり, 目標指向であり, 有効であるような反ファクト的なサンプルを生成するフレームワークを紹介し, b) 生成を名前付きタグ, セマンティック・ロール・ラベル, 感情などの対応する条件に向けて誘導する, 反ファクト的なサンプルを生成する。 種々の領域における実験結果から,GYCは上記の4つの特性を示す対実テキストサンプルを生成することがわかった。 GYCは、モデルとあらゆるテキストデバイアスアルゴリズムを評価するテストケースとして機能する偽物を生成する。

Machine Learning has seen tremendous growth recently, which has led to larger adoption of ML systems for educational assessments, credit risk, healthcare, employment, criminal justice, to name a few. The trustworthiness of ML and NLP systems is a crucial aspect and requires a guarantee that the decisions they make are fair and robust. Aligned with this, we propose a framework GYC, to generate a set of counterfactual text samples, which are crucial for testing these ML systems. Our main contributions include a) We introduce GYC, a framework to generate counterfactual samples such that the generation is plausible, diverse, goal-oriented, and effective, b) We generate counterfactual samples, that can direct the generation towards a corresponding condition such as named-entity tag, semantic role label, or sentiment. Our experimental results on various domains show that GYC generates counterfactual text samples exhibiting the above four properties. GYC generates counterfactuals that can act as test cases to evaluate a model and any text debiasing algorithm.
翻訳日:2021-05-16 17:37:38 公開日:2021-03-17
# 実世界の複数音源2次元定位のためのデータ効率のよい枠組み

Data-Efficient Framework for Real-world Multiple Sound Source 2D Localization ( http://arxiv.org/abs/2012.05533v3 )

ライセンス: Link先を確認
Guillaume Le Moing, Phongtharin Vinayavekhin, Don Joven Agravante, Tadanobu Inoue, Jayakorn Vongkulbhisal, Asim Munawar, Ryuki Tachibana(参考訳) ディープニューラルネットワークは、最近、複数の音源のローカライゼーションのタスクに有望な結果をもたらした。 しかし、さまざまな音響条件やマイクロホンアレイレイアウトをカバーするために、多くのトレーニングデータが必要です。 音響シミュレータを利用してラベル付きトレーニングデータを安価に生成することができる。 しかし、合成データに基づいて訓練されたモデルは、ドメインミスマッチのため、現実世界の録音では性能が良くない傾向にある。 さらに、異なるマイクロホンアレイレイアウトの学習は、無限個の可能なレイアウトのため、タスクをより複雑にする。 本稿では,合成領域と実領域のギャップを埋めるための逆学習手法を提案する。 本手法は,実データからのラベルを必要とせず,ローカライズ性能を大幅に向上させる。 さらに,ローカライゼーションアーキテクチャに組み込むための新規な明示的変換層を提案する。 これにより、特定のマイクロフォンアレイレイアウトのデータでモデルをトレーニングし、推論中に見つからないレイアウトに最適化することができる。

Deep neural networks have recently led to promising results for the task of multiple sound source localization. Yet, they require a lot of training data to cover a variety of acoustic conditions and microphone array layouts. One can leverage acoustic simulators to inexpensively generate labeled training data. However, models trained on synthetic data tend to perform poorly with real-world recordings due to the domain mismatch. Moreover, learning for different microphone array layouts makes the task more complicated due to the infinite number of possible layouts. We propose to use adversarial learning methods to close the gap between synthetic and real domains. Our novel ensemble-discriminat ion method significantly improves the localization performance without requiring any label from the real data. Furthermore, we propose a novel explicit transformation layer to be embedded in the localization architecture. It enables the model to be trained with data from specific microphone array layouts while generalizing well to unseen layouts during inference.
翻訳日:2021-05-15 06:05:51 公開日:2021-03-17
# ニューラルネットワークモデルの時間スケール構成のマッピング

Mapping the Timescale Organization of Neural Language Models ( http://arxiv.org/abs/2012.06717v2 )

ライセンス: Link先を確認
Hsiang-Yun Sherry Chien, Jinhan Zhang and Christopher. J. Honey(参考訳) 人間の脳では、言語入力のシーケンスは、より長い時間スケールで文脈情報をエンコードする、分散的で階層的なアーキテクチャ内で処理される。 対照的に、自然言語処理を行うリカレントニューラルネットワークでは、コンテキスト情報の複数の時間スケールがどのように機能的に構成されているかはほとんど分かっていない。 そこで我々は神経科学で開発されたツールを用いて,単語レベルLSTM言語モデル内の個々の単位の「処理時間スケール」をマッピングした。 このタイムスケールマッピング法は、これまで長距離構文依存を追跡していたユニットに長いタイムスケールを割り当てた。 さらに、マッピングによってネットワークの小さなサブセット(15%未満)が示され、長い時間スケールがあり、以前はその機能は探索されていなかった。 次に,ユニットの処理時間スケールとネットワーク接続性の関係を調べ,ネットワークの機能的構成について検討した。 制御器」ユニットは密接な相互接続されたサブネットワークで構成され、ネットワークの他の部分に強く投影され、一方「積分器」ユニットはネットワーク内で最も長い時間スケールを示し、平均投影プロファイルに近いプロジェクションプロファイルを表現した。 インテグレータとコントローラユニットの非難は文内の異なる位置におけるモデル性能に影響し、これら2つのユニットの特徴的な機能を示している。 最後に,これらの結果を,異なるアーキテクチャを持つキャラクタレベルのLSTMモデルとモデルに一般化する実験を行った。 まとめると、リカレントニューラルネットワークにおける時間スケールの組織をマッピングするためのモデルフリー手法を実証し、この手法を適用し、ニューラルネットワークモデルの時間スケールと機能的構造を明らかにする。

In the human brain, sequences of language input are processed within a distributed and hierarchical architecture, in which higher stages of processing encode contextual information over longer timescales. In contrast, in recurrent neural networks which perform natural language processing, we know little about how the multiple timescales of contextual information are functionally organized. Therefore, we applied tools developed in neuroscience to map the "processing timescales" of individual units within a word-level LSTM language model. This timescale-mapping method assigned long timescales to units previously found to track long-range syntactic dependencies. Additionally, the mapping revealed a small subset of the network (less than 15% of units) with long timescales and whose function had not previously been explored. We next probed the functional organization of the network by examining the relationship between the processing timescale of units and their network connectivity. We identified two classes of long-timescale units: "controller" units composed a densely interconnected subnetwork and strongly projected to the rest of the network, while "integrator" units showed the longest timescales in the network, and expressed projection profiles closer to the mean projection profile. Ablating integrator and controller units affected model performance at different positions within a sentence, suggesting distinctive functions of these two sets of units. Finally, we tested the generalization of these results to a character-level LSTM model and models with different architectures. In summary, we demonstrated a model-free technique for mapping the timescale organization in recurrent neural networks, and we applied this method to reveal the timescale and functional organization of neural language models.
翻訳日:2021-05-10 05:20:20 公開日:2021-03-17
# 従来のIRはMS MARCO Document Ranking Leaderboardでニューラルモデルと競合する

Traditional IR rivals neural models on the MS MARCO Document Ranking Leaderboard ( http://arxiv.org/abs/2012.08020v3 )

ライセンス: Link先を確認
Leonid Boytsov(参考訳) この短い文書は、MS MARCO Document Ranking Leaderboard(2020-12- 06)でMRR@100を0.298と同等に達成した伝統的なIRシステムについて記述している。 多くのBERTベースのモデルよりも劣っていたが、いくつかのニューラルラン(と全ての非ニューラルラン)を上回り、その中には大きな事前訓練されたトランスフォーマーモデルを使用した2つのサブミッションが含まれていた。 結果を再現するソフトウェアとデータを提供します。

This short document describes a traditional IR system that achieved MRR@100 equal to 0.298 on the MS MARCO Document Ranking leaderboard (on 2020-12-06). Although inferior to most BERT-based models, it outperformed several neural runs (as well as all non-neural ones), including two submissions that used a large pretrained Transformer model for re-ranking. We provide software and data to reproduce our results.
翻訳日:2021-05-07 05:17:57 公開日:2021-03-17
# ビデオ行動認識と検索のための時間的コントラストグラフ学習

Temporal Contrastive Graph Learning for Video Action Recognition and Retrieval ( http://arxiv.org/abs/2101.00820v8 )

ライセンス: Link先を確認
Yang Liu, Keze Wang, Haoyuan Lan, Liang Lin(参考訳) 自己教師付きビデオ表現学習における時間的多様性と時間的特徴を十分に把握するために,ビデオ内の時間的依存関係を活用し,時間的コントラストグラフ学習(TCGL)という新たな自己教師付き手法を提案する。 複雑な時間的依存関係のモデリングを無視する既存の手法とは対照的に、私たちのtcglは、時間的表現学習のための自己スーパービジョン信号として、スニペット間およびスニペット内時間的依存関係を共同で考慮するハイブリッドグラフコントラスト学習戦略に根ざしています。 マルチスケールの時間的依存をモデル化するために、TCGLはフレームとスニペットの順序に関する事前の知識をグラフ構造、すなわち、スニペット内の時間的コントラストグラフに統合する。 スニペットグラフやスニペットグラフのエッジやマスキングノードをランダムに除去することで、tcglは異なる相関グラフビューを生成することができる。 次に、異なるビューにおけるノード間の合意を最大化するために、特定のコントラスト学習モジュールを設計する。 グローバルコンテキスト表現を適応的に学習し,チャネル毎の機能を再調整するために,映像スニペット間の関係知識を利用して実際のスニペット順序を予測する適応型ビデオスニペット順序予測モジュールを提案する。 大規模行動認識およびビデオ検索ベンチマークにおける最先端手法よりも,TCGLの方が優れていることを示す実験結果が得られた。

Attempt to fully discover the temporal diversity and chronological characteristics for self-supervised video representation learning, this work takes advantage of the temporal dependencies within videos and further proposes a novel self-supervised method named Temporal Contrastive Graph Learning (TCGL). In contrast to the existing methods that ignore modeling elaborate temporal dependencies, our TCGL roots in a hybrid graph contrastive learning strategy to jointly regard the inter-snippet and intra-snippet temporal dependencies as self-supervision signals for temporal representation learning. To model multi-scale temporal dependencies, our TCGL integrates the prior knowledge about the frame and snippet orders into graph structures, i.e., the intra-/inter- snippet temporal contrastive graphs. By randomly removing edges and masking nodes of the intra-snippet graphs or inter-snippet graphs, our TCGL can generate different correlated graph views. Then, specific contrastive learning modules are designed to maximize the agreement between nodes in different views. To adaptively learn the global context representation and recalibrate the channel-wise features, we introduce an adaptive video snippet order prediction module, which leverages the relational knowledge among video snippets to predict the actual snippet orders. Experimental results demonstrate the superiority of our TCGL over the state-of-the-art methods on large-scale action recognition and video retrieval benchmarks.
翻訳日:2021-04-11 22:58:50 公開日:2021-03-17
# テンソルグラフ最適化のための品質飽和

Equality Saturation for Tensor Graph Superoptimization ( http://arxiv.org/abs/2101.01332v2 )

ライセンス: Link先を確認
Yichen Yang, Phitchaya Mangpo Phothilimtha, Yisu Remy Wang, Max Willsey, Sudip Roy, Jacques Pienaar(参考訳) ディープラーニングフレームワークで使用される主要な最適化の1つは、グラフ書き換えである。 プロダクションフレームワークは、ルールの書き直しと順序を決定するのにヒューリスティックに依存しています。 先行研究は、ヒューリスティックスに頼るのではなく、より優れた置換列を探索すれば、より最適なテンソル計算グラフを発見できることを示した。 しかし,既存のテンソルグラフ過最適化手法では,製造と研究の両フレームワークが逐次的に置換される。 このような逐次探索法は置換が適用される順序に敏感であり、しばしば等価グラフの指数空間の小さな断片を探索するだけである。 本稿では,任意の置換を同時に適用するために等度飽和を用いたテンソルグラフ超最適化手法を提案する。 提案手法では,最適化に要する時間を平均48倍に抑えながら,最先端よりも最大16%のスピードアップで最適化グラフを見つけることができることを示す。

One of the major optimizations employed in deep learning frameworks is graph rewriting. Production frameworks rely on heuristics to decide if rewrite rules should be applied and in which order. Prior research has shown that one can discover more optimal tensor computation graphs if we search for a better sequence of substitutions instead of relying on heuristics. However, we observe that existing approaches for tensor graph superoptimization both in production and research frameworks apply substitutions in a sequential manner. Such sequential search methods are sensitive to the order in which the substitutions are applied and often only explore a small fragment of the exponential space of equivalent graphs. This paper presents a novel technique for tensor graph superoptimization that employs equality saturation to apply all possible substitutions at once. We show that our approach can find optimized graphs with up to 16% speedup over state-of-the-art, while spending on average 48x less time optimizing.
翻訳日:2021-04-11 11:32:16 公開日:2021-03-17
# GeCo: リアルタイムの品質対実的説明

GeCo: Quality Counterfactual Explanations in Real Time ( http://arxiv.org/abs/2101.01292v2 )

ライセンス: Link先を確認
Maximilian Schleich, Zixuan Geng, Yihong Zhang, Dan Suciu(参考訳) 機械学習は、人々の生活に直接影響を及ぼす高リスク意思決定にますます適用され、システムによる意思決定の要求の増加につながる。 説明はしばしば、結果を改善するために、エンドユーザに何を変える必要があるかを伝えて、反事実の形式をとる。 ドメインの豊富なセマンティクスとリアルタイム応答の必要性の間に固有の緊張関係があるため、反事実的説明の計算は困難である。 本稿では,リアルタイムに実現可能な反事実的説明を計算できる最初のシステムであるgecoについて述べる。 GeCoの中核は遺伝的アルゴリズムに依存しており、最小限の変更数で偽物の説明を探すようにカスタマイズされている。 リアルタイム性能を実現するために,$\delta$-representa tion of candidate counterfactualsと部分的評価という2つの新しい最適化を導入する。 文献に記述された他の5つのシステムと比較し,高品質な説明とリアルタイム回答を両立できる唯一のシステムであることを示した。

Machine learning is increasingly applied in high-stakes decision making that directly affect people's lives, and this leads to an increased demand for systems to explain their decisions. Explanations often take the form of counterfactuals, which consists of conveying to the end user what she/he needs to change in order to improve the outcome. Computing counterfactual explanations is challenging, because of the inherent tension between a rich semantics of the domain, and the need for real time response. In this paper we present GeCo, the first system that can compute plausible and feasible counterfactual explanations in real time. At its core, GeCo relies on a genetic algorithm, which is customized to favor searching counterfactual explanations with the smallest number of changes. To achieve real-time performance, we introduce two novel optimizations: $\Delta$-representat ion of candidate counterfactuals, and partial evaluation of the classifier. We compare empirically GeCo against five other systems described in the literature, and show that it is the only system that can achieve both high quality explanations and real time answers.
翻訳日:2021-04-11 11:28:33 公開日:2021-03-17
# (参考訳) SA-Det3D:自己認識に基づくコンテキスト認識3Dオブジェクト検出 [全文訳有]

SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection ( http://arxiv.org/abs/2101.02672v3 )

ライセンス: CC BY 4.0
Prarthana Bhattacharyya, Chengjie Huang and Krzysztof Czarnecki(参考訳) 既存のポイントクラウドベースの3dオブジェクト検出器は畳み込みのような演算子を使用して、固定ウェイトのカーネルでローカル近傍で情報を処理し、階層的にグローバルコンテキストを集約する。 しかし、非局所ニューラルネットワークと2次元視覚に対する自己注意は、長距離相互作用を明示的にモデル化することで、より堅牢で競争的なモデルにつながることを示した。 本稿では,3次元物体検出における文脈モデルのための自己着脱の2つの変種について,自己着脱特徴を伴う畳み込み特徴の強化により提案する。 我々はまず,現在最先端のBEV,ボクセル,点ベース検出器に対向自己保持機構を組み込んで,最大1.53次元APの強力なベースラインモデルに対して一貫した改良を行い,パラメータフットプリントと計算コストをそれぞれ15-80%,30-50%削減した。 次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。 これにより、グローバルなコンテキストモデリングをより大きなポイントクラウドに拡張できるだけでなく、より差別的で情報に富む機能記述子も実現できます。 本手法は, 精度, パラメータ, 計算効率の向上により, 最先端検出器の多くに柔軟に適用できる。 提案手法は,KITTI,nuScenesおよびWaymo Openデータセット上での3次元物体検出性能を向上させる。 コードはhttps://github.com/A utoVision-cloud/SA-D et3Dで入手できる。

Existing point-cloud based 3D object detectors use convolution-like operators to process information in a local neighbourhood with fixed-weight kernels and aggregate global context hierarchically. However, non-local neural networks and self-attention for 2D vision have shown that explicitly modeling long-range interactions can lead to more robust and competitive models. In this paper, we propose two variants of self-attention for contextual modeling in 3D object detection by augmenting convolutional features with self-attention features. We first incorporate the pairwise self-attention mechanism into the current state-of-the-art BEV, voxel and point-based detectors and show consistent improvement over strong baseline models of up to 1.5 3D AP while simultaneously reducing their parameter footprint and computational cost by 15-80% and 30-50%, respectively, on the KITTI validation set. We next propose a self-attention variant that samples a subset of the most representative features by learning deformations over randomly sampled locations. This not only allows us to scale explicit global contextual modeling to larger point-clouds, but also leads to more discriminative and informative feature descriptors. Our method can be flexibly applied to most state-of-the-art detectors with increased accuracy and parameter and compute efficiency. We show our proposed method improves 3D object detection performance on KITTI, nuScenes and Waymo Open datasets. Code is available at https://github.com/A utoVision-cloud/SA-D et3D.
翻訳日:2021-04-10 16:03:23 公開日:2021-03-17
# bert & family eat word salad: テキスト理解による実験

BERT & Family Eat Word Salad: Experiments with Text Understanding ( http://arxiv.org/abs/2101.03453v2 )

ライセンス: Link先を確認
Ashim Gupta, Giorgi Kvernadze, Vivek Srikumar(参考訳) 本稿では,自然言語の理解を主張するモデルを混乱させる不整合入力に対するBERTファミリーからの大規模モデルの応答について検討する。 このような例を構成するための単純なヒューリスティックを定義する。 実験の結果,最先端のモデルでは,常に不正と認識できず,高い信頼度を予測できることがわかった。 この現象の結果として、ランダムに置換された単語順の文で訓練されたモデルは、最先端のモデルに近く動作する。 これらの問題を緩和するために、モデルが不正な入力を認識するために明示的に訓練されている場合、性能の低下なしにそのような攻撃に対して堅牢であることを示す。

In this paper, we study the response of large models from the BERT family to incoherent inputs that should confuse any model that claims to understand natural language. We define simple heuristics to construct such examples. Our experiments show that state-of-the-art models consistently fail to recognize them as ill-formed, and instead produce high confidence predictions on them. As a consequence of this phenomenon, models trained on sentences with randomly permuted word order perform close to state-of-the-art models. To alleviate these issues, we show that if models are explicitly trained to recognize invalid inputs, they can be robust to such attacks without a drop in performance.
翻訳日:2021-04-08 08:25:16 公開日:2021-03-17
# (参考訳) ハイブリッドビームフォーミングを用いた自己組織型mmWave MIMOセルフリーネットワーク:階層DRLに基づく設計 [全文訳有]

Self-Organizing mmWave MIMO Cell-Free Networks With Hybrid Beamforming: A Hierarchical DRL-Based Design ( http://arxiv.org/abs/2103.11823v1 )

ライセンス: CC0 1.0
Yasser Al-Eryani and Ekram Hossain(参考訳) セルフリー無線ネットワークにおいて、分散アクセスポイント(AP)は同じ時間/周波数リソースを用いて、カバーエリア内のすべてのユーザ機器(UE)を共同で提供する。 本稿では,全てのAPとUEを独立セルフリーサブネットワークに動的に分割することのできる,新しいダウンリンクセルフリーマルチインプット・マルチインプット・マルチアウトプット(MIMO)ミリ波(mmWave)ネットワークアーキテクチャを開発する。 そこで本研究では,深部強化学習(DRL)に基づくネットワーク分割アルゴリズムを提案する。 さらに, セルフリーサブネットワーク間の干渉を軽減するため, セルフリーサブネットワーク間の干渉をゼロにし, 同時に各サブネットワーク内の全てのUEの瞬時和率を最大化するハイブリッドアナログビームステアリング・デジタルビームフォーミングモデルを開発した。 具体的には、デジタルビームフォーミングをモデル化し、凸最適化問題として解きながら、DRLに基づいてAPとUE間のアナログビームステアリングを行う新しい混合DRL凸最適化法を用いてハイブリッドビームフォーミングモデルを実現する。 ネットワーククラスタリングとハイブリッドビームステアリングのためのDRLモデルは、ネットワークトレーニングと運用の両方でDRLエージェントの経験を交換できる単一の階層型DRL設計に統合される。 また,クラスタリングおよびビームステアリングのためのDRLモデルの性能を,ネットワーク性能,収束率,計算複雑性の観点からベンチマークした。

In a cell-free wireless network, distributed access points (APs) jointly serve all user equipments (UEs) within the their coverage area by using the same time/frequency resources. In this paper, we develop a novel downlink cell-free multiple-input multiple-output (MIMO) millimeter wave (mmWave) network architecture that enables all APs and UEs to dynamically self-partition into a set of independent cell-free subnetworks in a time-slot basis. For this, we propose several network partitioning algorithms based on deep reinforcement learning (DRL). Furthermore, to mitigate interference between different cell-free subnetworks, we develop a novel hybrid analog beamsteering-digital beamforming model that zero-forces interference among cell-free subnetworks and at the same time maximizes the instantaneous sum-rate of all UEs within each subnetwork. Specifically, the hybrid beamforming model is implemented by using a novel mixed DRL-convex optimization method in which analog beamsteering between APs and UEs is conducted based on DRL while digital beamforming is modeled and solved as a convex optimization problem. The DRL models for network clustering and hybrid beamsteering are combined into a single hierarchical DRL design that enables exchange of DRL agents' experiences during both network training and operation. We also benchmark the performance of DRL models for clustering and beamsteering in terms of network performance, convergence rate, and computational complexity.
翻訳日:2021-04-05 02:38:17 公開日:2021-03-17
# ソーシャルコンピューティングのためのハイブリッドヒューマンアートインテリジェンスに関する調査

A Survey of Hybrid Human-Artificial Intelligence for Social Computing ( http://arxiv.org/abs/2103.15558v1 )

ライセンス: Link先を確認
Wenxi Wang, Huansheng Ning, Feifei Shi, Sahraoui Dhelim, Weishan Zhang, Liming Chen(参考訳) 現代のコンピューティング技術と社会科学の発展とともに、社会コンピューティングの理論的研究と実践的応用が継続的に拡張されてきた。 特に人工知能(AI)のブームにより、ソーシャルコンピューティングはAIに大きく影響されている。 しかし、従来のAI技術は、より複雑で動的な問題に対処する際の欠点がある。 このような欠陥は、ヒューマンインテリジェンスとAIを一つのユニティに統合し、新たな強化されたインテリジェンスを形成するハイブリッドヒューマンアーティフィックインテリジェンス(H-AI)によって修正することができる。 社会問題に対処するH-AIは、AIが追い越せない利点を示している。 本稿ではまず,H-AIの概念を紹介する。 aiはh-aiの移行段階におけるインテリジェンスであり、社会コンピューティングにおけるaiの最新の研究進歩をレビューする。 第2に、ソーシャルコンピューティングにおいてAIが直面する典型的な課題を要約し、これらの課題を解決するためにH-AIを導入することができる。 最後に,対象層,ベース層,解析層,アプリケーション層という4つの層から構成されるH-AIと組み合わせたソーシャルコンピューティングの総合的な枠組みを提案する。 これは、H-AIが社会問題の解決において、AIよりも大きな優位性を持っていることを示している。

Along with the development of modern computing technology and social sciences, both theoretical research and practical applications of social computing have been continuously extended. In particular with the boom of artificial intelligence (AI), social computing is significantly influenced by AI. However, the conventional technologies of AI have drawbacks in dealing with more complicated and dynamic problems. Such deficiency can be rectified by hybrid human-artificial intelligence (H-AI) which integrates both human intelligence and AI into one unity, forming a new enhanced intelligence. H-AI in dealing with social problems shows the advantages that AI can not surpass. This paper firstly introduces the concept of H-AI. AI is the intelligence in the transition stage of H-AI, so the latest research progresses of AI in social computing are reviewed. Secondly, it summarizes typical challenges faced by AI in social computing, and makes it possible to introduce H-AI to solve these challenges. Finally, the paper proposes a holistic framework of social computing combining with H-AI, which consists of four layers: object layer, base layer, analysis layer, and application layer. It represents H-AI has significant advantages over AI in solving social problems.
翻訳日:2021-04-05 01:07:11 公開日:2021-03-17
# デジタル人文科学から量子人文科学へ:可能性と応用

From Digital Humanities to Quantum Humanities: Potentials and Applications ( http://arxiv.org/abs/2103.11825v1 )

ライセンス: Link先を確認
Johanna Barzen(参考訳) 量子コンピュータは現実になりつつある。 そのため、人文科学研究を含む様々な応用分野において、そのポテンシャルを活用することを約束している。 デジタル人文科学において処理される必要のあるデータの量が増えるため、量子コンピュータの使用はこの研究領域に寄与することができる。 人文科学からのデータを解析する際に、量子コンピュータのそのような関与がいかに有益であるかを印象付けるために、メディア科学のユースケースを示す。 そこで本稿では,デジタル人文科学プロジェクトMUSEのデータ解析のための理論的基盤とツールサポートについて述べる。 これには、例えば、データ分析パイプラインが含まれる。 データ準備、機能エンジニアリング、クラスタリング、そしていくつかのステップを古典的に実現できる分類のための様々なアプローチ。

Quantum computers are becoming real. Therefore, it is promising to use their potentials in different applications areas, which includes research in the humanities. Due to an increasing amount of data that needs to be processed in the digital humanities the use of quantum computers can contribute to this research area. To give an impression on how beneficial such involvement of quantum computers can be when analyzing data from the humanities, a use case from the media science is presented. Therefore, both the theoretical basis and the tooling support for analyzing the data from our digital humanities project MUSE is described. This includes a data analysis pipeline, containing e.g. various approaches for data preparation, feature engineering, clustering, and classification where several steps can be realized classically, but also supported by quantum computers.
翻訳日:2021-04-05 01:05:22 公開日:2021-03-17
# 新型コロナウイルス(covid-19)のロックダウンにともなう小児の大気汚染物質に対する曝露評価のためのグローバル大気質モニタリングプラットフォーム

Towards an Open Global Air Quality Monitoring Platform to Assess Children's Exposure to Air Pollutants in the Light of COVID-19 Lockdowns ( http://arxiv.org/abs/2103.12505v1 )

ライセンス: Link先を確認
Christina Last, Prithviraj Pramanik, Nikita Saini, Akash Smaran Majety, Do-Hyung Kim, Manuel Garc\'ia-Herranz, Subhabrata Majumdar(参考訳) この継続的な研究は、子ども福祉に携わる指導的組織であるUNICEFの要件を理解し、対処することを目的としており、国際レベルでの子どもの空気質の問題に取り組むことを目的としている。 新型コロナウイルス(COVID-19)のパンデミックを受けて、世界中の空気質の高度変動を考慮に入れた適切なモデルが欠如していることが、公衆衛生の専門家の間で、子どもの大気汚染物質への接触の正確なレベルに関する不確実性につながっている。 仮想的なミートアップとオンラインプレゼンテーションの組み合わせを通じて洞察を生み出すために、機関の要求に従って初期モデルを作成します。 研究チームはUNICEFの研究者とボランティアデータサイエンティストのグループで構成されました。 プレゼンテーションはunicefの多くの科学者やドメインの専門家、オープンデータを扱うコミュニティチャンピオンに配信された。 我々は、この研究をさらに発展させるための彼らのフィードバックと可能性について強調する。

This ongoing work attempts to understand and address the requirements of UNICEF, a leading organization working in children's welfare, where they aim to tackle the problem of air quality for children at a global level. We are motivated by the lack of a proper model to account for heavily fluctuating air quality levels across the world in the wake of the COVID-19 pandemic, leading to uncertainty among public health professionals on the exact levels of children's exposure to air pollutants. We create an initial model as per the agency's requirement to generate insights through a combination of virtual meetups and online presentations. Our research team comprised of UNICEF's researchers and a group of volunteer data scientists. The presentations were delivered to a number of scientists and domain experts from UNICEF and community champions working with open data. We highlight their feedback and possible avenues to develop this research further.
翻訳日:2021-04-05 01:05:10 公開日:2021-03-17
# 逐次潜在変数モデルにおける修正推論の条件付け時のギャップの意識

Mind the Gap when Conditioning Amortised Inference in Sequential Latent-Variable Models ( http://arxiv.org/abs/2101.07046v2 )

ライセンス: Link先を確認
Justin Bayer, Maximilian Soelch, Atanas Mirchev, Baris Kayalibay, Patrick van der Smagt(参考訳) amortized inferenceは、エビデンスローバウンド(elbo)を持つ逐次潜在変数モデル(lvms)のスケーラブルな学習を可能にする。 この設定では、変分後部はしばしば部分的にのみ条件付けされる。 真の後部は、例えば、観測の順序全体に依存するが、近似後部は過去の観測によってのみ通知される。 これはベイズフィルター -- 滑らかな後方の混合である。 しかし,エルボの客観的な力は後肢を部分的に条件付けし,後肢の平滑化を近似した。 これにより、学習した生成モデルが損なわれる。 これらの理論的な結果は,交通流,手書き桁,航空機の動力学の3つのシナリオで実証される。 完全条件付き近似後処理を用いることで、生成モデリングと多段階予測の観点から性能が向上する。

Amortised inference enables scalable learning of sequential latent-variable models (LVMs) with the evidence lower bound (ELBO). In this setting, variational posteriors are often only partially conditioned. While the true posteriors depend, e.g., on the entire sequence of observations, approximate posteriors are only informed by past observations. This mimics the Bayesian filter -- a mixture of smoothing posteriors. Yet, we show that the ELBO objective forces partially-conditione d amortised posteriors to approximate products of smoothing posteriors instead. Consequently, the learned generative model is compromised. We demonstrate these theoretical findings in three scenarios: traffic flow, handwritten digits, and aerial vehicle dynamics. Using fully-conditioned approximate posteriors, performance improves in terms of generative modelling and multi-step prediction.
翻訳日:2021-03-27 06:05:00 公開日:2021-03-17
# (参考訳) セマンティクスセグメンテーションのためのチャンネル化軸方向注意 [全文訳有]

Channelized Axial Attention for Semantic Segmentation ( http://arxiv.org/abs/2101.07434v2 )

ライセンス: CC BY 4.0
Ye Huang, Wenjing Jia, Xiangjian He, Liu Liu, Yuxin Li, Dacheng Tao(参考訳) 空間次元とチャネル次元の相互依存を空間的にモデル化する自己注意とチャネルアテンションは,近年セグメンテーションに広く利用されている。 しかし、空間的アテンションとチャネル的アテンションを別々に計算し、それらを直接融合させることで特徴表現の衝突を引き起こす。 本稿では,チャネル化軸アテンション(CAA)について,計算複雑度を低減したチャネルアテンションと軸アテンションをシームレスに統合する手法を提案する。 軸方向のアテンションマップを計算した後, トランスポジドート生成物から得られた中間結果をチャネル化し, それぞれのアキシャルリフレセプションのチャネル重要度を受容領域全体にわたって最適化する。 グループ化されたベクトル化をさらに発展させ、完全なベクトル化に匹敵する速度で、非常に少ないメモリ消費でモデルを動作させることができる。 cityscapes、pascalcontext、coco-stuffを含む複数のベンチマークデータセットで行った比較実験では、caaはdanetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべてのテスト済みデータセットにおけるresnet-101ベースのセグメンテーションモデルよりも優れています。

Self-attention and channel attention, modelling thesemantic interdependencies in spatial and channel dimensionsrespective ly, have recently been widely used for semantic seg-mentation. However, computing spatial-attention and channelattention separately and then fusing them directly can causeconflicting feature representations. In this paper, we proposethe Channelized Axial Attention (CAA) to seamlessly integratechannel attention and axial attention with reduced computationalcomplex ity. After computing axial attention maps, we propose tochannelize the intermediate results obtained from the transposeddot-produc t so that the channel importance of each axial repre-sentation is optimized across the whole receptive field. We furtherdevelop grouped vectorization, which allows our model to be runwith very little memory consumption at a speed comparableto the full vectorization. Comparative experiments conductedon multiple benchmark datasets, including Cityscapes, PASCALContext and COCO-Stuff, demonstrate that our CAA not onlyrequires much less computation resources compared with otherdual attention models such as DANet, but also outperformsthe state-of-the-art ResNet-101-based segmentation models on alltested datasets.
翻訳日:2021-03-26 08:41:41 公開日:2021-03-17
# L1認証ロバストネスのための改良された決定論的平滑化

Improved, Deterministic Smoothing for L1 Certified Robustness ( http://arxiv.org/abs/2103.10834v1 )

ライセンス: Link先を確認
Alexander Levine, Soheil Feizi(参考訳) ランダムスムーシング(Randomized smoothing)は、深層分類器に対する逆攻撃に対するサンプル依存の堅牢性を保証する一般的な手法である。 l_1攻撃に対するランダム化平滑化に関する先行研究では、付加的な平滑化ノイズを使用し、確率的ロバストネス保証を提供する。 本研究では,非付加的で決定論的な平滑化手法であるDSSN(Deterministic Smoothing with Splitting Noise)を提案する。 DSSNを開発するために,まず,まず入力空間をランダムに分割し,次に入力サンプルが占有する部分分割の中心の表現を返すことで,各ノイズの平滑化サンプルを生成するランダム化手法であるSSNを開発した。 一様加法平滑化とは対照的に、ssn認証は無作為なノイズコンポーネントを独立に必要としない。 これにより、平滑化を1次元で効果的に行うことができ、量子化データ(例えば画像)に対して効率的に非ランダム化することができる。 我々の知る限りでは、任意の分類器(ディープモデル)を基本分類器として使用でき、指数的な数の滑らか化サンプルを必要とせず、ノルムベースの敵脅威モデルに対して決定論的「ランダム化滑らか化」を提供する最初の研究である。 CIFAR-10とImageNetデータセットでは,従来よりもはるかに大きなL_1堅牢性証明を提供し,新たな最先端技術を確立している。 また,本手法の決定性は,証明計算の高速化にも寄与する。

Randomized smoothing is a general technique for computing sample-dependent robustness guarantees against adversarial attacks for deep classifiers. Prior works on randomized smoothing against L_1 adversarial attacks use additive smoothing noise and provide probabilistic robustness guarantees. In this work, we propose a non-additive and deterministic smoothing method, Deterministic Smoothing with Splitting Noise (DSSN). To develop DSSN, we first develop SSN, a randomized method which involves generating each noisy smoothing sample by first randomly splitting the input space and then returning a representation of the center of the subdivision occupied by the input sample. In contrast to uniform additive smoothing, the SSN certification does not require the random noise components used to be independent. Thus, smoothing can be done effectively in just one dimension and can therefore be efficiently derandomized for quantized data (e.g., images). To the best of our knowledge, this is the first work to provide deterministic "randomized smoothing" for a norm-based adversarial threat model while allowing for an arbitrary classifier (i.e., a deep model) to be used as a base classifier and without requiring an exponential number of smoothing samples. On CIFAR-10 and ImageNet datasets, we provide substantially larger L_1 robustness certificates compared to prior works, establishing a new state-of-the-art. The determinism of our method also leads to significantly faster certificate computation.
翻訳日:2021-03-22 14:28:22 公開日:2021-03-17
# 逆流非平衡サンプリング

Invertible Flow Non Equilibrium sampling ( http://arxiv.org/abs/2103.10943v1 )

ライセンス: Link先を確認
Achille Thin (CMAP), Yazid Janati (IP Paris, TIPIC-SAMOVAR, CITI), Sylvain Le Corff (IP Paris, TIPIC-SAMOVAR, CITI), Charles Ollion (CMAP), Arnaud Doucet, Alain Durmus (CMLA), Eric Moulines (CMAP), Christian Robert (CEREMADE)(参考訳) 難解な正規化定数を持つ複素分布から同時にサンプリングし、この分布の下で期待を近似することは、非常に難しい問題である。 本稿では,古典的連続モンテカルロ (SMC) とマルコフ連鎖モンテカルロ (MCMC) のアプローチから離れる新しいスキーム,Invertible Flow Non Equilibrium Sampling (InFine) を紹介する。 infine は期待の偏りのない推定子、特にランダム初期化から始まった決定論的変換の軌道を組み合わせることで定数を正規化する。 InFineは、最適化パス上のサンプルを選択することで、新しいMCMCサンプリングスキームを設計するのにも自然に適しているが、同時に、新しい変分オートエンコーダ(VAE)のクラスにつながるエビデンスローバウンド(ELBO)を構築するためにも使用できる。

Simultaneously sampling from a complex distribution with intractable normalizing constant and approximating expectations under this distribution is a notoriously challenging problem. We introduce a novel scheme, Invertible Flow Non Equilibrium Sampling (InFine), which departs from classical Sequential Monte Carlo (SMC) and Markov chain Monte Carlo (MCMC) approaches. InFine constructs unbiased estimators of expectations and in particular of normalizing constants by combining the orbits of a deterministic transform started from random initializations.When this transform is chosen as an appropriate integrator of a conformal Hamiltonian system, these orbits are optimization paths. InFine is also naturally suited to design new MCMC sampling schemes by selecting samples on the optimization paths.Additionally, InFine can be used to construct an Evidence Lower Bound (ELBO) leading to a new class of Variational AutoEncoders (VAE).
翻訳日:2021-03-22 14:23:49 公開日:2021-03-17
# (参考訳) 通信効率とビザンチンレジリエンスを考慮した分散ニュートン法におけるサドル点のエスケープ [全文訳有]

Escaping Saddle Points in Distributed Newton's Method with Communication efficiency and Byzantine Resilience ( http://arxiv.org/abs/2103.09424v1 )

ライセンス: CC0 1.0
Avishek Ghosh, Raj Kumar Maity, Arya Mazumdar, Kannan Ramchandran(参考訳) 本研究では,ビザンチンマシンの存在下で分散フレームワークにおける非凸損失関数(サドル点付き)の最適化の問題について検討する。 1台の中央マシン(パラメータサーバ)が多数のワーカマシンと通信する標準的な分散設定を考える。 提案手法は,サドル点を効率的に回避し局所極小に収束するネステロフとポリakの立方体正規化ニュートン法(newton method of nesterov and polyak \cite{nest})の変種である。 さらに, 本アルゴリズムは, 損失関数の鞍点近傍に \emph{fake local minima} を生成できるビザンチンマシンの存在に抵抗する。 我々は, 3次正規化ニュートンアルゴリズムを, サドル点や偽局所ミニマを効率よく回避できるように堅牢化する。 さらに,第2次アルゴリズムである反復複雑性は第1次アルゴリズムよりもはるかに小さく,パラメータサーバとはほとんど通信しない。 提案手法は, 近似勾配やヘッシアンなどいくつかの条件下で理論的に保証される。 さらに, 標準データセットといくつかのビザンチン攻撃を用いて実験を行い, 理論的知見を検証した。

We study the problem of optimizing a non-convex loss function (with saddle points) in a distributed framework in the presence of Byzantine machines. We consider a standard distributed setting with one central machine (parameter server) communicating with many worker machines. Our proposed algorithm is a variant of the celebrated cubic-regularized Newton method of Nesterov and Polyak \cite{nest}, which avoids saddle points efficiently and converges to local minima. Furthermore, our algorithm resists the presence of Byzantine machines, which may create \emph{fake local minima} near the saddle points of the loss function, also known as saddle-point attack. We robustify the cubic-regularized Newton algorithm such that it avoids the saddle points and the fake local minimas efficiently. Furthermore, being a second order algorithm, the iteration complexity is much lower than its first order counterparts, and thus our algorithm communicates little with the parameter server. We obtain theoretical guarantees for our proposed scheme under several settings including approximate (sub-sampled) gradients and Hessians. Moreover, we validate our theoretical findings with experiments using standard datasets and several types of Byzantine attacks.
翻訳日:2021-03-20 09:38:52 公開日:2021-03-17
# (参考訳) Value-aware Approximate Attention [全文訳有]

Value-aware Approximate Attention ( http://arxiv.org/abs/2103.09857v1 )

ライセンス: CC BY 4.0
Ankit Gupta, Jonathan Berant(参考訳) 変圧器におけるドット製品注目の成功に続いて、入力長に関する二次複雑性に対処するために、最近多くの近似が提案されている。 しかし、これまでの全ての近似は、近似の品質に対する$\textit{value vectors}$の寄与を無視している。 本研究では,注目サブレイヤの真の出力,すなわち値ベクトルの近似に研究の取り組みを向けるべきであると主張する。 本稿では,価値認識目標の最適近似が,言語モデリングの文脈において,価値を無視する最適近似を実質的に上回っていることを理論的および実証的に示す。 さらに,注目度類似度を計算するためのカーネル関数の選択は,スキューの少ないカーネル関数が値ベクトルの影響を受けやすいスパース近似の品質に大きく影響することを示した。

Following the success of dot-product attention in Transformers, numerous approximations have been recently proposed to address its quadratic complexity with respect to the input length. However, all approximations thus far have ignored the contribution of the $\textit{value vectors}$ to the quality of approximation. In this work, we argue that research efforts should be directed towards approximating the true output of the attention sub-layer, which includes the value vectors. We propose a value-aware objective, and show theoretically and empirically that an optimal approximation of a value-aware objective substantially outperforms an optimal approximation that ignores values, in the context of language modeling. Moreover, we show that the choice of kernel function for computing attention similarity can substantially affect the quality of sparse approximations, where kernel functions that are less skewed are more affected by the value vectors.
翻訳日:2021-03-20 08:15:23 公開日:2021-03-17
# (参考訳) 階調の異なる順からの音声表現の自己教師付き学習 [全文訳有]

Self-Supervised Learning of Audio Representations from Permutations with Differentiable Ranking ( http://arxiv.org/abs/2103.09879v1 )

ライセンス: CC BY 4.0
Andrew N Carr, Quentin Berthet, Mathieu Blondel, Olivier Teboul, Neil Zeghidour(参考訳) いわゆる "pretext" タスクを用いた自己教師型事前学習は,近年,幅広いモダリティにおいて顕著なパフォーマンスを示している。 本研究では,音響信号のスペクトログラムのシャッフル部分を再順序付けするモデルを事前学習することにより,順列から自己教師付き学習を前進させ,下流分類性能を向上させる。 主な貢献は2つある。 まず,最近の微分可能ランキングの進歩を活かして,置換インバージョンをエンドツーエンドのトレーニングスキームに統合する主な課題を克服する。 これはこれまで、リオーダータスクを分類としてキャストすることで、利用可能な置換の空間を根本的に減らした。 実験により,全ての可能な置換点から学習することで,制限された固定集合を用いて事前学習した表現の質が向上することを確認した。 第2に,逆順列は教師なしの方法で音声表現を学習するための有意義な前文課題であることを示す。 特に,スペクトルパッチを時間周波数空間に並べ替えることで,楽器の分類や音符のピッチ推定を改善する。

Self-supervised pre-training using so-called "pretext" tasks has recently shown impressive performance across a wide range of modalities. In this work, we advance self-supervised learning from permutations, by pre-training a model to reorder shuffled parts of the spectrogram of an audio signal, to improve downstream classification performance. We make two main contributions. First, we overcome the main challenges of integrating permutation inversions into an end-to-end training scheme, using recent advances in differentiable ranking. This was heretofore sidestepped by casting the reordering task as classification, fundamentally reducing the space of permutations that can be exploited. Our experiments validate that learning from all possible permutations improves the quality of the pre-trained representations over using a limited, fixed set. Second, we show that inverting permutations is a meaningful pretext task for learning audio representations in an unsupervised fashion. In particular, we improve instrument classification and pitch estimation of musical notes by reordering spectrogram patches in the time-frequency space.
翻訳日:2021-03-20 08:01:00 公開日:2021-03-17
# (参考訳) 階層的注意に基づく年齢推定とバイアス推定 [全文訳有]

Hierarchical Attention-based Age Estimation and Bias Estimation ( http://arxiv.org/abs/2103.09882v1 )

ライセンス: CC BY 4.0
Shakediel Hiba and Yosi Keller(参考訳) 本研究では,顔画像に基づく年齢推定のための新しい深層学習手法を提案する。 まず,注意に基づく2重画像拡張集約手法を提案する。 これにより、ネットワークはトランスフォーマーエンコーダによって埋め込みが集約された複数の顔画像拡張を共同で利用することができる。 結果として得られる集約埋め込みは、顔画像属性をよりよくエンコードするように示される。 次に,年齢ラベルの離散的確率的推定と対応する回帰因子のアンサンブルを組み合わせた確率的階層的回帰フレームワークを提案する。 それぞれのレグレッサーは特に適応され、様々な年齢の確率的推定を洗練するように訓練されている。 提案手法は, 年齢推定のためのMORPH IIデータセットに適用した場合, 現代手法より優れ, 最先端の年齢推定精度が向上することが示されている。 最後に,最先端年齢推定結果のバイアス分析を紹介する。

In this work we propose a novel deep-learning approach for age estimation based on face images. We first introduce a dual image augmentation-aggrega tion approach based on attention. This allows the network to jointly utilize multiple face image augmentations whose embeddings are aggregated by a Transformer-Encoder. The resulting aggregated embedding is shown to better encode the face image attributes. We then propose a probabilistic hierarchical regression framework that combines a discrete probabilistic estimate of age labels, with a corresponding ensemble of regressors. Each regressor is particularly adapted and trained to refine the probabilistic estimate over a range of ages. Our scheme is shown to outperform contemporary schemes and provide a new state-of-the-art age estimation accuracy, when applied to the MORPH II dataset for age estimation. Last, we introduce a bias analysis of state-of-the-art age estimation results.
翻訳日:2021-03-20 07:46:59 公開日:2021-03-17
# (参考訳) 時空間データ分析システムに関する調査

A Survey on Spatio-temporal Data Analytics Systems ( http://arxiv.org/abs/2103.09883v1 )

ライセンス: CC BY 4.0
Md Mahbub Alam and Luis Torgo and Albert Bifet(参考訳) 空間的・空間的・空間的データ分析の分野では,時空間データ量の増加,位置情報サービスやアプリケーションの普及,さらには時空間データから抽出した知識の多岐にわたる実世界の問題を解決することの重要性から,研究・開発が盛んに行われている。 既存の研究の主な目標は、空間的あるいは時空間的なデータをキャプチャ、保存、管理、分析、可視化するアルゴリズムと技術を開発することである。 研究者たちは、既存のシステムに時空間サポートを追加するか、時空間データを処理するための新しいシステムを開発するか、時空間データをマイニングするためのアルゴリズムを実装するかのどちらかに貢献している。 既存の時空間・時空間データ分析のエコシステムは,(1)空間データベース(SQLとNoSQL),(2)大規模時空間データ処理基盤,(3)時空間データ処理のためのプログラミング言語とソフトウェアツールの3つのグループに分類される。 既存の調査は主に空間データを処理するためのビッグデータインフラストラクチャを調査しているため、この調査は空間データおよび時空間分析のエコシステム全体を調査し、また、大規模データ処理システムの最新のレビューを行っている。 この調査は、空間的および時空間的データ分析の重要性と将来を描いている。

Due to the surge of spatio-temporal data volume, the popularity of location-based services and applications, and the importance of extracted knowledge from spatio-temporal data to solve a wide range of real-world problems, a plethora of research and development work has been done in the area of spatial and spatio-temporal data analytics in the past decade. The main goal of existing works was to develop algorithms and technologies to capture, store, manage, analyze, and visualize spatial or spatio-temporal data. The researchers have contributed either by adding spatio-temporal support with existing systems, by developing a new system from scratch for processing spatio-temporal data, or by implementing algorithms for mining spatio-temporal data. The existing ecosystem of spatial and spatio-temporal data analytics can be categorized into three groups, (1) spatial databases (SQL and NoSQL), (2) big spatio-temporal data processing infrastructures, and (3) programming languages and software tools for processing spatio-temporal data. Since existing surveys mostly investigated big data infrastructures for processing spatial data, this survey has explored the whole ecosystem of spatial and spatio-temporal analytics along with an up-to-date review of big spatial data processing systems. This survey also portrays the importance and future of spatial and spatio-temporal data analytics.
翻訳日:2021-03-20 07:29:41 公開日:2021-03-17
# (参考訳) 市販畳み込みニューラルネットワークの未解決ポテンシャル [全文訳有]

The Untapped Potential of Off-the-Shelf Convolutional Neural Networks ( http://arxiv.org/abs/2103.09891v1 )

ライセンス: CC BY 4.0
Matthew Inkawhich, Nathan Inkawhich, Eric Davis, Hai Li and Yiran Chen(参考訳) 近年,多くの新しい畳み込みネットワークアーキテクチャが開発され,課題認識タスクの最先端性能が向上している。 計算資源の改善に伴い、既存の設計を効率的にスケールアップし、ニューラルアーキテクチャサーチ(NAS)アルゴリズムで新しいアーキテクチャを生成することに多大な努力が払われている。 ネットワークトポロジーはモデル性能にとって重要な要素であることが証明されているが、トポロジーを推論時に静的に保つことによって、かなりの利益がテーブルに残されていることを示している。 スケールの変動のような課題のため、トレーニングデータセット全体でうまく機能するように設定された静的モデルは、すべてのテストデータを扱うように最適に設定されるべきではない。 本研究では,推論時間動的モデルのエキサイティングな可能性を明らかにする。 resnet-50のような既存の既製のモデルでは、イメージネット上で95%以上の精度で構成を動的に変更することができる。 このレベルのパフォーマンスは現在、20倍以上のパラメータとはるかに複雑なトレーニング手順を持つモデルを上回る。

Over recent years, a myriad of novel convolutional network architectures have been developed to advance state-of-the-art performance on challenging recognition tasks. As computational resources improve, a great deal of effort has been placed in efficiently scaling up existing designs and generating new architectures with Neural Architecture Search (NAS) algorithms. While network topology has proven to be a critical factor for model performance, we show that significant gains are being left on the table by keeping topology static at inference-time. Due to challenges such as scale variation, we should not expect static models configured to perform well across a training dataset to be optimally configured to handle all test data. In this work, we seek to expose the exciting potential of inference-time-dynam ic models. By allowing just four layers to dynamically change configuration at inference-time, we show that existing off-the-shelf models like ResNet-50 are capable of over 95% accuracy on ImageNet. This level of performance currently exceeds that of models with over 20x more parameters and significantly more complex training procedures.
翻訳日:2021-03-20 07:28:27 公開日:2021-03-17
# (参考訳) ソースモデルとターゲットモデルがラベル空間をオーバーラップしない場合、ターゲット対向例の移動は可能か? [全文訳有]

Can Targeted Adversarial Examples Transfer When the Source and Target Models Have No Label Space Overlap? ( http://arxiv.org/abs/2103.09916v1 )

ライセンス: CC BY 4.0
Nathan Inkawhich, Kevin J Liang, Jingyang Zhang, Huanrui Yang, Hai Li, Yiran Chen(参考訳) 我々は,攻撃者のソースモデルとターゲットブラックボックスモデルがラベルスペースとトレーニングデータセットを持つ可能性がある環境に対して,ブラックボックス転送に基づく標的攻撃を設計する。 このシナリオは「標準的な」ブラックボックス設定とは大きく異なり、攻撃プロセスに対するユニークなアプローチを保証している。 我々の方法論は、ホワイトボックスとブラックボックスラベルセットの間のクラス対応行列の構築から始まります。 攻撃のオンラインフェーズでは、ホワイトボックス分布から高関連性の高いプロキシクラスの表現を活用し、ブラックボックスモデルを騙して望ましいターゲットクラスを予測する。 我々の攻撃は、3つの複雑で困難なテスト環境で評価され、ソースモデルとターゲットモデルには、それぞれのユニークなカテゴリ間に異なる概念的重複がある。 最終的に、オーバーラップしないラベル空間を持つモデル間のターゲット転送ベースの敵攻撃を構築することは実際に可能である。 また,クリーンデータの特性に対する攻撃成功の感度分析を行った。 最後に、クエリベースのメソッドと統合した場合、当社の転送攻撃は強力な敵の優先事項として機能し、クエリ効率と敵意的な成功を著しく高めていることを示します。

We design blackbox transfer-based targeted adversarial attacks for an environment where the attacker's source model and the target blackbox model may have disjoint label spaces and training datasets. This scenario significantly differs from the "standard" blackbox setting, and warrants a unique approach to the attacking process. Our methodology begins with the construction of a class correspondence matrix between the whitebox and blackbox label sets. During the online phase of the attack, we then leverage representations of highly related proxy classes from the whitebox distribution to fool the blackbox model into predicting the desired target class. Our attacks are evaluated in three complex and challenging test environments where the source and target models have varying degrees of conceptual overlap amongst their unique categories. Ultimately, we find that it is indeed possible to construct targeted transfer-based adversarial attacks between models that have non-overlapping label spaces! We also analyze the sensitivity of attack success to properties of the clean data. Finally, we show that our transfer attacks serve as powerful adversarial priors when integrated with query-based methods, markedly boosting query efficiency and adversarial success.
翻訳日:2021-03-20 07:10:53 公開日:2021-03-17
# (参考訳) コモディティieee 802.11acアクセスポイントを用いた環境と人別アクティビティ認識 [全文訳有]

Environment and Person Independent Activity Recognition with a Commodity IEEE 802.11ac Access Point ( http://arxiv.org/abs/2103.09924v1 )

ライセンス: CC BY 4.0
Francesca Meneghello, Domenico Garlisi, Nicol\`o Dal Fabbro, Ilenia Tinnirello, Michele Rossi(参考訳) 本稿では,市販のieee 802.11ac (wi-fi) デバイスを用いた人間行動認識 (har) のための独自のアプローチを提案する。 そこで我々は、WiFiチャネルのチャネル周波数応答(CFR)から受信した位相を抽出し、クリーン化し、処理する手法を考案し、通信リンクの受信機におけるドップラーシフトの推定値を得る。 ドップラーシフトは、(環境固有の)静的オブジェクトに影響されず、環境中の移動散乱体の存在を明らかにする。 提案したHARフレームワークは,4つの異なる活動を行うように収集されたデータに基づいてトレーニングされ,未確認のセットアップ上でテストされ,トレーニング時に考慮された人,日,環境の変化としての性能を評価する。 最悪の場合,提案手法は平均精度が95%以上に達し,ニューラルネットワークに基づく学習アルゴリズムと連動して抽出されたドップラー情報の有効性を検証した。

Here, we propose an original approach for human activity recognition (HAR) with commercial IEEE 802.11ac (WiFi) devices, which generalizes across different persons, days and environments. To achieve this, we devise a technique to extract, clean and process the received phases from the channel frequency response (CFR) of the WiFi channel, obtaining an estimate of the Doppler shift at the receiver of the communication link. The Doppler shift reveals the presence of moving scatterers in the environment, while not being affected by (environment specific) static objects. The proposed HAR framework is trained on data collected as a person performs four different activities and is tested on unseen setups, to assess its performance as the person, the day and/or the environment change with respect to those considered at training time. In the worst case scenario, the proposed HAR technique reaches an average accuracy higher than 95%, validating the effectiveness of the extracted Doppler information, used in conjunction with a learning algorithm based on a neural network, in recognizing human activities in a subject and environment independent fashion.
翻訳日:2021-03-20 06:49:21 公開日:2021-03-17
# (参考訳) 大権からプリンなしへ:初期英語文字における新しい単語の使用と使用 [全文訳有]

From Plenipotentiary to Puddingless: Users and Uses of New Words in Early English Letters ( http://arxiv.org/abs/2103.09926v1 )

ライセンス: CC BY 4.0
Tanja S\"aily, Eetu M\"akel\"a, Mika H\"am\"al\"ainen(参考訳) 1640年-1660年と1760年-1780年の2つの初期の英文通信の標本でネオロジズムの使用について検討した。 特有な関心は、新しい語彙の早期採用者、彼らが代表する社会集団、そして彼らのネオロジズムのタイプと機能である。 コンピュータ支援アプローチについて述べるとともに,コーパスの大規模変動に伴う問題点について述べる。 以上の結果から,男性文字ライターは女性よりもネオロジズムを頻繁に使用する傾向にあったが,18世紀には女性や下層階級もネオロジズムの使用に参加する機会が増えたと考えられる。 どちらのサンプルでも、親しい友人の間で書かれた手紙にネオロジズムが最も頻繁に起こるが、これはより創造的な言語の使用を引き起こす不安定な関係のためかもしれない。 17世紀のサンプルでは、イングランド内戦の影響を観察し、18世紀のサンプルは、情報交換に加えて社会関係の構築と維持のためのツールとして使われるようになっているため、手紙を書く機能の変化を反映しているように見える。

We study neologism use in two samples of early English correspondence, from 1640--1660 and 1760--1780. Of especial interest are the early adopters of new vocabulary, the social groups they represent, and the types and functions of their neologisms. We describe our computer-assisted approach and note the difficulties associated with massive variation in the corpus. Our findings include that while male letter-writers tend to use neologisms more frequently than women, the eighteenth century seems to have provided more opportunities for women and the lower ranks to participate in neologism use as well. In both samples, neologisms most frequently occur in letters written between close friends, which could be due to this less stable relationship triggering more creative language use. In the seventeenth-century sample, we observe the influence of the English Civil War, while the eighteenth-century sample appears to reflect the changing functions of letter-writing, as correspondence is increasingly being used as a tool for building and maintaining social relationships in addition to exchanging information.
翻訳日:2021-03-20 06:17:18 公開日:2021-03-17
# 線形関数近似を用いた無限ホリゾンオフライン強化学習:次元の呪いとアルゴリズム

Infinite-Horizon Offline Reinforcement Learning with Linear Function Approximation: Curse of Dimensionality and Algorithm ( http://arxiv.org/abs/2103.09847v1 )

ライセンス: Link先を確認
Lin Chen, Bruno Scherrer, Peter L. Bartlett(参考訳) 本稿では,線形関数近似を用いて,無限ホリゾンオフライン強化学習(オフポリシー評価問題とも呼ばれる)におけるポリシー評価のサンプル複雑性について検討する。 ハードレジーム $d\gamma^{2}>1$ を特定し、ここで$d$ は特徴ベクトルの次元、$\gamma$ はディスカウントレートである。 この方法では、任意の$q\in[\gamma^{2},1]$に対して、その特徴共分散行列の最小の固有値が$q/d$で$\omega\left(\frac{d}{\gamma^{2}\left(q-\gamma^{2}\right)\varepsilon^{2}}\exp\left(\theta\lef t(d\gamma^{2}\right)\right)\right )\right)$が付加誤差$\varepsilon$までの値関数を近似するハードインスタンスを構築することができる。 サンプルの複雑さの低い境界は$d$で指数関数的であることに注意。 もし$q=\gamma^{2}$なら、無限のデータでも十分ではない。 Under the low distribution shift assumption, we show that there is an algorithm that needs at most $O\left(\max\left\{ \frac{\left\Vert \theta^{\pi}\right\Vert _{2}^{4}}{\varepsilon^{4}}\log\frac{d}{\delta},\frac{1}{\varepsilon^{2}}\left(d+\log\frac{1}{\delta}\right)\right\} \right)$ samples ($\theta^{\pi}$ is the parameter of the policy in linear function approximation) and guarantees approximation to the value function up to an additive error of $\varepsilon$ with probability at least $1-\delta$.

In this paper, we investigate the sample complexity of policy evaluation in infinite-horizon offline reinforcement learning (also known as the off-policy evaluation problem) with linear function approximation. We identify a hard regime $d\gamma^{2}>1$, where $d$ is the dimension of the feature vector and $\gamma$ is the discount rate. In this regime, for any $q\in[\gamma^{2},1]$, we can construct a hard instance such that the smallest eigenvalue of its feature covariance matrix is $q/d$ and it requires $\Omega\left(\frac{d}{\gamma^{2}\left(q-\gamma^{2}\right)\varepsilon^{2}}\exp\left(\Theta\lef t(d\gamma^{2}\right)\right)\right )$ samples to approximate the value function up to an additive error $\varepsilon$. Note that the lower bound of the sample complexity is exponential in $d$. If $q=\gamma^{2}$, even infinite data cannot suffice. Under the low distribution shift assumption, we show that there is an algorithm that needs at most $O\left(\max\left\{ \frac{\left\Vert \theta^{\pi}\right\Vert _{2}^{4}}{\varepsilon^{4}}\log\frac{d}{\delta},\frac{1}{\varepsilon^{2}}\left(d+\log\frac{1}{\delta}\right)\right\} \right)$ samples ($\theta^{\pi}$ is the parameter of the policy in linear function approximation) and guarantees approximation to the value function up to an additive error of $\varepsilon$ with probability at least $1-\delta$.
翻訳日:2021-03-19 14:15:10 公開日:2021-03-17
# 機械ビジョンに基づく火星サンプルリターンのためのサンプルチューブ位置決め

Machine Vision based Sample-Tube Localization for Mars Sample Return ( http://arxiv.org/abs/2103.09942v1 )

ライセンス: Link先を確認
Shreyansh Daftry, Barry Ridge, William Seto, Tu-Hoa Pham, Peter Ilhardt, Gerard Maggiolino, Mark Van der Merwe, Alex Brinkman, John Mayo, Eric Kulczyski and Renaud Detry(参考訳) 火星サンプルリターン(MSR)アーキテクチャはNASAとESAが共同で研究している。 現在想定されているように、MSRキャンペーンはサンプルキャッシュ、フェッチ、地球への帰還という3つのミッションからなる。 本稿では,MSRのフェッチ部分に着目し,より具体的には火星表面に堆積した試料管を自律的に検出・位置決めする問題について述べる。 この目的に向けて,2つのマシンビジョンに基づくアプローチについて検討した。1つは,ハードコードされたフィルタとチューブの3次元形状モデルを用いたテンプレートマッチングに基づく幾何駆動アプローチ,もう1つは畳み込みニューラルネットワーク(cnns)と学習機能に基づくデータ駆動アプローチである。 さらに,サンプルチューブ画像の大規模ベンチマークデータセットを屋外の代表的な環境に収集し,グランド・トゥルーション・セグメンテーション・マスクと位置をアノテートした。 このデータセットは, 異なる地形, 照明条件, ダストカバーを体系的に取得し, それぞれのアプローチの実施可能性, 相対強度, 弱さ, 悪条件下でのロバスト性について, ベンチマークを行った。

A potential Mars Sample Return (MSR) architecture is being jointly studied by NASA and ESA. As currently envisioned, the MSR campaign consists of a series of 3 missions: sample cache, fetch and return to Earth. In this paper, we focus on the fetch part of the MSR, and more specifically the problem of autonomously detecting and localizing sample tubes deposited on the Martian surface. Towards this end, we study two machine-vision based approaches: First, a geometry-driven approach based on template matching that uses hard-coded filters and a 3D shape model of the tube; and second, a data-driven approach based on convolutional neural networks (CNNs) and learned features. Furthermore, we present a large benchmark dataset of sample-tube images, collected in representative outdoor environments and annotated with ground truth segmentation masks and locations. The dataset was acquired systematically across different terrain, illumination conditions and dust-coverage; and benchmarking was performed to study the feasibility of each approach, their relative strengths and weaknesses, and robustness in the presence of adverse environmental conditions.
翻訳日:2021-03-19 14:14:30 公開日:2021-03-17
# 自己知識蒸留によるタイムリダクション層と微調整を組み込んだトランス型asr

Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning with Self-Knowledge Distillation ( http://arxiv.org/abs/2103.09903v1 )

ライセンス: Link先を確認
Md Akmal Haidar, Chao Xing, Mehdi Rezagholizadeh(参考訳) 従来のASRとは異なり、エンドツーエンドの自動音声認識(ASR)では、音声エンコーダから意味表現を学ぶためのモジュールが存在しない。 さらに、高いフレームレートの音声表現は、モデルが意味表現を適切に学習することを妨げる。 したがって、音声エンコーダの低フレームレートで構築したモデルの方が性能が向上する。 Transformer ベースの ASR では、フレームレートが低いことは意味表現の学習だけでなく、学習と推論の両方において O(n^2) の複雑度を持つ自己認識機構による計算複雑性の低減にも重要である。 本稿では,従来のサブサンプリング法に加えて,トランスエンコーダ層内に時間削減層を組み込んだ時間低減層を持つトランスベースasrモデルを提案する。 これは、パフォーマンス改善を伴うトレーニングと推論のための自己注意プロセスの計算コストを削減するのに役立つ。 さらに、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。 LibriSpeechデータセットの実験により,提案手法が他のトランスフォーマーベースのASRシステムより優れていることが示された。 さらに,言語モデル(LM)の融合により,外部データなしで学習したパラメータがわずか3000万であるTransformerベースのASRモデルに対して,最先端の単語誤り率(WER)の新たな結果が得られる。

End-to-end automatic speech recognition (ASR), unlike conventional ASR, does not have modules to learn the semantic representation from speech encoder. Moreover, the higher frame-rate of speech representation prevents the model to learn the semantic representation properly. Therefore, the models that are constructed by the lower frame-rate of speech encoder lead to better performance. For Transformer-based ASR, the lower frame-rate is not only important for learning better semantic representation but also for reducing the computational complexity due to the self-attention mechanism which has O(n^2) order of complexity in both training and inference. In this paper, we propose a Transformer-based ASR model with the time reduction layer, in which we incorporate time reduction layer inside transformer encoder layers in addition to traditional sub-sampling methods to input features that further reduce the frame-rate. This can help in reducing the computational cost of the self-attention process for training and inference with performance improvement. Moreover, we introduce a fine-tuning approach for pre-trained ASR models using self-knowledge distillation (S-KD) which further improves the performance of our ASR model. Experiments on LibriSpeech datasets show that our proposed methods outperform all other Transformer-based ASR systems. Furthermore, with language model (LM) fusion, we achieve new state-of-the-art word error rate (WER) results for Transformer-based ASR models with just 30 million parameters trained without any external data.
翻訳日:2021-03-19 14:11:54 公開日:2021-03-17
# メタラーニングによる教師なしローカルルールの強化

Augmenting Supervised Learning by Meta-learning Unsupervised Local Rules ( http://arxiv.org/abs/2103.10252v1 )

ライセンス: Link先を確認
Jeffrey Cheng, Ari Benjamin, Benjamin Lansdell, Konrad Paul Kordin(参考訳) 脳は教師なし学習と(おそらく)教師なし学習を同時に行う。 これにより、教師なしメソッドと教師なしメソッドのハイブリッドがより良い学習をもたらすかどうかという疑問が持ち上がる。 ヘビアン学習規則の豊かな空間に触発され、教師なし学習規則を直接学習し、教師付き信号を最も強化するローカル情報について学習した。 本稿では,前シナプス活動,後シナプス活動,現在の重み付けに対する教師なしルールと勾配に基づく学習を組み合わせるためのhebbian-augmented training algorithm (hat)を提案する。 簡単な問題(Fashion-MNIST)に対するHATの効果を検証し,教師付き学習よりも一貫して高い性能を示す。 この発見は、教師なしのシナプス活動の学習が、勾配に基づく手法の強化に使用できる強いシグナルを与えるという実証的な証拠を提供する。 さらに,メタ学習更新規則は時間変化関数であるため,学習を支援する解釈可能なヘビアン更新規則を特定することは困難である。 メタラーナーは最終的に、学習者の収束を妨げないように重要な重みを保存する非ヘビーンの規則へと退化する。

The brain performs unsupervised learning and (perhaps) simultaneous supervised learning. This raises the question as to whether a hybrid of supervised and unsupervised methods will produce better learning. Inspired by the rich space of Hebbian learning rules, we set out to directly learn the unsupervised learning rule on local information that best augments a supervised signal. We present the Hebbian-augmented training algorithm (HAT) for combining gradient-based learning with an unsupervised rule on pre-synpatic activity, post-synaptic activities, and current weights. We test HAT's effect on a simple problem (Fashion-MNIST) and find consistently higher performance than supervised learning alone. This finding provides empirical evidence that unsupervised learning on synaptic activities provides a strong signal that can be used to augment gradient-based methods. We further find that the meta-learned update rule is a time-varying function; thus, it is difficult to pinpoint an interpretable Hebbian update rule that aids in training. We do find that the meta-learner eventually degenerates into a non-Hebbian rule that preserves important weights so as not to disturb the learner's convergence.
翻訳日:2021-03-19 14:11:16 公開日:2021-03-17
# Bias-Variance Decompositionによる対人訓練の一般化の理解

Understanding Generalization in Adversarial Training via the Bias-Variance Decomposition ( http://arxiv.org/abs/2103.09947v1 )

ライセンス: Link先を確認
Yaodong Yu, Zitong Yang, Edgar Dobriban, Jacob Steinhardt, Yi Ma(参考訳) 反対に訓練されたモデルは大きな一般化ギャップを示し、大きな摂動半径でもトレーニングセットを補間できるが、クリーンなサンプルでは大きなテストエラーが発生する。 このギャップを調査するために,テストリスクをバイアスと分散成分に分解する。 バイアスは摂動の大きさとともに単調に増加し、リスクの主要な用語であることがわかった。 一方、分散は単調であり、トレーニングセットの補間しきい値付近でピークとなる。 対照的に、一般化ギャップの一般的な説明は、代わりに分散が単調であると予測し、未解決のミステリーを残している。 同一の一様分散が単純な高次元ロジスティック回帰問題やランダム化平滑化問題にも現れることを示した。 全体としては、現代の設定におけるバイアス分散分解のパワーを強調します。2つの測定結果を提供することで、いくつかの理論を除外し、他の理論を明確にすることができます。

Adversarially trained models exhibit a large generalization gap: they can interpolate the training set even for large perturbation radii, but at the cost of large test error on clean samples. To investigate this gap, we decompose the test risk into its bias and variance components. We find that the bias increases monotonically with perturbation size and is the dominant term in the risk. Meanwhile, the variance is unimodal, peaking near the interpolation threshold for the training set. In contrast, we show that popular explanations for the generalization gap instead predict the variance to be monotonic, which leaves an unresolved mystery. We show that the same unimodal variance appears in a simple high-dimensional logistic regression problem, as well as for randomized smoothing. Overall, our results highlight the power of bias-variance decompositions in modern settings--by providing two measurements instead of one, they can rule out some theories and clarify others.
翻訳日:2021-03-19 14:10:07 公開日:2021-03-17
# コンピュータビジョンタスクのための画像のサイズ変更学習

Learning to Resize Images for Computer Vision Tasks ( http://arxiv.org/abs/2103.09950v1 )

ライセンス: Link先を確認
Hossein Talebi, Peyman Milanfar(参考訳) 近年、畳み込みニューラルネットワークがコンピュータビジョンに革命をもたらしたあらゆる方法において、画像サイズがトレーニング対象のタスクの精度に与える影響という、驚くほど重要な側面が注目されていない。 通常、効率性を高めるために、入力画像は比較的小さな空間解像度(例えば)にリサイズされる。 224×224)で、この解像度でトレーニングと推論の両方を行う。 つまり、bilinearやbicubicといった既製のイメージリザーは、ほとんどの機械学習ソフトウェアフレームワークで一般的に使用されています。 しかし、これらのリサイザーはトレーニングされたネットワークのタスク性能を制限するのだろうか? 答えはイエスです。 実際、典型的な線形リサイザは、性能を大幅に向上できる学習されたリサイザに置き換えることができる。 重要なことは、古典的リサイザーは一般的にダウンスケール画像の知覚的品質が向上するのに対し、学習されたリサイザーは必ずしも視覚的品質が向上するだけでなく、タスク性能が向上する。 我々の学習画像復調器はベースライン視覚モデルで共同で訓練されている。 この学習されたCNNベースのリサイザは、ベースラインモデルよりも終端タスクメトリックを一貫した改善をもたらす、マシンフレンドリーな視覚操作を生成する。 具体的には、imagenetデータセットによる分類タスクに注目し、4つの異なるモデルを用いて各モデルに適応したリシライザを学習する。 さらに,提案手法は,他の視覚タスクの分類ベースラインの微調整にも有用であることを示す。 そこで我々は,AVAデータセット上で画像品質評価(IQA)モデルを開発するために,3種類のベースラインを実験した。

For all the ways convolutional neural nets have revolutionized computer vision in recent years, one important aspect has received surprisingly little attention: the effect of image size on the accuracy of tasks being trained for. Typically, to be efficient, the input images are resized to a relatively small spatial resolution (e.g. 224x224), and both training and inference are carried out at this resolution. The actual mechanism for this re-scaling has been an afterthought: Namely, off-the-shelf image resizers such as bilinear and bicubic are commonly used in most machine learning software frameworks. But do these resizers limit the on task performance of the trained networks? The answer is yes. Indeed, we show that the typical linear resizer can be replaced with learned resizers that can substantially improve performance. Importantly, while the classical resizers typically result in better perceptual quality of the downscaled images, our proposed learned resizers do not necessarily give better visual quality, but instead improve task performance. Our learned image resizer is jointly trained with a baseline vision model. This learned CNN-based resizer creates machine friendly visual manipulations that lead to a consistent improvement of the end task metric over the baseline model. Specifically, here we focus on the classification task with the ImageNet dataset, and experiment with four different models to learn resizers adapted to each model. Moreover, we show that the proposed resizer can also be useful for fine-tuning the classification baselines for other vision tasks. To this end, we experiment with three different baselines to develop image quality assessment (IQA) models on the AVA dataset.
翻訳日:2021-03-19 14:09:27 公開日:2021-03-17
# Bias-free FedGAN

Bias-Free FedGAN ( http://arxiv.org/abs/2103.09876v1 )

ライセンス: Link先を確認
Vaikkunth Mugunthan, Vignesh Gokul, Lalana Kagal, Shlomo Dubnov(参考訳) Federated Generative Adversarial Network (FedGAN)は、クライアントが機密データを共有することなく、分散クライアント間でGANをトレーニングするための通信効率のよいアプローチである。 本稿では,FedGANが非独立分散(非ID)環境下でバイアスデータを生成することを示す。 また,FedGANを用いてバイアスのない合成データセットを生成する手法であるBias-Free FedGANを提案する。 Bias-Free FedGANはFedGANと同じ通信コストを持つ。 画像データセット(MNISTとFashionMNIST)の実験結果から,我々の主張を裏付ける。

Federated Generative Adversarial Network (FedGAN) is a communication-effici ent approach to train a GAN across distributed clients without clients having to share their sensitive training data. In this paper, we experimentally show that FedGAN generates biased data points under non-independent-and- identically-distribu ted (non-iid) settings. Also, we propose Bias-Free FedGAN, an approach to generate bias-free synthetic datasets using FedGAN. Bias-Free FedGAN has the same communication cost as that of FedGAN. Experimental results on image datasets (MNIST and FashionMNIST) validate our claims.
翻訳日:2021-03-19 14:06:46 公開日:2021-03-17
# 顔のタトゥーと絵画が顔認識システムに与える影響

Impact of Facial Tattoos and Paintings on Face Recognition Systems ( http://arxiv.org/abs/2103.09939v1 )

ライセンス: Link先を確認
Mathias Ibsen, Christian Rathgeb, Thomas Fink, Pawel Drozdowski, Christoph Busch(参考訳) 近年、深層畳み込みニューラルネットワークの最近の進歩により、顔認識技術は印象的な認識性能を示している。 これらの改善にもかかわらず、顔認識システムの性能に影響を与えるいくつかの課題は残っている。 本研究では,顔タトゥーや絵画が現在の顔認識システムに与える影響について検討する。 そこで我々はまず,顔タトゥーや絵画のない人物のイメージペアを含む適切なデータベースを収集した。 顔のタトゥーや絵画が顔の検出、品質推定、顔認証システムの特徴抽出と比較モジュールにどのように影響するかを評価するために構築されたデータベースを用いた。 これらのモジュールに対する影響は、最先端のオープンソースおよび商用システムを用いて評価された。 その結果、顔の入れ墨や絵は、特に顔の広い部分をタトゥーや絵で覆っている画像に対して、全てのテストモジュールに影響を及ぼすことがわかった。 我々の研究は初期のケーススタディであり、顔の入れ墨や絵画による視覚的変化に対して堅牢なアルゴリズムを設計する必要があることを示している。

In the past years, face recognition technologies have shown impressive recognition performance, mainly due to recent developments in deep convolutional neural networks. Notwithstanding those improvements, several challenges which affect the performance of face recognition systems remain. In this work, we investigate the impact that facial tattoos and paintings have on current face recognition systems. To this end, we first collected an appropriate database containing image-pairs of individuals with and without facial tattoos or paintings. The assembled database was used to evaluate how facial tattoos and paintings affect the detection, quality estimation, as well as the feature extraction and comparison modules of a face recognition system. The impact on these modules was evaluated using state-of-the-art open-source and commercial systems. The obtained results show that facial tattoos and paintings affect all the tested modules, especially for images where a large area of the face is covered with tattoos or paintings. Our work is an initial case-study and indicates a need to design algorithms which are robust to the visual changes caused by facial tattoos and paintings.
翻訳日:2021-03-19 14:04:11 公開日:2021-03-17
# 高速・高品位ブラインドマルチスペクトル画像パンシャープ

Fast and High-Quality Blind Multi-Spectral Image Pansharpening ( http://arxiv.org/abs/2103.09943v1 )

ライセンス: Link先を確認
Lantao Yu, Dehong Liu, Hassan Mansour, Petros T. Boufounos(参考訳) Blind Pansharpeningは、低空間分解能マルチスペクトル (LRMS) 画像が与えられた高空間分解能マルチスペクトル (HRMS) 画像を生成する問題に対処する。 本稿では,ブラインドパンシャーピングへの高速アプローチを提案し,最先端の画像再構成品質を実現する。 典型的なブラインドパンシャーピングアルゴリズムは、ぼやけたカーネルとターゲットのHRMSイメージが反復的な解法を用いて、交互に計算されるため、しばしば計算集約的である。 高速なブラインドパンシャープ化を実現するため,ブラーカーネルの解とHRMS画像の解を分離する。 まず,おおよそLRMS画像チャネルの線形結合を近似するために,PAN画像のサンプル化バージョンをぼかしたカーネル係数を最小の総一般化変動で計算することにより,ボケカーネルを推定する。 そして,各HRMSチャネルとPAN画像の関係を正規化するために,局所ラプラシアンを用いてHRMS画像の各チャネルを推定する。 HRMS画像の解法は、チャネル間の並列化と各チャネルの高速数値アルゴリズムの両方によって加速される。 高速なスキームと強力なプリエントにより,我々はボケカーネル係数 (総一般化変動) とクロスチャネル関係 (局所ラプラシアンプリエント) を用いて数値実験を行い,hrms画像の計算時間と再構成品質の両方において,アルゴリズムが最先端モデルベースよりも優れていることを示した。

Blind pansharpening addresses the problem of generating a high spatial-resolution multi-spectral (HRMS) image given a low spatial-resolution multi-spectral (LRMS) image with the guidance of its associated spatially misaligned high spatial-resolution panchromatic (PAN) image without parametric side information. In this paper, we propose a fast approach to blind pansharpening and achieve state-of-the-art image reconstruction quality. Typical blind pansharpening algorithms are often computationally intensive since the blur kernel and the target HRMS image are often computed using iterative solvers and in an alternating fashion. To achieve fast blind pansharpening, we decouple the solution of the blur kernel and of the HRMS image. First, we estimate the blur kernel by computing the kernel coefficients with minimum total generalized variation that blur a downsampled version of the PAN image to approximate a linear combination of the LRMS image channels. Then, we estimate each channel of the HRMS image using local Laplacian prior to regularize the relationship between each HRMS channel and the PAN image. Solving the HRMS image is accelerated by both parallelizing across the channels and by fast numerical algorithms for each channel. Due to the fast scheme and the powerful priors we used on the blur kernel coefficients (total generalized variation) and on the cross-channel relationship (local Laplacian prior), numerical experiments demonstrate that our algorithm outperforms state-of-the-art model-based counterparts in terms of both computational time and reconstruction quality of the HRMS images.
翻訳日:2021-03-19 14:03:56 公開日:2021-03-17
# 同型暗号化線形コンテキスト帯域

Homomorphically Encrypted Linear Contextual Bandit ( http://arxiv.org/abs/2103.09927v1 )

ライセンス: Link先を確認
Evrard Garcelon and Vianney Perchet and Matteo Pirotta(参考訳) context banditは、レコメンデーションシステム、オンライン広告、臨床試験など、さまざまなドメインで応用されているシーケンシャルな意思決定問題における、オンライン学習の一般的なフレームワークである。 banditメソッドの重要な側面は、シーケンシャルな問題を解決するために、個々のデータやグループレベルのデータといったコンテキストと報酬を観察する必要があることです。 産業アプリケーションにおける大規模なデプロイメントは、ユーザのプライバシを保護する方法への関心を高めている。 本稿では,非対称暗号に基づくプライバシー保護バンディットフレームワークを提案する。 banditアルゴリズムは暗号化された情報(コンテキストと報酬)のみを観察し、それを解読する能力を持たない。 準同型暗号を活用することで,設定の複雑さにもかかわらず,暗号化データから学習することができることを示す。 我々は,データを暗号化したまま,任意の線形コンテキストの盗聴問題に対して,$\widetilde{O}(d\sqrt{T})$ regretboundを実現するアルゴリズムを導入する。

Contextual bandit is a general framework for online learning in sequential decision-making problems that has found application in a large range of domains, including recommendation system, online advertising, clinical trials and many more. A critical aspect of bandit methods is that they require to observe the contexts -- i.e., individual or group-level data -- and the rewards in order to solve the sequential problem. The large deployment in industrial applications has increased interest in methods that preserve the privacy of the users. In this paper, we introduce a privacy-preserving bandit framework based on asymmetric encryption. The bandit algorithm only observes encrypted information (contexts and rewards) and has no ability to decrypt it. Leveraging homomorphic encryption, we show that despite the complexity of the setting, it is possible to learn over encrypted data. We introduce an algorithm that achieves a $\widetilde{O}(d\sqrt{T})$ regret bound in any linear contextual bandit problem, while keeping data encrypted.
翻訳日:2021-03-19 13:57:26 公開日:2021-03-17
# 音声認識のためのRNNトランスデューサ技術

Advancing RNN Transducer Technology for Speech Recognition ( http://arxiv.org/abs/2103.09935v1 )

ライセンス: Link先を確認
George Saon, Zoltan Tueske, Daniel Bolanos and Brian Kingsbury(参考訳) 3つのタスク(Switchboard 300時間, スペイン語 780時間, イタリア語 900時間)における単語誤り率の低下に寄与するRNNトランスデューサ(RNN-Ts)の手法について検討した。 この技術は、アーキテクチャの変更、話者適応、言語モデルの融合、モデルの組み合わせ、一般的なトレーニングレシピに関するものである。 まず、結合ネットワークにおけるエンコーダと予測ネットワークベクトルの(加算とは対照的に)新たな乗算積分を導入する。 第2に、データ摂動を伴うRNN-Tへのi-vector話者適応の適用性について論じる。 第3に,最近提案された密度比言語モデル融合の有効性について検討する。 最後に、トレーニングレシピの他の構成要素とその認識性能への影響について述べる。 我々は、NIST Hub5 2000評価のSwitchboardおよびCallHomeテストセットで5.9%と12.5%のワードエラー率、Mozilla CommonVoice Italyテストセットで12.7%のWERを報告した。

We investigate a set of techniques for RNN Transducers (RNN-Ts) that were instrumental in lowering the word error rate on three different tasks (Switchboard 300 hours, conversational Spanish 780 hours and conversational Italian 900 hours). The techniques pertain to architectural changes, speaker adaptation, language model fusion, model combination and general training recipe. First, we introduce a novel multiplicative integration of the encoder and prediction network vectors in the joint network (as opposed to additive). Second, we discuss the applicability of i-vector speaker adaptation to RNN-Ts in conjunction with data perturbation. Third, we explore the effectiveness of the recently proposed density ratio language model fusion for these tasks. Last but not least, we describe the other components of our training recipe and their effect on recognition performance. We report a 5.9% and 12.5% word error rate on the Switchboard and CallHome test sets of the NIST Hub5 2000 evaluation and a 12.7% WER on the Mozilla CommonVoice Italian test set.
翻訳日:2021-03-19 13:55:45 公開日:2021-03-17
# IRLI: インデックス学習のための反復的再分割

IRLI: Iterative Re-partitioning for Learning to Index ( http://arxiv.org/abs/2103.09944v1 )

ライセンス: Link先を確認
Gaurav Gupta, Tharun Medini, Anshumali Shrivastava, Alexander J Smola(参考訳) ニューラルネットワークは、クエリーを巨大な項目集合にマッピングする基本的な情報検索問題を変換した。 しかし、効率的で低レイテンシな推論の必要性により、コミュニティはアイテム空間における近接探索を効率よく再考せざるを得ない。 この目的のために、インデックスへの学習は近年大きな関心を集めている。 分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。 我々はIRLI(early)と呼ばれる新しい手法を提案し、クエリ・イテム関連データから直接関連するバケットを学習することでアイテムを反復的に分割する。 さらにIRLIは、$$$$の優れたロードバランシング戦略を採用している。 我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。 IRLIは、マルチラベル分類における最高のベースラインの精度を上回り、推論の速度は5x$である。 近隣の探索タスクでは、同じリコールに対して候補の ~ {1/6}^th しか必要とせず、最先端のLearted HashingアプローチであるNeuralLSHより優れている。 IRLIはデータとモデル並列の両方であり、分散GPU実装に最適である。 1億の高密度ベクトルをインデクシングし、人気の高いFAISSライブラリを10%以上リコールすることで、この利点を実証する。

Neural models have transformed the fundamental information retrieval problem of mapping a query to a giant set of items. However, the need for efficient and low latency inference forces the community to reconsider efficient approximate near-neighbor search in the item space. To this end, learning to index is gaining much interest in recent times. Methods have to trade between obtaining high accuracy while maintaining load balance and scalability in distributed settings. We propose a novel approach called IRLI (pronounced `early'), which iteratively partitions the items by learning the relevant buckets directly from the query-item relevance data. Furthermore, IRLI employs a superior power-of-$k$-choices based load balancing strategy. We mathematically show that IRLI retrieves the correct item with high probability under very natural assumptions and provides superior load balancing. IRLI surpasses the best baseline's precision on multi-label classification while being $5x$ faster on inference. For near-neighbor search tasks, the same method outperforms the state-of-the-art Learned Hashing approach NeuralLSH by requiring only ~ {1/6}^th of the candidates for the same recall. IRLI is both data and model parallel, making it ideal for distributed GPU implementation. We demonstrate this advantage by indexing 100 million dense vectors and surpassing the popular FAISS library by >10% on recall.
翻訳日:2021-03-19 13:53:11 公開日:2021-03-17
# (参考訳) マルチプライズ抽選券仮説:ランダム重み付きネットワークを用いた正確なバイナリニューラルネットワークの探索 [全文訳有]

Multi-Prize Lottery Ticket Hypothesis: Finding Accurate Binary Neural Networks by Pruning A Randomly Weighted Network ( http://arxiv.org/abs/2103.09377v1 )

ライセンス: CC BY 4.0
James Diffenderfer, Bhavya Kailkhura(参考訳) frankle & carbin (2019) は、ランダムに初期化された密集ネットワークが、訓練された密集ネットワークに匹敵するテスト精度に達するように訓練できるサブネットワークを含むことを示した。 しかし、これらの高い性能のトレーニング可能なサブネットの発見は高価であり、トレーニングと刈り取りの反復的なプロセスが必要である。 本稿では,ランダム重みを持つ十分に過小評価されたニューラルネットワークは,いくつかのサブネットワーク (勝利チケット) を含み, (a) 学習重みを持つ密集したターゲットネットワークと同等の精度(プライズ1), (b) 賞1(プライズ2), (c) 極端な量子化(バイナリ重みと/またはアクティベーション)に頑健である,という,より強力なマルチプライズ抽選チケット仮説を提案し,実証する。 これは、ランダムに重み付けされた完全精度ニューラルネットワークを量子化することによって、コンパクトで高精度なバイナリニューラルネットワークを学習するための新しいパラダイムを提供する。 また,CIFAR-10 および ImageNet データセットを用いて,マルチプライズチケット (MPT) の探索とテストを行うアルゴリズムを提案する。 実験の結果、モデルがより深く、より広くなるにつれて、多目的チケットは、重量訓練済みの非常に大きくて完全な精度を持つチケットと比較して、同様の(時には高い)テスト精度に到達し始めることが示されている。 重量値を更新することなく、当社のmpts-1/32は、新たなバイナリ重みネットワークであるstate-of-the-art (sota) top-1の精度を、cifar-10では94.8%、imagenetでは74.03%と設定しました。 さらに,我々のMPT-1/1は,CIFAR-10上でのバイナリニューラルネットワークのSOTA Top-1精度(91.9%)を達成する。 コードと事前トレーニングされたモデルは以下の通りである。

Recently, Frankle & Carbin (2019) demonstrated that randomly-initialized dense networks contain subnetworks that once found can be trained to reach test accuracy comparable to the trained dense network. However, finding these high performing trainable subnetworks is expensive, requiring iterative process of training and pruning weights. In this paper, we propose (and prove) a stronger Multi-Prize Lottery Ticket Hypothesis: A sufficiently over-parameterized neural network with random weights contains several subnetworks (winning tickets) that (a) have comparable accuracy to a dense target network with learned weights (prize 1), (b) do not require any further training to achieve prize 1 (prize 2), and (c) is robust to extreme forms of quantization (i.e., binary weights and/or activation) (prize 3). This provides a new paradigm for learning compact yet highly accurate binary neural networks simply by pruning and quantizing randomly weighted full precision neural networks. We also propose an algorithm for finding multi-prize tickets (MPTs) and test it by performing a series of experiments on CIFAR-10 and ImageNet datasets. Empirical results indicate that as models grow deeper and wider, multi-prize tickets start to reach similar (and sometimes even higher) test accuracy compared to their significantly larger and full-precision counterparts that have been weight-trained. Without ever updating the weight values, our MPTs-1/32 not only set new binary weight network state-of-the-art (SOTA) Top-1 accuracy -- 94.8% on CIFAR-10 and 74.03% on ImageNet -- but also outperform their full-precision counterparts by 1.78% and 0.76%, respectively. Further, our MPT-1/1 achieves SOTA Top-1 accuracy (91.9%) for binary neural networks on CIFAR-10. Code and pre-trained models are available at: https://github.com/c hrundle/biprop.
翻訳日:2021-03-18 22:24:55 公開日:2021-03-17
# (参考訳) SPICE:イメージクラスタリングのための意味的な擬似ラベル [全文訳有]

SPICE: Semantic Pseudo-labeling for Image Clustering ( http://arxiv.org/abs/2103.09382v1 )

ライセンス: CC BY 4.0
Chuang Niu and Ge Wang(参考訳) 本稿では,画像ClustEringのためのセマンティックな擬似ラベルフレームワークSPICEを提案する。 最近提案された手法で要求される間接的損失関数の代わりに、SPICEは自己学習により擬似ラベルを生成し、擬似ラベルに基づく分類損失を直接使用して深層クラスタリングネットワークを訓練する。 SPICEの基本的な考え方は、セマンティッククラスタ間の相違、インスタンスサンプル間の類似性、および埋め込み空間におけるローカルサンプルのセマンティック一貫性を相乗化して、セマンティック駆動のパラダイムでクラスタネットワークを最適化することである。 具体的には、意味相似性に基づく擬似ラベルアルゴリズムが最初に提案され、教師なし表現学習を通じてクラスタリングネットワークを訓練する。 初期クラスタリング結果から, 局所的セマンティック一貫性原理を用いて, 確実にラベル付けされたサンプルの集合を選択し, 半擬似ラベルアルゴリズムを性能向上に適用する。 大規模な実験により、SPICEはSTL10、Cifar10、Cifar100-20、ImageNet-10、ImageNet-Dog、Tiny-ImageNetを含む6つの一般的なベンチマークデータセットにおいて、最先端の手法よりも明らかに優れていることが示された。 また,SPICE法では,調整済みランドインデックス,正規化相互情報,クラスタリング精度などの観点から,現在の最適値を約10%改善する。

This paper presents SPICE, a Semantic Pseudo-labeling framework for Image ClustEring. Instead of using indirect loss functions required by the recently proposed methods, SPICE generates pseudo-labels via self-learning and directly uses the pseudo-label-based classification loss to train a deep clustering network. The basic idea of SPICE is to synergize the discrepancy among semantic clusters, the similarity among instance samples, and the semantic consistency of local samples in an embedding space to optimize the clustering network in a semantically-driven paradigm. Specifically, a semantic-similarity- based pseudo-labeling algorithm is first proposed to train a clustering network through unsupervised representation learning. Given the initial clustering results, a local semantic consistency principle is used to select a set of reliably labeled samples, and a semi-pseudo-labeling algorithm is adapted for performance boosting. Extensive experiments demonstrate that SPICE clearly outperforms the state-of-the-art methods on six common benchmark datasets including STL10, Cifar10, Cifar100-20, ImageNet-10, ImageNet-Dog, and Tiny-ImageNet. On average, our SPICE method improves the current best results by about 10% in terms of adjusted rand index, normalized mutual information, and clustering accuracy.
翻訳日:2021-03-18 21:36:33 公開日:2021-03-17
# (参考訳) GAN評価の課題と課題 : 新たな展開 [全文訳有]

Pros and Cons of GAN Evaluation Measures: New Developments ( http://arxiv.org/abs/2103.09396v1 )

ライセンス: CC BY 4.0
Ali Borji(参考訳) この研究は数年前に発表された同じトピックに関する以前の論文の更新である。 生成モデリングの劇的な進歩により、モデルを評価するための新しい量的および質的なテクニックが出現した。 インセプションスコア、Fr'echet Inception Distance、Precision-Recall、Perceptual Path Longthなどの指標は比較的人気があるが、GAN評価は解決された問題ではなく改善の余地がある。 例えば、合成画像の品質と多様性に加えて、生成モデルはバイアスと公平性の観点から評価されるべきである。 モデル評価において重要になっている新しい次元について述べ、GAN評価とディープフェイクの関係について論じる。

This work is an update of a previous paper on the same topic published a few years ago. With the dramatic progress in generative modeling, a suite of new quantitative and qualitative techniques to evaluate models has emerged. Although some measures such as Inception Score, Fr\'echet Inception Distance, Precision-Recall, and Perceptual Path Length are relatively more popular, GAN evaluation is not a settled issue and there is still room for improvement. For example, in addition to quality and diversity of synthesized images, generative models should be evaluated in terms of bias and fairness. I describe new dimensions that are becoming important in assessing models, and discuss the connection between GAN evaluation and deepfakes.
翻訳日:2021-03-18 21:11:21 公開日:2021-03-17
# (参考訳) OGB-LSC - グラフによる機械学習の大規模課題 [全文訳有]

OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs ( http://arxiv.org/abs/2103.09430v1 )

ライセンス: CC BY 4.0
Weihua Hu, Matthias Fey, Hongyu Ren, Maho Nakata, Yuxiao Dong, Jure Leskovec(参考訳) 大規模グラフデータ(例えば数十億のエッジを持つグラフ)上での効率的かつ効率的な機械学習(ML)は、産業的および科学的な応用に大きな影響を与える可能性がある。 しかし、大規模なグラフMLを推進しようとするコミュニティの努力は、適切な公開ベンチマークが欠如しているため、著しく制限されている。 KDDカップ2021では,大規模グラフMLの最先端化を目的とした3つの実世界のデータセットのコレクションであるOGB-LSCを提案する。 OGB-LSCは、既存のものよりも桁違い大きく、リンク予測、グラフ回帰、ノード分類の3つのコアグラフ学習タスクをカバーするグラフデータセットを提供する。 さらに、OGB-LSCは、表現力のあるグラフMLモデルを巨大なデータセットにスケールアップする専用のベースライン実験を提供する。 表現力のあるモデルは、単純なスケーラブルなベースラインを著しく上回り、グラフMLを大規模に改善する専用の取り組みの機会を示す。 データセットとベースラインコードは、OGBイニシアチブの一部としてリリースされ、メンテナンスされています(Hu et al., 2020)。 KDDカップ2021のOGB-LSCによって、大規模なグラフMLの革新的なソリューションがコミュニティに発見できるようになることを願っている。

Enabling effective and efficient machine learning (ML) over large-scale graph data (e.g., graphs with billions of edges) can have a huge impact on both industrial and scientific applications. However, community efforts to advance large-scale graph ML have been severely limited by the lack of a suitable public benchmark. For KDD Cup 2021, we present OGB Large-Scale Challenge (OGB-LSC), a collection of three real-world datasets for advancing the state-of-the-art in large-scale graph ML. OGB-LSC provides graph datasets that are orders of magnitude larger than existing ones and covers three core graph learning tasks -- link prediction, graph regression, and node classification. Furthermore, OGB-LSC provides dedicated baseline experiments, scaling up expressive graph ML models to the massive datasets. We show that the expressive models significantly outperform simple scalable baselines, indicating an opportunity for dedicated efforts to further improve graph ML at scale. Our datasets and baseline code are released and maintained as part of our OGB initiative (Hu et al., 2020). We hope OGB-LSC at KDD Cup 2021 can empower the community to discover innovative solutions for large-scale graph ML.
翻訳日:2021-03-18 20:44:29 公開日:2021-03-17
# (参考訳) グラフニューラルネットワークを用いたPose-GNN : カメラポーズ推定システム [全文訳有]

Pose-GNN : Camera Pose Estimation System Using Graph Neural Networks ( http://arxiv.org/abs/2103.09435v1 )

ライセンス: CC BY 4.0
Ahmed Elmoogy, Xiaodai Dong, Tao Lu, Robert Westendorp, Kishore Reddy(参考訳) 本稿では,グラフニューラルネットワーク(GNN)を用いた画像に基づく新たなローカライゼーションシステムを提案する。 resnet50 convolutional neural network (cnn)アーキテクチャは、各画像の重要な特徴を抽出するために使用される。 次に抽出した特徴をGNNに入力し、グラフ内のノードとして画像特徴を用いて各画像のポーズを見つけ、ポーズ推定問題をノードポーズ回帰として定式化し、画像特徴自体をグラフとしてモデル化し、グラフポーズ回帰となる。 提案する2つのアプローチとアート・シングル・イメージ・ローカライズ法を広範囲に比較し,gnnの使用が室内および屋外の環境におけるパフォーマンスの向上に寄与することを示す。

We propose a novel image based localization system using graph neural networks (GNN). The pretrained ResNet50 convolutional neural network (CNN) architecture is used to extract the important features for each image. Following, the extracted features are input to GNN to find the pose of each image by either using the image features as a node in a graph and formulate the pose estimation problem as node pose regression or modelling the image features themselves as a graph and the problem becomes graph pose regression. We do an extensive comparison between the proposed two approaches and the state of the art single image localization methods and show that using GNN leads to enhanced performance for both indoor and outdoor environments.
翻訳日:2021-03-18 20:24:07 公開日:2021-03-17
# (参考訳) 3次元車検出のためのカメラLiDARモデルの逆攻撃 [全文訳有]

Adversarial Attacks on Camera-LiDAR Models for 3D Car Detection ( http://arxiv.org/abs/2103.09448v1 )

ライセンス: CC BY 4.0
Mazen Abdelfattah, Kaiwen Yuan, Z. Jane Wang, and Rabab Ward(参考訳) ほとんどの自動運転車(AV)は知覚のためにLiDARとRGBカメラセンサーに依存している。 これらの点雲と画像データを用いて、ディープニューラルネット(DNN)に基づく知覚モデルは、3D検出において最先端のパフォーマンスを達成した。 逆境攻撃に対するdnnの脆弱性は、rgbイメージドメインと近年のpoint cloudドメインでよく研究されてきたが、両方のドメインを同時に扱うことは稀である。 avsで使用されるマルチモーダル知覚システムは、それぞれのモーダリティを独立に使用するカスケードモデルと、異なるモーダリティから同時に学習する融合モデルという2つの幅広いタイプに分けられる。 我々は,各タイプに対する普遍的かつ物理的に実現可能な敵攻撃を提案し,その脆弱性を攻撃と対比する。 本研究では,車体上に特定の形状とテクスチャを持つ1つの対向物体を配置し,車体検出を回避した。 一般的なKITTIベンチマークに基づいて、我々の敵対対象は、各モデルタイプ毎の50%近い時間で、ホスト車両の脱出を検知した。 密度の高いRGB入力は、カスケードモデルと融合モデルの両方に対する敵攻撃の成功に寄与した。 その結果,核融合モデルの方が敵攻撃に対して比較的堅牢であることが判明した。

Most autonomous vehicles (AVs) rely on LiDAR and RGB camera sensors for perception. Using these point cloud and image data, perception models based on deep neural nets (DNNs) have achieved state-of-the-art performance in 3D detection. The vulnerability of DNNs to adversarial attacks have been heavily investigated in the RGB image domain and more recently in the point cloud domain, but rarely in both domains simultaneously. Multi-modal perception systems used in AVs can be divided into two broad types: cascaded models which use each modality independently, and fusion models which learn from different modalities simultaneously. We propose a universal and physically realizable adversarial attack for each type, and study and contrast their respective vulnerabilities to attacks. We place a single adversarial object with specific shape and texture on top of a car with the objective of making this car evade detection. Evaluating on the popular KITTI benchmark, our adversarial object made the host vehicle escape detection by each model type nearly 50% of the time. The dense RGB input contributed more to the success of the adversarial attacks on both cascaded and fusion models. We found that the fusion model was relatively more robust to adversarial attacks than the cascaded model.
翻訳日:2021-03-18 20:08:13 公開日:2021-03-17
# (参考訳) 高現実性仮想トライオンにおける絡み合ったサイクル一貫性 [全文訳有]

Disentangled Cycle Consistency for Highly-realistic Virtual Try-On ( http://arxiv.org/abs/2103.09479v1 )

ライセンス: CC BY 4.0
Chongjian Ge, Yibing Song, Yuying Ge, Han Yang, Wei Liu and Ping Luo(参考訳) Image Virtual try-onは、人画像上の服を、希望する着物画像に置き換える。 人とショップ内服がペアリングされていないため、難しいです。 既存の方法は、仮想トライオンをインペイントまたはサイクル一貫性として定式化する。 これら2つの定式化は、世代ネットワークが自己監督的な方法で入力画像を再構築することを奨励する。 しかし、既存の方法は衣服や非着用地域を区別しない。 ストレートフォワード生成は、画像内容が重結合しているため、仮想試行品質を損なう。 本稿では,DCTON(Disentangled Cycle-Consistency Try-On Network)を提案する。 DCTONは、衣服のワープ、皮膚合成、画像合成を含む仮想トライオンの重要なコンポーネントをアンサングルすることで、高現実的な試行画像を生成することができる。 この目的のために、DCTONはサイクル整合学習の後、自然に自己指導的に訓練することができる。 挑戦的なベンチマークに関する大規模な実験は、DCTONが最先端のアプローチより優れていることを示している。

Image virtual try-on replaces the clothes on a person image with a desired in-shop clothes image. It is challenging because the person and the in-shop clothes are unpaired. Existing methods formulate virtual try-on as either in-painting or cycle consistency. Both of these two formulations encourage the generation networks to reconstruct the input image in a self-supervised manner. However, existing methods do not differentiate clothing and non-clothing regions. A straight-forward generation impedes virtual try-on quality because of the heavily coupled image contents. In this paper, we propose a Disentangled Cycle-consistency Try-On Network (DCTON). The DCTON is able to produce highly-realistic try-on images by disentangling important components of virtual try-on including clothes warping, skin synthesis, and image composition. To this end, DCTON can be naturally trained in a self-supervised manner following cycle consistency learning. Extensive experiments on challenging benchmarks show that DCTON outperforms state-of-the-art approaches favorably.
翻訳日:2021-03-18 19:53:58 公開日:2021-03-17
# (参考訳) 物体検出における損失重量調整の再検討 [全文訳有]

Revisiting the Loss Weight Adjustment in Object Detection ( http://arxiv.org/abs/2103.09488v1 )

ライセンス: CC BY 4.0
Wenxin Yu, Bin Hu, Yucheng Hu, Tianxiang Lan, Yuanfan You, Dong Yin(参考訳) 定義上、オブジェクト検出は分類と回帰タスクを同時に解決するためにマルチタスクの損失を必要とする。 しかし、損失重量は実際に手動で設定される傾向がある。 したがって、これまで研究されていない非常に実践的な問題は、現在の損失関数に適合する損失重みを素早く見つける方法である。 さらに、異なる回帰損失関数を選択する場合、損失の重みを調整する必要があるかどうか、もしそうであれば、どのように調整すべきかが課題となる。 本稿では,予測ボックスシフトに関する実験と理論的解析を通じて,(1)回帰損失曲線が回帰損失曲線よりも早く減衰する,(2)損失重量が1未満である、(3)分類と回帰損失重量の差が大きすぎるべきではない、という3つの重要な結論を見出す。 そこで, 上記の結論に基づいて, 損失値の統計的特性に応じて, トレーニング過程における損失重みを動的に調整することにより, 上記の2つの問題を解決する適応的損失重み調整(ALWA)を提案する。 ALWAを1段および2段のオブジェクト検出器に組み込むことで,L1,SmoothL1,CIoU損失,PASCALVOC,MS COCOなどの一般的なオブジェクト検出ベンチマークの性能評価などを用いて,それらの性能を一貫した改善を示す。 コードはhttps://github.com/y wx-hub/ALWAで公開されている。

By definition, object detection requires a multi-task loss in order to solve classification and regression tasks simultaneously. However, loss weight tends to be set manually in actuality. Therefore, a very practical problem that has not been studied so far arises: how to quickly find the loss weight that fits the current loss functions. In addition, when we choose different regression loss functions, whether the loss weight need to be adjusted and if so, how should it be adjusted still is a problem demanding prompt solution. In this paper, through experiments and theoretical analysis of prediction box shifting, we firstly find out three important conclusions about optimal loss weight allocation strategy, including (1) the classification loss curve decays faster than regression loss curve; (2) loss weight is less than 1; (3) the gap between classification and regression loss weight should not be too large. Then, based on the above conclusions, we propose an Adaptive Loss Weight Adjustment(ALWA) to solve the above two problems by dynamically adjusting the loss weight in the training process, according to statistical characteristics of loss values. By incorporating ALWA into both one-stage and two-stage object detectors, we show a consistent improvement on their performance using L1, SmoothL1 and CIoU loss, performance measures on popular object detection benchmarks including PASCAL VOC and MS COCO. The code is available at https://github.com/y wx-hub/ALWA.
翻訳日:2021-03-18 19:37:53 公開日:2021-03-17
# (参考訳) PredRNN:時空間予測学習のためのリカレントニューラルネットワーク [全文訳有]

PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning ( http://arxiv.org/abs/2103.09504v1 )

ライセンス: CC BY 4.0
unbo Wang, Haixu Wu, Jianjin Zhang, Zhifeng Gao, Jianmin Wang, Philip S. Yu, Mingsheng Long(参考訳) 時空間列の予測学習は、歴史的文脈から学習することで将来の画像を生成することを目的としており、視覚力学は構成サブシステムで学習できるモジュラー構造を持つと考えられている。 本稿では,2つのメモリセルを明示的に分離し,ほぼ独立な遷移方式で動作し,最終的に複雑な環境の統一表現を形成する,新しいリカレントネットワークであるPredRNNを提示することによって,これらの構造をモデル化する。 具体的には、LSTMの元々のメモリセルに加えて、このネットワークは、すべての層にわたってボトムアップ方向とトップダウン方向の両方を伝播するジグザグメモリフローによって特徴付けられる。 また、メモリ分離損失を利用して、メモリセルが冗長な機能を学ぶのを防ぐ。 予測学習シナリオにおいて、ほとんどのシーケンス間RNNに一般化できる新しいカリキュラム学習戦略により、PredRNNをさらに改善する。 各成分の有効性を検証するため,詳細なアブレーション研究,勾配解析,可視化を行う。 提案手法は, 人工移動MNISTデータセット, KTH人行動データセット, 降水予測のためのレーダエコーデータセットの3つの標準データセットに対して, 高い競合性が得られることを示す。

The predictive learning of spatiotemporal sequences aims to generate future images by learning from the historical context, where the visual dynamics are believed to have modular structures that can be learned with compositional subsystems. This paper models these structures by presenting PredRNN, a new recurrent network, in which a pair of memory cells are explicitly decoupled, operate in nearly independent transition manners, and finally form unified representations of the complex environment. Concretely, besides the original memory cell of LSTM, this network is featured by a zigzag memory flow that propagates in both bottom-up and top-down directions across all layers, enabling the learned visual dynamics at different levels of RNNs to communicate. It also leverages a memory decoupling loss to keep the memory cells from learning redundant features. We further improve PredRNN with a new curriculum learning strategy, which can be generalized to most sequence-to-sequence RNNs in predictive learning scenarios. We provide detailed ablation studies, gradient analyses, and visualizations to verify the effectiveness of each component. We show that our approach obtains highly competitive results on three standard datasets: the synthetic Moving MNIST dataset, the KTH human action dataset, and a radar echo dataset for precipitation forecasting.
翻訳日:2021-03-18 19:20:36 公開日:2021-03-17
# (参考訳) グローバル道路損傷検出のためのCNNモデルとチューニング [全文訳有]

CNN Model & Tuning for Global Road Damage Detection ( http://arxiv.org/abs/2103.09512v1 )

ライセンス: CC BY-SA 4.0
Rahul Vishwakarma and Ravigopal Vennelakanti (Hitachi America Ltd. R&D)(参考訳) 本稿では,Global Road Damage Detection Challengeにおいて得られたモデル選択,チューニング戦略,および結果を含むソリューションについて報告する。 このBig Data Cup Challengeは、IEEE International Conference on Big Data 2020の一部として開催された。 我々は、オブジェクト検出のためのシングルステージおよびマルチステージネットワークアーキテクチャを評価し、Tectron2やYolov5のような最先端のオープンソースのPyTorchフレームワークを使用したベンチマークを提供する。 チェコ、インド、日本のスマートフォンカメラを用いた道路被害訓練データセットのデータ準備について述べる。 本研究では,1つの一般化可能なモデルに対して,国ごとのトレーニングの効果を検討した。 本稿では,Deep Residual Network (Resnet) とFeature Pyramid Network (FPN) のバックボーンを用いた2段高速R-CNN実験のチューニング戦略について述べる。 さらに、これをクロスステージ部分ネットワーク(cspnet)バックボーンを持つ1段階のyolov5モデルと比較する。 テスト2では平均F1スコアが0.542、テスト1では0.536と、Resnet-50とResnet-101のバックボーンを持つマルチステージの高速R-CNNモデルを用いて示す。 これはResnet-50モデルのより複雑なモデルと比較して一般化可能であることを示している。 k80を持つgoogle colabと1080tiのnvidia consumer grade gpuを備えたlinux pcを用いて実験を行った。 PyTorch ベースの Detectron2 コードによる Avg F1 スコアの事前処理、トレーニング、テスト、提出は https://github.com/v ishwakarmarhl/rdd202 0 で行われている。

This paper provides a report on our solution including model selection, tuning strategy and results obtained for Global Road Damage Detection Challenge. This Big Data Cup Challenge was held as a part of IEEE International Conference on Big Data 2020. We assess single and multi-stage network architectures for object detection and provide a benchmark using popular state-of-the-art open-source PyTorch frameworks like Detectron2 and Yolov5. Data preparation for provided Road Damage training dataset, captured using smartphone camera from Czech, India and Japan is discussed. We studied the effect of training on a per country basis with respect to a single generalizable model. We briefly describe the tuning strategy for the experiments conducted on two-stage Faster R-CNN with Deep Residual Network (Resnet) and Feature Pyramid Network (FPN) backbone. Additionally, we compare this to a one-stage Yolov5 model with Cross Stage Partial Network (CSPNet) backbone. We show a mean F1 score of 0.542 on Test2 and 0.536 on Test1 datasets using a multi-stage Faster R-CNN model, with Resnet-50 and Resnet-101 backbones respectively. This shows the generalizability of the Resnet-50 model when compared to its more complex counterparts. Experiments were conducted using Google Colab having K80 and a Linux PC with 1080Ti, NVIDIA consumer grade GPU. A PyTorch based Detectron2 code to preprocess, train, test and submit the Avg F1 score to is made available at https://github.com/v ishwakarmarhl/rdd202 0
翻訳日:2021-03-18 18:28:25 公開日:2021-03-17
# (参考訳) 文字認識のためのプール層のメタラーニング [全文訳有]

Meta-learning of Pooling Layers for Character Recognition ( http://arxiv.org/abs/2103.09528v1 )

ライセンス: CC BY-SA 4.0
Takato Otsuzuki, Heon Song, Seiichi Uchida, Hideaki Hayashi(参考訳) 畳み込みニューラルネットワークに基づく文字認識では、プール層は次元減少と変形補償において重要な役割を果たす。 しかし、そのカーネル形状とプーリング操作は実験的に規定されており、通常、固定サイズの正方形カーネル形状と最大プーリング操作が使用される。 本稿では,層をプールするメタラーニングフレームワークを提案する。 このフレームワークでは,2つのパラメータを用いてカーネル形状とプーリング操作を学習可能なパラメータ化プーリング層を提案し,入力データのフレキシブルプーリングを可能にした。 また,複数のタスクにまたがって適切なプーリング層を得ることができるパラメータ化プーリング層のメタラーニングアルゴリズムを提案する。 実験では,提案するメタラーニングフレームワークを文字認識タスクに適用した。 その結果、メタラーニングにより文字認識タスクに適合するプーリング層が得られ、得られたプーリング層は、少ない文字認識と騒がしい画像認識タスクの両方において、モデルの性能を改善した。

In convolutional neural network-based character recognition, pooling layers play an important role in dimensionality reduction and deformation compensation. However, their kernel shapes and pooling operations are empirically predetermined; typically, a fixed-size square kernel shape and max pooling operation are used. In this paper, we propose a meta-learning framework for pooling layers. As part of our framework, a parameterized pooling layer is proposed in which the kernel shape and pooling operation are trainable using two parameters, thereby allowing flexible pooling of the input data. We also propose a meta-learning algorithm for the parameterized pooling layer, which allows us to acquire a suitable pooling layer across multiple tasks. In the experiment, we applied the proposed meta-learning framework to character recognition tasks. The results demonstrate that a pooling layer that is suitable across character recognition tasks was obtained via meta-learning, and the obtained pooling layer improved the performance of the model in both few-shot character recognition and noisy image recognition tasks.
翻訳日:2021-03-18 18:16:20 公開日:2021-03-17
# (参考訳) パープレキシティによるFact-Checking [全文訳有]

Towards Few-Shot Fact-Checking via Perplexity ( http://arxiv.org/abs/2103.09535v1 )

ライセンス: CC BY 4.0
Nayeon Lee, Yejin Bang, Andrea Madotto, Madian Khabsa, Pascale Fung(参考訳) データ不足の問題を克服するために、研究者の注意を惹きつけるものは少ない。 近年,大規模事前学習型言語モデルが,質問応答や機械翻訳など,下流タスクの少数学習において優れた性能を示している。 それにもかかわらず、ファクトチェックタスクの少ない学習を達成するための調査はほとんど行われていない。 しかし、特にオンライン情報量が毎日指数関数的に増えている場合、ファクトチェックは重要な問題である。 本稿では,パープレキシティスコアを用いた言語モデルの強力な伝達学習能力を活用するための新しい手法を提案する。 私たちの方法論の最も注目すべき強みは、わずかな学習の能力です。 2つのトレーニングサンプルだけで、我々の方法論は、複数のデータセットにわたるF1-Macroメトリックで、すでにMajor Classのベースラインを10%以上上回ることができる。 実験を通じて,事実チェックの文脈において,かなり驚くべきパープレキシティスコアの使用可能性を検証するとともに,強固な微調整ベースのベースラインモデルと比較することにより,マイナショット手法の強みを強調する。 さらに、COVID-19に関連する2つの新しいファクトチェックデータセットを構築し、公開します。

Few-shot learning has drawn researchers' attention to overcome the problem of data scarcity. Recently, large pre-trained language models have shown great performance in few-shot learning for various downstream tasks, such as question answering and machine translation. Nevertheless, little exploration has been made to achieve few-shot learning for the fact-checking task. However, fact-checking is an important problem, especially when the amount of information online is growing exponentially every day. In this paper, we propose a new way of utilizing the powerful transfer learning ability of a language model via a perplexity score. The most notable strength of our methodology lies in its capability in few-shot learning. With only two training samples, our methodology can already outperform the Major Class baseline by more than absolute 10% on the F1-Macro metric across multiple datasets. Through experiments, we empirically verify the plausibility of the rather surprising usage of the perplexity score in the context of fact-checking and highlight the strength of our few-shot methodology by comparing it to strong fine-tuning-based baseline models. Moreover, we construct and publicly release two new fact-checking datasets related to COVID-19.
翻訳日:2021-03-18 18:00:45 公開日:2021-03-17
# (参考訳) 絶滅危惧言語はローソースではない! [全文訳有]

Endangered Languages are not Low-Resourced! ( http://arxiv.org/abs/2103.09567v1 )

ライセンス: CC BY 4.0
Mika H\"am\"al\"ainen(参考訳) ローソース(low-resource)という用語は、自然言語処理の分野では、英語ではない言語をほとんど「ローソース(low-resource)」と呼ぶ程度に投げかけられている。 英語が言語と同義語であり、低リソースが英語以外のものと同義語である分野においては、絶滅危惧言語を低リソースと呼ぶことは少し過大評価される。 本稿では,自分自身の経験から発生するリスクと低リソースの関係について検討する。

The term low-resourced has been tossed around in the field of natural language processing to a degree that almost any language that is not English can be called "low-resourced"; sometimes even just for the sake of making a mundane or mediocre paper appear more interesting and insightful. In a field where English is a synonym for language and low-resourced is a synonym for anything not English, calling endangered languages low-resourced is a bit of an overstatement. In this paper, I inspect the relation of the endangered with the low-resourced from my own experiences.
翻訳日:2021-03-18 17:42:32 公開日:2021-03-17
# (参考訳) 正規化行動値推定 [全文訳有]

Regularized Behavior Value Estimation ( http://arxiv.org/abs/2103.09575v1 )

ライセンス: CC BY 4.0
Caglar Gulcehre, Sergio G\'omez Colmenarejo, Ziyu Wang, Jakub Sygnowski, Thomas Paine, Konrad Zolna, Yutian Chen, Matthew Hoffman, Razvan Pascanu, Nando de Freitas(参考訳) オフライン強化学習は、環境にアクセスせずにログデータのみに依存する学習プロセスを制限する。 これは現実世界のアプリケーションを可能にするが、ユニークな課題もある。 重要な課題の1つは、トレーニングデータによってカバーされていない状態-作用ペアの値の過大評価によるエラーの処理である。 ブートストラップのため、これらのエラーはトレーニング中に増幅され、発散につながり、学習を損なう。 この課題を克服するために,正規化行動値推定(r-bve)を導入する。 訓練中の政策改善を利用するほとんどのアプローチとは異なり、R-BVEは訓練中の行動ポリシーの価値を推定し、展開時にのみ政策改善を行う。 さらに、R-BVEはランキング正規化用語を使用し、データセットのアクションを好んで結果が成功する。 RL Unplugged ATARIデータセットの最先端性能を含む,R-BVEの有効性の実証的な証拠を多数提供する。 我々はまた、bsuiteや挑戦的なDeepMind Labタスクなど、新しいデータセット上でR-BVEをテストし、R-BVEが他の最先端の個別制御オフラインRLメソッドよりも優れていることを示す。

Offline reinforcement learning restricts the learning process to rely only on logged-data without access to an environment. While this enables real-world applications, it also poses unique challenges. One important challenge is dealing with errors caused by the overestimation of values for state-action pairs not well-covered by the training data. Due to bootstrapping, these errors get amplified during training and can lead to divergence, thereby crippling learning. To overcome this challenge, we introduce Regularized Behavior Value Estimation (R-BVE). Unlike most approaches, which use policy improvement during training, R-BVE estimates the value of the behavior policy during training and only performs policy improvement at deployment time. Further, R-BVE uses a ranking regularisation term that favours actions in the dataset that lead to successful outcomes. We provide ample empirical evidence of R-BVE's effectiveness, including state-of-the-art performance on the RL Unplugged ATARI dataset. We also test R-BVE on new datasets, from bsuite and a challenging DeepMind Lab task, and show that R-BVE outperforms other state-of-the-art discrete control offline RL methods.
翻訳日:2021-03-18 17:28:30 公開日:2021-03-17
# (参考訳) スカース・ラベル地域における作物の効率的な分類法 [全文訳有]

An Efficient Method for the Classification of Croplands in Scarce-Label Regions ( http://arxiv.org/abs/2103.09588v1 )

ライセンス: CC BY 4.0
Houtan Ghaffari(参考訳) 衛星時系列画像による農地分類の主な課題は、地表面データ不足と、未開発地域における高品質のハイパースペクトル画像の到達不能である。 ラベルなしの中解像度衛星画像は豊富だが、その恩恵を受けるにはオープンな問題だ。 自監督タスクを用いた作物分類におけるその可能性の活用方法を示す。 自己スーパービジョン(self-supervision)は、データ構造から明らかな、サンプルに対する単純なトレーニング信号を提供するアプローチである。 したがって、データに関する単純な概念を入手して説明するのが安価である。 我々は,作物分類の自己監督タスクを3つ導入する。 その結果,SVMやランダムフォレストと比較して,広範囲な環境下での精度が向上した。 その後、自己監督タスクを使用して、非教師なし領域適応を行い、他の領域のラベル付きサンプルから利益を得る。 パフォーマンスの劣化を避けるためには、転送する情報を知ることが重要です。 原産地と対象地域が全く異なる特徴分布であっても,作物分類における情報選択・移動プロセスの自動化方法を示す。 対象ドメインにラベル付きサンプルを含まないベースラインアーキテクチャと比較して,モデルを約24%改善した。 提案手法は, 衛星画像の高解像度化に有効であり, 複雑なモデルを必要としない。 コードとデータは利用可能である。

Two of the main challenges for cropland classification by satellite time-series images are insufficient ground-truth data and inaccessibility of high-quality hyperspectral images for under-developed areas. Unlabeled medium-resolution satellite images are abundant, but how to benefit from them is an open question. We will show how to leverage their potential for cropland classification using self-supervised tasks. Self-supervision is an approach where we provide simple training signals for the samples, which are apparent from the data's structure. Hence, they are cheap to acquire and explain a simple concept about the data. We introduce three self-supervised tasks for cropland classification. They reduce epistemic uncertainty, and the resulting model shows superior accuracy in a wide range of settings compared to SVM and Random Forest. Subsequently, we use the self-supervised tasks to perform unsupervised domain adaptation and benefit from the labeled samples in other regions. It is crucial to know what information to transfer to avoid degrading the performance. We show how to automate the information selection and transfer process in cropland classification even when the source and target areas have a very different feature distribution. We improved the model by about 24% compared to a baseline architecture without any labeled sample in the target domain. Our method is amenable to gradual improvement, works with medium-resolution satellite images, and does not require complicated models. Code and data are available.
翻訳日:2021-03-18 16:44:58 公開日:2021-03-17
# (参考訳) ソーシャルメディアにおける画像分析の役割について [全文訳有]

On the Role of Images for Analyzing Claims in Social Media ( http://arxiv.org/abs/2103.09602v1 )

ライセンス: CC BY 4.0
Gullal S. Cheema and Sherzod Hakimov and Eric M\"uller-Budack and Ralph Ewerth(参考訳) フェイクニュースはソーシャルメディアでは深刻な問題だ。 本稿では,クレーム,クレームチェック性,共謀検出の課題に対する視覚的,テクスト的,マルチモーダルモデルに関する経験的研究を行い,これら全ては偽ニュースの検出に関連する。 最近の研究は、画像はテキストよりも影響力があり、しばしば偽のテキストと共に現れることを示唆している。 この目的のために、Twitterなどのソーシャルメディアサイトで、画像とテキストを使って偽ニュースを検出するマルチモーダルモデルが近年提案されている。 しかしながら、画像の役割はクレーム検出、特にトランスフォーマティブベースのテキストモデルやマルチモーダルモデルではよく理解されていない。 画像やテキスト(トランスフォーマーベース)、マルチモーダル情報を2つの言語にまたがる4つのデータセットの最先端モデルを調査し、クレームや共謀検出のタスクにおける画像の役割を理解する。

Fake news is a severe problem in social media. In this paper, we present an empirical study on visual, textual, and multimodal models for the tasks of claim, claim check-worthiness, and conspiracy detection, all of which are related to fake news detection. Recent work suggests that images are more influential than text and often appear alongside fake text. To this end, several multimodal models have been proposed in recent years that use images along with text to detect fake news on social media sites like Twitter. However, the role of images is not well understood for claim detection, specifically using transformer-based textual and multimodal models. We investigate state-of-the-art models for images, text (Transformer-based), and multimodal information for four different datasets across two languages to understand the role of images in the task of claim and conspiracy detection.
翻訳日:2021-03-18 16:34:00 公開日:2021-03-17
# (参考訳) 推論と従来の性格評価:我々は同じことを予測しているのか?

Inferred vs traditional personality assessment: are we predicting the same thing? ( http://arxiv.org/abs/2103.09632v1 )

ライセンス: CC BY 4.0
Pavel Novikov, Larisa Mararitsa, Victor Nozdrachev(参考訳) 機械学習手法は、研究者によってデジタルレコードから心理的特徴を予測するために広く用いられている。 自動パーソナリティ推定が原形質の性質を維持するかどうかを明らかにするため,最近の220件の論文をレビューした。 まず、トレーニング、検証、テストフェーズの分離を宣言する研究のサブセットから予測品質推定をまとめ、機械学習における品質推定の正確性を保証するために重要となる。 レビューされた論文の20%はこの基準を満たした。 報告された品質推定値を比較するために, 近似ピアソン相関に変換した。 予測と自己報告のパーソナリティ特性の相関に対する信頼性の高い上限は、特定の特性によって 0.42 から 0.48 の範囲で異なる。 得られた値は、異なる自己申告アンケートで測定された特徴の相関よりもかなり低い。 このことは,個性予測を本来の特徴の推定として容易に解釈できないこと,あるいは予測された個性特性が生活成果との既知の関係を定期的に再現することを期待できないことを示唆している。 次に,予測形質の心理測定特性の証拠と品質評価を補完する。 既往の結果から,予測特性は時間とともに安定せず,自己報告人格よりも有効性が低いことが示唆された。 予測テキストベースのモデルは、トレーニングドメインの外では大幅に悪化するが、ランダムなベースラインの上に留まる。 予測形質と外部変数の関係に関する証拠は混在している。 予測機能は、事前仮説が欠如しているため、検証に使用するのが難しい。 したがって、予測された性格特性は元の特性の重要な特性を保持できない。 これにより、慎重な使用と予測モデルのターゲット検証が求められます。

Machine learning methods are widely used by researchers to predict psychological characteristics from digital records. To find out whether automatic personality estimates retain the properties of the original traits, we reviewed 220 recent articles. First, we put together the predictive quality estimates from a subset of the studies which declare separation of training, validation, and testing phases, which is critical for ensuring the correctness of quality estimates in machine learning. Only 20% of the reviewed papers met this criterion. To compare the reported quality estimates, we converted them to approximate Pearson correlations. The credible upper limits for correlations between predicted and self-reported personality traits vary in a range between 0.42 and 0.48, depending on the specific trait. The achieved values are substantially below the correlations between traits measured with distinct self-report questionnaires. This suggests that we cannot readily interpret personality predictions as estimates of the original traits or expect predicted personality traits to reproduce known relationships with life outcomes regularly. Next, we complement quality estimates evaluation with evidence on psychometric properties of predicted traits. The few existing results suggest that predicted traits are less stable with time and have lower effective dimensionality than self-reported personality. The predictive text-based models perform substantially worse outside their training domains but stay above a random baseline. The evidence on the relationships between predicted traits and external variables is mixed. Predictive features are difficult to use for validation, due to the lack of prior hypotheses. Thus, predicted personality traits fail to retain important properties of the original characteristics. This calls for the cautious use and targeted validation of the predictive models.
翻訳日:2021-03-18 16:14:42 公開日:2021-03-17
# (参考訳) UniParma @SemEval 2021 Task 5: CharacterBERT と Bag-of-Words モデルを用いた毒性スパーン検出 [全文訳有]

UniParma @ SemEval 2021 Task 5: Toxic Spans Detection Using CharacterBERT and Bag-of-Words Model ( http://arxiv.org/abs/2103.09645v1 )

ライセンス: CC BY 4.0
Akbar Karimi, Leonardo Rossi, Andrea Prati(参考訳) デジタル情報の可用性がますます高まる中、有害なコンテンツも増えている。 したがって、この種の言語の検出は最重要事項である。 我々は、最先端の事前学習言語モデル(characterbert)と従来の単語の袋技術を組み合わせて、この問題に取り組む。 内容は辞書の綴りで書かれていない有毒な言葉でいっぱいなので、個々の文字への出席が不可欠である。 そこで,キャラクタバートを用いて単語キャラクタに基づく特徴抽出を行う。 コンテキストから文字の埋め込みを学習する characterCNN モジュールで構成されている。 これらは、よく知られたBERTアーキテクチャに供給される。 一方、バグ・オブ・ワードズ法では、頻繁に使われる有毒な単語が適切にラベル付けされるようにすることで、さらに改善されている。

With the ever-increasing availability of digital information, toxic content is also on the rise. Therefore, the detection of this type of language is of paramount importance. We tackle this problem utilizing a combination of a state-of-the-art pre-trained language model (CharacterBERT) and a traditional bag-of-words technique. Since the content is full of toxic words that have not been written according to their dictionary spelling, attendance to individual characters is crucial. Therefore, we use CharacterBERT to extract features based on the word characters. It consists of a CharacterCNN module that learns character embeddings from the context. These are, then, fed into the well-known BERT architecture. The bag-of-words method, on the other hand, further improves upon that by making sure that some frequently used toxic words get labeled accordingly.
翻訳日:2021-03-18 16:13:04 公開日:2021-03-17
# (参考訳) 機械学習におけるset-to-sequenceメソッド

Set-to-Sequence Methods in Machine Learning: a Review ( http://arxiv.org/abs/2103.09656v1 )

ライセンス: CC BY 4.0
Mateusz Jurewicz, Leon Str{\o}mberg-Derczynski(参考訳) 逐次出力に向けた集合の機械学習は重要かつユビキタスなタスクであり、言語モデリングやメタラーニングからマルチエージェント戦略ゲーム、電力グリッド最適化まで幅広い応用がある。 表現学習と構造化予測の要素を組み合わせることで、その主な課題は意味のある置換不変集合表現を取得し、その後、この表現を利用して複雑なターゲット置換を出力することである。 本稿では,この分野の包括的紹介と,これら2つの重要な課題に取り組む重要な機械学習手法の概要と,選択したモデルアーキテクチャの詳細な質的比較について述べる。

Machine learning on sets towards sequential output is an important and ubiquitous task, with applications ranging from language modelling and meta-learning to multi-agent strategy games and power grid optimization. Combining elements of representation learning and structured prediction, its two primary challenges include obtaining a meaningful, permutation invariant set representation and subsequently utilizing this representation to output a complex target permutation. This paper provides a comprehensive introduction to the field as well as an overview of important machine learning methods tackling both of these key challenges, with a detailed qualitative comparison of selected model architectures.
翻訳日:2021-03-18 16:07:13 公開日:2021-03-17
# (参考訳) 感情認識のためのマルチモーダルエンドツーエンドスパースモデル [全文訳有]

Multimodal End-to-End Sparse Model for Emotion Recognition ( http://arxiv.org/abs/2103.09666v1 )

ライセンス: CC BY 4.0
Wenliang Dai, Samuel Cahyawijaya, Zihan Liu, Pascale Fung(参考訳) 感情認識などのマルチモーダル感情コンピューティングタスクの既存の作業は、一般的には2相パイプラインを採用し、まず手作りのアルゴリズムで各モダリティの特徴表現を抽出し、次に抽出された特徴を使ってエンドツーエンドの学習を行う。 しかし、抽出された特徴は固定されており、異なる目標タスクに対してさらに微調整することはできず、手動で特徴抽出アルゴリズムは異なるタスクに対して一般化やスケールができないため、サブ最適性能につながる可能性がある。 本稿では,これら2つのフェーズを接続し,協調的に最適化する完全エンドツーエンドモデルを開発した。 さらに、現在のデータセットを再構築して、完全なエンドツーエンドトレーニングを可能にします。 さらに,エンド・ツー・エンドモデルによる計算オーバーヘッドを低減するため,特徴抽出のための疎クロスモーダル注意機構を導入する。 実験の結果,本モデルが2相パイプラインに基づく最先端モデルを大幅に上回ることがわかった。 さらに,スリムなクロスモーダル注意を追加することで,特徴抽出部における計算量の約半分で性能を維持できる。

Existing works on multimodal affective computing tasks, such as emotion recognition, generally adopt a two-phase pipeline, first extracting feature representations for each single modality with hand-crafted algorithms and then performing end-to-end learning with the extracted features. However, the extracted features are fixed and cannot be further fine-tuned on different target tasks, and manually finding feature extraction algorithms does not generalize or scale well to different tasks, which can lead to sub-optimal performance. In this paper, we develop a fully end-to-end model that connects the two phases and optimizes them jointly. In addition, we restructure the current datasets to enable the fully end-to-end training. Furthermore, to reduce the computational overhead brought by the end-to-end model, we introduce a sparse cross-modal attention mechanism for the feature extraction. Experimental results show that our fully end-to-end model significantly surpasses the current state-of-the-art models based on the two-phase pipeline. Moreover, by adding the sparse cross-modal attention, our model can maintain performance with around half the computation in the feature extraction part.
翻訳日:2021-03-18 16:05:57 公開日:2021-03-17
# (参考訳) ShipSRDet:超解像表現を用いたエンドツーエンドリモートセンシング船検知装置 [全文訳有]

ShipSRDet: An End-to-End Remote Sensing Ship Detector Using Super-Resolved Feature Representation ( http://arxiv.org/abs/2103.09699v1 )

ライセンス: CC BY 4.0
Shitian He, Huanxin Zou, Yingqian Wang, Runlin Li, Fei Cheng(参考訳) 高解像度リモートセンシング画像は船舶検出に豊富な外観情報を提供することができる。 既存のいくつかの手法では、画像超解像(SR)アプローチを用いて検出性能を向上させるが、画像SRと船体検出を2つの別々のプロセスとみなし、これらの2つの相関タスク間の内部コヒーレンスを見落としている。 本稿では,画像SRが船舶検出にもたらす潜在的な利点について検討し,ShipSRDetというエンドツーエンドネットワークを提案する。 本手法では,超解像画像を検出器に供給するだけでなく,srネットワークの中間特性と検出ネットワークの機能を統合する。 これにより、SRネットワークによって抽出された情報的特徴表現を船体検出に活用することができる。 本手法の有効性をHRSCデータセットで検証した。 船体は入力画像から失われた詳細を復元し、有望な船舶検出性能を達成する。

High-resolution remote sensing images can provide abundant appearance information for ship detection. Although several existing methods use image super-resolution (SR) approaches to improve the detection performance, they consider image SR and ship detection as two separate processes and overlook the internal coherence between these two correlated tasks. In this paper, we explore the potential benefits introduced by image SR to ship detection, and propose an end-to-end network named ShipSRDet. In our method, we not only feed the super-resolved images to the detector but also integrate the intermediate features of the SR network with those of the detection network. In this way, the informative feature representation extracted by the SR network can be fully used for ship detection. Experimental results on the HRSC dataset validate the effectiveness of our method. Our ShipSRDet can recover the missing details from the input image and achieves promising ship detection performance.
翻訳日:2021-03-18 15:49:53 公開日:2021-03-17
# (参考訳) KNN分類のためのZ距離関数 [全文訳有]

Z Distance Function for KNN Classification ( http://arxiv.org/abs/2103.09704v1 )

ライセンス: CC BY 4.0
Shichao Zhang and Jiaye Li(参考訳) 本稿では,KNN分類のための新しい距離距離関数であるZ距離を提案する。 Z 距離関数は、2つのデータポイント間の幾何学的直線距離ではない。 データポイント間の親和性を測定する際に、トレーニングデータセットのクラス属性について考慮する。 具体的には、2つのデータポイントのz距離は、クラス中心距離と実距離を含む。 形は「z」のように見える。 このように、同じクラス内の2つのデータポイントの親和性は、常に異なるクラスよりも強い。 あるいは、クラス内のデータポイントは、クラス間のデータポイントよりも常に近い。 我々は実験によりZ距離を評価し,提案した距離関数がKNN分類においてより良い性能を示した。

This paper proposes a new distance metric function, called Z distance, for KNN classification. The Z distance function is not a geometric direct-line distance between two data points. It gives a consideration to the class attribute of a training dataset when measuring the affinity between data points. Concretely speaking, the Z distance of two data points includes their class center distance and real distance. And its shape looks like "Z". In this way, the affinity of two data points in the same class is always stronger than that in different classes. Or, the intraclass data points are always closer than those interclass data points. We evaluated the Z distance with experiments, and demonstrated that the proposed distance function achieved better performance in KNN classification.
翻訳日:2021-03-18 15:43:41 公開日:2021-03-17
# (参考訳) human evaluation datasheet 1.0 : nlpにおけるヒューマン評価実験の詳細を記録するテンプレート [全文訳有]

The Human Evaluation Datasheet 1.0: A Template for Recording Details of Human Evaluation Experiments in NLP ( http://arxiv.org/abs/2103.09710v1 )

ライセンス: CC BY 4.0
Anastasia Shimorina and Anya Belz(参考訳) 本稿では,自然言語処理(NLP)における個人評価実験の詳細を記録するテンプレートであるHuman Evaluation Datasheetを紹介する。 Bender and Friedman (2018)、Mitchellらによる独創的な論文から着想を得た。 (2019年)、gebru et al。 (2020年) 人的評価データシートは、人間の評価の特性を十分に詳細に記録し、十分な標準化を行い、可視性、メタ評価、再現性テストを支援することを目的としている。

This paper introduces the Human Evaluation Datasheet, a template for recording the details of individual human evaluation experiments in Natural Language Processing (NLP). Originally taking inspiration from seminal papers by Bender and Friedman (2018), Mitchell et al. (2019), and Gebru et al. (2020), the Human Evaluation Datasheet is intended to facilitate the recording of properties of human evaluations in sufficient detail, and with sufficient standardisation, to support comparability, meta-evaluation, and reproducibility tests.
翻訳日:2021-03-18 15:08:22 公開日:2021-03-17
# (参考訳) 畳み込みニューラルネットワークにおける個人単位の定量的有効性評価と役割分類 [全文訳有]

Quantitative Effectiveness Assessment and Role Categorization of Individual Units in Convolutional Neural Networks ( http://arxiv.org/abs/2103.09716v1 )

ライセンス: CC BY 4.0
Yang Zhao and Hao Zhang(参考訳) 個々の単位の役割を特定することは畳み込みニューラルネットワーク(cnns)のメカニズムを理解する上で重要である。 しかし,cnnでは,個別単位の有効性評価のための完全自動的かつ定量的な尺度を提供することが困難である。 そこで本研究では,画像分類タスクにおけるCNNの単一ユニットの状態と有用性を定量的に明らかにする手法を提案する。 本手法は,代数的トポロジツールを用いた具体的に定義されたエントロピーの計算に基づいて,各分類における単位の重要性をランク付けする。 人間の介入なしに完全に機械で実装できる。 ある種の相転移を含む興味深い現象は、連続した単位のアブレーション過程における精度の進化とネットワークの損失によって観察される。 すべてのネットワークユニットは、トレーニングとテストデータのパフォーマンスに応じて4つのカテゴリに分類される。 役割分類は、ネットワーク構築と単純化の出発点として優れたものである。 分類タスクにおけるユニットのネットワーク一般化に対する多種多様なユーティリティと貢献は、ネットワーク(VGG)とデータセット(ImageNet)に関する大規模な実験によって、かなり詳細に説明されている。 本手法は本質的な困難を伴わずに他のネットワークモデルやタスクに拡張型アプリケーションを持つことが容易である。

Identifying the roles of individual units is critical for understanding the mechanism of convolutional neural networks (CNNs). However, it is challenging to give the fully automatic and quantitative measures for effectiveness assessment of individual units in CNN. To this end, we propose a novel method for quantitatively clarifying the status and usefulness of single unit of CNN in image classification tasks. The technical substance of our method is ranking the importance of unit for each class in classification based on calculation of specifically defined entropy using algebraic topological tools. It could be implemented totally by machine without any human intervention. Some interesting phenomena including certain kind of phase transition are observed via the evolution of accuracy and loss of network in the successive ablation process of units. All of the network units are divided into four categories according to their performance on training and testing data. The role categorization is excellent startpoint for network construction and simplification. The diverse utility and contribution to the network generalization of units in classification tasks are thoroughly illustrated by extensive experiments on network (VGG) and dataset (ImageNet) with considerable scale. It is easy for our method to have extensional applications on other network models and tasks without essential difficulties.
翻訳日:2021-03-18 14:50:32 公開日:2021-03-17
# (参考訳) 自然とロボットのインタラクションのための視覚的接地 [全文訳有]

Few-Shot Visual Grounding for Natural Human-Robot Interaction ( http://arxiv.org/abs/2103.09720v1 )

ライセンス: CC BY 4.0
Giorgos Tziafas and Hamidreza Kasaei(参考訳) Natural Human-Robot Interaction (HRI)は、サービスロボットが人間中心の環境で動作するための重要なコンポーネントの1つである。 このような動的な環境では、ロボットはユーザーがタスクを成功させる意図を理解する必要がある。 この点に対処するために,人によって音声で示される混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。 システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。 2段階のプロセスで事前学習した物体検出装置を用いてこの問題に対処する多くの基礎的手法とは異なり、未知のデータに予測を与えることができる単一のステージゼロショットモデルを開発する。 公開シーンデータセットから収集した実RGB-Dデータに対して提案モデルの性能を評価する。 実験結果から,提案モデルは,自然言語入力の変動に頑健さを示しながら,精度と速度の面で良好に動作することがわかった。

Natural Human-Robot Interaction (HRI) is one of the key components for service robots to be able to work in human-centric environments. In such dynamic environments, the robot needs to understand the intention of the user to accomplish a task successfully. Towards addressing this point, we propose a software architecture that segments a target object from a crowded scene, indicated verbally by a human user. At the core of our system, we employ a multi-modal deep neural network for visual grounding. Unlike most grounding methods that tackle the challenge using pre-trained object detectors via a two-stepped process, we develop a single stage zero-shot model that is able to provide predictions in unseen data. We evaluate the performance of the proposed model on real RGB-D data collected from public scene datasets. Experimental results showed that the proposed model performs well in terms of accuracy and speed, while showcasing robustness to variation in the natural language input.
翻訳日:2021-03-18 14:37:36 公開日:2021-03-17
# (参考訳) 深層学習に基づく極端熱波予測 [全文訳有]

Deep Learning based Extreme Heatwave Forecast ( http://arxiv.org/abs/2103.09743v1 )

ライセンス: CC BY 4.0
Val\'erian Jacques-Dumas, Francesco Ragone, Freddy Bouchet, Pierre Borgnat, Patrice Abry(参考訳) 極端な現象がしばしば観測されないこと、そして(非常に)物理学駆動の数値モデルからシミュレーションするのにコストがかかることから、熱波の発生は難しい問題である。 本研究の目的は,限られた量の気候データから極端な熱波の発生を予測するための代替戦略として,深層学習アーキテクチャの利用を検討することである。 これは、異なる性質の気候データの集約、希少な事象予測に固有のクラスサイズの不均衡、極端事象のネストされた性質(自然に極端でない事象に含まれる)に対処するトランスファーラーニングの潜在的な利点といった問題に対処することを意味する。 Using 1000 years of state-of-the-art PlaSim Planete Simulator Climate Model data, it is shown that Convolutional Neural Network-based Deep Learning frameworks, with large-class undersampling and transfer learning achieve significant performance in forecasting the occurrence of extreme heatwaves, at three different levels of intensity, and as early as 15 days in advance from the restricted observation, for a single time (single snapshoot) of only two spatial fields of climate data, surface temperature and geopotential height.

Forecasting the occurrence of heatwaves constitutes a challenging issue, yet of major societal stake, because extreme events are not often observed and (very) costly to simulate from physics-driven numerical models. The present work aims to explore the use of Deep Learning architectures as alternative strategies to predict extreme heatwaves occurrences from a very limited amount of available relevant climate data. This implies addressing issues such as the aggregation of climate data of different natures, the class-size imbalance that is intrinsically associated with rare event prediction, and the potential benefits of transfer learning to address the nested nature of extreme events (naturally included in less extreme ones). Using 1000 years of state-of-the-art PlaSim Planete Simulator Climate Model data, it is shown that Convolutional Neural Network-based Deep Learning frameworks, with large-class undersampling and transfer learning achieve significant performance in forecasting the occurrence of extreme heatwaves, at three different levels of intensity, and as early as 15 days in advance from the restricted observation, for a single time (single snapshoot) of only two spatial fields of climate data, surface temperature and geopotential height.
翻訳日:2021-03-18 14:24:29 公開日:2021-03-17
# (参考訳) 制御された3次元動作予測のための集約マルチガン [全文訳有]

Aggregated Multi-GANs for Controlled 3D Human Motion Prediction ( http://arxiv.org/abs/2103.09755v1 )

ライセンス: CC BY 4.0
Zhenguang Liu, Kedi Lyu, Shuang Wu, Haipeng Chen, Yanbin Hao, Shouling Ji(参考訳) 歴史的ポーズシーケンスからの人間の動作予測は、マシンインテリジェンスにおける多くの応用の中核にある。 しかし、現在の最先端手法では、予測される将来の動きは同じ活動に制限される。 現在の活動と異なる予測を生成できないし、身体の部分を操作して様々な将来の可能性を探ることもできる。 間違いなく、これは動き予測の有用性と適用性を大幅に制限している。 本稿では、予測された動きを調整するために制御パラメータを容易に組み込むことができる人間の動き予測タスクの一般化を提案する。 本手法は,行動タイプ間で操作可能な動作予測が可能であり,人間の動きを様々な細かな方法でカスタマイズできるという点で説得力がある。 この目的のために,グローバルなGANを介して集約された局所的なGANからなる,シンプルで効果的な複合GAN構造を示す。 局所的な GAN ゲームは低次元で、グローバル GAN はモード崩壊を避けるために高次元空間で調整する。 実験の結果,本手法は最先端の手法よりも優れていた。 コードはhttps://github.com/h erolvkd/am-ganで入手できる。

Human motion prediction from historical pose sequence is at the core of many applications in machine intelligence. However, in current state-of-the-art methods, the predicted future motion is confined within the same activity. One can neither generate predictions that differ from the current activity, nor manipulate the body parts to explore various future possibilities. Undoubtedly, this greatly limits the usefulness and applicability of motion prediction. In this paper, we propose a generalization of the human motion prediction task in which control parameters can be readily incorporated to adjust the forecasted motion. Our method is compelling in that it enables manipulable motion prediction across activity types and allows customization of the human movement in a variety of fine-grained ways. To this aim, a simple yet effective composite GAN structure, consisting of local GANs for different body parts and aggregated via a global GAN is presented. The local GANs game in lower dimensions, while the global GAN adjusts in high dimensional space to avoid mode collapse. Extensive experiments show that our method outperforms state-of-the-art. The codes are available at https://github.com/h erolvkd/AM-GAN.
翻訳日:2021-03-18 14:08:53 公開日:2021-03-17
# (参考訳) 衛星画像からの構造変化検出のための時間クラスタマッチング [全文訳有]

Temporal Cluster Matching for Change Detection of Structures from Satellite Imagery ( http://arxiv.org/abs/2103.09787v1 )

ライセンス: CC BY 4.0
Caleb Robinson, Anthony Ortiz, Juan M. Lavista Ferres, Brandon Anderson, Daniel E. Ho(参考訳) 本稿では,足跡ラベルが1点のみ使用可能な場合,リモートセンシング画像の時系列における建物変化を検出する汎用モデルであるtemporal cluster matching(tcm)を提案する。 モデルの裏にある直感は、建物の足跡内外におけるスペクトル値の関係は、建物が建設される(または取り壊される)際に変化するということである。 例えば、農村では、建物が建設されるまで、建設前のエリアは周囲の環境に似ています。 同様に、都市環境では、プレコンストラクションエリアは建設まで周囲の環境とは異なるように見える。 さらに,データラベリング(パラメータに適合する)を必要とせず,新しい設定で適用可能なモデルパラメータを選択するためのヒューリスティックな手法を提案する。 デルマルバ半島における2016/2017年の高分解能空中画像のデータセットと、2020年にインドで撮影されたセンチネル2号のモザイクによるソーラーファームのデータセットに、我々のモデルを適用する。 以上の結果から,提案するヒューリスティックモデルがラベル付きデータに適合する場合と同等に動作し,さらに,提案モデルの教師付きバージョンでは,テスト対象とするすべてのベースラインで最高の性能を示すことができた。 最後に、提案手法が効果的なデータ拡張戦略として機能することを示し、研究者は時間次元に沿って既存の構造フットプリントラベルを拡張できるため、複数のポイントからのイメージを使用してディープラーニングモデルをトレーニングすることができる。 これにより,同一変化検出タスクで評価した場合の空間一般化が向上することを示す。

We propose a general model, Temporal Cluster Matching (TCM), for detecting building changes in time series of remotely sensed imagery when footprint labels are only available for a single point in time. The intuition behind the model is that the relationship between spectral values inside and outside of building's footprint will change when a building is constructed (or demolished). For instance, in rural settings, the pre-construction area may look similar to the surrounding environment until the building is constructed. Similarly, in urban settings, the pre-construction areas will look different from the surrounding environment until construction. We further propose a heuristic method for selecting the parameters of our model which allows it to be applied in novel settings without requiring data labeling efforts (to fit the parameters). We apply our model over a dataset of poultry barns from 2016/2017 high-resolution aerial imagery in the Delmarva Peninsula and a dataset of solar farms from a 2020 mosaic of Sentinel 2 imagery in India. Our results show that our model performs as well when fit using the proposed heuristic as it does when fit with labeled data, and further, that supervised versions of our model perform the best among all the baselines we test against. Finally, we show that our proposed approach can act as an effective data augmentation strategy -- it enables researchers to augment existing structure footprint labels along the time dimension and thus use imagery from multiple points in time to train deep learning models. We show that this improves the spatial generalization of such models when evaluated on the same change detection task.
翻訳日:2021-03-18 13:55:54 公開日:2021-03-17
# (参考訳) ENCONTER:Insertion-b ased Transformerによるエンティティ制約付きプログレッシブシーケンス生成 [全文訳有]

ENCONTER: Entity Constrained Progressive Sequence Generation via Insertion-based Transformer ( http://arxiv.org/abs/2103.09548v1 )

ライセンス: CC BY 4.0
Lee-Hsun Hsieh and Yang-Yin Lee and Ee-Peng Lim(参考訳) 大量のデータを用いて事前訓練された自己回帰言語モデルは、高品質なシーケンスを生成することができる。 しかし,これらのモデルは,コンテンツ生成過程の微妙な制御を欠くため,厳格な語彙制約下ではうまく機能しない。 プログレッシブ挿入ベースのトランスフォーマーは上記の制限を克服し、いくつかの入力トークンを制約として、並列にシーケンスを生成する。 しかしながら、これらのトランスは、生成プロセスが早めに終了する可能性が高いため、ハードレキシカルな制約をサポートしない可能性がある。 本稿では, 早期終了問題を分析し, 生成効率を損なうことなく, 上記の落とし穴に対処する新しい挿入変圧器である Entity-Constrained insert transformer (ENCONTER) を提案する。 我々は,事前定義されたハード語彙制約(例えば,生成したシーケンスに含まれるエンティティ)を考慮した新たなトレーニング戦略を導入する。 実験の結果,エンコンターは他のベースラインモデルよりもいくつかの性能指標が優れていることがわかった。 私たちのコードはhttps://github.com/L ARC-CMU-SMU/Enconter で利用可能です。

Pretrained using large amount of data, autoregressive language models are able to generate high quality sequences. However, these models do not perform well under hard lexical constraints as they lack fine control of content generation process. Progressive insertion-based transformers can overcome the above limitation and efficiently generate a sequence in parallel given some input tokens as constraint. These transformers however may fail to support hard lexical constraints as their generation process is more likely to terminate prematurely. The paper analyses such early termination problems and proposes the Entity-constrained insertion transformer (ENCONTER), a new insertion transformer that addresses the above pitfall without compromising much generation efficiency. We introduce a new training strategy that considers predefined hard lexical constraints (e.g., entities to be included in the generated sequence). Our experiments show that ENCONTER outperforms other baseline models in several performance metrics rendering it more suitable in practical applications. Our code is available at https://github.com/L ARC-CMU-SMU/Enconter
翻訳日:2021-03-18 13:29:27 公開日:2021-03-17
# コントラスト判別器による強化型GANの訓練

Training GANs with Stronger Augmentations via Contrastive Discriminator ( http://arxiv.org/abs/2103.09742v1 )

ライセンス: Link先を確認
Jongheon Jeong and Jinwoo Shin(参考訳) GAN(Generative Adversarial Networks)の最近の研究は、差別者の過度な適合を防ぐための効果的な方法として、様々なデータ拡張手法を再考している。 しかし、どの強化が実際にGANを改善できるか、特に、より広い範囲の強化をトレーニングに適用するかは、まだ不明である。 本稿では,最近のコントラッシブな表現学習手法をGAN識別器に組み込むことにより,これらの問題に対処する新しい手法を提案する。 この「融合」により、差別者は、訓練の不安定性を増大させることなく、より強力な強化を施すことができ、これにより、差別者がより効果的にGANの過剰適合問題を防止できる。 さらによいのは、コントラスト学習自体が、実際のサンプルと偽のサンプルの間の識別的特徴を維持することによって、私たちのganトレーニングの恩恵を受けることであり、両者の間に強い一貫性があることを示します。 実験の結果,データ拡張を取り入れた他の手法と比較して, ContraD を用いた GAN は連続的に FID と IS を向上し, 線形評価の点から差別的特徴を保っていることがわかった。 最後に, 副産物として, 学習したContraDの特徴を活かした簡易潜伏サンプリングにより, 教師なし(ラベルなし)で訓練したGANが, 多くの条件生成モデルを誘導できることを示す。 コードはhttps://github.com/j h-jeong/contradで入手できる。

Recent works in Generative Adversarial Networks (GANs) are actively revisiting various data augmentation techniques as an effective way to prevent discriminator overfitting. It is still unclear, however, that which augmentations could actually improve GANs, and in particular, how to apply a wider range of augmentations in training. In this paper, we propose a novel way to address these questions by incorporating a recent contrastive representation learning scheme into the GAN discriminator, coined ContraD. This "fusion" enables the discriminators to work with much stronger augmentations without increasing their training instability, thereby preventing the discriminator overfitting issue in GANs more effectively. Even better, we observe that the contrastive learning itself also benefits from our GAN training, i.e., by maintaining discriminative features between real and fake samples, suggesting a strong coherence between the two worlds: good contrastive representations are also good for GAN discriminators, and vice versa. Our experimental results show that GANs with ContraD consistently improve FID and IS compared to other recent techniques incorporating data augmentations, still maintaining highly discriminative features in the discriminator in terms of the linear evaluation. Finally, as a byproduct, we also show that our GANs trained in an unsupervised manner (without labels) can induce many conditional generative models via a simple latent sampling, leveraging the learned features of ContraD. Code is available at https://github.com/j h-jeong/ContraD.
翻訳日:2021-03-18 13:11:51 公開日:2021-03-17
# 線量分類におけるデータ要求に関する理論的境界

Theoretical bounds on data requirements for the ray-based classification ( http://arxiv.org/abs/2103.09577v1 )

ライセンス: Link先を確認
Brian J. Weber, Sandesh S. Kalantre, Thomas McJunkin, Jacob M. Taylor, Justyna P. Zwolak(参考訳) 実世界のデータの高次元形状を分類する問題は、空間の次元が大きくなるにつれて複雑化する。 異なるジオメトリの凸形状を識別する場合には、線と呼ばれる一次元の表現の集合の交点と、その形状の境界を使って特定の幾何学を識別する新たな分類枠組みが近年提案されている。 この光線に基づく分類(RBC)は、2次元および3次元形状の合成データセット [1] を用いて実験的に検証され、さらに近年では実験的に [2] も検証されている。 ここでは, 任意の凸形状に対して, 主角計量で定義される形状分類に必要な線数の境界を定式化する。 2次元の場合、形状の長さ、直径、外角の観点で、線数に対する下界を導出する。 R^N の凸多面体に対して、この結果は二面角関数や多角形面の幾何学的パラメータとして与えられる同様の境界に一般化する。 この結果は、体積法や表面法よりもかなり少ないデータ要素を用いて、高次元形状を推定するための異なるアプローチを可能にする。

The problem of classifying high-dimensional shapes in real-world data grows in complexity as the dimension of the space increases. For the case of identifying convex shapes of different geometries, a new classification framework has recently been proposed in which the intersections of a set of one-dimensional representations, called rays, with the boundaries of the shape are used to identify the specific geometry. This ray-based classification (RBC) has been empirically verified using a synthetic dataset of two- and three-dimensional shapes [1] and, more recently, has also been validated experimentally [2]. Here, we establish a bound on the number of rays necessary for shape classification, defined by key angular metrics, for arbitrary convex shapes. For two dimensions, we derive a lower bound on the number of rays in terms of the shape's length, diameter, and exterior angles. For convex polytopes in R^N, we generalize this result to a similar bound given as a function of the dihedral angle and the geometrical parameters of polygonal faces. This result enables a different approach for estimating high-dimensional shapes using substantially fewer data elements than volumetric or surface-based approaches.
翻訳日:2021-03-18 13:11:24 公開日:2021-03-17
# セサミストリートにおけるコードミキシング--敵対的多言語群の夜明け

Code-Mixing on Sesame Street: Dawn of the Adversarial Polyglots ( http://arxiv.org/abs/2103.09593v1 )

ライセンス: Link先を確認
Samson Tan, Shafiq Joty(参考訳) 多言語モデルは、印象的な言語間転送性能を示した。 しかしながら、XNLIのようなテストセットは例レベルで単言語的である。 多言語コミュニティでは、ポリグロット同士が会話する際にコード混合を行うのが一般的である。 この現象に触発されて、コード混合文の処理能力を限界まで押し上げる多言語モデルに対して、2つの強力なブラックボックス逆行攻撃(単語レベル、1句レベル)を示す。 前者は二言語辞書を用いて、清浄な例の摂動と翻訳を提案し、曖昧さを解消する。 後者は、句を摂動として抽出する前に、クリーンな例を翻訳と直接一致させる。 我々のフレーズレベル攻撃は、XLM-R-largeに対して89.75%の成功率であり、平均精度は79.85から8.18に低下した。 最後に,元モデルと同じステップ数で学習し,モデル精度を向上させるための効率的な対角訓練手法を提案する。

Multilingual models have demonstrated impressive cross-lingual transfer performance. However, test sets like XNLI are monolingual at the example level. In multilingual communities, it is common for polyglots to code-mix when conversing with each other. Inspired by this phenomenon, we present two strong black-box adversarial attacks (one word-level, one phrase-level) for multilingual models that push their ability to handle code-mixed sentences to the limit. The former uses bilingual dictionaries to propose perturbations and translations of the clean example for sense disambiguation. The latter directly aligns the clean example with its translations before extracting phrases as perturbations. Our phrase-level attack has a success rate of 89.75% against XLM-R-large, bringing its average accuracy of 79.85 down to 8.18 on XNLI. Finally, we propose an efficient adversarial training scheme that trains in the same number of steps as the original model and show that it improves model accuracy.
翻訳日:2021-03-18 13:11:06 公開日:2021-03-17
# 深層学習を用いたフラッド調査における単語検出

Code Word Detection in Fraud Investigations using a Deep-Learning Approach ( http://arxiv.org/abs/2103.09606v1 )

ライセンス: Link先を確認
Youri van der Zee, Jan C. Scholtes, Marcel Westerhoud, Julien Rossi(参考訳) 現代の訴訟では、詐欺捜査員はしばしば、事件全体を通してレビューしなければならない圧倒的な数の文書に直面している。 ほとんどの訴訟では、詐欺捜査員は事前に、何を正確に探しているのか、どこで見つけるのかを知らない。 さらに、詐欺師は偽装を使って、コードワードを使って行動や意図を隠すこともある。 つまり、詐欺捜査員は針がどんなものか知らないまま、干し草の山に針を探しているということだ。 より大きな研究プログラムの一環として,テキストマイニングと機械学習技術を適用した調査プロセスを迅速化するフレームワークを構築した。 この枠組みは,詐欺捜査においてよく知られた3つの手法を用いて構築されている。 (i)詐欺の三角形 (ii)黄金の「W」調査問題 (iii) 競合する仮説の分析である。 この枠組みにより、調査データを自動で整理することが可能であり、研究者が典型的な調査質問に対する回答を見つけるのが容易である。 本研究では,この枠組みの構成要素の一つとして,詐欺師によるコードワードの使用状況の同定に着目する。 ここでは、通常の電子メール通信に隠されたそのようなコードワードを含む新規(注釈付き)合成データセットを作成する。 その後、このようなコードワードを検出するために、さまざまな機械学習技術が使用される。 本稿では,最先端のBERTモデルが他の手法よりも優れていることを示す。 この結果から,ディープニューラルネットワークモデル(F1スコア0.9)が,コードワードの検出のための不正な調査に確実に適用可能であることを示す。

In modern litigation, fraud investigators often face an overwhelming number of documents that must be reviewed throughout a matter. In the majority of legal cases, fraud investigators do not know beforehand, exactly what they are looking for, nor where to find it. In addition, fraudsters may use deception to hide their behaviour and intentions by using code words. Effectively, this means fraud investigators are looking for a needle in the haystack without knowing what the needle looks like. As part of a larger research program, we use a framework to expedite the investigation process applying text-mining and machine learning techniques. We structure this framework using three well-known methods in fraud investigations: (i) the fraud triangle (ii) the golden ("W") investigation questions, and (iii) the analysis of competing hypotheses. With this framework, it is possible to automatically organize investigative data, so it is easier for investigators to find answers to typical investigative questions. In this research, we focus on one of the components of this framework: the identification of the usage of code words by fraudsters. Here for, a novel (annotated) synthetic data set is created containing such code words, hidden in normal email communication. Subsequently, a range of machine learning techniques are employed to detect such code words. We show that the state-of-the-art BERT model significantly outperforms other methods on this task. With this result, we demonstrate that deep neural language models can reliably (F1 score of 0.9) be applied in fraud investigations for the detection of code words.
翻訳日:2021-03-18 13:10:49 公開日:2021-03-17
# シーングラフからのコントラスト集合の自動生成:GQAの構成整合性について

Automatic Generation of Contrast Sets from Scene Graphs: Probing the Compositional Consistency of GQA ( http://arxiv.org/abs/2103.09591v1 )

ライセンス: Link先を確認
Yonatan Bitton, Gabriel Stanovsky, Roy Schwartz, Michael Elhadad(参考訳) 近年の研究では、教師付きモデルはしばしばデータアーティファクトを利用して優れたテストスコアを達成し、そのパフォーマンスはトレーニングディストリビューション外のサンプルで著しく低下することが示された。 コントラストセット(Gardneret al., 2020)は、出力ラベルが修正される最小の方法で試験サンプルを摂動することで、この現象を定量化する。 殆どのコントラストセットは手動で作成され、集中的なアノテーションを必要とするが、視覚的質問応答タスクのためのコントラストセットを自動的に生成するために、リッチなセマンティック入力表現を活用する新しい手法を提案する。 提案手法は摂動質問の回答を計算し,アノテーションのコストを大幅に削減し,様々な意味的側面(空間的あるいは関係的推論など)でモデルの性能を徹底的に評価する。 本稿では,GQAデータセットとその意味的なシーングラフ画像表現に対するアプローチの有効性を示す。 GQAの組成とラベルのバランスの取れた分布にもかかわらず、2つのハイパフォーマンスモデルは元のテストセットと比較して13-17%の精度で低下することがわかった。 最後に,我々の自動摂動をトレーニングセットに適用することで,パフォーマンスの低下を緩和し,より堅牢なモデルへの扉を開くことができることを示す。

Recent works have shown that supervised models often exploit data artifacts to achieve good test scores while their performance severely degrades on samples outside their training distribution. Contrast sets (Gardneret al., 2020) quantify this phenomenon by perturbing test samples in a minimal way such that the output label is modified. While most contrast sets were created manually, requiring intensive annotation effort, we present a novel method which leverages rich semantic input representation to automatically generate contrast sets for the visual question answering task. Our method computes the answer of perturbed questions, thus vastly reducing annotation cost and enabling thorough evaluation of models' performance on various semantic aspects (e.g., spatial or relational reasoning). We demonstrate the effectiveness of our approach on the GQA dataset and its semantic scene graph image representation. We find that, despite GQA's compositionality and carefully balanced label distribution, two high-performing models drop 13-17% in accuracy compared to the original test set. Finally, we show that our automatic perturbation can be applied to the training set to mitigate the degradation in performance, opening the door to more robust models.
翻訳日:2021-03-18 13:10:21 公開日:2021-03-17
# Trans-SVNet:ハイブリッド埋め込みアグリゲーション変換器による手術映像からの正確な位相認識

Trans-SVNet: Accurate Phase Recognition from Surgical Videos via Hybrid Embedding Aggregation Transformer ( http://arxiv.org/abs/2103.09712v1 )

ライセンス: Link先を確認
Xiaojie Gao, Yueming Jin, Yonghao Long, Qi Dou, Pheng-Ann Heng(参考訳) 現代の手術室では, 実時間手術位相認識が基本課題である。 従来の課題は時空間的に配置されたアーキテクチャに頼っていたが、中間空間的特徴の支持的利点は考慮されていない。 本稿では,外科的ワークフロー解析において初めて,正確な手術相認識のための時間的特徴と時間的特徴の無視された補完的効果を再考するトランスフォーマを提案する。 時間的埋め込みシーケンスからの空間情報に基づくアクティブクエリを可能にすることにより,空間的および時間的埋め込みを巧みに設計した。 さらに重要なことは、私たちのフレームワークは軽量であり、高い推論速度を達成するためにハイブリッド埋め込みを並列に処理します。 提案手法はColec80とM2CAI16 Challengeの2つの大規模な手術ビデオデータセットに対して徹底的に検証され,91fpsの処理速度で最先端のアプローチを著しく上回っている。

Real-time surgical phase recognition is a fundamental task in modern operating rooms. Previous works tackle this task relying on architectures arranged in spatio-temporal order, however, the supportive benefits of intermediate spatial features are not considered. In this paper, we introduce, for the first time in surgical workflow analysis, Transformer to reconsider the ignored complementary effects of spatial and temporal features for accurate surgical phase recognition. Our hybrid embedding aggregation Transformer fuses cleverly designed spatial and temporal embeddings by allowing for active queries based on spatial information from temporal embedding sequences. More importantly, our framework is lightweight and processes the hybrid embeddings in parallel to achieve a high inference speed. Our method is thoroughly validated on two large surgical video datasets, i.e., Cholec80 and M2CAI16 Challenge datasets, and significantly outperforms the state-of-the-art approaches at a processing speed of 91 fps.
翻訳日:2021-03-18 13:09:59 公開日:2021-03-17
# 手書き文字認識のための解釈可能な距離距離学習

Interpretable Distance Metric Learning for Handwritten Chinese Character Recognition ( http://arxiv.org/abs/2103.09714v1 )

ライセンス: Link先を確認
Boxiang Dong, Aparna S. Varde, Danilo Stevanovic, Jiayin Wang, Liang Zhao(参考訳) 筆跡認識はヒューマン・コンピュータ・インタラクション(HCI)と文書のデジタル化において重要である。 オプティカルキャラクタ認識(OCR)の一般分野において、手書き文字認識は、非常に大きな文字セットと驚くほど多様な文字スタイルのために、大きな課題に直面している。 データ入力間の差を測定するための適切な距離メトリックの学習は、正確な手書き文字認識の基礎である。 既存の距離メトリック学習アプローチは、許容できないエラー率を生成するか、結果にほとんど解釈できない。 本稿では,手書き漢字認識のための解釈可能な距離距離メトリック学習手法を提案する。 学習されたメトリックは、理解可能なベースメトリクスの線形組み合わせであり、普通のユーザに有意義な洞察を提供する。 ベンチマークデータセットにおける実験結果は,提案手法の効率,正確性,解釈性に優れることを示す。

Handwriting recognition is of crucial importance to both Human Computer Interaction (HCI) and paperwork digitization. In the general field of Optical Character Recognition (OCR), handwritten Chinese character recognition faces tremendous challenges due to the enormously large character sets and the amazing diversity of writing styles. Learning an appropriate distance metric to measure the difference between data inputs is the foundation of accurate handwritten character recognition. Existing distance metric learning approaches either produce unacceptable error rates, or provide little interpretability in the results. In this paper, we propose an interpretable distance metric learning approach for handwritten Chinese character recognition. The learned metric is a linear combination of intelligible base metrics, and thus provides meaningful insights to ordinary users. Our experimental results on a benchmark dataset demonstrate the superior efficiency, accuracy and interpretability of our proposed approach.
翻訳日:2021-03-18 13:09:41 公開日:2021-03-17
# ベトナム語カテゴリー検出のための単言語・多言語BERTモデルの検討

Investigating Monolingual and Multilingual BERTModels for Vietnamese Aspect Category Detection ( http://arxiv.org/abs/2103.09519v1 )

ライセンス: Link先を確認
Dang Van Thin, Lac Si Le, Vu Xuan Hoang, Ngan Luu-Thuy Nguyen(参考訳) アスペクトカテゴリー検出(ACD)は、アスペクトベースの感情分析問題における課題の1つである。 本研究の目的は,ユーザ生成レビューで言及されているアスペクトカテゴリを,事前に定義されたカテゴリの集合から識別することである。 本稿では,ベトナムのアスペクトカテゴリー検出問題における多言語モデルと比較し,モノリンガル事前学習言語モデルの性能について検討する。 レストランとホテルのドメインを対象とした2つのベンチマークデータセットで実験を行った。 実験結果から, 単言語PhoBERTモデルの2つのデータセット上での有効性が示された。 また,他言語におけるSemEval-2016データセットとベトナム語データセットの組合せに基づく多言語モデルの性能評価を行った。 私たちの知識を最大限に活用するため,本研究は,アスペクトカテゴリ検出タスクで利用可能なさまざまな事前学習言語モデルを実行し,多言語モデルに基づく他言語からのデータセットを活用する最初の試みである。

Aspect category detection (ACD) is one of the challenging tasks in the Aspect-based sentiment Analysis problem. The purpose of this task is to identify the aspect categories mentioned in user-generated reviews from a set of pre-defined categories. In this paper, we investigate the performance of various monolingual pre-trained language models compared with multilingual models on the Vietnamese aspect category detection problem. We conduct the experiments on two benchmark datasets for the restaurant and hotel domain. The experimental results demonstrated the effectiveness of the monolingual PhoBERT model than others on two datasets. We also evaluate the performance of the multilingual model based on the combination of whole SemEval-2016 datasets in other languages with the Vietnamese dataset. To the best of our knowledge, our research study is the first attempt at performing various available pre-trained language models on aspect category detection task and utilize the datasets from other languages based on multilingual models.
翻訳日:2021-03-18 13:09:17 公開日:2021-03-17
# SML: 効率的な言語間自然言語推論のための新しい意味埋め込み変換器

SML: a new Semantic Embedding Alignment Transformer for efficient cross-lingual Natural Language Inference ( http://arxiv.org/abs/2103.09635v1 )

ライセンス: Link先を確認
Javier Huertas-Tato and Alejandro Mart\'in and David Camacho(参考訳) トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。 nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。 しかし、これらのモデルは、他の領域に一般化したり、多言語シナリオに直面することの困難さに苦しむ。 これらの問題に対処する文献における主要な経路は、非常に大きなアーキテクチャの設計とトレーニングであり、予測不可能な振る舞いをもたらし、幅広いアクセスと微調整を妨げる障壁を確立することである。 本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer (sml) を提案する。 SMLは2つの入力文が互いに参加して後に行列アライメント法によって結合されるような凍結重み付きシアム事前訓練された多言語トランスフォーマーを利用する。 本研究で実施した実験結果によると、SMLは、最先端性能を保ちながら、トレーニング可能なパラメータを劇的に減らすことができる。

The ability of Transformers to perform with precision a variety of tasks such as question answering, Natural Language Inference (NLI) or summarising, have enable them to be ranked as one of the best paradigms to address this kind of tasks at present. NLI is one of the best scenarios to test these architectures, due to the knowledge required to understand complex sentences and established a relation between a hypothesis and a premise. Nevertheless, these models suffer from incapacity to generalise to other domains or difficulties to face multilingual scenarios. The leading pathway in the literature to address these issues involve designing and training extremely large architectures, which leads to unpredictable behaviours and to establish barriers which impede broad access and fine tuning. In this paper, we propose a new architecture, siamese multilingual transformer (SML), to efficiently align multilingual embeddings for Natural Language Inference. SML leverages siamese pre-trained multi-lingual transformers with frozen weights where the two input sentences attend each other to later be combined through a matrix alignment method. The experimental results carried out in this paper evidence that SML allows to reduce drastically the number of trainable parameters while still achieving state-of-the-art performance.
翻訳日:2021-03-18 13:09:05 公開日:2021-03-17
# Fairness-aware Outlier Ensemble

Fairness-aware Outlier Ensemble ( http://arxiv.org/abs/2103.09419v1 )

ライセンス: Link先を確認
Haoyu Liu, Fenglong Ma, Shibo He, Jiming Chen, Jing Gao(参考訳) 外れたアンサンブルメソッドは、大部分のデータと著しく異なるインスタンスの発見において、優れたパフォーマンスを示している。 しかし、公正さの意識がなければ、不正検出や司法判断システムなどの倫理的シナリオにおける適用性は低下する可能性がある。 本稿では,公平性に着目したアンサンブルフレームワークを用いて,アウトリアーアンサンブル結果のバイアスを低減することを提案する。 外乱検出タスクにおいて基底的真理が欠如しているため、重要な課題は、公正性の向上により検出性能の劣化を緩和する方法である。 この課題に対処するために,従来のアウトリアーアンサンブル手法の出力に基づく距離尺度を定義し,検出性能劣化に伴うコストを推定する。 一方,本研究では,初期アンサンブル結果の調整を行う後処理フレームワークを提案し,公正性と検出性能のトレードオフを実現する。 検出性能はROC曲線(AUC)下の領域で測定され、公平度はグループレベルと個人レベルで測定される。 8つの公開データセットの実験が行われた。 その結果,外乱アンサンブルの公平性を向上するためのフレームワークの有効性が示された。 また、AUCと公正のトレードオフを分析する。

Outlier ensemble methods have shown outstanding performance on the discovery of instances that are significantly different from the majority of the data. However, without the awareness of fairness, their applicability in the ethical scenarios, such as fraud detection and judiciary judgement system, could be degraded. In this paper, we propose to reduce the bias of the outlier ensemble results through a fairness-aware ensemble framework. Due to the lack of ground truth in the outlier detection task, the key challenge is how to mitigate the degradation in the detection performance with the improvement of fairness. To address this challenge, we define a distance measure based on the output of conventional outlier ensemble techniques to estimate the possible cost associated with detection performance degradation. Meanwhile, we propose a post-processing framework to tune the original ensemble results through a stacking process so that we can achieve a trade off between fairness and detection performance. Detection performance is measured by the area under ROC curve (AUC) while fairness is measured at both group and individual level. Experiments on eight public datasets are conducted. Results demonstrate the effectiveness of the proposed framework in improving fairness of outlier ensemble results. We also analyze the trade-off between AUC and fairness.
翻訳日:2021-03-18 13:08:43 公開日:2021-03-17
# 多目的強化学習と計画のための実践的ガイド

A Practical Guide to Multi-Objective Reinforcement Learning and Planning ( http://arxiv.org/abs/2103.09568v1 )

ライセンス: Link先を確認
Conor F. Hayes, Roxana R\u{a}dulescu, Eugenio Bargiacchi, Johan K\"allstr\"om, Matthew Macfarlane, Mathieu Reymond, Timothy Verstraeten, Luisa M. Zintgraf, Richard Dazeley, Fredrik Heintz, Enda Howley, Athirai A. Irissappane, Patrick Mannion, Ann Now\'e, Gabriel Ramos, Marcello Restelli, Peter Vamplew, Diederik M. Roijers(参考訳) 現実の意思決定タスクは一般的に複雑で、複数の、しばしば矛盾する目標間のトレードオフを必要とします。 それにもかかわらず、強化学習と意思決定理論計画の研究の大半は単一の目的のみを仮定するか、単純な線形結合によって複数の目的を適切に扱うことができる。 このようなアプローチは根底にある問題を単純化し、従って準最適結果を生み出す。 本論文は,多目的強化学習と計画手法に慣れ親しんでいる研究者や,実際に多目的意思決定問題に遭遇した実践者を対象として,多目的強化学習と計画手法の課題に対する多目的適用のガイドとして機能する。 望まれる解の性質に影響を与える要因を特定し、複雑な問題に対する多目的意思決定システムの設計にどのように影響するかを例示する。

Real-world decision-making tasks are generally complex, requiring trade-offs between multiple, often conflicting, objectives. Despite this, the majority of research in reinforcement learning and decision-theoretic planning either assumes only a single objective, or that multiple objectives can be adequately handled via a simple linear combination. Such approaches may oversimplify the underlying problem and hence produce suboptimal results. This paper serves as a guide to the application of multi-objective methods to difficult problems, and is aimed at researchers who are already familiar with single-objective reinforcement learning and planning methods who wish to adopt a multi-objective perspective on their research, as well as practitioners who encounter multi-objective decision problems in practice. It identifies the factors that may influence the nature of the desired solution, and illustrates by example how these influence the design of multi-objective decision-making systems for complex problems.
翻訳日:2021-03-18 13:08:24 公開日:2021-03-17
# REPSによる最適政策最適化

Near Optimal Policy Optimization via REPS ( http://arxiv.org/abs/2103.09756v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Jonathan Lee, Peter Bartlett, Ofir Nachum(参考訳) 10年前に導入されて以来、REPS(emph{relative entropy policy search)は、最近提案された強化学習(RL)アルゴリズムで使用されるアルゴリズムコンポーネントの提供だけでなく、多くのシミュレーションされた実世界のロボットドメインでのポリシー学習に成功した。 REPSはコミュニティで一般的に知られているが、確率的および勾配に基づく解法を使用する場合、その性能に保証はない。 本稿では,REPS目標に適用した一階最適化手法を用いて学習した政策の準最適性の保証と収束率を提供することで,このギャップを埋めることを目的とする。 まず、厳密な勾配にアクセスできる設定を検討し、目的のほぼ最適性が政策のほぼ最適性にどのように変換されるかを示す。 次に, 確率勾配の実用的設定を考察し, 最適正規化ポリシーへの好適な収束を維持するパラメータ更新を計算するために, マルコフ決定プロセスへの \emph{generative} アクセスを利用する手法を提案する。

Since its introduction a decade ago, \emph{relative entropy policy search} (REPS) has demonstrated successful policy learning on a number of simulated and real-world robotic domains, not to mention providing algorithmic components used by many recently proposed reinforcement learning (RL) algorithms. While REPS is commonly known in the community, there exist no guarantees on its performance when using stochastic and gradient-based solvers. In this paper we aim to fill this gap by providing guarantees and convergence rates for the sub-optimality of a policy learned using first-order optimization methods applied to the REPS objective. We first consider the setting in which we are given access to exact gradients and demonstrate how near-optimality of the objective translates to near-optimality of the policy. We then consider the practical setting of stochastic gradients, and introduce a technique that uses \emph{generative} access to the underlying Markov decision process to compute parameter updates that maintain favorable convergence to the optimal regularized policy.
翻訳日:2021-03-18 13:08:11 公開日:2021-03-17
# STYLER:表現的・制御可能なニューラルテキストから音声への音声分解による迅速・ロバストなスタイルモデリング

STYLER: Style Modeling with Rapidity and Robustness via SpeechDecomposition for Expressive and Controllable Neural Text to Speech ( http://arxiv.org/abs/2103.09474v1 )

ライセンス: Link先を確認
Keon Lee, Kyumin Park, Daeyoung Kim(参考訳) tts(expressive text-to-speech)は、トレーニングや推論時の堅牢性と速度に制限がある。 このような欠点は主に自己回帰的復号化によるものであり、次のステップは前のエラーに対して脆弱である。 この弱点を克服するために,並列化アーキテクチャを用いた新しい表現型テキスト音声合成モデルSTYLERを提案する。 自己回帰復号の排除と符号化のための音声分解の導入により、高いスタイル転送性能でも音声合成がより堅牢になる。 さらに, 雑音を伝達することなく, ドメイン逆学習と残余復号化により, 音声からの新たなノイズモデリング手法を提案する。 実験により,他の並列ttsモデルとの比較から,モデルの自然性と表現性が証明された。 本稿では, 自己回帰復号法と表現型TSモデルとの比較により, モデルの堅牢性と速度について検討する。

Previous works on expressive text-to-speech (TTS) have a limitation on robustness and speed when training and inferring. Such drawbacks mostly come from autoregressive decoding, which makes the succeeding step vulnerable to preceding error. To overcome this weakness, we propose STYLER, a novel expressive text-to-speech model with parallelized architecture. Expelling autoregressive decoding and introducing speech decomposition for encoding enables speech synthesis more robust even with high style transfer performance. Moreover, our novel noise modeling approach from audio using domain adversarial training and Residual Decoding enabled style transfer without transferring noise. Our experiments prove the naturalness and expressiveness of our model from comparison with other parallel TTS models. Together we investigate our model's robustness and speed by comparison with the expressive TTS model with autoregressive decoding.
翻訳日:2021-03-18 13:07:54 公開日:2021-03-17
# 抽象構文木をグラフとしてモデル化したコード補完

Code Completion by Modeling Flattened Abstract Syntax Trees as Graphs ( http://arxiv.org/abs/2103.09499v1 )

ライセンス: Link先を確認
Yanlin Wang, Hui Li(参考訳) コード補完は統合開発環境の重要なコンポーネントになっている。 現代のコード補完メソッドは、構文的に正しいコードを生成するために抽象構文木(AST)に依存している。 しかし、コードの記述とASTの構造情報の逐次的かつ反復的なパターンを完全に把握することはできない。 これらの問題を緩和するために,部分ASTのフラット化シーケンスをASTグラフとしてモデル化したCCAGという新しいコード補完手法を提案する。 CCAGは提案したAST Graph Attention Blockを使用して、ASTグラフのさまざまな依存関係をキャプチャして、コード補完における表現学習を行います。 コード補完のサブタスクはCCAGのマルチタスク学習によって最適化され、タスクの重みを調整せずに不確実性を使ってタスクバランスが自動的に達成される。 実験の結果,ccagは最先端のアプローチよりも優れた性能を示し,インテリジェントなコード補完を実現することができた。

Code completion has become an essential component of integrated development environments. Contemporary code completion methods rely on the abstract syntax tree (AST) to generate syntactically correct code. However, they cannot fully capture the sequential and repetitive patterns of writing code and the structural information of the AST. To alleviate these problems, we propose a new code completion approach named CCAG, which models the flattened sequence of a partial AST as an AST graph. CCAG uses our proposed AST Graph Attention Block to capture different dependencies in the AST graph for representation learning in code completion. The sub-tasks of code completion are optimized via multi-task learning in CCAG, and the task balance is automatically achieved using uncertainty without the need to tune task weights. The experimental results show that CCAG has superior performance than state-of-the-art approaches and it is able to provide intelligent code completion.
翻訳日:2021-03-18 13:07:40 公開日:2021-03-17
# 暗黙的正規化流れ

Implicit Normalizing Flows ( http://arxiv.org/abs/2103.09527v1 )

ライセンス: Link先を確認
Cheng Lu, Jianfei Chen, Chongxuan Li, Qiuhao Wang, Jun Zhu(参考訳) 正規化フローは、明示的可逆変換 $\boldsymbol{\mathbf{z}}=f(\boldsymbol{\mathbf{x}})$ で確率分布を定義する。 本研究では, 正規化フロー (ImpFlows) について, 方程式 $F(\boldsymbol{\mathbf{z}}, \boldsymbol{\mathbf{x}})= \boldsymbol{\mathbf{0}}$ の根で写像を暗黙的に定義することにより, 正規化フローを一般化する。 ImpFlowsは、表現性とトラクタビリティの適切なバランスで、残留フロー(ResFlows)上に構築する。 理論的解析により、ImpFlow の関数空間は ResFlow の関数空間よりも厳密にリッチであることを示す。 さらに、ブロック数が一定である任意のResFlowに対して、ResFlowが無視できない近似エラーを持つ関数が存在する。 しかし、関数はシングルブロックの ImpFlow で正確に表現できる。 我々は、ImpFlowsからサンプルを訓練および描画するためのスケーラブルなアルゴリズムを提案する。 経験的に、いくつかの分類および密度モデリングタスクでImpFlowを評価し、ImpFlowはResFlowに匹敵するパラメータを全てのベンチマークで比較して性能を向上する。

Normalizing flows define a probability distribution by an explicit invertible transformation $\boldsymbol{\mathbf{z}}=f(\boldsymbol{\mathbf{x}})$. In this work, we present implicit normalizing flows (ImpFlows), which generalize normalizing flows by allowing the mapping to be implicitly defined by the roots of an equation $F(\boldsymbol{\mathbf{z}}, \boldsymbol{\mathbf{x}})= \boldsymbol{\mathbf{0}}$. ImpFlows build on residual flows (ResFlows) with a proper balance between expressiveness and tractability. Through theoretical analysis, we show that the function space of ImpFlow is strictly richer than that of ResFlows. Furthermore, for any ResFlow with a fixed number of blocks, there exists some function that ResFlow has a non-negligible approximation error. However, the function is exactly representable by a single-block ImpFlow. We propose a scalable algorithm to train and draw samples from ImpFlows. Empirically, we evaluate ImpFlow on several classification and density modeling tasks, and ImpFlow outperforms ResFlow with a comparable amount of parameters on all the benchmarks.
翻訳日:2021-03-18 13:07:25 公開日:2021-03-17
# WheatNet:高スループット画像に基づく小麦頭部検出とカウントのための軽量畳み込みニューラルネットワーク

WheatNet: A Lightweight Convolutional Neural Network for High-throughput Image-based Wheat Head Detection and Counting ( http://arxiv.org/abs/2103.09408v1 )

ライセンス: Link先を確認
Saeed Khaki, Nima Safaei, Hieu Pham and Lizhi Wang(参考訳) グローバルに認識されている育種組織にとって,手動観測データが植物の育種決定に不可欠である。 しかし、植物色、高さ、核数などの表現型の特徴がある。 作物の成長サイクルの特定の時間軸でのみ収集できる。 労働集約的な要求のため、季節ごとに観測可能なフィールドのごく一部しか記録されない。 小麦育種におけるデータ収集のボトルネックを軽減するために,小麦頭数を正確にかつ効率的に計算し,意思決定のためのリアルタイムデータ収集を支援する新しいディープラーニングフレームワークを提案する。 我々はこのモデルをWheatNetと呼び、小麦畑の幅広い環境条件に対して、我々のアプローチが堅牢で正確であることを示す。 WheatNetは、Truncated MobileNetV2を軽量なバックボーン機能抽出器として使用し、様々なスケールのフィーチャーマップをマージして、画像スケールの変動に対応する。 次に、抽出されたマルチスケール機能は、2つの並列サブネットワークに移行し、同時密度ベースのカウントとローカライゼーションタスクを行う。 提案手法は, 小麦頭部計数タスクにおけるMAEとRMSEの3.85と5.19をそれぞれ達成し, 他の最先端手法に比べてパラメータが有意に少ない。 提案手法の優位性と有効性を示す実験と他の最先端手法との比較を行った。

For a globally recognized planting breeding organization, manually-recorded field observation data is crucial for plant breeding decision making. However, certain phenotypic traits such as plant color, height, kernel counts, etc. can only be collected during a specific time-window of a crop's growth cycle. Due to labor-intensive requirements, only a small subset of possible field observations are recorded each season. To help mitigate this data collection bottleneck in wheat breeding, we propose a novel deep learning framework to accurately and efficiently count wheat heads to aid in the gathering of real-time data for decision making. We call our model WheatNet and show that our approach is robust and accurate for a wide range of environmental conditions of the wheat field. WheatNet uses a truncated MobileNetV2 as a lightweight backbone feature extractor which merges feature maps with different scales to counter image scale variations. Then, extracted multi-scale features go to two parallel sub-networks for simultaneous density-based counting and localization tasks. Our proposed method achieves an MAE and RMSE of 3.85 and 5.19 in our wheat head counting task, respectively, while having significantly fewer parameters when compared to other state-of-the-art methods. Our experiments and comparisons with other state-of-the-art methods demonstrate the superiority and effectiveness of our proposed method.
翻訳日:2021-03-18 13:07:02 公開日:2021-03-17
# グループノイズによる学習

Learning with Group Noise ( http://arxiv.org/abs/2103.09468v1 )

ライセンス: Link先を確認
Qizhou Wang, Jiangchao Yao, Chen Gong, Tongliang Liu, Mingming Gong, Hongxia Yang, and Bo Han(参考訳) ノイズの文脈での機械学習は、多くの現実世界のアプリケーションにとって難しいが実践的な設定だ。 この領域における以前のアプローチのほとんどは、ノイズとのペアワイズ関係(因果関係または相関関係)に焦点を当てている。 しかし,細粒度不確かさとの粗粒度関係に寄生する群雑音も普遍的であり,よく研究されていない。 この設定の下での課題は、そのきめ細かいノイズと群関係によって隠された真のペアワイズ接続を見つける方法である。 そこで本研究では,グループ雑音を用いた学習のためのMax-Matching法を提案する。 具体的には、マッチングメカニズムを使用して、各オブジェクト w.r.t の関係信頼度を評価する。 一方、ターゲットはグループ内のオブジェクト間の非iid特性を考慮している。 最も自信のある物体のみがモデルを学習すると考えられており、きめ細かいノイズがほとんど減少する。 複数の学習パラダイムの領域における実世界のデータセットのレンジの性能は、マックスマッチングの有効性を示す

Machine learning in the context of noise is a challenging but practical setting to plenty of real-world applications. Most of the previous approaches in this area focus on the pairwise relation (casual or correlational relationship) with noise, such as learning with noisy labels. However, the group noise, which is parasitic on the coarse-grained accurate relation with the fine-grained uncertainty, is also universal and has not been well investigated. The challenge under this setting is how to discover true pairwise connections concealed by the group relation with its fine-grained noise. To overcome this issue, we propose a novel Max-Matching method for learning with group noise. Specifically, it utilizes a matching mechanism to evaluate the relation confidence of each object w.r.t. the target, meanwhile considering the Non-IID characteristics among objects in the group. Only the most confident object is considered to learn the model, so that the fine-grained noise is mostly dropped. The performance on arange of real-world datasets in the area of several learning paradigms demonstrates the effectiveness of Max-Matching
翻訳日:2021-03-18 13:06:43 公開日:2021-03-17
# ランドマーク検出を用いた仮想ドレススワップ

Virtual Dress Swap Using Landmark Detection ( http://arxiv.org/abs/2103.09475v1 )

ライセンス: Link先を確認
Odar Zeynal, Saber Malekzadeh(参考訳) オンラインショッピングは最近人気がある。 本論文は,未解決のドレスをオンラインで購入する上で重要な問題である。 本研究では,6,223枚の画像と8枚のランドマークを用いたdeepfashionデータセットを用いて,衣服交換のアイデアを実装した。 深層畳み込みニューラルネットワークはランドマーク検出のために構築されている。

Online shopping has gained popularity recently. This paper addresses one crucial problem of buying dress online, which has not been solved yet. This research tries to implement the idea of clothes swapping with the help of DeepFashion dataset where 6,223 images with eight landmarks each used. Deep Convolutional Neural Network has been built for Landmark detection.
翻訳日:2021-03-18 13:06:27 公開日:2021-03-17
# 連続学習のための勾配投影メモリ

Gradient Projection Memory for Continual Learning ( http://arxiv.org/abs/2103.09762v1 )

ライセンス: Link先を確認
Gobinda Saha, Isha Garg, Kaushik Roy(参考訳) 過去のタスクを忘れずに継続的に学習できることは、人工知能システムにとって望ましい属性である。 ニューラルネットワークにおけるこのような学習を可能にする既存のアプローチは、通常、ネットワークの成長、重要度に基づく重み付け更新、メモリからの古いデータの再生に依存する。 対照的に,ニューラルネットワークは,過去のタスクにとって重要と考えられる勾配部分空間に対して直交方向の勾配ステップを取ることで,新しいタスクを学習する新しいアプローチを提案する。 これらのサブスペースの基盤は,Singular Value Decomposition (SVD) を用いて各タスクを単一ショットで学習した後,ネットワーク表現(アクティベーション)を分析し,グラディエント・プロジェクション・メモリ (GPM) としてメモリに記憶する。 定性的・定量的な分析により,このような直交勾配降下は,過去のタスクに最小から無干渉を誘導し,忘れを緩和することを示した。 本アルゴリズムは,タスクの短周期および長周期の多様な画像分類データセットを用いて評価し,最先端の手法と比較して,より優れた,あるいは公平な性能を報告した。

The ability to learn continually without forgetting the past tasks is a desired attribute for artificial learning systems. Existing approaches to enable such learning in artificial neural networks usually rely on network growth, importance based weight update or replay of old data from the memory. In contrast, we propose a novel approach where a neural network learns new tasks by taking gradient steps in the orthogonal direction to the gradient subspaces deemed important for the past tasks. We find the bases of these subspaces by analyzing network representations (activations) after learning each task with Singular Value Decomposition (SVD) in a single shot manner and store them in the memory as Gradient Projection Memory (GPM). With qualitative and quantitative analyses, we show that such orthogonal gradient descent induces minimum to no interference with the past tasks, thereby mitigates forgetting. We evaluate our algorithm on diverse image classification datasets with short and long sequences of tasks and report better or on-par performance compared to the state-of-the-art approaches.
翻訳日:2021-03-18 13:06:23 公開日:2021-03-17
# 深層学習に基づく双腕ロボットによるロープの空気中結び目

In-air Knotting of Rope using Dual-Arm Robot based on Deep Learning ( http://arxiv.org/abs/2103.09402v1 )

ライセンス: Link先を確認
Kanata Suzuki, Momomi Kanamura, Yuki Suga, Hiroki Mori, Tetsuya Ogata(参考訳) 本研究では,深層学習に基づく双腕二本指ロボットを用いて,ロープの空中結節を成功させた。 柔軟性のため、ロープの状態はロボットの操作中に常に変動していた。 これによりロボット制御システムは、常にオブジェクトの状態に動的に対応させる必要があった。 しかし、すべての対象状態に対応する適切なロボット動作のマニュアル記述を事前に作成することは困難である。 この問題を解決するために,視覚・近接センサを含むセンサモジュレータから収集したデータを用いて訓練された2つの深層ニューラルネットワークに基づいて,ロボットにボウノットとオーバーハンドノットを実行するよう指示するモデルを構築した。 その結果,オンライン上の感覚情報に基づいて適切なロボットの動きを予測できることが確認された。 さらに,両腕2指ロボットを用いて,Ianノット法に基づくタスク動作を設計した。 設計したノッティング動作は専用のワークベンチやロボットハンドを必要としないため,提案手法の汎用性が向上する。 最後に,ロープ上のオーバーハンドノットとボウノットを実行し,実際のロボットの結び目性能とその成功率を推定する実験を行った。 実験の結果,提案手法の有効性と性能が得られた。

In this study, we report the successful execution of in-air knotting of rope using a dual-arm two-finger robot based on deep learning. Owing to its flexibility, the state of the rope was in constant flux during the operation of the robot. This required the robot control system to dynamically correspond to the state of the object at all times. However, a manual description of appropriate robot motions corresponding to all object states is difficult to be prepared in advance. To resolve this issue, we constructed a model that instructed the robot to perform bowknots and overhand knots based on two deep neural networks trained using the data gathered from its sensorimotor, including visual and proximity sensors. The resultant model was verified to be capable of predicting the appropriate robot motions based on the sensory information available online. In addition, we designed certain task motions based on the Ian knot method using the dual-arm two-fingers robot. The designed knotting motions do not require a dedicated workbench or robot hand, thereby enhancing the versatility of the proposed method. Finally, experiments were performed to estimate the knotting performance of the real robot while executing overhand knots and bowknots on rope and its success rate. The experimental results established the effectiveness and high performance of the proposed method.
翻訳日:2021-03-18 13:05:41 公開日:2021-03-17
# HyperDynamics: Hypernetworksによるメタ学習オブジェクトとエージェントダイナミクス

HyperDynamics: Meta-Learning Object and Agent Dynamics with Hypernetworks ( http://arxiv.org/abs/2103.09439v1 )

ライセンス: Link先を確認
Zhou Xian, Shamit Lal, Hsiao-Yu Tung, Emmanouil Antonios Platanios, Katerina Fragkiadaki(参考訳) 我々は,エージェントの環境との相互作用を条件とし,その視覚観察を任意に行う動的メタラーニングフレームワークhyperdynamicsを提案し,動的システムの推定特性に基づいて,神経力学モデルのパラメータを生成する。 低次元状態にはまだ影響しない環境の物理的および視覚的性質は、相互作用の歴史と視覚的観察から推定され、生成されたパラメータで暗黙的にキャプチャされる。 オブジェクトプッシュと移動タスクのセットでHyperDynamicsをテストします。 これは、高次元の視覚的観察を学習し、エージェントの相互作用を反復状態表現で捉えたり、勾配に基づくメタ最適化を用いて、環境変動に適応する既存の力学モデルよりも優れている。 また,本手法は,個別に訓練された専門家の演奏に合致すると同時に,テスト時に未知の環境変動に対して十分に一般化できることを示す。 その優れた性能は、推定されたシステム特性 -- 生成したパラメータにキャプチャーされる -- と、動的システムの低次元状態表現の間の乗法的相互作用に特化します。

We propose HyperDynamics, a dynamics meta-learning framework that conditions on an agent's interactions with the environment and optionally its visual observations, and generates the parameters of neural dynamics models based on inferred properties of the dynamical system. Physical and visual properties of the environment that are not part of the low-dimensional state yet affect its temporal dynamics are inferred from the interaction history and visual observations, and are implicitly captured in the generated parameters. We test HyperDynamics on a set of object pushing and locomotion tasks. It outperforms existing dynamics models in the literature that adapt to environment variations by learning dynamics over high dimensional visual observations, capturing the interactions of the agent in recurrent state representations, or using gradient-based meta-optimization. We also show our method matches the performance of an ensemble of separately trained experts, while also being able to generalize well to unseen environment variations at test time. We attribute its good performance to the multiplicative interactions between the inferred system properties -- captured in the generated parameters -- and the low-dimensional state representation of the dynamical system.
翻訳日:2021-03-18 13:05:22 公開日:2021-03-17
# 攻撃共有損失を有するディープニューラルネットワークによるサイバー侵入検出

Cyber Intrusion Detection by Using Deep Neural Networks with Attack-sharing Loss ( http://arxiv.org/abs/2103.09713v1 )

ライセンス: Link先を確認
Boxiang Dong, Hui (Wendy) Wang, Aparna S. Varde, Dawei Li, Bharath K. Samanthula, Weifeng Sun, Liang Zhao(参考訳) サイバー攻撃はコンピュータシステムのセキュリティに重大な脅威を与え、デジタル財務を過度なリスクに晒す。 これは、侵入攻撃を高精度に識別できる効果的な侵入検知システムに対する緊急の要求につながる。 様々な攻撃のために侵入事件を分類することは困難である。 さらに、通常のネットワーク環境では、接続の大部分は良性行動によって開始される。 侵入検知におけるクラス不均衡問題により、分類器は多数/良性クラスに偏り、多くの攻撃インシデントが検出されない。 本稿では,コンピュータビジョンと自然言語処理におけるディープニューラルネットワークの成功を受けて,ディープラーニングをフル活用して侵入検出と分類を可能にするDeepIDEAという新しいシステムを設計する。 不均衡なデータに対する高い検出精度を達成するため、我々は、決定境界を攻撃クラスへ効果的に移動させ、多数/従属クラスへのバイアスを排除できる新しい攻撃共有損失関数を設計する。 この損失関数を使用することで、DeepIDEAは侵入誤分類が攻撃誤分類よりも高いペナルティを受けるべきであるという事実を尊重する。 3つのベンチマークデータセットの大規模な実験結果は、DeepIDEAの高精度な検出精度を示している。 特に、最先端の8つのアプローチと比較して、DeepIDEAは常に最高のクラスバランスの精度を提供する。

Cyber attacks pose crucial threats to computer system security, and put digital treasuries at excessive risks. This leads to an urgent call for an effective intrusion detection system that can identify the intrusion attacks with high accuracy. It is challenging to classify the intrusion events due to the wide variety of attacks. Furthermore, in a normal network environment, a majority of the connections are initiated by benign behaviors. The class imbalance issue in intrusion detection forces the classifier to be biased toward the majority/benign class, thus leave many attack incidents undetected. Spurred by the success of deep neural networks in computer vision and natural language processing, in this paper, we design a new system named DeepIDEA that takes full advantage of deep learning to enable intrusion detection and classification. To achieve high detection accuracy on imbalanced data, we design a novel attack-sharing loss function that can effectively move the decision boundary towards the attack classes and eliminates the bias towards the majority/benign class. By using this loss function, DeepIDEA respects the fact that the intrusion mis-classification should receive higher penalty than the attack mis-classification. Extensive experimental results on three benchmark datasets demonstrate the high detection accuracy of DeepIDEA. In particular, compared with eight state-of-the-art approaches, DeepIDEA always provides the best class-balanced accuracy.
翻訳日:2021-03-18 13:05:01 公開日:2021-03-17
# AIに基づくシステムにおける技術的負債とアンチパターンの特徴:システムマッピングによる研究

Characterizing Technical Debt and Antipatterns in AI-Based Systems: A Systematic Mapping Study ( http://arxiv.org/abs/2103.09783v1 )

ライセンス: Link先を確認
Justus Bogner, Roberto Verdecchia, Ilias Gerostathopoulos(参考訳) 背景: 人工知能(AI)の普及に伴い、コスト効率と管理可能な方法で大規模で複雑なAIベースのシステムを構築する必要性が高まっている。 従来のソフトウェアと同様に、技術的負債(td)は時間とともに自然に発生するため、適切に管理されていない場合の課題やリスクにつながる。 データサイエンスの影響とAIベースのシステムの確率的性質は、研究者や実践者がまだ完全に理解していない新しいタイプのTDやアンチパターンにつながる可能性がある。 目的:本研究の目的は、AIベースのシステムに現れるTD(確立されたものと新しいものの両方)と、提案されているアンチパターンおよび関連するソリューションの明確な概要と特徴を提供することである。 方法:システマティックマッピング研究のプロセスに従って,21の一次研究を同定し,分析する。 結果: (i) 確立されたtdタイプ, バリエーション, および4つの新しいtdタイプ (データ, モデル, 構成, 倫理的負債) がaiベースのシステムに存在すること, (ii) 72のアンチパターンが文献で議論されていること, (iii) 特定のtdタイプ, アンチパターン, 一般にtdに対応するための46のソリューションが提案されている。 結論:私たちの結果は、システムに存在するTDの側面を推論し、伝達することで、AI専門家をサポートすることができます。 さらに、AIベースのシステムにおけるTDの理解を深めるために、将来の研究の基盤として機能する。

Background: With the rising popularity of Artificial Intelligence (AI), there is a growing need to build large and complex AI-based systems in a cost-effective and manageable way. Like with traditional software, Technical Debt (TD) will emerge naturally over time in these systems, therefore leading to challenges and risks if not managed appropriately. The influence of data science and the stochastic nature of AI-based systems may also lead to new types of TD or antipatterns, which are not yet fully understood by researchers and practitioners. Objective: The goal of our study is to provide a clear overview and characterization of the types of TD (both established and new ones) that appear in AI-based systems, as well as the antipatterns and related solutions that have been proposed. Method: Following the process of a systematic mapping study, 21 primary studies are identified and analyzed. Results: Our results show that (i) established TD types, variations of them, and four new TD types (data, model, configuration, and ethics debt) are present in AI-based systems, (ii) 72 antipatterns are discussed in the literature, the majority related to data and model deficiencies, and (iii) 46 solutions have been proposed, either to address specific TD types, antipatterns, or TD in general. Conclusions: Our results can support AI professionals with reasoning about and communicating aspects of TD present in their systems. Additionally, they can serve as a foundation for future research to further our understanding of TD in AI-based systems.
翻訳日:2021-03-18 13:04:40 公開日:2021-03-17
# DoubleML - Rにおけるダブル機械学習のオブジェクト指向実装

DoubleML -- An Object-Oriented Implementation of Double Machine Learning in R ( http://arxiv.org/abs/2103.09603v1 )

ライセンス: Link先を確認
Philipp Bach, Victor Chernozhukov, Malte S. Kurz, Martin Spindler(参考訳) RパッケージのDoubleMLはChernozhukovらのダブル/デバイアスの機械学習フレームワークを実装している。 (2018). 機械学習手法に基づいて因果モデルのパラメータを推定する機能を提供する。 double machine learningフレームワークは、ニーマン直交性、高品質な機械学習推定、サンプル分割という3つの主要な要素で構成されている。 迷惑コンポーネントの推定は、mlr3エコシステムで利用可能なさまざまな最先端機械学習手法によって行うことができる。 DoubleMLは、部分的に線形でインタラクティブな回帰モデルや、機器変数推定の拡張を含む、さまざまな因果モデルで推論を行うことができる。 DoubleMLのオブジェクト指向実装は、モデル仕様の柔軟性を高め、容易に拡張できるようにする。 本稿では、ダブル機械学習フレームワークとRパッケージDoubleMLについて紹介する。 シミュレーションおよび実データを用いた再現可能なコード例では,doublemlユーザが機械学習手法に基づいて有効な推論を行う方法を示す。

The R package DoubleML implements the double/debiased machine learning framework of Chernozhukov et al. (2018). It provides functionalities to estimate parameters in causal models based on machine learning methods. The double machine learning framework consist of three key ingredients: Neyman orthogonality, high-quality machine learning estimation and sample splitting. Estimation of nuisance components can be performed by various state-of-the-art machine learning methods that are available in the mlr3 ecosystem. DoubleML makes it possible to perform inference in a variety of causal models, including partially linear and interactive regression models and their extensions to instrumental variable estimation. The object-oriented implementation of DoubleML enables a high flexibility for the model specification and makes it easily extendable. This paper serves as an introduction to the double machine learning framework and the R package DoubleML. In reproducible code examples with simulated and real data sets, we demonstrate how DoubleML users can perform valid inference based on machine learning methods.
翻訳日:2021-03-18 13:03:05 公開日:2021-03-17
# 超高効率超解像のための可衝突線形ブロック

Collapsible Linear Blocks for Super-Efficient Super Resolution ( http://arxiv.org/abs/2103.09404v1 )

ライセンス: Link先を確認
Kartikeya Bhardwaj, Milos Milosavljevic, Alex Chalfin, Naveen Suda, Liam O'Neil, Dibakar Gope, Lingchuan Meng, Ramon Matas, Danny Loh(参考訳) 4Kと8Kの解像度をサポートするスマートデバイスが登場し、Single Image Super Resolution (SISR)は重要なコンピュータビジョン問題となっている。 しかし、ほとんどの超解像度ディープネットワークは計算的に非常に高価である。 本稿では,画像品質を著しく向上し,計算複雑性を低減した超高効率超解像ネットワークであるsesrを提案する。 6つのベンチマークデータセットの詳細な実験によると、SESRは最新技術モデルと同等またはより良い画質を実現し、2倍から330倍のMultiply-Accumulate (MAC)操作を必要とする。 その結果、SESRは制約のあるハードウェアでx2(1080pから4K)とx4SISR(1080pから8K)を実行することができる。 そこで我々は,1080pから4K (x2) と1080pから8K (x4) SISRの商用モバイルニューラル処理ユニット(NPU)のハードウェア性能をシミュレーションした。 我々の結果は、AIアクセラレーターにおける超解像度が直面する課題を強調し、SESRが既存のモデルよりもはるかに高速であることを示す。 全体として、SESRは、超分解能タスクに対する品質(PSNR)計算関係に関する新しいパレートフロンティアを確立する。

With the advent of smart devices that support 4K and 8K resolution, Single Image Super Resolution (SISR) has become an important computer vision problem. However, most super resolution deep networks are computationally very expensive. In this paper, we propose SESR, a new class of Super-Efficient Super Resolution networks that significantly improve image quality and reduce computational complexity. Detailed experiments across six benchmark datasets demonstrate that SESR achieves similar or better image quality than state-of-the-art models while requiring 2x to 330x fewer Multiply-Accumulate (MAC) operations. As a result, SESR can be used on constrained hardware to perform x2 (1080p to 4K) and x4 SISR (1080p to 8K). Towards this, we simulate hardware performance numbers for a commercial mobile Neural Processing Unit (NPU) for 1080p to 4K (x2) and 1080p to 8K (x4) SISR. Our results highlight the challenges faced by super resolution on AI accelerators and demonstrate that SESR is significantly faster than existing models. Overall, SESR establishes a new Pareto frontier on the quality (PSNR)-computation relationship for the super resolution task.
翻訳日:2021-03-18 13:01:58 公開日:2021-03-17
# 光フローフリービデオフレーム生成のための可逆U-Net

The Invertible U-Net for Optical-Flow-free Video Interframe Generation ( http://arxiv.org/abs/2103.09576v1 )

ライセンス: Link先を確認
Saem Park, Donghun Han and Nojun Kwak(参考訳) ビデオフレーム補間は、時間軸に沿って隣接する2つのフレーム間のインターフェースを作成するタスクである。 したがって、2つの隣接するフレームを平均化して中間画像を生成するのではなく、隣接するフレームとのセマンティックな連続性を維持する必要がある。 従来の手法ではオプティカルフローを用いており、閉塞処理やオブジェクト平滑化といった様々なツールが不可欠である。 これらの様々なツールを使用することで複雑な問題が発生するため、問題のある光学フローを使わずに映像フレーム間生成問題に取り組もうとした。 これを実現するために,可逆構造を持つディープニューラルネットワークを使用し,修正正規化フローである可逆u-netを開発した。 さらに,フレーム間の意味的時間的一貫性を維持するために,潜在空間に新たな一貫性損失を持つ学習手法を提案する。 生成した画像の解像度は、可逆ネットワークを用いて元の画像と同一であることが保証される。 さらに、生成モデルによるようなランダムな画像ではないため、ネットワークはフリックなしで安定した出力を保証する。 実験により,提案アルゴリズムの有効性を確認し,ビデオフレーム補間におけるベースラインの新たな可能性として,可逆U-Netを提案する。 本論文は,ビデオ補間のための光フローではなく,可逆ネットワークを用いた世界初の試みである。

Video frame interpolation is the task of creating an interface between two adjacent frames along the time axis. So, instead of simply averaging two adjacent frames to create an intermediate image, this operation should maintain semantic continuity with the adjacent frames. Most conventional methods use optical flow, and various tools such as occlusion handling and object smoothing are indispensable. Since the use of these various tools leads to complex problems, we tried to tackle the video interframe generation problem without using problematic optical flow. To enable this, we have tried to use a deep neural network with an invertible structure and developed an invertible U-Net which is a modified normalizing flow. In addition, we propose a learning method with a new consistency loss in the latent space to maintain semantic temporal consistency between frames. The resolution of the generated image is guaranteed to be identical to that of the original images by using an invertible network. Furthermore, as it is not a random image like the ones by generative models, our network guarantees stable outputs without flicker. Through experiments, we confirmed the feasibility of the proposed algorithm and would like to suggest invertible U-Net as a new possibility for baseline in video frame interpolation. This paper is meaningful in that it is the worlds first attempt to use invertible networks instead of optical flows for video interpolation.
翻訳日:2021-03-18 13:01:38 公開日:2021-03-17
# ユーザインタラクションを最小とした操作環境における6次元物体ポーズ推定のための注釈付きトレーニングデータの生成

Generating Annotated Training Data for 6D Object Pose Estimation in Operational Environments with Minimal User Interaction ( http://arxiv.org/abs/2103.09696v1 )

ライセンス: Link先を確認
Paul Koch, Marian Schl\"uter, Serge Thill(参考訳) 近年開発された深層ニューラルネットワークは,ロボット操作のための6次元物体ポーズ推定において最先端の結果を得た。 しかし、これらの教師付きディープラーニング手法は、高価な注釈付きトレーニングデータを必要とする。 これらのコストを削減する現在の方法は、シミュレーションから合成データを使うことが多いが、専門家の知識に頼り、現実世界に移行する際に「領域ギャップ」に苦しむ。 本稿では、6次元オブジェクトのポーズ推定のための注釈付きトレーニングデータを自律的に生成する新しい手法の実証について述べる。 このアプローチは、操作環境で新しいオブジェクトを学ぶために設計されており、インタラクションはほとんど必要ありません。 自律的データ生成手法を2つの把持実験で評価し、非自律的データ集合上の関連する作業と類似した把持成功率をアーカイブする。

Recently developed deep neural networks achieved state-of-the-art results in the subject of 6D object pose estimation for robot manipulation. However, those supervised deep learning methods require expensive annotated training data. Current methods for reducing those costs frequently use synthetic data from simulations, but rely on expert knowledge and suffer from the "domain gap" when shifting to the real world. Here, we present a proof of concept for a novel approach of autonomously generating annotated training data for 6D object pose estimation. This approach is designed for learning new objects in operational environments while requiring little interaction and no expertise on the part of the user. We evaluate our autonomous data generation approach in two grasping experiments, where we archive a similar grasping success rate as related work on a non autonomously generated data set.
翻訳日:2021-03-18 13:01:15 公開日:2021-03-17
# 近等距離およびそれ以上のホイットニー拡大問題について

On the Whitney extension problem for near isometries and beyond ( http://arxiv.org/abs/2103.09748v1 )

ライセンス: Link先を確認
Steven B. Damelin(参考訳) 本論文は著者らによる著作の紹介である。 代数微分幾何学、多様体の解析、複素調和解析、データ科学、偏微分方程式、最適化と確率など、いくつかの数学主題の交点にあるいくつかの数学問題の間の興味深い関係を詳述する。 この研究の大部分はcharles fefferman氏の論文[39, 40, 41, 42]における共同研究に基づいている。 この研究のトピックは (a)$\mathbb R^D,\, D\geq 2$ における有界平均振動(BMO)の写像の空間である。 (b)ある測度を持つ点集合と、$\mathbb R^D,\, D\geq 2$ の極小コンパクト集合に対して、ラベル付きおよびラベルなしの近傍アライメントとプロクリスト問題。 (c)ある種の幾何学を持つ点集合に対するホイットニー近傍等長距離拡大問題、および$\mathbb r^d,\,d\geq 2$ のコンパクト集合について。 (d)コンパクト集合と特定の幾何学を持つ点集合の分割とクラスタリング $\mathbb r^d,\,d\geq 2$ および $\mathbb r^d,\,d\geq 2$ のある多様体の解析。 将来の研究のための多くのオープンな問題が与えられている。

This paper is an exposition of work of the author et al. detailing fascinating connections between several mathematical problems which lie on the intersection of several mathematics subjects, namely algebraic-differenti al geometry, analysis on manifolds, complex-harmonic analysis, data science, partial differential equations, optimization and probability. A significant portion of the work is based on joint research with Charles Fefferman in the papers [39, 40, 41, 42]. The topics of this work include (a) The space of maps of bounded mean oscillation (BMO) in $\mathbb R^D,\, D\geq 2$. (b) The labeled and unlabeled near alignment and Procrustes problem for point sets with certain geometries and for not too thin compact sets both in $\mathbb R^D,\, D\geq 2$. (c) The Whitney near isometry extension problem for point sets with certain geometries and for not too thin compact sets both in $\mathbb R^D,\, D\geq 2$. (d) Partitions and clustering of compact sets and point sets with certain geometries in $\mathbb R^D,\, D\geq 2$ and analysis on certain manifolds in $\mathbb R^D,\, D\geq 2$. Many open problems for future research are given.
翻訳日:2021-03-18 13:01:01 公開日:2021-03-17
# 対話の歴史! 多ターン検索型チャットボットにおけるパーソナライズされた応答選択

Dialogue History Matters! Personalized Response Selectionin Multi-turn Retrieval-based Chatbots ( http://arxiv.org/abs/2103.09534v1 )

ライセンス: Link先を確認
Juntao Li, Chang Liu, Chongyang Tao, Zhangming Chan, Dongyan Zhao, Min Zhang, Rui Yan(参考訳) 既存のマルチターンコンテキスト応答マッチング手法は主に、マルチレベルおよびマルチディメンジョン表現の取得と、文脈発話と応答の相互作用の改善に重点を置いている。 しかし、実際の会話シナリオでは、応答候補が適切なかどうかは、与えられた対話コンテキストだけでなく、単語の習慣、ユーザ固有の対話履歴コンテンツなど、他の背景も考慮する。 これらの最新手法と実世界のアプリケーションとのギャップを埋めるために,ユーザ固有の対話履歴を応答選択に取り入れ,パーソナライズされたハイブリッドマッチングネットワーク(phmn)を提案する。 提案手法は,ユーザ固有の対話履歴からパーソナライズされた発話行動を余分なマッチング情報として抽出する。2)文脈応答発話に基づくハイブリッド表現学習を行い,文脈応答対話からバイタル情報を抽出するために,カスタマイズされた注意機構を明示的に取り入れ,マッチングの精度を向上させる。 ユーザ識別を伴う2つの大きなデータセット、すなわち、パーソナライズされたUbuntuダイアログコーパス(P-Ubuntu)とパーソナライズされたWeiboデータセット(P-Weibo)でモデルを評価する。 実験の結果, パーソナライズされた注意, ワーキング行動, ハイブリッド表現学習を組み合わせることにより, 本手法がいくつかの強モデルを大きく上回ることがわかった。

Existing multi-turn context-response matching methods mainly concentrate on obtaining multi-level and multi-dimension representations and better interactions between context utterances and response. However, in real-place conversation scenarios, whether a response candidate is suitable not only counts on the given dialogue context but also other backgrounds, e.g., wording habits, user-specific dialogue history content. To fill the gap between these up-to-date methods and the real-world applications, we incorporate user-specific dialogue history into the response selection and propose a personalized hybrid matching network (PHMN). Our contributions are two-fold: 1) our model extracts personalized wording behaviors from user-specific dialogue history as extra matching information; 2) we perform hybrid representation learning on context-response utterances and explicitly incorporate a customized attention mechanism to extract vital information from context-response interactions so as to improve the accuracy of matching. We evaluate our model on two large datasets with user identification, i.e., personalized Ubuntu dialogue Corpus (P-Ubuntu) and personalized Weibo dataset (P-Weibo). Experimental results confirm that our method significantly outperforms several strong models by combining personalized attention, wording behaviors, and hybrid representation learning.
翻訳日:2021-03-18 13:00:34 公開日:2021-03-17
# ボールの回収・攻撃予測モデルに基づくサッカーチームディフェンスの評価

Evaluation of soccer team defense based on prediction models of ball recovery and being attacked ( http://arxiv.org/abs/2103.09627v1 )

ライセンス: Link先を確認
Kosuke Toda, Masakiyo Teranishi, Keisuke Kushiro, Keisuke Fujii(参考訳) 計測技術の発展に伴い,各種スポーツにおける実技の動きに関するデータが利用可能となり,戦術・戦略の計画・評価に使用されることが期待される。 特に、チームスポーツにおける防御は、統計データが不足しているため、一般に評価が難しい。 スコアの予測に基づく従来の評価方法は信頼性が低く、ゲーム全体を通して稀な事象を予測しており、スコアに至る様々なプレーを評価することは困難である。 一方で、得点や支配的な地域につながる特定のプレーに基づく評価手法は、プレイヤーやチームのパフォーマンス(例えば得点)を評価するのに不適格な場合もある。 本研究では,すべての選手とボールの位置データを用いて,ゴールよりも頻繁に発生する球の回復と攻撃の予測に基づいて,チームパフォーマンスに関する包括的視点からチーム防御を評価する手法を提案する。 サッカー45試合のデータを用いて,実試合およびシーズンを通して,提案する指標とチームパフォーマンスの関係について検討した。 その結果、提案する分類器は、希少な事象(すなわち目標)に基づく既存の分類器よりも正確な真の事象を予測できることがわかった。 また,提案指標は季節の長期成績と適度な相関を示した。 これらの結果から,提案指標は偶発的要因を伴って勝敗よりも信頼性の高い指標である可能性が示唆された。

With the development of measurement technology, data on the movements of actual games in various sports are available and are expected to be used for planning and evaluating the tactics and strategy. In particular, defense in team sports is generally difficult to be evaluated because of the lack of statistical data. Conventional evaluation methods based on predictions of scores are considered unreliable and predict rare events throughout the entire game, and it is difficult to evaluate various plays leading up to a score. On the other hand, evaluation methods based on certain plays that lead to scoring and dominant regions are sometimes unsuitable to evaluate the performance (e.g., goals scored) of players and teams. In this study, we propose a method to evaluate team defense from a comprehensive perspective related to team performance based on the prediction of ball recovery and being attacked, which occur more frequently than goals, using player behavior and positional data of all players and the ball. Using data from 45 soccer matches, we examined the relationship between the proposed index and team performance in actual matches and throughout a season. Results show that the proposed classifiers more accurately predicted the true events than the existing classifiers which were based on rare events (i.e., goals). Also, the proposed index had a moderate correlation with the long-term outcomes of the season. These results suggest that the proposed index might be a more reliable indicator rather than winning or losing with the inclusion of accidental factors.
翻訳日:2021-03-18 13:00:08 公開日:2021-03-17
# 眼画像分割のための半教師付き学習

Semi-Supervised Learning for Eye Image Segmentation ( http://arxiv.org/abs/2103.09369v1 )

ライセンス: Link先を確認
Aayush K. Chaudhary, Prashnna K. Gyawali, Linwei Wang, Jeff B. Pelz(参考訳) 近年の外観モデルによる視線追跡性能の向上は、眼炎、まぶた、カメラ装着による閉塞、角膜や眼鏡の環境反射などによる難易度が向上している。 改善の鍵となる理由は、目の部分(毛虫、虹彩、硬化領域)の正確で堅牢な識別である。 精度の向上は、複雑で時間がかかる巨大なデータセットをラベル付けするコストがかかることが少なくありません。 本研究は,ラベル付きデータセットが不足している未ラベル画像を活用することにより,アイパートを識別するための,半教師付き学習フレームワークを2つ提示する。 これらのフレームワークでは、領域固有の拡張と空間的変化の新たな変換を活用し、様々なテストケースの性能向上を示す。 例えば、48のラベル付きイメージでトレーニングされたモデルでは、これらのフレームワークはベースラインモデルよりも0.38%と0.65%のセグメンテーション性能の向上を達成した。

Recent advances in appearance-based models have shown improved eye tracking performance in difficult scenarios like occlusion due to eyelashes, eyelids or camera placement, and environmental reflections on the cornea and glasses. The key reason for the improvement is the accurate and robust identification of eye parts (pupil, iris, and sclera regions). The improved accuracy often comes at the cost of labeling an enormous dataset, which is complex and time-consuming. This work presents two semi-supervised learning frameworks to identify eye-parts by taking advantage of unlabeled images where labeled datasets are scarce. With these frameworks, leveraging the domain-specific augmentation and novel spatially varying transformations for image segmentation, we show improved performance on various test cases. For instance, for a model trained on just 48 labeled images, these frameworks achieved an improvement of 0.38% and 0.65% in segmentation performance over the baseline model, which is trained only with the labeled dataset.
翻訳日:2021-03-18 12:59:47 公開日:2021-03-17
# ハイパースペクトル画像分類のためのトリプレット流域

Triplet-Watershed for Hyperspectral Image Classification ( http://arxiv.org/abs/2103.09384v1 )

ライセンス: Link先を確認
Aditya Challa, Sravan Danda, B.S.Daya Sagar and Laurent Najman(参考訳) ハイパースペクトル画像(HSI)は、様々な用途に使用可能な、豊富な空間情報とスペクトル情報から構成される。 しかし、ノイズ、バンド相関、高次元はそのようなデータの適用性を制限する。 これはresnet、ssrn、a2s2kといったクリエイティブなディープラーニングネットワークアーキテクチャを使って最近対処されている。 しかし、最後の層、すなわち分類層は変わらず、softmax分類器として扱われる。 本稿では,流域分類器の利用を提案する。 流域分類器は、分類のために流域演算子を数学的形態学から拡張する。 バニラ形式では、流域分類器は訓練可能なパラメータを持たない。 本稿では,流域分類器に適した表現を得るために,深層学習ネットワークを訓練するための新しい手法を提案する。 流域分類器は、より良い推論のために、HSIデータセットの特徴である接続パターンを利用する。 このような特徴を生かして,三重項流域が最先端の成果を得られることを示す。 これらの結果は、従来の最先端ネットワークに比べて4分の1のパラメータを用いた単純なネットワークアーキテクチャに頼って、Indianpines(IP)、University of Pavia(UP)、ケネディ宇宙センター(KSC)のデータセットで検証される。

Hyperspectral images (HSI) consist of rich spatial and spectral information, which can potentially be used for several applications. However, noise, band correlations and high dimensionality restrict the applicability of such data. This is recently addressed using creative deep learning network architectures such as ResNet, SSRN, and A2S2K. However, the last layer, i.e the classification layer, remains unchanged and is taken to be the softmax classifier. In this article, we propose to use a watershed classifier. Watershed classifier extends the watershed operator from Mathematical Morphology for classification. In its vanilla form, the watershed classifier does not have any trainable parameters. In this article, we propose a novel approach to train deep learning networks to obtain representations suitable for the watershed classifier. The watershed classifier exploits the connectivity patterns, a characteristic of HSI datasets, for better inference. We show that exploiting such characteristics allows the Triplet-Watershed to achieve state-of-art results. These results are validated on Indianpines (IP), University of Pavia (UP), and Kennedy Space Center (KSC) datasets, relying on simple convnet architecture using a quarter of parameters compared to previous state-of-the-art networks.
翻訳日:2021-03-18 12:59:28 公開日:2021-03-17
# YOLOStereo3D:効率的なステレオ3D検出のためのステップバック2D

YOLOStereo3D: A Step Back to 2D for Efficient Stereo 3D Detection ( http://arxiv.org/abs/2103.09422v1 )

ライセンス: Link先を確認
Yuxuan Liu, Lujia Wang, Ming Liu(参考訳) ステレオカメラを用いた3D物体検出はコンピュータビジョンにおいて重要な問題であり、LiDARのない低コストの自律移動ロボットでは特に重要である。 今日では、ステレオ3次元物体検出のための最高の性能のフレームワークのほとんどは、差分推定による深度再構成に基づいており、計算コストが非常に高い。 両眼画像による視覚検出の現実的な展開を可能にするため、2次元画像に基づく検出フレームワークから洞察を得て、ステレオ機能でそれらを強化する。 実時間1段2D/3Dオブジェクト検出器の知識と推論構造を取り入れ,軽量ステレオマッチングモジュールを導入する。 提案するフレームワークであるYOLOStereo3Dは,単一のGPU上で10fps以上で動作する。 LiDARデータを使わずに、最先端のステレオ3D検出フレームワークに匹敵するパフォーマンスを示す。 コードはhttps://github.com/O wen-Liuyuxuan/visual Det3Dで公開される。

Object detection in 3D with stereo cameras is an important problem in computer vision, and is particularly crucial in low-cost autonomous mobile robots without LiDARs. Nowadays, most of the best-performing frameworks for stereo 3D object detection are based on dense depth reconstruction from disparity estimation, making them extremely computationally expensive. To enable real-world deployments of vision detection with binocular images, we take a step back to gain insights from 2D image-based detection frameworks and enhance them with stereo features. We incorporate knowledge and the inference structure from real-time one-stage 2D/3D object detector and introduce a light-weight stereo matching module. Our proposed framework, YOLOStereo3D, is trained on one single GPU and runs at more than ten fps. It demonstrates performance comparable to state-of-the-art stereo 3D detection frameworks without usage of LiDAR data. The code will be published in https://github.com/O wen-Liuyuxuan/visual Det3D.
翻訳日:2021-03-18 12:59:09 公開日:2021-03-17
# 動的時間ワープによる識別的プロトタイプの学習

Learning Discriminative Prototypes with Dynamic Time Warping ( http://arxiv.org/abs/2103.09458v1 )

ライセンス: Link先を確認
Xiaobin Chang, Frederick Tung, Greg Mori(参考訳) Dynamic Time Warping (DTW) は時間データ処理に広く使われている。 しかし、既存の手法では、異なるクラスの識別プロトタイプを学習することも、そのようなプロトタイプをさらなる分析に利用することもできない。 時間的認識タスクのためのクラス固有の識別プロトタイプを学習する新しい手法であるDP-DTWを提案する。 DP-DTWは時系列分類ベンチマークにおいて従来のDTWよりも優れた性能を示す。 エンドツーエンドのディープラーニングと組み合わせることで、DP-DTWは、弱い教師付きアクションセグメンテーション問題に対処し、標準ベンチマークで技術結果の状態を達成できる。 さらに、学習したアクションプロトタイプによって、入力ビデオの詳細な推論が可能となる。 具体的には、入力シーケンスをアクションプロトタイプと整合させることにより、アクションベースのビデオ要約を得ることができる。

Dynamic Time Warping (DTW) is widely used for temporal data processing. However, existing methods can neither learn the discriminative prototypes of different classes nor exploit such prototypes for further analysis. We propose Discriminative Prototype DTW (DP-DTW), a novel method to learn class-specific discriminative prototypes for temporal recognition tasks. DP-DTW shows superior performance compared to conventional DTWs on time series classification benchmarks. Combined with end-to-end deep learning, DP-DTW can handle challenging weakly supervised action segmentation problems and achieves state of the art results on standard benchmarks. Moreover, detailed reasoning on the input video is enabled by the learned action prototypes. Specifically, an action-based video summarization can be obtained by aligning the input sequence with action prototypes.
翻訳日:2021-03-18 12:58:53 公開日:2021-03-17
# ワンレベル機能しか見えません

You Only Look One-level Feature ( http://arxiv.org/abs/2103.09460v1 )

ライセンス: Link先を確認
Qiang Chen, Yingming Wang, Tong Yang, Xiangyu Zhang, Jian Cheng, Jian Sun(参考訳) 本稿では,一段階検出器の特徴ピラミッドネットワーク(fpn)を再検討し,fpnの成功は,マルチスケール特徴融合ではなく,オブジェクト検出における最適化問題に対する分割・解法によるものであることを指摘する。 最適化の観点からは、複雑な特徴ピラミッドを採用する代わりに、この問題に対処する別の方法を導入する。 シンプルで効率的なソリューションに基づいて、You Only Look One-level Feature (YOLOF)を提示する。 本手法では,Dilated EncoderとUniform Matchingの2つの重要なコンポーネントを提案し,大幅な改良を加えた。 COCOベンチマークの大規模な実験により,提案モデルの有効性が証明された。 私たちのYOLOFは、RetinaNetに匹敵する機能ピラミッドで同等の結果を得ています。 トランスフォーマー層がなければ、YOLOFはDETRのパフォーマンスをシングルレベルな機能として、より少ないトレーニングエポックで7\times$で一致させることができる。 画像サイズは608\times608$で、2080Tiの60fpsで44.3mAP、YOLOv4より13.%速い。 コードは \url{https://github.com/m egvii-model/YOLOF} で入手できる。

This paper revisits feature pyramids networks (FPN) for one-stage detectors and points out that the success of FPN is due to its divide-and-conquer solution to the optimization problem in object detection rather than multi-scale feature fusion. From the perspective of optimization, we introduce an alternative way to address the problem instead of adopting the complex feature pyramids - {\em utilizing only one-level feature for detection}. Based on the simple and efficient solution, we present You Only Look One-level Feature (YOLOF). In our method, two key components, Dilated Encoder and Uniform Matching, are proposed and bring considerable improvements. Extensive experiments on the COCO benchmark prove the effectiveness of the proposed model. Our YOLOF achieves comparable results with its feature pyramids counterpart RetinaNet while being $2.5\times$ faster. Without transformer layers, YOLOF can match the performance of DETR in a single-level feature manner with $7\times$ less training epochs. With an image size of $608\times608$, YOLOF achieves 44.3 mAP running at 60 fps on 2080Ti, which is $13\%$ faster than YOLOv4. Code is available at \url{https://github.com/m egvii-model/YOLOF}.
翻訳日:2021-03-18 12:58:41 公開日:2021-03-17
# クラウドカウントのためのマルチチャネル深層監視

Multi-channel Deep Supervision for Crowd Counting ( http://arxiv.org/abs/2103.09553v1 )

ライセンス: Link先を確認
Bo Wei, Mulin Chen, Qi Wang, Xuelong Li(参考訳) 群衆カウントは、公共の安全やビデオ監視といった幅広い用途のために、現代社会で探索する価値のあるタスクである。 多くのCNNベースのアプローチが見積もりの精度を改善するために提案されているが、プール層によるオーバーフィットや詳細の喪失など、パフォーマンスに固有の問題がいくつかある。 本稿では,MDS(Multi-channel Deep Supervision)と呼ばれる新しい監視フレームワークを導入するMDSNetというネットワークを提案する。 MDSは、密度マップの生成を支援するために、推定モデルのデコーダをチャネル的に監視する。 異なるチャネルの正確な監視情報を得るために、MDSNetはSupervisionNet(SN)と呼ばれる補助ネットワークを使用して、既存の基盤に基づいて豊富な監視マップを生成する。 従来の密度マップの監視に加えて、SNを使用してドットアノテーションを連続的な監視情報に変換し、MDSNetでドット監視を行う。 いくつかの主要なベンチマークにおいて、提案したMDSNetは競合する結果となり、MDSNetはネットワーク構造を変えることなく性能を著しく向上することを示した。

Crowd counting is a task worth exploring in modern society because of its wide applications such as public safety and video monitoring. Many CNN-based approaches have been proposed to improve the accuracy of estimation, but there are some inherent issues affect the performance, such as overfitting and details lost caused by pooling layers. To tackle these problems, in this paper, we propose an effective network called MDSNet, which introduces a novel supervision framework called Multi-channel Deep Supervision (MDS). The MDS conducts channel-wise supervision on the decoder of the estimation model to help generate the density maps. To obtain the accurate supervision information of different channels, the MDSNet employs an auxiliary network called SupervisionNet (SN) to generate abundant supervision maps based on existing groundtruth. Besides the traditional density map supervision, we also use the SN to convert the dot annotations into continuous supervision information and conduct dot supervision in the MDSNet. Extensive experiments on several mainstream benchmarks show that the proposed MDSNet achieves competitive results and the MDS significantly improves the performance without changing the network structure.
翻訳日:2021-03-18 12:58:22 公開日:2021-03-17
# 大規模バイオメディカルデータのための階層的ランダムウォーカーセグメンテーション

Hierarchical Random Walker Segmentation for Large Volumetric Biomedical Data ( http://arxiv.org/abs/2103.09564v1 )

ライセンス: Link先を確認
Dominik Drees and Xiaoyi Jiang(参考訳) 画像セグメンテーションのためのランダムウォーカー法は、特に生体領域における半自動画像セグメンテーションの一般的なツールである。 しかし、その線形漸近的な実行時間とメモリ要件は、サイズが大きくなる3Dデータセットに適用することができない。 我々は、ランダムウォーカーアルゴリズムの制約を克服する最初の試みであり、サブリニア実行時間と一定のメモリ複雑性を達成するための階層的フレームワークを提案する。 本手法は, それぞれ高いセグメンテーション品質を定量的に確認し, 視覚的に観察する, 現生医学研究の合成データと実データに基づいて評価する。 インクリメンタルな(インタラクション更新)実行時間は、数百ギガバイトサイズのボリュームであっても、標準のPC上で秒単位であることが示されている。 提案手法の実装は、広く使われているボリュームレンダリングおよび処理ソフトウェアvoreen(https://www.u ni-muenster.de/voree n/)のバージョン5.2で公開されている。

The random walker method for image segmentation is a popular tool for semi-automatic image segmentation, especially in the biomedical field. However, its linear asymptotic run time and memory requirements make application to 3D datasets of increasing sizes impractical. We propose a hierarchical framework that, to the best of our knowledge, is the first attempt to overcome these restrictions for the random walker algorithm and achieves sublinear run time and constant memory complexity. The method is evaluated on synthetic data and real data from current biomedical research, where high segmentation quality is quantitatively confirmed and visually observed, respectively. The incremental (i.e., interaction update) run time is demonstrated to be in seconds on a standard PC even for volumes of hundreds of Gigabytes in size. An implementation of the presented method is publicly available in version 5.2 of the widely used volume rendering and processing software Voreen (https://www.uni-mue nster.de/Voreen/).
翻訳日:2021-03-18 12:58:05 公開日:2021-03-17
# リッチで多様なテキスト記述による大規模ゼロショット画像分類

Large-Scale Zero-Shot Image Classification from Rich and Diverse Textual Descriptions ( http://arxiv.org/abs/2103.09669v1 )

ライセンス: Link先を確認
Sebastian Bujwid, Josephine Sullivan(参考訳) ゼロショット学習(ZSL)のための授業のリッチで多様なテキスト記述がImageNetに与える影響について検討する。 我々は、imagenetクラスと対応するwikipediaの記事にマッチする新しいデータセットimagenet-wikiを作成する。 これらの項目をクラス記述として活用するだけで,従来よりもZSLの性能が向上することを示す。 この種の補助データを使用する単純なモデルでさえ、クラス名のワードエンベッドエンコーディングの標準的な特徴に依存する最先端モデルよりも優れている。 これらの結果は、ZSLにおけるテキスト記述の有用性と重要性、およびアルゴリズムの進歩と比較して補助データ型の重要性を強調した。 また, 標準ゼロショット学習手法は, クラスにまたがって, 汎用性に乏しいことを示した。

We study the impact of using rich and diverse textual descriptions of classes for zero-shot learning (ZSL) on ImageNet. We create a new dataset ImageNet-Wiki that matches each ImageNet class to its corresponding Wikipedia article. We show that merely employing these Wikipedia articles as class descriptions yields much higher ZSL performance than prior works. Even a simple model using this type of auxiliary data outperforms state-of-the-art models that rely on standard features of word embedding encodings of class names. These results highlight the usefulness and importance of textual descriptions for ZSL, as well as the relative importance of auxiliary data type compared to algorithmic progress. Our experimental results also show that standard zero-shot learning approaches generalize poorly across categories of classes.
翻訳日:2021-03-18 12:57:48 公開日:2021-03-17
# HAMIL:顕微鏡画像分類のための階層的集約に基づくマルチインスタンス学習

HAMIL: Hierarchical Aggregation-Based Multi-Instance Learning for Microscopy Image Classification ( http://arxiv.org/abs/2103.09764v1 )

ライセンス: Link先を確認
Yanlun Tu, Houchao Lei, Wei Long, Yang Yang(参考訳) マルチインスタンス学習はコンピュータビジョンタスク、特にバイオメディカル画像処理において一般的である。 従来のマルチインスタンス学習手法は,特徴抽出と学習フェーズのいずれにおいてもアグリゲーション操作を行うマルチインスタンス分類器の設計に重点を置いている。 ディープニューラルネットワーク(DNN)は、自動特徴学習による画像処理において大きな成功を収めているため、特定の特徴集約メカニズムを、マルチインスタンス学習のための共通DNNアーキテクチャに組み込む必要がある。 さらに、さまざまな品質とインスタンス数を扱うためには、柔軟性と信頼性が重要です。 本研究では,マルチインスタンス学習のための階層型アグリゲーションネットワークhamilを提案する。 階層的なアグリゲーションプロトコルは、定義された順序で機能融合を可能にし、単純な畳み込みアグリゲーションユニットは効率的で柔軟なアーキテクチャをもたらす。 免疫蛍光画像を用いたタンパク質細胞内局在と空間遺伝子発現画像を用いた遺伝子アノテーションの2つの顕微鏡画像分類タスクにおけるモデル性能を評価する。 実験の結果,hamilは最先端の機能集約手法と,これら2つのタスクに対応する既存モデルよりも優れていた。 可視化分析は、ハイクオリティなインスタンスにフォーカスできるhamilの能力も示している。

Multi-instance learning is common for computer vision tasks, especially in biomedical image processing. Traditional methods for multi-instance learning focus on designing feature aggregation methods and multi-instance classifiers, where the aggregation operation is performed either in feature extraction or learning phase. As deep neural networks (DNNs) achieve great success in image processing via automatic feature learning, certain feature aggregation mechanisms need to be incorporated into common DNN architecture for multi-instance learning. Moreover, flexibility and reliability are crucial considerations to deal with varying quality and number of instances. In this study, we propose a hierarchical aggregation network for multi-instance learning, called HAMIL. The hierarchical aggregation protocol enables feature fusion in a defined order, and the simple convolutional aggregation units lead to an efficient and flexible architecture. We assess the model performance on two microscopy image classification tasks, namely protein subcellular localization using immunofluorescence images and gene annotation using spatial gene expression images. The experimental results show that HAMIL outperforms the state-of-the-art feature aggregation methods and the existing models for addressing these two tasks. The visualization analyses also demonstrate the ability of HAMIL to focus on high-quality instances.
翻訳日:2021-03-18 12:57:34 公開日:2021-03-17
# ALADIN: きめ細かいスタイルの類似性のための全層適応インスタンス正規化

ALADIN: All Layer Adaptive Instance Normalization for Fine-grained Style Similarity ( http://arxiv.org/abs/2103.09776v1 )

ライセンス: Link先を確認
Dan Ruta, Saeid Motiian, Baldo Faieta, Zhe Lin, Hailin Jin, Alex Filipkowski, Andrew Gilbert, John Collomosse(参考訳) 本稿では,ALADIN(All Layer AdaIN)について紹介する。 表現学習は視覚検索において重要であり、学習された検索埋め込み内の距離は画像の類似性を反映している。 スタイルにおける細かなバリエーションを識別する埋め込みの学習は、スタイルの定義とラベリングが難しいため難しい。 ALADINは、Webから収集されたユーザ生成コンテンツグループの新しい大規模データセットであるBAM-FGを利用して、デジタルアートワークのきめ細かいスタイルの類似性を表現するために、弱い教師付きアプローチを採用している。 ALADINは、粗いラベル付きスタイルデータ(BAM)とBAM-FGの両方に対するスタイルベースのビジュアルサーチのための、新しい芸術的精度を設定している。

We present ALADIN (All Layer AdaIN); a novel architecture for searching images based on the similarity of their artistic style. Representation learning is critical to visual search, where distance in the learned search embedding reflects image similarity. Learning an embedding that discriminates fine-grained variations in style is hard, due to the difficulty of defining and labelling style. ALADIN takes a weakly supervised approach to learning a representation for fine-grained style similarity of digital artworks, leveraging BAM-FG, a novel large-scale dataset of user generated content groupings gathered from the web. ALADIN sets a new state of the art accuracy for style-based visual search over both coarse labelled style data (BAM) and BAM-FG; a new 2.62 million image dataset of 310,000 fine-grained style groupings also contributed by this work.
翻訳日:2021-03-18 12:57:16 公開日:2021-03-17
# マルチスケールグラフ相関を用いた効率よいベイズ最適化

Efficient Bayesian Optimization using Multiscale Graph Correlation ( http://arxiv.org/abs/2103.09434v1 )

ライセンス: Link先を確認
Takuya Kanazawa(参考訳) ベイズ最適化はブラックボックス関数を最適化するための強力なツールである。 本稿では,大域的最大値に対する多スケールグラフ相関を最大化し,次の問合せ点を決定するgp-mgcと呼ばれるベイズ最適化の新しい手法を提案する。 本稿では,合成ベンチマーク関数と実世界のデータセットの両方を含むアプリケーションにおけるgp-mgcの評価を行い,最大値エントロピー探索やgp-ucbのような最先端手法よりもgp-mgcが優れていることを示す。

Bayesian optimization is a powerful tool to optimize a black-box function, the evaluation of which is time-consuming or costly. In this paper, we propose a new approach to Bayesian optimization called GP-MGC, which maximizes multiscale graph correlation with respect to the global maximum to determine the next query point. We present our evaluation of GP-MGC in applications involving both synthetic benchmark functions and real-world datasets and demonstrate that GP-MGC performs as well as or even better than state-of-the-art methods such as max-value entropy search and GP-UCB.
翻訳日:2021-03-18 12:56:35 公開日:2021-03-17
# 日常実験データを用いた老化率のモデル化 : 死亡率と医療費への影響

Modeling differential rates of aging using routine laboratory data; Implications for morbidity and health care expenditure ( http://arxiv.org/abs/2103.09574v1 )

ライセンス: Link先を確認
Alix Jean Santos and Xavier Eugenio Asuncion and Camille Rivero-Co and Maria Eloisa Ventura and Reynaldo Geronia II and Lauren Bangerter and Natalie E. Sheils(参考訳) 加齢は、表現型が様々な速度で変化する多次元過程である。 老化に関する縦断的研究は通常、数年にわたって個人のコホートに従う。 この設計は、コスト、誘引、そしてその後小さなサンプルサイズによって妨げられる。 それゆえ、代替手段が保証される。 本研究は,2016年から2019年にかけて収集された14万個体を対象とした臨床実験から,横断的データから老化率を推定するために,変分オートエンコーダを用いた。 1) 腎, 2) 甲状腺, 3) 白血球, 4) 肝臓と心臓の身体機能を表す4つの老化次元を同定した。 次に,高齢化率と医療費の関係について検討した。 一般に、これらの次元に沿ったより速いアガーは、これらの身体機能に関連する慢性疾患を発症する可能性が高い。 彼らはまた、より遅いアガーよりも高い医療費を持っていた。 高齢化率に基づくK平均クラスタリングの結果, 死亡率の高いクラスターは, あらゆる種類の医療サービスにおいて最もコストが高かった。 その結果,異なる次元の年齢を理解する方法として,断面実験データを活用できることが示唆された。 さらに、老化率は将来のコストと差があり、病気の進行を遅らせるための介入の開発に役立てることができる。

Aging is a multidimensional process where phenotypes change at varying rates. Longitudinal studies of aging typically involve following a cohort of individuals over the course of several years. This design is hindered by cost, attrition, and subsequently small sample size. Alternative methodologies are therefore warranted. In this study, we used a variational autoencoder to estimate rates of aging from cross-sectional data from routine laboratory tests of 1.4 million individuals collected from 2016 to 2019. By incorporating metrics that would ensure model's stability and distinctness of the dimensions, we uncovered four aging dimensions that represent the following bodily functions: 1) kidney, 2) thyroid, 3) white blood cells, and 4) liver and heart. We then examined the relationship between rates of aging on morbidity and health care expenditure. In general, faster agers along these dimensions are more likely to develop chronic diseases that are related to these bodily functions. They also had higher health care expenditures compared to the slower agers. K-means clustering of individuals based on rate of aging revealed that clusters with higher odds of developing morbidity had the highest cost across all types of health care services. Results suggest that cross-sectional laboratory data can be leveraged as an alternative methodology to understand age along the different dimensions. Moreover, rates of aging are differentially related to future costs, which can aid in the development of interventions to delay disease progression.
翻訳日:2021-03-18 12:56:23 公開日:2021-03-17
# グラフ自己補正による多段階グラフ学習

Diversified Multiscale Graph Learning with Graph Self-Correction ( http://arxiv.org/abs/2103.09754v1 )

ライセンス: Link先を確認
Yuzhao Chen, Yatao Bian, Jiying Zhang, Xi Xiao, Tingyang Xu, Yu Rong, Junzhou Huang(参考訳) マルチスケールグラフ学習技術によって高度な特徴抽出フレームワークが実現されているが、従来のアンサンブル戦略は、既存のグラフプーリング法の性質によって引き起こされる学習表現の高均一性に遭遇しながら、性能が劣る可能性がある。 そこで本研究では,2つのコア成分からなる多元的多元的グラフ学習モデルを提案する。グラフ自己修正(gsc)機構により有意な埋め込みグラフを生成し,dbr(diversity boosting regularizer)により,入力グラフの包括的特徴付けを実現する。 提案したGSC機構は,グラフプーリング手法のプラグインコンポーネントとして機能する推定残差グラフを返送することにより,グラフプーリングプロセス中に失った情報をプールされたグラフに補償する。 一方,gsc法で強化されたプーリング手法は,ノード埋め込みのばらつきを助長するので,アンサンブル学習戦略の成功に寄与する。 提案するdbrは、個々の分類器間の相互作用を利用して、グラフレベルの埋め込みにおけるアンサンブルの多様性を高める。 グラフ分類ベンチマークの大規模な実験により、提案したGSC機構は、最先端のグラフプーリング法よりも大幅に改善されていることが示されている。 さらに,GSCとDBRを組み合わせることで,アンサンブルマルチスケールグラフ学習モデルの性能向上を実現している。

Though the multiscale graph learning techniques have enabled advanced feature extraction frameworks, the classic ensemble strategy may show inferior performance while encountering the high homogeneity of the learnt representation, which is caused by the nature of existing graph pooling methods. To cope with this issue, we propose a diversified multiscale graph learning model equipped with two core ingredients: a graph self-correction (GSC) mechanism to generate informative embedded graphs, and a diversity boosting regularizer (DBR) to achieve a comprehensive characterization of the input graph. The proposed GSC mechanism compensates the pooled graph with the lost information during the graph pooling process by feeding back the estimated residual graph, which serves as a plug-in component for popular graph pooling methods. Meanwhile, pooling methods enhanced with the GSC procedure encourage the discrepancy of node embeddings, and thus it contributes to the success of ensemble learning strategy. The proposed DBR instead enhances the ensemble diversity at the graph-level embeddings by leveraging the interaction among individual classifiers. Extensive experiments on popular graph classification benchmarks show that the proposed GSC mechanism leads to significant improvements over state-of-the-art graph pooling methods. Moreover, the ensemble multiscale graph learning models achieve superior enhancement by combining both GSC and DBR.
翻訳日:2021-03-18 12:56:02 公開日:2021-03-17
# TeachMyAgent:Deep RLにおけるカリキュラム自動学習ベンチマーク

TeachMyAgent: a Benchmark for Automatic Curriculum Learning in Deep RL ( http://arxiv.org/abs/2103.09815v1 )

ライセンス: Link先を確認
Cl\'ement Romac, R\'emy Portelas, Katja Hofmann, Pierre-Yves Oudeyer(参考訳) 複数のタスクに一般化できる自律エージェントの訓練は、Deep Reinforcement Learning (DRL)研究の重要なターゲットである。 DRLアルゴリズム自体の改善と並行して、ACL(Automatic Curriculum Learning)は、進化する能力にタスク選択を適用することで、教師アルゴリズムがDRLエージェントをより効率的に訓練する方法を研究する。 DRLエージェントを比較するために複数の標準ベンチマークが存在するが、現在ACLアルゴリズムにはそのようなものはない。 したがって, 実験パラメータが紙ごとに多すぎるため, 既存手法との比較は困難である。 本研究では,ACLアルゴリズムが直面するいくつかの重要な課題を明らかにする。 これらに基づき、手続き的タスク生成を利用した現在のACLアルゴリズムのベンチマークであるTeachMyAgent(TA)を提案する。 本研究は,1) 手続き型Box2D二足歩行環境の変種を用いた課題固有の単体テスト,2) ACLの課題と組み合わせた新しい手続き型Parkour環境を含む。 次に、TeachMyAgentを用いて既存の代表的なアプローチの比較研究を行い、専門家の知識を使わないいくつかのACLアルゴリズムの競争力を示す。 また、Parkour環境は依然としてオープンな問題であることを示す。 ACLアルゴリズム(オープンソースコードからコンパイルされたり、再実装された)とDRLの学生がPythonパッケージをhttps://github.com/f lowersteam/TeachMyAg ent.comで公開しています。

Training autonomous agents able to generalize to multiple tasks is a key target of Deep Reinforcement Learning (DRL) research. In parallel to improving DRL algorithms themselves, Automatic Curriculum Learning (ACL) study how teacher algorithms can train DRL agents more efficiently by adapting task selection to their evolving abilities. While multiple standard benchmarks exist to compare DRL agents, there is currently no such thing for ACL algorithms. Thus, comparing existing approaches is difficult, as too many experimental parameters differ from paper to paper. In this work, we identify several key challenges faced by ACL algorithms. Based on these, we present TeachMyAgent (TA), a benchmark of current ACL algorithms leveraging procedural task generation. It includes 1) challenge-specific unit-tests using variants of a procedural Box2D bipedal walker environment, and 2) a new procedural Parkour environment combining most ACL challenges, making it ideal for global performance assessment. We then use TeachMyAgent to conduct a comparative study of representative existing approaches, showcasing the competitiveness of some ACL algorithms that do not use expert knowledge. We also show that the Parkour environment remains an open problem. We open-source our environments, all studied ACL algorithms (collected from open-source code or re-implemented), and DRL students in a Python package available at https://github.com/f lowersteam/TeachMyAg ent.
翻訳日:2021-03-18 12:55:39 公開日:2021-03-17
# コンフォーマル化生存分析

Conformalized Survival Analysis ( http://arxiv.org/abs/2103.09763v1 )

ライセンス: Link先を確認
Emmanuel J. Cand\`es, Lihua Lei and Zhimei Ren(参考訳) 既存の生存分析技術は強いモデリング仮定に大きく依存しており、したがって誤特定の誤りをモデル化する傾向がある。 本稿では,共形予測のアイデアに基づく推論手法を開発し,生存時間に基づくキャリブレーションされた共変量依存の低次予測境界を生成するために,任意の生存予測アルゴリズムをラップすることができる。 タイプiの右検閲設定では、検閲時間が完全に外因的である場合、低い予測範囲は、独立かつ同一に分散されたデータポイントで操作すること以外の仮定なしに、有限サンプルのカバレッジを保証する。 より一般的な条件に依存しない検閲仮定の下で、境界は以下の2つの頑健な性質を満たす: 限界被覆は、検閲機構または条件生存関数が適切に推定された場合にほぼ保証される。 さらに,より低い予測範囲が他のタイプの検閲においても有効かつ有益であることを実証する。 本手法の有効性と有効性は,英国バイオバンクの合成データと実際のCOVID-19データに基づいて実証した。

Existing survival analysis techniques heavily rely on strong modelling assumptions and are, therefore, prone to model misspecification errors. In this paper, we develop an inferential method based on ideas from conformal prediction, which can wrap around any survival prediction algorithm to produce calibrated, covariate-dependent lower predictive bounds on survival times. In the Type I right-censoring setting, when the censoring times are completely exogenous, the lower predictive bounds have guaranteed coverage in finite samples without any assumptions other than that of operating on independent and identically distributed data points. Under a more general conditionally independent censoring assumption, the bounds satisfy a doubly robust property which states the following: marginal coverage is approximately guaranteed if either the censoring mechanism or the conditional survival function is estimated well. Further, we demonstrate that the lower predictive bounds remain valid and informative for other types of censoring. The validity and efficiency of our procedure are demonstrated on synthetic data and real COVID-19 data from the UK Biobank.
翻訳日:2021-03-18 12:54:52 公開日:2021-03-17
# 画像検索のためのセンター類似性学習によるディープクラスワイズハッシュの改善

Improved Deep Classwise Hashing With Centers Similarity Learning for Image Retrieval ( http://arxiv.org/abs/2103.09442v1 )

ライセンス: Link先を確認
Ming Zhang, Hong Yan(参考訳) 画像検索のための深い教師付きハッシュは、高い効率と優れた検索性能のために研究者の注意を引き付けている。 既存の深い教師付きハッシュ処理のほとんどは、ペアワイズ/トリップレットラベルに基づいており、高価な計算コストとセマンティクス情報の不十分な利用に苦しむ。 最近、ディープクラスワイズハッシュはクラスラベル情報によって監視されるクラスワイズ損失を導入したが、それでもその欠点があることがわかった。 そこで本稿では,ハッシュ学習とクラスセンター学習を同時に行うことができる,深層ハッシュの改良手法を提案する。 具体的には,センター類似性学習のための2段階の戦略を設計する。 クラス内の損失と相互作用してクラスセンターを引き寄せ、クラス内のサンプルに集中し、他のクラスセンターを可能な限りプッシュする。 センター類似性学習は、よりコンパクトで識別的なハッシュコードを生成するのに寄与する。 3つのベンチマークデータセットで実験を行う。 提案手法は, 画像検索のための様々な評価基準において, 元の手法を効果的に超越し, 最先端のベースラインを上回っていることを示す。

Deep supervised hashing for image retrieval has attracted researchers' attention due to its high efficiency and superior retrieval performance. Most existing deep supervised hashing works, which are based on pairwise/triplet labels, suffer from the expensive computational cost and insufficient utilization of the semantics information. Recently, deep classwise hashing introduced a classwise loss supervised by class labels information alternatively; however, we find it still has its drawback. In this paper, we propose an improved deep classwise hashing, which enables hashing learning and class centers learning simultaneously. Specifically, we design a two-step strategy on center similarity learning. It interacts with the classwise loss to attract the class center to concentrate on the intra-class samples while pushing other class centers as far as possible. The centers similarity learning contributes to generating more compact and discriminative hashing codes. We conduct experiments on three benchmark datasets. It shows that the proposed method effectively surpasses the original method and outperforms state-of-the-art baselines under various commonly-used evaluation metrics for image retrieval.
翻訳日:2021-03-18 12:54:12 公開日:2021-03-17
# ビデオストリーミングにおけるフレーム超解像予測

Prediction-assistant Frame Super-Resolution for Video Streaming ( http://arxiv.org/abs/2103.09455v1 )

ライセンス: Link先を確認
Wang Shen, Wenbo Bao, Guangtao Zhai, Charlie L Wang, Jerry W Hu, Zhiyong Gao(参考訳) オンラインビデオゲームやライブショーなどのリアルタイムアプリケーションでは、ビデオフレームの伝送遅延が重要である。 新しいフレームの受信期限は、フレームのレンダリング時間に追いつく必要があります。 そうでなければ、システムはしばらくバッファリングし、ユーザは凍ったスクリーンに遭遇し、満足のいくユーザー体験をもたらす。 効果的なアプローチは、スケーラブルなビデオ符号化など、低品質の帯域幅条件下でフレームを送信することである。 本稿では,2つの状況における損失フレームを用いた画質向上を提案する。 まず、現在のフレームがレンダリング期限に間に合わない場合(つまり、紛失)、前回受信した高解像度画像を使用して将来のフレームを予測することを提案する。 第2に、現在受信しているフレームの品質が−(すなわち損失)である場合、以前受信した高解像度フレームを使用して、低品質のフレームを強化することを提案する。 最初のケースでは、小さいが効果的なビデオフレーム予測ネットワークを提案する。 第2のケースでは、映像予測ネットワークを映像エンハンスメントネットワークに改良し、現在のフレームと以前のフレームを関連付け、高品質な画像を復元する。 ビデオストリーミング環境における最先端のアルゴリズムに対して,本手法が好適に動作することを示す。

Video frame transmission delay is critical in real-time applications such as online video gaming, live show, etc. The receiving deadline of a new frame must catch up with the frame rendering time. Otherwise, the system will buffer a while, and the user will encounter a frozen screen, resulting in unsatisfactory user experiences. An effective approach is to transmit frames in lower-quality under poor bandwidth conditions, such as using scalable video coding. In this paper, we propose to enhance video quality using lossy frames in two situations. First, when current frames are too late to receive before rendering deadline (i.e., lost), we propose to use previously received high-resolution images to predict the future frames. Second, when the quality of the currently received frames is low~(i.e., lossy), we propose to use previously received high-resolution frames to enhance the low-quality current ones. For the first case, we propose a small yet effective video frame prediction network. For the second case, we improve the video prediction network to a video enhancement network to associate current frames as well as previous frames to restore high-quality images. Extensive experimental results demonstrate that our method performs favorably against state-of-the-art algorithms in the lossy video streaming environment.
翻訳日:2021-03-18 12:53:54 公開日:2021-03-17
# 遺伝性溶血性貧血のCNN分類におけるPercoll Gradientsのフーリエ変換

Fourier Transform of Percoll Gradients Boosts CNN Classification of Hereditary Hemolytic Anemias ( http://arxiv.org/abs/2103.09671v1 )

ライセンス: Link先を確認
Ario Sadafi, Luc\'ia Mar\'ia Moya Sans, Asya Makhro, Leonid Livshits, Nassir Navab, Anna Bogdanova, Shadi Albarqouni, Carsten Marr(参考訳) 遺伝性溶血性貧血は赤血球の形状と密度に影響を与える遺伝性疾患である。 現在そのような貧血の診断に用いられている遺伝子検査は費用がかかり、ほとんどの臨床検査では使用できない。 そこで本研究では,パーコール勾配 (percoll gradient) という標準生化学法を用いて,血行性溶血性貧血の同定法を提案する。 提案手法は,畳み込みニューラルネットワークを用いて抽出した空間的データ駆動特徴と高速フーリエ変換から得られたスペクトルハンドクラフト特徴を用いた。 AlexNet や VGG16 アーキテクチャと最近の機能融合を比較した。 スペクトル機能の後期融合によるAlexNetは、他のアプローチよりも優れている。 パーコール勾配から遺伝性溶血性貧血を診断できる可能性が示唆された。 最後に,Grad-CAMを用いて空間的特徴を探索する。

Hereditary hemolytic anemias are genetic disorders that affect the shape and density of red blood cells. Genetic tests currently used to diagnose such anemias are expensive and unavailable in the majority of clinical labs. Here, we propose a method for identifying hereditary hemolytic anemias based on a standard biochemistry method, called Percoll gradient, obtained by centrifuging a patient's blood. Our hybrid approach consists on using spatial data-driven features, extracted with a convolutional neural network and spectral handcrafted features obtained from fast Fourier transform. We compare late and early feature fusion with AlexNet and VGG16 architectures. AlexNet with late fusion of spectral features performs better compared to other approaches. We achieved an average F1-score of 88% on different classes suggesting the possibility of diagnosing of hereditary hemolytic anemias from Percoll gradients. Finally, we utilize Grad-CAM to explore the spatial features used for classification.
翻訳日:2021-03-18 12:53:34 公開日:2021-03-17
# コントラスト学習による水中単一画像復元

Single Underwater Image Restoration by Contrastive Learning ( http://arxiv.org/abs/2103.09697v1 )

ライセンス: Link先を確認
Junlin Han and Mehrdad Shoeiby and Tim Malthus and Elizabeth Botha and Janet Anstee and Saeed Anwar and Ran Wei and Lars Petersson and Mohammad Ali Armin(参考訳) 水中画像の復元は、水中の世界を明らかにすることの重要性から大きな注目を集めている。 本稿では,教師なし画像から画像への翻訳フレームワークに基づく水中画像復元の最先端化を実現する新しい手法について詳述する。 本手法は,原画像と復元画像の相互情報を最大化するために,コントラスト学習と生成対向ネットワークを利用して設計する。 さらに、ペアとアンペアのトレーニングモジュールをサポートする大規模な水中画像データセットもリリースしています。 最近の手法との比較による広範な実験により,提案手法の優越性がさらに証明された。

Underwater image restoration attracts significant attention due to its importance in unveiling the underwater world. This paper elaborates on a novel method that achieves state-of-the-art results for underwater image restoration based on the unsupervised image-to-image translation framework. We design our method by leveraging from contrastive learning and generative adversarial networks to maximize mutual information between raw and restored images. Additionally, we release a large-scale real underwater image dataset to support both paired and unpaired training modules. Extensive experiments with comparisons to recent approaches further demonstrate the superiority of our proposed method.
翻訳日:2021-03-18 12:53:20 公開日:2021-03-17
# 私のLiDAR Odometry Toolboxには何があるのか?

What s in My LiDAR Odometry Toolbox? ( http://arxiv.org/abs/2103.09708v1 )

ライセンス: Link先を確認
Pierre Dellenbach, Jean-Emmanuel Deschaud, Bastien Jacquet, Fran\c{c}ois Goulette(参考訳) 3次元LiDARセンサの民主化により、正確なLiDARオドメトリーとSLAMが要求される。 新しい手法が定期的に登場し、古典的アルゴリズムの小さなバリエーションから、ディープラーニングに基づく急進的な新しいパラダイムまで、ソリューションを提案している。 しかし、これらの方法を比較することはしばしば困難であり、特に、メソッドを評価し比較できる数少ないデータセットのためである。 さらに、その弱点を調べることは滅多になく、多くの場合、あるメソッドがユースケースに適しているかどうかをユーザーに発見させる。 本稿では,主要3次元LiDARオドメトリーを異なるカテゴリに分類し,整理する。 複数のデータセット上でその強みと弱みを深く分析するために、いくつかのアプローチ(ジオメトリックベース、ディープラーニングベース、ハイブリッド手法)を実装し、利用可能な異なるlidarオドメトリを読者に案内した。 メソッドの実装はhttps://gitlab.kitwa re.com/keu-computerv ision/pylidar-slamで公開されている。

With the democratization of 3D LiDAR sensors, precise LiDAR odometries and SLAM are in high demand. New methods regularly appear, proposing solutions ranging from small variations in classical algorithms to radically new paradigms based on deep learning. Yet it is often difficult to compare these methods, notably due to the few datasets on which the methods can be evaluated and compared. Furthermore, their weaknesses are rarely examined, often letting the user discover the hard way whether a method would be appropriate for a use case. In this paper, we review and organize the main 3D LiDAR odometries into distinct categories. We implemented several approaches (geometric based, deep learning based, and hybrid methods) to conduct an in-depth analysis of their strengths and weaknesses on multiple datasets, guiding the reader through the different LiDAR odometries available. Implementation of the methods has been made publicly available at https://gitlab.kitwa re.com/keu-computerv ision/pylidar-slam.
翻訳日:2021-03-18 12:53:12 公開日:2021-03-17
# ニューラルネットワークによるプログラム合成と検証

Toward Neural-Network-Guide d Program Synthesis and Verification ( http://arxiv.org/abs/2103.09414v1 )

ライセンス: Link先を確認
Naoki Kobayashi, Taro Sekiyama, Issei Sato and Hiroshi Unno(参考訳) 本稿では,ニューラルネットワーク誘導合成という,プログラムおよび不変合成の新しい枠組みを提案する。 まず、ニューラルネットワークを適切に設計し、トレーニングすることで、トレーニングされたニューラルネットワークの重みとバイアスから整数上の論理式を抽出できることを示します。 この考え方に基づき,正負の例と含意の制約から式を合成するツールを実装し,有望な実験結果を得た。 また,本手法の2つの応用についても論じる。 ひとつは、ICE学習に基づくCHC問題解決のフレームワークにおける修飾子発見のためのツールの使用であり、プログラム検証や帰納的不変合成に適用することができる。 もう1つの応用は、オラクルベースのプログラミングと呼ばれる新しいプログラム開発フレームワークであり、これは、スケッチによるSolar-Lezamaのプログラム合成の神経ネットワーク誘導のバリエーションである。

We propose a novel framework of program and invariant synthesis called neural network-guided synthesis. We first show that, by suitably designing and training neural networks, we can extract logical formulas over integers from the weights and biases of the trained neural networks. Based on the idea, we have implemented a tool to synthesize formulas from positive/negative examples and implication constraints, and obtained promising experimental results. We also discuss two applications of our synthesis method. One is the use of our tool for qualifier discovery in the framework of ICE-learning-based CHC solving, which can in turn be applied to program verification and inductive invariant synthesis. Another application is to a new program development framework called oracle-based programming, which is a neural-network-guide d variation of Solar-Lezama's program synthesis by sketching.
翻訳日:2021-03-18 12:52:33 公開日:2021-03-17
# os-elmディジタル回路のオーバーフロー・アンダーフローフリー固定点ビット幅最適化法

An Overflow/Underflow-F ree Fixed-Point Bit-Width Optimization Method for OS-ELM Digital Circuit ( http://arxiv.org/abs/2103.09791v1 )

ライセンス: Link先を確認
Mineto Tsukada, Hiroki Matsutani(参考訳) 現在、スマートセンサーなどのリソース制限されたIoTデバイス上でのリアルタイムトレーニングの需要が高まっており、リモートサーバへのデータ転送なしに、ストリーミングデータに対するスタンドアロンのオンライン適応を実現している。 OS-ELM(Online Sequential Extreme Learning Machine)は、オンチップ学習のためのニューラルネットワークベースのオンラインアルゴリズムの1つで、計算コストが低く、デジタル回路として実装が容易である。 既存のOS-ELMデジタル回路は固定点データ形式を採用し、ビット幅は手動で調整されることが多いが、これは回路の予期せぬ動作を引き起こす可能性がある。 オンチップ学習システムでは,オンライントレーニングが継続的に行われ,時間とともに中間変数の間隔が動的に変化するため,オーバーフロー/アンダーフローフリーの設計に大きな影響を与える。 本稿では,OS-ELMの固定点ディジタル回路におけるオーバーフロー/アンダーフローフリービット幅最適化手法を提案する。 実験結果から,オーバーフローやアンダーフローが発生するようなシミュレーションベース最適化手法と比較して,オーバーフロー/アンダーフローフリーなOS-ELMディジタル回路の面積コストが1.0x1.5倍になることがわかった。

Currently there has been increasing demand for real-time training on resource-limited IoT devices such as smart sensors, which realizes standalone online adaptation for streaming data without data transfers to remote servers. OS-ELM (Online Sequential Extreme Learning Machine) has been one of promising neural-network-based online algorithms for on-chip learning because it can perform online training at low computational cost and is easy to implement as a digital circuit. Existing OS-ELM digital circuits employ fixed-point data format and the bit-widths are often manually tuned, however, this may cause overflow or underflow which can lead to unexpected behavior of the circuit. For on-chip learning systems, an overflow/underflow-f ree design has a great impact since online training is continuously performed and the intervals of intermediate variables will dynamically change as time goes by. In this paper, we propose an overflow/underflow-f ree bit-width optimization method for fixed-point digital circuit of OS-ELM. Experimental results show that our method realizes overflow/underflow-f ree OS-ELM digital circuits with 1.0x - 1.5x more area cost compared to an ordinary simulation-based optimization method where overflow or underflow can happen.
翻訳日:2021-03-18 12:52:20 公開日:2021-03-17
# 音楽表現のコントラスト学習

Contrastive Learning of Musical Representations ( http://arxiv.org/abs/2103.09410v1 )

ライセンス: Link先を確認
Janne Spijkervet, John Ashley Burgoyne(参考訳) 教師付き学習は音楽の多くの分野で大きな進歩をもたらしたが、ラベル付き音楽データセットは特に困難で高価で時間を要する。 本研究では,音楽分野にSimCLRを導入し,音楽の生波形の自己教師型学習のための簡単なフレームワークであるCLMRを構築した。 このアプローチでは、手作業によるラベリングや、有用な表現を学ぶための音楽の前処理は不要である。 MagnaTagATune と Million Song のデータセットを用いて,音楽分類の下流課題における CLMR の評価を行った。 事前訓練されたCLMRモデルからの表現に基づいて微調整された線形分類器は、MagnaTagATuneデータセットの平均精度35.4%を達成する。 さらに,clmrの表現はドメイン外データセットを用いて転送可能であり,重要な音楽知識を捉えていることを示す。 最後に、自己教師付き事前学習によって、より小さなラベル付きデータセットで効率的に学習できることを示し、微調整中に259曲しか使用していないにもかかわらず、スコアは33.1%に達した。 音楽における自己教師付き学習の再現可能性と今後の研究を促進するため,本論文のすべての実験のソースコードをgithubに公開する。

While supervised learning has enabled great advances in many areas of music, labeled music datasets remain especially hard, expensive and time-consuming to create. In this work, we introduce SimCLR to the music domain and contribute a large chain of audio data augmentations, to form a simple framework for self-supervised learning of raw waveforms of music: CLMR. This approach requires no manual labeling and no preprocessing of music to learn useful representations. We evaluate CLMR in the downstream task of music classification on the MagnaTagATune and Million Song datasets. A linear classifier fine-tuned on representations from a pre-trained CLMR model achieves an average precision of 35.4% on the MagnaTagATune dataset, superseding fully supervised models that currently achieve a score of 34.9%. Moreover, we show that CLMR's representations are transferable using out-of-domain datasets, indicating that they capture important musical knowledge. Lastly, we show that self-supervised pre-training allows us to learn efficiently on smaller labeled datasets: we still achieve a score of 33.1% despite using only 259 labeled songs during fine-tuning. To foster reproducibility and future research on self-supervised learning in music, we publicly release the pre-trained models and the source code of all experiments of this paper on GitHub.
翻訳日:2021-03-18 12:51:25 公開日:2021-03-17
# ミニバッチSSCAによるサンプルベースフェデレーション学習

Sample-based Federated Learning via Mini-batch SSCA ( http://arxiv.org/abs/2103.09506v1 )

ライセンス: Link先を確認
Chencheng Ye, Ying Cui(参考訳) 本稿では,制約のないサンプルベースフェデレーション最適化について検討する。 それぞれの問題に対して,確率的逐次凸近似(SSCA)技術を用いたプライバシー保護アルゴリズムを提案し,KKT(Karush-Kuhn-Tuc ker)点に収束可能であることを示す。 我々の知る限り、SSCAはフェデレーション最適化には使われておらず、非凸制約によるフェデレーション最適化は検討されていない。 次に、提案した2つのSSCAアルゴリズムを2つのアプリケーション例にカスタマイズし、SSCAの各イテレーションにおける各近似凸問題に対するクローズドフォームソリューションを提供する。 最後に数値実験により,提案手法の収束速度,通信コスト,モデル仕様の点で本質的な利点を示す。

In this paper, we investigate unconstrained and constrained sample-based federated optimization, respectively. For each problem, we propose a privacy preserving algorithm using stochastic successive convex approximation (SSCA) techniques, and show that it can converge to a Karush-Kuhn-Tucker (KKT) point. To the best of our knowledge, SSCA has not been used for solving federated optimization, and federated optimization with nonconvex constraints has not been investigated. Next, we customize the two proposed SSCA-based algorithms to two application examples, and provide closed-form solutions for the respective approximate convex problems at each iteration of SSCA. Finally, numerical experiments demonstrate inherent advantages of the proposed algorithms in terms of convergence speed, communication cost and model specification.
翻訳日:2021-03-18 12:50:59 公開日:2021-03-17
# ドローンチームによる多目的探索・検出のための分散強化学習

Decentralized Reinforcement Learning for Multi-Target Search and Detection by a Team of Drones ( http://arxiv.org/abs/2103.09520v1 )

ライセンス: Link先を確認
Roi Yehoshua, Juan Heredia-Juesas, Yushu Wu, Christopher Amato, Jose Martinez-Lorenzo(参考訳) ターゲットの探索と検出は、カバレッジ、サーベイランス、サーベイ、オブザーバレーション、追跡回避など、さまざまな意思決定問題を含んでいる。 本稿では,未知の領域における静的な目標のセットを特定するために,航空機群(ドローン)を協調させるマルチエージェント深部強化学習(MADRL)手法を提案する。 そこで我々は,実験データから得られた統計的推測を含む実実験の力学と摂動を再現する,現実的なドローンシミュレータを設計した。 このシミュレーターを訓練に利用した強化学習方法は,ドローンの最適に近い方針を見つけることができた。 従来のMADRL法とは対照的に,本手法は学習と実行の両方において完全に分散化されており,高次元かつ連続的な観測空間を処理でき,追加のハイパーパラメータのチューニングを必要としない。

Targets search and detection encompasses a variety of decision problems such as coverage, surveillance, search, observing and pursuit-evasion along with others. In this paper we develop a multi-agent deep reinforcement learning (MADRL) method to coordinate a group of aerial vehicles (drones) for the purpose of locating a set of static targets in an unknown area. To that end, we have designed a realistic drone simulator that replicates the dynamics and perturbations of a real experiment, including statistical inferences taken from experimental data for its modeling. Our reinforcement learning method, which utilized this simulator for training, was able to find near-optimal policies for the drones. In contrast to other state-of-the-art MADRL methods, our method is fully decentralized during both learning and execution, can handle high-dimensional and continuous observation spaces, and does not require tuning of additional hyperparameters.
翻訳日:2021-03-18 12:50:47 公開日:2021-03-17
# 仮想安全ケージを用いた自動運転のための弱教師付き強化学習

Weakly Supervised Reinforcement Learning for Autonomous Highway Driving via Virtual Safety Cages ( http://arxiv.org/abs/2103.09726v1 )

ライセンス: Link先を確認
Sampo Kuutti, Richard Bowden, Saber Fallah(参考訳) ニューラルネットワークと強化学習は、自動運転車の制御においてますます普及している。 しかし、結果として生じる制御ポリシーの不透明さは、自動運転車にニューラルネットワークベースの制御を展開する上で大きな障壁となる。 本稿では,車両の安全性向上と強化学習エージェントの監督の弱さを両立させた,自律走行車両の縦方向制御に対する強化学習方式を提案する。 エージェントを有意義な状態や行動へと導くことにより、この弱い監督は訓練中の収束を改善し、最終的な訓練された政策の安全性を高める。 このルールベースの監視制御装置は、完全に解釈可能であるという利点があり、車両の安全性を確保するために従来の検証および検証アプローチを可能にする。 我々は,モデルと安全ケージの有無,および最適かつ制約のあるモデルパラメータのモデルを比較し,弱い監督が探索の安全性,収束速度,モデル性能を一貫して改善することを示す。 さらに,モデルパラメータが制約されたり,サブ最適であったりした場合,モデルが強化学習だけでは運転できない場合でも,安全ケージによって安全な運転方針を学習できることを示す。

The use of neural networks and reinforcement learning has become increasingly popular in autonomous vehicle control. However, the opaqueness of the resulting control policies presents a significant barrier to deploying neural network-based control in autonomous vehicles. In this paper, we present a reinforcement learning based approach to autonomous vehicle longitudinal control, where the rule-based safety cages provide enhanced safety for the vehicle as well as weak supervision to the reinforcement learning agent. By guiding the agent to meaningful states and actions, this weak supervision improves the convergence during training and enhances the safety of the final trained policy. This rule-based supervisory controller has the further advantage of being fully interpretable, thereby enabling traditional validation and verification approaches to ensure the safety of the vehicle. We compare models with and without safety cages, as well as models with optimal and constrained model parameters, and show that the weak supervision consistently improves the safety of exploration, speed of convergence, and model performance. Additionally, we show that when the model parameters are constrained or sub-optimal, the safety cages can enable a model to learn a safe driving policy even when the model could not be trained to drive through reinforcement learning alone.
翻訳日:2021-03-18 12:50:18 公開日:2021-03-17
# 植込みマッチング問題:シャープしきい値と無限次相転移

The planted matching problem: Sharp threshold and infinite-order phase transition ( http://arxiv.org/abs/2103.09383v1 )

ライセンス: Link先を確認
Jian Ding, Yihong Wu, Jiaming Xu, Dana Yang(参考訳) ランダムに重み付けされた$n\times n$ bipartite graph に隠された完全マッチング $M^*$ の再構成問題について検討する。 エッジ集合は、$M^*$の全てのノード対と、$n(n-1)$のノード対は、確率$d/n$と独立に$M^*$のノード対を含む。 各辺$e$の重みは、分布 $\mathcal{P}$ if $e \in M^*$ と $\mathcal{Q}$ if $e \notin M^*$ から独立に引き出される。 もし$\sqrt{d} b(\mathcal{p},\mathcal{q}) \le 1$, where $b(\mathcal{p},\mathcal{q})$ が bhattacharyya 係数を表すなら、$m^*$ の最大許容推定値の再構成誤差(平均的偏差)は$0$ で$n\to \infty$となる。 逆に、$\sqrt{d} B(\mathcal{P},\mathcal{Q}) \ge 1+\epsilon$ for a arbitrarily small constant $\epsilon>0$ とすると、任意の推定器の再構成誤差はスパースモデルと密度モデルの両方の下で0$から外され、 [Moharrami et al] の予想が解かれる。 2019年、semerjian et al。 2020]. さらに、$d=n$, $\mathcal{p}=\exp(\lambda)$, and $\mathcal{q}=\exp(1/n)$という指数重み付き完全グラフの特別な場合において、鋭いしきい値が$\lambda=4$ に単純化される場合、$\lambda \le 4-\epsilon$ のとき、最適な再構成誤差は$\exp\left(\theta(1/ \sqrt{\epsilon}) \right)$であり、[semerjian et al における無限次相転移の予想を確認する。 2020].

We study the problem of reconstructing a perfect matching $M^*$ hidden in a randomly weighted $n\times n$ bipartite graph. The edge set includes every node pair in $M^*$ and each of the $n(n-1)$ node pairs not in $M^*$ independently with probability $d/n$. The weight of each edge $e$ is independently drawn from the distribution $\mathcal{P}$ if $e \in M^*$ and from $\mathcal{Q}$ if $e \notin M^*$. We show that if $\sqrt{d} B(\mathcal{P},\mathcal{Q}) \le 1$, where $B(\mathcal{P},\mathcal{Q})$ stands for the Bhattacharyya coefficient, the reconstruction error (average fraction of misclassified edges) of the maximum likelihood estimator of $M^*$ converges to $0$ as $n\to \infty$. Conversely, if $\sqrt{d} B(\mathcal{P},\mathcal{Q}) \ge 1+\epsilon$ for an arbitrarily small constant $\epsilon>0$, the reconstruction error for any estimator is shown to be bounded away from $0$ under both the sparse and dense model, resolving the conjecture in [Moharrami et al. 2019, Semerjian et al. 2020]. Furthermore, in the special case of complete exponentially weighted graph with $d=n$, $\mathcal{P}=\exp(\lambda)$, and $\mathcal{Q}=\exp(1/n)$, for which the sharp threshold simplifies to $\lambda=4$, we prove that when $\lambda \le 4-\epsilon$, the optimal reconstruction error is $\exp\left( - \Theta(1/\sqrt{\epsilon}) \right)$, confirming the conjectured infinite-order phase transition in [Semerjian et al. 2020].
翻訳日:2021-03-18 12:49:37 公開日:2021-03-17
# (参考訳) 低リソースニューラルマシン翻訳のためのクラウドソース・フレーズベーストークン化:フォン言語の場合 [全文訳有]

Crowdsourced Phrase-Based Tokenization for Low-Resourced Neural Machine Translation: The Case of Fon Language ( http://arxiv.org/abs/2103.08052v2 )

ライセンス: CC BY 4.0
Bonaventure F. P. Dossou and Chris C. Emezue(参考訳) 非常に低リソースで形態的に豊かなアフリカの先住民言語に対する効果的なニューラルネットワーク翻訳(NMT)モデルの構築は、オープンな課題である。 利用可能なリソースを見つけるという問題に加えて、多くの作業が前処理とトークン化に費やされます。 近年の研究では、標準トークン化法がアフリカ諸言語の文法的、ダイアクリティカル的、調音的性質を常に適切に扱うとは限らないことが示されている。 トレーニングサンプルの可用性が極めて低いことに加えて、信頼性の高いNMTモデルの生産を妨げている。 本稿では,fon言語を事例研究として,標準トークン化法を再検討し,人間主導のスーパーワードトークン化戦略であるword-expressions-bas ed (web)トークン化を導入する。 さらに、トークン化戦略を、Fon- French と French-Fon の翻訳タスクで比較する。

Building effective neural machine translation (NMT) models for very low-resourced and morphologically rich African indigenous languages is an open challenge. Besides the issue of finding available resources for them, a lot of work is put into preprocessing and tokenization. Recent studies have shown that standard tokenization methods do not always adequately deal with the grammatical, diacritical, and tonal properties of some African languages. That, coupled with the extremely low availability of training samples, hinders the production of reliable NMT models. In this paper, using Fon language as a case study, we revisit standard tokenization methods and introduce Word-Expressions-Bas ed (WEB) tokenization, a human-involved super-words tokenization strategy to create a better representative vocabulary for training. Furthermore, we compare our tokenization strategy to others on the Fon-French and French-Fon translation tasks.
翻訳日:2021-03-18 11:51:46 公開日:2021-03-17
# (参考訳) RackLay: 倉庫ラックのマルチレイヤレイアウト推定 [全文訳有]

RackLay: Multi-Layer Layout Estimation for Warehouse Racks ( http://arxiv.org/abs/2103.09174v2 )

ライセンス: CC BY 4.0
Meher Shashwat Nigam, Avinash Prabhu, Anurag Sahu, Puru Gupta, Tanvi Karandikar, N. Sai Shankar, Ravi Kiran Sarvadevabhatla, K. Madhava Krishna(参考訳) 倉庫ラックの単眼カラー画像が与えられた場合,多層レイアウト予測と呼ぶラック内の各棚の鳥眼配置を予測することを目的としている。 そこで本研究では,単一の画像からリアルタイム棚配置推定を行うディープニューラルネットワークracklayを提案する。 従来のレイアウト推定手法とは異なり、racklayは、オブジェクトが配置されていると見なされるラック内の各棚の、トップビューとフロントビューのレイアウトを推定する。 RackLayのアーキテクチャとその変種は、画像中のさまざまな可視棚の数、棚の占有率の大きな範囲、様々な背景の乱れを特徴とする多様なシーンの、汎用的で正確なレイアウトを推定する。 この領域におけるデータセットの極端なポーシティと、倉庫からの実データを取得することの難しさを考えると、私たちはさらに柔軟な合成データセット生成パイプラインであるwaresynthをリリースします。 アーキテクチャの変種間のアブレーションと強力な先行ベースラインとの比較は、多層レイアウト推定の新たな問題に対するaptアーキテクチャとしてのracklayの有効性を証明している。 また、トップビューとフロントビューを融合させることで、検討したラックに対する計量自由空間推定などの3次元推論が可能であることを示す。

Given a monocular colour image of a warehouse rack, we aim to predict the bird's-eye view layout for each shelf in the rack, which we term as multi-layer layout prediction. To this end, we present RackLay, a deep neural network for real-time shelf layout estimation from a single image. Unlike previous layout estimation methods, which provide a single layout for the dominant ground plane alone, RackLay estimates the top-view and front-view layout for each shelf in the considered rack populated with objects. RackLay's architecture and its variants are versatile and estimate accurate layouts for diverse scenes characterized by varying number of visible shelves in an image, large range in shelf occupancy factor and varied background clutter. Given the extreme paucity of datasets in this space and the difficulty involved in acquiring real data from warehouses, we additionally release a flexible synthetic dataset generation pipeline WareSynth which allows users to control the generation process and tailor the dataset according to contingent application. The ablations across architectural variants and comparison with strong prior baselines vindicate the efficacy of RackLay as an apt architecture for the novel problem of multi-layered layout estimation. We also show that fusing the top-view and front-view enables 3D reasoning applications such as metric free space estimation for the considered rack.
翻訳日:2021-03-18 11:37:07 公開日:2021-03-17
# Refer-it-in-RGBD:RGB D画像における3次元視覚グラウンドのボトムアップアプローチ

Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images ( http://arxiv.org/abs/2103.07894v3 )

ライセンス: Link先を確認
Haolin Liu, Anran Lin, Xiaoguang Han, Lei Yang, Yizhou Yu, Shuguang Cui(参考訳) RGBD画像における接地参照表現は新たな分野である。 本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。 3Dシーンに接地するためのオブジェクト提案を直接生成する従来の作業とは対照的に,コンテキスト認識情報を段階的に集約するボトムアップ手法を提案し,部分幾何学による課題に効果的に対処する。 我々のアプローチは、まず言語と視覚機能をボトムレベルに融合させ、rgbdイメージ内の関連領域を粗くローカライズするヒートマップを生成する。 次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。 提案手法は,ScanReferデータセットから抽出したRGBD画像と新たに収集したSUNReferデータセットとを比較して評価する。 実験により,本手法は両方のデータセットにおいて従来手法よりも大きな差(11.2%,15.6%Acc@0.5) を示した。

Grounding referring expressions in RGBD image has been an emerging field. We present a novel task of 3D visual grounding in single-view RGBD image where the referred objects are often only partially scanned due to occlusion. In contrast to previous works that directly generate object proposals for grounding in the 3D scenes, we propose a bottom-up approach to gradually aggregate context-aware information, effectively addressing the challenge posed by the partial geometry. Our approach first fuses the language and the visual features at the bottom level to generate a heatmap that coarsely localizes the relevant regions in the RGBD image. Then our approach conducts an adaptive feature learning based on the heatmap and performs the object-level matching with another visio-linguistic fusion to finally ground the referred object. We evaluate the proposed method by comparing to the state-of-the-art methods on both the RGBD images extracted from the ScanRefer dataset and our newly collected SUNRefer dataset. Experiments show that our method outperforms the previous methods by a large margin (by 11.2% and 15.6% Acc@0.5) on both datasets.
翻訳日:2021-03-18 11:20:04 公開日:2021-03-17
# (参考訳) 公衆衛生のための多モジュール統合システムに基づくエスカレーター関連傷害の同定と予防

Potential Escalator-related Injury Identification and Prevention Based on Multi-module Integrated System for Public Health ( http://arxiv.org/abs/2103.07620v2 )

ライセンス: CC BY 4.0
Zeyu Jiao, Huan Lei, Hengshan Zong, Yingjie Cai, Zhenyu Zhong(参考訳) エスカレーター関連外傷は、エスカレーターの普及によって公衆衛生を脅かす。 既存の研究は、エスカレーターによる怪我の影響を減らすために、元の設計と欠陥の使用を反映した事後統計に焦点を当てる傾向があるが、現在進行中の負傷や差し迫った負傷にはほとんど注意が払われていない。 本研究では,コンピュータビジョンに基づくマルチモジュールエスカレーター安全監視システムを設計し,バランスの低下やハンドレールの保持,大型品の運搬など,3つの主な障害トリガーの同時監視と対処について提案する。 エスカレーター識別モジュールは、エスカレーター領域、すなわち関心領域を決定するために使用される。 乗客監視モジュールを利用して乗客の姿勢を推定し、エスカレーター上の安全でない行動を認識する。 危険な物体検出モジュールはエスカレーターに入る可能性のある大きなアイテムを検出し、警報を発する。 上記の3つのモジュールの処理結果は、システムのインテリジェントな決定の基礎として、安全性評価モジュールにまとめられている。 実験の結果,提案システムの性能は良好であり,応用可能性も高いことがわかった。

Escalator-related injuries threaten public health with the widespread use of escalators. The existing studies tend to focus on after-the-fact statistics, reflecting on the original design and use of defects to reduce the impact of escalator-related injuries, but few attention has been paid to ongoing and impending injuries. In this study, a multi-module escalator safety monitoring system based on computer vision is designed and proposed to simultaneously monitor and deal with three major injury triggers, including losing balance, not holding on to handrails and carrying large items. The escalator identification module is utilized to determine the escalator region, namely the region of interest. The passenger monitoring module is leveraged to estimate the passengers' pose to recognize unsafe behaviors on the escalator. The dangerous object detection module detects large items that may enter the escalator and raises alarms. The processing results of the above three modules are summarized in the safety assessment module as the basis for the intelligent decision of the system. The experimental results demonstrate that the proposed system has good performance and great application potential.
翻訳日:2021-03-18 09:35:17 公開日:2021-03-17
# (参考訳) ex-ray:差動特徴対称性によるニューラルネットワークの自然特徴とインジェクションバックドアの区別

EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural Networks by Examining Differential Feature Symmetry ( http://arxiv.org/abs/2103.08820v2 )

ライセンス: CC BY 4.0
Yingqi Liu, Guangyu Shen, Guanhong Tao, Zhenting Wang, Shiqing Ma, Xiangyu Zhang(参考訳) バックドア攻撃は、トリガーに埋め込まれた入力が攻撃者が望むターゲットラベルに誤分類されるようなモデルに悪意のある振る舞いを注入する。 しかし、自然機能はトリガーのように振る舞う可能性があり、一度埋め込まれると誤分類を引き起こす。 それらは避けられないが、注入されたトリガーとして誤認識することは、バックドアスキャンにおいて誤った警告を引き起こす。 したがって、重要な課題は自然の特徴を区別し、バックドアを注入することである。 2つのクラスを分離する最小の機能集合を識別する新しい対称特徴差分法を開発した。 対応するトリガーが被害者クラスとターゲットクラスを区別する特徴セットとは異なる特徴からなる場合、バックドアは注入されると考えられる。 我々は,TrojAIラウンドの2-4ラウンドとImageNet上の多数のモデルから,クリーンモデルとトロイの木馬モデルの両方を含む数千のモデルでこの技術を評価する。 既存のバックドアスキャン技術は、数百の偽陽性(つまり、トロイの木馬として認識されるきれいなモデル)を引き起こす可能性がある。 本手法は, 偽陽性の78-100%(最先端スキャナABS)を除去し, 偽陰性が0-30%増加し, 全体的な精度が17-41%向上し, リーダボード上での最高性能の達成を容易にする。 他のスキャナのパフォーマンスも向上する。 L2距離と帰属技術を用いて偽陽性除去法より優れる。 我々はまた、多くのセマンティクスバックドア攻撃を検出する可能性も示している。

Backdoor attack injects malicious behavior to models such that inputs embedded with triggers are misclassified to a target label desired by the attacker. However, natural features may behave like triggers, causing misclassification once embedded. While they are inevitable, mis-recognizing them as injected triggers causes false warnings in backdoor scanning. A prominent challenge is hence to distinguish natural features and injected backdoors. We develop a novel symmetric feature differencing method that identifies a smallest set of features separating two classes. A backdoor is considered injected if the corresponding trigger consists of features different from the set of features distinguishing the victim and target classes. We evaluate the technique on thousands of models, including both clean and trojaned models, from the TrojAI rounds 2-4 competitions and a number of models on ImageNet. Existing backdoor scanning techniques may produce hundreds of false positives (i.e., clean models recognized as trojaned). Our technique removes 78-100% of the false positives (by a state-of-the-art scanner ABS) with a small increase of false negatives by 0-30%, achieving 17-41% overall accuracy improvement, and facilitates achieving top performance on the leaderboard. It also boosts performance of other scanners. It outperforms false positive removal methods using L2 distance and attribution techniques. We also demonstrate its potential in detecting a number of semantic backdoor attacks.
翻訳日:2021-03-18 09:26:23 公開日:2021-03-17
# ディープダイナミックニューラルネットワークによるニュースレコメンデータシステムにおける精度と多様性のトレードオフ

Deep Dynamic Neural Network to trade-off between Accuracy and Diversity in a News Recommender System ( http://arxiv.org/abs/2103.08458v2 )

ライセンス: Link先を確認
Shaina Raza, Chen Ding(参考訳) ニュースレコメンデータシステムは、ニュースドメイン特有のいくつかのユニークな課題によって特徴付けられる。 これらの課題は、時間とともに継続的に変化する動的に生成されたニュースアイテムに対する読者の関心が急速に発展することから生じる。 ニュースを読むには、読者の長期的な興味と短期的な関心を混ぜ合わせる必要がある。 さらに、ニュースレコメンデーションシステムでは、読者を読書プロセスに参加させるだけでなく、異なる見解や意見に露出させるため、多様性が要求される。 本稿では,情報的ニュースと読者の関心を統合されたフレームワークに共同で学習するディープニューラルネットワークを提案する。 私たちはニュースの見出し、スニペット(ボディ)、分類(カテゴリ、サブカテゴリ)からニュース表現(フィーチャー)を学びます。 読者の長期的な興味は、読者のクリック履歴、lstmsによる最近のクリックからの短期的関心、注目機構を通じて読者の興味の多様化から学ぶ。 モデルにもさまざまなレベルの注意を向けています。 我々は,2つのニュースデータセットについて広範な実験を行い,その効果を実証した。

The news recommender systems are marked by a few unique challenges specific to the news domain. These challenges emerge from rapidly evolving readers' interests over dynamically generated news items that continuously change over time. News reading is also driven by a blend of a reader's long-term and short-term interests. In addition, diversity is required in a news recommender system, not only to keep the reader engaged in the reading process but to get them exposed to different views and opinions. In this paper, we propose a deep neural network that jointly learns informative news and readers' interests into a unified framework. We learn the news representation (features) from the headlines, snippets (body) and taxonomy (category, subcategory) of news. We learn a reader's long-term interests from the reader's click history, short-term interests from the recent clicks via LSTMSs and the diversified reader's interests through the attention mechanism. We also apply different levels of attention to our model. We conduct extensive experiments on two news datasets to demonstrate the effectiveness of our approach.
翻訳日:2021-03-18 09:25:24 公開日:2021-03-17
# 分散ディープラーニングのための学習勾配圧縮

Learned Gradient Compression for Distributed Deep Learning ( http://arxiv.org/abs/2103.08870v2 )

ライセンス: Link先を確認
Lusine Abrahamyan, Yiming Chen, Giannis Bekoulis and Nikos Deligiannis(参考訳) 高次元データを含む大規模データセット上でディープニューラルネットワークをトレーニングするには、大量の計算が必要である。 この問題の解決策はデータ並列分散トレーニング(Data-parallel Distributed Training)であり、モデルが複数の計算ノードに複製され、データの異なるチャンクにアクセスする。 しかしこのアプローチは、各イテレーションでノード間で共有する必要がある計算された勾配のため、高い通信速度とレイテンシを必要とする。 この問題は、ノード間の無線通信がある場合(すなわち)、より顕著になる。 ネットワーク帯域幅が限られているため) この問題に対処するために、勾配のスパース化、量子化、エントロピー符号化など様々な圧縮法が提案されている。 既存の方法はノード内の情報冗長性、すなわち各ノードの勾配を独立に圧縮する。 対照的に,ノード間の勾配は相関しており,このノード間冗長性を利用して圧縮効率を向上させる手法を提案する。 ノード通信プロトコル(パラメータサーバまたはring-allreduce)により、我々は学習勾配圧縮(lgc)を考案したlgcアプローチの2つのインスタンスを提案する。 我々のメソッドはオートエンコーダ(つまり)を利用する。 分散トレーニングの最初の段階でトレーニングされた)分散ノードの勾配に存在する共通情報をキャプチャする。 我々は,様々な畳み込みニューラルネットワーク(resnet50,resnet101, pspnet)と複数のデータセット(imagenet,cifar10,ca mvid)を用いて,画像分類と意味セグメンテーションタスクに関するlgc手法をテストした。 cifar10の画像分類のためにトレーニングされたresnet101モデルは、精度93.57%に達し、非圧縮勾配のベースライン分散トレーニングよりも0.18%低い。

Training deep neural networks on large datasets containing high-dimensional data requires a large amount of computation. A solution to this problem is data-parallel distributed training, where a model is replicated into several computational nodes that have access to different chunks of the data. This approach, however, entails high communication rates and latency because of the computed gradients that need to be shared among nodes at every iteration. The problem becomes more pronounced in the case that there is wireless communication between the nodes (i.e. due to the limited network bandwidth). To address this problem, various compression methods have been proposed including sparsification, quantization, and entropy encoding of the gradients. Existing methods leverage the intra-node information redundancy, that is, they compress gradients at each node independently. In contrast, we advocate that the gradients across the nodes are correlated and propose methods to leverage this inter-node redundancy to improve compression efficiency. Depending on the node communication protocol (parameter server or ring-allreduce), we propose two instances of the LGC approach that we coin Learned Gradient Compression (LGC). Our methods exploit an autoencoder (i.e. trained during the first stages of the distributed training) to capture the common information that exists in the gradients of the distributed nodes. We have tested our LGC methods on the image classification and semantic segmentation tasks using different convolutional neural networks (ResNet50, ResNet101, PSPNet) and multiple datasets (ImageNet, Cifar10, CamVid). The ResNet101 model trained for image classification on Cifar10 achieved an accuracy of 93.57%, which is lower than the baseline distributed training with uncompressed gradients only by 0.18%.
翻訳日:2021-03-18 09:25:06 公開日:2021-03-17
# TransFG: 微粒化認識のためのトランスフォーマーアーキテクチャ

TransFG: A Transformer Architecture for Fine-grained Recognition ( http://arxiv.org/abs/2103.07976v3 )

ライセンス: Link先を確認
Ju He, Jieneng Chen, Shuai Liu, Adam Kortylewski, Cheng Yang, Yutong Bai, Changhu Wang, Alan Yuille(参考訳) サブカテゴリからオブジェクトを認識することを目的とした細粒度視覚分類(FGVC)は、本質的に微妙なクラス間差のため非常に難しい課題である。 近年の研究では、最も差別的な画像領域の特定に焦点をあて、ネットワークの微妙なばらつきを捉える能力を改善するためにそれらに依存している。 これらの作業の多くは、バックボーンネットワークを再利用して、選択した領域の特徴を抽出することで実現している。 しかし、この戦略は必然的にパイプラインを複雑化し、提案された領域をオブジェクトの大部分を含むようプッシュする。 近年,視覚変換器 (ViT) は従来の分類課題において高い性能を示した。 トランスの自己アテンション機構は、すべてのパッチトークンを分類トークンにリンクする。 注意リンクの強さはトークンの重要性の指標として直感的に考えることができる。 そこで本研究では,トランスフォーマーの全ての生の注意重みを注意マップに統合し,ネットワークを効果的かつ正確に識別可能な画像パッチを選定し,それらの関係を計算するトランスフォーマーベースのフレームワークであるtransfgを提案する。 対照的な損失は、類似するサブクラスの特徴表現間の距離をさらに拡大するために適用される。 我々は、cub-200-2011、stanford cars、stanford dogs、nabirds、inat2017の5つの人気のあるきめ細かいベンチマーク実験を行い、transfgの価値を実証した。 モデルの理解を深めるための定性的な結果が提示される。

Fine-grained visual classification (FGVC) which aims at recognizing objects from subcategories is a very challenging task due to the inherently subtle inter-class differences. Recent works mainly tackle this problem by focusing on how to locate the most discriminative image regions and rely on them to improve the capability of networks to capture subtle variances. Most of these works achieve this by re-using the backbone network to extract features of selected regions. However, this strategy inevitably complicates the pipeline and pushes the proposed regions to contain most parts of the objects. Recently, vision transformer (ViT) shows its strong performance in the traditional classification task. The self-attention mechanism of the transformer links every patch token to the classification token. The strength of the attention link can be intuitively considered as an indicator of the importance of tokens. In this work, we propose a novel transformer-based framework TransFG where we integrate all raw attention weights of the transformer into an attention map for guiding the network to effectively and accurately select discriminative image patches and compute their relations. A contrastive loss is applied to further enlarge the distance between feature representations of similar sub-classes. We demonstrate the value of TransFG by conducting experiments on five popular fine-grained benchmarks: CUB-200-2011, Stanford Cars, Stanford Dogs, NABirds and iNat2017 where we achieve state-of-the-art performance. Qualitative results are presented for better understanding of our model.
翻訳日:2021-03-18 09:24:33 公開日:2021-03-17
# 機械学習におけるメンバシップ推論攻撃に関する調査

Membership Inference Attacks on Machine Learning: A Survey ( http://arxiv.org/abs/2103.07853v2 )

ライセンス: Link先を確認
Hongsheng Hu and Zoran Salcic and Gillian Dobbie and Xuyun Zhang(参考訳) メンバシップ推論攻撃は、データサンプルがマシンラーニングモデルのトレーニングに使用されたかどうかを識別することを目的としている。 これは、メンバーシップが個人の機密情報を明らかにするため、深刻なプライバシーリスクを引き起こす可能性がある。 例えば、病院の健康分析トレーニングセットに参加する個人を特定すると、この個人がかつてその病院の患者だったことが分かる。 メンバシップ推論攻撃は、分類モデル、生成モデル、シーケンスツーシーケンスモデルなど、さまざまな機械学習モデルに有効であることが示されている。 一方で、このようなプライバシー攻撃を擁護する多くの方法が提案されている。 メンバーシップ推論攻撃は、急速に成長している研究分野であるが、このトピックに関する包括的調査はまだない。 本稿では,会員推定攻撃文学におけるこの重要なギャップを橋渡しする。 会員推測攻撃の包括的調査を初めて実施する。 我々は、既存のメンバーシップ推論攻撃と防御を要約し分類し、様々な設定で攻撃を実装する方法を明確に提示する。 さらに、なぜメンバシップ推論が動作するのかを議論し、ベンチマークデータセットをまとめて比較し、将来の作業の公正性を保証する。 最後に,今後の研究の方向性と,レビューによる応用の可能性を提案する。

Membership inference attack aims to identify whether a data sample was used to train a machine learning model or not. It can raise severe privacy risks as the membership can reveal an individual's sensitive information. For example, identifying an individual's participation in a hospital's health analytics training set reveals that this individual was once a patient in that hospital. Membership inference attacks have been shown to be effective on various machine learning models, such as classification models, generative models, and sequence-to-sequence models. Meanwhile, many methods are proposed to defend such a privacy attack. Although membership inference attack is an emerging and rapidly growing research area, there is no comprehensive survey on this topic yet. In this paper, we bridge this important gap in membership inference attack literature. We present the first comprehensive survey of membership inference attacks. We summarize and categorize existing membership inference attacks and defenses and explicitly present how to implement attacks in various settings. Besides, we discuss why membership inference attacks work and summarize the benchmark datasets to facilitate comparison and ensure fairness of future work. Finally, we propose several possible directions for future research and possible applications relying on reviewed works.
翻訳日:2021-03-18 09:23:51 公開日:2021-03-17