このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210421となっている論文です。

PDF登録状況(公開日: 20210421)

TitleAuthorsAbstract論文公表日・翻訳日
# フーリエ領域から見た逆例から意味セグメンテーションのためのワイナーフィルタ防御へ

From a Fourier-Domain Perspective on Adversarial Examples to a Wiener Filter Defense for Semantic Segmentation ( http://arxiv.org/abs/2012.01558v2 )

ライセンス: Link先を確認
Nikhil Kapoor, Andreas B\"ar, Serin Varghese, Jan David Schneider, Fabian H\"uger, Peter Schlicht, Tim Fingscheidt(参考訳) 最近の進歩にもかかわらず、ディープニューラルネットワークは敵対的摂動に対して堅牢ではない。 提案する敵防衛アプローチの多くは、セマンティックセグメンテーションのような複雑な現実世界のタスクにスケールしない計算コストの高いトレーニングメカニズムを使用しており、限界的な改善しか提供していない。 さらに、敵の摂動の性質とネットワークアーキテクチャとの関係に関する根本的な疑問が概ね検討されている。 本研究では,周波数領域の観点から,逆問題について検討する。 より具体的には、複数の敵画像の離散フーリエ変換(dft)スペクトルを分析し、2つの主要な発見を報告する。 第2に、観察された周波数パターンは、主に画像と攻撃型独立であり、そのようなパターンを使用する防御の実用的影響に重要である。 また,これらの知見に動機づけられて,データ駆動方式で敵周波数を捕捉・抑制するよく知られたワイナーフィルタに基づく敵防御法を提案する。 提案手法は、未確認の攻撃を一般化するだけでなく、2つのモデルにまたがる既存の5つの攻撃手法を様々な攻撃設定で破る。

Despite recent advancements, deep neural networks are not robust against adversarial perturbations. Many of the proposed adversarial defense approaches use computationally expensive training mechanisms that do not scale to complex real-world tasks such as semantic segmentation, and offer only marginal improvements. In addition, fundamental questions on the nature of adversarial perturbations and their relation to the network architecture are largely understudied. In this work, we study the adversarial problem from a frequency domain perspective. More specifically, we analyze discrete Fourier transform (DFT) spectra of several adversarial images and report two major findings: First, there exists a strong connection between a model architecture and the nature of adversarial perturbations that can be observed and addressed in the frequency domain. Second, the observed frequency patterns are largely image- and attack-type independent, which is important for the practical impact of any defense making use of such patterns. Motivated by these findings, we additionally propose an adversarial defense method based on the well-known Wiener filters that captures and suppresses adversarial frequencies in a data-driven manner. Our proposed method not only generalizes across unseen attacks but also beats five existing state-of-the-art methods across two models in a variety of attack settings.
翻訳日:2021-05-25 04:06:10 公開日:2021-04-21
# LANA: 識別可能な対話シーケンスによる個人化深層学習を目指して

LANA: Towards Personalized Deep Knowledge Tracing Through Distinguishable Interactive Sequences ( http://arxiv.org/abs/2105.06266v1 )

ライセンス: Link先を確認
Yuhao Zhou, Xihua Li, Yunbo Cao, Xuemin Zhao, Qing Ye and Jiancheng Lv(参考訳) 教育応用において,学習者の今後の質問に対する回答を,知識状態の要約によって正確に予測する「知識追跡(KT)」は,適応オンライン学習の基本的な課題として,数十年にわたって広く研究されてきた。 提案されているKTメソッドのうち、Deep Knowledge Tracing(DKT)とその変種は、ニューラルネットワークの柔軟性が高いため、はるかに効果的である。 しかし、DKTは学生間の固有の違いを無視することが多い(例)。 記憶力,推論能力,...) は, すべての生徒の成績を平均化し, パーソナライゼーションの欠如を招いたため, 適応学習には不十分であった。 そこで,本稿では,学習者の特徴抽出器 (srfe) を用いて,学習者固有の特性を各対話型シーケンスから抽出するレベル付き注意知識トレース (leveled attentive knowledge tracing, lana) を提案する。 次に,ピボットモジュールを用いて,抽出した特徴に注目してニューラルネットワークのデコーダを動的に再構成し,時間とともに学生間のパフォーマンスを識別することに成功した。 さらに, 項目応答理論(IRT)にヒントを得て, 解釈可能なラッシュモデルを用いて, 生徒の能力レベルをクラスタリングし, レベル付き学習を活用して, 生徒の異なるグループに異なるエンコーダを割り当てた。 ピボットモジュールは、個々の学生のためのデコーダを再構築し、グループのためのレベル付き学習特化エンコーダにより、パーソナライズされたDKTを実現した。 実世界の2つの大規模データセットにおける広範囲な実験により,提案手法がaucスコアを少なくとも1.00%向上させることを示した。 EdNet 1.46% と RAIEd2020 1.00% は、他の State-Of-The-Art KT メソッドを大幅に上回っている。

In educational applications, Knowledge Tracing (KT), the problem of accurately predicting students' responses to future questions by summarizing their knowledge states, has been widely studied for decades as it is considered a fundamental task towards adaptive online learning. Among all the proposed KT methods, Deep Knowledge Tracing (DKT) and its variants are by far the most effective ones due to the high flexibility of the neural network. However, DKT often ignores the inherent differences between students (e.g. memory skills, reasoning skills, ...), averaging the performances of all students, leading to the lack of personalization, and therefore was considered insufficient for adaptive learning. To alleviate this problem, in this paper, we proposed Leveled Attentive KNowledge TrAcing (LANA), which firstly uses a novel student-related features extractor (SRFE) to distill students' unique inherent properties from their respective interactive sequences. Secondly, the pivot module was utilized to dynamically reconstruct the decoder of the neural network on attention of the extracted features, successfully distinguishing the performance between students over time. Moreover, inspired by Item Response Theory (IRT), the interpretable Rasch model was used to cluster students by their ability levels, and thereby utilizing leveled learning to assign different encoders to different groups of students. With pivot module reconstructed the decoder for individual students and leveled learning specialized encoders for groups, personalized DKT was achieved. Extensive experiments conducted on two real-world large-scale datasets demonstrated that our proposed LANA improves the AUC score by at least 1.00% (i.e. EdNet 1.46% and RAIEd2020 1.00%), substantially surpassing the other State-Of-The-Art KT methods.
翻訳日:2021-05-15 11:30:12 公開日:2021-04-21
# (参考訳) ディープラーニングによるカルバートの視覚ブロック分類の自動化 [全文訳有]

Automating Visual Blockage Classification of Culverts with Deep Learning ( http://arxiv.org/abs/2105.03232v1 )

ライセンス: CC BY 4.0
Umair Iqbal, Johan Barthelemy, Wanqing Li and Pascal Perez(参考訳) 輸送された土石材によるカルバートの閉塞は, 都市部で発生した洪水の原因となると報告されている。 従来のモデリング手法では, ピーク洪水水理データの有効性の欠如や, 旋回時の破片の非線形挙動が原因で, この問題に対処できなかった。 本稿では,ブロック関連情報の抽出にIntelligent Video Analytic (IVA)アルゴリズムを用いることで,この問題を解明するための新たな次元について検討する。 既存の畳み込みニューラルネットワーク(cnn)アルゴリズム(darknet53, densenet121, inceptionresnetv2, inceptionv3, mobilenet, resnet50, vgg16, efficientnetb3, nasnet)を使用する可能性について、与えられた画像のブロック化を予測するために、独自のブロック化データセット(例えば、カルバート開口およびブロック化(icob)の画像)上で検討する。 モデルは、テストデータセット(精度、損失、精度、リコール、f1-score、jaccard-index)、浮動小数点演算(flops)、応答時間に基づいて評価され、単一のテストインスタンスを処理した。 結果から、NASNetはブロックを85\%の精度で分類する最も効率的であると報告されたが、NASNetに匹敵する応答時間の改善(83\%)のために、ハードウェア実装に効率的なNetB3が推奨された。 false negative (fn)インスタンス、false positive (fp)インスタンス、cnnレイヤのアクティベーションは、バックグラウンドノイズと過単純化されたラベル付け基準が既存のcnnアルゴリズムの性能低下に寄与する2つの要因であることを示唆している。

Blockage of culverts by transported debris materials is reported as main contributor in originating urban flash floods. Conventional modelling approaches had no success in addressing the problem largely because of unavailability of peak floods hydraulic data and highly non-linear behaviour of debris at culvert. This article explores a new dimension to investigate the issue by proposing the use of Intelligent Video Analytic (IVA) algorithms for extracting blockage related information. Potential of using existing Convolutional Neural Network (CNN) algorithms (i.e., DarkNet53, DenseNet121, InceptionResNetV2, InceptionV3, MobileNet, ResNet50, VGG16, EfficientNetB3, NASNet) is investigated over a custom collected blockage dataset (i.e., Images of Culvert Openings and Blockage (ICOB)) to predict the blockage in a given image. Models were evaluated based on their performance on test dataset (i.e., accuracy, loss, precision, recall, F1-score, Jaccard-Index), Floating Point Operations Per Second (FLOPs) and response times to process a single test instance. From the results, NASNet was reported most efficient in classifying the blockage with the accuracy of 85\%; however, EfficientNetB3 was recommended for the hardware implementation because of its improved response time with accuracy comparable to NASNet (i.e., 83\%). False Negative (FN) instances, False Positive (FP) instances and CNN layers activation suggested that background noise and oversimplified labelling criteria were two contributing factors in degraded performance of existing CNN algorithms.
翻訳日:2021-05-11 12:04:52 公開日:2021-04-21
# TITAN:バイモーダルアテンションネットワークを用いたT細胞受容体特異性予測

TITAN: T Cell Receptor Specificity Prediction with Bimodal Attention Networks ( http://arxiv.org/abs/2105.03323v1 )

ライセンス: Link先を確認
Anna Weber, Jannis Born and Mar\'ia Rodr\'iguez Mart\'inez(参考訳) モチベーション(Motivation):T細胞とその特異的T細胞受容体(TCR)によって制御され、異種抗原を選択的に認識する。 実験的手法の最近の進歩により、TCRとその抗原標的(エピトープ)のシークエンシングが可能となり、TCR配列とエピトープ結合特異性の欠如が研究されている。 データの不足と大きなシーケンス空間により、この作業は難しくなり、これまでは少数のエピトープに限定されたモデルのみが優れたパフォーマンスを達成している。 そこで本研究では,k-nearest-neighbor (k-nn) 分類器を強いベースラインとして確立し,tcrシーケンスとエピトープの両方を明示的にエンコードするバイモーダルニューラルネットワークであるtitan (tcrエピトープバイモーダルアテンションネットワーク)を提案する。 結果: SMILESシーケンスでエピトープを原子レベルで符号化することにより, 転送学習とデータ拡張を利用して入力データ空間を拡張し, 性能を向上させる。 TITANは、目に見えないTCR(ROC-AUC 0.87 in 10-fold CV)の特異性の予測において高い性能を達成し、現在の最先端(ImRex)の結果を大きく上回る。 特に、我々のLevenshtein-distance ベースのK-NN分類器は、目に見えないTCRに対して競争性能を示す。 未発見のエピトープへの一般化は依然として困難だが、我々は2つの大きなブレークスルーを報告している。 まず,注目ヒートマップを解剖することにより,利用可能なエピトープデータのスパース性がクラスとしてのエピトープの暗黙的な処理を好むことを示す。 これは十分に複雑なモデルでは認識できないエピトープ性能を制限する一般的な問題かもしれない。 第二に,TITANは目に見えないエピトープの性能を著しく向上させ,化学的に有意な分子構造に注意を向けることができることを示した。

Motivation: The activity of the adaptive immune system is governed by T-cells and their specific T-cell receptors (TCR), which selectively recognize foreign antigens. Recent advances in experimental techniques have enabled sequencing of TCRs and their antigenic targets (epitopes), allowing to research the missing link between TCR sequence and epitope binding specificity. Scarcity of data and a large sequence space make this task challenging, and to date only models limited to a small set of epitopes have achieved good performance. Here, we establish a k-nearest-neighbor (K-NN) classifier as a strong baseline and then propose TITAN (Tcr epITope bimodal Attention Networks), a bimodal neural network that explicitly encodes both TCR sequences and epitopes to enable the independent study of generalization capabilities to unseen TCRs and/or epitopes. Results: By encoding epitopes at the atomic level with SMILES sequences, we leverage transfer learning and data augmentation to enrich the input data space and boost performance. TITAN achieves high performance in the prediction of specificity of unseen TCRs (ROC-AUC 0.87 in 10-fold CV) and surpasses the results of the current state-of-the-art (ImRex) by a large margin. Notably, our Levenshtein-distance -based K-NN classifier also exhibits competitive performance on unseen TCRs. While the generalization to unseen epitopes remains challenging, we report two major breakthroughs. First, by dissecting the attention heatmaps, we demonstrate that the sparsity of available epitope data favors an implicit treatment of epitopes as classes. This may be a general problem that limits unseen epitope performance for sufficiently complex models. Second, we show that TITAN nevertheless exhibits significantly improved performance on unseen epitopes and is capable of focusing attention on chemically meaningful molecular structures.
翻訳日:2021-05-11 08:33:19 公開日:2021-04-21
# ホログラフィーと未学習プリミティブによる位相検索:低光子ナノスケールイメージングの課題に取り組む

Phase Retrieval with Holography and Untrained Priors: Tackling the Challenges of Low-Photon Nanoscale Imaging ( http://arxiv.org/abs/2012.07386v3 )

ライセンス: Link先を確認
Hannah Lawrence, David A. Barmherzig, Henry Li, Michael Eickenberg and Marylou Gabri\'e(参考訳) 位相検索は、マグニチュードのみのフーリエ測定から信号を回復する逆問題であり、コヒーレント回折イメージング(CDI)のような多くの画像モダリティの基盤となる。 ホログラフィーとして知られるこの設定の変種には、測定が収集される前に興味のある標本に隣接して置かれる参照オブジェクトが含まれる。 その結果得られた逆問題であるホログラフィック位相探索は、原点に対する問題条件の改善で知られている。 このイノベーション、つまり ホログラフィーCDIは、ウイルス、タンパク質、結晶などの画像検体が低光度測定を必要とするナノスケールにおいて重要である。 このデータはPoissonのショットノイズによって非常に破損し、低周波のコンテンツも欠落することが多い。 本稿では,これらの課題に適応したホログラフィック位相検索のためのデータセットフリーなディープラーニングフレームワークを提案する。 このアプローチの重要な要素は,物理フォワードモデルから自動微分手順への明示的かつ柔軟な組み込み,poisson log-likelihood objective関数,未学習深部画像の事前設定である。 我々は現実的な条件下で広範囲な評価を行う。 競合する古典的手法と比較して,本手法は高い雑音レベルから信号を取り出すことができ,また,観測における低周波数域の欠落部分も大きい。 最後に、これらの特性は光波長で得られた実験データに引き継がれることを示す。 我々の知る限りでは、これはホログラム位相探索のためのデータセットなし機械学習アプローチを考える最初の試みである。

Phase retrieval is the inverse problem of recovering a signal from magnitude-only Fourier measurements, and underlies numerous imaging modalities, such as Coherent Diffraction Imaging (CDI). A variant of this setup, known as holography, includes a reference object that is placed adjacent to the specimen of interest before measurements are collected. The resulting inverse problem, known as holographic phase retrieval, is well-known to have improved problem conditioning relative to the original. This innovation, i.e. Holographic CDI, becomes crucial at the nanoscale, where imaging specimens such as viruses, proteins, and crystals require low-photon measurements. This data is highly corrupted by Poisson shot noise, and often lacks low-frequency content as well. In this work, we introduce a dataset-free deep learning framework for holographic phase retrieval adapted to these challenges. The key ingredients of our approach are the explicit and flexible incorporation of the physical forward model into an automatic differentiation procedure, the Poisson log-likelihood objective function, and an optional untrained deep image prior. We perform extensive evaluation under realistic conditions. Compared to competing classical methods, our method recovers signal from higher noise levels and is more resilient to suboptimal reference design, as well as to large missing regions of low frequencies in the observations. Finally, we show that these properties carry over to experimental data acquired on optical wavelengths. To the best of our knowledge, this is the first work to consider a dataset-free machine learning approach for holographic phase retrieval.
翻訳日:2021-05-08 14:44:22 公開日:2021-04-21
# 解釈可能な決定木の進化的学習

Evolutionary learning of interpretable decision trees ( http://arxiv.org/abs/2012.07723v3 )

ライセンス: Link先を確認
Leonardo Lucio Custode, Giovanni Iacca(参考訳) 強化学習技術は過去10年間でいくつかのタスクで人間レベルのパフォーマンスを達成した。 しかし、近年では、システムがどのように機能するか、その決定の背景にある理由を理解できるようにしたいと思っています。 生成したシステムの安全性を評価するために解釈可能性が必要であるだけでなく、未知の問題に関する知識を抽出する必要がある。 強化学習のために決定木を最適化する技法は存在するが、通常は欲深いアルゴリズムを用いるか、環境が与える報酬を活用しない。 これは、これらのテクニックが局所的なオプティマで簡単に立ち往生することを意味する。 本研究では,決定木を用いた強化学習のための新しい手法を提案する。 進化的アルゴリズムの利点とQ学習の利点を組み合わせた2段階最適化手法を提案する。 このようにして問題を2つのサブプロブレムに分解する:状態空間の有意義で有用な分解を見つける問題と、各状態に作用を関連付ける問題である。 提案手法を3つのよく知られた強化学習ベンチマークで検証し,性能と解釈可能性の両面で最先端と競争する結果を得た。 最後に, この2段階最適化手法を用いることで, 単層最適化手法に対して非自明な環境での性能向上が期待できることを示すアブレーション研究を行う。

Reinforcement learning techniques achieved human-level performance in several tasks in the last decade. However, in recent years, the need for interpretability emerged: we want to be able to understand how a system works and the reasons behind its decisions. Not only we need interpretability to assess the safety of the produced systems, we also need it to extract knowledge about unknown problems. While some techniques that optimize decision trees for reinforcement learning do exist, they usually employ greedy algorithms or they do not exploit the rewards given by the environment. This means that these techniques may easily get stuck in local optima. In this work, we propose a novel approach to interpretable reinforcement learning that uses decision trees. We present a two-level optimization scheme that combines the advantages of evolutionary algorithms with the advantages of Q-learning. This way we decompose the problem into two sub-problems: the problem of finding a meaningful and useful decomposition of the state space, and the problem of associating an action to each state. We test the proposed method on three well-known reinforcement learning benchmarks, on which it results competitive with respect to the state-of-the-art in both performance and interpretability. Finally, we perform an ablation study that confirms that using the two-level optimization scheme gives a boost in performance in non-trivial environments with respect to a one-layer optimization technique.
翻訳日:2021-05-08 14:24:23 公開日:2021-04-21
# (参考訳) インクリメンタル機械学習によるcovid-19ウイルス進化のモデル化 [全文訳有]

Modelling the COVID-19 virus evolution with Incremental Machine Learning ( http://arxiv.org/abs/2104.09325v2 )

ライセンス: CC BY 4.0
Andr\'es L. Su\'arez-Cetrulo and Ankit Kumar and Luis Miralles-Pechu\' ;an(参考訳) パンデミックに対処するためのより良い戦略と方法論のための時間と資源の投資は、将来新たな変異体や他のウイルスの発生に対処する鍵となる。 今回の研究では、新型コロナウイルスの感染拡大が報告された50カ国でパンデミックが世界中で発生した1年前の2020年を再現した。 我々は、LSTMのような最先端の機械学習アルゴリズムとオンラインのインクリメンタル機械学習アルゴリズムを比較して、病気の拡散の日々の変化に適応し、将来の新型コロナウイルスの患者を予測する実験を行った。 最初の実験では、予測した国のデータのみを用いてモデルをトレーニングしました。 第2に、50カ国すべてのデータを使って、それぞれをトレーニングし、予測しています。 第1および第2の実験では、すべてのメソッドに静的ホールドアウトアプローチを使用しました。 第3の実験では,事前評価を用いて逐次的手法を逐次訓練した。 このスキームは、予測のバッチ毎にスクラッチから再トレーニングする必要があるため、ほとんどの最先端の機械学習アルゴリズムには適していない。 その結果、インクリメンタルな手法は、時間とともに病気の変化に適応するための有望なアプローチであり、データ分布の最後の状態に常に最新であり、LSTMのような他の手法よりも計算コストが大幅に低いことが示されている。

The investment of time and resources for better strategies and methodologies to tackle a potential pandemic is key to deal with potential outbreaks of new variants or other viruses in the future. In this work, we recreated the scene of a year ago, 2020, when the pandemic erupted across the world for the fifty countries with more COVID-19 cases reported. We performed some experiments in which we compare state-of-the-art machine learning algorithms, such as LSTM, against online incremental machine learning algorithms to adapt them to the daily changes in the spread of the disease and predict future COVID-19 cases. To compare the methods, we performed three experiments: In the first one, we trained the models using only data from the country we predicted. In the second one, we use data from all fifty countries to train and predict each of them. In the first and second experiment, we used a static hold-out approach for all methods. In the third experiment, we trained the incremental methods sequentially, using a prequential evaluation. This scheme is not suitable for most state-of-the-art machine learning algorithms because they need to be retrained from scratch for every batch of predictions, causing a computational burden. Results show that incremental methods are a promising approach to adapt to changes of the disease over time; they are always up to date with the last state of the data distribution, and they have a significantly lower computational cost than other techniques such as LSTMs.
翻訳日:2021-05-04 07:21:00 公開日:2021-04-21
# 公正競争原理とレート同化関数によるemアルゴリズムの収束の理解と促進

Understanding and Accelerating EM Algorithm's Convergence by Fair Competition Principle and Rate-Verisimilitude Function ( http://arxiv.org/abs/2104.12592v1 )

ライセンス: Link先を確認
Chenguang Lu(参考訳) なぜ混合モデルに対する期待最大化(em)アルゴリズムが収束するのか? なぜ異なる初期パラメータが様々な収束困難を引き起こすのか? q-l同期理論は、観測されたデータログ類似度lと完全なデータログ類似度qが正の相関関係にあることを説明し、qを最大化することで最大lを達成することができる。 この理論によれば、決定論的アニーリングEM (Deterministic Annealing EM) アルゴリズムの著者は、L の局所収束を避けるために局所的な極大 Q を排除しようとする。 しかし、本論文は、QがLが増加するためには、Qが減少する可能性があり、局所収束は、小さなサンプルと不公平な競合のためのみ存在することを証明している。 本稿では, コンバージェンスの難しさを説明するために婚姻競争を利用し, 初期化マップを用いたフェアコンペティション原則(FCP)を提案する。 速度歪み関数から拡張された速度ベクトル関数を用いて、EMの収束と改良されたEMアルゴリズムを説明する。 この収束証明はシャノンらによる変分的および反復的手法を採用する。 速度歪み関数の分析に用いられる。 初期化マップは、2進ガウス混合に対する両方のアルゴリズムの実行時間を大いに節約することができる。 fcpと初期化写像は複雑な混合に対して有用であるが十分ではない。

Why can the Expectation-Maximiza tion (EM) algorithm for mixture models converge? Why can different initial parameters cause various convergence difficulties? The Q-L synchronization theory explains that the observed data log-likelihood L and the complete data log-likelihood Q are positively correlated; we can achieve maximum L by maximizing Q. According to this theory, the Deterministic Annealing EM (DAEM) algorithm's authors make great efforts to eliminate locally maximal Q for avoiding L's local convergence. However, this paper proves that in some cases, Q may and should decrease for L to increase; slow or local convergence exists only because of small samples and unfair competition. This paper uses marriage competition to explain different convergence difficulties and proposes the Fair Competition Principle (FCP) with an initialization map for improving initializations. It uses the rate-verisimilitude function, extended from the rate-distortion function, to explain the convergence of the EM and improved EM algorithms. This convergence proof adopts variational and iterative methods that Shannon et al. used for analyzing rate-distortion functions. The initialization map can vastly save both algorithms' running times for binary Gaussian mixtures. The FCP and the initialization map are useful for complicated mixtures but not sufficient; we need further studies for specific methods.
翻訳日:2021-05-03 19:50:40 公開日:2021-04-21
# 電子パッケージに埋め込まれた相変化材料に対する機械学習支援最適化戦略

Machine-Learning Assisted Optimization Strategies for Phase Change Materials Embedded within Electronic Packages ( http://arxiv.org/abs/2104.14433v1 )

ライセンス: Link先を確認
Meghavin Bhatasana, Amy Marconnet(参考訳) 位相変化材料(PCM)の潜熱を活用することで、電子機器のピーク温度と過渡的な温度変化を低減できる。 しかし、電力レベルが増加するにつれて、熱源からヒートシンクへの熱伝導経路がこれらのシステムの有効性を制限する。 本研究は, 電子装置のシリコンデバイス層にPCMを埋込み, ソースとPCMの熱抵抗を最小化し, この耐熱抵抗を最小化し, 装置の熱性能を向上させることを目的とする。 組込みpcm領域の形状と材料特性はパラメトリックと機械学習アルゴリズムの組み合わせにより最適化される。 固定幾何学では、市販の材料を考えると、ソルダー174は他の有機および金属のPCMよりも著しく優れている。 また, 温度温度を最小化する最適融点は, 過渡的な温度振動の振幅を最小化する最適融点よりも高く, ヒータパワーを増大させることで両極端が増大する。 従来の最適化戦略を超えて、ニューラルネットワークサロゲートモデルによる遺伝的アルゴリズムと粒子群最適化は、多くの幾何学的および物質的特性の最適化を可能にするために用いられる。 評価されたテストケースでは、最適化されたジオメトリと特性はすべてのml支援アルゴリズムで類似しているが、計算時間は技術に依存する。 最終的に、組込み相変化材料による最適化設計は、pcmのないデバイスと比較して最大温度上昇を19%、変動を最大88%削減する。

Leveraging the latent heat of phase change materials (PCMs) can reduce the peak temperatures and transient variations in temperature in electronic devices. But as the power levels increase, the thermal conduction pathway from the heat source to the heat sink limits the effectiveness of these systems. In this work, we evaluate embedding the PCM within the silicon device layer of an electronic device to minimize the thermal resistance between the source and the PCM to minimize this thermal resistance and enhance the thermal performance of the device. The geometry and material properties of the embedded PCM regions are optimized using a combination of parametric and machine learning algorithms. For a fixed geometry, considering commercially available materials, Solder 174 significantly outperforms other organic and metallic PCMs. Also with a fixed geometry, the optimal melting points to minimize the peak temperature is higher than the optimal melting point to minimize the amplitude of the transient temperature oscillation, and both optima increase with increasing heater power. Extending beyond conventional optimization strategies, genetic algorithms and particle swarm optimization with and without neural network surrogate models are used to enable optimization of many geometric and material properties. For the test case evaluated, the optimized geometries and properties are similar between all ML-assisted algorithms, but the computational time depends on the technique. Ultimately, the optimized design with embedded phase change materials reduces the maximum temperature rise by 19% and the fluctuations by up to 88% compared to devices without PCM.
翻訳日:2021-05-03 19:49:19 公開日:2021-04-21
# 畳み込みニューラルネットワークとカルマンフィルタを用いたゴルフボールの効率的な検出と追跡

Efficient Golf Ball Detection and Tracking Based on Convolutional Neural Networks and Kalman Filter ( http://arxiv.org/abs/2012.09393v2 )

ライセンス: Link先を確認
Tianxiao Zhang, Xiaohan Zhang, Yiju Yang, Zongbo Wang, Guanghui Wang(参考訳) 本稿では,オンラインゴルフボールの検出と画像列からの追跡の問題に焦点をあてる。 畳み込みニューラルネットワーク(CNN)に基づくオブジェクト検出とカルマンフィルタに基づく予測を利用して,効率的なリアルタイム手法を提案する。 YOLO v3とその小さなバージョンであるYOLO v4、Faster R-CNN、SSD、RefineDetなど、古典的なディープラーニングベースのオブジェクト検出ネットワークが実装され、評価されている。 小球検出の性能を向上させるため、画像全体ではなく小画像パッチで検出を行う。 追跡段階では、ボールの位置を予測するために離散カルマンフィルタを用い、予測に基づいて小さな画像パッチをトリミングする。 次に、物体検出器を用いてボールの位置を洗練し、カルマンフィルタのパラメータを更新する。 検出モデルを訓練し、追跡アルゴリズムをテストするために、ゴルフボールデータセットのコレクションを作成して注釈付けする。 提案手法の有効性と優れた追跡性能を示すため, 大規模比較実験を行った。

This paper focuses on the problem of online golf ball detection and tracking from image sequences. An efficient real-time approach is proposed by exploiting convolutional neural networks (CNN) based object detection and a Kalman filter based prediction. Five classical deep learning-based object detection networks are implemented and evaluated for ball detection, including YOLO v3 and its tiny version, YOLO v4, Faster R-CNN, SSD, and RefineDet. The detection is performed on small image patches instead of the entire image to increase the performance of small ball detection. At the tracking stage, a discrete Kalman filter is employed to predict the location of the ball and a small image patch is cropped based on the prediction. Then, the object detector is utilized to refine the location of the ball and update the parameters of Kalman filter. In order to train the detection models and test the tracking algorithm, a collection of golf ball dataset is created and annotated. Extensive comparative experiments are performed to demonstrate the effectiveness and superior tracking performance of the proposed scheme.
翻訳日:2021-05-02 07:28:03 公開日:2021-04-21
# (参考訳) 深層ニューラルネットワークによる衛星画像中の航空機の迅速検出 [全文訳有]

Rapid Detection of Aircrafts in Satellite Imagery based on Deep Neural Networks ( http://arxiv.org/abs/2104.11677v1 )

ライセンス: CC BY 4.0
Arsalan Tahir, Muhammad Adil and Arslan Ali(参考訳) 物体検出は応用コンピュータビジョンの基本的な目的の1つである。 応用のいくつかでは、衛星画像処理のようなオブジェクト検出は非常に難しいものになっている。 衛星画像処理は、精密農業、気候変動、災害管理などの分野の研究者の焦点であり続けている。 したがって、衛星画像における物体検出はこの領域で最も研究されている問題の一つである。 本稿では航空機検出に焦点を当てる。 深層学習技術を用いた衛星画像です 本稿では,航空機検出にYOLO深層学習フレームワークを用いた。 この方法は、異なるソースから収集された衛星画像を用いて、モデルが検出を行うための学習を行う。 衛星画像における物体検出は、多くのバリエーション、タイプ、ポーズ、サイズ、複雑な背景を持つため、ほとんどが複雑である。 YOLOは、小さなオブジェクト(オブジェクトあたり32ピクセル以下)に対していくつかの制限があるため、モデルの粗さを低減し、密集したオブジェクトを正確に検出するために予測格子を増幅する。 改良されたモデルは、リアルタイムに要求を満たすために、小さく、回転し、密度の高いオブジェクトを持つ異なる未知の画像に対して、精度と性能を示す。

Object detection is one of the fundamental objectives in Applied Computer Vision. In some of the applications, object detection becomes very challenging such as in the case of satellite image processing. Satellite image processing has remained the focus of researchers in domains of Precision Agriculture, Climate Change, Disaster Management, etc. Therefore, object detection in satellite imagery is one of the most researched problems in this domain. This paper focuses on aircraft detection. in satellite imagery using deep learning techniques. In this paper, we used YOLO deep learning framework for aircraft detection. This method uses satellite images collected by different sources as learning for the model to perform detection. Object detection in satellite images is mostly complex because objects have many variations, types, poses, sizes, complex and dense background. YOLO has some limitations for small size objects (less than$\sim$32 pixels per object), therefore we upsample the prediction grid to reduce the coarseness of the model and to accurately detect the densely clustered objects. The improved model shows good accuracy and performance on different unknown images having small, rotating, and dense objects to meet the requirements in real-time.
翻訳日:2021-04-26 22:04:06 公開日:2021-04-21
# ゼロラベルセマンティックセマンティックセグメンテーションのための自己学習

A Closer Look at Self-training for Zero-Label Semantic Segmentation ( http://arxiv.org/abs/2104.11692v1 )

ライセンス: Link先を確認
Giuseppe Pastore, Fabio Cermelli, Yongqin Xian, Massimiliano Mancini, Zeynep Akata, Barbara Caputo(参考訳) トレーニング中に観察されないクラスをセグメント化できることは、セマンティックセグメンテーションに必要な高価なアノテーションを減らす可能性があるため、ディープラーニングにおいて重要な技術的課題である。 事前のゼロラベルセマンティクスセグメンテーションは、ビジュアル・セマンティクスの埋め込みや生成モデルを学ぶことによってこのタスクにアプローチする。 しかし、訓練信号がないため、見事な授業に過度に適合する傾向にある。 本稿では,モデルがテスト時に目に見えないクラスと見えないクラスの両方をセグメント化しなければならない,汎用ゼロラベルセマンティックセマンティックセマンティクスタスクについて検討する。 訓練画像には未発見のクラスのピクセルが存在するが、注釈は付かないと仮定する。 我々の考えは、未表示のピクセルに対して自己生成の擬似ラベルでモデルを監督することで、未確認クラスの潜伏情報をキャプチャすることである。 同一画像の異なる拡張から生成された擬似ラベルの交点を取り上げ,ノイズの多い擬似ラベルをフィルタリングする整合正則化器を提案する。 本フレームワークは擬似ラベルを生成し,擬似ラベルデータを用いてモデルを再学習する。 この手順は何度も繰り返される。 その結果,pascalvoc12 と coco-stuff データセットを,より複雑な戦略でこの問題に取り組む他の既存手法を上回って,一般化されたゼロラベルセマンティクスセグメンテーション設定で実現した。

Being able to segment unseen classes not observed during training is an important technical challenge in deep learning, because of its potential to reduce the expensive annotation required for semantic segmentation. Prior zero-label semantic segmentation works approach this task by learning visual-semantic embeddings or generative models. However, they are prone to overfitting on the seen classes because there is no training signal for them. In this paper, we study the challenging generalized zero-label semantic segmentation task where the model has to segment both seen and unseen classes at test time. We assume that pixels of unseen classes could be present in the training images but without being annotated. Our idea is to capture the latent information on unseen classes by supervising the model with self-produced pseudo-labels for unlabeled pixels. We propose a consistency regularizer to filter out noisy pseudo-labels by taking the intersections of the pseudo-labels generated from different augmentations of the same image. Our framework generates pseudo-labels and then retrain the model with human-annotated and pseudo-labelled data. This procedure is repeated for several iterations. As a result, our approach achieves the new state-of-the-art on PascalVOC12 and COCO-stuff datasets in the challenging generalized zero-label semantic segmentation setting, surpassing other existing methods addressing this task with more complex strategies.
翻訳日:2021-04-26 13:04:24 公開日:2021-04-21
# アンサンブル学習による静的解析警告の有効性評価

Assessing Validity of Static Analysis Warnings using Ensemble Learning ( http://arxiv.org/abs/2104.11593v1 )

ライセンス: Link先を確認
Anshul Tanwar, Hariharan Manikandan, Krishna Sundaresan, Prasanna Ganesan, Sathish Kumar Chandrasekaran, Sriram Ravi(参考訳) 静的分析(SA)ツールは、コードの潜在的な弱点を特定し、事前に修正するために使われ、コードが開発中である。 複雑なレガシーコードベースでは、これらのルールベースの静的解析ツールは、一般的に実際の警告とともに多くの誤った警告を報告します。 SAツールは多くの隠れたバグを発見したが、報告された偽の警告の量で失われている。 開発者は本当の警告を特定するのに多くの時間と労力を費やします。 開発者の生産性に影響を与える以外に、真のバグもこの課題のために見逃されている。 そこで本研究では,機械学習(ml)ベースの学習プロセスを提案する。ソースコード,履歴コミットデータ,分類器センブルを用いて,与えられた警告リストから真の警告を優先する。 このツールは開発ワークフローに統合され、偽の警告をフィルターし、実際のバグを優先する。 ツールによって報告された静的解析警告の大きなデータプールから,ネットワークCコードのアプローチを評価した。 これらの警告は開発者によってリアルタイムに対処され、本物のバグや偽の警告としてラベル付けされる。 MLモデルは、コード機能の完全な監視でトレーニングされている。 その結果,従来の静的解析レポートにディープラーニングを適用することは,偽陽性率を大幅に下げるための確実なアプローチであることが確認された。

Static Analysis (SA) tools are used to identify potential weaknesses in code and fix them in advance, while the code is being developed. In legacy codebases with high complexity, these rules-based static analysis tools generally report a lot of false warnings along with the actual ones. Though the SA tools uncover many hidden bugs, they are lost in the volume of fake warnings reported. The developers expend large hours of time and effort in identifying the true warnings. Other than impacting the developer productivity, true bugs are also missed out due to this challenge. To address this problem, we propose a Machine Learning (ML)-based learning process that uses source codes, historic commit data, and classifier-ensembles to prioritize the True warnings from the given list of warnings. This tool is integrated into the development workflow to filter out the false warnings and prioritize actual bugs. We evaluated our approach on the networking C codes, from a large data pool of static analysis warnings reported by the tools. Time-to-time these warnings are addressed by the developers, labelling them as authentic bugs or fake alerts. The ML model is trained with full supervision over the code features. Our results confirm that applying deep learning over the traditional static analysis reports is an assuring approach for drastically reducing the false positive rates.
翻訳日:2021-04-26 12:55:44 公開日:2021-04-21
# マルチモーダル3次元物体検出のためのデータ拡張の検討

Exploring Data Augmentation for Multi-Modality 3D Object Detection ( http://arxiv.org/abs/2012.12741v2 )

ライセンス: Link先を確認
Wenwei Zhang, Zhe Wang, Chen Change Loy(参考訳) ポイントクラウドとイメージに基づくマルチモダリティメソッドは、ポイントクラウドのみを使用するアプローチよりも、わずかに良いか、時には悪いだけである。 本稿では,この現象の背景を考察する。 マルチモーダルなデータ拡張は、ポイントクラウドとイメージ間の一貫性を維持する必要があるため、この分野の最近の手法では、一般的に比較的不十分なデータ拡張を使用する。 この不足は彼らのパフォーマンスを期待している。 そこで我々は,トランスフォーメーション・フローというパイプラインをコントリビュートし,トランスフォーメーション・リバースとリプレイを行うことで,単一データとマルチモダリティデータのギャップを埋める。 さらに、オクルージョンを考慮すると、異なるモダリティの点を異なる対象に占有し、マルチモダリティ検出のためにカットやペーストといった非自明な拡張を行うことができる。 さらに,マルチモード整合性を維持するための閉塞性と物理的妥当性を同時に考慮したマルチモードカットとpAste(MoCa)を提案する。 検出器のアンサンブルを使わずに、我々はnuScenesデータセットの最先端性能とKITTI 3Dベンチマークの競合性能を達成する。 また,本手法は第3回nuScenes検出チャレンジでPKL賞を受賞した。 コードとモデルはhttps://github.com/o pen-mmlab/mmdetectio n3dでリリースされる。

It is counter-intuitive that multi-modality methods based on point cloud and images perform only marginally better or sometimes worse than approaches that solely use point cloud. This paper investigates the reason behind this phenomenon. Due to the fact that multi-modality data augmentation must maintain consistency between point cloud and images, recent methods in this field typically use relatively insufficient data augmentation. This shortage makes their performance under expectation. Therefore, we contribute a pipeline, named transformation flow, to bridge the gap between single and multi-modality data augmentation with transformation reversing and replaying. In addition, considering occlusions, a point in different modalities may be occupied by different objects, making augmentations such as cut and paste non-trivial for multi-modality detection. We further present Multi-mOdality Cut and pAste (MoCa), which simultaneously considers occlusion and physical plausibility to maintain the multi-modality consistency. Without using ensemble of detectors, our multi-modality detector achieves new state-of-the-art performance on nuScenes dataset and competitive performance on KITTI 3D benchmark. Our method also wins the best PKL award in the 3rd nuScenes detection challenge. Code and models will be released at https://github.com/o pen-mmlab/mmdetectio n3d.
翻訳日:2021-04-25 18:22:02 公開日:2021-04-21
# (参考訳) 「文脈は?」 会話エージェントにおけるASR再構成のための長期NLM適応 [全文訳有]

"What's The Context?" : Long Context NLM Adaptation for ASR Rescoring in Conversational Agents ( http://arxiv.org/abs/2104.11070v1 )

ライセンス: CC BY 4.0
Ashish Shenoy, Sravan Bodapati, Monica Sunkara, Srikanth Ronanki, Katrin Kirchhoff(参考訳) ニューラル言語モデル(NLM)は、複数の発話にまたがる文脈で訓練され評価された場合、従来のn-gram言語モデルと限られた文脈を使用するNLMよりも一貫して優れていることが示されている。 本稿では,ターンベースコンテキスト履歴をLSTM(recurrent)とTransformer-XL(Trans former-XL)ベースのNLMに組み込む様々な手法について検討する。 そこでは、自然言語理解(nlu)モデルによって分類されるボット応答やシステム対話といった、他の形式のコンテキスト情報を取り込む。 近辺でファジィでファジィな遠い問題を文脈的NLMで緩和するために,特徴量に基づく拡張を改善するために,語彙メタデータ上での注目層の利用を提案する。 さらに,事前学習したマスキング言語モデルからの符号化を活用し,transformer-xlベースのnlmと融合することにより,ユーザのオンザフライ音声パターンに文脈的nlmを適用する。 タスク指向対話のASR仮説のN-best Rescoringを用いて提案モデルを検証し、インテント分類やスロットラベリングなどの下流NLUタスクで評価する。 ベストパフォーマンスモデルは1.6%から9.1%の相対werを示し、f1スコアのスロットラベリングは非コンテキストベースラインよりも4%向上している。

Neural Language Models (NLM), when trained and evaluated with context spanning multiple utterances, have been shown to consistently outperform both conventional n-gram language models and NLMs that use limited context. In this paper, we investigate various techniques to incorporate turn based context history into both recurrent (LSTM) and Transformer-XL based NLMs. For recurrent based NLMs, we explore context carry over mechanism and feature based augmentation, where we incorporate other forms of contextual information such as bot response and system dialogue acts as classified by a Natural Language Understanding (NLU) model. To mitigate the sharp nearby, fuzzy far away problem with contextual NLM, we propose the use of attention layer over lexical metadata to improve feature based augmentation. Additionally, we adapt our contextual NLM towards user provided on-the-fly speech patterns by leveraging encodings from a large pre-trained masked language model and performing fusion with a Transformer-XL based NLM. We test our proposed models using N-best rescoring of ASR hypotheses of task-oriented dialogues and also evaluate on downstream NLU tasks such as intent classification and slot labeling. The best performing model shows a relative WER between 1.6% and 9.1% and a slot labeling F1 score improvement of 4% over non-contextual baselines.
翻訳日:2021-04-24 04:06:14 公開日:2021-04-21
# (参考訳) ScaleCom: コミュニケーション効率の良い分散トレーニングのためのスケーラブルな分散圧縮 [全文訳有]

ScaleCom: Scalable Sparsified Gradient Compression for Communication-Effici ent Distributed Training ( http://arxiv.org/abs/2104.11125v1 )

ライセンス: CC BY 4.0
Chia-Yu Chen, Jiamin Ni, Songtao Lu, Xiaodong Cui, Pin-Yu Chen, Xiao Sun, Naigang Wang, Swagath Venkataramani, Vijayalakshmi Srinivasan, Wei Zhang, Kailash Gopalakrishnan(参考訳) 最先端プラットフォーム上でのDeep Neural Networks(DNN)の大規模分散トレーニングは,通信の厳しい制約が期待できる。 この制限を克服するために、多数の勾配圧縮技術が提案され、高い圧縮比を示した。 しかし、既存の手法の多くは(勾配構築による)大規模分散システムではうまくスケールしないし、大規模データセットにおけるモデルの忠実性(テスト精度)を評価することができない。 これらの問題を緩和するために,学習者間の勾配分布の類似性を活用し,拡張性を大幅に向上させる新しい圧縮手法であるScalable Sparsified Gradient Compression (ScaleCom)を提案する。 理論解析を用いて,scalecomは収束保証を良好に提供し,勾配オールリダクション手法と適合することを示す。 さらに,scalecomのオーバヘッドが小さく,直接勾配トラフィックを低減し,高い圧縮率(65~400x)と優れたスケーラビリティ(64人の学習者と8~12倍のバッチサイズ)を,精度を損なうことなく,幅広いアプリケーション(画像,言語,音声)に適用できることを実験的に実証した。

Large-scale distributed training of Deep Neural Networks (DNNs) on state-of-the-art platforms is expected to be severely communication constrained. To overcome this limitation, numerous gradient compression techniques have been proposed and have demonstrated high compression ratios. However, most existing methods do not scale well to large scale distributed systems (due to gradient build-up) and/or fail to evaluate model fidelity (test accuracy) on large datasets. To mitigate these issues, we propose a new compression technique, Scalable Sparsified Gradient Compression (ScaleCom), that leverages similarity in the gradient distribution amongst learners to provide significantly improved scalability. Using theoretical analysis, we show that ScaleCom provides favorable convergence guarantees and is compatible with gradient all-reduce techniques. Furthermore, we experimentally demonstrate that ScaleCom has small overheads, directly reduces gradient traffic and provides high compression rates (65-400X) and excellent scalability (up to 64 learners and 8-12X larger batch sizes over standard training) across a wide range of applications (image, language, and speech) without significant accuracy loss.
翻訳日:2021-04-24 03:51:21 公開日:2021-04-21
# (参考訳) 自動パフォーマンステストのためのオンラインGAN [全文訳有]

Online GANs for Automatic Performance Testing ( http://arxiv.org/abs/2104.11069v1 )

ライセンス: CC BY 4.0
Ivan Porres and Hergys Rexha and S\'ebastien Lafond(参考訳) 本稿では,gan(generative adversarial network)のオンライン変種を用いてテスト生成プロセスを最適化した,自動パフォーマンステストのための新しいアルゴリズムを提案する。 提案手法の目的は、所定のテスト予算に対して、パフォーマンスの欠陥を明らかにする多数のテストを含むテストスイートを生成することである。 これはGANを使ってテストを生成し、その結果を予測する。 このGANは、テストの生成と実行をオンラインでトレーニングする。 提案手法では、テスト中のシステムの事前のトレーニングセットやモデルを必要としない。 実例テストシステムを用いてアルゴリズムの初期評価を行い、得られた結果を他の可能なアプローチと比較する。 我々は,提案アルゴリズムが概念実証として機能し,GANの試験生成への応用に関する研究議論の火花となることを期待する。

In this paper we present a novel algorithm for automatic performance testing that uses an online variant of the Generative Adversarial Network (GAN) to optimize the test generation process. The objective of the proposed approach is to generate, for a given test budget, a test suite containing a high number of tests revealing performance defects. This is achieved using a GAN to generate the tests and predict their outcome. This GAN is trained online while generating and executing the tests. The proposed approach does not require a prior training set or model of the system under test. We provide an initial evaluation the algorithm using an example test system, and compare the obtained results with other possible approaches. We consider that the presented algorithm serves as a proof of concept and we hope that it can spark a research discussion on the application of GANs to test generation.
翻訳日:2021-04-24 03:08:05 公開日:2021-04-21
# (参考訳) 時間発展のためのニューラルネットワーク量子状態のスケーリング [全文訳有]

Scaling of neural-network quantum states for time evolution ( http://arxiv.org/abs/2104.10696v1 )

ライセンス: CC BY 4.0
Sheng-Hsuan Lin, Frank Pollmann(参考訳) 古典的コンピュータ上での量子多体ダイナミクスのシミュレーションはヒルベルト空間の指数関数的な成長のために難しい問題である。 人工ニューラルネットワークは、量子マニピュレーション状態の近似のための新しいツールとして最近導入された。 非可積分量子イジングチェーンのグローバルクエンチダイナミクスをシミュレートするために、異なる浅層および深層神経自己回帰量子状態の変動パワーをベンチマークする。 与えられた精度で量子状態を表現するために必要なパラメータの数は、時間とともに指数関数的に増加する。 成長速度は、浅層と深層ネットワーク、小さなフィルターサイズと大きなフィルターサイズ、拡張された通常の畳み込み、近距離接続の有無といった、幅広い設計上の選択において、ネットワークアーキテクチャによってのみ影響される。

Simulating quantum many-body dynamics on classical computers is a challenging problem due to the exponential growth of the Hilbert space. Artificial neural networks have recently been introduced as a new tool to approximate quantum-many body states. We benchmark the variational power of different shallow and deep neural autoregressive quantum states to simulate global quench dynamics of a non-integrable quantum Ising chain. We find that the number of parameters required to represent the quantum state at a given accuracy increases exponentially in time. The growth rate is only slightly affected by the network architecture over a wide range of different design choices: shallow and deep networks, small and large filter sizes, dilated and normal convolutions, with and without shortcut connections.
翻訳日:2021-04-24 02:59:35 公開日:2021-04-21
# (参考訳) マルチモード設定における不確かさ認識の強化 [全文訳有]

Uncertainty-Aware Boosted Ensembling in Multi-Modal Settings ( http://arxiv.org/abs/2104.10715v1 )

ライセンス: CC BY 4.0
Utkarsh Sarawgi, Rishab Khincha, Wazeer Zulfikar, Satrajit Ghosh, Pattie Maes(参考訳) 機械学習(ML)システムの信頼性は、医療などの安全クリティカルなアプリケーションにおいて不可欠であり、不確実性推定は、デプロイメントにおけるMLシステムの信頼性を強調するために広く研究されている手法である。 逐次および並列アンサンブル技術は、特徴セットをまとめて活用することにより、マルチモーダル環境でのMLシステムの性能向上を示す。 本研究では,マルチモーダルセンシングのための不確実性認識促進手法を提案し,損失値の高いデータポイントよりも,関連する不確実性推定値の高いデータポイントに着目した。 本手法は,実世界のマルチモーダル音声とテキストデータを含む認知症およびパーキンソン病に関連する医療タスクについて評価し,その改善効果を示す。 さらなる分析は、強化されたアンサンブルに不確実性を導入することでシステム全体のエントロピーが減少し、データの不均一性に対してより堅牢になり、高品質な予測間隔とともに各モダリティの校正性が向上することを示している。 私たちはコードベース全体をhttps://github.com/u sarawgi911/Uncertain ty-aware-boostingでオープンソース化しました。

Reliability of machine learning (ML) systems is crucial in safety-critical applications such as healthcare, and uncertainty estimation is a widely researched method to highlight the confidence of ML systems in deployment. Sequential and parallel ensemble techniques have shown improved performance of ML systems in multi-modal settings by leveraging the feature sets together. We propose an uncertainty-aware boosting technique for multi-modal ensembling in order to focus on the data points with higher associated uncertainty estimates, rather than the ones with higher loss values. We evaluate this method on healthcare tasks related to Dementia and Parkinson's disease which involve real-world multi-modal speech and text data, wherein our method shows an improved performance. Additional analysis suggests that introducing uncertainty-awarenes s into the boosted ensembles decreases the overall entropy of the system, making it more robust to heteroscedasticity in the data, as well as better calibrating each of the modalities along with high quality prediction intervals. We open-source our entire codebase at https://github.com/u sarawgi911/Uncertain ty-aware-boosting
翻訳日:2021-04-24 02:35:20 公開日:2021-04-21
# (参考訳) エネルギー効率の良い物体検出のための完全スパイクハイブリッドニューラルネットワーク [全文訳有]

A Fully Spiking Hybrid Neural Network for Energy-Efficient Object Detection ( http://arxiv.org/abs/2104.10719v1 )

ライセンス: CC BY 4.0
Biswadeep Chakraborty, Xueyuan She, Saibal Mukhopadhyay(参考訳) 本稿では,資源制約型プラットフォームにおけるエネルギー効率とロバストな物体検出のためのフルスパイキングハイブリッドニューラルネットワーク(FSHNN)を提案する。 ネットワークアーキテクチャは、漏洩積分ファイアニューロンモデルを用いた畳み込みsnに基づいている。 このモデルは教師なしスパイク時間依存可塑性(stdp)学習とバックプロパゲーション(stbp)学習法を組み合わせたモデルであり、モンテカルロドロップアウトを用いて不確実性誤差の推定を行う。 FSHNNは150倍のエネルギー効率でDNNベースの物体検出器よりも精度が高い。 また、ノイズのある入力データや、不確実性エラーの少ないラベル付きトレーニングデータに対して、これらのオブジェクト検出器を上回っている。

This paper proposes a Fully Spiking Hybrid Neural Network (FSHNN) for energy-efficient and robust object detection in resource-constrained platforms. The network architecture is based on Convolutional SNN using leaky-integrate-fire neuron models. The model combines unsupervised Spike Time-Dependent Plasticity (STDP) learning with back-propagation (STBP) learning methods and also uses Monte Carlo Dropout to get an estimate of the uncertainty error. FSHNN provides better accuracy compared to DNN based object detectors while being 150X energy-efficient. It also outperforms these object detectors, when subjected to noisy input data and less labeled training data with a lower uncertainty error.
翻訳日:2021-04-24 02:16:41 公開日:2021-04-21
# (参考訳) 判例における細かな事実記事対応の学習 [全文訳有]

Learning Fine-grained Fact-Article Correspondence in Legal Cases ( http://arxiv.org/abs/2104.10726v1 )

ライセンス: CC BY 4.0
Jidong Ge, Yunyun huang, Xiaoyu Shen, Chuanyi Li, Wei Hu and Bin Luo(参考訳) 法律の大規模なデータベースの検索から人的労働力を大幅に解放できるため、関連する法律記事を自動的に推奨することが注目されている。 しかし、現在の研究は、各記事が関連する特定の事実を説明することなく、すべての関連記事が全体として予測される粗粒度推奨のみをサポートする。 1つのケースは多くの支持事実から形成できるので、推奨結果の正確性を検証するためにそれらを横断することは時間がかかります。 私たちは、個々の事実と法律記事のきめ細かい対応を学習することが、正確で信頼できるAIシステムにとって不可欠であると信じています。 このモチベーションにより、我々は先駆的な研究を行い、手動で注釈付き事実-事実対応のコーパスを作成します。 学習をテキストマッチングタスクとして扱い,それに対処するマルチレベルマッチングネットワークを提案する。 論文の内容をより分かりやすくするために,論文をランダムな森林との前提と結論のペアとして解析する。 実験により、解析された形式はより良い性能を示し、結果のモデルは他の一般的なテキストマッチングベースラインを上回った。 さらに,先行研究と比較し,細粒度事実記事対応の確立により推薦精度が大幅に向上することを確認した。 我々の最良のシステムは96.3%のF1スコアに達し、実用上大きな可能性を秘めている。 下流を著しく増やすこともできます

Automatically recommending relevant law articles to a given legal case has attracted much attention as it can greatly release human labor from searching over the large database of laws. However, current researches only support coarse-grained recommendation where all relevant articles are predicted as a whole without explaining which specific fact each article is relevant with. Since one case can be formed of many supporting facts, traversing over them to verify the correctness of recommendation results can be time-consuming. We believe that learning fine-grained correspondence between each single fact and law articles is crucial for an accurate and trustworthy AI system. With this motivation, we perform a pioneering study and create a corpus with manually annotated fact-article correspondences. We treat the learning as a text matching task and propose a multi-level matching network to address it. To help the model better digest the content of law articles, we parse articles in form of premise-conclusion pairs with random forest. Experiments show that the parsed form yielded better performance and the resulting model surpassed other popular text matching baselines. Furthermore, we compare with previous researches and find that establishing the fine-grained fact-article correspondences can improve the recommendation accuracy by a large margin. Our best system reaches an F1 score of 96.3%, making it of great potential for practical use. It can also significantly boost the downstream
翻訳日:2021-04-24 01:59:56 公開日:2021-04-21
# (参考訳) ニューラルネットワークの深い限界と遮断現象 [全文訳有]

Deep limits and cut-off phenomena for neural networks ( http://arxiv.org/abs/2104.10727v1 )

ライセンス: CC BY 4.0
Benny Avelin and Anders Karlsson(参考訳) 深層学習の動的・幾何学的側面を考える。 レイヤーマップの多くの標準的な選択に対して、データや決定関数の違いを定量化する準不変メトリックを表示する。 これにより、ランダムな層写像を考慮し、非可換エルゴード定理を用いることで、層数を無限にするときに、ある極限が存在することを推測することができる。 また,標準ネットワークのランダム初期化について検討し,ネットワークの層数,深さについて,驚くべきカットオフ現象を観測した。 これは、与えられた学習タスクに適切な数のレイヤを選択する場合や、適切な初期化手順を選択する場合、関連するパラメータになり得る。 より一般に、本論文における概念と結果が、深層ニューラルネットワークの理論的な理解の一部として、特に幾何学的な枠組みを提供できることを願っている。

We consider dynamical and geometrical aspects of deep learning. For many standard choices of layer maps we display semi-invariant metrics which quantify differences between data or decision functions. This allows us, when considering random layer maps and using non-commutative ergodic theorems, to deduce that certain limits exist when letting the number of layers tend to infinity. We also examine the random initialization of standard networks where we observe a surprising cut-off phenomenon in terms of the number of layers, the depth of the network. This could be a relevant parameter when choosing an appropriate number of layers for a given learning task, or for selecting a good initialization procedure. More generally, we hope that the notions and results in this paper can provide a framework, in particular a geometric one, for a part of the theoretical understanding of deep neural networks.
翻訳日:2021-04-24 01:42:44 公開日:2021-04-21
# (参考訳) PocketNet: 3D画像分割のためのより小さなニューラルネットワーク [全文訳有]

PocketNet: A Smaller Neural Network for 3D Medical Image Segmentation ( http://arxiv.org/abs/2104.10745v1 )

ライセンス: CC BY 4.0
Adrian Celaya, Jonas Actor, Rajarajeswari Muthusivarajan, Evan Gates, Caroline Chung, Dawid Schellingerhout, Beatrice Riviere, David Fuentes(参考訳) 過剰パラメータのディープラーニングネットワークは、自動医療画像セグメンテーションの分野で素晴らしいパフォーマンスを示している。 しかし、メモリ、ランタイム、エネルギの大幅なコストでこのパフォーマンスを達成しています。 現代のニューラルネットワークにおける過パラメータ化の大きな源は、各ダウンサンプリング層で特徴マップの数を2倍にすることだ。 このパラメータの急激な増加は、大量のコンピューティングリソースを必要とするネットワークアーキテクチャの結果として実現され、アクセスしにくく、使用が困難になる。 ネットワーク全体の機能マップ数を一定に保つことで、従来のCNNと同等のセグメンテーション結果が得られるPocketNetと呼ばれる新しいCNNアーキテクチャが導出され、パラメータの3%未満を使用します。

Overparameterized deep learning networks have shown impressive performance in the area of automatic medical image segmentation. However, they achieve this performance at an enormous cost in memory, runtime, and energy. A large source of overparameterization in modern neural networks results from doubling the number of feature maps with each downsampling layer. This rapid growth in the number of parameters results in network architectures that require a significant amount of computing resources, making them less accessible and difficult to use. By keeping the number of feature maps constant throughout the network, we derive a new CNN architecture called PocketNet that achieves comparable segmentation results to conventional CNNs while using less than 3% of the number of parameters.
翻訳日:2021-04-24 01:03:41 公開日:2021-04-21
# (参考訳) トピックモデリング手法を用いた計算機科学のクラスタリング [全文訳有]

Clustering Introductory Computer Science Exercises Using Topic Modeling Methods ( http://arxiv.org/abs/2104.10748v1 )

ライセンス: CC BY 4.0
Laura O. Moraes, Carlos Eduardo Pedreira(参考訳) 質問のグループに存在する概念を手動で決定するのは、困難で時間のかかるプロセスです。 しかし、熟達度評価とレコメンデーションエンジンを用いた概念と質問のマッピングが必要であるため、このプロセスは仮想学習環境をモデル化する上で不可欠なステップである。 本課題におけるコンピュータサイエンスの教師を支援するための教師なし意味モデル(トピックモデリング技術)を調査し,教師が提供する1つのコードソリューションをコード構造情報を含む代表的なテキスト文書に変換する手法を提案する。 非負行列分解と潜在ディリクレ割当手法を適用することで,質問間の基礎的関係を抽出し,外部データセットを用いて検証する。 大学教授14人のデータを用いて学習概念の解釈可能性を検討し,現在のデータセットを用いて6つの意味的に一貫性のあるクラスタを検証した。 さらに、6つのトピックは、テストデータセットに存在する主要な概念で構成され、正規化ポイントワイドの相互情報メトリクスで0.75に達する。 このメトリクスは人間の評価と相関し、提案手法が有用であり、大量の無注釈コードに対して意味を提供する。

Manually determining concepts present in a group of questions is a challenging and time-consuming process. However, the process is an essential step while modeling a virtual learning environment since a mapping between concepts and questions using mastery level assessment and recommendation engines are required. We investigated unsupervised semantic models (known as topic modeling techniques) to assist computer science teachers in this task and propose a method to transform Computer Science 1 teacher-provided code solutions into representative text documents, including the code structure information. By applying non-negative matrix factorization and latent Dirichlet allocation techniques, we extract the underlying relationship between questions and validate the results using an external dataset. We consider the interpretability of the learned concepts using 14 university professors' data, and the results confirm six semantically coherent clusters using the current dataset. Moreover, the six topics comprise the main concepts present in the test dataset, achieving 0.75 in the normalized pointwise mutual information metric. The metric correlates with human ratings, making the proposed method useful and providing semantics for large amounts of unannotated code.
翻訳日:2021-04-24 00:56:15 公開日:2021-04-21
# (参考訳) 線形プログラミングによる解釈可能な学習のための分類規則の発見 [全文訳有]

Discovering Classification Rules for Interpretable Learning with Linear Programming ( http://arxiv.org/abs/2104.10751v1 )

ライセンス: CC BY 4.0
M. Hakan Aky\"uz, \c{S}. \.Ilker Birbil(参考訳) ルールは、データセット内のサンプルのサブセットを分類する1つ以上の条件を含むif-thenステートメントのセットを具現化する。 様々な応用において、このような分類規則は意思決定者によって解釈されると考えられる。 解釈と学習のための新しいアルゴリズムを2つ紹介する。 どちらのアルゴリズムも線形プログラミングを利用するため、大規模なデータセットに対してスケーラブルである。 第1のアルゴリズムは、木/ルールアンサンブルに基づく訓練モデルの解釈規則を抽出する。 第2のアルゴリズムは列生成手法により分類規則の集合を生成する。 提案アルゴリズムは、各ルールの分類の重要性を示す最適な重みとともに一連のルールを返す。 さらに, ルール長, 推定器重み, 偽陰数など, ルールの異なる属性に関係のあるコスト係数を割り当てることも可能である。 したがって、意思決定者はこれらの係数を調整してトレーニングプロセスを分散させ、彼らのニーズによりアピールする一連のルールを得ることができる。 両アルゴリズムのパフォーマンスをデータセットの集合上で検証し、最適規則重みに関するケーススタディを提示した。 その結果,提案手法により解釈可能性と精度の妥協が得られた。

Rules embody a set of if-then statements which include one or more conditions to classify a subset of samples in a dataset. In various applications such classification rules are considered to be interpretable by the decision makers. We introduce two new algorithms for interpretability and learning. Both algorithms take advantage of linear programming, and hence, they are scalable to large data sets. The first algorithm extracts rules for interpretation of trained models that are based on tree/rule ensembles. The second algorithm generates a set of classification rules through a column generation approach. The proposed algorithms return a set of rules along with their optimal weights indicating the importance of each rule for classification. Moreover, our algorithms allow assigning cost coefficients, which could relate to different attributes of the rules, such as; rule lengths, estimator weights, number of false negatives, and so on. Thus, the decision makers can adjust these coefficients to divert the training process and obtain a set of rules that are more appealing for their needs. We have tested the performances of both algorithms on a collection of datasets and presented a case study to elaborate on optimal rule weights. Our results show that a good compromise between interpretability and accuracy can be obtained by the proposed algorithms.
翻訳日:2021-04-24 00:30:57 公開日:2021-04-21
# (参考訳) ディープラーニングを用いた皮膚癌検出のためのメタラーニング [全文訳有]

Meta-learning for skin cancer detection using Deep Learning Techniques ( http://arxiv.org/abs/2104.10775v1 )

ライセンス: CC BY 4.0
Sara I. Garcia(参考訳) 本研究は皮膚内視鏡画像に対するメタラーニングアプローチによる皮膚がんの自動検出に焦点をあてる。 本研究の目的は,医療データの分類性能における非医療データから抽出した知識の一般化と,簡単なクラスと分散バランサアルゴリズムを用いて,限られたデータにおける分布シフト問題の影響を検討することである。 本研究では,非医学的データに事前学習したresnetモデルを微調整するために,3つの異なるソースからの複合データセットのサンプルを用いた。 以上の結果から,imagenetデータセットからの日常的対象の画像から得られた知識を20ポイント改善し,メラノーマ,悪性(皮膚がん),良性モグラの検出性能の向上を認めた。 以上の結果から,非医用画像の特徴は皮膚モグラの分類に利用でき,データの分布がモデルの性能に影響を及ぼすことが示唆された。

This study focuses on automatic skin cancer detection using a Meta-learning approach for dermoscopic images. The aim of this study is to explore the benefits of the generalization of the knowledge extracted from non-medical data in the classification performance of medical data and the impact of the distribution shift problem within limited data by using a simple class and distribution balancer algorithm. In this study, a small sample of a combined dataset from 3 different sources was used to fine-tune a ResNet model pre-trained on non-medical data. The results show an increase in performance on detecting melanoma, malignant (skin cancer), and benign moles with the prior knowledge obtained from images of everyday objects from the ImageNet dataset by 20 points. These findings suggest that features from non-medical images can be used towards the classification of skin moles and that the distribution of the data affects the performance of the model.
翻訳日:2021-04-24 00:07:44 公開日:2021-04-21
# (参考訳) 臨床ノートから逆薬事象を抽出する [全文訳有]

Extracting Adverse Drug Events from Clinical Notes ( http://arxiv.org/abs/2104.10791v1 )

ライセンス: CC BY 4.0
Darshini Mahendran and Bridget T. McInnes(参考訳) 逆薬物イベント(英: adverse drug events、ADEs)は、薬物や薬物の投与によって引き起こされる予期せぬ出来事である。 これらの事象を同定し抽出するには、薬物自体だけでなく、薬物(例えば、強度、摂取量)を説明する属性、薬物が最初に処方された理由、薬物に対する悪反応に関する情報が必要である。 本稿では,薬物とその関連属性の関係を関係抽出法を用いて検討する。 ルールベースアプローチ,ディープラーニングベースアプローチ,コンテキスト化された言語モデルベースアプローチの3つのアプローチを検討した。 n2c2-2018 ade抽出データセット上でシステムを評価する。 実験の結果,文脈型言語モデルに基づくアプローチは,他のモデルよりも優れ,精度0.93,再現率0.96,F_1$スコア0.94のADE抽出における最先端性能が得られた。

Adverse drug events (ADEs) are unexpected incidents caused by the administration of a drug or medication. To identify and extract these events, we require information about not just the drug itself but attributes describing the drug (e.g., strength, dosage), the reason why the drug was initially prescribed, and any adverse reaction to the drug. This paper explores the relationship between a drug and its associated attributes using relation extraction techniques. We explore three approaches: a rule-based approach, a deep learning-based approach, and a contextualized language model-based approach. We evaluate our system on the n2c2-2018 ADE extraction dataset. Our experimental results demonstrate that the contextualized language model-based approach outperformed other models overall and obtain the state-of-the-art performance in ADE extraction with a Precision of 0.93, Recall of 0.96, and an $F_1$ score of 0.94; however, for certain relation types, the rule-based approach obtained a higher Precision and Recall than either learning approach.
翻訳日:2021-04-24 00:01:47 公開日:2021-04-21
# 低ランク学習のための高精度・高速行列分解

Accurate and fast matrix factorization for low-rank learning ( http://arxiv.org/abs/2104.10785v1 )

ライセンス: Link先を確認
Reza Godaz, Reza Monsefi, Faezeh Toutounian, Reshad Hosseini(参考訳) 本稿では, 高精度な部分特異値分解(SVD)と, 低ランク学習問題で高速に使用する巨大行列の数値ランク推定に関する2つの重要な課題に取り組む。 我々はこれらの目標を達成するために、ゴルブ・カハン二角化過程のようなクリロフ部分空間の概念とリッツベクトルを用いる。 提案手法は,svd法(r-svd法)と比較して特異値の精度と類似した実行時間で計算した特異ベクトルの精度に比較して,様々な利点を見出した。 提案手法は、所望の特異値のすべてのスペクトルの精度と対応するすべての特異ベクトルが必須となる巨大な行列を含む応用に適している。 我々は,MNISTとUSPSの2つの画像データセット間のリーマン類似性学習(Riemannian similarity learning, RL)の実適用性を評価する。

In this paper we tackle two important challenges related to the accurate partial singular value decomposition (SVD) and numerical rank estimation of a huge matrix to use in low-rank learning problems in a fast way. We use the concepts of Krylov subspaces such as the Golub-Kahan bidiagonalization process as well as Ritz vectors to achieve these goals. Our experiments identify various advantages of the proposed methods compared to traditional and randomized SVD (R-SVD) methods with respect to the accuracy of the singular values and corresponding singular vectors computed in a similar execution time. The proposed methods are appropriate for applications involving huge matrices where accuracy in all spectrum of the desired singular values, and also all of corresponding singular vectors is essential. We evaluate our method in the real application of Riemannian similarity learning (RSL) between two various image datasets of MNIST and USPS.
翻訳日:2021-04-23 14:07:42 公開日:2021-04-21
# 制約時間制約下での自動モデルトレーニング

Automatic model training under restrictive time constraints ( http://arxiv.org/abs/2104.10746v1 )

ライセンス: Link先を確認
Lukas Cironis, Jan Palczewski, Georgios Aivaliotis(参考訳) 超パラメータ最適化アルゴリズム、自動予算制約トレーニング(autobct)を開発し、モデルの質とそれを調整するのに必要な計算コストのバランスをとる。 ハイパーパラメータとモデル品質と計算コストの関係を学習し、この学習を最適化問題に直接組み込む必要がある。 各トレーニング期間において、アルゴリズムはトレーニングを終了するか継続するかを決定し、後者の場合、どのハイパーパラメータを使用するかを決定する。 この決定は、追加のトレーニング時間と学習量に関する不確実性によって、品質の潜在的な改善を最適に重んじる。 ランダムな森林やニューラルネットワークを含む多くの機械学習問題に対して,本アルゴリズムの性能を検証した。 本手法は,部分的情報を含むマルコフ決定過程の理論に根ざし,値関数と最適戦略を計算する数値解法を開発した。

We develop a hyperparameter optimisation algorithm, Automated Budget Constrained Training (AutoBCT), which balances the quality of a model with the computational cost required to tune it. The relationship between hyperparameters, model quality and computational cost must be learnt and this learning is incorporated directly into the optimisation problem. At each training epoch, the algorithm decides whether to terminate or continue training, and, in the latter case, what values of hyperparameters to use. This decision weighs optimally potential improvements in the quality with the additional training time and the uncertainty about the learnt quantities. The performance of our algorithm is verified on a number of machine learning problems encompassing random forests and neural networks. Our approach is rooted in the theory of Markov decision processes with partial information and we develop a numerical method to compute the value function and an optimal strategy.
翻訳日:2021-04-23 14:05:42 公開日:2021-04-21
# エンドツーエンド自動運転のためのマルチタスク学習

Multi-task Learning with Attention for End-to-end Autonomous Driving ( http://arxiv.org/abs/2104.10753v1 )

ライセンス: Link先を確認
Keishi Ishihara, Anssi Kanervisto, Jun Miura, Ville Hautam\"aki(参考訳) 自動運転システムは、車線追従、衝突回避、交替、信号応答といった複雑なシナリオを処理する必要がある。 近年,エンド・ツー・エンドの行動クローニングに基づくアプローチは,現実的なシミュレータと標準ベンチマークを用いて,ポイント・ツー・ポイントのナビゲーションシナリオにおいて顕著な性能を示した。 オフラインの模倣学習は、高価な手動アノテーションやターゲット環境とのインタラクションを必要としないため、容易に利用できるが、信頼できるシステムを得ることは困難である。 さらに、既存の手法では、トレーニングデータセットで稀に発生する信号に対する反応の学習には特に対応していない。 本稿では,条件付き模倣学習(cil)フレームワークにおいて,前回のマルチタスク学習と注意モデリングに着想を得たマルチタスク注意認識ネットワークを提案する。 これは、標準ベンチマークの成功率を改善するだけでなく、標準ベンチマークで示すように、トラフィックライトに反応する能力も向上します。

Autonomous driving systems need to handle complex scenarios such as lane following, avoiding collisions, taking turns, and responding to traffic signals. In recent years, approaches based on end-to-end behavioral cloning have demonstrated remarkable performance in point-to-point navigational scenarios, using a realistic simulator and standard benchmarks. Offline imitation learning is readily available, as it does not require expensive hand annotation or interaction with the target environment, but it is difficult to obtain a reliable system. In addition, existing methods have not specifically addressed the learning of reaction for traffic lights, which are a rare occurrence in the training datasets. Inspired by the previous work on multi-task learning and attention modeling, we propose a novel multi-task attention-aware network in the conditional imitation learning (CIL) framework. This does not only improve the success rate of standard benchmarks, but also the ability to react to traffic lights, which we show with standard benchmarks.
翻訳日:2021-04-23 14:04:21 公開日:2021-04-21
# データセット推論: マシンラーニングにおけるオーナシップ解決

Dataset Inference: Ownership Resolution in Machine Learning ( http://arxiv.org/abs/2104.10706v1 )

ライセンス: Link先を確認
Pratyush Maini and Mohammad Yaghini and Nicolas Papernot(参考訳) ますます多くのデータと計算がトレーニングに関与しているため、機械学習モデルは貴重な知的財産となる。 これはモデルを盗むことへの関心を喚起し、部分的、ほとんど、または全く監督しない学習の進歩によってより実践的になった。 既存の防御策では、モデルの意思決定面にユニークなウォーターマークを挿入することに重点を置いているが、これは不十分である。 本稿では,盗まれたモデルのトレーニングセットに含まれる知識が,盗まれたすべてのコピーに共通するものであることを示す。 敵の目標は、攻撃にかかわらず、常にこの知識や副産物を抽出することである。 これにより、オリジナルのモデルのオーナーは、敵に対して強力な優位性を与える: モデルオーナーはオリジナルのトレーニングデータにアクセスすることができる。 これにより、疑わしいモデルコピーが元のモデルのデータセットからプライベートな知識を持っているかどうかを識別するプロセスである$dataset$ $inference$を導入する。 統計的テストと複数のデータポイントから決定境界までの距離を推定する能力を組み合わせたデータセット推論手法を開発した。 CIFAR10, SVHN, CIFAR100, ImageNetによる実験の結果, モデル所有者は, モデル(あるいは実際にデータセット)が盗まれたことを99%以上の自信を持って主張できることがわかった。 データセット推論は、敵が適応している場合でも最先端の攻撃を防御する。 以前の作業とは異なり、防御されたモデルの再訓練やオーバーフィットは不要である。

With increasingly more data and computation involved in their training, machine learning models constitute valuable intellectual property. This has spurred interest in model stealing, which is made more practical by advances in learning with partial, little, or no supervision. Existing defenses focus on inserting unique watermarks in a model's decision surface, but this is insufficient: the watermarks are not sampled from the training distribution and thus are not always preserved during model stealing. In this paper, we make the key observation that knowledge contained in the stolen model's training set is what is common to all stolen copies. The adversary's goal, irrespective of the attack employed, is always to extract this knowledge or its by-products. This gives the original model's owner a strong advantage over the adversary: model owners have access to the original training data. We thus introduce $dataset$ $inference$, the process of identifying whether a suspected model copy has private knowledge from the original model's dataset, as a defense against model stealing. We develop an approach for dataset inference that combines statistical testing with the ability to estimate the distance of multiple data points to the decision boundary. Our experiments on CIFAR10, SVHN, CIFAR100 and ImageNet show that model owners can claim with confidence greater than 99% that their model (or dataset as a matter of fact) was stolen, despite only exposing 50 of the stolen model's training points. Dataset inference defends against state-of-the-art attacks even when the adversary is adaptive. Unlike prior work, it does not require retraining or overfitting the defended model.
翻訳日:2021-04-23 14:02:43 公開日:2021-04-21
# スケルトンクラスタリング:次元自由密度クラスタリング

Skeleton Clustering: Dimension-Free Density-based Clustering ( http://arxiv.org/abs/2104.10770v1 )

ライセンス: Link先を確認
Zeyu Wei and Yen-Chi Chen(参考訳) 本研究では,多変量および高次元データの集合を不規則な形状で検出するスケルトンクラスタリング法を提案する。 次元の呪いを回避すべく,次元に依存しないが直感的な幾何学的解釈を持つ代理密度測度を提案する。 クラスタリングフレームワークは、与えられたデータの簡潔な表現を中間ステップとして構成し、プロトタイプ手法、密度ベースのクラスタリング、階層クラスタリングの組み合わせと考えることができる。 本研究では,スケルトンクラスタリングが多変量および高次元シナリオにおける信頼性クラスタに繋がることを示す。

We introduce a density-based clustering method called skeleton clustering that can detect clusters in multivariate and even high-dimensional data with irregular shapes. To bypass the curse of dimensionality, we propose surrogate density measures that are less dependent on the dimension but have intuitive geometric interpretations. The clustering framework constructs a concise representation of the given data as an intermediate step and can be thought of as a combination of prototype methods, density-based clustering, and hierarchical clustering. We show by theoretical analysis and empirical studies that the skeleton clustering leads to reliable clusters in multivariate and high-dimensional scenarios.
翻訳日:2021-04-23 14:02:16 公開日:2021-04-21
# 過パラメータ化レジームにおける非凸低ランクマトリックス回復のためのシャープグローバル保証

Sharp Global Guarantees for Nonconvex Low-Rank Matrix Recovery in the Overparameterized Regime ( http://arxiv.org/abs/2104.10790v1 )

ライセンス: Link先を確認
Richard Y. Zhang(参考訳) 未知基底真理 $r^{\star}<r$ のランクがサーチランク $r$ よりも厳密に小さいとき、非凸な低ランク行列のリカバリが可能であり、しかも $r^{\star}=r$ のとき、クレームは偽であることを示す。 制限等方性 (RIP) の下では、r^{\star}\le r$ の一般的な過パラメータ化された状態に対して、$\delta<1/(1+\sqrt{r^{\star}/r})$ の RIP 定数は急激な局所ミニマの不存在に十分であり、$\delta<1/(1+1/\sqrt{r+r^{\star}-1})$ は反例の存在のために必要であることを示す。 r^{\star}\le r$ に対する明示的な制御がなければ、$\delta<1/2$ の RIP 定数は、階数-$r$基底真理の正確な回復に必要かつ十分である。 しかし、もし基底真理が$r^{\star}=1$を持つという事前条件が知られているなら、正確な回復のための鋭いRIP閾値は$\delta<1/(1+1/\sqrt{r})$に改善される。

We prove that it is possible for nonconvex low-rank matrix recovery to contain no spurious local minima when the rank of the unknown ground truth $r^{\star}<r$ is strictly less than the search rank $r$, and yet for the claim to be false when $r^{\star}=r$. Under the restricted isometry property (RIP), we prove, for the general overparameterized regime with $r^{\star}\le r$, that an RIP constant of $\delta<1/(1+\sqrt{r^{\star}/r})$ is sufficient for the inexistence of spurious local minima, and that $\delta<1/(1+1/\sqrt{r+r^{\star}-1})$ is necessary due to existence of counterexamples. Without an explicit control over $r^{\star}\le r$, an RIP constant of $\delta<1/2$ is both necessary and sufficient for the exact recovery of a rank-$r$ ground truth. But if the ground truth is known a priori to have $r^{\star}=1$, then the sharp RIP threshold for exact recovery is improved to $\delta<1/(1+1/\sqrt{r})$.
翻訳日:2021-04-23 14:02:04 公開日:2021-04-21
# ラベル付きデータと小BERTモデルによる拡散検出

Disfluency Detection with Unlabeled Data and Small BERT Models ( http://arxiv.org/abs/2104.10769v1 )

ライセンス: Link先を確認
Johann C. Rocholl, Vicky Zayats, Daniel D. Walker, Noah B. Murad, Aaron Schneider, Daniel J. Liebling(参考訳) 分散検出モデルは現在、英語テキストの高精度化に近づいている。 しかし、モデルのサイズと推測時間を改善するための調査はほとんど行われていない。 同時に、自動音声認識(ASR)モデルがサーバサイド推論からローカルデバイスオンデバイス推論へと移行している。 転写パイプラインのモデルのサポート(不規則検出など)は、従わなければならない。 本研究では,BERTアーキテクチャに基づく小型・高速・オンデバイスモデルに焦点をあて,分散検出タスクに集中する。 性能を保ちながら1.3 MiB程度の拡散検出モデルを訓練できることを実証する。 我々は、自己学習のようなデータ強化アプローチの利点を示す以前の研究に基づいて構築した。 そして,会話テキストと文章テキストのドメインミスマッチがモデル性能に及ぼす影響を評価する。 従来のBERTモデルと比較して,ドメイン適応とデータ拡張戦略がこれらの小さなモデルに顕著な影響を及ぼすことがわかった。

Disfluency detection models now approach high accuracy on English text. However, little exploration has been done in improving the size and inference time of the model. At the same time, automatic speech recognition (ASR) models are moving from server-side inference to local, on-device inference. Supporting models in the transcription pipeline (like disfluency detection) must follow suit. In this work we concentrate on the disfluency detection task, focusing on small, fast, on-device models based on the BERT architecture. We demonstrate it is possible to train disfluency detection models as small as 1.3 MiB, while retaining high performance. We build on previous work that showed the benefit of data augmentation approaches such as self-training. Then, we evaluate the effect of domain mismatch between conversational and written text on model performance. We find that domain adaptation and data augmentation strategies have a more pronounced effect on these smaller models, as compared to conventional BERT models.
翻訳日:2021-04-23 14:00:12 公開日:2021-04-21
# 人間AIにおける解釈可能性尺度の統一ベイズ的定式化

A Unifying Bayesian Formulation of Measures of Interpretability in Human-AI ( http://arxiv.org/abs/2104.10743v1 )

ライセンス: Link先を確認
Sarath Sreedharan, Anagha Kulkarni, David E. Smith, Subbarao Kambhampati(参考訳) 人間の認識エージェント行動を生成する既存のアプローチは、別個の解釈可能性の異なる尺度を検討してきた。 さらに、これらの措置は異なる仮定の下で研究されており、同じ仮定の下でこれらの措置を捉える単一の枠組みを設計する可能性を排除している。 本稿では,エージェントに関する人間のオブザーバの進化的信念をモデル化し,汎用的なヒューマンアウェア・プランニングの問題を定義するベイズフレームワークを提案する。 一般的な枠組みの特別な場合として, 説明可能性, 正当性, 予測可能性といった解釈可能性の定義が, 先行文献から逸脱していることを示す。 この枠組みを通じて、人間とロボットの相互作用は、特にエージェントに対する人間の信念をモデル化した結果、事実上、オープンワールドの問題であるということに、これまで無視されていた事実をもたらす。 人間はエージェントに未知の信念を持つだけでなく、新しい行動や予期しない行動を示す際に、エージェントに関する新たな仮説を形成することもある。

Existing approaches for generating human-aware agent behaviors have considered different measures of interpretability in isolation. Further, these measures have been studied under differing assumptions, thus precluding the possibility of designing a single framework that captures these measures under the same assumptions. In this paper, we present a unifying Bayesian framework that models a human observer's evolving beliefs about an agent and thereby define the problem of Generalized Human-Aware Planning. We will show that the definitions of interpretability measures like explicability, legibility and predictability from the prior literature fall out as special cases of our general framework. Through this framework, we also bring a previously ignored fact to light that the human-robot interactions are in effect open-world problems, particularly as a result of modeling the human's beliefs over the agent. Since the human may not only hold beliefs unknown to the agent but may also form new hypotheses about the agent when presented with novel or unexpected behaviors.
翻訳日:2021-04-23 13:58:48 公開日:2021-04-21
# the road less travel: 歩行シミュレーターの試作と失敗

The Road Less Travelled: Trying And Failing To Generate Walking Simulators ( http://arxiv.org/abs/2104.10789v1 )

ライセンス: Link先を確認
Michael Cook(参考訳) 自動ゲーム設計は急速に拡大する研究分野であるが、ほとんどのシステムは明確な目的とゴール指向のゲームプレイを持つ二次元ゲームに焦点を当てているため、ゲーム設計の多くの側面はいまだにほとんど見当たらない。 本稿では,空間,雰囲気,経験に重点を置いた3dゲームのための自動ゲームデザイナー構築の試みについて述べる。 我々は、これらのシステムの構築の試み、なぜ失敗したのか、そして将来の試みにどのようなステップと将来の作業が役立つと信じているのかを説明します。

Automated game design is a rapidly growing area of research, yet many aspects of game design lie largely unexamined still, as most systems focus on two-dimensional games with clear objectives and goal-oriented gameplay. This paper describes several attempts to build an automated game designer for 3D games more focused on space, atmosphere and experience. We describe our attempts to build these systems, why they failed, and what steps and future work we believe would be useful for future attempts by others.
翻訳日:2021-04-23 13:58:34 公開日:2021-04-21
# 効率的な非サンプリング知識グラフ埋め込み

Efficient Non-Sampling Knowledge Graph Embedding ( http://arxiv.org/abs/2104.10796v1 )

ライセンス: Link先を確認
Zelong Li, Jianchao Ji, Zuohui Fu, Yingqiang Ge, Shuyuan Xu, Chong Chen, Yongfeng Zhang(参考訳) 知識グラフ(kg)は、データエンティティ間の複雑な関係を記述することができる柔軟な構造である。 現在、ほとんどのKG埋め込みモデルは、負のサンプリングに基づいて訓練されている。すなわち、このモデルは、サンプル化された非連結エンティティの類似性を最小化しながら、KG内の連結エンティティの類似性を最大化することを目的としている。 負のサンプリングは、サンプル処理の不確実性のために安定したモデル性能を提供することができない負のインスタンスのサブセットのみを考慮することで、モデル学習の時間的複雑さを低減するのに役立つ。 このような欠陥を避けるため、我々はKG埋め込みのための新しいフレームワーク -- 効率的な非サンプリング知識グラフ埋め込み (NS-KGE) を提案する。 基本的な考え方は、モデル学習のためのkgの負のインスタンスをすべて考慮し、負のサンプリングを避けることである。 このフレームワークは正方形損失に基づく知識グラフ埋め込みモデルや、損失を正方形損失に変換できるモデルに適用することができる。 この非サンプリング戦略の自然な副作用は、モデル学習の計算複雑性の増大である。 この問題を解決するために, 数学的導出を利用して非サンプリング損失関数の複雑性を低減し, 既存のモデルと比較してkg埋め込みの効率と精度を両立させる。 ベンチマークデータセットを用いた実験により、NS-KGEフレームワークは従来の負サンプリングベースモデルよりも効率と正確性を向上でき、このフレームワークは大規模な知識グラフ埋め込みモデルに適用可能であることが示された。

Knowledge Graph (KG) is a flexible structure that is able to describe the complex relationship between data entities. Currently, most KG embedding models are trained based on negative sampling, i.e., the model aims to maximize some similarity of the connected entities in the KG, while minimizing the similarity of the sampled disconnected entities. Negative sampling helps to reduce the time complexity of model learning by only considering a subset of negative instances, which may fail to deliver stable model performance due to the uncertainty in the sampling procedure. To avoid such deficiency, we propose a new framework for KG embedding -- Efficient Non-Sampling Knowledge Graph Embedding (NS-KGE). The basic idea is to consider all of the negative instances in the KG for model learning, and thus to avoid negative sampling. The framework can be applied to square-loss based knowledge graph embedding models or models whose loss can be converted to a square loss. A natural side-effect of this non-sampling strategy is the increased computational complexity of model learning. To solve the problem, we leverage mathematical derivations to reduce the complexity of non-sampling loss function, which eventually provides us both better efficiency and better accuracy in KG embedding compared with existing models. Experiments on benchmark datasets show that our NS-KGE framework can achieve a better performance on efficiency and accuracy over traditional negative sampling based models, and that the framework is applicable to a large class of knowledge graph embedding models.
翻訳日:2021-04-23 13:58:24 公開日:2021-04-21
# 英: Intelligenz, quo vadis?

K\"unstliche Intelligenz, quo vadis? ( http://arxiv.org/abs/2104.11067v1 )

ライセンス: Link先を確認
Ulrike Barthelme{\ss}, Ulrich Furbach(参考訳) 本稿では,ai技術の現状について概説する。 次に、基本的な機械学習と知識処理技術を記述する。 これに基づいて、将来のAI開発の可能性と限界について議論する。

This paper outlines the state of the art in AI. It then describes basic machine learning and knowledge processing techniques. Based on this, some possibilities and limitations of future AI developments are discussed.
翻訳日:2021-04-23 13:57:40 公開日:2021-04-21
# 深層学習時代の暗さを照らす

Lighting the Darkness in the Deep Learning Era ( http://arxiv.org/abs/2104.10729v1 )

ライセンス: Link先を確認
Chongyi Li and Chunle Guo and Linghao Han and Jun Jiang and Ming-Ming Cheng and Jinwei Gu and Chen Change Loy(参考訳) 低照度画像強調(LLIE)は、照明の弱い環境で撮影された画像の知覚や解釈性を改善することを目的としている。 この領域の最近の進歩は、多くの学習戦略、ネットワーク構造、損失関数、トレーニングデータなど、ディープラーニングベースのソリューションに支配されている。 雇用されています 本稿では,アルゴリズム分類から未解決の未解決問題まで,様々な側面をカバーする包括的な調査を行う。 既存の方法の一般化を検討するため,多彩な照明条件下で異なる携帯電話のカメラで映像や映像を撮影する大規模低照度画像・映像データセットを提案する。 さらに、私たちは初めて、多くの人気のあるllieメソッドをカバーする統一オンラインプラットフォームを提供し、その結果はユーザーフレンドリーなwebインターフェースを通じて作成できます。 公開および提案するデータセットにおける既存手法の質的・定量的評価に加えて,暗闇における顔検出における性能の検証を行った。 本調査は,提案したデータセットおよびオンラインプラットフォームとともに,今後の研究の参考資料として機能し,研究分野の発展を促進する。 提案されているプラットフォームと収集されたメソッド、データセット、評価メトリクスは、https://github.com/L i-Chongyi/Lighting-t he-Darkness-in-the-D eep-Learning-Era-Ope nで定期的に更新される。 低照度画像とビデオデータセットをリリースします。

Low-light image enhancement (LLIE) aims at improving the perception or interpretability of an image captured in an environment with poor illumination. Recent advances in this area are dominated by deep learning-based solutions, where many learning strategies, network structures, loss functions, training data, etc. have been employed. In this paper, we provide a comprehensive survey to cover various aspects ranging from algorithm taxonomy to unsolved open issues. To examine the generalization of existing methods, we propose a large-scale low-light image and video dataset, in which the images and videos are taken by different mobile phones' cameras under diverse illumination conditions. Besides, for the first time, we provide a unified online platform that covers many popular LLIE methods, of which the results can be produced through a user-friendly web interface. In addition to qualitative and quantitative evaluation of existing methods on publicly available and our proposed datasets, we also validate their performance in face detection in the dark. This survey together with the proposed dataset and online platform could serve as a reference source for future study and promote the development of this research field. The proposed platform and the collected methods, datasets, and evaluation metrics are publicly available and will be regularly updated at https://github.com/L i-Chongyi/Lighting-t he-Darkness-in-the-D eep-Learning-Era-Ope n. We will release our low-light image and video dataset.
翻訳日:2021-04-23 13:57:37 公開日:2021-04-21
# BEVDetNet:Bird's Eye View LiDAR Point Cloudによる自律走行のためのリアルタイム3Dオブジェクト検出

BEVDetNet: Bird's Eye View LiDAR Point Cloud based Real-time 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2104.10780v1 )

ライセンス: Link先を確認
Sambit Mohapatra, Senthil Yogamani, Heinrich Gotzig, Stefan Milz and Patrick Mader(参考訳) LiDARベースの3Dオブジェクト検出は、特に長距離センシングにおいて、自律走行において重要なモジュールである。 研究の大部分は高い精度を達成することに集中しており、これらのモデルはレイテンシと電力効率の観点から、組み込みシステムへのデプロイに最適化されていない。 高速運転シナリオでは、危険な状況に対処する時間を増やすため、レイテンシが重要なパラメータである。 一般に、voxelまたはpoint-cloudベースの3d畳み込みアプローチがこのモジュールに利用される。 まず、効率的な並列化には適さないため、組み込みプラットフォームでは非効率である。 第2に、安全システムに必要な決定論に反する、シーンのスパーシティのレベルに起因する可変ランタイムがある。 本研究では,固定ランタイムを用いた低レイテンシアルゴリズムの開発を目指す。 本稿では,単純なバードズ・アイ・ビュー(bev)2次元表現において,キーポイント,ボックス予測,方位予測を用いた物体中心検出のための単一統一モデルとして,新しい意味セグメンテーションアーキテクチャを提案する。 提案されたアーキテクチャは、追加の計算なしで road のようなセマンティックセグメンテーションクラスを含むように自明に拡張することができる。 提案モデルは、組込みnvidia xavierプラットフォーム上で4msのレイテンシを持つ。 モデルは、KITTIデータセット上のIoU=0.5における平均精度2%の最小精度で、他のトップ精度モデルよりも5倍高速である。

LiDAR based 3D object detection is a crucial module in autonomous driving particularly for long range sensing. Most of the research is focused on achieving higher accuracy and these models are not optimized for deployment on embedded systems from the perspective of latency and power efficiency. For high speed driving scenarios, latency is a crucial parameter as it provides more time to react to dangerous situations. Typically a voxel or point-cloud based 3D convolution approach is utilized for this module. Firstly, they are inefficient on embedded platforms as they are not suitable for efficient parallelization. Secondly, they have a variable runtime due to level of sparsity of the scene which is against the determinism needed in a safety system. In this work, we aim to develop a very low latency algorithm with fixed runtime. We propose a novel semantic segmentation architecture as a single unified model for object center detection using key points, box predictions and orientation prediction using binned classification in a simpler Bird's Eye View (BEV) 2D representation. The proposed architecture can be trivially extended to include semantic segmentation classes like road without any additional computation. The proposed model has a latency of 4 ms on the embedded Nvidia Xavier platform. The model is 5X faster than other top accuracy models with a minimal accuracy degradation of 2% in Average Precision at IoU=0.5 on KITTI dataset.
翻訳日:2021-04-23 13:57:12 公開日:2021-04-21
# ML強化IDSのステルスアドバーナリーに対するロバスト性

Robustness of ML-Enhanced IDS to Stealthy Adversaries ( http://arxiv.org/abs/2104.10742v1 )

ライセンス: Link先を確認
Vance Wong and John Emanuello(参考訳) 機械学習(ML)により強化された侵入検知システム(IDS)は、従来のルールベースのIDSよりも高い精度でサイバー脅威の活動を検出するために、「正常」なサイバー行動のプロトタイプを効率的に構築する能力を示した。 これらは主にブラックボックスであるため、敵を盗むためには頑丈さの証明が必要である。 悪意のあるサイバー攻撃者の行動からベースラインを構築することは不可能である(制御された実験とは別に)ため、デプロイされたモデルのトレーニングデータは、アナリストが警告したいアクティビティの例で汚染される。 本研究は,ネットワーク活動に対する各種の有害な活動が混入したオートエンコーダによる異常検出システムを訓練し,この種の中毒に対して堅牢であることを示す。

Intrusion Detection Systems (IDS) enhanced with Machine Learning (ML) have demonstrated the capacity to efficiently build a prototype of "normal" cyber behaviors in order to detect cyber threats' activity with greater accuracy than traditional rule-based IDS. Because these are largely black boxes, their acceptance requires proof of robustness to stealthy adversaries. Since it is impossible to build a baseline from activity completely clean of that of malicious cyber actors (outside of controlled experiments), the training data for deployed models will be poisoned with examples of activity that analysts would want to be alerted about. We train an autoencoder-based anomaly detection system on network activity with various proportions of malicious activity mixed in and demonstrate that they are robust to this sort of poisoning.
翻訳日:2021-04-23 13:48:25 公開日:2021-04-21
# アクセント付き音声認識:調査

Accented Speech Recognition: A Survey ( http://arxiv.org/abs/2104.10747v1 )

ライセンス: Link先を確認
Arthur Hinsvark (1), Natalie Delworth (1), Miguel Del Rio (1), Quinten McNamara (1), Joshua Dong (1), Ryan Westerman (1), Michelle Huang (1), Joseph Palakapilly (1), Jennifer Drexler (1), Ilya Pirkin (1), Nishchal Bhandari (1), Miguel Jette (1) ((1) Rev.com)(参考訳) 自動音声認識(asr)システムはアクセント付き音声にあまり依存しない。 アクセントの音声的および言語的変動は、今日のデータ収集とモデリング戦略において、ASRシステムにとって難しい課題である。 その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。 本稿では,アクセント付き音声認識における現在有望なアプローチに関する調査を行い,この分野の重要な課題を浮き彫りにする。 アプローチは主にシングルモデル一般化とアクセント機能エンジニアリングに重点を置いている。 標準ベンチマークの欠如は、研究と比較を特に困難にしている。

Automatic Speech Recognition (ASR) systems generalize poorly on accented speech. The phonetic and linguistic variability of accents present hard challenges for ASR systems today in both data collection and modeling strategies. The resulting bias in ASR performance across accents comes at a cost to both users and providers of ASR. We present a survey of current promising approaches to accented speech recognition and highlight the key challenges in the space. Approaches mostly focus on single model generalization and accent feature engineering. Among the challenges, lack of a standard benchmark makes research and comparison especially difficult.
翻訳日:2021-04-23 13:48:02 公開日:2021-04-21
# Sparse Regularized Deep Networks を用いたマルチクラスマイクロCT画像分割

Multi-Class Micro-CT Image Segmentation Using Sparse Regularized Deep Networks ( http://arxiv.org/abs/2104.10705v1 )

ライセンス: Link先を確認
Amirsaeed Yazdani, Yung-Chen Sun, Nicholas B. Stephens, Timothy Ryan, Vishal Monga(参考訳) 人類学や古生物学では、マイクロCTスキャンで観察できる骨学的特徴の定量化を通じて、現存種と絶滅種に関する疑問に対処することが一般的である。 遺体が埋められた場合、これらのスキャンに存在する灰色値は空気、土または骨に属するものと分類される。 これらのクラスにスキャンを分割するために様々な強度に基づく方法が提案されているが、しばしば土と骨の強度値はほとんど区別できない。 これらの例では、科学者は、大量のスキャン分析を行う際に、実際にうまくスケールしない、精巧な手作業のセグメンテーションに頼っている。 本稿では,手作業で骨や土を区切ることに慣れた専門家のドメイン知識を活用した,三段階画像区切りのための新たなドメインエンリッチネットワークを提案する。 より正確には, 新たな構造は, 1) 識別骨と汚れの特徴を抽出する, 新しく設計されたカスタム・ロス・ワードに基づく特別なサンプルに基づいて訓練された表現ネットワーク, 2) 抽出した識別特徴を利用するセグメンテーションネットワークである。 これら2つの部品は、セグメンテーション性能を最適化するために共同で訓練されている。 私たちのネットワークと現在の最先端のu-netの比較は、特にラベル付きトレーニング画像数が限られている場合、特にマイクロctセグメンテーションの場合、提案の利点を示しています。

It is common in anthropology and paleontology to address questions about extant and extinct species through the quantification of osteological features observable in micro-computed tomographic (micro-CT) scans. In cases where remains were buried, the grey values present in these scans may be classified as belonging to air, dirt, or bone. While various intensity-based methods have been proposed to segment scans into these classes, it is often the case that intensity values for dirt and bone are nearly indistinguishable. In these instances, scientists resort to laborious manual segmentation, which does not scale well in practice when a large number of scans are to be analyzed. Here we present a new domain-enriched network for three-class image segmentation, which utilizes the domain knowledge of experts familiar with manually segmenting bone and dirt structures. More precisely, our novel structure consists of two components: 1) a representation network trained on special samples based on newly designed custom loss terms, which extracts discriminative bone and dirt features, 2) and a segmentation network that leverages these extracted discriminative features. These two parts are jointly trained in order to optimize the segmentation performance. A comparison of our network to that of the current state-of-the-art U-NETs demonstrates the benefits of our proposal, particularly when the number of labeled training images are limited, which is invariably the case for micro-CT segmentation.
翻訳日:2021-04-23 13:47:18 公開日:2021-04-21
# MVFuseNet:LiDARデータの多視点融合によるエンドツーエンド物体検出とモーション予測の改善

MVFuseNet: Improving End-to-End Object Detection and Motion Forecasting through Multi-View Fusion of LiDAR Data ( http://arxiv.org/abs/2104.10772v1 )

ライセンス: Link先を確認
Ankit Laddha, Shivam Gautam, Stefan Palombo, Shreyash Pandey, Carlos Vallespi-Gonzalez(参考訳) 本稿では,LiDARデータの時間的シーケンスからオブジェクトの検出と動きの予測を行う,新しいエンドツーエンド手法である「textit{MVFuseNet}」を提案する。 既存のほとんどの方法は、レンジビュー (RV) またはバードアイビュー (BEV) にデータを投影することで単一のビューで操作する。 対照的に、RVとBEVの両方を時間的融合ネットワークの一部として時空間特徴学習と、バックボーンネットワークにおけるマルチスケール特徴学習に有効活用する手法を提案する。 さらに、時間融合ネットワークにおける複数のビューを効果的に活用する新しい逐次融合手法を提案する。 本稿では,2つの大規模自動運転データセットにおける検出と動き予測のタスクに対する多視点的アプローチの利点を示す。 さらに,MVFusenetはリアルタイム性能を維持しながら,大規模な動作範囲に拡張可能であることを示す。

In this work, we propose \textit{MVFuseNet}, a novel end-to-end method for joint object detection and motion forecasting from a temporal sequence of LiDAR data. Most existing methods operate in a single view by projecting data in either range view (RV) or bird's eye view (BEV). In contrast, we propose a method that effectively utilizes both RV and BEV for spatio-temporal feature learning as part of a temporal fusion network as well as for multi-scale feature learning in the backbone network. Further, we propose a novel sequential fusion approach that effectively utilizes multiple views in the temporal fusion network. We show the benefits of our multi-view approach for the tasks of detection and motion forecasting on two large-scale self-driving data sets, achieving state-of-the-art results. Furthermore, we show that MVFusenet scales well to large operating ranges while maintaining real-time performance.
翻訳日:2021-04-23 13:46:54 公開日:2021-04-21
# NTIRE 2021 圧縮ビデオの品質向上への挑戦:方法と結果

NTIRE 2021 Challenge on Quality Enhancement of Compressed Video: Methods and Results ( http://arxiv.org/abs/2104.10781v1 )

ライセンス: Link先を確認
Ren Yang, Radu Timofte, Jing Liu, Yi Xu, Xinjian Zhang, Minyi Zhao, Shuigeng Zhou, Kelvin C.K. Chan, Shangchen Zhou, Xiangyu Xu, Chen Change Loy, Xin Li, Fanglong Liu, He Zheng, Lielin Jiang, Qi Zhang, Dongliang He, Fu Li, Qingqing Dang, Yibin Huang, Matteo Maggioni, Zhognqian Fu, Shuai Xiao, Cheng li, Thomas Tanay, Fenglong Song, Wentao Chao, Qiang Guo, Yan Liu, Jiang Li, Xiaochao Qu, Dewang Hou, Jiayu Yang, Lyn Jiang, Di You, Zhenyu Zhang, Chong Mou, Iaroslav Koshelev, Pavel Ostyakov, Andrey Somov, Jia Hao, Xueyi Zou, Shijie Zhao, Xiaopeng Sun, Yiting Liao, Yuanzhi Zhang, Qing Wang, Gen Zhan, Mengxi Guo, Junlin Li, Ming Lu, Zhan Ma, Pablo Navarrete Michelini, Hai Wang, Yiyun Chen, Jingyu Guo, Liliang Zhang, Wenming Yang, Sijung Kim, Syehoon Oh, Yucong Wang, Minjie Cai, Wei Hao, Kangdi Shi, Liangyan Li, Jun Chen, Wei Gao, Wang Liu, Xiaoyu Zhang, Linjie Zhou, Sixin Lin, Ru Wang(参考訳) 本稿では,圧縮ビデオの品質向上に関する最初のNTIRE課題を,提案手法と結果に焦点をあててレビューする。 この課題では、新しいLarge-scale Diverse Video(LDV)データセットが採用されている。 挑戦には3つのトラックがあります。 トラック1,2はHEVCが圧縮した映像を一定QPで向上することを目的としており、トラック3はx265で圧縮した映像を一定ビットレートで強化するように設計されている。 また、トラック1,3の品質向上は、忠実度(psnr)向上を目標とし、トラック2は知覚品質向上を目標とする。 3つのトラックは482の登録者を集めている。 テストフェーズでは、12のチーム、8のチーム、11のチームがそれぞれトラック1、2、3の最終結果を提出しました。 提案手法と解決策は,映像品質向上の現状を評価する。 チャレンジのホームページ:https://github.com/ RenYang-home/NTIRE21 _VEnh

This paper reviews the first NTIRE challenge on quality enhancement of compressed video, with focus on proposed solutions and results. In this challenge, the new Large-scale Diverse Video (LDV) dataset is employed. The challenge has three tracks. Tracks 1 and 2 aim at enhancing the videos compressed by HEVC at a fixed QP, while Track 3 is designed for enhancing the videos compressed by x265 at a fixed bit-rate. Besides, the quality enhancement of Tracks 1 and 3 targets at improving the fidelity (PSNR), and Track 2 targets at enhancing the perceptual quality. The three tracks totally attract 482 registrations. In the test phase, 12 teams, 8 teams and 11 teams submitted the final results of Tracks 1, 2 and 3, respectively. The proposed methods and solutions gauge the state-of-the-art of video quality enhancement. The homepage of the challenge: https://github.com/R enYang-home/NTIRE21_ VEnh
翻訳日:2021-04-23 13:46:37 公開日:2021-04-21
# NTIRE 2021 圧縮ビデオの品質向上への挑戦:データセットと研究

NTIRE 2021 Challenge on Quality Enhancement of Compressed Video: Dataset and Study ( http://arxiv.org/abs/2104.10782v1 )

ライセンス: Link先を確認
Ren Yang and Radu Timofte(参考訳) 本稿では,圧縮映像の品質向上に関するntire 2021チャレンジにおいて,映像エンハンスメントのための新しいデータセットを提案する。 この課題は、この方面で最初のntireチャレンジであり、3つのコンペティション、数百人の参加者、数十のソリューションが提案された。 この課題には,新たに収集した大規模ディバースビデオ(LDV)データセットが使用されている。 本研究では,提案するLDVデータセットを用いて,過去の文献から課題の解決といくつかの代表的手法について分析した。 NTIRE 2021の課題は圧縮ビデオの品質向上の最先端技術であることがわかった。 提案されたLDVデータセットは、チャレンジのホームページで公開されている。

This paper introduces a novel dataset for video enhancement and studies the state-of-the-art methods of the NTIRE 2021 challenge on quality enhancement of compressed video. The challenge is the first NTIRE challenge in this direction, with three competitions, hundreds of participants and tens of proposed solutions. Our newly collected Large-scale Diverse Video (LDV) dataset is employed in the challenge. In our study, we analyze the solutions of the challenges and several representative methods from previous literature on the proposed LDV dataset. We find that the NTIRE 2021 challenge advances the state-of-the-art of quality enhancement on compressed video. The proposed LDV dataset is publicly available at the homepage of the challenge: https://github.com/R enYang-home/NTIRE21_ VEnh
翻訳日:2021-04-23 13:46:22 公開日:2021-04-21
# 3次元物体検出のための2次元データ拡張の検討

Exploring 2D Data Augmentation for 3D Monocular Object Detection ( http://arxiv.org/abs/2104.10786v1 )

ライセンス: Link先を確認
Sugirtha T, Sridevi M, Khailash Santhakumar, B Ravi Kiran, Thomas Gauthier and Senthil Yogamani(参考訳) データ拡張は、オブジェクト検出のようなCNNベースの画像認識タスクの重要なコンポーネントである。 しかし,3次元物体検出では比較的少ない。 多くの標準的な2Dオブジェクト検出データ拡張技術は3Dボックスに拡張されない。 3次元物体検出のためのこれらのデータ拡張の拡張は、入力シーンの3次元形状の適応と新しい視点の合成を必要とする。 これは、常に利用できないシーンの正確な深度情報を必要とする。 本稿では,既存の2次元データ拡張の評価を行い,新しいビュー合成を必要とせず,単眼3次元検出のための2つの新しい拡張法を提案する。 まず,rtm3d検出モデルの強化について,学習時間の短縮から評価する。 自動車の3D AP(IoU=0.7)では、KITTI車検出データセットのベースラインよりも、歩行者とサイクリストの3D AP(IoU=0.25)が1.8%向上した。 また,KITTI検証データセットのクラス不均衡を考慮した重み付けにより,mAPスコアの厳密な評価を行う。

Data augmentation is a key component of CNN based image recognition tasks like object detection. However, it is relatively less explored for 3D object detection. Many standard 2D object detection data augmentation techniques do not extend to 3D box. Extension of these data augmentations for 3D object detection requires adaptation of the 3D geometry of the input scene and synthesis of new viewpoints. This requires accurate depth information of the scene which may not be always available. In this paper, we evaluate existing 2D data augmentations and propose two novel augmentations for monocular 3D detection without a requirement for novel view synthesis. We evaluate these augmentations on the RTM3D detection model firstly due to the shorter training times . We obtain a consistent improvement by 4% in the 3D AP (@IoU=0.7) for cars, ~1.8% scores 3D AP (@IoU=0.25) for pedestrians & cyclists, over the baseline on KITTI car detection dataset. We also demonstrate a rigorous evaluation of the mAP scores by re-weighting them to take into account the class imbalance in the KITTI validation dataset.
翻訳日:2021-04-23 13:46:11 公開日:2021-04-21
# GNN推論のためのキャッシュファーストエッジサンプリングによるSpMMカーネルの高速化

Accelerating SpMM Kernel with Cache-First Edge Sampling for GNN Inference ( http://arxiv.org/abs/2104.10716v1 )

ライセンス: Link先を確認
Chien-Yu Lin, Liang Luo, Luis Ceze(参考訳) 深層学習モデルクラスであるグラフニューラルネットワーク(GNN)は、高度に表現力のあるグラフ構造化データから意味のある表現を抽出できるため、広範囲のアプリケーションで人気を集めている。 しかし、現在のGNNは、強力なGPUを使用してもスパースセンス行列乗算(SpMM)演算子の性能が劣っている。 我々の分析によると、NVIDIAの高度なV100 GPU上で人気のあるGNNモデルを実行する場合、推測時間の95%がSpMMに費やされる可能性がある。 このようなSpMM性能ボトルネックは、大規模問題へのGNNの適用性やより洗練されたGNNモデルの開発を妨げる。 この推定時間ボトルネックに対処するために,キャッシュファーストエッジサンプリング機構と符号付きSpMMカーネルであるES-SpMMを導入する。 ES-SpMMはエッジサンプリングを使用してグラフを縮小し、GPUの共有メモリに適合させる。 これにより計算コストが削減され、SpMMのキャッシュローカリティが向上する。 ES-SpMMの性能を評価するため、人気のあるGNNフレームワークであるDGLと統合し、代表的GNNモデルとデータセットを用いてテストした。 その結果、ES-SpMMは、高度に最適化されたcuSPARSE SpMMカーネルを4.35倍、精度損失は45.3倍、精度損失は1%以下であることがわかった。

Graph neural networks (GNNs), an emerging deep learning model class, can extract meaningful representations from highly expressive graph-structured data and are therefore gaining popularity for wider ranges of applications. However, current GNNs suffer from the poor performance of their sparse-dense matrix multiplication (SpMM) operator, even when using powerful GPUs. Our analysis shows that 95% of the inference time could be spent on SpMM when running popular GNN models on NVIDIA's advanced V100 GPU. Such SpMM performance bottleneck hinders GNNs' applicability to large-scale problems or the development of more sophisticated GNN models. To address this inference time bottleneck, we introduce ES-SpMM, a cache-first edge sampling mechanism and codesigned SpMM kernel. ES-SpMM uses edge sampling to downsize the graph to fit into GPU's shared memory. It thus reduces the computation cost and improves SpMM's cache locality. To evaluate ES-SpMM's performance, we integrated it with a popular GNN framework, DGL, and tested it using representative GNN models and datasets. Our results show that ES-SpMM outperforms the highly optimized cuSPARSE SpMM kernel by up to 4.35x with no accuracy loss and by 45.3x with less than a 1% accuracy loss.
翻訳日:2021-04-23 13:44:00 公開日:2021-04-21
# 連続時系列の解析・編集・合成のための混合モデル

Mixture Models for the Analysis, Edition, and Synthesis of Continuous Time Series ( http://arxiv.org/abs/2104.10731v1 )

ライセンス: Link先を確認
Sylvain Calinon(参考訳) 本章では, 時系列の分析, 編集, 合成に使用される技術の概要について概説する。 混合モデルを用いることで、時間信号の分解を基底関数の重ね合わせとして行うことができる。 信号の本質的な特性を維持することを目的としたコンパクトな表現を提供する。 様々な基礎関数が提案されており、コンピュータグラフィックス、人間の運動科学、ロボティクス、制御、神経科学など様々な研究分野から発展した。 ラジアル、ベルンシュタイン、フーリエの基底関数を持つアプリケーションの例は、これらのテクニックに慣れたソースコードと共に提示される。

This chapter presents an overview of techniques used for the analysis, edition, and synthesis of time series, with a particular emphasis on motion data. The use of mixture models allows the decomposition of time signals as a superposition of basis functions. It provides a compact representation that aims at keeping the essential characteristics of the signals. Various types of basis functions have been proposed, with developments originating from different fields of research, including computer graphics, human motion science, robotics, control, and neuroscience. Examples of applications with radial, Bernstein and Fourier basis functions will be presented, with associated source codes to get familiar with these techniques.
翻訳日:2021-04-23 13:43:37 公開日:2021-04-21
# AdaptiFont: 生成フォントモデルとベイズ最適化による個人の読書速度の向上

AdaptiFont: Increasing Individuals' Reading Speed with a Generative Font Model and Bayesian Optimization ( http://arxiv.org/abs/2104.10741v1 )

ライセンス: Link先を確認
Florian Kadner, Yannik Keller and Constantin A. Rothkopf(参考訳) デジタルテキストは知識を交換する主要な方法の1つになっているが、テキストをスクリーンにレンダリングして読む必要がある。 本稿では,モニタに表示されたテキストの可読性をインタラクティブに向上することを目的とした,ループ内人間システムAdaptiFontを提案する。 この目的のために,古典フォントの集合から非負行列分解をもつ生成フォント空間を学習する。 この領域では、アクティブラーニングを通じて新しい真型フォントを生成し、新しいフォントでテキストをレンダリングし、個々のユーザの読書速度を測定する。 ベイズ最適化は、個人の読み出し速度を徐々に向上させるために、フライ時に新しいフォントを順次生成する。 ユーザ調査の結果,この適応フォント生成システムは,高い読解速度に対応するフォント空間の領域を見出し,これらのフォントが参加者の読解速度を大幅に増加させ,各読者間でフォントが著しく異なることがわかった。

Digital text has become one of the primary ways of exchanging knowledge, but text needs to be rendered to a screen to be read. We present AdaptiFont, a human-in-the-loop system that is aimed at interactively increasing readability of text displayed on a monitor. To this end, we first learn a generative font space with non-negative matrix factorization from a set of classic fonts. In this space we generate new true-type-fonts through active learning, render texts with the new font, and measure individual users' reading speed. Bayesian optimization sequentially generates new fonts on the fly to progressively increase individuals' reading speed. The results of a user study show that this adaptive font generation system finds regions in the font space corresponding to high reading speeds, that these fonts significantly increase participants' reading speed, and that the found fonts are significantly different across individual readers.
翻訳日:2021-04-23 13:43:26 公開日:2021-04-21
# Aedes-AI: モスキート分布のニューラルネットワークモデル

Aedes-AI: Neural Network Models of Mosquito Abundance ( http://arxiv.org/abs/2104.10771v1 )

ライセンス: Link先を確認
Adrienne C. Kinney, Sean Current, Joceline Lega(参考訳) 人工ニューラルネットワークは,蚊数の力学モデルに取って代わることが可能である。 本研究では,フィードフォワードニューラルネットワーク,長期記憶リカレントニューラルネットワーク,ゲート再カレントユニットネットワークを開発した。 本研究では,蚊集団の時空間的特徴を機械モデルで再現するネットワークの評価を行い,実時間と人工時間の両方でトレーニングデータの強化がモデル性能に与える影響を考察した。 このような方程式のないモデルが,任意の空間スケールでのベクトル制御や病気リスクの推定をいかに促進するか,という視点で結論付ける。

We present artificial neural networks as a feasible replacement for a mechanistic model of mosquito abundance. We develop a feed-forward neural network, a long short-term memory recurrent neural network, and a gated recurrent unit network. We evaluate the networks in their ability to replicate the spatiotemporal features of mosquito populations predicted by the mechanistic model, and discuss how augmenting the training data with both actual and artificially created time series affects model performance. We conclude with an outlook on how such equation-free models may facilitate vector control or the estimation of disease risk at arbitrary spatial scales.
翻訳日:2021-04-23 13:43:10 公開日:2021-04-21
# マニピュレーションアタック時のロバスト試験と推定

Robust Testing and Estimation under Manipulation Attacks ( http://arxiv.org/abs/2104.10740v1 )

ライセンス: Link先を確認
Jayadev Acharya, Ziteng Sun, Huanyu Zhang(参考訳) 強い汚染モデルにおける離散分布のロバストな試験と推定について検討した。 我々は、コミュニケーションやローカルプライバシ(LDP)の制約を含む「情報制約付き分散設定」と「情報制約付き分散設定」の両方を考慮する。 本手法は,ユーザからのメッセージ(サンプル)間の距離としてハミング距離を用いた土間距離に対する操作攻撃の強さに関するものである。 集中的な設定では、学習とテストの両方に最適なエラー境界を提供する。 ローカル情報制約下の下限は、分散推論の最近の下限メソッドに基づいている。 通信制約設定において、ランダムハッシュと$\ell_1/\ell_1$等尺に基づく新しいアルゴリズムを開発する。

We study robust testing and estimation of discrete distributions in the strong contamination model. We consider both the "centralized setting" and the "distributed setting with information constraints" including communication and local privacy (LDP) constraints. Our technique relates the strength of manipulation attacks to the earth-mover distance using Hamming distance as the metric between messages(samples) from the users. In the centralized setting, we provide optimal error bounds for both learning and testing. Our lower bounds under local information constraints build on the recent lower bound methods in distributed inference. In the communication constrained setting, we develop novel algorithms based on random hashing and an $\ell_1/\ell_1$ isometry.
翻訳日:2021-04-23 13:40:38 公開日:2021-04-21
# (参考訳) 対話応答生成における因果共通感覚の探索

Probing Causal Common Sense in Dialogue Response Generation ( http://arxiv.org/abs/2104.09574v2 )

ライセンス: CC BY 4.0
Pei Zhou, Pegah Jandaghi, Bill Yuchen Lin, Justin Cho, Jay Pujara, Xiang Ren(参考訳) コミュニケーションは、参加者間の相互理解に到達する必要がある共同作業である。 人間は暗黙的に常識推論を使用して自然で論理的に一貫性のある反応を生成する。 流動型人間-AIコミュニケーションに向けたステップとして,RGモデルが人間の推論過程をエミュレートし,共通感覚を用いて高品質な応答を生成するかを検討する。 会話のコモンセンスの形式化と、コモンセンスを利用するRGモデル能力の検証という2つの研究課題に取り組むことを目指している。 まず, 対話応答生成における因果的共通sEnseを, 応答に繋がる可能性のある文的説明として, 共通感覚を増進し, モデル損失と無効な説明とを比較してRGモデルの振る舞いを評価する。 そして、このような説明を自動的に生成し、人間に検証を依頼するプロセスを導入する。 最後に、検証された説明を用いた2つの推論機能を対象としたRGモデルの2つの探索設定を設計する。 RGモデルは、説明の論理的妥当性を決定するのに苦労するが、説明の文法的自然性を容易に特定できる。

Communication is a cooperative effort that requires reaching mutual understanding among the participants. Humans use commonsense reasoning implicitly to produce natural and logically-coherent responses. As a step towards fluid human-AI communication, we study if response generation (RG) models can emulate human reasoning process and use common sense to help produce better-quality responses. We aim to tackle two research questions: how to formalize conversational common sense and how to examine RG models capability to use common sense? We first propose a task, CEDAR: Causal common sEnse in DiAlogue Response generation, that concretizes common sense as textual explanations for what might lead to the response and evaluates RG models behavior by comparing the modeling loss given a valid explanation with an invalid one. Then we introduce a process that automatically generates such explanations and ask humans to verify them. Finally, we design two probing settings for RG models targeting two reasoning capabilities using verified explanations. We find that RG models have a hard time determining the logical validity of explanations but can identify grammatical naturalness of the explanation easily.
翻訳日:2021-04-23 11:55:44 公開日:2021-04-21
# (参考訳) 画像特徴検出のためのソフト期待と深部最大化 [全文訳有]

Soft Expectation and Deep Maximization for Image Feature Detection ( http://arxiv.org/abs/2104.10291v1 )

ライセンス: CC BY 4.0
Alexander Mai, Allen Yang, Dominique E. Meyer(参考訳) 多くの多視点幾何アルゴリズムの応用の中心は、複数の視点間のマッチング点の抽出であり、カメラポーズ推定や3D再構成のような古典的なタスクを可能にする。 これらの点を特徴付ける多くのアプローチが、ハンドチューニングされた外観モデルとより最近のデータ駆動学習法に基づいて提案されている。 質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。 本手法は,3次元点を位置決めする検出器の可能性が最大化の目的関数である予測最大化(EM)の1つである。 シーンの幾何学を用いて,これらの3次元点の位置推定を洗練し,期待ステップ中に新たな擬似基底真理を生成し,その擬似基底真理を最大化ステップで予測するために検出器を訓練する。 我々は,視覚的局所化,スパース3次元再構成,平均マッチング精度の標準ベンチマークに検出器を適用した。 以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内に存在する3dポイントのローカライズが向上し,スーパーポイントと比較して平均sfm品質が-0.15\pm0.11$,r2d2と比較して-0.38\pm0.23$であった。

Central to the application of many multi-view geometry algorithms is the extraction of matching points between multiple viewpoints, enabling classical tasks such as camera pose estimation and 3D reconstruction. Over the decades, many approaches that characterize these points have been proposed based on hand-tuned appearance models and more recently data-driven learning methods. We propose SEDM, an iterative semi-supervised learning process that flips the question and first looks for repeatable 3D points, then trains a detector to localize them in image space. Our technique poses the problem as one of expectation maximization (EM), where the likelihood of the detector locating the 3D points is the objective function to be maximized. We utilize the geometry of the scene to refine the estimates of the location of these 3D points and produce a new pseudo ground truth during the expectation step, then train a detector to predict this pseudo ground truth in the maximization step. We apply our detector to standard benchmarks in visual localization, sparse 3D reconstruction, and mean matching accuracy. Our results show that this new model trained using SEDM is able to better localize the underlying 3D points in a scene, improving mean SfM quality by $-0.15\pm0.11$ mean reprojection error when compared to SuperPoint or $-0.38\pm0.23$ when compared to R2D2.
翻訳日:2021-04-23 00:37:13 公開日:2021-04-21
# (参考訳) 階層的リーマン追従を用いた効率的なスパース符号化 [全文訳有]

Efficient Sparse Coding using Hierarchical Riemannian Pursuit ( http://arxiv.org/abs/2104.10314v1 )

ライセンス: CC BY 4.0
Ye Xue, Vincent Lau, and Songfu Cai(参考訳) スパースコーディング(英: Sparse coding)とは、辞書とスパースコードの線形結合という形で入力データのスパース表現を学習する教師なしの手法のクラスである。 この学習フレームワークは、様々な画像およびビデオ処理タスクにおいて最先端の結果をもたらす。 しかし、古典的な手法は、他の最適化に基づいて辞書とスパースコードを学習し、通常は問題の非凸性による最適性または収束性の理論的保証がない。 完全辞書を用いたスパース符号化に関する最近の研究は、非凸最適化の開発により、強力な理論的保証を提供する。 しかし、初期の非凸アプローチは、原子単位の方法でスパース符号化問題において辞書を逐次学習し、長い実行時間をもたらす。 より最近の研究は、辞書全体を一度に学習し、実行時間を大幅に短縮しようとしている。 しかし、関連するリカバリ性能は、有限個のデータサンプルで劣化する。 本稿では,二段階最適化による効率的なスパース符号化方式を提案する。 提案手法は,2段階最適化問題の大域的および局所的なリーマン幾何学を応用し,原子単位の計算を行わない有限個の試料によるスーパーブ辞書復元性能の高速化を実現する。 さらに、高い確率で、提案手法は、辞書の1つの原子を復元するために適用された場合、ターゲット辞書の原子を有限個のサンプルで正確に回収できることを示す。 無線センサデータ圧縮に関するアプリケーションも提案している。 合成データと実世界のデータの両方を用いて,提案手法の有効性と有効性を検証する。

Sparse coding is a class of unsupervised methods for learning a sparse representation of the input data in the form of a linear combination of a dictionary and a sparse code. This learning framework has led to state-of-the-art results in various image and video processing tasks. However, classical methods learn the dictionary and the sparse code based on alternative optimizations, usually without theoretical guarantees for either optimality or convergence due to non-convexity of the problem. Recent works on sparse coding with a complete dictionary provide strong theoretical guarantees thanks to the development of the non-convex optimization. However, initial non-convex approaches learn the dictionary in the sparse coding problem sequentially in an atom-by-atom manner, which leads to a long execution time. More recent works seek to directly learn the entire dictionary at once, which substantially reduces the execution time. However, the associated recovery performance is degraded with a finite number of data samples. In this paper, we propose an efficient sparse coding scheme with a two-stage optimization. The proposed scheme leverages the global and local Riemannian geometry of the two-stage optimization problem and facilitates fast implementation for superb dictionary recovery performance by a finite number of samples without atom-by-atom calculation. We further prove that, with high probability, the proposed scheme can exactly recover any atom in the target dictionary with a finite number of samples if it is adopted to recover one atom of the dictionary. An application on wireless sensor data compression is also proposed. Experiments on both synthetic and real-world data verify the efficiency and effectiveness of the proposed scheme.
翻訳日:2021-04-23 00:21:39 公開日:2021-04-21
# (参考訳) キーワードを用いた多種多様な具体化質問生成 [全文訳有]

Diverse and Specific Clarification Question Generation with Keywords ( http://arxiv.org/abs/2104.10317v1 )

ライセンス: CC BY 4.0
Zhiling Zhang, Kenny Q. Zhu(参考訳) eコマースウェブサイトの製品説明は、しばしば重要な側面を欠いている。 CQGen(Clarification Question Generation)は、問題を緩和するための有望なアプローチである。 文脈における回答の存在を仮定し、それに応じて質問を生成する従来のQGenとは異なり、CQGenは未発表情報を求めるユーザの振る舞いを模倣する。 生成されたcqsは、電子商取引業者が商品を宣伝する前に欠落している情報を識別し、消費者体験を改善するために、健全性チェックまたは証明読み取りとして機能する。 ユーザ背景やユースケースが多種多様であるため、情報は極めて多様であるが、詳細なトピックにも特化できるが、以前の作業ではコンテキスト毎に1つのcqを生成し、その結果は汎用的になる傾向がある。 そこで我々は,Diverse CQGenの課題を提案し,特異性の課題に取り組む。 そこで本研究では,キーワード予測と条件付きCQを生成するKPCNetという新しいモデルを提案する。 2つのデータセット(Home & Kitchen, Office)の自動的および人的評価は、KPCNetがより具体的な質問を生成し、いくつかの競合するベースラインよりもグループレベルの多様性を促進することを示した。

Product descriptions on e-commerce websites often suffer from missing important aspects. Clarification question generation (CQGen) can be a promising approach to help alleviate the problem. Unlike traditional QGen assuming the existence of answers in the context and generating questions accordingly, CQGen mimics user behaviors of asking for unstated information. The generated CQs can serve as a sanity check or proofreading to help e-commerce merchant to identify potential missing information before advertising their product, and improve consumer experience consequently. Due to the variety of possible user backgrounds and use cases, the information need can be quite diverse but also specific to a detailed topic, while previous works assume generating one CQ per context and the results tend to be generic. We thus propose the task of Diverse CQGen and also tackle the challenge of specificity. We propose a new model named KPCNet, which generates CQs with Keyword Prediction and Conditioning, to deal with the tasks. Automatic and human evaluation on 2 datasets (Home & Kitchen, Office) showed that KPCNet can generate more specific questions and promote better group-level diversity than several competing baselines.
翻訳日:2021-04-22 23:51:19 公開日:2021-04-21
# (参考訳) Evidential Cyber Threat Hunting [全文訳有]

Evidential Cyber Threat Hunting ( http://arxiv.org/abs/2104.10319v1 )

ライセンス: CC BY 4.0
Frederico Araujo and Dhilung Kirat and Xiaokui Shu and Teryl Taylor and Jiyong Jang(参考訳) 脅威追跡プロセスを自動化するための正式なサイバー推論フレームワークについて述べる。 新たなサイバー推論手法は、脅威仮説と保護勧告の人間と機械の共創を可能にするために、3つのサブスペース(知識、仮説、行動)で機能するオペレーションセマンティクスを導入する。 本枠組みの実装は,本手法が実用的であり,エビデンスに基づく多基準脅威調査の一般化に有効であることを示す。

A formal cyber reasoning framework for automating the threat hunting process is described. The new cyber reasoning methodology introduces an operational semantics that operates over three subspaces -- knowledge, hypothesis, and action -- to enable human-machine co-creation of threat hypotheses and protective recommendations. An implementation of this framework shows that the approach is practical and can be used to generalize evidence-based multi-criteria threat investigations.
翻訳日:2021-04-22 23:32:09 公開日:2021-04-21
# (参考訳) ディープトランスフォーメーションとメトリック学習ネットワーク [全文訳有]

Deep Transform and Metric Learning Networks ( http://arxiv.org/abs/2104.10329v1 )

ライセンス: CC BY 4.0
Wen Tang, Emilie Chouzenoux, Jean-Christophe Pesquet, and Hamid Krim(参考訳) 辞書学習(DL)とそれに関連するスパース最適化の定式化は、推論とデノシングタスクにおける大きな成功に基づいて、多くの研究の関心を集めている。 ほとんどのソリューションは単層辞書に重点を置いているが、最近改良されたDeep DLメソッドもいくつかの問題で不足している。 そこで我々は,各DL層を1つの線形層とリカレントニューラルネットワークの組み合わせとして定式化して解き,RNNをレイヤ関連学習指標として柔軟に分解する,新しいDeep DLアプローチを提案する。 提案する研究は、ニューラルネットワークと深層dlの新たな洞察を明らかにし、ディープトランスフォーメーションとメトリクスを共同で学習するための、新しい、効率的で競争力のあるアプローチを提供します。 提案手法が既存の深層dlよりも優れるだけでなく,最先端の汎用畳み込みニューラルネットワークよりも優れていることを示すために,広範な実験を行った。

Based on its great successes in inference and denosing tasks, Dictionary Learning (DL) and its related sparse optimization formulations have garnered a lot of research interest. While most solutions have focused on single layer dictionaries, the recently improved Deep DL methods have also fallen short on a number of issues. We hence propose a novel Deep DL approach where each DL layer can be formulated and solved as a combination of one linear layer and a Recurrent Neural Network, where the RNN is flexibly regraded as a layer-associated learned metric. Our proposed work unveils new insights between the Neural Networks and Deep DL, and provides a novel, efficient and competitive approach to jointly learn the deep transforms and metrics. Extensive experiments are carried out to demonstrate that the proposed method can not only outperform existing Deep DL, but also state-of-the-art generic Convolutional Neural Networks.
翻訳日:2021-04-22 23:06:17 公開日:2021-04-21
# (参考訳) 点雲からの境界認識3次元物体検出 [全文訳有]

Boundary-Aware 3D Object Detection from Point Clouds ( http://arxiv.org/abs/2104.10330v1 )

ライセンス: CC BY 4.0
Rui Qian, Xin Lai, Xirong Li(参考訳) 現在、最先端の3Dオブジェクト検出器は2段階のパラダイムにある。 これらの手法は通常、2つのステップから構成される: 1) 地域提案ネットワークを利用して、ボトムアップ方式で少数の高品質な提案を提案する。 2)提案する領域から意味的特徴をリサイズ・プールし,RoI表現を要約してさらなる洗練を図る。 ステップ2におけるこれらのRoI-wise表現は、後続のヘッダーに入力されると、個別に非相関なエントリとみなされる。 それにもかかわらず、第1ステップによって生成されたこれらの提案は、何らかの理由で地平から外れ、基礎となる確率で局所的に現れる。 既存のネットワークが対応する情報補償機構を欠いている間に、コーディネートオフセットにより、提案が境界情報をほとんど禁ずる場合、課題が発生する。 本稿では,点雲からの3次元物体検出のためのBANetを提案する。 具体的には、従来のように各提案を独立に精製するのではなく、各提案を所定のカットオフしきい値内のグラフ構築のノードとして表現し、局所近傍グラフの形で提案を関連づけ、対象の境界相関を明示的に活用する。 そこで我々は,より情報的なRoI表現のための受容場を拡大し,ボクセルワイド,ピクセルワイド,ポイントワイドの機能をフル活用する,軽量な領域特徴集約ネットワークを考案した。 略称はApr。 2021年7月17日、我々のBANetはKITTIの3D検出リーダーボードで同等のパフォーマンスを達成し、KITTIのBEV検出リーダーボードで$Car$の難易度で$1^{st}$$のモデレートでランク付けした。 ソースコードは、論文が受け入れられたらリリースされます。

Currently, existing state-of-the-art 3D object detectors are in two-stage paradigm. These methods typically comprise two steps: 1) Utilize region proposal network to propose a fraction of high-quality proposals in a bottom-up fashion. 2) Resize and pool the semantic features from the proposed regions to summarize RoI-wise representations for further refinement. Note that these RoI-wise representations in step 2) are considered individually as an uncorrelated entry when fed to following detection headers. Nevertheless, we observe these proposals generated by step 1) offset from ground truth somehow, emerging in local neighborhood densely with an underlying probability. Challenges arise in the case where a proposal largely forsakes its boundary information due to coordinate offset while existing networks lack corresponding information compensation mechanism. In this paper, we propose BANet for 3D object detection from point clouds. Specifically, instead of refining each proposal independently as previous works do, we represent each proposal as a node for graph construction within a given cut-off threshold, associating proposals in the form of local neighborhood graph, with boundary correlations of an object being explicitly exploited. Besiedes, we devise a lightweight Region Feature Aggregation Network to fully exploit voxel-wise, pixel-wise, and point-wise feature with expanding receptive fields for more informative RoI-wise representations. As of Apr. 17th, 2021, our BANet achieves on par performance on KITTI 3D detection leaderboard and ranks $1^{st}$ on $Moderate$ difficulty of $Car$ category on KITTI BEV detection leaderboard. The source code will be released once the paper is accepted.
翻訳日:2021-04-22 22:55:00 公開日:2021-04-21
# (参考訳) CVLight:コネクテッドカーを用いた適応交通信号制御のための深層強化学習 [全文訳有]

CVLight: Deep Reinforcement Learning for Adaptive Traffic Signal Control with Connected Vehicles ( http://arxiv.org/abs/2104.10340v1 )

ライセンス: CC BY 4.0
Wangzhi Li, Yaxing Cai, Ujwal Dinesha, Yongjie Fu, Xuan Di(参考訳) 本稿では,接続車両(cv)からのみ収集されたデータを活用した適応型交通信号制御(atsc)のための強化学習(rl)方式「cvlight」を開発した。 7種類のRLモデルが提案され, CV遅延とグリーン光持続時間の導入, CV遅延を報酬として利用するなど, 様々な状態と報酬表現を含む。 さらにCVと非CVの情報をCVLightに組み込むため、アクタ批判に基づくアルゴリズムであるA2C-Fullを提案し、CV情報と非CV情報の両方を用いて批評家ネットワークをトレーニングし、CV情報のみがポリシーネットワークを更新し、最適な信号タイミングを実行する。 これらのモデルは、様々なCV市場浸透率の下で孤立した交差点で比較される。 最良性能のフルモデル(すなわち、車両毎の平均走行遅延)を選択して、異なるレベルのトラフィック要求、回転比率、動的トラフィック要求における最先端のベンチマークと比較する。 2つのケーススタディがニューヨーク州マンハッタンに3つの連続した交差点を持つ孤立した交差点と回廊で行われ、実世界のシナリオにおける提案アルゴリズムの有効性をさらに実証する。 全ての車両情報を利用する他のベースラインモデルと比較して、訓練されたCVLightエージェントはCVデータのみに基づいて複数の交差点を効率的に制御することができ、CV浸透率が20%以下である場合にも同様またはそれ以上の性能を達成することができる。

This paper develops a reinforcement learning (RL) scheme for adaptive traffic signal control (ATSC), called "CVLight", that leverages data collected only from connected vehicles (CV). Seven types of RL models are proposed within this scheme that contain various state and reward representations, including incorporation of CV delay and green light duration into state and the usage of CV delay as reward. To further incorporate information of both CV and non-CV into CVLight, an algorithm based on actor-critic, A2C-Full, is proposed where both CV and non-CV information is used to train the critic network, while only CV information is used to update the policy network and execute optimal signal timing. These models are compared at an isolated intersection under various CV market penetration rates. A full model with the best performance (i.e., minimum average travel delay per vehicle) is then selected and applied to compare with state-of-the-art benchmarks under different levels of traffic demands, turning proportions, and dynamic traffic demands, respectively. Two case studies are performed on an isolated intersection and a corridor with three consecutive intersections located in Manhattan, New York, to further demonstrate the effectiveness of the proposed algorithm under real-world scenarios. Compared to other baseline models that use all vehicle information, the trained CVLight agent can efficiently control multiple intersections solely based on CV data and can achieve a similar or even greater performance when the CV penetration rate is no less than 20%.
翻訳日:2021-04-22 22:36:42 公開日:2021-04-21
# (参考訳) スペクトルクラスタリングにより回復可能なネットワークモデルのクラス [全文訳有]

A class of network models recoverable by spectral clustering ( http://arxiv.org/abs/2104.10347v1 )

ライセンス: CC BY 4.0
Yali Wan and Marina Meila(参考訳) ネットワークでコミュニティを見つけることは、最近注目されているにもかかわらず、依然として難しい問題である。 確率ブロックモデル(sbm)は「コミュニティ」を持つグラフの生成モデルであり、その単純さから近年は理論的な理解が急速に進歩している。 特に、グラフの正規化ラプラシアンを用いたスペクトルクラスタリングの単純なバージョンは、高い確率でコミュニティをほぼ完全に回復できることを示す様々な結果が得られた。 ここでは、基本的にはSBMと、その拡張としてDegree-Corrected SBMで使用されるのと同じアルゴリズムが、より幅広い種類のブロックモデルで機能することを示す。 さらに,本手法を導入することで,このモデルのクラスを特定するのに必要な自由パラメータが明らかに示され,モデルクラスの回復エラーを制御するパラメータがより明確になる境界が明らかになる。

Finding communities in networks is a problem that remains difficult, in spite of the amount of attention it has recently received. The Stochastic Block-Model (SBM) is a generative model for graphs with "communities" for which, because of its simplicity, the theoretical understanding has advanced fast in recent years. In particular, there have been various results showing that simple versions of spectral clustering using the Normalized Laplacian of the graph can recover the communities almost perfectly with high probability. Here we show that essentially the same algorithm used for the SBM and for its extension called Degree-Corrected SBM, works on a wider class of Block-Models, which we call Preference Frame Models, with essentially the same guarantees. Moreover, the parametrization we introduce clearly exhibits the free parameters needed to specify this class of models, and results in bounds that expose with more clarity the parameters that control the recovery error in this model class.
翻訳日:2021-04-22 22:02:56 公開日:2021-04-21
# (参考訳) 破壊非依存ロバスト領域適応に向けて [全文訳有]

Towards Corruption-Agnostic Robust Domain Adaptation ( http://arxiv.org/abs/2104.10376v1 )

ライセンス: CC0 1.0
Yifan Xu, Kekai Sheng, Weiming Dong, Baoyuan Wu, Changsheng Xu, Bao-Gang Hu(参考訳) 数十年間、ドメイン適応で大きな進歩を遂げてきた。 既存の作業は常に、ターゲットドメインのテストはi.i.d.であるという理想的な仮定に基づいている。 目標ドメインを訓練します しかし、webイメージのような実データでは予測不能な腐敗(ノイズやぼやけなど)のため、ターゲットドメインに対して堅牢なドメイン適応手法が求められている。 本稿では, 原データの正確さと, 対象ドメイン上でのトレーニング不能な汚職に対する堅牢性を実現するための新しいタスクであるCorruption-Agnostic Robust Domain Adaptation (CRDA)について検討する。 このタスクは、大きなドメインの不一致と教師なしのターゲットドメインのため、非自明である。 ドメイン適応の一般的な手法と汚職堅牢性の単純な組み合わせは、最適化されたCRDA結果をもたらす。 1)予測不能な汚職を模倣するために,ドメインの不一致を拡大するサンプルを生成する,Digital Disrepancy Generator (DDG) と呼ばれる簡単なモジュール,2) 対象ドメインの制約を強化するために,対照的な損失を伴う単純かつ効果的な教師学習方式を提案する。 実験では、DDGが元のデータのパフォーマンスを維持または改善し、ベースラインの腐敗の堅牢性を改善する。

Big progress has been achieved in domain adaptation in decades. Existing works are always based on an ideal assumption that testing target domain are i.i.d. with training target domains. However, due to unpredictable corruptions (e.g., noise and blur) in real data like web images, domain adaptation methods are increasingly required to be corruption robust on target domains. In this paper, we investigate a new task, Corruption-agnostic Robust Domain Adaptation (CRDA): to be accurate on original data and robust against unavailable-for-trai ning corruptions on target domains. This task is non-trivial due to large domain discrepancy and unsupervised target domains. We observe that simple combinations of popular methods of domain adaptation and corruption robustness have sub-optimal CRDA results. We propose a new approach based on two technical insights into CRDA: 1) an easy-to-plug module called Domain Discrepancy Generator (DDG) that generates samples that enlarge domain discrepancy to mimic unpredictable corruptions; 2) a simple but effective teacher-student scheme with contrastive loss to enhance the constraints on target domains. Experiments verify that DDG keeps or even improves performance on original data and achieves better corruption robustness that baselines.
翻訳日:2021-04-22 21:43:53 公開日:2021-04-21
# (参考訳) 生成型adversarial networkを用いたフェデレーショントラヒック合成と分類 [全文訳有]

Federated Traffic Synthesizing and Classification Using Generative Adversarial Networks ( http://arxiv.org/abs/2104.10400v1 )

ライセンス: CC BY 4.0
Chenxin Xu, Rong Xia, Yong Xiao, Yingyu Li, Guangming Shi, Kwang-cheng Chen(参考訳) 新たなサービスやアプリケーションに対する需要が急速に高まり、データ保護に対する意識が高まる中、従来の集中型トラフィック分類アプローチは前例のない課題に直面している。 本稿では、分散データ合成とトラフィック分類を統合した新しいフレームワークFederated Generative Adversarial Networks and Automatic Classification (FGAN-AC)を紹介する。 FGAN-ACは、大量の手動ラベル付きデータセットやデータ漏洩を引き起こすことなく、分散化されたローカルデータセットから複数のタイプのサービスデータトラフィックを合成し、分類することができる。 計算効率FGAN(FGAN-\uppercase \expandafter{\romannumeral1})と通信効率FGAN(FGAN-\uppercase \expandafter{\romannumeral2})の2種類のデータ合成手法が提案され、比較されている。 前者は各ローカルデータセットを処理するために単一のCNNモデルのみを実装し、後者は中間モデルのトレーニングパラメータの調整を必要とする。 合成データサンプルから未知のトラフィックを自動的に識別し、モデルトレーニングのための新しい擬似ラベルを作成するための自動データ分類およびモデル更新フレームワークが提案されている。 その結果,提案手法は高度に混合されたサービスデータトラフィックを合成でき,既存のソリューションと比較してトラフィック分類性能を大幅に向上できることがわかった。

With the fast growing demand on new services and applications as well as the increasing awareness of data protection, traditional centralized traffic classification approaches are facing unprecedented challenges. This paper introduces a novel framework, Federated Generative Adversarial Networks and Automatic Classification (FGAN-AC), which integrates decentralized data synthesizing with traffic classification. FGAN-AC is able to synthesize and classify multiple types of service data traffic from decentralized local datasets without requiring a large volume of manually labeled dataset or causing any data leakage. Two types of data synthesizing approaches have been proposed and compared: computation-efficien t FGAN (FGAN-\uppercase\exp andafter{\romannumeral1}) and communication-effici ent FGAN (FGAN-\uppercase\exp andafter{\romannumeral2}). The former only implements a single CNN model for processing each local dataset and the later only requires coordination of intermediate model training parameters. An automatic data classification and model updating framework has been proposed to automatically identify unknown traffic from the synthesized data samples and create new pseudo-labels for model training. Numerical results show that our proposed framework has the ability to synthesize highly mixed service data traffic and can significantly improve the traffic classification performance compared to existing solutions.
翻訳日:2021-04-22 21:37:16 公開日:2021-04-21
# (参考訳) 画像テキストマッチングのための離散連続行動空間ポリシー勾配に基づく注意 [全文訳有]

Discrete-continuous Action Space Policy Gradient-based Attention for Image-Text Matching ( http://arxiv.org/abs/2104.10406v1 )

ライセンス: CC BY 4.0
Shiyang Yan, Li Yu, Yuan Xie(参考訳) 画像テキストマッチングは大規模アプリケーションにおいて重要なマルチモーダルタスクである。 画像とテキストを類似した意味情報で一致させようとする。 既存のアプローチは、異なるモジュラリティを共通空間に明示的に変換しない。 一方、画像テキストマッチングモデルに広く用いられている注意機構には、監督がない。 本稿では,画像とテキストの埋め込みを共通空間に投影し,評価指標に対して直接注意重みを最適化する新しい注意手法を提案する。 提案手法は, 注意を監督し, 追加アノテーションを必要としないものであると考えられる。 これは離散連続的な作用空間ポリシー勾配アルゴリズムによって訓練されており、これは以前の連続的な作用空間ポリシー勾配よりも複雑な作用空間をモデル化するのに効果的である。 提案手法をflickr30kとms-cocoの2つのベンチマークデータセットで評価し,従来の手法を大差で上回った。

Image-text matching is an important multi-modal task with massive applications. It tries to match the image and the text with similar semantic information. Existing approaches do not explicitly transform the different modalities into a common space. Meanwhile, the attention mechanism which is widely used in image-text matching models does not have supervision. We propose a novel attention scheme which projects the image and text embedding into a common space and optimises the attention weights directly towards the evaluation metrics. The proposed attention scheme can be considered as a kind of supervised attention and requiring no additional annotations. It is trained via a novel Discrete-continuous action space policy gradient algorithm, which is more effective in modelling complex action space than previous continuous action space policy gradient. We evaluate the proposed methods on two widely-used benchmark datasets: Flickr30k and MS-COCO, outperforming the previous approaches by a large margin.
翻訳日:2021-04-22 21:25:08 公開日:2021-04-21
# (参考訳) 画像分割参照のための総合的マルチモーダルインタラクション [全文訳有]

Comprehensive Multi-Modal Interactions for Referring Image Segmentation ( http://arxiv.org/abs/2104.10412v1 )

ライセンス: CC BY 4.0
Kanishk Jain, Vineet Gandhi(参考訳) 与えられた自然言語記述に対応するセグメンテーションマップを出力する参照画像セグメンテーション(RIS)について検討する。 RISを効率的に解くためには、各単語と他の単語との関係、画像内の各領域と他の領域との関係、言語領域と視覚領域の相互アライメントを理解する必要がある。 最近の手法はこれらの3種類の相互作用を逐次モデル化する。 このようなモジュラーアプローチはこれらの手法の性能を制限し、同時推論はあいまいさの解消に役立つと論じている。 そこで本研究では,この課題に対処するための共同推論(JRM)モジュールとクロスモーダル多層融合(CMMLF)モジュールを提案する。 jrmは、視覚的および言語的モダリティ(単語、画像領域、単語-地域間相互作用を単一のモジュールで表現する)を推論することで、参照者のマルチモーダルコンテキストを効果的にモデル化する。 CMMLFモジュールは、ブリッジとして機能する言語的特徴を通じて、視覚階層にわたってコンテキスト情報を交換することで、セグメンテーションマスクをさらに洗練する。 提案手法は,4つのベンチマークデータセット上でのアプローチ性能を徹底的に検証し,提案手法が4つのデータセットの既存の最先端手法よりも有意なマージンで優れていることを示す。

We investigate Referring Image Segmentation (RIS), which outputs a segmentation map corresponding to the given natural language description. To solve RIS efficiently, we need to understand each word's relationship with other words, each region in the image to other regions, and cross-modal alignment between linguistic and visual domains. Recent methods model these three types of interactions sequentially. We argue that such a modular approach limits these methods' performance, and joint simultaneous reasoning can help resolve ambiguities. To this end, we propose a Joint Reasoning (JRM) module and a novel Cross-Modal Multi-Level Fusion (CMMLF) module for tackling this task. JRM effectively models the referent's multi-modal context by jointly reasoning over visual and linguistic modalities (performing word-word, image region-region, word-region interactions in a single module). CMMLF module further refines the segmentation masks by exchanging contextual information across visual hierarchy through linguistic features acting as a bridge. We present thorough ablation studies and validate our approach's performance on four benchmark datasets, and show that the proposed method outperforms the existing state-of-the-art methods on all four datasets by significant margins.
翻訳日:2021-04-22 21:12:37 公開日:2021-04-21
# (参考訳) 一般戦略ゲームプレイングのためのポートフォリオ探索と最適化 [全文訳有]

Portfolio Search and Optimization for General Strategy Game-Playing ( http://arxiv.org/abs/2104.10429v1 )

ライセンス: CC BY 4.0
Alexander Dockhorn, Jorge Hurtado-Grueso, Dominik Jeurissen, Linjie Xu, Diego Perez-Liebana(参考訳) ポートフォリオ法は, 多様な戦略ゲームにおいて, 探索型エージェントの性能向上を図った, 単純かつ効率的な動作抽象化である。 まず,既存のポートフォリオ手法をレビューし,ローリング水平進化アルゴリズムに基づく最適化と行動選択のための新しいアルゴリズムを提案する。 さらに、様々な側面の問題を解決するために一連の変種が開発されている。 汎用戦略ゲームプレイングタスクにおいて議論されたエージェントのパフォーマンスをさらに分析する。 この目的のために、Strategaフレームワークの3つの異なるゲームモードで実験を行う。 エージェントのパラメータとポートフォリオセットの最適化について,N-tuple Bandit Evolutionary Algorithmを用いて検討する。 その結果得られたポートフォリオセットは、サンプルエージェントを一貫して打ち負かしながら、プレイスタイルの多様性が高いことを示唆している。 エージェントの性能分析により,提案手法はすべてのゲームモードによく一般化し,他のポートフォリオ手法よりも優れることが示された。

Portfolio methods represent a simple but efficient type of action abstraction which has shown to improve the performance of search-based agents in a range of strategy games. We first review existing portfolio techniques and propose a new algorithm for optimization and action-selection based on the Rolling Horizon Evolutionary Algorithm. Moreover, a series of variants are developed to solve problems in different aspects. We further analyze the performance of discussed agents in a general strategy game-playing task. For this purpose, we run experiments on three different game-modes of the Stratega framework. For the optimization of the agents' parameters and portfolio sets we study the use of the N-tuple Bandit Evolutionary Algorithm. The resulting portfolio sets suggest a high diversity in play-styles while being able to consistently beat the sample agents. An analysis of the agents' performance shows that the proposed algorithm generalizes well to all game-modes and is able to outperform other portfolio methods.
翻訳日:2021-04-22 20:59:09 公開日:2021-04-21
# (参考訳) 単言語モデルのトレーニングをやめて、代わりに機械翻訳を使うべきか? [全文訳有]

Should we Stop Training More Monolingual Models, and Simply Use Machine Translation Instead? ( http://arxiv.org/abs/2104.10441v1 )

ライセンス: CC BY 4.0
Tim Isbister, Fredrik Carlsson, Magnus Sahlgren(参考訳) nlpのほとんどの作業は、問題となるネイティブ言語でソリューションを開発することが望ましいと仮定している。 そのため、低リソース言語でもネイティブ言語モデルを構築する傾向が強い。 本稿では,この展開に疑問を呈し,事前学習された大規模英語モデルの利用を可能にするために,データを単に英語に翻訳する手法を検討する。 現代の機械翻訳と組み合わされた大きな英語モデルが、スカンジナビアのほとんどの言語でネイティブ言語モデルよりも優れていることを実証的に示す。 例外はフィンランド語であり、これは翻訳品質の低下によるものである。 以上の結果から,機械翻訳は成熟した技術であり,低リソース言語のためのネイティブ言語モデルをトレーニングする上で,真剣な対抗手段であることが示唆された。 そこで本稿では,挑発的だが重要な論点を提示する。 英語モデルは前例のないペースで改善され、機械翻訳が向上しているため、そのような言語のための言語モデルを構築するよりも、低リソース言語からのデータを英語に翻訳する経験的かつ環境的な観点から、より効果的である。

Most work in NLP makes the assumption that it is desirable to develop solutions in the native language in question. There is consequently a strong trend towards building native language models even for low-resource languages. This paper questions this development, and explores the idea of simply translating the data into English, thereby enabling the use of pretrained, and large-scale, English language models. We demonstrate empirically that a large English language model coupled with modern machine translation outperforms native language models in most Scandinavian languages. The exception to this is Finnish, which we assume is due to inferior translation quality. Our results suggest that machine translation is a mature technology, which raises a serious counter-argument for training native language models for low-resource languages. This paper therefore strives to make a provocative but important point. As English language models are improving at an unprecedented pace, which in turn improves machine translation, it is from an empirical and environmental stand-point more effective to translate data from low-resource languages into English, than to build language models for such languages.
翻訳日:2021-04-22 20:48:24 公開日:2021-04-21
# (参考訳) 脆い特徴は異常検出に役立つ [全文訳有]

Brittle Features May Help Anomaly Detection ( http://arxiv.org/abs/2104.10453v1 )

ライセンス: CC BY 4.0
Kimberly T. Mai, Toby Davies, Lewis D. Griffin(参考訳) 一級異常検出は困難である。 異常を正規データと明確に区別する表現は理想的であるが、通常のデータのみを訓練時に利用できるため、この表現に到達することは難しい。 補助タスクから転送される表現の性能を異常検出のために検討する。 以上の結果から,これらの表現で用いられる異常検出器よりも表現の選択が重要であることが示唆された。 さらに、異常検出性能は、表現空間におけるより敵対的に脆い特徴と相関するため、異常と正規データとの分離性は重要であるが、良好な表現の唯一の要因ではない。 最後に、我々の構成が本物のx線セキュリティデータセットで96.4%の異常を検出できることを示した。

One-class anomaly detection is challenging. A representation that clearly distinguishes anomalies from normal data is ideal, but arriving at this representation is difficult since only normal data is available at training time. We examine the performance of representations, transferred from auxiliary tasks, for anomaly detection. Our results suggest that the choice of representation is more important than the anomaly detector used with these representations, although knowledge distillation can work better than using the representations directly. In addition, separability between anomalies and normal data is important but not the sole factor for a good representation, as anomaly detection performance is also correlated with more adversarially brittle features in the representation space. Finally, we show our configuration can detect 96.4% of anomalies in a genuine X-ray security dataset, outperforming previous results.
翻訳日:2021-04-22 20:39:18 公開日:2021-04-21
# (参考訳) 名前付きエンティティを用いたチェコ語ニュース記事のテキスト要約 [全文訳有]

Text Summarization of Czech News Articles Using Named Entities ( http://arxiv.org/abs/2104.10454v1 )

ライセンス: CC BY 4.0
Petr Marek, \v{S}t\v{e}p\'an M\"uller, Jakub Konr\'ad, Petr Lorenc, Jan Pichl and Jan \v{S}ediv\'y(参考訳) チェコ語における要約研究の基礎はストラカらによって築かれた。 (2018). 彼らはチェコのニュースに基づく大規模な要約データセットであるSumeCzechを発表し、いくつかのベースラインアプローチを提案した。 しかし、達成された結果から、改善の余地が大きいことは明らかです。 本研究では,チェコのニュース記事の要約に名前付きエンティティが与える影響に注目した。 まず、名前付きエンティティでSumeCzechを注釈付けします。 本稿では,真サマリーと生成されたサマリーの間の名前付きエンティティの重なりを測定する新しいメトリック rouge_ne を提案する。 記事の要約として,複数のエンティティと文の長さの比率が最も高い文を選択する,名前付きエンティティ密度の抽出的要約手法を提案する。 実験の結果, 提案手法は, 第1文を選択するニュース記事の領域において, ベースラインに近い結果に達した。 さらに,選択した文は,誰が,いつ,どこで,何が起こったかを正確に識別するレポートのスタイルを反映していることを示す。 本稿では,このような要約を,ニュース記事を提示する音声アプリケーションにおいて,記事の最初の文と組み合わせて有益であることを示す。 seq2seqアーキテクチャに基づく2つの抽象要約手法を提案する。 最初のアプローチでは、記事のトークンを使用します。 2つ目のアプローチは、名前付きエンティティアノテーションにアクセスできます。 実験により、どちらの手法も以前にStrakaらによって報告された最先端の結果を超えていることが示された。 (2018)では、SumeCzechのドメイン外テストセットが若干改善された。

The foundation for the research of summarization in the Czech language was laid by the work of Straka et al. (2018). They published the SumeCzech, a large Czech news-based summarization dataset, and proposed several baseline approaches. However, it is clear from the achieved results that there is a large space for improvement. In our work, we focus on the impact of named entities on the summarization of Czech news articles. First, we annotate SumeCzech with named entities. We propose a new metric ROUGE_NE that measures the overlap of named entities between the true and generated summaries, and we show that it is still challenging for summarization systems to reach a high score in it. We propose an extractive summarization approach Named Entity Density that selects a sentence with the highest ratio between a number of entities and the length of the sentence as the summary of the article. The experiments show that the proposed approach reached results close to the solid baseline in the domain of news articles selecting the first sentence. Moreover, we demonstrate that the selected sentence reflects the style of reports concisely identifying to whom, when, where, and what happened. We propose that such a summary is beneficial in combination with the first sentence of an article in voice applications presenting news articles. We propose two abstractive summarization approaches based on Seq2Seq architecture. The first approach uses the tokens of the article. The second approach has access to the named entity annotations. The experiments show that both approaches exceed state-of-the-art results previously reported by Straka et al. (2018), with the latter achieving slightly better results on SumeCzech's out-of-domain testing set.
翻訳日:2021-04-22 20:27:44 公開日:2021-04-21
# (参考訳) 交通信号制御のための強化学習:商用システムとの比較 [全文訳有]

Reinforcement Learning for Traffic Signal Control: Comparison with Commercial Systems ( http://arxiv.org/abs/2104.10455v1 )

ライセンス: CC BY-SA 4.0
Alvaro Cabrejas-Egea, Raymond Zhang, Neil Walton(参考訳) 近年、インテリジェントトランスポーテーションシステムは、従来のシステムよりも高いレベルのパフォーマンスを達成するデータ集約型ソリューションを提供するために、センサカバレッジと計算能力の増大の力を活用している。 交通信号制御(TSC)内では、機械学習(ML)ベースのシステムが出現する。 このグループの中で、強化学習(RL)アプローチは特によく機能している。 ML for TSCにおける業界標準の欠如を考えると、RLを探索する文献は商業的に利用可能なシステムとの比較やエージェントの動作の直接的な定式化に欠けることが多い。 ここでは、そのギャップを橋渡しします。 現在使われている商用システムMOVA、SurTrac、Cyclicの3つの異なるアーキテクチャを提案し、それらを擬似コードで比較する。 エージェントは、キューの長さに基づいた状態と報酬を使用して、Deep Q-LearningとActor Criticのバリエーションを使用する。 彼らのパフォーマンスは、さまざまなマップシナリオで可変需要で比較され、グローバル遅延と平均キュー長の観点から評価される。 既存の商用システムと比較して, RL ベースのシステムでは遅延の低減が著しく, 一貫して達成できることがわかった。

Recently, Intelligent Transportation Systems are leveraging the power of increased sensory coverage and computing power to deliver data-intensive solutions achieving higher levels of performance than traditional systems. Within Traffic Signal Control (TSC), this has allowed the emergence of Machine Learning (ML) based systems. Among this group, Reinforcement Learning (RL) approaches have performed particularly well. Given the lack of industry standards in ML for TSC, literature exploring RL often lacks comparison against commercially available systems and straightforward formulations of how the agents operate. Here we attempt to bridge that gap. We propose three different architectures for TSC RL agents and compare them against the currently used commercial systems MOVA, SurTrac and Cyclic controllers and provide pseudo-code for them. The agents use variations of Deep Q-Learning and Actor Critic, using states and rewards based on queue lengths. Their performance is compared in across different map scenarios with variable demand, assessing them in terms of the global delay and average queue length. We find that the RL-based systems can significantly and consistently achieve lower delays when compared with existing commercial systems.
翻訳日:2021-04-22 20:11:17 公開日:2021-04-21
# (参考訳) SSLM:MRビデオによる診断のための自己監督型学習 [全文訳有]

SSLM: Self-Supervised Learning for Medical Diagnosis from MR Video ( http://arxiv.org/abs/2104.10481v1 )

ライセンス: CC BY 4.0
Siladittya Manna, Saumik Bhattacharya, Umapada Pal(参考訳) 医用画像解析において、高品質なデータを取得するコストと専門家によるアノテーションは、多くの医療応用において障壁となる。 ほとんどのテクニックは教師付き学習フレームワークに基づいており、十分なパフォーマンスを達成するには大量の注釈付きデータが必要である。 そこで本研究では,mri(mr)ビデオクリップのフレームから,膝関節疾患の診断のための空間解剖学的表現を学ぶための自己教師あり学習手法を提案する。 テキストモデルは意味のある空間的文脈不変表現を学習する。 本論文の下流タスクは,クラス不均衡なマルチラベル分類である。 異なる実験により、pretextモデルによって学習された機能は、下流タスクで説明可能なパフォーマンスを提供することが示された。 さらに,データセット内の不均衡に対する戦略を適用せず,マイノリティクラスの表現を学習することにおける,提案プリテキストモデルの効率と信頼性を考察した。 我々の知る限り、この研究はMRビデオ上のクラス不均衡多ラベル分類タスクにおける自己教師付き学習アルゴリズムの有効性と信頼性を示す最初の研究である。 提案する作業の評価コードはhttps://github.com/a nonymous-cvpr/sslmで入手できる。

In medical image analysis, the cost of acquiring high-quality data and their annotation by experts is a barrier in many medical applications. Most of the techniques used are based on supervised learning framework and need a large amount of annotated data to achieve satisfactory performance. As an alternative, in this paper, we propose a self-supervised learning approach to learn the spatial anatomical representations from the frames of magnetic resonance (MR) video clips for the diagnosis of knee medical conditions. The pretext model learns meaningful spatial context-invariant representations. The downstream task in our paper is a class imbalanced multi-label classification. Different experiments show that the features learnt by the pretext model provide explainable performance in the downstream task. Moreover, the efficiency and reliability of the proposed pretext model in learning representations of minority classes without applying any strategy towards imbalance in the dataset can be seen from the results. To the best of our knowledge, this work is the first work of its kind in showing the effectiveness and reliability of self-supervised learning algorithms in class imbalanced multi-label classification tasks on MR video. The code for evaluation of the proposed work is available at https://github.com/a nonymous-cvpr/sslm
翻訳日:2021-04-22 20:01:25 公開日:2021-04-21
# (参考訳) き裂検出のための特徴保存と自動閾値付き階層畳み込みニューラルネットワーク [全文訳有]

Hierarchical Convolutional Neural Network with Feature Preservation and Autotuned Thresholding for Crack Detection ( http://arxiv.org/abs/2104.10511v1 )

ライセンス: CC BY 4.0
Qiuchen Zhu, Tran Hiep Dinh, Manh Duong Phung, Quang Phuc Ha(参考訳) ドローン画像は、特に危険または到達不能な環境で、インフラ表面の欠陥の自動検査にますます利用されている。 マシンビジョンでは、クラック検出の鍵は、画像処理のためのロバストで正確なアルゴリズムにある。 そこで本研究では,階層型畳み込みニューラルネットワーク(hcnnfp)と,画像2値化のためのコントラスト反復しきい値化アルゴリズムを用いたディープラーニング手法を提案する。 まず、従来の畳み込みブロックの出力を現在のブロックに半サイズ結合し、全体的な情報損失を考慮したダウンサンプリングステージの閉塞を低減する分岐ネットワークのセットを提案する。 次に、拡張HCNNから生成された特徴マップを抽出するために、特徴の確率マップ内に関心のパターンをクラスタ化する二項コントラストベース自動調整しきい値(CBAT)アプローチを後処理ステップで開発する。 提案手法は, 道路, 橋, 舗装の表面ひび割れの同定に応用されている。 各種データセットを用いて既存の手法との比較を行い, 性能の動的定量化のためのF値の平均値 (AF\b{eta}) を含む評価基準について検討した。 モノレール橋を検査する無人航空機によって撮影されたものを含む亀裂画像の実験。 提案手法は,特にGAPデータセットにおいて,AF\b{eta} で約1.4%増加し,平均誤差が2.2%減少するなど,既存の手法よりも優れている。 このような性能は表面欠陥検査において提案したHCNNFPアーキテクチャの利点を示す。

Drone imagery is increasingly used in automated inspection for infrastructure surface defects, especially in hazardous or unreachable environments. In machine vision, the key to crack detection rests with robust and accurate algorithms for image processing. To this end, this paper proposes a deep learning approach using hierarchical convolutional neural networks with feature preservation (HCNNFP) and an intercontrast iterative thresholding algorithm for image binarization. First, a set of branch networks is proposed, wherein the output of previous convolutional blocks is half-sizedly concatenated to the current ones to reduce the obscuration in the down-sampling stage taking into account the overall information loss. Next, to extract the feature map generated from the enhanced HCNN, a binary contrast-based autotuned thresholding (CBAT) approach is developed at the post-processing step, where patterns of interest are clustered within the probability map of the identified features. The proposed technique is then applied to identify surface cracks on the surface of roads, bridges or pavements. An extensive comparison with existing techniques is conducted on various datasets and subject to a number of evaluation criteria including the average F-measure (AF\b{eta}) introduced here for dynamic quantification of the performance. Experiments on crack images, including those captured by unmanned aerial vehicles inspecting a monorail bridge. The proposed technique outperforms the existing methods on various tested datasets especially for GAPs dataset with an increase of about 1.4% in terms of AF\b{eta} while the mean percentage error drops by 2.2%. Such performance demonstrates the merits of the proposed HCNNFP architecture for surface defect inspection.
翻訳日:2021-04-22 19:47:06 公開日:2021-04-21
# (参考訳) ツイートはどのように受信されるのか? ツイート応答の感情極性の予測 [全文訳有]

How Will Your Tweet Be Received? Predicting the Sentiment Polarity of Tweet Replies ( http://arxiv.org/abs/2104.10513v1 )

ライセンス: CC BY 4.0
Soroosh Tayebi Arasteh, Mehrpad Monajem, Vincent Christlein, Philipp Heinrich, Anguelos Nicolaou, Hamidreza Naderi Boldaji, Mahshad Lotfinia, Stefan Evert(参考訳) Twitterの感情分析は、しばしばツイートの極性を予測することに重点を置いているが、近年、特にディープラーニング(DL)の台頭によって注目を集めている。 本稿では,あるツイートに対する(一階の)回答の主観的感情を予測するという新しいタスクを提案する。 そこで我々は,感情ラベルを手動でアノテートしたツイートと返信の大規模なデータセットであるRETWEETを開発した。 まず、標準感情分類器を適用して、回答をツイートし、元のツイートごとに予測を集約することで、自動的にラベル付けされたトレーニングデータを作成する。 次に、自動ラベル付きデータを用いて、ニューラルネットワークの教師付きトレーニングを行い、元のツイートからの応答感情を予測する。 得られた分類器は、新しいRETWEETデータセットで評価され、特に手動でラベル付けされたデータなしでトレーニングされていることを考慮して、有望な結果を示す。 データセットとベースライン実装の両方が公開されている。

Twitter sentiment analysis, which often focuses on predicting the polarity of tweets, has attracted increasing attention over the last years, in particular with the rise of deep learning (DL). In this paper, we propose a new task: predicting the predominant sentiment among (first-order) replies to a given tweet. Therefore, we created RETWEET, a large dataset of tweets and replies manually annotated with sentiment labels. As a strong baseline, we propose a two-stage DL-based method: first, we create automatically labeled training data by applying a standard sentiment classifier to tweet replies and aggregating its predictions for each original tweet; our rationale is that individual errors made by the classifier are likely to cancel out in the aggregation step. Second, we use the automatically labeled data for supervised training of a neural network to predict reply sentiment from the original tweets. The resulting classifier is evaluated on the new RETWEET dataset, showing promising results, especially considering that it has been trained without any manually labeled data. Both the dataset and the baseline implementation are publicly available.
翻訳日:2021-04-22 19:23:35 公開日:2021-04-21
# (参考訳) 低コストUAVによる単眼映像データからのリアルタイム高密度3次元再構成 [全文訳有]

Real-time dense 3D Reconstruction from monocular video data captured by low-cost UAVs ( http://arxiv.org/abs/2104.10515v1 )

ライセンス: CC BY 4.0
Max Hermann, Boitumelo Ruf, Martin Weinmann(参考訳) リアルタイム3d再構築は,ナビゲーションや緊急時のライブ評価など,多数のアプリケーションにメリットがある環境の高速密マッピングを可能にする。 ほとんどのリアルタイム対応のアプローチとは対照的に、我々のアプローチは明示的な深度センサーを必要としない。 その代わり、私たちはカメラからの動画ストリームと固有のキャリブレーションにのみ依存しています。 建物周辺の斜め視で飛行する無人航空機 (uav) の自動を生かして, カメラの軌跡と深度を, 十分な新規コンテンツで推定した。 シーンの3Dモデルを作成するには、3段階の処理チェーンに依存します。 まず,同時ローカライゼーション・マッピング(slam)アルゴリズムを用いて,粗いカメラの軌跡を推定する。 適切な星座が見つかると、Multi-View Stereo(MVS)アプローチを用いて画像の局所バンドルの深さを推定し、この深さをグローバルなサーベイルベースモデルに融合する。 評価には,合成シーンと実シーンのいずれにおいても,さまざまな設定の55の映像シーケンスを用いた。 生成した再構成だけでなく中間生成物も評価し,質的かつ定量的に競合結果を得る。 同時に、768x448ピクセルの解像度で30fpsの動画を撮影できる。

Real-time 3D reconstruction enables fast dense mapping of the environment which benefits numerous applications, such as navigation or live evaluation of an emergency. In contrast to most real-time capable approaches, our approach does not need an explicit depth sensor. Instead, we only rely on a video stream from a camera and its intrinsic calibration. By exploiting the self-motion of the unmanned aerial vehicle (UAV) flying with oblique view around buildings, we estimate both camera trajectory and depth for selected images with enough novel content. To create a 3D model of the scene, we rely on a three-stage processing chain. First, we estimate the rough camera trajectory using a simultaneous localization and mapping (SLAM) algorithm. Once a suitable constellation is found, we estimate depth for local bundles of images using a Multi-View Stereo (MVS) approach and then fuse this depth into a global surfel-based model. For our evaluation, we use 55 video sequences with diverse settings, consisting of both synthetic and real scenes. We evaluate not only the generated reconstruction but also the intermediate products and achieve competitive results both qualitatively and quantitatively. At the same time, our method can keep up with a 30 fps video for a resolution of 768x448 pixels.
翻訳日:2021-04-22 19:14:25 公開日:2021-04-21
# (参考訳) Syntactic SupervisionによるBERT事前トレーニングの改善 [全文訳有]

Improving BERT Pretraining with Syntactic Supervision ( http://arxiv.org/abs/2104.10516v1 )

ライセンス: CC BY 4.0
Giorgos Tziafas, Konstantinos Kogkalidis, Gijs Wijnholds, Michael Moortgat(参考訳) 双方向マスクトランスが現在のNLPランドスケープのコアテーマとなっている。 印象的なベンチマークにもかかわらず、最近の研究で繰り返し取り上げられるテーマは、そのようなモデルの構文一般化能力に疑問を投げかけることである。 本研究では,標準的な教師なし事前学習にトークンレベルのスーパータグを付与することにより,ネットワークのトレーニングダイナミクスに構文バイアスを明示的に組み込むことにより,この問題に対処する。 我々のアプローチは実装が簡単で、限界計算オーバーヘッドを発生させ、様々な設定に適応できるほど一般的です。 オランダ語の自動注釈付きコーパスであるLassy Largeに適用する。 我々の実験は,Lassy Largeが一般的なコーパスよりも1桁小さいにもかかわらず,構文認識モデルが確立されたベースラインと同等に動作することを示唆している。

Bidirectional masked Transformers have become the core theme in the current NLP landscape. Despite their impressive benchmarks, a recurring theme in recent research has been to question such models' capacity for syntactic generalization. In this work, we seek to address this question by adding a supervised, token-level supertagging objective to standard unsupervised pretraining, enabling the explicit incorporation of syntactic biases into the network's training dynamics. Our approach is straightforward to implement, induces a marginal computational overhead and is general enough to adapt to a variety of settings. We apply our methodology on Lassy Large, an automatically annotated corpus of written Dutch. Our experiments suggest that our syntax-aware model performs on par with established baselines, despite Lassy Large being one order of magnitude smaller than commonly used corpora.
翻訳日:2021-04-22 18:58:06 公開日:2021-04-21
# (参考訳) 音声検索における学習政策の展開 [全文訳有]

Exploiting Learned Policies in Focal Search ( http://arxiv.org/abs/2104.10535v1 )

ライセンス: CC BY 4.0
Pablo Araneda, Matias Greco, Jorge Baier(参考訳) 決定論的探索とドメインに依存しない計画に対する最近の機械学習アプローチは、探索を高速化するためにポリシー学習を採用する。 残念ながら、ポリシーを順次適用して探索問題を解決しようとすると、ソリューションの品質に関する保証は得られない。 有界-準最適探索アルゴリズムにおいて学習ポリシーを効果的に活用する方法の問題は、主にオープンな問題として残っている。 本稿では,そのポリシがニューラルネットワークの分類器であることを前提に,そのようなポリシーを焦点探索に統合する様々な方法を提案する。 さらに、いくつかのアルゴリズムの数学的基礎を提供する。 結果として得られるアルゴリズムを,様々な精度で評価するために,探索空間をメモリに保持できる問題に対して,目標精度に対して生成可能な合成ポリシーを用いる。 提案手法は3つのベンチマーク領域を対象とし,15-puzzleでは150万のサンプルを用いて学習したニューラルネットワークを用いて解析を行った。 我々は,その経路が最適経路の接頭辞である確率の近似を最大化するノードの展開を示す \emph{discrepancy focal search} を観察し,一般に,実行時間と解品質の観点から最良の結果を得る。

Recent machine-learning approaches to deterministic search and domain-independent planning employ policy learning to speed up search. Unfortunately, when attempting to solve a search problem by successively applying a policy, no guarantees can be given on solution quality. The problem of how to effectively use a learned policy within a bounded-suboptimal search algorithm remains largely as an open question. In this paper, we propose various ways in which such policies can be integrated into Focal Search, assuming that the policy is a neural network classifier. Furthermore, we provide mathematical foundations for some of the resulting algorithms. To evaluate the resulting algorithms over a number of policies with varying accuracy, we use synthetic policies which can be generated for a target accuracy for problems where the search space can be held in memory. We evaluate our focal search variants over three benchmark domains using our synthetic approach, and on the 15-puzzle using a neural network learned using 1.5 million examples. We observe that \emph{Discrepancy Focal Search}, which we show expands the node which maximizes an approximation of the probability that its corresponding path is a prefix of an optimal path, obtains, in general, the best results in terms of runtime and solution quality.
翻訳日:2021-04-22 18:47:55 公開日:2021-04-21
# (参考訳) アンカー最適化によるテーブル構造認識 [全文訳有]

Guided Table Structure Recognition through Anchor Optimization ( http://arxiv.org/abs/2104.10538v1 )

ライセンス: CC BY 4.0
Khurram Azeem Hashmi, Didier Stricker, Marcus Liwicki, Muhammad Noman Afzal and Muhammad Zeshan Afzal(参考訳) 本稿では,誘導アンカーを用いたテーブル構造認識への新しいアプローチを提案する。 この概念は、オブジェクト検出法を生かして適用するテーブル構造認識に対する現在の最先端のアプローチとは異なる。 先行手法とは対照的に, まず, テーブル構造認識に使用可能なアンカーを推定する。 その後、これらのアンカーが表画像の行と列を見つけるために利用される。 さらに,現実的なシナリオにおいて表状レイアウトを用いることにより,結果を改善するための簡易かつ効果的な手法を提案する。 ICDAR-2013とTabStructDBの2つの表構造認識データセットに対して,提案手法を網羅的に評価した。 icdar-2013データセットでは,平均f-measureが95.05$\%$ (行が94.6$\%$,カラムが96.32$\%$$) であり,平均f-measureが94.17$\%$ (行が94.08$\%$,カラムが95.06$\$$$$) であった。

This paper presents the novel approach towards table structure recognition by leveraging the guided anchors. The concept differs from current state-of-the-art approaches for table structure recognition that naively apply object detection methods. In contrast to prior techniques, first, we estimate the viable anchors for table structure recognition. Subsequently, these anchors are exploited to locate the rows and columns in tabular images. Furthermore, the paper introduces a simple and effective method that improves the results by using tabular layouts in realistic scenarios. The proposed method is exhaustively evaluated on the two publicly available datasets of table structure recognition i.e ICDAR-2013 and TabStructDB. We accomplished state-of-the-art results on the ICDAR-2013 dataset with an average F-Measure of 95.05$\%$ (94.6$\%$ for rows and 96.32$\%$ for columns) and surpassed the baseline results on the TabStructDB dataset with an average F-Measure of 94.17$\%$ (94.08$\%$ for rows and 95.06$\%$ for columns).
翻訳日:2021-04-22 18:28:27 公開日:2021-04-21
# (参考訳) 潜在変数モデルによるロスレス圧縮

Lossless Compression with Latent Variable Models ( http://arxiv.org/abs/2104.10544v1 )

ライセンス: CC0 1.0
James Townsend(参考訳) 非対称数値系を用いたビットバック (bb-ans) と呼ばれる潜在変数モデルを用いて, 簡易かつエレガントなロスレス圧縮法を開発した。 この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。 我々はまずMNISTテストセット上で,小変動オートエンコーダ(VAE)モデルを用いて,最先端のロスレス圧縮が可能であることを示す。 次に,完全畳み込み生成モデルを用いて任意のサイズの画像に一般化し,階層的潜在変数モデルにbb-anを拡張し,imagenetデータセットからのフルサイズのカラー画像の最先端のロスレス圧縮を可能にする,新たな経験的洞察を利用する。 我々は、深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュラーソフトウェアフレームワークであるCraystackについて述べる。

We develop a simple and elegant method for lossless compression using latent variable models, which we call 'bits back with asymmetric numeral systems' (BB-ANS). The method involves interleaving encode and decode steps, and achieves an optimal rate when compressing batches of data. We demonstrate it firstly on the MNIST test set, showing that state-of-the-art lossless compression is possible using a small variational autoencoder (VAE) model. We then make use of a novel empirical insight, that fully convolutional generative models, trained on small images, are able to generalize to images of arbitrary size, and extend BB-ANS to hierarchical latent variable models, enabling state-of-the-art lossless compression of full-size colour images from the ImageNet dataset. We describe 'Craystack', a modular software framework which we have developed for rapid prototyping of compression using deep generative models.
翻訳日:2021-04-22 18:10:44 公開日:2021-04-21
# (参考訳) 観測結果からの一致:学習行動モデルによるトラクタブルな一致計画 [全文訳有]

Contingencies from Observations: Tractable Contingency Planning with Learned Behavior Models ( http://arxiv.org/abs/2104.10558v1 )

ライセンス: CC BY 4.0
Nicholas Rhinehart, Jeff He, Charles Packer, Matthew A. Wright, Rowan McAllister, Joseph E. Gonzalez, Sergey Levine(参考訳) 人間は、他のエージェントの将来の行動や心の状態など、将来の出来事を正確に推論することによって、決定を下す素晴らしい能力を持っている。 車両の物理、他のドライバーの意図、そして自分の意図に対する彼らの信念について考える必要がある。 ターンを合図すると、別のドライバーが自分に屈服するか、通過する車線に入ると、別のドライバーが減速して前方にマージする余地を与える。 有能なドライバーは、次の行動を行う前に、他のエージェントのさまざまな将来の行動に安全に対応する方法を計画しなければならない。 将来の出来事の確率的な結果に依存する条件付きアクションのセットを明示的に計画すること。 本研究では,高次元シーン観測と低次元行動観測を用いてエンドツーエンドで学習する汎用コンティンジェンシープランナーを開発した。 条件付き自己回帰フローモデルを用いて、コンパクトなコンティンジェンシー計画空間を作成し、このモデルがどのように行動観察からコンティンジェンシーを気軽に学習できるかを示す。 そこで我々は,運転シミュレータ(carla)における現実的マルチエージェントシナリオのクローズドループ制御ベンチマークを開発した。 これらの不一致計画手法は基本的にこのベンチマークで失敗し,本手法が極めて優れた性能を発揮することを示す。 ベンチマークを実行して結果を再現するコードは、https://sites.google .com/view/contingenc y-planningで確認できる。

Humans have a remarkable ability to make decisions by accurately reasoning about future events, including the future behaviors and states of mind of other agents. Consider driving a car through a busy intersection: it is necessary to reason about the physics of the vehicle, the intentions of other drivers, and their beliefs about your own intentions. If you signal a turn, another driver might yield to you, or if you enter the passing lane, another driver might decelerate to give you room to merge in front. Competent drivers must plan how they can safely react to a variety of potential future behaviors of other agents before they make their next move. This requires contingency planning: explicitly planning a set of conditional actions that depend on the stochastic outcome of future events. In this work, we develop a general-purpose contingency planner that is learned end-to-end using high-dimensional scene observations and low-dimensional behavioral observations. We use a conditional autoregressive flow model to create a compact contingency planning space, and show how this model can tractably learn contingencies from behavioral observations. We developed a closed-loop control benchmark of realistic multi-agent scenarios in a driving simulator (CARLA), on which we compare our method to various noncontingent methods that reason about multi-agent future behavior, including several state-of-the-art deep learning-based planning approaches. We illustrate that these noncontingent planning methods fundamentally fail on this benchmark, and find that our deep contingency planning method achieves significantly superior performance. Code to run our benchmark and reproduce our results is available at https://sites.google .com/view/contingenc y-planning
翻訳日:2021-04-22 18:09:28 公開日:2021-04-21
# (参考訳) フェデレーション学習システムに対するカバーチャネルアタック [全文訳有]

Covert Channel Attack to Federated Learning Systems ( http://arxiv.org/abs/2104.10561v1 )

ライセンス: CC BY 4.0
Gabriele Costa, Fabio Pinelli, Simone Soderi, Gabriele Tolomei(参考訳) フェデレーテッド・ラーニング(FL)は、エッジクライアントの大規模なコレクションにモデルトレーニングを分散することで、従来の集中型機械学習を越えている。 これらのクライアントは、ローカルでプライベートなトレーニングデータを開示することなく、グローバル、例えばクラウドホスト型のモデルを共同でトレーニングする。 グローバルモデルは、ローカルな予測に使用するすべての参加者の間で共有される。 本稿では,ステルス通信インフラを実装するために,FLシステムを隠蔽チャネルにすることを目的とした新たな攻撃モデルを提案する。 直感的には、連合訓練の間、悪意のある送信者は故意に作成した例を提出することでグローバルモデルに毒を盛ることができる。 モデル中毒の影響は他の参加者には無視され、モデル全体のパフォーマンスは変化しないが、悪意のある受信者によって観察され、1ビットの送信に使用される。

Federated learning (FL) goes beyond traditional, centralized machine learning by distributing model training among a large collection of edge clients. These clients cooperatively train a global, e.g., cloud-hosted, model without disclosing their local, private training data. The global model is then shared among all the participants which use it for local predictions. In this paper, we put forward a novel attacker model aiming at turning FL systems into covert channels to implement a stealth communication infrastructure. The main intuition is that, during federated training, a malicious sender can poison the global model by submitting purposely crafted examples. Although the effect of the model poisoning is negligible to other participants, and does not alter the overall model performance, it can be observed by a malicious receiver and used to transmit a single bit.
翻訳日:2021-04-22 17:43:59 公開日:2021-04-21
# (参考訳) photothermal-sr-net: 光熱分解能イメージングのためのニューラルネットワーク [全文訳有]

Photothermal-SR-Net: A Customized Deep Unfolding Neural Network for Photothermal Super Resolution Imaging ( http://arxiv.org/abs/2104.10563v1 )

ライセンス: CC BY 4.0
Samim Ahmadi, Linh K\"astner, Jan Christian Hauffen, Peter Jung, Mathias Ziegler(参考訳) 本稿では,超解像(SR)イメージングを実現する光熱放射計における逆問題に対処する深部展開ニューラルネットワークを提案する。 光熱イメージングは、金属や複合材料などの材料の欠陥を非破壊的に検査するための、アクティブサーモグラフィーにおいてよく知られている技術である。 アクティブサーモグラフィーの大きな課題は、熱拡散による空間分解能の限界を克服し、それぞれの欠陥を正確に解決することである。 光熱SR法により、熱点拡散関数によるデコンボリューションに基づく高周波空間成分の抽出が可能となる。 しかし、安定なデコンボリューションは欠陥パターンのスパース構造を使用することでのみ達成できる。 本報告では, 基礎物理を考慮した深部展開によるデコンボリューションを行う光熱SR-Netを提案する。 これにより、収束率を大幅に改善した非破壊検査用2次元熱画像の超解像が可能となる。 材料に欠陥が乏しいため、光熱-sr-netは各畳み込み層内の取得した熱画像に訓練されたブロックスパーシティしきい値を適用する。 提案手法の性能を2次元熱画像に応用した深部展開法としきい値設定法を用いて評価・検討した。 その後,光熱SR-Netの再現性向上と計算性能の向上について検討した。 その結果,画素ビニングを前処理として使用することにより,再構成品質を低下させることなく,高解像度画像作成の計算時間を著しく短縮できることがわかった。

This paper presents deep unfolding neural networks to handle inverse problems in photothermal radiometry enabling super resolution (SR) imaging. Photothermal imaging is a well-known technique in active thermography for nondestructive inspection of defects in materials such as metals or composites. A grand challenge of active thermography is to overcome the spatial resolution limitation imposed by heat diffusion in order to accurately resolve each defect. The photothermal SR approach enables to extract high-frequency spatial components based on the deconvolution with the thermal point spread function. However, stable deconvolution can only be achieved by using the sparse structure of defect patterns, which often requires tedious, hand-crafted tuning of hyperparameters and results in computationally intensive algorithms. On this account, Photothermal-SR-Net is proposed in this paper, which performs deconvolution by deep unfolding considering the underlying physics. This enables to super resolve 2D thermal images for nondestructive testing with a substantially improved convergence rate. Since defects appear sparsely in materials, Photothermal-SR-Net applies trained block-sparsity thresholding to the acquired thermal images in each convolutional layer. The performance of the proposed approach is evaluated and discussed using various deep unfolding and thresholding approaches applied to 2D thermal images. Subsequently, studies are conducted on how to increase the reconstruction quality and the computational performance of Photothermal-SR-Net is evaluated. Thereby, it was found that the computing time for creating high-resolution images could be significantly reduced without decreasing the reconstruction quality by using pixel binning as a preprocessing step.
翻訳日:2021-04-22 17:10:38 公開日:2021-04-21
# (参考訳) クリックスルー率推定のためのディープラーニング [全文訳有]

Deep Learning for Click-Through Rate Estimation ( http://arxiv.org/abs/2104.10584v1 )

ライセンス: CC BY 4.0
Weinan Zhang, Jiarui Qin, Wei Guo, Ruiming Tang, Xiuqiang He(参考訳) クリックスルーレート(CTR)推定は、オンライン広告、レコメンダシステム、Web検索など、さまざまなパーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。 2015年以降、ディープラーニングの成功はCTR推定性能の恩恵を受け始め、現在では多くの産業プラットフォームで深層CTRモデルが広く採用されている。 本稿では,CTR推定タスクのためのディープラーニングモデルの総合的なレビューを行う。 まず、浅いCTRモデルから深いCTRモデルへの移行についてレビューし、なぜ深層化が開発に必要なトレンドなのかを説明する。 次に,深部CTRモデルの明示的特徴相互作用学習モジュールに着目した。 次に,ユーザ履歴が豊富な大規模プラットフォームにおいて重要な視点として,深い行動モデルについて論じる。 さらに,最近登場した深部CTRアーキテクチャ設計のための自動化手法についても紹介する。 最後に,調査をまとめ,この分野の今後の展望について考察する。

Click-through rate (CTR) estimation plays as a core function module in various personalized online services, including online advertising, recommender systems, and web search etc. From 2015, the success of deep learning started to benefit CTR estimation performance and now deep CTR models have been widely applied in many industrial platforms. In this survey, we provide a comprehensive review of deep learning models for CTR estimation tasks. First, we take a review of the transfer from shallow to deep CTR models and explain why going deep is a necessary trend of development. Second, we concentrate on explicit feature interaction learning modules of deep CTR models. Then, as an important perspective on large platforms with abundant user histories, deep behavior models are discussed. Moreover, the recently emerged automated methods for deep CTR architecture design are presented. Finally, we summarize the survey and discuss the future prospects of this field.
翻訳日:2021-04-22 16:56:14 公開日:2021-04-21
# (参考訳) 観測中の大胆信号の空間相関に基づくcnnを用いた広告分類 [全文訳有]

Using CNNs for AD classification based on spatial correlation of BOLD signals during the observation ( http://arxiv.org/abs/2104.10596v1 )

ライセンス: CC BY 4.0
Nazanin Beheshti, Lennart Johnsson(参考訳) 安静時機能的磁気共鳴画像(fMRI)は、アルツハイマー病(AD)、軽度認知障害(MCI)、または認知正常(CN)の分類に用いられる。 ほとんどの方法は、観察期間中のボクセル信号の時系列相関を分類の基盤として用いる。 本稿では,時間平均信号の空間的相関に基づく畳み込みニューラルネットワーク(CNN)分類において,429名の被験者(認知正常246名,アルツハイマー患者183名)を対象に,最大82%(感度86%,特異性80%)の分類精度が得られた。 時間平均信号値の空間的相関については,90領域AALアトラスの中心点付近のボクセルサブドメインを用いる。 我々は、サブドメインを、サブドメインシードとして機能するAAL領域中心点に脳が埋め込まれた境界ボックスのヒルベルト曲線に沿ったボクセルの集合として形成する。 ヒルベルト曲線のサブドメインセグメントによって形成される90配列の空間的相関から生じる行列は、2つの異なるCNNネットワークに基づいて分類するために使用される対称90x90行列、それぞれ3x3フィルタと4,8,16,32出力チャネルを有する4層CNNネットワーク、および3x3フィルタと4,8出力チャネルを有する2層CNNネットワークを生成する。 2つのネットワークの結果を報告し、比較する。

Resting state functional magnetic resonance images (fMRI) are commonly used for classification of patients as having Alzheimer's disease (AD), mild cognitive impairment (MCI), or being cognitive normal (CN). Most methods use time-series correlation of voxels signals during the observation period as a basis for the classification. In this paper we show that Convolutional Neural Network (CNN) classification based on spatial correlation of time-averaged signals yield a classification accuracy of up to 82% (sensitivity 86%, specificity 80%)for a data set with 429 subjects (246 cognitive normal and 183 Alzheimer patients). For the spatial correlation of time-averaged signal values we use voxel subdomains around center points of the 90 regions AAL atlas. We form the subdomains as sets of voxels along a Hilbert curve of a bounding box in which the brain is embedded with the AAL regions center points serving as subdomain seeds. The matrix resulting from the spatial correlation of the 90 arrays formed by the subdomain segments of the Hilbert curve yields a symmetric 90x90 matrix that is used for the classification based on two different CNN networks, a 4-layer CNN network with 3x3 filters and with 4, 8, 16, and 32 output channels respectively, and a 2-layer CNN network with 3x3 filters and with 4 and 8 output channels respectively. The results of the two networks are reported and compared.
翻訳日:2021-04-22 16:39:10 公開日:2021-04-21
# (参考訳) 生成的対向ネットワークの統計的推測 [全文訳有]

Statistical inference for generative adversarial networks ( http://arxiv.org/abs/2104.10601v1 )

ライセンス: CC BY 4.0
Mika Meitz(参考訳) 本稿では,GAN(Generative Adversarial Network)を統計的に検討する。 GANは、2つのニューラルネットワーク(ジェネレータと識別器)のパラメータを推定して特定のミニマックス問題を解く、一般的な機械学習手法である。 このミニマックス問題は通常多数の解を持ち、本論文の焦点はこれらの解の統計的性質である。 本稿では,ジェネレータと識別器ネットワークパラメータ,一貫した推定と信頼セットの2つの問題に対処する。 まず、サンプル GAN 問題に対する解の集合は、対応する集団 GAN 問題に対する解の集合の(ハウスドルフ)一貫した推定子であることを示す。 次に,信頼集合を形成するための計算集約的な手続きを考案し,これらの集合が所望のカバレッジ確率を持つ人口gan解を含むことを示す。 我々の結果で用いられる仮定は弱く、多くの実用的なGANアプリケーションに当てはまる。 本稿では,複数の解の実験的に関連する場合において,GANの統計的推測に関する最初の結果を提供する。

This paper studies generative adversarial networks (GANs) from a statistical perspective. A GAN is a popular machine learning method in which the parameters of two neural networks, a generator and a discriminator, are estimated to solve a particular minimax problem. This minimax problem typically has a multitude of solutions and the focus of this paper are the statistical properties of these solutions. We address two key issues for the generator and discriminator network parameters, consistent estimation and confidence sets. We first show that the set of solutions to the sample GAN problem is a (Hausdorff) consistent estimator of the set of solutions to the corresponding population GAN problem. We then devise a computationally intensive procedure to form confidence sets and show that these sets contain the population GAN solutions with the desired coverage probability. The assumptions employed in our results are weak and hold in many practical GAN applications. To the best of our knowledge, this paper provides the first results on statistical inference for GANs in the empirically relevant case of multiple solutions.
翻訳日:2021-04-22 16:27:28 公開日:2021-04-21
# (参考訳) モノクラーイベントを3D人間にリフティングする [全文訳有]

Lifting Monocular Events to 3D Human Poses ( http://arxiv.org/abs/2104.10609v1 )

ライセンス: CC BY 4.0
Gianluca Scarpellini, Pietro Morerio, Alessio Del Bue(参考訳) 本稿では,非同期イベントの単一ストリームを入力として用いる新しい3次元ポーズ推定手法を提案する。 最先端のアプローチのほとんどは、RGBカメラでこの課題を解決しているが、被験者が速く動くのに苦労している。 一方、イベントベースの3Dは、イベントカメラの利点、特にその効率性と外観変化に対する堅牢性から得られる利点を推定する。 しかし、非同期イベントにおけるヒューマンポーズの発見は、静的なシーンでイベントがトリガされることが少ないため、一般的なRGBのポーズ推定よりも一般的に難しい。 本稿では,1つのイベントストリームから3次元人間のポーズを学習する最初の手法を提案する。 我々の方法は2つの段階からなる。 まず,イベントカメラストリームを処理して,接合部ごとに3つの直交ヒートマップを予測し,各ヒートマップは接合部の1つの直交面への投影である。 次に、熱マップの集合を融合させて、生体関節の3次元局在を推定する。 さらに、rgb human3.6mデータセットからのイベントをシミュレートして、イベントベースの人格推定のための新しい挑戦的なデータセットを提供する。 実験により,本手法は,標準RGBとイベントベースビジョン間の性能ギャップを狭め,精度が向上することを示した。 コードはhttps://iit-pavis.gi thub.io/lifting_even ts_to_3d_hpeで無料で利用できる。

This paper presents a novel 3D human pose estimation approach using a single stream of asynchronous events as input. Most of the state-of-the-art approaches solve this task with RGB cameras, however struggling when subjects are moving fast. On the other hand, event-based 3D pose estimation benefits from the advantages of event-cameras, especially their efficiency and robustness to appearance changes. Yet, finding human poses in asynchronous events is in general more challenging than standard RGB pose estimation, since little or no events are triggered in static scenes. Here we propose the first learning-based method for 3D human pose from a single stream of events. Our method consists of two steps. First, we process the event-camera stream to predict three orthogonal heatmaps per joint; each heatmap is the projection of of the joint onto one orthogonal plane. Next, we fuse the sets of heatmaps to estimate 3D localisation of the body joints. As a further contribution, we make available a new, challenging dataset for event-based human pose estimation by simulating events from the RGB Human3.6m dataset. Experiments demonstrate that our method achieves solid accuracy, narrowing the performance gap between standard RGB and event-based vision. The code is freely available at https://iit-pavis.gi thub.io/lifting_even ts_to_3d_hpe.
翻訳日:2021-04-22 15:54:22 公開日:2021-04-21
# (参考訳) n-アリ関係データのスパルシファイズテンソル分解の探索 [全文訳有]

Searching to Sparsify Tensor Decomposition for N-ary Relational Data ( http://arxiv.org/abs/2104.10625v1 )

ライセンス: CC BY 4.0
Shimin Di, Quanming Yao, Lei Chen(参考訳) 多次元の場合へのベクトルと行列の拡張であるテンソルは、N-項関係データを記述する自然な方法である。 近年,N-aryリレーショナルデータにテンソル分解法を導入し,組込み学習の最先端技術となった。 しかし、既存のテンソル分解法の性能は所望のものほど良くない。 n-aryリレーショナルデータから、特定のarity、すなわち一般的なn-aryリレーショナルデータの一部でのみ学習できるため、彼らはデータ分離の問題に苦しむ。 さらに、過度なパラメータ化問題のためにトレーニングできるほど効果的でも効率的でもない。 本論文では,N-aryリレーショナルデータから効率的に学習するための新しい手法,すなわちS2Sを提案する。 具体的には,組込み共有が混在する事実から学習することを可能にする新しいテンソル分解フレームワークを提案する。 コアテンソルは依然として過パラメータ化に悩まされているため,データ依存アーキテクチャを探索するニューラルアーキテクチャサーチ(NAS)技術を用いて,表現力を保ちながらコアテンソルをスパース化することでパラメータを低減することを提案する。 その結果、提案したS2Sは表現性を保証するだけでなく、混合アリティから効率的に学習する。 最後に、S2Sは訓練に効率的であり、最先端の性能を達成することを実証した。

Tensor, an extension of the vector and matrix to the multi-dimensional case, is a natural way to describe the N-ary relational data. Recently, tensor decomposition methods have been introduced into N-ary relational data and become state-of-the-art on embedding learning. However, the performance of existing tensor decomposition methods is not as good as desired. First, they suffer from the data-sparsity issue since they can only learn from the N-ary relational data with a specific arity, i.e., parts of common N-ary relational data. Besides, they are neither effective nor efficient enough to be trained due to the over-parameterizatio n problem. In this paper, we propose a novel method, i.e., S2S, for effectively and efficiently learning from the N-ary relational data. Specifically, we propose a new tensor decomposition framework, which allows embedding sharing to learn from facts with mixed arity. Since the core tensors may still suffer from the over-parameterizatio n, we propose to reduce parameters by sparsifying the core tensors while retaining their expressive power using neural architecture search (NAS) techniques, which can search for data-dependent architectures. As a result, the proposed S2S not only guarantees to be expressive but also efficiently learns from mixed arity. Finally, empirical results have demonstrated that S2S is efficient to train and achieves state-of-the-art performance.
翻訳日:2021-04-22 15:39:23 公開日:2021-04-21
# (参考訳) ロバストカーネルに基づく分布回帰 [全文訳有]

Robust Kernel-based Distribution Regression ( http://arxiv.org/abs/2104.10637v1 )

ライセンス: CC BY 4.0
Zhan Yu, Daniel W. C. Ho, Ding-Xuan Zhou(参考訳) 回帰の正規化スキームは学習理論や逆問題において広く研究されている。 本稿では,サンプリングの2段階を含む分布回帰(dr)について検討し,再生成核ヒルベルト空間(rkhs)上の確率測度から実数値応答への回帰を目標とする。 近年,カーネルリッジレグレッションによるDRの理論解析が実施され,いくつかの学習行動が観察されている。 しかし,二段階サンプリング問題に対してロバスト損失関数 $l_{\sigma}$ を導入することで,最小二乗法以上の話題を探求・理解することはできず,新たなロバスト分布回帰法(rdr)を提案する。 ウィンドウリング関数 $V$ とスケーリングパラメータ $\sigma$ が適切に選択でき、$l_{\sigma}$ は、DR のテーマを豊かにする、広く使われている損失関数を含むことができる。 さらに、損失 $l_{\sigma}$ は必ずしも凸ではなく、従って dr の文献における以前の回帰クラス (least square) を大幅に改善した。 回帰関数 $f_{\rho}$ の異なる正規性範囲の学習率を包括的に研究し、積分作用素法を用いて導出する。 スケーリングパラメータ$\sigma$は、RDRの堅牢性と良好な学習率を提供する上で重要である。

Regularization schemes for regression have been widely studied in learning theory and inverse problems. In this paper, we study distribution regression (DR) which involves two stages of sampling, and aims at regressing from probability measures to real-valued responses over a reproducing kernel Hilbert space (RKHS). Recently, theoretical analysis on DR has been carried out via kernel ridge regression and several learning behaviors have been observed. However, the topic has not been explored and understood beyond the least square based DR. By introducing a robust loss function $l_{\sigma}$ for two-stage sampling problems, we present a novel robust distribution regression (RDR) scheme. With a windowing function $V$ and a scaling parameter $\sigma$ which can be appropriately chosen, $l_{\sigma}$ can include a wide range of popular used loss functions that enrich the theme of DR. Moreover, the loss $l_{\sigma}$ is not necessarily convex, hence largely improving the former regression class (least square) in the literature of DR. The learning rates under different regularity ranges of the regression function $f_{\rho}$ are comprehensively studied and derived via integral operator techniques. The scaling parameter $\sigma$ is shown to be crucial in providing robustness and satisfactory learning rates of RDR.
翻訳日:2021-04-22 15:17:35 公開日:2021-04-21
# (参考訳) コンディショニング信念関数に対する幾何学的アプローチ

A geometric approach to conditioning belief functions ( http://arxiv.org/abs/2104.10651v1 )

ライセンス: CC BY-SA 4.0
Fabio Cuzzolin(参考訳) 時系列を含む推論が関与する場合、条件付けは応用科学において重要である。 信条計算は認識の不確実性の存在下でそのような推論を扱う効果的な方法である -- 残念ながら、信条関数の枠組みにおける条件付けに対する異なるアプローチは、過去に提案されており、この問題は幾分考慮されていない。 本稿では,不確実性に対する幾何学的アプローチから着想を得て,すべての信念関数の空間における条件付けイベントに付随する単純体上に幾何学的に投影した信念関数の条件付けへのアプローチを提案する。 ここで,このような幾何学的条件付けアプローチは,信念の程度の観点から,単純な解釈による単純な結果を生み出すことが多いことを示す。 これは、例えばデンプスターの条件付けのような古典的アプローチが、適切な空間におけるある種の距離最小化に還元できるかどうかという疑問を提起する。 幾何学的条件付け規則によって生成された組合せ規則の族の研究は、提示された研究の自然な訴追のようである。

Conditioning is crucial in applied science when inference involving time series is involved. Belief calculus is an effective way of handling such inference in the presence of epistemic uncertainty -- unfortunately, different approaches to conditioning in the belief function framework have been proposed in the past, leaving the matter somewhat unsettled. Inspired by the geometric approach to uncertainty, in this paper we propose an approach to the conditioning of belief functions based on geometrically projecting them onto the simplex associated with the conditioning event in the space of all belief functions. We show here that such a geometric approach to conditioning often produces simple results with straightforward interpretations in terms of degrees of belief. This raises the question of whether classical approaches, such as for instance Dempster's conditioning, can also be reduced to some form of distance minimisation in a suitable space. The study of families of combination rules generated by (geometric) conditioning rules appears to be the natural prosecution of the presented research.
翻訳日:2021-04-22 14:41:30 公開日:2021-04-21
# 大規模ゼロショット学習のための文書表現の再検討

Revisiting Document Representations for Large-Scale Zero-Shot Learning ( http://arxiv.org/abs/2104.10355v1 )

ライセンス: Link先を確認
Jihyung Kil, Wei-Lun Chao(参考訳) ゼロショット学習は、意味表現を使って見えないオブジェクトを認識することを目的としている。 既存の作品の多くは、人間がラベル付けした視覚的な属性を使用しており、大規模なアプリケーションには適していない。 本稿では,意味表現としての文書の使用について再考する。 ウィキペディアページのような文書は豊富な視覚情報を含んでいるが、膨大な量の非視覚文によって容易に埋められる。 この問題に対処するために,文書セクションヘッダと視覚文のクラスタリング構造を利用した,視覚文抽出のための半自動機構を提案する。 抽出された視覚文は、類似したクラスを区別する新しい重み付けスキームの後、本質的に視覚属性のような意味表現を形成するが、人間の労力をはるかに少なくする。 1万以上の未確認クラスを持つImageNetデータセットでは、私たちの表現は、一般的に使用されるものに対して64%の相対的な改善をもたらします。

Zero-shot learning aims to recognize unseen objects using their semantic representations. Most existing works use visual attributes labeled by humans, not suitable for large-scale applications. In this paper, we revisit the use of documents as semantic representations. We argue that documents like Wikipedia pages contain rich visual information, which however can easily be buried by the vast amount of non-visual sentences. To address this issue, we propose a semi-automatic mechanism for visual sentence extraction that leverages the document section headers and the clustering structure of visual sentences. The extracted visual sentences, after a novel weighting scheme to distinguish similar classes, essentially form semantic representations like visual attributes but need much less human effort. On the ImageNet dataset with over 10,000 unseen classes, our representations lead to a 64% relative improvement against the commonly used ones.
翻訳日:2021-04-22 14:40:31 公開日:2021-04-21
# 関連性評価に基づくN-ary Relational Dataのリンク予測

Link Prediction on N-ary Relational Data Based on Relatedness Evaluation ( http://arxiv.org/abs/2104.10424v1 )

ライセンス: Link先を確認
Saiping Guan, Xiaolong Jin, Jiafeng Guo, Yuanzhuo Wang, Xueqi Cheng(参考訳) 知識グラフ(KG)の圧倒的な人気により、研究者は長い間、行方不明の事実を埋めるためにリンク予測に注意を払ってきた。 しかし、それらは主にバイナリリレーショナルデータにおけるリンク予測に焦点を当てており、事実は通常(ヘッドエンティティ、リレーショナル、テールエンティティ)の形でトリプルとして表現される。 実際には、n-項関係事実もユビキタスである。 このような事実に遭遇する場合、既存の研究は通常、複数の補助仮想実体と追加のトリプルを導入することでトリプルに分解する。 これらの変換は、n-aryリレーショナルデータ上でリンク予測を実行する複雑さをもたらす。 構造情報が失われる可能性があることも証明されている。 これらの問題を克服するため,本稿では,各n-項関係の事実を,その役割と役割-価値のペアの集合として表現する。 そこで我々は,n-aryリレーショナルな事実におけるすべての役割と役割-値のペアの関連性を明示的にモデル化した,n-aryリレーショナルデータ上でリンク予測を行うNaLPという手法を提案する。 さらに,外部の型固有の監督なしにロールとロール値の型制約を導入し,より合理的な負のサンプリング機構を提案することで,nalpをさらに拡張する。 実験の結果,提案手法の有効性と有効性について検証した。

With the overwhelming popularity of Knowledge Graphs (KGs), researchers have poured attention to link prediction to fill in missing facts for a long time. However, they mainly focus on link prediction on binary relational data, where facts are usually represented as triples in the form of (head entity, relation, tail entity). In practice, n-ary relational facts are also ubiquitous. When encountering such facts, existing studies usually decompose them into triples by introducing a multitude of auxiliary virtual entities and additional triples. These conversions result in the complexity of carrying out link prediction on n-ary relational data. It has even proven that they may cause loss of structure information. To overcome these problems, in this paper, we represent each n-ary relational fact as a set of its role and role-value pairs. We then propose a method called NaLP to conduct link prediction on n-ary relational data, which explicitly models the relatedness of all the role and role-value pairs in an n-ary relational fact. We further extend NaLP by introducing type constraints of roles and role-values without any external type-specific supervision, and proposing a more reasonable negative sampling mechanism. Experimental results validate the effectiveness and merits of the proposed methods.
翻訳日:2021-04-22 14:40:19 公開日:2021-04-21
# 2次勾配を用いたステートレスニューラルメタラーニング

Stateless Neural Meta-Learning using Second-Order Gradients ( http://arxiv.org/abs/2104.10527v1 )

ライセンス: Link先を確認
Mike Huisman and Aske Plaat and Jan N. van Rijn(参考訳) ディープラーニングは通常、学習される新しい問題ごとに大きなデータセットと計算能力を必要とする。 メタ学習は、素早い学習を容易にする優れた事前学習に使用することができ、それによってこれらの要件を緩和して、新しいタスクをより早く学習することができる。 本研究では,この2つを比較し,メタラーナーLSTMがMAMLを仮定することを示す。 この知見と最近の経験的知見を組み合わせることで、メタラーナーLSTMよりも単純だがMAMLよりも表現力が高い新しいアルゴリズム(TURTLEと呼ばれる)を構築した。 TURTLEは、2次MAMLに匹敵する計算コストで、数ショットの正弦波レグレッションと miniImageNet と CUB の画像分類において、追加のハイパーパラメータチューニングを伴わずに、両方の技術より優れている。 タートルの成功の鍵は第2次勾配を使用することであり、メタリアナーlstmの性能を1-6%の精度で大幅に向上させる。

Deep learning typically requires large data sets and much compute power for each new problem that is learned. Meta-learning can be used to learn a good prior that facilitates quick learning, thereby relaxing these requirements so that new tasks can be learned quicker; two popular approaches are MAML and the meta-learner LSTM. In this work, we compare the two and formally show that the meta-learner LSTM subsumes MAML. Combining this insight with recent empirical findings, we construct a new algorithm (dubbed TURTLE) which is simpler than the meta-learner LSTM yet more expressive than MAML. TURTLE outperforms both techniques at few-shot sine wave regression and image classification on miniImageNet and CUB without any additional hyperparameter tuning, at a computational cost that is comparable with second-order MAML. The key to TURTLE's success lies in the use of second-order gradients, which also significantly increases the performance of the meta-learner LSTM by 1-6% accuracy.
翻訳日:2021-04-22 14:39:24 公開日:2021-04-21
# 車両再識別のためのマルチアテンションに基づくソフトパーティショニングネットワーク

Multi-Attention-Base d Soft Partition Network for Vehicle Re-Identification ( http://arxiv.org/abs/2104.10401v1 )

ライセンス: Link先を確認
Sangrok Lee, Taekang Woo, Sang Hun Lee(参考訳) 車両再識別 (re-id) 同一車両と他の車両を画像で区別する。 異なる視点からの同一車両間の重要なインテンス内差と類似車両の微妙なインテンス間差のため、これは困難である。 研究者は、視点や環境の変化に頑健な特徴を抽出することで、この問題に対処しようとしている。 さらに最近では、キーポイントやオリエンテーション、時間情報などのメタデータを追加することで、パフォーマンスの向上を試みた。 これらの試みは比較的成功したが、すべて高価なアノテーションを必要とする。 そこで本稿では,この問題を解決するために,マルチアテンションベースソフトパーティション(musp)ネットワークと呼ばれる新しい深層ニューラルネットワークを提案する。 このネットワークはメタデータを使用せず、特定の車両領域を特定するために複数のソフトアテンションのみを使用する。 この機能は以前の研究でメタデータによって実行された。 実験により、muspは追加のアノテーションなしで vehicleid データセットの最先端(sota)性能を達成し、veri-776 と veri-wild に匹敵することを確認した。

Vehicle re-identification (Re-ID) distinguishes between the same vehicle and other vehicles in images. It is challenging due to significant intra-instance differences between identical vehicles from different views and subtle inter-instance differences of similar vehicles. Researchers have tried to address this problem by extracting features robust to variations of viewpoints and environments. More recently, they tried to improve performance by using additional metadata such as key points, orientation, and temporal information. Although these attempts have been relatively successful, they all require expensive annotations. Therefore, this paper proposes a novel deep neural network called a multi-attention-base d soft partition (MUSP) network to solve this problem. This network does not use metadata and only uses multiple soft attentions to identify a specific vehicle area. This function was performed by metadata in previous studies. Experiments verified that MUSP achieved state-of-the-art (SOTA) performance for the VehicleID dataset without any additional annotations and was comparable to VeRi-776 and VERI-Wild.
翻訳日:2021-04-22 14:39:04 公開日:2021-04-21
# 普遍的対向摂動の緩和のためのヤコビ正規化

Jacobian Regularization for Mitigating Universal Adversarial Perturbations ( http://arxiv.org/abs/2104.10459v1 )

ライセンス: Link先を確認
Kenneth T. Co, David Martinez Rego, Emil C. Lupu(参考訳) UAP(Universal Adversarial Perturbations)は、大規模なデータセットでニューラルネットワークを騙すことができる入力摂動である。 これらは、ニューラルネットワークに対する現実的で実践的で低コストな攻撃を促進するため、重大な脅威を示す一連の攻撃である。 本研究では、データ依存ヤコビアンのノルムに基づいて、UAPの有効性の上限を導出する。 クリーンな性能を維持しつつ, モデルロバスト性を最大4倍に向上させることを実証的に検証した。 理論的解析により、入力対間の共振の強度の計量を定式化することもできる。 このメトリックをベンチマークデータセットに適用し,実際に観測されたロバスト性と高い相関性を示す。 これは、クリーンな精度を犠牲にすることなく、現実的で実用的なユニバーサルアタックを確実に緩和できることを示唆している。

Universal Adversarial Perturbations (UAPs) are input perturbations that can fool a neural network on large sets of data. They are a class of attacks that represents a significant threat as they facilitate realistic, practical, and low-cost attacks on neural networks. In this work, we derive upper bounds for the effectiveness of UAPs based on norms of data-dependent Jacobians. We empirically verify that Jacobian regularization greatly increases model robustness to UAPs by up to four times whilst maintaining clean performance. Our theoretical analysis also allows us to formulate a metric for the strength of shared adversarial perturbations between pairs of inputs. We apply this metric to benchmark datasets and show that it is highly correlated with the actual observed robustness. This suggests that realistic and practical universal attacks can be reliably mitigated without sacrificing clean accuracy, which shows promise for the robustness of machine learning systems.
翻訳日:2021-04-22 14:38:48 公開日:2021-04-21
# magicpai at semeval-2021 task 7: multi-task adversarial training に基づくユーモアの検出と評価方法

MagicPai at SemEval-2021 Task 7: Method for Detecting and Rating Humor Based on Multi-Task Adversarial Training ( http://arxiv.org/abs/2104.10336v1 )

ライセンス: Link先を確認
Jian Ma, Shuyi Xie, Haiqin Yang, Lianxin Jiang, Mengyuan Zhou, Xiaoyi Ruan, Yang Mo(参考訳) 本稿では,magicpai の semeval 2021 task 7, hahackathon: detection and rating humor and offense のシステムについて述べる。 この課題は、テキストがユーモラスか、いかにユーモラスかを検出することである。 競技には4つのサブタスクがあります。 本稿では主に,タスク1a,1bに対して,敵の例に基づくマルチタスク学習モデルを提案する。 より具体的には、まずクリーンデータセットをベクター化し、摂動を追加してより堅牢な埋め込み表現を得る。 そして、信頼度によって損失を補正します。 最後に,テキストのユーモラスさとユーモラスさの関係を捉えるために,複数のタスクで対話型共同学習を行う。 最終結果は,システムの有効性を示す。

This paper describes MagicPai's system for SemEval 2021 Task 7, HaHackathon: Detecting and Rating Humor and Offense. This task aims to detect whether the text is humorous and how humorous it is. There are four subtasks in the competition. In this paper, we mainly present our solution, a multi-task learning model based on adversarial examples, for task 1a and 1b. More specifically, we first vectorize the cleaned dataset and add the perturbation to obtain more robust embedding representations. We then correct the loss via the confidence level. Finally, we perform interactive joint learning on multiple tasks to capture the relationship between whether the text is humorous and how humorous it is. The final result shows the effectiveness of our system.
翻訳日:2021-04-22 14:37:36 公開日:2021-04-21
# SemEval-2021 Task 9: An Ensemble Solution for Statement Verification and Evidence Finding with Tables

Sattiy at SemEval-2021 Task 9: An Ensemble Solution for Statement Verification and Evidence Finding with Tables ( http://arxiv.org/abs/2104.10366v1 )

ライセンス: Link先を確認
Xiaoyi Ruan, Meizhi Jin, Jian Ma, Haiqin Yang, Lianxin Jiang, Yang Mo, Mengyuan Zhou(参考訳) 半構造化テーブルからの質問応答は意味解析のタスクと見なすことができ、自然言語理解の境界を押し進めるために重要かつ実用的なものである。 既存の研究は主に、ニュース、自然言語文、文書など、構造化されていない証拠からの内容を理解することに焦点を当てている。 テーブル、チャート、データベースなどの構造化された証拠から検証する作業は、まだ調査されていない。 本稿では,SemEval-2021 Task 9: Statement Verification and Evidence Finding with Tables (SEM-TAB-FACT)における満足度チームのシステムについて述べる。 この競争は、科学的記事の表から証拠を見つけ、周囲の記事の適切な解釈を促進することを目的としている。 本稿では,タスクAに対して,テーブル上の事前学習された言語モデルのアンサンブルモデル(TaPasとTaBERT)を利用し,タスクBのために抽出されたルールに基づいて結果を調整する。 最後に,2方向評価と3方向評価でそれぞれF1スコアが0.8496点,0.7732点,タスクBでF1スコアが0.4856点を得た。

Question answering from semi-structured tables can be seen as a semantic parsing task and is significant and practical for pushing the boundary of natural language understanding. Existing research mainly focuses on understanding contents from unstructured evidence, e.g., news, natural language sentences, and documents. The task of verification from structured evidence, such as tables, charts, and databases, is still less explored. This paper describes sattiy team's system in SemEval-2021 task 9: Statement Verification and Evidence Finding with Tables (SEM-TAB-FACT). This competition aims to verify statements and to find evidence from tables for scientific articles and to promote the proper interpretation of the surrounding article. In this paper, we exploited ensemble models of pre-trained language models over tables, TaPas and TaBERT, for Task A and adjust the result based on some rules extracted for Task B. Finally, in the leaderboard, we attain the F1 scores of 0.8496 and 0.7732 in Task A for the 2-way and 3-way evaluation, respectively, and the F1 score of 0.4856 in Task B.
翻訳日:2021-04-22 14:37:24 公開日:2021-04-21
# SemEval-2021 Task 2: Fine-Tune XLM-RoBERTa for Word in Context Disambiguation (英語)

PALI at SemEval-2021 Task 2: Fine-Tune XLM-RoBERTa for Word in Context Disambiguation ( http://arxiv.org/abs/2104.10375v1 )

ライセンス: Link先を確認
Shuyi Xie, Jian Ma, Haiqin Yang, Lianxin Jiang, Yang Mo, Jianping Shen(参考訳) 本稿では,SemEval-2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguationについて述べる。 我々はXLM-RoBERTaモデルを微調整し、文脈の曖昧さ、すなわち2つの文脈における対象単語が同じ意味を持つか否かを判断する。 実装では,まず,コンテキスト内の対象単語を強調する入力タグを具体的に設計する。 第2に、XLM-RoBERTaからの微調整埋め込み上に新しいベクトルを構築し、それを完全に接続されたネットワークに供給し、コンテキスト内の対象単語が同じ意味を持つか否かの確率を出力する。 新しいベクトルは、[CLS]トークンの埋め込みとターゲット単語のコンテキストへの埋め込みを連結することにより達成される。 トレーニングでは、モデル予測を改善するために、rangerオプティマイザ、データ拡張、敵対的トレーニングなどいくつかのトリックを探求する。 その結果,4つの言語横断タスクで1位となった。

This paper presents the PALI team's winning system for SemEval-2021 Task 2: Multilingual and Cross-lingual Word-in-Context Disambiguation. We fine-tune XLM-RoBERTa model to solve the task of word in context disambiguation, i.e., to determine whether the target word in the two contexts contains the same meaning or not. In the implementation, we first specifically design an input tag to emphasize the target word in the contexts. Second, we construct a new vector on the fine-tuned embeddings from XLM-RoBERTa and feed it to a fully-connected network to output the probability of whether the target word in the context has the same meaning or not. The new vector is attained by concatenating the embedding of the [CLS] token and the embeddings of the target word in the contexts. In training, we explore several tricks, such as the Ranger optimizer, data augmentation, and adversarial training, to improve the model prediction. Consequently, we attain first place in all four cross-lingual tasks.
翻訳日:2021-04-22 14:37:02 公開日:2021-04-21
# ライトウェイト・ヒューマン・ポース推定のための双対教師知識蒸留法

Orderly Dual-Teacher Knowledge Distillation for Lightweight Human Pose Estimation ( http://arxiv.org/abs/2104.10414v1 )

ライセンス: Link先を確認
Zhong-Qiu Zhao, Yao Gao, Yuchen Ge and Weidong Tian(参考訳) 深層畳み込みニューラルネットワーク(DCNN)は人間のポーズ推定において優れた性能を達成しているが、これらのネットワークには多くのパラメータと計算能力があり、推論速度は遅い。 この問題に対する効果的な解決策は知識蒸留であり、知識を大きな事前訓練されたネットワーク(教師)から小さなネットワーク(学生)に転送する。 しかし、既存のアプローチにはいくつかの欠点がある: (I) 一人の教師のみが採用され、学生が複数の教師から学べる可能性を無視している。 (II)人間のセグメンテーションマスクは、キーポイントの位置を制限する追加の事前情報とみなすことができ、使用されない。 (iii)パラメータの少ない生徒は、データセットや教師が提供するヒートマップを完全に模倣することはできない。 (IV)教師が生成したヒートマップにはノイズがあり、モデル劣化を引き起こす。 これらの欠陥を克服するために,異なる能力を持つ2人の教師からなる秩序ある二重教師知識蒸留(ODKD)フレームワークを提案する。 具体的には、弱者(第一教師、pt)がキーポイント情報を教えるために使用され、強者(上級教師、st)が人間のセグメンテーションマスクを付加してセグメンテーションやキーポイント情報を転送する。 両教師をまとめて、知識吸収性を促進するための秩序ある学習戦略を提案する。 さらに,学生の学習能力をさらに向上させ,ヒートマップのノイズを低減する2値化演算を採用する。 COCOおよびOCHumanキーポイントデータセットによる実験結果から,提案したODKDは,異なる軽量モデルの性能を大きなマージンで向上できることが示された。

Although deep convolution neural networks (DCNN) have achieved excellent performance in human pose estimation, these networks often have a large number of parameters and computations, leading to the slow inference speed. For this issue, an effective solution is knowledge distillation, which transfers knowledge from a large pre-trained network (teacher) to a small network (student). However, there are some defects in the existing approaches: (I) Only a single teacher is adopted, neglecting the potential that a student can learn from multiple teachers. (II) The human segmentation mask can be regarded as additional prior information to restrict the location of keypoints, which is never utilized. (III) A student with a small number of parameters cannot fully imitate heatmaps provided by datasets and teachers. (IV) There exists noise in heatmaps generated by teachers, which causes model degradation. To overcome these defects, we propose an orderly dual-teacher knowledge distillation (ODKD) framework, which consists of two teachers with different capabilities. Specifically, the weaker one (primary teacher, PT) is used to teach keypoints information, the stronger one (senior teacher, ST) is utilized to transfer segmentation and keypoints information by adding the human segmentation mask. Taking dual-teacher together, an orderly learning strategy is proposed to promote knowledge absorbability. Moreover, we employ a binarization operation which further improves the learning ability of the student and reduces noise in heatmaps. Experimental results on COCO and OCHuman keypoints datasets show that our proposed ODKD can improve the performance of different lightweight models by a large margin, and HRNet-W16 equipped with ODKD achieves state-of-the-art performance for lightweight human pose estimation.
翻訳日:2021-04-22 14:36:33 公開日:2021-04-21
# SOGAN:メイクアップ転送のための3D認識シャドウとオクルージョンロバストGAN

SOGAN: 3D-Aware Shadow and Occlusion Robust GAN for Makeup Transfer ( http://arxiv.org/abs/2104.10567v1 )

ライセンス: Link先を確認
Yueming Lyu, Jing Dong, Bo Peng, Wei Wang, Tieniu Tan(参考訳) 近年,仮想メイクアップアプリケーションの人気が高まっている。 しかし, 実環境におけるロバストなメイクトランスファー手法の提案はいまだに困難である。 現在のメークアップ転送方式は, 清潔なメークアップ画像ではよく機能するが, 陰影や閉塞を呈するメイクアップは満足できない。 そこで我々は3D-Aware Shadow and Occlusion Robust GAN (SOGAN) と呼ばれる新しいメイクアップ転送手法を提案する。 ソースと参照面を考えると、まず3d顔モデルに適合し、次に顔を形とテクスチャに切り離します。 テクスチャブランチでは、テクスチャをuv空間にマッピングし、uvテクスチャ生成器を設計してメークアップを転送する。 人間の顔は紫外線空間では対称であるため、フリップ注意モジュール(FAM)を慎重に設計することで、望ましくない影と閉塞を基準画像から都合よく取り除くことができる。 基準画像からよりクリーンなメークアップ特徴を得た後、正確なメイクアップ転送を行うためにメイクアップ転送モジュール(MTM)を導入する。 定性的かつ定量的な実験により、我々のSOGANは影や閉塞の状況において優れた結果を得るだけでなく、大きなポーズや表現のバリエーションでも良好に機能することが示された。

In recent years, virtual makeup applications have become more and more popular. However, it is still challenging to propose a robust makeup transfer method in the real-world environment. Current makeup transfer methods mostly work well on good-conditioned clean makeup images, but transferring makeup that exhibits shadow and occlusion is not satisfying. To alleviate it, we propose a novel makeup transfer method, called 3D-Aware Shadow and Occlusion Robust GAN (SOGAN). Given the source and the reference faces, we first fit a 3D face model and then disentangle the faces into shape and texture. In the texture branch, we map the texture to the UV space and design a UV texture generator to transfer the makeup. Since human faces are symmetrical in the UV space, we can conveniently remove the undesired shadow and occlusion from the reference image by carefully designing a Flip Attention Module (FAM). After obtaining cleaner makeup features from the reference image, a Makeup Transfer Module (MTM) is introduced to perform accurate makeup transfer. The qualitative and quantitative experiments demonstrate that our SOGAN not only achieves superior results in shadow and occlusion situations but also performs well in large pose and expression variations.
翻訳日:2021-04-22 14:36:05 公開日:2021-04-21
# 時間的メタグラフによる未来のテロリストターゲットの学習

Learning future terrorist targets through temporal meta-graphs ( http://arxiv.org/abs/2104.10398v1 )

ライセンス: Link先を確認
Gian Maria Campedelli, Mihovil Bartulovic, Kathleen M. Carley(参考訳) 過去20年間、テロリズムは世界中のいくつかの地域で何十万人もの死者と大規模な経済、政治的、人道的な危機を引き起こしてきた。 2001年から2018年にかけて、アフガニスタンとイラクで発生した攻撃に関する実世界データを用いて、時間的メタグラフとディープラーニングを用いて将来のテロ目標を予測することを提案する。 3つのイベントディメンジョン、すなわち武器、配置された戦術、選択されたターゲットに焦点を当てたメタグラフは、一時的な近接攻撃間の接続をマッピングし、運用上の類似性と依存関係をキャプチャする。 これらの時間的メタグラフから、各次元における各特徴の時間的中心性を測定する2日間の時系列を導出する。 テロリスト俳優の戦略行動の文脈で問題を定式化することで、これらの多変量時系列シーケンスは、選択されるリスクが最も高いターゲットタイプを知るために利用される。 論文には2つの貢献がある。 まず、時間的メタグラフによる特徴空間のエンジニアリングが、特徴発生頻度にのみ依存する浅い時間系列よりも豊かな知識を生み出すことを示す。 第2に,双方向lstmネットワークは,他のアルゴリズムよりも優れた予測性能を達成し,テロリストの暴力に対抗する人工知能の可能性を十分に発見することを目的とした今後の研究が求められている。

In the last 20 years, terrorism has led to hundreds of thousands of deaths and massive economic, political, and humanitarian crises in several regions of the world. Using real-world data on attacks occurred in Afghanistan and Iraq from 2001 to 2018, we propose the use of temporal meta-graphs and deep learning to forecast future terrorist targets. Focusing on three event dimensions, i.e., employed weapons, deployed tactics and chosen targets, meta-graphs map the connections among temporally close attacks, capturing their operational similarities and dependencies. From these temporal meta-graphs, we derive 2-day-based time series that measure the centrality of each feature within each dimension over time. Formulating the problem in the context of the strategic behavior of terrorist actors, these multivariate temporal sequences are then utilized to learn what target types are at the highest risk of being chosen. The paper makes two contributions. First, it demonstrates that engineering the feature space via temporal meta-graphs produces richer knowledge than shallow time-series that only rely on frequency of feature occurrences. Second, the performed experiments reveal that bi-directional LSTM networks achieve superior forecasting performance compared to other algorithms, calling for future research aiming at fully discovering the potential of artificial intelligence to counter terrorist violence.
翻訳日:2021-04-22 14:35:22 公開日:2021-04-21
# IoTデータストリームのための軽量なコンセプトドリフト検出と適応フレームワーク

A Lightweight Concept Drift Detection and Adaptation Framework for IoT Data Streams ( http://arxiv.org/abs/2104.10529v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Shami(参考訳) 近年、"スマートテクノロジ"の人気が高まり、iot(internet of things)デバイスやシステムの数は大幅に増加している。 さまざまなIoTサービスと機能は、IoTストリーミングデータの分析に基づいています。 しかし、IoTデータ分析は、IoTシステムのダイナミックな性質と、IoTデータストリームの絶え間なく変化するパターンのために、コンセプトドリフトの課題に直面している。 本稿では、最適化されたLightGBMとコンセプトドリフト適応に基づく、異常検出ユースケースに対する適応型IoTストリーミングデータ分析フレームワークを提案する。 オンラインIoTデータストリームのパターン変化に対応するために,OASW (Optimized Adaptive and Sliding Windowing) という新しいドリフト適応手法を提案する。 2つの公開データセットの実験により、提案した適応型LightGBMモデルの精度と効率が、他の最先端のアプローチと比較された。 提案した適応LightGBMモデルは、人間の介入なしにIoTデータストリーム上で連続的な学習とドリフト適応を実行することができる。

In recent years, with the increasing popularity of "Smart Technology", the number of Internet of Things (IoT) devices and systems have surged significantly. Various IoT services and functionalities are based on the analytics of IoT streaming data. However, IoT data analytics faces concept drift challenges due to the dynamic nature of IoT systems and the ever-changing patterns of IoT data streams. In this article, we propose an adaptive IoT streaming data analytics framework for anomaly detection use cases based on optimized LightGBM and concept drift adaptation. A novel drift adaptation method named Optimized Adaptive and Sliding Windowing (OASW) is proposed to adapt to the pattern changes of online IoT data streams. Experiments on two public datasets show the high accuracy and efficiency of our proposed adaptive LightGBM model compared against other state-of-the-art approaches. The proposed adaptive LightGBM model can perform continuous learning and drift adaptation on IoT data streams without human intervention.
翻訳日:2021-04-22 14:35:02 公開日:2021-04-21
# causal-tgan:causal generative adversarial networkを用いた表データ生成

Causal-TGAN: Generating Tabular Data Using Causal Generative Adversarial Networks ( http://arxiv.org/abs/2104.10680v1 )

ライセンス: Link先を確認
Bingyang Wen, Luis Oliveros Colon, K.P. Subbalakshmi and R. Chandramouli(参考訳) プライバシーの漏洩とデータ不足の解決策として、合成データ生成が普及する。 生成モデルは、実際のデータセットのデータ分布を正確に表現できる、現実的な合成データセットを生成するように設計されている。 コンピュータビジョンの分野で大きな成功を収めたgenerative adversarial networks(gan)は、間違いなく合成データ生成に使われている。 先行研究では大きな進展が見られたが、そのほとんどはデータセットが自然に生成される真のプロセスではなく、データ分布の相関関係を学習している。 相関は信頼できないが、線形依存関係のみを指示し、データセットのバイアスに影響を受けやすい統計手法である。 因果関係(Causality)は、実際のデータがどのように自然に生成されるかという基本的な要素をすべてエンコードするものであり、相関よりも信頼性が高い。 そこで本研究では,表データの因果情報を用いて合成表データを生成するための因果モデルCausal Tabular Generative Neural Network (Causal-TGAN)を提案する。 シミュレーションデータセットと実データセットの両方に対する広範な実験は、真の因果グラフが与えられた場合のより良い性能と、推定因果グラフを使用する場合の同等の性能を示す。

Synthetic data generation becomes prevalent as a solution to privacy leakage and data shortage. Generative models are designed to generate a realistic synthetic dataset, which can precisely express the data distribution for the real dataset. The generative adversarial networks (GAN), which gain great success in the computer vision fields, are doubtlessly used for synthetic data generation. Though there are prior works that have demonstrated great progress, most of them learn the correlations in the data distributions rather than the true processes in which the datasets are naturally generated. Correlation is not reliable for it is a statistical technique that only tells linear dependencies and is easily affected by the dataset's bias. Causality, which encodes all underlying factors of how the real data be naturally generated, is more reliable than correlation. In this work, we propose a causal model named Causal Tabular Generative Neural Network (Causal-TGAN) to generate synthetic tabular data using the tabular data's causal information. Extensive experiments on both simulated datasets and real datasets demonstrate the better performance of our method when given the true causal graph and a comparable performance when using the estimated causal graph.
翻訳日:2021-04-22 14:34:49 公開日:2021-04-21
# ニューラルネットワークモデリングのためのサンプリングベーストレーニング基準について

On Sampling-Based Training Criteria for Neural Language Modeling ( http://arxiv.org/abs/2104.10507v1 )

ライセンス: Link先を確認
Yingbo Gao, David Thulke, Alexander Gerstenberger, Khoa Viet Tran, Ralf Schl\"uter, Hermann Ney(参考訳) 現代の単語ベース言語モデルの語彙サイズがさらに大きくなるにつれて,多くのサンプリングベーストレーニング基準が提案され,検討されている。 これらのサンプリング手法の本質は、語彙全体のソフトマックス関連トラバーサルを単純化し、ベースラインと比較してスピードアップすることができることである。 このようなサンプリング手法の現在の状況に注目する問題は、体系的な比較の欠如と、他の方法よりも好むという神話の欠如である。 本研究では,モンテカルロサンプリング,重要サンプリング,補償部分和と呼ばれる新しい手法,ノイズコントラスト推定について考察する。 従来の3つの基準、すなわち平均二乗誤差、二乗クロスエントロピー、クロスエントロピーにリンクすることで、トレーニング問題の理論的解を導出する。 一般的な信念とは対照的に、これらのサンプリング手法は、意図したクラス後部確率を補正する限り、等しく機能できることが示される。 Switchboard と LibriSpeech における言語モデリングと自動音声認識の実験的結果が我々の主張を裏付けるものである。

As the vocabulary size of modern word-based language models becomes ever larger, many sampling-based training criteria are proposed and investigated. The essence of these sampling methods is that the softmax-related traversal over the entire vocabulary can be simplified, giving speedups compared to the baseline. A problem we notice about the current landscape of such sampling methods is the lack of a systematic comparison and some myths about preferring one over another. In this work, we consider Monte Carlo sampling, importance sampling, a novel method we call compensated partial summation, and noise contrastive estimation. Linking back to the three traditional criteria, namely mean squared error, binary cross-entropy, and cross-entropy, we derive the theoretical solutions to the training problems. Contrary to some common belief, we show that all these sampling methods can perform equally well, as long as we correct for the intended class posterior probabilities. Experimental results in language modeling and automatic speech recognition on Switchboard and LibriSpeech support our claim, with all sampling-based methods showing similar perplexities and word error rates while giving the expected speedups.
翻訳日:2021-04-22 14:34:29 公開日:2021-04-21
# MLDS:ニューラルネットワークの重み空間解析のためのデータセット

MLDS: A Dataset for Weight-Space Analysis of Neural Networks ( http://arxiv.org/abs/2104.10555v1 )

ライセンス: Link先を確認
John Clemens(参考訳) ニューラルネットワークは、様々な複雑な現実世界の問題を解決する強力なモデルである。 しかし、訓練の確率的性質と典型的な神経モデルにおける多数のパラメータは、検査によって評価することが困難である。 研究によると、この不透明さは、有害なトレーニングデータやネットワークの振る舞いを覆い隠す悪意のある意図など、潜伏した好ましくない行動を隠すことができ、損失などの従来の間接的評価基準によって検出することは困難である。 したがって、その構造と重みを通して訓練された神経モデルを評価する直接的方法を探求する時が来た。 本稿では,グローバルボランティアベースの分散コンピューティングプラットフォームを用いて,注意深く制御されたパラメータを持つ数千のトレーニングニューラルネットワークからなる新しいデータセットMLDSを提案する。 このデータセットは、モデル-to-modelとモデル-to-training-data関係に関する新たな洞察を可能にする。 このデータセットを用いて、重み空間内のモデルのクラスタリングを同一のトレーニングデータで示し、トレーニングデータに小さな変更を加えることで重み空間の有意義なばらつきを示し、重み空間分析がニューラルネットワーク評価における損失の有効かつ効果的な代替手段であることを示唆する。

Neural networks are powerful models that solve a variety of complex real-world problems. However, the stochastic nature of training and large number of parameters in a typical neural model makes them difficult to evaluate via inspection. Research shows this opacity can hide latent undesirable behavior, be it from poorly representative training data or via malicious intent to subvert the behavior of the network, and that this behavior is difficult to detect via traditional indirect evaluation criteria such as loss. Therefore, it is time to explore direct ways to evaluate a trained neural model via its structure and weights. In this paper we present MLDS, a new dataset consisting of thousands of trained neural networks with carefully controlled parameters and generated via a global volunteer-based distributed computing platform. This dataset enables new insights into both model-to-model and model-to-training-da ta relationships. We use this dataset to show clustering of models in weight-space with identical training data and meaningful divergence in weight-space with even a small change to the training data, suggesting that weight-space analysis is a viable and effective alternative to loss for evaluating neural networks.
翻訳日:2021-04-22 14:34:08 公開日:2021-04-21
# 非常に多くの局所化に対するスパースショット学習

Sparse-Shot Learning for Extremely Many Localisations ( http://arxiv.org/abs/2104.10425v1 )

ライセンス: Link先を確認
Andreas Panteli, Jonas Teuwen, Hugo Horlings, Efstratios Gavves(参考訳) オブジェクトのローカライゼーションは、通常イメージのコンテキストにおいて、例えば人や車のようなオブジェクトを描写する。 これらの画像では、通常、クラス毎の画像あたりのインスタンス数は比較的少なく、アノテーションを管理できる。 しかし、通常の画像の領域の外では、しばしば異なる状況に直面します。 計算病理学において、デジタル化された組織断面は、非常に大きな画像であり、その次元はすぐに250'000×250'000ピクセルを超える。 これらすべてに注釈をつけることは事実上不可能であり、より多くのうちわずかに注釈を付けることが唯一の可能性である。 不運なことに、スパースアノテーションやスパースショット学習からの学習は、注釈のないものは否定的な扱いを受けるため、標準的な教師付き学習と衝突する。 しかし、負のラベルを正の値に割り当てると、勾配と偏りのある学習が混乱する。 そこで本研究では,2次損失導関数を用いてバイアス付き学習を遅くし,バイアス付き項に対応する損失項を減少させる排他的クロスエントロピーを提案する。 9つのデータセットと2つの異なるローカライゼーションタスク(YOLLOによる検出とUnetによるセグメンテーション)の実験では、クロスエントロピーや焦点損失よりも大幅に改善されている一方で、10~40のアノテーションしか持たないモデルで最高のパフォーマンスに達することが示されている。

Object localisation is typically considered in the context of regular images, for instance depicting objects like people or cars. In these images there is typically a relatively small number of instances per image per class, which usually is manageable to annotate. However, outside the realm of regular images we are often confronted with a different situation. In computational pathology digitised tissue sections are extremely large images, whose dimensions quickly exceed 250'000x250'000 pixels, where relevant objects, such as tumour cells or lymphocytes can quickly number in the millions. Annotating them all is practically impossible and annotating sparsely a few, out of many more, is the only possibility. Unfortunately, learning from sparse annotations, or sparse-shot learning, clashes with standard supervised learning because what is not annotated is treated as a negative. However, assigning negative labels to what are true positives leads to confusion in the gradients and biased learning. To this end, we present exclusive cross entropy, which slows down the biased learning by examining the second-order loss derivatives in order to drop the loss terms corresponding to likely biased terms. Experiments on nine datasets and two different localisation tasks, detection with YOLLO and segmentation with Unet, show that we obtain considerable improvements compared to cross entropy or focal loss, while often reaching the best possible performance for the model with only 10-40 of annotations.
翻訳日:2021-04-22 14:33:30 公開日:2021-04-21
# カリキュラム学習による多目的建築における初期出力の精度向上

Improving the Accuracy of Early Exits in Multi-Exit Architectures via Curriculum Learning ( http://arxiv.org/abs/2104.10461v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) エッジコンピューティングシステムを使用したIoTのような時間に敏感でリソースに制約のある設定のためのディープラーニングサービスをデプロイすることは、推論時間の動的調整を必要とする難しいタスクである。 マルチエクイットアーキテクチャにより、ディープニューラルネットワークは、正確なコストで厳密な期限に従うために、実行を早期に終了することができる。 このコストを軽減するために,ニューラルネットワークのカリキュラム学習を利用するマルチエクイットカリキュラム学習という,学習の難しさに基づいてトレーニングサンプルをソートし,徐々にネットワークに導入することで,人間の学習を模倣するトレーニング戦略を提案する。 CIFAR-10 と CIFAR-100 データセットの実験とマルチエグジットアーキテクチャの様々な構成により,本手法は標準トレーニング手法と比較して早期出口の精度を一貫して向上することが示された。

Deploying deep learning services for time-sensitive and resource-constrained settings such as IoT using edge computing systems is a challenging task that requires dynamic adjustment of inference time. Multi-exit architectures allow deep neural networks to terminate their execution early in order to adhere to tight deadlines at the cost of accuracy. To mitigate this cost, in this paper we introduce a novel method called Multi-Exit Curriculum Learning that utilizes curriculum learning, a training strategy for neural networks that imitates human learning by sorting the training samples based on their difficulty and gradually introducing them to the network. Experiments on CIFAR-10 and CIFAR-100 datasets and various configurations of multi-exit architectures show that our method consistently improves the accuracy of early exits compared to the standard training approach.
翻訳日:2021-04-22 14:33:02 公開日:2021-04-21
# リカレントフィードバックによる部分付加物体の認識の改善

Recurrent Feedback Improves Recognition of Partially Occluded Objects ( http://arxiv.org/abs/2104.10615v1 )

ライセンス: Link先を確認
Markus Roland Ernst, Jochen Triesch, Thomas Burwick(参考訳) 視覚野における繰り返しの接続は、咬合などの困難な条件に対する物体認識を助けると考えられている。 本稿では,ニューラルネットワークが再発の恩恵を受けるかどうか,その効果について検討する。 ボトムアップ,横,トップダウンの接続からなるアーキテクチャを比較し,その性能を2つの新しい立体オクルードオブジェクトデータセットを用いて評価する。 一致するパラメトリック複雑性のフィードフォワードモデルと比較して,再帰モデルでは分類精度が有意に高いことがわかった。 さらに,刺激に挑戦する場合,フィードバックの繰り返しが最初のフィードフォワードの推測を正しく修正できることを示す。

Recurrent connectivity in the visual cortex is believed to aid object recognition for challenging conditions such as occlusion. Here we investigate if and how artificial neural networks also benefit from recurrence. We compare architectures composed of bottom-up, lateral and top-down connections and evaluate their performance using two novel stereoscopic occluded object datasets. We find that classification accuracy is significantly higher for recurrent models when compared to feedforward models of matched parametric complexity. Additionally we show that for challenging stimuli, the recurrent feedback is able to correctly revise the initial feedforward guess.
翻訳日:2021-04-22 14:32:46 公開日:2021-04-21
# MetricOpt: ブラックボックス評価メトリクスを最適化する学習

MetricOpt: Learning to Optimize Black-Box Evaluation Metrics ( http://arxiv.org/abs/2104.10631v1 )

ライセンス: Link先を確認
Chen Huang, Shuangfei Zhai, Pengsheng Guo and Josh Susskind(参考訳) 誤分類率やリコールなどのタスク評価指標を直接最適化する問題について検討する。 対象メトリックの計算の詳細が不明なブラックボックス設定でMetricOptというメソッドを動作させる。 我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。 学習された値関数は、SGDやAdamのような既存のオプティマイザに簡単にプラグインでき、事前訓練されたモデルを迅速に微調整するのに有効である。 これは、値関数が微調整中に効果的な計量監督を提供し、損失のみの監督の潜在的なバイアスを修正するのに役立つため、一貫した改善をもたらす。 MetricOptは、画像分類、画像検索、オブジェクト検出のための様々なメトリクスで最先端のパフォーマンスを達成する。 強固な利点は、複雑な損失設計や適応を伴う競合する手法よりも見出される。 MetricOptは、新しいタスクやモデルアーキテクチャにも適しています。

We study the problem of directly optimizing arbitrary non-differentiable task evaluation metrics such as misclassification rate and recall. Our method, named MetricOpt, operates in a black-box setting where the computational details of the target metric are unknown. We achieve this by learning a differentiable value function, which maps compact task-specific model parameters to metric observations. The learned value function is easily pluggable into existing optimizers like SGD and Adam, and is effective for rapidly finetuning a pre-trained model. This leads to consistent improvements since the value function provides effective metric supervision during finetuning, and helps to correct the potential bias of loss-only supervision. MetricOpt achieves state-of-the-art performance on a variety of metrics for (image) classification, image retrieval and object detection. Solid benefits are found over competing methods, which often involve complex loss design or adaptation. MetricOpt also generalizes well to new tasks and model architectures.
翻訳日:2021-04-22 14:32:36 公開日:2021-04-21
# シーケンス分類タスクの複雑性尺度としての感度

Sensitivity as a Complexity Measure for Sequence Classification Tasks ( http://arxiv.org/abs/2104.10343v1 )

ライセンス: Link先を確認
Michael Hahn, Dan Jurafsky, Richard Futrell(参考訳) 本稿では,ブール関数感度の理論の新たな拡張を用いて,シーケンス分類タスクの複雑性の理解と予測のための理論的枠組みを提案する。 入力シーケンス上の分布が与えられた関数の感度は、それぞれを個別に変更して出力を変更することができる入力シーケンスの非結合部分集合の数を定量化する。 標準シーケンス分類法は低感度関数の学習に偏りがあるので、高い感度を必要とするタスクはより困難である。 そこで我々は,単純な語彙分類器が有界感度関数のみを表現できることを解析的に示し,低感度関数がLSTMに対して学習しやすいことを示す。 次に15のNLPタスクに対する感度を推定し、GLUEで収集した課題に対して、単純なテキスト分類タスクよりも感度が高く、プレトレーニングされた文脈埋め込みのない単純な語彙分類器とバニラBiLSTMの両方のパフォーマンスを予測する。 タスク内では、感度はそのような単純なモデルではどの入力が難しいかを予測します。 以上の結果から,事前学習されたコンテキスト表現の成功は,低感度デコーダによる情報抽出が可能な表現を提供することが一因であることが示唆された。

We introduce a theoretical framework for understanding and predicting the complexity of sequence classification tasks, using a novel extension of the theory of Boolean function sensitivity. The sensitivity of a function, given a distribution over input sequences, quantifies the number of disjoint subsets of the input sequence that can each be individually changed to change the output. We argue that standard sequence classification methods are biased towards learning low-sensitivity functions, so that tasks requiring high sensitivity are more difficult. To that end, we show analytically that simple lexical classifiers can only express functions of bounded sensitivity, and we show empirically that low-sensitivity functions are easier to learn for LSTMs. We then estimate sensitivity on 15 NLP tasks, finding that sensitivity is higher on challenging tasks collected in GLUE than on simple text classification tasks, and that sensitivity predicts the performance both of simple lexical classifiers and of vanilla BiLSTMs without pretrained contextualized embeddings. Within a task, sensitivity predicts which inputs are hard for such simple models. Our results suggest that the success of massively pretrained contextual representations stems in part because they provide representations from which information can be extracted by low-sensitivity decoders.
翻訳日:2021-04-22 14:32:20 公開日:2021-04-21
# インダストリアル・モノのインターネットを加速するための連合学習とその応用に関する調査

A Survey on Federated Learning and its Applications for Accelerating Industrial Internet of Things ( http://arxiv.org/abs/2104.10501v1 )

ライセンス: Link先を確認
Jiehan Zhou, Shouhua Zhang, Qinghua Lu, Wenbin Dai, Min Chen, Xin Liu, Susanna Pirttikangas, Yang Shi, Weishan Zhang, Enrique Herrera-Viedma(参考訳) federated learning(fl)は、エッジコンピューティングレベルでの業界4.0のプロセスを加速するために、集中的なトレーニングデータを持たない産業にコラボレーションインテリジェンスをもたらす。 FLは、企業がセキュリティ上の懸念からデータインテリジェンスを利用したいというジレンマを解決する。 To accelerate industrial Internet of things with the further leverage of FL, existing achievements on FL are developed from three aspects: 1) define terminologies and elaborate a general framework of FL for accommodating various scenarios; 2) discuss the state-of-the-art of FL on fundamental researches including data partitioning, privacy preservation, model optimization, local model transportation, personalization, motivation mechanism, platform & tools, and benchmark; 3) discuss the impacts of FL from the economic perspective. 産業アカデミックや実践から注目を惹きつけるため、FL変換製造パラダイムが提案され、FLの今後の研究方向性が示され、産業4.0ドメインでの即時適用も提案されている。

Federated learning (FL) brings collaborative intelligence into industries without centralized training data to accelerate the process of Industry 4.0 on the edge computing level. FL solves the dilemma in which enterprises wish to make the use of data intelligence with security concerns. To accelerate industrial Internet of things with the further leverage of FL, existing achievements on FL are developed from three aspects: 1) define terminologies and elaborate a general framework of FL for accommodating various scenarios; 2) discuss the state-of-the-art of FL on fundamental researches including data partitioning, privacy preservation, model optimization, local model transportation, personalization, motivation mechanism, platform & tools, and benchmark; 3) discuss the impacts of FL from the economic perspective. To attract more attention from industrial academia and practice, a FL-transformed manufacturing paradigm is presented, and future research directions of FL are given and possible immediate applications in Industry 4.0 domain are also proposed.
翻訳日:2021-04-22 14:31:59 公開日:2021-04-21
# ロバストな専門家の混合(さらに) : 多重摂動に対する柔軟な防御

Mixture of Robust Experts (MoRE): A Flexible Defense Against Multiple Perturbations ( http://arxiv.org/abs/2104.10586v1 )

ライセンス: Link先を確認
Hao Cheng, Kaidi Xu, Chenan Wang, Xue Lin, Bhavya Kailkhura, Ryan Goldhahn(参考訳) 深層ニューラルネットワークの敵に対する感受性に対処するため,訓練損失の最小化に埋め込まれた一階の敵を提示する内部最大化問題を通じて,セキュリティの概念を提供する対人訓練が提案されている。 異なる摂動タイプに対する逆ロバスト性を一般化するために、様々な$\ell_p$ノルムバウンド摂動のような複数の摂動の結合を示す改良された内的最大化により、逆訓練法が強化された。 しかし、改良された内部最大化は許容摂動タイプの観点からは限られた柔軟性しか享受できない。 本研究では, ゲーティング機構を用いて, 特定の摂動タイプに対応するために, 逆向きに訓練されたか, 清潔なデータに対する正確性を高めるために通常訓練された, 専門家ネットワークの集合を組み立てる。 ゲーティングモジュールは各専門家に動的に重みを割り当て、敵の例、悪天候の摂動、クリーンな入力など、様々なデータタイプにおいてより優れた精度を達成する。 難解な勾配問題に対処するため、対向的なトレーニングアプローチにより、最後の完全に接続された専門家ネットワークの層を微調整してゲーティングモジュールの訓練を行う。 広範な実験により、我々のMixture of Robust Experts (MoRE) アプローチは、幅広いロバスト専門家と優れたパフォーマンスを持つ柔軟な統合を可能にします。

To tackle the susceptibility of deep neural networks to adversarial examples, the adversarial training has been proposed which provides a notion of security through an inner maximization problem presenting the first-order adversaries embedded within the outer minimization of the training loss. To generalize the adversarial robustness over different perturbation types, the adversarial training method has been augmented with the improved inner maximization presenting a union of multiple perturbations e.g., various $\ell_p$ norm-bounded perturbations. However, the improved inner maximization only enjoys limited flexibility in terms of the allowable perturbation types. In this work, through a gating mechanism, we assemble a set of expert networks, each one either adversarially trained to deal with a particular perturbation type or normally trained for boosting accuracy on clean data. The gating module assigns weights dynamically to each expert to achieve superior accuracy under various data types e.g., adversarial examples, adverse weather perturbations, and clean input. In order to deal with the obfuscated gradients issue, the training of the gating module is conducted together with fine-tuning of the last fully connected layers of expert networks through adversarial training approach. Using extensive experiments, we show that our Mixture of Robust Experts (MoRE) approach enables flexible integration of a broad range of robust experts with superior performance.
翻訳日:2021-04-22 14:31:43 公開日:2021-04-21
# Dual Head Adversarial Training

Dual Head Adversarial Training ( http://arxiv.org/abs/2104.10377v1 )

ライセンス: Link先を確認
Yujing Jiang, Xingjun Ma, Sarah Monazam Erfani and James Bailey(参考訳) ディープニューラルネットワーク(DNN)は、敵の例や攻撃に対して脆弱であることが知られており、安全クリティカルなアプリケーションにおける信頼性への懸念が高まっている。 敵の攻撃に抵抗する堅牢なDNNを訓練するための防衛方法がいくつか提案されているが、その中では敵の訓練が最も有望な結果を示している。 しかし、近年の研究では、adversarially-traine d dnnの正確性と堅牢性の間に固有のトレードオフがあることが示されている。 本稿では,既存の対向訓練法のロバスト性をさらに高めるための新しい手法であるdh-atを提案する。 既存の改良された対向訓練とは異なり、dh-atはネットワークのアーキテクチャとより堅牢性を求めるトレーニング戦略の両方を修正している。 具体的には、DH-ATはまず第2のネットワークヘッド(または分岐)をネットワークの中間層にアタッチし、2つのヘッドの出力を集約するために軽量畳み込みニューラルネットワーク(CNN)を使用する。 訓練戦略は2つの頭部の相対的な重要性を反映している。 複数のベンチマークデータセットにおいて、DH-ATが既存の対戦訓練手法に顕著な堅牢性向上をもたらすことを実証的に示す。 TRADESと比較すると,DH-ATはPGD40に対する3.4%,AutoAttackに対する2.3%の堅牢性を向上し,クリーンな精度を1.8%向上させることができる。

Deep neural networks (DNNs) are known to be vulnerable to adversarial examples/attacks, raising concerns about their reliability in safety-critical applications. A number of defense methods have been proposed to train robust DNNs resistant to adversarial attacks, among which adversarial training has so far demonstrated the most promising results. However, recent studies have shown that there exists an inherent tradeoff between accuracy and robustness in adversarially-traine d DNNs. In this paper, we propose a novel technique Dual Head Adversarial Training (DH-AT) to further improve the robustness of existing adversarial training methods. Different from existing improved variants of adversarial training, DH-AT modifies both the architecture of the network and the training strategy to seek more robustness. Specifically, DH-AT first attaches a second network head (or branch) to one intermediate layer of the network, then uses a lightweight convolutional neural network (CNN) to aggregate the outputs of the two heads. The training strategy is also adapted to reflect the relative importance of the two heads. We empirically show, on multiple benchmark datasets, that DH-AT can bring notable robustness improvements to existing adversarial training methods. Compared with TRADES, one state-of-the-art adversarial training method, our DH-AT can improve the robustness by 3.4% against PGD40 and 2.3% against AutoAttack, and also improve the clean accuracy by 1.8%.
翻訳日:2021-04-22 14:31:18 公開日:2021-04-21
# 単一画像超解像のための2段階注意ネットワーク

A Two-Stage Attentive Network for Single Image Super-Resolution ( http://arxiv.org/abs/2104.10488v1 )

ライセンス: Link先を確認
Jiqing Zhang, Chengjiang Long, Yuxin Wang, Haiyin Piao, Haiyang Mei, Xin Yang, Baocai Yin(参考訳) 近年、深層畳み込みニューラルネットワーク(cnns)は、シングルイメージスーパーレゾリューション(sisr)で広く研究され、著しく進歩している。 しかし、既存のCNNベースのSISR手法のほとんどは、特徴抽出段階における文脈情報を適切に探索せず、最終的な高解像度(HR)画像再構成ステップにはほとんど注意を払わず、所望のSR性能を妨げている。 上記の2つの問題に対処するため,本稿では,精度の高いSISRのための2段階の注意ネットワーク(TSAN)を提案する。 具体的には,ネットワークがより情報的な文脈的特徴に集中できるように,MCAB(Multi-context Attentive Block)を設計する。 さらに,精細なHR画像の再構成のために,HR空間で有用な手がかりを探索できる重要な注目ブロック(RAB)を提案する。 4つのベンチマークデータセットの大規模な評価は、定量的なメトリクスと視覚効果の観点から提案したTSANの有効性を示す。 コードはhttps://github.com/J ee-King/TSAN.comで入手できる。

Recently, deep convolutional neural networks (CNNs) have been widely explored in single image super-resolution (SISR) and contribute remarkable progress. However, most of the existing CNNs-based SISR methods do not adequately explore contextual information in the feature extraction stage and pay little attention to the final high-resolution (HR) image reconstruction step, hence hindering the desired SR performance. To address the above two issues, in this paper, we propose a two-stage attentive network (TSAN) for accurate SISR in a coarse-to-fine manner. Specifically, we design a novel multi-context attentive block (MCAB) to make the network focus on more informative contextual features. Moreover, we present an essential refined attention block (RAB) which could explore useful cues in HR space for reconstructing fine-detailed HR image. Extensive evaluations on four benchmark datasets demonstrate the efficacy of our proposed TSAN in terms of quantitative metrics and visual effects. Code is available at https://github.com/J ee-King/TSAN.
翻訳日:2021-04-22 14:30:50 公開日:2021-04-21
# フーリエ畳み込みネットワークを用いたプログラマブル3dスナップショット顕微鏡

Programmable 3D snapshot microscopy with Fourier convolutional networks ( http://arxiv.org/abs/2104.10611v1 )

ライセンス: Link先を確認
Diptodip Deb, Zhenfei Jiao, Alex B. Chen, Misha B. Ahrens, Kaspar Podgorski, Srinivas C. Turaga(参考訳) 3Dスナップショット顕微鏡は、単一の2Dカメライメージで3Dボリュームをキャプチャすることで、カメラと同じくらいの速さでボリュームイメージングを可能にし、幼魚ゼブラフィッシュの高速神経活動の脳全体のイメージングのような様々な生物学的応用を発見した。 できるだけ多くの3d情報を保存するための光学的3d-to-2d符号化の最適顕微鏡設計は一般に未知であり、サンプル依存である。 高プログラマブル光学素子は、顕微鏡パラメータのサンプル特異的な計算最適化のための新しい可能性を生み出す。 特定のサンプル構造、特にディープラーニングを使って、光の収集をチューニングする。 これには、プログラマブル顕微鏡による光伝搬の微分可能なシミュレーションと、顕微鏡画像からボリュームを再構成するニューラルネットワークが含まれる。 本研究では,3次元スナップショット画像に符号化されたグローバル混合情報を効率的に統合できるグローバルカーネルフーリエ畳み込みニューラルネットワークのクラスを提案する。 提案するグローバルなフーリエ畳み込みネットワークは,従来のネットワークが失敗する大規模視野のボリューム再構成と顕微鏡パラメータ最適化に成功していることを示す。

3D snapshot microscopy enables volumetric imaging as fast as a camera allows by capturing a 3D volume in a single 2D camera image, and has found a variety of biological applications such as whole brain imaging of fast neural activity in larval zebrafish. The optimal microscope design for this optical 3D-to-2D encoding to preserve as much 3D information as possible is generally unknown and sample-dependent. Highly-programmable optical elements create new possibilities for sample-specific computational optimization of microscope parameters, e.g. tuning the collection of light for a given sample structure, especially using deep learning. This involves a differentiable simulation of light propagation through the programmable microscope and a neural network to reconstruct volumes from the microscope image. We introduce a class of global kernel Fourier convolutional neural networks which can efficiently integrate the globally mixed information encoded in a 3D snapshot image. We show in silico that our proposed global Fourier convolutional networks succeed in large field-of-view volume reconstruction and microscope parameter optimization where traditional networks fail.
翻訳日:2021-04-22 14:30:32 公開日:2021-04-21
# 勧告におけるユーザ指向フェアネス

User-oriented Fairness in Recommendation ( http://arxiv.org/abs/2104.10671v1 )

ライセンス: Link先を確認
Yunqi Li, Hanxiong Chen, Zuohui Fu, Yingqiang Ge, Yongfeng Zhang(参考訳) 高度にデータ駆動のアプリケーションとして、レコメンダシステムはデータバイアスの影響を受け、異なるデータグループに対して不公平な結果をもたらす可能性がある。 したがって、推薦シナリオにおける不公平な問題を特定し解決することが重要である。 本稿では,ユーザの視点から,推薦システムにおける不公平性の問題に対処する。 ユーザをその活動レベルに応じて有利で不利なグループに分類し、現在の推奨システムは2つのグループ間で不公平に振る舞うことを示す実験を行う。 特に、少ないデータしか占めていない有利なユーザー(アクティブ)は、不利なユーザー(アクティブでない)よりもはるかに高いレコメンデーション品質を享受する。 このようなバイアスは、不利なユーザが最も多いため、全体的なパフォーマンスにも影響します。 この問題を解決するために,評価指標に制約を加えることにより,不公平な問題を緩和する手法を提案する。 様々な推薦アルゴリズムを用いた実世界のデータセットを用いて行った実験により,提案手法は推薦システムにおけるユーザのグループフェアネスを向上するだけでなく,全体的な推薦性能の向上も達成できることがわかった。

As a highly data-driven application, recommender systems could be affected by data bias, resulting in unfair results for different data groups, which could be a reason that affects the system performance. Therefore, it is important to identify and solve the unfairness issues in recommendation scenarios. In this paper, we address the unfairness problem in recommender systems from the user perspective. We group users into advantaged and disadvantaged groups according to their level of activity, and conduct experiments to show that current recommender systems will behave unfairly between two groups of users. Specifically, the advantaged users (active) who only account for a small proportion in data enjoy much higher recommendation quality than those disadvantaged users (inactive). Such bias can also affect the overall performance since the disadvantaged users are the majority. To solve this problem, we provide a re-ranking approach to mitigate this unfairness problem by adding constraints over evaluation metrics. The experiments we conducted on several real-world datasets with various recommendation algorithms show that our approach can not only improve group fairness of users in recommender systems, but also achieve better overall recommendation performance.
翻訳日:2021-04-22 14:30:16 公開日:2021-04-21
# Voice2Mesh: 音声から生成するクロスプラットフォームの3D顔モデル

Voice2Mesh: Cross-Modal 3D Face Model Generation from Voices ( http://arxiv.org/abs/2104.10299v1 )

ライセンス: Link先を確認
Cho-Ying Wu, Ke Xu, Chin-Cheng Hsu, Ulrich Neumann(参考訳) 本研究は,3次元顔モデルが話者の音声入力からのみ学習できるかどうかの分析に焦点をあてる。 クロスモーダル顔合成のための先行研究 : 音声からの画像生成 しかし、画像合成には髪型、背景、顔のテクスチャなどのバリエーションが含まれており、音声とは無関係であり、相関を示す直接的な研究も含まない。 代わりに、3d顔の再構築能力を調べ、より生理学的に接地された幾何学だけに集中する。 教師なし学習フレームワークと教師なし学習フレームワークの両方を提案する。 特に,モデルに知識蒸留が組み込まれている場合,3次元顔スキャンで直接音声から3次元顔へのデータセットが存在しない場合に,教師なし学習がいかに可能かを示す。 また,その性能を評価するために,点,線,領域に基づいて2つの3次元顔の幾何適合度を測定する指標を提案する。 3d顔の形状は音声から再構築できることがわかった。 実験結果から,音声から3次元顔の復元が可能であり,ベースライン性能の向上が期待できることがわかった。 耳と耳の距離比測定(ER)における最高の性能向上(15%から20%)は、話者の顔が全体より広いか、あるいは声のみより薄いか、大まかに想像できるという直感と一致する。 コードとデータのプロジェクトページを参照してください。

This work focuses on the analysis that whether 3D face models can be learned from only the speech inputs of speakers. Previous works for cross-modal face synthesis study image generation from voices. However, image synthesis includes variations such as hairstyles, backgrounds, and facial textures, that are arguably irrelevant to voice or without direct studies to show correlations. We instead investigate the ability to reconstruct 3D faces to concentrate on only geometry, which is more physiologically grounded. We propose both the supervised learning and unsupervised learning frameworks. Especially we demonstrate how unsupervised learning is possible in the absence of a direct voice-to-3D-face dataset under limited availability of 3D face scans when the model is equipped with knowledge distillation. To evaluate the performance, we also propose several metrics to measure the geometric fitness of two 3D faces based on points, lines, and regions. We find that 3D face shapes can be reconstructed from voices. Experimental results suggest that 3D faces can be reconstructed from voices, and our method can improve the performance over the baseline. The best performance gains (15% - 20%) on ear-to-ear distance ratio metric (ER) coincides with the intuition that one can roughly envision whether a speaker's face is overall wider or thinner only from a person's voice. See our project page for codes and data.
翻訳日:2021-04-22 14:29:57 公開日:2021-04-21
# 句読点予測のための判別的自己学習

Discriminative Self-training for Punctuation Prediction ( http://arxiv.org/abs/2104.10339v1 )

ライセンス: Link先を確認
Qian Chen, Wen Wang, Mengzhe Chen, Qinglin Zhang(参考訳) 自動音声認識(asr)出力書き起こしのための句読化予測は、asr書き起こしの可読性の向上と下流自然言語処理アプリケーションの性能向上に重要な役割を果たしている。 しかし、句読点予測において優れた性能を達成するには、しばしば大量のラベル付き音声書き起こしが必要となる。 本稿では,重み付き損失と識別ラベル平滑化を用いた識別的自己学習手法を提案する。 english iwslt2011ベンチマークテストセットと内部中国語音声データセットの実験結果は、bert、roberta、electraモデルを含む強力なベースラインに対して、提案手法が句読点予測精度の大幅な改善を達成していることを示している。 提案する判別的自己学習アプローチは,バニラ自己学習アプローチを上回っている。 我々はIWSLT2011テストセット上に新しい最先端SOTA(State-of-the-ar t)を確立し、F$_1$のSOTAモデルに対して1.3%の絶対ゲインを達成した。

Punctuation prediction for automatic speech recognition (ASR) output transcripts plays a crucial role for improving the readability of the ASR transcripts and for improving the performance of downstream natural language processing applications. However, achieving good performance on punctuation prediction often requires large amounts of labeled speech transcripts, which is expensive and laborious. In this paper, we propose a Discriminative Self-Training approach with weighted loss and discriminative label smoothing to exploit unlabeled speech transcripts. Experimental results on the English IWSLT2011 benchmark test set and an internal Chinese spoken language dataset demonstrate that the proposed approach achieves significant improvement on punctuation prediction accuracy over strong baselines including BERT, RoBERTa, and ELECTRA models. The proposed Discriminative Self-Training approach outperforms the vanilla self-training approach. We establish a new state-of-the-art (SOTA) on the IWSLT2011 test set, outperforming the current SOTA model by 1.3% absolute gain on F$_1$.
翻訳日:2021-04-22 14:29:33 公開日:2021-04-21
# 知識による生物医学事前学習言語モデルの改善

Improving Biomedical Pretrained Language Models with Knowledge ( http://arxiv.org/abs/2104.10344v1 )

ライセンス: Link先を確認
Zheng Yuan, Yijia Liu, Chuanqi Tan, Songfang Huang, Fei Huang(参考訳) 事前訓練された言語モデルは、多くの自然言語処理タスクで成功している。 多くの研究が知識を言語モデルに組み入れている。 生物医学の分野では、専門家は大規模な知識基盤の構築に何十年も努力してきた。 例えば、統一医療言語システム(umls)は、その同義語を持つ数百万のエンティティを含み、エンティティ間の関係を定義している。 この知識を活用することで、名前付きエンティティ認識や関係抽出といった下流タスクの恩恵を受けることができる。 そこで本研究では,UMLS知識ベースからの知識を明示的に活用するバイオメディカル事前学習型言語モデルKeBioLMを提案する。 具体的には、PubMed抽象化からエンティティを抽出し、UMLSにリンクする。 次に、まず、エンティティ表現の学習にテキストのみの符号化層を適用し、エンティティ表現の集約にテキスト中心の融合符号化を適用する知識対応言語モデルを訓練する。 さらに、エンティティ検出とエンティティリンクの2つのトレーニング目標を追加します。 BLURBベンチマークから名前付きエンティティ認識と関係抽出実験を行い,本手法の有効性を示した。 収集された調査データセットのさらなる分析は、我々のモデルが医療知識をモデル化する能力を持っていることを示している。

Pretrained language models have shown success in many natural language processing tasks. Many works explore incorporating knowledge into language models. In the biomedical domain, experts have taken decades of effort on building large-scale knowledge bases. For example, the Unified Medical Language System (UMLS) contains millions of entities with their synonyms and defines hundreds of relations among entities. Leveraging this knowledge can benefit a variety of downstream tasks such as named entity recognition and relation extraction. To this end, we propose KeBioLM, a biomedical pretrained language model that explicitly leverages knowledge from the UMLS knowledge bases. Specifically, we extract entities from PubMed abstracts and link them to UMLS. We then train a knowledge-aware language model that firstly applies a text-only encoding layer to learn entity representation and applies a text-entity fusion encoding to aggregate entity representation. Besides, we add two training objectives as entity detection and entity linking. Experiments on the named entity recognition and relation extraction from the BLURB benchmark demonstrate the effectiveness of our approach. Further analysis on a collected probing dataset shows that our model has better ability to model medical knowledge.
翻訳日:2021-04-22 14:29:16 公開日:2021-04-21
# 共同文・音声表現学習による音声言語理解のための事前学習

Pre-training for Spoken Language Understanding with Joint Textual and Phonetic Representation Learning ( http://arxiv.org/abs/2104.10357v1 )

ライセンス: Link先を確認
Qian Chen, Wen Wang, Qinglin Zhang(参考訳) 音声言語理解のための従来のカスケードアーキテクチャ(SLU)では、音声認識エラーが自然言語理解の性能に悪影響を及ぼすことが観察されている。 E2E(End-to-end)のSLUモデルは、音声入力を1つのモデルで所望のセマンティックフレームに直接マッピングすることで、ASRエラーの伝播を緩和する。 近年,これらのE2Eモデルの事前学習技術が検討されている。 本稿では,音声言語表現の学習において,SLUの頑健性を向上させるために,音声情報の全可能性を探究することを目的とした,新たなテキスト音声事前学習手法を提案する。 音素ラベルをハイレベルな音声特徴として検討し,条件付きマスキング言語モデル目標と間関係目標に基づく事前学習タスクの設計と比較を行った。 また,テキスト情報と音声情報の組み合わせによる微調整の有効性についても検討した。 音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも優れ,ASR誤りに対する音声言語理解の堅牢性を向上させることが示唆された。

In the traditional cascading architecture for spoken language understanding (SLU), it has been observed that automatic speech recognition errors could be detrimental to the performance of natural language understanding. End-to-end (E2E) SLU models have been proposed to directly map speech input to desired semantic frame with a single model, hence mitigating ASR error propagation. Recently, pre-training technologies have been explored for these E2E models. In this paper, we propose a novel joint textual-phonetic pre-training approach for learning spoken language representations, aiming at exploring the full potentials of phonetic information to improve SLU robustness to ASR errors. We explore phoneme labels as high-level speech features, and design and compare pre-training tasks based on conditional masked language model objectives and inter-sentence relation objectives. We also investigate the efficacy of combining textual and phonetic information during fine-tuning. Experimental results on spoken language understanding benchmarks, Fluent Speech Commands and SNIPS, show that the proposed approach significantly outperforms strong baseline models and improves robustness of spoken language understanding to ASR errors.
翻訳日:2021-04-22 14:29:01 公開日:2021-04-21
# クロスモーダルプログレッシブトレーニングによるエンドツーエンド音声翻訳

End-to-end Speech Translation via Cross-modal Progressive Training ( http://arxiv.org/abs/2104.10380v1 )

ライセンス: Link先を確認
Rong Ye, Mingxuan Wang, Lei Li(参考訳) エンドツーエンドの音声翻訳モデルは、誤りの伝播を減少させる可能性から、研究の新たなトレンドとなっている。 しかし、これらのモデルはまだデータの不足という課題に苦しんでいる。 機械翻訳から無ラベルや他の並列コーパスを効果的に利用する方法は有望だが、まだ未解決の問題である。 本稿では,テキスト翻訳のエンドツーエンドモデルであるCross Speech-Text Network (XSTNet)を提案する。 xstnetは音声とテキストの両方を入力とし、転写と翻訳の両方のテキストを出力する。 このモデルは、オーディオエンコーダとして訓練済みの自己監視サブネットワーク、追加の並列バイリンガルテキストを活用するマルチタスクトレーニング目標、プログレッシブトレーニング手順の3つの主要な設計面から恩恵を受ける。 我々はXSTNetの性能と MuST-C En-De/Fr/Ru データセットのベースラインを評価する。 XSTNet は、平均 BLEU が 27.8 である3つの言語方向の最先端の結果を達成し、以前のベストメソッドを 3.7 BLEU で上回っている。 コードとモデルは一般公開される予定だ。

End-to-end speech translation models have become a new trend in the research due to their potential of reducing error propagation. However, these models still suffer from the challenge of data scarcity. How to effectively make use of unlabeled or other parallel corpora from machine translation is promising but still an open problem. In this paper, we propose Cross Speech-Text Network (XSTNet), an end-to-end model for speech-to-text translation. XSTNet takes both speech and text as input and outputs both transcription and translation text. The model benefits from its three key design aspects: a self supervising pre-trained sub-network as the audio encoder, a multi-task training objective to exploit additional parallel bilingual text, and a progressive training procedure. We evaluate the performance of XSTNet and baselines on the MuST-C En-De/Fr/Ru datasets. XSTNet achieves state-of-the-art results on all three language directions with an average BLEU of 27.8, outperforming the previous best method by 3.7 BLEU. The code and the models will be released to the public.
翻訳日:2021-04-22 14:28:39 公開日:2021-04-21
# 機械翻訳出力の大規模文書レベルヒューマン評価のためのユーザインタフェースについて

On User Interfaces for Large-Scale Document-Level Human Evaluation of Machine Translation Outputs ( http://arxiv.org/abs/2104.10408v1 )

ライセンス: Link先を確認
Roman Grundkiewicz, Marcin Junczys-Dowmunt, Christian Federmann and Tom Kocmi(参考訳) 近年,機械翻訳評価における文書コンテキストの必要性が強調されているが,ユーザインタフェースがアノテータの生産性や評価の信頼性に与える影響についてはほとんど研究されていない。 本研究では,過去2回のwmt評価キャンペーンの人間評価データを,文書レベルの評価のために2つの異なる方法を用いて比較した。 分析の結果,アノテータが画面上の文書コンテキスト全体に対して提示される文書中心のアプローチは,高品質セグメントと文書レベルの評価につながることがわかった。 セグメントと文書スコアの相関を改善し、文書スコアのアノテータ間合意を増加させるが、アノテータにはかなり時間がかかる。

Recent studies emphasize the need of document context in human evaluation of machine translations, but little research has been done on the impact of user interfaces on annotator productivity and the reliability of assessments. In this work, we compare human assessment data from the last two WMT evaluation campaigns collected via two different methods for document-level evaluation. Our analysis shows that a document-centric approach to evaluation where the annotator is presented with the entire document context on a screen leads to higher quality segment and document level assessments. It improves the correlation between segment and document scores and increases inter-annotator agreement for document scores but is considerably more time consuming for annotators.
翻訳日:2021-04-22 14:28:20 公開日:2021-04-21
# Span-based Dictionary Matchingによるエンドツーエンドバイオメディカルエンティティリンク

End-to-end Biomedical Entity Linking with Span-based Dictionary Matching ( http://arxiv.org/abs/2104.10493v1 )

ライセンス: Link先を確認
Shogo Ujiie, Hayate Iso, Shuntaro Yada, Shoko Wakamiya, Eiji Aramaki(参考訳) 病名認識と正規化は一般にバイオメディカルエンティティリンクと呼ばれ、バイオメディカルテキストマイニングの基本的なプロセスである。 近年,両課題のニューラル・ジョイント・ラーニングが提案されている。 このアプローチは高いパフォーマンスを達成するが、トレーニングデータセットに現れない疾患の概念を正確に予測することはできない。 本研究では,スパン表現と辞書マッチング機能を組み合わせた新しいエンドツーエンドアプローチを提案する。 本モデルは,ニューラルネットワークモデルの性能をエンドツーエンドに維持しながら辞書を参照することで,目に見えない概念を扱う。 2つの主要なデータセットを用いた実験では、トレーニング中に特に目に見えない概念に対して、強力なベースラインを持つ競争結果が得られた。

Disease name recognition and normalization, which is generally called biomedical entity linking, is a fundamental process in biomedical text mining. Recently, neural joint learning of both tasks has been proposed to utilize the mutual benefits. While this approach achieves high performance, disease concepts that do not appear in the training dataset cannot be accurately predicted. This study introduces a novel end-to-end approach that combines span representations with dictionary-matching features to address this problem. Our model handles unseen concepts by referring to a dictionary while maintaining the performance of neural network-based models, in an end-to-end fashion. Experiments using two major datasets demonstrate that our model achieved competitive results with strong baselines, especially for unseen concepts during training.
翻訳日:2021-04-22 14:28:10 公開日:2021-04-21
# 進化的表現学習に基づく時間的知識グラフ推論

Temporal Knowledge Graph Reasoning Based on Evolutional Representation Learning ( http://arxiv.org/abs/2104.10353v1 )

ライセンス: Link先を確認
Zixuan Li, Xiaolong Jin, Wei Li, Saiping Guan, Jiafeng Guo, Huawei Shen, Yuanzhuo Wang and Xueqi Cheng(参考訳) 不完全なKGの不足事実を予測する知識グラフ推論(KG)が広く研究されている。 しかし、将来的な事実を予測するための時間的KG(TKG)に対する推論はまだ解決されていない。 将来の事実を予測する鍵は、歴史的事実を徹底的に理解することである。 TKGは、実際には異なるタイムスタンプに対応するKGの系列であり、各KG内の全ての同時事実は構造的依存関係を示し、時間的に隣接する事実は情報的連続パターンを持つ。 本稿では,これらの特性を効果的かつ効率的に捉えるために,グラフ畳み込みネットワーク(GCN)をベースとした新しいリカレント進化ネットワークRE-GCNを提案する。 特に、進化ユニットでは、関係認識gcnを利用して、各タイムスタンプでkg内の構造的依存関係をキャプチャする。 全ての事実の逐次パターンを並列に捉えるために、歴史的なkg系列はゲート再帰成分によって自己回帰的にモデル化される。 さらに、エンティティタイプのようなエンティティの静的プロパティは、より優れたエンティティ表現を得るために静的グラフ制約コンポーネントによっても組み込まれます。 将来のタイムスタンプでの正確な予測は、進化的実体と関係表現に基づいて実現できる。 大規模な実験により、RE-GCNモデルは6つのベンチマークデータセットにおける時間的推論タスクの性能と効率を大幅に向上することを示した。 特に、エンティティ予測のための最大11.46\%の改善を実現し、最先端のベースラインと比較して82倍のスピードアップを実現している。

Knowledge Graph (KG) reasoning that predicts missing facts for incomplete KGs has been widely explored. However, reasoning over Temporal KG (TKG) that predicts facts in the future is still far from resolved. The key to predict future facts is to thoroughly understand the historical facts. A TKG is actually a sequence of KGs corresponding to different timestamps, where all concurrent facts in each KG exhibit structural dependencies and temporally adjacent facts carry informative sequential patterns. To capture these properties effectively and efficiently, we propose a novel Recurrent Evolution network based on Graph Convolution Network (GCN), called RE-GCN, which learns the evolutional representations of entities and relations at each timestamp by modeling the KG sequence recurrently. Specifically, for the evolution unit, a relation-aware GCN is leveraged to capture the structural dependencies within the KG at each timestamp. In order to capture the sequential patterns of all facts in parallel, the historical KG sequence is modeled auto-regressively by the gate recurrent components. Moreover, the static properties of entities such as entity types, are also incorporated via a static graph constraint component to obtain better entity representations. Fact prediction at future timestamps can then be realized based on the evolutional entity and relation representations. Extensive experiments demonstrate that the RE-GCN model obtains substantial performance and efficiency improvement for the temporal reasoning tasks on six benchmark datasets. Especially, it achieves up to 11.46\% improvement in MRR for entity prediction with up to 82 times speedup comparing to the state-of-the-art baseline.
翻訳日:2021-04-22 14:27:56 公開日:2021-04-21
# SRWarp: 任意変換による画像超解法

SRWarp: Generalized Image Super-Resolution under Arbitrary Transformation ( http://arxiv.org/abs/2104.10325v1 )

ライセンス: Link先を確認
Sanghyun Son and Kyoung Mu Lee(参考訳) 深層cnnは、sr(single image super- resolution)を含む画像処理およびそのアプリケーションで大きな成功を収めている。 しかし、従来の方法は、x2 や x4 など、いくつかの所定の整数スケーリング因子を利用する。 したがって、任意の目標解像度が必要な場合、適用は困難である。 近年のアプローチでは、制限に対処するためのアスペクト比が変化しても、実際の値のアップサンプリング要因にまで範囲を広げている。 本稿では,任意の画像変換に向けて,SRタスクをさらに一般化するSRWarpフレームワークを提案する。 従来の画像ワープタスク,特に入力が拡大された場合には,空間的に変化するSR問題として解釈する。 また, 適応整合層やマルチスケールブレンディングなどの新しい定式化を提案し, 変換過程における視覚的に好ましい結果を再構成する。 従来の方法と比較して,srモデルを正規格子上に制約するのではなく,柔軟で多様な画像編集のための変形を多用できる。 大規模な実験とアブレーション研究は、様々な変換の下で提案されたSRWarp法の利点を正当化し、証明する。

Deep CNNs have achieved significant successes in image processing and its applications, including single image super-resolution (SR). However, conventional methods still resort to some predetermined integer scaling factors, e.g., x2 or x4. Thus, they are difficult to be applied when arbitrary target resolutions are required. Recent approaches extend the scope to real-valued upsampling factors, even with varying aspect ratios to handle the limitation. In this paper, we propose the SRWarp framework to further generalize the SR tasks toward an arbitrary image transformation. We interpret the traditional image warping task, specifically when the input is enlarged, as a spatially-varying SR problem. We also propose several novel formulations, including the adaptive warping layer and multiscale blending, to reconstruct visually favorable results in the transformation process. Compared with previous methods, we do not constrain the SR model on a regular grid but allow numerous possible deformations for flexible and diverse image editing. Extensive experiments and ablation studies justify the necessity and demonstrate the advantage of the proposed SRWarp method under various transformations.
翻訳日:2021-04-22 14:27:06 公開日:2021-04-21
# 因果干渉による弱教師付き物体定位の改善

Improving Weakly-supervised Object Localization via Causal Intervention ( http://arxiv.org/abs/2104.10351v1 )

ライセンス: Link先を確認
Feifei Shao, Yawei Luo, Li Zhang, Lu Ye, Siliang Tang, Yi Yang, Jun Xiao(参考訳) 最近登場したweakly supervised object localization(wsol)メソッドは、画像レベルのラベルのみを使用して、画像内のオブジェクトをローカライズすることを学ぶことができる。 それまでの作業では、間隔オブジェクトを小さめの差別的注意マップから知覚しようと努力したが、共起共同創設者(鳥と空など)を無視し、モデル検査(例えばCAM)がオブジェクトとコンテキストを区別することを困難にしている。 本稿では,この課題を因果介入(CI)によって早期に解決しようと試みる。 提案手法はCI-CAMと呼ばれ,画像,コンテキスト,カテゴリ間の因果関係を探索し,クラスアクティベーションマップの偏りを排除し,オブジェクトの局所化の精度を向上させる。 いくつかのベンチマークにおいて、CI-CAMがコンテキスト境界から明確なオブジェクト境界を学習する際の有効性を示す大規模な実験が行われた。 特に共同設立者のCUB-200-2011では、CI-CAMは従来のCAMベースのベースライン(トップ1のローカライゼーション精度では58.39%対52.4%)を著しく上回っている。 ImageNetのような一般的なシナリオでは、CI-CAMはアーティファクトの状況と同等に実行できる。

The recent emerged weakly supervised object localization (WSOL) methods can learn to localize an object in the image only using image-level labels. Previous works endeavor to perceive the interval objects from the small and sparse discriminative attention map, yet ignoring the co-occurrence confounder (e.g., bird and sky), which makes the model inspection (e.g., CAM) hard to distinguish between the object and context. In this paper, we make an early attempt to tackle this challenge via causal intervention (CI). Our proposed method, dubbed CI-CAM, explores the causalities among images, contexts, and categories to eliminate the biased co-occurrence in the class activation maps thus improving the accuracy of object localization. Extensive experiments on several benchmarks demonstrate the effectiveness of CI-CAM in learning the clear object boundaries from confounding contexts. Particularly, in CUB-200-2011 which severely suffers from the co-occurrence confounder, CI-CAM significantly outperforms the traditional CAM-based baseline (58.39% vs 52.4% in top-1 localization accuracy). While in more general scenarios such as ImageNet, CI-CAM can also perform on par with the state of the arts.
翻訳日:2021-04-22 14:26:49 公開日:2021-04-21
# 信頼度に基づくアテンションマップを用いた対話型ビデオオブジェクトセグメンテーション

Guided Interactive Video Object Segmentation Using Reliability-Based Attention Maps ( http://arxiv.org/abs/2104.10386v1 )

ライセンス: Link先を確認
Yuk Heo, Yeong Jun Koh, Chang-Su Kim(参考訳) 本稿では,映像オブジェクトに対する対話的セグメンテーション(GIS)アルゴリズムを提案し,セグメンテーションの精度を向上し,インタラクション時間を短縮する。 まず,複数のアノテートフレームの信頼性を分析するために,信頼性に基づくアテンションモジュールを設計する。 次に,隣接フレームにセグメンテーション結果を伝搬する交叉認識伝搬モジュールを開発した。 第3に,ユーザが少ない労力で迅速に不満足なフレームを選択するためのGIS機構を導入する。 実験により,提案アルゴリズムは従来のアルゴリズムよりも高速に精度の高いセグメンテーション結果を提供することを示した。 コードはhttps://github.com/y uk6heo/GIS-RAmapで公開されている。

We propose a novel guided interactive segmentation (GIS) algorithm for video objects to improve the segmentation accuracy and reduce the interaction time. First, we design the reliability-based attention module to analyze the reliability of multiple annotated frames. Second, we develop the intersection-aware propagation module to propagate segmentation results to neighboring frames. Third, we introduce the GIS mechanism for a user to select unsatisfactory frames quickly with less effort. Experimental results demonstrate that the proposed algorithm provides more accurate segmentation results at a faster speed than conventional algorithms. Codes are available at https://github.com/y uk6heo/GIS-RAmap.
翻訳日:2021-04-22 14:26:28 公開日:2021-04-21
# PP-YOLOv2: 実用的なオブジェクト検出器

PP-YOLOv2: A Practical Object Detector ( http://arxiv.org/abs/2104.10419v1 )

ライセンス: Link先を確認
Xin Huang, Xinxin Wang, Wenyu Lv, Xiaying Bai, Xiang Long, Kaipeng Deng, Qingqing Dang, Shumin Han, Qiwen Liu, Xiaoguang Hu, Dianhai Yu, Yanjun Ma, Osamu Yoshie(参考訳) 有効かつ効率的であることは、実用のために対象検出器に不可欠である。 これら2つの問題に対処するため,PP-YOLOの性能向上のために既存の改良品のコレクションを網羅的に評価した。 本稿では,改良の集合を解析し,漸進的アブレーションによる最終モデル性能への影響を実証的に評価する。 うまくいかなかったことについても議論します。 複数の効果的な改善を組み合わせることで、PP-YOLOの性能は45.9% mAPから49.5% mAPに向上する。 性能のかなりの差が得られたので、PP-YOLOv2を提示する。 PP-YOLOv2は68.9FPSで640x640の入力サイズで動作する。 TensorRT、FP16-precision、バッチサイズが1のパドル推論エンジンはPP-YOLOv2の推論速度をさらに改善し、106.5 FPSを達成した。 このような性能は、ほぼ同じ量のパラメータ(YOLOv4-CSP、YOLOv5l)を持つ既存のオブジェクト検出器を上回る。 さらに、ResNet101のPP-YOLOv2はCOCO2017 test-devで50.3%のmAPを達成した。 ソースコードはhttps://github.com/P addlePaddle/PaddleDe tectionにある。

Being effective and efficient is essential to an object detector for practical use. To meet these two concerns, we comprehensively evaluate a collection of existing refinements to improve the performance of PP-YOLO while almost keep the infer time unchanged. This paper will analyze a collection of refinements and empirically evaluate their impact on the final model performance through incremental ablation study. Things we tried that didn't work will also be discussed. By combining multiple effective refinements, we boost PP-YOLO's performance from 45.9% mAP to 49.5% mAP on COCO2017 test-dev. Since a significant margin of performance has been made, we present PP-YOLOv2. In terms of speed, PP-YOLOv2 runs in 68.9FPS at 640x640 input size. Paddle inference engine with TensorRT, FP16-precision, and batch size = 1 further improves PP-YOLOv2's infer speed, which achieves 106.5 FPS. Such a performance surpasses existing object detectors with roughly the same amount of parameters (i.e., YOLOv4-CSP, YOLOv5l). Besides, PP-YOLOv2 with ResNet101 achieves 50.3% mAP on COCO2017 test-dev. Source code is at https://github.com/P addlePaddle/PaddleDe tection.
翻訳日:2021-04-22 14:26:18 公開日:2021-04-21
# 非局所的な3Dアテンションネットワークによる日常的顔面疲労のマシンビジョン検出

Machine vision detection to daily facial fatigue with a nonlocal 3D attention network ( http://arxiv.org/abs/2104.10420v1 )

ライセンス: Link先を確認
Zeyu Chen, Xinhang Zhang, Juan Li, Jingxuan Ni, Gang Chen, Shaohua Wang, Fangfang Fan, Changfeng Charles Wang, Xiaotao Li(参考訳) 疲労検出は、精神の健康を保ち、安全事故を防ぐために重要である。 しかしながら、特に機械ビジョンによる現実世界の軽度の疲労である顔面疲労の検出は、ラベルなしのデータセットやよく定義されたアルゴリズムが欠如しているため、依然として課題である。 日常生活で広く使用できる顔面疲労の検出能力を向上させるため,本研究は,dlfd(daily-life fatigue dataset)というオーディオビジュアルデータセットを提供し,野生の人の顔面疲労状態を反映させた。 3d-resnetと非局所的注意機構を用いた枠組みは,空間的および時間的次元における局所的および長距離的特徴抽出のための訓練であった。 次に, 平均二乗誤差とクロスエントロピーを組み合わせた圧縮損失関数を考案し, 連続的およびカテゴリー的疲労度を予測した。 提案フレームワークは,検証セットの平均精度が90.8%,バイナリ分類テストセットが72.5%に達し,他の最先端手法と比較して良好な位置にある。 特徴地図の可視化分析により, 顔のダイナミックスを捉え, 疲労状態との関係の構築を試みた。 複数の測定値を用いた実験結果から,我々のフレームワークは時空間的次元に沿った典型的なマイクロ・ダイナミックな顔特徴を捉え,野生での軽度疲労検出に寄与した。

Fatigue detection is valued for people to keep mental health and prevent safety accidents. However, detecting facial fatigue, especially mild fatigue in the real world via machine vision is still a challenging issue due to lack of non-lab dataset and well-defined algorithms. In order to improve the detection capability on facial fatigue that can be used widely in daily life, this paper provided an audiovisual dataset named DLFD (daily-life fatigue dataset) which reflected people's facial fatigue state in the wild. A framework using 3D-ResNet along with non-local attention mechanism was training for extraction of local and long-range features in spatial and temporal dimensions. Then, a compacted loss function combining mean squared error and cross-entropy was designed to predict both continuous and categorical fatigue degrees. Our proposed framework has reached an average accuracy of 90.8% on validation set and 72.5% on test set for binary classification, standing a good position compared to other state-of-the-art methods. The analysis of feature map visualization revealed that our framework captured facial dynamics and attempted to build a connection with fatigue state. Our experimental results in multiple metrics proved that our framework captured some typical, micro and dynamic facial features along spatiotemporal dimensions, contributing to the mild fatigue detection in the wild.
翻訳日:2021-04-22 14:25:59 公開日:2021-04-21
# 任意形テキスト検出のためのフーリエ輪郭埋め込み

Fourier Contour Embedding for Arbitrary-Shaped Text Detection ( http://arxiv.org/abs/2104.10442v1 )

ライセンス: Link先を確認
Yiqin Zhu, Jianyong Chen, Lingyu Liang, Zhuanghui Kuang, Lianwen Jin and Wayne Zhang(参考訳) 任意の形のテキスト検出の主な課題の1つは、ネットワークが多様なテキスト幾何分散を学習できる優れたテキストインスタンス表現を設計することである。 既存の手法のほとんどは、デカルト座標系や極座標系におけるマスクや輪郭点列を通して、画像空間領域内のテキストインスタンスをモデル化する。 しかし、マスク表現は高価な後処理につながるかもしれないが、ポイントシーケンスは高度に湾曲した形状のテキストをモデル化する能力に制限がある。 これらの問題に対処するために、フーリエ領域のテキストインスタンスをモデル化し、任意の形状のテキスト輪郭をコンパクトなシグネチャとして表現するための新しいFCE法を提案する。 さらに、FCENetをバックボーン、機能ピラミッドネットワーク(FPN)、逆フーリエ変換(IFT)および非最大抑圧(NMS)で単純な後処理で構築する。 以前の方法とは異なり、FCENetはまずテキストインスタンスのコンパクトなフーリエシグネチャを予測し、テスト中にIFTとNMSを介してテキストの輪郭を再構築する。 広範な実験により、fceは高曲率な形状であってもシーンテキストの輪郭に適合する精度と頑健さを示し、任意の形状のテキスト検出におけるfcenetの有効性と優れた一般化を検証する。 さらに,実験結果から,FCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れていることがわかった。

One of the main challenges for arbitrary-shaped text detection is to design a good text instance representation that allows networks to learn diverse text geometry variances. Most of existing methods model text instances in image spatial domain via masks or contour point sequences in the Cartesian or the polar coordinate system. However, the mask representation might lead to expensive post-processing, while the point sequence one may have limited capability to model texts with highly-curved shapes. To tackle these problems, we model text instances in the Fourier domain and propose one novel Fourier Contour Embedding (FCE) method to represent arbitrary shaped text contours as compact signatures. We further construct FCENet with a backbone, feature pyramid networks (FPN) and a simple post-processing with the Inverse Fourier Transformation (IFT) and Non-Maximum Suppression (NMS). Different from previous methods, FCENet first predicts compact Fourier signatures of text instances, and then reconstructs text contours via IFT and NMS during test. Extensive experiments demonstrate that FCE is accurate and robust to fit contours of scene texts even with highly-curved shapes, and also validate the effectiveness and the good generalization of FCENet for arbitrary-shaped text detection. Furthermore, experimental results show that our FCENet is superior to the state-of-the-art (SOTA) methods on CTW1500 and Total-Text, especially on challenging highly-curved text subset.
翻訳日:2021-04-22 14:25:38 公開日:2021-04-21
# 医用画像登録のためのメタラーニングアプローチ

A Meta-Learning Approach for Medical Image Registration ( http://arxiv.org/abs/2104.10447v1 )

ライセンス: Link先を確認
Heejung Park, Gyeong Min Lee, Soopil Kim, Ga Hyung Ryu, Areum Jeong, Sang Hyun Park, Min Sagong(参考訳) 非厳格な登録は、医療画像研究において必要だが難しい課題である。 近年,教師なし登録モデルの性能が向上しているが,大規模トレーニングデータセットと長いトレーニング時間を要することが多い。 したがって、数十から数百のイメージペアしか利用できない現実世界のアプリケーションでは、既存のモデルは実際に使用できない。 これらの制約に対処するために,グラデーションに基づくメタ学習フレームワークと統合した教師なし登録モデルを提案する。 特に,既存の登録データセットを利用して,パラメータの初期化点を求めるメタ学習者を訓練する。 さまざまなタスクに迅速に適応するために、meta learnerは更新され、登録タスク毎に微調整されたパラメータの中心に近づいた。 これにより、短時間の微調整プロセスを通じて、未認識のドメインタスクに適応し、正確な登録を行うことができる。 本モデルの優位性を検証するため,網膜脈絡膜光コヒーレンス・トモグラフィー(OCTA),CT臓器,脳MRIスキャンなど,様々な2次元医用画像登録タスクのモデルを訓練し,網膜 OCTA 上毛細血管叢(SCP)の登録試験を行った。 本実験では, 他の登録モデルと比較して, 精度およびトレーニング時間の観点から, 性能が有意に向上した。

Non-rigid registration is a necessary but challenging task in medical imaging studies. Recently, unsupervised registration models have shown good performance, but they often require a large-scale training dataset and long training times. Therefore, in real world application where only dozens to hundreds of image pairs are available, existing models cannot be practically used. To address these limitations, we propose a novel unsupervised registration model which is integrated with a gradient-based meta learning framework. In particular, we train a meta learner which finds an initialization point of parameters by utilizing a variety of existing registration datasets. To quickly adapt to various tasks, the meta learner was updated to get close to the center of parameters which are fine-tuned for each registration task. Thereby, our model can adapt to unseen domain tasks via a short fine-tuning process and perform accurate registration. To verify the superiority of our model, we train the model for various 2D medical image registration tasks such as retinal choroid Optical Coherence Tomography Angiography (OCTA), CT organs, and brain MRI scans and test on registration of retinal OCTA Superficial Capillary Plexus (SCP). In our experiments, the proposed model obtained significantly improved performance in terms of accuracy and training time compared to other registration models.
翻訳日:2021-04-22 14:25:08 公開日:2021-04-21
# ディトラクションマイニングによるカモフラージュ物体分割

Camouflaged Object Segmentation with Distraction Mining ( http://arxiv.org/abs/2104.10475v1 )

ライセンス: Link先を確認
Haiyang Mei, Ge-Peng Ji, Ziqi Wei, Xin Yang, Xiaopeng Wei, Deng-Ping Fan(参考訳) カモフラージュされたオブジェクトセグメンテーション(COS)は、「完璧に」周囲に同化しているオブジェクトを識別することを目的としており、様々な価値ある応用がある。 COSの重要な課題は、候補オブジェクトとノイズ背景との間には固有の類似性が高いことである。 本稿では, 効率的かつ効率的なcosに向けた課題を取り組もうとしている。この目的のために我々は, 生物にインスパイアされたフレームワーク, ポジショニング・アンド・フォーカス・ネットワーク (pfnet) を開発し, 自然界における捕食の過程を模倣する。 具体的には、PFNetには2つの重要なモジュール、すなわち位置決めモジュール(PM)とフォーカスモジュール(FM)が含まれている。 PMは、大域的な視点から潜在的対象物を位置決めする捕食における検出過程を模倣し、FMを用いて、不明瞭領域に着目して粗い予測を段階的に洗練する捕食における識別処理を行う。 特にfmでは, 推定性能のメリットを享受するために, 注意散逸発見と除去のための新しい注意散逸マイニング戦略を開発した。 大規模な実験により、我々のPFNetはリアルタイム(72 FPS)で動作し、4つの標準メトリクスの下で3つの挑戦的なデータセット上で18の最先端モデルよりも大幅に優れています。

Camouflaged object segmentation (COS) aims to identify objects that are "perfectly" assimilate into their surroundings, which has a wide range of valuable applications. The key challenge of COS is that there exist high intrinsic similarities between the candidate objects and noise background. In this paper, we strive to embrace challenges towards effective and efficient COS. To this end, we develop a bio-inspired framework, termed Positioning and Focus Network (PFNet), which mimics the process of predation in nature. Specifically, our PFNet contains two key modules, i.e., the positioning module (PM) and the focus module (FM). The PM is designed to mimic the detection process in predation for positioning the potential target objects from a global perspective and the FM is then used to perform the identification process in predation for progressively refining the coarse prediction via focusing on the ambiguous regions. Notably, in the FM, we develop a novel distraction mining strategy for distraction discovery and removal, to benefit the performance of estimation. Extensive experiments demonstrate that our PFNet runs in real-time (72 FPS) and significantly outperforms 18 cutting-edge models on three challenging datasets under four standard metrics.
翻訳日:2021-04-22 14:24:46 公開日:2021-04-21
# 映像行動認識のためのスキーと走査

Skimming and Scanning for Untrimmed Video Action Recognition ( http://arxiv.org/abs/2104.10492v1 )

ライセンス: Link先を確認
Yunyan Hong, Ailing Zeng, Min Li, Cewu Lu, Li Jiang, Qiang Xu(参考訳) ビデオアクション認識(var)はビデオ理解の主要なタスクであり、未編集の動画は現実のシーンでより一般的である。 非トリミングビデオには、コンテキスト情報を含む冗長で多様なクリップがあるため、濃密なクリップのサンプリングが不可欠である。 最近、Nが最も代表的なクリップを選択するためにジェネリックモデルをトレーニングしようとする研究もある。 しかし,クラス内クリップとクラス間ビデオの複雑な関係を1つのモデルと固定された選択数でモデル化することは困難であり,複数の関係の絡み合いも説明が困難である。 したがって、我々は「一度だけ見る」のではなく、「分割して征服する」戦略が未熟なVARにもっと適すると論じている。 高速読解機構に触発されて,skim-scan技術に基づく簡易かつ効果的なクリップレベルソリューションを提案する。 特に、提案されているskim-scanフレームワークは、まずビデオ全体をスキップし、意図しない、誤解を招くクリップを落とします。 残りのクリップは、さまざまな機能を備えたクリップをスキャンして、冗長なクリップをドロップするが、必須のコンテンツをカバーする。 上記の戦略は、異なるビデオの難易度に応じて、必要なクリップを適応的に選択することができる。 計算複雑性と性能をトレードオフするため,軽量ネットワークと重ネットワークの類似した統計的表現を観測し,それらの組み合わせについて検討する。 ActivityNet と mini-FCVID データセットで総合実験を行い,その精度と効率の両面で,我々のソリューションが最先端の性能を上回ることを示した。

Video action recognition (VAR) is a primary task of video understanding, and untrimmed videos are more common in real-life scenes. Untrimmed videos have redundant and diverse clips containing contextual information, so sampling dense clips is essential. Recently, some works attempt to train a generic model to select the N most representative clips. However, it is difficult to model the complex relations from intra-class clips and inter-class videos within a single model and fixed selected number, and the entanglement of multiple relations is also hard to explain. Thus, instead of "only look once", we argue "divide and conquer" strategy will be more suitable in untrimmed VAR. Inspired by the speed reading mechanism, we propose a simple yet effective clip-level solution based on skim-scan techniques. Specifically, the proposed Skim-Scan framework first skims the entire video and drops those uninformative and misleading clips. For the remaining clips, it scans clips with diverse features gradually to drop redundant clips but cover essential content. The above strategies can adaptively select the necessary clips according to the difficulty of the different videos. To trade off the computational complexity and performance, we observe the similar statistical expression between lightweight and heavy networks, thus it supports us to explore the combination of them. Comprehensive experiments are performed on ActivityNet and mini-FCVID datasets, and results demonstrate that our solution surpasses the state-of-the-art performance in terms of both accuracy and efficiency.
翻訳日:2021-04-22 14:24:21 公開日:2021-04-21
# 長期学習のためのバランス付き知識蒸留

Balanced Knowledge Distillation for Long-tailed Learning ( http://arxiv.org/abs/2104.10510v1 )

ライセンス: Link先を確認
Shaoyu Zhang, Chen Chen, Xiyuan Hu, Silong Peng(参考訳) 長い尾のデータセットでトレーニングされたディープモデルは、テールクラスで不満足なパフォーマンスを示す。 既存のメソッドは通常、末尾クラスへの学習焦点を増加させるために分類損失を変更し、予期せぬヘッドクラスのパフォーマンスを犠牲にする。 実際、このスキームは、ロングテール学習の2つの目標、すなわち一般化可能な表現の学習とテールクラスの学習の促進の間に矛盾をもたらす。 本研究では,長期のシナリオにおける知識蒸留を探求し,両目標間の矛盾を解消し,同時に達成するための新しい蒸留枠組みであるバランスド知識蒸留(BKD)を提案する。 具体的には、バニラ教師モデルに基づき、インスタンスバランスの分類損失とクラスバランスの蒸留損失の組合せを最小化して学生モデルを訓練する。 前者はサンプルの多様性から恩恵を受け、一般化可能な表現を学ぶが、後者はクラスの優先順位を考慮し、主に尾クラスの学習を容易にする。 BKDで訓練した学生モデルは、教師モデルと比較して大きなパフォーマンス向上が得られる。 提案したBKDが,長期学習のための新しい最先端手法であるとともに,長期学習シナリオにおける効果的な知識蒸留フレームワークであることを示す。 コードはhttps://github.com/E ricZsy/BalancedKnowl edgeDistillationで入手できる。

Deep models trained on long-tailed datasets exhibit unsatisfactory performance on tail classes. Existing methods usually modify the classification loss to increase the learning focus on tail classes, which unexpectedly sacrifice the performance on head classes. In fact, this scheme leads to a contradiction between the two goals of long-tailed learning, i.e., learning generalizable representations and facilitating learning for tail classes. In this work, we explore knowledge distillation in long-tailed scenarios and propose a novel distillation framework, named Balanced Knowledge Distillation (BKD), to disentangle the contradiction between the two goals and achieve both simultaneously. Specifically, given a vanilla teacher model, we train the student model by minimizing the combination of an instance-balanced classification loss and a class-balanced distillation loss. The former benefits from the sample diversity and learns generalizable representation, while the latter considers the class priors and facilitates learning mainly for tail classes. The student model trained with BKD obtains significant performance gain even compared with its teacher model. We conduct extensive experiments on several long-tailed benchmark datasets and demonstrate that the proposed BKD is an effective knowledge distillation framework in long-tailed scenarios, as well as a new state-of-the-art method for long-tailed learning. Code is available at https://github.com/E ricZsy/BalancedKnowl edgeDistillation .
翻訳日:2021-04-22 14:23:56 公開日:2021-04-21
# ib-drr:情報バック離散表現リプレイによるインクリメンタル学習

IB-DRR: Incremental Learning with Information-Back Discrete Representation Replay ( http://arxiv.org/abs/2104.10588v1 )

ライセンス: Link先を確認
Jian Jiang, Edoardo Cetin, Oya Celiktutan(参考訳) インクリメンタル学習は、機械学習モデルが、新しいクラスで学んだ知識を維持しながら、新しい知識を継続的に獲得することを可能にすることを目的としている。 前に見たクラスのトレーニングサンプルをメモリに保存し、新しいトレーニングフェーズでそれらを再生することは、この目的を達成するための効率的で効果的な方法であることが証明されている。 モデルが持つ多くの例が、それが達成できるパフォーマンスを継承していることは明らかです。 しかし、モデル性能と各クラスに保存するサンプル数とのトレードオフを見つけることは、リプレイベースの漸進学習には未解決の問題であり、現実のアプリケーションにはますます望ましい。 本稿では,二段階圧縮アプローチを用いて,この問題にアプローチする。 まず,入力画像の符号化を行い,階層的ベクトル量子化変分オートエンコーダ(vq-vae)を用いて学習する符号の形式に離散的潜在表現を保存することを提案する。 第2のステップでは、ビットバック非対称数値システム(BB-ANS)を用いて階層的潜在変数モデルを学習することにより、余分に圧縮する。 第1ステップの圧縮で失った情報を補うために,実例を対照的な学習損失として活用し,分類器の訓練を規則化する情報バック(IB)機構を導入する。 コード'の形式ですべての例題表現を維持することで、離散表現リプレイ(drr)はcifar-100の最先端メソッドを4%の精度で上回り、サンプルを保存するのに必要なメモリコストを大幅に削減した。 IBと組み合わされ、少量の古い原材料を保存し、DRRの精度を2%の精度でさらに向上させることができる。

Incremental learning aims to enable machine learning models to continuously acquire new knowledge given new classes, while maintaining the knowledge already learned for old classes. Saving a subset of training samples of previously seen classes in the memory and replaying them during new training phases is proven to be an efficient and effective way to fulfil this aim. It is evident that the larger number of exemplars the model inherits the better performance it can achieve. However, finding a trade-off between the model performance and the number of samples to save for each class is still an open problem for replay-based incremental learning and is increasingly desirable for real-life applications. In this paper, we approach this open problem by tapping into a two-step compression approach. The first step is a lossy compression, we propose to encode input images and save their discrete latent representations in the form of codes that are learned using a hierarchical Vector Quantised Variational Autoencoder (VQ-VAE). In the second step, we further compress codes losslessly by learning a hierarchical latent variable model with bits-back asymmetric numeral systems (BB-ANS). To compensate for the information lost in the first step compression, we introduce an Information Back (IB) mechanism that utilizes real exemplars for a contrastive learning loss to regularize the training of a classifier. By maintaining all seen exemplars' representations in the format of `codes', Discrete Representation Replay (DRR) outperforms the state-of-art method on CIFAR-100 by a margin of 4% accuracy with a much less memory cost required for saving samples. Incorporated with IB and saving a small set of old raw exemplars as well, the accuracy of DRR can be further improved by 2% accuracy.
翻訳日:2021-04-22 14:23:34 公開日:2021-04-21
# 制御可能な時空間ビデオ超解像のための時間変調ネットワーク

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution ( http://arxiv.org/abs/2104.10642v1 )

ライセンス: Link先を確認
Gang Xu and Jun Xu and Zhen Li and Liang Wang and Xing Sun and Ming-Ming Cheng(参考訳) 時空ビデオスーパーレゾリューション(STVSR)は、低解像度および低フレームレートのビデオの空間的および時間的解像度を高めることを目的としている。 近年, 変形可能な畳み込み法により, STVSRの性能が期待できるが, トレーニング段階で事前に定義された中間フレームのみを推測できる。 また,これらの手法は,隣接フレーム間の短期動作の手がかりを過小評価した。 本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。 具体的には,制御可能な特徴補間のために,変形可能な畳み込み核を変調する時間変調ブロック(tmb)を提案する。 時間的情報をうまく活用するために,両方向変形可能なConvLSTMとともにLFCモジュールを提案し,ビデオ中の短期的・長期的な動きの手がかりを抽出する。 3つのベンチマークデータセットの実験により、我々のTMNetは以前のSTVSR法より優れていることが示された。 コードはhttps://github.com/C S-GangXu/TMNetで公開されている。

Space-time video super-resolution (STVSR) aims to increase the spatial and temporal resolutions of low-resolution and low-frame-rate videos. Recently, deformable convolution based methods have achieved promising STVSR performance, but they could only infer the intermediate frame pre-defined in the training stage. Besides, these methods undervalued the short-term motion cues among adjacent frames. In this paper, we propose a Temporal Modulation Network (TMNet) to interpolate arbitrary intermediate frame(s) with accurate high-resolution reconstruction. Specifically, we propose a Temporal Modulation Block (TMB) to modulate deformable convolution kernels for controllable feature interpolation. To well exploit the temporal information, we propose a Locally-temporal Feature Comparison (LFC) module, along with the Bi-directional Deformable ConvLSTM, to extract short-term and long-term motion cues in videos. Experiments on three benchmark datasets demonstrate that our TMNet outperforms previous STVSR methods. The code is available at https://github.com/C S-GangXu/TMNet.
翻訳日:2021-04-22 14:23:03 公開日:2021-04-21
# 窓付き相関式特徴選択法によるデング熱患者の時系列予測の改善

A windowed correlation based feature selection method to improve time series prediction of dengue fever cases ( http://arxiv.org/abs/2104.10289v1 )

ライセンス: Link先を確認
Tanvir Ferdousi, Lee W. Cohnstaedt, and Caterina M. Scoglio(参考訳) データ駆動予測モデルの性能は、モデルトレーニングのためのデータサンプルの可用性に依存する。 人口のデング熱の発生率を学習するモデルでは、その場所から履歴データを使用している。 予測性能の低さは、不適切なデータを持つ場所につながる可能性がある。 本研究は,近接地からの流行関連データを予測者として方法論的に追加することにより,デングケースデータの時間的制限を強化することを目的としている(特徴)。 特徴の関連性を定量化するために、入出力データと時間シフト相関に基づくメトリクスのウィンドウ化のための新しいフレームワークが提示される。 このフレームワークは、相関メトリックと他の2つの指標、すなわち空間距離と局所的頻度を組み合わせることで、ターゲット位置周辺の隣接位置の入射データをランク付けする。 リカレントニューラルネットワークに基づく予測モデルは,目標位置のみからのトレーニングデータを使用する場合と比較して,提案手法を用いて平均33.6%の精度向上を実現している。 これらのモデルは,ブラジルのエスピリトサント州で最もデング頻度が高い自治体において,[0,1]正常化頻度データに対して平均絶対誤差(MAE)が0.128まで低かった。 地理的エコリージョンに集約されたケースを予測した場合、モデルの精度は16.5%まで向上し、ランク付けされた特徴集合からの入射データのわずか6.5%しか得られなかった。 また,固定サイズウィンドウとアウトブレイク検出ウィンドウの2つの時系列データのウィンドウ化手法についても検討した。 これらの手法は両立可能であり、ウィンドウ検出法は計算に少ないデータを使用する。 本論文はアプリケーションに依存しないフレームワークであり,空間的に隣接した位置からのデータが得られる予測モデルの性能を向上させることができる。

The performance of data-driven prediction models depends on the availability of data samples for model training. A model that learns about dengue fever incidence in a population uses historical data from that corresponding location. Poor performance in prediction can result in places with inadequate data. This work aims to enhance temporally limited dengue case data by methodological addition of epidemically relevant data from nearby locations as predictors (features). A novel framework is presented for windowing incidence data and computing time-shifted correlation-based metrics to quantify feature relevance. The framework ranks incidence data of adjacent locations around a target location by combining the correlation metric with two other metrics: spatial distance and local prevalence. Recurrent neural network-based prediction models achieve up to 33.6% accuracy improvement on average using the proposed method compared to using training data from the target location only. These models achieved mean absolute error (MAE) values as low as 0.128 on [0,1] normalized incidence data for a municipality with the highest dengue prevalence in Brazil's Espirito Santo. When predicting cases aggregated over geographical ecoregions, the models achieved accuracy improvements up to 16.5%, using only 6.5% of incidence data from ranked feature sets. The paper also includes two techniques for windowing time series data: fixed-sized windows and outbreak detection windows. Both of these techniques perform comparably, while the window detection method uses less data for computations. The framework presented in this paper is application-independ ent, and it could improve the performances of prediction models where data from spatially adjacent locations are available.
翻訳日:2021-04-22 14:22:12 公開日:2021-04-21
# 勾配マスク付きフェデレーション最適化

Gradient Masked Federated Optimization ( http://arxiv.org/abs/2104.10322v1 )

ライセンス: Link先を確認
Irene Tenison, Sreya Francis, Irina Rish(参考訳) フェデレート平均化(FedAVG)は,その単純さと通信オーバーヘッドの低さから,最も一般的なフェデレーション学習アルゴリズムとなっている。 簡単な例を使って、FedAVGが参加するクライアント間でオプティマを縫い合わせる傾向を示す。 これらの縫製オプティマは、新しいデータ分布を持つ新しいクライアントで使用すると、あまり一般化しない。 不変原則(Arjovsky et al., 2019; Parascandolo et al., 2020)に触発された私たちは、異なるクライアント間で局所的に最適なモデルを学ぶことに集中しています。 我々は、クライアント間でマスクされた勾配(parascandolo et al., 2020)を含むようにfedavgアルゴリズムを変更し、追加のサーバモデル更新を実行するためにそれらを使用する。 このアルゴリズムはFedAVGよりも精度(アウト・オブ・ディストリビューション)が高いことを示す。

Federated Averaging (FedAVG) has become the most popular federated learning algorithm due to its simplicity and low communication overhead. We use simple examples to show that FedAVG has the tendency to sew together the optima across the participating clients. These sewed optima exhibit poor generalization when used on a new client with new data distribution. Inspired by the invariance principles in (Arjovsky et al., 2019; Parascandolo et al., 2020), we focus on learning a model that is locally optimal across the different clients simultaneously. We propose a modification to FedAVG algorithm to include masked gradients (AND-mask from (Parascandolo et al., 2020)) across the clients and uses them to carry out an additional server model update. We show that this algorithm achieves better accuracy (out-of-distribution ) than FedAVG, especially when the data is non-identically distributed across clients.
翻訳日:2021-04-22 14:21:49 公開日:2021-04-21
# 正規化フローを用いたシナリオ生成の主成分密度推定

Principal Component Density Estimation for Scenario Generation Using Normalizing Flows ( http://arxiv.org/abs/2104.10410v1 )

ライセンス: Link先を確認
Eike Cramer, Alexander Mitsos, Raul Tempone, Manuel Dahmen(参考訳) ニューラルネットワークを用いた太陽光発電(PV)や風力,負荷需要などの源泉からの非分散型再生可能発電の分布の学習が近年注目されている。 フロー密度モデルの正規化は,直接対数類似度最大化によるトレーニングにより,特に良好に機能している。 しかし、画像生成の分野での研究により、標準正規化フローは、多様体分布のスミアーズアウトバージョンしか学習できず、ノイズデータの生成につながることが示されている。 非現実的なノイズを伴う時系列データの生成を避けるため,低次元空間における正規化フローを設定する線形主成分分析(PCA)に基づく次元低減フロー層を提案する。 2013年から2015年にかけては、PVと風力発電のデータとドイツにおける負荷需要に基づいて、結果の主成分フロー(PCF)を訓練する。 本研究の結果から,PCFは時系列の確率密度や周波数挙動など,元の分布の重要な特徴を保っていることが明らかとなった。 しかし、pcfの適用は再生可能発電に限らず、任意のデータセット、時系列、その他に拡張され、pcaを使用して効率的に削減することができる。

Neural networks-based learning of the distribution of non-dispatchable renewable electricity generation from sources such as photovoltaics (PV) and wind as well as load demands has recently gained attention. Normalizing flow density models have performed particularly well in this task due to the training through direct log-likelihood maximization. However, research from the field of image generation has shown that standard normalizing flows can only learn smeared-out versions of manifold distributions and can result in the generation of noisy data. To avoid the generation of time series data with unrealistic noise, we propose a dimensionality-reduc ing flow layer based on the linear principal component analysis (PCA) that sets up the normalizing flow in a lower-dimensional space. We train the resulting principal component flow (PCF) on data of PV and wind power generation as well as load demand in Germany in the years 2013 to 2015. The results of this investigation show that the PCF preserves critical features of the original distributions, such as the probability density and frequency behavior of the time series. The application of the PCF is, however, not limited to renewable power generation but rather extends to any data set, time series, or otherwise, which can be efficiently reduced using PCA.
翻訳日:2021-04-22 14:21:32 公開日:2021-04-21
# 差別化可能なアーキテクチャ検索をローカルに

Making Differentiable Architecture Search less local ( http://arxiv.org/abs/2104.10450v1 )

ライセンス: Link先を確認
Erik Bodin, Federico Tomasi, Zhenwen Dai(参考訳) neural architecture search(nas)は、ニューラルネットワークアーキテクチャの設計を自動化するための最近の手法である。 微分可能なニューラルネットワーク探索(DARTS)は、探索効率を劇的に向上させる有望なNASアプローチである。 しかし、探索がしばしば有害なアーキテクチャに繋がるパフォーマンスの崩壊に悩まされていることが示されている。 最近の多くの研究はダーツのこの問題に対処し、早期停止の指標を特定したり、いくつかの操作の優位を減らすために探索目標を定式化したり、探索問題のパラメータを変更したりしている。 本研究は,典型的な初期アーキテクチャと重みに関する局所最適性に乏しいことから,性能崩壊が発生すると仮定する。 我々は、DARTS問題を定式化することなく、空間をよりよく探索できるよりグローバルな最適化スキームを開発することでこの問題に対処する。 実験の結果,検索アルゴリズムの変更により,より優れたテスト性能と少ないパラメータでアーキテクチャを発見できることがわかった。

Neural architecture search (NAS) is a recent methodology for automating the design of neural network architectures. Differentiable neural architecture search (DARTS) is a promising NAS approach that dramatically increases search efficiency. However, it has been shown to suffer from performance collapse, where the search often leads to detrimental architectures. Many recent works try to address this issue of DARTS by identifying indicators for early stopping, regularising the search objective to reduce the dominance of some operations, or changing the parameterisation of the search problem. In this work, we hypothesise that performance collapses can arise from poor local optima around typical initial architectures and weights. We address this issue by developing a more global optimisation scheme that is able to better explore the space without changing the DARTS problem formulation. Our experiments show that our changes in the search algorithm allow the discovery of architectures with both better test performance and fewer parameters.
翻訳日:2021-04-22 14:21:14 公開日:2021-04-21
# 自然データに観測される行動と機械学習モデルによって生成された行動の比較

Comparing merging behaviors observed in naturalistic data with behaviors generated by a machine learned model ( http://arxiv.org/abs/2104.10496v1 )

ライセンス: Link先を確認
Aravinda Ramakrishnan Srinivasan, Mohamed Hasan, Yi-Shin Lin, Matteo Leonetti, Jac Billington, Richard Romano, Gustav Markkula(参考訳) 道路交通における人間の運転軌跡を予測する機械学習モデルに関する文献が急速に増えている。 これらのモデルは、モデル生成と観測された軌道の平均距離など、低次元のエラーメトリックに学習を集中させる。 このような指標はモデルの相対的な比較を許すが、例えば、人間の運転で見られる高レベルの行動現象の観点から、モデルが実際にどれだけ人間の行動に近づいたかを明確に解釈できない。 本研究は,高速道路走行を事例として検討し,自然主義的データセットにおいて,(1)車載車と車載車の間でキネマティクスに依存した競技が最初にマージポイントを突破する2つの行動現象の存在を定量的に示す指標を紹介した。 (2)車線は最外車線から離れ、合併車両のスペースを空けるように変更する。 最先端機械学習モデルの出力に全く同じ測定値を適用することで、モデルは前者の現象を再現できるが後者は再現できないことを示した。 このタイプの行動分析は、従来のモデル適合指標から得られない情報を提供し、そのような行動基準に基づいてモデルを分析する(そしておそらく適合する)のに有用である、と我々は主張する。

There is quickly growing literature on machine-learned models that predict human driving trajectories in road traffic. These models focus their learning on low-dimensional error metrics, for example average distance between model-generated and observed trajectories. Such metrics permit relative comparison of models, but do not provide clearly interpretable information on how close to human behavior the models actually come, for example in terms of higher-level behavior phenomena that are known to be present in human driving. We study highway driving as an example scenario, and introduce metrics to quantitatively demonstrate the presence, in a naturalistic dataset, of two familiar behavioral phenomena: (1) The kinematics-dependent contest, between on-highway and on-ramp vehicles, of who passes the merging point first. (2) Courtesy lane changes away from the outermost lane, to leave space for a merging vehicle. Applying the exact same metrics to the output of a state-of-the-art machine-learned model, we show that the model is capable of reproducing the former phenomenon, but not the latter. We argue that this type of behavioral analysis provides information that is not available from conventional model-fitting metrics, and that it may be useful to analyze (and possibly fit) models also based on these types of behavioral criteria.
翻訳日:2021-04-22 14:20:46 公開日:2021-04-21
# シャプリー値を用いたマルチラベル分類モデルの解釈

Interpretation of multi-label classification models using shapley values ( http://arxiv.org/abs/2104.10505v1 )

ライセンス: Link先を確認
Shikun Chen(参考訳) マルチラベル分類(multi-label classification)は、分類タスクの一種で、2つ以上のクラスがある場合に使用され、予測したいデータポイントは、いずれのクラスにも属さないか、あるいはすべてを同時に属さない可能性がある。 現実の世界では、情報検索、マルチメディアコンテンツアノテーション、webマイニングなど、多くのアプリケーションが実際にマルチレーベルに関わっています。 SHAP(SHapley Additive ExPlanations)として知られるゲーム理論に基づくフレームワークが、正確なモデルを知らずに様々な教師付き学習モデルを説明するために応用されている。 そこで本研究では,shap法を用いて,マルチラベル分類タスクの説明をさらに拡張する。 この実験は、よく知られたマルチラベルデータセット上の異なるアルゴリズムの包括的比較を示し、解釈の有用性を示す。

Multi-label classification is a type of classification task, it is used when there are two or more classes, and the data point we want to predict may belong to none of the classes or all of them at the same time. In the real world, many applications are actually multi-label involved, including information retrieval, multimedia content annotation, web mining, and so on. A game theory-based framework known as SHapley Additive exPlanations (SHAP) has been applied to explain various supervised learning models without being aware of the exact model. Herein, this work further extends the explanation of multi-label classification task by using the SHAP methodology. The experiment demonstrates a comprehensive comparision of different algorithms on well known multi-label datasets and shows the usefulness of the interpretation.
翻訳日:2021-04-22 14:20:22 公開日:2021-04-21
# 適応的およびカスタマイズ可能な強化学習エージェントのためのポリシー融合

Policy Fusion for Adaptive and Customizable Reinforcement Learning Agents ( http://arxiv.org/abs/2104.10610v1 )

ライセンス: Link先を確認
Alessandro Sestini, Alexander Kuhnle, Andrew D. Bagdanov(参考訳) 本稿では,ゲーム開発のための強化学習を用いた知的エージェントの育成に関する課題について考察する。 人間のプレイヤーを置き換え、超人的なパフォーマンスを達成するために構築されたシステムとは異なり、エージェントはプレイヤーとの有意義な相互作用を生み出すことを目的としている。 これらすべての行動を構成する有意義な「融合」政策を得るために、異なる行動政策を組み合わせる方法を示す。 そこで本研究では,事前学習した政策を組み合わせるための4つの異なる政策融合手法を提案する。 さらに,これらの手法を逆強化学習と組み合わせることで,ゲーム設計者が選択した特定の行動様式の知的エージェントを,多くの不適切な報酬関数を定義することなく作成できることを実証する。 2つの異なる環境での実験は、エントロピー重み付けされた政策融合が他の全てよりも著しく優れていることを示している。 これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。

In this article we study the problem of training intelligent agents using Reinforcement Learning for the purpose of game development. Unlike systems built to replace human players and to achieve super-human performance, our agents aim to produce meaningful interactions with the player, and at the same time demonstrate behavioral traits as desired by game designers. We show how to combine distinct behavioral policies to obtain a meaningful "fusion" policy which comprises all these behaviors. To this end, we propose four different policy fusion methods for combining pre-trained policies. We further demonstrate how these methods can be used in combination with Inverse Reinforcement Learning in order to create intelligent agents with specific behavioral styles as chosen by game designers, without having to define many and possibly poorly-designed reward functions. Experiments on two different environments indicate that entropy-weighted policy fusion significantly outperforms all others. We provide several practical examples and use-cases for how these methods are indeed useful for video game production and designers.
翻訳日:2021-04-22 14:20:08 公開日:2021-04-21
# TinyMLのためのニューラルネットワークの最適化

Measuring what Really Matters: Optimizing Neural Networks for TinyML ( http://arxiv.org/abs/2104.10645v1 )

ライセンス: Link先を確認
Lennart Heim, Andreas Biri, Zhongnan Qu, Lothar Thiele(参考訳) 安価な計算とメモリリソースの急増に伴い、ニューラルネットワーク(nns)は、アーキテクチャと計算の複雑さが前例のない成長を遂げた。 NNをリソース制約のあるデバイスに導入することで、コスト効率の高いデプロイメント、広範な可用性、機密データの保存が可能になる。 この作業は、ユビキタスARM Cortex-Mアーキテクチャに焦点を当てた機械学習をMCUに導入する際の課題に対処する。 最適化方法、ソフトウェアフレームワーク、mcuハードウェアアーキテクチャが推論遅延やエネルギー消費といった重要なパフォーマンス指標に与えた影響とトレードオフは、tensorflow lite microのような最先端のフレームワークについて、これまで深く研究されていなかった。 特殊な命令やレイヤタイプの影響が微妙になるため,ユーザ自身が経験した,知覚可能なメトリクス – パフォーマンス – を測定する経験的調査は不可欠であることがわかった。 そこで本研究では,検証とベンチマークのためのコスト効率のよい手法として実装対応設計を提案する。 開発したツールチェーンを利用することで、NNをターゲットとするアプリケーションシナリオに体系的に最適化することで、リソース制約のあるデバイスへの既存のNNデプロイメントをどのように改善できるかを示す。

With the surge of inexpensive computational and memory resources, neural networks (NNs) have experienced an unprecedented growth in architectural and computational complexity. Introducing NNs to resource-constrained devices enables cost-efficient deployments, widespread availability, and the preservation of sensitive data. This work addresses the challenges of bringing Machine Learning to MCUs, where we focus on the ubiquitous ARM Cortex-M architecture. The detailed effects and trade-offs that optimization methods, software frameworks, and MCU hardware architecture have on key performance metrics such as inference latency and energy consumption have not been previously studied in depth for state-of-the-art frameworks such as TensorFlow Lite Micro. We find that empirical investigations which measure the perceptible metrics - performance as experienced by the user - are indispensable, as the impact of specialized instructions and layer types can be subtle. To this end, we propose an implementation-aware design as a cost-effective method for verification and benchmarking. Employing our developed toolchain, we demonstrate how existing NN deployments on resource-constrained devices can be improved by systematically optimizing NNs to their targeted application scenario.
翻訳日:2021-04-22 14:19:39 公開日:2021-04-21
# 逆引きの因果モデルに向けて

Towards Causal Models for Adversary Distractions ( http://arxiv.org/abs/2104.10575v1 )

ライセンス: Link先を確認
Ron Alford (1), Andy Applebaum (1) ((1) The MITRE Corporation)(参考訳) 自動敵エミュレーションは、サイバー防御のテストと評価において、ネットワークセキュリティオペレーターにとって必須のツールになりつつある。 同時に、敵がネットワークを介していかに素早く伝播できるかを明らかにしている。 人間の敵を騙すにはクオリティ・デコイ世代の研究が盛んに進んでいるが、コンピュータエージェントを遅くするには異なる戦略が必要になるかもしれない。 本稿では,デコイの発生が自動エージェントの意思決定過程を遅くできることを示すが,その抑制の程度は使用するオブジェクトの種類に大きく依存することを示した。 これは、迅速な移動と自動敵に対するデコイ生成と配置戦略を明示的に評価する必要があることを示している。

Automated adversary emulation is becoming an indispensable tool of network security operators in testing and evaluating their cyber defenses. At the same time, it has exposed how quickly adversaries can propagate through the network. While research has greatly progressed on quality decoy generation to fool human adversaries, we may need different strategies to slow computer agents. In this paper, we show that decoy generation can slow an automated agent's decision process, but that the degree to which it is inhibited is greatly dependent on the types of objects used. This points to the need to explicitly evaluate decoy generation and placement strategies against fast moving, automated adversaries.
翻訳日:2021-04-22 14:19:18 公開日:2021-04-21
# 画像符号化のためのビジュアル解析によるレートゆらぎモデル

Visual Analysis Motivated Rate-Distortion Model for Image Coding ( http://arxiv.org/abs/2104.10315v1 )

ライセンス: Link先を確認
Zhimeng Huang, Chuanmin Jia, Shanshe Wang, Siwei Ma(参考訳) ピクセル忠実度メトリクスに最適化された既存のイメージコーデックによって圧縮された画像は、視覚分析タスク、特に低ビットのコーディングに使用する場合の体系的な課題に直面している。 本稿では,多用途ビデオ符号化(vvc)イントラ圧縮のための視覚的解析動機付レートゆがみモデルを提案する。 提案モデルには,新しいレート割当戦略と新しい歪み測定モデルという2つの大きな貢献がある。 まず、視覚解析において、各コードツリー単位(CTU)の重要度を評価するために、機械の関心領域(ROIM)を提案する。 次に、ROIMと各CTUの局所的なテクスチャ特性に基づいて、新しいCTUレベルのビット割り当てモデルを提案する。 複数歪みモデルの詳細な解析の後、各符号化単位(CU)の深い特徴を抽出することにより、視覚解析に優しい歪み基準を提案する。 各cuの歪みを計算する際に空間的コンテキスト情報を欠く問題を解消するために,各スケールで抽出された深層特徴を重み付けて,隣接画素が異なるマルチスケール特徴歪(msfd)メトリックを提案する。 広範な実験結果から,画像分類,物体検出,意味セグメンテーションなどの一般的なビジュアル解析タスクにおいて,同一解析性能下で最大28.17\%のビットレート節約を実現することができた。

Optimized for pixel fidelity metrics, images compressed by existing image codec are facing systematic challenges when used for visual analysis tasks, especially under low-bitrate coding. This paper proposes a visual analysis-motivated rate-distortion model for Versatile Video Coding (VVC) intra compression. The proposed model has two major contributions, a novel rate allocation strategy and a new distortion measurement model. We first propose the region of interest for machine (ROIM) to evaluate the degree of importance for each coding tree unit (CTU) in visual analysis. Then, a novel CTU-level bit allocation model is proposed based on ROIM and the local texture characteristics of each CTU. After an in-depth analysis of multiple distortion models, a visual analysis friendly distortion criteria is subsequently proposed by extracting deep feature of each coding unit (CU). To alleviate the problem of lacking spatial context information when calculating the distortion of each CU, we finally propose a multi-scale feature distortion (MSFD) metric using different neighboring pixels by weighting the extracted deep features in each scale. Extensive experimental results show that the proposed scheme could achieve up to 28.17\% bitrate saving under the same analysis performance among several typical visual analysis tasks such as image classification, object detection, and semantic segmentation.
翻訳日:2021-04-22 14:18:13 公開日:2021-04-21
# 胸部疾患検出・分節のための構造認識関連ネットワーク

A Structure-Aware Relation Network for Thoracic Diseases Detection and Segmentation ( http://arxiv.org/abs/2104.10326v1 )

ライセンス: Link先を確認
Jie Lian and Jingyu Liu and Shu Zhang and Kai Gao and Xiaoqing Liu and Dingwen Zhang and Yizhou Yu(参考訳) 胸部x線画像の自動診断には胸部疾患や異常のインスタンスレベル検出と分割が不可欠である。 そこで本研究では,Mask R-CNNを拡張した構造認識ネットワーク(SAR-Net)を提案する。 SAR-Netは3つの関係モジュールから構成される: 1. 疾患と解剖学的部分の間の空間的関係をコードする解剖学的構造関係モジュール。 2. 問合せキー対の疾患RoIと肺野に基づく手がかりを収集する文脈関係モジュール。 3. 疾患提案への共起・因果関係を伝播する疾患関連モジュール。 実用的なシステム構築に向けて,インスタンスレベルのアノテーション(ボックスとマスク)を備えた胸部x線データセットである胸部x線デットも提供する。 ChestX-Detは、NIH ChestX-ray14のサブセットである。 3人の放射線学者によってラベル付けされた13の一般的な疾患カテゴリの3500枚の画像を含んでいる。 我々はSAR-Netと別のデータセットDR-Privateを評価した。 実験の結果,Mask R-CNNの強いベースラインを向上し,大幅な改善が得られた。 ChestX-Detはhttps://github.com/D eepwise-AILab/ChestX -Det-Datasetでリリースされた。

Instance level detection and segmentation of thoracic diseases or abnormalities are crucial for automatic diagnosis in chest X-ray images. Leveraging on constant structure and disease relations extracted from domain knowledge, we propose a structure-aware relation network (SAR-Net) extending Mask R-CNN. The SAR-Net consists of three relation modules: 1. the anatomical structure relation module encoding spatial relations between diseases and anatomical parts. 2. the contextual relation module aggregating clues based on query-key pair of disease RoI and lung fields. 3. the disease relation module propagating co-occurrence and causal relations into disease proposals. Towards making a practical system, we also provide ChestX-Det, a chest X-Ray dataset with instance-level annotations (boxes and masks). ChestX-Det is a subset of the public dataset NIH ChestX-ray14. It contains ~3500 images of 13 common disease categories labeled by three board-certified radiologists. We evaluate our SAR-Net on it and another dataset DR-Private. Experimental results show that it can enhance the strong baseline of Mask R-CNN with significant improvements. The ChestX-Det is released at https://github.com/D eepwise-AILab/ChestX -Det-Dataset.
翻訳日:2021-04-22 14:17:52 公開日:2021-04-21
# 実世界シーンにおける複合画像の影生成

Shadow Generation for Composite Image in Real-world Scenes ( http://arxiv.org/abs/2104.10338v1 )

ライセンス: Link先を確認
Yan Hong, Li Niu, Jianfu Zhang, Liqing Zhang(参考訳) 画像合成は、背景画像に前景オブジェクトを挿入するターゲットとなる。 従来の画像合成手法では,前景の影効果を無視しつつ,背景との互換性を保たせるために前景の調整に重点を置いていた。 本研究では,合成画像における前景オブジェクトに対する可塑性影の生成に焦点をあてる。 まず,実画像とデシャドー画像に基づいて合成合成画像を生成することで,実世界の影生成データセットDESOBAを提案する。 そこで我々は,シャドーマスク予測ステージとシャドーフィリングステージからなる新しいシャドー生成ネットワークSGRNetを提案する。 シャドウマスク予測段階では、フォアグラウンドと背景情報が徹底的に相互作用してフォアグラウンドシャドウマスクを生成する。 シャドウ充填段階では、シャドウパラメータがシャドウ領域を満たすように予測される。 desobaデータセットと実合成画像の広範な実験を行い,提案手法の有効性を示した。

Image composition targets at inserting a foreground object on a background image. Most previous image composition methods focus on adjusting the foreground to make it compatible with background while ignoring the shadow effect of foreground on the background. In this work, we focus on generating plausible shadow for the foreground object in the composite image. First, we contribute a real-world shadow generation dataset DESOBA by generating synthetic composite images based on paired real images and deshadowed images. Then, we propose a novel shadow generation network SGRNet, which consists of a shadow mask prediction stage and a shadow filling stage. In the shadow mask prediction stage, foreground and background information are thoroughly interacted to generate foreground shadow mask. In the shadow filling stage, shadow parameters are predicted to fill the shadow area. Extensive experiments on our DESOBA dataset and real composite images demonstrate the effectiveness of our proposed method.
翻訳日:2021-04-22 14:17:34 公開日:2021-04-21
# 宇宙から経済活動を測定する:空飛ぶ飛行機とcovid-19を用いたケーススタディ

Measuring economic activity from space: a case study using flying airplanes and COVID-19 ( http://arxiv.org/abs/2104.10345v1 )

ライセンス: Link先を確認
Mauricio Pamplona Segundo, Allan Pinto, Rodrigo Minetto, Ricardo da Silva Torres, Sudeep Sarkar(参考訳) 本研究は,広い空間領域を対象としたリモートセンシングによる経済活動計測手法を提案する。 生活変化の大きな出来事による人間の行動障害は、衛星画像にサインを残し、関連する画像に基づく指標を考案し、影響を推定し、意思決定者を支援することができると仮定した。 本研究は、欧州で最も忙しい30の空港を飛行中の航空機で検出し、ロックダウンの影響とロックダウン後の回復を定量化し分析することにより、深刻な移動制限を課し、世界的な混乱を引き起こした新型コロナウイルス(covid-19)の流行に関するケーススタディである。 我々のソリューションは、欧州宇宙機関と欧州委員会が後援するRapid Action Coronavirus Earth Observation (RACE) Upscaling Challengeに勝利し、RASダッシュボードを統合しました。 このプラットフォームは、衛星データと人工知能を組み合わせて、重要な活動の進歩的で安全な再開を促進する。 コードとCNNモデルはhttps://github.com/m aups/covid19-custom- script-contestで利用可能である。

This work introduces a novel solution to measure economic activity through remote sensing for a wide range of spatial areas. We hypothesized that disturbances in human behavior caused by major life-changing events leave signatures in satellite imagery that allows devising relevant image-based indicators to estimate their impacts and support decision-makers. We present a case study for the COVID-19 coronavirus outbreak, which imposed severe mobility restrictions and caused worldwide disruptions, using flying airplane detection around the 30 busiest airports in Europe to quantify and analyze the lockdown's effects and post-lockdown recovery. Our solution won the Rapid Action Coronavirus Earth observation (RACE) upscaling challenge, sponsored by the European Space Agency and the European Commission, and now integrates the RACE dashboard. This platform combines satellite data and artificial intelligence to promote a progressive and safe reopening of essential activities. Code and CNN models are available at https://github.com/m aups/covid19-custom- script-contest
翻訳日:2021-04-22 14:17:20 公開日:2021-04-21
# 簡易化によるポイントクラウドの正規推定の改善

Improvement of Normal Estimation for PointClouds via Simplifying Surface Fitting ( http://arxiv.org/abs/2104.10369v1 )

ライセンス: Link先を確認
Jun Zhou, Wei Jin, Mingjie Wang, Xiuping Liu, Zhiyang Li, Zhaobin Liu(参考訳) 近年、ニューラルネットワークの爆発的発展により、正常な推定のタスクが再び懸念されるようになった。 問題固有知識に基づく古典的手法にニューラルネットワークを導入することにより,ノイズやスケールに対する正規推定アルゴリズムの適用性が大幅に向上した。 しかし、ニューラルネットワークと従来の手法との互換性は考慮されていない。 オッカムのカミソリの原理と同様に、より単純なものの方がよい。 表面のフィッティングをより単純化することで,通常の推定精度を大幅に向上させることができる。 本稿では,ニューラルネットワークと表面の嵌合過程の整合性に対処し,正規推定を改善するための2つの簡易効果戦略を提案する。 まず, 動的トップk選択戦略を導入し, 与えられたパッチの最重要点に焦点を合わせ, 学習方法によって選択された点が, 単純な接平面によって表面に適合する傾向にあり, シャープコーナーや複雑なパターンを用いたパッチの正規推定結果が劇的に向上する。 そこで本稿では, 局所表面固定前の点更新戦略を提案し, パッチの鋭い境界を滑らかにし, 表面嵌合プロセスを簡素化し, 嵌合歪みを著しく低減し, 予測点正規の精度を向上する。 提案手法の有効性を解析し,提案手法が既存手法よりも高い推定精度を生かしてSOTA結果が得られることを示す。

With the burst development of neural networks in recent years, the task of normal estimation has once again become a concern. By introducing the neural networks to classic methods based on problem-specific knowledge, the adaptability of the normal estimation algorithm to noise and scale has been greatly improved. However, the compatibility between neural networks and the traditional methods has not been considered. Similar to the principle of Occam's razor, that is, the simpler is better. We observe that a more simplified process of surface fitting can significantly improve the accuracy of the normal estimation. In this paper, two simple-yet-effective strategies are proposed to address the compatibility between the neural networks and surface fitting process to improve normal estimation. Firstly, a dynamic top-k selection strategy is introduced to better focus on the most critical points of a given patch, and the points selected by our learning method tend to fit a surface by way of a simple tangent plane, which can dramatically improve the normal estimation results of patches with sharp corners or complex patterns. Then, we propose a point update strategy before local surface fitting, which smooths the sharp boundary of the patch to simplify the surface fitting process, significantly reducing the fitting distortion and improving the accuracy of the predicted point normal. The experiments analyze the effectiveness of our proposed strategies and demonstrate that our method achieves SOTA results with the advantage of higher estimation accuracy over most existed approaches.
翻訳日:2021-04-22 14:17:01 公開日:2021-04-21
# FIERY:一眼レフカメラによる鳥の視界の将来予測

FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras ( http://arxiv.org/abs/2104.10490v1 )

ライセンス: Link先を確認
Anthony Hu, Zak Murez, Nikhil Mohan, Sof\'ia Dudas, Jeff Hawke, Vijay Badrinarayanan, Roberto Cipolla, Alex Kendall(参考訳) 運転には、道路エージェントと対話し、安全にナビゲートするために将来の行動を予測する必要がある。 単眼カメラによる鳥眼視における確率論的未来予測モデルFIERYを提案する。 本モデルは,非パラメトリックな未来の軌跡に変換可能な動的エージェントの将来のインスタンスセグメンテーションと動作を予測する。 本手法は, 従来の自律走行スタックの知覚, センサフュージョン, および予測成分を, 周囲のRGB単眼カメラからの鳥眼視予測を直接推定することによって組み合わせる。 FIERYは、HDマップに頼ることなく、カメラ駆動データから直接、未来の本質的に確率的な性質をモデル化し、マルチモーダルな将来の軌跡を予測する。 当社のモデルは,NuScenesとLyftのデータセットに基づく予測ベースラインよりも優れています。 コードはhttps://github.com/w ayveai/fieryで入手できる。

Driving requires interacting with road agents and predicting their future behaviour in order to navigate safely. We present FIERY: a probabilistic future prediction model in bird's-eye view from monocular cameras. Our model predicts future instance segmentation and motion of dynamic agents that can be transformed into non-parametric future trajectories. Our approach combines the perception, sensor fusion and prediction components of a traditional autonomous driving stack by estimating bird's-eye-view prediction directly from surround RGB monocular camera inputs. FIERY learns to model the inherent stochastic nature of the future directly from camera driving data in an end-to-end manner, without relying on HD maps, and predicts multimodal future trajectories. We show that our model outperforms previous prediction baselines on the NuScenes and Lyft datasets. Code is available at https://github.com/w ayveai/fiery
翻訳日:2021-04-22 14:16:39 公開日:2021-04-21
# Invertible Denoising Network: リアルノイズ除去のための軽量ソリューション

Invertible Denoising Network: A Light Solution for Real Noise Removal ( http://arxiv.org/abs/2104.10546v1 )

ライセンス: Link先を確認
Yang Liu and Zhenyue Qin and Saeed Anwar and Pan Ji and Dongwoo Kim and Sabrina Caldwell and Tom Gedeon(参考訳) 非可逆ネットワークは、バックプロパゲーション時の軽量、情報ロスレス、メモリ節約など、様々な利点がある。 しかし、ノイズ除去に可逆モデルを適用するのは、入力がノイズであるため困難であり、逆出力は2つの異なる分布に従うためクリーンである。 本稿では,この課題に対処するために,可逆デノベーションネットワークInvDNを提案する。 InvDNはノイズを含む低解像度クリーンイメージと潜時表現に雑音入力を変換する。 ノイズを破棄してクリーンなイメージを復元するために、InvDNはノイズの多い潜伏表現を、逆転中に前の分布からサンプリングされた別の表現に置き換える。 InvDNの性能は既存のすべての競合モデルよりも優れており、実行時間が少なく、SIDDデータセットの新たな最先端結果を実現している。 さらに、InvDNのサイズはより小さく、最近提案されたDANetと比較してパラメータの4.2%しか持たない。 さらに、ノイズのある潜在表現を操作することで、InvDNは元のものに近いノイズを生成することができる。 私たちのコードは、https://github.com/y ang-liu1082/invdn.gi tで利用可能です。

Invertible networks have various benefits for image denoising since they are lightweight, information-lossless , and memory-saving during back-propagation. However, applying invertible models to remove noise is challenging because the input is noisy, and the reversed output is clean, following two different distributions. We propose an invertible denoising network, InvDN, to address this challenge. InvDN transforms the noisy input into a low-resolution clean image and a latent representation containing noise. To discard noise and restore the clean image, InvDN replaces the noisy latent representation with another one sampled from a prior distribution during reversion. The denoising performance of InvDN is better than all the existing competitive models, achieving a new state-of-the-art result for the SIDD dataset while enjoying less run time. Moreover, the size of InvDN is far smaller, only having 4.2% of the number of parameters compared to the most recently proposed DANet. Further, via manipulating the noisy latent representation, InvDN is also able to generate noise more similar to the original one. Our code is available at: https://github.com/Y ang-Liu1082/InvDN.gi t.
翻訳日:2021-04-22 14:16:26 公開日:2021-04-21
# 深部ショートカット学習を克服するためのアノテーションの粒度再考:胸部X線写真を用いた研究

Rethinking annotation granularity for overcoming deep shortcut learning: A retrospective study on chest radiographs ( http://arxiv.org/abs/2104.10553v1 )

ライセンス: Link先を確認
Luyang Luo, Hao Chen, Yongjie Xiao, Yanning Zhou, Xi Wang, Varut Vardhanabhuti, Mingxiang Wu, Pheng-Ann Heng(参考訳) 深層学習は、放射線学者に匹敵する、あるいは優れた放射線検査性能を示す。 しかし,近年の研究では,胸部疾患分類の深部モデルでは,外部データに適用した場合の劣化がみられた。 このような現象はショートカット学習に分類され、深層モデルは同一の分散トレーニングとテストセットに適合するが、他の分布に一般化できない意図しない決定ルールを学ぶ。 この欠陥を緩和する自然な方法は、病変を明確に示し、モデルを意図した特徴を学ぶことに集中することである。 本稿では,一般的な胸部疾患分類モデルであるCheXNetと胸部病変検出モデルであるCheXDetを比較するために,広範囲にわたる振り返り実験を行った。 まず,この2つのモデルが内部テストセットで類似した画像レベルの分類性能を達成し,多くのシナリオにおいて有意な差は認められなかった。 一方、外部トレーニングデータを組み込むことで、chexnetのパフォーマンスが低下することさえわかった。 次に、病変局所化タスクにおけるモデルの内部性能を比較し、CheXDetが80%のトレーニングデータを与えられた場合でも、CheXNetよりも大幅にパフォーマンスが向上したことを示した。 モデルの意思決定領域をさらに可視化することにより,CheXNetは対象病変以外のパターンを学習し,その短絡学習欠陥を実証した。 さらに、画像レベルの分類タスクと病変局所化タスクの両方において、CheXDetはCheXNetよりもはるかに優れた外部パフォーマンスを実現した。 本研究は, 将来的な深層学習に基づく臨床応用診断システムを構築するために, 深層学習システム訓練のためのアノテーションの粒度向上を期待するものである。

Deep learning has demonstrated radiograph screening performances that are comparable or superior to radiologists. However, recent studies show that deep models for thoracic disease classification usually show degraded performance when applied to external data. Such phenomena can be categorized into shortcut learning, where the deep models learn unintended decision rules that can fit the identically distributed training and test set but fail to generalize to other distributions. A natural way to alleviate this defect is explicitly indicating the lesions and focusing the model on learning the intended features. In this paper, we conduct extensive retrospective experiments to compare a popular thoracic disease classification model, CheXNet, and a thoracic lesion detection model, CheXDet. We first showed that the two models achieved similar image-level classification performance on the internal test set with no significant differences under many scenarios. Meanwhile, we found incorporating external training data even led to performance degradation for CheXNet. Then, we compared the models' internal performance on the lesion localization task and showed that CheXDet achieved significantly better performance than CheXNet even when given 80% less training data. By further visualizing the models' decision-making regions, we revealed that CheXNet learned patterns other than the target lesions, demonstrating its shortcut learning defect. Moreover, CheXDet achieved significantly better external performance than CheXNet on both the image-level classification task and the lesion localization task. Our findings suggest improving annotation granularity for training deep learning systems as a promising way to elevate future deep learning-based diagnosis systems for clinical usage.
翻訳日:2021-04-22 14:16:05 公開日:2021-04-21
# 連続処理効果のための自動ダブル機械学習

Automatic Double Machine Learning for Continuous Treatment Effects ( http://arxiv.org/abs/2104.10334v1 )

ライセンス: Link先を確認
Sylvia Klosin(参考訳) 本稿では, 持続的治療効果の非パラメトリック推定器について, 漸近正規性を導入し, 証明する。 具体的には、治療レベルの特定のレベルにおける利子結果の期待値である平均線量-反応関数を推定する。 本研究では,DML(Double Debiased Machine Learning)とADML(Automatic Double Machine Learning)の2つの文献のツールを用いて,推定器を構築した。 我々の推定器は、理論的な安定性とバランス性をもたらす新しいデバイアス法を利用する。 シミュレーションでは、推定器は現在の手法と比較してよく機能する。

In this paper, we introduce and prove asymptotic normality for a new nonparametric estimator of continuous treatment effects. Specifically, we estimate the average dose-response function - the expected value of an outcome of interest at a particular level of the treatment level. We utilize tools from both the double debiased machine learning (DML) and the automatic double machine learning (ADML) literatures to construct our estimator. Our estimator utilizes a novel debiasing method that leads to nice theoretical stability and balancing properties. In simulations our estimator performs well compared to current methods.
翻訳日:2021-04-22 14:15:39 公開日:2021-04-21
# 二酸化炭素排出量と大規模ニューラルネットワークトレーニング

Carbon Emissions and Large Neural Network Training ( http://arxiv.org/abs/2104.10350v1 )

ライセンス: Link先を確認
David Patterson, Joseph Gonzalez, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, Jeff Dean(参考訳) 機械学習(ML)の計算需要は最近急速に増加しており、多くのコストが伴っている。 エネルギーコストの推定は環境への影響を測定し、よりグリーンな戦略を見つけるのに役立つが、詳細な情報なしでは困難である。 我々は,最近の大規模モデルであるt5, meena, gshard, switch transformer, gpt-3のエネルギー使用量とカーボンフットプリントを計算し,進化したトランスフォーマーを発見したニューラルネットワーク探索の初期の推定を洗練する。 エネルギー効率とCO2排出量(CO2e)を改善するための次の機会を強調する: 大きいが疎に活性化されたDNNは、多くのパラメータを使用しながら精度を犠牲にすることなく、大きくて密度の高いDNNの1/10のエネルギーを消費することができる。 MLワークロードスケジューリングの地理的な場所は、カーボンフリーエネルギーのごく一部と結果のCO2eは、同じ国と同じ組織内であっても、約5X-10Xが異なるためである。 現在、大規模モデルのトレーニングの場所と時期を最適化しています。 データセンターのインフラは、典型的なデータセンターよりも1.4~2倍エネルギー効率が良く、内部のML指向アクセラレータは、既製のシステムよりも2~5倍効率が良い。 注目すべきは、DNN、データセンター、プロセッサの選択により、カーボンフットプリントを最大100-1000Xまで削減できることだ。 これらの大きな要因は、エネルギーコストの遡及的な見積もりを困難にする。 計算ミスを回避するため,大規模な計算資源を必要とするML論文はエネルギー消費とCO2eを明確にする必要がある。 我々は、将来の研究でエネルギー利用とCO2eをより透明にするために取り組んでいます。 MLの炭素フットプリントを減らすために、私たちは、エネルギー使用量とCO2eがモデルを評価する上で重要な指標であるべきだと考えています。

The computation demand for machine learning (ML) has grown rapidly recently, which comes with a number of costs. Estimating the energy cost helps measure its environmental impact and finding greener strategies, yet it is challenging without detailed information. We calculate the energy use and carbon footprint of several recent large models-T5, Meena, GShard, Switch Transformer, and GPT-3-and refine earlier estimates for the neural architecture search that found Evolved Transformer. We highlight the following opportunities to improve energy efficiency and CO2 equivalent emissions (CO2e): Large but sparsely activated DNNs can consume <1/10th the energy of large, dense DNNs without sacrificing accuracy despite using as many or even more parameters. Geographic location matters for ML workload scheduling since the fraction of carbon-free energy and resulting CO2e vary ~5X-10X, even within the same country and the same organization. We are now optimizing where and when large models are trained. Specific datacenter infrastructure matters, as Cloud datacenters can be ~1.4-2X more energy efficient than typical datacenters, and the ML-oriented accelerators inside them can be ~2-5X more effective than off-the-shelf systems. Remarkably, the choice of DNN, datacenter, and processor can reduce the carbon footprint up to ~100-1000X. These large factors also make retroactive estimates of energy cost difficult. To avoid miscalculations, we believe ML papers requiring large computational resources should make energy consumption and CO2e explicit when practical. We are working to be more transparent about energy use and CO2e in our future research. To help reduce the carbon footprint of ML, we believe energy usage and CO2e should be a key metric in evaluating models, and we are collaborating with MLPerf developers to include energy usage during training and inference in this industry standard benchmark.
翻訳日:2021-04-22 14:15:07 公開日:2021-04-21
# 自律運転におけるタックリングの多様性

Tackling Variabilities in Autonomous Driving ( http://arxiv.org/abs/2104.10415v1 )

ライセンス: Link先を確認
Yuqiong Qi and Yang Hu and Haibin Wu and Shen Li and Haiyu Mao and Xiaochun Ye and Dongrui Fan and Ninghui Sun(参考訳) 最先端運転自動化システムは、厳密な精度とレイテンシ要件を満たすために、極端な計算リソースを必要とする。 新たな運転自動化コンピューティングプラットフォームは、パフォーマンスと電力保証を改善するためにasicをベースとしているが、運転自動化のためのアクセラレータベースのコンピューティングプラットフォームを構築することは依然として課題である。 まず、ワークロードが混在し、自動化システムに公開されるパフォーマンス要件が大幅に変動する。 第2に、将来の完全自律走行車に統合されるカメラやセンサーの数が増えれば、新しい形態の並列性のために設計スペースの探索を必要とする異種マルチアクセラレータアーキテクチャ基板が必要になる。 本研究は,上記システム設計の課題を幅広く探求することを目的としており,これらの課題は,異種ハードウェアアクセラレータ設計原則,システム設計基準,タスクスケジューリング機構を相乗的に扱う包括的なフレームワークの提案を動機付けている。 具体的には,可変性のある運転自動化タスクのためのハードウェア基板を提供するための,新しいヘテロジニアスマルチコアaiアクセラレータ(hmai)を提案する。 また,システム設計基準を定義し,性能とエネルギーの制約を満たすとともに,ハードウェア資源の有効利用とスループットの向上を実現する。 最後に,タスクマッピング問題を解決するために,深層強化学習(RL)に基づくタスクスケジューリング機構FlexAIを提案する。 実験結果から,各走行経路における100%のタスクを必要期間内にHMAIで処理して安全性を確保することができ,また,FlexAIは通常のヒューリスティックやランダム検索に基づくアルゴリズムと比較して,最大96%の切断距離を最大化することができることがわかった。

The state-of-the-art driving automation system demands extreme computational resources to meet rigorous accuracy and latency requirements. Though emerging driving automation computing platforms are based on ASIC to provide better performance and power guarantee, building such an accelerator-based computing platform for driving automation still present challenges. First, the workloads mix and performance requirements exposed to driving automation system present significant variability. Second, with more cameras/sensors integrated in a future fully autonomous driving vehicle, a heterogeneous multi-accelerator architecture substrate is needed that requires a design space exploration for a new form of parallelism. In this work, we aim to extensively explore the above system design challenges and these challenges motivate us to propose a comprehensive framework that synergistically handles the heterogeneous hardware accelerator design principles, system design criteria, and task scheduling mechanism. Specifically, we propose a novel heterogeneous multi-core AI accelerator (HMAI) to provide the hardware substrate for the driving automation tasks with variability. We also define system design criteria to better utilize hardware resources and achieve increased throughput while satisfying the performance and energy restrictions. Finally, we propose a deep reinforcement learning (RL)-based task scheduling mechanism FlexAI, to resolve task mapping issue. Experimental results show that with FlexAI scheduling, basically 100% tasks in each driving route can be processed by HMAI within their required period to ensure safety, and FlexAI can also maximally reduce the breaking distance up to 96% as compared to typical heuristics and guided random-search-based algorithms.
翻訳日:2021-04-22 14:14:31 公開日:2021-04-21
# Eye Know you: Metric Learning for End-to-end Biometric Authentication using Eye Movements from a Longitudinal Dataset (特集:バイオサイバネティックス)

Eye Know You: Metric Learning for End-to-end Biometric Authentication Using Eye Movements from a Longitudinal Dataset ( http://arxiv.org/abs/2104.10489v1 )

ライセンス: Link先を確認
Dillon Lohr, Henry Griffith, and Oleg V Komogortsev(参考訳) 2004年のモダリティの開始以来、多くの研究が眼球運動の生体計測を研究してきたが、ほとんどの研究は短いフレームで収集されたデータセットを使用するため、眼球運動の永続性はほとんど探索されていない。 本稿では,ユーザの眼球運動を認証するための畳み込みニューラルネットワークを提案する。 ネットワークは、確立されたメートル法学習損失関数、多相性損失(multi-similarity loss)で訓練されており、これは、十分にクラスタ化された埋め込み空間を形成し、サンプル外ユーザの登録と認証を直接可能にする。 パフォーマンス指標は、37ヶ月の期間に収集されたタスク分散および公開利用可能なデータセットであるgazagebaseで計算される。 本研究は,各種課題に対するトレーニングの効果と,1000Hzからいくつかの低いサンプリングレートへのダウンサンプリングの徹底的な分析を含む。 この結果から,低認識負荷タスクや低サンプリングレートにおいても,適切な認証精度が得られうることがわかった。 さらに,眼球運動は3年後のテンプレート老化に対して非常に回復力があることがわかった。

While numerous studies have explored eye movement biometrics since the modality's inception in 2004, the permanence of eye movements remains largely unexplored as most studies utilize datasets collected within a short time frame. This paper presents a convolutional neural network for authenticating users using their eye movements. The network is trained with an established metric learning loss function, multi-similarity loss, which seeks to form a well-clustered embedding space and directly enables the enrollment and authentication of out-of-sample users. Performance measures are computed on GazeBase, a task-diverse and publicly-available dataset collected over a 37-month period. This study includes an exhaustive analysis of the effects of training on various tasks and downsampling from 1000 Hz to several lower sampling rates. Our results reveal that reasonable authentication accuracy may be achieved even during a low-cognitive-load task or at low sampling rates. Moreover, we find that eye movements are quite resilient against template aging after 3 years.
翻訳日:2021-04-22 14:14:03 公開日:2021-04-21
# 隠れマルコフモデルによる軸受欠陥検出と主成分分析の強化

Bearings Fault Detection Using Hidden Markov Models and Principal Component Analysis Enhanced Features ( http://arxiv.org/abs/2104.10519v1 )

ライセンス: Link先を確認
Akthem Rehab, Islam Ali, Walid Gomaa, M. Nashat Fors(参考訳) アセットヘルスモニタリングは、生産性、信頼性、コスト削減において、引き続き重要性が増している。 早期故障検出は、新しい診断・健康管理(PHM)哲学の一部として、健康管理の要となる。 本稿では,機械の健康劣化を評価するための隠れマルコフモデルを提案する。 主成分分析(PCA)を用いて振動信号から抽出した特徴を増強する。 強化された機能はデータの2階構造をキャプチャする。 軸受試験層を用いた実験結果から,提案手法の有効性が示された。

Asset health monitoring continues to be of increasing importance on productivity, reliability, and cost reduction. Early Fault detection is a keystone of health management as part of the emerging Prognostics and Health Management (PHM) philosophy. This paper proposes a Hidden Markov Model (HMM) to assess the machine health degradation. using Principal Component Analysis (PCA) to enhance features extracted from vibration signals is considered. The enhanced features capture the second order structure of the data. The experimental results based on a bearing test bed show the plausibility of the proposed method.
翻訳日:2021-04-22 14:13:43 公開日:2021-04-21
# GraphTheta: 柔軟なトレーニング戦略を備えた分散グラフニューラルネットワーク学習システム

GraphTheta: A Distributed Graph Neural Network Learning System With Flexible Training Strategy ( http://arxiv.org/abs/2104.10569v1 )

ライセンス: Link先を確認
Houyi Li, Yongchao Liu, Yongyong Li, Bin Huang, Peng Zhang, Guowei Zhang, Xintan Zeng, Kefeng Deng, Wenguang Chen, and Changhua He(参考訳) グラフニューラルネットワーク(GNN)は、非ユークリッドグラフデータを分析する強力なツールとして実証されている。 しかし、効率的な分散グラフ学習システムの欠如は、特にグラフが大きければ、高密度、あるいは高度に歪んだノード次数分布を持つ場合、GNNの応用を著しく妨げる。 本稿では,複数の学習戦略をサポートし,大規模グラフ上で効率的かつスケーラブルな学習を実現する,分散グラフ学習システムであるgraphthetaを提案する。 GraphThetaはグラフにローカライズされたグラフ畳み込みとグローバル化されたグラフ畳み込みを実装しており、新しいグラフ学習抽象化NN-TGARはグラフ処理とグラフ学習フレームワークのギャップを埋めるように設計されている。 ハイブリッド並列実行を伴う確率的勾配降下最適化を行うために,分散グラフエンジンを提案する。 さらに,従来のグローバルバッチおよびミニバッチに加えて,新たなクラスタバッチトレーニング戦略のサポートも追加する。 ネットワークサイズが小さく, モデストから大規模まで, 多数のネットワークデータを用いてGraphThetaを評価する。 実験の結果、GraphThetaは1024人の労働者にほぼ線形にスケールし、14億ノードと410億エッジのAlipayデータセット上で26時間以内に社内で開発されたGNNモデルをトレーニングしている。 さらに、GraphThetaは最先端のGNN手法よりも優れた予測結果を得る。 我々の知る限り、この研究は文学における10億規模のネットワーク上で実施された、エッジ対応のGNN学習タスクとしては最大である。

Graph neural networks (GNNs) have been demonstrated as a powerful tool for analysing non-Euclidean graph data. However, the lack of efficient distributed graph learning systems severely hinders applications of GNNs, especially when graphs are big, of high density or with highly skewed node degree distributions. In this paper, we present a new distributed graph learning system GraphTheta, which supports multiple training strategies and enables efficient and scalable learning on big graphs. GraphTheta implements both localized and globalized graph convolutions on graphs, where a new graph learning abstraction NN-TGAR is designed to bridge the gap between graph processing and graph learning frameworks. A distributed graph engine is proposed to conduct the stochastic gradient descent optimization with hybrid-parallel execution. Moreover, we add support for a new cluster-batched training strategy in addition to the conventional global-batched and mini-batched ones. We evaluate GraphTheta using a number of network data with network size ranging from small-, modest- to large-scale. Experimental results show that GraphTheta scales almost linearly to 1,024 workers and trains an in-house developed GNN model within 26 hours on Alipay dataset of 1.4 billion nodes and 4.1 billion attributed edges. Moreover, GraphTheta also obtains better prediction results than the state-of-the-art GNN methods. To the best of our knowledge, this work represents the largest edge-attributed GNN learning task conducted on a billion-scale network in the literature.
翻訳日:2021-04-22 14:13:35 公開日:2021-04-21
# プラグ・アンド・プレイアルゴリズムの固定点および客観的収束

Fixed-Point and Objective Convergence of Plug-and-Play Algorithms ( http://arxiv.org/abs/2104.10348v1 )

ライセンス: Link先を確認
Pravin Nair and Ruturaj G. Gavaskar and Kunal N. Chaudhury(参考訳) 画像再構成の標準モデルは、ISTAやADMMといった近似アルゴリズムを用いて最適化を行う正規化器とともに、データ忠実度項の最小化を伴う。 プラグ・アンド・プレイ正則化(PnP)では、ISTAおよびADMMにおける近位演算子(正規化子に関連する)を強力な画像デノイザに置き換える。 PnP正則化は実際は驚くほどうまく機能するが、その理論収束(PnPの収束が保証されるか、目的関数を最小化するか)は、非局所的手段のような単純な線型微分器に対しても完全には理解されない。 特に、反復的または客観的収束を別々に確立する作業があるが、反復的および客観的収束の同時保証は、我々の知識に対するいかなるデノイザーに対しても利用できない。 本稿では,線形デノイザの特殊クラスに対して,両形式の収束性を確立する。 特に,非局所平均や凸データ忠実性といった非対称デノイザを対象とする既存の著作物とは異なり,本解析は非対称デノイザを対象とする。 この点での新規性は、平均作用素の収束理論を利用し、線型デノイザーから導かれる特別な内積(およびノルム)を扱うことである。 画像再構成実験を用いて収束結果を検証する。

A standard model for image reconstruction involves the minimization of a data-fidelity term along with a regularizer, where the optimization is performed using proximal algorithms such as ISTA and ADMM. In plug-and-play (PnP) regularization, the proximal operator (associated with the regularizer) in ISTA and ADMM is replaced by a powerful image denoiser. Although PnP regularization works surprisingly well in practice, its theoretical convergence -- whether convergence of the PnP iterates is guaranteed and if they minimize some objective function -- is not completely understood even for simple linear denoisers such as nonlocal means. In particular, while there are works where either iterate or objective convergence is established separately, a simultaneous guarantee on iterate and objective convergence is not available for any denoiser to our knowledge. In this paper, we establish both forms of convergence for a special class of linear denoisers. Notably, unlike existing works where the focus is on symmetric denoisers, our analysis covers non-symmetric denoisers such as nonlocal means and almost any convex data-fidelity. The novelty in this regard is that we make use of the convergence theory of averaged operators and we work with a special inner product (and norm) derived from the linear denoiser; the latter requires us to appropriately define the gradient and proximal operators associated with the data-fidelity term. We validate our convergence results using image reconstruction experiments.
翻訳日:2021-04-22 14:12:46 公開日:2021-04-21
# 3次元点雲からのボクセル構造に基づくメッシュ再構成

Voxel Structure-based Mesh Reconstruction from a 3D Point Cloud ( http://arxiv.org/abs/2104.10622v1 )

ライセンス: Link先を確認
Chenlei Lv, Weisi Lin, Baoquan Zhao(参考訳) 3Dポイントクラウドからのメッシュ再構築は、コンピュータグラフィック、コンピュータビジョン、マルチメディア分析の分野で重要なトピックである。 本稿では,ボクセル構造に基づくメッシュ再構築フレームワークを提案する。 局所領域検出の精度を向上させるための本質的な指標を提供する。 検出された局所領域に基づいて、初期再構成メッシュを得ることができる。 我々のフレームワークにおけるメッシュ最適化では、初期再構成メッシュは、外部エッジや内部エッジといった重要な幾何学的特徴を持つ等方的メッシュに最適化される。 実験の結果,メッシュ品質,幾何的特徴保持,処理速度の点で,我々のフレームワークはピアに比べて大きな優位性を示した。

Mesh reconstruction from a 3D point cloud is an important topic in the fields of computer graphic, computer vision, and multimedia analysis. In this paper, we propose a voxel structure-based mesh reconstruction framework. It provides the intrinsic metric to improve the accuracy of local region detection. Based on the detected local regions, an initial reconstructed mesh can be obtained. With the mesh optimization in our framework, the initial reconstructed mesh is optimized into an isotropic one with the important geometric features such as external and internal edges. The experimental results indicate that our framework shows great advantages over peer ones in terms of mesh quality, geometric feature keeping, and processing speed.
翻訳日:2021-04-22 14:12:22 公開日:2021-04-21
# 複数のデータソースと限られた出力を用いた校正最適決定法

Calibrated Optimal Decision Making with Multiple Data Sources and Limited Outcome ( http://arxiv.org/abs/2104.10554v1 )

ライセンス: Link先を確認
Hengrui Cai, Wenbin Lu, Rui Song(参考訳) 複数の補助的情報源が利用可能な一次サンプルの最適意思決定問題を考察する。 興味の結果は、一次サンプルでのみ観察されるという意味で制限される。 実際、このような複数のデータソースは異なる集団に属しており、直接結合することはできない。 本稿では,複数のデータソースの共有パターンを活用することで,限られた結果に対処できる新しい最適化最適決定規則(codr)を提案する。 異なる試料中の中間結果の条件付け手段が基準共変量と治療情報とで等しく、より穏やかで検証可能な仮定の下では、codr下での関心の校正された平均結果が、一次試料のみを使用するよりも偏りなく効率的であることを示すことができる。 シミュレーションデータセットの広範囲にわたる実験は,提案したCODRの実証的妥当性と改善を示し,次いでMIMIC-IIIをeICUの補助データを用いた一次サンプルとして実例とした。

We consider the optimal decision-making problem in a primary sample of interest with multiple auxiliary sources available. The outcome of interest is limited in the sense that it is only observed in the primary sample. In reality, such multiple data sources may belong to different populations and thus cannot be combined directly. This paper proposes a novel calibrated optimal decision rule (CODR) to address the limited outcome, by leveraging the shared pattern in multiple data sources. Under a mild and testable assumption that the conditional means of intermediate outcomes in different samples are equal given baseline covariates and the treatment information, we can show that the calibrated mean outcome of interest under the CODR is unbiased and more efficient than using the primary sample solely. Extensive experiments on simulated datasets demonstrate empirical validity and improvement of the proposed CODR, followed by a real application on the MIMIC-III as the primary sample with auxiliary data from eICU.
翻訳日:2021-04-22 14:12:14 公開日:2021-04-21
# GEAR: 補助データによる最適意思決定について

GEAR: On Optimal Decision Making with Auxiliary Data ( http://arxiv.org/abs/2104.10573v1 )

ライセンス: Link先を確認
Hengrui Cai, Rui Song, Wenbin Lu(参考訳) 個人の特性に基づく最適決定規則(odr)を見出したパーソナライズされた最適意思決定は、近年、教育、経済学、医学など多くの分野で注目を集めている。 現在のODR法は、通常、治療効果、すなわち実験サンプルを評価するためのサンプルに対する関心の最初の結果を必要とする。 しかし、多くの研究において、治療は長期的効果を持つ可能性があり、実験の期間が限られているため、実験サンプルでは興味をそそる主な結果が観察できないため、odrの推定は不可能である。 本論文は, 実験試料中のODR推定を容易にするために補助試料を用いることにより, この課題に着想を得たものである。 本稿では, 実験試料を用いた判定規則のクラスに対して, 拡張逆確率重み値推定器を最大化することにより, 実験試料と補助サンプルに基づく決定規則(GEAR)を提案する。 提案したGEAR推定器とその関連値推定器の漸近特性を確立した。 エイズを応用した経験的妥当性を示すシミュレーション研究を行った。

Personalized optimal decision making, finding the optimal decision rule (ODR) based on individual characteristics, has attracted increasing attention recently in many fields, such as education, economics, and medicine. Current ODR methods usually require the primary outcome of interest in samples for assessing treatment effects, namely the experimental sample. However, in many studies, treatments may have a long-term effect, and as such the primary outcome of interest cannot be observed in the experimental sample due to the limited duration of experiments, which makes the estimation of ODR impossible. This paper is inspired to address this challenge by making use of an auxiliary sample to facilitate the estimation of ODR in the experimental sample. We propose an auGmented inverse propensity weighted Experimental and Auxiliary sample-based decision Rule (GEAR) by maximizing the augmented inverse propensity weighted value estimator over a class of decision rules using the experimental sample, with the primary outcome being imputed based on the auxiliary sample. The asymptotic properties of the proposed GEAR estimators and their associated value estimators are established. Simulation studies are conducted to demonstrate its empirical validity with a real AIDS application.
翻訳日:2021-04-22 14:11:57 公開日:2021-04-21
# 前向きおよび後向き変換器を用いたASRのためのラベル同期音声テキストアライメント

Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and Backward Transformers ( http://arxiv.org/abs/2104.10328v1 )

ライセンス: Link先を確認
Yusuke Kida, Tatsuya Komatsu, Masahito Togami(参考訳) 本稿では,自動音声認識(ASR)のためのラベル同期音声テキストアライメント手法を提案する。 音声とテキストのアライメントは、音声とテキストのペアに不一致の書き起こしを含む長い音声を分割する問題である。 従来のフレーム同期予測法とは異なり,提案手法ではラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。 これにより、従来の手法では適用できない最先端の注目型エンコーダデコーダモデルの強い推論能力から、正確なアライメントが可能となる。 Forward Transformer と Backward Transformer という2つの異なるトランスフォーマーモデルを用いて,教師力による終末予測に基づいて,与えられた音声セグメントの初期および最終トークンを推定する。 自発的日本語コーパス(CSJ)を用いた実験では,手動によるアライメントを0.2%の誤差で一致させる,高精度な発話アライメントが提案されている。 また,一致した音声とテキストのペアを併用したトランスフォーマーベースのハイブリッドCTC/Attention ASRモデルにより,59.0%までの文字誤り率を相対的に低減し,接続性時間分類モデルに基づく従来のアライメント法では39.0%よりも大幅に向上することが確認された。

This paper proposes a novel label-synchronous speech-to-text alignment technique for automatic speech recognition (ASR). The speech-to-text alignment is a problem of splitting long audio recordings with un-aligned transcripts into utterance-wise pairs of speech and text. Unlike conventional methods based on frame-synchronous prediction, the proposed method re-defines the speech-to-text alignment as a label-synchronous text mapping problem. This enables an accurate alignment benefiting from the strong inference ability of the state-of-the-art attention-based encoder-decoder models, which cannot be applied to the conventional methods. Two different Transformer models named forward Transformer and backward Transformer are respectively used for estimating an initial and final tokens of a given speech segment based on end-of-sentence prediction with teacher-forcing. Experiments using the corpus of spontaneous Japanese (CSJ) demonstrate that the proposed method provides an accurate utterance-wise alignment, that matches the manually annotated alignment with as few as 0.2% errors. It is also confirmed that a Transformer-based hybrid CTC/Attention ASR model using the aligned speech and text pairs as an additional training data reduces character error rates relatively up to 59.0%, which is significantly better than 39.0% reduction by a conventional alignment method based on connectionist temporal classification model.
翻訳日:2021-04-22 14:11:22 公開日:2021-04-21
# ディープスペクトログラムネットワークとプリミティブベース自己回帰ハイブリッドチャネルモデルを用いた無線センシング

Wireless Sensing With Deep Spectrogram Network and Primitive Based Autoregressive Hybrid Channel Model ( http://arxiv.org/abs/2104.10378v1 )

ライセンス: Link先を確認
Guoliang Li, Shuai Wang, Jie Li, Rui Wang, Xiaohui Peng, and Tony Xiao Han(参考訳) 無線センシングに基づくヒューマンモーション認識(hmr)は,シーン理解のための低コスト手法である。 現在のHMRシステムは、レーダー信号を分類するためにサポートベクターマシン(SVM)と畳み込みニューラルネットワーク(CNN)を採用している。 しかし、深層学習モデルがシステムパフォーマンスを改善するかどうかは現在不明である。 一方、機械学習モデルのトレーニングには大きなデータセットが必要ですが、実験から収集したデータにはコスト対効果と時間がかかります。 無線チャネルモデルはデータセット生成に応用できるが、現在のチャネルモデルはセンシングではなく通信用に設計されている。 そこで本稿では,残差マッピング技術を利用してHMR性能を向上させるディープ・スペクトログラム・ネットワーク(DSN)を提案する。 さらに、仮想環境におけるHMRのための効率的なトレーニングおよびテストデータセット生成を容易にするプリミティブベース自己回帰ハイブリッド(PBAH)チャネルモデルを開発した。 実験結果から,提案するPBAHチャネルモデルは実実験データと非常によく一致し,提案したDSNはCNNよりも認識誤差が大幅に小さいことがわかった。

Human motion recognition (HMR) based on wireless sensing is a low-cost technique for scene understanding. Current HMR systems adopt support vector machines (SVMs) and convolutional neural networks (CNNs) to classify radar signals. However, whether a deeper learning model could improve the system performance is currently not known. On the other hand, training a machine learning model requires a large dataset, but data gathering from experiment is cost-expensive and time-consuming. Although wireless channel models can be adopted for dataset generation, current channel models are mostly designed for communication rather than sensing. To address the above problems, this paper proposes a deep spectrogram network (DSN) by leveraging the residual mapping technique to enhance the HMR performance. Furthermore, a primitive based autoregressive hybrid (PBAH) channel model is developed, which facilitates efficient training and testing dataset generation for HMR in a virtual environment. Experimental results demonstrate that the proposed PBAH channel model matches the actual experimental data very well and the proposed DSN achieves significantly smaller recognition error than that of CNN.
翻訳日:2021-04-22 14:10:56 公開日:2021-04-21
# IoTネットワークにおけるUAV軌道設計のためのモデル支援深部強化学習

Model-aided Deep Reinforcement Learning for Sample-efficient UAV Trajectory Design in IoT Networks ( http://arxiv.org/abs/2104.10403v1 )

ライセンス: Link先を確認
Omid Esrafilian, Harald Bayerlein, and David Gesbert(参考訳) Deep Reinforcement Learning (DRL) は、セルラーまたはIoT(Internet of Things)接続のコンテキストにおいて、飛行アクセスポイントとして使用される自律無人航空機(UAV)の軌道を設計するための重要なパラダイムとなっている。 しかし、厳格に高いトレーニングデータ要求は、実世界のミッションにおけるRLベースの軌道計画の適用性を厳しく制限する。 提案手法は,従来の研究とは対照的に,最低限の訓練データサンプルが必要であり,無線チャネル特性や無線ノード位置の限られた知識を事前に知ることなく,データ収集ミッションにおいて,飛行時間に制限されたUAVを誘導することができる。 既知の参照無線ノードの位置とチャネル利得測定を活用し、未知のノード位置を推定し、無線チャネル特性を学習することにより、環境のモデルを学習する。 モデルとのインタラクションにより、DQN(Deep Q-network)をトレーニングし、最適なUAV制御ポリシを近似することができる。 提案手法は, 標準DRL手法と比較して, 同一データ収集性能に到達するためには, 少なくとも1桁のトレーニングデータサンプルが必要であり, DRLをこの問題に対して実行可能なソリューションにするための第一歩となることを示す。

Deep Reinforcement Learning (DRL) has become a prominent paradigm to design trajectories for autonomous unmanned aerial vehicles (UAV) used as flying access points in the context of cellular or Internet of Things (IoT) connectivity. However, the prohibitively high training data demand severely restricts the applicability of RL-based trajectory planning in real-world missions. We propose a model-aided deep Q-learning approach that, in contrast to previous work, requires a minimum of expensive training data samples and is able to guide a flight-time restricted UAV on a data harvesting mission without prior knowledge of wireless channel characteristics and limited knowledge of wireless node locations. By exploiting some known reference wireless node positions and channel gain measurements, we seek to learn a model of the environment by estimating unknown node positions and learning the wireless channel characteristics. Interaction with the model allows us to train a deep Q-network (DQN) to approximate the optimal UAV control policy. We show that in comparison with standard DRL approaches, the proposed model-aided approach requires at least one order of magnitude less training data samples to reach identical data collection performance, hence offering a first step towards making DRL a viable solution to the problem.
翻訳日:2021-04-22 14:10:38 公開日:2021-04-21
# 自転車共有方式の可用性予測のための空間時間グラフ畳み込みネットワークの比較検討

A Comparative Study of Using Spatial-Temporal Graph Convolutional Networks for Predicting Availability in Bike Sharing Schemes ( http://arxiv.org/abs/2104.10644v1 )

ライセンス: Link先を確認
Zhengyong Chen, Hongde Wu, Noel E. O'Connor, Mingming Liu(参考訳) 交通需要の正確な予測は、効率的な都市交通指導・管理・管理に不可欠である。 予測精度のレベルを高めるひとつの解決策は、グラフベースの構造に含まれるデータを処理できるニューラルネットワークベースのモデリングアプローチであるgraph convolutional networks(gcn)を活用することだ。 GCNの強力な拡張として、空間時間グラフ畳み込みネットワーク(ST-GCN)は、空間的および時間的次元のグラフィカルノードに含まれるデータの関係を捉えることを目的としている。 本稿では,st-gcnの性能向上のために注意に基づく機構を導入する都市における自転車シェアリングシステムにおいて,利用可能な自転車数を予測するための注意型st-gcn(ast-gcn)を提案する。 さらに,提案するアーキテクチャに対する隣接行列の異なるモデリング手法の影響についても考察する。 実験の結果,ダブリンバイクとニューヨークシティバイクの2つの実世界のデータセットを用いて,提案モデルの有効性を実証した。

Accurately forecasting transportation demand is crucial for efficient urban traffic guidance, control and management. One solution to enhance the level of prediction accuracy is to leverage graph convolutional networks (GCN), a neural network based modelling approach with the ability to process data contained in graph based structures. As a powerful extension of GCN, a spatial-temporal graph convolutional network (ST-GCN) aims to capture the relationship of data contained in the graphical nodes across both spatial and temporal dimensions, which presents a novel deep learning paradigm for the analysis of complex time-series data that also involves spatial information as present in transportation use cases. In this paper, we present an Attention-based ST-GCN (AST-GCN) for predicting the number of available bikes in bike-sharing systems in cities, where the attention-based mechanism is introduced to further improve the performance of a ST-GCN. Furthermore, we also discuss the impacts of different modelling methods of adjacency matrices on the proposed architecture. Our experimental results are presented using two real-world datasets, Dublinbikes and NYC-Citi Bike, to illustrate the efficacy of our proposed model which outperforms the majority of existing approaches.
翻訳日:2021-04-22 14:09:53 公開日:2021-04-21
# (参考訳) ransic:不変互換性を用いたローテーション探索とポイントクラウド登録の高速かつ高堅牢な推定 [全文訳有]

RANSIC: Fast and Highly Robust Estimation for Rotation Search and Point Cloud Registration using Invariant Compatibility ( http://arxiv.org/abs/2104.09133v3 )

ライセンス: CC0 1.0
Lei Sun(参考訳) 対応に基づく回転探索と点雲登録は、ロボット工学とコンピュータビジョンの2つの基本的な問題である。 しかし、アウトリアーの存在は、しばしば仮定された対応の大部分を占めることさえあり、既存のアルゴリズムの多くを失敗させるか、非常に高い計算コストを持つかのどちらかにすることができる。 本稿では,ランダムサンプリングと不変性と不変性を組み合わせた新しいパラダイムに基づいて,両問題に適用可能な高速かつ高堅牢な手法であるransic(random sampling with invariant compatibility)を提案する。 一般に、ransicは対応集合から小さな部分集合をランダムに選択することから始まり、各問題で確立された不変量の互換性テストを通じてランダムな部分集合からグラフの頂点としてポテンシャルのイリアーを求め、最終的に少なくとも1つのk度頂点(kは問題に応じて自動的に更新される)が存在し、残差エラーが同時に特定の終了条件を満たす場合に、対応するイリアーを返す。 複数の合成および実実験において、RANSICは高速で95%以上のアウトレーヤに対して頑健であり、また約100%のインレーヤをリコールでき、ローテーション探索とポイントクラウド登録の両問題に対して、他の最先端の解法よりも優れていることを示した。

Correspondence-based rotation search and point cloud registration are two fundamental problems in robotics and computer vision. However, the presence of outliers, sometimes even occupying the great majority of the putative correspondences, can make many existing algorithms either fail or have very high computational cost. In this paper, we present RANSIC (RANdom Sampling with Invariant Compatibility), a fast and highly robust method applicable to both problems based on a new paradigm combining random sampling with invariance and compatibility. Generally, RANSIC starts with randomly selecting small subsets from the correspondence set, then seeks potential inliers as graph vertices from the random subsets through the compatibility tests of invariants established in each problem, and eventually returns the eligible inliers when there exists at least one K-degree vertex (K is automatically updated depending on the problem) and the residual errors satisfy a certain termination condition at the same time. In multiple synthetic and real experiments, we demonstrate that RANSIC is fast for use, robust against over 95% outliers, and also able to recall approximately 100% inliers, outperforming other state-of-the-art solvers for both the rotation search and the point cloud registration problems.
翻訳日:2021-04-22 12:11:03 公開日:2021-04-21
# (参考訳) 脳腫瘍分節に対する可逆的移動インバータネックを用いた記憶効率3次元U-Net [全文訳有]

Memory Efficient 3D U-Net with Reversible Mobile Inverted Bottlenecks for Brain Tumor Segmentation ( http://arxiv.org/abs/2104.09648v2 )

ライセンス: CC BY 4.0
Mihir Pendse, Vithursan Thangarasa, Vitaliy Chiley, Ryan Holmdahl, Joel Hestness, Dennis DeCoste(参考訳) 従来のu-netアーキテクチャとメモリ節約技術を組み合わせることで,脳腫瘍分節(brats)課題におけるモデルの複雑さを高めることを提案する。 BraTSチャレンジは、240x240x155x4入力画像を一連の腫瘍クラスに3Dセグメント化したものである。 大きなボリュームと3d畳み込み層の必要性のため、このタスクは非常にメモリ集約的です。 これに対処するために、以前のアプローチでは、モデルの深さと幅を制約しながら、より小さな切り抜き画像を使用する。 私たちの3D U-Netは、MobileNetV2、MnasNetおよびより最近のEfficientNetアーキテクチャで定義されたモバイル逆ボトルネックブロックの可逆バージョンを使用して、トレーニング中のアクティベーションメモリを節約します。 可逆的なレイヤを使用することで、モデルはそのレイヤの出力に応じて入力アクティベーションを再計算し、フォワードパス中にアクティベーションを保存する必要がなくなることでメモリを節約できる。 逆の残差ボトルネックブロックは、軽量の深さ分離可能な畳み込みを用いて、畳み込みをポイントワイド畳み込みと奥行き畳み込みに分解することで計算を低減する。 さらに、入力と出力線形1x1畳み込みの間に中間膨張層を配置することにより、従来のボトルネックブロックを反転させ、チャネルの総数を削減する。 固定メモリ予算を考えると、これらのメモリ節約技術により、画像ボリュームを最大3倍、深さ25%以上のモデル、または、対応する非可逆ネットワークよりも最大2倍のチャネル数でトレーニングすることができる。

We propose combining memory saving techniques with traditional U-Net architectures to increase the complexity of the models on the Brain Tumor Segmentation (BraTS) challenge. The BraTS challenge consists of a 3D segmentation of a 240x240x155x4 input image into a set of tumor classes. Because of the large volume and need for 3D convolutional layers, this task is very memory intensive. To address this, prior approaches use smaller cropped images while constraining the model's depth and width. Our 3D U-Net uses a reversible version of the mobile inverted bottleneck block defined in MobileNetV2, MnasNet and the more recent EfficientNet architectures to save activation memory during training. Using reversible layers enables the model to recompute input activations given the outputs of that layer, saving memory by eliminating the need to store activations during the forward pass. The inverted residual bottleneck block uses lightweight depthwise separable convolutions to reduce computation by decomposing convolutions into a pointwise convolution and a depthwise convolution. Further, this block inverts traditional bottleneck blocks by placing an intermediate expansion layer between the input and output linear 1x1 convolution, reducing the total number of channels. Given a fixed memory budget, with these memory saving techniques, we are able to train image volumes up to 3x larger, models with 25% more depth, or models with up to 2x the number of channels than a corresponding non-reversible network.
翻訳日:2021-04-22 11:48:33 公開日:2021-04-21
# (参考訳) m2tr: ディープフェイク検出用マルチモーダルマルチスケールトランス [全文訳有]

M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection ( http://arxiv.org/abs/2104.09770v2 )

ライセンス: CC BY 4.0
Junke Wang, Zuxuan Wu, Jingjing Chen, and Yu-Gang Jiang(参考訳) ディープフェイク技術が生み出した偽画像の普及は、デジタル情報の信頼性に深刻な脅威をもたらしている。 これにより、高度な操作技術によって生じる知覚的に説得力のあるディープフェイクを検出する効果的なアプローチが要求される。 既存のアプローチのほとんどは、入力画像を異なるピクセル間の一貫性を捉えることなくバイナリ予測にマッピングすることで、ディープニューラルネットワークによるディープフェイクと戦う。 本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。 我々は近年,コンピュータビジョンにおける様々な認識タスクに対する画素間の依存関係のモデリングにおいて,優れた性能を示すトランスフォーマーモデルでこれを実現する。 特に,M2TR(Multi-modal Multi-scale TRansformer)を導入し,異なる大きさのパッチで動作するマルチスケールトランスフォーマーを用いて局所的不整合を異なる空間レベルで検出する。 検出結果を改善し,画像圧縮に対するロバスト性を高めるため,m2trは,クロスモダリティ融合モジュールを用いたrgb機能と組み合わせた周波数情報も取得する。 Deepfake検出手法の開発と評価には大規模なデータセットが必要である。 しかし、既存のベンチマークのサンプルには深刻なアーティファクトが含まれ、多様性が欠如している。 これは、最先端の顔交換と顔の再現によって生成される4000のDeepFakeビデオからなる高品質なDeepFakeデータセットSR-DFの導入を動機付けています。 3つのDeepfakeデータセットにおいて,提案手法の有効性を検証するための実験を行った。

The widespread dissemination of forged images generated by Deepfake techniques has posed a serious threat to the trustworthiness of digital information. This demands effective approaches that can detect perceptually convincing Deepfakes generated by advanced manipulation techniques. Most existing approaches combat Deepfakes with deep neural networks by mapping the input image to a binary prediction without capturing the consistency among different pixels. In this paper, we aim to capture the subtle manipulation artifacts at different scales for Deepfake detection. We achieve this with transformer models, which have recently demonstrated superior performance in modeling dependencies between pixels for a variety of recognition tasks in computer vision. In particular, we introduce a Multi-modal Multi-scale TRansformer (M2TR), which uses a multi-scale transformer that operates on patches of different sizes to detect the local inconsistency at different spatial levels. To improve the detection results and enhance the robustness of our method to image compression, M2TR also takes frequency information, which is further combined with RGB features using a cross modality fusion module. Developing and evaluating Deepfake detection methods requires large-scale datasets. However, we observe that samples in existing benchmarks contain severe artifacts and lack diversity. This motivates us to introduce a high-quality Deepfake dataset, SR-DF, which consists of 4,000 DeepFake videos generated by state-of-the-art face swapping and facial reenactment methods. On three Deepfake datasets, we conduct extensive experiments to verify the effectiveness of the proposed method, which outperforms state-of-the-art Deepfake detection methods.
翻訳日:2021-04-22 11:38:14 公開日:2021-04-21
# genESIS-V2: 反復的リファインメントのない未順序オブジェクト表現の推論

GENESIS-V2: Inferring Unordered Object Representations without Iterative Refinement ( http://arxiv.org/abs/2104.09958v2 )

ライセンス: Link先を確認
Martin Engelcke, Oiwi Parker Jones, Ingmar Posner(参考訳) オブジェクト中心生成モデル(ocgms)の進歩は、教師なしオブジェクトセグメンテーションと解釈可能なオブジェクト中心シーン生成のための幅広い方法の開発で頂点に達した。 しかし、これらのメソッドは、視覚の複雑さが制限されたシミュレーションと実世界のデータセットに限定されている。 さらに、オブジェクト表現は、画像中のオブジェクトに不自然な順序を課すのを避けるが、固定数のオブジェクト表現の事前初期化を必要とする、大きな画像や反復的な改善にうまく対応しないRNNを用いて、しばしば推論される。 確立されたパラダイムとは対照的に,本研究では,確率的,非パラメトリックなスティックブレーキングプロセスを用いて,画素の埋め込みを異なる方法でクラスタ化する方法を提案する。 反復的洗練と同様に、このクラスタリング手順はランダムに順序付けられたオブジェクト表現をもたらすが、固定数のクラスタを事前に初期化する必要がない。 これは新しいモデル GENESIS-V2 の開発に使われ、RNN や反復的な洗練を使わずに、可変数のオブジェクト表現を推論できる。 genesis-v2は、確立された合成データセットやより複雑な実世界のデータセット上で、教師なし画像セグメンテーションやオブジェクト中心シーン生成の従来の手法を上回っている。

Advances in object-centric generative models (OCGMs) have culminated in the development of a broad range of methods for unsupervised object segmentation and interpretable object-centric scene generation. These methods, however, are limited to simulated and real-world datasets with limited visual complexity. Moreover, object representations are often inferred using RNNs which do not scale well to large images or iterative refinement which avoids imposing an unnatural ordering on objects in an image but requires the a priori initialisation of a fixed number of object representations. In contrast to established paradigms, this work proposes an embedding-based approach in which embeddings of pixels are clustered in a differentiable fashion using a stochastic, non-parametric stick-breaking process. Similar to iterative refinement, this clustering procedure also leads to randomly ordered object representations, but without the need of initialising a fixed number of clusters a priori. This is used to develop a new model, GENESIS-V2, which can infer a variable number of object representations without using RNNs or iterative refinement. We show that GENESIS-V2 outperforms previous methods for unsupervised image segmentation and object-centric scene generation on established synthetic datasets as well as more complex real-world datasets.
翻訳日:2021-04-22 11:19:53 公開日:2021-04-21
# すべてに原因がある: 法的テキスト分析における因果推論の活用

Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis ( http://arxiv.org/abs/2104.09420v2 )

ライセンス: Link先を確認
Xiao Liu, Da Yin, Yansong Feng, Yuting Wu, Dongyan Zhao(参考訳) 因果推論は変数間の因果関係を捉えるプロセスである。 既存の研究の多くは構造化データを扱うことに重点を置いているが、テキストのような構造化されていないデータから因果関係を抽出することはあまり検討されていない。 本稿では,人間の関与をあまり受けずに事実記述から因果グラフを構築する新しいグラフベース因果推論(gci)フレームワークを提案する。 我々は、類似の電荷曖昧化課題について、その枠組みを評価する。 実験の結果、gciは複数の紛らわしいチャージの事実記述からニュアンスを捉え、特に少数ショット設定において説明可能な識別を提供することができた。 また,gciに含まれる因果知識を強力なニューラルネットワークに効果的に注入することで,性能と解釈性の向上が期待できる。

Causal inference is the process of capturing cause-effect relationship among variables. Most existing works focus on dealing with structured data, while mining causal relationship among factors from unstructured data, like text, has been less examined, but is of great importance, especially in the legal domain. In this paper, we propose a novel Graph-based Causal Inference (GCI) framework, which builds causal graphs from fact descriptions without much human involvement and enables causal inference to facilitate legal practitioners to make proper decisions. We evaluate the framework on a challenging similar charge disambiguation task. Experimental results show that GCI can capture the nuance from fact descriptions among multiple confusing charges and provide explainable discrimination, especially in few-shot settings. We also observe that the causal knowledge contained in GCI can be effectively injected into powerful neural networks for better performance and interpretability.
翻訳日:2021-04-22 11:19:29 公開日:2021-04-21
# 生音声で学習したCNNの中間畳み込み層の解析

Interpreting intermediate convolutional layers of CNNs trained on raw speech ( http://arxiv.org/abs/2104.09489v2 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s} and Alan Zhou(参考訳) 本稿では,生音声データで学習したcnnの中間層を教師なしで解釈・可視化する手法を提案する。 各畳み込み層におけるReLU活性化後の特徴写像の平均値が解釈可能な時系列データを生成することを示す。 提案手法は中間畳み込み層の音響解析を可能にする。 cnnの中間層にいかに有意義な表現がエンコードされるかを明らかにするために、我々は個々の潜在変数をトレーニング範囲外の限界レベルまで操作する。 我々は、素のWaveGANアーキテクチャとciwGAN拡張という2つのモデルで内部表現を訓練し、調査する。 音声の3つの基本音響特性(周期的振動(母音に対応する)、非周期的雑音振動(摩擦に対応する)、沈黙(停止に対応する)について解釈と可視化を行う。 また,提案手法は,人間の音声データの音響解析と並行する中間層の音響解析を可能にする。中間層からf0,強度,持続時間,フォルマント,その他の音響特性を抽出し,cnnが様々な情報の符号化場所と方法をテストする。 モデルは、単純な[s]の存在と、計算的に複雑な再帰的存在(複写材料)という、複雑さの度合いの異なる2つの音声プロセスに基づいて訓練される。 補間と中間層の変化の間の因果効果を観察することで、個々の変数が中間層における活性化のスパイクにどのように変換されるかを明らかにすることができる。 提案手法を用いて,言語的に有意味な単位が異なる畳み込み層にどのようにエンコードされるかを分析することができる。

This paper presents a technique to interpret and visualize intermediate layers in CNNs trained on raw speech data in an unsupervised manner. We show that averaging over feature maps after ReLU activation in each convolutional layer yields interpretable time-series data. The proposed technique enables acoustic analysis of intermediate convolutional layers. To uncover how meaningful representation in speech gets encoded in intermediate layers of CNNs, we manipulate individual latent variables to marginal levels outside of the training range. We train and probe internal representations on two models -- a bare WaveGAN architecture and a ciwGAN extension which forces the Generator to output informative data and results in emergence of linguistically meaningful representations. Interpretation and visualization is performed for three basic acoustic properties of speech: periodic vibration (corresponding to vowels), aperiodic noise vibration (corresponding to fricatives), and silence (corresponding to stops). We also argue that the proposed technique allows acoustic analysis of intermediate layers that parallels the acoustic analysis of human speech data: we can extract F0, intensity, duration, formants, and other acoustic properties from intermediate layers in order to test where and how CNNs encode various types of information. The models are trained on two speech processes with different degrees of complexity: a simple presence of [s] and a computationally complex presence of reduplication (copied material). Observing the causal effect between interpolation and the resulting changes in intermediate layers can reveal how individual variables get transformed into spikes in activation in intermediate layers. Using the proposed technique, we can analyze how linguistically meaningful units in speech get encoded in different convolutional layers.
翻訳日:2021-04-22 11:19:14 公開日:2021-04-21
# マルチタスクArcFaceによるマスク付き顔認識

Boosting Masked Face Recognition with Multi-Task ArcFace ( http://arxiv.org/abs/2104.09874v2 )

ライセンス: Link先を確認
David Montero, Marcos Nieto, Peter Leskovsky and Naiara Aginako(参考訳) 本稿では,マスクを用いた顔認識の問題に対処する。 新型コロナウイルス(COVID-19)による世界的な健康危機を考えると、口と鼻を覆うマスクは日常的に着用することが不可欠になっている。 この衛生対策により、現在最先端の顔認識モデルは、マスクされた顔を扱うように設計されていないため、ロープの上に置かれている。 また、被検体がマスクを着用しているかどうかを検知してウイルスの拡散を制御できるアプリケーションの必要性も生じている。 これらの問題を解決するために、バックボーンとロス関数にいくつかの変更を加えて、ArcFaceの作業に基づいて完全なトレーニングパイプラインが提示される。 元の顔認識データセットから、データ拡張を使用してマスク付きバージョンを生成し、トレーニングプロセス中に両方のデータセットを組み合わせる。 resnet-50に基づく選択されたネットワークは、計算コストを追加することなくマスク使用確率を出力するように修正されている。 さらに、ArcFaceの損失とマスク使用率の分類損失が組み合わさって、Multi-Task ArcFace (MTArcFace)と呼ばれる新しい関数が生まれる。 実験の結果,提案手法はマスキングされていないデータセットでほぼ同じ精度を維持しつつ,マスク面を扱う際の元のモデルの精度を高く向上させることがわかった。 さらに、マスク使用分類の平均精度は99.78%である。

In this paper, we address the problem of face recognition with masks. Given the global health crisis caused by COVID-19, mouth and nose-covering masks have become an essential everyday-clothing-ac cessory. This sanitary measure has put the state-of-the-art face recognition models on the ropes since they have not been designed to work with masked faces. In addition, the need has arisen for applications capable of detecting whether the subjects are wearing masks to control the spread of the virus. To overcome these problems a full training pipeline is presented based on the ArcFace work, with several modifications for the backbone and the loss function. From the original face-recognition dataset, a masked version is generated using data augmentation, and both datasets are combined during the training process. The selected network, based on ResNet-50, is modified to also output the probability of mask usage without adding any computational cost. Furthermore, the ArcFace loss is combined with the mask-usage classification loss, resulting in a new function named Multi-Task ArcFace (MTArcFace). Experimental results show that the proposed approach highly boosts the original model accuracy when dealing with masked faces, while preserving almost the same accuracy on the original non-masked datasets. Furthermore, it achieves an average accuracy of 99.78% in mask-usage classification.
翻訳日:2021-04-22 11:18:45 公開日:2021-04-21
# リッチ自然言語理解のためのインテント機能

Intent Features for Rich Natural Language Understanding ( http://arxiv.org/abs/2104.08701v2 )

ライセンス: Link先を確認
Brian Lester, Sagnik Ray Choudhury, Rashmi Prasad, Srinivas Bangalore(参考訳) ダイアログシステムにおける複雑な自然言語理解モジュールは、ユーザの発話をより深く理解しているため、より良いユーザエクスペリエンスを提供する上で重要である。 しかしながら、これらのモデルはしばしば、特定のクライアントやユースケースのためにスクラッチから作成され、大きなデータセットのアノテーションを必要とする。 これにより、複数のクライアント間でアノテーション付きデータの共有が促進される。 これを容易にするために,本論文では,目的のドメインとトピックの非依存的特性を,統語的手がかりからのみ学習し,したがって共有することができる,という意図的特徴の考え方を紹介した。 本稿では,分散された多目的自然言語理解モジュールにおいて,これらの特徴を識別するための強力なベースラインよりも大きな改善を示す,新たなニューラルネットワークアーキテクチャであるglobal-local modelを導入する。

Complex natural language understanding modules in dialog systems have a richer understanding of user utterances, and thus are critical in providing a better user experience. However, these models are often created from scratch, for specific clients and use cases, and require the annotation of large datasets. This encourages the sharing of annotated data across multiple clients. To facilitate this we introduce the idea of intent features: domain and topic agnostic properties of intents that can be learned from the syntactic cues only, and hence can be shared. We introduce a new neural network architecture, the Global-Local model, that shows significant improvement over strong baselines for identifying these features in a deployed, multi-intent natural language understanding module, and, more generally, in a classification setting where a part of an utterance has to be classified utilizing the whole context.
翻訳日:2021-04-22 11:18:23 公開日:2021-04-21
# fasttextが注意を払う:制約付き位置重み付けを用いた単語表現の効率的な推定

When FastText Pays Attention: Efficient Estimation of Word Representations using Constrained Positional Weighting ( http://arxiv.org/abs/2104.09691v2 )

ライセンス: Link先を確認
V\'it Novotn\'y and Michal \v{S}tef\'anik and Eniafe Festus Ayetiran and Petr Sojka(参考訳) ミコロフらによる独創的な作品から。 (2013a) と Bojanowski et al。 2017年、浅い対数双線形言語モデルの単語表現は多くのNLPアプリケーションに導入されている。 Mikolovら。 (2018) は,注目に基づく言語モデルの特徴を持つ位置対数双線形言語モデルを導入し,本質的な単語類似タスクで最先端のパフォーマンスを達成した。 しかしながら、位置モデルは定性的な基準や極端なタスクで評価されることはなく、その速度は実用的ではない。 注意機構と位置モデルとの類似性について概説し,dai等のスパース注意機構を適応した制約付き位置モデルを提案する。 (2018). 本研究では,3つの新しい定性基準と,Borta and Blunsom(2014)の外部言語モデリング課題に基づいて,位置モデルと制約付き位置モデルを評価する。 位置と制約のある位置モデルは、単語の順序に関する解釈可能な情報を含み、Bojanowskiらのサブワードモデルより優れていることを示す。 2017年) 言語モデル。 また,制約のある位置モデルは,言語モデルにおいて位置モデルよりも優れており,その2倍の速度を示す。

Since the seminal work of Mikolov et al. (2013a) and Bojanowski et al. (2017), word representations of shallow log-bilinear language models have found their way into many NLP applications. Mikolov et al. (2018) introduced a positional log-bilinear language model, which has characteristics of an attention-based language model and which has reached state-of-the-art performance on the intrinsic word analogy task. However, the positional model has never been evaluated on qualitative criteria or extrinsic tasks and its speed is impractical. We outline the similarities between the attention mechanism and the positional model, and we propose a constrained positional model, which adapts the sparse attention mechanism of Dai et al. (2018). We evaluate the positional and constrained positional models on three novel qualitative criteria and on the extrinsic language modeling task of Botha and Blunsom (2014). We show that the positional and constrained positional models contain interpretable information about word order and outperform the subword model of Bojanowski et al. (2017) on language modeling. We also show that the constrained positional model outperforms the positional model on language modeling and is twice as fast.
翻訳日:2021-04-22 11:18:10 公開日:2021-04-21
# インセルオンラインコミュニティにおける意味的知識発見と議論マイニング:トピック・モデリング

Semantic Knowledge Discovery and Discussion Mining of Incel Online Community: Topic modeling ( http://arxiv.org/abs/2104.09586v2 )

ライセンス: Link先を確認
Hamed Jelodar, Richard Frank(参考訳) オンラインフォーラムは、オンラインユーザーがコメントを共有し、特定のトピックに関する情報を交換するユニークな機会を提供する。 ユーザ行動を理解することは組織にとって価値があり、例えばコミュニティ内のユーザの意見を識別したり、将来の行動を予測したりといった、社会的およびセキュリティ戦略のアプリケーションを持っている。 本研究の主目的は,インセルフォーラムのセマンティックな側面を明らかにすることであり,トピックモデリングに基づく自然言語処理手法を,人気のあるオンラインインセルディスカッションフォーラムのユーザに対する潜在トピック発見と意見マイニングに適用する。 本研究の入力データを作成するため,incels.coからコメントを抽出した。 実験の結果,NLPモデルに基づく人工知能(AI)は,インセルコミュニティから有用な情報のセマンティックおよび感情知識の発見と検索に有効であることが示唆された。 例えば,大量のインセルコメントの中で問題を記述する意味的関連語を発見したが,手作業では難しい。

Online forums provide a unique opportunity for online users to share comments and exchange information on a particular topic. Understanding user behaviour is valuable to organizations and has applications for social and security strategies, for instance, identifying user opinions within a community or predicting future behaviour. Discovering the semantic aspects in Incel forums are the main goal of this research; we apply Natural language processing techniques based on topic modeling to latent topic discovery and opinion mining of users from a popular online Incel discussion forum. To prepare the input data for our study, we extracted the comments from Incels.co. The research experiments show that Artificial Intelligence (AI) based on NLP models can be effective for semantic and emotion knowledge discovery and retrieval of useful information from the Incel community. For example, we discovered semantic-related words that describe issues within a large volume of Incel comments, which is difficult with manual methods.
翻訳日:2021-04-22 11:17:50 公開日:2021-04-21
# ビジネスプロセスのテキストアウェア予測モニタリング

Text-Aware Predictive Monitoring of Business Processes ( http://arxiv.org/abs/2104.09962v2 )

ライセンス: Link先を確認
Marco Pegoraro and Merih Seran Uysal and David Benedikt Georgi and Wil M.P. van der Aalst(参考訳) 過去のイベントデータを用いたビジネスプロセスのリアルタイム予測は、現代のビジネスプロセス監視システムの重要な機能である。 既存のプロセス予測手法は、制御フローの観点に加えて、記録されたイベントのデータパースペクティブも活用することができる。 しかし、よく構造化された数値的・カテゴリー的属性は多くの予測手法で考慮されているが、予測タスクに不可欠な情報を保持できる自然言語で書かれたテキスト文書を活用できる技術はほとんどない。 本稿では,Long Short-Term Memory(LSTM)ニューラルネットワークと自然言語モデルに基づく,新しいテキスト認識プロセス予測モデルの設計,実装,評価について述べる。 提案モデルは,次のイベントのアクティビティとタイムスタンプ,結果,実行中のプロセスインスタンスのサイクル時間を予測するために,イベントデータのカテゴリ的,数値的,テキスト的属性を考慮に入れることができる。 実験により、テキストデータを含むシミュレーションおよび実世界のイベントログにおいて、テキスト認識モデルが最先端プロセス予測手法を上回ることができることを示した。

The real-time prediction of business processes using historical event data is an important capability of modern business process monitoring systems. Existing process prediction methods are able to also exploit the data perspective of recorded events, in addition to the control-flow perspective. However, while well-structured numerical or categorical attributes are considered in many prediction techniques, almost no technique is able to utilize text documents written in natural language, which can hold information critical to the prediction task. In this paper, we illustrate the design, implementation, and evaluation of a novel text-aware process prediction model based on Long Short-Term Memory (LSTM) neural networks and natural language models. The proposed model can take categorical, numerical and textual attributes in event data into account to predict the activity and timestamp of the next event, the outcome, and the cycle time of a running process instance. Experiments show that the text-aware model is able to outperform state-of-the-art process prediction methods on simulated and real-world event logs containing textual data.
翻訳日:2021-04-22 11:17:34 公開日:2021-04-21
# HMS: 効率的なビデオ認識のための階層的モダリティ選択

HMS: Hierarchical Modality Selection for Efficient Video Recognition ( http://arxiv.org/abs/2104.09760v2 )

ライセンス: Link先を確認
Zejia Weng, Zuxuan Wu, Hengduo Li, Yu-Gang Jiang(参考訳) ビデオは本質的にマルチモーダルです。 従来のビデオ認識パイプラインは通常、パフォーマンスを改善するためにマルチモーダル機能を融合する。 しかし、これは計算的に高価であるだけでなく、異なるビデオが予測に異なるモダリティに依存しているという事実も無視している。 本稿では,効率的なビデオ認識のための簡易かつ効率的なマルチモーダル学習フレームワークである階層的モダリティ選択(hms)を提案する。 HMSは、低コストのモダリティ、すなわちオーディオヒントをデフォルトで運用し、インプットごとに、外観や動きのヒントを含む計算的なモダリティを使用するかどうかを動的に決定する。 これは、階層的な方法で組織化された3つのLSTMの協調によって達成される。 特に、低コストのモダリティで動作するLSTMには、低レベルの特徴と履歴情報を入力として取り込んで、対応するモダリティを活性化するかを適応的に決定するゲーティングモジュールが含まれている。 本研究では,FCVIDとActivityNetの2つの大規模ビデオベンチマークについて広範な実験を行い,提案手法により,より少ない計算量で分類性能を向上できることを示す。

Videos are multimodal in nature. Conventional video recognition pipelines typically fuse multimodal features for improved performance. However, this is not only computationally expensive but also neglects the fact that different videos rely on different modalities for predictions. This paper introduces Hierarchical Modality Selection (HMS), a simple yet efficient multimodal learning framework for efficient video recognition. HMS operates on a low-cost modality, i.e., audio clues, by default, and dynamically decides on-the-fly whether to use computationally-expe nsive modalities, including appearance and motion clues, on a per-input basis. This is achieved by the collaboration of three LSTMs that are organized in a hierarchical manner. In particular, LSTMs that operate on high-cost modalities contain a gating module, which takes as inputs lower-level features and historical information to adaptively determine whether to activate its corresponding modality; otherwise it simply reuses historical information. We conduct extensive experiments on two large-scale video benchmarks, FCVID and ActivityNet, and the results demonstrate the proposed approach can effectively explore multimodal information for improved classification performance while requiring much less computation.
翻訳日:2021-04-22 11:17:18 公開日:2021-04-21
# カーネルヒルベルト空間の再現におけるロバスト不確かさ境界:凸最適化アプローチ

Robust Uncertainty Bounds in Reproducing Kernel Hilbert Spaces: A Convex Optimization Approach ( http://arxiv.org/abs/2104.09582v2 )

ライセンス: Link先を確認
Paul Scharnhorst, Emilio T. Maddalena, Yuning Jiang, Colin N. Jones(参考訳) ラベル付きデータセットに散在したサンプルを与え、既知の正定値核の再生核ヒルベルト空間(英語版)(rkhs)に属する基底の仮説を考える。 この関数を学習するリスクを制限し、見当たらない入力位置でサンプル外境界を確立できることが知られている。 計算が厳密で有限サンプルの不確実性は、パラメトリックな2次制約付き線形プログラムの解法と重なることを示す。 我々の設定では、出力は任意のコンパクトに支持された分布から発せられる境界測定ノイズによって汚染されると仮定される。 利用可能なデータには独立性の仮定はない。 本結果を他の閉形式代替物と比較するために, 数値実験を行った。

Let a labeled dataset be given with scattered samples and consider the hypothesis of the ground-truth belonging to the reproducing kernel Hilbert space (RKHS) of a known positive-definite kernel. It is known that out-of-sample bounds can be established at unseen input locations, thus limiting the risk associated with learning this function. We show how computing tight, finite-sample uncertainty bounds amounts to solving parametric quadratically constrained linear programs. In our setting, the outputs are assumed to be contaminated by bounded measurement noise that can otherwise originate from any compactly supported distribution. No independence assumptions are made on the available data. Numerical experiments are presented to compare the present results with other closed-form alternatives.
翻訳日:2021-04-22 11:16:59 公開日:2021-04-21
# 空中主成分分析用加速器へのチャネルノイズの変換

Turning Channel Noise into an Accelerator for Over-the-Air Principal Component Analysis ( http://arxiv.org/abs/2104.10095v2 )

ライセンス: Link先を確認
Zezhong Zhang, Guangxu Zhu, Rui Wang, Vincent K. N. Lau, and Kaibin Huang(参考訳) 近年,モバイルデータを有用な知識に蒸留する試みが,ネットワークエッジにおける機械学習アルゴリズムの展開につながった。 主成分分析(PCA)は、データセットの線形構造を抽出する古典的な手法であり、特徴抽出とデータ圧縮に有用である。 本研究では,分散データセットの分散特徴空間を複数デバイスで学習するために,確率的勾配降下のアルゴリズムに基づくマルチアクセスチャネル上に分散pcaを配置することを提案する。 オーバー・ザ・エアアグリゲーション(over-the-air aggregate)は、マルチアクセスのレイテンシを削減するために採用され、オーバー・ザ・エアpcaという名称が与えられる。 この設計の新規性は、チャネルノイズを利用して、勾配降下に遭遇する各サドル点周辺での降下を加速し、空気上PCAの収束速度を高めることである。 このアイデアは、降下領域の種類を検出し、それに応じてチャネルノイズのレベルを制御する電力制御方式を提案する。 このスキームは、電力制御のない場合よりも速い収束率を達成することが証明されている。

Recently years, the attempts on distilling mobile data into useful knowledge has been led to the deployment of machine learning algorithms at the network edge. Principal component analysis (PCA) is a classic technique for extracting the linear structure of a dataset, which is useful for feature extraction and data compression. In this work, we propose the deployment of distributed PCA over a multi-access channel based on the algorithm of stochastic gradient descent to learn the dominant feature space of a distributed dataset at multiple devices. Over-the-air aggregation is adopted to reduce the multi-access latency, giving the name over-the-air PCA. The novelty of this design lies in exploiting channel noise to accelerate the descent in the region around each saddle point encountered by gradient descent, thereby increasing the convergence speed of over-the-air PCA. The idea is materialized by proposing a power-control scheme which detects the type of descent region and controlling the level of channel noise accordingly. The scheme is proved to achieve a faster convergence rate than in the case without power control.
翻訳日:2021-04-22 11:16:48 公開日:2021-04-21