このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210922となっている論文です。

PDF登録状況(公開日: 20210922)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) KOHTD: Kazakh のオフライン手書きテキストデータセット [全文訳有]

KOHTD: Kazakh Offline Handwritten Text Dataset ( http://arxiv.org/abs/2110.04075v1 )

ライセンス: CC BY 4.0
Nazgul Toiganbayeva, Mahmoud Kasem, Galymzhan Abdimanap, Kairat Bostanbekov, Abdelrahman Abdallah, Anel Alimova, Daniyar Nurseitov(参考訳) デジタル情報交換への移行にもかかわらず、請求書、税金、メモ、アンケート、歴史データ、試験問題に対する回答など多くの文書は手書きの入力を必要とする。 この点において、コンピュータを用いて記録を復号する自動的な方法である手書き文字認識(HTR)を実装する必要がある。 手書き認識は、人間が同じメッセージを書ける方法が事実上無限にあるため、難しい。 本提案では,カザフ語手書きテキストの包括的データセットが必要であるとして,カザフ語手書きテキスト認識研究を紹介する。 手書きのカザフ文字のデータセットがないため、これは特に当てはまります。 本稿では,3000枚の手書き試験用紙と140335枚以上の分割画像と,約922010個のシンボルを持つカザフ語オフライン手書きテキストデータセット(KOHTD)を提案する。 ディープラーニングと機械学習を使うことで、手書き認識タスクの分野で研究者に役立てることができる。 単語と行の認識には,ctcや注意に基づく手法など,さまざまな一般的なテキスト認識手法を用いた。 この結果はKOHTDの多様性を示している。 また,パラメータのランダム列挙に基づく行と単語のセグメンテーションのための遺伝的アルゴリズム(ga)を提案した。 データセットとgaコードはhttps://github.com/a bdoelsayed2016/kohtd で入手できる。

Despite the transition to digital information exchange, many documents, such as invoices, taxes, memos and questionnaires, historical data, and answers to exam questions, still require handwritten inputs. In this regard, there is a need to implement Handwritten Text Recognition (HTR) which is an automatic way to decrypt records using a computer. Handwriting recognition is challenging because of the virtually infinite number of ways a person can write the same message. For this proposal we introduce Kazakh handwritten text recognition research, a comprehensive dataset of Kazakh handwritten texts is necessary. This is particularly true given the lack of a dataset for handwritten Kazakh text. In this paper, we proposed our extensive Kazakh offline Handwritten Text dataset (KOHTD), which has 3000 handwritten exam papers and more than 140335 segmented images and there are approximately 922010 symbols. It can serve researchers in the field of handwriting recognition tasks by using deep and machine learning. We used a variety of popular text recognition methods for word and line recognition in our studies, including CTC-based and attention-based methods. The findings demonstrate KOHTD's diversity. Also, we proposed a Genetic Algorithm (GA) for line and word segmentation based on random enumeration of a parameter. The dataset and GA code are available at https://github.com/a bdoelsayed2016/KOHTD .
翻訳日:2021-10-17 23:52:59 公開日:2021-09-22
# (参考訳) 費用に敏感なデータマイニングによる正確な発作検出のためのウェーブレットを用いた脳波信号処理 [全文訳有]

EEG Signal Processing using Wavelets for Accurate Seizure Detection through Cost Sensitive Data Mining ( http://arxiv.org/abs/2109.13818v1 )

ライセンス: CC BY 4.0
Paul Grant and Md Zahidul Islam(参考訳) てんかんは、慢性神経疾患の最も一般的かつ多様なセットの1つである。 この過剰または同期的な神経活動は発作と呼ばれる。 脳波信号処理はてんかん発作の検出と予測に重要な役割を果たしている。 本稿では,発作検出のためのウェーブレットの特性に依存するアプローチを提案する。 信号ノイズを低減できる最大オーバーラップ離散ウェーブレット変換を用いて、ウェーブレット係数に表される分散から、これらの特性が非正弦周期と比較して差が大きいため、電極間の接続性と通信効率が向上する。 特性空間の構築には,再構成ノイズ低減信号,電極接続,情報伝達効率などに基づく基本的な統計パラメータを用いる。 既存の手法よりもはるかに優れていると判明した,我々のメソッドをテストするために公開されているデータを利用した。

Epilepsy is one of the most common and yet diverse set of chronic neurological disorders. This excessive or synchronous neuronal activity is termed seizure. Electroencephalogram signal processing plays a significant role in detection and prediction of epileptic seizures. In this paper we introduce an approach that relies upon the properties of wavelets for seizure detection. We utilise the Maximum Overlap Discrete Wavelet Transform which enables us to reduce signal noise Then from the variance exhibited in wavelet coefficients we develop connectivity and communication efficiency between the electrodes as these properties differ significantly during a seizure period in comparison to a non-seizure period. We use basic statistical parameters derived from the reconstructed noise reduced signal, electrode connectivity and the efficiency of information transfer to build the attribute space. We have utilised data that are publicly available to test our method that is found to be significantly better than some existing approaches.
翻訳日:2021-10-10 15:29:32 公開日:2021-09-22
# (参考訳) NudgeSeg: 繰り返し物理相互作用によるゼロショットオブジェクトセグメンテーション [全文訳有]

NudgeSeg: Zero-Shot Object Segmentation by Repeated Physical Interaction ( http://arxiv.org/abs/2109.13859v1 )

ライセンス: CC BY 4.0
Chahat Deep Singh, Nitin J. Sanket, Chethan M. Parameshwara, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) オブジェクトセグメンテーションの最近の進歩は、深層ニューラルネットワークが色と深度の画像の特定のクラスに対してオブジェクトセグメンテーションに優れていることを示している。 しかし、それらのパフォーマンスはトレーニングに使用されるクラスやオブジェクトの数によって決定され、見ないオブジェクトやゼロショットサンプルへの一般化を妨げる。 さらにこの問題を悪化させるため、画像フレームを用いたオブジェクト分割は認識とパターンマッチングの手がかりに依存する。 代わりに、ロボットの「アクティブ」な性質と環境との「インタラクション」能力を利用して、ゼロショットサンプルをセグメント化するための追加の幾何学的制約を誘導する。 本稿では,モノクロモノクロカメラのみを用いて,物体に繰り返し「うなずき」を施し,各ステップで新たな動きの手がかりを得るために移動させることにより,乱れたシーンで未知の物体を分割する最初の枠組みを提案する。 フレームワークをNudgeSegと呼びます。 これらのモーションキューは、セグメンテーションマスクを洗練するために使用される。 我々は,新しい物体を様々な乱雑な場面でセグメント化するためのアプローチを成功させ,画像と動きのセグメンテーション手法による広範な研究を行った。 ゼロショットオブジェクトでは, 86%以上の印象的な平均検出率を示す。

Recent advances in object segmentation have demonstrated that deep neural networks excel at object segmentation for specific classes in color and depth images. However, their performance is dictated by the number of classes and objects used for training, thereby hindering generalization to never seen objects or zero-shot samples. To exacerbate the problem further, object segmentation using image frames rely on recognition and pattern matching cues. Instead, we utilize the 'active' nature of a robot and their ability to 'interact' with the environment to induce additional geometric constraints for segmenting zero-shot samples. In this paper, we present the first framework to segment unknown objects in a cluttered scene by repeatedly 'nudging' at the objects and moving them to obtain additional motion cues at every step using only a monochrome monocular camera. We call our framework NudgeSeg. These motion cues are used to refine the segmentation masks. We successfully test our approach to segment novel objects in various cluttered scenes and provide an extensive study with image and motion segmentation methods. We show an impressive average detection rate of over 86% on zero-shot objects.
翻訳日:2021-10-10 15:09:22 公開日:2021-09-22
# (参考訳) オートエンコーダを用いたカオス力学系の解析 [全文訳有]

Analysis of chaotic dynamical systems with autoencoders ( http://arxiv.org/abs/2109.13078v1 )

ライセンス: CC BY 4.0
N. Almazova, G. D. Barmparis and G. P. Tsironis(参考訳) 我々はカオス力学系に注目し,その時系列をオートエンコーダ,すなわち入力に同一の出力をマッピングするニューラルネットワークの構成を用いて解析する。 この解析により、各系の潜在空間次元の決定が可能となり、カオス時系列に含まれる必須情報を取得するのに必要な最小のノード数を決定することができる。 構築されたカオスオートエンコーダは、元のカオスシステムと同様の最大リアプノフ指数を生成し、それによってそれらの重要な動的情報を包含する。

We focus on chaotic dynamical systems and analyze their time series with the use of autoencoders, i.e., configurations of neural networks that map identical output to input. This analysis results in the determination of the latent space dimension of each system and thus determines the minimal number of nodes necessary to capture the essential information contained in the chaotic time series. The constructed chaotic autoencoders generate similar maximal Lyapunov exponents as the original chaotic systems and thus encompass their essential dynamical information.
翻訳日:2021-10-10 14:57:18 公開日:2021-09-22
# (参考訳) 動的モード分解のためのランダム投影学習法 [全文訳有]

Randomized Projection Learning Method forDynamic Mode Decomposition ( http://arxiv.org/abs/2110.01718v1 )

ライセンス: CC BY 4.0
Sudam Surasinghe and Erik M. Bollt(参考訳) 動的モード分解(DMD)と呼ばれるデータ駆動解析法は、射影空間上の線形クープマン作用素を近似する。 Johnson-Lindenstraus s Lemma の精神では、DMD モードを縮小次元空間で推定するためにランダムなプロジェクションを用いる。 実例では、スナップショットは高次元可観測空間にあり、MDD演算子行列は巨大である。 したがって、DMDを全スペクトルで計算することは不可能であるため、主計算目標は射影領域におけるDMD演算子の固有値と固有ベクトルを推定することである。 我々は現在のアルゴリズムを一般化し、予測されたDMD演算子を推定する。 計算コストとストレージコストを削減できる,強力で単純なランダムプロジェクションアルゴリズムに注目する。 明らかに、ランダム射影は詳細な最適射影のアルゴリズムの複雑さを単純化するが、一般に、結果は優れたものであり、ランダム射影のよく開発された理論によって理解される。 十分な次元の投影データによって、低コストでモードを計算できることを実証する。 キーワード:Koopman Operator, Dynamic Mode Decomposition (DMD), Johnson-Lindenstraus s Lemma, Random Projection, Data-driven Method。

A data-driven analysis method known as dynamic mode decomposition (DMD) approximates the linear Koopman operator on projected space. In the spirit of Johnson-Lindenstraus s Lemma, we will use random projection to estimate the DMD modes in reduced dimensional space. In practical applications, snapshots are in high dimensional observable space and the DMD operator matrix is massive. Hence, computing DMD with the full spectrum is infeasible, so our main computational goal is estimating the eigenvalue and eigenvectors of the DMD operator in a projected domain. We will generalize the current algorithm to estimate a projected DMD operator. We focus on a powerful and simple random projection algorithm that will reduce the computational and storage cost. While clearly, a random projection simplifies the algorithmic complexity of a detailed optimal projection, as we will show, generally the results can be excellent nonetheless, and quality understood through a well-developed theory of random projections. We will demonstrate that modes can be calculated for a low cost by the projected data with sufficient dimension. Keyword: Koopman Operator, Dynamic Mode Decomposition(DMD), Johnson-Lindenstraus s Lemma, Random Projection, Data-driven method.
翻訳日:2021-10-10 14:45:02 公開日:2021-09-22
# (参考訳) 短軸心MR画像における領域シフトが左心室分節および右心室分節に及ぼす影響 [全文訳有]

The Impact of Domain Shift on Left and Right Ventricle Segmentation in Short Axis Cardiac MR Images ( http://arxiv.org/abs/2109.13230v1 )

ライセンス: CC BY 4.0
Devran Ugurlu, Esther Puyol-Anton, Bram Ruijsink, Alistair Young, Ines Machado, Kerstin Hammernik, Andrew P. King, Julia A. Schnabel(参考訳) ドメインシフト(Domain shift)とは、2つのデータセット(通常、トレーニングセットと機械学習アルゴリズムのテストセット)のデータ分散の違いを指す。 ドメインシフトは機械学習モデルを一般化する上で深刻な問題であり、トレーニングとテストセットの間のドメインシフトがモデルの性能を大幅に低下させる可能性があることは確実である。 医療画像では、異なるスキャナーやスキャンプロトコル、患者集団の異なる病理、患者集団の解剖学的差異(例えば、男性と女性)など、多くのドメインシフトの原因が存在する。 したがって、一般化性能のよいモデルを訓練するためには、ドメインシフト問題とその潜在的な原因を認識し、それに対処する方法を考案することが重要である。 本稿では,短軸心MR画像における左室と右室の血液プールセグメンテーションに対する領域シフトの影響について検討する。 本データセットは4種類のMRスキャナーと3種類の病理組織群からの短軸画像を含む。 トレーニングはnnUNetで行われます。 その結果, スキャナの違いは, 病理群の変化に比較して有意に低下し, 左室分画よりも右室分画にドメインシフトの影響が大きいことがわかった。 トレーニング対象者数の増加は,小規模トレーニングセットサイズではクロススキャナのパフォーマンスよりも向上したが,トレーニングセットサイズが大きくなるにつれて改善の差は減少した。 複数のスキャナからのデータを用いたトレーニングモデルにより、クロスドメインのパフォーマンスが向上した。

Domain shift refers to the difference in the data distribution of two datasets, normally between the training set and the test set for machine learning algorithms. Domain shift is a serious problem for generalization of machine learning models and it is well-established that a domain shift between the training and test sets may cause a drastic drop in the model's performance. In medical imaging, there can be many sources of domain shift such as different scanners or scan protocols, different pathologies in the patient population, anatomical differences in the patient population (e.g. men vs women) etc. Therefore, in order to train models that have good generalization performance, it is important to be aware of the domain shift problem, its potential causes and to devise ways to address it. In this paper, we study the effect of domain shift on left and right ventricle blood pool segmentation in short axis cardiac MR images. Our dataset contains short axis images from 4 different MR scanners and 3 different pathology groups. The training is performed with nnUNet. The results show that scanner differences cause a greater drop in performance compared to changing the pathology group, and that the impact of domain shift is greater on right ventricle segmentation compared to left ventricle segmentation. Increasing the number of training subjects increased cross-scanner performance more than in-scanner performance at small training set sizes, but this difference in improvement decreased with larger training set sizes. Training models using data from multiple scanners improved cross-domain performance.
翻訳日:2021-10-10 14:30:44 公開日:2021-09-22
# (参考訳) 3N-GAN:3プレーヤ対応フレームワークを用いたX線画像の半監督分類 [全文訳有]

3N-GAN: Semi-Supervised Classification of X-Ray Images with a 3-Player Adversarial Framework ( http://arxiv.org/abs/2109.13862v1 )

ライセンス: CC BY 4.0
Shafin Haque, Ayaan Haque(参考訳) 分類などの医療イメージングタスクにおけるディープラーニングの成功は、大規模データセットの可用性に大きく依存している。 しかし、ラベリングは高価で時間がかかるため、大量のラベル付きデータによるデータセットの取得は困難である。 半教師付き学習(SSL)は、完全に教師付き学習の代替となるが、トレーニングにはラベルのないサンプルが必要である。 医療画像では、多くのデータセットはラベルなしのデータを完全に欠いているため、SSLは従来から利用できない。 本稿では, 医用画像の半教師付き分類を行う3N-GAN, 3 Network Generative Adversarial Networksを提案する。 逆関係に分類器を組み込み、生成器が分類器と判別器の両方に対して逆向きに訓練する。 予備的な結果から,様々なアルゴリズムによる分類性能とGAN世代の改善が示された。 当社の作業は、多くの医療画像モデルアーキテクチャやSSLメソッドとシームレスに統合することで、パフォーマンスの向上を実現しています。

The success of deep learning for medical imaging tasks, such as classification, is heavily reliant on the availability of large-scale datasets. However, acquiring datasets with large quantities of labeled data is challenging, as labeling is expensive and time-consuming. Semi-supervised learning (SSL) is a growing alternative to fully-supervised learning, but requires unlabeled samples for training. In medical imaging, many datasets lack unlabeled data entirely, so SSL can't be conventionally utilized. We propose 3N-GAN, or 3 Network Generative Adversarial Networks, to perform semi-supervised classification of medical images in fully-supervised settings. We incorporate a classifier into the adversarial relationship such that the generator trains adversarially against both the classifier and discriminator. Our preliminary results show improved classification performance and GAN generations over various algorithms. Our work can seamlessly integrate with numerous other medical imaging model architectures and SSL methods for greater performance.
翻訳日:2021-10-10 14:17:06 公開日:2021-09-22
# 視覚に基づく走行軌跡生成のための領域一般化

Domain Generalization for Vision-based Driving Trajectory Generation ( http://arxiv.org/abs/2109.13858v1 )

ライセンス: Link先を確認
Yunkai Wang, Dongkun Zhang, Yuxiang Cui, Zexi Chen, Wei Jing, Junbo Chen, Rong Xiong, Yue Wang(参考訳) 視覚に基づく駆動軌道生成の課題の1つは、配布外シナリオを扱うことである。 本稿では,都市環境における自律走行車のための視覚に基づく走行軌道生成のための領域一般化手法を提案する。 逆学習手法を用いて、軌道生成器をデコーダとして訓練する。 プリトレーニングされたデコーダに基づいて、トラジェクタに対応する潜在変数を推論し、推定された潜在変数を回帰させてエンコーダをプリトレーニングする。 最後に、デコーダを固定するが、最終的な軌道損失でエンコーダを微調整する。 本研究では,提案手法と最新軌跡生成法,および最近のデータ集合とシミュレーションの領域一般化法を比較し,より優れた一般化能力を有することを示す。

One of the challenges in vision-based driving trajectory generation is dealing with out-of-distribution scenarios. In this paper, we propose a domain generalization method for vision-based driving trajectory generation for autonomous vehicles in urban environments, which can be seen as a solution to extend the Invariant Risk Minimization (IRM) method in complex problems. We leverage an adversarial learning approach to train a trajectory generator as the decoder. Based on the pre-trained decoder, we infer the latent variables corresponding to the trajectories, and pre-train the encoder by regressing the inferred latent variable. Finally, we fix the decoder but fine-tune the encoder with the final trajectory loss. We compare our proposed method with the state-of-the-art trajectory generation method and some recent domain generalization methods on both datasets and simulation, demonstrating that our method has better generalization ability.
翻訳日:2021-10-10 11:48:28 公開日:2021-09-22
# (参考訳) 補間による安全政策学習--裁判前リスクアセスメントへの応用

Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment ( http://arxiv.org/abs/2109.11679v1 )

ライセンス: CC BY 4.0
Eli Ben-Michael, D. James Greiner, Kosuke Imai, Zhichao Jiang(参考訳) アルゴリズムによる推薦と決定は今日の社会では至るところで行われている。 これらのデータ駆動ポリシーの多くは、その透明性と解釈可能性を保証するための既知の決定論的ルールに基づいている。 このような政策が公共政策決定に使用される場合、これは特に当てはまる。 例えば、私たちのモチベーションアプリケーションとして機能するアルゴリズムによる裁判前リスクアセスメントは、比較的単純で決定論的な分類スコアと、裁判官がリリース決定を行うのに役立つ推奨を提供する。 残念ながら、既存の政策学習方法は、決定論的ではなく確率的であるために適用できない。 本稿では,政策の実用性を部分的に識別する頑健な最適化手法を開発し,最悪の場合の後悔を最小限に抑えて最適な政策を見出す。 結果として得られる政策は保守的であるが、統計上の安全保証があり、政策立案者は既存の政策よりも悪い結果をもたらす確率を制限することができる。 私たちはこのアプローチを、人間がアルゴリズムによる推奨によって意思決定を行う、一般的で重要な設定に拡張します。 最後に,提案手法を臨床前リスク評価に関するユニークなフィールド実験に適用する。 我々は,既存のリスクアセスメント機器の透明性と解釈性を維持しつつ,より低いコストで全体の結果を改善する新たな分類と推奨ルールを導出する。

Algorithmic recommendations and decisions have become ubiquitous in today's society. Many of these and other data-driven policies are based on known, deterministic rules to ensure their transparency and interpretability. This is especially true when such policies are used for public policy decision-making. For example, algorithmic pre-trial risk assessments, which serve as our motivating application, provide relatively simple, deterministic classification scores and recommendations to help judges make release decisions. Unfortunately, existing methods for policy learning are not applicable because they require existing policies to be stochastic rather than deterministic. We develop a robust optimization approach that partially identifies the expected utility of a policy, and then finds an optimal policy by minimizing the worst-case regret. The resulting policy is conservative but has a statistical safety guarantee, allowing the policy-maker to limit the probability of producing a worse outcome than the existing policy. We extend this approach to common and important settings where humans make decisions with the aid of algorithmic recommendations. Lastly, we apply the proposed methodology to a unique field experiment on pre-trial risk assessments. We derive new classification and recommendation rules that retain the transparency and interpretability of the existing risk assessment instrument while potentially leading to better overall outcomes at a lower cost.
翻訳日:2021-09-28 07:18:12 公開日:2021-09-22
# 持続的ホモロジーを用いた二次元XYモデルの相転移の定量的解析

Quantitative analysis of phase transitions in two-dimensional XY models using persistent homology ( http://arxiv.org/abs/2109.10960v1 )

ライセンス: Link先を確認
Nicholas Sale, Jeffrey Giansiracusa, Biagio Lucini(参考訳) 持続的ホモロジーと永続画像は2次元XYモデルの3つの異なる変種を観測可能とし、それらの相転移を同定し研究する。 古典的XY作用,位相格子作用,さらにネマティック項を付加したモデルについて検討する。 特に,格子スピンモデル構成の永続的ホモロジーを計算する新しい手法を導入し,ロジスティック回帰モデルとk-アレスト近傍モデルの持続的画像に基づく出力の変動を考慮することにより,臨界温度と相関長の臨界指数を推定する手法を開発した。 有限サイズのスケーリング動作に特に重点を置いて、定量誤差で推定値を生成する。 各モデルについて、その相転移を正確に同定し、相関長の臨界温度と臨界指数を正確に決定することができる。

We use persistent homology and persistence images as an observable of three different variants of the two-dimensional XY model in order to identify and study their phase transitions. We examine models with the classical XY action, a topological lattice action, and an action with an additional nematic term. In particular, we introduce a new way of computing the persistent homology of lattice spin model configurations and, by considering the fluctuations in the output of logistic regression and k-nearest neighbours models trained on persistence images, we develop a methodology to extract estimates of the critical temperature and the critical exponent of the correlation length. We put particular emphasis on finite-size scaling behaviour and producing estimates with quantifiable error. For each model we successfully identify its phase transition(s) and are able to get an accurate determination of the critical temperatures and critical exponents of the correlation length.
翻訳日:2021-09-27 13:59:28 公開日:2021-09-22
# (参考訳) wジェットの学習表現の探索 [全文訳有]

An Exploration of Learnt Representations of W Jets ( http://arxiv.org/abs/2109.10919v1 )

ライセンス: CC BY 4.0
Jack H. Collins(参考訳) 入力ジェットと出力ジェットの間の地球移動距離(EMD)の近似による再構成誤差を,コライダー物理データ(特に$W$ジェット)に基づいて訓練した変分オートエンコーダ(VAE)を提案する。 このVAEはデータ多様体の具体的な表現を学習し、下層の物理的生成過程における物理的EMDスケールとの関係の観点から階層的に整理された意味論的かつ解釈可能な潜在空間方向を持つ。 ハイパーパラメータ$\beta$は、VAEがデータ多様体の構造に敏感な解像度を制御する。 遅延空間構造の$\beta$による変動と、いくつかのVAE特性のスケーリングは、データセットのスケール依存構造とその情報複雑性に関する洞察を与える。 本稿では,このスケーリングから算出した学習表現の次元性の2つの尺度を紹介する。

I present a Variational Autoencoder (VAE) trained on collider physics data (specifically boosted $W$ jets), with reconstruction error given by an approximation to the Earth Movers Distance (EMD) between input and output jets. This VAE learns a concrete representation of the data manifold, with semantically meaningful and interpretable latent space directions which are hierarchically organized in terms of their relation to physical EMD scales in the underlying physical generative process. A hyperparameter $\beta$ controls the resolution at which the VAE is sensitive to structures in the data manifold. The variation of the latent space structure with $\beta$, and the scaling of some VAE properties, provide insight into scale dependent structure of the dataset and its information complexity. I introduce two measures of the dimensionality of the learnt representation that are calculated from this scaling.
翻訳日:2021-09-25 03:32:05 公開日:2021-09-22
# (参考訳) T6D-Direct:多目的6D Pose Direct Regression用トランス [全文訳有]

T6D-Direct: Transformers for Multi-Object 6D Pose Direct Regression ( http://arxiv.org/abs/2109.10948v1 )

ライセンス: CC BY 4.0
Arash Amini, Arul Selvam Periyasamy, and Sven Behnke(参考訳) 6Dポーズ推定は入力画像中の物体の翻訳と向きを予測するタスクであり、多くのロボティクスや拡張現実アプリケーションにとって重要な前提条件である。 近年,マルチヘッド自己着脱機構を備えたトランスフォーマーネットワークアーキテクチャが登場し,多くのコンピュータビジョンタスクにおいて最先端の成果を達成している。 detr(transformer-bas ed model)は、オブジェクト検出を集合予測問題として定式化し、利子プーリング領域、非最大抑制、バウンディングボックスの提案といった標準コンポーネントなしで素晴らしい結果を得た。 本研究では,DTR上に構築されたトランスフォーマーアーキテクチャを用いたリアルタイム単一ステージ直接手法T6D-Directを提案する。 本手法はycb-videoデータセット上での性能評価を行う。 提案手法は最も高速な推定時間を実現し,ポーズ推定精度は最先端手法に匹敵する。

6D pose estimation is the task of predicting the translation and orientation of objects in a given input image, which is a crucial prerequisite for many robotics and augmented reality applications. Lately, the Transformer Network architecture, equipped with a multi-head self-attention mechanism, is emerging to achieve state-of-the-art results in many computer vision tasks. DETR, a Transformer-based model, formulated object detection as a set prediction problem and achieved impressive results without standard components like region of interest pooling, non-maximal suppression, and bounding box proposals. In this work, we propose T6D-Direct, a real-time single-stage direct method with a transformer-based architecture built on DETR to perform 6D multi-object pose direct estimation. We evaluate the performance of our method on the YCB-Video dataset. Our method achieves the fastest inference time, and the pose estimation accuracy is comparable to state-of-the-art methods.
翻訳日:2021-09-25 03:21:19 公開日:2021-09-22
# (参考訳) 子指向音声の言語間連続意味と構文アノテーション

Cross-linguistically Consistent Semantic and Syntactic Annotation of Child-directed Speech ( http://arxiv.org/abs/2109.10952v1 )

ライセンス: CC BY-SA 4.0
Ida Szubert, Omri Abend, Nathan Schneider, Samuel Gibbon, Sharon Goldwater and Mark Steedman(参考訳) 児童発話のコーパスと子ども向け発話(cds)は、児童言語習得の研究に大きな貢献をしてきたが、コーパスの意味的アノテーションはまだ乏しく、統一された標準が欠如している。 2つのCDSコーパスを,1つは英語で,もう1つはヘブライ語で,逐次論理形式でコンパイルする。 コーパスをコンパイルする際には、依存関係表現とセマンティック解析の最近の進歩に基づいて、言語間一貫した表現を強制する方法論を用いる。 コーポラは、子供からのブラウンのアダム・コーパスのかなりの部分(子供向けコーパスの約80%)と、ベルマンのヘブライ語コーパス・ハーガーからの全ての子供向け発話に基づいている。 まず,多種多様なドメインや言語に適用可能であることを動機として,コーパスに統語的アノテーションのためのUD(Universal Dependencies)スキームをアノテートすることから始める。 次に、UD構造から逐次論理形式(LF)を自動変換する手法を適用する。 UD構造は言語ニュートラルであり、直接アノテーションをサポートするが、LFは構文と意味論のインターフェースに関して中立であり、意味的区別を透過的にエンコードする。 注釈付きUDアノテーションの品質を,アノテーション間合意研究を用いて検証する。 次に,異なる構文的および意味的現象の有病率に関する縦型コーパス研究を通して,コンパイルされたコーパスの有用性を実証する。

While corpora of child speech and child-directed speech (CDS) have enabled major contributions to the study of child language acquisition, semantic annotation for such corpora is still scarce and lacks a uniform standard. We compile two CDS corpora with sentential logical forms, one in English and the other in Hebrew. In compiling the corpora we employ a methodology that enforces a cross-linguistically consistent representation, building on recent advances in dependency representation and semantic parsing. The corpora are based on a sizable portion of Brown's Adam corpus from CHILDES (about 80% of its child-directed utterances), and to all child-directed utterances from Berman's Hebrew CHILDES corpus Hagar. We begin by annotating the corpora with the Universal Dependencies (UD) scheme for syntactic annotation, motivated by its applicability to a wide variety of domains and languages. We then proceed by applying an automatic method for transducing sentential logical forms (LFs) from UD structures. The two representations have complementary strengths: UD structures are language-neutral and support direct annotation, whereas LFs are neutral as to the interface between syntax and semantics, and transparently encode semantic distinctions. We verify the quality of the annotated UD annotation using an inter-annotator agreement study. We then demonstrate the utility of the compiled corpora through a longitudinal corpus study of the prevalence of different syntactic and semantic phenomena.
翻訳日:2021-09-25 03:08:56 公開日:2021-09-22
# (参考訳) 実演から学ぶ制約環境におけるヒューマンライクなトレードオフ [全文訳有]

Making Human-Like Trade-offs in Constrained Environments by Learning from Demonstrations ( http://arxiv.org/abs/2109.11018v1 )

ライセンス: CC BY 4.0
Arie Glazier, Andrea Loreggia, Nicholas Mattei, Taher Rahgooy, Francesca Rossi, K. Brent Venable(参考訳) 現実のシナリオの多くは、人間が難しいトレードオフをしなければならない。私たちは常にすべての交通規則に従うのか、緊急時の速度制限に違反しているのか? これらのシナリオでは、集団規範と私たち自身の目的とのトレードオフを評価する必要があります。 効果的なAI-ヒューマンチームを作るには、複雑な制約のある環境で人間がトレードオフをする方法のモデルにAIエージェントを配置する必要があります。 これらのエージェントは人間の行動を反映したり、意思決定を改善できる状況に人間の注意を引き付けることができる。 そこで本研究では,実演から暗黙のハードとソフトの制約を学習し,エージェントが新しい設定に迅速に適応できるようにする新しい逆強化学習(irl)手法を提案する。 さらに、状態、アクション、状態機能に対するソフトな制約を学ぶことで、エージェントはこの知識を同様の側面を共有する新しいドメインに転送することができる。 次に、制約学習法を用いて、人間の意思決定の認知モデル、多変量決定場理論(MDFT)を活用して、競合する目的を編成する新しいシステムアーキテクチャを実装する。 提案するエージェントは,軌道長,違反した制約数,総報酬について評価し,エージェントアーキテクチャが汎用的かつ高い性能を示すことを示す。 したがって、制約が明示的でない環境でのデモから人間のようなトレードオフをキャプチャし、複製することができます。

Many real-life scenarios require humans to make difficult trade-offs: do we always follow all the traffic rules or do we violate the speed limit in an emergency? These scenarios force us to evaluate the trade-off between collective norms and our own personal objectives. To create effective AI-human teams, we must equip AI agents with a model of how humans make trade-offs in complex, constrained environments. These agents will be able to mirror human behavior or to draw human attention to situations where decision making could be improved. To this end, we propose a novel inverse reinforcement learning (IRL) method for learning implicit hard and soft constraints from demonstrations, enabling agents to quickly adapt to new settings. In addition, learning soft constraints over states, actions, and state features allows agents to transfer this knowledge to new domains that share similar aspects. We then use the constraint learning method to implement a novel system architecture that leverages a cognitive model of human decision making, multi-alternative decision field theory (MDFT), to orchestrate competing objectives. We evaluate the resulting agent on trajectory length, number of violated constraints, and total reward, demonstrating that our agent architecture is both general and achieves strong performance. Thus we are able to capture and replicate human-like trade-offs from demonstrations in environments when constraints are not explicit.
翻訳日:2021-09-25 03:07:47 公開日:2021-09-22
# (参考訳) テーブル型ファクト検証のための分解の検討 [全文訳有]

Exploring Decomposition for Table-based Fact Verification ( http://arxiv.org/abs/2109.11020v1 )

ライセンス: CC BY 4.0
Xiaoyu Yang, Xiaodan Zhu(参考訳) 構造化データに基づく事実検証は、自然言語とテーブル上で実行される記号操作の両方を理解するモデルを必要とするため、困難である。 事前訓練された言語モデルは、単純なステートメントを検証する強力な能力を示しているが、複数の操作を含む複雑なステートメントに苦労している。 本稿では,複雑な文を単純なサブプロブレムに分解することで,事実検証を改善する。 弱教師付きセマンティクスパーサによって合成されたプログラムを活用し,分解モデル学習のための擬似データセットを構築するためのプログラム誘導手法を提案する。 サブプロブレムは、予測された回答とともに、我々の事実検証モデルを強化する中間的証拠となる。 実験の結果,提案手法はtabfactベンチマークで82.7\%の精度で新たな最先端性能を達成できた。

Fact verification based on structured data is challenging as it requires models to understand both natural language and symbolic operations performed over tables. Although pre-trained language models have demonstrated a strong capability in verifying simple statements, they struggle with complex statements that involve multiple operations. In this paper, we improve fact verification by decomposing complex statements into simpler subproblems. Leveraging the programs synthesized by a weakly supervised semantic parser, we propose a program-guided approach to constructing a pseudo dataset for decomposition model training. The subproblems, together with their predicted answers, serve as the intermediate evidence to enhance our fact verification model. Experiments show that our proposed approach achieves the new state-of-the-art performance, an 82.7\% accuracy, on the TabFact benchmark.
翻訳日:2021-09-25 02:47:04 公開日:2021-09-22
# (参考訳) 外部情報信号を用いたソーシャルメディア活動予測 [全文訳有]

Social-Media Activity Forecasting with Exogenous Information Signals ( http://arxiv.org/abs/2109.11024v1 )

ライセンス: CC BY 4.0
Kin Wai Ng, Sameera Horawalavithana, and Adriana Iamnitchi(参考訳) 広く普及しているため、ソーシャルメディアプラットフォームは社会行動、特に情報拡散について研究し理解するための理想的な環境を提供する。 ソーシャルメディア活動のモデル化には、戦略的情報操作の分析支援、不正情報を軽減するための介入手法の設計、災害救助活動中の重要な情報提供など、数多くの実践的な意味合いがある。 本稿では,ニュースや武力紛争記録などの外因性信号と,我々がモデル化したソーシャルメディアプラットフォームからの内因性データの両方を用いて,トピック固有のソーシャルメディア活動量を予測するモデリング手法を提案する。 2つの異なるプラットフォームからの実際のデータセットと、複数の相互関連トピックからなる2つの異なるコンテキストによる経験的評価は、ソリューションの有効性を示している。

Due to their widespread adoption, social media platforms present an ideal environment for studying and understanding social behavior, especially on information spread. Modeling social media activity has numerous practical implications such as supporting efforts to analyze strategic information operations, designing intervention techniques to mitigate disinformation, or delivering critical information during disaster relief operations. In this paper we propose a modeling technique that forecasts topic-specific daily volume of social media activities by using both exogenous signals, such as news or armed conflicts records, and endogenous data from the social media platform we model. Empirical evaluations with real datasets from two different platforms and two different contexts each composed of multiple interrelated topics demonstrate the effectiveness of our solution.
翻訳日:2021-09-25 02:35:06 公開日:2021-09-22
# (参考訳) 多変量時系列の量子ベースファジィC平均クラスタリング:ロバスト手法

Quantile-based fuzzy C-means clustering of multivariate time series: Robust techniques ( http://arxiv.org/abs/2109.11027v1 )

ライセンス: CC BY 4.0
\'Angel L\'opez-Oriona, Pierpaolo D'Urso, Jos\'e Antonio Vilar and Borja Lafuente-Rego(参考訳) 生成過程の観点から多変量時系列をクラスタリングする3つのロバストな手法を提案する。 手順は下記に基づくファジィc-平均モデルのロバストなバージョンである。 (i)四面体クロススペクトル密度の推定と推定 (ii)古典的主成分分析 外れ値の存在に対するロバスト性は、いわゆるメートル法、ノイズ、トリミングアプローチを用いて達成される。 メトリックアプローチは、目的関数に、外れ値の効果を中和することを目的とした距離尺度、ノイズアプローチは、アウトライディング級数を含むと期待される人工クラスタを構築し、トリミングアプローチはデータセットにおける最も非定型級数を取り除く。 提案手法はすべて、一般的な依存のタイプを明らかにすることができるため、量子的クロススペクトル密度の優れた性質を継承する。 多変量線形、非線形、ガーチ過程を含む幅広いシミュレーション研究の結果、アルゴリズムは、アウトライディング級数(つまり、多数派とは異なる依存構造を示す級数)の存在に対処するのに実質的に効果的であることが示された。 提案手法の有用性は,金融・環境シリーズに関する2つの具体的応用により強調される。

Three robust methods for clustering multivariate time series from the point of view of generating processes are proposed. The procedures are robust versions of a fuzzy C-means model based on: (i) estimates of the quantile cross-spectral density and (ii) the classical principal component analysis. Robustness to the presence of outliers is achieved by using the so-called metric, noise and trimmed approaches. The metric approach incorporates in the objective function a distance measure aimed at neutralizing the effect of the outliers, the noise approach builds an artificial cluster expected to contain the outlying series and the trimmed approach eliminates the most atypical series in the dataset. All the proposed techniques inherit the nice properties of the quantile cross-spectral density, as being able to uncover general types of dependence. Results from a broad simulation study including multivariate linear, nonlinear and GARCH processes indicate that the algorithms are substantially effective in coping with the presence of outlying series (i.e., series exhibiting a dependence structure different from that of the majority), clearly poutperforming alternative procedures. The usefulness of the suggested methods is highlighted by means of two specific applications regarding financial and environmental series.
翻訳日:2021-09-25 02:19:25 公開日:2021-09-22
# (参考訳) ICUデータから予測的・解釈可能な時系列を学習する [全文訳有]

Learning Predictive and Interpretable Timeseries Summaries from ICU Data ( http://arxiv.org/abs/2109.11043v1 )

ライセンス: CC BY 4.0
Nari Johnson, Sonali Parbhoo, Andrew Slavin Ross and Finale Doshi-Velez(参考訳) 患者データを時間にわたって利用する機械学習モデル(最新の測定値だけでなく)は、集中治療ユニットの多くのリスク階層化タスクのパフォーマンスを高めた。 しかしながら、これらのモデルとそれらの学習された表現の多くは複雑であり、臨床医にとって解釈が困難であり、バリデーションの課題を生み出している。 本研究は,ヒトが予測的かつ容易に理解できる臨床時系列の要約を学習するための新しい手法を提案する。 具体的には,臨床データの単純かつ直感的な機能(平均動脈圧下降など)から構成される。 学習した要約は従来の解釈可能なモデルクラスより優れ、病院内死亡率分類タスクにおける最先端のディープラーニングモデルに匹敵する性能を達成する。

Machine learning models that utilize patient data across time (rather than just the most recent measurements) have increased performance for many risk stratification tasks in the intensive care unit. However, many of these models and their learned representations are complex and therefore difficult for clinicians to interpret, creating challenges for validation. Our work proposes a new procedure to learn summaries of clinical time-series that are both predictive and easily understood by humans. Specifically, our summaries consist of simple and intuitive functions of clinical data (e.g. falling mean arterial pressure). Our learned summaries outperform traditional interpretable model classes and achieve performance comparable to state-of-the-art deep learning models on an in-hospital mortality classification task.
翻訳日:2021-09-25 02:17:59 公開日:2021-09-22
# (参考訳) テキスト・画像検索のためのクロスモーダルコヒーレンス [全文訳有]

Cross-Modal Coherence for Text-to-Image Retrieval ( http://arxiv.org/abs/2109.11047v1 )

ライセンス: CC BY 4.0
Malihe Alikhani, Fangda Han, Hareesh Ravi, Mubbasir Kapadia, Vladimir Pavlovic, Matthew Stone(参考訳) 共通画像テキスト共同理解技術は、画像と関連するテキストが単一の暗黙のモデルによって普遍的に特徴づけられると仮定する。 しかし、画像とテキストの共起は定性的に異なる方法で関連付けられ、明確にモデリングすることで、現在の共同理解モデルの性能を向上させることができる。 本稿では,テキスト対画像検索タスクのためのクロスモーダルコヒーレンスモデルを訓練する。 画像テキストのコヒーレンス関係で訓練したモデルでは、コヒーレンスに依存しないモデルよりも、元来ターゲットテキストとペアのイメージを検索することができる。 また,提案したコヒーレンス認識モデルにより得られた画像は,コヒーレンス認識ベースラインよりも大きなマージンで優先されることを示す。 本研究は,テキストや画像における共通認識推論を捉える上で,異なるモダリティのコミュニケーション方法とコヒーレンス関係の役割に関する知見を提供する。

Common image-text joint understanding techniques presume that images and the associated text can universally be characterized by a single implicit model. However, co-occurring images and text can be related in qualitatively different ways, and explicitly modeling it could improve the performance of current joint understanding models. In this paper, we train a Cross-Modal Coherence Modelfor text-to-image retrieval task. Our analysis shows that models trained with image--text coherence relations can retrieve images originally paired with target text more often than coherence-agnostic models. We also show via human evaluation that images retrieved by the proposed coherence-aware model are preferred over a coherence-agnostic baseline by a huge margin. Our findings provide insights into the ways that different modalities communicate and the role of coherence relations in capturing commonsense inferences in text and imagery.
翻訳日:2021-09-25 02:05:54 公開日:2021-09-22
# (参考訳) 重み付き低ランク行列近似と加速度 [全文訳有]

Weighted Low Rank Matrix Approximation and Acceleration ( http://arxiv.org/abs/2109.11057v1 )

ライセンス: CC BY 4.0
Elena Tuzhilina, Trevor Hastie(参考訳) 低ランク行列近似は機械学習における中心的な概念の1つであり、次元減少、デノイズ化、多変量統計方法論など多くの応用がある。 最近のLRMAの拡張は低ランク行列補完(LRMC)と呼ばれる。 LRMAは、いくつかの観測が欠けているときに解決し、特にレコメンデーターシステムに有用である。 本稿ではLRMAの要素重み付き一般化について考察する。 したがって、重み付き低ランク行列近似手法は二元重み付き特別の場合としてlrmcをカバーする。 WLRMAには多くの応用がある。 例えば、これはglm最適化アルゴリズムの必須成分であり、指数関数族を用いて行列のエントリをモデル化し、自然パラメータの行列は低ランク構造を許容する。 重み付き問題を解くアルゴリズムと,2つの高速化手法を提案する。 さらに,超高次元データの処理が可能な提案アルゴリズムの非SVD修正を開発する。 私たちは、実際のデータアプリケーションと同様に、小さなシミュレーション例ですべてのメソッドのパフォーマンスを比較します。

Low-rank matrix approximation is one of the central concepts in machine learning, with applications in dimension reduction, de-noising, multivariate statistical methodology, and many more. A recent extension to LRMA is called low-rank matrix completion (LRMC). It solves the LRMA problem when some observations are missing and is especially useful for recommender systems. In this paper, we consider an element-wise weighted generalization of LRMA. The resulting weighted low-rank matrix approximation technique therefore covers LRMC as a special case with binary weights. WLRMA has many applications. For example, it is an essential component of GLM optimization algorithms, where an exponential family is used to model the entries of a matrix, and the matrix of natural parameters admits a low-rank structure. We propose an algorithm for solving the weighted problem, as well as two acceleration techniques. Further, we develop a non-SVD modification of the proposed algorithm that is able to handle extremely high-dimensional data. We compare the performance of all the methods on a small simulation example as well as a real-data application.
翻訳日:2021-09-25 01:52:00 公開日:2021-09-22
# (参考訳) タスク指向対話システム改善のための対話型品質指標 [全文訳有]

Actionable Conversational Quality Indicators for Improving Task-Oriented Dialog Systems ( http://arxiv.org/abs/2109.11064v1 )

ライセンス: CC BY 4.0
Michael Higgins, Dominic Widdows, Chris Brew, Gwen Christian, Andrew Maurer, Matthew Dunn, Sujit Mathi, Akshay Hazare, George Bonev, Beth Ann Hockey, Kristen Howell, Joe Bradley(参考訳) 自動対話システムはオンライン顧客サービスの主流となっている。 このようなシステムの多くは、ダイアログシステムエンジニアやコンピュータプログラマではなく、カスタマーサービススペシャリストによって構築、維持、改善されている。 人と機械間の会話が一般的になるにつれて、何が機能しているか、何が機能しないのか、不適切なシステム応答の頻度を減らすためにどのような行動をとるのかを理解することが重要となる。 これらの分析とレコメンデーションは、内部ダイアログ処理ではなく、ユーザエクスペリエンスを直接反映する用語で提示する必要がある。 本稿では,改善可能なダイアログの一部を認識し,その改善方法を推薦するために使用される対話型品質指標(acqis)について紹介し,解説する。 これは、ダイアログの品質スコアリングにフォーカスした以前のアプローチの利点と、ダイアログシステムが行っているエラーのタイプを分類しようとする方法を組み合わせたものだ。 本稿では、商用顧客サービスアプリケーションで使用されるLivePersonの内部ダイアログシステムと、一般公開されているCMU LEGOv2会話データセット(Raux et al. 2005)におけるACQIの使用の有効性を示す。 各種状況においてどのacqiが重要かを示す対話型データセットのアノテーションと分析について報告する。 注釈付きデータセットは、メッセージテキストのターンベースのベクター埋め込みを使用して、与えられた会話の正しいacqiを見つけるタスクで79%の重み付け平均f1-measureを達成する予測モデルを構築するために使用される。 このようなモデルが完璧に機能すれば、ボットビルダーが各ターンで考慮しなければならない潜在的な改善行動の範囲は平均81%削減できると予測する。

Automatic dialog systems have become a mainstream part of online customer service. Many such systems are built, maintained, and improved by customer service specialists, rather than dialog systems engineers and computer programmers. As conversations between people and machines become commonplace, it is critical to understand what is working, what is not, and what actions can be taken to reduce the frequency of inappropriate system responses. These analyses and recommendations need to be presented in terms that directly reflect the user experience rather than the internal dialog processing. This paper introduces and explains the use of Actionable Conversational Quality Indicators (ACQIs), which are used both to recognize parts of dialogs that can be improved, and to recommend how to improve them. This combines benefits of previous approaches, some of which have focused on producing dialog quality scoring while others have sought to categorize the types of errors the dialog system is making. We demonstrate the effectiveness of using ACQIs on LivePerson internal dialog systems used in commercial customer service applications, and on the publicly available CMU LEGOv2 conversational dataset (Raux et al. 2005). We report on the annotation and analysis of conversational datasets showing which ACQIs are important to fix in various situations. The annotated datasets are then used to build a predictive model which uses a turn-based vector embedding of the message texts and achieves an 79% weighted average f1-measure at the task of finding the correct ACQI for a given conversation. We predict that if such a model worked perfectly, the range of potential improvement actions a bot-builder must consider at each turn could be reduced by an average of 81%.
翻訳日:2021-09-25 01:39:19 公開日:2021-09-22
# (参考訳) 超高解像度画像のセグメンテーションのためのダウンサンプル学習 [全文訳有]

Learning to Downsample for Segmentation of Ultra-High Resolution Images ( http://arxiv.org/abs/2109.11071v1 )

ライセンス: CC BY 4.0
Chen Jin, Ryutaro Tanno, Thomy Mertzanidou, Eleftheria Panagiotaki, Daniel C. Alexander(参考訳) 超高解像度画像とディープラーニングのセグメンテーションは、その巨大なサイズ、しばしば数百万から数十億ピクセルのピクセルのために難しい。 典型的な解は、メモリの制約を満たすために画像を一様にサンプリングし、全てのピクセルが同じ密度で同じ密度でサンプリングすることで等しく重要なことを暗黙的に仮定する。 しかし、この仮定は正しくなく、標準サイズの画像で強力であることが証明されたディープラーニング技術のパフォーマンスを損なう。 例えば、一様ダウンサンプリングの場合、図1のグリーンボックス領域を参照すると、ライダーとバイクは、木や建物をオーバーサンプリングしている間に十分なサンプルを持っておらず、低解像度ダウンサンプリング画像からのセグメンテーション予測に悪影響を及ぼす。 本研究では,空間的に変化するダウンサンプリング戦略をセグメンテーションと共同で学習することで,計算予算の制限された大規模画像のセグメンテーションの利点を示す。 図1は, サンプリング密度を異なる地点に適応させることにより, 重要領域が小さく, その他の領域より少ない試料を収集し, セグメント化精度の向上を図示している。 提案手法は2つのパブリックデータセットと1つのローカル高解像度データセットにおいて,より多くの情報を保持するサンプリング位置を一貫して学習し,ベースライン法よりもセグメンテーション精度を高める。

Segmentation of ultra-high resolution images with deep learning is challenging because of their enormous size, often millions or even billions of pixels. Typical solutions drastically downsample the image uniformly to meet memory constraints, implicitly assuming all pixels equally important by sampling at the same density at all spatial locations. However this assumption is not true and compromises the performance of deep learning techniques that have proved powerful on standard-sized images. For example with uniform downsampling, see green boxed region in Fig.1, the rider and bike do not have enough corresponding samples while the trees and buildings are oversampled, and lead to a negative effect on the segmentation prediction from the low-resolution downsampled image. In this work we show that learning the spatially varying downsampling strategy jointly with segmentation offers advantages in segmenting large images with limited computational budget. Fig.1 shows that our method adapts the sampling density over different locations so that more samples are collected from the small important regions and less from the others, which in turn leads to better segmentation accuracy. We show on two public and one local high-resolution datasets that our method consistently learns sampling locations preserving more information and boosting segmentation accuracy over baseline methods.
翻訳日:2021-09-25 01:20:11 公開日:2021-09-22
# (参考訳) 高度深層学習技術による遠隔学習のストレス予測 [全文訳有]

Predicting Stress in Remote Learning via Advanced Deep Learning Technologies ( http://arxiv.org/abs/2109.11076v1 )

ライセンス: CC BY 4.0
Daben Kyle Liu(参考訳) 新型コロナウイルス(COVID-19)は、ZoomやGoogle Meetといったオンラインミーティングソフトウェアを通じて、ほとんどの学校をリモート学習に駆り立ててきた。 この傾向は、学生が対人授業なしで学び続けるのに役立つが、教師が効果的に教える重要なツールである視覚的手がかりを取り除く。 生徒の顔がはっきりと見えないことで、教師は、学生が助けを必要としているときや、学生が注意を払っていないときに気づかない場合がある。 この課題の教師の救済を支援するため,本研究では,リアルタイムの生徒のメンタルステートモニタリングと,教師が遠隔教育をより効果的に行うための分類を提供する,機械学習に基づくアプローチを提案する。 本研究では,eeg(public available electroencephalogram )データコレクションを用いて,従来のディープニューラルネットワーク,伝統的に普及しているサポートベクターマシン,最新の畳み込みニューラルネットワーク,xgboostモデルという4つの分類手法を検討した。 本研究は,学習モード,混乱学習モード,リラックスモードの3つのメンタルクラスを定義した。 本研究により,これらの選択された分類器は,精神状態の脳波信号の分類に様々な可能性を有することが示された。 選択された分類器のいくつかは50%程度の精度しか得られないが、最良の分類器は80%の精度でリアルタイムに分類することができる。 これは、遠隔教育の調整を支援する必要がある教師や、対人インタラクションが不可能な多くの潜在的なアプリケーションにとって非常に有益である。

COVID-19 has driven most schools to remote learning through online meeting software such as Zoom and Google Meet. Although this trend helps students continue learning without in-person classes, it removes a vital tool that teachers use to teach effectively: visual cues. By not being able to see a student's face clearly, the teacher may not notice when the student needs assistance, or when the student is not paying attention. In order to help remedy the teachers of this challenge, this project proposes a machine learning based approach that provides real-time student mental state monitoring and classifications for the teachers to better conduct remote teaching. Using publicly available electroencephalogram (EEG) data collections, this research explored four different classification techniques: the classic deep neural network, the traditionally popular support vector machine, the latest convolutional neural network, and the XGBoost model, which has gained popularity recently. This study defined three mental classes: an engaged learning mode, a confused learning mode, and a relaxed mode. The experimental results from this project showed that these selected classifiers have varying potentials in classifying EEG signals for mental states. While some of the selected classifiers only yield around 50% accuracy with some delay, the best ones can achieve 80% accurate classification in real-time. This could be very beneficial for teachers in need of help making remote teaching adjustments, and for many other potential applications where in-person interactions are not possible.
翻訳日:2021-09-25 00:59:16 公開日:2021-09-22
# 高次元探索空間上の多目的ベイズ最適化

Multi-Objective Bayesian Optimization over High-Dimensional Search Spaces ( http://arxiv.org/abs/2109.10964v1 )

ライセンス: Link先を確認
Samuel Daulton, David Eriksson, Maximilian Balandat, Eytan Bakshy(参考訳) 複数の競合する目的関数を高いサンプル効率で最適化する能力は、科学や産業にまたがる多くの応用問題において不可欠である。 多目的ベイズ最適化(BO)はそのような問題に対して強い経験的性能を達成するが、近年の方法論的進歩にもかかわらず、単純な低次元領域に限定されている。 既存のBO法の多くは、数十以上のパラメータを持つ探索空間において性能が劣っている。 本研究では,高次元探索空間上の多目的ベイズ最適化法であるmorboを提案する。 MORBOは複数の信頼領域内で局所ベイズ最適化を同時に実行し、客観的関数をグローバルにモデル化することが困難である場合でも、多様な解を探索し特定することができる。 MORBOは,222パラメータの車両設計問題を含む,高次元合成および実世界の多目的問題に対して,試料効率の大幅な向上を図り,これまでBO法に届かなかった課題に対して,MORBOが実践的なアプローチであることを実証した。

The ability to optimize multiple competing objective functions with high sample efficiency is imperative in many applied problems across science and industry. Multi-objective Bayesian optimization (BO) achieves strong empirical performance on such problems, but even with recent methodological advances, it has been restricted to simple, low-dimensional domains. Most existing BO methods exhibit poor performance on search spaces with more than a few dozen parameters. In this work we propose MORBO, a method for multi-objective Bayesian optimization over high-dimensional search spaces. MORBO performs local Bayesian optimization within multiple trust regions simultaneously, allowing it to explore and identify diverse solutions even when the objective functions are difficult to model globally. We show that MORBO significantly advances the state-of-the-art in sample-efficiency for several high-dimensional synthetic and real-world multi-objective problems, including a vehicle design problem with 222 parameters, demonstrating that MORBO is a practical approach for challenging and important problems that were previously out of reach for BO methods.
翻訳日:2021-09-24 15:17:55 公開日:2021-09-22
# 条件付きポアソン確率ビーム探索

Conditional Poisson Stochastic Beam Search ( http://arxiv.org/abs/2109.11034v1 )

ライセンス: Link先を確認
Clara Meister, Afra Amini, Tim Viera, Ryan Cotterell(参考訳) ビームサーチは、NLPにおける多くのシーケンス生成タスクのデフォルトのデコード戦略である。 アルゴリズムによって返される近似k-bestアイテムのセットは、多くのアプリケーションで有用な分布の要約であるが、一般的に候補は高い重なりを示し、我々のモデルの下での期待に対する非常に偏りのある見積もりを与える。 これらの問題は、代わりに確率的復号戦略を用いることで解決できる。 本研究では, ビーム探索を確率過程に変換する新しい手法, conditional poisson stochastic beam searchを提案する。 各反復における最大化集合を取る代わりに、条件付きポアソンサンプリング設計に従って置換せずにK候補をサンプリングする。 これはkool etのより自然な代替案だと考えています。 al. 2019の確率ビームサーチ(SBS)。 さらに、cpsbs設計の下で生成されたサンプルを用いて、シーケンスモデルから一貫した推定器や多種多様なセットを構築する方法を示す。 実験では,CPSBSがSBSよりも低分散・高効率な推定器を発生させ,高エントロピー設定の改善を示した。

Beam search is the default decoding strategy for many sequence generation tasks in NLP. The set of approximate K-best items returned by the algorithm is a useful summary of the distribution for many applications; however, the candidates typically exhibit high overlap and may give a highly biased estimate for expectations under our model. These problems can be addressed by instead using stochastic decoding strategies. In this work, we propose a new method for turning beam search into a stochastic process: Conditional Poisson stochastic beam search. Rather than taking the maximizing set at each iteration, we sample K candidates without replacement according to the conditional Poisson sampling design. We view this as a more natural alternative to Kool et. al. 2019's stochastic beam search (SBS). Furthermore, we show how samples generated under the CPSBS design can be used to build consistent estimators and sample diverse sets from sequence models. In our experiments, we observe CPSBS produces lower variance and more efficient estimators than SBS, even showing improvements in high entropy settings.
翻訳日:2021-09-24 15:15:42 公開日:2021-09-22
# 隠れノードを持つ高次元ポイントプロセスネットワークにおける因果発見

Causal Discovery in High-Dimensional Point Process Networks with Hidden Nodes ( http://arxiv.org/abs/2109.10947v1 )

ライセンス: Link先を確認
Xu Wang and Ali Shojaie(参考訳) ほぼ連続した時間観測につながる技術進歩により、新しい多変量点プロセスデータは因果発見の新しい機会を提供する。 しかし、この目標を達成する上で重要な障害は、多くの関連するプロセスが実際に観察されないことである。 これらの隠れた変数を無視するナイーブな推定アプローチは、不調整なコンファウンディングのために誤解を招く結果を生み出す可能性がある。 このギャップを埋めるために,ノードのサブセットのみを観測した高次元のポイントプロセスネットワークを推定するデコンファウンディング手法を提案する。 観測されたプロセスと観測されていないプロセスのフレキシブルな接続を可能にする。 また、観測されていないプロセスの数は、観測されたノードの数よりも未知で、潜在的に大きい。 理論的解析と数値研究は、観察した過程間の因果相互作用を同定する手法の利点を強調している。

Thanks to technological advances leading to near-continuous time observations, emerging multivariate point process data offer new opportunities for causal discovery. However, a key obstacle in achieving this goal is that many relevant processes may not be observed in practice. Naive estimation approaches that ignore these hidden variables can generate misleading results because of the unadjusted confounding. To plug this gap, we propose a deconfounding procedure to estimate high-dimensional point process networks with only a subset of the nodes being observed. Our method allows flexible connections between the observed and unobserved processes. It also allows the number of unobserved processes to be unknown and potentially larger than the number of observed nodes. Theoretical analyses and numerical studies highlight the advantages of the proposed method in identifying causal interactions among the observed processes.
翻訳日:2021-09-24 15:14:42 公開日:2021-09-22
# オンライン決定問題における逆転破壊に対する最適ロバスト性について

On Optimal Robustness to Adversarial Corruption in Online Decision Problems ( http://arxiv.org/abs/2109.10963v1 )

ライセンス: Link先を確認
Shinji Ito(参考訳) 本稿では,専門家のアドバイスによる予測問題とマルチアームのバンディット問題という2つの基本的な意思決定問題について考察する。 我々は,敵が損失を損なう確率的体制に着目し,敵の腐敗に対してどのようなレベルの堅牢性が達成できるかを検討する。 本論文の主な貢献は, 汚損量に対する平方根依存性により, 最適ロバスト性を表現することができることを示すことである。 より正確には、学習率を下げるHedgeと、2階の後悔境界を持つアルゴリズムの2つのクラスが$O( \frac{\log N}{\Delta} + \sqrt{ \frac{C \log N }{\Delta} } )$-regretに達し、$N, \Delta$, $C$はそれぞれ専門家の数、ギャップパラメータ、汚職レベルを表す。 私たちはさらに、この後悔のバウンドが定数に密接であるような、一致する下限も提供します。 マルチアームのバンディット問題に対しては,対数係数までほぼ厳密な下限を提供する。

This paper considers two fundamental sequential decision-making problems: the problem of prediction with expert advice and the multi-armed bandit problem. We focus on stochastic regimes in which an adversary may corrupt losses, and we investigate what level of robustness can be achieved against adversarial corruptions. The main contribution of this paper is to show that optimal robustness can be expressed by a square-root dependency on the amount of corruption. More precisely, we show that two classes of algorithms, anytime Hedge with decreasing learning rate and algorithms with second-order regret bounds, achieve $O( \frac{\log N}{\Delta} + \sqrt{ \frac{C \log N }{\Delta} } )$-regret, where $N, \Delta$, and $C$ represent the number of experts, the gap parameter, and the corruption level, respectively. We further provide a matching lower bound, which means that this regret bound is tight up to a constant factor. For the multi-armed bandit problem, we also provide a nearly tight lower bound up to a logarithmic factor.
翻訳日:2021-09-24 15:14:31 公開日:2021-09-22
# ステレオ対応推定のための新しい因子グラフに基づく最適化手法

A Novel Factor Graph-Based Optimization Technique for Stereo Correspondence Estimation ( http://arxiv.org/abs/2109.11077v1 )

ライセンス: Link先を確認
Hanieh Shabanian, Madhusudhanan Balasubramanian(参考訳) シーンの幾何学的関係やビューやカメラに基づいてシーンの3次元構造を推定するには,複数のビュー間の密度格差が不可欠である。 異質なテクスチャの幅が大きいシーンは、複数のビューで異なるシーン照明を施し、オクルーディングオブジェクトを持つシーンは、推定されたバラツキの精度に影響する。 マルコフ確率場(MRF)に基づく不均質推定法は、観測値と不均質推定値の間の空間的依存関係を用いてこれらの制限に対処する。 しかし、これらの手法は、空間的に固定され、より小さな近隣システムまたは傾斜によって制限される。 本研究では,局所的なシーン特性に基づいて,より大きく,空間的に可変な近傍構造を決定できる分散度推定のための新しい因子グラフに基づく確率的グラフィカルモデルを提案する。 提案手法は,ミドルベリーベンチマークステレオデータセットとミドルベリー評価データセットバージョン3.0を用いて評価し,その性能を最新の状態差推定アルゴリズムと比較した。 新たな因子グラフベース手法は,近年の非学習型および学習型不均質推定アルゴリズムと比較して,高い精度で不均等推定を行った。 因子グラフの定式化は,複素および可変依存性構造を持つ最適化問題に対する最大後続解を得るのに有用であるとともに,光学フロー推定のような他の密な推定問題にも有用である。

Dense disparities among multiple views is essential for estimating the 3D architecture of a scene based on the geometrical relationship among the scene and the views or cameras. Scenes with larger extents of heterogeneous textures, differing scene illumination among the multiple views and with occluding objects affect the accuracy of the estimated disparities. Markov random fields (MRF) based methods for disparity estimation address these limitations using spatial dependencies among the observations and among the disparity estimates. These methods, however, are limited by spatially fixed and smaller neighborhood systems or cliques. In this work, we present a new factor graph-based probabilistic graphical model for disparity estimation that allows a larger and a spatially variable neighborhood structure determined based on the local scene characteristics. We evaluated our method using the Middlebury benchmark stereo datasets and the Middlebury evaluation dataset version 3.0 and compared its performance with recent state-of-the-art disparity estimation algorithms. The new factor graph-based method provided disparity estimates with higher accuracy when compared to the recent non-learning- and learning-based disparity estimation algorithms. In addition to disparity estimation, our factor graph formulation can be useful for obtaining maximum a posteriori solution to optimization problems with complex and variable dependency structures as well as for other dense estimation problems such as optical flow estimation.
翻訳日:2021-09-24 15:12:50 公開日:2021-09-22
# 音・言語特徴とプレトレーニングBERTを用いたアルツハイマー認知症検出

Alzheimers Dementia Detection using Acoustic & Linguistic features and Pre-Trained BERT ( http://arxiv.org/abs/2109.11010v1 )

ライセンス: Link先を確認
Akshay Valsaraj, Ithihas Madala, Nikhil Garg, Veeky Baths(参考訳) アルツハイマー病は、時間とともに悪化する致命的な進行性脳疾患である。 早期発見とケアのための,安価かつ迅速な臨床診断技術が提供される時期が来た。 これまでの研究では、さまざまな機械学習技術と事前学習されたディープラーニングモデルが、さまざまな音響的特徴と言語的特徴の抽出と併用されている。 本研究は,ADReSS(The Alzheimers Dementia Recognition through Spontaneous Speech)2021 Challengeにおける分類課題の3つのモデルに焦点を当てた。 モデルのトレーニングと検証にはADReSS Challengeが提供するバランスのとれたデータセットを使用します。 Model 1 は eGeMAPs の機能セットの様々な音響的特徴を使い、Model 2 は自動生成した文字起こしから生成した様々な言語的特徴を使い、Model 3 は自動生成した文字起こしを直接使用して、事前訓練されたBERT と TF-IDF を用いて特徴を抽出する。 これらのモデルは、モデルセクションで詳細に説明されます。

Alzheimers disease is a fatal progressive brain disorder that worsens with time. It is high time we have inexpensive and quick clinical diagnostic techniques for early detection and care. In previous studies, various Machine Learning techniques and Pre-trained Deep Learning models have been used in conjunction with the extraction of various acoustic and linguistic features. Our study focuses on three models for the classification task in the ADReSS (The Alzheimers Dementia Recognition through Spontaneous Speech) 2021 Challenge. We use the well-balanced dataset provided by the ADReSS Challenge for training and validating our models. Model 1 uses various acoustic features from the eGeMAPs feature-set, Model 2 uses various linguistic features that we generated from auto-generated transcripts and Model 3 uses the auto-generated transcripts directly to extract features using a Pre-trained BERT and TF-IDF. These models are described in detail in the models section.
翻訳日:2021-09-24 15:12:13 公開日:2021-09-22
# 確率勾配降下法における適応バッチサイズ選択戦略の等価性について

On the equivalence of different adaptive batch size selection strategies for stochastic gradient descent methods ( http://arxiv.org/abs/2109.10933v1 )

ライセンス: Link先を確認
Luis Espath, Sebastian Krumscheid, Ra\'ul Tempone, Pedro Vilanova(参考訳) 本研究では,\epsilon^2=\theta^2+\nu^2}\,\theta$ および $\nu$ の特定の選択をした場合の確率的勾配降下 (sgd) 法に関連する収束率の観点から,ノルム検定と内積/直交性試験が等価であることを示す。 ここで、$\epsilon$は勾配のノルムの相対統計誤差を制御し、$\theta$と$\nu$は勾配の方向と勾配の直交方向の相対統計誤差をそれぞれ制御する。 さらに,もし$\theta$ と $\nu$ が最適に選択されれば,内積/オルトゴナリティテストは最善のケースではノルムテストと同じくらい安価になるが,内積/オルトゴナリティテストは$\epsilon^2=\theta^2+\nu^2$なら計算的に安くなることはない。 最後に,2つの確率的最適化問題を提案する。

In this study, we demonstrate that the norm test and inner product/orthogonalit y test presented in \cite{Bol18} are equivalent in terms of the convergence rates associated with Stochastic Gradient Descent (SGD) methods if $\epsilon^2=\theta^2+\nu^2$ with specific choices of $\theta$ and $\nu$. Here, $\epsilon$ controls the relative statistical error of the norm of the gradient while $\theta$ and $\nu$ control the relative statistical error of the gradient in the direction of the gradient and in the direction orthogonal to the gradient, respectively. Furthermore, we demonstrate that the inner product/orthogonalit y test can be as inexpensive as the norm test in the best case scenario if $\theta$ and $\nu$ are optimally selected, but the inner product/orthogonalit y test will never be more computationally affordable than the norm test if $\epsilon^2=\theta^2+\nu^2$. Finally, we present two stochastic optimization problems to illustrate our results.
翻訳日:2021-09-24 15:11:18 公開日:2021-09-22
# 関数同定による二次ニューラルネットワークのロバスト一般化

Robust Generalization of Quadratic Neural Networks via Function Identification ( http://arxiv.org/abs/2109.10935v1 )

ライセンス: Link先を確認
Kan Xu, Hamsa Bastani, Osbert Bastani(参考訳) ディープラーニングが直面する重要な課題は、ニューラルネットワークが基盤となるデータ分散の変化に対して堅牢ではないことだ。 本稿では,パラメータ同定の統計的概念の観点からこの問題を考察する。 学習理論からの一般化境界は、しばしばテスト分布がトレーニング分布に近いと仮定する。 対照的に、「真の」パラメータを特定できれば、モデルは任意の分布シフトに一般化される。 しかし、ニューラルネットワークは通常過パラメータ化され、パラメータ識別が不可能になる。 二次ニューラルネットワークでは,パラメータを識別できない場合でも,モデルで表される関数を識別できることを示す。 したがって、過パラメータ化設定においてもロバストな一般化境界が得られる。 この結果を利用して,2次ニューラルネットワークを用いたコンテキストバンディットと転送学習の新しい境界を求める。 その結果,真のデータ生成プロセスを表現するモデルを設計することで,ニューラルネットワークの堅牢性を向上させることが可能であることが示唆された。 実際、真のデータ生成プロセスは、しばしば非常に複雑である;したがって、我々のフレームワークが、複雑なタスクをより単純なタスクの構成に分割するように設計されたニューラルモジュールネットワークとどのように接続するかを研究する。 個々の神経モジュールが識別可能である場合、ロバストな一般化境界が証明される。

A key challenge facing deep learning is that neural networks are often not robust to shifts in the underlying data distribution. We study this problem from the perspective of the statistical concept of parameter identification. Generalization bounds from learning theory often assume that the test distribution is close to the training distribution. In contrast, if we can identify the "true" parameters, then the model generalizes to arbitrary distribution shifts. However, neural networks are typically overparameterized, making parameter identification impossible. We show that for quadratic neural networks, we can identify the function represented by the model even though we cannot identify its parameters. Thus, we can obtain robust generalization bounds even in the overparameterized setting. We leverage this result to obtain new bounds for contextual bandits and transfer learning with quadratic neural networks. Overall, our results suggest that we can improve robustness of neural networks by designing models that can represent the true data generating process. In practice, the true data generating process is often very complex; thus, we study how our framework might connect to neural module networks, which are designed to break down complex tasks into compositions of simpler ones. We prove robust generalization bounds when individual neural modules are identifiable.
翻訳日:2021-09-24 15:10:55 公開日:2021-09-22
# CAMELS Multifield Dataset:人工知能による宇宙の基本パラメータの学習

The CAMELS Multifield Dataset: Learning the Universe's Fundamental Parameters with Artificial Intelligence ( http://arxiv.org/abs/2109.10915v1 )

ライセンス: Link先を確認
Francisco Villaescusa-Navarro, Shy Genel, Daniel Angles-Alcazar, Leander Thiele, Romeel Dave, Desika Narayanan, Andrina Nicola, Yin Li, Pablo Villanueva-Domingo, Benjamin Wandelt, David N. Spergel, Rachel S. Somerville, Jose Manuel Zorrilla Matilla, Faizan G. Mohammad, Sultan Hassan, Helen Shao, Digvijay Wadekar, Michael Eickenberg, Kaze W.K. Wong, Gabriella Contardo, Yongseok Jo, Emily Moser, Erwin T. Lau, Luis Fernando Machado Poletti Valle, Lucia A. Perez, Daisuke Nagai, Nicholas Battaglia, Mark Vogelsberger(参考訳) 我々は、宇宙ガス、暗黒物質、恒星の様々な特性を含む数十万の2dマップと3dグリッドのコレクションであるcamels multifield dataset with machine learning simulations (camels) multifield dataset (cmd) を用いて、宇宙論と天体物理学を紹介する。 2Dマップと3Dグリッドは、CAMELSプロジェクトから何千もの最先端の流体力学と重力のみのN体シミュレーションから生み出された1億ドルの宇宙領域を表している。 機械学習モデルをトレーニングするために設計されたCMDは、70テラバイト以上のデータを含むそのタイプの最大のデータセットである。 本稿では,CMDの詳細を述べるとともに,その応用について概説する。 我々は,このような課題,パラメータ推論,コミュニティにとっての課題として直面する問題の定式化に注目する。 すべてのデータをリリースし、https://camels-multi field-dataset.readth edocs.io.orgで技術的な詳細を提供します。

We present the Cosmology and Astrophysics with MachinE Learning Simulations (CAMELS) Multifield Dataset, CMD, a collection of hundreds of thousands of 2D maps and 3D grids containing many different properties of cosmic gas, dark matter, and stars from 2,000 distinct simulated universes at several cosmic times. The 2D maps and 3D grids represent cosmic regions that span $\sim$100 million light years and have been generated from thousands of state-of-the-art hydrodynamic and gravity-only N-body simulations from the CAMELS project. Designed to train machine learning models, CMD is the largest dataset of its kind containing more than 70 Terabytes of data. In this paper we describe CMD in detail and outline a few of its applications. We focus our attention on one such task, parameter inference, formulating the problems we face as a challenge to the community. We release all data and provide further technical details at https://camels-multi field-dataset.readth edocs.io.
翻訳日:2021-09-24 15:07:04 公開日:2021-09-22
# Human-in-the-Loopによるスケーラブルなファクトチェック

Scalable Fact-checking with Human-in-the-Loop ( http://arxiv.org/abs/2109.10992v1 )

ライセンス: Link先を確認
Jing Yang, Didier Vega-Oliveros, Tais Seibt and Anderson Rocha(参考訳) 研究者はさまざまな分野でファクトチェックの自動化ソリューションを調査している。 しかし、現在のアプローチでは、毎日放出される情報量が増大し、それらが重なり合うという事実をしばしば見落としている。 ファクトチェックを加速するために、同様のメッセージをグループ化し、それらを集約されたクレームにまとめることで、このギャップを埋める。 具体的には、まずソーシャルメディア投稿の集合(例えば、つぶやき)をきれいにし、セマンティクスに基づいて全投稿のグラフを構築する。 ROUGEスコアと人間の評価を定量的に,質的に評価した。 また、それらの間に大きな重複がないことを確認するための要約グラフも作成します。 その結果、オリジナルのメッセージ28,818件を700件まで減らし、大規模な非組織的メッセージと冗長なメッセージから代表的クレームを編成し、選択することで事実確認プロセスを高速化する可能性を示した。

Researchers have been investigating automated solutions for fact-checking in a variety of fronts. However, current approaches often overlook the fact that the amount of information released every day is escalating, and a large amount of them overlap. Intending to accelerate fact-checking, we bridge this gap by grouping similar messages and summarizing them into aggregated claims. Specifically, we first clean a set of social media posts (e.g., tweets) and build a graph of all posts based on their semantics; Then, we perform two clustering methods to group the messages for further claim summarization. We evaluate the summaries both quantitatively with ROUGE scores and qualitatively with human evaluation. We also generate a graph of summaries to verify that there is no significant overlap among them. The results reduced 28,818 original messages to 700 summary claims, showing the potential to speed up the fact-checking process by organizing and selecting representative claims from massive disorganized and redundant messages.
翻訳日:2021-09-24 15:06:32 公開日:2021-09-22
# 中国語中国語モデルにおける文法知識の制御評価

Controlled Evaluation of Grammatical Knowledge in Mandarin Chinese Language Models ( http://arxiv.org/abs/2109.11058v1 )

ライセンス: Link先を確認
Yiwen Wang, Jennifer Hu, Roger Levy, Peng Qian(参考訳) 先行研究により、構造的監督は、英語モデルが主語と動詞の合意のような構文現象に関する一般化を学ぶのに役立つことが示されている。 しかし、そのような帰納バイアスが言語モデルにおける文法的依存の学習能力を向上させるかどうかは不明である。 本稿では,この疑問について,日本語の対数表記法,主に音節ベースの表記法,異なる語順,英語のスパルサー形態について検討する。 異なるサイズの2つの中国語データセット上でLSTM、リカレントニューラルネットワーク文法、トランスフォーマー言語モデル、トランスフォーマーパラメータ生成解析モデルをトレーニングする。 モデルがマンダリン文法の異なる側面を学習し,構文的・意味的関係を評価する能力を評価する。 構造的監督が間欠的コンテンツ間での統語的状態の表現に役立ち,低データ設定における性能の向上に寄与する可能性が示唆され,従属関係獲得における階層的帰納的バイアスの利点が英語を超えて広がる可能性が示唆された。

Prior work has shown that structural supervision helps English language models learn generalizations about syntactic phenomena such as subject-verb agreement. However, it remains unclear if such an inductive bias would also improve language models' ability to learn grammatical dependencies in typologically different languages. Here we investigate this question in Mandarin Chinese, which has a logographic, largely syllable-based writing system; different word order; and sparser morphology than English. We train LSTMs, Recurrent Neural Network Grammars, Transformer language models, and Transformer-paramete rized generative parsing models on two Mandarin Chinese datasets of different sizes. We evaluate the models' ability to learn different aspects of Mandarin grammar that assess syntactic and semantic relationships. We find suggestive evidence that structural supervision helps with representing syntactic state across intervening content and improves performance in low-data settings, suggesting that the benefits of hierarchical inductive biases in acquiring dependency relationships may extend beyond English.
翻訳日:2021-09-24 15:06:15 公開日:2021-09-22
# 意味対応のためのコントラスト表現の学習

Learning Contrastive Representation for Semantic Correspondence ( http://arxiv.org/abs/2109.10967v1 )

ライセンス: Link先を確認
Taihong Xiao, Sifei Liu, Shalini De Mello, Zhiding Yu, Jan Kautz, Ming-Hsuan Yang(参考訳) 意味的に関連した画像間の密接な対応は広く研究されてきたが、それでも2つの課題に直面している。 1)同じカテゴリーの物であっても、外観、規模、ポーズの大きなバリエーションが存在し、 2)ピクセルレベルの密接な対応のラベル付けは労力がかかり、スケールしにくい。 既存のアプローチのほとんどは、完全に教師されたImageNet事前訓練ネットワークで様々なマッチングアプローチを設計することに焦点を当てている。 一方、画像レベルの類似性を明示的に測定するための様々な自己教師型アプローチが提案されているが、画素レベルの対応性は未探索のままである。 本研究では,ImageNet事前学習モデルに依存しない,意味マッチングのためのマルチレベルコントラスト学習手法を提案する。 画像レベルのコントラスト学習は,畳み込み特徴の類似オブジェクト間の対応を促進させる上で重要な要素であると同時に,中間的特徴レベルでのクロスインスタンス・サイクル・コンシスタンスを正則化することにより,パフォーマンスをさらに向上できることを示す。 pf-pascal, pf-willow, spair-71kベンチマークデータセットにおける実験結果から, 本手法は最先端手法に対して良好な性能を示す。 ソースコードとトレーニングされたモデルが一般公開される予定だ。

Dense correspondence across semantically related images has been extensively studied, but still faces two challenges: 1) large variations in appearance, scale and pose exist even for objects from the same category, and 2) labeling pixel-level dense correspondences is labor intensive and infeasible to scale. Most existing approaches focus on designing various matching approaches with fully-supervised ImageNet pretrained networks. On the other hand, while a variety of self-supervised approaches are proposed to explicitly measure image-level similarities, correspondence matching the pixel level remains under-explored. In this work, we propose a multi-level contrastive learning approach for semantic matching, which does not rely on any ImageNet pretrained model. We show that image-level contrastive learning is a key component to encourage the convolutional features to find correspondence between similar objects, while the performance can be further enhanced by regularizing cross-instance cycle-consistency at intermediate feature levels. Experimental results on the PF-PASCAL, PF-WILLOW, and SPair-71k benchmark datasets demonstrate that our method performs favorably against the state-of-the-art approaches. The source code and trained models will be made available to the public.
翻訳日:2021-09-24 15:03:27 公開日:2021-09-22
# 変化する環境における視覚位置認識のためのfly-inspired voting unitの効率的かつスケーラブルな収集

An Efficient and Scalable Collection of Fly-inspired Voting Units for Visual Place Recognition in Changing Environments ( http://arxiv.org/abs/2109.10986v1 )

ライセンス: Link先を確認
Bruno Arcanjo, Bruno Ferrarini, Michael Milford, Klaus D. McDonald-Maier and Shoaib Ehsan(参考訳) 最先端の視覚的位置認識性能は、ディープラーニングに基づくアプローチを用いて現在達成されている。 最近の軽量畳み込みニューラルネットワークモデルの設計努力にもかかわらず、ほとんどのハードウェア制限されたロボットアプリケーションにとって、これらのモデルは高すぎる可能性がある。 低オーバヘッドのVPR技術は、ローエンドの安価なハードウェアを備えたプラットフォームを実現するだけでなく、より強力なシステムでの計算を減らし、これらのリソースを他のナビゲーションタスクに割り当てることを可能にした。 本研究の目的は,外観変化に対する最先端のロバスト性を実現するとともに,極端にコンパクトで効率の良いアルゴリズムを提供することである。 我々の最初の貢献は、ショウジョウバエの匂い処理能力にインスパイアされた、非常にコンパクトなモデルであるDrosoNetである。 2つ目の大きな貢献は、複数の小さな効率的な分類器を活用して、1つよりも堅牢で一貫性のあるvprを実現する、投票メカニズムです。 投票機構のベースライン分類器としてDrosoNetを使用し、5つのベンチマークデータセットでモデルを評価し、中程度から極端な外観変化と小規模から中程度の視点変化を評価した。 次に,提案手法と最先端手法を比較し,AUC結果の精度と計算効率を両立させる。

State-of-the-art visual place recognition performance is currently being achieved utilizing deep learning based approaches. Despite the recent efforts in designing lightweight convolutional neural network based models, these can still be too expensive for the most hardware restricted robot applications. Low-overhead VPR techniques would not only enable platforms equipped with low-end, cheap hardware but also reduce computation on more powerful systems, allowing these resources to be allocated for other navigation tasks. In this work, our goal is to provide an algorithm of extreme compactness and efficiency while achieving state-of-the-art robustness to appearance changes and small point-of-view variations. Our first contribution is DrosoNet, an exceptionally compact model inspired by the odor processing abilities of the fruit fly, Drosophyla melanogaster. Our second and main contribution is a voting mechanism that leverages multiple small and efficient classifiers to achieve more robust and consistent VPR compared to a single one. We use DrosoNet as the baseline classifier for the voting mechanism and evaluate our models on five benchmark datasets, assessing moderate to extreme appearance changes and small to moderate viewpoint variations. We then compare the proposed algorithms to state-of-the-art methods, both in terms of precision-recall AUC results and computational efficiency.
翻訳日:2021-09-24 15:03:08 公開日:2021-09-22
# リソース制約付き組込みプラットフォームにおける視覚位置認識手法のベンチマーク比較

A Benchmark Comparison of Visual Place Recognition Techniques for Resource-Constrained Embedded Platforms ( http://arxiv.org/abs/2109.11002v1 )

ライセンス: Link先を確認
Rose Power, Mubariz Zaffar, Bruno Ferrarini, Michael Milford, Klaus McDonald-Maier and Shoaib Ehsan(参考訳) 視覚的位置認識(VPR)は、過去15年から20年の間に重要な研究の対象となった。 VPRは、環境内での自己ローカライズを可能にするため、自律ナビゲーションの基本的なタスクである。 ロボットは資源に制約のあるハードウェアを備えていることが多いが、VPR技術に対する計算要求と効果はほとんど注目されていない。 本研究では,パブリックデータセット上での多数の最先端VPR技術について,ハードウェア中心のベンチマーク評価を行う。 我々は、ODroid、UP、Raspberry Pi 3などの一般的なシングルボードコンピュータに加えて、参照用のコモディティデスクトップとラップトップも検討している。 本稿では,位置マッチング精度,画像エンコーディング時間,ディスクリプタマッチング時間,メモリニーズなど,いくつかの指標に基づく分析を行う。 1)プロセッサアーキテクチャによるVPR技術の性能精度はどのように変化しますか? 2) 異なるVPR技術と組込みプラットフォームで電力消費はどのように変化するか? (3) 現在の組み込みプラットフォームのストレージと比較して,ディスクリプタのサイズはどの程度重要か? (4) ハイエンドプラットフォームのパフォーマンスは、vpr用のオンボードローエンド組み込みプラットフォームとどのように関係しますか? この研究の広範な分析と成果は、VPRコミュニティのベンチマークとしてだけでなく、VPRアプリケーションの現実的な採用に有用な洞察を提供する。

Visual Place Recognition (VPR) has been a subject of significant research over the last 15 to 20 years. VPR is a fundamental task for autonomous navigation as it enables self-localization within an environment. Although robots are often equipped with resource-constrained hardware, the computational requirements of and effects on VPR techniques have received little attention. In this work, we present a hardware-focused benchmark evaluation of a number of state-of-the-art VPR techniques on public datasets. We consider popular single board computers, including ODroid, UP and Raspberry Pi 3, in addition to a commodity desktop and laptop for reference. We present our analysis based on several key metrics, including place-matching accuracy, image encoding time, descriptor matching time and memory needs. Key questions addressed include: (1) How does the performance accuracy of a VPR technique change with processor architecture? (2) How does power consumption vary for different VPR techniques and embedded platforms? (3) How much does descriptor size matter in comparison to today's embedded platforms' storage? (4) How does the performance of a high-end platform relate to an on-board low-end embedded platform for VPR? The extensive analysis and results in this work serve not only as a benchmark for the VPR community, but also provide useful insights for real-world adoption of VPR applications.
翻訳日:2021-09-24 15:02:44 公開日:2021-09-22
# 社会言語学的変数を用いた性差と性差に対する態度の変化

Using Sociolinguistic Variables to Reveal Changing Attitudes Towards Sexuality and Gender ( http://arxiv.org/abs/2109.11061v1 )

ライセンス: Link先を確認
Sky CH-Wang, David Jurgens(参考訳) 個人は言語的選択を通じてアイデンティティと信念の側面を示す。 これらの選択を総合的に研究することで、集団内の大規模な態度変化を調べることができる。 本稿では,米国におけるセクシュアリティやジェンダーへの変化を検証すべく,社会言語学的語彙変数(同じ概念を表現するために使われる代替語)内で単語選択を研究する計算手法を開発した。 2つの変数を調べます i)「パートナー」や「パートナー」などの重要な他者への紹介 二 不定の者を指すものであって、両方に任意に性別を記入することができるもの 各変数における言語的選択は、それぞれゲイ結婚の受諾率と男女平等の増大率を研究することができる。 TwitterとRedditの8700万以上のメッセージの縦断的な分析では、態度は変化しているが、これらの変化は米国内の特定の人口層によって引き起こされている。 さらに、準因果解析において、異なる州における婚姻平等法の成立が言語変化の要因であることを示す。

Individuals signal aspects of their identity and beliefs through linguistic choices. Studying these choices in aggregate allows us to examine large-scale attitude shifts within a population. Here, we develop computational methods to study word choice within a sociolinguistic lexical variable -- alternate words used to express the same concept -- in order to test for change in the United States towards sexuality and gender. We examine two variables: i) referents to significant others, such as the word "partner" and ii) referents to an indefinite person, both of which could optionally be marked with gender. The linguistic choices in each variable allow us to study increased rates of acceptances of gay marriage and gender equality, respectively. In longitudinal analyses across Twitter and Reddit over 87M messages, we demonstrate that attitudes are changing but that these changes are driven by specific demographics within the United States. Further, in a quasi-causal analysis, we show that passages of Marriage Equality Acts in different states are drivers of linguistic change.
翻訳日:2021-09-24 14:57:49 公開日:2021-09-22
# 第2回パンデミック? カタールにおけるcovid-19ワクチンに関する偽ニュースの分析

A Second Pandemic? Analysis of Fake News About COVID-19 Vaccines in Qatar ( http://arxiv.org/abs/2109.11372v1 )

ライセンス: Link先を確認
Preslav Nakov, Firoj Alam, Shaden Shaar, Giovanni Da San Martino and Yifan Zhang(参考訳) 新型コロナウイルス(COVID-19)ワクチンがついに普及する一方、反バクスターの偽ニュースの拡散に伴う第2のパンデミックは、最初のウイルスから回復する努力を妨げる可能性がある。 このことを念頭において、私たちはカタール起源のメッセージに焦点を当てた、covid-19ワクチンに関するアラビア語と英語のツイートを広範囲に分析した。 アラビア語のツイートには多くの誤った情報や噂が含まれているが、英語のつぶやきのほとんどは事実である。 しかし、英語のツイートはアラビア語よりはるかに広範である。 プロパガンダの技法では、アラビア語のツイートの約半数は疑念を表し、1/5は装填された言語を使い、一方、英語のツイートは装填された言語、誇張、恐怖、名声、疑わしい、旗を掲げる。 最後に、フレーミングの観点では、アラビア語のつぶやきは健康と安全の観点から、一方でイングランドの経済的な懸念が支配的である。

While COVID-19 vaccines are finally becoming widely available, a second pandemic that revolves around the circulation of anti-vaxxer fake news may hinder efforts to recover from the first one. With this in mind, we performed an extensive analysis of Arabic and English tweets about COVID-19 vaccines, with focus on messages originating from Qatar. We found that Arabic tweets contain a lot of false information and rumors, while English tweets are mostly factual. However, English tweets are much more propagandistic than Arabic ones. In terms of propaganda techniques, about half of the Arabic tweets express doubt, and 1/5 use loaded language, while English tweets are abundant in loaded language, exaggeration, fear, name-calling, doubt, and flag-waving. Finally, in terms of framing, Arabic tweets adopt a health and safety perspective, while in English economic concerns dominate.
翻訳日:2021-09-24 14:57:32 公開日:2021-09-22
# 冠状動脈疾患診断改善のための頻繁な項目セットを用いたプロファイルベースバイナリ特徴抽出法

A Profile-Based Binary Feature Extraction Method Using Frequent Itemsets for Improving Coronary Artery Disease Diagnosis ( http://arxiv.org/abs/2109.10966v1 )

ライセンス: Link先を確認
Ali Yavari, Amir Rajabzadeh, Fardin Abdali-Mohammadi(参考訳) 近年、冠動脈疾患(cad)の診断において、従来の診断のコストと健康的影響を低減できる機械学習法が注目されている。 本稿では,プロファイルベースバイナリ特徴抽出(PBBFE)と呼ばれる新しい特徴抽出手法を用いたCAD診断手法を提案する。 本手法では,数値特徴を分割した後,aprioriアルゴリズムにより頻繁な項目集合を抽出し,cad診断精度を向上させる特徴として用いる。 提案手法は2つの主相からなる。 第1フェーズでは、各患者は年齢、性別、医療状況に基づいてプロファイルを割り当て、その後、割り当てられたプロファイルに基づいてすべての数値特徴を識別する。 すべての機能はバイナリ化プロセスを経て、aprioriによる機能抽出の準備が整った。 このフェーズの最後のステップでは、頻繁なアイテムセットがAprioriによってデータセットから抽出され、新しいデータセットの構築に使用される。 第2フェーズでは、遺伝的アルゴリズムとサポートベクトルマシンを使用して、抽出された特徴の最良のサブセットを分類する。 提案手法はCAD分野において最もリッチなデータベースであるZ-Alizadeh Saniデータセット上で検証された。 このデータセットで行った性能比較の結果、提案手法は98.35%の精度、100%の感度、94.25%の特異性で全ての主要な代替手法より優れていた。 提案手法は,他のいくつかのデータセットの精度も高い。

Recent years have seen growing interest in the diagnosis of Coronary Artery Disease (CAD) with machine learning methods to reduce the cost and health implications of conventional diagnosis. This paper introduces a CAD diagnosis method with a novel feature extraction technique called the Profile-Based Binary Feature Extraction (PBBFE). In this method, after partitioning numerical features, frequent itemsets are extracted by the Apriori algorithm and then used as features to increase the CAD diagnosis accuracy. The proposed method consists of two main phases. In the first phase, each patient is assigned a profile based on age, gender, and medical condition, and then all numerical features are discretized based on assigned profiles. All features then undergo a binarization process to become ready for feature extraction by Apriori. In the last step of this phase, frequent itemsets are extracted from the dataset by Apriori and used to build a new dataset. In the second phase, the Genetic Algorithm and the Support Vector Machine are used to identify the best subset of extracted features for classification. The proposed method was tested on the Z-Alizadeh Sani dataset, which is one the richest databases in the field of CAD. Performance comparisons conducted on this dataset showed that the proposed method outperforms all major alternative methods with 98.35% accuracy, 100% sensitivity, and 94.25% specificity. The proposed method also achieved the highest accuracy on several other datasets.
翻訳日:2021-09-24 14:57:13 公開日:2021-09-22
# アーケード学習環境におけるボーナスに基づく探索手法について

On Bonus-Based Exploration Methods in the Arcade Learning Environment ( http://arxiv.org/abs/2109.11052v1 )

ライセンス: Link先を確認
Adrien Ali Ta\"iga, William Fedus, Marlos C. Machado, Aaron Courville and Marc G. Bellemare(参考訳) atari 2600ゲームプレイに適用される強化学習の探索研究は、モンテズマの復讐(bellemare et al., 2016)のような難しい探索問題に取り組むことを強調している。 近年,環境報酬を増進して探索するボーナスベースの探索手法が,その領域における人間平均性能に到達している。 本稿では,一般的なボーナスに基づく探索手法を再評価する。 我々はRainbow(Hessel et al., 2018)をさまざまな探索ボーナスと組み合わせて、モンテズマのRevenge、Belemare et al.の探検難度の高いゲームセット、そしてAtari 2600スイート全体のパフォーマンスを評価します。 探索ボーナスはモンテズマの復讐に高いスコアをもたらすが、より単純な$\epsilon$-greedyスキームよりも有意義な利益をもたらすことはない。 実際、Atari 2600ゲームを簡単に探索する上で、そのゲームで最高のパフォーマンスを発揮する手法は、しばしば$\epsilon$-greedyを過小評価する。 これらの簡単な探索ゲームに対してハイパーパラメータをチューニングしても、我々の結論は有効である。 最後に、調査された方法のいずれも、bellemareらによるハードエクスプロレーションゲームで追加のトレーニングサンプル(10億フレーム、レインボーの2億フレーム)の恩恵を受けていないことが分かりました。 その結果,近年のモンテズマの復讐の成果は,より優れた探索計画ではなく,アーキテクチャの変化に起因している可能性が示唆された。

Research on exploration in reinforcement learning, as applied to Atari 2600 game-playing, has emphasized tackling difficult exploration problems such as Montezuma's Revenge (Bellemare et al., 2016). Recently, bonus-based exploration methods, which explore by augmenting the environment reward, have reached above-human average performance on such domains. In this paper we reassess popular bonus-based exploration methods within a common evaluation framework. We combine Rainbow (Hessel et al., 2018) with different exploration bonuses and evaluate its performance on Montezuma's Revenge, Bellemare et al.'s set of hard of exploration games with sparse rewards, and the whole Atari 2600 suite. We find that while exploration bonuses lead to higher score on Montezuma's Revenge they do not provide meaningful gains over the simpler $\epsilon$-greedy scheme. In fact, we find that methods that perform best on that game often underperform $\epsilon$-greedy on easy exploration Atari 2600 games. We find that our conclusions remain valid even when hyperparameters are tuned for these easy-exploration games. Finally, we find that none of the methods surveyed benefit from additional training samples (1 billion frames, versus Rainbow's 200 million) on Bellemare et al.'s hard exploration games. Our results suggest that recent gains in Montezuma's Revenge may be better attributed to architecture change, rather than better exploration schemes; and that the real pace of progress in exploration research for Atari 2600 games may have been obfuscated by good results on a single domain.
翻訳日:2021-09-24 14:56:47 公開日:2021-09-22
# 自動特徴ペアリング:空間表現学習における意味と埋め込み空間の調整

Automated Feature-Topic Pairing: Aligning Semantic and Embedding Spaces in Spatial Representation Learning ( http://arxiv.org/abs/2109.11053v1 )

ライセンス: Link先を確認
Dongjie Wang, Kunpeng Liu, David Mohaisen, Pengyang Wang, Chang-Tien Lu, Yanjie Fu(参考訳) 空間データの自動解析は、重要な地理情報の一種である。 特徴付けのための新しい技術として、空間表現学習(SRL)は深層ニューラルネットワーク(DNN)を使用して特徴付けのための空間データの非線形埋め込み特徴を学習する。 しかし、SRLはDNNの内部層によって特徴を抽出し、意味ラベルの欠如に悩まされる。 一方、空間的実体のテキストは潜在特徴ラベルの意味的理解を提供するが、深層srlモデルには無意味である。 SRLモデルを使ってテキスト中の適切なトピックラベルを発見し、学習した特徴をラベルとペアリングする方法。 本稿では,新しい問題である特徴話題のペアリングを定式化し,新しい粒子群最適化(pso)ベースのディープラーニングフレームワークを提案する。 具体的には、特徴トピックペアリング問題を自動アライメントタスクに定式化する。 1)潜在埋め込み特徴空間、及び 2) テキスト意味的話題空間。 2つの空間のアライメントを次のように分解する。 1) 話題分布と埋め込みベクトルとの相関を示す,ポイントアライメント 2) 特徴的類似度行列と話題的類似度行列との一貫性を示す対方向のアライメント。 PSOに基づく解法を設計し、最適なトピックセットを同時に選択し、選択したトピックに基づいて対応する特徴を学習する。 我々は、反復する閉ループアルゴリズムを開発する。 1)表現再構成と特徴的アライメントの損失の最小化 2) ベストトピックを検索する。 最後に,提案手法の性能向上を実証するための実験を行った。

Automated characterization of spatial data is a kind of critical geographical intelligence. As an emerging technique for characterization, Spatial Representation Learning (SRL) uses deep neural networks (DNNs) to learn non-linear embedded features of spatial data for characterization. However, SRL extracts features by internal layers of DNNs, and thus suffers from lacking semantic labels. Texts of spatial entities, on the other hand, provide semantic understanding of latent feature labels, but is insensible to deep SRL models. How can we teach a SRL model to discover appropriate topic labels in texts and pair learned features with the labels? This paper formulates a new problem: feature-topic pairing, and proposes a novel Particle Swarm Optimization (PSO) based deep learning framework. Specifically, we formulate the feature-topic pairing problem into an automated alignment task between 1) a latent embedding feature space and 2) a textual semantic topic space. We decompose the alignment of the two spaces into: 1) point-wise alignment, denoting the correlation between a topic distribution and an embedding vector; 2) pair-wise alignment, denoting the consistency between a feature-feature similarity matrix and a topic-topic similarity matrix. We design a PSO based solver to simultaneously select an optimal set of topics and learn corresponding features based on the selected topics. We develop a closed loop algorithm to iterate between 1) minimizing losses of representation reconstruction and feature-topic alignment and 2) searching the best topics. Finally, we present extensive experiments to demonstrate the enhanced performance of our method.
翻訳日:2021-09-24 14:56:16 公開日:2021-09-22
# 精密農業における雑草散布の実用的物体検出に向けて

Towards practical object detection for weed spraying in precision agriculture ( http://arxiv.org/abs/2109.11048v1 )

ライセンス: Link先を確認
Adrian Salazar-Gomez, Madeleine Darbyshire, Junfeng Gao, Elizabeth I Sklar, Simon Parsons(参考訳) 過去4~5年間で、より小型で高速なプロセッサと安価なデジタルストレージ機構の進化は、幅広いタスクに対応するために、幅広い実用的な環境にインテリジェントなテクノロジーを統合する機会を大きく増やした。 このような技術に対するエキサイティングなアプリケーションドメインの一つが精密農業であり、オンボードマシンビジョンとデータ駆動型アクティベーションを統合する能力は、農家が畑全体ではなく、個々の植物レベルで作物の世話と収穫について決定できることを意味する。 これは経済的にも環境的にも意味がある。 一般的に機械学習(ML)ソリューションによって駆動され、正確なモデリングに依存します。 重要な課題の1つは、MLベースの視覚研究の大部分が、オブジェクト検出の精度を評価し、実用的な要因を評価しない指標のみを考慮していることである。 本稿では,実世界の精密除草における異なる側面に着目した3つの指標を紹介し,実験による有用性を示す。

The evolution of smaller, faster processors and cheaper digital storage mechanisms across the last 4-5 decades has vastly increased the opportunity to integrate intelligent technologies in a wide range of practical environments to address a broad spectrum of tasks. One exciting application domain for such technologies is precision agriculture, where the ability to integrate on-board machine vision with data-driven actuation means that farmers can make decisions about crop care and harvesting at the level of the individual plant rather than the whole field. This makes sense both economically and environmentally. However, the key driver for this capability is fast and robust machine vision -- typically driven by machine learning (ML) solutions and dependent on accurate modelling. One critical challenge is that the bulk of ML-based vision research considers only metrics that evaluate the accuracy of object detection and do not assess practical factors. This paper introduces three metrics that highlight different aspects relevant for real-world deployment of precision weeding and demonstrates their utility through experimental results.
翻訳日:2021-09-24 14:53:58 公開日:2021-09-22
# オーバーサンプリングされたネットワークカスケードの時間スケール推定:理論、アルゴリズム、および実験

Temporal Scale Estimation for Oversampled Network Cascades: Theory, Algorithms, and Experiment ( http://arxiv.org/abs/2109.10937v1 )

ライセンス: Link先を確認
Abram Magner and Carolyn Kaminski and Petko Bogdanov(参考訳) グラフ上での拡散プロセスは、オンラインソーシャルネットワークの研究からバイラルマーケティング、疫学まで、さまざまなアプリケーションドメインで発生します。 分散過程に対する離散時間確率モデルが提案されている。 これらは下流の統計的推定や予測問題に使われ、しばしばプロセスによって引き起こされる感染と共に送信されるメッセージやその他の情報を含む。 したがって、いつでもプロセス状態の不確実性につながる現象を考慮に入れたカスケード観測のモデルを設計することが重要である。 我々は,カスケード過程の観測率とプロセス自体の動作率の誤一致に起因する時間的歪みを浮き彫りにし,それに対する補正の失敗は下流の統計的タスクにおける性能の低下をもたらすと論じる。 これらの問題に対処するため、自然歪み測定の観点からクロック推定問題を定式化する。 我々は、FastClockと呼ばれるクロック推定アルゴリズムを、入力のサイズで線形時間で実行し、カスケードが既知のパラメータを持つ独立カスケードプロセスから生成され、基礎となるグラフが Erd\H{o}s-R\enyi であるときに、広範囲のモデルパラメータに対して統計的に正確であることを示す。 さらに、動的プログラミングにより実装されたプロキシ最大化に基づく推定器であるArt estimatorの状態と比較して、アルゴリズムの性能に関する実証的な結果を与える。 広いパラメータ構造において,本アルゴリズムは実行時間と精度の両面で,動的プログラミングアルゴリズムを大幅に上回っていることがわかった。

Spreading processes on graphs arise in a host of application domains, from the study of online social networks to viral marketing to epidemiology. Various discrete-time probabilistic models for spreading processes have been proposed. These are used for downstream statistical estimation and prediction problems, often involving messages or other information that is transmitted along with infections caused by the process. It is thus important to design models of cascade observation that take into account phenomena that lead to uncertainty about the process state at any given time. We highlight one such phenomenon -- temporal distortion -- caused by a misalignment between the rate at which observations of a cascade process are made and the rate at which the process itself operates, and argue that failure to correct for it results in degradation of performance on downstream statistical tasks. To address these issues, we formulate the clock estimation problem in terms of a natural distortion measure. We give a clock estimation algorithm, which we call FastClock, that runs in linear time in the size of its input and is provably statistically accurate for a broad range of model parameters when cascades are generated from the independent cascade process with known parameters and when the underlying graph is Erd\H{o}s-R\'enyi. We further give empirical results on the performance of our algorithm in comparison to the state of the art estimator, a likelihood proxy maximization-based estimator implemented via dynamic programming. We find that, in a broad parameter regime, our algorithm substantially outperforms the dynamic programming algorithm in terms of both running time and accuracy.
翻訳日:2021-09-24 14:52:06 公開日:2021-09-22
# 水平協調によるカプセルネットワーク推論のセキュリティ解析

Security Analysis of Capsule Network Inference using Horizontal Collaboration ( http://arxiv.org/abs/2109.11041v1 )

ライセンス: Link先を確認
Adewale Adeyemo, Faiq Khalid, Tolulope A. Odetola, and Syed Rafay Hasan(参考訳) 従来の畳み込みニューラルネットワーク(cnn)には、ピカソ効果やプール層による情報損失など、いくつかの欠点がある。 Capsule Network(CapsNet)は、入力画像の空間的向きをエンコードし保存できるアーキテクチャであるため、これらの課題に対処するために提案されている。 従来のCNNと同様に、CapsNetはいくつかの悪意のある攻撃にも脆弱である。 しかしながら、これらの研究のほとんどは単デバイスベースの推論に焦点を当てているが、自動運転車のインテリジェントエッジサービス、音声制御システム、ドローンなど、最先端システムの水平協調推論は、これらの分析の大部分を無効化している。 水平コラボレーションは、トレーニング済みのCNNモデルやCNNタスクを複数のエンドデバイスやエッジノードに分割することを意味する。 したがって、水平協調環境に配置した場合、悪意のある攻撃に対してCapsNetの堅牢性を調べることが不可欠である。 そこで我々は,水平協調環境におけるノイズベース推論攻撃によるCapsNetのロバスト性を検討する。 本稿では,4種類のDNNモデル,すなわちCapsNet,Mini-VGG,LeN et,およびCapsNetと同じ数のパラメータを持つ社内設計のCNN(ConvNet)の特徴マップを,ガウス雑音攻撃とFGSM雑音攻撃という2種類のノイズベース攻撃を用いて解析した。 実験の結果,従来のcnnと同様,dnn層への攻撃者のアクセスによって,capsnetの分類精度は著しく低下することがわかった。 例えば、CapsNetのDigitCap層でガウス雑音攻撃分類を行う場合、最大分類精度は97%である。

The traditional convolution neural networks (CNN) have several drawbacks like the Picasso effect and the loss of information by the pooling layer. The Capsule network (CapsNet) was proposed to address these challenges because its architecture can encode and preserve the spatial orientation of input images. Similar to traditional CNNs, CapsNet is also vulnerable to several malicious attacks, as studied by several researchers in the literature. However, most of these studies focus on single-device-based inference, but horizontally collaborative inference in state-of-the-art systems, like intelligent edge services in self-driving cars, voice controllable systems, and drones, nullify most of these analyses. Horizontal collaboration implies partitioning the trained CNN models or CNN tasks to multiple end devices or edge nodes. Therefore, it is imperative to examine the robustness of the CapsNet against malicious attacks when deployed in horizontally collaborative environments. Towards this, we examine the robustness of the CapsNet when subjected to noise-based inference attacks in a horizontal collaborative environment. In this analysis, we perturbed the feature maps of the different layers of four DNN models, i.e., CapsNet, Mini-VGG, LeNet, and an in-house designed CNN (ConvNet) with the same number of parameters as CapsNet, using two types of noised-based attacks, i.e., Gaussian Noise Attack and FGSM noise attack. The experimental results show that similar to the traditional CNNs, depending upon the access of the attacker to the DNN layer, the classification accuracy of the CapsNet drops significantly. For example, when Gaussian Noise Attack classification is performed at the DigitCap layer of the CapsNet, the maximum classification accuracy drop is approximately 97%.
翻訳日:2021-09-24 14:51:14 公開日:2021-09-22
# 正規化による神経細胞の破裂や死滅を伴わないディープスパイキングオートエンコーダの訓練

Training Deep Spiking Auto-encoders without Bursting or Dying Neurons through Regularization ( http://arxiv.org/abs/2109.11045v1 )

ライセンス: Link先を確認
Justus F. H\"ubotter, Pablo Lanillos, Jakub M. Tomczak(参考訳) スパイクニューラルネットワークは、計算神経科学における次世代の脳モデルに対する有望なアプローチである。 さらに、従来の人工ニューラルネットワークと比較して、特殊なニューロモルフィックハードウェアでの高速計算を可能にすることで、aiのエネルギー効率の高い展開として機能する。 しかし、特に教師なしの方法でディープスパイクニューラルネットワークのトレーニングは困難であり、スパイクモデルのパフォーマンスは死んだニューロンや破裂ニューロンによって著しく阻害される。 本稿では,複数の入力層を有するスパイキング畳み込み型オートエンコーダに対して,膜電位に基づくバックプロパゲーションを用いたエンド・ツー・エンド学習を適用する。 本稿では,潜在表現のスパイク密度を制御するためのバイオインスパイア正規化手法を提案する。 実験では, 膜電位とスパイキング出力に正規化を適用することで, 致死性ニューロンと破裂性ニューロンの両方を回避でき, スパイキングオートエンコーダの再構成誤差を著しく低減できることを示した。 mnistデータセット上の正規化ネットワークのトレーニングは、非スピーキングベースラインモデル(決定論的および変分オートエンコーダ)に匹敵する画像再構成品質を与え、以前のアプローチでの改善を示す。 重要なことは、変分オートエンコーダとは異なり、スパイキングラテント表現は画像クラスに関連する構造を示すことである。

Spiking neural networks are a promising approach towards next-generation models of the brain in computational neuroscience. Moreover, compared to classic artificial neural networks, they could serve as an energy-efficient deployment of AI by enabling fast computation in specialized neuromorphic hardware. However, training deep spiking neural networks, especially in an unsupervised manner, is challenging and the performance of a spiking model is significantly hindered by dead or bursting neurons. Here, we apply end-to-end learning with membrane potential-based backpropagation to a spiking convolutional auto-encoder with multiple trainable layers of leaky integrate-and-fire neurons. We propose bio-inspired regularization methods to control the spike density in latent representations. In the experiments, we show that applying regularization on membrane potential and spiking output successfully avoids both dead and bursting neurons and significantly decreases the reconstruction error of the spiking auto-encoder. Training regularized networks on the MNIST dataset yields image reconstruction quality comparable to non-spiking baseline models (deterministic and variational auto-encoder) and indicates improvement upon earlier approaches. Importantly, we show that, unlike the variational auto-encoder, the spiking latent representations display structure associated with the image class.
翻訳日:2021-09-24 14:50:42 公開日:2021-09-22
# (参考訳) 動的ジェスチャー認識 [全文訳有]

Dynamic Gesture Recognition ( http://arxiv.org/abs/2109.09396v2 )

ライセンス: CC BY 4.0
Jonas Bokstaller and Costanza Maria Improta(参考訳) HMI(Human-Machine Interaction)研究分野は、機械学習において重要なトピックであり、ここ数年コンピューティングパワーの台頭によって深く研究されてきた。 初めて、機械学習を使用して、従来のコンピュータビジョンアルゴリズムではなく、画像やビデオの分類を行うことができる。 このプロジェクトの目的は、畳み込みニューラルネットワーク(cnn)[1]とリカレントニューラルネットワーク(rnn)[2]との共生を構築し、ビデオから文化的/解剖学的イタリア手話ジェスチャーを認識することである。 CNNは後にRNNによって使用される重要な特徴を抽出する。 RNNでは、時間情報をモデル内に格納して、以前のフレームからコンテキスト情報を提供し、予測精度を高めることができます。 提案手法では,RGBフレームのみから異なるデータ拡張手法と正規化手法を用いてオーバーフィットを回避し,小さな一般化誤差を提供する。

The Human-Machine Interaction (HMI) research field is an important topic in machine learning that has been deeply investigated thanks to the rise of computing power in the last years. The first time, it is possible to use machine learning to classify images and/or videos instead of the traditional computer vision algorithms. The aim of this project is to builda symbiosis between a convolutional neural network (CNN)[1] and a recurrent neural network (RNN) [2] to recognize cultural/anthropolog ical Italian sign language gestures from videos. The CNN extracts important features that later areused by the RNN. With RNNs we are able to store temporal information inside the model to provide contextual information from previous frames to enhance the prediction accuracy. Our novel approach uses different data augmentation techniquesand regularization methods from only RGB frames to avoid overfitting and provide a small generalization error.
翻訳日:2021-09-24 12:57:24 公開日:2021-09-22
# (参考訳) NLPにおけるモデルバイアス-ヘイト音声分類への応用 [全文訳有]

Model Bias in NLP -- Application to Hate Speech Classification ( http://arxiv.org/abs/2109.09725v2 )

ライセンス: CC BY 4.0
Jonas Bokstaller, Georgios Patoulidis and Aygul Zagidullina(参考訳) 本論文は2021年春季のETHにおけるNLP講義の結果をまとめたものである。 本研究では、JIGSAWデータセット(Jigsaw/Conversation AI, 2019)にBERTベースのニューラルネットワークモデル(Devlin et al.,2018)を適用し、オンラインソーシャルプラットフォーム(英語)における憎悪と有害なコメント(厳密には攻撃的な言語から分離)を特定するモデルを作成する。 他の3つのニューラルネットワークアーキテクチャとGPT-2(Radfordet al., 2019)モデルも、これらの異なるモデルを比較するために提供されるデータセットに適用される。 トレーニングされたBERTモデルは、その一般化能力を評価するために、2つの異なるデータセット、すなわち別のTwitterデータセット(Tom Davidson, 2017)(Davidsonet al., 2017)と、TwitterとFacebookコメントを含むHASOC 2019(Thomas Mandl, 2019)データセット(Mandl et al., 2019)に適用される。 さらに、これらの2つのデータセット上で、トレーニングされたBERTモデルを微調整することで、JIGSAWデータセットに事前トレーニングされたモデルを適用するよりも、部分的または全層をトレーニングすることで、予測スコアを改善することができる。 その結果,64%から90%程度まで精度が向上し,少なくとも60%未満のリコール値が得られ,BERTがソーシャルプラットフォームにおける実際のユースケースに適していることが証明された。

This document sums up our results forthe NLP lecture at ETH in the spring semester 2021. In this work, a BERT based neural network model (Devlin et al.,2018) is applied to the JIGSAW dataset (Jigsaw/Conversation AI, 2019) in order to create a model identifying hateful and toxic comments (strictly seperated from offensive language) in online social platforms (English language), inthis case Twitter. Three other neural network architectures and a GPT-2 (Radfordet al., 2019) model are also applied on the provided data set in order to compare these different models. The trained BERT model is then applied on two different data sets to evaluate its generalisation power, namely on another Twitter data set (Tom Davidson, 2017) (Davidsonet al., 2017) and the data set HASOC 2019 (Thomas Mandl, 2019) (Mandl et al.,2019) which includes Twitter and also Facebook comments; we focus on the English HASOC 2019 data. In addition, it can be shown that by fine-tuning the trained BERT model on these two datasets by applying different transfer learning scenarios via retraining partial or all layers the predictive scores improve compared to simply applying the model pre-trained on the JIGSAW data set. Withour results, we get precisions from 64% to around 90% while still achieving acceptable recall values of at least lower 60s%, proving that BERT is suitable for real usecases in social platforms.
翻訳日:2021-09-24 12:52:43 公開日:2021-09-22
# エージェント・フューチャーの学習条件確率モデルを用いた自動運転車の高速非線形リスク評価

Fast nonlinear risk assessment for autonomous vehicles using learned conditional probabilistic models of agent futures ( http://arxiv.org/abs/2109.09975v2 )

ライセンス: Link先を確認
Ashkan Jasour, Xin Huang, Allen Wang, Brian C. Williams(参考訳) 本稿では,ディープニューラルネットワーク(dnn)により,他のエージェントの将来を予測する確率的予測が生成される場合に,自律走行車の軌道のリスクを評価する高速非サンプリング手法を提案する。 提案手法はガウス混合モデルと非ガウス混合モデルの両方を含む不確実な予測のための幅広い表現に対処し,シーンコンテキストに条件付けられたエージェントの位置と制御入力の両方を予測する。 エージェント位置のガウス混合モデル(GMM)が学習された場合のリスク評価の問題は,既存の数値手法で任意の精度で迅速に解けることを示す。 エージェント位置の非ガウス混合モデルにおけるリスク評価の問題に対処するため、非線形チェビシェフの不等式と2乗和(SOS)プログラミングを用いてリスクの上限を求める。 これらの手法はリスクの上限を決定するためにエージェント位置の高次統計モーメントのみを必要とする。 エージェント制御入力に対するモデルが位置に対して学習された場合のリスク評価を行うため、非線形運動ダイナミクスを介して不確定な制御入力のモーメントを伝搬し、計画地平線上の不確定な位置の正確なモーメントを得る。 この目的のために,不確定な制御入力の存在下で不確定な位置のモーメントの正確な時間発展を制御する決定論的線形力学系を構築する。 提案手法は,Argoverse および CARLA データセット上で訓練された DNN の現実的予測に基づいて実証され,低確率事象の確率を迅速に評価する上で有効であることが示されている。

This paper presents fast non-sampling based methods to assess the risk for trajectories of autonomous vehicles when probabilistic predictions of other agents' futures are generated by deep neural networks (DNNs). The presented methods address a wide range of representations for uncertain predictions including both Gaussian and non-Gaussian mixture models to predict both agent positions and control inputs conditioned on the scene contexts. We show that the problem of risk assessment when Gaussian mixture models (GMMs) of agent positions are learned can be solved rapidly to arbitrary levels of accuracy with existing numerical methods. To address the problem of risk assessment for non-Gaussian mixture models of agent position, we propose finding upper bounds on risk using nonlinear Chebyshev's Inequality and sums-of-squares (SOS) programming; they are both of interest as the former is much faster while the latter can be arbitrarily tight. These approaches only require higher order statistical moments of agent positions to determine upper bounds on risk. To perform risk assessment when models are learned for agent control inputs as opposed to positions, we propagate the moments of uncertain control inputs through the nonlinear motion dynamics to obtain the exact moments of uncertain position over the planning horizon. To this end, we construct deterministic linear dynamical systems that govern the exact time evolution of the moments of uncertain position in the presence of uncertain control inputs. The presented methods are demonstrated on realistic predictions from DNNs trained on the Argoverse and CARLA datasets and are shown to be effective for rapidly assessing the probability of low probability events.
翻訳日:2021-09-24 11:45:30 公開日:2021-09-22
# (参考訳) WhatsApp上の誤情報拡散におけるユーザ参加の階層的ネットワーク指向分析

A Hierarchical Network-Oriented Analysis of User Participation in Misinformation Spread on WhatsApp ( http://arxiv.org/abs/2109.10462v1 )

ライセンス: CC BY 4.0
Gabriel Peres Nobre, Carlos H. G. Ferreira and Jussara M. Almeida(参考訳) WhatsAppは近年、多くの国で主要なコミュニケーションプラットフォームとして登場した。 whatsappは1対1の小さなグループ会話しか提供していないが、リッチな基盤ネットワークの形成を可能にし、既存のグループの境界を越えて、情報を広く広める構造的特性を持つことが示されている。 実際whatsappは、いくつかの国で重大な社会的、政治的、経済的影響を伴う誤情報キャンペーンのフォーラムとして使われている。 本稿では,whatsapp上で広まっている誤情報に関する最近の研究を補完する目的で,同じコンテンツを共有するユーザ同士をつなぐネットワークについて検討する。 具体的には、個人、WhatsAppグループ、ユーザコミュニティの3つの視点、すなわち、意図的かどうかに関わらず、同じコンテンツを頻繁に共有するユーザのグループに焦点をあてることで、誤情報を拡散するユーザの階層的なネットワーク指向の特徴を示す。 我々の研究は、共有とネットワークトポロジ特性を分析することによって、WhatsAppユーザーが異なるグループを繋ぐネットワークを活用して、プラットフォーム上での誤情報拡散に大きなリーチを得る方法について、貴重な洞察を提供する。

WhatsApp emerged as a major communication platform in many countries in the recent years. Despite offering only one-to-one and small group conversations, WhatsApp has been shown to enable the formation of a rich underlying network, crossing the boundaries of existing groups, and with structural properties that favor information dissemination at large. Indeed, WhatsApp has reportedly been used as a forum of misinformation campaigns with significant social, political and economic consequences in several countries. In this article, we aim at complementing recent studies on misinformation spread on WhatsApp, mostly focused on content properties and propagation dynamics, by looking into the network that connects users sharing the same piece of content. Specifically, we present a hierarchical network-oriented characterization of the users engaged in misinformation spread by focusing on three perspectives: individuals, WhatsApp groups and user communities, i.e., groupings of users who, intentionally or not, share the same content disproportionately often. By analyzing sharing and network topological properties, our study offers valuable insights into how WhatsApp users leverage the underlying network connecting different groups to gain large reach in the spread of misinformation on the platform.
翻訳日:2021-09-23 22:22:32 公開日:2021-09-22
# (参考訳) MVM3Det:マルチビューモノクロ3次元検出のための新しい方法 [全文訳有]

MVM3Det: A Novel Method for Multi-view Monocular 3D Detection ( http://arxiv.org/abs/2109.10473v1 )

ライセンス: CC BY 4.0
Li Haoran and Duan Zicheng and Ma Mingjun and Chen Yaran and Li Jiaqi and Zhao Dongbin(参考訳) 単眼の3Dオブジェクト検出は,交通監視や歩行者監視など,多くのアプリケーションシナリオにおいて排他的問題に遭遇し,重大な偽陰性を引き起こす。 マルチビューオブジェクト検出は、異なる視点のデータを組み合わせて、効果的にこの問題を解決します。 しかし,ラベルの混乱や特徴の混乱により,多視点3次元物体検出の方向推定は難解であり,対象追跡や意図予測に重要である。 本論文では,多視点単眼情報に基づいて物体の位置と向きを同時に推定するマルチビュー3次元物体検出法であるmvm3detを提案する。 方法は2つの部分からなる。 1)異なる視点から特徴を一貫したグローバルな特徴に統合し,その位置を推定するための特徴直交変換を行う位置提案ネットワーク。 2) 向き推定中に2つの混乱問題を克服するために特徴点プーリングを導入するマルチブランチ方向推定ネットワーク。 さらに,マルチビュー3dオブジェクト検出のための最初のデータセットであるmvm3dを提案する。 我々のデータセットと公開データセットWildTrackのState-Of-The-Art(SOT A)メソッドと比較して,本手法は非常に競争力のある結果が得られる。

Monocular 3D object detection encounters occlusion problems in many application scenarios, such as traffic monitoring, pedestrian monitoring, etc., which leads to serious false negative. Multi-view object detection effectively solves this problem by combining data from different perspectives. However, due to label confusion and feature confusion, the orientation estimation of multi-view 3D object detection is intractable, which is important for object tracking and intention prediction. In this paper, we propose a novel multi-view 3D object detection method named MVM3Det which simultaneously estimates the 3D position and orientation of the object according to the multi-view monocular information. The method consists of two parts: 1) Position proposal network, which integrates the features from different perspectives into consistent global features through feature orthogonal transformation to estimate the position. 2) Multi-branch orientation estimation network, which introduces feature perspective pooling to overcome the two confusion problems during the orientation estimation. In addition, we present a first dataset for multi-view 3D object detection named MVM3D. Comparing with State-Of-The-Art (SOTA) methods on our dataset and public dataset WildTrack, our method achieves very competitive results.
翻訳日:2021-09-23 22:21:30 公開日:2021-09-22
# (参考訳) 物語理解のためのSalience-Aware Event Chain Modeling [全文訳有]

Salience-Aware Event Chain Modeling for Narrative Understanding ( http://arxiv.org/abs/2109.10475v1 )

ライセンス: CC BY 4.0
Xiyang Zhang, Muhao Chen, Jonathan May(参考訳) ストーリーテリングは、ファブレット、ニュースレポート、ドキュメンタリー、あるいは回想録を通じても、一緒に取り組んだ興味深い、関連する出来事のコミュニケーションとして、具体的なプロセスを形成することができる。 このようなプロセスを表すイベントチェーンを抽出することが望ましい。 しかし、この抽出は依然として難しい問題である。 これは、連鎖が発見されたテキストの性質によるものであると仮定する。 自然言語のテクストは、背景情報、文脈化、意見、その他様々な必要な言論や実践的行為に重要な要素を持つ具体的な、健全な出来事の物語をインターリーブするが、伝達される出来事の主要な連鎖には含まれない。 そこで本研究では,自然言語テキストから主鎖を抽出する手法について紹介する。 本手法は,下流タスクに対する影響を比較することで,重要なイベントチェーンを分離する上での有効性を示す。 抽出したチェーン上で大規模言語モデルを事前学習することにより,イベントチェーンを明確に理解することで得られる2つのタスク – ナラティブ予測とイベントベースの時間的質問応答 – の改善が得られます。 その結果,提案手法が重要なイベント連鎖を分離することを確認した。

Storytelling, whether via fables, news reports, documentaries, or memoirs, can be thought of as the communication of interesting and related events that, taken together, form a concrete process. It is desirable to extract the event chains that represent such processes. However, this extraction remains a challenging problem. We posit that this is due to the nature of the texts from which chains are discovered. Natural language text interleaves a narrative of concrete, salient events with background information, contextualization, opinion, and other elements that are important for a variety of necessary discourse and pragmatics acts but are not part of the principal chain of events being communicated. We introduce methods for extracting this principal chain from natural language text, by filtering away non-salient events and supportive sentences. We demonstrate the effectiveness of our methods at isolating critical event chains by comparing their effect on downstream tasks. We show that by pre-training large language models on our extracted chains, we obtain improvements in two tasks that benefit from a clear understanding of event chains: narrative prediction and event-based temporal question answering. The demonstrated improvements and ablative studies confirm that our extraction method isolates critical event chains.
翻訳日:2021-09-23 22:07:47 公開日:2021-09-22
# (参考訳) 骨粗しょう症におけるAI [全文訳有]

AI in Osteoporosis ( http://arxiv.org/abs/2109.10478v1 )

ライセンス: CC BY 4.0
Sokratis Makrogiannis and Keni Zheng(参考訳) 本章では, スパース近似への関心が高まり, 気管骨評価法と骨粗しょう症診断法について検討した。 まず,テクスチャ表現と分類手法,キーポイントの袋などのパッチベース手法,さらに最近ではディープニューラルネットワークについて述べる。 次に,パターン認識のためのスパース表現の概念を紹介し,積分スパース解析法と分類子決定融合法について詳述する。 骨X線写真における骨粗しょう性データセットのクロスバリデーション結果を報告し, 異なるカテゴリーの方法による結果と比較した。 結論として,aiおよび機械学習分野の進歩により,臨床現場で診断ツールとして使用できる手法の開発が可能となった。

In this chapter we explore and evaluate methods for trabecular bone characterization and osteoporosis diagnosis with increased interest in sparse approximations. We first describe texture representation and classification techniques, patch-based methods such as Bag of Keypoints, and more recent deep neural networks. Then we introduce the concept of sparse representations for pattern recognition and we detail integrative sparse analysis methods and classifier decision fusion methods. We report cross-validation results on osteoporosis datasets of bone radiographs and compare the results produced by the different categories of methods. We conclude that advances in the AI and machine learning fields have enabled the development of methods that can be used as diagnostic tools in clinical settings.
翻訳日:2021-09-23 21:52:26 公開日:2021-09-22
# (参考訳) HyperExpan: 双曲表現学習による分類学の拡張 [全文訳有]

HyperExpan: Taxonomy Expansion with Hyperbolic Representation Learning ( http://arxiv.org/abs/2109.10500v1 )

ライセンス: CC BY 4.0
Mingyu Derek Ma, Muhao Chen, Te-Lin Wu and Nanyun Peng(参考訳) 分類法は、多くのアプリケーションにとって貴重な資源であるが、高価な手動のキュレーションプロセスによる範囲の制限は、それらの一般的な適用性を妨げる。 先行研究は、ユークリッド空間に埋め込まれた概念を学習することで、既存の分類学を自動で拡張し、その範囲を改善することを目的としている。 本稿では,より表現力の高い双曲的埋め込み空間における分類体系の構造を保存し,概念とその関係を双曲グラフニューラルネットワーク(hgnn)で表現することを目的とした分類展開アルゴリズムであるhyperexpanを提案する。 具体的には、hyperexpanは位置埋め込みを利用して既存の分類体系の構造を活用し、トレーニング中に見当たらない概念の推論をサポートするために概念プロファイル情報を特徴付ける。 実験の結果,提案したHyperExpanはユークリッド特徴空間における表現学習のベースラインモデルよりも優れており,分類学拡張ベンチマークの最先端性能を実現していることがわかった。

Taxonomies are valuable resources for many applications, but the limited coverage due to the expensive manual curation process hinders their general applicability. Prior works attempt to automatically expand existing taxonomies to improve their coverage by learning concept embeddings in Euclidean space, while taxonomies, inherently hierarchical, more naturally align with the geometric properties of a hyperbolic space. In this paper, we present HyperExpan, a taxonomy expansion algorithm that seeks to preserve the structure of a taxonomy in a more expressive hyperbolic embedding space and learn to represent concepts and their relations with a Hyperbolic Graph Neural Network (HGNN). Specifically, HyperExpan leverages position embeddings to exploit the structure of the existing taxonomies, and characterizes the concept profile information to support the inference on unseen concepts during training. Experiments show that our proposed HyperExpan outperforms baseline models with representation learning in a Euclidean feature space and achieves state-of-the-art performance on the taxonomy expansion benchmarks.
翻訳日:2021-09-23 21:36:30 公開日:2021-09-22
# (参考訳) KD-VLP:物体の知識蒸留による終端視覚・言語訓練の改善 [全文訳有]

KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object Knowledge Distillation ( http://arxiv.org/abs/2109.10504v1 )

ライセンス: CC BY 4.0
Yongfei Liu, Chenfei Wu, Shao-yen Tseng, Vasudev Lal, Xuming He, Nan Duan(参考訳) 自己教師付き視覚・言語事前学習(VLP)は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習し,微調整後の視覚言語タスクの幅広い範囲で高い性能を達成することを目的としている。 従来の主流のVLPアプローチでは、通常、制約のあるオブジェクト概念空間、制限されたイメージコンテキスト、非効率な計算に苦しむマルチモーダルトランスフォーマーフレームワークで画像をエンコードするために、外部オブジェクト検出器に依存する2段階の戦略を採用している。 本稿では,CNN から Transformer に画像グリッドを直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド VLP フレームワークを提案する。 さらに,異なる意味レベルでのクロスモーダルアライメントの学習を容易にするために,オブジェクト知識の蒸留を行うことを提案する。 そこで我々は、オブジェクトの特徴とそれらの意味的ラベルを外部検出器から監視する2つの新しいプリテキストタスクを設計する。 1 マルチモーダルトランスフォーマーにおける物体認識表現学習の実施に焦点をあてた物体誘導マスク視覚モデリングタスク 2) 句領域アライメントタスクは,言語空間における名詞句と対象ラベルの類似性を利用して,モーダルアライメントを改善することを目的としている。 広範囲にわたる視覚言語タスクに関する広範な実験は,提案手法の有効性を実証し,既存の事前学習戦略に対する競争力や優れた性能を実現する。 コードは補足資料で入手できる。

Self-supervised vision-and-language pretraining (VLP) aims to learn transferable multi-modal representations from large-scale image-text data and to achieve strong performances on a broad scope of vision-language tasks after finetuning. Previous mainstream VLP approaches typically adopt a two-step strategy relying on external object detectors to encode images in a multi-modal Transformer framework, which suffer from restrictive object concept space, limited image context and inefficient computation. In this paper, we propose an object-aware end-to-end VLP framework, which directly feeds image grid features from CNNs into the Transformer and learns the multi-modal representations jointly. More importantly, we propose to perform object knowledge distillation to facilitate learning cross-modal alignment at different semantic levels. To achieve that, we design two novel pretext tasks by taking object features and their semantic labels from external detectors as supervision: 1.) Object-guided masked vision modeling task focuses on enforcing object-aware representation learning in the multi-modal Transformer; 2.) Phrase-region alignment task aims to improve cross-modal alignment by utilizing the similarities between noun phrases and object labels in the linguistic space. Extensive experiments on a wide range of vision-language tasks demonstrate the efficacy of our proposed framework, and we achieve competitive or superior performances over the existing pretraining strategies. The code is available in supplementary materials.
翻訳日:2021-09-23 21:13:07 公開日:2021-09-22
# (参考訳) tecnologica cosa:boccaccioのdecameronにおけるストーリーテラーのパーソナリティのモデル化 [全文訳有]

Tecnologica cosa: Modeling Storyteller Personalities in Boccaccio's Decameron ( http://arxiv.org/abs/2109.10506v1 )

ライセンス: CC BY 4.0
A. Feder Cooper, Maria Antoniak, Christopher De Sa, Marilyn Migiel and David Mimno(参考訳) 我々は、boccaccioのdecameronを探求し、デジタルヒューマニティクスツールが、現在使われていない言語で限られたデータを持つタスク、すなわち中世イタリア語にどのように使えるかを調べます。 テキスト内の異なるストーリーテラーは、異なる個性を示すか? この質問に答えるために、テキストの権威版に基づいてデータセットをキュレートし、リリースする。 我々は教師付き分類法を用いてストーリーテラーを予測し,タスクの難易度を確認し,トピック・モデリングがテーマ・ストーリーテラーの「プロファイル」を抽出できることを実証する。

We explore Boccaccio's Decameron to see how digital humanities tools can be used for tasks that have limited data in a language no longer in contemporary use: medieval Italian. We focus our analysis on the question: Do the different storytellers in the text exhibit distinct personalities? To answer this question, we curate and release a dataset based on the authoritative edition of the text. We use supervised classification methods to predict storytellers based on the stories they tell, confirming the difficulty of the task, and demonstrate that topic modeling can extract thematic storyteller "profiles."
翻訳日:2021-09-23 21:05:24 公開日:2021-09-22
# (参考訳) 教師なし文脈文書表現 [全文訳有]

Unsupervised Contextualized Document Representation ( http://arxiv.org/abs/2109.10509v1 )

ライセンス: CC BY-SA 4.0
Ankur Gupta, Vivek Gupta(参考訳) いくつかのNLPタスクは、テキスト文書の効果的な表現を必要とする。 Aroraなど。 2017年、単語ベクトルの単純な重み付け平均化が、しばしば神経モデルを上回ることを示した。 scdv (mekala et. al., 2017) は、プリ計算された単語ベクトルに対してソフトでスパースなクラスタリングを使用することで、文から文書までさらにこれを拡張している。 しかし、どちらの技法も単語の多義性や文脈性を無視している。 本稿では,SCDV+BERT(ctxd)という,文脈適応型BERT(Devlin et al., 2019)に基づく単語埋め込みとSCDVソフトクラスタリング手法を組み合わせた,シンプルで効果的な非教師付き表現を提案する。 我々の埋め込みは,多くの分類データセット上で,オリジナルのSCDV,プレトレーニングBERT,その他いくつかのベースラインよりも優れていることを示す。 また,概念マッチングや文類似性など,他のタスクに対する埋め込みの有効性を示す。 さらに, SCDV+BERT(ctxd) は, 限られたデータと少数のショット例しか持たないシナリオにおいて, 細管BERT と異なる埋め込みアプローチより優れていることを示す。

Several NLP tasks need the effective representation of text documents. Arora et. al., 2017 demonstrate that simple weighted averaging of word vectors frequently outperforms neural models. SCDV (Mekala et. al., 2017) further extends this from sentences to documents by employing soft and sparse clustering over pre-computed word vectors. However, both techniques ignore the polysemy and contextual character of words. In this paper, we address this issue by proposing SCDV+BERT(ctxd), a simple and effective unsupervised representation that combines contextualized BERT (Devlin et al., 2019) based word embedding for word sense disambiguation with SCDV soft clustering approach. We show that our embeddings outperform original SCDV, pre-train BERT, and several other baselines on many classification datasets. We also demonstrate our embeddings effectiveness on other tasks, such as concept matching and sentence similarity. In addition, we show that SCDV+BERT(ctxd) outperforms fine-tune BERT and different embedding approaches in scenarios with limited data and only few shots examples.
翻訳日:2021-09-23 20:55:21 公開日:2021-09-22
# (参考訳) ロッキーチケット仮説によるフェデレーション学習のバックドア攻撃 [全文訳有]

Backdoor Attacks on Federated Learning with Lottery Ticket Hypothesis ( http://arxiv.org/abs/2109.10512v1 )

ライセンス: CC BY 4.0
Zeyuan Yin, Ye Yuan, Panfeng Guo, Pan Zhou(参考訳) 連合学習におけるエッジデバイスは通常、データセンターのサーバに比べて計算と通信リソースがはるかに限られている。 近年,Lottery Ticket仮説のような高度なモデル圧縮手法が,モデルサイズと通信コストを削減するために,フェデレーション学習にすでに実装されている。 しかし、Backdoor Attackは連合学習シナリオにおける実装を損なう可能性がある。 悪意のあるエッジデバイスは、クライアントモデルを有害なプライベートデータでトレーニングし、パラメータを中央にアップロードし、集約的最適化を知らずにグローバル共有モデルにバックドアを埋め込む。 推論フェーズにおいて、バックドア付きモデルは、サンプルを特定のトリガーで1つのターゲットカテゴリに分類する一方で、サンプルをきれいにするための推論精度をわずかに低下させる。 本研究は,従来の密集型モデルと同等にバックドア攻撃に脆弱であり,バックドア攻撃が抽出チケットの構造に影響を及ぼすことを示す。 チケット同士の類似性に基づいて,様々なデータセットに対するバックドア攻撃に対するフェデレーション学習のための実現可能な防御を提供する。

Edge devices in federated learning usually have much more limited computation and communication resources compared to servers in a data center. Recently, advanced model compression methods, like the Lottery Ticket Hypothesis, have already been implemented on federated learning to reduce the model size and communication cost. However, Backdoor Attack can compromise its implementation in the federated learning scenario. The malicious edge device trains the client model with poisoned private data and uploads parameters to the center, embedding a backdoor to the global shared model after unwitting aggregative optimization. During the inference phase, the model with backdoors classifies samples with a certain trigger as one target category, while shows a slight decrease in inference accuracy to clean samples. In this work, we empirically demonstrate that Lottery Ticket models are equally vulnerable to backdoor attacks as the original dense models, and backdoor attacks can influence the structure of extracted tickets. Based on tickets' similarities between each other, we provide a feasible defense for federated learning against backdoor attacks on various datasets.
翻訳日:2021-09-23 20:42:57 公開日:2021-09-22
# (参考訳) 患者中心コミュニケーション改善のための医用文字の自動符号化に向けて [全文訳有]

Towards The Automatic Coding of Medical Transcripts to Improve Patient-Centered Communication ( http://arxiv.org/abs/2109.10514v1 )

ライセンス: CC BY 4.0
Gilchan Park, Julia Taylor Rayz, Cleveland G. Shields(参考訳) 本稿では, 患者中心コミュニケーション(PCC)を改善するために, 医師・患者間通信文書の自動符号化手法を提案する。 PCCは高品質な医療の中心である。 PCCを改善するために、医師と患者の対話が記録され、事前に定義されたコードでタグ付けされている。 訓練された人間のコーダーは手動で書き起こしをコーディングした。 膨大な労働コストを伴い、ヒューマンエラーを発生させるため、自動コーディング手法は効率と有効性を考慮すべきである。 3つの機械学習アルゴリズム (na\"ive bayes, random forest, support vector machine) を用いて,書き起こし中の行を対応するコードに分類した。 その結果, 符号の識別には証拠があることが明らかとなり, ヒトのアノテータの訓練に十分と考えられる。

This paper aims to provide an approach for automatic coding of physician-patient communication transcripts to improve patient-centered communication (PCC). PCC is a central part of high-quality health care. To improve PCC, dialogues between physicians and patients have been recorded and tagged with predefined codes. Trained human coders have manually coded the transcripts. Since it entails huge labor costs and poses possible human errors, automatic coding methods should be considered for efficiency and effectiveness. We adopted three machine learning algorithms (Na\"ive Bayes, Random Forest, and Support Vector Machine) to categorize lines in transcripts into corresponding codes. The result showed that there is evidence to distinguish the codes, and this is considered to be sufficient for training of human annotators.
翻訳日:2021-09-23 20:32:59 公開日:2021-09-22
# (参考訳) 物体追跡アルゴリズムにおけるデータの不確かさの取り込み [全文訳有]

Incorporating Data Uncertainty in Object Tracking Algorithms ( http://arxiv.org/abs/2109.10521v1 )

ライセンス: CC BY 4.0
Anish Muthali, Forrest Laine, Claire Tomlin(参考訳) データ駆動型物体検出装置の不確実性特性を物体追跡アルゴリズムに組み込む手法について検討した。 対象追跡法は測定誤差モデルに依存しており、一般的には測定ノイズ、偽陽性率、検出率の欠如による。 これらの量は、一般に、対象または測定位置に依存することができる。 しかしながら、ニューラルネット処理されたカメラ入力から生成された検出では、これらの測定誤差統計は、主にエラーの原因、すなわち、ランタイムセンサー入力と検出器が訓練されたトレーニングデータとの相違を表すには不十分である。 そこで本研究では,オブジェクトの追跡能力の向上など,データ不確実性をオブジェクト追跡手法に組み込むことについて検討する。 提案手法は、実際の自律航空機による実験と同様に、物体追跡ベンチマークで検証される。

Methodologies for incorporating the uncertainties characteristic of data-driven object detectors into object tracking algorithms are explored. Object tracking methods rely on measurement error models, typically in the form of measurement noise, false positive rates, and missed detection rates. Each of these quantities, in general, can be dependent on object or measurement location. However, for detections generated from neural-network processed camera inputs, these measurement error statistics are not sufficient to represent the primary source of errors, namely a dissimilarity between run-time sensor input and the training data upon which the detector was trained. To this end, we investigate incorporating data uncertainty into object tracking methods such as to improve the ability to track objects, and particularly those which out-of-distribution w.r.t. training data. The proposed methodologies are validated on an object tracking benchmark as well on experiments with a real autonomous aircraft.
翻訳日:2021-09-23 20:24:40 公開日:2021-09-22
# (参考訳) 感性指数による微分プライバシーのためのガウス機構の統一的解釈 [全文訳有]

A unified interpretation of the Gaussian mechanism for differential privacy through the sensitivity index ( http://arxiv.org/abs/2109.10528v1 )

ライセンス: CC BY 4.0
Georgios Kaissis, Moritz Knolle, Friederike Jungmann, Alexander Ziller, Dmitrii Usynin, Daniel Rueckert(参考訳) ガウスのメカニズム(GM)は、微分プライバシー(DP)を達成するための普遍的なツールであり、その分析に多くの研究が費やされている。 gm の3つの一般的な解釈、すなわち $(\varepsilon, \delta)$-dp, f-dp, r\'enyi dp は 1 つのパラメータ $\psi$ を用いて表現できる。 クエリの感度とノイズの摂動の大きさの2つの基本的な量をカプセル化することで、$\psi$はgmとその特性を独特に特徴付ける。 ROC曲線とDPの仮説テスト解釈との強いつながりにより、$\psi$は、ガウスのメカニズムのプライバシー保証を解釈し、比較し、伝達するための強力な方法を提供する。

The Gaussian mechanism (GM) represents a universally employed tool for achieving differential privacy (DP), and a large body of work has been devoted to its analysis. We argue that the three prevailing interpretations of the GM, namely $(\varepsilon, \delta)$-DP, f-DP and R\'enyi DP can be expressed by using a single parameter $\psi$, which we term the sensitivity index. $\psi$ uniquely characterises the GM and its properties by encapsulating its two fundamental quantities: the sensitivity of the query and the magnitude of the noise perturbation. With strong links to the ROC curve and the hypothesis-testing interpretation of DP, $\psi$ offers the practitioner a powerful method for interpreting, comparing and communicating the privacy guarantees of Gaussian mechanisms.
翻訳日:2021-09-23 20:13:53 公開日:2021-09-22
# (参考訳) 微分プライバシー時代の自動識別システム [全文訳有]

An automatic differentiation system for the age of differential privacy ( http://arxiv.org/abs/2109.10573v1 )

ライセンス: CC BY 4.0
Dmitrii Usynin, Alexander Ziller, Moritz Knolle, Daniel Rueckert, Georgios Kaissis(参考訳) 本稿では、微分プライベート(DP)機械学習(ML)のための自動微分に基づく感度分析フレームワークであるTritiumを紹介する。 この環境での最適ノイズ校正には、効率的なヤコビ行列計算とL2感度の厳密な境界が必要である。 本フレームワークは,感度追跡のための機能解析に基づく手法を用いて,これらの目的を達成する。 このアプローチは、静的グラフベースの自動微分と自然かつシームレスに相互運用し、以前の作業と比較して、コンパイル時間のオーダー・オブ・マグニチュードの改善を可能にする。 さらに,計算グラフ全体の感度を一度に最適化することで,区間境界伝播法に比べ,真の感度の予測精度が大幅に向上することを示す。 我々の研究は、個人のプライバシ会計などの最近のDPの発展に自然に適合し、プライバシーユーティリティトレードオフの改善を目指しており、高度なプライバシ会計システムとアクセス可能な機械学習ツールの統合に向けた一歩である。

We introduce Tritium, an automatic differentiation-base d sensitivity analysis framework for differentially private (DP) machine learning (ML). Optimal noise calibration in this setting requires efficient Jacobian matrix computations and tight bounds on the L2-sensitivity. Our framework achieves these objectives by relying on a functional analysis-based method for sensitivity tracking, which we briefly outline. This approach interoperates naturally and seamlessly with static graph-based automatic differentiation, which enables order-of-magnitude improvements in compilation times compared to previous work. Moreover, we demonstrate that optimising the sensitivity of the entire computational graph at once yields substantially tighter estimates of the true sensitivity compared to interval bound propagation techniques. Our work naturally befits recent developments in DP such as individual privacy accounting, aiming to offer improved privacy-utility trade-offs, and represents a step towards the integration of accessible machine learning tooling with advanced privacy accounting systems.
翻訳日:2021-09-23 19:58:03 公開日:2021-09-22
# (参考訳) 差分プライバシーにおける部分感度解析 [全文訳有]

Partial sensitivity analysis in differential privacy ( http://arxiv.org/abs/2109.10582v1 )

ライセンス: CC BY 4.0
Tamara T. Mueller, Alexander Ziller, Dmitrii Usynin, Moritz Knolle, Friederike Jungmann, Daniel Rueckert, Georgios Kaissis(参考訳) 差分プライバシー(DP)は、個人のデータが機械学習などのアルゴリズム処理の対象となった場合のプライバシー損失の定量化と、客観的プライバシー保証の提供を可能にする。 しかしながら、個々のR\enyi DP(RDP)のような技術は、個人ごとのプライバシー会計をきめ細かいものにすることができるが、個々の入力機能が個人のプライバシー喪失に与える影響を調査する研究はほとんどない。 本稿では,関数の勾配ノルムに対する各入力特徴の影響を記号的自動微分を用いて決定する,部分感度と呼ばれる新しい概念を導入することで,個々のrdpの視点を拡張する。 プライベートデータベース上でのクエリに対するアプローチを実験的に評価し,個人のdp保証に対するプライベート属性の機能レベルの貢献を得た。 さらに,画像分類タスクにおける入力画素の部分感度について検討し,合成データに対するニューラルネットワークトレーニングの文脈における知見について検討した。

Differential privacy (DP) allows the quantification of privacy loss when the data of individuals is subjected to algorithmic processing such as machine learning, as well as the provision of objective privacy guarantees. However, while techniques such as individual R\'enyi DP (RDP) allow for granular, per-person privacy accounting, few works have investigated the impact of each input feature on the individual's privacy loss. Here we extend the view of individual RDP by introducing a new concept we call partial sensitivity, which leverages symbolic automatic differentiation to determine the influence of each input feature on the gradient norm of a function. We experimentally evaluate our approach on queries over private databases, where we obtain a feature-level contribution of private attributes to the DP guarantee of individuals. Furthermore, we explore our findings in the context of neural network training on synthetic data by investigating the partial sensitivity of input pixels on an image classification task.
翻訳日:2021-09-23 19:49:30 公開日:2021-09-22
# (参考訳) 機械学習によるエアロゾルマイクロフィジカルのエミュレート [全文訳有]

Emulating Aerosol Microphysics with a Machine Learning ( http://arxiv.org/abs/2109.10593v1 )

ライセンス: CC BY 4.0
Paula Harder, Duncan Watson-Parris, Dominik Strassel, Nicolas Gauger, Philip Stier, Janis Keuper(参考訳) エアロゾル粒子は、放射を吸収・散乱し、雲の性質に影響を与えることにより、気候システムにおいて重要な役割を果たす。 また、気候モデリングの最大の不確実性源の1つでもある。 多くの気候モデルはエアロゾルを十分に詳細に含まない。 高精度を達成するためには、エアロゾルの微細物性とプロセスを考慮する必要がある。 これは、M7マイクロ物理モデルを用いて、ECHAM-HAMグローバルな気候エアロゾルモデルで行われているが、計算コストの増大により、高解像度またはより長い時間で実行するのに非常にコストがかかる。 機械学習を用いて、マイクロ物理モデルを十分な精度で近似し、推論時に高速に計算コストを削減することを目指している。 オリジナルのM7モデルは、入力出力ペアのデータを生成してニューラルネットワークをトレーニングするために使用される。 特殊対数変換を使用することで、平均的なR^2$スコアが89\%$となる変数の傾向を学習することができる。 GPUでは、元のモデルと比較して120のスピードアップを実現しています。

Aerosol particles play an important role in the climate system by absorbing and scattering radiation and influencing cloud properties. They are also one of the biggest sources of uncertainty for climate modeling. Many climate models do not include aerosols in sufficient detail. In order to achieve higher accuracy, aerosol microphysical properties and processes have to be accounted for. This is done in the ECHAM-HAM global climate aerosol model using the M7 microphysics model, but increased computational costs make it very expensive to run at higher resolutions or for a longer time. We aim to use machine learning to approximate the microphysics model at sufficient accuracy and reduce the computational cost by being fast at inference time. The original M7 model is used to generate data of input-output pairs to train a neural network on it. By using a special logarithmic transform we are able to learn the variables tendencies achieving an average $R^2$ score of $89\%$. On a GPU we achieve a speed-up of 120 compared to the original model.
翻訳日:2021-09-23 19:42:20 公開日:2021-09-22
# (参考訳) NOAHQA: グラフ質問回答データセットによる数値推論 [全文訳有]

NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering Dataset ( http://arxiv.org/abs/2109.10604v1 )

ライセンス: CC BY 4.0
Qiyuan Zhang, Lei Wang, Sicheng Yu, Shuohang Wang, Yang Wang, Jing Jiang, Ee-Peng Lim(参考訳) 多様な質問応答(QA)データセットが提案され、QAタスクのためのディープラーニングモデルの開発に大きく貢献する一方で、既存のデータセットは2つの側面で不足している。 まず、答えを得るための推論プロセスだけでなく、答えを含む複雑な質問を含むQAデータセットがありません。 その結果、数値推論に関する最先端のQA研究は依然として単純な計算に焦点を当てており、答えを正当化する数学的表現やエビデンスを提供していない。 第2に、QAコミュニティはQAモデルの解釈可能性の改善に多くの努力を払っています。 しかし、これらのモデルは推論の証拠の順序や異なる証拠間の相互作用といった推論過程を明示的に示さない。 上記の欠点に対処するために,複雑な数学的表現を伴う数値推論を必要とする質問を対話型およびバイリンガルなQAデータセットであるNOAHQAを紹介する。 NOAHQAでは、解答品質を測定するための適切な評価基準だけでなく、解釈可能な推論グラフも開発する。 我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最高のものは55.5の正確なマッチスコアしか達成できず,人間のパフォーマンスは89.7であることを示す。 また,推論グラフ生成のための新たなqaモデルを提案する。推論グラフのメトリクスは,28スコアなど人間と比較した場合,依然として大きなギャップがある。

While diverse question answering (QA) datasets have been proposed and contributed significantly to the development of deep learning models for QA tasks, the existing datasets fall short in two aspects. First, we lack QA datasets covering complex questions that involve answers as well as the reasoning processes to get the answers. As a result, the state-of-the-art QA research on numerical reasoning still focuses on simple calculations and does not provide the mathematical expressions or evidences justifying the answers. Second, the QA community has contributed much effort to improving the interpretability of QA models. However, these models fail to explicitly show the reasoning process, such as the evidence order for reasoning and the interactions between different pieces of evidence. To address the above shortcomings, we introduce NOAHQA, a conversational and bilingual QA dataset with questions requiring numerical reasoning with compound mathematical expressions. With NOAHQA, we develop an interpretable reasoning graph as well as the appropriate evaluation metric to measure the answer quality. We evaluate the state-of-the-art QA models trained using existing QA datasets on NOAHQA and show that the best among them can only achieve 55.5 exact match scores, while the human performance is 89.7. We also present a new QA model for generating a reasoning graph where the reasoning graph metric still has a large gap compared with that of humans, e.g., 28 scores.
翻訳日:2021-09-23 19:31:59 公開日:2021-09-22
# (参考訳) 分類におけるランダムフーリエ特徴のシャープ解析 [全文訳有]

Sharp Analysis of Random Fourier Features in Classification ( http://arxiv.org/abs/2109.10623v1 )

ライセンス: CC BY 4.0
Zhu Li(参考訳) 支持ベクトルマシンやロジスティック回帰といったリプシッツ連続損失関数を用いたランダムフーリエ特徴分類の理論的性質について検討する。 正規性条件を利用すると、ランダムなフーリエ特徴分類が$O(1/\sqrt{n})$学習率を$\Omega(\sqrt{n} \log n)$特徴のみで達成できることが、以前の結果から示唆された$Omega(n)$特徴とは対照的に初めて示される。 本研究は,必要な特徴量を削減するための標準的な特徴量サンプリング手法と,最適な一般化特性を維持しつつ,特徴量をさらに削減する問題依存サンプリング手法について述べる。 さらに,無作為フーリエ特徴分類は,マッサートの低雑音条件下での2つのサンプリングスキームにおいて,高速なo(1/n)$学習率を得ることができることを証明した。 この結果から,計算複雑性を減少させる確率的フーリエ関数の有効性(大まかには$O(n^3)$,$O(n^2)$から$O(n^2)$,$O(n\sqrt{n})$)が,統計的予測精度のトレードオフを伴わずに得られることを示した。 また,本分析で得られたトレードオフは,最悪の場合における文献の最適結果と少なくとも同じであり,良性正規性条件下での最適結果を大幅に改善する。

We study the theoretical properties of random Fourier features classification with Lipschitz continuous loss functions such as support vector machine and logistic regression. Utilizing the regularity condition, we show for the first time that random Fourier features classification can achieve $O(1/\sqrt{n})$ learning rate with only $\Omega(\sqrt{n} \log n)$ features, as opposed to $\Omega(n)$ features suggested by previous results. Our study covers the standard feature sampling method for which we reduce the number of features required, as well as a problem-dependent sampling method which further reduces the number of features while still keeping the optimal generalization property. Moreover, we prove that the random Fourier features classification can obtain a fast $O(1/n)$ learning rate for both sampling schemes under Massart's low noise assumption. Our results demonstrate the potential effectiveness of random Fourier features approximation in reducing the computational complexity (roughly from $O(n^3)$ in time and $O(n^2)$ in space to $O(n^2)$ and $O(n\sqrt{n})$ respectively) without having to trade-off the statistical prediction accuracy. In addition, the achieved trade-off in our analysis is at least the same as the optimal results in the literature under the worst case scenario and significantly improves the optimal results under benign regularity conditions.
翻訳日:2021-09-23 19:11:45 公開日:2021-09-22
# (参考訳) LDC-VAE:変分オートエンコーダに対する遅延分布整合性アプローチ [全文訳有]

LDC-VAE: A Latent Distribution Consistency Approach to Variational AutoEncoders ( http://arxiv.org/abs/2109.10640v1 )

ライセンス: CC BY 4.0
Xiaoyu Chen, Chen Gong, Qiang He, Xinwen Hou, and Yu Liu(参考訳) 生成モデルの重要な側面である変分オートエンコーダ(vaes)は、多くの研究関心を集め、多くの成功した応用に到達した。 しかし、エビデンスローバウンド(ELBO)を最適化する場合、学習した潜時分布と先行潜時分布との整合性を達成することは常に困難であり、最終的にデータ生成において不満足なパフォーマンスをもたらす。 本稿では,ELBO最適化における後部分布と前部分布の矛盾を回避するために,潜時分布整合性アプローチを提案する。 本手法をLDC-VAE (Latent Distribution Consistency VAE) と呼ぶ。 この目的を達成するために、潜在空間の実際の後部分布をギブス形式として仮定し、エンコーダを用いて近似する。 しかし、そのようなギブズ後方近似には分析的な解はなく、伝統的な近似法は反復サンプリングに基づくMCMCのような時間を要する。 この問題に対処するために、Gibs後部を近似するためにStein Variational Gradient Descent (SVGD) を用いる。 一方、SVGDを用いてサンプルネットをトレーニングし、ギブス後方から効率的なサンプルを得ることができる。 一般的な画像生成データセットの比較研究により,VAEの強力な改良に比べて,我々の手法は同等あるいはそれ以上の性能を達成できたことが示された。

Variational autoencoders (VAEs), as an important aspect of generative models, have received a lot of research interests and reached many successful applications. However, it is always a challenge to achieve the consistency between the learned latent distribution and the prior latent distribution when optimizing the evidence lower bound (ELBO), and finally leads to an unsatisfactory performance in data generation. In this paper, we propose a latent distribution consistency approach to avoid such substantial inconsistency between the posterior and prior latent distributions in ELBO optimizing. We name our method as latent distribution consistency VAE (LDC-VAE). We achieve this purpose by assuming the real posterior distribution in latent space as a Gibbs form, and approximating it by using our encoder. However, there is no analytical solution for such Gibbs posterior in approximation, and traditional approximation ways are time consuming, such as using the iterative sampling-based MCMC. To address this problem, we use the Stein Variational Gradient Descent (SVGD) to approximate the Gibbs posterior. Meanwhile, we use the SVGD to train a sampler net which can obtain efficient samples from the Gibbs posterior. Comparative studies on the popular image generation datasets show that our method has achieved comparable or even better performance than several powerful improvements of VAEs.
翻訳日:2021-09-23 18:45:41 公開日:2021-09-22
# (参考訳) ヘイトフルミーム検出を改善するためのキャプション強化サンプル [全文訳有]

Caption Enriched Samples for Improving Hateful Memes Detection ( http://arxiv.org/abs/2109.10649v1 )

ライセンス: CC BY 4.0
Efrat Blaier, Itzik Malkiel, Lior Wolf(参考訳) 最近導入された憎しみのあるミームチャレンジは、ミームが憎悪であるか否かを決定するのが難しいことを示している。 特に、ユニモーダル言語モデルとマルチモーダル視覚言語モデルの両方が人間のパフォーマンスレベルに達することができない。 画像内容と重ね合わせテキストのコントラストをモデル化する必要性に動機づけられ,まずは既製画像キャプションツールを適用することを提案する。 微調整中の自動キャプションの導入により, 様々な単調モデルやマルチモーダルモデルの結果が向上することが実証された。 さらに,一助詞の場合,拡張字幕対および原文対における言語モデルの事前学習は,その分類精度に非常に有益である。

The recently introduced hateful meme challenge demonstrates the difficulty of determining whether a meme is hateful or not. Specifically, both unimodal language models and multimodal vision-language models cannot reach the human level of performance. Motivated by the need to model the contrast between the image content and the overlayed text, we suggest applying an off-the-shelf image captioning tool in order to capture the first. We demonstrate that the incorporation of such automatic captions during fine-tuning improves the results for various unimodal and multimodal models. Moreover, in the unimodal case, continuing the pre-training of language models on augmented and original caption pairs, is highly beneficial to the classification accuracy.
翻訳日:2021-09-23 18:32:59 公開日:2021-09-22
# (参考訳) MiRANews:マルチソース支援ニュース要約のためのデータセットとベンチマーク [全文訳有]

MiRANews: Dataset and Benchmarks for Multi-Resource-Assis ted News Summarization ( http://arxiv.org/abs/2109.10650v1 )

ライセンス: CC BY 4.0
Xinnuo Xu, Ond\v{r}ej Du\v{s}ek, Shashi Narayan, Verena Rieser and Ioannis Konstas(参考訳) 現在の単一文書ニュース要約の最も難しい側面の1つは、要約がしばしば「外在的幻覚」、すなわち、しばしば世界知識によって引き起こされる、ソース文書に存在しない事実を含んでいることである。 これにより、要約システムは、誤った事実を幻覚させる傾向があるオープンエンド言語モデルのように振る舞う。 本稿では,タスクを補助する複数の補助資料の助けを借りて,この問題を緩和する。 我々は、新しいデータセットMiRANewsと既存の要約モデルをベンチマークする。 複数のソースドキュメントから複数のイベントを処理するマルチドキュメント要約とは対照的に、単一ドキュメントのサマリ生成を目標としています。 MiRANewsのゴールドサマリーで言及されている事実の27%以上は、メインソースの記事よりもドキュメントのアシストに重点を置いています。 MiRANewsで微調整された事前学習モデルから生成された要約の誤り解析により、これはモデルにさらに大きな影響を及ぼすことが明らかとなった。 私たちのコードとデータはhttps://github.com/x innuoxu/miranewsで入手できます。

One of the most challenging aspects of current single-document news summarization is that the summary often contains 'extrinsic hallucinations', i.e., facts that are not present in the source document, which are often derived via world knowledge. This causes summarization systems to act more like open-ended language models tending to hallucinate facts that are erroneous. In this paper, we mitigate this problem with the help of multiple supplementary resource documents assisting the task. We present a new dataset MiRANews and benchmark existing summarization models. In contrast to multi-document summarization, which addresses multiple events from several source documents, we still aim at generating a summary for a single document. We show via data analysis that it's not only the models which are to blame: more than 27% of facts mentioned in the gold summaries of MiRANews are better grounded on assisting documents than in the main source articles. An error analysis of generated summaries from pretrained models fine-tuned on MiRANews reveals that this has an even bigger effects on models: assisted summarization reduces 55% of hallucinations when compared to single-document summarization models trained on the main article only. Our code and data are available at https://github.com/X innuoXu/MiRANews.
翻訳日:2021-09-23 18:24:44 公開日:2021-09-22
# (参考訳) TACTIC:低ビットレート圧縮のための共同速度歪み精度最適化 [全文訳有]

TACTIC: Joint Rate-Distortion-Accu racy Optimisation for Low Bitrate Compression ( http://arxiv.org/abs/2109.10658v1 )

ライセンス: CC BY 4.0
Nikolina Kubiak and Simon Hadfield(参考訳) TACTIC: Intelligent Codingによるタスク認識圧縮について述べる。 我々の損失圧縮モデルは、特定のタスクに対する速度歪み精度トレードオフに基づいて学習する。 追従問題においてどの情報が重要であるかを考慮し、低ビットレートでのタスク性能向上のために視覚的忠実度をトレードオフする。 JPEGを同じビットレートで比較すると、ImageNetサブセット分類の精度が4.5%向上する。 また、他の問題へのアプローチの適用性を実証し、セマンティックセグメンテーションのためのタスク非依存圧縮よりも、IoUの精度が3.4%、平均4.9%向上したことを示す。

We present TACTIC: Task-Aware Compression Through Intelligent Coding. Our lossy compression model learns based on the rate-distortion-accu racy trade-off for a specific task. By considering what information is important for the follow-on problem, the system trades off visual fidelity for good task performance at a low bitrate. When compared against JPEG at the same bitrate, our approach is able to improve the accuracy of ImageNet subset classification by 4.5%. We also demonstrate the applicability of our approach to other problems, providing a 3.4% accuracy and 4.9% mean IoU improvements in performance over task-agnostic compression for semantic segmentation.
翻訳日:2021-09-23 18:06:44 公開日:2021-09-22
# (参考訳) ビデオサーベイランス背景モデリングのための新しいロバストスケーラブル特異値分解アルゴリズム

A New Robust Scalable Singular Value Decomposition Algorithm for Video Surveillance Background Modelling ( http://arxiv.org/abs/2109.10680v1 )

ライセンス: CC BY 4.0
Subhrajyoty Roy, Ayanendranath Basu and Abhik Ghosh(参考訳) 自動化ビデオ監視における基本的なアルゴリズムタスクは、背景と前景のオブジェクトを分離することである。 カメラの改ざん、騒がしいビデオ、低フレームレートなど、問題解決には困難が伴う。 改ざんされたフレームを分類し、改ざんしたフレームを捨てた後の残りのフレームを解析する一般的なアプローチは、情報の喪失をもたらす。 そこで本稿では,高密度電力分散に基づく頑健な特異値分解(SVD)手法を提案する。 また,提案手法が既存の頑健なSVD法よりも優れていることを示すため,理論的結果を提供し,シミュレーションを行う。 最後に,提案手法の汎用性を示すために,提案手法の他のいくつかのユースケースを提案する。

A basic algorithmic task in automated video surveillance is to separate background and foreground objects. Camera tampering, noisy videos, low frame rate, etc., pose difficulties in solving the problem. A general approach which classifies the tampered frames, and performs subsequent analysis on the remaining frames after discarding the tampered ones, results in loss of information. We propose a robust singular value decomposition (SVD) approach based on the density power divergence to perform background separation robustly even in the presence of tampered frames. We also provide theoretical results and perform simulations to validate the superiority of the proposed method over the few existing robust SVD methods. Finally, we indicate several other use-cases of the proposed method to show its general applicability to a large range of problems.
翻訳日:2021-09-23 18:00:23 公開日:2021-09-22
# (参考訳) cc-cert:ニューラルネットワークの一般ロバスト性を証明する確率論的アプローチ [全文訳有]

CC-Cert: A Probabilistic Approach to Certify General Robustness of Neural Networks ( http://arxiv.org/abs/2109.10696v1 )

ライセンス: CC BY 4.0
Mikhail Pautov, Nurislam Tursynbek, Marina Munkhoeva, Nikita Muravev, Aleksandr Petiushko, Ivan Oseledets(参考訳) 安全クリティカルな機械学習アプリケーションでは、モデルを敵の攻撃から守ることが重要です。 厳密に研究された$\ell_p$-bounded additive perturbationsに加えて、最近提案されたセマンティックな摂動(回転、翻訳など)は、MLシステムを現実世界に展開することに対する深刻な懸念を引き起こす。 したがって、意味的に意味のある入力変換に対して、ディープラーニングモデルに証明可能な保証を提供することが重要である。 本稿では,一般的な攻撃設定で使用できるチャーノフクラマー境界に基づく,新たな普遍的確率的認証手法を提案する。 攻撃が特定の分布からサンプリングされた場合、モデルが失敗する確率を推定する。 理論的知見は, 異なるデータセットに対する実験結果によって裏付けられる。

In safety-critical machine learning applications, it is crucial to defend models against adversarial attacks -- small modifications of the input that change the predictions. Besides rigorously studied $\ell_p$-bounded additive perturbations, recently proposed semantic perturbations (e.g. rotation, translation) raise a serious concern on deploying ML systems in real-world. Therefore, it is important to provide provable guarantees for deep learning models against semantically meaningful input transformations. In this paper, we propose a new universal probabilistic certification approach based on Chernoff-Cramer bounds that can be used in general attack settings. We estimate the probability of a model to fail if the attack is sampled from a certain distribution. Our theoretical findings are supported by experimental results on different datasets.
翻訳日:2021-09-23 17:59:06 公開日:2021-09-22
# (参考訳) 記述論理におけるBPMNの形式化

A formalisation of BPMN in Description Logics ( http://arxiv.org/abs/2109.10716v1 )

ライセンス: CC BY 4.0
Chiara Ghidini, Marco Rospocher, Luciano Serafini(参考訳) 本稿では、BPMNオントロジーの記述論理(Description Logics)の観点から、OMG(BPMN Version 1.1 - 2008)の最新の安定したBPMN仕様に基づいて、BPMN(Business Process Modelling Notation)の構造的コンポーネントの明確なセマンティックな形式化を提供する。 オントロジーの開発は、BPMN仕様のAnnex Bに含まれるBPMN要素属性と型の全セットの説明によって導かれた。

In this paper we present a textual description, in terms of Description Logics, of the BPMN Ontology, which provides a clear semantic formalisation of the structural components of the Business Process Modelling Notation (BPMN), based on the latest stable BPMN specifications from OMG [BPMN Version 1.1 -- January 2008]. The development of the ontology was guided by the description of the complete set of BPMN Element Attributes and Types contained in Annex B of the BPMN specifications.
翻訳日:2021-09-23 17:45:34 公開日:2021-09-22
# (参考訳) 拡張文脈予測ネットワークを用いた低レイテンシインクリメンタルテキスト音声合成 [全文訳有]

Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context Prediction Network ( http://arxiv.org/abs/2109.10724v1 )

ライセンス: CC BY-SA 4.0
Takaaki Saeki, Shinnosuke Takamichi, and Hiroshi Saruwatari(参考訳) 増分テキスト音声合成(TTS)は、リアルタイム・低レイテンシ用途のために、小さな言語単位で発話を生成する。 我々は以前,事前学習された大規模言語モデルを活用したインクリメンタルなtts手法を提案し,それに続くセグメントを待つことなく,未観測の将来の文脈を考慮に入れている。 本手法は,将来の文脈を待ち続ける手法に匹敵する音声品質を実現するが,各段階における言語モデルからのサンプリングには膨大な量の処理が必要である。 本稿では,大規模言語モデルから単語をサンプリングする代わりに,軽量モデルを用いて観測されていない将来の文脈を直接予測するインクリメンタルTS法を提案する。 我々は,GPT2に基づく文脈予測ネットワークから,これらのモデルのコンテキスト埋め込みベクトル間で定義された教師学生の損失を最小限に抑えることで,シンプルな反復モデルに知識蒸留を行う。 実験の結果,提案手法は従来の手法と同等な合成音声品質を達成するのに約10倍の時間が必要であり,人間の英語話者の平均発話速度よりもずっと高速にインクリメンタル合成を行うことができ,リアルタイムアプリケーションへの適用性が示された。

Incremental text-to-speech (TTS) synthesis generates utterances in small linguistic units for the sake of real-time and low-latency applications. We previously proposed an incremental TTS method that leverages a large pre-trained language model to take unobserved future context into account without waiting for the subsequent segment. Although this method achieves comparable speech quality to that of a method that waits for the future context, it entails a huge amount of processing for sampling from the language model at each time step. In this paper, we propose an incremental TTS method that directly predicts the unobserved future context with a lightweight model, instead of sampling words from the large-scale language model. We perform knowledge distillation from a GPT2-based context prediction network into a simple recurrent model by minimizing a teacher-student loss defined between the context embedding vectors of those models. Experimental results show that the proposed method requires about ten times less inference time to achieve comparable synthetic speech quality to that of our previous method, and it can perform incremental synthesis much faster than the average speaking speed of human English speakers, demonstrating the availability of our method to real-time applications.
翻訳日:2021-09-23 17:44:20 公開日:2021-09-22
# (参考訳) 動物にインスパイアされたメルスペクトログラムの地震データ処理への応用 [全文訳有]

Animal inspired Application of a Variant of Mel Spectrogram for Seismic Data Processing ( http://arxiv.org/abs/2109.10733v1 )

ライセンス: CC BY 4.0
Samayan Bhattacharya, Sk Shahnawaz(参考訳) 地震データから災害を予知することが最重要であり、特に火山クレーター周辺の地震が発生しやすい地域では数千人の命を救える。 近年の地震観測ステーション数の増加は膨大な量のデータ収集を可能にし、地震学者の能力を大きく上回っている。 地震学的データの複雑な性質から、地震学者が大きな意味を持つ微妙なパターンを検出することはしばしば困難である。 機械学習アルゴリズムは地震データの分類と予測に有効であることが示されている。 地震のずっと前に地震などの災害を感知できる動物もあることが広く知られている。 メルスペクトログラムは、人間の聴覚に応じて実際の周波数を拡大するときに音声認識に広く用いられている。 本稿では,地震信号から災害を検知できる動物の聴覚に,地震データの原周波数をスケールするためのメル分光計の変種を提案する。 我々はコンピュータビジョンアルゴリズムとクラスタリングを用いて,未ラベル地震データの分類を行っている。

Predicting disaster events from seismic data is of paramount importance and can save thousands of lives, especially in earthquake-prone areas and habitations around volcanic craters. The drastic rise in the number of seismic monitoring stations in recent years has allowed the collection of a huge quantity of data, outpacing the capacity of seismologists. Due to the complex nature of the seismological data, it is often difficult for seismologists to detect subtle patterns with major implications. Machine learning algorithms have been demonstrated to be effective in classification and prediction tasks for seismic data. It has been widely known that some animals can sense disasters like earthquakes from seismic signals well before the disaster strikes. Mel spectrogram has been widely used for speech recognition as it scales the actual frequencies according to human hearing. In this paper, we propose a variant of the Mel spectrogram to scale the raw frequencies of seismic data to the hearing of such animals that can sense disasters from seismic signals. We are using a Computer vision algorithm along with clustering that allows for the classification of unlabelled seismic data.
翻訳日:2021-09-23 17:27:33 公開日:2021-09-22
# (参考訳) マルチタスク注意型畳み込みニューラルネットワークを用いた自動運転システムの早期車線変化予測 [全文訳有]

Early Lane Change Prediction for Automated Driving Systems Using Multi-Task Attention-based Convolutional Neural Networks ( http://arxiv.org/abs/2109.10742v1 )

ライセンス: CC BY 4.0
Sajjad Mozaffari, Eduardo Arnold, Mehrdad Dianati and Saber Fallah(参考訳) レーンチェンジ(英: Lane Change, LC)は、道路事故の記録により、高速道路の安全上重要な操作の一つである。 したがって、自動運転システムの安全かつ快適な運転には、事前の予測を確実に行うことが不可欠である。 これまでの研究の大部分は、事前に操作を予測するのではなく、すでに開始された操作を検知することに依存している。 さらに、以前の研究のほとんどは、エゴ車における意思決定に有用な情報を実際に得られるような操作(例えば、横断時間)の重要なタイミングを推定していない。 これらの欠点に対処するため,本論文では,LCの操作可能性とTTLC(Time-to-lane-ch ange)を同時に推定する新しいマルチタスクモデルを提案する。 どちらのタスクにおいても、運転環境の鳥の視線表現から注意に基づく畳み込みニューラルネットワーク(cnn)を共有特徴抽出器として使用する。 cnnモデルで使用される空間的注意は、周辺環境の最も関連する領域に注目して特徴抽出プロセスを改善する。 また,提案手法を学習するために2つの新しいカリキュラム学習方式が採用されている。 既存のベンチマークデータセットにおける提案手法の広範な評価と比較分析により,提案手法は,特に長期予測性能を考慮して,最先端のlc予測モデルを上回ることが示された。

Lane change (LC) is one of the safety-critical manoeuvres in highway driving according to various road accident records. Thus, reliably predicting such manoeuvre in advance is critical for the safe and comfortable operation of automated driving systems. The majority of previous studies rely on detecting a manoeuvre that has been already started, rather than predicting the manoeuvre in advance. Furthermore, most of the previous works do not estimate the key timings of the manoeuvre (e.g., crossing time), which can actually yield more useful information for the decision making in the ego vehicle. To address these shortcomings, this paper proposes a novel multi-task model to simultaneously estimate the likelihood of LC manoeuvres and the time-to-lane-change (TTLC). In both tasks, an attention-based convolutional neural network (CNN) is used as a shared feature extractor from a bird's eye view representation of the driving environment. The spatial attention used in the CNN model improves the feature extraction process by focusing on the most relevant areas of the surrounding environment. In addition, two novel curriculum learning schemes are employed to train the proposed approach. The extensive evaluation and comparative analysis of the proposed method in existing benchmark datasets show that the proposed method outperforms state-of-the-art LC prediction models, particularly considering long-term prediction performance.
翻訳日:2021-09-23 17:21:18 公開日:2021-09-22
# (参考訳) 自然型認識 vis表面筋電図 [全文訳有]

Natural Typing Recognition vis Surface Electromyography ( http://arxiv.org/abs/2109.10743v1 )

ライセンス: CC BY-SA 4.0
Michael S. Crouch, Mingde Zheng, Michael S. Eggleston(参考訳) 指記録装置としてコンピュータキーボードを用いることで,表面筋電図(semg)によるジェスチャ認識のための最大データセットを構築し,筋電位測定から90%以上の文字レベルの精度を達成するためにディープラーニングを用いた。 本稿では,リアルタイム音声の書き起こしに使用するものに触発されたネットワークアーキテクチャを用いて,電極レイアウトの空間構造ではなく,emg信号の時間構造を優先する。 我々のアーキテクチャは、不規則な間隔で発生し、しばしば重複する自然なコンピュータタイピングの急速な動きを認識する。 データセットのサイズを大きくすることで、空間的または時間的解像度を合成的に低下させた後、ジェスチャー認識を研究し、リアルタイムジェスチャー認識に必要なシステム能力を示すことができます。

By using a computer keyboard as a finger recording device, we construct the largest existing dataset for gesture recognition via surface electromyography (sEMG), and use deep learning to achieve over 90% character-level accuracy on reconstructing typed text entirely from measured muscle potentials. We prioritize the temporal structure of the EMG signal instead of the spatial structure of the electrode layout, using network architectures inspired by those used for real-time spoken language transcription. Our architecture recognizes the rapid movements of natural computer typing, which occur at irregular intervals and often overlap in time. The extensive size of our dataset also allows us to study gesture recognition after synthetically downgrading the spatial or temporal resolution, showing the system capabilities necessary for real-time gesture recognition.
翻訳日:2021-09-23 17:01:54 公開日:2021-09-22
# (参考訳) 大規模医用画像の自己ラベル化のための深部変動クラスタリングフレームワーク [全文訳有]

Deep Variational Clustering Framework for Self-labeling of Large-scale Medical Images ( http://arxiv.org/abs/2109.10777v1 )

ライセンス: CC BY 4.0
Farzin Soleymani, Mohammad Eslami, Tobias Elze, Bernd Bischl, Mina Rezaei(参考訳) 本稿では,大規模医用画像の教師なし表現学習とクラスタリングのためのDeep Variational Clustering(DVC)フレームワークを提案する。 DVCは確率的畳み込み符号化器と確率的畳み込み復号器で確率分布を同時に学習し、クラスタラベルの割り当てを最適化する。 ここで、学習された多変量ガウス後部は、ラベルなし画像の大きな集合の潜在分布をキャプチャする。 次に,クラスタリング損失を用いて変動潜在空間上に教師なしクラスタリングを行う。 このアプローチでは、確率的デコーダは潜在空間におけるデータポイントの歪みを防止し、データ生成分布の局所構造を保存するのに役立つ。 トレーニングプロセスは、潜在空間を洗練し、クラスタ割り当てを反復的に最適化する自己学習プロセスと見なすことができる。 医用画像の異なる3つの公開データセットについて,提案手法を評価した。 実験の結果,提案フレームワークは異なるデータセットにまたがってより汎用的であることが判明した。 いくつかの医用画像ベンチマークで説得力のある結果が得られる。 したがって,本手法は実世界のアプリケーションにおいて,従来の深層教師なし学習よりも潜在的に有利である。 メソッドのソースコードとすべての実験は、https://github.com/c sfarzin/DVCで公開されている。

We propose a Deep Variational Clustering (DVC) framework for unsupervised representation learning and clustering of large-scale medical images. DVC simultaneously learns the multivariate Gaussian posterior through the probabilistic convolutional encoder and the likelihood distribution with the probabilistic convolutional decoder; and optimizes cluster labels assignment. Here, the learned multivariate Gaussian posterior captures the latent distribution of a large set of unlabeled images. Then, we perform unsupervised clustering on top of the variational latent space using a clustering loss. In this approach, the probabilistic decoder helps to prevent the distortion of data points in the latent space and to preserve the local structure of data generating distribution. The training process can be considered as a self-training process to refine the latent space and simultaneously optimizing cluster assignments iteratively. We evaluated our proposed framework on three public datasets that represented different medical imaging modalities. Our experimental results show that our proposed framework generalizes better across different datasets. It achieves compelling results on several medical imaging benchmarks. Thus, our approach offers potential advantages over conventional deep unsupervised learning in real-world applications. The source code of the method and all the experiments are available publicly at: https://github.com/c sfarzin/DVC
翻訳日:2021-09-23 16:48:14 公開日:2021-09-22
# (参考訳) 物理インフォームドニューラルネットワークを用いたマルチリンクマニピュレータの予測制御 [全文訳有]

Physics-informed Neural Networks-based Model Predictive Control for Multi-link Manipulators ( http://arxiv.org/abs/2109.10793v1 )

ライセンス: CC BY 4.0
Jonas Nicodemus, Jonas Kneifl, J\"org Fehr, Benjamin Unger(参考訳) 物理インフォームド機械学習手法を用いて,多体ダイナミクスに対する非線形モデル予測制御(NMPC)について論じる。 物理学に変形したニューラルネットワーク(pinns)は、偏微分方程式を近似する有望なツールである。 PINNは、変数制御アクションや変数初期値を扱うように設計されていないため、元の形式での制御タスクには適していない。 そこで我々は、制御動作と初期条件を追加のネットワーク入力として追加することで、PINNの強化を提案する。 その後、サンプリング戦略とゼロホールド仮定により高次元入力空間を縮小する。 この戦略は、基礎となるシステムダイナミクスの近似としてPINNに基づくコントローラ設計を可能にする。 その他の利点は、感度が自動微分によって容易に計算され、効率のよい勾配に基づくアルゴリズムが導かれることである。 最後に,我々はpinnベースのmpcを用いて,複雑なメカニカルシステムであるマルチリンクマニピュレータのトラッキング問題を解決した。

We discuss nonlinear model predictive control (NMPC) for multi-body dynamics via physics-informed machine learning methods. Physics-informed neural networks (PINNs) are a promising tool to approximate (partial) differential equations. PINNs are not suited for control tasks in their original form since they are not designed to handle variable control actions or variable initial values. We thus present the idea of enhancing PINNs by adding control actions and initial conditions as additional network inputs. The high-dimensional input space is subsequently reduced via a sampling strategy and a zero-hold assumption. This strategy enables the controller design based on a PINN as an approximation of the underlying system dynamics. The additional benefit is that the sensitivities are easily computed via automatic differentiation, thus leading to efficient gradient-based algorithms. Finally, we present our results using our PINN-based MPC to solve a tracking problem for a complex mechanical system, a multi-link manipulator.
翻訳日:2021-09-23 16:34:54 公開日:2021-09-22
# (参考訳) ニューラルネットワークリリーフ:神経活動に基づく刈り取りアルゴリズム [全文訳有]

Neural network relief: a pruning algorithm based on neural activity ( http://arxiv.org/abs/2109.10795v1 )

ライセンス: CC BY 4.0
Aleksandr Dekhovich, David M.J. Tax, Marcel H.F. Sluiter, Miguel A. Bessa(参考訳) 現在のディープニューラルネットワーク(DNN)は、オーバーパラメータ化され、各タスクの推論中にほとんどのニューロン接続を使用する。 しかし、人間の脳は異なるタスクのための特別な領域を開発し、そのニューロン接続のごく一部で推論を行う。 重要でない接続を無効にし、dnnの過剰パラメータ化に取り組み、発火パターンを変調する単純な重要度スコアメトリックを導入する反復プルーニング戦略を提案する。 目的は、与えられたタスクをより単純なサブネットワークで解くことができる最小の接続数を見つけることである。 CIFAR-10/100 および Tiny-ImageNet 上の VGG および ResNet アーキテクチャの最先端アルゴリズムに比べて,MNIST 上での LeNet アーキテクチャの性能は大幅に向上した。 このアプローチは、AdamとSGDの2つの異なるオプティマイザに対してもうまく機能します。 このアルゴリズムは、現在のハードウェアやソフトウェアの実装を考えるときにフロップを最小化するように設計されていないが、技術の状況と比較すると合理的に機能する。

Current deep neural networks (DNNs) are overparameterized and use most of their neuronal connections during inference for each task. The human brain, however, developed specialized regions for different tasks and performs inference with a small fraction of its neuronal connections. We propose an iterative pruning strategy introducing a simple importance-score metric that deactivates unimportant connections, tackling overparameterization in DNNs and modulating the firing patterns. The aim is to find the smallest number of connections that is still capable of solving a given task with comparable accuracy, i.e. a simpler subnetwork. We achieve comparable performance for LeNet architectures on MNIST, and significantly higher parameter compression than state-of-the-art algorithms for VGG and ResNet architectures on CIFAR-10/100 and Tiny-ImageNet. Our approach also performs well for the two different optimizers considered -- Adam and SGD. The algorithm is not designed to minimize FLOPs when considering current hardware and software implementations, although it performs reasonably when compared to the state of the art.
翻訳日:2021-09-23 16:24:13 公開日:2021-09-22
# (参考訳) オフラインモデルフリーロボット強化学習のためのワークフロー [全文訳有]

A Workflow for Offline Model-Free Robotic Reinforcement Learning ( http://arxiv.org/abs/2109.10813v1 )

ライセンス: CC BY 4.0
Aviral Kumar, Anikait Singh, Stephen Tian, Chelsea Finn, Sergey Levine(参考訳) オフライン強化学習(RL)は、オンラインインタラクションを伴わずに、事前の経験のみを活用することにより、学習制御ポリシを可能にする。 これにより、ロボットは、高価な、あるいは安全でないオンラインデータ収集なしに、大規模で多様なデータセットから一般化可能なスキルを取得できる。 近年のオフラインRLのアルゴリズム的な進歩にもかかわらず、これらの手法を現実世界の問題に適用することは困難であることが証明された。 オフラインのRLメソッドは事前のデータから学習することができるが、学習したポリシーをオンラインで実際に評価することなく、モデルアーキテクチャからアルゴリズムハイパーパラメータまで、さまざまな設計選択を行うための明確で理解されたプロセスはない。 本稿では,教師付き学習問題に対する比較的よく理解されたワークフローに類似したオフラインRLを用いた実践的ワークフローを開発することを目的とする。 この目的のために、オフライントレーニングを通じて追跡可能なメトリクスと条件のセットを考案し、最終的なパフォーマンスを改善するためにアルゴリズムとモデルアーキテクチャをどのように調整すべきかを実践者に知らせる。 我々のワークフローは、保守的なオフラインRLアルゴリズムの動作と教師あり学習におけるクロスバリデーションの概念的理解から導かれる。 本研究では,複数のシミュレーションロボット学習シナリオと2つの異なる実ロボットにおける3つのタスクの両方において,オンラインチューニングを伴わない効果的なポリシー作成において,このワークフローの有効性を実証する。 説明ビデオと追加結果はsites.google.com/vie w/offline-rl-workflo wで見ることができる。

Offline reinforcement learning (RL) enables learning control policies by utilizing only prior experience, without any online interaction. This can allow robots to acquire generalizable skills from large and diverse datasets, without any costly or unsafe online data collection. Despite recent algorithmic advances in offline RL, applying these methods to real-world problems has proven challenging. Although offline RL methods can learn from prior data, there is no clear and well-understood process for making various design choices, from model architecture to algorithm hyperparameters, without actually evaluating the learned policies online. In this paper, our aim is to develop a practical workflow for using offline RL analogous to the relatively well-understood workflows for supervised learning problems. To this end, we devise a set of metrics and conditions that can be tracked over the course of offline training, and can inform the practitioner about how the algorithm and model architecture should be adjusted to improve final performance. Our workflow is derived from a conceptual understanding of the behavior of conservative offline RL algorithms and cross-validation in supervised learning. We demonstrate the efficacy of this workflow in producing effective policies without any online tuning, both in several simulated robotic learning scenarios and for three tasks on two distinct real robots, focusing on learning manipulation skills with raw image observations with sparse binary rewards. Explanatory video and additional results can be found at sites.google.com/vie w/offline-rl-workflo w
翻訳日:2021-09-23 15:50:28 公開日:2021-09-22
# (参考訳) Small-Bench NLP: 自然言語処理における単一GPU訓練モデルのベンチマーク [全文訳有]

Small-Bench NLP: Benchmark for small single GPU trained models in Natural Language Processing ( http://arxiv.org/abs/2109.10847v1 )

ライセンス: CC BY 4.0
Kamal Raj Kanakarajan and Bhuvana Kundumani and Malaikannan Sankarasubbu(参考訳) 自然言語処理領域の最近の進歩により、特定のタスク用に微調整可能ないくつかの最先端(sota)事前学習モデルが提供されています。 数週間にわたって多数のGPU/TPUでトレーニングされた数十億のパラメータを持つこれらの大きなモデルは、ベンチマークのリーダーボードに導かれる。 本稿では,1つのGPUでトレーニングした小型モデルに対して,コストと時間に対するベンチマークの必要性について論じる。 これにより、リソース制約のある研究者は、トークン化、事前訓練タスク、アーキテクチャ、微調整メソッドなどに関する、新しく革新的なアイデアを試すことができる。 Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークです。 Small-Bench NLPベンチマークは、一般公開されているGLUEデータセット上の8つのNLPタスクと、コミュニティの進捗を追跡するためのリーダボードで構成される。 ELECTRA-DeBERTa (15Mパラメータ)の小型モデルアーキテクチャは,BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。 私たちのモデル、コード、リーダーボードはhttps://github.com/s mallbenchnlpで利用可能です。

Recent progress in the Natural Language Processing domain has given us several State-of-the-Art (SOTA) pretrained models which can be finetuned for specific tasks. These large models with billions of parameters trained on numerous GPUs/TPUs over weeks are leading in the benchmark leaderboards. In this paper, we discuss the need for a benchmark for cost and time effective smaller models trained on a single GPU. This will enable researchers with resource constraints experiment with novel and innovative ideas on tokenization, pretraining tasks, architecture, fine tuning methods etc. We set up Small-Bench NLP, a benchmark for small efficient neural language models trained on a single GPU. Small-Bench NLP benchmark comprises of eight NLP tasks on the publicly available GLUE datasets and a leaderboard to track the progress of the community. Our ELECTRA-DeBERTa (15M parameters) small model architecture achieves an average score of 81.53 which is comparable to that of BERT-Base's 82.20 (110M parameters). Our models, code and leaderboard are available at https://github.com/s mallbenchnlp
翻訳日:2021-09-23 15:04:53 公開日:2021-09-22
# (参考訳) bfclass:バックドアフリーなテキスト分類フレームワーク [全文訳有]

BFClass: A Backdoor-free Text Classification Framework ( http://arxiv.org/abs/2109.10855v1 )

ライセンス: CC BY 4.0
Zichao Li, Dheeraj Mekala, Chengyu Dong, Jingbo Shang(参考訳) Backdoor攻撃は、トレーニングデータのサブセットをインジェクションしてラベルを変更することで、モデルに人工的な脆弱性を導入する。 テキスト分類器を攻撃するための様々なトリガー設計戦略が検討されているが、そのような攻撃を防御することは未解決の問題である。 本研究では,テキスト分類のための新しいバックドアフリーな学習フレームワークbfclassを提案する。 BFClassのバックボーンは事前訓練された識別器であり、劣化した入力の各トークンがマスク付き言語モデルに置き換えられたかどうかを予測する。 トリガーを識別するために、この識別器を用いて各トレーニングサンプルから最も疑わしいトークンを識別し、特定のラベルとの関連性を考慮し、簡潔なセットを蒸留する。 毒付き部分集合を認識するために,これらの特定トリガを最も疑わしいトークンとしてトレーニングサンプルを調べ,毒付きモデルの予測を変更するかどうかをチェックする。 広範な実験により、bfclassはすべてのトリガーを識別でき、95%の有毒なトレーニングサンプルを極めて限定的な誤報で取り除き、良質なトレーニングデータでトレーニングされたモデルとほぼ同等の性能を達成できることが示されている。

Backdoor attack introduces artificial vulnerabilities into the model by poisoning a subset of the training data via injecting triggers and modifying labels. Various trigger design strategies have been explored to attack text classifiers, however, defending such attacks remains an open problem. In this work, we propose BFClass, a novel efficient backdoor-free training framework for text classification. The backbone of BFClass is a pre-trained discriminator that predicts whether each token in the corrupted input was replaced by a masked language model. To identify triggers, we utilize this discriminator to locate the most suspicious token from each training sample and then distill a concise set by considering their association strengths with particular labels. To recognize the poisoned subset, we examine the training samples with these identified triggers as the most suspicious token, and check if removing the trigger will change the poisoned model's prediction. Extensive experiments demonstrate that BFClass can identify all the triggers, remove 95% poisoned training samples with very limited false alarms, and achieve almost the same performance as the models trained on the benign training data.
翻訳日:2021-09-23 14:57:32 公開日:2021-09-22
# (参考訳) Coarse2Fine: 粗粒度アノテーションデータによるきめ細かいテキスト分類 [全文訳有]

Coarse2Fine: Fine-grained Text Classification on Coarsely-grained Annotated Data ( http://arxiv.org/abs/2109.10856v1 )

ライセンス: CC BY 4.0
Dheeraj Mekala, Varun Gangal, Jingbo Shang(参考訳) 既存のテキスト分類手法は主に固定ラベルセットに焦点を当てているが、多くの実世界のアプリケーションはラベル毎のサンプル数が増加するにつれて、新しいきめ細かいクラスに拡張する必要がある。 このような要求を満たすために、粗粒度分類と呼ばれる、粗粒度データに対する微粒度分類を行う新しい問題を導入する。 新しいきめ細かな人間のアノテーションを求める代わりに、ラベル表面の名称を唯一の人間のガイダンスとして活用し、訓練済みの豊かな生成言語モデルを反復的な弱い監督戦略に織り込むことを選択しました。 具体的には,まずラベル条件付き微調整定式化を提案する。 さらに,問題設定から得られた粗いラベル制約に基づいて正規化目標を考案し,事前の定式化よりもさらに改善した。 我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。 2つの実世界のデータセットに関する大規模な実験とケーススタディは、SOTAゼロショット分類ベースラインよりも優れた性能を示す。

Existing text classification methods mainly focus on a fixed label set, whereas many real-world applications require extending to new fine-grained classes as the number of samples per label increases. To accommodate such requirements, we introduce a new problem called coarse-to-fine grained classification, which aims to perform fine-grained classification on coarsely annotated data. Instead of asking for new fine-grained human annotations, we opt to leverage label surface names as the only human guidance and weave in rich pre-trained generative language models into the iterative weak supervision strategy. Specifically, we first propose a label-conditioned finetuning formulation to attune these generators for our task. Furthermore, we devise a regularization objective based on the coarse-fine label constraints derived from our problem setting, giving us even further improvements over the prior formulation. Our framework uses the fine-tuned generative models to sample pseudo-training data for training the classifier, and bootstraps on real unlabeled data for model refinement. Extensive experiments and case studies on two real-world datasets demonstrate superior performance over SOTA zero-shot classification baselines.
翻訳日:2021-09-23 14:43:14 公開日:2021-09-22
# (参考訳) 右ボタンを押す:品質推定の逆評価 [全文訳有]

Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation ( http://arxiv.org/abs/2109.10859v1 )

ライセンス: CC BY 4.0
Diptesh Kanojia, Marina Fomicheva, Tharindu Ranasinghe, Fr\'ed\'eric Blain, Constantin Or\u{a}san and Lucia Specia(参考訳) 現在の機械翻訳(MT)システムは、多種多様な言語ペアとデータセットに対して非常に良い結果をもたらす。 しかし、重要な意味の誤りを含むような流動的な翻訳出力を生成することで、実際は信頼性を損なうことが知られている。 品質評価(QE)は、テスト時にMTシステムの性能を自動的に評価するタスクである。 したがって、qeシステムは有用であるためには、そのようなエラーを検出できるべきである。 しかし、この能力は、QEシステムと人間の判断との相関からのみ評価される、現在の評価慣行ではまだテストされていない。 本稿では,近年のSOTAによる人的判断と高い相関関係にあるにもかかわらず,QEが検出する意味エラーの種類が依然として問題であることを示す。 第2に、平均して、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できるので、手動品質アノテーションに頼ることなくQEシステムを比較することが可能であることを示す。

Current Machine Translation (MT) systems achieve very good results on a growing variety of language pairs and datasets. However, they are known to produce fluent translation outputs that can contain important meaning errors, thus undermining their reliability in practice. Quality Estimation (QE) is the task of automatically assessing the performance of MT systems at test time. Thus, in order to be useful, QE systems should be able to detect such errors. However, this ability is yet to be tested in the current evaluation practices, where QE systems are assessed only in terms of their correlation with human judgements. In this work, we bridge this gap by proposing a general methodology for adversarial testing of QE for MT. First, we show that despite a high correlation with human judgements achieved by the recent SOTA, certain types of meaning errors are still problematic for QE to detect. Second, we show that on average, the ability of a given model to discriminate between meaning-preserving and meaning-altering perturbations is predictive of its overall performance, thus potentially allowing for comparing QE systems without relying on manual quality annotation.
翻訳日:2021-09-23 14:14:29 公開日:2021-09-22
# スケール効率:事前訓練と微調整トランスからの洞察

Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers ( http://arxiv.org/abs/2109.10686v1 )

ライセンス: Link先を確認
Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzler(参考訳) Transformerアーキテクチャのスケーリング動作に関する多くのオープンな疑問が残っている。 トレーニングの実行には、金融と環境の両方に影響を及ぼす計算コストが伴うことが多いため、これらのスケーリング決定と発見が重要である。 本稿の目的は,事前学習と微調整トランスのスケーリングインサイトを提供することである。 kaplanらはトランスフォーマー言語モデルのスケーリング挙動を包括的に研究しているが、スコープは上流(事前学習)の損失にのみ依存している。 したがって、これらの発見の集合が、プレトレイン-ファインチューンパラダイムの文脈内で下流タスクに遷移するかどうかはまだ不明である。 本稿では,(1) モデルサイズ, 下流の微調整のためのモデル形状, (2) スケーリングプロトコルが異なる計算領域で異なる動作をすること,(3) 広く採用されているT5ベースとT5大サイズがパレート非効率であること,を示す。 この目的のために,我々の再設計したモデルは,パラメータを50%少なくし,広く採用されているT5ベースモデルに比べて40倍速く,下流の微調整品質が向上する。 将来の研究と分析を容易にするため、さまざまなT5構成の事前訓練済みチェックポイントを100以上公開しています。

There remain many open questions pertaining to the scaling behaviour of Transformer architectures. These scaling decisions and findings can be critical, as training runs often come with an associated computational cost which have both financial and/or environmental impact. The goal of this paper is to present scaling insights from pretraining and finetuning Transformers. While Kaplan et al. presents a comprehensive study of the scaling behaviour of Transformer language models, the scope is only on the upstream (pretraining) loss. Therefore, it is still unclear if these set of findings transfer to downstream task within the context of the pretrain-finetune paradigm. The key findings of this paper are as follows: (1) we show that aside from only the model size, model shape matters for downstream fine-tuning, (2) scaling protocols operate differently at different compute regions, (3) widely adopted T5-base and T5-large sizes are Pareto-inefficient. To this end, we present improved scaling protocols whereby our redesigned models achieve similar downstream fine-tuning quality while having 50\% fewer parameters and training 40\% faster compared to the widely adopted T5-base model. We publicly release over 100 pretrained checkpoints of different T5 configurations to facilitate future research and analysis.
翻訳日:2021-09-23 14:01:38 公開日:2021-09-22
# Pix2seq:オブジェクト検出のための言語モデリングフレームワーク

Pix2seq: A Language Modeling Framework for Object Detection ( http://arxiv.org/abs/2109.10852v1 )

ライセンス: Link先を確認
Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton(参考訳) 本稿では,オブジェクト検出のためのシンプルで汎用的なフレームワークPix2Seqを提案する。 タスクに関する事前知識を明示的に統合する既存のアプローチとは異なり、観察された画素入力に条件付き言語モデリングタスクとしてオブジェクト検出を単純にキャストする。 オブジェクト記述(バウンディングボックスやクラスラベルなど)は離散トークンのシーケンスとして表現され、ニューラルネットワークをトレーニングしてイメージを認識し、所望のシーケンスを生成する。 私たちのアプローチは主に、ニューラルネットワークがオブジェクトの場所と場所を知っていれば、その読み方を教える必要がある、という直感に基づいています。 タスク固有のデータ拡張の他に、我々のアプローチではタスクについて最小限の仮定を行うが、高度に専門的で最適化された検出アルゴリズムと比較して、困難なCOCOデータセット上での競合的な結果が得られる。

This paper presents Pix2Seq, a simple and generic framework for object detection. Unlike existing approaches that explicitly integrate prior knowledge about the task, we simply cast object detection as a language modeling task conditioned on the observed pixel inputs. Object descriptions (e.g., bounding boxes and class labels) are expressed as sequences of discrete tokens, and we train a neural net to perceive the image and generate the desired sequence. Our approach is based mainly on the intuition that if a neural net knows about where and what the objects are, we just need to teach it how to read them out. Beyond the use of task-specific data augmentations, our approach makes minimal assumptions about the task, yet it achieves competitive results on the challenging COCO dataset, compared to highly specialized and well optimized detection algorithms.
翻訳日:2021-09-23 14:01:14 公開日:2021-09-22
# マルチタスク多言語モデルのためのスケーラブルで効率的なMoEトレーニング

Scalable and Efficient MoE Training for Multitask Multilingual Models ( http://arxiv.org/abs/2109.10465v1 )

ライセンス: Link先を確認
Young Jin Kim, Ammar Ahmad Awan, Alexandre Muzio, Andres Felipe Cruz Salinas, Liyang Lu, Amr Hendy, Samyam Rajbhandari, Yuxiong He and Hany Hassan Awadalla(参考訳) Mixture of Experts (MoE)モデルは、パラメータに関してサブ線形計算コストを持つ疎活性化ディープラーニングモデルの新興クラスである。 密度の高いモデルとは対照的に、MoEのスパースアーキテクチャは、非常に低い計算予算を消費しながら、かなり精度の高いモデルサイズを増大させる機会を提供する。 しかし、大規模なMoEトレーニングをサポートするには、独自のシステムとモデリングの課題もある。 課題を克服し、MoEの機会を受け入れるために、まず、MoEモデルを数兆のパラメータに効率的にスケーリングできるシステムを開発する。 マルチ次元の並列性と、MoEと調和して異種メモリ技術を組み合わせることで、既存の作業に比べて8倍大きなモデルを同じハードウェア上で強化する。 システム効率の向上に加えて,moeサンプル効率の向上とエキスパートプルーニング戦略を活用した推論時間効率向上のための新たなトレーニング手法を提案する。 効率的なシステムと学習手法を組み合わせることで,言語生成のための大規模マルチタスク多言語モデルのスケールアップが可能となり,モデルの精度が大幅に向上した。 50言語で100億のパラメータでトレーニングされたモデルは、機械翻訳(mt)と多言語自然言語生成タスクで最先端のパフォーマンスを達成できます。 効率的なmoeトレーニングのシステムサポートが実装され、deepspeedライブラリでオープンソース化された。

The Mixture of Experts (MoE) models are an emerging class of sparsely activated deep learning models that have sublinear compute costs with respect to their parameters. In contrast with dense models, the sparse architecture of MoE offers opportunities for drastically growing model size with significant accuracy gain while consuming much lower compute budget. However, supporting large scale MoE training also has its own set of system and modeling challenges. To overcome the challenges and embrace the opportunities of MoE, we first develop a system capable of scaling MoE models efficiently to trillions of parameters. It combines multi-dimensional parallelism and heterogeneous memory technologies harmoniously with MoE to empower 8x larger models on the same hardware compared with existing work. Besides boosting system efficiency, we also present new training methods to improve MoE sample efficiency and leverage expert pruning strategy to improve inference time efficiency. By combining the efficient system and training methods, we are able to significantly scale up large multitask multilingual models for language generation which results in a great improvement in model accuracy. A model trained with 10 billion parameters on 50 languages can achieve state-of-the-art performance in Machine Translation (MT) and multilingual natural language generation tasks. The system support of efficient MoE training has been implemented and open-sourced with the DeepSpeed library.
翻訳日:2021-09-23 14:01:00 公開日:2021-09-22
# 人的フィードバックによる再帰的要約

Recursively Summarizing Books with Human Feedback ( http://arxiv.org/abs/2109.10862v1 )

ライセンス: Link先を確認
Jeff Wu, Long Ouyang, Daniel M. Ziegler, Nissan Stiennon, Ryan Lowe, Jan Leike, Paul Christiano(参考訳) 機械学習をスケールする上で大きな課題は、人間が評価するのに非常に困難または時間を要するタスクを実行するためのモデルをトレーニングすることだ。 本稿では,小説全体の抽象要約の課題として,この問題の進展について述べる。 提案手法は,人間のフィードバックからの学習と再帰的タスク分解(recursive Task decomposition)を組み合わせ,タスクの小さな部分で訓練されたモデルを用いて,より広範なタスクに対するフィードバックの提供を支援する。 我々は,人間のラベルから大量の実演と比較を収集し,行動クローニングと報酬モデルを用いて微調整GPT-3を用いて再帰的に要約を行う。 推測時、モデルはまず本の小さな部分を要約し、次にこれらの要約を再帰的に要約して本全体の要約を生成する。 人間のラベルは、本を全部読んでいないにもかかわらず、モデルを素早く監視し、評価することができます。 得られたモデルは本全体の感性的な要約を生成し、人間による要約の質をいくつかのケースで比較する(\sim5\%$)。 書籍長要約のための最近のBookSumデータセットについて,最先端の成果を得た。 これらの要約を用いたゼロショット質問回答モデルは,本や映画の脚本に関する疑問に答えるためのナラティブQAベンチマークにおいて,最先端の結果が得られる。 モデルからサンプルのデータセットをリリースします。

A major challenge for scaling machine learning is training models to perform tasks that are very difficult or time-consuming for humans to evaluate. We present progress on this problem on the task of abstractive summarization of entire fiction novels. Our method combines learning from human feedback with recursive task decomposition: we use models trained on smaller parts of the task to assist humans in giving feedback on the broader task. We collect a large volume of demonstrations and comparisons from human labelers, and fine-tune GPT-3 using behavioral cloning and reward modeling to do summarization recursively. At inference time, the model first summarizes small sections of the book and then recursively summarizes these summaries to produce a summary of the entire book. Our human labelers are able to supervise and evaluate the models quickly, despite not having read the entire books themselves. Our resulting model generates sensible summaries of entire books, even matching the quality of human-written summaries in a few cases ($\sim5\%$ of books). We achieve state-of-the-art results on the recent BookSum dataset for book-length summarization. A zero-shot question-answering model using these summaries achieves state-of-the-art results on the challenging NarrativeQA benchmark for answering questions about books and movie scripts. We release datasets of samples from our model.
翻訳日:2021-09-23 14:00:39 公開日:2021-09-22
# 決定論的アクター臨界法による深部強化学習における誤差補正

Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods ( http://arxiv.org/abs/2109.10736v1 )

ライセンス: Link先を確認
Baturay Saglam, Enes Duran, Dogan C. Cicek, Furkan B. Mutlu, Suleyman S. Kozat(参考訳) 価値に基づく深層強化学習法では、値関数の近似は過大評価バイアスを誘発し、準最適ポリシーをもたらす。 過大評価バイアスを克服することを目的とした深いアクター批判的手法では,エージェントが受信した強化信号のばらつきが大きい場合,顕著な過大評価バイアスが発生する。 過小評価を最小限に抑えるため,パラメータフリーで新しいQ-ラーニングモデルを提案する。 我々のQ値更新ルールは、最大演算子と最小演算子のネストした組み合わせにより、評価目標を計算し、近似値推定をバウンドする、Clipped Double Q-learningとMaxmin Q-learningの背景にある概念を組み合わせる。 我々は,いくつかのopenai体育館連続制御タスクのスイートの修正を評価し,テスト環境における最新技術を改善した。

In value-based deep reinforcement learning methods, approximation of value functions induces overestimation bias and leads to suboptimal policies. We show that in deep actor-critic methods that aim to overcome the overestimation bias, if the reinforcement signals received by the agent have a high variance, a significant underestimation bias arises. To minimize the underestimation, we introduce a parameter-free, novel deep Q-learning variant. Our Q-value update rule combines the notions behind Clipped Double Q-learning and Maxmin Q-learning by computing the critic objective through the nested combination of maximum and minimum operators to bound the approximate value estimates. We evaluate our modification on the suite of several OpenAI Gym continuous control tasks, improving the state-of-the-art in every environment tested.
翻訳日:2021-09-23 14:00:19 公開日:2021-09-22
# ブラックボックスメタ強化学習への対称性の導入

Introducing Symmetries to Black Box Meta Reinforcement Learning ( http://arxiv.org/abs/2109.10781v1 )

ライセンス: Link先を確認
Louis Kirsch, Sebastian Flennerhag, Hado van Hasselt, Abram Friesen, Junhyuk Oh, Yutian Chen(参考訳) メタ強化学習(RL)は環境相互作用から新しいRLアルゴリズムを自動的に発見する。 いわゆるブラックボックスアプローチでは、ポリシと学習アルゴリズムは単一のニューラルネットワークで表現される。 これらの手法は非常に柔軟であるが、新しい目に見えない環境への一般化という点では性能が劣る傾向にある。 本稿ではメタ一般化における対称性の役割について考察する。 バックプロパゲーションに基づく学習の目的をメタ学習する最近のメタrlアプローチは、典型的なブラックボックスメタrlシステムには存在しないある種の対称性(特に学習規則の再利用、入出力順列の不分散)を示している。 メタ一般化においてこれらの対称性が重要な役割を果たすと仮定する。 black-box supervised meta learning の最近の成果を基に,これらと同じ対称性を示す black-box meta rl システムを開発した。 注意深い実験を通して、これらの対称性を取り入れることで、目に見えないアクションや観測空間、タスク、環境に一般化できるアルゴリズムが実現できることを示します。

Meta reinforcement learning (RL) attempts to discover new RL algorithms automatically from environment interaction. In so-called black-box approaches, the policy and the learning algorithm are jointly represented by a single neural network. These methods are very flexible, but they tend to underperform in terms of generalisation to new, unseen environments. In this paper, we explore the role of symmetries in meta-generalisation. We show that a recent successful meta RL approach that meta-learns an objective for backpropagation-base d learning exhibits certain symmetries (specifically the reuse of the learning rule, and invariance to input and output permutations) that are not present in typical black-box meta RL systems. We hypothesise that these symmetries can play an important role in meta-generalisation. Building off recent work in black-box supervised meta learning, we develop a black-box meta RL system that exhibits these same symmetries. We show through careful experimentation that incorporating these symmetries can lead to algorithms with a greater ability to generalise to unseen action & observation spaces, tasks, and environments.
翻訳日:2021-09-23 14:00:03 公開日:2021-09-22
# Locality Matters: 協調型マルチエージェント強化学習のためのスケーラブルな値分解アプローチ

Locality Matters: A Scalable Value Decomposition Approach for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2109.10632v1 )

ライセンス: Link先を確認
Roy Zohar, Shie Mannor, Guy Tennenholtz(参考訳) 協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間のために,スケーラビリティに重大な問題に直面している。 環境が大きくなるにつれて、効果的なクレジットの割り当てはますます難しくなり、しばしば実現不可能な学習時間をもたらす。 それでも、多くの実世界の環境では、よりスケーラブルなソリューションに活用できる、単純化された基盤となるダイナミクスが存在する。 本研究では,このような局所構造を,グローバルな協力を維持しつつ効果的に活用する。 集中型訓練分散実行パラダイムに局所的な報酬を取り入れた,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。 さらに,グローバル信号のみを提供する場合,局所的な報酬を見つけるための直接報酬分解法を提案する。 本手法を経験的にテストし,他の手法と比較してスケール性が良好であることを示し,性能と収束速度を大幅に改善した。

Cooperative multi-agent reinforcement learning (MARL) faces significant scalability issues due to state and action spaces that are exponentially large in the number of agents. As environments grow in size, effective credit assignment becomes increasingly harder and often results in infeasible learning times. Still, in many real-world settings, there exist simplified underlying dynamics that can be leveraged for more scalable solutions. In this work, we exploit such locality structures effectively whilst maintaining global cooperation. We propose a novel, value-based multi-agent algorithm called LOMAQ, which incorporates local rewards in the Centralized Training Decentralized Execution paradigm. Additionally, we provide a direct reward decomposition method for finding these local rewards when only a global signal is provided. We test our method empirically, showing it scales well compared to other methods, significantly improving performance and convergence speed.
翻訳日:2021-09-23 13:59:46 公開日:2021-09-22
# DialogueBERT: 自己監督型学習ベース対話事前学習エンコーダ

DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training Encoder ( http://arxiv.org/abs/2109.10480v1 )

ライセンス: Link先を確認
Zhenyu Zhang, Tao Guo and Meng Chen(参考訳) 人工知能の急速な発展に伴い、会話ボットは主流のEコマースプラットフォームで普及し、便利なカスタマーサービスをタイムリーに提供できるようになった。 ユーザを満足させるためには、会話ボットはユーザの意図を理解し、ユーザの感情を検出し、会話発話から重要なエンティティを抽出する必要がある。 しかし,対話の理解は非常に難しい課題と考えられる。 共通言語理解と異なり、対話における発話は異なる役割と交互に現れ、通常は階層構造として構成される。 本稿では、対話の理解を容易にするために、人気のある事前学習型言語モデルBERTに基づく新しい文脈対話エンコーダ(ダイアログBERT)を提案する。 ダイアルージュ発話の特殊性を学ぶために,5つの自己教師付き学習前学習タスクが考案された。 4つの異なる入力埋め込みが統合され、ターン埋め込み、ロール埋め込み、トークン埋め込み、位置埋め込みなど、発話間の関係を捉える。 DialogueBERTは、実シナリオで7000万の対話で事前訓練され、3つの異なる下流対話理解タスクで微調整された。 実験の結果、DilogueBERTは意図認識の88.63%、感情認識の94.25%、名前付きエンティティ認識の97.04%のスコアでエキサイティングな結果が得られることがわかった。

With the rapid development of artificial intelligence, conversational bots have became prevalent in mainstream E-commerce platforms, which can provide convenient customer service timely. To satisfy the user, the conversational bots need to understand the user's intention, detect the user's emotion, and extract the key entities from the conversational utterances. However, understanding dialogues is regarded as a very challenging task. Different from common language understanding, utterances in dialogues appear alternately from different roles and are usually organized as hierarchical structures. To facilitate the understanding of dialogues, in this paper, we propose a novel contextual dialogue encoder (i.e. DialogueBERT) based on the popular pre-trained language model BERT. Five self-supervised learning pre-training tasks are devised for learning the particularity of dialouge utterances. Four different input embeddings are integrated to catch the relationship between utterances, including turn embedding, role embedding, token embedding and position embedding. DialogueBERT was pre-trained with 70 million dialogues in real scenario, and then fine-tuned in three different downstream dialogue understanding tasks. Experimental results show that DialogueBERT achieves exciting results with 88.63% accuracy for intent recognition, 94.25% accuracy for emotion recognition and 97.04% F1 score for named entity recognition, which outperforms several strong baselines by a large margin.
翻訳日:2021-09-23 13:59:18 公開日:2021-09-22
# セマンティック・パーシングのための事前学習言語モデルからの潜在グラウンドの覚醒

Awakening Latent Grounding from Pretrained Language Models for Semantic Parsing ( http://arxiv.org/abs/2109.10540v1 )

ライセンス: Link先を確認
Qian Liu, Dejian Yang, Jiahui Zhang, Jiaqi Guo, Bin Zhou, Jian-Guang Lou(参考訳) 近年、PLM(Pretrained Language Model)が下流のタスクで成功し、モデリング言語に力を発揮している。 PLMが学んだことをよりよく理解し活用するために、PLMが関連する構文構造を探索するいくつかの手法が登場した。 しかし, PLMの接地能力について検討する努力はほとんど行われていない。 本稿では,提案手法と組み合わせれば,どのトークンをどの概念に当てはめるべきかをplmが発見できることを示す。 4つのデータセットに関する実証的研究は、トレーニング中にそのようなラベルに晒されていなくても、我々のアプローチが人間の専門家に理解可能な潜伏基盤を目覚められることを示した。 さらに重要なことに、このアプローチは下流のセマンティック解析モデルに利益をもたらす大きな可能性を示しています。 ケーススタディとしてtext-to-SQLを採用して、当社のアプローチを2つの既製のパーサーと組み合わせて、最大9.8%の改善を実現しました。

Recent years pretrained language models (PLMs) hit a success on several downstream tasks, showing their power on modeling language. To better understand and leverage what PLMs have learned, several techniques have emerged to explore syntactic structures entailed by PLMs. However, few efforts have been made to explore grounding capabilities of PLMs, which are also essential. In this paper, we highlight the ability of PLMs to discover which token should be grounded to which concept, if combined with our proposed erasing-then-awakeni ng approach. Empirical studies on four datasets demonstrate that our approach can awaken latent grounding which is understandable to human experts, even if it is not exposed to such labels during training. More importantly, our approach shows great potential to benefit downstream semantic parsing models. Taking text-to-SQL as a case study, we successfully couple our approach with two off-the-shelf parsers, obtaining an absolute improvement of up to 9.8%.
翻訳日:2021-09-23 13:58:55 公開日:2021-09-22
# 公正表現のためのコントラスト学習

Contrastive Learning for Fair Representations ( http://arxiv.org/abs/2109.10645v1 )

ライセンス: Link先を確認
Aili Shen, Xudong Han, Trevor Cohn, Timothy Baldwin, Lea Frermann(参考訳) 訓練された分類モデルは意図せずバイアスのある表現や予測を導き、社会的先入観やステレオタイプを補強することができる。 対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。 本稿では,同じクラスラベルを共有するインスタンスに類似した表現が奨励され,保護属性を共有するインスタンスはさらに分離される,対照的な学習を取り入れた分類器訓練におけるバイアス軽減手法を提案する。 このような方法では,タスクラベルを集中した領域でキャプチャする表現を学習し,保護属性が広範囲に分散していることを確認した上で,予測への影響を限定し,より公平なモデルを生成する。 nlpとコンピュータビジョンの4つの課題における広範囲な実験結果 (a)提案手法が,競争ベースラインと比較して公正な表現を達成し,バイアス低減を実現すること,及び (b)主業務性能を犠牲にすることなく行うことができること (c) バイアスを低減しながら1つのタスクで新しい最先端のパフォーマンスを設定すること。 最後に,本手法は概念的に単純であり,ネットワークアーキテクチャに依存せず,計算コストも最小限に抑えられる。

Trained classification models can unintentionally lead to biased representations and predictions, which can reinforce societal preconceptions and stereotypes. Existing debiasing methods for classification models, such as adversarial training, are often expensive to train and difficult to optimise. In this paper, we propose a method for mitigating bias in classifier training by incorporating contrastive learning, in which instances sharing the same class label are encouraged to have similar representations, while instances sharing a protected attribute are forced further apart. In such a way our method learns representations which capture the task label in focused regions, while ensuring the protected attribute has diverse spread, and thus has limited impact on prediction and thereby results in fairer models. Extensive experimental results across four tasks in NLP and computer vision show (a) that our proposed method can achieve fairer representations and realises bias reductions compared with competitive baselines; and (b) that it can do so without sacrificing main task performance; (c) that it sets a new state-of-the-art performance in one task despite reducing the bias. Finally, our method is conceptually simple and agnostic to network architectures, and incurs minimal additional compute cost.
翻訳日:2021-09-23 13:58:36 公開日:2021-09-22
# 階層型マルチモーダルトランスによる映像要約

Hierarchical Multimodal Transformer to Summarize Videos ( http://arxiv.org/abs/2109.10559v1 )

ライセンス: Link先を確認
Bin Zhao, Maoguo Gong, Xuelong Li(参考訳) ビデオ要約は、リカレントニューラルネットワーク(RNN)の恩恵を受けているが、RNNベースの手法は、ビデオフレーム間のグローバル依存関係やマルチホップ関係を無視し、パフォーマンスを制限している。 Transformerはこの問題に対処するための効果的なモデルであり、機械翻訳、ビデオキャプション、 \emph{etc} など、いくつかのシーケンスモデリングタスクにおいて、RNNベースのメソッドを超える。 変圧器の大成功と映像の自然な構造(フレームショットビデオ)に動機づけられた階層的変圧器を開発し,フレームとショット間の依存関係をキャプチャし,シーン情報を利用して映像を要約する。 さらに,映像要約作業には音声情報と視覚情報の両方が不可欠であると主張する。 2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。 本稿では,提案手法を階層型マルチモーダルトランス (HMT) と呼ぶ。 実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。

Although video summarization has achieved tremendous success benefiting from Recurrent Neural Networks (RNN), RNN-based methods neglect the global dependencies and multi-hop relationships among video frames, which limits the performance. Transformer is an effective model to deal with this problem, and surpasses RNN-based methods in several sequence modeling tasks, such as machine translation, video captioning, \emph{etc}. Motivated by the great success of transformer and the natural structure of video (frame-shot-video), a hierarchical transformer is developed for video summarization, which can capture the dependencies among frame and shots, and summarize the video by exploiting the scene information formed by shots. Furthermore, we argue that both the audio and visual information are essential for the video summarization task. To integrate the two kinds of information, they are encoded in a two-stream scheme, and a multimodal fusion mechanism is developed based on the hierarchical transformer. In this paper, the proposed method is denoted as Hierarchical Multimodal Transformer (HMT). Practically, extensive experiments show that HMT surpasses most of the traditional, RNN-based and attention-based video summarization methods.
翻訳日:2021-09-23 13:58:18 公開日:2021-09-22
# 深層強化学習のための車線変更決定のベンチマーク

Benchmarking Lane-changing Decision-making for Deep Reinforcement Learning ( http://arxiv.org/abs/2109.10490v1 )

ライセンス: Link先を確認
Junjie Wang, Qichao Zhang, Dongbin Zhao(参考訳) 近年,自動運転車の開発が注目されており,自動運転の性能を評価することが不可欠である。 しかし、道路での試験は高価で非効率である。 仮想テストは、自動運転車の検証と検証の主要な方法であり、仮想テストの基礎はシミュレーションシナリオを構築することである。 本稿では,深い強化学習の観点から,車線変更作業のためのトレーニング,テスト,評価パイプラインを提案する。 まず、トレーニングとテストのためにレーン変更シナリオを設計し、テストシナリオには確率的かつ決定論的部分が含まれます。 そして、学習と非学習のアプローチからなる一連のベンチマークをデプロイする。 設計したトレーニングシナリオにおいて,最先端の深層強化学習方法をトレーニングし,テストシナリオにおけるトレーニングモデルのベンチマーク評価結果を提供する。 設計された車線変更シナリオとベンチマークはどちらも、車線変更タスクに対して一貫した実験環境を提供するためにオープンされます。

The development of autonomous driving has attracted extensive attention in recent years, and it is essential to evaluate the performance of autonomous driving. However, testing on the road is expensive and inefficient. Virtual testing is the primary way to validate and verify self-driving cars, and the basis of virtual testing is to build simulation scenarios. In this paper, we propose a training, testing, and evaluation pipeline for the lane-changing task from the perspective of deep reinforcement learning. First, we design lane change scenarios for training and testing, where the test scenarios include stochastic and deterministic parts. Then, we deploy a set of benchmarks consisting of learning and non-learning approaches. We train several state-of-the-art deep reinforcement learning methods in the designed training scenarios and provide the benchmark metrics evaluation results of the trained models in the test scenarios. The designed lane-changing scenarios and benchmarks are both opened to provide a consistent experimental environment for the lane-changing task.
翻訳日:2021-09-23 13:57:38 公開日:2021-09-22
# Index $t$-SNE: コヒーレント埋め込みによる高次元データセットの追跡ダイナミクス

Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with Coherent Embeddings ( http://arxiv.org/abs/2109.10538v1 )

ライセンス: Link先を確認
Ga\"elle Candel, David Naccache(参考訳) t$-sne は、データサイエンスコミュニティが広く2つの興味深い特徴を持っている埋め込み手法であり、構造保存特性と、高次元空間内のすべての隣人が低次元空間で正しく表現できないような群集問題への答えである。 t$-sneは地元の近所を保存し、同様のアイテムは局所的な密度に合わせることでうまく空間化される。 これらの2つの特徴は有意義な表現を生み出し、クラスタ面積はその大きさに比例し、クラスタ間の関係は埋め込みの密接性によって実現される。 このアルゴリズムは非パラメトリックであるため、アルゴリズムの初期化は2つの異なる埋め込みをもたらす。 法医学的なアプローチでは、埋め込みを使って2つ以上のデータセットを比較したい。 アプローチは、データのサブセットで構築された埋め込みを通じてパラメトリックモデルを学ぶことである。 このアプローチは高度にスケーラブルであるが、ポイントは同じ位置にマッピングすることができ、区別がつかない。 この種のモデルは、新しい外れ値や概念ドリフトに適応できないだろう。 本稿では,クラスタの位置を保存した新しいものを作成するために埋め込みを再利用する手法を提案する。 最適化プロセスは、埋め込み形状に対する2つのコストと、支持埋め込みマッチングに対する2つのコストを最小化する。 提案されたアルゴリズムは、新しいアイテムを組み込むのに元の$t$-sneと同じ複雑さを持ち、サブピースにスライスされたデータセットを組み込む場合の複雑さが低い。 この手法は実世界のデータセットで有望な結果を示し、クラスターの誕生、進化、死を観察できる。 提案手法は重要なトレンドや変化を識別し、高次元データセットのダイナミクスの監視を促進する。

$t$-SNE is an embedding method that the data science community has widely Two interesting characteristics of t-SNE are the structure preservation property and the answer to the crowding problem, where all neighbors in high dimensional space cannot be represented correctly in low dimensional space. $t$-SNE preserves the local neighborhood, and similar items are nicely spaced by adjusting to the local density. These two characteristics produce a meaningful representation, where the cluster area is proportional to its size in number, and relationships between clusters are materialized by closeness on the embedding. This algorithm is non-parametric, therefore two initializations of the algorithm would lead to two different embedding. In a forensic approach, analysts would like to compare two or more datasets using their embedding. An approach would be to learn a parametric model over an embedding built with a subset of data. While this approach is highly scalable, points could be mapped at the same exact position, making them indistinguishable. This type of model would be unable to adapt to new outliers nor concept drift. This paper presents a methodology to reuse an embedding to create a new one, where cluster positions are preserved. The optimization process minimizes two costs, one relative to the embedding shape and the second relative to the support embedding' match. The proposed algorithm has the same complexity than the original $t$-SNE to embed new items, and a lower one when considering the embedding of a dataset sliced into sub-pieces. The method showed promising results on a real-world dataset, allowing to observe the birth, evolution and death of clusters. The proposed approach facilitates identifying significant trends and changes, which empowers the monitoring high dimensional datasets' dynamics.
翻訳日:2021-09-23 13:57:24 公開日:2021-09-22
# MEPG: 深層強化学習のためのミニマリストアンサンブルポリシーグラディエントフレームワーク

MEPG: A Minimalist Ensemble Policy Gradient Framework for Deep Reinforcement Learning ( http://arxiv.org/abs/2109.10552v1 )

ライセンス: Link先を確認
Qiang He, Chen Gong, Yuxun Qu, Xiaoyu Chen, Xinwen Hou, Yu Liu(参考訳) エンサンブル強化学習(RL)は、Qラーニングにおける不安定性を緩和し、複数の価値とポリシー機能を導入する堅牢なポリシーを学ぶことを目的としている。 本稿では,資源消費問題を解決するために,新しい単純なアンサンブル・ディープRLアルゴリズムを提案する。 具体的には、複数のモデルを単一のモデルに統合することを検討する。 この目的のために,最小限のアンサンブル一貫性を持つベルマン更新を導入した,アンダーライン{M}inimalist \underline{E}nsemble \underline{P}olicy \underline{G}radient framework (MEPG)を提案する。 そして、私たちのフレームワークでは1つの価値ネットワークが十分です。 さらに,MEPGの政策評価フェーズが深いガウス過程と数学的に等価であることを理論的に示す。 我々は,MEPGフレームワークの有効性を検証するため,体育シミュレータ上で実験を行い,MEPGフレームワークが計算資源の余分なコストを伴わずに,最先端のアンサンブル手法とモデルフリー手法とを適合させることを示した。

Ensemble reinforcement learning (RL) aims to mitigate instability in Q-learning and to learn a robust policy, which introduces multiple value and policy functions. In this paper, we consider finding a novel but simple ensemble Deep RL algorithm to solve the resource consumption issue. Specifically, we consider integrating multiple models into a single model. To this end, we propose the \underline{M}inimalist \underline{E}nsemble \underline{P}olicy \underline{G}radient framework (MEPG), which introduces minimalist ensemble consistent Bellman update. And we find one value network is sufficient in our framework. Moreover, we theoretically show that the policy evaluation phase in the MEPG is mathematically equivalent to a deep Gaussian Process. To verify the effectiveness of the MEPG framework, we conduct experiments on the gym simulator, which show that the MEPG framework matches or outperforms the state-of-the-art ensemble methods and model-free methods without additional computational resource costs.
翻訳日:2021-09-23 13:56:53 公開日:2021-09-22
# クラスタリングとロールバックによるCNNオートプルーニングの高次元ベイズ最適化

High-dimensional Bayesian Optimization for CNN Auto Pruning with Clustering and Rollback ( http://arxiv.org/abs/2109.10591v1 )

ライセンス: Link先を確認
Jiandong Mu, Hanwei Fan, Wei Zhang(参考訳) プルーニングは畳み込みニューラルネットワーク(CNN)モデルをスリム化し、精度とモデルサイズとの良好なトレードオフを達成するために広く用いられており、携帯電話などの電力制約のあるデバイスでは、プルーニングモデルが実現可能である。 このプロセスは、高価な手作り作業を避けるために自動化され、高性能な刈り取りポリシーを効率的に実現できるように、大きな刈り取り空間を自動的に探索することができる。 今日では、強化学習(RL)とベイズ最適化(BO)に基づくオートプルーナーが、理論的基盤、普遍性、高い圧縮品質のために広く利用されている。 しかし、RLエージェントは長時間のトレーニング時間と結果のばらつきに悩まされ、BOエージェントは高次元設計空間に時間を要する。 本研究では,高次元設計空間におけるオートプルーニングの高速化を目的とした拡張BOエージェントを提案する。 これを実現するために,設計空間の次元を小さくし,探索プロセスを高速化する新しいクラスタリングアルゴリズムを提案する。 そして,高次元設計空間を復元し,高いプルーニング精度が得られるようにロールバックアルゴリズムを提案する。 我々は,提案手法をResNet,MobileNet,VGG モデルで検証し,提案手法が極めて深いCNNモデルにおいてBOの精度を大幅に向上することを示す。 さらに,本手法はRL法よりも低分散時間,短時間を実現する。

Pruning has been widely used to slim convolutional neural network (CNN) models to achieve a good trade-off between accuracy and model size so that the pruned models become feasible for power-constrained devices such as mobile phones. This process can be automated to avoid the expensive hand-crafted efforts and to explore a large pruning space automatically so that the high-performance pruning policy can be achieved efficiently. Nowadays, reinforcement learning (RL) and Bayesian optimization (BO)-based auto pruners are widely used due to their solid theoretical foundation, universality, and high compressing quality. However, the RL agent suffers from long training times and high variance of results, while the BO agent is time-consuming for high-dimensional design spaces. In this work, we propose an enhanced BO agent to obtain significant acceleration for auto pruning in high-dimensional design spaces. To achieve this, a novel clustering algorithm is proposed to reduce the dimension of the design space to speedup the searching process. Then, a roll-back algorithm is proposed to recover the high-dimensional design space so that higher pruning accuracy can be obtained. We validate our proposed method on ResNet, MobileNet, and VGG models, and our experiments show that the proposed method significantly improves the accuracy of BO when pruning very deep CNN models. Moreover, our method achieves lower variance and shorter time than the RL-based counterpart.
翻訳日:2021-09-23 13:56:31 公開日:2021-09-22
# 雑音データを用いた木構造ガウス図形モデルの分散学習

Decentralized Learning of Tree-Structured Gaussian Graphical Models from Noisy Data ( http://arxiv.org/abs/2109.10642v1 )

ライセンス: Link先を確認
Akram Hussain(参考訳) 本稿では,木構造ガウス図形モデル(GGM)の雑音データからの分散学習について検討する。 分散学習では、データセットは異なるマシン(センサー)に分散し、GGMは遺伝子制御ネットワークやソーシャルネットワークなどの複雑なネットワークをモデル化するために広く利用されている。 提案する分散学習はchow-liuアルゴリズムを用いて木構造ggmを推定する。 従来の研究では, 木構造回復の確率の上限は, 簡易化のための実用的なノイズがほとんどなかった。 本稿では,ガウス,消去,二成分対称チャネルの3種類のノイズチャネルの効果について検討する。 ガウスチャネルの場合、$d$-ノード木構造を復元する際の故障確率を上限値$\delta > 0$ を満たすために、提案する定理は、以前の文献である \cite{nikolakakis} と$\mathcal{o}(\log^4(\frac{d}{\delta})) と比較して最小のサンプルサイズに対して$\mathcal{o}(\log(\frac{d}{\delta}))$のサンプルしか必要としない。 さらに、ほぼ有界なガウス確率変数の仮定は \cite{Nikolakakis} には現れない。 木構造に関するいくつかの知識から、提案されたアルゴリズム境界は明らかにより優れた性能を達成し、より小さなサンプルサイズ(例:$<2000$)を公式境界と比較する。 最後に,合成データセットのシミュレーションにより理論的結果を検証する。

This paper studies the decentralized learning of tree-structured Gaussian graphical models (GGMs) from noisy data. In decentralized learning, data set is distributed across different machines (sensors), and GGMs are widely used to model complex networks such as gene regulatory networks and social networks. The proposed decentralized learning uses the Chow-Liu algorithm for estimating the tree-structured GGM. In previous works, upper bounds on the probability of incorrect tree structure recovery were given mostly without any practical noise for simplification. While this paper investigates the effects of three common types of noisy channels: Gaussian, Erasure, and binary symmetric channel. For Gaussian channel case, to satisfy the failure probability upper bound $\delta > 0$ in recovering a $d$-node tree structure, our proposed theorem requires only $\mathcal{O}(\log(\frac{d}{\delta}))$ samples for the smallest sample size ($n$) comparing to the previous literature \cite{Nikolakakis} with $\mathcal{O}(\log^4(\frac{d}{\delta}))$ samples by using the positive correlation coefficient assumption that is used in some important works in the literature. Moreover, the approximately bounded Gaussian random variable assumption does not appear in \cite{Nikolakakis}. Given some knowledge about the tree structure, the proposed Algorithmic Bound will achieve obviously better performance with small sample size (e.g., $< 2000$) comparing with formulaic bounds. Finally, we validate our theoretical results by performing simulations on synthetic data sets.
翻訳日:2021-09-23 13:56:04 公開日:2021-09-22
# Deep Networks と Knockoff Counterfactuals を用いた非線形時系列の因果推論

Causal Inference in Non-linear Time-series usingDeep Networks and Knockoff Counterfactuals ( http://arxiv.org/abs/2109.10817v1 )

ライセンス: Link先を確認
Wasim Ahmad, Maha Shadaydeh, Joachim Denzler(参考訳) 多変量時系列における複雑な相互作用を理解するには因果関係の推定が不可欠である。 変数の非線形結合は、因果関係の正確な推定が難しい大きな課題の1つである。 本稿では,多変量時系列における非線形因果関係を推定するために,DeepAR(Deep Autoregressive Network)を反実解析と併用することを提案する。 我々は、DeepARを用いた確率予測を用いて、Granger因果関係の概念を拡張した。 深層ネットワークは入力の欠如や配布外介入を扱えないため、介入変数の生成と結果の偽確率予測にKnockoffsフレームワーク(Barberand Cand`es, 2015)を使用することを提案する。 ノックオフサンプルは、観測された変数の出力とは独立であり、データの基盤となる分布を変更することなく、対応する変数と交換可能である。 本手法を合成および実世界の時系列データセット上でテストする。 本手法は,多変量時系列における非線形因果依存性の検出において,広く用いられているベクトル自己回帰的グランガー因果性およびPCMCIよりも優れる。

Estimating causal relations is vital in understanding the complex interactions in multivariate time series. Non-linear coupling of variables is one of the major challenges inaccurate estimation of cause-effect relations. In this paper, we propose to use deep autoregressive networks (DeepAR) in tandem with counterfactual analysis to infer nonlinear causal relations in multivariate time series. We extend the concept of Granger causality using probabilistic forecasting with DeepAR. Since deep networks can neither handle missing input nor out-of-distribution intervention, we propose to use the Knockoffs framework (Barberand Cand`es, 2015) for generating intervention variables and consequently counterfactual probabilistic forecasting. Knockoff samples are independent of their output given the observed variables and exchangeable with their counterpart variables without changing the underlying distribution of the data. We test our method on synthetic as well as real-world time series datasets. Overall our method outperforms the widely used vector autoregressive Granger causality and PCMCI in detecting nonlinear causal dependency in multivariate time series.
翻訳日:2021-09-23 13:55:14 公開日:2021-09-22
# 高次元雑音データから学習する「意味のある距離」の概念について

The Curse Revisited: a Newly Quantified Concept of Meaningful Distances for Learning from High-Dimensional Noisy Data ( http://arxiv.org/abs/2109.10569v1 )

ライセンス: Link先を確認
Robin Vandaele, Bo Kang, Tijl De Bie, Yvan Saeys(参考訳) データポイント間の距離は、ポイントクラウド表現学習で広く使われている。 しかし、ノイズの影響下では、これらの距離とそれらに基づくモデルが高次元で有用性を失うことは周知の事実である。 実際、ノイズの小さな限界効果はすぐに蓄積され、経験的な最も近い隣人たちを地上の真理から遠ざける。 本稿では,このような効果を漸近的確率的表現を用いて高次元データで特徴付ける。 さらに、最も近い点と最も近い点の相対的な識別が不十分な場合、近隣の問い合わせは意味がなく不安定になるという主張もあるが、基底の真理データをノイズから明示的に分離する場合、必ずしもそうではないと結論付ける。 より具体的には、特定の条件下では、ノイズに影響された実証的な近隣関係は、この差別が貧弱であると見なしても、依然として真実である可能性が高い。 この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。

Distances between data points are widely used in point cloud representation learning. Yet, it is no secret that under the effect of noise, these distances-and thus the models based upon them-may lose their usefulness in high dimensions. Indeed, the small marginal effects of the noise may then accumulate quickly, shifting empirical closest and furthest neighbors away from the ground truth. In this paper, we characterize such effects in high-dimensional data using an asymptotic probabilistic expression. Furthermore, while it has been previously argued that neighborhood queries become meaningless and unstable when there is a poor relative discrimination between the furthest and closest point, we conclude that this is not necessarily the case when explicitly separating the ground truth data from the noise. More specifically, we derive that under particular conditions, empirical neighborhood relations affected by noise are still likely to be true even when we observe this discrimination to be poor. We include thorough empirical verification of our results, as well as experiments that interestingly show our derived phase shift where neighbors become random or not is identical to the phase shift where common dimensionality reduction methods perform poorly or well for finding low-dimensional representations of high-dimensional data with dense noise.
翻訳日:2021-09-23 13:54:39 公開日:2021-09-22
# 嗜好に基づくOOD検出におけるエントロピー問題

Entropic Issues in Likelihood-Based OOD Detection ( http://arxiv.org/abs/2109.10794v1 )

ライセンス: Link先を確認
Anthony L. Caterini, Gabriel Loaiza-Ganem(参考訳) 最大確率で訓練された深層生成モデルは、確率的にデータを推論するための非常に一般的な方法である。 しかし、分布外データ(OOD)は分布内データよりも高い確率を割り当てることができることが観察されており、これらの確率値の意味を疑問視している。 本研究では,この現象に対する新しい視点を示し,平均的確率をkl発散項とエントロピー項に分解する。 後者は、上述した奇妙なOOD挙動を説明し、高いエントロピーを持つデータセットの確率値を抑制することができる。 私たちのアイデアは単純ですが、文献ではまだ探索されていません。 本解析は,問題となるエントロピー項が期待値から外れるので,確率比に基づくood検出手法の成功のさらなる説明を提供する。 最後に, この観測が, 上記の分解が保たない多様体モデルによるOOD検出の最近の成功とどのように関係しているかを論じる。

Deep generative models trained by maximum likelihood remain very popular methods for reasoning about data probabilistically. However, it has been observed that they can assign higher likelihoods to out-of-distribution (OOD) data than in-distribution data, thus calling into question the meaning of these likelihood values. In this work we provide a novel perspective on this phenomenon, decomposing the average likelihood into a KL divergence term and an entropy term. We argue that the latter can explain the curious OOD behaviour mentioned above, suppressing likelihood values on datasets with higher entropy. Although our idea is simple, we have not seen it explored yet in the literature. This analysis provides further explanation for the success of OOD detection methods based on likelihood ratios, as the problematic entropy term cancels out in expectation. Finally, we discuss how this observation relates to recent success in OOD detection with manifold-supported models, for which the above decomposition does not hold.
翻訳日:2021-09-23 13:54:17 公開日:2021-09-22
# 3次テンソルデータのマルチスライスクラスタリング

Multi-Slice Clustering for 3-order Tensor Data ( http://arxiv.org/abs/2109.10803v1 )

ライセンス: Link先を確認
Dina Faneva Andriantsiory, Joseph Ben Geloun, Mustapha Lebbah(参考訳) 3次元データのトライクラスタ化には、各次元のクラスタサイズを規定する必要がある。 これはある程度の任意性をもたらす。 そこで本研究では,3次元テンソルデータセットのためのマルチスライスクラスタリング(msc)という新しい手法を提案する。 我々は、各次元またはテンソルモードにおいて、各テンソルスライス、すなわち行列のスペクトル分解を分析する。 そこで我々は,行列スライス間の類似度をしきい値(精度)パラメータまで定義し,そこからクラスタを識別する。 すべての部分クラスタの交叉は、望ましいトリクラスタリングを提供する。 本アルゴリズムの有効性は,合成データと実世界データの両方に示される。

Several methods of triclustering of three dimensional data require the specification of the cluster size in each dimension. This introduces a certain degree of arbitrariness. To address this issue, we propose a new method, namely the multi-slice clustering (MSC) for a 3-order tensor data set. We analyse, in each dimension or tensor mode, the spectral decomposition of each tensor slice, i.e. a matrix. Thus, we define a similarity measure between matrix slices up to a threshold (precision) parameter, and from that, identify a cluster. The intersection of all partial clusters provides the desired triclustering. The effectiveness of our algorithm is shown on both synthetic and real-world data sets.
翻訳日:2021-09-23 13:54:03 公開日:2021-09-22
# ベイズ最適化のためのロバスト不対称カーネル関数と製造システムにおける画像欠陥検出への応用

A Robust Asymmetric Kernel Function for Bayesian Optimization, with Application to Image Defect Detection in Manufacturing Systems ( http://arxiv.org/abs/2109.10898v1 )

ライセンス: Link先を確認
Areej AlBahar and Inyoung Kim and Xiaowei Yue(参考訳) 複雑な工学系における応答曲面関数は、通常非常に非線形で、非形式的で、高く評価される。 この課題に取り組むために、目的関数の後方分布を介してシーケンシャルな設計を行うベイズ最適化は、ブラックボックス関数のグローバル最適化を見つけるために用いられる重要な手法である。 カーネル関数は推定関数の後方分布を形成する上で重要な役割を果たす。 広く使われているカーネル関数(例えば、放射基底関数(RBF))は、非常に脆弱で、外れ値の影響を受けやすい。 本稿では、AEN-RBF(Asymmetric Elastic Net Radial Basis Function)という、堅牢なカーネル関数を提案する。 カーネル関数としての妥当性と計算複雑性を評価する。 ベースラインのRBFカーネルと比較すると、AEN-RBFは穏やかな条件下でより小さな平均2乗予測誤差を実現できることが理論的に証明されている。 提案したAEN-RBFカーネル関数は,グローバル最適化への高速収束を実現する。 また,AEN-RBFカーネル関数は外れ値に対する感度が低く,ガウス過程によるベイズ最適化の堅牢性も向上することを示した。 合成および実世界の最適化問題に関する広範囲な評価を通じて、aen-rbfが既存のベンチマークカーネル関数よりも優れていることを示す。

Some response surface functions in complex engineering systems are usually highly nonlinear, unformed, and expensive-to-evaluat e. To tackle this challenge, Bayesian optimization, which conducts sequential design via a posterior distribution over the objective function, is a critical method used to find the global optimum of black-box functions. Kernel functions play an important role in shaping the posterior distribution of the estimated function. The widely used kernel function, e.g., radial basis function (RBF), is very vulnerable and susceptible to outliers; the existence of outliers is causing its Gaussian process surrogate model to be sporadic. In this paper, we propose a robust kernel function, Asymmetric Elastic Net Radial Basis Function (AEN-RBF). Its validity as a kernel function and computational complexity are evaluated. When compared to the baseline RBF kernel, we prove theoretically that AEN-RBF can realize smaller mean squared prediction error under mild conditions. The proposed AEN-RBF kernel function can also realize faster convergence to the global optimum. We also show that the AEN-RBF kernel function is less sensitive to outliers, and hence improves the robustness of the corresponding Bayesian optimization with Gaussian processes. Through extensive evaluations carried out on synthetic and real-world optimization problems, we show that AEN-RBF outperforms existing benchmark kernel functions.
翻訳日:2021-09-23 13:53:54 公開日:2021-09-22
# ラベルクリーニング 複数インスタンス学習:単一スライダー画像における粗いアノテーションの洗練

Label Cleaning Multiple Instance Learning: Refining Coarse Annotations on Single Whole-Slide Images ( http://arxiv.org/abs/2109.10778v1 )

ライセンス: Link先を確認
Zhenzhen Wang, Aleksander S. Popel, Jeremias Sulam(参考訳) 病理サンプルの全スライディング画像(WSI)中の癌領域のアノテーションは、臨床診断、生医学研究、機械学習アルゴリズム開発において重要な役割を果たす。 しかし、徹底的で正確なアノテーションの生成は、労働集約的で、挑戦的で、コストがかかる。 粗末で近似的なアノテーションだけを描くのはずっと簡単で、コストも安く、病理学者の作業負荷を軽減します。 本稿では,これらの近似注釈をデジタル病理学で精錬し,より正確な注釈を得る問題について検討する。 以前の研究では、これらの不正確なアノテーションから機械学習モデルを取得することを検討しているが、誤ったラベルされた領域を明示的に識別して修正し、それらすべてに(しばしば非常に大きな)トレーニングサンプルを必要とする、リファインメント問題に取り組むものはほとんどない。 外部トレーニングデータを必要とせずに、単一のWSI上で粗いアノテーションを洗練するための、LC-MIL(Label Cleaning Multiple Instance Learning)という手法を提案する。 不正確なラベルを持つWSIから採取したパッチは、MILフレームワークと共に処理され、深い注意機構を利用して、誤ラベルされたインスタンスを識別し、予測モデルへの影響を軽減し、セグメンテーションを精査する。 乳癌リンパ節転移,肝癌,大腸癌の検体を併用した異種 WSI 実験の結果,LC-MIL は粗いアノテーションを著しく改善し,単一スライドから学習しながらも最先端の代替品よりも優れていた。 これらの結果は,LC-MILが粗い注釈付き病理セットから微細なアノテーションを提供するための,有望で軽量なツールであることを示す。

Annotating cancerous regions in whole-slide images (WSIs) of pathology samples plays a critical role in clinical diagnosis, biomedical research, and machine learning algorithms development. However, generating exhaustive and accurate annotations is labor-intensive, challenging, and costly. Drawing only coarse and approximate annotations is a much easier task, less costly, and it alleviates pathologists' workload. In this paper, we study the problem of refining these approximate annotations in digital pathology to obtain more accurate ones. Some previous works have explored obtaining machine learning models from these inaccurate annotations, but few of them tackle the refinement problem where the mislabeled regions should be explicitly identified and corrected, and all of them require a - often very large - number of training samples. We present a method, named Label Cleaning Multiple Instance Learning (LC-MIL), to refine coarse annotations on a single WSI without the need of external training data. Patches cropped from a WSI with inaccurate labels are processed jointly with a MIL framework, and a deep-attention mechanism is leveraged to discriminate mislabeled instances, mitigating their impact on the predictive model and refining the segmentation. Our experiments on a heterogeneous WSI set with breast cancer lymph node metastasis, liver cancer, and colorectal cancer samples show that LC-MIL significantly refines the coarse annotations, outperforming the state-of-the-art alternatives, even while learning from a single slide. These results demonstrate the LC-MIL is a promising, lightweight tool to provide fine-grained annotations from coarsely annotated pathology sets.
翻訳日:2021-09-23 13:53:18 公開日:2021-09-22
# hybridsdf: 自由形状と幾何学的プリミティブを組み合わせた効果的な形状操作

HybridSDF: Combining Free Form Shapes and Geometric Primitives for effective Shape Manipulation ( http://arxiv.org/abs/2109.10767v1 )

ライセンス: Link先を確認
Subeesh Vasu, Nicolas Talabot, Artem Lukoianov, Pierre Baque, Jonathan Donier, Pascal Fua(参考訳) CADモデリングは通常、単純な幾何学的プリミティブの使用を伴うが、ディープラーニングに基づく3次元表面モデリングの最近の進歩は、新しい形状設計の道を開いた。 残念なことに、これらの進歩はCADコミュニティではまだ受け入れられていない。 そこで本稿では,解釈可能性の維持,一貫性の強化,操作の容易化を図るために,暗黙曲面で表される幾何学的プリミティブと自由曲面を効果的に組み合わせる手法を提案する。

CAD modeling typically involves the use of simple geometric primitives whereas recent advances in deep-learning based 3D surface modeling have opened new shape design avenues. Unfortunately, these advances have not yet been accepted by the CAD community because they cannot be integrated into engineering workflows. To remedy this, we propose a novel approach to effectively combining geometric primitives and free-form surfaces represented by implicit surfaces for accurate modeling that preserves interpretability, enforces consistency, and enables easy manipulation.
翻訳日:2021-09-23 13:52:48 公開日:2021-09-22
# アグリメティブクラスタリングを用いた位置追跡による弁別

Diarisation using Location tracking with agglomerative clustering ( http://arxiv.org/abs/2109.10598v1 )

ライセンス: Link先を確認
Jeremy H. M. Wong, Igor Abramovski, Xiong Xiao, and Yifan Gong(参考訳) 従来の研究では、空間的位置情報は話者ダイアリゼーションタスクのための話者埋め込みと相補的であることが示されている。 しかし、しばしば使われるモデルは、話し手が会議を通じてかなり静止していると仮定する。 本稿では,agglomerative hierarchical clustering (ahc)ダイアリゼーションフレームワーク内の話者の動きを明示的にモデル化することにより,この仮定を緩和する。 話者の位置を追跡するKalmanフィルタは、AHCマージと停止決定のためのクラスタ親和性計算に寄与するログライクな比率を計算するために使用される。 実験により、提案手法はマイクロソフトのリッチミーティングの転写タスクにおいて、位置情報を使用しない手法や定常性を仮定した手法と比較して改善できることを示した。

Previous works have shown that spatial location information can be complementary to speaker embeddings for a speaker diarisation task. However, the models used often assume that speakers are fairly stationary throughout a meeting. This paper proposes to relax this assumption, by explicitly modelling the movements of speakers within an Agglomerative Hierarchical Clustering (AHC) diarisation framework. Kalman filters, which track the locations of speakers, are used to compute log-likelihood ratios that contribute to the cluster affinity computations for the AHC merging and stopping decisions. Experiments show that the proposed approach is able to yield improvements on a Microsoft rich meeting transcription task, compared to methods that do not use location information or that make stationarity assumptions.
翻訳日:2021-09-23 13:52:20 公開日:2021-09-22
# コスト効率の良いファイバ・トゥ・ザ・ホームネットワーク拡張のためのグラフにおける大型スチナーツリー問題の解法

Solving Large Steiner Tree Problems in Graphs for Cost-Efficient Fiber-To-The-Home Network Expansion ( http://arxiv.org/abs/2109.10617v1 )

ライセンス: Link先を確認
Tobias M\"uller, Kyrill Schmid, Dani\"elle Schuman, Thomas Gabor, Markus Friedrich, Marc Geitz(参考訳) fiber-to-the-home (ftth)ネットワークの拡張は、高価な掘削手順によって高いコストを発生させる。 計画プロセスの最適化と地球掘削作業のコストの最小化により、大きな貯蓄がもたらされる。 数学的には、FTTHネットワーク問題は最小のSteiner Tree問題として記述できる。 Steiner Treeの問題はここ数十年ですでに徹底的に研究されているが、新しいコンピューティングパラダイムと新しいアプローチの助けを借りてさらに最適化されるかもしれない。 この研究は、量子アニーリング、シミュレートアニーリング、進化アルゴリズムやスライム・モールドに基づく最適化のような自然にインスパイアされた手法など、今後の技術を研究する。 さらに,分割と簡易化について検討する。 いくつかの実生活問題で評価すると、従来の広く使われているベースライン(ネットワークx近似解法)をほとんどのドメインで上回ることができる。 初期グラフと提示スライム型アプローチの事前分割は, コスト効率のよい近似法として特に有用であった。 Quantum Annealingは有望なようだが、利用可能な量子ビットの数によって制限された。

The expansion of Fiber-To-The-Home (FTTH) networks creates high costs due to expensive excavation procedures. Optimizing the planning process and minimizing the cost of the earth excavation work therefore lead to large savings. Mathematically, the FTTH network problem can be described as a minimum Steiner Tree problem. Even though the Steiner Tree problem has already been investigated intensively in the last decades, it might be further optimized with the help of new computing paradigms and emerging approaches. This work studies upcoming technologies, such as Quantum Annealing, Simulated Annealing and nature-inspired methods like Evolutionary Algorithms or slime-mold-based optimization. Additionally, we investigate partitioning and simplifying methods. Evaluated on several real-life problem instances, we could outperform a traditional, widely-used baseline (NetworkX Approximate Solver) on most of the domains. Prior partitioning of the initial graph and the presented slime-mold-based approach were especially valuable for a cost-efficient approximation. Quantum Annealing seems promising, but was limited by the number of available qubits.
翻訳日:2021-09-23 13:51:48 公開日:2021-09-22
# 非線形システム同定における潜時回復力のアプローチ

A Latent Restoring Force Approach to Nonlinear System Identification ( http://arxiv.org/abs/2109.10681v1 )

ライセンス: Link先を確認
Timothy J. Rogers and Tobias Friis(参考訳) 非線形力学系の同定は工学における重要な課題である。 本研究は, ベイズフィルタを基礎として, 力面型アプローチの代替的視点として見なされる未知の非線形項を抽出・同定する手法を提案する。 この同定を達成するために、非線形復元力である寄与は、当初はガウス過程としてモデル化される。 ガウス過程は状態空間モデルに変換され、システムの線形動的成分と結合される。 そして、フィルタリングおよび平滑化分布を推定することにより、システムの内部状態と非線形復元力とを抽出することができる。 これらの状態を持つ場合、非線形モデルを構築することができる。 この手法はシミュレートされたケーススタディと実験的なベンチマークデータセットの両方で有効であることが示されている。

Identification of nonlinear dynamic systems remains a significant challenge across engineering. This work suggests an approach based on Bayesian filtering to extract and identify the contribution of an unknown nonlinear term in the system which can be seen as an alternative viewpoint on restoring force surface type approaches. To achieve this identification, the contribution which is the nonlinear restoring force is modelled, initially, as a Gaussian process in time. That Gaussian process is converted into a state-space model and combined with the linear dynamic component of the system. Then, by inference of the filtering and smoothing distributions, the internal states of the system and the nonlinear restoring force can be extracted. In possession of these states a nonlinear model can be constructed. The approach is demonstrated to be effective in both a simulated case study and on an experimental benchmark dataset.
翻訳日:2021-09-23 13:51:28 公開日:2021-09-22
# 非接触映像に基づく生理的評価のためのV4Vの最初のビジョン

The First Vision For Vitals (V4V) Challenge for Non-Contact Video-Based Physiological Estimation ( http://arxiv.org/abs/2109.10471v1 )

ライセンス: Link先を確認
Ambareesh Revanur, Zhihua Li, Umur A. Ciftci, Lijun Yin, Laszlo A. Jeni(参考訳) テレヘルスは、新型コロナウイルス(COVID-19)のパンデミックなど、公衆衛生面での援助の需要を相殺する可能性がある。 RPPG(Remote Photoplethysmography )は、ビデオから微小血管組織の血液量変化を非侵襲的に推定する問題である。 過去数年間、多くの研究グループがデジタルビデオから心拍数を推定する遠隔ppg法を急速に進歩させ、印象的な結果を得た。 これらの様々な手法が自然行動、表情、照明の変化がある自然条件でどのように比較されるかは、比較的不明である。 代替方法の比較を可能にするために、第1ビジョン・フォー・バイタルズ・チャレンジ (v4v) は、多様な集団からの様々な生理的信号で時間的に同期された高解像度ビデオを含む新しいデータセットを発表した。 本稿では,評価プロトコル,使用するデータ,その結果について概説する。 V4Vは2021年のコンピュータビジョンに関する国際会議と共同で開催される。

Telehealth has the potential to offset the high demand for help during public health emergencies, such as the COVID-19 pandemic. Remote Photoplethysmography (rPPG) - the problem of non-invasively estimating blood volume variations in the microvascular tissue from video - would be well suited for these situations. Over the past few years a number of research groups have made rapid advances in remote PPG methods for estimating heart rate from digital video and obtained impressive results. How these various methods compare in naturalistic conditions, where spontaneous behavior, facial expressions, and illumination changes are present, is relatively unknown. To enable comparisons among alternative methods, the 1st Vision for Vitals Challenge (V4V) presented a novel dataset containing high-resolution videos time-locked with varied physiological signals from a diverse population. In this paper, we outline the evaluation protocol, the data used, and the results. V4V is to be held in conjunction with the 2021 International Conference on Computer Vision.
翻訳日:2021-09-23 13:51:13 公開日:2021-09-22
# テキストから合成色表現を生成する

Generating Compositional Color Representations from Text ( http://arxiv.org/abs/2109.10477v1 )

ライセンス: Link先を確認
Paridhi Maheshwari, Nihal Jain, Praneetha Vaddamanu, Dhananjay Raut, Shraiysh Vaishay, Vishwa Vinay(参考訳) テキストフレーズの色表現を生成するためのクロスモーダルなタスクについて検討する。 画像検索エンジン上のユーザクエリのかなりの割合が(属性,オブジェクト)構造に従うという事実に動機づけられ,このようなbigramのカラープロファイルを生成する生成型逆ネットワークを提案する。 コンポジションを学ぶためにパイプラインを設計します - 見た属性とオブジェクトを、目に見えないペアに組み合わせる機能です。 本稿では,既存の公開資料から新たなデータセットキュレーションパイプラインを提案する。 本稿では,グラフ伝搬手法を用いて興味のあるフレーズ群をコンパイルし,画像にマッピングする方法について述べる。 このデータセットは色の研究に特化していますが、組成が興味のある他の視覚次元にまで拡張することができます。 比較学習文献からの損失関数を用いてganアーキテクチャの挙動を検査する詳細なアブレーション研究を行う。 生成モデルでは,識別モデルよりもフレーシェ・インセプション・ディスタンス(Frechet Inception Distance)が低く,実際の画像とよく一致する色プロファイルを予測できることを示す。 最後に、画像検索と分類における性能向上を示し、これらの下流タスクにおいて色が果たす重要な役割を示す。

We consider the cross-modal task of producing color representations for text phrases. Motivated by the fact that a significant fraction of user queries on an image search engine follow an (attribute, object) structure, we propose a generative adversarial network that generates color profiles for such bigrams. We design our pipeline to learn composition - the ability to combine seen attributes and objects to unseen pairs. We propose a novel dataset curation pipeline from existing public sources. We describe how a set of phrases of interest can be compiled using a graph propagation technique, and then mapped to images. While this dataset is specialized for our investigations on color, the method can be extended to other visual dimensions where composition is of interest. We provide detailed ablation studies that test the behavior of our GAN architecture with loss functions from the contrastive learning literature. We show that the generative model achieves lower Frechet Inception Distance than discriminative ones, and therefore predicts color profiles that better match those from real images. Finally, we demonstrate improved performance in image retrieval and classification, indicating the crucial role that color plays in these downstream tasks.
翻訳日:2021-09-23 13:50:54 公開日:2021-09-22
# 心臓再同期治療反応予測のための不確実性意識トレーニング

Uncertainty-Aware Training for Cardiac Resynchronisation Therapy Response Prediction ( http://arxiv.org/abs/2109.10641v1 )

ライセンス: Link先を確認
Tareen Dawood, Chen Chen, Robin Andlauer, Baldeep S. Sidhu, Bram Ruijsink, Justin Gould, Bradley Porter, Mark Elliott, Vishal Mehta, C. Aldo Rinaldi, Esther Puyol-Ant\'on, Reza Razavi, Andrew P. King(参考訳) 従来のパフォーマンス指標を超える予測ディープラーニング(DL)モデルの評価は、医療などのセンシティブな環境におけるアプリケーションにとってますます重要になっている。 このようなモデルには大量のデータをエンコードして分析する能力があるかも知れませんが、包括的な解釈方法が欠如しており、予測結果に対する臨床的な信頼が妨げられます。 予測の不確実性の定量化は、そのような解釈可能性を提供し、信頼を促進する1つの方法である。 しかし、そのような要件をモデルのトレーニングに組み込む方法については、比較的注意が払われていない。 本論文では, 一 心臓磁気共鳴画像からの心臓再同期治療応答予測のためのDLモデルのデータ(アラート的)とモデル(緊急的)不確かさの定量化及び 二 既存のDL画像に基づく分類モデルを再訓練し、正しい予測の信頼性を高め、誤予測の信頼性を低下させる不確実性認識損失関数を予備検討し、実施すること。 最初の結果は有望であり、正の正の予測に対する(現在)信頼が著しく増加し、偽の負の信頼が低下する証拠がいくつかある。

Evaluation of predictive deep learning (DL) models beyond conventional performance metrics has become increasingly important for applications in sensitive environments like healthcare. Such models might have the capability to encode and analyse large sets of data but they often lack comprehensive interpretability methods, preventing clinical trust in predictive outcomes. Quantifying uncertainty of a prediction is one way to provide such interpretability and promote trust. However, relatively little attention has been paid to how to include such requirements into the training of the model. In this paper we: (i) quantify the data (aleatoric) and model (epistemic) uncertainty of a DL model for Cardiac Resynchronisation Therapy response prediction from cardiac magnetic resonance images, and (ii) propose and perform a preliminary investigation of an uncertainty-aware loss function that can be used to retrain an existing DL image-based classification model to encourage confidence in correct predictions and reduce confidence in incorrect predictions. Our initial results are promising, showing a significant increase in the (epistemic) confidence of true positive predictions, with some evidence of a reduction in false negative confidence.
翻訳日:2021-09-23 13:50:33 公開日:2021-09-22
# 不均衡学習を用いた車両挙動予測と一般化

Vehicle Behavior Prediction and Generalization Using Imbalanced Learning Techniques ( http://arxiv.org/abs/2109.10656v1 )

ライセンス: Link先を確認
Theodor Westny, Erik Frisk, and Bj\"orn Olofsson(参考訳) 車両行動予測における学習に基づく手法の利用は有望な研究課題である。 しかし、多くの公開データセットは、扱わなければ学習性能を制限するクラス分散スキューに悩まされている。 本稿では,LSTMオートエンコーダとSVM分類器からなる対話認識予測モデルを提案する。 さらに,不均衡学習手法として,マルチクラスバランスアンサンブルを提案する。 評価の結果,モデル性能が向上し,分類精度が向上した。 学習モデルの良質な一般化特性は重要であり,異なる道路構成から生じる異質な交通行動を伴う未知の交通データに基づいてモデルを評価する一般化研究を行う。 これは2つの異なる高速道路交通記録、ngsim us-101とi80データセットを用いて実現されている。 さらに、構造的および静的な特徴を学習プロセスにエンコードして一般化を改善する手法について評価する。 その結果,分類性能や一般化性能が大幅に向上した。

The use of learning-based methods for vehicle behavior prediction is a promising research topic. However, many publicly available data sets suffer from class distribution skews which limits learning performance if not addressed. This paper proposes an interaction-aware prediction model consisting of an LSTM autoencoder and SVM classifier. Additionally, an imbalanced learning technique, the multiclass balancing ensemble is proposed. Evaluations show that the method enhances model performance, resulting in improved classification accuracy. Good generalization properties of learned models are important and therefore a generalization study is done where models are evaluated on unseen traffic data with dissimilar traffic behavior stemming from different road configurations. This is realized by using two distinct highway traffic recordings, the publicly available NGSIM US-101 and I80 data sets. Moreover, methods for encoding structural and static features into the learning process for improved generalization are evaluated. The resulting methods show substantial improvements in classification as well as generalization performance.
翻訳日:2021-09-23 13:50:13 公開日:2021-09-22
# wmt21用niuトランス機械翻訳システム

The NiuTrans Machine Translation Systems for WMT21 ( http://arxiv.org/abs/2109.10485v1 )

ライセンス: Link先を確認
Shuhan Zhou, Tao Zhou, Binghao Wei, Yingfeng Luo, Yongyu Mu, Zefan Zhou, Chenglong Wang, Xuanjun Zhou, Chuanhao Lv, Yi Jing, Laohu Wang, Jingnan Zhang, Canan Huang, Zhongxiang Yan, Chi Hu, Bei Li, Tong Xiao and Jingbo Zhu(参考訳) 本稿では,WMT 2021ニュース翻訳タスクのNiuTransニューラルマシン翻訳システムについて述べる。 我々は、英語$\leftrightarrow$$\{$ Chinese, Japanese, Russian, Icelandic$\}$, English$\rightarrow$ Hausaタスクを含む9つの言語指示を提出した。 本稿では,Transformer-DLCL や ODE-Transformer など,Transformer の有効な派生版について述べる。 また, バックトランスレーション, 知識蒸留, ポストアンサンブル, 反復微調整技術を利用して, モデル性能をさらに向上する。

This paper describes NiuTrans neural machine translation systems of the WMT 2021 news translation tasks. We made submissions to 9 language directions, including English$\leftrightar row$$\{$Chinese, Japanese, Russian, Icelandic$\}$ and English$\rightarrow$ Hausa tasks. Our primary systems are built on several effective variants of Transformer, e.g., Transformer-DLCL, ODE-Transformer. We also utilize back-translation, knowledge distillation, post-ensemble, and iterative fine-tuning techniques to enhance the model performance further.
翻訳日:2021-09-23 13:49:43 公開日:2021-09-22
# OBQA文脈における共同ランク付けと関連文選択への簡易的アプローチ

A Simple Approach to Jointly Rank Passages and Select Relevant Sentences in the OBQA Context ( http://arxiv.org/abs/2109.10497v1 )

ライセンス: Link先を確認
Man Luo, Shuguang Chen, Chitta Baral(参考訳) open question answering(obqa)タスクでは、大きなコーパスから関連情報をどのように選択するかが推論と推論の重要な問題である。 いくつかのデータセット(HotpotQAなど)は、主に文レベルでモデルの推論能力をテストすることに焦点を当てている。 この課題を克服するために、多くの既存のフレームワークはディープラーニングモデルを使用して関連するパスを選択し、対応するパスの文をマッチングすることで各質問に答える。 しかし、そのようなフレームワークは長い推論時間を必要とし、文と文の関係をうまく利用できない。 本研究では,これらの問題に対して,文を共同でランク付けし,文を選択することで,シンプルかつ効果的に対処する枠組みを提案する。 本稿では,文のランク付けと文選択の相関と相互作用を促進するために,一貫性と類似性の制約を提案する。 実験では,HotpotQAデータセット上の関連文の正確な一致から,我々のフレームワークが競合的な結果を達成し,ベースラインを28倍に向上できることを実証した。

In the open question answering (OBQA) task, how to select the relevant information from a large corpus is a crucial problem for reasoning and inference. Some datasets (e.g, HotpotQA) mainly focus on testing the model's reasoning ability at the sentence level. To overcome this challenge, many existing frameworks use a deep learning model to select relevant passages and then answer each question by matching a sentence in the corresponding passage. However, such frameworks require long inference time and fail to take advantage of the relationship between passages and sentences. In this work, we present a simple yet effective framework to address these problems by jointly ranking passages and selecting sentences. We propose consistency and similarity constraints to promote the correlation and interaction between passage ranking and sentence selection. In our experiments, we demonstrate that our framework can achieve competitive results and outperform the baseline by 28\% in terms of exact matching of relevant sentences on the HotpotQA dataset.
翻訳日:2021-09-23 13:49:33 公開日:2021-09-22
# FCM : マルチターン対話推論のためのきめ細かい比較モデル

FCM: A Fine-grained Comparison Model forMulti-turn Dialogue Reasoning ( http://arxiv.org/abs/2109.10510v1 )

ライセンス: Link先を確認
Xu Wang, Hainan Zhang, Shuai Zhao, Yanyan Zou, Hongshen Chen, Zhuoye Ding, Bo Cheng, Yanyan Lan(参考訳) リーダボードでのハイパフォーマンスを達成するためのニューラル対話システムの成功にもかかわらず、推論スキルの不足のため、実際にユーザの要件を満たすことはできない。 根本的な理由は、ほとんどのニューラル対話モデルが構文的および意味的情報をキャプチャするだけでなく、対話履歴と生成された応答の論理的一貫性をモデル化できないためである。 近年,対話推論研究を容易にするために,マルチターン対話推論タスクが提案されている。 しかし, この課題は, 非論理的応答と対話履歴の差がわずかしかないため, 困難である。 この課題を効果的に解決する方法はまだ検討する価値がある。 本稿では,この問題に対処するための細粒度比較モデル(FCM)を提案する。 読解における人間の行動に触発され,各応答候補の表現の微妙な相違に着目した比較機構が提案されている。 具体的には、各候補表現を履歴全体と比較して履歴一貫性表現を得る。 さらに、各候補と話者自身の履歴との整合性信号は、話者の履歴論理と論理的に整合した候補を優先するモデルを駆動すると考えられる。 最後に、上記一貫性表現を用いて、マルチターン対話推論のための候補応答のランキングリストを出力する。 2つの公開対話データセットを用いた実験の結果,本手法はベースラインモデルよりも高いランキングスコアを得た。

Despite the success of neural dialogue systems in achieving high performance on the leader-board, they cannot meet users' requirements in practice, due to their poor reasoning skills. The underlying reason is that most neural dialogue models only capture the syntactic and semantic information, but fail to model the logical consistency between the dialogue history and the generated response. Recently, a new multi-turn dialogue reasoning task has been proposed, to facilitate dialogue reasoning research. However, this task is challenging, because there are only slight differences between the illogical response and the dialogue history. How to effectively solve this challenge is still worth exploring. This paper proposes a Fine-grained Comparison Model (FCM) to tackle this problem. Inspired by human's behavior in reading comprehension, a comparison mechanism is proposed to focus on the fine-grained differences in the representation of each response candidate. Specifically, each candidate representation is compared with the whole history to obtain a history consistency representation. Furthermore, the consistency signals between each candidate and the speaker's own history are considered to drive a model to prefer a candidate that is logically consistent with the speaker's history logic. Finally, the above consistency representations are employed to output a ranking list of the candidate responses for multi-turn dialogue reasoning. Experimental results on two public dialogue datasets show that our method obtains higher ranking scores than the baseline models.
翻訳日:2021-09-23 13:49:15 公開日:2021-09-22
# 言語モデルの多言語微調整における言語関連性の役割:インド・アーリア語を事例として

Role of Language Relatedness in Multilingual Fine-tuning of Language Models: A Case Study in Indo-Aryan Languages ( http://arxiv.org/abs/2109.10534v1 )

ライセンス: Link先を確認
Tejas Indulal Dhamecha, Rudra Murthy V, Samarth Bharadwaj, Karthik Sankaranarayanan, Pushpak Bhattacharyya(参考訳) 多言語微調整を用いたNLPモデルにおいて,同族に属する言語の関連性を利用した影響について検討する。 事前学習した言語モデルの多言語微調整は、個々の言語で微調整されたモデルと比較して、下流のNLPアプリケーションにおいてより良い性能が得られると仮定し、検証する。 言語が(性能の最高の向上という意味で)基礎言語に追加されるにつれて、パフォーマンスの変化を追跡するために、その種の詳細な研究が提示され、関連する言語のサブセットの慎重に選択することで、関連する言語を活用すれば、パフォーマンスが大幅に向上することが明らかになった。 インド・アーリア語族(ia)は、ベンガル語、グジャラティ語、ヒンディー語、マラティ語、オリヤ語、パンジャビ語、ウルドゥ語といった言語を研究対象としている。 スクリプトバリアは、すべての言語のテキストをDevanagariに単純なルールベースの翻訳によって渡される。 mBERT, IndicBERT, MuRIL および RoBERTa をベースとした 2 台の LM 上で実験を行った。 Oriya や Punjabi のような低資源言語は多言語微調整の最大の受益者である。 テストベッドには,テキストの包含,エンティティ分類,セクションタイトル予測,indicglue と pos のタギングのタスクが組み込まれています。 モノリンガルの微調整と比較して、ダウンストリームタスクの相対的なパフォーマンス改善は最大150%です。 驚いたことに、どの言語にも最高のパフォーマンスをもたらす他の言語の特定の組み合わせがあり、追加の言語は実際には有害である。

We explore the impact of leveraging the relatedness of languages that belong to the same family in NLP models using multilingual fine-tuning. We hypothesize and validate that multilingual fine-tuning of pre-trained language models can yield better performance on downstream NLP applications, compared to models fine-tuned on individual languages. A first of its kind detailed study is presented to track performance change as languages are added to a base language in a graded and greedy (in the sense of best boost of performance) manner; which reveals that careful selection of subset of related languages can significantly improve performance than utilizing all related languages. The Indo-Aryan (IA) language family is chosen for the study, the exact languages being Bengali, Gujarati, Hindi, Marathi, Oriya, Punjabi and Urdu. The script barrier is crossed by simple rule-based transliteration of the text of all languages to Devanagari. Experiments are performed on mBERT, IndicBERT, MuRIL and two RoBERTa-based LMs, the last two being pre-trained by us. Low resource languages, such as Oriya and Punjabi, are found to be the largest beneficiaries of multilingual fine-tuning. Textual Entailment, Entity Classification, Section Title Prediction, tasks of IndicGLUE and POS tagging form our test bed. Compared to monolingual fine tuning we get relative performance improvement of up to 150% in the downstream tasks. The surprise take-away is that for any language there is a particular combination of other languages which yields the best performance, and any additional language is in fact detrimental.
翻訳日:2021-09-23 13:48:53 公開日:2021-09-22
# COVR:実画像を用いた視覚的合成一般化のためのテストベッド

COVR: A test-bed for Visually Grounded Compositional Generalization with real images ( http://arxiv.org/abs/2109.10613v1 )

ライセンス: Link先を確認
Ben Bogin, Shivanshu Gupta, Matt Gardner, Jonathan Berant(参考訳) テスト時に新しい構成に一般化するモデルへの関心は近年高まっているが、視覚的な領域のベンチマークは今のところ合成画像に限られている。 本研究では,実画像を用いた視覚的合成一般化のための新しいテストベッドであるCOVRを提案する。 covrの作成には,シーングラフをアノテートした実画像を使用し,コンテキスト画像のセットとともに質問応答対を生成するためのほぼ完全自動手順を提案する。 covrは、量子化やアグリゲーションのような高階演算を含む複雑な推論を必要とする問題に焦点を当てている。 自動生成プロセスのため、COVRは構成分割の作成を容易にし、テスト時のモデルはゼロまたは少数ショットの設定で新しい概念や構成に一般化する必要がある。 我々はCOVRを用いて構成分割を構築し、最先端の訓練済み言語・ビジョンモデルが構成的一般化に苦慮するケースを無数に示す。

While interest in models that generalize at test time to new compositions has risen in recent years, benchmarks in the visually-grounded domain have thus far been restricted to synthetic images. In this work, we propose COVR, a new test-bed for visually-grounded compositional generalization with real images. To create COVR, we use real images annotated with scene graphs, and propose an almost fully automatic procedure for generating question-answer pairs along with a set of context images. COVR focuses on questions that require complex reasoning, including higher-order operations such as quantification and aggregation. Due to the automatic generation process, COVR facilitates the creation of compositional splits, where models at test time need to generalize to new concepts and compositions in a zero- or few-shot setting. We construct compositional splits using COVR and demonstrate a myriad of cases where state-of-the-art pre-trained language-and-vision models struggle to compositionally generalize.
翻訳日:2021-09-23 13:48:23 公開日:2021-09-22
# テキスト要約のためのグローバルセマンティクスの強化と制御

Enriching and Controlling Global Semantics for Text Summarization ( http://arxiv.org/abs/2109.10616v1 )

ライセンス: Link先を確認
Thong Nguyen, Anh Tuan Luu, Truc Lu, Tho Quan(参考訳) 近年, トランスフォーマティブモデルが, 統語的および情報的要約を作成することで, 抽象的要約タスクにおいて有効であることが証明されている。 それでもこれらのモデルは依然として短距離依存の問題に悩まされており、ドキュメントのキーポイントを見逃すような要約を生成することになる。 本稿では,文書のグローバルな意味を捉えるために,正規化フローを付与したニューラルトピックモデルを導入し,それを要約モデルに統合することによってこの問題に対処する。 さらに,コンテキスト化表現に対するグローバルセマンティクスの圧倒的影響を避けるために,テキスト生成モジュールに供給されるグローバルセマンティクス量を制御する機構を導入する。 提案手法は, CNN/DailyMail, XSum, Reddit TIFU, arXiv, PubMedの5つの共通テキスト要約データセット上で, 最先端の要約モデルより優れている。

Recently, Transformer-based models have been proven effective in the abstractive summarization task by creating fluent and informative summaries. Nevertheless, these models still suffer from the short-range dependency problem, causing them to produce summaries that miss the key points of document. In this paper, we attempt to address this issue by introducing a neural topic model empowered with normalizing flow to capture the global semantics of the document, which are then integrated into the summarization model. In addition, to avoid the overwhelming effect of global semantics on contextualized representation, we introduce a mechanism to control the amount of global semantics supplied to the text generation module. Our method outperforms state-of-the-art summarization models on five common text summarization datasets, namely CNN/DailyMail, XSum, Reddit TIFU, arXiv, and PubMed.
翻訳日:2021-09-23 13:48:06 公開日:2021-09-22
# 感情対話システムのためのシミュレーションアニーリング

Simulated Annealing for Emotional Dialogue Systems ( http://arxiv.org/abs/2109.10715v1 )

ライセンス: Link先を確認
Chengzhang Dong and Chenyang Huang and Osmar Za\"iane and Lili Mou(参考訳) 対話生成における感情の明示的なモデリングは、共感的な個人的な仲間を構築するなど、重要な応用がある。 本研究では,対話生成のための特定の感情を表現するタスクについて考察する。 以前のアプローチでは、感情を入力信号として捉えており、推論中に無視される可能性がある。 そこで我々は,シミュレート・アニーリング (SA) による検索に基づく感情対話システムを提案する。 具体的には,まず文脈的コヒーレンスと感情的正しさを組み合わせたスコアリング関数を定義する。 そして、SAは、通常応答を反復的に編集し、より高いスコアの文を検索し、所望の感情の存在を強制する。 nlpcc2017データセット上でシステムを評価する。 提案手法は,従来の最先端手法と比較して12%の感情精度が向上し,生成品質を損なわない(BLEUで測定)。

Explicitly modeling emotions in dialogue generation has important applications, such as building empathetic personal companions. In this study, we consider the task of expressing a specific emotion for dialogue generation. Previous approaches take the emotion as an input signal, which may be ignored during inference. We instead propose a search-based emotional dialogue system by simulated annealing (SA). Specifically, we first define a scoring function that combines contextual coherence and emotional correctness. Then, SA iteratively edits a general response and searches for a sentence with a higher score, enforcing the presence of the desired emotion. We evaluate our system on the NLPCC2017 dataset. Our proposed method shows 12% improvements in emotion accuracy compared with the previous state-of-the-art method, without hurting the generation quality (measured by BLEU).
翻訳日:2021-09-23 13:47:51 公開日:2021-09-22
# K-AID: 質問応答のためのドメイン知識による事前学習型言語モデルの強化

K-AID: Enhancing Pre-trained Language Models with Domain Knowledge for Question Answering ( http://arxiv.org/abs/2109.10547v1 )

ライセンス: Link先を確認
Fu Sun, Feng-Lin Li, Ruize Wang, Qianglong Chen, Xingyi Cheng, Ji Zhang(参考訳) 知識強化事前学習言語モデル (K-PLM) は、文献における多くの公的なタスクに有効であることが示されているが、実際に採用されているものはほとんどない。 そこで本研究では,ドメイン知識獲得のための低コストな知識獲得プロセスとモデル性能向上のための効果的な知識注入モジュールと,モデルサイズを削減し,リソース制限されたデバイス(CPUなど)にK-PLMをデプロイする知識蒸留コンポーネントを含む,K-AIDを提案する。 重要なことは、既存のK-PLMの大多数のようにエンティティ知識をキャプチャする代わりに、我々のアプローチは関係知識をキャプチャし、質問応答(QA)において重要な役割を果たす文レベルのテキスト分類とテキストマッチングタスクの改善に寄与する。 筆者らは,Eコマース,政府,フィルム&TVの3分野を対象とした5つのテキスト分類タスクと3つのテキストマッチングタスクについて実験を行い,EコマースにおけるオンラインA/Bテストを実施した。 実験結果から,本手法は文レベルの質問応答タスクを大幅に改善し,産業環境において有益なビジネス価値をもたらすことが示唆された。

Knowledge enhanced pre-trained language models (K-PLMs) are shown to be effective for many public tasks in the literature but few of them have been successfully applied in practice. To address this problem, we propose K-AID, a systematic approach that includes a low-cost knowledge acquisition process for acquiring domain knowledge, an effective knowledge infusion module for improving model performance, and a knowledge distillation component for reducing the model size and deploying K-PLMs on resource-restricted devices (e.g., CPU) for real-world application. Importantly, instead of capturing entity knowledge like the majority of existing K-PLMs, our approach captures relational knowledge, which contributes to better-improving sentence-level text classification and text matching tasks that play a key role in question answering (QA). We conducted a set of experiments on five text classification tasks and three text matching tasks from three domains, namely E-commerce, Government, and Film&TV, and performed online A/B tests in E-commerce. Experimental results show that our approach is able to achieve substantial improvement on sentence-level question answering tasks and bring beneficial business value in industrial settings.
翻訳日:2021-09-23 13:47:39 公開日:2021-09-22
# リアクティブ応答セットプログラミング

Reactive Answer Set Programming ( http://arxiv.org/abs/2109.10633v1 )

ライセンス: Link先を確認
Krysia Broda and Fariba Sadri and Stephen Butler(参考訳) Logic Production System (LPS)は、リアクティブな振る舞いをモデル化するためのロジックベースのフレームワークである。 帰納的論理プログラミングに基づいて、リアクティブルールと論理プログラム、データベース、データベースの状態間の遷移を規定する因果理論を組み合わせる。 本稿では,このフレームワークのカーネル(ケルプスと呼ばれる)を解集合プログラム(asp)に体系的にマッピングすることを提案する。 この目的のために、$n$-distance KELPSと呼ばれる有限モデルを持つKELPSの新しい変種が導入された。 この$n$-distance KELPS から ASP への写像の正式な定義が与えられ、証明された健全かつ完全である。 答えセットプログラミングパラダイムはケルプの基本的な反応性、特に積極的な、プリエンプティブな、予測的な振る舞いに付加的な振る舞いを捉えることができる。 これらはいずれも実例で論じられている。 次に、KELPSとASPを統合するハイブリッドフレームワークを提案し、両方のパラダイムの長所を組み合わせます。 論理プログラミングの理論と実践(tplp)における考察。

Logic Production System (LPS) is a logic-based framework for modelling reactive behaviour. Based on abductive logic programming, it combines reactive rules with logic programs, a database and a causal theory that specifies transitions between the states of the database. This paper proposes a systematic mapping of the Kernel of this framework (called KELPS) into an answer set program (ASP). For this purpose a new variant of KELPS with finite models, called $n$-distance KELPS, is introduced. A formal definition of the mapping from this $n$-distance KELPS to ASP is given and proven sound and complete. The Answer Set Programming paradigm allows to capture additional behaviours to the basic reactivity of KELPS, in particular proactive, preemptive and prospective behaviours. These are all discussed and illustrated with examples. Then a hybrid framework is proposed that integrates KELPS and ASP, allowing to combine the strengths of both paradigms. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2021-09-23 13:47:16 公開日:2021-09-22
# 紛争予測による人間と野生生物の共生

Facilitating human-wildlife cohabitation through conflict prediction ( http://arxiv.org/abs/2109.10637v1 )

ライセンス: Link先を確認
Susobhan Ghosh, Pradeep Varakantham, Aniket Bhatkhande, Tamanna Ahmad, Anish Andheria, Wenjun Li, Aparna Taneja, Divy Thakkar, Milind Tambe(参考訳) 世界人口の増加と森林の共生地域としての利用の拡大に伴い、野生生物との相互作用や紛争が増加し、生活(動物と人間)と生活(経済)が失われた。 地域社会の知識は貴重であるが、森林当局や保護団体は、人間と野生生物の紛争の予測分析から大きな恩恵を受けることができる。 しかし、予測問題は、低リソース領域における限られたデータの文脈における複雑な社会技術的問題である。 スパースコンフリクトトレーニングデータセットを使用して、必要な空間的粒度でのコンフリクトの正確な予測を行うための「正しい」特徴を特定することが、本稿で取り上げる重要な課題である。 具体的には,インド・マハラシュトラ州チャンドラプルのブラマプーリ林分区において,人間と野生の紛争を例証的に検討した。 既存の研究の多くは、保護地域における人間と野生の紛争を考慮しており、我々の知る限りでは、これは未保護地域における人間と野生の紛争を予測し、そのような予測を地上への介入に利用する最初の試みである。

With increasing world population and expanded use of forests as cohabited regions, interactions and conflicts with wildlife are increasing, leading to large-scale loss of lives (animal and human) and livelihoods (economic). While community knowledge is valuable, forest officials and conservation organisations can greatly benefit from predictive analysis of human-wildlife conflict, leading to targeted interventions that can potentially help save lives and livelihoods. However, the problem of prediction is a complex socio-technical problem in the context of limited data in low-resource regions. Identifying the "right" features to make accurate predictions of conflicts at the required spatial granularity using a sparse conflict training dataset} is the key challenge that we address in this paper. Specifically, we do an illustrative case study on human-wildlife conflicts in the Bramhapuri Forest Division in Chandrapur, Maharashtra, India. Most existing work has considered human-wildlife conflicts in protected areas and to the best of our knowledge, this is the first effort at prediction of human-wildlife conflicts in unprotected areas and using those predictions for deploying interventions on the ground.
翻訳日:2021-09-23 13:47:01 公開日:2021-09-22
# ディテールリカバリネットワークを用いた単一画像デハジング

Single Image Dehazing with An Independent Detail-Recovery Network ( http://arxiv.org/abs/2109.10492v1 )

ライセンス: Link先を確認
Yan Li, De Cheng, Jiande Sun, Dingwen Zhang, Nannan Wang and Xinbo Gao(参考訳) 単一画像デハジングは多くのコンピュータビジョンタスクのパフォーマンスに影響を与える前提条件であり、近年注目を集めている。 しかし, 既存の脱ハズ法は, 脱ハズ除去に重点を置いているが, 脱ハズ画像の詳細な復元は重視されていない。 本稿では,個別のディーテール・リカバリ・ネットワーク(DRN)を用いた単一画像デハージング手法を提案する。 ネットワーク全体はdrnとdehazingの2つの独立したネットワークで構成されている。 具体的には、DRNは、それぞれローカルブランチとグローバルブランチを通じて、デハズドイメージの詳細を復元することを目的としている。 ローカルブランチは、畳み込み層を介して局所的な詳細情報を取得し、グローバルブランチは、Smooth Dilated Convolution (SDC)によってよりグローバルな情報を取得することができる。 ディテール特徴マップを粗いデハズ画像に融合して、デハズ画像の詳細な画像を得る。 さらに, DRN, 物理モデルに基づくデハージングネットワーク, 再構築損失を, エンドツーエンドのジョイントラーニングフレームワークに統合する。 公開画像デハージングデータセット(RESIDE-Indoor, RESIDE-Outdoor, TrainA-TestA)の大規模な実験により,提案手法におけるモジュールの有効性が示され,本手法が最先端デハージング手法よりも定量的かつ定性的に優れていることを示す。 コードはhttps://github.com/Y anLi-LY/Dehazing-DRN で公開されている。

Single image dehazing is a prerequisite which affects the performance of many computer vision tasks and has attracted increasing attention in recent years. However, most existing dehazing methods emphasize more on haze removal but less on the detail recovery of the dehazed images. In this paper, we propose a single image dehazing method with an independent Detail Recovery Network (DRN), which considers capturing the details from the input image over a separate network and then integrates them into a coarse dehazed image. The overall network consists of two independent networks, named DRN and the dehazing network respectively. Specifically, the DRN aims to recover the dehazed image details through local and global branches respectively. The local branch can obtain local detail information through the convolution layer and the global branch can capture more global information by the Smooth Dilated Convolution (SDC). The detail feature map is fused into the coarse dehazed image to obtain the dehazed image with rich image details. Besides, we integrate the DRN, the physical-model-based dehazing network and the reconstruction loss into an end-to-end joint learning framework. Extensive experiments on the public image dehazing datasets (RESIDE-Indoor, RESIDE-Outdoor and the TrainA-TestA) illustrate the effectiveness of the modules in the proposed method and show that our method outperforms the state-of-the-art dehazing methods both quantitatively and qualitatively. The code is released in https://github.com/Y anLi-LY/Dehazing-DRN .
翻訳日:2021-09-23 13:46:23 公開日:2021-09-22
# less is more: 人物再同定のための細かな属性を持つ合成データから学ぶ

Less is More: Learning from Synthetic Data with Fine-grained Attributes for Person Re-Identification ( http://arxiv.org/abs/2109.10498v1 )

ライセンス: Link先を確認
Suncheng Xiang, Guanjie You, Mengyuan Guan, Hao Chen, Feng Wang, Ting Liu, Yuzhuo Fu(参考訳) 個人再識別(re-ID)は、公共セキュリティやビデオ監視などのアプリケーションにおいて重要な役割を果たす。 近年,合成データエンジンの普及に寄与する合成データからの学習が,学術と公衆の両方から注目を集めている。 しかし、既存の合成データセットは量、多様性、現実性に制限されており、一般化可能なre-ID問題には効率的に利用できない。 この課題に対処するため、我々はファインGPRと呼ばれる大規模合成人データセットを構築し、ラベル付けする。 さらに,FinGPRの可能性をフル活用し,数百万の合成データからの効率的なトレーニングを促進することを目的として,属性解析パイプラインAOSTを用いて,対象領域の属性分布を学習し,合成データと実世界のデータのギャップをなくし,新たなシナリオに自由に展開できるようにする。 ベンチマークで行った実験では、aostによるファイングprが既存のリアルデータセットや合成データセットよりも優れている(あるいは同等である)ことが示されている。 このきめ細かいデータセットが、実際のシナリオで再識別する研究を前進させることを願っている。

Person re-identification (re-ID) plays an important role in applications such as public security and video surveillance. Recently, learning from synthetic data, which benefits from the popularity of synthetic data engine, has attracted attention from both academia and the public eye. However, existing synthetic datasets are limited in quantity, diversity and realisticity, and cannot be efficiently used for generalizable re-ID problem. To address this challenge, we construct and label a large-scale synthetic person dataset named FineGPR with fine-grained attribute distribution. Moreover, aiming to fully exploit the potential of FineGPR and promote the efficient training from millions of synthetic data, we propose an attribute analysis pipeline AOST to learn attribute distribution in target domain, then apply style transfer network to eliminate the gap between synthetic and real-world data and thus is freely deployed to new scenarios. Experiments conducted on benchmarks demonstrate that FineGPR with AOST outperforms (or is on par with) existing real and synthetic datasets, which suggests its feasibility for re-ID and proves the proverbial less-is-more principle. We hope this fine-grained dataset could advance research towards re-ID in real scenarios.
翻訳日:2021-09-23 13:45:53 公開日:2021-09-22
# オートセグメンテーションとカラー補償技術を用いた任意物体にモーションブルを加える方法

A Method For Adding Motion-Blur on Arbitrary Objects By using Auto-Segmentation and Color Compensation Techniques ( http://arxiv.org/abs/2109.10524v1 )

ライセンス: Link先を確認
Michihiro Mikamo, Ryo Furukawa, Hiroshi Kawasaki(参考訳) ダイナミックな物体をカメラが捉えたとき、動きのぼやけは必然的に起こる。 このようなぼやけを単にノイズと考えることもあるが、写真やビデオのシーンにダイナミズムを加えるために重要な効果を与えることもある。 スマートフォンでも簡単に操作できるデフォーカスブラーのような同様の効果とは異なり、モーションブラーは制御不能であり、写真に好ましくない効果をもたらす。 本稿では,オブジェクトごとに動きのぼかしを付加する統一フレームワークを提案する。 この方法では、複数のフレームを動きのぼけなく捕捉し、対象オブジェクトに動きのぼけを生じさせるように蓄積する。 動きをぼかすことなく画像をキャプチャするにはシャッター速度を短くする必要があるが、キャプチャした画像を暗くし、センサゲインを増やして補正する必要がある。 センサ利得が画像に深刻なノイズを生じさせるため,非線形フィルタリングに基づくカラー補償アルゴリズムを提案する。 もう一つの貢献は、マルチ露光画像を用いて高速移動物体のためのHDR画像を作成する方法である。 実験では,複数のデータセットを用いたアブレーション実験により,本手法の有効性を確認した。

When dynamic objects are captured by a camera, motion blur inevitably occurs. Such a blur is sometimes considered as just a noise, however, it sometimes gives an important effect to add dynamism in the scene for photographs or videos. Unlike the similar effects, such as defocus blur, which is now easily controlled even by smartphones, motion blur is still uncontrollable and makes undesired effects on photographs. In this paper, an unified framework to add motion blur on per-object basis is proposed. In the method, multiple frames are captured without motion blur and they are accumulated to create motion blur on target objects. To capture images without motion blur, shutter speed must be short, however, it makes captured images dark, and thus, a sensor gain should be increased to compensate it. Since a sensor gain causes a severe noise on image, we propose a color compensation algorithm based on non-linear filtering technique for solution. Another contribution is that our technique can be used to make HDR images for fast moving objects by using multi-exposure images. In the experiments, effectiveness of the method is confirmed by ablation study using several data sets.
翻訳日:2021-09-23 13:45:32 公開日:2021-09-22
# 非局所Dense Prediction Transformerと共同監督型自己教師型学習による360度単眼深度推定の改善

Improving 360 Monocular Depth Estimation via Non-local Dense Prediction Transformer and Joint Supervised and Self-supervised Learning ( http://arxiv.org/abs/2109.10563v1 )

ライセンス: Link先を確認
IlWi Yun, Hyuk-Jae Lee, Chae Eun Rhee(参考訳) 等方形(360)画像の真理深度を取得するのが難しいため、現在の等方形深度データの品質と量は世界の様々な場面を表現するには不十分である。 したがって、教師付き学習のみに頼った360度深度推定研究は、不満足な結果を生み出すために運命づけられる。 等方形画像(EIs)に焦点をあてた自己教師付き学習手法が導入されたが、誤りや非特異な解がしばしばあり、不安定な性能を引き起こす。 本稿では,従来の研究を限定した領域を改良した360度単眼深度推定法を提案する。 まず,重力対応ビデオのみを利用する自己教師付き360度深度学習手法を提案する。 次に,教師付き学習と自己指導型学習を組み合わせた共同学習手法を提案する。 各学習の弱点は補償され、より正確な深さ推定につながる。 第3に,視覚トランスフォーマによって符号化された大域的な情報を奥行き再構成時に保持する非局所融合ブロックを提案する。 提案手法では,これまでに試されていない知識のすべてに変換器を360度深度推定に適用することに成功した。 いくつかのベンチマークにおいて,本手法は従来よりも大幅に改善され,最先端技術が確立された。

Due to difficulties in acquiring ground truth depth of equirectangular (360) images, the quality and quantity of equirectangular depth data today is insufficient to represent the various scenes in the world. Therefore, 360 depth estimation studies, which relied solely on supervised learning, are destined to produce unsatisfactory results. Although self-supervised learning methods focusing on equirectangular images (EIs) are introduced, they often have incorrect or non-unique solutions, causing unstable performance. In this paper, we propose 360 monocular depth estimation methods which improve on the areas that limited previous studies. First, we introduce a self-supervised 360 depth learning method that only utilizes gravity-aligned videos, which has the potential to eliminate the needs for depth data during the training procedure. Second, we propose a joint learning scheme realized by combining supervised and self-supervised learning. The weakness of each learning is compensated, thus leading to more accurate depth estimation. Third, we propose a non-local fusion block, which retains global information encoded by vision transformer when reconstructing the depths. With the proposed methods, we successfully apply the transformer to 360 depth estimations, to the best of our knowledge, which has not been tried before. On several benchmarks, our approach achieves significant improvements over previous works and establishes a state of the art.
翻訳日:2021-09-23 13:45:12 公開日:2021-09-22
# 複数の音響カメラを用いた多種魚検出のための深層ニューラルネットワーク

A deep neural network for multi-species fish detection using multiple acoustic cameras ( http://arxiv.org/abs/2109.10664v1 )

ライセンス: Link先を確認
Garcia Fernandez, Guglielmo Fernandez, Fran\c{c}ois Martignac, Marie Nevoux, Laurent Beaulaton (OFB), Thomas Corpetti (LETG - Rennes)(参考訳) 水中音響カメラは、生態学、特に漁業管理とモニタリングに多くの応用の可能性がある。 しかし、オペレータによるデータセット全体の読み込み時間を消費することなく、これらのデータを高価値な情報に抽出する方法は依然として課題である。 さらに、低信号-雑音比による音響画像解析は、特にディープラーニング技術に関する新しいアプローチを試すための完璧な訓練場である。 本稿では,CNN (Convolutional Neural Network) と従来のCV (Computer Vision) 技術の両方を活用する新しい手法を提案する。 パイプラインは2つの特徴を抽出するために音響画像の前処理を行い、信号のローカライズと検出性能の向上を図る。 生態学的観点からの評価を確実にするために,2段階の検証,トレーニングの結果の検証,実世界のシナリオでの手法の検証も提案する。 ヨロフ3ベースのモデルは、アトランティックサーモンやヨーロッパウナギといった生態学的関心の高い種を含む2つの一般的な音響カメラによって記録された複数の種の魚のデータを用いて訓練された。 私たちが開発したモデルは,魚の80%近くを検知し,偽陽性率を最小化するという満足のいく結果を提供するが,arisビデオのウナギ検出にはあまり効果がない。 魚をモニタリングする最初のcnnパイプラインは、2つのモデルの音響カメラからの映像データを活用し、必要な機能の大部分を満たす。 多種モデルによる魚種識別の自動化など、多くの課題がまだ残っている。 しかし,本研究では,信号対雑音比が問題となる他の場合においても再適用可能な,ソナーデータなどの複雑なデータを扱うための新たなソリューションを提案する。

Underwater acoustic cameras are high potential devices for many applications in ecology, notably for fisheries management and monitoring. However how to extract such data into high value information without a time-consuming entire dataset reading by an operator is still a challenge. Moreover the analysis of acoustic imaging, due to its low signal-to-noise ratio, is a perfect training ground for experimenting with new approaches, especially concerning Deep Learning techniques. We present hereby a novel approach that takes advantage of both CNN (Convolutional Neural Network) and classical CV (Computer Vision) techniques, able to detect a generic class ''fish'' in acoustic video streams. The pipeline pre-treats the acoustic images to extract 2 features, in order to localise the signals and improve the detection performances. To ensure the performances from an ecological point of view, we propose also a two-step validation, one to validate the results of the trainings and one to test the method on a real-world scenario. The YOLOv3-based model was trained with data of fish from multiple species recorded by the two common acoustic cameras, DIDSON and ARIS, including species of high ecological interest, as Atlantic salmon or European eels. The model we developed provides satisfying results detecting almost 80% of fish and minimizing the false positive rate, however the model is much less efficient for eel detections on ARIS videos. The first CNN pipeline for fish monitoring exploiting video data from two models of acoustic cameras satisfies most of the required features. Many challenges are still present, such as the automation of fish species identification through a multiclass model. 1 However the results point a new solution for dealing with complex data, such as sonar data, which can also be reapplied in other cases where the signal-to-noise ratio is a challenge.
翻訳日:2021-09-23 13:44:50 公開日:2021-09-22
# 学習可能なモーメント提案による自然言語ビデオのローカライゼーション

Natural Language Video Localization with Learnable Moment Proposals ( http://arxiv.org/abs/2109.10678v1 )

ライセンス: Link先を確認
Shaoning Xiao, Long Chen, Jian Shao, Yueting Zhuang, Jun Xiao(参考訳) 自然言語ビデオローカライゼーション(NLVL: Natural Language Video Localization)は、このクエリで記述されたビデオモーメントを特定することを目的としている。 この課題に対処するため、既存のメソッドは2つのグループに大別できる。 1)提案とランクモデル まず、手作りのモーメント候補を定義し、次に最適なマッチング候補を見つける。 2)提案自由モデルはフレームから参照モーメントの2つの時間境界を直接予測する。 現在、提案とランクの手法のほとんどは、提案のない手法よりも性能が劣っている。 本稿では,提案とランクのアプローチが事前定義されたマナーによって過小評価されていることを論じる。 1)手書きのルールは、対象セグメントの完全なカバレッジを保証するのが難しい。 2) 厳密にサンプリングされた候補モーメントは冗長な計算を引き起こし, ランキング処理の性能を低下させる。 そこで本研究では,学習可能なモーメントの提案を定式化したlpnet(learnable proposal network for nlvl)と呼ばれる新しいモデルを提案する。 これらの提案の位置と長さは、トレーニングプロセス中に動的に調整される。 さらに,フレームレベルの情報を活用し,さらなる性能向上を図るために,境界認識損失が提案されている。 2つの挑戦的なNLVLベンチマークに対する大規模な改善は、既存の最先端手法よりもLPNetの有効性を実証している。

Given an untrimmed video and a natural language query, Natural Language Video Localization (NLVL) aims to identify the video moment described by the query. To address this task, existing methods can be roughly grouped into two groups: 1) propose-and-rank models first define a set of hand-designed moment candidates and then find out the best-matching one. 2) proposal-free models directly predict two temporal boundaries of the referential moment from frames. Currently, almost all the propose-and-rank methods have inferior performance than proposal-free counterparts. In this paper, we argue that propose-and-rank approach is underestimated due to the predefined manners: 1) Hand-designed rules are hard to guarantee the complete coverage of targeted segments. 2) Densely sampled candidate moments cause redundant computation and degrade the performance of ranking process. To this end, we propose a novel model termed LPNet (Learnable Proposal Network for NLVL) with a fixed set of learnable moment proposals. The position and length of these proposals are dynamically adjusted during training process. Moreover, a boundary-aware loss has been proposed to leverage frame-level information and further improve the performance. Extensive ablations on two challenging NLVL benchmarks have demonstrated the effectiveness of LPNet over existing state-of-the-art methods.
翻訳日:2021-09-23 13:44:21 公開日:2021-09-22
# DyStyle:マルチ属性スタイル編集のための動的ニューラルネットワーク

DyStyle: Dynamic Neural Network for Multi-Attribute-Cond itioned Style Editing ( http://arxiv.org/abs/2109.10737v1 )

ライセンス: Link先を確認
Bingchuan Li, Shaofei Cai, Wei Liu, Peng Zhang, Miao Hua, Qian He, Zili Yi(参考訳) 多様性とフォトリアリズムはStyleGANのような無条件のGANフレームワークとそのバリエーションによって達成されている。 一方、StyleGANのセマンティックコントロール性を高めるため、継続的な努力が続けられている。 例えば、属性条件付きスタイル編集を行うために、最近12のスタイル操作方法が提案されている。 これらの方法のいくつかは一つの属性に沿ってスタイルコードを操作するのにうまく機能するが、複数の属性を共同で操作する場合の制御精度は問題となる傾向がある。 これらの制約に対処するために、動的スタイル制御ネットワーク(DyStyle)を提案し、その構造とパラメータは入力サンプルによって異なり、柔軟で正確な属性制御のための遅延符号の非線形かつ適応的な操作を行う。 さらに,dystyleネットワークの効率的かつ安定なトレーニングのために,新しい簡易ハードトレーニング手順が導入された。 顔や他の物体について広範な実験が行われている。 その結果,複数の数値属性とバイナリ属性に沿って,細粒度に乱れた編集を行うことができた。 光リアリズムを損なうことなく属性制御の精度とアイデンティティ保存の観点から,既存のスタイル操作法と定性的かつ定量的な比較を行った。 本手法の利点は, 関節多属性制御においてさらに重要である。 ソースコードは \href{https://github.com/p hycvgan/DyStyle}{phycvgan/DyStyle} で公開されている。

Great diversity and photorealism have been achieved by unconditional GAN frameworks such as StyleGAN and its variations. In the meantime, persistent efforts have been made to enhance the semantic controllability of StyleGANs. For example, a dozen of style manipulation methods have been recently proposed to perform attribute-conditione d style editing. Although some of these methods work well in manipulating the style codes along one attribute, the control accuracy when jointly manipulating multiple attributes tends to be problematic. To address these limitations, we propose a Dynamic Style Manipulation Network (DyStyle) whose structure and parameters vary by input samples, to perform nonlinear and adaptive manipulation of latent codes for flexible and precise attribute control. Additionally, a novel easy-to-hard training procedure is introduced for efficient and stable training of the DyStyle network. Extensive experiments have been conducted on faces and other objects. As a result, our approach demonstrates fine-grained disentangled edits along multiple numeric and binary attributes. Qualitative and quantitative comparisons with existing style manipulation methods verify the superiority of our method in terms of the attribute control accuracy and identity preservation without compromising the photorealism. The advantage of our method is even more significant for joint multi-attribute control. The source codes are made publicly available at \href{https://github.com/p hycvgan/DyStyle}{phycvgan/DyStyle}.
翻訳日:2021-09-23 13:44:02 公開日:2021-09-22
# FaceEraser:拡張現実のための顔部分の除去

FaceEraser: Removing Facial Parts for Augmented Reality ( http://arxiv.org/abs/2109.10760v1 )

ライセンス: Link先を確認
Miao Hua, Lijie Liu, Ziyang Cheng, Qian He, Bingchuan Li, Zili Yi(参考訳) 我々の任務は、すべての顔の部分(例えば、額、目、口、鼻)を取り除き、拡張現実のために「ブランク」の顔に視覚的要素を課すことである。 従来のオブジェクト除去手法は、ランダムに操作されたイメージペアで自己教師付きでトレーニングされるイメージインペイント技術(EdgeConnect、HiFillなど)に依存している。 具体的には、一組の自然画像が与えられた場合、ランダムにマスキングされた画像が入力として使用され、原画像が真実として扱われる。 しかし,この手法は,実際の「ブランク」顔の「地上真実」画像を得るのが困難であるため,顔面部分除去の要件を満たすものではない。 そこで本研究では, ``blank'' をよく模倣したペアトレーニングデータを生成するための新しいデータ生成手法を提案する。 平均して,タスクの質を向上するための新しいネットワークアーキテクチャを提案する。 最後に、顔部分除去モデルの上に、さまざまな顔指向拡張現実アプリケーションを示します。 提案手法は商用製品に統合され,その有効性は制約のないユーザ入力で検証されている。 ソースコード、事前訓練されたモデル、およびトレーニングデータは研究目的でリリースされる。

Our task is to remove all facial parts (e.g., eyebrows, eyes, mouth and nose), and then impose visual elements onto the ``blank'' face for augmented reality. Conventional object removal methods rely on image inpainting techniques (e.g., EdgeConnect, HiFill) that are trained in a self-supervised manner with randomly manipulated image pairs. Specifically, given a set of natural images, randomly masked images are used as inputs and the raw images are treated as ground truths. Whereas, this technique does not satisfy the requirements of facial parts removal, as it is hard to obtain ``ground-truth'' images with real ``blank'' faces. To address this issue, we propose a novel data generation technique to produce paired training data that well mimic the ``blank'' faces. In the mean time, we propose a novel network architecture for improved inpainting quality for our task. Finally, we demonstrate various face-oriented augmented reality applications on top of our facial parts removal model. Our method has been integrated into commercial products and its effectiveness has been verified with unconstrained user inputs. The source codes, pre-trained models and training data will be released for research purposes.
翻訳日:2021-09-23 13:43:43 公開日:2021-09-22
# 分子最適化のための微分スカラーディングツリー

Differentiable Scaffolding Tree for Molecular Optimization ( http://arxiv.org/abs/2109.10469v1 )

ライセンス: Link先を確認
Tianfan Fu, Wenhao Gao, Cao Xiao, Jacob Yasonik, Connor W. Coley, Jimeng Sun(参考訳) 機能分子の構造設計は分子最適化とも呼ばれ、創薬などの重要な応用を伴う重要な化学科学と工学の課題である。 深層生成モデルと組合せ最適化法は初期の成功を達成しているが、離散的な化学構造を直接モデル化することに苦慮し、しばしばブルート力列挙に強く依存する。 この課題は分子構造の離散的かつ非微分可能な性質から生じる。 そこで本研究では,個別の化学構造を局所的微分可能構造に変換するための学習知識ネットワークを用いた微分可能足場木(dst)を提案する。 DSTは、グラフニューラルネットワーク(GNN)を介して、ターゲット特性からの導関数をバックプロパゲートすることで、化学グラフ構造上の勾配に基づく最適化を可能にする。 実験により, 勾配に基づく分子最適化は有効であり, 試料効率が高いことが示された。 さらに、学習したグラフパラメータは、ドメインの専門家がモデル出力を理解するのに役立つ説明を提供することもできる。

The structural design of functional molecules, also called molecular optimization, is an essential chemical science and engineering task with important applications, such as drug discovery. Deep generative models and combinatorial optimization methods achieve initial success but still struggle with directly modeling discrete chemical structures and often heavily rely on brute-force enumeration. The challenge comes from the discrete and non-differentiable nature of molecule structures. To address this, we propose differentiable scaffolding tree (DST) that utilizes a learned knowledge network to convert discrete chemical structures to locally differentiable ones. DST enables a gradient-based optimization on a chemical graph structure by back-propagating the derivatives from the target properties through a graph neural network (GNN). Our empirical studies show the gradient-based molecular optimizations are both effective and sample efficient. Furthermore, the learned graph parameters can also provide an explanation that helps domain experts understand the model output.
翻訳日:2021-09-23 13:43:09 公開日:2021-09-22
# POMDPのオフポリシィ評価へのスペクトル的アプローチ

A Spectral Approach to Off-Policy Evaluation for POMDPs ( http://arxiv.org/abs/2109.10502v1 )

ライセンス: Link先を確認
Yash Nair and Nan Jiang(参考訳) 評価方針は可観測変数のみに依存するが,行動方針は潜伏状態に依存する(Tennenholtz et al. (2020a))。 この問題の先行研究は、特定の1ステップモーメント行列の可逆性に依存する隠れ状態の1ステップ観測可能プロキシに基づく因果同定戦略を用いている。 本研究では,スペクトル法を用いてこの要件を緩和し,一段階のプロキシを過去と未来の両方に拡張する。 我々は,既存の手法と比較し,予測精度の向上と汎用性の向上を実証する。 最後に,tennenholtz et al. (2020a) が要求する報酬と隠れ状態構造に関して,観測可能な軌道の厳密な十分条件に依存せず,ランク,識別性,肯定性条件に依存する分離重要サンプリング (is) アルゴリズムを導出する。

We consider off-policy evaluation (OPE) in Partially Observable Markov Decision Processes, where the evaluation policy depends only on observable variables but the behavior policy depends on latent states (Tennenholtz et al. (2020a)). Prior work on this problem uses a causal identification strategy based on one-step observable proxies of the hidden state, which relies on the invertibility of certain one-step moment matrices. In this work, we relax this requirement by using spectral methods and extending one-step proxies both into the past and future. We empirically compare our OPE methods to existing ones and demonstrate their improved prediction accuracy and greater generality. Lastly, we derive a separate Importance Sampling (IS) algorithm which relies on rank, distinctness, and positivity conditions, and not on the strict sufficiency conditions of observable trajectories with respect to the reward and hidden-state structure required by Tennenholtz et al. (2020a).
翻訳日:2021-09-23 13:42:55 公開日:2021-09-22
# 一様外乱下におけるベイズフィルタ間の知識融合の完全確率的設計

Fully probabilistic design for knowledge fusion between Bayesian filters under uniform disturbances ( http://arxiv.org/abs/2109.10596v1 )

ライセンス: Link先を確認
Lenka Kukli\v{s}ov\'a Pavelkov\'a (1), Ladislav Jirsa (1), Anthony Quinn (1 and 2) ((1) Czech Academy of Sciences, Institute of Information Theory and Automation, Czech Republic, (2) Trinity College Dublin, the University of Dublin, Ireland)(参考訳) 本稿では,一様状態による線形状態空間過程と観測雑音過程とのベイズ伝達学習に基づく知識融合の問題について考察する。 ソースフィルタリングタスク(s)から供給される確率的状態予測器の目標タスク条件は、自身の状態推定を改善する。 ターゲットとソース(s)のジョイントモデルを必要としない。 完全確率設計(FPD)、すなわちクルバック・リーブラー発散(KLD)の適切な最小化により、不完全モデリングの下で最適条件目標フィルタリング分布を選択するための意思決定問題を解く。 FPD最適目標学習者は、質の悪い情報源知識を拒絶できるという意味で、堅牢である。 さらに、このベイズ変換学習(BTL)スキームは、ソースとターゲットタスク間の相互作用モデルに依存しないという事実は、そのようなモデルの誤特定に対して堅牢性を保証する。 後者は従来の移動学習法に影響を与える問題である。 提案するbtl方式の特性は, 広範なシミュレーションにより実証され, 従来の2つの代替案と比較した。

This paper considers the problem of Bayesian transfer learning-based knowledge fusion between linear state-space processes driven by uniform state and observation noise processes. The target task conditions on probabilistic state predictor(s) supplied by the source filtering task(s) to improve its own state estimate. A joint model of the target and source(s) is not required and is not elicited. The resulting decision-making problem for choosing the optimal conditional target filtering distribution under incomplete modelling is solved via fully probabilistic design (FPD), i.e. via appropriate minimization of Kullback-Leibler divergence (KLD). The resulting FPD-optimal target learner is robust, in the sense that it can reject poor-quality source knowledge. In addition, the fact that this Bayesian transfer learning (BTL) scheme does not depend on a model of interaction between the source and target tasks ensures robustness to the misspecification of such a model. The latter is a problem that affects conventional transfer learning methods. The properties of the proposed BTL scheme are demonstrated via extensive simulations, and in comparison with two contemporary alternatives.
翻訳日:2021-09-23 13:42:37 公開日:2021-09-22
# 機械学習分類器における効率的な能動学習のための逆例の探索

Exploring Adversarial Examples for Efficient Active Learning in Machine Learning Classifiers ( http://arxiv.org/abs/2109.10770v1 )

ライセンス: Link先を確認
Honggang Yu, Shihfeng Zeng, Teng Zhang, Ing-Chao Lin, Yier Jin(参考訳) 機械学習の研究者は、トレーニングサンプルが下層の判断境界付近で密にサンプル化されると、モデルトレーニングプロセスがより効果的で効率的になる、という現象に長い間気づいてきた。 この観察はすでにさまざまな機械学習セキュリティ技術に広く適用されているが、観測の正確性に関する理論的分析が欠けている。 この課題に対処するために、我々はまず、逆アタック手法を用いて、元のトレーニング例に特定の摂動を加えて、生成された例がML分類器の判定境界にほぼ沿うようにした。 次に、アクティブラーニングとこれらのトレーニング例との関係について検討する。 k-NN分類器、カーネル法、深層ニューラルネットワークなどの代表分類器を解析することにより、観測の理論的基礎を確立する。 その結果、我々の理論的証明は、敵の例がしばしば破壊的な解として使用される以前の研究とは対照的に、敵の例の助けを借りて、より効率的な能動的学習手法の支援を提供する。 実験結果から, 理論基盤の確立により, 対戦型事例に基づくより良い学習戦略が導かれることが示された。

Machine learning researchers have long noticed the phenomenon that the model training process will be more effective and efficient when the training samples are densely sampled around the underlying decision boundary. While this observation has already been widely applied in a range of machine learning security techniques, it lacks theoretical analyses of the correctness of the observation. To address this challenge, we first add particular perturbation to original training examples using adversarial attack methods so that the generated examples could lie approximately on the decision boundary of the ML classifiers. We then investigate the connections between active learning and these particular training examples. Through analyzing various representative classifiers such as k-NN classifiers, kernel methods as well as deep neural networks, we establish a theoretical foundation for the observation. As a result, our theoretical proofs provide support to more efficient active learning methods with the help of adversarial examples, contrary to previous works where adversarial examples are often used as destructive solutions. Experimental results show that the established theoretical foundation will guide better active learning strategies based on adversarial examples.
翻訳日:2021-09-23 13:42:21 公開日:2021-09-22
# 頻繁なラベルセットマイニングとアソシエーションによるマルチラベル分類の改善

Improved Multi-label Classification with Frequent Label-set Mining and Association ( http://arxiv.org/abs/2109.10797v1 )

ライセンス: Link先を確認
Anwesha Law, Ashish Ghosh(参考訳) マルチラベル(ML)データは、個々のサンプルに関連付けられた複数のクラスを同時に扱う。 これにより、複数のクラスが繰り返し共起し、それらの間の既存の相関関係が示される。 本稿では,既存のML分類器の分類性能を向上させるために,クラス間の相関について検討した。 ラベルセットの頻繁なマイニングの新たな手法として,ラベルセットから相関クラスを抽出する手法が提案されている。 共存在(CP)と共存在(CA)の両方を考慮に入れている。 MLデータから抽出されたルールは、クラス相関情報を既存のML分類器に組み込むためにさらに使われている。 ml分類器によって生成されるソフトスコアは、cp-caルールを用いた新しいアプローチにより修正される。 ここでは,特定のスコアとそれに対応するCP-CAルールの助けを借りて,不確実なスコアを改善することを目的とした,確実かつ不確実なスコアの概念が定義されている。 これは、MLの既存の3つの分類器に対して10のMLデータセットで実験的に分析され、全体的なパフォーマンスが大幅に改善されている。

Multi-label (ML) data deals with multiple classes associated with individual samples at the same time. This leads to the co-occurrence of several classes repeatedly, which indicates some existing correlation among them. In this article, the correlation among classes has been explored to improve the classification performance of existing ML classifiers. A novel approach of frequent label-set mining has been proposed to extract these correlated classes from the label-sets of the data. Both co-presence (CP) and co-absence (CA) of classes have been taken into consideration. The rules mined from the ML data has been further used to incorporate class correlation information into existing ML classifiers. The soft scores generated by an ML classifier are modified through a novel approach using the CP-CA rules. A concept of certain and uncertain scores has been defined here, where the proposed method aims to improve the uncertain scores with the help of the certain scores and their corresponding CP-CA rules. This has been experimentally analysed on ten ML datasets for three ML existing classifiers which shows substantial improvement in their overall performance.
翻訳日:2021-09-23 13:42:01 公開日:2021-09-22
# 多レベル最適化に基づく例による学習

Learning by Examples Based on Multi-level Optimization ( http://arxiv.org/abs/2109.10824v1 )

ライセンス: Link先を確認
Shentong Mo, Pengtao Xie(参考訳) 実例による学習は, 人間の学習において, 類似した問題の解決方法を検討することによって, 新たな問題の解き方を学ぶ。 学生が新しいトピックを学ぶと、このトピックに類似した模範的なトピックを見つけ出し、新しいトピックの理解を深めるための模範的なトピックを研究する。 我々は,この強力な学習スキルを人間から借用して,機械学習の改善を図ることを目的としている。 本研究では,LBE(Learning By Examples)と呼ばれる新しい学習手法を提案する。 このアプローチでは,クエリ例に類似した一連のトレーニング例を自動的に検索し,検索したサンプルのクラスラベルを用いてクエリ例のラベルを予測する。 そこで本研究では,学習の3段階を含むlbeを定式化するための3段階の最適化フレームワークを提案する。 類似例の検索のためのシャムネットワークの学習,検索された類似例のクラスラベルを活用したクエリ例の予測のためのマッチングネットワークの学習,検証損失の最小化による学習例間の'ground-truth'の類似性を学習する。 本研究では,lbe問題を解くための効率的なアルゴリズムを開発し,様々なベンチマーク実験を行い,教師付き学習と少数ショット学習の両方における手法の有効性を示す。

Learning by examples, which learns to solve a new problem by looking into how similar problems are solved, is an effective learning method in human learning. When a student learns a new topic, he/she finds out exemplar topics that are similar to this new topic and studies the exemplar topics to deepen the understanding of the new topic. We aim to investigate whether this powerful learning skill can be borrowed from humans to improve machine learning as well. In this work, we propose a novel learning approach called Learning By Examples (LBE). Our approach automatically retrieves a set of training examples that are similar to query examples and predicts labels for query examples by using class labels of the retrieved examples. We propose a three-level optimization framework to formulate LBE which involves three stages of learning: learning a Siamese network to retrieve similar examples; learning a matching network to make predictions on query examples by leveraging class labels of retrieved similar examples; learning the ``ground-truth'' similarities between training examples by minimizing the validation loss. We develop an efficient algorithm to solve the LBE problem and conduct extensive experiments on various benchmarks where the results demonstrate the effectiveness of our method on both supervised and few-shot learning.
翻訳日:2021-09-23 13:41:46 公開日:2021-09-22
# 動的知識グラフのための埋め込みの更新

Updating Embeddings for Dynamic Knowledge Graphs ( http://arxiv.org/abs/2109.10896v1 )

ライセンス: Link先を確認
Christopher Wewer, Florian Lemmerich and Michael Cochez(参考訳) 知識グラフ内のデータは、しばしば現実世界の現在の状態の一部を表す。 したがって、最新の状態を維持するには、グラフデータを頻繁に更新する必要がある。 Knowledge Graphsからの情報を活用するために、最先端の機械学習アプローチの多くは埋め込み技術を使用している。 これらの技術は一般的に埋め込み、すなわちメイン機械学習アルゴリズムの入力としてノードのベクトル表現を計算する。 グラフ更新が後で発生する場合、特にノードの追加や削除を行う場合には、トレーニングをもう一度やり直す必要があります。 時間が掛かっていることと、これらの埋め込みでトレーニングされた下流モデルが大きく変化した場合に再トレーニングされる必要があるため、これは望ましくない。 本稿では,フルリトレーニングを必要としない埋め込み更新について検討し,複数のユースケースをカバーする実動的知識グラフ上の各種埋め込みモデルと組み合わせて評価する。 本研究では,新たに出現するノードをローカル情報に基づいて最適に配置する手法について検討する。 しかし, 従来の埋め込みのトレーニングを継続し, 追加および削除部分のみを最適化するエポックとインターリーブすると, リンク予測に使用される典型的な指標でよい結果が得られることがわかった。 このパフォーマンスは完全なリトレーニングよりもずっと高速に得られ、動的知識グラフへの埋め込みを維持することができる。

Data in Knowledge Graphs often represents part of the current state of the real world. Thus, to stay up-to-date the graph data needs to be updated frequently. To utilize information from Knowledge Graphs, many state-of-the-art machine learning approaches use embedding techniques. These techniques typically compute an embedding, i.e., vector representations of the nodes as input for the main machine learning algorithm. If a graph update occurs later on -- specifically when nodes are added or removed -- the training has to be done all over again. This is undesirable, because of the time it takes and also because downstream models which were trained with these embeddings have to be retrained if they change significantly. In this paper, we investigate embedding updates that do not require full retraining and evaluate them in combination with various embedding models on real dynamic Knowledge Graphs covering multiple use cases. We study approaches that place newly appearing nodes optimally according to local information, but notice that this does not work well. However, we find that if we continue the training of the old embedding, interleaved with epochs during which we only optimize for the added and removed parts, we obtain good results in terms of typical metrics used in link prediction. This performance is obtained much faster than with a complete retraining and hence makes it possible to maintain embeddings for dynamic Knowledge Graphs.
翻訳日:2021-09-23 13:41:25 公開日:2021-09-22
# 動的環境における視覚ナビゲーションのためのロバストエージェントの学習:iGibson Challenge 2021の勝者

Learning Robust Agents for Visual Navigation in Dynamic Environments: The Winning Entry of iGibson Challenge 2021 ( http://arxiv.org/abs/2109.10493v1 )

ライセンス: Link先を確認
Naoki Yokoyama, Qian Luo, Dhruv Batra, Sehoon Ha(参考訳) 本稿では,igibson interactive navigation challenge 2021で1位となった動的かつインタラクティブな環境におけるナビゲーション改善手法を提案する。 過去数年間、静的環境におけるPointGoal Navigationの目覚ましい進歩をみせてきたが、より現実的な動的環境に対する取り組みは比較的少ない。 iGibson Challengeは、インタラクティブナビゲーションとソーシャルナビゲーションという2つの新しいナビゲーションタスクを提案した。 これらの問題を研究するための我々のアプローチは2つの重要なアイデアを使用する。 まず,シミュレーションと同期学習の両方に高性能並列計算をサポートするHabitatシミュレータを活用することで,大規模強化学習を採用する。 第二に、よりダイナミックなオブジェクトを環境に追加する新しいデータ拡張技術を採用し、従来の画像ベースの拡張技術と組み合わせることで、パフォーマンスをさらに向上する。 最後に,HabitatからiGibsonシミュレータへのsim-to-sim転送を実現し,対話型オブジェクトや移動型人間を用いた動的環境におけるロバストエージェントのトレーニングを可能にする手法を提案する。 ビデオリンク: https://www.youtube. com/watch? v=HxUX2HeOSE4

This paper presents an approach for improving navigation in dynamic and interactive environments, which won the 1st place in the iGibson Interactive Navigation Challenge 2021. While the last few years have produced impressive progress on PointGoal Navigation in static environments, relatively little effort has been made on more realistic dynamic environments. The iGibson Challenge proposed two new navigation tasks, Interactive Navigation and Social Navigation, which add displaceable obstacles and moving pedestrians into the simulator environment. Our approach to study these problems uses two key ideas. First, we employ large-scale reinforcement learning by leveraging the Habitat simulator, which supports high performance parallel computing for both simulation and synchronized learning. Second, we employ a new data augmentation technique that adds more dynamic objects into the environment, which can also be combined with traditional image-based augmentation techniques to boost the performance further. Lastly, we achieve sim-to-sim transfer from Habitat to the iGibson simulator, and demonstrate that our proposed methods allow us to train robust agents in dynamic environments with interactive objects or moving humans. Video link: https://www.youtube. com/watch?v=HxUX2HeOSE4
翻訳日:2021-09-23 13:41:06 公開日:2021-09-22
# インターセクションシナリオにおける自律走行のための強化学習ベンチマーク

A Reinforcement Learning Benchmark for Autonomous Driving in Intersection Scenarios ( http://arxiv.org/abs/2109.10557v1 )

ライセンス: Link先を確認
Yuqi Liu, Qichao Zhang and Dongbin Zhao(参考訳) 近年,都市交差点のシナリオ下での制御が研究課題となっている。 このようなシナリオでは、自動運転車は交通規則に従って社会的な車両との対話をタイムリーに処理しなければならないため、複雑な状況に直面する。 一般的に、自動運転車は衝突を避けながら効率を向上する。 既存の作業は、強化学習(RL)メソッドのデプロイとテストを可能にしながら、シナリオの整合性を強調するフレームワークの提供に失敗している。 具体的には、RL-CISと呼ばれる複雑な交差点シナリオにおけるRLベースの自律運転エージェントの訓練と試験のためのベンチマークを提案する。 次に、一連のベースラインをデプロイし、さまざまなアルゴリズムから構成する。 テストベンチマークとベースラインは、交差点シナリオにおける自律運転のためのRLの研究のための公平で包括的なトレーニングおよびテストプラットフォームを提供することであり、交差点自律運転制御のためのRLベースの手法の進歩を前進させる。 提案されたフレームワークのコードはhttps://github.com/l iuyuqi123/complexurb anscenariosにあります。

In recent years, control under urban intersection scenarios becomes an emerging research topic. In such scenarios, the autonomous vehicle confronts complicated situations since it must deal with the interaction with social vehicles timely while obeying the traffic rules. Generally, the autonomous vehicle is supposed to avoid collisions while pursuing better efficiency. The existing work fails to provide a framework that emphasizes the integrity of the scenarios while being able to deploy and test reinforcement learning(RL) methods. Specifically, we propose a benchmark for training and testing RL-based autonomous driving agents in complex intersection scenarios, which is called RL-CIS. Then, a set of baselines are deployed consists of various algorithms. The test benchmark and baselines are to provide a fair and comprehensive training and testing platform for the study of RL for autonomous driving in the intersection scenario, advancing the progress of RL-based methods for intersection autonomous driving control. The code of our proposed framework can be found at https://github.com/l iuyuqi123/ComplexUrb anScenarios.
翻訳日:2021-09-23 13:40:45 公開日:2021-09-22
# レコメンダシステムのための文脈認識木ベース深層モデル

Context-aware Tree-based Deep Model for Recommender Systems ( http://arxiv.org/abs/2109.10602v1 )

ライセンス: Link先を確認
Daqing Chang, Jintao Liu, Ziru Xu, Han Li, Han Zhu, Xiaoqiang Zhu(参考訳) 大規模産業レコメンデーションシステムにおいて, 正確なユーザ嗜好の予測方法と, 大規模コーパスからの効率的な検索方法が大きな課題である。 木ベースの手法では、木構造tをインデックスとして、コーパスの各項目をt上の葉ノードにアタッチする。 そして、レコメンデーション問題はビーム探索処理によって解決された階層検索問題に効率的に変換される。 本稿では,木ベース手法における効率的な検索を支援するために使用される木インデックスは,コーパスに関する階層的情報も豊富であると主張する。 さらに,レコメンダシステムのための新しいコンテキスト対応ツリーベースディープモデル(ConTDM)を提案する。 ConTDMでは、コンテキスト対応のユーザ嗜好予測モデルMが、T上の水平コンテキストと垂直コンテキストの両方を利用するように設計されている。 水平的に、グラフ畳み込み層は、T 上のユーザとノードの両方を隣人と表現するために使用される。 垂直的には、Mで親融合層を設計し、Tの上位レベルにおけるユーザの嗜好表現を現在のレベルに送信し、ビーム探索中に木ベースの手法が粗い集合から詳細まで候補セットを生成するという本質を把握する。 さらに,提案したConTDMのユーザ嗜好モデルを,他のツリーベース手法に便利に拡張してレコメンダシステムを提案する。 大規模実世界のデータセットと大規模産業アプリケーションにおけるオンラインA/Bテストの両方の実験は、ConTDMによる大幅な改善を示している。

How to predict precise user preference and how to make efficient retrieval from a big corpus are two major challenges of large-scale industrial recommender systems. In tree-based methods, a tree structure T is adopted as index and each item in corpus is attached to a leaf node on T . Then the recommendation problem is converted into a hierarchical retrieval problem solved by a beam search process efficiently. In this paper, we argue that the tree index used to support efficient retrieval in tree-based methods also has rich hierarchical information about the corpus. Furthermore, we propose a novel context-aware tree-based deep model (ConTDM) for recommender systems. In ConTDM, a context-aware user preference prediction model M is designed to utilize both horizontal and vertical contexts on T . Horizontally, a graph convolutional layer is used to enrich the representation of both users and nodes on T with their neighbors. Vertically, a parent fusion layer is designed in M to transmit the user preference representation in higher levels of T to the current level, grasping the essence that tree-based methods are generating the candidate set from coarse to detail during the beam search retrieval. Besides, we argue that the proposed user preference model in ConTDM can be conveniently extended to other tree-based methods for recommender systems. Both experiments on large scale real-world datasets and online A/B test in large scale industrial applications show the significant improvements brought by ConTDM.
翻訳日:2021-09-23 13:40:28 公開日:2021-09-22
# AI-HRI 2021の成果

AI-HRI 2021 Proceedings ( http://arxiv.org/abs/2109.10836v1 )

ライセンス: Link先を確認
Reuth Mirsky, Megan Zimmerman, Muneed Ahmad, Shelly Bagchi, Felix Gervits, Zhao Han, Justin Hart, Daniel Hern\'andez Garc\'ia, Matteo Leonetti, Ross Mead, Emmanuel Senft, Jivko Sinapov, Jason Wilson(参考訳) The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposiumは2014年以来、議論とコラボレーションの場として成功している。 この間、これらのシンポジウムは多くの共同研究の基盤となり、HRIへの信頼、HRIのためのXAI、サービスロボット、対話型学習など多くの議論の先駆者となった。 今年は、過去10年間のAI-HRIコミュニティの成果をレビューし、今後の課題を特定し、この成長するコミュニティに参加したいと考えている新しい研究者を歓迎することを目指している。 この広い視点から見れば、今年のシンポジウムをリードするテーマはひとつもなく、私たちは、分野や研究の関心事からAI-HRIの提出を奨励します。 さらに、交流の一環としてARやVRへの関心が高まり、パンデミック中の物理実験の難しさに続き、今年は研究者に対して、物理ロボットを評価に含まない作品の提出を奨励するとともに、一般のHRI研究を促進することを推奨しています。 さらに、倫理が人間とロボットの相互作用の本質的な部分であることを認め、HRIの倫理に関する著作の提出を奨励する。 2日間のミーティングを通じて、AI-HRIの現在の取り組みに関する議論のための共同フォーラムを開催し、HRIとユビキタスHRIの倫理に関するトピックに焦点を当てた追加の講演を行う。

The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposium has been a successful venue of discussion and collaboration since 2014. During that time, these symposia provided a fertile ground for numerous collaborations and pioneered many discussions revolving trust in HRI, XAI for HRI, service robots, interactive learning, and more. This year, we aim to review the achievements of the AI-HRI community in the last decade, identify the challenges facing ahead, and welcome new researchers who wish to take part in this growing community. Taking this wide perspective, this year there will be no single theme to lead the symposium and we encourage AI-HRI submissions from across disciplines and research interests. Moreover, with the rising interest in AR and VR as part of an interaction and following the difficulties in running physical experiments during the pandemic, this year we specifically encourage researchers to submit works that do not include a physical robot in their evaluation, but promote HRI research in general. In addition, acknowledging that ethics is an inherent part of the human-robot interaction, we encourage submissions of works on ethics for HRI. Over the course of the two-day meeting, we will host a collaborative forum for discussion of current efforts in AI-HRI, with additional talks focused on the topics of ethics in HRI and ubiquitous HRI.
翻訳日:2021-09-23 13:39:56 公開日:2021-09-22
# 量子ボルツマンマシンを用いたマルチエージェント強化学習に向けて

Towards Multi-Agent Reinforcement Learning using Quantum Boltzmann Machines ( http://arxiv.org/abs/2109.10900v1 )

ライセンス: Link先を確認
Tobias M\"uller, Christoph Roch, Kyrill Schmid and Philipp Altmann(参考訳) 強化学習は機械学習の素晴らしい進歩をもたらした。 同時に、量子アニールを用いた量子強化機械学習アルゴリズムは、大きな発展をもたらす。 近年,両パラダイムを組み合わせたマルチエージェント強化学習(MARL)アーキテクチャが提案されている。 Q値近似にQuantum Boltzmann Machines (QBMs) を用いるこのアルゴリズムは、収束に必要な時間ステップにおいて、通常の深い強化学習よりも優れている。 しかし、このアルゴリズムはシングルエージェントと小さな2x2マルチエージェントグリッドドメインに限定されていた。 本研究では,より困難な問題を解決するために,原概念の拡張を提案する。 従来のdqnsと同様に、エクスペリエンスリプレイバッファを追加し、ターゲットとポリシー値の近似に異なるネットワークを使用します。 実験の結果,学習の安定性が向上し,エージェントがより複雑なグリッドドメインで最適なポリシーを見つけることができることがわかった。 さらに,パラメータ共有がエージェントの動作に与える影響を評価する。 量子サンプリングは強化学習タスクの有望な方法であることが証明されているが、現在qpuのサイズと入力およびボルツマンマシンのサイズによって制限されている。

Reinforcement learning has driven impressive advances in machine learning. Simultaneously, quantum-enhanced machine learning algorithms using quantum annealing underlie heavy developments. Recently, a multi-agent reinforcement learning (MARL) architecture combining both paradigms has been proposed. This novel algorithm, which utilizes Quantum Boltzmann Machines (QBMs) for Q-value approximation has outperformed regular deep reinforcement learning in terms of time-steps needed to converge. However, this algorithm was restricted to single-agent and small 2x2 multi-agent grid domains. In this work, we propose an extension to the original concept in order to solve more challenging problems. Similar to classic DQNs, we add an experience replay buffer and use different networks for approximating the target and policy values. The experimental results show that learning becomes more stable and enables agents to find optimal policies in grid-domains with higher complexity. Additionally, we assess how parameter sharing influences the agents behavior in multi-agent domains. Quantum sampling proves to be a promising method for reinforcement learning tasks, but is currently limited by the QPU size and therefore by the size of the input and Boltzmann machine.
翻訳日:2021-09-23 13:39:31 公開日:2021-09-22
# 線虫Caenorhabditis elegansにおける脳活動の迅速検出と認識

Rapid detection and recognition of whole brain activity in a freely behaving Caenorhabditis elegans ( http://arxiv.org/abs/2109.10474v1 )

ライセンス: Link先を確認
Yuxiang Wu, Shang Wu, Xin Wang, Chengtian Lang, Quanshi Zhang, Quan Wen, Tianqi Xu(参考訳) 高度な体積イメージング法と遺伝的にコードされた活性指標は、単一ニューロン分解能における全脳活動の包括的特徴付けを許している。 しかし、軟体神経系の一定の運動と変形は、行動する動物における密集した神経細胞の一貫した同定に大きな課題を課す。 本稿では,自由移動する \textit{c] において頭部神経節ニューロンを長期かつ迅速に認識するためのカスケード解を提案する。 elegans (複数形 elegans) まず、深層学習アルゴリズムにより、蛍光画像のスタックから電位ニューロン領域を検出する。 次に、2次元ニューロン領域を3次元ニューロン実体に融合させる。 第3に、ニューロンを取り巻く神経細胞の密度分布と、ニューロン間の相対的な位置情報の活用により、多クラス人工ニューラルネットワークは、エンジニアリングしたニューロン特徴ベクトルをデジタル神経アイデンティティに変換する。 少数のトレーニングサンプル(20~40ボリューム)の制約の下で、ボトムアップアプローチでは、各ボリューム — 1024 \times 1024 \times 18$ in voxels — を1秒足らずで処理することが可能で、ニューロン検出に9,1\$、ニューロン認識に7,4\$という精度を実現しています。 我々の研究は、動物行動に基づく脳の活動全体をデコードするための、迅速かつ完全に自動化されたアルゴリズムに向けた重要な発展を示している。

Advanced volumetric imaging methods and genetically encoded activity indicators have permitted a comprehensive characterization of whole brain activity at single neuron resolution in \textit{Caenorhabditis elegans}. The constant motion and deformation of the mollusc nervous system, however, impose a great challenge for a consistent identification of densely packed neurons in a behaving animal. Here, we propose a cascade solution for long-term and rapid recognition of head ganglion neurons in a freely moving \textit{C. elegans}. First, potential neuronal regions from a stack of fluorescence images are detected by a deep learning algorithm. Second, 2 dimensional neuronal regions are fused into 3 dimensional neuron entities. Third, by exploiting the neuronal density distribution surrounding a neuron and relative positional information between neurons, a multi-class artificial neural network transforms engineered neuronal feature vectors into digital neuronal identities. Under the constraint of a small number (20-40 volumes) of training samples, our bottom-up approach is able to process each volume - $1024 \times 1024 \times 18$ in voxels - in less than 1 second and achieves an accuracy of $91\%$ in neuronal detection and $74\%$ in neuronal recognition. Our work represents an important development towards a rapid and fully automated algorithm for decoding whole brain activity underlying natural animal behaviors.
翻訳日:2021-09-23 13:39:00 公開日:2021-09-22
# セマンティックタスクによる関節型視神経イメージング

Joint Optical Neuroimaging Denoising with Semantic Tasks ( http://arxiv.org/abs/2109.10499v1 )

ライセンス: Link先を確認
Tianfang Zhu, Yue Guan, Anan Li(参考訳) 光ニューロイメージングは、脳の構造と領域と核間の接続を理解するための重要なツールである。 しかし, 試料調製と撮像システムで導入された画像ノイズは, データセットからのノウレゲの抽出を妨げるため, 光学的ニューロイメージングのデノイングが通常必要である。 教師付きdenoisng法は、教師なしのdenoisng法よりも優れていることが多いが、教師付きdenoisingモデルのトレーニングには対応するクリーンラベルが必要である。 一方, ソマ位置, 再建された神経線維, 核分裂の結果などのセマンティックなラベルは, 日常の神経科学研究から一般的に利用でき, 蓄積されている。 この研究は教師付き分節化モデルと意味セグメンテーションモデルとを結合し、エンド・ツー・エンドモデルを形成する。 我々は,教師付きモデルと自己教師付きモデルの両方を用い,関節弁別とセグメンテーション設定に新たなコスト項を導入する。 提案手法は、光学ニューロマーミングデータセットや電子顕微鏡データセットを含む、合成データと実世界のデータの両方について検証する。 その結果, 調音結果が, 単独の調音法よりも優れており, 調音モデルもセグメンテーションや下流作業にも効果があることが示唆された。

Optical neuroimaging is a vital tool for understanding the brain structure and the connection between regions and nuclei. However, the image noise introduced in the sample preparation and the imaging system hinders the extraction of the possible knowlege from the dataset, thus denoising for the optical neuroimaging is usually necessary. The supervised denoisng methods often outperform the unsupervised ones, but the training of the supervised denoising models needs the corresponding clean labels, which is not always avaiable due to the high labeling cost. On the other hand, those semantic labels, such as the located soma positions, the reconstructed neuronal fibers, and the nuclei segmentation result, are generally available and accumulated from everyday neuroscience research. This work connects a supervised denoising and a semantic segmentation model together to form a end-to-end model, which can make use of the semantic labels while still provides a denoised image as an intermediate product. We use both the supervised and the self-supervised models for the denoising and introduce a new cost term for the joint denoising and the segmentation setup. We test the proposed approach on both the synthetic data and the real-world data, including the optical neuroimaing dataset and the electron microscope dataset. The result shows that the joint denoising result outperforms the one using the denoising method alone and the joint model benefits the segmentation and other downstream task as well.
翻訳日:2021-09-23 13:38:37 公開日:2021-09-22
# ライブ音声ポートレイト:リアルタイムフォトリアリスティックトーキングヘッドアニメーション

Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation ( http://arxiv.org/abs/2109.10595v1 )

ライセンス: Link先を確認
Yuanxun Lu, Jinxiang Chai, Xun Cao(参考訳) まず,30fps以上の音声信号のみを駆動する,パーソナライズされたフォトリアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。 私たちのシステムには3つの段階があります。 第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。 第2段階では、投影された音声特徴から顔の動きと動きを学習する。 予測された動きは頭部ポーズと上半身の動きを含み、前者は対象者の頭部ポーズ分布をモデル化した自己回帰確率モデルによって生成される。 上半身の動きは頭部のポーズから推測される。 最終段階では、前回の予測から条件付き特徴マップを生成し、候補画像セットを画像から画像への変換ネットワークに送り、フォトリアリスティックなレンダリングを合成する。 本手法は,野生の音声によく一般化し,シワや歯など,高忠実度なパーソナライズされた顔詳細をうまく合成する。 また,頭部ポーズの明示的な制御も可能である。 定性的,定量的な評価とユーザスタディは,最先端技術に対する本手法の優位性を実証している。

To the best of our knowledge, we first present a live system that generates personalized photorealistic talking-head animation only driven by audio signals at over 30 fps. Our system contains three stages. The first stage is a deep neural network that extracts deep audio features along with a manifold projection to project the features to the target person's speech space. In the second stage, we learn facial dynamics and motions from the projected audio features. The predicted motions include head poses and upper body motions, where the former is generated by an autoregressive probabilistic model which models the head pose distribution of the target person. Upper body motions are deduced from head poses. In the final stage, we generate conditional feature maps from previous predictions and send them with a candidate image set to an image-to-image translation network to synthesize photorealistic renderings. Our method generalizes well to wild audio and successfully synthesizes high-fidelity personalized facial details, e.g., wrinkles, teeth. Our method also allows explicit control of head poses. Extensive qualitative and quantitative evaluations, along with user studies, demonstrate the superiority of our method over state-of-the-art techniques.
翻訳日:2021-09-23 13:38:12 公開日:2021-09-22
# 腹部マルチオルガンセグメンテーションのための効率的なコンテキストアウェアネットワーク

Efficient Context-Aware Network for Abdominal Multi-organ Segmentation ( http://arxiv.org/abs/2109.10601v1 )

ライセンス: Link先を確認
Fan Zhang, Yu Wang(参考訳) 腹部CT検査で示された文脈情報は比較的一致している。 3dコンテキスト全体を最大限に活用するため,腹腔内マルチオルガンセグメンテーションを効率的かつ効果的に行うための全ボリューム粗いto-fineフレームワークを開発した。 本稿では,エンコーダ,デコーダ,コンテキストブロックで構成される新しい効率的なSegNetネットワークを提案する。 デコーダモジュールでは、k*k*1のスライス内畳み込みと1*1*kのスライス間畳み込みによる異方性畳み込みが計算負担を軽減するように設計されている。 そこで本研究では,腹部シーンに存在する異方性と長距離のコンテキスト情報をキャプチャするためのストリッププーリングモジュールを提案する。 本手法は, FLARE2021検証事例の定量的評価を行い, 平均ダイス類似度係数(DSC)0.895, 平均正規化表面距離(NSD)0.775を達成する。 平均実行時間は推論フェーズあたり9.8 sであり、最大使用GPUメモリは1017 MBである。

The contextual information, presented in abdominal CT scan, is relative consistent. In order to make full use of the overall 3D context, we develop a whole-volumebased coarse-to-fine framework for efficient and effective abdominal multi-organ segmentation. We propose a new efficientSegNet network, which is composed of encoder, decoder and context block. For the decoder module, anisotropic convolution with a k*k*1 intra-slice convolution and a 1*1*k inter-slice convolution, is designed to reduce the computation burden. For the context block, we propose strip pooling module to capture anisotropic and long-range contextual information, which exists in abdominal scene. Quantitative evaluation on the FLARE2021 validation cases, this method achieves the average dice similarity coefficient (DSC) of 0.895 and average normalized surface distance (NSD) of 0.775. The average running time is 9.8 s per case in inference phase, and maximum used GPU memory is 1017 MB.
翻訳日:2021-09-23 13:37:53 公開日:2021-09-22
# 前庭神経癌とコクリーセグメンテーションに対する自己訓練に基づく教師なしクロスモダリティドメイン適応

Self-Training Based Unsupervised Cross-Modality Domain Adaptation for Vestibular Schwannoma and Cochlea Segmentation ( http://arxiv.org/abs/2109.10674v1 )

ライセンス: Link先を確認
Hyungseob Shin, Hyeongyu Kim, Sewon Kim, Yohan Jun, Taejoon Eo, Dosik Hwang(参考訳) 深層学習の進歩に伴い、多くの医用画像セグメンテーション研究は、完全に監督された状態で人間レベルのパフォーマンスを達成する。 しかし、医学分野のすべてのデータ、特に多くの異なるコントラストを構成する磁気共鳴画像(MRI)のアノテーションを取得することは極めて高価である。 教師なし手法はこの問題を軽減することができるが、完全な教師付き手法に比べて性能低下は避けられない。 本研究では,自己学習に基づく教師なし学習フレームワークを提案する。このフレームワークは,高分解能T2スキャンにおいて,前庭神経ショーノマ(VS)とコクランの自動セグメンテーションを行う。 方法は主に4つの段階からなる。 1) 造影T1スキャンから高分解能T2スキャンへのVS保存コントラスト変換 2)T1スキャンにアノテーションを付加したT2スキャンのトレーニングセグメンテーション 3)非注釈実T2スキャンにおける擬似ラベルの推測と 4) VSとcochleaセグメンテーションの汎用性をトレーニングによって向上させる(例:擬似ラベル付き実T2スキャンと真アノテーション付き実T2スキャン)。 提案手法では,クロスモダ2021チャレンジ検証フェーズリーダボードにおいて,平均ダイススコアと平均対称表面距離 (assd) を0.8570 (0.0705) および 0.4970 (0.3391) とし,0.8446 (0.0211) および 0.1513 (0.0314) を,他の手法よりも優れていた。

With the advances of deep learning, many medical image segmentation studies achieve human-level performance when in fully supervised condition. However, it is extremely expensive to acquire annotation on every data in medical fields, especially on magnetic resonance images (MRI) that comprise many different contrasts. Unsupervised methods can alleviate this problem; however, the performance drop is inevitable compared to fully supervised methods. In this work, we propose a self-training based unsupervised-learnin g framework that performs automatic segmentation of Vestibular Schwannoma (VS) and cochlea on high-resolution T2 scans. Our method consists of 4 main stages: 1) VS-preserving contrast conversion from contrast-enhanced T1 scan to high-resolution T2 scan, 2) training segmentation on generated T2 scans with annotations on T1 scans, and 3) Inferring pseudo-labels on non-annotated real T2 scans, and 4) boosting the generalizability of VS and cochlea segmentation by training with combined data (i.e., real T2 scans with pseudo-labels and generated T2 scans with true annotations). Our method showed mean Dice score and Average Symmetric Surface Distance (ASSD) of 0.8570 (0.0705) and 0.4970 (0.3391) for VS, 0.8446 (0.0211) and 0.1513 (0.0314) for Cochlea on CrossMoDA2021 challenge validation phase leaderboard, outperforming most other approaches.
翻訳日:2021-09-23 13:37:32 公開日:2021-09-22
# 微分可能な表面三角法

Differentiable Surface Triangulation ( http://arxiv.org/abs/2109.10695v1 )

ライセンス: Link先を確認
Marie-Julie Rakotosaona, Noam Aigerman, Niloy Mitra, Maks Ovsjanikov, Paul Guerrero(参考訳) トライアングルメッシュは、表面幾何学における最も一般的なデータ表現である。 このユビキタス表現は本質的には、離散トポロジカル三角測量から連続頂点位置を分離するハイブリッド表現である。 残念なことに、三角測量の組合せの性質は、任意の曲面のメッシュ化可能な空間上の微分を取ることを妨げている。 その結果、メッシュ処理と最適化技術は、現代の最適化フレームワークのモジュラー勾配降下成分を真に活用することができなかった。 本研究では,曲面三角関数の空間上での頂点毎あるいは面毎の微分対象関数の最適化を可能にする,微分可能な曲面三角関数を提案する。 提案手法は, 適度に摂動重み付きデラウネー三角測量により, 任意の2次元三角測量が達成できることを示す。 この結果を,古典的重み付きデラウネー三角形の軟緩和と頂点重みと頂点位置の最適化により計算アルゴリズムに変換する。 形状を展開可能な集合に分解し,各集合に適切な境界制約を付与することにより,アルゴリズムを3dに拡張する。 本研究では, 種々の平面および表面メッシュ上での手法の有効性を, 最適化が困難な対象関数に対して示す。 私たちのコードは、https://github.com/m rakotosaon/diff-surf ace-triangulationで見ることができます。

Triangle meshes remain the most popular data representation for surface geometry. This ubiquitous representation is essentially a hybrid one that decouples continuous vertex locations from the discrete topological triangulation. Unfortunately, the combinatorial nature of the triangulation prevents taking derivatives over the space of possible meshings of any given surface. As a result, to date, mesh processing and optimization techniques have been unable to truly take advantage of modular gradient descent components of modern optimization frameworks. In this work, we present a differentiable surface triangulation that enables optimization for any per-vertex or per-face differentiable objective function over the space of underlying surface triangulations. Our method builds on the result that any 2D triangulation can be achieved by a suitably perturbed weighted Delaunay triangulation. We translate this result into a computational algorithm by proposing a soft relaxation of the classical weighted Delaunay triangulation and optimizing over vertex weights and vertex locations. We extend the algorithm to 3D by decomposing shapes into developable sets and differentiably meshing each set with suitable boundary constraints. We demonstrate the efficacy of our method on various planar and surface meshes on a range of difficult-to-optimiz e objective functions. Our code can be found online: https://github.com/m rakotosaon/diff-surf ace-triangulation.
翻訳日:2021-09-23 13:37:01 公開日:2021-09-22
# マルチクラスセグメンテーションに応用したてんかん不確実性マップの定量的比較

A Quantitative Comparison of Epistemic Uncertainty Maps Applied to Multi-Class Segmentation ( http://arxiv.org/abs/2109.10702v1 )

ライセンス: Link先を確認
Robin Camarasa (1 and 2), Daniel Bos (2 and 3), Jeroen Hendrikse (4), Paul Nederkoorn (5), M. Eline Kooi (6), Aad van der Lugt (2), Marleen de Bruijne (1, 2 and 7), ((1) Biomedical Imaging Group Rotterdam, Department of Radiology and Nuclear Medicine, Erasmus MC, Rotterdam, The Netherlands, (2) Department of Radiology and Nuclear Medicine, Erasmus MC, Rotterdam, The Netherlands, (3) Department of Epidemiology, Erasmus MC, Rotterdam, The Netherlands, (4) Department of Radiology, University Medical Center Utrecht, Utrecht, The Netherlands, (5) Department of Neurology, Academic Medical Center University of Amsterdam, Amsterdam, The Netherlands, (6) Department of Radiology and Nuclear Medicine, CARIM School for Cardiovascular Diseases, Maastricht University Medical Center, Maastricht, The Netherlands, (7) Department of Computer Science, University of Copenhagen, Denmark)(参考訳) 不確実性評価は、医療画像分析に急速に関心を寄せている。 てんかん不確実性を計算する一般的な手法はモンテカルロ(MC)ドロップアウト技術である。 mcドロップアウトと単一の入力を持つネットワークから、複数の出力をサンプリングすることができる。 様々な方法を用いて、これらの複数の出力からてんかん不確実性マップを得ることができる。 多クラスセグメンテーションの場合、認識の不確実性はクラスごとにvoxelwiseまたはイメージごとにvoxelwiseを計算できるため、メソッドの数はさらに大きくなる。 本稿では,これらの手法を2つの異なる文脈で定義し,定量的に比較するための体系的アプローチとして,クラス固有の疫学不確実性マップ(画像毎,ボクセル,クラス毎の1値)と複合疫学不確実性マップ(画像毎,ボクセル毎の1値)を挙げる。 この定量的解析を頸動脈腔と血管壁のマルチクラスセグメンテーションに応用し,マルチセンター,マルチスキャン,マルチシーケンスのMR画像を用いて検討した。 モデルのハイパーパラメータ144セットについて解析を行った。 本研究の主な分析は, 発病性不確実性値に基づいて分類されたボクセルの順序と予測の誤分類との関係について考察した。 この考察により, 複合不確実性マップの比較により, マルチクラスエントロピーと多クラス相互情報の方が, 統計的に他の複合不確実性マップよりも優れていることが明らかになった。 クラス固有のシナリオでは、1対全エントロピーは、クラスワイズエントロピー、クラスワイズ分散、およびクラスワイズ情報と全ての相互情報とを統計的に上回る。 クラスワイドエントロピーは、キャリブレーションの観点から他のクラス固有不確実性写像よりも統計的に優れる。 異なるデータやタスクの分析を再現するためのpythonパッケージを作成しました。

Uncertainty assessment has gained rapid interest in medical image analysis. A popular technique to compute epistemic uncertainty is the Monte-Carlo (MC) dropout technique. From a network with MC dropout and a single input, multiple outputs can be sampled. Various methods can be used to obtain epistemic uncertainty maps from those multiple outputs. In the case of multi-class segmentation, the number of methods is even larger as epistemic uncertainty can be computed voxelwise per class or voxelwise per image. This paper highlights a systematic approach to define and quantitatively compare those methods in two different contexts: class-specific epistemic uncertainty maps (one value per image, voxel and class) and combined epistemic uncertainty maps (one value per image and voxel). We applied this quantitative analysis to a multi-class segmentation of the carotid artery lumen and vessel wall, on a multi-center, multi-scanner, multi-sequence dataset of (MR) images. We validated our analysis over 144 sets of hyperparameters of a model. Our main analysis considers the relationship between the order of the voxels sorted according to their epistemic uncertainty values and the misclassification of the prediction. Under this consideration, the comparison of combined uncertainty maps reveals that the multi-class entropy and the multi-class mutual information statistically out-perform the other combined uncertainty maps under study. In a class-specific scenario, the one-versus-all entropy statistically out-performs the class-wise entropy, the class-wise variance and the one versus all mutual information. The class-wise entropy statistically out-performs the other class-specific uncertainty maps in terms of calibration. We made a python package available to reproduce our analysis on different data and tasks.
翻訳日:2021-09-23 13:36:40 公開日:2021-09-22
# STITとポアソン超平面ランダム林のミニマックス速度

Minimax Rates for STIT and Poisson Hyperplane Random Forests ( http://arxiv.org/abs/2109.10541v1 )

ライセンス: Link先を確認
Eliza O'Reilly and Ngoc Mai Tran(参考訳) 12], Mourtada, Ga\"{i}ffas and Scornet では、複雑性パラメータの適切なチューニングの下で、$\mathbb{R}^d$でモンドリアン過程から構築されたランダムツリーと森は、$\beta$-H\"{o}lder連続関数に対してミニマックス率を達成し、ランダムフォレストは任意の次元で$(1+\beta)$-H\"{o}lder関数に対してミニマックス率を達成することを示した。 本研究では,ランダムな分割である$\mathbb{r}^d$ から構築したランダムな森林群が,これらの極小化率を達成することを実証する。 このクラスにはSTITランダム・フォレスト(英語版)が含まれ、これは超平面切断により$\mathbb{R}^d$の自己相似かつ定常な分割から構築される最も一般的なランダム・フォレストと、ポアソン・ハイパープレーン・テッセルレーションに由来する森林を含んでいる。 我々の証明手法は古典的結果と、確率幾何学における定常ランダムテッセレーションの最近の進歩に依拠している。

In [12], Mourtada, Ga\"{i}ffas and Scornet showed that, under proper tuning of the complexity parameters, random trees and forests built from the Mondrian process in $\mathbb{R}^d$ achieve the minimax rate for $\beta$-H\"{o}lder continuous functions, and random forests achieve the minimax rate for $(1+\beta)$-H\"{o}lder functions in arbitrary dimension. In this work, we show that a much larger class of random forests built from random partitions of $\mathbb{R}^d$ also achieve these minimax rates. This class includes STIT random forests, the most general class of random forests built from a self-similar and stationary partition of $\mathbb{R}^d$ by hyperplane cuts possible, as well as forests derived from Poisson hyperplane tessellations. Our proof technique relies on classical results as well as recent advances on stationary random tessellations in stochastic geometry.
翻訳日:2021-09-23 13:35:34 公開日:2021-09-22
# レーティング遷移予測:フィルタリングアプローチ

Rating transitions forecasting: a filtering approach ( http://arxiv.org/abs/2109.10567v1 )

ライセンス: Link先を確認
Areski Cousin (IRMA), J\'er\^ome Lelong (LJK), Ragnar Norberg (ISFA), Tom Picard (DAO, LJK)(参考訳) 特にストレステストの規制当局からの圧力が高まっているため、この15年間、ビジネスサイクルがレーティング移行に与える影響を分析することは大きな関心事となっている。 本稿では,評価移動のダイナミクスが観測されていない潜在要因によって制御されていることを考察する。 点過程フィルタリングフレームワークでは,評価履歴の観測から隠蔽因子の現在の状態を効率的に推定する方法について説明する。 次に、古典的なbaum-welshアルゴリズムを設定に適応させ、潜在因子パラメータを推定する方法を示す。 一度校正すれば、レーティングマイグレーションのダイナミクスに影響を与える経済変化をリアルタイムで明らかにし、検出することができる。 この目的のために、外部共変量を用いることなく、経済体制に従って将来の遷移確率を予測するために使用できるフィルタリング公式を適用する。 離散バージョンと連続バージョンという2つのフィルタリングフレームワークを提案する。 我々は,企業信用格付けデータベースと企業信用格付けデータベースの両方におけるアプローチの効率を実証し,比較する。 この方法は、小売ローンにも適用できる。

Analyzing the effect of business cycle on rating transitions has been a subject of great interest these last fifteen years, particularly due to the increasing pressure coming from regulators for stress testing. In this paper, we consider that the dynamics of rating migrations is governed by an unobserved latent factor. Under a point process filtering framework, we explain how the current state of the hidden factor can be efficiently inferred from observations of rating histories. We then adapt the classical Baum-Welsh algorithm to our setting and show how to estimate the latent factor parameters. Once calibrated, we may reveal and detect economic changes affecting the dynamics of rating migration, in real-time. To this end we adapt a filtering formula which can then be used for predicting future transition probabilities according to economic regimes without using any external covariates. We propose two filtering frameworks: a discrete and a continuous version. We demonstrate and compare the efficiency of both approaches on fictive data and on a corporate credit rating database. The methods could also be applied to retail credit loans.
翻訳日:2021-09-23 13:35:04 公開日:2021-09-22
# セマンティックスによるプログラム間の等価性を示す自己教師付き学習

Self-Supervised Learning to Prove Equivalence Between Programs via Semantics-Preserving Rewrite Rules ( http://arxiv.org/abs/2109.10476v1 )

ライセンス: Link先を確認
Steve Kommrusch, Martin Monperrus and Louis-No\"el Pouchet(参考訳) 複雑な記号表現を持つ文列からなる2つのプログラム間の意味同値の証明を合成する問題を対象とする。 プログラムペア間の等価性の公理的証明を生成するために,トランスフォーマーに基づくニューラルネットワークアーキテクチャを提案する。 我々はスカラーやベクトルを含む式を生成し、同値性を証明するためにマルチタイプ書き換えルールをサポートする。 システムをトレーニングするために,自己教師付きサンプル選択と呼ばれる独自のトレーニング手法を開発した。 この漸進的なトレーニングは、学習モデルの品質、一般化可能性、拡張性を改善する。 そこで本研究では,本システムの有効性について検討し,トランスフォーマーモデルが複雑で検証可能な記号的推論を表現できることを示す。 我々のシステムであるS4Eqは1万組のプログラムに対して97%の成功を達成し、設計による偽陽性をゼロにする。

We target the problem of synthesizing proofs of semantic equivalence between two programs made of sequences of statements with complex symbolic expressions. We propose a neural network architecture based on the transformer to generate axiomatic proofs of equivalence between program pairs. We generate expressions which include scalars and vectors and support multi-typed rewrite rules to prove equivalence. For training the system, we develop an original training technique, which we call self-supervised sample selection. This incremental training improves the quality, generalizability and extensibility of the learned model. We study the effectiveness of the system to generate proofs of increasing length, and we demonstrate how transformer models learn to represent complex and verifiable symbolic reasoning. Our system, S4Eq, achieves 97% proof success on 10,000 pairs of programs while ensuring zero false positives by design.
翻訳日:2021-09-23 13:34:46 公開日:2021-09-22
# 畳み込みニューラルネットワークによる電位運動信号の同定

Identifying Potential Exomoon Signals with Convolutional Neural Networks ( http://arxiv.org/abs/2109.10503v1 )

ライセンス: Link先を確認
Alex Teachey and David Kipping(参考訳) 有望なエクソムーンのホストシステムのターゲットとなる観測は、当面は取得が難しく、分析に時間がかかるだろう。 そのため、ケプラー、K2、TESSのような時間領域の調査は、候補エクソモン系を特定する最初のステップとして、引き続き重要な役割を果たす。 本研究では,Kepler が観測した単一トランジットイベントにおいて,コンボリューションニューラルネットワーク (CNN) のアンサンブルを訓練し,候補エクソモオン信号の同定を行う。 私たちのトレーニングセットは、ケプラー光度曲線に注入された合成、惑星のみ、惑星+ムーンの27,000ドルのサンプルで構成されています。 我々は、個々のCNNアーキテクチャで最大88%の分類精度を達成し、CNNアンサンブルが全一致である場合に、検証セット内の衛星を特定する精度を97パーセントまで向上する。 次に、1880年のケプラー天体の光線曲線にcnnアンサンブルを適用し、周期が10$ days (\sim$57,000個別トランジット)であり、さらに惑星のトランジットを各光線曲線に注入することでcnn分類器の精度をテストし、恒星活動の残留が偽の正の分類をもたらす程度を定量化する。 これらのトランジットのごく一部は月のような信号を含んでいるが、この結果からのエクソムーン発生率の強い推論には注意が必要である。 結論として,exomoon検索におけるニューラルネットワーク活用の課題について考察した。

Targeted observations of possible exomoon host systems will remain difficult to obtain and time-consuming to analyze in the foreseeable future. As such, time-domain surveys such as Kepler, K2 and TESS will continue to play a critical role as the first step in identifying candidate exomoon systems, which may then be followed-up with premier ground- or space-based telescopes. In this work, we train an ensemble of convolutional neural networks (CNNs) to identify candidate exomoon signals in single-transit events observed by Kepler. Our training set consists of ${\sim}$27,000 examples of synthetic, planet-only and planet+moon single transits, injected into Kepler light curves. We achieve up to 88\% classification accuracy with individual CNN architectures and 97\% precision in identifying the moons in the validation set when the CNN ensemble is in total agreement. We then apply the CNN ensemble to light curves from 1880 Kepler Objects of Interest with periods $>10$ days ($\sim$57,000 individual transits), and further test the accuracy of the CNN classifier by injecting planet transits into each light curve, thus quantifying the extent to which residual stellar activity may result in false positive classifications. We find a small fraction of these transits contain moon-like signals, though we caution against strong inferences of the exomoon occurrence rate from this result. We conclude by discussing some ongoing challenges to utilizing neural networks for the exomoon search.
翻訳日:2021-09-23 13:34:32 公開日:2021-09-22
# データ駆動doa推定のためのdeep augmented musicアルゴリズム

Deep Augmented MUSIC Algorithm for Data-Driven DoA Estimation ( http://arxiv.org/abs/2109.10581v1 )

ライセンス: Link先を確認
Julian P. Merkofer, Guy Revach, Nir Shlezinger, Ruud J. G. van Sloun(参考訳) 到着方向推定(DoA)はセンサアレイ信号処理において重要な課題であり、様々なモデルベース(MB)アルゴリズムや最近開発されたデータ駆動(DD)手法が成功している。 本稿では,古典的多重信号分類(MUSIC)アルゴリズムに基づく新しいハイブリッドMB/DD DoA推定アーキテクチャを提案する。 本手法は,ニューラル・アーキテクチャを具体化したオリジナルの音楽構造の重要な側面を補強し,コヒーレントな音源のローカライズに成功できないなど,純粋mb法の制限を克服する。 MUSICアルゴリズムは、改良されていないバージョンよりも優れた解像度で性能を発揮する。

Direction of arrival (DoA) estimation is a crucial task in sensor array signal processing, giving rise to various successful model-based (MB) algorithms as well as recently developed data-driven (DD) methods. This paper introduces a new hybrid MB/DD DoA estimation architecture, based on the classical multiple signal classification (MUSIC) algorithm. Our approach augments crucial aspects of the original MUSIC structure with specifically designed neural architectures, allowing it to overcome certain limitations of the purely MB method, such as its inability to successfully localize coherent sources. The deep augmented MUSIC algorithm is shown to outperform its unaltered version with a superior resolution.
翻訳日:2021-09-23 13:34:00 公開日:2021-09-22
# ハイパーグラフを用いた帰納学習のための適応型ニューラルメッセージパッシング

Adaptive Neural Message Passing for Inductive Learning on Hypergraphs ( http://arxiv.org/abs/2109.10683v1 )

ライセンス: Link先を確認
Devanshu Arya, Deepak K. Gupta, Stevan Rudinac and Marcel Worring(参考訳) グラフは、関係データセットを表現し、推論を実行するための最もユビキタスなデータ構造である。 しかし、それらはノード間のペア関係のみをモデル化し、高次関係を符号化するために設計されていない。 この欠点は、エッジが任意の数のノードを接続できるハイパーグラフによって軽減される。 ほとんどのハイパーグラフ学習手法は、ハイパーグラフ構造をグラフに変換し、既存の幾何学的深層学習手法をデプロイする。 この変換は、情報損失とハイパーグラフの表現力の準最適利用につながる。 モジュール型2レベルニューラルメッセージパッシング戦略を用いて,ハイパーエッジ内とハイパーエッジ間の情報を正確かつ効率的に伝播する,新しいハイパーグラフ学習フレームワークhypermsgを提案する。 HyperMSGは各ノードの次数集中度に関連する注意重みを学習することで、データとタスクに適応する。 このようなメカニズムはノードの局所的および大域的重要性を定量化し、ハイパーグラフの構造的性質を捉える。 HyperMSGはインダクティブであり、以前は見つからなかったノードでの推論を可能にする。 さらに、堅牢で、幅広いタスクやデータセットで最先端のハイパーグラフ学習方法よりも優れています。 最後に,マルチメディアデータセット上での詳細な実験を通して,マルチモーダル関係学習におけるhypermsgの有効性を実証する。

Graphs are the most ubiquitous data structures for representing relational datasets and performing inferences in them. They model, however, only pairwise relations between nodes and are not designed for encoding the higher-order relations. This drawback is mitigated by hypergraphs, in which an edge can connect an arbitrary number of nodes. Most hypergraph learning approaches convert the hypergraph structure to that of a graph and then deploy existing geometric deep learning methods. This transformation leads to information loss, and sub-optimal exploitation of the hypergraph's expressive power. We present HyperMSG, a novel hypergraph learning framework that uses a modular two-level neural message passing strategy to accurately and efficiently propagate information within each hyperedge and across the hyperedges. HyperMSG adapts to the data and task by learning an attention weight associated with each node's degree centrality. Such a mechanism quantifies both local and global importance of a node, capturing the structural properties of a hypergraph. HyperMSG is inductive, allowing inference on previously unseen nodes. Further, it is robust and outperforms state-of-the-art hypergraph learning methods on a wide range of tasks and datasets. Finally, we demonstrate the effectiveness of HyperMSG in learning multimodal relations through detailed experimentation on a challenging multimedia dataset.
翻訳日:2021-09-23 13:33:47 公開日:2021-09-22
# 非線形システムの安定化ポリシーの模倣学習

Imitation Learning of Stabilizing Policies for Nonlinear Systems ( http://arxiv.org/abs/2109.10854v1 )

ライセンス: Link先を確認
Sebastian East(参考訳) 近年、既知のシステムに関して安定化制御則を定式化することが保証されている模倣学習法への関心が高まっている。 この領域での作業は一般に線形システムやコントローラを考慮し、模倣学習の安定化は二凸最適化の問題の形を取る。 本稿では,線形システムやコントローラ用に開発された同じ手法を,平方法の和を用いて多項式系やコントローラに容易に拡張できることを実証する。 安定化模倣学習問題を解くためのヒューリスティックとして,乗算アルゴリズムの投影勾配降下アルゴリズムと交互方向法を提案し,その性能を数値実験により示す。

There has been a recent interest in imitation learning methods that are guaranteed to produce a stabilizing control law with respect to a known system. Work in this area has generally considered linear systems and controllers, for which stabilizing imitation learning takes the form of a biconvex optimization problem. In this paper it is demonstrated that the same methods developed for linear systems and controllers can be readily extended to polynomial systems and controllers using sum of squares techniques. A projected gradient descent algorithm and an alternating direction method of multipliers algorithm are proposed as heuristics for solving the stabilizing imitation learning problem, and their performance is illustrated through numerical experiments.
翻訳日:2021-09-23 13:33:29 公開日:2021-09-22
# ENERO: 効率的なリアルタイムルーティング最適化

ENERO: Efficient Real-Time Routing Optimization ( http://arxiv.org/abs/2109.10883v1 )

ライセンス: Link先を確認
Paul Almasan, Shihan Xiao, Xiangle Cheng, Xiang Shi, Pere Barlet-Ros, Albert Cabellos-Aparicio(参考訳) 広域ネットワーク(WAN)は、今日の社会において重要なインフラである。 過去数年間、WANはネットワークのトラフィックとネットワークアプリケーションの数を大幅に増加させてきた。 創発的ネットワークアプリケーション(Vehicular Network、Internet of Thingsなど)のデプロイを可能にするためには、既存のTraffic Engineering(TE)ソリューションが高性能なリアルタイムネットワーク操作を実現する必要がある。 さらに、teソリューションは動的なシナリオ(例えば、トラフィックマトリックスの変更やトポロジーリンクの障害など)に適応できなければなりません。 しかし、現在のTE技術は、高度にダイナミックなTEシナリオには適さない手作りのヒューリスティックや計算コストの高い解法に依存している。 本稿では,効率的なリアルタイムTEエンジンであるエネロを提案する。 Eneroは2段階最適化プロセスに基づいている。 第一に、長期的なte戦略を生成してルーティング構成を最適化するために、深層強化学習(drl)を活用する。 動的ネットワーク上で効率的なTEを実現するために,グラフニューラルネットワーク(GNN)をDRLエージェントに統合した。 第2段階では、最適化プロセスに計算オーバーヘッドを加えることなく、ローカル検索アルゴリズムを使用してDRLのソリューションを改善する。 Eneroはパフォーマンスの低いバウンダリを提供しており、ネットワークオペレータはDRLエージェントの最悪のパフォーマンスを知ることができる。 パフォーマンスの低さは、現実のネットワークシナリオにおいてdrlベースのソリューションを展開する道筋を軽くすると信じています。 実験結果から,エネロは実世界の動的ネットワークトポロジにおいて,最大100エッジまでのトポロジの平均4.5秒で動作可能であることが示された。

Wide Area Networks (WAN) are a key infrastructure in today's society. During the last years, WANs have seen a considerable increase in network's traffic as well as in the number of network applications. To enable the deployment of emergent network applications (e.g., Vehicular networks, Internet of Things), existing Traffic Engineering (TE) solutions must be able to achieve high performance real-time network operation. In addition, TE solutions must be able to adapt to dynamic scenarios (e.g., changes in the traffic matrix or topology link failures). However, current TE technologies rely on hand-crafted heuristics or computationally expensive solvers, which are not suitable for highly dynamic TE scenarios. In this paper we propose Enero, an efficient real-time TE engine. Enero is based on a two-stage optimization process. In the first one, it leverages Deep Reinforcement Learning (DRL) to optimize the routing configuration by generating a long-term TE strategy. We integrated a Graph Neural Network (GNN) into the DRL agent to enable efficient TE on dynamic networks. In the second stage, Enero uses a Local Search algorithm to improve DRL's solution without adding computational overhead to the optimization process. Enero offers a lower bound in performance, enabling the network operator to know the worst-case performance of the DRL agent. We believe that the lower bound in performance will lighten the path of deploying DRL-based solutions in real-world network scenarios. The experimental results indicate that Enero is able to operate in real-world dynamic network topologies in 4.5 seconds on average for topologies up to 100 edges.
翻訳日:2021-09-23 13:33:16 公開日:2021-09-22
# 深部ニューラルネットワークを用いた心臓興奮波のロータ局在と位相マッピング

Rotor Localization and Phase Mapping of Cardiac Excitation Waves using Deep Neural Networks ( http://arxiv.org/abs/2109.10472v1 )

ライセンス: Link先を確認
Jan Lebert, Namita Ravi, Flavio Fenton, Jan Christoph(参考訳) 心臓筋組織における電気的インパルス現象の解析は、心臓リズム障害やその他の心疾患の診断に重要である。 心臓マッピング技術は、多くの局所的時間測定値を取得し、それらを組み合わせて心表面における電気生理学的波動現象の拡散を可視化する。 しかし、低空間分解能、スパース測定位置、ノイズ、その他のアーティファクトは、時空間活動の正確な可視化を困難にしている。 例えば、電気解剖学的なカテーテルマッピングは測定の間隔によって著しく制限され、光学的マッピングはノイズや動きのアーティファクトにつながる。 過去、ノイズやスパースマッピングデータからより信頼性の高い地図を得るためのいくつかのアプローチが提案されてきた。 本稿では,位相マップの計算や,ノイズとスパースな電気的マッピングデータから位相特異性を高精度かつ効率良く検出するために,深層学習を応用できることを実証する。 自己教師型ディープラーニングアプローチは、古典的な位相マッピング手法と根本的に異なる。 時系列データから位相信号を符号化する代わりに、ネットワークは電気データの短い時空間列と位相マップと位相特異点の位置を直接関連付けることを学ぶ。 この方法を用いることで,光マッピング実験と計算機シミュレーションの両方から生成した極めてばらばらでノイズの多いデータからでも,位相マップを正確に計算し,ローターコアを同定することができた。 ニューラルネットワークは従来の位相マッピングやローターコアローカライゼーション法に代わる有望な代替手段であり、基本的な心血管研究や心房細動解析のための臨床環境において光学マッピング研究に使用できる。

The analysis of electrical impulse phenomena in cardiac muscle tissue is important for the diagnosis of heart rhythm disorders and other cardiac pathophysiology. Cardiac mapping techniques acquire numerous local temporal measurements and combine them to visualize the spread of electrophysiological wave phenomena across the heart surface. However, low spatial resolutions, sparse measurement locations, noise and other artifacts make it challenging to accurately visualize spatio-temporal activity. For instance, electro-anatomical catheter mapping is severely limited by the sparsity of the measurements and optical mapping is prone to noise and motion artifacts. In the past, several approaches have been proposed to obtain more reliable maps from noisy or sparse mapping data. Here, we demonstrate that deep learning can be used to compute phase maps and detect phase singularities from both noisy and sparse electrical mapping data with high precision and efficiency. The self-supervised deep learning approach is fundamentally different from classical phase mapping techniques. Rather than encoding a phase signal from time-series data, the network instead learns to directly associate short spatio-temporal sequences of electrical data with phase maps and the positions of phase singularities. Using this method, we were able to accurately compute phase maps and locate rotor cores even from extremely sparse and noisy data, generated from both optical mapping experiments and computer simulations. Neural networks are a promising alternative to conventional phase mapping and rotor core localization methods, that could be used in optical mapping studies in basic cardiovascular research as well as in the clinical setting for the analysis of atrial fibrillation.
翻訳日:2021-09-23 13:32:51 公開日:2021-09-22
# DVC-P:知覚最適化によるディープビデオ圧縮

DVC-P: Deep Video Compression with Perceptual Optimizations ( http://arxiv.org/abs/2109.10849v1 )

ライセンス: Link先を確認
Saiping Zhang, Marta Mrak, Luis Herranz, Marc G\'orriz, Shuai Wan, Fuzheng Yang(参考訳) 近年,目的や知覚品質,ビットレートの最適化を目的とした,学習に基づくビデオ圧縮手法の開発が盛んに進んでいる。 本稿では,デコード映像の知覚的品質向上を目的とした知覚最適化(dvc-p)による深部映像圧縮を提案する。 提案するDVC-Pはディープビデオ圧縮(DVC)ネットワークに基づいているが,知覚的最適化により改善されている。 具体的には、ネットワークの歪み、知覚、レートのトレードオフを支援するために、識別器ネットワークと混合損失を用いる。 さらに、dvcフレームワークでエンコードされたシーケンスに現れるチェッカーボードアーティファクトを排除するために、neighbor補間が使用される。 これら2つの改良により、復号化シーケンスの知覚品質が向上した。 実験の結果,提案手法はベースラインDVCと比較して,知覚品質の高い映像を平均12.27%,知覚的BD値が12.27%低減できることがわかった。

Recent years have witnessed the significant development of learning-based video compression methods, which aim at optimizing objective or perceptual quality and bit rates. In this paper, we introduce deep video compression with perceptual optimizations (DVC-P), which aims at increasing perceptual quality of decoded videos. Our proposed DVC-P is based on Deep Video Compression (DVC) network, but improves it with perceptual optimizations. Specifically, a discriminator network and a mixed loss are employed to help our network trade off among distortion, perception and rate. Furthermore, nearest-neighbor interpolation is used to eliminate checkerboard artifacts which can appear in sequences encoded with DVC frameworks. Thanks to these two improvements, the perceptual quality of decoded sequences is improved. Experimental results demonstrate that, compared with the baseline DVC, our proposed method can generate videos with higher perceptual quality achieving 12.27% reduction in a perceptual BD-rate equivalent, on average.
翻訳日:2021-09-23 13:32:24 公開日:2021-09-22
# 長いつながりのダイナミクスの調査とモデル化

Investigating and Modeling the Dynamics of Long Ties ( http://arxiv.org/abs/2109.10523v1 )

ライセンス: Link先を確認
Ding Lyu, Yuan Yuan, Lin Wang, Xiaofan Wang, Alex Pentland(参考訳) 異なるコミュニティを橋渡しする社会的結びつきは、ソーシャルネットワークに新しい情報を広める上で重要な役割を担っていると広く信じられている。 しかし、既存のネットワーク理論や予測モデルによっては、長い関係はすぐに解けるか、最終的に冗長になる可能性があるため、長い結合の長期的な価値に疑問が持たれている。 実世界のダイナミックネットワークを実証分析した結果,このような理屈に反して,長い関係は他の社会的な関係よりも持続性が高く,多くの場合,ローカルネットワークに埋め込まれることなく常にソーシャルブリッジとして機能することが明らかとなった。 機械学習と組み合わされた新しいコスト便益分析モデルを用いることで、長いつながりは極めて有益であり、本能的にそれらを維持するために余分な努力を払わなければならないことを示した。 これは、多くの既存の理論やモデルによって示唆されたよりも長い関係が永続的である理由を部分的に説明している。 本研究は、様々な背景を持つ人との混合など、長いつながりの形成を促進する社会的介入の必要性を示唆する。

Long ties, the social ties that bridge different communities, are widely believed to play crucial roles in spreading novel information in social networks. However, some existing network theories and prediction models indicate that long ties might dissolve quickly or eventually become redundant, thus putting into question the long-term value of long ties. Our empirical analysis of real-world dynamic networks shows that contrary to such reasoning, long ties are more likely to persist than other social ties, and that many of them constantly function as social bridges without being embedded in local networks. Using a novel cost-benefit analysis model combined with machine learning, we show that long ties are highly beneficial, which instinctively motivates people to expend extra effort to maintain them. This partly explains why long ties are more persistent than what has been suggested by many existing theories and models. Overall, our study suggests the need for social interventions that can promote the formation of long ties, such as mixing people with diverse backgrounds.
翻訳日:2021-09-23 13:32:08 公開日:2021-09-22
# 定量的mriのためのニューラルネットワークのクレーア・ラオ・バウンドインフォームドトレーニング

Cram\'er-Rao bound-informed training of neural networks for quantitative MRI ( http://arxiv.org/abs/2109.10535v1 )

ライセンス: Link先を確認
Xiaoxia Zhang, Quentin Duchemin, Kangning Liu, Sebastian Flassbeck, Cem Gultekin, Carlos Fernandez-Granda, Jakob Assl\"ander(参考訳) ニューラルネットワークは、定量的MRI、特に磁気共鳴フィンガープリントでパラメーターを推定するためにますます使われている。 金標準の非線形最小二乗フィッティングに対するそれらの利点は、その優れた速度と多くのフィッティング問題の非凸性に対する免疫である。 しかし,不均質なパラメータ空間,すなわち推定パラメータのばらつきが大きく変化する空間において,良好な性能を得るのが困難であり,損失関数,ハイパーパラメータ,およびパラメータ空間におけるトレーニングデータの分布の厳密な調整が必要となる。 ここでは、これらの問題を理論的に十分に確立された損失関数を用いて解決する: Cram\'er-Rao 境界 (CRB) は、非バイアス推定器の分散に対する理論的下界を提供し、各 CRB で二乗誤差を正規化することを提案する。 この正規化により,パラメータ空間における推定困難パラメータと推定不能パラメータの寄与度をバランスさせ,トレーニング損失における前者の優位を回避できる。 さらに、CRBに基づく損失関数は、理想的な推定器である最大効率の非バイアス推定器に対して等しい。 したがって、提案したCRBに基づく損失関数は絶対評価指標を提供する。 CRBに基づく損失をトレーニングしたネットワークと、一般的に使用される2乗誤差損失をトレーニングしたネットワークを比較し、数値、幻、生体実験における前者の利点を実証する。

Neural networks are increasingly used to estimate parameters in quantitative MRI, in particular in magnetic resonance fingerprinting. Their advantages over the gold standard non-linear least square fitting are their superior speed and their immunity to the non-convexity of many fitting problems. We find, however, that in heterogeneous parameter spaces, i.e. in spaces in which the variance of the estimated parameters varies considerably, good performance is hard to achieve and requires arduous tweaking of the loss function, hyper parameters, and the distribution of the training data in parameter space. Here, we address these issues with a theoretically well-founded loss function: the Cram\'er-Rao bound (CRB) provides a theoretical lower bound for the variance of an unbiased estimator and we propose to normalize the squared error with respective CRB. With this normalization, we balance the contributions of hard-to-estimate and not-so-hard-to-estim ate parameters and areas in parameter space, and avoid a dominance of the former in the overall training loss. Further, the CRB-based loss function equals one for a maximally-efficient unbiased estimator, which we consider the ideal estimator. Hence, the proposed CRB-based loss function provides an absolute evaluation metric. We compare a network trained with the CRB-based loss with a network trained with the commonly used means squared error loss and demonstrate the advantages of the former in numerical, phantom, and in vivo experiments.
翻訳日:2021-09-23 13:31:49 公開日:2021-09-22
# 摂動理論による予測不確かさの定量化

Quantifying Model Predictive Uncertainty with Perturbation Theory ( http://arxiv.org/abs/2109.10888v1 )

ライセンス: Link先を確認
Rishabh Singh and Jose C. Principe(参考訳) 本稿では,従来の重み確率密度関数(pdf)のベイズ概念を,ガウス再現核ヒルベルト空間(rkhs)埋め込みにおけるモデル重みのポテンシャル場表現に置き換えた,ニューラルネットワークの予測的不確実性定量化のための枠組みを提案する。 これにより、量子物理学からの摂動理論を用いて、モデル重み-出力関係上のモーメント分解問題を定式化することができる。 抽出されたモーメントは、モデル出力の局所近傍周辺の重みポテンシャル場の連続的な正規化の度合いを示す。 このような局所化されたモーメントはPDFの尾部をよく表し、ベイズ的手法やアンサンブル法によって特徴づけられる中心的なモーメントやそれらの変種よりも、モデルの予測的不確かさをはるかに高い精度で表す。 その結果、モデルが学習したトレーニングpdfからの共変量シフトを伴い、テストデータの誤ったモデル予測を検出する能力が向上することが示された。 我々は, 一般的な歪み手法を用いて, 劣化したベンチマークデータセットのベースライン不確実性定量化手法に対するアプローチを評価する。 提案手法は,より高精度でキャリブレーション可能な高速モデル予測の不確実性推定を提供する。

We propose a framework for predictive uncertainty quantification of a neural network that replaces the conventional Bayesian notion of weight probability density function (PDF) with a physics based potential field representation of the model weights in a Gaussian reproducing kernel Hilbert space (RKHS) embedding. This allows us to use perturbation theory from quantum physics to formulate a moment decomposition problem over the model weight-output relationship. The extracted moments reveal successive degrees of regularization of the weight potential field around the local neighborhood of the model output. Such localized moments represent well the PDF tails and provide significantly greater accuracy of the model's predictive uncertainty than the central moments characterized by Bayesian and ensemble methods or their variants. We show that this consequently leads to a better ability to detect false model predictions of test data that has undergone a covariate shift away from the training PDF learned by the model. We evaluate our approach against baseline uncertainty quantification methods on several benchmark datasets that are corrupted using common distortion techniques. Our approach provides fast model predictive uncertainty estimates with much greater precision and calibration.
翻訳日:2021-09-23 13:31:01 公開日:2021-09-22
# 計算流体力学における分岐現象に対する人工ニューラルネットワークアプローチ

An artificial neural network approach to bifurcating phenomena in computational fluid dynamics ( http://arxiv.org/abs/2109.10765v1 )

ライセンス: Link先を確認
Federico Pichi and Francesco Ballarin and Gianluigi Rozza and Jan S. Hesthaven(参考訳) 本研究は、ニューラルネットワークを用いた減数次モデリング設定を用いた分岐流体現象の研究を扱っている。 非線形パラメタライズドPDEの非滑らか解集合を扱うPOD-NN手法について論じる。 そこで,Navier-Stokes方程式について述べる。 (i)チャネル内のcoanda効果、及び (ii) 領域の配置が分岐点の位置に及ぼす影響を考慮して, 物理・幾何学的多パラメータ設定における蓋駆動三角空洞流れについて。 最後に, 臨界点進化の非侵襲的回復のための縮小多様体ベースの分岐図を提案する。 このような検出ツールを駆使して,高レイノルズ数においても,対称性破壊プロファイルから着脱渦まで,パターンフローの挙動に関する情報を効率的に得ることができる。

This work deals with the investigation of bifurcating fluid phenomena using a reduced order modelling setting aided by artificial neural networks. We discuss the POD-NN approach dealing with non-smooth solutions set of nonlinear parametrized PDEs. Thus, we study the Navier-Stokes equations describing: (i) the Coanda effect in a channel, and (ii) the lid driven triangular cavity flow, in a physical/geometrical multi-parametrized setting, considering the effects of the domain's configuration on the position of the bifurcation points. Finally, we propose a reduced manifold-based bifurcation diagram for a non-intrusive recovery of the critical points evolution. Exploiting such detection tool, we are able to efficiently obtain information about the pattern flow behaviour, from symmetry breaking profiles to attaching/spreading vortices, even at high Reynolds numbers.
翻訳日:2021-09-23 13:30:45 公開日:2021-09-22
# SCSS-Net:ディープラーニングによる太陽コロナ構造セグメンテーション

SCSS-Net: Solar Corona Structures Segmentation by Deep Learning ( http://arxiv.org/abs/2109.10834v1 )

ライセンス: Link先を確認
\v{S}imon Mackovjak, Martin Harman, Viera Maslej-Kre\v{s}\v{n}\'akov\'a, Peter Butka(参考訳) 太陽コロナの構造は、直接的または間接的に地球に影響を与えるかもしれない宇宙天気の過程の主要な原動力である。 最新の宇宙ベースの太陽観測所のおかげで、高解像度の画像を連続的に取得できるようになり、太陽コロナの構造を時間分解能で監視することができる。 本研究では,畳み込みニューラルネットワークを用いた深層学習に基づく,EUVスペクトルで観測された太陽コロナ構造の自動セグメンテーション手法を開発した。 利用可能な入力データセットは、ターゲット構造の手動アノテーションに基づいて、我々のデータセットと共に検討されている。 実際、入力データセットは、開発されたモデルの性能の主な制限である。 我々の \textit{SCSS-Net} モデルは、他の一般的な自動セグメンテーション手法と比較可能な、コロナホールとアクティブ領域の結果を提供する。 さらに、これは移動学習技術の助けを借りて太陽コロナの構造を特定する普遍的な手順を提供する。 このモデルの出力は、太陽活動と地球への宇宙気象の影響の間の関係に関するさらなる統計的研究に利用できる。

Structures in the solar corona are the main drivers of space weather processes that might directly or indirectly affect the Earth. Thanks to the most recent space-based solar observatories, with capabilities to acquire high-resolution images continuously, the structures in the solar corona can be monitored over the years with a time resolution of minutes. For this purpose, we have developed a method for automatic segmentation of solar corona structures observed in EUV spectrum that is based on a deep learning approach utilizing Convolutional Neural Networks. The available input datasets have been examined together with our own dataset based on the manual annotation of the target structures. Indeed, the input dataset is the main limitation of the developed model's performance. Our \textit{SCSS-Net} model provides results for coronal holes and active regions that could be compared with other generally used methods for automatic segmentation. Even more, it provides a universal procedure to identify structures in the solar corona with the help of the transfer learning technique. The outputs of the model can be then used for further statistical studies of connections between solar activity and the influence of space weather on Earth.
翻訳日:2021-09-23 13:30:32 公開日:2021-09-22
# (参考訳) 早期・否定可能な時系列分類 [全文訳有]

Early and Revocable Time Series Classification ( http://arxiv.org/abs/2109.10285v2 )

ライセンス: CC BY 4.0
Youssef Achenchabe, Alexis Bondu, Antoine Cornu\'ejols, Vincent Lemaire(参考訳) 医療、輸送、fi-nanceなど幅広い応用において、時系列の早期分類には多くのアプローチが提案されている。 これまで、初期の分類問題は、唯一の無効な決定を考慮に入れることで対処されてきた。 本稿では,新しい測定値に基づいて,意思決定者が事前決定を無効にできる早期・無効な時系列分類を提案する。 この問題を形式化し解決するために,我々は新しいコストベースのフレームワークを提案し,それから2つの新しいアプローチを導出する。 第1のアプローチは、決定を変更するコストを明示的に考慮しないが、第2のアプローチはそうする。 これらのアプローチを実データセットの大規模なベンチマークで評価するために,exten-sive実験を行った。 実感的に得られた実験結果 (i)無効化決定の能力は、再生不能な体制に対する性能を著しく向上させ、 (二)意思決定のコストを考慮すると、一般にさらに良い結果が得られる。キーワード:取り消し可能な決定、コスト見積、オンライン意思決定

Many approaches have been proposed for early classification of time series in light of itssignificance in a wide range of applications including healthcare, transportation and fi-nance. Until now, the early classification problem has been dealt with by considering onlyirrevocable decisions. This paper introduces a new problem calledearly and revocabletimeseries classification, where the decision maker can revoke its earlier decisions based on thenew available measurements. In order to formalize and tackle this problem, we propose anew cost-based framework and derive two new approaches from it. The first approach doesnot consider explicitly the cost of changing decision, while the second one does. Exten-sive experiments are conducted to evaluate these approaches on a large benchmark of realdatasets. The empirical results obtained convincingly show (i) that the ability of revok-ing decisions significantly improves performance over the irrevocable regime, and (ii) thattaking into account the cost of changing decision brings even better results in general.Keywords:rev ocable decisions, cost estimation, online decision making
翻訳日:2021-09-23 10:55:22 公開日:2021-09-22
# TrOCR:事前学習モデルを用いた変圧器を用いた光文字認識

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models ( http://arxiv.org/abs/2109.10282v2 )

ライセンス: Link先を確認
Minghao Li, Tengchao Lv, Lei Cui, Yijuan Lu, Dinei Florencio, Cha Zhang, Zhoujun Li, Furu Wei(参考訳) テキスト認識は文書のデジタル化における長年の研究課題である。 既存のテキスト認識のアプローチは通常、画像理解のためのCNNと、チャレベルテキスト生成のためのRNNに基づいて構築される。 さらに、処理後のステップとして全体の精度を改善するために、他の言語モデルが必要となる。 本稿では,画像理解とワードピースレベルのテキスト生成の両方にトランスフォーマアーキテクチャを利用する,事前学習された画像トランスフォーマとテキストトランスフォーマモデルを用いたエンドツーエンドテキスト認識手法であるtrocrを提案する。 TrOCRモデルは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。 実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。 コードとモデルはhttps://aka.ms/TrOCR .orgで公開される。

Text recognition is a long-standing research problem for document digitalization. Existing approaches for text recognition are usually built based on CNN for image understanding and RNN for char-level text generation. In addition, another language model is usually needed to improve the overall accuracy as a post-processing step. In this paper, we propose an end-to-end text recognition approach with pre-trained image Transformer and text Transformer models, namely TrOCR, which leverages the Transformer architecture for both image understanding and wordpiece-level text generation. The TrOCR model is simple but effective, and can be pre-trained with large-scale synthetic data and fine-tuned with human-labeled datasets. Experiments show that the TrOCR model outperforms the current state-of-the-art models on both printed and handwritten text recognition tasks. The code and models will be publicly available at https://aka.ms/TrOCR .
翻訳日:2021-09-23 10:38:28 公開日:2021-09-22
# 支払いネットワークにおけるマルチモーダルラーニングによるオンラインマルチホリゾン取引メトリック推定

Online Multi-horizon Transaction Metric Estimation with Multi-modal Learning in Payment Networks ( http://arxiv.org/abs/2109.10020v2 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Zhongfang Zhuang, Junpeng Wang, Yan Zheng, Javid Ebrahimi, Ryan Mercer, Liang Wang, Wei Zhang(参考訳) 支払い処理ネットワークにおけるエンティティのトランス国家的行動に関連するメトリクスの予測は、システム監視に不可欠である。 過去のトランザクション履歴から集約された多変量時系列は、そのような予測に価値ある洞察を与えることができる。 一般的な多変量時系列予測問題は、製造、医学、昆虫学を含むいくつかの領域でよく研究され、適用されてきた。 しかし、概念ドリフトやマルチモダリティといったデータに関連する新たなドメイン関連課題が浮上し、大規模な決済トランザクションデータを扱うリアルタイム要件も浮上している。 本研究では、支払いトランザクションデータベースにおけるエンティティに関連するトランザクションメトリクスを推定するための多変量時系列予測の問題について検討する。 マルチモーダリティデータからトランザクションメトリクスを推定するために,5つのユニークなコンポーネントを持つモデルを提案する。 これら4つのコンポーネントは相互作用、時間的、スケール、形状の視点を捉え、第5のコンポーネントはこれらの視点を融合させる。 また、データ内のコンセプトドリフトに対処し、リアルタイム要求を満たすためのハイブリッドオフライン/オンライントレーニングスキームを提案する。 この推定モデルとグラフィカルユーザインタフェースを組み合わせることで、プロトタイプトランザクションメトリック推定システムは、支払い処理会社のシステム監視能力を改善するツールとして、その潜在的メリットを実証した。

Predicting metrics associated with entities' transnational behavior within payment processing networks is essential for system monitoring. Multivariate time series, aggregated from the past transaction history, can provide valuable insights for such prediction. The general multivariate time series prediction problem has been well studied and applied across several domains, including manufacturing, medical, and entomology. However, new domain-related challenges associated with the data such as concept drift and multi-modality have surfaced in addition to the real-time requirements of handling the payment transaction data at scale. In this work, we study the problem of multivariate time series prediction for estimating transaction metrics associated with entities in the payment transaction database. We propose a model with five unique components to estimate the transaction metrics from multi-modality data. Four of these components capture interaction, temporal, scale, and shape perspectives, and the fifth component fuses these perspectives together. We also propose a hybrid offline/online training scheme to address concept drift in the data and fulfill the real-time requirements. Combining the estimation model with a graphical user interface, the prototype transaction metric estimation system has demonstrated its potential benefit as a tool for improving a payment processing company's system monitoring capability.
翻訳日:2021-09-23 10:38:14 公開日:2021-09-22
# スケールでのニューラル予測

Neural forecasting at scale ( http://arxiv.org/abs/2109.09705v3 )

ライセンス: Link先を確認
Philippe Chatigny, Shengrui Wang, Jean-Marc Patenaude, Boris N. Oreshkin(参考訳) 本研究では,時系列予測のためのアンサンブル型深層ニューラルネットワークの効率良くスケーリングする問題について検討する。 現在の最先端のディープアンサンブルモデルでは、メモリと計算の要求が高く、現実的なシナリオでは数百万のTSを予測できない。 N-BEATS(P)は、複数の単変量TS予測モデルの同時学習を可能にするために設計されたN-BEATSモデルのグローバル多変量変種である。 本モデルでは,学習時間を半減し,メモリ要件を5倍に抑えるとともに,同一レベルの精度を維持しながら,関連モデルの実用的限界に対処する。 我々は、モデルをトレーニングする方法を詳細に説明した複数の実験を行い、ゼロショットTS予測をサポートする能力、すなわち、ソースTSデータセット上でニューラルネットワークをトレーニングし、リトレーニングなしで異なるターゲットTSデータセットにデプロイする能力を示す結果を得た。

We study the problem of efficiently scaling ensemble-based deep neural networks for time series (TS) forecasting on a large set of time series. Current state-of-the-art deep ensemble models have high memory and computational requirements, hampering their use to forecast millions of TS in practical scenarios. We propose N-BEATS(P), a global multivariate variant of the N-BEATS model designed to allow simultaneous training of multiple univariate TS forecasting models. Our model addresses the practical limitations of related models, reducing the training time by half and memory requirement by a factor of 5, while keeping the same level of accuracy. We have performed multiple experiments detailing the various ways to train our model and have obtained results that demonstrate its capacity to support zero-shot TS forecasting, i.e., to train a neural network on a source TS dataset and deploy it on a different target TS dataset without retraining, which provides an efficient and reliable solution to forecast at scale even in difficult forecasting conditions.
翻訳日:2021-09-23 10:37:55 公開日:2021-09-22
# StereOBJ-1M:6次元オブジェクトポス推定のための大規模ステレオ画像データセット

StereOBJ-1M: Large-scale Stereo Image Dataset for 6D Object Pose Estimation ( http://arxiv.org/abs/2109.10115v2 )

ライセンス: Link先を確認
Xingyu Liu, Shun Iwase, Kris M. Kitani(参考訳) 本稿では,大規模ステレオRGB画像オブジェクトのポーズ推定データセットである$\textbf{StereOBJ-1M}$データセットを提案する。 データセットは、閉塞、対称性、照明や環境の変化といった一般的な課題に加えて、オブジェクトの透明性、透過性、鏡面反射といった課題に対処するように設計されている。 本研究では,近年の深層学習モデルにおいて十分な規模のデータを集めるために,複雑で柔軟な環境でのデータキャプチャを可能にするマルチビュー方式でポーズデータを効率的にアノテートする新しい手法を提案する。 私たちのデータセットには、396Kフレームと、11の異なる環境で構築された183のシーンで記録された18のオブジェクトの1.5Mアノテーションが含まれています。 18のオブジェクトは、8つの対称オブジェクト、7つの透明オブジェクト、8つの反射オブジェクトを含む。 我々はStereOBJ-1Mの2つの最先端ポーズ推定フレームワークを将来の作業のベースラインとしてベンチマークする。 また,複数画像のキーポイント予測から6次元ポーズを計算するためのオブジェクトレベルのポーズ最適化手法を提案する。

We present a large-scale stereo RGB image object pose estimation dataset named the $\textbf{StereOBJ-1M}$ dataset. The dataset is designed to address challenging cases such as object transparency, translucency, and specular reflection, in addition to the common challenges of occlusion, symmetry, and variations in illumination and environments. In order to collect data of sufficient scale for modern deep learning models, we propose a novel method for efficiently annotating pose data in a multi-view fashion that allows data capturing in complex and flexible environments. Fully annotated with 6D object poses, our dataset contains over 396K frames and over 1.5M annotations of 18 objects recorded in 183 scenes constructed in 11 different environments. The 18 objects include 8 symmetric objects, 7 transparent objects, and 8 reflective objects. We benchmark two state-of-the-art pose estimation frameworks on StereOBJ-1M as baselines for future work. We also propose a novel object-level pose optimization method for computing 6D pose from keypoint predictions in multiple images.
翻訳日:2021-09-23 10:37:38 公開日:2021-09-22
# DyLex: 動的レキシコンをBERTに組み込んだシーケンスラベリング

DyLex: Incorporating Dynamic Lexicons into BERT for Sequence Labeling ( http://arxiv.org/abs/2109.08818v2 )

ライセンス: Link先を確認
Baojun Wang, Zhao Zhang, Kun Xu, Guang-Yuan Hao, Yuyang Zhang, Lifeng Shang, Linlin Li, Xiao Chen, Xin Jiang and Qun Liu(参考訳) ディープラーニングモデルに語彙知識を組み込むことは、シーケンスラベリングタスクに非常に有効であることが証明されている。 しかし、従来の研究は、しばしば過度に一致したノイズや頻繁な更新の問題を引き起こす大規模な動的レキシコンを扱うのが困難であった。 本稿では,BERTに基づくシーケンスラベリングタスクのためのプラグイン辞書の組込み手法であるDyLexを提案する。 従来の方法のように語彙への単語の埋め込みを活用する代わりに、単語に依存しないタグ埋め込みを採用し、語彙を更新しながら表現の再学習を避ける。 さらに,マッチングノイズを円滑に除去するために,効率的な教師付き語彙知識復調手法を用いる。 最後に,提案フレームワークのプラグイン性を保証するために,協調注意に基づく知識融合機構を導入する。 3つのタスクからなる10のデータセットの実験により、非常に大規模な語彙であっても、提案するフレームワークが新しいSOTAを実現することが示された。

Incorporating lexical knowledge into deep learning models has been proved to be very effective for sequence labeling tasks. However, previous works commonly have difficulty dealing with large-scale dynamic lexicons which often cause excessive matching noise and problems of frequent updates. In this paper, we propose DyLex, a plug-in lexicon incorporation approach for BERT based sequence labeling tasks. Instead of leveraging embeddings of words in the lexicon as in conventional methods, we adopt word-agnostic tag embeddings to avoid re-training the representation while updating the lexicon. Moreover, we employ an effective supervised lexical knowledge denoising method to smooth out matching noise. Finally, we introduce a col-wise attention based knowledge fusion mechanism to guarantee the pluggability of the proposed framework. Experiments on ten datasets of three tasks show that the proposed framework achieves new SOTA, even with very large scale lexicons.
翻訳日:2021-09-23 10:37:22 公開日:2021-09-22
# 高次注意による関節インテント検出とスロット充満に向けて

Towards Joint Intent Detection and Slot Filling via Higher-order Attention ( http://arxiv.org/abs/2109.08890v2 )

ライセンス: Link先を確認
Dongsheng Chen, Zhiqi Huang, Xian Wu, Shen Ge, Yuexian Zou(参考訳) Intent Detection (ID) と Slot fill (SF) は、音声言語理解(SLU)における2つの主要なタスクである。 近年,これら2つのタスクの対話的最適化に注意機構が有効であることが示されている。 しかし、最新の注意に基づく研究は、高次注意機構の探索を無視しながら、1次注意設計のみに集中している。 本稿では,双方向のプーリングを活用し,入力意図とスロット特徴の2次相互作用を捉えるために,文脈的およびチャネル的双方向の注意分布を同時に活用するバイリニア・アテンションブロックを提案する。 高次および無限次相互作用は、多数のブロックを積み重ね、指数線形ユニット(ELU)をブロックに割り当てることによって構築される。 復号化の前には,インテントとスロット情報を暗黙的に融合する動的機能融合層を,より効果的な方法で導入する。 技術的には、単にインテントとスロット機能を結合するのではなく、2つの相関行列を2つの特徴に重み付けて計算します。 さらに,SLUタスクに対する高次注意ネットワークを提案する。 2つのベンチマークデータセットの実験により、我々のアプローチは最先端のアプローチと比較して改善をもたらすことが示された。 また,提案手法の有効性を示すための議論を行う。

Intent detection (ID) and Slot filling (SF) are two major tasks in spoken language understanding (SLU). Recently, attention mechanism has been shown to be effective in jointly optimizing these two tasks in an interactive manner. However, latest attention-based works concentrated only on the first-order attention design, while ignoring the exploration of higher-order attention mechanisms. In this paper, we propose a BiLinear attention block, which leverages bilinear pooling to simultaneously exploit both the contextual and channel-wise bilinear attention distributions to capture the second-order interactions between the input intent or slot features. Higher and even infinity order interactions are built by stacking numerous blocks and assigning Exponential Linear Unit (ELU) to blocks. Before the decoding stage, we introduce the Dynamic Feature Fusion Layer to implicitly fuse intent and slot information in a more effective way. Technically, instead of simply concatenating intent and slot features, we first compute two correlation matrices to weight on two features. Furthermore, we present Higher-order Attention Network for the SLU tasks. Experiments on two benchmark datasets show that our approach yields improvements compared with the state-of-the-art approach. We also provide discussion to demonstrate the effectiveness of the proposed approach.
翻訳日:2021-09-23 10:37:08 公開日:2021-09-22
# ElasticFace: ディープ顔認識のためのElastic Margin Loss

ElasticFace: Elastic Margin Loss for Deep Face Recognition ( http://arxiv.org/abs/2109.09416v2 )

ライセンス: Link先を確認
Fadi Boutros, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 識別的特徴の学習は、ハイパフォーマンスな顔認識モデルを構築する上で重要な役割を果たす。 最近の最先端の顔認識ソリューションでは、クラス内変動を最小化し、クラス間変動を最大化することにより、正規化した超球において、一般的な分類損失関数であるソフトマックス損失に一定のペナルティマージンを組み込むことを提案している。 ArcFace や CosFace のようなMarginal Softmax の損失は、異なるアイデンティティ内の測地線距離が、固定されたマージンで等しく学習できると仮定する。 しかし、このような学習目的は、非一貫性なクラス間およびクラス内変動を持つ実データに対して現実的ではなく、顔認識モデルの識別性と一般化性を制限する可能性がある。 本稿では,クラス分離性の向上に資する弾性マージン損失( Elastic margin loss, ElasticFace)を提案することにより,固定マージン制約を緩和する。 主なアイデアは、トレーニングイテレーション毎に正規分布から引き出されたランダムマージン値を利用することである。 これは、フレキシブルなクラス分離学習のためのスペースを可能にするために、抽出と撤回のマージンを与えることを目的としている。 私たちは、多くのメインストリームベンチマークで、同じ幾何学的変換を用いて、arcfaceとcosfaceの損失よりも弾力的なマージン損失の方が優れていることを示しています。 幅広い視点から見ると、elasticfaceは9つのメインストリームベンチマークのうち6つで最先端の顔認識性能を向上しました。

Learning discriminative face features plays a major role in building high-performing face recognition models. The recent state-of-the-art face recognition solutions proposed to incorporate a fixed penalty margin on commonly used classification loss function, softmax loss, in the normalized hypersphere to increase the discriminative power of face recognition models, by minimizing the intra-class variation and maximizing the inter-class variation. Marginal softmax losses, such as ArcFace and CosFace, assume that the geodesic distance between and within the different identities can be equally learned using a fixed margin. However, such a learning objective is not realistic for real data with inconsistent inter-and intra-class variation, which might limit the discriminative and generalizability of the face recognition model. In this paper, we relax the fixed margin constrain by proposing elastic margin loss (ElasticFace) that allows flexibility in the push for class separability. The main idea is to utilize random margin values drawn from a normal distribution in each training iteration. This aims at giving the margin chances to extract and retract to allow space for flexible class separability learning. We demonstrate the superiority of our elastic margin loss over ArcFace and CosFace losses, using the same geometric transformation, on a large set of mainstream benchmarks. From a wider perspective, our ElasticFace has advanced the state-of-the-art face recognition performance on six out of nine mainstream benchmarks.
翻訳日:2021-09-23 10:36:46 公開日:2021-09-22
# トレーサブルマトリックス活性化関数を用いたニューラルネットワーク

Neural networks with trainable matrix activation functions ( http://arxiv.org/abs/2109.09948v2 )

ライセンス: Link先を確認
Yuwen Li and Zhengqi Liu and Ludmil Zikatanov(参考訳) ニューラルネットワークのトレーニングプロセスは通常、線形変換の重みとバイアスパラメータを最適化するが、非線形活性化関数は事前に指定され固定されている。 本研究は、エントリをreluから一般化した行列活性化関数を構築するための体系的アプローチを展開する。 この活性化はスカラー乗算と比較のみを用いた行列ベクトル乗法に基づいている。 提案する活性化関数は、重みとバイアスベクトルと共に訓練されるパラメータに依存する。 このアプローチに基づくニューラルネットワークはシンプルで効率的であり、数値実験で堅牢であることが示されている。

The training process of neural networks usually optimize weights and bias parameters of linear transformations, while nonlinear activation functions are pre-specified and fixed. This work develops a systematic approach to constructing matrix activation functions whose entries are generalized from ReLU. The activation is based on matrix-vector multiplications using only scalar multiplications and comparisons. The proposed activation functions depend on parameters that are trained along with the weights and bias vectors. Neural networks based on this approach are simple and efficient and are shown to be robust in numerical experiments.
翻訳日:2021-09-23 10:36:08 公開日:2021-09-22
# コルモゴロフ複雑性を用いた計算複雑性認識計画

Computing Complexity-aware Plans Using Kolmogorov Complexity ( http://arxiv.org/abs/2109.10303v2 )

ライセンス: Link先を確認
Elis Stefansson, Karl H. Johansson(参考訳) 本稿では,コルモゴロフ複雑性に基づく有限水平決定性有限オートマトンに対する複雑性を考慮した計画法を提案する。 コルモゴロフの複雑性は、決定論的最適政策の計算的正則性を検出できるため考慮される。 政策のパフォーマンスと複雑さの間に明確なトレードオフをもたらす計画目標を示す。 この目的を最大化することは、動的プログラミングが実現不可能であるという意味では非自明であることが証明されている。 そこで,第1のアルゴリズムは低複雑さの最適ポリシを,第2のアルゴリズムは局所的な(段階的な)複雑性制約を維持しつつ,性能を最大化するポリシを求める。 移動ロボットの単純なナビゲーションタスクでアルゴリズムを評価することにより,直観に合致する低複雑さポリシが実現される。

In this paper, we introduce complexity-aware planning for finite-horizon deterministic finite automata with rewards as outputs, based on Kolmogorov complexity. Kolmogorov complexity is considered since it can detect computational regularities of deterministic optimal policies. We present a planning objective yielding an explicit trade-off between a policy's performance and complexity. It is proven that maximising this objective is non-trivial in the sense that dynamic programming is infeasible. We present two algorithms obtaining low-complexity policies, where the first algorithm obtains a low-complexity optimal policy, and the second algorithm finds a policy maximising performance while maintaining local (stage-wise) complexity constraints. We evaluate the algorithms on a simple navigation task for a mobile robot, where our algorithms yield low-complexity policies that concur with intuition.
翻訳日:2021-09-23 10:36:00 公開日:2021-09-22
# 化学反応アウェア分子表現学習

Chemical-Reaction-Aw are Molecule Representation Learning ( http://arxiv.org/abs/2109.09888v2 )

ライセンス: Link先を確認
Hongwei Wang, Weijiang Li, Xiaomeng Jin, Kyunghyun Cho, Heng Ji, Jiawei Han, Martin D. Burke(参考訳) 分子表現学習(MRL)法は、分子を実ベクトル空間に埋め込むことを目的としている。 しかし、既存のSMILES (Simplified Molecular-Input Line-Entry System) やGNN (Graph Neural Networks) のMRL法は、SMILES文字列を分子構造情報を符号化するのに困難である入力として利用するか、GNNアーキテクチャの重要性を過度に強調するが、一般化能力は無視する。 本稿では,化学反応を用いて分子の学習を支援することを提案する。 我々のアプローチの鍵となる考え方は、埋め込み空間における化学反応に関する分子の同値性を維持することであり、すなわち、反応性埋め込みの和と積埋め込みの和を各化学式に等しいように強制することである。 この制約は有効であることが証明される 1)埋込み空間をよく整理し、維持する。 2)分子埋め込みの一般化能力を向上させる。 さらに,本モデルでは分子エンコーダとして任意のGNNを使用でき,GNNアーキテクチャに依存しない。 実験結果から, 化学反応予測における17.4%の絶対Hit@1ゲイン, 2.3%の絶対AUCゲイン, 18.5%の相対RMSEゲインなど, 様々なダウンストリームタスクにおいて, 最先端性能を実現していることが示された。 コードはhttps://github.com/h wwang55/molrで入手できる。

Molecule representation learning (MRL) methods aim to embed molecules into a real vector space. However, existing SMILES-based (Simplified Molecular-Input Line-Entry System) or GNN-based (Graph Neural Networks) MRL methods either take SMILES strings as input that have difficulty in encoding molecule structure information, or over-emphasize the importance of GNN architectures but neglect their generalization ability. Here we propose using chemical reactions to assist learning molecule representation. The key idea of our approach is to preserve the equivalence of molecules with respect to chemical reactions in the embedding space, i.e., forcing the sum of reactant embeddings and the sum of product embeddings to be equal for each chemical equation. This constraint is proven effective to 1) keep the embedding space well-organized and 2) improve the generalization ability of molecule embeddings. Moreover, our model can use any GNN as the molecule encoder and is thus agnostic to GNN architectures. Experimental results demonstrate that our method achieves state-of-the-art performance in a variety of downstream tasks, e.g., 17.4% absolute Hit@1 gain in chemical reaction prediction, 2.3% absolute AUC gain in molecule property prediction, and 18.5% relative RMSE gain in graph-edit-distance prediction, respectively, over the best baseline method. The code is available at https://github.com/h wwang55/MolR.
翻訳日:2021-09-23 10:35:47 公開日:2021-09-22