このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201024となっている論文です。

PDF登録状況(公開日: 20201024)

TitleAuthorsAbstract論文公表日・翻訳日
# SDOD:深度による3次元物体のリアルタイム分割と検出

SDOD:Real-time Segmenting and Detecting 3D Object by Depth ( http://arxiv.org/abs/2001.09425v3 )

ライセンス: Link先を確認
Shengjie Li, Caiyi Xu, Jianping Xing, Yafei Ning, Yonghong Chen(参考訳) 既存のインスタンスセグメンテーションのほとんどはパフォーマンスの向上にのみ焦点を合わせており、自動運転のようなリアルタイムシーンには適していない。 本稿では,3dオブジェクトを深さ分割して検出するリアルタイムフレームワークを提案する。 このフレームワークは、セグメンテーションの1つとオブジェクト検出のもう1つの2つの並列ブランチで構成されている。 オブジェクトの深さを深さカテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。 Maskブランチはピクセルレベルの深さカテゴリを予測し、3Dブランチはインスタンスレベルの深さカテゴリを示す。 それぞれのインスタンスに同じ深さカテゴリのピクセルを割り当てることで、インスタンスマスクを作成します。 さらに,KITTIデータセットにおけるマスクラベルと3Dラベルの不均衡を解決するために,自動アノテーションモデルによって生成される粗いマスクを導入し,サンプル量を増やす。 挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。

Most existing instance segmentation methods only focus on improving performance and are not suitable for real-time scenes such as autonomous driving. This paper proposes a real-time framework that segmenting and detecting 3D objects by depth. The framework is composed of two parallel branches: one for instance segmentation and another for object detection. We discretize the objects' depth into depth categories and transform the instance segmentation task into a pixel-level classification task. The Mask branch predicts pixel-level depth categories, and the 3D branch indicates instance-level depth categories. We produce an instance mask by assigning pixels which have the same depth categories to each instance. In addition, to solve the imbalance between mask labels and 3D labels in the KITTI dataset, we introduce a coarse mask generated by the auto-annotation model to increase samples. Experiments on the challenging KITTI dataset show that our approach outperforms LklNet about 1.8 times on the speed of segmentation and 3D detection.
翻訳日:2023-01-06 19:35:31 公開日:2020-10-24
# 非並列学習データを用いた感情音声変換のための変換スペクトルと韻律

Transforming Spectrum and Prosody for Emotional Voice Conversion with Non-Parallel Training Data ( http://arxiv.org/abs/2002.00198v5 )

ライセンス: Link先を確認
Kun Zhou, Berrak Sisman, Haizhou Li(参考訳) 感情的音声変換は、スペクトルと韻律を変換して、話者のアイデンティティと言語内容を保持しながら、音声の感情パターンを変えることを目的としている。 多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。 さらに、それらはしばしば単純な線形変換で基本周波数(F0)の変換をモデル化する。 F0は本質的に階層的なイントネーションの重要な側面であるため、ウェーブレット変換を用いて異なる時間スケールでF0をモデル化することはより適切であると考える。 本研究では,非並列訓練データから,逆解析と逆解析を同時に学習し,最適な疑似ペアを求めるサイクガンネットワークを提案する。 また, 連続ウェーブレット変換(cwt)を用いて, 時間分解能の異なる音声韻律を記述する10個の時間スケールにf0を分解し, 効果的なf0変換を行った。 実験の結果,提案フレームワークは客観的評価と主観評価の両方においてベースラインを上回ることがわかった。

Emotional voice conversion aims to convert the spectrum and prosody to change the emotional patterns of speech, while preserving the speaker identity and linguistic content. Many studies require parallel speech data between different emotional patterns, which is not practical in real life. Moreover, they often model the conversion of fundamental frequency (F0) with a simple linear transform. As F0 is a key aspect of intonation that is hierarchical in nature, we believe that it is more adequate to model F0 in different temporal scales by using wavelet transform. We propose a CycleGAN network to find an optimal pseudo pair from non-parallel training data by learning forward and inverse mappings simultaneously using adversarial and cycle-consistency losses. We also study the use of continuous wavelet transform (CWT) to decompose F0 into ten temporal scales, that describes speech prosody at different time resolution, for effective F0 conversion. Experimental results show that our proposed framework outperforms the baselines both in objective and subjective evaluations.
翻訳日:2023-01-05 01:14:30 公開日:2020-10-24
# 条件付きSAGEシグナミカルに対するPositivstellensatzの有用性

A Positivstellensatz for Conditional SAGE Signomials ( http://arxiv.org/abs/2003.03731v4 )

ライセンス: Link先を確認
Allen Houze Wang, Priyank Jaini, Yaoliang Yu, Pascal Poupart(参考訳) 近年,凸集合上のシグナミカルポジティビティの十分条件として条件付きセージ証明書が提案されている。 本稿では、条件付きSAGE証明書が$\textit{complete}$であることを示す。 すなわち、任意の符号型$f(\mathbf{x}) = \sum_{j=1}^{\ell}c_j \exp(\mathbf{a}_j\mathbf{x})$ に対して、コンパクト凸集合 $\mathcal{x}$ 上の有理指数によって定義される任意の符号型$f(\mathbf{x}) = \sum_{j=1}^{\ell}c_j \exp(\mathbf{a}_j\mathbf{x})$ に対して、$w(\mathbf{x})^p f(\mathbf{x})$ が条件付きsage証明書によって検証される。 完全性の結果は、正の多項式を平方多項式の和で表現することを保証する代数幾何学によるPositivstellensatzの結果に類似している。 その結果、条件付きSAGE証明書によって計算可能な$\textit{arbitrary}$コンパクト凸集合に対する制約付きシグナミアル最適化のための下界の収束階層が生じる。

Recently, the conditional SAGE certificate has been proposed as a sufficient condition for signomial positivity over a convex set. In this article, we show that the conditional SAGE certificate is $\textit{complete}$. That is, for any signomial $f(\mathbf{x}) = \sum_{j=1}^{\ell}c_j \exp(\mathbf{A}_j\mathbf{x})$ defined by rational exponents that is positive over a compact convex set $\mathcal{X}$, there is $p \in \mathbb{Z}_+$ and a specific positive definite function $w(\mathbf{x})$ such that $w(\mathbf{x})^p f(\mathbf{x})$ may be verified by the conditional SAGE certificate. The completeness result is analogous to Positivstellensatz results from algebraic geometry, which guarantees representation of positive polynomials with sum of squares polynomials. The result gives rise to a convergent hierarchy of lower bounds for constrained signomial optimization over an $\textit{arbitrary}$ compact convex set that is computable via the conditional SAGE certificate.
翻訳日:2022-12-25 14:41:56 公開日:2020-10-24
# ARAE: 自動エンコーダの逆ロバストトレーニングによりノベルティ検出が改善

ARAE: Adversarially Robust Training of Autoencoders Improves Novelty Detection ( http://arxiv.org/abs/2003.05669v2 )

ライセンス: Link先を確認
Mohammadreza Salehi, Atrin Arya, Barbod Pajoum, Mohammad Otoofi, Amirreza Shaeiri, Mohammad Hossein Rohban, Hamid R. Rabiee(参考訳) オートエンコーダ(AE)は近年,新規性検出問題へのアプローチに広く利用されている。 正常データのみにトレーニングされたaeは、異常データの再生成に失敗しながら、正常データを効果的に再構築することが期待され、新奇な検出に利用できる。 しかし,本稿では,必ずしもそうではないことが示されている。 aeは、異常なデータをうまく再構築できるほど完璧に一般化することが多い。 この問題に対処するために,より意味論的に意味のある特徴を学習できる新しいAEを提案する。 具体的には、敵対的堅牢性が意味のある特徴の学習を促進するという事実を活用する。 そこで我々は,敵の摂動に対して不安定なボトルネック層でネットワークをペナライズすることで,AEにそのような特徴の学習を強制する。 従来の手法に比べてはるかにシンプルなアーキテクチャを用いているにもかかわらず、提案したAEは3つのベンチマークデータセットの最先端と競合する。

Autoencoders (AE) have recently been widely employed to approach the novelty detection problem. Trained only on the normal data, the AE is expected to reconstruct the normal data effectively while fail to regenerate the anomalous data, which could be utilized for novelty detection. However, in this paper, it is demonstrated that this does not always hold. AE often generalizes so perfectly that it can also reconstruct the anomalous data well. To address this problem, we propose a novel AE that can learn more semantically meaningful features. Specifically, we exploit the fact that adversarial robustness promotes learning of meaningful features. Therefore, we force the AE to learn such features by penalizing networks with a bottleneck layer that is unstable against adversarial perturbations. We show that despite using a much simpler architecture in comparison to the prior methods, the proposed AE outperforms or is competitive to state-of-the-art on three benchmark datasets.
翻訳日:2022-12-24 15:08:29 公開日:2020-10-24
# ルーティングトランスフォーマーを用いた効率的なコンテンツベーススパースアテンション

Efficient Content-Based Sparse Attention with Routing Transformers ( http://arxiv.org/abs/2003.05997v5 )

ライセンス: Link先を確認
Aurko Roy, Mohammad Saffar, Ashish Vaswani and David Grangier(参考訳) セルフアテンションは、近年、幅広いシーケンスモデリング問題に採用されている。 その効果にもかかわらず、自己注意はシーケンス長に関する二次計算とメモリ要求に悩まされる。 この複雑さを減らすために成功したアプローチは、ローカルスライディングウィンドウやコンテンツに依存しない小さな場所への出席に焦点が当てられた。 本研究は,関心の問合せとは無関係なコンテンツに対して,計算やメモリの割り当てを避けるために,動的スパース注意パターンを学習することを提案する。 この研究は、コンテンツベースのスパース・アテンションに対する事前の作業のモデリングの柔軟性と、局所的、時間的スパース・アテンションに基づくアプローチによる効率向上を組み合わせた2つの研究に基づいている。 我々のモデルであるRouting Transformerは、オンラインk-meansをベースとした疎いルーティングモジュールに自己注意を付与し、注意の全体的な複雑さを$O\left(n^{1.5}d\right)$から$O\left(n^2d\right)$に減らします。 我々は,Wikitext-103 の言語モデリングや ImageNet-64 (3.43 vs 3.44 bits/dim) の画像生成において,より少ない自己注意層を用いて,比較対象の少ない注意モデルよりも優れていることを示す。 さらに、新たにリリースされたpg-19データセットに新たな最先端を設定し、長さ8192のシーケンスでトレーニングされた22層ルーティングトランスフォーマモデルを用いて、33.2のテストパープレキシティを得た。

Self-attention has recently been adopted for a wide range of sequence modeling problems. Despite its effectiveness, self-attention suffers from quadratic compute and memory requirements with respect to sequence length. Successful approaches to reduce this complexity focused on attending to local sliding windows or a small set of locations independent of content. Our work proposes to learn dynamic sparse attention patterns that avoid allocating computation and memory to attend to content unrelated to the query of interest. This work builds upon two lines of research: it combines the modeling flexibility of prior work on content-based sparse attention with the efficiency gains from approaches based on local, temporal sparse attention. Our model, the Routing Transformer, endows self-attention with a sparse routing module based on online k-means while reducing the overall complexity of attention to $O\left(n^{1.5}d\right)$ from $O\left(n^2d\right)$ for sequence length $n$ and hidden dimension $d$. We show that our model outperforms comparable sparse attention models on language modeling on Wikitext-103 (15.8 vs 18.3 perplexity) as well as on image generation on ImageNet-64 (3.43 vs 3.44 bits/dim) while using fewer self-attention layers. Additionally, we set a new state-of-the-art on the newly released PG-19 data-set, obtaining a test perplexity of 33.2 with a 22 layer Routing Transformer model trained on sequences of length 8192.
翻訳日:2022-12-24 14:24:11 公開日:2020-10-24
# テキストライン分割のための教師なしディープラーニング

Unsupervised deep learning for text line segmentation ( http://arxiv.org/abs/2003.08632v2 )

ライセンス: Link先を確認
Berat Kurar Barakat, Ahmad Droby, Rym Alasam, Boraq Madi, Irina Rabaev, Raed Shammes and Jihad El-Sana(参考訳) 本稿では,テキスト行間の空間とテキスト行間の相対的ばらつきに触発されたテキスト行分割のための教師なし深層学習手法を提案する。 手書きのテキスト行のセグメンテーションは、さらなる処理の効率化に重要である。 一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。 従来の手法ではこのような埋め込みを教師ありの方法で学習し、多くの文書画像の注釈を必要とする。 本稿では,アノテーションを必要とせず,文書画像パッチの教師なし埋め込みについて述べる。 テキスト線上の前景画素数は、テキスト線間の空間上の前景画素の数と相対的に異なる。 この原理に依存する類似した異なるペアを生成することは、間違いなく外れ値につながる。 しかし、結果が示すように、外れ値が収束に影響を与えず、ネットワークはテキスト行とテキスト行間の空間を区別することを学習する。 アラビア文字テキスト行分割データセットであるVML-AHTEでは,教師付き手法よりも優れた性能を示した。 提案手法は, ICDAR 2017 と ICFHR 2010 の手書きテキスト行セグメンテーションデータセットを用いて評価した。

We present an unsupervised deep learning method for text line segmentation that is inspired by the relative variance between text lines and spaces among text lines. Handwritten text line segmentation is important for the efficiency of further processing. A common method is to train a deep learning network for embedding the document image into an image of blob lines that are tracing the text lines. Previous methods learned such embedding in a supervised manner, requiring the annotation of many document images. This paper presents an unsupervised embedding of document image patches without a need for annotations. The number of foreground pixels over the text lines is relatively different from the number of foreground pixels over the spaces among text lines. Generating similar and different pairs relying on this principle definitely leads to outliers. However, as the results show, the outliers do not harm the convergence and the network learns to discriminate the text lines from the spaces between text lines. Remarkably, with a challenging Arabic handwritten text line segmentation dataset, VML-AHTE, we achieved superior performance over the supervised methods. Additionally, the proposed method was evaluated on the ICDAR 2017 and ICFHR 2010 handwritten text line segmentation datasets.
翻訳日:2022-12-22 04:53:11 公開日:2020-10-24
# 熱画像による転倒検出のための運動・地域対応学習

Motion and Region Aware Adversarial Learning for Fall Detection with Thermal Imaging ( http://arxiv.org/abs/2004.08352v2 )

ライセンス: Link先を確認
Vineet Mehta, Abhinav Dhall, Sujata Pal, Shehroz S. Khan(参考訳) 自動転倒検出は、人々の健康と安全を確保するための重要な技術である。 転倒検知のためのホームベースのカメラシステムは、しばしば人々のプライバシーを危険にさらす。 サーマルカメラは顔の特徴を部分的にあるいは完全に難なくし、人のプライバシーを保護できる。 もう一つの課題は、日常生活の通常の活動と比べて転倒の発生が少ないことである。 転倒はめったに起こらないため、クラス不均衡によるアルゴリズムの学習は簡単ではない。 これらの問題に対処するために、熱画像を用いた対向フレームワーク内の異常検出としてフォール検出を定式化する。 本稿では、熱データと光フロー入力シーケンスをそれぞれ再構成する2チャネル3次元畳み込みオートエンコーダからなる新しい対向ネットワークを提案する。 本稿では,関心領域の追跡手法,地域差分制約,再構成誤差を計算するための共同識別器を提案する。 より大きな復元誤差は転倒の発生を示している。 公開されている熱落下データセットを用いた実験では,標準基準よりも優れた結果が得られた。

Automatic fall detection is a vital technology for ensuring the health and safety of people. Home-based camera systems for fall detection often put people's privacy at risk. Thermal cameras can partially or fully obfuscate facial features, thus preserving the privacy of a person. Another challenge is the less occurrence of falls in comparison to the normal activities of daily living. As fall occurs rarely, it is non-trivial to learn algorithms due to class imbalance. To handle these problems, we formulate fall detection as an anomaly detection within an adversarial framework using thermal imaging. We present a novel adversarial network that comprises of two-channel 3D convolutional autoencoders which reconstructs the thermal data and the optical flow input sequences respectively. We introduce a technique to track the region of interest, a region-based difference constraint, and a joint discriminator to compute the reconstruction error. A larger reconstruction error indicates the occurrence of a fall. The experiments on a publicly available thermal fall dataset show the superior results obtained compared to the standard baseline.
翻訳日:2022-12-12 12:49:02 公開日:2020-10-24
# BERTが宝くじを弾くと、全チケットが勝つ

When BERT Plays the Lottery, All Tickets Are Winning ( http://arxiv.org/abs/2005.00561v2 )

ライセンス: Link先を確認
Sai Prasanna, Anna Rogers, Anna Rumshisky(参考訳) 大規模なトランスフォーマーベースのモデルは、より少ない数のセルフアテンションヘッドとレイヤーに還元可能であることが示されている。 我々は,この現象を抽選券仮説の観点から,構造化プルーニングとマグニチュードプルーニングの両方を用いて考察する。 細調整されたBERTでは、それを示します。 (a)全モデルに匹敵する性能を達成するサブネットワークを見つけることが可能であり、 (b) 他のモデルから採取した同様の大きさのサブネットは、より悪化する。 興味深いことに、構造的な刈り取りさえ可能な最低限のサブネットも高度に訓練可能であり、事前訓練されたBERT重量のほとんどが潜在的に有用であることを示している。 また、「良い」サブネットワークについて研究し、その成功が優れた言語知識によるものか検証するが、不安定であり、意味のある自己認識パターンでは説明できない。

Large Transformer-based models were shown to be reducible to a smaller number of self-attention heads and layers. We consider this phenomenon from the perspective of the lottery ticket hypothesis, using both structured and magnitude pruning. For fine-tuned BERT, we show that (a) it is possible to find subnetworks achieving performance that is comparable with that of the full model, and (b) similarly-sized subnetworks sampled from the rest of the model perform worse. Strikingly, with structured pruning even the worst possible subnetworks remain highly trainable, indicating that most pre-trained BERT weights are potentially useful. We also study the "good" subnetworks to see if their success can be attributed to superior linguistic knowledge, but find them unstable, and not explained by meaningful self-attention patterns.
翻訳日:2022-12-07 23:01:24 公開日:2020-10-24
# 連続LWE

Continuous LWE ( http://arxiv.org/abs/2005.09595v2 )

ライセンス: Link先を確認
Joan Bruna, Oded Regev, Min Jae Song, and Yi Tang(参考訳) CLWEと呼ばれるLearning with Errors(LWE)問題の連続的な類似点を紹介する。 最悪ケース格子問題から多項式時間量子還元をCLWEに与え、CLWEがLWEと同等の硬さを保証することを示す。 あるいは、格子問題に対する新たな(量子)攻撃の道を開くと見ることもできる。 我々の研究は、分離性仮定のないガウスの学習混合物の計算複雑性に関する未解決の問題を解決する(Diakonikolas 2016 Moitra 2018)。 追加の動機として、統計クエリ(sq)モデルのハードネスが示されたロバストな機械学習(diakonikolas et al.~focs 2017)の文脈において、(わずかな変種である)clweが検討された。

We introduce a continuous analogue of the Learning with Errors (LWE) problem, which we name CLWE. We give a polynomial-time quantum reduction from worst-case lattice problems to CLWE, showing that CLWE enjoys similar hardness guarantees to those of LWE. Alternatively, our result can also be seen as opening new avenues of (quantum) attacks on lattice problems. Our work resolves an open problem regarding the computational complexity of learning mixtures of Gaussians without separability assumptions (Diakonikolas 2016, Moitra 2018). As an additional motivation, (a slight variant of) CLWE was considered in the context of robust machine learning (Diakonikolas et al.~FOCS 2017), where hardness in the statistical query (SQ) model was shown; our work addresses the open question regarding its computational hardness (Bubeck et al.~ICML 2019).
翻訳日:2022-12-01 13:39:02 公開日:2020-10-24
# グラフ接続ラプラシアンの反復重み付けによるロバスト多目的マッチング

Robust Multi-object Matching via Iterative Reweighting of the Graph Connection Laplacian ( http://arxiv.org/abs/2006.06658v2 )

ライセンス: Link先を確認
Yunpeng Shi, Shaohan Li and Gilad Lerman(参考訳) 本稿では,マルチオブジェクトマッチング問題に対する効率的かつロバストな反復解を提案する。 まず,本手法の厳密な限界と,反復的に重み付けされた最小二乗法の不適切性を明らかにする。 これらの制約を踏まえ,グラフ接続ラプラシアンを活用し,高次近傍の情報を取り入れた,新しい,より信頼性の高い反復的重み付け戦略を提案する。 合成データと実データの両方を用いた最先端手法よりも優れた性能を示す。

We propose an efficient and robust iterative solution to the multi-object matching problem. We first clarify serious limitations of current methods as well as the inappropriateness of the standard iteratively reweighted least squares procedure. In view of these limitations, we suggest a novel and more reliable iterative reweighting strategy that incorporates information from higher-order neighborhoods by exploiting the graph connection Laplacian. We demonstrate the superior performance of our procedure over state-of-the-art methods using both synthetic and real datasets.
翻訳日:2022-11-22 13:22:42 公開日:2020-10-24
# 分散オンライン学習を用いた広域深層グラフニューラルネットワーク

Wide and Deep Graph Neural Networks with Distributed Online Learning ( http://arxiv.org/abs/2006.06376v2 )

ライセンス: Link先を確認
Zhan Gao, Fernando Gama, Alejandro Ribeiro(参考訳) グラフニューラルネットワーク(gnns)は、自然分散アーキテクチャを用いてネットワークデータから表現を学習し、分散学習の候補として適している。 多くの場合、この分散グラフはリンク障害やトポロジの変化によって時間とともに変化をサポートする。 これらの変更は、GNNがトレーニングされたグラフと、テストされたグラフのミスマッチを生成する。 オンライン学習は、テスト時にGNNを再トレーニングするために使用することができ、この問題を克服することができる。 しかし、ほとんどのオンラインアルゴリズムは中央集権的であり、凸問題(GNNではめったに起こらない)に取り組んでいる。 本稿では,分散オンライン学習機構で容易に更新できる新しいアーキテクチャであるWide and Deep GNN(WD-GNN)を提案する。 WD-GNNは、幅部が線形グラフフィルタのバンク、深さ部がGNNの2つのコンポーネントから構成される。 トレーニング時に、ジョイントアーキテクチャはデータから非線形表現を学習する。 テスト時には、深い部分(非線形)は変更されず、広い部分はオンラインで再トレーニングされ、凸問題が発生する。 このオンラインリトレーニング手順の収束保証を導出し,さらに分散化代替案を提案する。 ロボット群制御によるマクロボレート理論のフロッキング実験と,分散オンライン学習のためのアーキテクチャの可能性を示す。

Graph neural networks (GNNs) learn representations from network data with naturally distributed architectures, rendering them well-suited candidates for decentralized learning. Oftentimes, this decentralized graph support changes with time due to link failures or topology variations. These changes create a mismatch between the graphs on which GNNs were trained and the ones on which they are tested. Online learning can be used to retrain GNNs at testing time, overcoming this issue. However, most online algorithms are centralized and work on convex problems (which GNNs rarely lead to). This paper proposes the Wide and Deep GNN (WD-GNN), a novel architecture that can be easily updated with distributed online learning mechanisms. The WD-GNN comprises two components: the wide part is a bank of linear graph filters and the deep part is a GNN. At training time, the joint architecture learns a nonlinear representation from data. At testing time, the deep part (nonlinear) is left unchanged, while the wide part is retrained online, leading to a convex problem. We derive convergence guarantees for this online retraining procedure and further propose a decentralized alternative. Experiments on the robot swarm control for flocking corroborate theory and show potential of the proposed architecture for distributed online learning.
翻訳日:2022-11-22 10:02:34 公開日:2020-10-24
# 教師なしアーキテクチャ表現学習はニューラルネットワーク検索に役立つか?

Does Unsupervised Architecture Representation Learning Help Neural Architecture Search? ( http://arxiv.org/abs/2006.06936v2 )

ライセンス: Link先を確認
Shen Yan, Yu Zheng, Wei Ao, Xiao Zeng, Mi Zhang(参考訳) 既存のneural architecture search(nas)メソッドは、スケールしない離散的なエンコーディングを使用してニューラルネットワークをエンコードするか、アーキテクチャ表現を共同学習し、検索バイアスを引き起こすような表現でアーキテクチャ検索を最適化するために教師付き学習ベースの手法を採用する。 広く使われているにもかかわらず、NASで学んだアーキテクチャ表現はまだ理解されていない。 アーキテクチャ表現学習と探索が組み合わさっていれば,ニューラルネットワークの構造的特性を潜時空間に保持することは困難であり,その結果,探索性能は低下する。 本研究では,ラベルを付けずにニューラルネットワークのみを使用して事前学習したアーキテクチャ表現が,下流のアーキテクチャ探索効率を大幅に改善することを示す。 これらの観察を説明するために、教師なしのアーキテクチャ表現学習が、類似した接続と演算子をクラスタ化するニューラルアーキテクチャをいかに促進するかを可視化する。 これにより、潜伏空間の同じ領域に類似したパフォーマンスを持つニューラルアーキテクチャをマッピングし、潜伏空間におけるアーキテクチャの移行を比較的スムーズなものにすることができる。

Existing Neural Architecture Search (NAS) methods either encode neural architectures using discrete encodings that do not scale well, or adopt supervised learning-based methods to jointly learn architecture representations and optimize architecture search on such representations which incurs search bias. Despite the widespread use, architecture representations learned in NAS are still poorly understood. We observe that the structural properties of neural architectures are hard to preserve in the latent space if architecture representation learning and search are coupled, resulting in less effective search performance. In this work, we find empirically that pre-training architecture representations using only neural architectures without their accuracies as labels considerably improve the downstream architecture search efficiency. To explain these observations, we visualize how unsupervised architecture representation learning better encourages neural architectures with similar connections and operators to cluster together. This helps to map neural architectures with similar performance to the same regions in the latent space and makes the transition of architectures in the latent space relatively smooth, which considerably benefits diverse downstream search strategies.
翻訳日:2022-11-22 03:18:16 公開日:2020-10-24
# モデルベース設計のためのオートフォーカスオークル

Autofocused oracles for model-based design ( http://arxiv.org/abs/2006.08052v2 )

ライセンス: Link先を確認
Clara Fannjiang and Jennifer Listgarten(参考訳) データ駆動設計は、タンパク質、小分子、材料工学など、多くの応用分野に進出している。 設計目標は、治療標的に結合するタンパク質や、以前に観測されたよりも高い臨界温度の超伝導材料など、望ましい性質を持つ物体を構築することである。 そのために、コストのかかる実験的な測定は、ラベル付きデータに基づいて訓練された高容量回帰モデルへの呼び出しに置き換えられている。 しかし、設計目標は、そのようなモデルが訓練された場所を超えて、デザイン空間の領域に移行する必要がある。 したがって、新しいデータがない場合、設計アルゴリズムが設計空間を探索するときに回帰モデルを変更すべきだろうか? ここでは、この疑問を肯定的に答える。 特に私たちは (i)非ゼロサムゲームとしてデータ駆動設計問題を定式化する。 (ii)回帰モデルを設計アルゴリズムとして再訓練するための原則的戦略--私たちがオートフォーカスと呼ぶもの-を開発し、 (iii)自己集中の約束を実証する。

Data-driven design is making headway into a number of application areas, including protein, small-molecule, and materials engineering. The design goal is to construct an object with desired properties, such as a protein that binds to a therapeutic target, or a superconducting material with a higher critical temperature than previously observed. To that end, costly experimental measurements are being replaced with calls to high-capacity regression models trained on labeled data, which can be leveraged in an in silico search for design candidates. However, the design goal necessitates moving into regions of the design space beyond where such models were trained. Therefore, one can ask: should the regression model be altered as the design algorithm explores the design space, in the absence of new data? Herein, we answer this question in the affirmative. In particular, we (i) formalize the data-driven design problem as a non-zero-sum game, (ii) develop a principled strategy for retraining the regression model as the design algorithm proceeds---what we refer to as autofocusing, and (iii) demonstrate the promise of autofocusing empirically.
翻訳日:2022-11-21 12:48:36 公開日:2020-10-24
# 機械学習による位相的欠陥と閉じ込め--小型電磁力学におけるモノポールの場合

Topological defects and confinement with machine learning: the case of monopoles in compact electrodynamics ( http://arxiv.org/abs/2006.09113v2 )

ライセンス: Link先を確認
M. N. Chernodub, Harold Erbin, V. A. Goy, A. V. Molochkov(参考訳) 量子場理論におけるトポロジカルオブジェクトのダイナミクスを認識するための機械学習技術の利点について検討する。 3次元の時空次元におけるコンパクトなU(1)ゲージ理論は、モノポールによって生じる閉じ込めと質量ギャップ現象を示す理論の最も単純な例と考える。 我々は,モノポール構成の生成したニューラルネットワークをトレーニングし,閉じ込めと切り離しの位相を区別し,分解遷移点を判定し,いくつかの観測可能点を予測する。 モデルは教師付き学習アプローチを使用し、モノポール構成を3次元画像(ホログラム)として扱う。 本モデルでは,アルゴリズムに実装された基準に依存する遷移温度を精度良く決定できることを示す。 より重要なことに、我々はニューラルネットワークを単一の格子サイズから構成で訓練し、他の格子サイズから構成の予測を行い、そこから臨界温度の信頼性の高い推定を得る。

We investigate the advantages of machine learning techniques to recognize the dynamics of topological objects in quantum field theories. We consider the compact U(1) gauge theory in three spacetime dimensions as the simplest example of a theory that exhibits confinement and mass gap phenomena generated by monopoles. We train a neural network with a generated set of monopole configurations to distinguish between confinement and deconfinement phases, from which it is possible to determine the deconfinement transition point and to predict several observables. The model uses a supervised learning approach and treats the monopole configurations as three-dimensional images (holograms). We show that the model can determine the transition temperature with accuracy, which depends on the criteria implemented in the algorithm. More importantly, we train the neural network with configurations from a single lattice size before making predictions for configurations from other lattice sizes, from which a reliable estimation of the critical temperatures are obtained.
翻訳日:2022-11-20 21:50:38 公開日:2020-10-24
# 分析表現の学習による合成一般化

Compositional Generalization by Learning Analytical Expressions ( http://arxiv.org/abs/2006.10627v2 )

ライセンス: Link先を確認
Qian Liu, Shengnan An, Jian-Guang Lou, Bei Chen, Zeqi Lin, Yan Gao, Bin Zhou, Nanning Zheng, Dongmei Zhang(参考訳) 構成の一般化は、人間の基本的かつ本質的な知性であり、既知の部分を容易に組み換えることができる。 しかし、既存のニューラルネットワークベースのモデルは、そのような能力に非常に欠陥があることが証明されている。 構成性は記号関数を持つ可変スロットで捉えることができるという認識の研究から着想を得て,メモリ拡張ニューラルモデルと解析的表現を結びつけるリフレッシュな視点を示し,合成一般化を実現する。 本モデルでは,階層的強化学習アルゴリズムを用いてエンドツーエンドで学習できる一方で,認知的議論に適合する2つの協調型ニューラルモジュールである composer と solver から構成される。 良く知られたベンチマークSCANの実験では、我々のモデルは構成的一般化の優れた能力をつかみ、100%の精度で過去の研究で解決された全ての課題を解決している。

Compositional generalization is a basic and essential intellective capability of human beings, which allows us to recombine known parts readily. However, existing neural network based models have been proven to be extremely deficient in such a capability. Inspired by work in cognition which argues compositionality can be captured by variable slots with symbolic functions, we present a refreshing view that connects a memory-augmented neural model with analytical expressions, to achieve compositional generalization. Our model consists of two cooperative neural modules, Composer and Solver, fitting well with the cognitive argument while being able to be trained in an end-to-end manner via a hierarchical reinforcement learning algorithm. Experiments on the well-known benchmark SCAN demonstrate that our model seizes a great ability of compositional generalization, solving all challenges addressed by previous works with 100% accuracies.
翻訳日:2022-11-19 09:59:06 公開日:2020-10-24
# 混合不変学習を用いた教師なし音分離

Unsupervised Sound Separation Using Mixture Invariant Training ( http://arxiv.org/abs/2006.12701v2 )

ライセンス: Link先を確認
Scott Wisdom and Efthymios Tzinis and Hakan Erdogan and Ron J. Weiss and Kevin Wilson and John R. Hershey(参考訳) 近年,深層ニューラルネットワークの教師付き学習による単一チャネル音声分離の課題が急速に進展している。 このような教師付きアプローチでは、孤立した接地トラス源を付加した合成混合物から成分源を予測するためにモデルを訓練する。 この合成訓練データへの依存度は、特に音響条件と音源分布の観点から、訓練データと実世界の音声との一致度に依存するため問題となる。 音響特性を正確にシミュレートすることは困難であり、音響タイプの分布を再現することは困難である。 本稿では,MixIT(mixed invariant training)という,単一チャネルの音響混合しか必要としない手法を提案する。 MixITでは、既存の混合物を混合してトレーニング例を構築し、モデルを可変数の潜水源に分離し、分離したソースをリミックスして元の混合物を近似する。 音声分離における教師あり手法と比較して,MixITは競争性能を向上できることを示す。 半教師付き学習環境におけるMixITの活用により、非教師なしの領域適応と大量の実世界のデータからの学習を、基底構造源波形なしで行うことができる。 特に,残響混合を組み込むことにより残響音声分離性能を著しく向上させ,雑音混合から音声強調システムを訓練し,大量の単語データを組み込んで普遍的な音声分離を改善する。

In recent years, rapid progress has been made on the problem of single-channel sound separation using supervised training of deep neural networks. In such supervised approaches, a model is trained to predict the component sources from synthetic mixtures created by adding up isolated ground-truth sources. Reliance on this synthetic training data is problematic because good performance depends upon the degree of match between the training data and real-world audio, especially in terms of the acoustic conditions and distribution of sources. The acoustic properties can be challenging to accurately simulate, and the distribution of sound types may be hard to replicate. In this paper, we propose a completely unsupervised method, mixture invariant training (MixIT), that requires only single-channel acoustic mixtures. In MixIT, training examples are constructed by mixing together existing mixtures, and the model separates them into a variable number of latent sources, such that the separated sources can be remixed to approximate the original mixtures. We show that MixIT can achieve competitive performance compared to supervised methods on speech separation. Using MixIT in a semi-supervised learning setting enables unsupervised domain adaptation and learning from large amounts of real world data without ground-truth source waveforms. In particular, we significantly improve reverberant speech separation performance by incorporating reverberant mixtures, train a speech enhancement system from noisy mixtures, and improve universal sound separation by incorporating a large amount of in-the-wild data.
翻訳日:2022-11-17 23:53:55 公開日:2020-10-24
# SGDはベイズ標本か? まあ、ほぼ。

Is SGD a Bayesian sampler? Well, almost ( http://arxiv.org/abs/2006.15191v2 )

ライセンス: Link先を確認
Chris Mingard, Guillermo Valle-P\'erez, Joar Skalse, Ard A. Louis(参考訳) 過パラメータ深層ニューラルネットワーク(dnn)は非常に表現力が高く、原則として、ゼロエラーのトレーニングデータセットに適合するほぼすべての関数を生成することができる。 これらの機能の大部分は、見当たらないデータではうまく機能しないが、実際にはdnnは驚くほどよく一般化される。 この成功は、訓練されたDNNが一般化誤差の低い関数に対して強い帰納バイアスを持つ必要があることを示唆している。 ここで我々は,確率的勾配勾配降下(sgd)またはその変形によって訓練された過パラメータdnnが,トレーニングセット$s$と一致する関数$f$に収束する確率$p_{sgd}(f\mid s)$を計算して,この帰納的バイアスを実証的に検証する。 また、ガウス過程を用いてベイズ的後続確率$P_B(f\mid S)$を推定し、DNNはそのパラメータのランダムサンプリングに基づいて$f$を表現する。 我々の主な発見は、$P_{SGD}(f\mid S)$は、$P_B(f\mid S)$と著しくよく相関しており、$P_B(f\mid S)$は、低エラーおよび低複雑性関数に強く偏っていることである。 これらの結果は、パラメータ関数写像の強い帰納バイアス(これは SGD の特別な性質ではなく$P_B(f\mid S)$ を決定する)が、なぜ DNN が過度にパラメータ化された状態においてうまく一般化するかの主説明であることを示している。 結果から,ベイズ後段の$p_b(f\mid s)$は$p_{sgd}(f\mid s)$の1次決定式であることが示唆されるが,ハイパーパラメータチューニングに敏感な2次差は残る。 関数確率図は、$P_{SGD}(f\mid S)$および/または$P_B(f\mid S)$に基づいて、アーキテクチャやバッチサイズ、学習率、オプティマイザ選択などのハイパーパラメータ設定のバリエーションがDNNのパフォーマンスに影響を与える方法に新たな光を放つことができる。

Overparameterised deep neural networks (DNNs) are highly expressive and so can, in principle, generate almost any function that fits a training dataset with zero error. The vast majority of these functions will perform poorly on unseen data, and yet in practice DNNs often generalise remarkably well. This success suggests that a trained DNN must have a strong inductive bias towards functions with low generalisation error. Here we empirically investigate this inductive bias by calculating, for a range of architectures and datasets, the probability $P_{SGD}(f\mid S)$ that an overparameterised DNN, trained with stochastic gradient descent (SGD) or one of its variants, converges on a function $f$ consistent with a training set $S$. We also use Gaussian processes to estimate the Bayesian posterior probability $P_B(f\mid S)$ that the DNN expresses $f$ upon random sampling of its parameters, conditioned on $S$. Our main findings are that $P_{SGD}(f\mid S)$ correlates remarkably well with $P_B(f\mid S)$ and that $P_B(f\mid S)$ is strongly biased towards low-error and low complexity functions. These results imply that strong inductive bias in the parameter-function map (which determines $P_B(f\mid S)$), rather than a special property of SGD, is the primary explanation for why DNNs generalise so well in the overparameterised regime. While our results suggest that the Bayesian posterior $P_B(f\mid S)$ is the first order determinant of $P_{SGD}(f\mid S)$, there remain second order differences that are sensitive to hyperparameter tuning. A function probability picture, based on $P_{SGD}(f\mid S)$ and/or $P_B(f\mid S)$, can shed new light on the way that variations in architecture or hyperparameter settings such as batch size, learning rate, and optimiser choice, affect DNN performance.
翻訳日:2022-11-16 21:12:51 公開日:2020-10-24
# 大気対流生成モデル

Generative Modeling for Atmospheric Convection ( http://arxiv.org/abs/2007.01444v2 )

ライセンス: Link先を確認
Griffin Mooers, Jens Tuyls, Stephan Mandt, Michael Pritchard, Tom Beucler(参考訳) クラウド解決モデルは、小規模の嵐の形成と形態の詳細を明示的にシミュレートすることができるが、これらの詳細は、計算資源の欠如により、しばしば気候モデルによって無視される。 本稿では,構造的複製,次元縮小,高分解能垂直速度場のクラスタリングを行う変分オートエンコーダ(vae)の設計と実装により,小型ストームを安価に再現するための生成モデリングの可能性を検討する。 地球にまたがる6*10^6のサンプルで訓練されたVAEは、対流の空間構造を再構築し、対流組織体制の教師なしクラスタリングを行い、異常な嵐活動を特定し、気象モデルにおける対流の確率的パラメータ化を動力源とする生成モデルの可能性を確認する。

While cloud-resolving models can explicitly simulate the details of small-scale storm formation and morphology, these details are often ignored by climate models for lack of computational resources. Here, we explore the potential of generative modeling to cheaply recreate small-scale storms by designing and implementing a Variational Autoencoder (VAE) that performs structural replication, dimensionality reduction, and clustering of high-resolution vertical velocity fields. Trained on ~6*10^6 samples spanning the globe, the VAE successfully reconstructs the spatial structure of convection, performs unsupervised clustering of convective organization regimes, and identifies anomalous storm activity, confirming the potential of generative modeling to power stochastic parameterizations of convection in climate models.
翻訳日:2022-11-14 06:12:19 公開日:2020-10-24
# 高速対向訓練の理解と改善

Understanding and Improving Fast Adversarial Training ( http://arxiv.org/abs/2007.02617v2 )

ライセンス: Link先を確認
Maksym Andriushchenko, Nicolas Flammarion(参考訳) 最近の研究は、ディープラーニングモデルに敵対的トレーニングを計算効率良くすることに焦点を当てている。 特に、Wong et al. (2020) は、高速勾配符号法 (FGSM) を用いた$\ell_\infty$-adversarial training が「破滅的オーバーフィッティング (catastrophic overfitting)」と呼ばれる現象によって失敗することを示した。 wong et al. (2020) で提案されているように、fgsmにランダムなステップを加えることは、破滅的な過剰フィッティングを防ぎません。 さらに, 破壊的オーバーフィッティングは, 深層および過パラメータ化ネットワークに固有のものではなく, 数個のフィルタを持つ単層畳み込みネットワークに発生することを示した。 極端な場合、単一のフィルタでさえネットワークを高度に非線形にすることができるため、FGSMトレーニングが失敗する主な理由はそこにある。 そこで本研究では,摂動集合内の勾配配向を明示的に最大化し,FGSM溶液の品質を向上させることにより,破滅的過適合を防止する新しい正規化法GradAlignを提案する。 結果として、GradAlignは、より大きな$\ell_\infty$-perturbationsにもFGSMトレーニングをうまく適用することができ、マルチステップの敵トレーニングとのギャップを減らすことができる。 実験のコードはhttps://github.com/tml-epfl/understanding-fast-adv-trainingで公開されている。

A recent line of work focused on making adversarial training computationally efficient for deep learning models. In particular, Wong et al. (2020) showed that $\ell_\infty$-adversarial training with fast gradient sign method (FGSM) can fail due to a phenomenon called "catastrophic overfitting", when the model quickly loses its robustness over a single epoch of training. We show that adding a random step to FGSM, as proposed in Wong et al. (2020), does not prevent catastrophic overfitting, and that randomness is not important per se -- its main role being simply to reduce the magnitude of the perturbation. Moreover, we show that catastrophic overfitting is not inherent to deep and overparametrized networks, but can occur in a single-layer convolutional network with a few filters. In an extreme case, even a single filter can make the network highly non-linear locally, which is the main reason why FGSM training fails. Based on this observation, we propose a new regularization method, GradAlign, that prevents catastrophic overfitting by explicitly maximizing the gradient alignment inside the perturbation set and improves the quality of the FGSM solution. As a result, GradAlign allows to successfully apply FGSM training also for larger $\ell_\infty$-perturbations and reduce the gap to multi-step adversarial training. The code of our experiments is available at https://github.com/tml-epfl/understanding-fast-adv-training.
翻訳日:2022-11-13 01:17:14 公開日:2020-10-24
# ニューラル・タンジェント・カーネルによるベイズ深層アンサンブル

Bayesian Deep Ensembles via the Neural Tangent Kernel ( http://arxiv.org/abs/2007.05864v2 )

ライセンス: Link先を確認
Bobby He, Balaji Lakshminarayanan and Yee Whye Teh(参考訳) 我々は,ニューラルタンジェントカーネル(NTK)のレンズを通して,ディープアンサンブルとガウス過程(GP)の関係を探究する。 これまでの研究では、NNがGPとなるときでさえ、二乗誤差損失で訓練されたディープアンサンブルに対するGP後部解釈は存在しないことが示されている。 本稿では,各アンサンブル部材に計算可能でランダム化され,訓練不能な関数を追加することで,標準深層アンサンブル訓練の簡易な修正を行い,無限幅制限の後方解釈を可能にする。 組み合わさると、訓練されたNNは後続の予測分布に近似し、ベイジアンディープアンサンブルが無限幅制限の標準ディープアンサンブルよりも保守的な予測を行うことを示す。 最後に,有限幅nnを用いて,ベイズ深層アンサンブルが利用可能な場合,解析的後方予測を忠実にエミュレートし,回帰処理と分類処理の両方において,標準深層アンサンブルを様々な分布外設定で上回ることを示した。

We explore the link between deep ensembles and Gaussian processes (GPs) through the lens of the Neural Tangent Kernel (NTK): a recent development in understanding the training dynamics of wide neural networks (NNs). Previous work has shown that even in the infinite width limit, when NNs become GPs, there is no GP posterior interpretation to a deep ensemble trained with squared error loss. We introduce a simple modification to standard deep ensembles training, through addition of a computationally-tractable, randomised and untrainable function to each ensemble member, that enables a posterior interpretation in the infinite width limit. When ensembled together, our trained NNs give an approximation to a posterior predictive distribution, and we prove that our Bayesian deep ensembles make more conservative predictions than standard deep ensembles in the infinite width limit. Finally, using finite width NNs we demonstrate that our Bayesian deep ensembles faithfully emulate the analytic posterior predictive when available, and can outperform standard deep ensembles in various out-of-distribution settings, for both regression and classification tasks.
翻訳日:2022-11-11 13:06:59 公開日:2020-10-24
# CoVoST 2と多言語音声テキスト翻訳

CoVoST 2 and Massively Multilingual Speech-to-Text Translation ( http://arxiv.org/abs/2007.10310v3 )

ライセンス: Link先を確認
Changhan Wang, Anne Wu, Juan Pino(参考訳) 音声翻訳は最近、ベンチマークデータセットの開発によって、研究の話題として人気が高まっている。 それでも、現在のデータセットは限られた数の言語をカバーする。 低資源言語対に対する大規模多言語音声翻訳と音声翻訳の研究を促進するために,21言語から英語,15言語への翻訳をカバーする大規模多言語音声翻訳コーパスであるCoVoST 2をリリースする。 これは、総ボリュームと言語カバレッジの観点から、これまでで最大のオープンデータセットである。 データ健全性チェックは、CC0ライセンス下でリリースされたデータの品質に関する証拠を提供する。 また, 音声認識, バイリンガルおよび多言語機械翻訳, 音声翻訳ベースラインをオープンソース実装で提供する。

Speech translation has recently become an increasingly popular topic of research, partly due to the development of benchmark datasets. Nevertheless, current datasets cover a limited number of languages. With the aim to foster research in massive multilingual speech translation and speech translation for low resource language pairs, we release CoVoST 2, a large-scale multilingual speech translation corpus covering translations from 21 languages into English and from English into 15 languages. This represents the largest open dataset available to date from total volume and language coverage perspective. Data sanity checks provide evidence about the quality of the data, which is released under CC0 license. We also provide extensive speech recognition, bilingual and multilingual machine translation and speech translation baselines with open-source implementation.
翻訳日:2022-11-08 14:24:01 公開日:2020-10-24
# 深部変量器セグメンテーション

Deep Variational Instance Segmentation ( http://arxiv.org/abs/2007.11576v2 )

ライセンス: Link先を確認
Jialin Yuan, Chao Chen, Li Fuxin(参考訳) 入力画像の各ピクセルのクラスラベルとインスタンスラベルを取得するインスタンスセグメンテーションは、コンピュータビジョンにおいて難しい課題である。 State-of-the-artアルゴリズムは、しばしば2つの別々のステージを使用し、最初の1つはオブジェクトの提案を生成し、もう1つは境界を認識して修正する。 さらに、提案は通常、画像全体のボックスを徹底的に検索する高速なR-CNNのような検出器に基づいている。 本稿では,完全畳み込みネットワーク(FCN)を直接利用してインスタンスラベルを予測する新しいアルゴリズムを提案する。 具体的には,fcnのエンドツーエンドトレーニングに使用可能なセグメント分割問題に対する最適化関数の最小化として,インスタンスセグメンテーションの変動緩和を提案する。 古典的なムンフォード・シャー変分節問題を拡張し、インスタンスセグメンテーションの基底真理において置換不変ラベルを扱うことができる。 PASCAL VOC 2012とセマンティックバウンダリデータセット(SBD)とMSCOCO 2017データセットの実験では、提案手法がインスタンスセグメンテーションタスクに効率的に取り組むことが示されている。 ソースコードとトレーニングされたモデルは、論文とともにリリースされる。

Instance Segmentation, which seeks to obtain both class and instance labels for each pixel in the input image, is a challenging task in computer vision. State-of-the-art algorithms often employ two separate stages, the first one generating object proposals and the second one recognizing and refining the boundaries. Further, proposals are usually based on detectors such as faster R-CNN which search for boxes in the entire image exhaustively. In this paper, we propose a novel algorithm that directly utilizes a fully convolutional network (FCN) to predict instance labels. Specifically, we propose a variational relaxation of instance segmentation as minimizing an optimization functional for a piecewise-constant segmentation problem, which can be used to train an FCN end-to-end. It extends the classical Mumford-Shah variational segmentation problem to be able to handle permutation-invariant labels in the ground truth of instance segmentation. Experiments on PASCAL VOC 2012, Semantic Boundaries dataset(SBD), and the MSCOCO 2017 dataset show that the proposed approach efficiently tackle the instance segmentation task. The source code and trained models will be released with the paper.
翻訳日:2022-11-07 23:06:28 公開日:2020-10-24
# メタ強化学習に基づくエッジコンピューティングにおける高速適応タスクオフロード

Fast Adaptive Task Offloading in Edge Computing based on Meta Reinforcement Learning ( http://arxiv.org/abs/2008.02033v5 )

ライセンス: Link先を確認
Jin Wang, Jia Hu, Geyong Min, Albert Y. Zomaya, Nektarios Georgalas(参考訳) マルチアクセスエッジコンピューティング(MEC)は、クラウドサービスをネットワークエッジに拡張して、ネットワークトラフィックとサービスレイテンシを低減することを目的としている。 MECの基本的な問題は、モバイルアプリケーションの異種タスクをユーザ機器(UE)からMECホストに効率的にオフロードする方法である。 近年, UE, 無線チャネル, MECホストで構成されるMEC環境と対話することで, オフロードポリシを学習するためのDRLに基づく多くの手法が提案されている。 しかし、これらの手法はサンプル効率が低く、新しい環境のポリシーを学習するために完全な再訓練が必要であるため、新しい環境への適応性が弱い。 この弱点を克服するために,メタ強化学習に基づくタスクオフロード手法を提案する。 モバイルアプリケーションをDAG(Directed Acyclic Graphs)としてモデル化し、カスタムシーケンス対シーケンス(seq2seq)ニューラルネットワークによるオフロードポリシをモデル化する。 seq2seqネットワークを効率的にトレーニングするために,第1次近似とクリップ型サロゲート目標を併用する手法を提案する。 実験の結果,新しいオフロード方式は,3つのベースラインと比較して最大25%の遅延を低減し,新しい環境に迅速に適応できることがわかった。

Multi-access edge computing (MEC) aims to extend cloud service to the network edge to reduce network traffic and service latency. A fundamental problem in MEC is how to efficiently offload heterogeneous tasks of mobile applications from user equipment (UE) to MEC hosts. Recently, many deep reinforcement learning (DRL) based methods have been proposed to learn offloading policies through interacting with the MEC environment that consists of UE, wireless channels, and MEC hosts. However, these methods have weak adaptability to new environments because they have low sample efficiency and need full retraining to learn updated policies for new environments. To overcome this weakness, we propose a task offloading method based on meta reinforcement learning, which can adapt fast to new environments with a small number of gradient updates and samples. We model mobile applications as Directed Acyclic Graphs (DAGs) and the offloading policy by a custom sequence-to-sequence (seq2seq) neural network. To efficiently train the seq2seq network, we propose a method that synergizes the first order approximation and clipped surrogate objective. The experimental results demonstrate that this new offloading method can reduce the latency by up to 25% compared to three baselines while being able to adapt fast to new environments.
翻訳日:2022-11-02 18:58:32 公開日:2020-10-24
# コミュニティ型トリップシェアリングにおける自動運転車のメリット

The Benefits of Autonomous Vehicles for Community-Based Trip Sharing ( http://arxiv.org/abs/2008.12800v2 )

ライセンス: Link先を確認
Mohd. Hafiz Hasan and Pascal Van Hentenryck(参考訳) この研究は、通勤パターンと都市コミュニティの構造を利用して旅行共有を最適化するHasanらによって提案されたコミュニティベースの旅行共有の概念を再考する。 自動運転車のメリットを、コミュニティベースの旅行共有に定量化することを目的としている。 検討された問題では、各乗務員は、上りの旅(通勤)の所要の到着時間と、上りの旅(帰りの通勤)の出発時間を指定する。 加えて、彼女の通勤時間は直接旅行の時間からあまり逸脱できない。 ミシガン州アンアーバー市の駐車プレッシャーと渋滞の軽減に動機づけられた以前の作業は、コミュニティベースのトリップ共有のためのカープールプラットフォームが、車両数を60%近く削減できることを示した。 本稿では、これらの通勤旅行に要する車両の数を減らし、自動運転車の潜在的な利点について検討する。 それは、まず必要な車両数を最小化し、次に総走行距離を最小化するレクシカルな目的を用いて、インバウンドおよびアウトバウンドトリップを提供するミニルートを生成し、組み立てるコラムジェネレーション手順を提案する。 最適化アルゴリズムは、ミシガン州アンアーバー市からの通勤旅行の大規模な実世界のデータセットで評価される。 最適化の結果は、自動運転車を利用して1日あたりの車両使用量を92%削減し、元の通勤トリップ共有問題の結果を34%改善し、また1日あたりの走行距離を約30%削減できることを示している。 これらの結果は、共同作業先へのコミュニティの共有通勤における自動運転車の有意な可能性を示している。

This work reconsiders the concept of community-based trip sharing proposed by Hasan et al. (2018) that leverages the structure of commuting patterns and urban communities to optimize trip sharing. It aims at quantifying the benefits of autonomous vehicles for community-based trip sharing, compared to a car-pooling platform where vehicles are driven by their owners. In the considered problem, each rider specifies a desired arrival time for her inbound trip (commuting to work) and a departure time for her outbound trip (commuting back home). In addition, her commute time cannot deviate too much from the duration of a direct trip. Prior work motivated by reducing parking pressure and congestion in the city of Ann Arbor, Michigan, showed that a car-pooling platform for community-based trip sharing could reduce the number of vehicles by close to 60%. This paper studies the potential benefits of autonomous vehicles in further reducing the number of vehicles needed to serve all these commuting trips. It proposes a column-generation procedure that generates and assembles mini routes to serve inbound and outbound trips, using a lexicographic objective that first minimizes the required vehicle count and then the total travel distance. The optimization algorithm is evaluated on a large-scale, real-world dataset of commute trips from the city of Ann Arbor, Michigan. The results of the optimization show that it can leverage autonomous vehicles to reduce the daily vehicle usage by 92%, improving upon the results of the original Commute Trip Sharing Problem by 34%, while also reducing daily vehicle miles traveled by approximately 30%. These results demonstrate the significant potential of autonomous vehicles for the shared commuting of a community to a common work destination.
翻訳日:2022-10-24 02:23:23 公開日:2020-10-24
# 違いが難しい説明を学ぶこと

Learning explanations that are hard to vary ( http://arxiv.org/abs/2009.00329v3 )

ライセンス: Link先を確認
Giambattista Parascandolo, Alexander Neitz, Antonio Orvieto, Luigi Gresele, Bernhard Sch\"olkopf(参考訳) 本稿では,深層学習の文脈において,「よい説明は変化しにくい」という原則について検討する。 パターンの論理的 OR に似た、例間の勾配の平均化は、不変性を識別する代わりに、異なる戦略を縫い合わせる、記憶と 'パッチワーク' ソリューションを好むことを示す。 これを調べるために、まず損失面の最小値に対する整合性の概念を定式化し、サンプルがプールされた場合にのみ、最小値がどの程度現れるかを測定する。 次に, 実世界のタスク群における不変性に着目し, 記憶を阻害する, 論理に基づく単純な代替アルゴリズムを提案し, 実験的に検証する。 最後に、不変と散発的なメカニズムを明確に区別した合成データセットを用いて、学習信号を分析し、このアプローチを確立された正規化器と比較する。

In this paper, we investigate the principle that `good explanations are hard to vary' in the context of deep learning. We show that averaging gradients across examples -- akin to a logical OR of patterns -- can favor memorization and `patchwork' solutions that sew together different strategies, instead of identifying invariances. To inspect this, we first formalize a notion of consistency for minima of the loss surface, which measures to what extent a minimum appears only when examples are pooled. We then propose and experimentally validate a simple alternative algorithm based on a logical AND, that focuses on invariances and prevents memorization in a set of real-world tasks. Finally, using a synthetic dataset with a clear distinction between invariant and spurious mechanisms, we dissect learning signals and compare this approach to well-established regularizers.
翻訳日:2022-10-23 00:45:06 公開日:2020-10-24
# EasyASR: エンドツーエンドの自動音声認識のための分散機械学習プラットフォーム

EasyASR: A Distributed Machine Learning Platform for End-to-end Automatic Speech Recognition ( http://arxiv.org/abs/2009.06487v2 )

ライセンス: Link先を確認
Chengyu Wang, Mengli Cheng, Xu Hu, Jun Huang(参考訳) 本稿では,大規模音声認識(ASR)モデルの学習と提供を行う分散機械学習プラットフォームであるEasyASRについて述べる。 私たちのプラットフォームはAlibaba CloudのAIのための機械学習プラットフォーム上に構築されています。 その主な機能は、分散GPUクラスタ上のエンドツーエンドのASRモデルの効率的な学習と推論をサポートすることである。 ユーザーはシンプルなユーザーインターフェイスを通じて、事前に定義されたまたはユーザカスタマイズされたネットワークアーキテクチャでASRモデルを学習することができる。 easyasrでは,マンダリン音声認識のための公開データセットで最新の結果が得られた。

We present EasyASR, a distributed machine learning platform for training and serving large-scale Automatic Speech Recognition (ASR) models, as well as collecting and processing audio data at scale. Our platform is built upon the Machine Learning Platform for AI of Alibaba Cloud. Its main functionality is to support efficient learning and inference for end-to-end ASR models on distributed GPU clusters. It allows users to learn ASR models with either pre-defined or user-customized network architectures via simple user interface. On EasyASR, we have produced state-of-the-art results over several public datasets for Mandarin speech recognition.
翻訳日:2022-10-18 11:13:43 公開日:2020-10-24
# 不物理からの機械学習物理:スケーリング窓の外から格子ヤン・ミルズ理論の分解温度を求める

Machine-learning physics from unphysics: Finding deconfinement temperature in lattice Yang-Mills theories from outside the scaling window ( http://arxiv.org/abs/2009.10971v2 )

ライセンス: Link先を確認
D.L. Boyda, M.N. Chernodub, N.V. Gerasimeniuk, V.A. Goy, S.D. Liubimov, A.V. Molochkov(参考訳) 格子ゲージ理論の臨界挙動,特にSU(2)およびSU(3)ゲージ理論における閉じ込め/分解相転移に応用する機械学習技術について検討する。 入力として格子パラメータの非物理的値におけるゲージ場の格子構成に基づいてトレーニングされたニューラルネットワークがゲージ不変関数を構築し,パラメータ空間の物理領域で有効な目標観測値との相関関係を求める。 特に、ポリアコフループを分解順序パラメータとして予測することを目的としたアルゴリズムでは、時間方向の閉ループに沿ってゲージ群行列のトレースを構築する。 その結果、格子結合の1つの非物理的値である$\beta$でトレーニングされたニューラルネットワークは、$\beta$値の領域全体の順序パラメータを精度良く予測する。 したがって,機械学習手法は,結合空間の容易だが物理的に興味をそそらない領域から興味をそそらない領域への解析継続の数値的類似物として用いることができることを示す。

We study the machine learning techniques applied to the lattice gauge theory's critical behavior, particularly to the confinement/deconfinement phase transition in the SU(2) and SU(3) gauge theories. We find that the neural network, trained on lattice configurations of gauge fields at an unphysical value of the lattice parameters as an input, builds up a gauge-invariant function, and finds correlations with the target observable that is valid in the physical region of the parameter space. In particular, if the algorithm aimed to predict the Polyakov loop as the deconfining order parameter, it builds a trace of the gauge group matrices along a closed loop in the time direction. As a result, the neural network, trained at one unphysical value of the lattice coupling $\beta$ predicts the order parameter in the whole region of the $\beta$ values with good precision. We thus demonstrate that the machine learning techniques may be used as a numerical analog of the analytical continuation from easily accessible but physically uninteresting regions of the coupling space to the interesting but potentially not accessible regions.
翻訳日:2022-10-15 17:04:23 公開日:2020-10-24
# データ不足にもかかわらず、毒性のある言語分類を改善する方法

A little goes a long way: Improving toxic language classification despite data scarcity ( http://arxiv.org/abs/2009.12344v2 )

ライセンス: Link先を確認
Mika Juuti, Tommi Gr\"ondahl, Adrian Flanagan and N. Asokan(参考訳) いくつかの有害言語の検出は、ラベル付きトレーニングデータの極端な不足によって妨げられる。 データ拡張 - ラベル付きシードデータセットから新しい合成データを生成することは役立つ。 有毒な言語分類に対するデータ拡張の効果は、完全には研究されていない。 本稿では、ロジスティック回帰アーキテクチャから、最先端のトレーニング済みトランスフォーマネットワークであるBERTまで、有毒な言語分類器間でのデータ拡張技術がパフォーマンスに与える影響について、最初の系統的研究を行う。 我々は、非常に少ないシードデータセットで8つのテクニックのパフォーマンスを比較する。 GPT-2 生成文を含む3つの手法を併用したデータを用いた訓練では,BERT が最良で浅い分類器を比較検討した。 本稿では,異なる制約下でのテクニックの選択を通知できる性能と計算オーバーヘッドの相互作用について論じる。

Detection of some types of toxic language is hampered by extreme scarcity of labeled training data. Data augmentation - generating new synthetic data from a labeled seed dataset - can help. The efficacy of data augmentation on toxic language classification has not been fully explored. We present the first systematic study on how data augmentation techniques impact performance across toxic language classifiers, ranging from shallow logistic regression architectures to BERT - a state-of-the-art pre-trained Transformer network. We compare the performance of eight techniques on very scarce seed datasets. We show that while BERT performed the best, shallow classifiers performed comparably when trained on data augmented with a combination of three techniques, including GPT-2-generated sentences. We discuss the interplay of performance and computational overhead, which can inform the choice of techniques under different constraints.
翻訳日:2022-10-14 22:58:51 公開日:2020-10-24
# tero: 時間軸回転による時間認識知識グラフ埋め込み

TeRo: A Time-aware Knowledge Graph Embedding via Temporal Rotation ( http://arxiv.org/abs/2010.01029v2 )

ライセンス: Link先を確認
Chengjin Xu, Mojtaba Nayyeri, Fouad Alkhoury, Hamed Shariat Yazdi, Jens Lehmann(参考訳) 近年,知識グラフ(KG)における実体と関係の表現の学習への関心が高まっている。 しかし,近年の時間情報を含む時間的知識グラフ(TKG)の利用可能化により,このようなTKGの残業理由付けの必要性が高まった。 本稿では,TKG埋め込みの新たなアプローチであるTeRoについて述べる。これは,実体埋め込みの時間的進化を,複素ベクトル空間における初期から現在までの回転として定義するものである。 特に、時間間隔を含む事実について、それぞれの関係は、関係の開始と終了をそれぞれ扱う2つの複素埋め込みのペアとして表現される。 提案手法は,既存のkg埋め込みモデルとtkg埋め込みモデルの限界を克服し,時間とともに学習し,異種関係パターンを推測する能力を有することを示す。 4つの異なるTKG実験の結果、TeRoはリンク予測のための既存の最先端モデルよりも大幅に優れていた。 また,TKGのリンク予測における時間粒度の影響を,これまでの文献では調査されていない。

In the last few years, there has been a surge of interest in learning representations of entitiesand relations in knowledge graph (KG). However, the recent availability of temporal knowledgegraphs (TKGs) that contain time information for each fact created the need for reasoning overtime in such TKGs. In this regard, we present a new approach of TKG embedding, TeRo, which defines the temporal evolution of entity embedding as a rotation from the initial time to the currenttime in the complex vector space. Specially, for facts involving time intervals, each relation isrepresented as a pair of dual complex embeddings to handle the beginning and the end of therelation, respectively. We show our proposed model overcomes the limitations of the existing KG embedding models and TKG embedding models and has the ability of learning and inferringvarious relation patterns over time. Experimental results on four different TKGs show that TeRo significantly outperforms existing state-of-the-art models for link prediction. In addition, we analyze the effect of time granularity on link prediction over TKGs, which as far as we know hasnot been investigated in previous literature.
翻訳日:2022-10-12 00:13:59 公開日:2020-10-24
# VolumeNet: 医療用ボリュームデータの超解像のための軽量並列ネットワーク

VolumeNet: A Lightweight Parallel Network for Super-Resolution of Medical Volumetric Data ( http://arxiv.org/abs/2010.08357v2 )

ライセンス: Link先を確認
Yinhao Li, Yutaro Iwamoto, Lanfen Lin, Rui Xu, Yen-Wei Chen(参考訳) 深層学習に基づく超解像(SR)技術は一般にコンピュータビジョン分野で優れた性能を発揮している。 近年,医用ボリュームデータに対する3次元SRは従来の2次元(2次元)処理よりも視覚的効果が優れていることが証明されている。 しかし、3Dネットワークの深化と拡張は、多数のパラメータと少数のトレーニングサンプルにより、トレーニングの難しさを著しく高める。 そこで本研究では,並列接続を用いた医用ボリュームデータsrのための3次元畳み込みニューラルネットワーク(cnn)を提案する。 グループ畳み込みと特徴集約に基づく並列接続構造を構築し,パラメータの少ない,可能な限り広い3d cnnを構築する。 結果として、モデルはより大きな受容フィールドを持つ機能マップを徹底的に学習する。 さらに,提案するキューモジュールと呼ばれる軽量ビルディングブロックモジュールを用いて,パラメータ数を削減し,並列ネットを深層化する並列ネットの効率的なバージョン(ボリュームネット)を提案する。 奥行きの畳み込みに基づくほとんどの軽量CNNとは異なり、キューモジュールは主に分離可能な2Dチャネルの畳み込みを用いて構築される。 その結果、完全チャネル融合による精度を維持しつつ、ネットワークパラメータ数と計算複雑性を大幅に削減することができる。 実験結果から,提案したVolumeNetはモデルパラメータ数を著しく削減し,最先端手法と比較して高精度な結果が得られることがわかった。

Deep learning-based super-resolution (SR) techniques have generally achieved excellent performance in the computer vision field. Recently, it has been proven that three-dimensional (3D) SR for medical volumetric data delivers better visual results than conventional two-dimensional (2D) processing. However, deepening and widening 3D networks increases training difficulty significantly due to the large number of parameters and small number of training samples. Thus, we propose a 3D convolutional neural network (CNN) for SR of medical volumetric data called ParallelNet using parallel connections. We construct a parallel connection structure based on the group convolution and feature aggregation to build a 3D CNN that is as wide as possible with few parameters. As a result, the model thoroughly learns more feature maps with larger receptive fields. In addition, to further improve accuracy, we present an efficient version of ParallelNet (called VolumeNet), which reduces the number of parameters and deepens ParallelNet using a proposed lightweight building block module called the Queue module. Unlike most lightweight CNNs based on depthwise convolutions, the Queue module is primarily constructed using separable 2D cross-channel convolutions. As a result, the number of network parameters and computational complexity can be reduced significantly while maintaining accuracy due to full channel fusion. Experimental results demonstrate that the proposed VolumeNet significantly reduces the number of model parameters and achieves high precision results compared to state-of-the-art methods.
翻訳日:2022-10-06 21:50:07 公開日:2020-10-24
# 医学文献における時系列事象の効率的な表現

An efficient representation of chronological events in medical texts ( http://arxiv.org/abs/2010.08433v2 )

ライセンス: Link先を確認
Andrey Kormilitzin, Nemanja Vaci, Qiang Liu, Hao Ni, Goran Nenadic, Alejo Nevado-Holgado(参考訳) 本研究では,縦型電子健康記録(EHR)に含まれるシーケンシャルな情報を収集する問題に対処した。 特定のタイプのehrデータである臨床ノートは豊富な情報ソースであり、実践者はフリーテキストに含まれるシーケンシャルな情報を最大化する方法を巧みに解決することが多い。 臨床ノートで利用可能な時系列イベントから学習するための体系的手法を提案した。 提案手法は,任意の種類の逐次事象を非パラメトリック階層的に表現し,下流の統計的学習タスクの特徴として利用することができる。 この手法は、アルツハイマー病と診断された患者の生存リスクを予測するための特定のタスクにおいて、英国で最大の中等ケア精神保健 EHR データを用いて、開発および外部から検証された。 シグネチャベースのモデルは、一般的なサバイバルランダムフォレストモデルと比較された。 その結果、専門的記憶クリニックへの初入院から20か月後のリスク予測aucは15.4$\%$上昇し、シグネチャ法はベースライン混合効果モデルよりも13.2$\%$を上回った。

In this work we addressed the problem of capturing sequential information contained in longitudinal electronic health records (EHRs). Clinical notes, which is a particular type of EHR data, are a rich source of information and practitioners often develop clever solutions how to maximise the sequential information contained in free-texts. We proposed a systematic methodology for learning from chronological events available in clinical notes. The proposed methodological {\it path signature} framework creates a non-parametric hierarchical representation of sequential events of any type and can be used as features for downstream statistical learning tasks. The methodology was developed and externally validated using the largest in the UK secondary care mental health EHR data on a specific task of predicting survival risk of patients diagnosed with Alzheimer's disease. The signature-based model was compared to a common survival random forest model. Our results showed a 15.4$\%$ increase of risk prediction AUC at the time point of 20 months after the first admission to a specialist memory clinic and the signature method outperformed the baseline mixed-effects model by 13.2 $\%$.
翻訳日:2022-10-06 21:32:12 公開日:2020-10-24
# MimicNorm: バッチ正規化のダイナミックなBNレイヤの重みと最後のBNレイヤ

MimicNorm: Weight Mean and Last BN Layer Mimic the Dynamic of Batch Normalization ( http://arxiv.org/abs/2010.09278v2 )

ライセンス: Link先を確認
Wen Fei, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong(参考訳) 物質実験は収束と一般化の恩恵を受けるためのバッチ正規化(BN)層の成功を検証する。 しかし、BNは余分なメモリと浮動小数点計算を必要とする。 さらにBNはバッチ統計に依存するため、マイクロバッチでは不正確である。 本稿では、BNの正規化を単純化し、BN層の基本的影響、すなわちデータデコリレーションと適応学習率を2つ保持する。 ネットワークトレーニングにおける収束と効率を改善するために,MimicNormという新しい正規化手法を提案する。 MimicNormは2つの光演算のみで構成され、修正された重み平均演算(重みパラメータテンソルから平均値を引き出す)と損失関数の前に1つのBN層(ラストBN層)を含む。 我々はニューラル・タンジェント・カーネル(ntk)理論を利用して、我々の重み平均演算が活性化を白化させ、bn層のようなカオス構造にネットワークを遷移させることを証明する。 最後のbn層は自動学習率を提供し、精度も向上している。 実験の結果、MimicNormはResNetsやShuffleNetのような軽量ネットワークなど、様々なネットワーク構造に対して同様の精度を実現し、約20%のメモリ消費を削減した。 コードはhttps://github.com/Kid-key/MimicNorm.comで公開されている。

Substantial experiments have validated the success of Batch Normalization (BN) Layer in benefiting convergence and generalization. However, BN requires extra memory and float-point calculation. Moreover, BN would be inaccurate on micro-batch, as it depends on batch statistics. In this paper, we address these problems by simplifying BN regularization while keeping two fundamental impacts of BN layers, i.e., data decorrelation and adaptive learning rate. We propose a novel normalization method, named MimicNorm, to improve the convergence and efficiency in network training. MimicNorm consists of only two light operations, including modified weight mean operations (subtract mean values from weight parameter tensor) and one BN layer before loss function (last BN layer). We leverage the neural tangent kernel (NTK) theory to prove that our weight mean operation whitens activations and transits network into the chaotic regime like BN layer, and consequently, leads to an enhanced convergence. The last BN layer provides autotuned learning rates and also improves accuracy. Experimental results show that MimicNorm achieves similar accuracy for various network structures, including ResNets and lightweight networks like ShuffleNet, with a reduction of about 20% memory consumption. The code is publicly available at https://github.com/Kid-key/MimicNorm.
翻訳日:2022-10-05 20:10:28 公開日:2020-10-24
# 個人別オンラインサブモジュールの最大化

Differentially Private Online Submodular Maximization ( http://arxiv.org/abs/2010.12816v1 )

ライセンス: Link先を確認
Sebastian Perez-Salazar, Rachel Cummings(参考訳) 本研究では,微分プライバシー(dp)を持つ濃度制約の下でのオンラインサブモジュラー最大化の問題を考える。 共通有限基底集合上の$T$サブモジュラー関数のストリームがオンラインに届き、各タイミングで決定者は関数を観察する前に$U$の最大$k$要素を選択する必要がある。 意思決定者は、選択されたセットで評価された機能と同等の報酬を得て、期待される後悔の少ないセットのシーケンスを学習することを目指す。 完全な情報設定では、$(1-1/e)$-regret の$\mathcal{o}\left( \frac{k^2\log |u|\sqrt{t \log k/\delta}}{\varepsilon} \right)$の$(\varepsilon,\delta)$-dpアルゴリズムを開発する。 このアルゴリズムには,関数のプライバシを維持しながら,各項目に対する最善のマージンインクリメントを学習する,$k$順序付き専門家が含まれている。 バンドイット設定では、$(\varepsilon,\delta+ o(e^{-t^{1/3}}))$-dpアルゴリズムを提供し、$(1-1/e)$-regret bound of $\mathcal{o}\left( \frac{\sqrt{\log k/\delta}}{\varepsilon} (k (|u| \log |u|)^{1/3})^2 t^{2/3} \right)$である。 当社のアルゴリズムには、前任者の選択したアイテムを選択できる最善の限界アイテムを学習し、関数のプライバシを保ちながら、k$順序付けされた専門家が含まれています。 この設定におけるプライバシの課題の1つは、専門家$i$の支払いとフィードバックが、前任者のアクションに依存することである。 この種の情報漏洩は後処理ではカバーされず、新たな分析が必要である。 フィードフォワードでプライバシーを維持する技術は、独立した関心事かもしれない。

In this work we consider the problem of online submodular maximization under a cardinality constraint with differential privacy (DP). A stream of $T$ submodular functions over a common finite ground set $U$ arrives online, and at each time-step the decision maker must choose at most $k$ elements of $U$ before observing the function. The decision maker obtains a payoff equal to the function evaluated on the chosen set, and aims to learn a sequence of sets that achieves low expected regret. In the full-information setting, we develop an $(\varepsilon,\delta)$-DP algorithm with expected $(1-1/e)$-regret bound of $\mathcal{O}\left( \frac{k^2\log |U|\sqrt{T \log k/\delta}}{\varepsilon} \right)$. This algorithm contains $k$ ordered experts that learn the best marginal increments for each item over the whole time horizon while maintaining privacy of the functions. In the bandit setting, we provide an $(\varepsilon,\delta+ O(e^{-T^{1/3}}))$-DP algorithm with expected $(1-1/e)$-regret bound of $\mathcal{O}\left( \frac{\sqrt{\log k/\delta}}{\varepsilon} (k (|U| \log |U|)^{1/3})^2 T^{2/3} \right)$. Our algorithms contains $k$ ordered experts that learn the best marginal item to select given the items chosen her predecessors, while maintaining privacy of the functions. One challenge for privacy in this setting is that the payoff and feedback of expert $i$ depends on the actions taken by her $i-1$ predecessors. This particular type of information leakage is not covered by post-processing, and new analysis is required. Our techniques for maintaining privacy with feedforward may be of independent interest.
翻訳日:2022-10-03 13:48:43 公開日:2020-10-24
# 拡張QSARのための3次元原子環境の調査

Investigating 3D Atomic Environments for Enhanced QSAR ( http://arxiv.org/abs/2010.12857v1 )

ライセンス: Link先を確認
William McCorkindale, Carl Poelking, Alpha A. Lee(参考訳) 分子の生物活性と物理的性質を予測することは、薬物設計における長年の課題である。 ほとんどのアプローチでは分子の2次元表現に基づく分子記述子を原子と結合のグラフとして使用し、分子の形状を抽象化する。 3次元形状の説明が難しいのは、分子ディスクリプタが回転/翻訳に不変なまま分子形状を正確に捉えることができる設計においてである。 Smooth Overlap of Atomic Positions (SOAP) を用いた新しいアライメントフリー3次元QSAR法について述べる。 本手法は局所的な3次元原子環境を厳密に記述し,分子形状を原理的に比較する。 この手法は, 従来の指紋ベースの手法や, pIC$_{50}$リガンド結合予測を用いた最先端グラフニューラルネットワークと, ランダムおよびスキャフォールドの分割シナリオにおいて競合的に動作する。 本稿では,SOAP記述子の有用性について,多種多様な表現を包含することで,統計的に性能が向上することを示した。

Predicting bioactivity and physical properties of molecules is a longstanding challenge in drug design. Most approaches use molecular descriptors based on a 2D representation of molecules as a graph of atoms and bonds, abstracting away the molecular shape. A difficulty in accounting for 3D shape is in designing molecular descriptors can precisely capture molecular shape while remaining invariant to rotations/translations. We describe a novel alignment-free 3D QSAR method using Smooth Overlap of Atomic Positions (SOAP), a well-established formalism developed for interpolating potential energy surfaces. We show that this approach rigorously describes local 3D atomic environments to compare molecular shapes in a principled manner. This method performs competitively with traditional fingerprint-based approaches as well as state-of-the-art graph neural networks on pIC$_{50}$ ligand-binding prediction in both random and scaffold split scenarios. We illustrate the utility of SOAP descriptors by showing that its inclusion in ensembling diverse representations statistically improves performance, demonstrating that incorporating 3D atomic environments could lead to enhanced QSAR for cheminformatics.
翻訳日:2022-10-03 13:48:09 公開日:2020-10-24
# deepatrophy:アルツハイマー病の縦型mriにおける進行性変化とノイズとの区別をニューラルネットワークに教える

DeepAtrophy: Teaching a Neural Network to Differentiate Progressive Changes from Noise on Longitudinal MRI in Alzheimer's Disease ( http://arxiv.org/abs/2010.12948v1 )

ライセンス: Link先を確認
Mengjin Dong, Long Xie, Sandhitsu R. Das, Jiancong Wang, Laura E.M. Wisse, Robin deFlores, David A. Wolk, Paul Yushkevich (for the Alzheimer's Disease Neuroimaging Initiative)(参考訳) 縦型MRI(例えば海馬萎縮症)による体積変化測定は、アルツハイマー病(AD)における疾患進行のよく研究されたバイオマーカーであり、疾患修正治療の治療効果を追跡するために臨床試験で用いられている。 しかし、縦方向MRI変化測定は、頭部運動の度合いや、MRIスキャンのペア間での感受性アーティファクトなど、非生物学的要因によって構成することができる。 縦型mriスキャンのペアに直接深層学習法を適用することで、変形可能な画像登録に基づく従来のアプローチよりも生物学的変化と非生物学的要因の区別を訓練できると仮定した。 これを実現するために、生物学的要因が時間と結びついているという仮定を単純化する(すなわち、海馬は高齢化において残業時間を減少させる)が、非生物学的要因は時間とは無関係である。 次に、深層学習ネットワークを定式化し、任意の順序で入力された同対象MRIスキャンの時間順を推定するとともに、2対の同対象MRIスキャンに対するスキャン間隔間の比を推定する。 テストデータセットでは、これらのネットワークは時間順序 (89.3%) とスカン間隔推定 (86.1%) のタスクにおいて、最先端の変形に基づく形態計測法 aloha (76.6% と 76.1%) よりも優れた性能を示す(das et al., 2012)。 さらに, ALOHAの2年に比べ, ALOHAの58例と75例のβ-アミロイド陰性認知正常者との集団差を1年以内に検出できるネットワークから, 病状進行スコアを導出した。 これは,非生物学的因子による変化と生物学的要因によるMRI変化を区別するためにディープラーニングを訓練できることを示唆し,ADの初期段階において,より経時変化に敏感な新しいバイオマーカーが生み出された。

Volume change measures derived from longitudinal MRI (e.g. hippocampal atrophy) are a well-studied biomarker of disease progression in Alzheimer's Disease (AD) and are used in clinical trials to track the therapeutic efficacy of disease-modifying treatments. However, longitudinal MRI change measures can be confounded by non-biological factors, such as different degrees of head motion and susceptibility artifact between pairs of MRI scans. We hypothesize that deep learning methods applied directly to pairs of longitudinal MRI scans can be trained to differentiate between biological changes and non-biological factors better than conventional approaches based on deformable image registration. To achieve this, we make a simplifying assumption that biological factors are associated with time (i.e. the hippocampus shrinks overtime in the aging population) whereas non-biological factors are independent of time. We then formulate deep learning networks to infer the temporal order of same-subject MRI scans input to the network in arbitrary order; as well as to infer ratios between interscan intervals for two pairs of same-subject MRI scans. In the test dataset, these networks perform better in tasks of temporal ordering (89.3%) and interscan interval inference (86.1%) than a state-of-the-art deformation-based morphometry method ALOHA (76.6% and 76.1% respectively) (Das et al., 2012). Furthermore, we derive a disease progression score from the network that is able to detect a group difference between 58 preclinical AD and 75 beta-amyloid-negative cognitively normal individuals within one year, compared to two years for ALOHA. This suggests that deep learning can be trained to differentiate MRI changes due to biological factors (tissue loss) from changes due to non-biological factors, leading to novel biomarkers that are more sensitive to longitudinal changes at the earliest stages of AD.
翻訳日:2022-10-03 13:46:24 公開日:2020-10-24
# legendre-galerkin近似による微分方程式解のためのディープニューラルネットワーク

Deep neural network for solving differential equations motivated by Legendre-Galerkin approximation ( http://arxiv.org/abs/2010.12975v1 )

ライセンス: Link先を確認
Bryce Chudomelka and Youngjoon Hong and Hyunwoo Kim and Jinyoung Park(参考訳) 非線形微分方程式は数値的に解くのが難しく、多くの物理系の力学を理解するのに重要である。 ディープニューラルネットワークは、これらのシステムの解決に関連する計算コストを軽減するために応用されている。 スペクトル要素法による正確なトレーニングセットを作成することにより,線形微分方程式および非線形微分方程式の様々なニューラルネットワークの性能と精度について検討する。 次に, 微分方程式の解を予測するために, 新たなlegendre-galerkin deep neural network (lgnet)アルゴリズムを実装した。 ルジャンドル基底の線型結合の集合を構成することにより、対応する係数 $\alpha_i$ を滑らかな基底関数 $u \simeq \sum_{i=0}^{N} \alpha_i \varphi_i$ の和として解をうまく近似する。 計算の例として、ディリクレあるいはノイマン境界条件を持つ線型および非線形モデルを考える。

Nonlinear differential equations are challenging to solve numerically and are important to understanding the dynamics of many physical systems. Deep neural networks have been applied to help alleviate the computational cost that is associated with solving these systems. We explore the performance and accuracy of various neural architectures on both linear and nonlinear differential equations by creating accurate training sets with the spectral element method. Next, we implement a novel Legendre-Galerkin Deep Neural Network (LGNet) algorithm to predict solutions to differential equations. By constructing a set of a linear combination of the Legendre basis, we predict the corresponding coefficients, $\alpha_i$ which successfully approximate the solution as a sum of smooth basis functions $u \simeq \sum_{i=0}^{N} \alpha_i \varphi_i$. As a computational example, linear and nonlinear models with Dirichlet or Neumann boundary conditions are considered.
翻訳日:2022-10-03 13:45:45 公開日:2020-10-24
# エンティティ埋め込みを用いたコンテンツベースパーソナライズドレコメンダシステム

Content-Based Personalized Recommender System Using Entity Embeddings ( http://arxiv.org/abs/2010.12798v1 )

ライセンス: Link先を確認
Xavier Thomas(参考訳) Recommender System(リコメンダーシステム)は、ユーザーが類似のアイテムと対話したり、そのアイテムの内容に基づいて、関連するレコメンデーションを提供する機械学習アルゴリズムのクラスである。 アイテムのコンテンツを保存するような設定では、コンテンツベースのアプローチが役に立つでしょう。 本稿では、学習した埋め込みを通してコンテンツベースのアプローチの利点を強調し、これらの利点を活用し、ジャンルやキーワードタグなどの様々な映画機能に対するユーザの好みに基づく、より優れたパーソナライズされた映画レコメンデーションを提供する。

Recommender systems are a class of machine learning algorithms that provide relevant recommendations to a user based on the user's interaction with similar items or based on the content of the item. In settings where the content of the item is to be preserved, a content-based approach would be beneficial. This paper aims to highlight the advantages of the content-based approach through learned embeddings and leveraging these advantages to provide better and personalised movie recommendations based on user preferences to various movie features such as genre and keyword tags.
翻訳日:2022-10-03 13:37:41 公開日:2020-10-24
# 一級協調フィルタリングにおける多面的選好学習のための注意オートエンコーダ

Attentive Autoencoders for Multifaceted Preference Learning in One-class Collaborative Filtering ( http://arxiv.org/abs/2010.12803v1 )

ライセンス: Link先を確認
Zheda Mai, Ga Wu, Kai Luo, Scott Sanner(参考訳) 既存のOne-Class Collaborative Filtering (OC-CF) アルゴリズムは、過去のインタラクションを符号化することで、ユーザの嗜好を潜在ベクトルとして推定する。 しかし,ユーザの興味は多様であり,学習の難しさが著しく増す。 多面的なユーザの好みを捉えるために、既存のレコメンデータシステムはエンコーディングの複雑さを増大させるか、潜在表現次元を拡張する。 残念ながら、これらの変更は必然的にトレーニングの難易度を高め、スケーラビリティの問題を悪化させる。 本稿では,AMA(Attentive Multi-modal AutoRec)と呼ばれる,ユーザの嗜好の複数の面を明示的に追跡する新しい,効率的なCFフレームワークを提案する。 具体的には、AutoencodingベースのレコメンデータAutoRecを拡張して、複数モードの潜在表現でユーザの好みを学習し、各モードがユーザの好みの1つの面をキャプチャする。 注意機構を活用することで、観察された各相互作用は、好みの面に対して異なる寄与を持つことができる。 3つの実世界のデータセットに関する広範な実験を通して、AMAはOC-CF設定の下で最先端のモデルと競合していることを示す。 また,注意機構を用いた説明を提供することにより,提案モデルが解釈性をどのように改善するかを示す。

Most existing One-Class Collaborative Filtering (OC-CF) algorithms estimate a user's preference as a latent vector by encoding their historical interactions. However, users often show diverse interests, which significantly increases the learning difficulty. In order to capture multifaceted user preferences, existing recommender systems either increase the encoding complexity or extend the latent representation dimension. Unfortunately, these changes inevitably lead to increased training difficulty and exacerbate scalability issues. In this paper, we propose a novel and efficient CF framework called Attentive Multi-modal AutoRec (AMA) that explicitly tracks multiple facets of user preferences. Specifically, we extend the Autoencoding-based recommender AutoRec to learn user preferences with multi-modal latent representations, where each mode captures one facet of a user's preferences. By leveraging the attention mechanism, each observed interaction can have different contributions to the preference facets. Through extensive experiments on three real-world datasets, we show that AMA is competitive with state-of-the-art models under the OC-CF setting. Also, we demonstrate how the proposed model improves interpretability by providing explanations using the attention mechanism.
翻訳日:2022-10-03 13:37:31 公開日:2020-10-24
# ビッグデータ設定におけるtriclustering

Triclustering in Big Data Setting ( http://arxiv.org/abs/2010.12933v1 )

ライセンス: Link先を確認
Dmitry Egurnov, Dmitry I. Ignatov, and Dmitry Tochilkin(参考訳) 本稿では、MapReduceモデルや並列化機構を備えた分散環境での効率的な計算に適応したトリクラスタリングアルゴリズムのバージョンについて述べる。 三クラスターアルゴリズムのoacファミリーは、三進形式コンテキストの三重項の独立処理により、良好な並列化能力を示す。 アルゴリズムの時間と空間の複雑さを提供し、それらの妥当性を正当化する。 また,分散システムの利用による性能向上とスケーラビリティも比較した。

In this paper, we describe versions of triclustering algorithms adapted for efficient calculations in distributed environments with MapReduce model or parallelisation mechanism provided by modern programming languages. OAC-family of triclustering algorithms shows good parallelisation capabilities due to the independent processing of triples of a triadic formal context. We provide the time and space complexity of the algorithms and justify their relevance. We also compare performance gain from using a distributed system and scalability.
翻訳日:2022-10-03 13:36:51 公開日:2020-10-24
# G-20部材の繰り返しニューラルネットワークによる電力負荷予測

Recurrent Neural Based Electricity Load Forecasting of G-20 Members ( http://arxiv.org/abs/2010.12934v1 )

ライセンス: Link先を確認
Jaymin Suhagiya, Deep Raval, Siddhi Vinayak Pandey, Jeet Patel, Ayushi Gupta, Akshay Srivastava(参考訳) 負荷の必要/要求に関する実際の電力量を予測することは、各発電所の発電ステーションにとって常に困難な課題である。 駅の終点受電時の電力需要の不確実さにより、エンドステーションの生成・受電時の性能パラメータの低減、収益の最小化、企業の将来のエネルギー需要を予測するためのユーティリティの不安定化など、いくつかの課題が生じる。 この問題により、受信端局における負荷の正確な予測は、需給チェーンと需給チェーンの間の不可避なバランスを確立するために非常に連続的なパラメータとなる。 本稿では,リカレントニューラルネットワークとスライディングウィンドウを用いたデータ生成手法を用いて,G-20部材の負荷予測を行った。 実験中、LSTMを用いて16.2193 TWhの平均絶対誤差を達成した。

Forecasting the actual amount of electricity with respect to the need/demand of the load is always been a challenging task for each power plants based generating stations. Due to uncertain demand of electricity at receiving end of station causes several challenges such as: reduction in performance parameters of generating and receiving end stations, minimization in revenue, increases the jeopardize for the utility to predict the future energy need for a company etc. With this issues, the precise forecasting of load at the receiving end station is very consequential parameter to establish the impeccable balance between supply and demand chain. In this paper, the load forecasting of G-20 members have been performed utilizing the Recurrent Neural Network coupled with sliding window approach for data generation. During the experimentation we have achieved Mean Absolute Test Error of 16.2193 TWh using LSTM.
翻訳日:2022-10-03 13:36:46 公開日:2020-10-24
# 自己注意に基づくソフトミニコストフロー学習による時系列信号のブラインドデインターリーブ

Blind Deinterleaving of Signals in Time Series with Self-attention Based Soft Min-cost Flow Learning ( http://arxiv.org/abs/2010.12972v1 )

ライセンス: Link先を確認
O\u{g}ul Can, Yeti Z. G\"urb\"uz, Berkin Y{\i}ld{\i}r{\i}m, A. Ayd{\i}n Alatan(参考訳) 本稿では,時系列におけるパターンの切り離し,特にレーダ信号に対するエンドツーエンド学習手法を提案する。 適切なコストが存在する場合、信号クラスタリング問題を等価な問題としてミンコストフローにリンクする。 教師付きトレーニングデータからこのようなコストを学習するためのサブプロブレムとして,ミンコストフローを含む二段階最適化問題を定式化する。 次に,自己着力に基づくニューラルネットワークによる低レベル最適化問題を近似し,入力のパターンを個別の流れとしてクラスタ化する学習可能なフレームワークを提供する。 提案手法を大規模データセット上で広範囲な実験により評価し,その効率性を示すための難解なシナリオをいくつか挙げた。

We propose an end-to-end learning approach to address deinterleaving of patterns in time series, in particular, radar signals. We link signal clustering problem to min-cost flow as an equivalent problem once the proper costs exist. We formulate a bi-level optimization problem involving min-cost flow as a sub-problem to learn such costs from the supervised training data. We then approximate the lower level optimization problem by self-attention based neural networks and provide a trainable framework that clusters the patterns in the input as the distinct flows. We evaluate our method with extensive experiments on a large dataset with several challenging scenarios to show the efficiency.
翻訳日:2022-10-03 13:36:32 公開日:2020-10-24
# 政策探索計画を用いた連続ドメインにおける深層強化学習の探索の改善

Improving the Exploration of Deep Reinforcement Learning in Continuous Domains using Planning for Policy Search ( http://arxiv.org/abs/2010.12974v1 )

ライセンス: Link先を確認
Jakob J. Hollenstein, Erwan Renaudo, Matteo Saveriano, Justus Piater(参考訳) ローカルポリシー検索は、ほとんどのDeep Reinforcement Learning (D-RL)メソッドによって行われ、ローカルな最小限に閉じ込められるリスクが増大する。 さらに,シミュレーションベーストレーニングにおいてもD-RLではシミュレーションモデルの可用性が十分に活用されないため,効率が低下する可能性がある。 政策探索におけるシミュレーションモデルをより活用するために,探索戦略にkinodynamic plannerを統合し,生成した環境相互作用からオフラインで制御ポリシーを学ぶことを提案する。 得られたモデルベース強化学習法pps (planning for policy search) と呼ぶ。 不活性化システムを含む典型的なRL設定において,PSと最先端D-RL法を比較した。 比較の結果、キノダイナミックプランナーによって導かれるPSは、状態空間の広い領域からデータを収集する。 これにより、ppsがより良いポリシーを見つけるのに役立つトレーニングデータを生成する。

Local policy search is performed by most Deep Reinforcement Learning (D-RL) methods, which increases the risk of getting trapped in a local minimum. Furthermore, the availability of a simulation model is not fully exploited in D-RL even in simulation-based training, which potentially decreases efficiency. To better exploit simulation models in policy search, we propose to integrate a kinodynamic planner in the exploration strategy and to learn a control policy in an offline fashion from the generated environment interactions. We call the resulting model-based reinforcement learning method PPS (Planning for Policy Search). We compare PPS with state-of-the-art D-RL methods in typical RL settings including underactuated systems. The comparison shows that PPS, guided by the kinodynamic planner, collects data from a wider region of the state space. This generates training data that helps PPS discover better policies.
翻訳日:2022-10-03 13:36:22 公開日:2020-10-24
# 敵の例は平等か? 非一様攻撃時のロバストネスに対する学習可能重量極小リスク

Are Adversarial Examples Created Equal? A Learnable Weighted Minimax Risk for Robustness under Non-uniform Attacks ( http://arxiv.org/abs/2010.12989v1 )

ライセンス: Link先を確認
Huimin Zeng, Chen Zhu, Tom Goldstein, Furong Huang(参考訳) 敵の訓練は、強力な攻撃に耐える数少ない防御の1つであり、敵の例から防衛する効果的な方法であることが証明されている。 しかし、従来の防御機構は、基礎となるデータ分布に従って、サンプルに対する均一な攻撃を前提としており、攻撃者がより脆弱な例にフォーカスする可能性があるため、明らかに非現実的である。 我々は,非一様攻撃を防御し,摂動テストデータ分布下での敵例に対する堅牢性を達成する,重み付きミニマックスリスク最適化を提案する。 修正されたリスクは,異なる敵の例の重要性を考慮し,間違った分類や不適切に分類されるリスクの高い,より難しい例に適応的に焦点を当てる。 設計されたリスクにより、トレーニングプロセスは重要度を最適化することで強力な防御を学ぶことができる。 実験の結果,非一様攻撃では,一様攻撃では顕著に低下することなく,最先端の対向精度が向上することがわかった。

Adversarial Training is proved to be an efficient method to defend against adversarial examples, being one of the few defenses that withstand strong attacks. However, traditional defense mechanisms assume a uniform attack over the examples according to the underlying data distribution, which is apparently unrealistic as the attacker could choose to focus on more vulnerable examples. We present a weighted minimax risk optimization that defends against non-uniform attacks, achieving robustness against adversarial examples under perturbed test data distributions. Our modified risk considers importance weights of different adversarial examples and focuses adaptively on harder examples that are wrongly classified or at higher risk of being classified incorrectly. The designed risk allows the training process to learn a strong defense through optimizing the importance weights. The experiments show that our model significantly improves state-of-the-art adversarial accuracy under non-uniform attacks without a significant drop under uniform attacks.
翻訳日:2022-10-03 13:36:07 公開日:2020-10-24
# ShiftAddNet: ハードウェアにインスパイアされたディープネットワーク

ShiftAddNet: A Hardware-Inspired Deep Network ( http://arxiv.org/abs/2010.12785v1 )

ライセンス: Link先を確認
Haoran You, Xiaohan Chen, Yongan Zhang, Chaojian Li, Sicheng Li, Zihao Liu, Zhangyang Wang, Yingyan Lin(参考訳) 乗算(例えば畳み込み)は現代のディープニューラルネットワーク(DNN)の基盤である。 しかし、集中的な乗算は、リソース制約のあるエッジデバイスへのdnnの配置に挑戦する高価なリソースコストを引き起こす。 本稿では,エネルギー効率のよいハードウェア実装における一般的な実践から着想を得たShiftAddNetについて述べる。 我々はこのアイデアを利用してディープネットワークをパラメータ化し、ビットシフト層と加算重み層のみを含む新しいタイプのディープネットワークを作り出す。 このハードウェアにインスパイアされたShiftAddNetは、エネルギー効率のよい推論とトレーニングの両方を、標準のDNNと比較して表現能力を損なうことなく即座に実現する。 2つの補完的な操作タイプ(ビットシフトと加算)により、モデルの学習能力のよりきめ細かい制御が可能となり、精度と(トレーニング)効率のトレードオフがより柔軟になり、量子化とプルーニングの堅牢性が向上する。 我々は、FPGAベースのShiftAddNetの実装とエネルギー測定によって支えられた広範な実験とアブレーション研究を行っている。 既存のDNNや他の乗算なしモデルと比較して、ShiftAddNetは、DNNのトレーニングと推論のハードウェア量化エネルギーコストの80%以上を積極的に削減し、同等またはより良い精度を提供する。 コードと事前学習されたモデルはhttps://github.com/rice-eic/shiftaddnetで入手できる。

Multiplication (e.g., convolution) is arguably a cornerstone of modern deep neural networks (DNNs). However, intensive multiplications cause expensive resource costs that challenge DNNs' deployment on resource-constrained edge devices, driving several attempts for multiplication-less deep networks. This paper presented ShiftAddNet, whose main inspiration is drawn from a common practice in energy-efficient hardware implementation, that is, multiplication can be instead performed with additions and logical bit-shifts. We leverage this idea to explicitly parameterize deep networks in this way, yielding a new type of deep network that involves only bit-shift and additive weight layers. This hardware-inspired ShiftAddNet immediately leads to both energy-efficient inference and training, without compromising the expressive capacity compared to standard DNNs. The two complementary operation types (bit-shift and add) additionally enable finer-grained control of the model's learning capacity, leading to more flexible trade-off between accuracy and (training) efficiency, as well as improved robustness to quantization and pruning. We conduct extensive experiments and ablation studies, all backed up by our FPGA-based ShiftAddNet implementation and energy measurements. Compared to existing DNNs or other multiplication-less models, ShiftAddNet aggressively reduces over 80% hardware-quantified energy cost of DNNs training and inference, while offering comparable or better accuracies. Codes and pre-trained models are available at https://github.com/RICE-EIC/ShiftAddNet.
翻訳日:2022-10-03 13:30:45 公開日:2020-10-24
# グラフニューラルネットワークを用いた時間・天気・位置比に基づく道路事故頻度指標

Road Accident Proneness Indicator Based On Time, Weather And Location Specificity Using Graph Neural Networks ( http://arxiv.org/abs/2010.12953v1 )

ライセンス: Link先を確認
Srikanth Chandar, Anish Reddy, Muvazima Mansoor, Suresh Jamadagni(参考訳) 本稿では,道路の安全に影響を及ぼす時空間的・環境的特徴を特定し,これらの特徴に基づいて事故発生率を予測する新しい手法を提案する。 道路沿いの時間、天気、位置(TWL)の特異性に基づいて合計14の機能がコンパイルされた。 14種類の特徴のそれぞれが持つ影響を決定するために,主成分分析を用いて感度調査を行った。 事故警報の場所を用いて、特定の道路が事故を起こしやすいかを定量化する安全指標が開発された。 グラフニューラルネットワーク(GNN)アーキテクチャを用いて,TWLの特異性に基づいて道路の安全性指数を予測する新しい手法を実装した。 提案アーキテクチャは,特徴空間における固有非線形リンクの複雑さを捉えることができるため,この用途に一意に適している。 グラフの vis-\`a-vis 辺を相互リンクした個々のノードとして、twl 特徴ベクトルをエミュレートするために gnn を用いた。 このモデルは、ロジスティック回帰、単純なフィードフォワードニューラルネットワーク、さらにはLong Short Term Memory (LSTM) Neural Networksよりも優れた性能を示すことが検証された。 我々は、州間バスのルートに沿った警戒位置を含むデータセットに対するアプローチを検証した。 このGNNアーキテクチャによって達成された結果、TWL入力の特徴空間は、他の予測モデルよりも実現可能であり、ピーク精度は65%に達した。

In this paper, we present a novel approach to identify the Spatio-temporal and environmental features that influence the safety of a road and predict its accident proneness based on these features. A total of 14 features were compiled based on Time, Weather, and Location (TWL) specificity along a road. To determine the influence each of the 14 features carries, a sensitivity study was performed using Principal Component Analysis. Using the locations of accident warnings, a Safety Index was developed to quantify how accident-prone a particular road is. We implement a novel approach to predict the Safety Index of a road-based on its TWL specificity by using a Graph Neural Network (GNN) architecture. The proposed architecture is uniquely suited for this application due to its ability to capture the complexities of the inherent nonlinear interlinking in a vast feature space. We employed a GNN to emulate the TWL feature vectors as individual nodes which were interlinked vis-\`a-vis edges of a graph. This model was verified to perform better than Logistic Regression, simple Feed-Forward Neural Networks, and even Long Short Term Memory (LSTM) Neural Networks. We validated our approach on a data set containing the alert locations along the routes of inter-state buses. The results achieved through this GNN architecture, using a TWL input feature space proved to be more feasible than the other predictive models, having reached a peak accuracy of 65%.
翻訳日:2022-10-03 13:30:18 公開日:2020-10-24
# ネットワークベース相対ポーズ回帰の一般化 : 正則化としての次元縮小

Improving the generalization of network based relative pose regression: dimension reduction as a regularizer ( http://arxiv.org/abs/2010.12796v1 )

ライセンス: Link先を確認
Xiaqing Ding, Yue Wang, Li Tang, Yanmei Jiao and Rong Xiong(参考訳) 視覚のローカライゼーションは、拡張現実、ロボティクス、および3dリコンストラクションなど、多くの分野で重要な位置を占めている。 最先端のビジュアルローカライゼーション手法は、RANSACフレームワーク内の幾何に基づく解法を用いてポーズ推定を行う。 しかし、これらの方法は高解像度で正確なピクセルレベルのマッチングを必要とするため、外観、ダイナミックス、視野からの大きな変化では満足できない。 エンド・ツー・エンドの学習に基づく回帰ネットワークは、正確なピクセルレベルの対応の要求を回避するためのソリューションを提供するが、クロスシーンの一般化に対する性能の低下を示す。 本稿では,絶対画像特徴量からポーズ回帰ソルバを分離するためにネットワーク内に学習可能なマッチング層を明示的に追加し,相関特徴量チャネルと画像スケールの両方に次元正規化を適用し,一般化と大きな視点変化へのパフォーマンス向上を図る。 この次元正規化戦略を2層ピラミッドベースのフレームワークで実装し,局所化結果を粗い値から細かい値に回帰する。 さらに、絶対翻訳スケール回復のために深度情報を融合する。 実世界のrgbdデータセットを用いた実験により, 一般化性能と視点変化に対するロバスト性の向上という観点で, 設計の有効性を検証するとともに, 幾何ベースのビジュアルローカライゼーション手法では難しい課題に対して, 回帰型ビジュアルローカライゼーションネットワークの可能性を示す。

Visual localization occupies an important position in many areas such as Augmented Reality, robotics and 3D reconstruction. The state-of-the-art visual localization methods perform pose estimation using geometry based solver within the RANSAC framework. However, these methods require accurate pixel-level matching at high image resolution, which is hard to satisfy under significant changes from appearance, dynamics or perspective of view. End-to-end learning based regression networks provide a solution to circumvent the requirement for precise pixel-level correspondences, but demonstrate poor performance towards cross-scene generalization. In this paper, we explicitly add a learnable matching layer within the network to isolate the pose regression solver from the absolute image feature values, and apply dimension regularization on both the correlation feature channel and the image scale to further improve performance towards generalization and large viewpoint change. We implement this dimension regularization strategy within a two-layer pyramid based framework to regress the localization results from coarse to fine. In addition, the depth information is fused for absolute translational scale recovery. Through experiments on real world RGBD datasets we validate the effectiveness of our design in terms of improving both generalization performance and robustness towards viewpoint change, and also show the potential of regression based visual localization networks towards challenging occasions that are difficult for geometry based visual localization methods.
翻訳日:2022-10-03 13:29:35 公開日:2020-10-24
# Non-local Meets Global: ハイパースペクトル画像復元のための反復パラダイム

Non-local Meets Global: An Iterative Paradigm for Hyperspectral Image Restoration ( http://arxiv.org/abs/2010.12921v1 )

ライセンス: Link先を確認
Wei He and Quanming Yao and Chao Li and Naoto Yokoya and Qibin Zhao and Hongyan Zhang and Liangpei Zhang(参考訳) 非局所低ランクテンソル近似(non-local low-rank tensor approximation)は、ハイパースペクトル画像(hsi)復元の最先端法として開発され、ノイズ除去、圧縮hsi再構成、インパインティングのタスクを含む。 残念なことに、その復元性能はよりスペクトル帯域の恩恵を受ける一方で、ランタイムも大幅に増加する。 本稿では、HSIが大域的低ランク部分空間にあり、各全バンドパッチ群のスペクトル部分空間がこの大域的低ランク部分空間に置かれるべきであると主張する。 これにより,hsi復元のための空間特性とスペクトル特性を組み合わせた統一パラダイムを提案する。 提案手法は,低位直交基底探索による非局所的な空間的雑音化と光計算の複雑さから性能の優位性を享受する。 ランク適応による効率的な交互最小化アルゴリズムを開発した。 潜時入力画像更新のための忠実度項関連問題をまず解くとともに、潜時入力画像から低次元直交基底と関連する縮小像を学習する。 その後,縮小された画像と直交基底を反復的に洗練するために,非局所低ランク雑音化法を開発した。 最後に、HSI復調、圧縮再構成、塗装タスクに関する実験を行い、シミュレーションと実データの両方を用いて、最先端のHSI復元方法に対するその優位性を実証した。

Non-local low-rank tensor approximation has been developed as a state-of-the-art method for hyperspectral image (HSI) restoration, which includes the tasks of denoising, compressed HSI reconstruction and inpainting. Unfortunately, while its restoration performance benefits from more spectral bands, its runtime also substantially increases. In this paper, we claim that the HSI lies in a global spectral low-rank subspace, and the spectral subspaces of each full band patch group should lie in this global low-rank subspace. This motivates us to propose a unified paradigm combining the spatial and spectral properties for HSI restoration. The proposed paradigm enjoys performance superiority from the non-local spatial denoising and light computation complexity from the low-rank orthogonal basis exploration. An efficient alternating minimization algorithm with rank adaptation is developed. It is done by first solving a fidelity term-related problem for the update of a latent input image, and then learning a low-dimensional orthogonal basis and the related reduced image from the latent input image. Subsequently, non-local low-rank denoising is developed to refine the reduced image and orthogonal basis iteratively. Finally, the experiments on HSI denoising, compressed reconstruction, and inpainting tasks, with both simulated and real datasets, demonstrate its superiority with respect to state-of-the-art HSI restoration methods.
翻訳日:2022-10-03 13:29:11 公開日:2020-10-24
# 胸部CT像を用いた各種肺疾患からのCOVID-19自動トリアージ

Automated triage of COVID-19 from various lung abnormalities using chest CT features ( http://arxiv.org/abs/2010.12967v1 )

ライセンス: Link先を確認
Dor Amran, Maayan Frid-Adar, Nimrod Sagie, Jannette Nassar, Asher Kabakovitch, Hayit Greenspan(参考訳) 新型コロナウイルス(covid-19)の流行は世界的なパンデミックの減速につながった。 この目的のために、転写-ポリメラーゼ連鎖反応(RT-PCR)テストの補充または置換として、胸部CTによる新型コロナウイルス感染者のスクリーニングおよび診断を利用する。 本稿では,入力胸部ctスキャンとトリアージを行う,完全自動化されたaiベースのシステムを提案する。 具体的には、肺と感染症の統計、テクスチャ、形状、位置など、複数の記述的特徴を生成して、covid-19と他の肺疾患(コミュニティが獲得した肺炎を含む)を区別する機械学習ベースの分類器を訓練します。 当システムは2191例のctデータを用いて評価し,感度が90.8%,特異度85.4%,roc-auc94.0%のロバスト解を示した。 さらに,各特徴の重要性について,詳細な特徴分析とアブレーション研究を行った。

The outbreak of COVID-19 has lead to a global effort to decelerate the pandemic spread. For this purpose chest computed-tomography (CT) based screening and diagnosis of COVID-19 suspected patients is utilized, either as a support or replacement to reverse transcription-polymerase chain reaction (RT-PCR) test. In this paper, we propose a fully automated AI based system that takes as input chest CT scans and triages COVID-19 cases. More specifically, we produce multiple descriptive features, including lung and infections statistics, texture, shape and location, to train a machine learning based classifier that distinguishes between COVID-19 and other lung abnormalities (including community acquired pneumonia). We evaluated our system on a dataset of 2191 CT cases and demonstrated a robust solution with 90.8% sensitivity at 85.4% specificity with 94.0% ROC-AUC. In addition, we present an elaborated feature analysis and ablation study to explore the importance of each feature.
翻訳日:2022-10-03 13:28:44 公開日:2020-10-24
# fair virtual conference schedulingについて - 公平な参加者と講演者の満足度の実現

On Fair Virtual Conference Scheduling: Achieving Equitable Participant and Speaker Satisfaction ( http://arxiv.org/abs/2010.14624v1 )

ライセンス: Link先を確認
Gourab K Patro, Abhijnan Chakraborty, Niloy Ganguly, Krishna P. Gummadi(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが引き起こした旅行や社会集会の規制は、ほとんどのカンファレンス主催者がイベントをオンラインで移動させた。 しかし、物理会議とは対照的に、仮想会議は、異なる時間帯から参加者が利用できることや、異なる会議に参加することへの関心を考慮し、効率的に講演をスケジュールする上で課題に直面している。 このような設定では、会議主催者にとっての自然な目的は、全会議の総参加者数など、世界的な福祉対策を最大化することである。 しかし,グローバル福祉の最適化は,利害関係者にとって不公平なスケジュール,すなわち参加者や講演者の個々のユーティリティが極めて不平等であることを示す。 公平性の問題に対処するため、参加者や講演者に対してフェアネスの概念を正式に定義し、その後、適切なフェアネス目標を導出する。 福祉と公正の目標が相反する可能性を示し,同時にこれら目標のバランスを保ちながらバランスを保ち続ける必要がある。 そこで本稿では,国際福祉と参加者公平性,講演者公平性目標のバランスをとる講演スケジュール(すなわちトレードオフ)を,会議主催者が設計できる共同最適化フレームワークを提案する。 仮想会議スケジューリングにおける統合最適化手法の必要性とメリットを実証的に評価し,整数線形計画を用いて最適化問題を解くことができることを示した。

The (COVID-19) pandemic-induced restrictions on travel and social gatherings have prompted most conference organizers to move their events online. However, in contrast to physical conferences, virtual conferences face a challenge in efficiently scheduling talks, accounting for the availability of participants from different time-zones as well as their interests in attending different talks. In such settings, a natural objective for the conference organizers would be to maximize some global welfare measure, such as the total expected audience participation across all talks. However, we show that optimizing for global welfare could result in a schedule that is unfair to the stakeholders, i.e., the individual utilities for participants and speakers can be highly unequal. To address the fairness concerns, we formally define fairness notions for participants and speakers, and subsequently derive suitable fairness objectives for them. We show that the welfare and fairness objectives can be in conflict with each other, and there is a need to maintain a balance between these objective while caring for them simultaneously. Thus, we propose a joint optimization framework that allows conference organizers to design talk schedules that balance (i.e., allow trade-offs) between global welfare, participant fairness and the speaker fairness objectives. We show that the optimization problem can be solved using integer linear programming, and empirically evaluate the necessity and benefits of such joint optimization approach in virtual conference scheduling.
翻訳日:2022-10-03 13:27:13 公開日:2020-10-24
# 人事ロスタリング問題に対するニューラルネットワークを用いた木探索

Neural Networked Assisted Tree Search for the Personnel Rostering Problem ( http://arxiv.org/abs/2010.14252v1 )

ライセンス: Link先を確認
Ziyi Chen and Patrick De Causmaecker and Yajie Dou(参考訳) 人事ロスタリング問題は、すべての有効なソリューションが従わなければならない一連の厳しい制約と、有効なソリューションの相対的品質を定義する一連の軟弱な制約の下で、従業員をシフトに割り当てる最適な方法を見つけるための問題である。 この問題は文献で大きな注目を集めており、多くの正確でメタヒューリスティックな方法によって解決されている。 人事ロスタリング問題に対するヒューリスティックの複雑かつコストのかかる設計を自動化するために,深層ニューラルネットワークと木探索を組み合わせた新しい手法を提案する。 スケジュールを行列として扱うことで、ニューラルネットワークは現在の解と最適な解の間の距離を予測することができる。 既存の(ほぼ)最適解を分析して、問題解決戦略を選択することができる。 分岐とバウンドを組み合わせることで、ネットワークは各ノードに、そのノードと最適なノードの距離を示す確率を与えることができるので、次にどのブランチを選択し、探索木を刈り取るかを適切に選択することができる。

The personnel rostering problem is the problem of finding an optimal way to assign employees to shifts, subject to a set of hard constraints which all valid solutions must follow, and a set of soft constraints which define the relative quality of valid solutions. The problem has received significant attention in the literature and is addressed by a large number of exact and metaheuristic methods. In order to make the complex and costly design of heuristics for the personnel rostering problem automatic, we propose a new method combined Deep Neural Network and Tree Search. By treating schedules as matrices, the neural network can predict the distance between the current solution and the optimal solution. It can select solution strategies by analyzing existing (near-)optimal solutions to personnel rostering problem instances. Combined with branch and bound, the network can give every node a probability which indicates the distance between it and the optimal one, so that a well-informed choice can be made on which branch to choose next and to prune the search tree.
翻訳日:2022-10-03 13:21:19 公開日:2020-10-24
# スケール、シフト、回転不変な微分光学ネットワーク

Scale-, shift- and rotation-invariant diffractive optical networks ( http://arxiv.org/abs/2010.12747v1 )

ライセンス: Link先を確認
Deniz Mengu, Yair Rivenson, Aydogan Ozcan(参考訳) 光コンピューティングにおける最近の研究は、機械学習アプリケーションにおける光学/フォトニクスの処理速度と並列性から恩恵を受ける光ニューラルネットワークの開発に力を入れている。 これらの取り組みの中で、D2NN(Diffractive Deep Neural Networks)は、深層学習を用いて設計された一連のトレーニング可能な表面上の光-マター相互作用を利用して、入力面から出力視野へ伝搬する光波として所望の統計的推論タスクを計算する。 初期の研究では、非知覚データに対する回折光学ネットワークの一般化能力が実証され、手書きの数字に対する画像分類精度が98%以上に達したが、これらの以前の設計は一般に入力対象の空間的スケーリング、翻訳、回転に敏感である。 本稿では,入力対象の変換,回転および/またはスケーリングを,一様分散確率変数として導入し,対象変換に対するブラインド推論性能のレジリエンスを構築する,差分ネットワークのための新たなトレーニング戦略を示す。 このトレーニング戦略は、拡散型光ネットワーク設計の進化を、特に自律走行車や生体標本の生体内イメージングなどの動的マシンビジョン応用に有用で重要なスケール、シフト、回転不変な解へと導くのに成功している。

Recent research efforts in optical computing have gravitated towards developing optical neural networks that aim to benefit from the processing speed and parallelism of optics/photonics in machine learning applications. Among these endeavors, Diffractive Deep Neural Networks (D2NNs) harness light-matter interaction over a series of trainable surfaces, designed using deep learning, to compute a desired statistical inference task as the light waves propagate from the input plane to the output field-of-view. Although, earlier studies have demonstrated the generalization capability of diffractive optical networks to unseen data, achieving e.g., >98% image classification accuracy for handwritten digits, these previous designs are in general sensitive to the spatial scaling, translation and rotation of the input objects. Here, we demonstrate a new training strategy for diffractive networks that introduces input object translation, rotation and/or scaling during the training phase as uniformly distributed random variables to build resilience in their blind inference performance against such object transformations. This training strategy successfully guides the evolution of the diffractive optical network design towards a solution that is scale-, shift- and rotation-invariant, which is especially important and useful for dynamic machine vision applications in e.g., autonomous cars, in-vivo imaging of biomedical specimen, among others.
翻訳日:2022-10-03 13:21:01 公開日:2020-10-24
# ダイナミックシーンのリアルタイム非視線イメージング

Real-time Non-line-of-Sight imaging of dynamic scenes ( http://arxiv.org/abs/2010.12737v1 )

ライセンス: Link先を確認
Ji Hyun Nam, Eric Brandt, Sebastian Bauer, Xiaochun Liu, Eftychios Sifakis, Andreas Velten(参考訳) 非視線イメージング(NLOS)は、直視線から隠された物体の3次元形状を復元することを目的としている。 過去には、シーンサイズ、キャプチャ速度、再構成品質を制限したマルチバウンス信号の弱さに悩まされてきた。 数フレーム/秒でシーンを再構築できるアルゴリズムが実証されているが、リアルタイムNLOSビデオは、NLOS信号の強度が4桁以上向上するレトロ反射オブジェクトに対してのみ実証されている。 また,NLOS法における再建の信号対雑音比は距離や過去の復元によって急速に低下し,深さが数メートルの小さなシーンに限られていることも指摘されている。 実際のノイズと解像度のモデルは単純であり、問題の複雑さの多くを無視している。 本研究では,SPAD(Single-Photon Avalanche Diode)アレイ検出器の合計28ピクセルと,特に拡張されたファザーフィールド再構成アルゴリズムを組み合わせることで,非反射性NLOSシーンのライブリアルタイム映像を再構成可能であることを示す。 本稿では,SNR(Signal-to-Noise-Ratio)の分析を行い,SNR,動きのぼかし,角分解能,深度分解能などのシーンを再構成可能であることを示す。 将来的には、センサアレイにより多くのピクセルを追加することで、NLOSイメージングシステムの光効率をさらに向上することができる。

Non-Line-of-Sight (NLOS) imaging aims at recovering the 3D geometry of objects that are hidden from the direct line of sight. In the past, this method has suffered from the weak available multibounce signal limiting scene size, capture speed, and reconstruction quality. While algorithms capable of reconstructing scenes at several frames per second have been demonstrated, real-time NLOS video has only been demonstrated for retro-reflective objects where the NLOS signal strength is enhanced by 4 orders of magnitude or more. Furthermore, it has also been noted that the signal-to-noise ratio of reconstructions in NLOS methods drops quickly with distance and past reconstructions, therefore, have been limited to small scenes with depths of few meters. Actual models of noise and resolution in the scene have been simplistic, ignoring many of the complexities of the problem. We show that SPAD (Single-Photon Avalanche Diode) array detectors with a total of just 28 pixels combined with a specifically extended Phasor Field reconstruction algorithm can reconstruct live real-time videos of non-retro-reflective NLOS scenes. We provide an analysis of the Signal-to-Noise-Ratio (SNR) of our reconstructions and show that for our method it is possible to reconstruct the scene such that SNR, motion blur, angular resolution, and depth resolution are all independent of scene size suggesting that reconstruction of very large scenes may be possible. In the future, the light efficiency for NLOS imaging systems can be improved further by adding more pixels to the sensor array.
翻訳日:2022-10-03 13:20:38 公開日:2020-10-24
# Saliency Maps を用いた視線追跡データの分類

Classifying Eye-Tracking Data Using Saliency Maps ( http://arxiv.org/abs/2010.12913v1 )

ライセンス: Link先を確認
Shafin Rahman, Sejuti Rahman, Omar Shahid, Md. Tahmeed Abdullah, Jubair Ahmed Sourov(参考訳) 論文の多くの研究は、遺伝学、年齢、社会的機能、認知機能など様々な要因によって、人間の眼の固定パターンがどう変化するかを示している。 視覚的注意のこれらの変化の分析は、既に2つの潜在的研究方法をもたらしている。 1)対象者の生理的又は心理的状態を決定すること、及び 2)記録されたアイ固定データから視聴行為に関連するタスクを予測する。 そこで本稿では,両研究の方向性に適用可能な視線追跡データの自動的・定量的分類のための視覚的サリエンシーに基づく特徴抽出手法を提案する。 固定データから特徴を直接抽出する代わりに、視覚注意の有名な計算モデルをいくつか使用し、眼の固定位置を塩分マップとして予測する。 サリエンシーマップと対応するアイフィクテーションマップの類似度・類似度を比較することで、視線追跡データを分類するための識別的特徴を効果的に生成するための余分な情報が得られる。 Saliency4ASD, Age Prediction, Visual Perceptual Task データセットを用いた大規模な実験により, 従来の最先端手法よりもかなり優れた性能が得られることが示された。 さらに,本手法は既存のアプリケーション固有のソリューションと異なり,自閉症スペクトラム障害スクリーニング,幼児年齢予測,視覚認知課題分類という3つの課題をまたいだ性能改善を実証し,より正確な分類のために塩分マップに固有の情報を利用する汎用パラダイムを提供する。

A plethora of research in the literature shows how human eye fixation pattern varies depending on different factors, including genetics, age, social functioning, cognitive functioning, and so on. Analysis of these variations in visual attention has already elicited two potential research avenues: 1) determining the physiological or psychological state of the subject and 2) predicting the tasks associated with the act of viewing from the recorded eye-fixation data. To this end, this paper proposes a visual saliency based novel feature extraction method for automatic and quantitative classification of eye-tracking data, which is applicable to both of the research directions. Instead of directly extracting features from the fixation data, this method employs several well-known computational models of visual attention to predict eye fixation locations as saliency maps. Comparing the saliency amplitudes, similarity and dissimilarity of saliency maps with the corresponding eye fixations maps gives an extra dimension of information which is effectively utilized to generate discriminative features to classify the eye-tracking data. Extensive experimentation using Saliency4ASD, Age Prediction, and Visual Perceptual Task dataset show that our saliency-based feature can achieve superior performance, outperforming the previous state-of-the-art methods by a considerable margin. Moreover, unlike the existing application-specific solutions, our method demonstrates performance improvement across three distinct problems from the real-life domain: Autism Spectrum Disorder screening, toddler age prediction, and human visual perceptual task classification, providing a general paradigm that utilizes the extra-information inherent in saliency maps for a more accurate classification.
翻訳日:2022-10-03 13:19:32 公開日:2020-10-24
# 畳み込みニューラルネットワークを用いたレーザーサーモグラフィーデータにおけるスポット溶接継手の分類

Classification of Spot-welded Joints in Laser Thermography Data using Convolutional Neural Networks ( http://arxiv.org/abs/2010.12976v1 )

ライセンス: Link先を確認
Linh K\"astner, Samim Ahmadi, Florian Jonietz, Mathias Ziegler, Peter Jung, Giuseppe Caire and Jens Lambrecht(参考訳) スポット溶接は様々な産業において重要なプロセスである。 しかし, スポット溶接品質の分類は, 試験材の複雑さと感度が原因で, 従来のアプローチを限界に落としているため, いまだに面倒なプロセスである。 本稿では,レーザーサーモグラフィによる画像を用いたスポット溶接の品質検査手法を提案する。我々はスポット溶接継手の基礎物理に基づくデータ作成手法を提案し,パルスレーザーサーモグラフィを用いて時間経過の強度を解析し,専用データフィルタを導出してトレーニングデータセットを生成する。 次に,畳み込みニューラルネットワークを用いて溶接品質を分類し,異なるモデルの性能を比較する。 従来の手法と比較して溶接品質の異なるクラスを分類し,95%以上の精度を達成している。 最後に,様々な拡張手法の効果について検討する。

Spot welding is a crucial process step in various industries. However, classification of spot welding quality is still a tedious process due to the complexity and sensitivity of the test material, which drain conventional approaches to its limits. In this paper, we propose an approach for quality inspection of spot weldings using images from laser thermography data.We propose data preparation approaches based on the underlying physics of spot welded joints, heated with pulsed laser thermography by analyzing the intensity over time and derive dedicated data filters to generate training datasets. Subsequently, we utilize convolutional neural networks to classify weld quality and compare the performance of different models against each other. We achieve competitive results in terms of classifying the different welding quality classes compared to traditional approaches, reaching an accuracy of more than 95 percent. Finally, we explore the effect of different augmentation methods.
翻訳日:2022-10-03 13:19:05 公開日:2020-10-24
# Syllablesを用いたニューラル言語モデリングの再検討

Revisiting Neural Language Modelling with Syllables ( http://arxiv.org/abs/2010.12881v1 )

ライセンス: Link先を確認
Arturo Oncevay and Kervy Rivas Rojas(参考訳) 言語モデリングは単語、サブワード、文字単位で定期的に分析されるが、音節はほとんど使われない。 シラブルは文字よりも短いシーケンスを提供し、規則で抽出することができる。 我々は20言語でオープン語彙生成タスクのために音節を再考する。 我々は5つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りのものはハイフン化ツールを用いて対処する。 類似のパープレキシティで、音節は文字、注釈付きモーフィム、教師なしのサブワードよりも優れています。 最後に、他のサブワードに関する音節の重なりについても検討し、いくつかの制限と機会について論じる。

Language modelling is regularly analysed at word, subword or character units, but syllables are seldom used. Syllables provide shorter sequences than characters, they can be extracted with rules, and their segmentation typically requires less specialised effort than identifying morphemes. We reconsider syllables for an open-vocabulary generation task in 20 languages. We use rule-based syllabification methods for five languages and address the rest with a hyphenation tool, which behaviour as syllable proxy is validated. With a comparable perplexity, we show that syllables outperform characters, annotated morphemes and unsupervised subwords. Finally, we also study the overlapping of syllables concerning other subword pieces and discuss some limitations and opportunities.
翻訳日:2022-10-03 13:11:15 公開日:2020-10-24
# FedE:フェデレーション設定に知識グラフを埋め込む

FedE: Embedding Knowledge Graphs in Federated Setting ( http://arxiv.org/abs/2010.12882v1 )

ライセンス: Link先を確認
Mingyang Chen, Wen Zhang, Zonggang Yuan, Yantao Jia, Huajun Chen(参考訳) 三重項からなる知識グラフ(KG)は常に不完全であるため、欠落三重項を予測することで知識グラフ補完(KGC)を行うことが重要である。 マルチソース KG は実際の KG アプリケーションでは一般的な状況であり、異なる KG がエンティティの異なる側面の関係を含むような関連する個々の KG の集合と見なすことができる。 直感的には、個々のKGに対して、その完成は、他で定義されラベル付けされたトリプルによって大きく貢献される可能性がある。 しかしながら、データのプライバシと感度のため、関連する知識グラフのセットは、異なる知識グラフからデータを集めるだけでは互いにkgcを補完できない。 そこで本稿では,この10年でkgcに有効な手法である組込みナレッジグラフ(embedd knowledge graph)において,kgs間のトリプル転送を行わずにプライバシを維持するためのフェデレート設定を提案する。 本研究では,局所集計更新の集約による知識グラフ埋め込みの学習に着目した,連合型知識グラフ埋め込みフレームワークfedeを提案する。 最後に,kgeベンチマークデータセットから得られたデータセットについて広範な実験を行い,提案手法の有効性を示す。

Knowledge graphs (KGs) consisting of triples are always incomplete, so it's important to do Knowledge Graph Completion (KGC) by predicting missing triples. Multi-Source KG is a common situation in real KG applications which can be viewed as a set of related individual KGs where different KGs contains relations of different aspects of entities. It's intuitive that, for each individual KG, its completion could be greatly contributed by the triples defined and labeled in other ones. However, because of the data privacy and sensitivity, a set of relevant knowledge graphs cannot complement each other's KGC by just collecting data from different knowledge graphs together. Therefore, in this paper, we introduce federated setting to keep their privacy without triple transferring between KGs and apply it in embedding knowledge graph, a typical method which have proven effective for KGC in the past decade. We propose a Federated Knowledge Graph Embedding framework FedE, focusing on learning knowledge graph embeddings by aggregating locally-computed updates. Finally, we conduct extensive experiments on datasets derived from KGE benchmark datasets and results show the effectiveness of our proposed FedE.
翻訳日:2022-10-03 13:11:02 公開日:2020-10-24
# サンスクリット派生名詞分析のためのベンチマークコーパスとニューラルアプローチ

A Benchmark Corpus and Neural Approach for Sanskrit Derivative Nouns Analysis ( http://arxiv.org/abs/2010.12937v1 )

ライセンス: Link先を確認
Arun Kumar Singh, Sushant Dave, Dr. Prathosh A. P., Prof. Brejesh Lall and Shresth Mehta(参考訳) 本稿では,接尾辞に起因して形成されたsanskrit pratyaya (接尾辞) とinflectional words (padas) のベンチマークコーパスと,inflectional wordsの形成と分割を処理するニューラルネットワークによるアプローチについて述べる。 屈折語は、現在の作業の範囲として一次および二次微分名詞にまたがる。 プラティヤはサンスクリット語文の形態解析の重要な次元である。 サンスクリットのテキストを処理および分析するためのサンスクリット計算言語学ツールがある。 残念ながら、派生名詞分析のためにこれらのツールを標準化して検証する作業は行われていない。 本研究では,Sanskrit suffixベンチマークコーパスである Pratyaya-Kosh を作成し,ツールの性能評価を行った。 また,最も著名なサンスクリット形態素解析ツールを用いて,派生名詞分析のための独自のニューラルアプローチを提案する。 このベンチマークは世界中の研究者に無料で提供され、サンスクリット語の形態素解析を改善する動機となることを願っている。

This paper presents first benchmark corpus of Sanskrit Pratyaya (suffix) and inflectional words (padas) formed due to suffixes along with neural network based approaches to process the formation and splitting of inflectional words. Inflectional words spans the primary and secondary derivative nouns as the scope of current work. Pratyayas are an important dimension of morphological analysis of Sanskrit texts. There have been Sanskrit Computational Linguistics tools for processing and analyzing Sanskrit texts. Unfortunately there has not been any work to standardize & validate these tools specifically for derivative nouns analysis. In this work, we prepared a Sanskrit suffix benchmark corpus called Pratyaya-Kosh to evaluate the performance of tools. We also present our own neural approach for derivative nouns analysis while evaluating the same on most prominent Sanskrit Morphological Analysis tools. This benchmark will be freely dedicated and available to researchers worldwide and we hope it will motivate all to improve morphological analysis in Sanskrit Language.
翻訳日:2022-10-03 13:10:01 公開日:2020-10-24
# サンスクリット語におけるsandhi(neural compound-word)の生成と分割

Neural Compound-Word (Sandhi) Generation and Splitting in Sanskrit Language ( http://arxiv.org/abs/2010.12940v1 )

ライセンス: Link先を確認
Sushant Dave, Arun Kumar Singh, Dr. Prathosh A. P. and Prof. Brejesh Lall(参考訳) 本稿では,サンスクリット語における単語表現の形成と分割の過程について,それぞれsandhiとvichchhedとして知られているニューラルネットワークを用いたアプローチについて述べる。 サンディはサンスクリット語文の形態解析に不可欠な重要な思想である。 sandhiは単語境界での単語変換に繋がる。 サンディー形成の規則はよく定義されているが、複雑であり、時にはオプションであり、場合によっては複合化される単語の性質に関する知識を必要とする。 Sandhi split あるいは Vichchhed は、その非ユニークさとコンテキスト依存性を考えると、さらに難しいタスクである。 本研究では,最新の深層学習手法を用いて,シーケンス予測タスクとして問題を定式化する経路を提案する。 完全データ駆動型手法としては初めて,辞書や形態素のリソースを使わずに複数の標準データセット上の既存の手法よりも精度が良いことを実証した。 コードはhttps://github.com/iitd-datascience/sandhi_prakaranaで入手できる。

This paper describes neural network based approaches to the process of the formation and splitting of word-compounding, respectively known as the Sandhi and Vichchhed, in Sanskrit language. Sandhi is an important idea essential to morphological analysis of Sanskrit texts. Sandhi leads to word transformations at word boundaries. The rules of Sandhi formation are well defined but complex, sometimes optional and in some cases, require knowledge about the nature of the words being compounded. Sandhi split or Vichchhed is an even more difficult task given its non uniqueness and context dependence. In this work, we propose the route of formulating the problem as a sequence to sequence prediction task, using modern deep learning techniques. Being the first fully data driven technique, we demonstrate that our model has an accuracy better than the existing methods on multiple standard datasets, despite not using any additional lexical or morphological resources. The code is being made available at https://github.com/IITD-DataScience/Sandhi_Prakarana
翻訳日:2022-10-03 13:09:42 公開日:2020-10-24
# コマンドによるテキスト編集

Text Editing by Command ( http://arxiv.org/abs/2010.12826v1 )

ライセンス: Link先を確認
Felix Faltings and Michel Galley and Gerold Hintz and Chris Brockett and Chris Quirk and Jianfeng Gao and Bill Dolan(参考訳) ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。 しかし、ワンショット設定は、ユーザが生成したテキストに課したい制約が動的である場合、特に長い文書を作成する場合、不十分である。 この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。 そこで本研究では,ウィキペディアからクロールした単一文編集のデータセットであるWikiDocEditsを提案する。 このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。 本モデルの性能に関する実証的,定性的な分析を行った。

A prevailing paradigm in neural text generation is one-shot generation, where text is produced in a single step. The one-shot setting is inadequate, however, when the constraints the user wishes to impose on the generated text are dynamic, especially when authoring longer documents. We address this limitation with an interactive text generation setting in which the user interacts with the system by issuing commands to edit existing text. To this end, we propose a novel text editing task, and introduce WikiDocEdits, a dataset of single-sentence edits crawled from Wikipedia. We show that our Interactive Editor, a transformer-based model trained on this dataset, outperforms baselines and obtains positive results in both automatic and human evaluations. We present empirical and qualitative analyses of this model's performance.
翻訳日:2022-10-03 13:02:24 公開日:2020-10-24
# 読書理解のための合成学習の改善

Improved Synthetic Training for Reading Comprehension ( http://arxiv.org/abs/2010.12776v1 )

ライセンス: Link先を確認
Yanda Chen (1), Md Arafat Sultan (2), Vittorio Castelli (2) ((1) Department of Computer Science, Columbia University, (2) IBM Research AI, T.J. Watson Research Center, New York, USA)(参考訳) 機械読解(MRC)の性能向上のために自動生成合成トレーニング例が示されている。 ヒトのアノテートされた金標準データと比較して、合成トレーニングデータには品質の犠牲となるような高可用性などのユニークな特性がある。 このような相違から,本論文では合成サンプルのmrcへの応用について検討する。 提案手法は,既存の方法よりも大幅に改善されている。 特に驚くべき発見として、合成蒸留が教師モデルを上回る結果をもたらすことがしばしばある。

Automatically generated synthetic training examples have been shown to improve performance in machine reading comprehension (MRC). Compared to human annotated gold standard data, synthetic training data has unique properties, such as high availability at the possible expense of quality. In view of such differences, in this paper, we explore novel applications of synthetic examples to MRC. Our proposed pre-training and knowledge distillation strategies show significant improvements over existing methods. In a particularly surprising discovery, we observe that synthetic distillation often yields students that can outperform the teacher model.
翻訳日:2022-10-03 12:53:36 公開日:2020-10-24
# 社会的グループカウンターファクトの評価によるフェアヘイト音声検出

Fair Hate Speech Detection through Evaluation of Social Group Counterfactuals ( http://arxiv.org/abs/2010.12779v1 )

ライセンス: Link先を確認
Aida Mostafazadeh Davani, Ali Omrani, Brendan Kennedy, Mohammad Atari, Xiang Ren, Morteza Dehghani(参考訳) 教師付きモデルにおけるバイアス緩和のアプローチは、例えば言及された社会集団のような入力データの特定の敏感な特徴へのモデルの依存を減らすために設計されている。 しかし、ヘイトスピーチ検出の場合、特定のタイプのヘイトフルな修辞学が特定の社会集団トークンの周辺で文脈化される場合にのみ意図された意味を持つように、集団的嫌悪を区別する本質的な役割があるため、常に社会集団の効果を均等化することが望ましいとは限りません。 言及された社会集団に対する反実的トークンフェアネスは、モデルが同じかどうかの予測を評価する (a)実際の文と (b)当該文中の上記社会集団を変更することにより生じる反実例 提案手法は,実文と類似した意味を持つ反事実に対する頑健なモデル予測を保証する。 文の類似度とその反事実を定量化するために,生成言語モデルで計算した確率スコアを比較する。 文ごとのモデル挙動を等化することにより,全体の分類性能を保ちながら,提案モデルにおけるバイアスを軽減する。

Approaches for mitigating bias in supervised models are designed to reduce models' dependence on specific sensitive features of the input data, e.g., mentioned social groups. However, in the case of hate speech detection, it is not always desirable to equalize the effects of social groups because of their essential role in distinguishing outgroup-derogatory hate, such that particular types of hateful rhetoric carry the intended meaning only when contextualized around certain social group tokens. Counterfactual token fairness for a mentioned social group evaluates the model's predictions as to whether they are the same for (a) the actual sentence and (b) a counterfactual instance, which is generated by changing the mentioned social group in the sentence. Our approach assures robust model predictions for counterfactuals that imply similar meaning as the actual sentence. To quantify the similarity of a sentence and its counterfactual, we compare their likelihood score calculated by generative language models. By equalizing model behaviors on each sentence and its counterfactuals, we mitigate bias in the proposed model while preserving the overall classification performance.
翻訳日:2022-10-03 12:53:29 公開日:2020-10-24
# 敵対的自然言語推論データセットの標準化

ANLIzing the Adversarial Natural Language Inference Dataset ( http://arxiv.org/abs/2010.12729v1 )

ライセンス: Link先を確認
Adina Williams, Tristan Thrush, Douwe Kiela(参考訳) 複数のラウンドにわたって収集された大規模自然言語推論データセットであるadversarial nli (anli) の詳細なエラー解析を行う。 我々は,金の分類ラベルに責任を負う推論のさまざまな側面の細かなアノテーションスキームを提案し,これら3つの開発セットを手作業でコード化する。 どの推論型が最も一般的なのか、どのモデルがそれぞれの推論型で最も高いパフォーマンスを持ち、どの型が最先端のモデルにとって最も難しいのか、といった問題に答えるためにこれらのアノテーションを使用します。 アノテーションによって、ANLIでトレーニングされたモデルのよりきめ細かい評価が可能になり、モデルがどこで失敗し、成功したかをより深く理解し、将来、より良いモデルをトレーニングする方法を決定することができます。

We perform an in-depth error analysis of Adversarial NLI (ANLI), a recently introduced large-scale human-and-model-in-the-loop natural language inference dataset collected over multiple rounds. We propose a fine-grained annotation scheme of the different aspects of inference that are responsible for the gold classification labels, and use it to hand-code all three of the ANLI development sets. We use these annotations to answer a variety of interesting questions: which inference types are most common, which models have the highest performance on each reasoning type, and which types are the most challenging for state of-the-art models? We hope that our annotations will enable more fine-grained evaluation of models trained on ANLI, provide us with a deeper understanding of where models fail and succeed, and help us determine how to train better models in future.
翻訳日:2022-10-03 12:44:59 公開日:2020-10-24
# 生成的会話システムのための評価プロトコル

An Evaluation Protocol for Generative Conversational Systems ( http://arxiv.org/abs/2010.12741v1 )

ライセンス: Link先を確認
Seolhwa Lee, Heuiseok Lim, Jo\~ao Sedoc(参考訳) オープンドメイン会話システムには多数の新しい生成モデルが存在するが、異なるシステムの体系的な評価はされていない。 体系的な比較は、実験設計、評価セット、会話システムとその出力、統計解析において一貫性を必要とする。 対頭比較を用いた会話モデル評価のためのプロトコルを考案した。 我々は,5つの評価データセットにおいて,ヘッド・ツー・ヘッド・パフォーマンス (win-loss-tie) のペアによる最新性能を主張する10のモデルを分析した。 以上の結果から,DialoGPTとBlenderはBradley-TerryモデルとTrueSkillランキングを用いた優れたシステムであることがわかった。 本研究は,対話型エージェントと評価セットを評価するためのプロトコルの実現可能性を示す。 最後に、すべてのコードと評価を研究者が公開して、彼らのモデルを他の最先端ダイアログモデルと比較します。

There is a multitude of novel generative models for open-domain conversational systems; however, there is no systematic evaluation of different systems. Systematic comparisons require consistency in experimental design, evaluation sets, conversational systems and their outputs, and statistical analysis. We lay out a protocol for the evaluation of conversational models using head-to-head pairwise comparison. We analyze ten recent models that claim state-of-the-art performance using a paired head-to-head performance (win-loss-tie) on five evaluation datasets. Our findings show that DialoGPT and Blender are superior systems using Bradley-Terry model and TrueSkill ranking methods. These findings demonstrate the feasibility of our protocol to evaluate conversational agents and evaluation sets. Finally, we make all code and evaluations publicly available for researchers to compare their model to other state-of-the-art dialog models.
翻訳日:2022-10-03 12:44:24 公開日:2020-10-24
# インセンティブ・アウェアモデル報酬を用いた協調機械学習

Collaborative Machine Learning with Incentive-Aware Model Rewards ( http://arxiv.org/abs/2010.12797v1 )

ライセンス: Link先を確認
Rachael Hwee Ling Sim, Yehong Zhang, Mun Choon Chan, Bryan Kian Hsiang Low(参考訳) コラボレーティブ機械学習(Collaborative Machine Learning, ML)は、多くのパーティから収集されたデータに基づいて、高品質なMLモデルを構築するための魅力的なパラダイムである。 しかしながら、これらのパーティは、貢献に基づいて公正な報酬が保証されるなど、十分なインセンティブが与えられた場合にのみ、データを共有する意思があります。 これにより、当事者の貢献度を測定し、それに応じてインセンティブを意識した報酬体系を設計する必要が生じる。 本稿では,shapley の値とモデルパラメータによる情報ゲインに基づいて,相手の報酬を評価することを提案する。 その後、各パーティーに報酬としてモデルを与えます。 協調を形式的にインセンティブづけるために,協調ゲーム理論に着想を得たが,独自に自由に複製可能なモデル報酬に適応した,望ましい性質(フェアネスや安定性など)を定義した。 そこで本研究では,公平性を満たし,調整可能なパラメータを介して望ましい特性間のトレードオフを実現する新しいモデル報酬スキームを提案する。 提案手法により決定された各パーティーのモデル報酬の値は、最適化されたノイズ分散で集約されたトレーニングデータにガウスノイズを注入することで得られる。 本手法の興味深い特性を実証し,その性能を合成および実世界データセットを用いて評価する。

Collaborative machine learning (ML) is an appealing paradigm to build high-quality ML models by training on the aggregated data from many parties. However, these parties are only willing to share their data when given enough incentives, such as a guaranteed fair reward based on their contributions. This motivates the need for measuring a party's contribution and designing an incentive-aware reward scheme accordingly. This paper proposes to value a party's reward based on Shapley value and information gain on model parameters given its data. Subsequently, we give each party a model as a reward. To formally incentivize the collaboration, we define some desirable properties (e.g., fairness and stability) which are inspired by cooperative game theory but adapted for our model reward that is uniquely freely replicable. Then, we propose a novel model reward scheme to satisfy fairness and trade off between the desirable properties via an adjustable parameter. The value of each party's model reward determined by our scheme is attained by injecting Gaussian noise to the aggregated training data with an optimized noise variance. We empirically demonstrate interesting properties of our scheme and evaluate its performance using synthetic and real-world datasets.
翻訳日:2022-10-03 12:37:09 公開日:2020-10-24
# プライベートアウトソースのベイズ最適化

Private Outsourced Bayesian Optimization ( http://arxiv.org/abs/2010.12799v1 )

ライセンス: Link先を確認
Dmitrii Kharkovskii, Zhongxiang Dai, Bryan Kian Hsiang Low(参考訳) 本稿では,プライバシ保護型ベイズ最適化(BO)のための最初のアルゴリズムであるPO-GP-UCBアルゴリズムを提案する。 我々は、データセットを保持するエンティティと実行されるエンティティが異なるパーティによって表現され、データセットを非プライベートにリリースできないアウトソース設定を検討する。 例えば、病院は機密医療記録のデータセットを保持し、このデータセット上のBOタスクを産業AI企業にアウトソースする。 提案手法の鍵となる考え方は,プライバシと入力間のペア距離の両方を保護したランダムなプロジェクションベース変換を用いて,元のデータセットを用いた非プライベートGP-UCBと同じようなBO性能を実現することである。 我々の理論的な主な貢献は、標準GP-UCBアルゴリズムと類似した後悔がPO-GP-UCBアルゴリズムに確立できることである。 合成および実世界のデータセットを用いたPO-GP-UCBアルゴリズムの性能を実証的に評価した。

This paper presents the private-outsourced-Gaussian process-upper confidence bound (PO-GP-UCB) algorithm, which is the first algorithm for privacy-preserving Bayesian optimization (BO) in the outsourced setting with a provable performance guarantee. We consider the outsourced setting where the entity holding the dataset and the entity performing BO are represented by different parties, and the dataset cannot be released non-privately. For example, a hospital holds a dataset of sensitive medical records and outsources the BO task on this dataset to an industrial AI company. The key idea of our approach is to make the BO performance of our algorithm similar to that of non-private GP-UCB run using the original dataset, which is achieved by using a random projection-based transformation that preserves both privacy and the pairwise distances between inputs. Our main theoretical contribution is to show that a regret bound similar to that of the standard GP-UCB algorithm can be established for our PO-GP-UCB algorithm. We empirically evaluate the performance of our PO-GP-UCB algorithm with synthetic and real-world datasets.
翻訳日:2022-10-03 12:36:50 公開日:2020-10-24
# Wasserstein分散ロバスト支持ベクトルマシンの高速図形投影に基づくインクリメンタルアルゴリズム

Fast Epigraphical Projection-based Incremental Algorithms for Wasserstein Distributionally Robust Support Vector Machine ( http://arxiv.org/abs/2010.12865v1 )

ライセンス: Link先を確認
Jiajin Li, Caihua Chen, Anthony Man-Cho So(参考訳) Wasserstein \textbf{D}istributionally \textbf{R}obust \textbf{O}ptimization (DRO) は、ある名目分布を中心とするWassersteinボール内の最悪の確率分布から引き出されたデータによく作用する決定を見つけることに関心がある。 近年, 学習モデルの様々なDRO定式化が, トラクタブル・凸修正を許容していることが示されている。 しかし、既存のほとんどの研究は、大規模な問題に取り組むのに適さない汎用的な解法による凸修正を解くことを提案している。 本稿では,wasserstein分布ロバストサポートベクターマシン(drsvm)の問題に着目し,それらを解決するための2つの新しいエピグラフィック投影に基づくインクリメンタルアルゴリズムを提案する。 これらのアルゴリズムの繰り返しの更新は、非常に効率的な方法で計算できる。 さらに, 本論文では, DRSVM問題は, 明確な成長指数を持つH\"高齢者の成長条件を満たすことを示した。 その結果,提案したインクリメンタルアルゴリズムの収束率を確立することができる。 その結果,提案手法は最先端の手法よりも桁違いに高速であり,問題の規模が大きくなるにつれて性能ギャップが大きくなることがわかった。

Wasserstein \textbf{D}istributionally \textbf{R}obust \textbf{O}ptimization (DRO) is concerned with finding decisions that perform well on data that are drawn from the worst-case probability distribution within a Wasserstein ball centered at a certain nominal distribution. In recent years, it has been shown that various DRO formulations of learning models admit tractable convex reformulations. However, most existing works propose to solve these convex reformulations by general-purpose solvers, which are not well-suited for tackling large-scale problems. In this paper, we focus on a family of Wasserstein distributionally robust support vector machine (DRSVM) problems and propose two novel epigraphical projection-based incremental algorithms to solve them. The updates in each iteration of these algorithms can be computed in a highly efficient manner. Moreover, we show that the DRSVM problems considered in this paper satisfy a H\"olderian growth condition with explicitly determined growth exponents. Consequently, we are able to establish the convergence rates of the proposed incremental algorithms. Our numerical results indicate that the proposed methods are orders of magnitude faster than the state-of-the-art, and the performance gap grows considerably as the problem size increases.
翻訳日:2022-10-03 12:36:32 公開日:2020-10-24
# 収縮前の高次元回帰に対するほぼ最適変分推定法

Nearly Optimal Variational Inference for High Dimensional Regression with Shrinkage Priors ( http://arxiv.org/abs/2010.12887v1 )

ライセンス: Link先を確認
Jincheng Bai, Qifan Song, Guang Cheng(参考訳) そこで本研究では,student-t prior のような重くテール収縮した高次元線形モデル推論のための変分ベイズ法を提案する。 理論的には、提案するvb法の一貫性を確立し、事前仕様の適切な選択の下でvb後方の収縮速度がほぼ最適であることを示す。 これは、マルコフ連鎖モンテカルロ(mcmc)サンプリングの代替としてvb推論の有効性を正当化する。 一方、従来のMCMC法と比較すると、VB法は計算効率が大幅に向上し、大規模データ解析のような現代の機械学習アプリケーションにおける計算負担を大幅に軽減する。 数値解析により,提案手法は,競合するスパースベイズ法よりも計算時間の短縮,推定精度の向上,変数選択誤差の低減につながることを示した。

We propose a variational Bayesian (VB) procedure for high-dimensional linear model inferences with heavy tail shrinkage priors, such as student-t prior. Theoretically, we establish the consistency of the proposed VB method and prove that under the proper choice of prior specifications, the contraction rate of the VB posterior is nearly optimal. It justifies the validity of VB inference as an alternative of Markov Chain Monte Carlo (MCMC) sampling. Meanwhile, comparing to conventional MCMC methods, the VB procedure achieves much higher computational efficiency, which greatly alleviates the computing burden for modern machine learning applications such as massive data analysis. Through numerical studies, we demonstrate that the proposed VB method leads to shorter computing time, higher estimation accuracy, and lower variable selection error than competitive sparse Bayesian methods.
翻訳日:2022-10-03 12:35:56 公開日:2020-10-24
# 多地点fMRIデータ解析のための共有空間移動学習

Shared Space Transfer Learning for analyzing multi-site fMRI data ( http://arxiv.org/abs/2010.15594v1 )

ライセンス: Link先を確認
Muhammad Yousefnezhad, Alessandro Selvitella, Daoqiang Zhang, Andrew J. Greenshaw, Russell Greiner(参考訳) マルチボクセルパターン分析(mvpa)は、タスクベースの機能的磁気共鳴画像(fmri)データから予測モデルを学び、被験者が異なる認知タスクを実行しているかを識別する。 MVPAはよく設計された機能セットと十分なサンプルサイズで機能する。 しかし、ほとんどのfMRIデータセットはノイズが多く、高次元で、収集に費用がかかり、サンプルサイズも小さい。 さらに,マルチサイトfMRIデータセットから提供される同種認知タスクを解析可能な,堅牢で一般化された予測モデルをトレーニングすることは,さらなる課題となる。 本稿では、同種多地点fMRIデータセットを機能的に整列させ、各サイトにおける予測性能を向上させる新しい転送学習(TL)手法として、共有空間移動学習(SSTL)を提案する。 SSTLはまず、各サイトのすべての被験者に対して共通の特徴を抽出する。 次にTLを使用して、これらのサイト固有の機能をサイトに依存しない共有スペースにマッピングし、MVPAのパフォーマンスを改善する。 SSTLは、高次元fMRIデータセットに対して効果的に動作するスケーラブルな最適化手順を使用する。 この最適化手法は,シングルイテレーションアルゴリズムを用いて各サイトの共通特徴を抽出し,サイト固有の共通特徴をサイト非依存の共有空間にマップする。 種々の認知タスク間の伝達における提案手法の有効性を評価する。 総合的な実験により,SSTLは他の最先端分析技術よりも優れた性能が得られることが示された。

Multi-voxel pattern analysis (MVPA) learns predictive models from task-based functional magnetic resonance imaging (fMRI) data, for distinguishing when subjects are performing different cognitive tasks -- e.g., watching movies or making decisions. MVPA works best with a well-designed feature set and an adequate sample size. However, most fMRI datasets are noisy, high-dimensional, expensive to collect, and with small sample sizes. Further, training a robust, generalized predictive model that can analyze homogeneous cognitive tasks provided by multi-site fMRI datasets has additional challenges. This paper proposes the Shared Space Transfer Learning (SSTL) as a novel transfer learning (TL) approach that can functionally align homogeneous multi-site fMRI datasets, and so improve the prediction performance in every site. SSTL first extracts a set of common features for all subjects in each site. It then uses TL to map these site-specific features to a site-independent shared space in order to improve the performance of the MVPA. SSTL uses a scalable optimization procedure that works effectively for high-dimensional fMRI datasets. The optimization procedure extracts the common features for each site by using a single-iteration algorithm and maps these site-specific common features to the site-independent shared space. We evaluate the effectiveness of the proposed method for transferring between various cognitive tasks. Our comprehensive experiments validate that SSTL achieves superior performance to other state-of-the-art analysis techniques.
翻訳日:2022-10-03 12:34:19 公開日:2020-10-24
# Word2vec Conjectureと限界結果

Word2vec Conjecture and A Limitative Result ( http://arxiv.org/abs/2010.12719v1 )

ライセンス: Link先を確認
Falcon Z. Dai(参考訳) 類似点の取得における \texttt{word2vec} \citep{mikolov2013distributed} の成功に触発されて、類似関係はベクトル空間で表現できるという予想を研究する。 textt{word2vec} の分布的意味的側面に焦点を当てた多くの先行研究と異なり、純粋に \emph{representational} 問題である: \emph{all} 意味的単語関係はベクトルの差(あるいは方向)によって表現できるのか? これを word2vec 予想と呼び、その望ましい意味を指摘している。 しかし、この方法では表現できない関係のクラスを示し、したがって予想を偽造し、実数や複素数のような標数 0 の体上のベクトル空間による意味的関係の表現可能性の極限的な結果を確立する。

Being inspired by the success of \texttt{word2vec} \citep{mikolov2013distributed} in capturing analogies, we study the conjecture that analogical relations can be represented by vector spaces. Unlike many previous works that focus on the distributional semantic aspect of \texttt{word2vec}, we study the purely \emph{representational} question: can \emph{all} semantic word-word relations be represented by differences (or directions) of vectors? We call this the word2vec conjecture and point out some of its desirable implications. However, we will exhibit a class of relations that cannot be represented in this way, thus falsifying the conjecture and establishing a limitative result for the representability of semantic relations by vector spaces over fields of characteristic 0, e.g., real or complex numbers.
翻訳日:2022-10-03 12:33:56 公開日:2020-10-24
# 深層学習のためのバンディットサンプリング付きadam

Adam with Bandit Sampling for Deep Learning ( http://arxiv.org/abs/2010.12986v1 )

ライセンス: Link先を確認
Rui Liu, Tianyi Wu, Barzan Mozafari(参考訳) Adamはディープラーニングモデルのトレーニングに広く使われている最適化手法である。 異なるパラメータに対する個別適応学習率を計算する。 本稿では,adambsと呼ばれるadamの一般化を提案し,モデルの収束におけるその重要性に基づいて,異なるトレーニング例にも適応できることを示す。 これを実現するために,全例にわたる分布を維持し,この分布に従ってサンプリングすることにより,各イテレーションにおけるミニバッチを選択し,マルチアームバンディットアルゴリズムを用いて更新する。 これにより、モデルトレーニングに有利な例が、高い確率でサンプル化されることが保証される。 理論的には、Adambsは$O(\sqrt {\frac{n}{T}})$の代わりにAdam--$O(\sqrt {\frac {\log n}{T} })$の収束率を改善する。 様々なモデルとデータセットに関する実験は、adambsの高速収束を実際に示している。

Adam is a widely used optimization method for training deep learning models. It computes individual adaptive learning rates for different parameters. In this paper, we propose a generalization of Adam, called Adambs, that allows us to also adapt to different training examples based on their importance in the model's convergence. To achieve this, we maintain a distribution over all examples, selecting a mini-batch in each iteration by sampling according to this distribution, which we update using a multi-armed bandit algorithm. This ensures that examples that are more beneficial to the model training are sampled with higher probabilities. We theoretically show that Adambs improves the convergence rate of Adam---$O(\sqrt{\frac{\log n}{T} })$ instead of $O(\sqrt{\frac{n}{T}})$ in some cases. Experiments on various models and datasets demonstrate Adambs's fast convergence in practice.
翻訳日:2022-10-03 12:27:25 公開日:2020-10-24
# 不均衡データの分類のための識別的特徴生成

Discriminative feature generation for classification of imbalanced data ( http://arxiv.org/abs/2010.12888v1 )

ライセンス: Link先を確認
Sungho Suh and Paul Lukowicz and Yong Oh Lee(参考訳) データ不均衡問題は、ニューラルネットワークの分類性能においてしばしばボトルネックとなる。 本稿では,マイノリティ・クラス・データセットを対象とした新しい分類的特徴生成手法を提案する。 DFGは, ジェネレータ, 識別器, 特徴抽出器, 分類器の4つの独立したネットワークで構成される, 生成的敵ネットワークの改変構造に基づいている。 注意機構を採用してマイノリティクラスデータの選択された判別的特徴を増強し、クラス不均衡対象タスクのジェネレータを訓練し、大ソースデータから予め訓練された特徴を用いて特徴抽出器と分類器を正規化する。 実験の結果,DFGジェネレータはラベル保存・多彩な特徴の増大を促進し,対象タスクにおいて分類結果を著しく改善することがわかった。 特徴生成モデルは、識別的特徴生成と監視的注意法を通じて、データ拡張手法の開発に大きく貢献することができる。

The data imbalance problem is a frequent bottleneck in the classification performance of neural networks. In this paper, we propose a novel supervised discriminative feature generation (DFG) method for a minority class dataset. DFG is based on the modified structure of a generative adversarial network consisting of four independent networks: generator, discriminator, feature extractor, and classifier. To augment the selected discriminative features of the minority class data by adopting an attention mechanism, the generator for the class-imbalanced target task is trained, and the feature extractor and classifier are regularized using the pre-trained features from a large source data. The experimental results show that the DFG generator enhances the augmentation of the label-preserved and diverse features, and the classification results are significantly improved on the target task. The feature generation model can contribute greatly to the development of data augmentation methods through discriminative feature generation and supervised attention methods.
翻訳日:2022-10-03 12:27:08 公開日:2020-10-24
# LagNetViP:ビデオ予測のためのラグランジアンニューラルネットワーク

LagNetViP: A Lagrangian Neural Network for Video Prediction ( http://arxiv.org/abs/2010.12932v1 )

ライセンス: Link先を確認
Christine Allen-Blanchette, Sushant Veer, Anirudha Majumdar, Naomi Ehrich Leonard(参考訳) ビデオ予測における支配的なパラダイムは、運動方程式やシステムの物理量を簡単に推測できない不透明な遷移モデルに依存している。 ニュートンの第二法則で定義される運動方程式は、物理系の状態の時間発展を記述しており、従って将来の系状態の決定に応用することができる。 本稿では,基礎となる物理量の学習表現から,運動方程式を明示的に構築するビデオ予測モデルを提案する。 そこで我々は,低次元状態表現とシステムラグランジアンを同時に学習する。 ラグランジアンの運動学およびポテンシャルエネルギー項は明確にモデル化され、運動の低次元方程式はオイラー・ラグランジ方程式を用いて明示的に構成される。 改良型OpenAI体育館Pendulum-v0とAcrobot環境における画像列の映像予測に本手法の有効性を示す。

The dominant paradigms for video prediction rely on opaque transition models where neither the equations of motion nor the underlying physical quantities of the system are easily inferred. The equations of motion, as defined by Newton's second law, describe the time evolution of a physical system state and can therefore be applied toward the determination of future system states. In this paper, we introduce a video prediction model where the equations of motion are explicitly constructed from learned representations of the underlying physical quantities. To achieve this, we simultaneously learn a low-dimensional state representation and system Lagrangian. The kinetic and potential energy terms of the Lagrangian are distinctly modelled and the low-dimensional equations of motion are explicitly constructed using the Euler-Lagrange equations. We demonstrate the efficacy of this approach for video prediction on image sequences rendered in modified OpenAI gym Pendulum-v0 and Acrobot environments.
翻訳日:2022-10-03 12:26:53 公開日:2020-10-24
# Align-Refine:反復認識による非自己回帰音声認識

Align-Refine: Non-Autoregressive Speech Recognition via Iterative Realignment ( http://arxiv.org/abs/2010.14233v1 )

ライセンス: Link先を確認
Ethan A. Chi, Julian Salazar, and Katrin Kirchhoff(参考訳) 非自己回帰モデルでは、典型的なシーケンス-シーケンスモデルよりもデコード速度が大幅に向上するが、性能が低下する。 非自己回帰モデルの出力を編集することで、埋め込みと反復的な洗練モデルは、このギャップの一部を埋めるが、それらが作成できる編集には制約がある。 本稿では、出力シーケンス空間ではなく、遅延アライメント上で補正が行われる反復再配置を提案する。 本稿では,接続性時間的分類(CTC)アライメントを改良し,長さの変化する挿入や削除を可能にする,エンドツーエンドのトランスフォーマーベースモデルであるAlign-Refineを用いた音声認識でこれを実証する。 Align-Refine は Imputer と Mask-CTC を上回り、WSJ 上の自己回帰ベースラインをリアルタイム係数 1/14 でマッチングし、LM なしで LibriSpeech の他の WER が 9.0 % に達する。 私たちのモデルは、より浅いデコーダで1イテレーションでも強いです。

Non-autoregressive models greatly improve decoding speed over typical sequence-to-sequence models, but suffer from degraded performance. Infilling and iterative refinement models make up some of this gap by editing the outputs of a non-autoregressive model, but are constrained in the edits that they can make. We propose iterative realignment, where refinements occur over latent alignments rather than output sequence space. We demonstrate this in speech recognition with Align-Refine, an end-to-end Transformer-based model which refines connectionist temporal classification (CTC) alignments to allow length-changing insertions and deletions. Align-Refine outperforms Imputer and Mask-CTC, matching an autoregressive baseline on WSJ at 1/14th the real-time factor and attaining a LibriSpeech test-other WER of 9.0% without an LM. Our model is strong even in one iteration with a shallower decoder.
翻訳日:2022-10-03 12:26:20 公開日:2020-10-24
# 説明可能な機械学習のためのアブダクションと議論:位置調査

Abduction and Argumentation for Explainable Machine Learning: A Position Survey ( http://arxiv.org/abs/2010.12896v1 )

ライセンス: Link先を確認
Antonis Kakas, Loizos Michael(参考訳) 本稿では、推論の2つの原則形式としてアブダクションとArgumentationを提示し、機械学習における基本的役割を解明する。 これまでの数十年間、この2つの推論フォームと機械学習の作業の関連について、最先端の成果をレビューし、そこから、推論と議論という説明生成の役割がどのようにして、説明可能な機械学習とAIシステムの開発に自然に適合するメカニズムをもたらすかを詳述した。 アブダクションはデータの変換、準備、均質化を通じて学習を促進することでこの目標に寄与する。 議論は古典的推論の保守的な拡張として、学習のための柔軟な予測とカバレッジのメカニズムを提供する。これは学習の文脈において、古典的に表現された論理理論と互換性のない不完全で一貫性のないデータで対処する必要性を明確に認識する。

This paper presents Abduction and Argumentation as two principled forms for reasoning, and fleshes out the fundamental role that they can play within Machine Learning. It reviews the state-of-the-art work over the past few decades on the link of these two reasoning forms with machine learning work, and from this it elaborates on how the explanation-generating role of Abduction and Argumentation makes them naturally-fitting mechanisms for the development of Explainable Machine Learning and AI systems. Abduction contributes towards this goal by facilitating learning through the transformation, preparation, and homogenization of data. Argumentation, as a conservative extension of classical deductive reasoning, offers a flexible prediction and coverage mechanism for learning -- an associated target language for learned knowledge -- that explicitly acknowledges the need to deal, in the context of learning, with uncertain, incomplete and inconsistent data that are incompatible with any classically-represented logical theory.
翻訳日:2022-10-03 12:25:34 公開日:2020-10-24
# 音声表現学習のための離散潜在変数モデルの比較

A Comparison of Discrete Latent Variable Models for Speech Representation Learning ( http://arxiv.org/abs/2010.14230v1 )

ライセンス: Link先を確認
Henry Zhou, Alexei Baevski and Michael Auli(参考訳) ニューラル潜在変数モデルにより、音声データに興味深い構造が発見できる。 本稿では,将来の時間ステップ予測や入力信号の自動エンコードに基づく2つのアプローチの比較を行う。 本研究では, vq-vae と vq-wav2vec が学習した表現を, 単語単位発見と音素認識性能の観点から比較した。 結果,vq-wav2vecによる将来の時間ステップ予測により,性能が向上した。 最高のシステムは、ZeroSpeech 2019 ABX音素識別チャレンジで13.22のエラー率を達成する

Neural latent variable models enable the discovery of interesting structure in speech audio data. This paper presents a comparison of two different approaches which are broadly based on predicting future time-steps or auto-encoding the input signal. Our study compares the representations learned by vq-vae and vq-wav2vec in terms of sub-word unit discovery and phoneme recognition performance. Results show that future time-step prediction with vq-wav2vec achieves better performance. The best system achieves an error rate of 13.22 on the ZeroSpeech 2019 ABX phoneme discrimination challenge
翻訳日:2022-10-03 12:24:55 公開日:2020-10-24
# 自己回帰スコアマッチング

Autoregressive Score Matching ( http://arxiv.org/abs/2010.12810v1 )

ライセンス: Link先を確認
Chenlin Meng, Lantao Yu, Yang Song, Jiaming Song and Stefano Ermon(参考訳) 自己回帰モデルは、連立確率分布を条件の積として定義するために連鎖則を用いる。 これらの条件は正規化され、使用可能な関数ファミリーに制約を与える必要がある。 柔軟性を向上させるために,正規化を必要としない単変量対数条件(スコア)の導関数を用いて関節分布をパラメータ化する自己回帰条件スコアモデル(AR-CSM)を提案する。 本稿では,AR-CSMのトレーニングを行うために,複合スコアマッチング (CSM) と呼ばれる分布間の新たなばらつきを導入する。 AR-CSMモデルでは、このデータ分布とモデル分布のばらつきを効率的に計算し、最適化することができ、高価なサンプリングや対向訓練を必要としない。 従来のスコアマッチングアルゴリズムと比較して,本手法は高次元データよりもスケーラブルで,最適化も安定である。 本研究では,合成データの密度推定,画像生成,画像のデノイジング,暗黙エンコーダを用いた潜在変数モデルのトレーニングに応用できることを示す。

Autoregressive models use chain rule to define a joint probability distribution as a product of conditionals. These conditionals need to be normalized, imposing constraints on the functional families that can be used. To increase flexibility, we propose autoregressive conditional score models (AR-CSM) where we parameterize the joint distribution in terms of the derivatives of univariate log-conditionals (scores), which need not be normalized. To train AR-CSM, we introduce a new divergence between distributions named Composite Score Matching (CSM). For AR-CSM models, this divergence between data and model distributions can be computed and optimized efficiently, requiring no expensive sampling or adversarial training. Compared to previous score matching algorithms, our method is more scalable to high dimensional data and more stable to optimize. We show with extensive experimental results that it can be applied to density estimation on synthetic data, image generation, image denoising, and training latent variable models with implicit encoders.
翻訳日:2022-10-03 12:18:32 公開日:2020-10-24
# グラフ情報のボトルネック

Graph Information Bottleneck ( http://arxiv.org/abs/2010.12811v1 )

ライセンス: Link先を確認
Tailin Wu, Hongyu Ren, Pan Li, Jure Leskovec(参考訳) グラフ構造とノード特徴の両方が重要な情報を持っているため、グラフ構造データの表現学習は困難である。 グラフニューラルネットワーク(GNN)は、ネットワーク構造とノード機能から情報を融合する表現的な方法を提供する。 しかし、GNNは敵の攻撃を受けやすい。 本稿では,グラフ構造化データの表現の表現性と堅牢性を最適にバランスする情報理論の原理であるグラフ情報ボトルネック(GIB)を紹介する。 GIBは、一般情報ボトルネック(IB)を継承して、表現とターゲットの相互情報を最大化し、表現と入力データの間の相互情報を同時に制限することにより、与えられたタスクに対する最小限の表現を学習することを目的としている。 一般的なIBと異なり、GIBは構造と特徴情報を正規化している。 GIB-Cat と GIB-Bern の2つの新しいモデルを用いて、構造正則化のための2つのサンプリングアルゴリズムを設計し、敵攻撃に対するレジリエンスを評価することで利点を実証する。 提案モデルは最先端のグラフ防御モデルよりも頑健であることを示す。 GIBベースのモデルは、グラフ構造とノードの特徴の逆摂動によって最大31%の改善を経験的に達成する。

Representation learning of graph-structured data is challenging because both graph structure and node features carry important information. Graph Neural Networks (GNNs) provide an expressive way to fuse information from network structure and node features. However, GNNs are prone to adversarial attacks. Here we introduce Graph Information Bottleneck (GIB), an information-theoretic principle that optimally balances expressiveness and robustness of the learned representation of graph-structured data. Inheriting from the general Information Bottleneck (IB), GIB aims to learn the minimal sufficient representation for a given task by maximizing the mutual information between the representation and the target, and simultaneously constraining the mutual information between the representation and the input data. Different from the general IB, GIB regularizes the structural as well as the feature information. We design two sampling algorithms for structural regularization and instantiate the GIB principle with two new models: GIB-Cat and GIB-Bern, and demonstrate the benefits by evaluating the resilience to adversarial attacks. We show that our proposed models are more robust than state-of-the-art graph defense models. GIB-based models empirically achieve up to 31% improvement with adversarial perturbation of the graph structure as well as node features.
翻訳日:2022-10-03 12:18:11 公開日:2020-10-24
# 変分ベイズ学習

Variational Bayesian Unlearning ( http://arxiv.org/abs/2010.12883v1 )

ライセンス: Link先を確認
Quoc Phong Nguyen, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) 本稿では,ベイズモデルが削除されるトレーニングデータの小さな部分集合から,ほぼ未学習の問題を考察する。 この問題は、消去されたデータから直接学習した後のモデルパラメータの近似的後信と、残りのデータで再学習した正確な後信の最小化の1つである。 変分推論(vi)フレームワークを用いることで、消去されたデータから完全に未学習である証拠を最小化することと、全データ(すなわち、残りのデータを含む)が与えられた後の信念を完全に忘れることと同値であることが示され、後者はモデルが役に立たないような破滅的な未学習を防ぐ。 VI を用いたモデルトレーニングでは、完全なデータから近似した(正確には)後続の信念しか得られず、未学習をさらに困難にする。 我々はこの課題に取り組むために2つの新しいトリックを提案する。 我々は,合成および実世界のデータセットを用いた疎ガウス過程やロジスティック回帰といったベイズモデル上での未学習手法を実証的に示す。

This paper studies the problem of approximately unlearning a Bayesian model from a small subset of the training data to be erased. We frame this problem as one of minimizing the Kullback-Leibler divergence between the approximate posterior belief of model parameters after directly unlearning from erased data vs. the exact posterior belief from retraining with remaining data. Using the variational inference (VI) framework, we show that it is equivalent to minimizing an evidence upper bound which trades off between fully unlearning from erased data vs. not entirely forgetting the posterior belief given the full data (i.e., including the remaining data); the latter prevents catastrophic unlearning that can render the model useless. In model training with VI, only an approximate (instead of exact) posterior belief given the full data can be obtained, which makes unlearning even more challenging. We propose two novel tricks to tackle this challenge. We empirically demonstrate our unlearning methods on Bayesian models such as sparse Gaussian process and logistic regression using synthetic and real-world datasets.
翻訳日:2022-10-03 12:16:44 公開日:2020-10-24
# atro: 拒絶オプションによる敵対的トレーニング

ATRO: Adversarial Training with a Rejection Option ( http://arxiv.org/abs/2010.12905v1 )

ライセンス: Link先を確認
Masahiro Kato, Zhenghang Cui, Yoshihiro Fukuhara(参考訳) 本稿では,逆例による性能劣化を軽減するために,拒否オプション付き分類フレームワークを提案する。 最近の機械学習アルゴリズムは高い予測性能を達成する一方で、不正に分類されたわずかに摂動したデータサンプルである敵の例に対して、実証的に脆弱である。 現実世界のアプリケーションでは、そのような敵の例を使った敵の攻撃は深刻な問題を引き起こす可能性がある。 この目的のために, 反対例に対して頑健な分類器を得るための様々な手法を提案する。 敵の攻撃による最悪の場合の損失を最小限に抑えるために、分類器を訓練する。 本稿では,敵の攻撃に対するより信頼性の高い分類器を取得するために,拒絶オプション(atro)を用いた敵の訓練方法を提案する。 分類器と拒絶関数の両方に同時に対向訓練目標を適用することにより、ATROによって訓練された分類器は、試験データポイントを分類する自信が不十分な場合に分類を控えることができる。 本研究では, 最大ヒンジ損失を用いた枠組みの実現可能性について検討し, 線形モデルに対する一般化を確立する。 さらに,様々なモデルと実世界のデータセットを用いてatroの有効性を実証的に確認した。

This paper proposes a classification framework with a rejection option to mitigate the performance deterioration caused by adversarial examples. While recent machine learning algorithms achieve high prediction performance, they are empirically vulnerable to adversarial examples, which are slightly perturbed data samples that are wrongly classified. In real-world applications, adversarial attacks using such adversarial examples could cause serious problems. To this end, various methods are proposed to obtain a classifier that is robust against adversarial examples. Adversarial training is one of them, which trains a classifier to minimize the worst-case loss under adversarial attacks. In this paper, in order to acquire a more reliable classifier against adversarial attacks, we propose the method of Adversarial Training with a Rejection Option (ATRO). Applying the adversarial training objective to both a classifier and a rejection function simultaneously, classifiers trained by ATRO can choose to abstain from classification when it has insufficient confidence to classify a test data point. We examine the feasibility of the framework using the surrogate maximum hinge loss and establish a generalization bound for linear models. Furthermore, we empirically confirmed the effectiveness of ATRO using various models and real-world datasets.
翻訳日:2022-10-03 12:16:27 公開日:2020-10-24
# 言語クラスタ語彙を用いた多言語モデルの改善

Improving Multilingual Models with Language-Clustered Vocabularies ( http://arxiv.org/abs/2010.12777v1 )

ライセンス: Link先を確認
Hyung Won Chung, Dan Garrette, Kiat Chuan Tan, Jason Riesa(参考訳) 最先端の多言語モデルは、モデルが推論時に期待する全ての言語をカバーする語彙に依存するが、それらの語彙を生成する標準的な方法は、大規模多言語アプリケーションには理想的ではない。 本稿では,多言語語彙生成のための新しい手法を提案する。この手法では,複数の自動派生言語クラスタの個別に訓練された語彙を組み合わせることで,言語間サブワード共有と言語固有の語彙間のトレードオフをバランスさせる。 実験では,多言語ベンチマークタスクであるtydi qa (+2.9 f1), xnli (+2.1\%), wikiann ner (+2.8 f1) において言語横断性が改善され,モデルやデータのサイズを増加させることなく,語彙外レートが8つ削減された。

State-of-the-art multilingual models depend on vocabularies that cover all of the languages the model will expect to see at inference time, but the standard methods for generating those vocabularies are not ideal for massively multilingual applications. In this work, we introduce a novel procedure for multilingual vocabulary generation that combines the separately trained vocabularies of several automatically derived language clusters, thus balancing the trade-off between cross-lingual subword sharing and language-specific vocabularies. Our experiments show improvements across languages on key multilingual benchmark tasks TyDi QA (+2.9 F1), XNLI (+2.1\%), and WikiAnn NER (+2.8 F1) and factor of 8 reduction in out-of-vocabulary rate, all without increasing the size of the model or data.
翻訳日:2022-10-03 12:10:08 公開日:2020-10-24
# 事前学習言語モデルにおける埋め込み結合の再考

Rethinking embedding coupling in pre-trained language models ( http://arxiv.org/abs/2010.12821v1 )

ライセンス: Link先を確認
Hyung Won Chung, Thibault F\'evry, Henry Tsai, Melvin Johnson, Sebastian Ruder(参考訳) 入力と出力の埋め込みの重み付けを最先端の事前学習言語モデルで共有する標準的な実践を再評価する。 分割埋め込みによりモデリングの柔軟性が向上し、多言語モデルの入力埋め込みにおけるパラメータ割り当ての効率が大幅に向上することを示す。 入力の埋め込みパラメータをTransformer層に再配置することで、微調整中に同じ数のパラメータで標準自然言語理解タスクの性能を劇的に向上させる。 また、出力埋め込みが事前学習後に破棄されたとしても、出力埋め込みに余分な容量を割り当てることで、微調整段階を通して継続するモデルに恩恵をもたらすことを示す。 我々の分析によると、より大きな出力埋め込みは、モデルの最後の層が訓練前のタスクに過度に特殊化されることを防ぎ、トランスフォーマー表現をもっと汎用的で、他のタスクや言語に転送できるように促す。 これらの結果から,微調整段階におけるパラメータ数を増大させることなく,XTREMEベンチマークで高い性能を示すモデルを訓練することが可能となった。

We re-evaluate the standard practice of sharing weights between input and output embeddings in state-of-the-art pre-trained language models. We show that decoupled embeddings provide increased modeling flexibility, allowing us to significantly improve the efficiency of parameter allocation in the input embedding of multilingual models. By reallocating the input embedding parameters in the Transformer layers, we achieve dramatically better performance on standard natural language understanding tasks with the same number of parameters during fine-tuning. We also show that allocating additional capacity to the output embedding provides benefits to the model that persist through the fine-tuning stage even though the output embedding is discarded after pre-training. Our analysis shows that larger output embeddings prevent the model's last layers from overspecializing to the pre-training task and encourage Transformer representations to be more general and more transferable to other tasks and languages. Harnessing these findings, we are able to train models that achieve strong performance on the XTREME benchmark without increasing the number of parameters at the fine-tuning stage.
翻訳日:2022-10-03 12:09:51 公開日:2020-10-24
# 化学特許自然言語処理のための単語埋め込み

Word Embeddings for Chemical Patent Natural Language Processing ( http://arxiv.org/abs/2010.12912v1 )

ライセンス: Link先を確認
Camilo Thorne and Saber Akhondi(参考訳) 既知バイオメディカル埋め込みに対する化学特許語埋め込みの評価を行い,本質的にも本質的にも,後者よりも優れていることを示す。 また、文脈的埋め込みを用いることで、比較的小さな金の標準よりも適切なパフォーマンスの予測モデルを導き出せることを示す。

We evaluate chemical patent word embeddings against known biomedical embeddings and show that they outperform the latter extrinsically and intrinsically. We also show that using contextualized embeddings can induce predictive models of reasonable performance for this domain over a relatively small gold standard.
翻訳日:2022-10-03 12:09:33 公開日:2020-10-24
# RUArt: テキストベースのビジュアル質問回答の新しいテキスト中心ソリューション

RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering ( http://arxiv.org/abs/2010.12917v1 )

ライセンス: Link先を確認
Zan-Xia Jin, Heran Wu, Chun Yang, Fang Zhou, Jingyan Qin, Lei Xiao and Xu-Cheng Yin(参考訳) テキストベースの視覚的質問応答(VQA)は、与えられた質問に正しく答えるために、画像中のテキストを読み、理解する必要がある。 しかし、現在のほとんどの手法では、OCRトークンのコンテキスト情報を考慮せずに画像から抽出した光学式文字認識(OCR)トークンをVQAモデルに追加し、OCRトークンとシーンオブジェクトの関係をマイニングする。 本稿では,テキストベースのVQAのためのRUArt (Reading, Understanding and Answering the Related Text) という新しいテキスト中心方式を提案する。 画像と質問を入力として、ruart氏はまず画像を読み込み、テキストとシーンオブジェクトを取得する。 そして、シーンのコンテキストにおける質問やOCRテキスト、オブジェクトを理解し、それらの関係をさらに掘り下げる。 最後に、テキストセマンティクスマッチングと推論を通じて、与えられた質問の関連テキストに答える。 RUArtを2つのテキストベースVQAベンチマーク(ST-VQAとTextVQA)で評価し、RUArtの有効性の理由を探るため広範囲にわたるアブレーション研究を行った。 実験の結果,本手法はテキストの文脈情報を効果的に探索し,テキストとオブジェクト間の安定な関係を抽出できることがわかった。

Text-based visual question answering (VQA) requires to read and understand text in an image to correctly answer a given question. However, most current methods simply add optical character recognition (OCR) tokens extracted from the image into the VQA model without considering contextual information of OCR tokens and mining the relationships between OCR tokens and scene objects. In this paper, we propose a novel text-centered method called RUArt (Reading, Understanding and Answering the Related Text) for text-based VQA. Taking an image and a question as input, RUArt first reads the image and obtains text and scene objects. Then, it understands the question, OCRed text and objects in the context of the scene, and further mines the relationships among them. Finally, it answers the related text for the given question through text semantic matching and reasoning. We evaluate our RUArt on two text-based VQA benchmarks (ST-VQA and TextVQA) and conduct extensive ablation studies for exploring the reasons behind RUArt's effectiveness. Experimental results demonstrate that our method can effectively explore the contextual information of the text and mine the stable relationships between the text and objects.
翻訳日:2022-10-03 12:08:33 公開日:2020-10-24
# PEP:摂動によるパラメータ化

PEP: Parameter Ensembling by Perturbation ( http://arxiv.org/abs/2010.12721v1 )

ライセンス: Link先を確認
Alireza Mehrtash, Purang Abolmaesumi, Polina Golland, Tina Kapur, Demian Wassermann, William M. Wells III(参考訳) 組立は、ディープネットワークの予測性能とキャリブレーションを高める効果的なアプローチとして認識されている。 本研究では,単一分散パラメータを持つガウス型学習から最適パラメータセットのランダムな摂動としてパラメータ値のアンサンブルを構成する,摂動によるパラメータセンシング(pep)という新しい手法を提案する。 分散は、検証データセット上のアンサンブル平均(\mathbb{L}$)のログ類似度を最大化するために選択される。 経験的に、そしておそらく驚くことに、$\mathbb{l}$ は分散がゼロ(ベースラインモデルに対応する)から成長するにつれてよく定義された最大値を持つ。 同様に、予測のキャリブレーションレベルも、$\mathbb{L}$のピークに達するまで好適に成長する傾向にある。 ほとんどの実験では、PEPは性能を少し改善し、場合によっては経験的なキャリブレーションを大幅に改善する。 この「pep効果」 (ログ類似度利得) は, 確率関数の平均曲率と経験的フィッシャー情報との関連性を示す。 ResNet、DenseNet、InceptionなどのImageNet事前トレーニングネットワークの実験では、キャリブレーションと可能性が改善された。 さらに,これらのネットワーク上での分類精度は軽度に向上した。 MNISTやCIFAR-10のような分類ベンチマークの実験では、校正と可能性の向上に加えて、PEP効果とオーバーフィッティングの関係が示された。 一般に、特別なトレーニング手順やネットワークアーキテクチャは不要であり、事前訓練されたネットワークの場合、追加のトレーニングは不要である。

Ensembling is now recognized as an effective approach for increasing the predictive performance and calibration of deep networks. We introduce a new approach, Parameter Ensembling by Perturbation (PEP), that constructs an ensemble of parameter values as random perturbations of the optimal parameter set from training by a Gaussian with a single variance parameter. The variance is chosen to maximize the log-likelihood of the ensemble average ($\mathbb{L}$) on the validation data set. Empirically, and perhaps surprisingly, $\mathbb{L}$ has a well-defined maximum as the variance grows from zero (which corresponds to the baseline model). Conveniently, calibration level of predictions also tends to grow favorably until the peak of $\mathbb{L}$ is reached. In most experiments, PEP provides a small improvement in performance, and, in some cases, a substantial improvement in empirical calibration. We show that this "PEP effect" (the gain in log-likelihood) is related to the mean curvature of the likelihood function and the empirical Fisher information. Experiments on ImageNet pre-trained networks including ResNet, DenseNet, and Inception showed improved calibration and likelihood. We further observed a mild improvement in classification accuracy on these networks. Experiments on classification benchmarks such as MNIST and CIFAR-10 showed improved calibration and likelihood, as well as the relationship between the PEP effect and overfitting; this demonstrates that PEP can be used to probe the level of overfitting that occurred during training. In general, no special training procedure or network architecture is needed, and in the case of pre-trained networks, no additional training is needed.
翻訳日:2022-10-03 12:07:37 公開日:2020-10-24
# 動的グラフ畳み込みネットワークによるキーワード抽出と多様な推論

Keyphrase Extraction with Dynamic Graph Convolutional Networks and Diversified Inference ( http://arxiv.org/abs/2010.12828v1 )

ライセンス: Link先を確認
Haoyu Zhang, Dingkun Long, Guangwei Xu, Pengjun Xie, Fei Huang, Ji Wang(参考訳) keyphrase extraction (ke) は、与えられた文書でカバーされた概念や話題を正確に表現する一連のフレーズを要約することを目的としている。 近年、keタスクではシーケンシャル・ツー・シークエンス(seq2seq)ベースの生成フレームワークが広く使われており、様々なベンチマークで競合性能を得ている。 Seq2Seq法の主な課題は、情報的潜在文書表現の獲得と、生成したキーフレーズの品質に直接影響するターゲットキーフレーズセットの構成性の改善である。 本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。 具体的には,依存性ツリーをGCNと統合して潜在表現学習を行う。 さらに、生成したキーフレーズに応じて学習過程中に、モデル内のグラフ構造を動的に変更する。 この目的のために,本手法では,キーフレーズコレクション内の関係を明示的に学習し,エンコーダとデコーダの両方向の情報交換を保証する。 様々なKEベンチマークデータセットに対する大規模な実験は、我々のアプローチの有効性を示す。

Keyphrase extraction (KE) aims to summarize a set of phrases that accurately express a concept or a topic covered in a given document. Recently, Sequence-to-Sequence (Seq2Seq) based generative framework is widely used in KE task, and it has obtained competitive performance on various benchmarks. The main challenges of Seq2Seq methods lie in acquiring informative latent document representation and better modeling the compositionality of the target keyphrases set, which will directly affect the quality of generated keyphrases. In this paper, we propose to adopt the Dynamic Graph Convolutional Networks (DGCN) to solve the above two problems simultaneously. Concretely, we explore to integrate dependency trees with GCN for latent representation learning. Moreover, the graph structure in our model is dynamically modified during the learning process according to the generated keyphrases. To this end, our approach is able to explicitly learn the relations within the keyphrases collection and guarantee the information interchange between encoder and decoder in both directions. Extensive experiments on various KE benchmark datasets demonstrate the effectiveness of our approach.
翻訳日:2022-10-03 12:01:07 公開日:2020-10-24
# トランスフォーマーモデルを用いた大規模法的テキスト分類

Large Scale Legal Text Classification Using Transformer Models ( http://arxiv.org/abs/2010.12871v1 )

ライセンス: Link先を確認
Zein Shaheen, Gerhard Wohlgenannt, Erwin Filtz(参考訳) 大規模マルチラベルテキスト分類は、何千ものラベルを持つデータセットのテキスト分類に関わる自然言語処理(NLP)の問題である。 そこでは,EUの法情報システム内に,ユーロボック語彙をラベル付けしたJRC-AcquisやEURLEX57Kなどのデータセットが作成された。 ユーロボックの分類には約7000の概念が含まれている。 本研究では,近年の変圧器モデルの性能を,競争的分類性能を達成するために,生成前訓練,段階的非凍結,判別学習率などの戦略と組み合わせて検討し,jrc-acquis 0.661 (f1) とeurlex57k 0.754 の新たな最新結果について述べる。 さらに,アブレーション研究における言語モデルの微調整や段階的凍結といった個々のステップの影響を定量化し,反復階層化アルゴリズムを用いて作成した参照データセット分割を提供する。

Large multi-label text classification is a challenging Natural Language Processing (NLP) problem that is concerned with text classification for datasets with thousands of labels. We tackle this problem in the legal domain, where datasets, such as JRC-Acquis and EURLEX57K labeled with the EuroVoc vocabulary were created within the legal information systems of the European Union. The EuroVoc taxonomy includes around 7000 concepts. In this work, we study the performance of various recent transformer-based models in combination with strategies such as generative pretraining, gradual unfreezing and discriminative learning rates in order to reach competitive classification performance, and present new state-of-the-art results of 0.661 (F1) for JRC-Acquis and 0.754 for EURLEX57K. Furthermore, we quantify the impact of individual steps, such as language model fine-tuning or gradual unfreezing in an ablation study, and provide reference dataset splits created with an iterative stratification algorithm.
翻訳日:2022-10-03 12:00:17 公開日:2020-10-24
# グラフ埋め込みによる疾患の正常化

Disease Normalization with Graph Embeddings ( http://arxiv.org/abs/2010.12925v1 )

ライセンス: Link先を確認
Dhruba Pujary and Camilo Thorne and Wilker Aziz(参考訳) バイオメディカルテキスト中の疾患の検出と正規化は、重要なバイオメディカル自然言語処理タスクである。 病名は特定されるだけでなく、MeSHなどの疾患を記述した臨床分類学と関連付けられている。 本稿では,両タスクに対応するディープラーニング手法について述べる。 NCBI 病性ベンチマークコーパスを用いて,本手法の訓練と試験を行った。 本稿では,meshのグラフィカルな構造と,グラフ埋め込みを用いた分類法で利用可能な語彙情報を用いて病名を表現することを提案する。 また,神経名付きエンティティ認識モデルと,マルチタスク学習によるグラフに基づくエンティティリンク手法を組み合わせることで,ncbiコーパスにおける疾患認識が向上することを示す。

The detection and normalization of diseases in biomedical texts are key biomedical natural language processing tasks. Disease names need not only be identified, but also normalized or linked to clinical taxonomies describing diseases such as MeSH. In this paper we describe deep learning methods that tackle both tasks. We train and test our methods on the known NCBI disease benchmark corpus. We propose to represent disease names by leveraging MeSH's graphical structure together with the lexical information available in the taxonomy using graph embeddings. We also show that combining neural named entity recognition models with our graph-based entity linking methods via multitask learning leads to improved disease recognition in the NCBI corpus.
翻訳日:2022-10-03 11:59:39 公開日:2020-10-24
# 暗黙的変分推論:パラメータと予測空間

Implicit Variational Inference: the Parameter and the Predictor Space ( http://arxiv.org/abs/2010.12995v1 )

ライセンス: Link先を確認
Yann Pequignot, Mathieu Alain, Patrick Dallaire, Alireza Yeganehparast, Pascal Germain, Jos\'ee Desharnais and Fran\c{c}ois Laviolette(参考訳) 正確な信頼レベルへのアクセスと予測によって、意思決定がリスクに値するかどうかを判断することができる。 ベイズパラダイムの下では、パラメータの後方分布はモデルの不確実性を捉えるために使用され、これは予測不確実性に変換できる貴重な情報である。 しかし、ニューラルネットワークのような高容量予測器の後方分布の計算は一般的に難解であり、変分推論のような近似手法が有望な代替手段となる。 ほとんどの手法はパラメータの空間で推論を行うが、予測器の空間で直接推論を行う利点について検討する。 深部生成ニューラルネットワークによって与えられる分布の族に基づいて、変分推論を行う2つの方法を示す: 1つは \emph{parameter space} 、もう1つは \emph{predictor space} である。 重要なことに、後者では入力の分布を選択する必要があるため、同時に \emph{out-of-distribution}の不確実性の問題を明示的に解決することができる。 パラメータ空間とは対照的に,ニューラルネットワークによって誘導される予測空間で作業することの意味を,トレーニング分布外にあるデータに対する不確実性推定の品質を中心に,様々な観点から検討する。 これら2つの手法で得られた後続近似をいくつかの標準法と比較し, パラメータ空間で学習した変分近似とパラメータ空間で訓練された近似とを正に区別することを示す。

Having access to accurate confidence levels along with the predictions allows to determine whether making a decision is worth the risk. Under the Bayesian paradigm, the posterior distribution over parameters is used to capture model uncertainty, a valuable information that can be translated into predictive uncertainty. However, computing the posterior distribution for high capacity predictors, such as neural networks, is generally intractable, making approximate methods such as variational inference a promising alternative. While most methods perform inference in the space of parameters, we explore the benefits of carrying inference directly in the space of predictors. Relying on a family of distributions given by a deep generative neural network, we present two ways of carrying variational inference: one in \emph{parameter space}, one in \emph{predictor space}. Importantly, the latter requires us to choose a distribution of inputs, therefore allowing us at the same time to explicitly address the question of \emph{out-of-distribution} uncertainty. We explore from various perspectives the implications of working in the predictor space induced by neural networks as opposed to the parameter space, focusing mainly on the quality of uncertainty estimation for data lying outside of the training distribution. We compare posterior approximations obtained with these two methods to several standard methods and present results showing that variational approximations learned in the predictor space distinguish themselves positively from those trained in the parameter space.
翻訳日:2022-10-03 11:51:21 公開日:2020-10-24
# 合成アバターを用いた非接触バイタルサイン計測の進歩

Advancing Non-Contact Vital Sign Measurement using Synthetic Avatars ( http://arxiv.org/abs/2010.12949v1 )

ライセンス: Link先を確認
Daniel McDuff, Javier Hernandez, Erroll Wood, Xin Liu, Tadas Baltrusaitis(参考訳) 非接触生理測定は、低コストで非侵襲的な健康モニタリングを提供する可能性がある。 しかし、機械ビジョンのアプローチは、しばしば注釈付きビデオデータセットの可用性と多様性によって制限され、複雑な実生活条件への一般化が不十分になる。 これらの課題に対処するために, 顔の血流の変化を呈し, 多様な条件下での試料の系統的生成を可能にする合成アバターの使用を提案する。 その結果,シミュレーションおよび実映像データのトレーニングは,課題条件下での性能向上につながる可能性が示唆された。 3つの大規模ベンチマークデータセットで最先端のパフォーマンスを示し,スキンタイプと動作に対するロバスト性を改善した。

Non-contact physiological measurement has the potential to provide low-cost, non-invasive health monitoring. However, machine vision approaches are often limited by the availability and diversity of annotated video datasets resulting in poor generalization to complex real-life conditions. To address these challenges, this work proposes the use of synthetic avatars that display facial blood flow changes and allow for systematic generation of samples under a wide variety of conditions. Our results show that training on both simulated and real video data can lead to performance gains under challenging conditions. We show state-of-the-art performance on three large benchmark datasets and improved robustness to skin type and motion.
翻訳日:2022-10-03 11:50:37 公開日:2020-10-24
# 神経外科における診断支援のためのi3DUSデータに基づく組織性状解析

Tissue characterization based on the analysis on i3DUS data for diagnosis support in neurosurgery ( http://arxiv.org/abs/2011.08129v1 )

ライセンス: Link先を確認
Mou-Cheng Xu(参考訳) 脳シフトは術前MRIナビゲーションを高精度に不正確なものにするため、術中モードが手術劇場で採用される。 英国インペリアル・カレッジ・ロンドン(英語版)のCharing Cross Hospital(英語版)の協力病院で超音波画像が用いられている。 しかし,超音波画像の術中診断は,非常に経験豊富な臨床専門家においても単純かつ一貫したものではないことが判明した。 そのため, コンピュータ支援診断システムの設計は, 外科医を助けるための頑健な第2の意見を提供することが求められている。 提案したCADシステムは,「非対称損失関数を持つミキシング・アテンション・レス・U-ネット」に基づく,画素レベルでの分類による地上の真理と比較して,全ての評価基準において,現在の主ストリームレベルの分類方法(U-net,FCNなど)よりも優れる。

Brain shift makes the pre-operative MRI navigation highly inaccurate hence the intraoperative modalities are adopted in surgical theatre. Due to the excellent economic and portability merits, the Ultrasound imaging is used at our collaborating hospital, Charing Cross Hospital, Imperial College London, UK. However, it is found that intraoperative diagnosis on Ultrasound images is not straightforward and consistent, even for very experienced clinical experts. Hence, there is a demand to design a Computer-aided-diagnosis system to provide a robust second opinion to help the surgeons. The proposed CAD system based on "Mixed-Attention Res-U-net with asymmetric loss function" achieves the state-of-the-art results comparing to the ground truth by classification at pixel-level directly, it also outperforms all the current main stream pixel-level classification methods (e.g. U-net, FCN) in all the evaluation metrices.
翻訳日:2022-10-03 11:50:27 公開日:2020-10-24
# 事前学習言語モデルに基づくオープンドメイン対話生成

Open-Domain Dialogue Generation Based on Pre-trained Language Models ( http://arxiv.org/abs/2010.12780v1 )

ライセンス: Link先を確認
Yan Zeng and Jian-Yun Nie(参考訳) 事前訓練された言語モデルは、オープンドメイン対話の応答生成に成功している。 1) 原文と対象文を別々にトランスフォーマエンコーダとデコーダを使用するトランスフォーマ-dec、(2) 原文と対象文の両方にトランスフォーマデコーダを使用するトランスフォーマ-mlm、(3) ソース側に双方向の注意を向けるトランスフォーマ-mlm、およびマスキング言語モデルでターゲット側に左右の注意を向けるトランスフォーマ-ar、(4) 自動回帰目的を用いるトランスフォーマ-arの4つのフレームワークが提案されている。 本研究では,これらのフレームワークを3つのデータセットで比較し,最良のフレームワークがソース側に双方向の注意を向け,エンコーダとデコーダを分離しないことを示す。 また,モデルの相違性についても検討し,モデルの性能が基礎となる相違性に直接影響していることを確認する。 次に,2つの補正手法を提案し,その差を低減し,モデル性能を向上させる。 これらの結果から,事前学習モデルを用いた場合の相違は重要な要因であり,不一致の低減は性能の向上につながる可能性が示唆された。

Pre-trained language models have been successfully used in response generation for open-domain dialogue. Four main frameworks have been proposed: (1) Transformer-ED using Transformer encoder and decoder separately for source and target sentences; (2) Transformer-Dec using Transformer decoder for both source and target sentences; (3) Transformer-MLM using Transformer decoder that applies bi-directional attention on the source side and left-to-right attention on the target side with masked language model objective; and (4) Transformer-AR that uses auto-regressive objective instead. In this study, we compare these frameworks on 3 datasets, and our comparison reveals that the best framework uses bidirectional attention on the source side and does not separate encoder and decoder. We also examine model discrepancy, and our experiments confirm that the performance of a model is directly impacted by the underlying discrepancies. We then propose two correction methods to reduce the discrepancies, and both improve the model performance. These results show that discrepancies is an important factor to consider when we use a pre-trained model, and a reduction in discrepancies can lead to improved performance.
翻訳日:2022-10-03 11:49:45 公開日:2020-10-24