このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220126となっている論文です。

PDF登録状況(公開日: 20220126)

TitleAuthorsAbstract論文公表日・翻訳日
# 基本解析に基づく在庫予測のための機械学習

Machine Learning for Stock Prediction Based on Fundamental Analysis ( http://arxiv.org/abs/2202.05702v1 )

ライセンス: Link先を確認
Yuxuan Huang, Luiz Fernando Capretz, Danny Ho(参考訳) 近年,株価予測への機械学習の適用が注目されている。 この分野では大量の研究が行われており、複数の既存の結果から、株価履歴データを用いた株価予測に機械学習手法が有効であることが示されている。 これらの既存手法のほとんどは、株価と技術的指標を用いた短期的な予測に重点を置いている。 本稿では,22年分の四半期決算データを作成し,基本分析に基づく株価予測のためのフィードフォワードニューラルネットワーク(fnn),ランダムフォレスト(rf),適応ニューラルファジィ推論システム(anfis)の3つの機械学習アルゴリズムを調査した。 さらに, RFに基づく特徴選択とブートストラップアグリゲーションを適用し, モデル性能と異なるモデルからのアグリゲーション予測を改善した。 この結果から,RFモデルが最も優れた予測結果が得られ,FNNとANFISのテスト性能が向上することが示唆された。 さらに、集計されたモデルは、テスト期間中に許容されるマージンで全てのベースラインモデルとベンチマークDJIAインデックスを上回ります。 この結果から, 機械学習モデルは, 株式投資に関する意思決定において, 基礎アナリストの助けとなる可能性が示唆された。

Application of machine learning for stock prediction is attracting a lot of attention in recent years. A large amount of research has been conducted in this area and multiple existing results have shown that machine learning methods could be successfully used toward stock predicting using stocks historical data. Most of these existing approaches have focused on short term prediction using stocks historical price and technical indicators. In this paper, we prepared 22 years worth of stock quarterly financial data and investigated three machine learning algorithms: Feed-forward Neural Network (FNN), Random Forest (RF) and Adaptive Neural Fuzzy Inference System (ANFIS) for stock prediction based on fundamental analysis. In addition, we applied RF based feature selection and bootstrap aggregation in order to improve model performance and aggregate predictions from different models. Our results show that RF model achieves the best prediction results, and feature selection is able to improve test performance of FNN and ANFIS. Moreover, the aggregated model outperforms all baseline models as well as the benchmark DJIA index by an acceptable margin for the test period. Our findings demonstrate that machine learning models could be used to aid fundamental analysts with decision-making regarding stock investment.
翻訳日:2022-02-20 16:36:54 公開日:2022-01-26
# (参考訳) ニューラルネットワークによるbi-predictionブレンド [全文訳有]

Neural Network based Inter bi-prediction Blending ( http://arxiv.org/abs/2202.03149v1 )

ライセンス: CC BY 4.0
Franck Galpin, Philippe Bordes, Thierry Dumas, Pavel Nikitin, Fabrice Le Leannec(参考訳) 本稿では,映像符号化におけるバイプレディクションを改善するための学習ベース手法を提案する。 従来のビデオ符号化ソリューションでは、既に復号化されている参照画像からのブロックの運動補償が、現在のフレームを予測するための主要なツールとして際立っている。 特に、2つの異なる動き補償予測ブロックを平均してブロックを得るバイ予測は、最終時間予測精度を大幅に向上させる。 この文脈では、ブレンディング操作をさらに改善する単純なニューラルネットワークを導入する。 ネットワークサイズとエンコーダモード選択の両面で複雑性バランスを行う。 最近標準化されたvvcコーデック上で広範なテストを行い、10k未満のネットワークサイズでランダムアクセス設定のbdレートが-1.4%向上することを示した。 また、従来のコーデックフレームワークにおける複雑性/利得トレードオフを評価するために、CPUベースの実装と直接ネットワーク量子化を提案する。

This paper presents a learning-based method to improve bi-prediction in video coding. In conventional video coding solutions, the motion compensation of blocks from already decoded reference pictures stands out as the principal tool used to predict the current frame. Especially, the bi-prediction, in which a block is obtained by averaging two different motion-compensated prediction blocks, significantly improves the final temporal prediction accuracy. In this context, we introduce a simple neural network that further improves the blending operation. A complexity balance, both in terms of network size and encoder mode selection, is carried out. Extensive tests on top of the recently standardized VVC codec are performed and show a BD-rate improvement of -1.4% in random access configuration for a network size of fewer than 10k parameters. We also propose a simple CPU-based implementation and direct network quantization to assess the complexity/gains tradeoff in a conventional codec framework.
翻訳日:2022-02-14 01:25:32 公開日:2022-01-26
# (参考訳) Denoising Stacked AutoencoderとOptimized Deep Networkによる心房細動の自動分類 [全文訳有]

Automated Atrial Fibrillation Classification Based on Denoising Stacked Autoencoder and Optimized Deep Network ( http://arxiv.org/abs/2202.05177v1 )

ライセンス: CC BY 4.0
Prateek Singh, Ambalika Sharma, Shreesha Maiya(参考訳) 心房細動(AFib)の発症率は世界中で増加傾向にある。 AFibのリスクを早期に検出するために,我々はディープニューラルネットワークに基づく自動検出システムを開発した。 より良い分類を達成するためには、生理的信号の良好な前処理が必要である。 これを念頭に置いて,我々は2段階の研究を提案した。 まず,デノナイズドオートエンコーダ(DAE)を用いて心電図信号をデノナイズするエンド・ツー・エンドモデルを提案する。 そこで我々は,畳み込みニューラルネットワーク(CNN),高密度ニューラルネットワーク(DNN),リカレントニューラルネットワーク(RNN)の3つのネットワークを用いた。 3つのモデルとCNNベースのDAE性能を比較すると、他の2モデルよりも優れていることが分かる。 そのため、cnnベースのdaeで検出された信号はディープニューラルネットワークの分類訓練に用いられた。 3つのニューラルネットワークの性能は、評価基準として精度、特異性、感度、信号対雑音比(SNR)を用いて評価されている。 本研究における心房細動検出のためのエンドツーエンドディープラーニングモデルでは,99.20%の精度,99.50%の特異性,99.50%の感度,99.00%の正の正の正の値が得られた。 比較したアルゴリズムの平均精度は96.26%であり、我々のアルゴリズムの精度は他のアルゴリズムの平均よりも3.2%高い。 CNN分類ネットワークは、他の2つと比較して性能が良くなった。 さらに、このモデルはリアルタイムアプリケーションでは計算効率が良く、24時間ECG信号を処理するのに1.3秒かかる。 提案されたモデルは不整脈の比率が異なる未発見データセットでもテストされ、モデルの堅牢性が検証され、99.10%のリコールと98.50%の精度が得られた。

The incidences of atrial fibrillation (AFib) are increasing at a daunting rate worldwide. For the early detection of the risk of AFib, we have developed an automatic detection system based on deep neural networks. For achieving better classification, it is mandatory to have good pre-processing of physiological signals. Keeping this in mind, we have proposed a two-fold study. First, an end-to-end model is proposed to denoise the electrocardiogram signals using denoising autoencoders (DAE). To achieve denoising, we have used three networks including, convolutional neural network (CNN), dense neural network (DNN), and recurrent neural networks (RNN). Compared the three models and CNN based DAE performance is found to be better than the other two. Therefore, the signals denoised by the CNN based DAE were used to train the deep neural networks for classification. Three neural networks' performance has been evaluated using accuracy, specificity, sensitivity, and signal to noise ratio (SNR) as the evaluation criteria. The proposed end-to-end deep learning model for detecting atrial fibrillation in this study has achieved an accuracy rate of 99.20%, a specificity of 99.50%, a sensitivity of 99.50%, and a true positive rate of 99.00%. The average accuracy of the algorithms we compared is 96.26%, and our algorithm's accuracy is 3.2% higher than this average of the other algorithms. The CNN classification network performed better as compared to the other two. Additionally, the model is computationally efficient for real-time applications, and it takes approx 1.3 seconds to process 24 hours ECG signal. The proposed model was also tested on unseen dataset with different proportions of arrhythmias to examine the model's robustness, which resulted in 99.10% of recall and 98.50% of precision.
翻訳日:2022-02-14 01:18:36 公開日:2022-01-26
# (参考訳) 計算機科学と合成--振り返りと展望 [全文訳有]

Computer sciences and synthesis: retrospective and perspective ( http://arxiv.org/abs/2202.01291v1 )

ライセンス: CC BY 4.0
Vladislav Dorofeev, Petro Trokhimchuk(参考訳) サイバネティックス、人工知能、システム分析を含むコンピュータ科学における合成の問題を分析した。 この問題を実現する主要な方法について論じる。 普遍的合成科学の創成方法の探索方法が示されている。 そのような普遍的な方法の例として、多量解析が与えられる。 本研究のさらなる発展の展望として,計算機科学の解決の主要な問題に対するポリメトリック法の適用についても考察した。

The problem of synthesis in computer sciences, including cybernetics, artificial intelligence and system analysis, is analyzed. Main methods of realization this problem are discussed. Ways of search universal method of creation universal synthetic science are represented. As example of such universal method polymetric analysis is given. Perspective of further development of this research, including application polymetric method for the resolution main problems of computer sciences, is analyzed too.
翻訳日:2022-02-06 09:37:54 公開日:2022-01-26
# (参考訳) 可変オートエンコーダの対向訓練による誘導波損傷検出におけるsim-to-realギャップの閉鎖 [全文訳有]

Closing the sim-to-real gap in guided wave damage detection with adversarial training of variational auto-encoders ( http://arxiv.org/abs/2202.00570v1 )

ライセンス: CC BY 4.0
Ishan D. Khurjekar, Joel B. Harley(参考訳) ガイドウェーブテストは、インフラストラクチャの構造的完全性を監視するための一般的なアプローチである。 我々は,信号処理技術が一般的に用いられる損傷検出の第一課題に注目する。 検出性能は、波動伝搬モデルと実験波データとのミスマッチによって影響を受ける。 モデル化が難しい温度などの外部の変動も性能に影響する。 ディープラーニングモデルは代替の検出方法として考えられるが、現実のトレーニングデータセットが欠如していることが多い。 本研究では,波動物理誘導逆成分を用いたシミュレーションデータのみを用いて,変分オートエンコーダのアンサンブルを訓練することにより,この問題に対処する。 提案手法のロバスト性をテストするために,不均一な温度変動実験を行った。 本手法を既存のディープラーニング検出方式と比較し,実験データで優れた性能を観測する。

Guided wave testing is a popular approach for monitoring the structural integrity of infrastructures. We focus on the primary task of damage detection, where signal processing techniques are commonly employed. The detection performance is affected by a mismatch between the wave propagation model and experimental wave data. External variations, such as temperature, which are difficult to model, also affect the performance. While deep learning models can be an alternative detection method, there is often a lack of real-world training datasets. In this work, we counter this challenge by training an ensemble of variational autoencoders only on simulation data with a wave physics-guided adversarial component. We set up an experiment with non-uniform temperature variations to test the robustness of the methods. We compare our scheme with existing deep learning detection schemes and observe superior performance on experimental data.
翻訳日:2022-02-06 09:21:49 公開日:2022-01-26
# (参考訳) プローブによる修飾剤の挙動改善 [全文訳有]

Probe-Based Interventions for Modifying Agent Behavior ( http://arxiv.org/abs/2201.12938v1 )

ライセンス: CC BY 4.0
Mycal Tucker, William Kuhl, Khizer Shahid, Seth Karten, Katia Sycara, and Julie Shah(参考訳) ニューラルネットは強力な関数近似器であるが、与えられたニューラルネットの振る舞いは一度訓練されると容易に修正できない。 しかし私たちは、エージェントが人間とのトレーニングを行わなくても、神経エージェントの行動に影響を与えられるようにしたいと考えています。 モデル説明可能性のために開発された先行技術に着想を得て,外的特性に応じて事前学習したニューラルネットの表現を更新する手法を開発した。 実験では,複数エージェント強化学習環境において,画像分類器からエージェントまで,さまざまなニューラルネットワークのヒューマンエージェントチームパフォーマンスを改善するために,この手法をどのように利用するかを示す。

Neural nets are powerful function approximators, but the behavior of a given neural net, once trained, cannot be easily modified. We wish, however, for people to be able to influence neural agents' actions despite the agents never training with humans, which we formalize as a human-assisted decision-making problem. Inspired by prior art initially developed for model explainability, we develop a method for updating representations in pre-trained neural nets according to externally-specified properties. In experiments, we show how our method may be used to improve human-agent team performance for a variety of neural networks from image classifiers to agents in multi-agent reinforcement learning settings.
翻訳日:2022-02-06 09:13:14 公開日:2022-01-26
# (参考訳) 言語モデルにおけるocr雑音の影響評価 [全文訳有]

An Assessment of the Impact of OCR Noise on Language Models ( http://arxiv.org/abs/2202.00470v1 )

ライセンス: CC BY 4.0
Konstantin Todorov and Giovanni Colavizza(参考訳) ニューラルネットワークモデルは、現代の自然言語処理アプリケーションのバックボーンである。 そのため、光学文字認識(OCR)を施したテキスト遺産コレクションの利用も増加している。 それでも、OCRノイズが言語モデルに与える影響についての私たちの理解は限定的です。 我々は、オランダ語、英語、フランス語、ドイツ語のデータを用いて、OCRノイズが様々な言語モデルに与える影響を評価する。 OCRの品質が低下するにつれて,OCRのノイズは言語モデルにとって大きな障害となる。 小さなコーパスの存在下では、PPMIやWord2Vecといったシンプルなモデルは、この点においてトランスフォーマーベースのモデルより一貫して優れている。

Neural language models are the backbone of modern-day natural language processing applications. Their use on textual heritage collections which have undergone Optical Character Recognition (OCR) is therefore also increasing. Nevertheless, our understanding of the impact OCR noise could have on language models is still limited. We perform an assessment of the impact OCR noise has on a variety of language models, using data in Dutch, English, French and German. We find that OCR noise poses a significant obstacle to language modelling, with language models increasingly diverging from their noiseless targets as OCR quality lowers. In the presence of small corpora, simpler models including PPMI and Word2Vec consistently outperform transformer-based models in this respect.
翻訳日:2022-02-06 08:53:18 公開日:2022-01-26
# FiNCAT:財務数値クレーム分析ツール

FiNCAT: Financial Numeral Claim Analysis Tool ( http://arxiv.org/abs/2202.00631v1 )

ライセンス: Link先を確認
Sohom Ghosh, Sudip Kumar Naskar(参考訳) 金融文書を読むことで投資決定を行う一方で、投資家は定員と定員を区別する必要がある。 本稿では,自動で行うツールを提案する。 BERTと呼ばれるトランスフォーマーベースの事前学習言語モデルを用いて、数値のコンテキスト埋め込みを抽出する。 その後は、ロジスティック回帰ベースのモデルを使用して、数値が既定かどうかを検知する。 FinNum-3(英語)データセットを使ってモデルをトレーニングしています。 厳密な実験を行った後、検証セット上のマクロ F1 スコア 0.8223 を得る。 https://github.com/s ohomghosh/FiNCAT_Fin ancial_Numeral_Claim _Analysis_Toolからアクセスできます。

While making investment decisions by reading financial documents, investors need to differentiate between in-claim and outof-claim numerals. In this paper, we present a tool which does it automatically. It extracts context embeddings of the numerals using one of the transformer based pre-trained language model called BERT. After this, it uses a Logistic Regression based model to detect whether the numerals is in-claim or out-of-claim. We use FinNum-3 (English) dataset to train our model. After conducting rigorous experiments we achieve a Macro F1 score of 0.8223 on the validation set. We have open-sourced this tool and it can be accessed from https://github.com/s ohomghosh/FiNCAT_Fin ancial_Numeral_Claim _Analysis_Tool
翻訳日:2022-02-06 08:34:29 公開日:2022-01-26
# ランダム変数とベイズ最適処理を考慮したウェーブレットパケットを用いた確率的2次元信号生成モデル

Stochastic 2D Signal Generative Model with Wavelet Packets Basis Regarded as a Random Variable and Bayes Optimal Processing ( http://arxiv.org/abs/2202.00568v1 )

ライセンス: Link先を確認
Ryohei Oka, Yuta Nakahara, Toshiyasu Matsushima(参考訳) 本研究ではウェーブレットパケット変換を用いた2次元(2次元)信号処理を扱う。 基底が未知の場合、基底候補は信号サイズに関して指数関数的に増加する。 以前の研究では、基底をランダムなベイラブルとは考えていない。 したがって、コスト関数は基底を選択するために使われる必要がある。 しかし、この方法はしばしばヒューリスティックで欲深い検索であり、全ての候補を膨大な数のベースで検索することは不可能である。 したがって、基準条件下で信号処理全体を評価することは困難であり、信号処理全体の最適性を常に把握するとは限らない。 本研究では,基底を確率変数とする確率的生成モデルを提案する。 これにより、統一された基準、すなわちベイズ基準の下で信号処理全体を評価することができる。 さらに、理論的限界を達成する最適な信号処理方式を導出できる。 この導出スキームは、すべての基底を単一の基底を選択する代わりに後部に従って組み合わせるべきであることを示す。 このスキームには指数階数計算が必要であるが、このスキームに対する再帰的アルゴリズムを導出し、指数階数から多項式階数への計算複雑性の低減に成功した。

This study deals with two-dimensional (2D) signal processing using the wavelet packet transform. When the basis is unknown the candidate of basis increases in exponential order with respect to the signal size. Previous studies do not consider the basis as a random vaiables. Therefore, the cost function needs to be used to select a basis. However, this method is often a heuristic and a greedy search because it is impossible to search all the candidates for a huge number of bases. Therefore, it is difficult to evaluate the entire signal processing under a criterion and also it does not always gurantee the optimality of the entire signal processing. In this study, we propose a stochastic generative model in which the basis is regarded as a random variable. This makes it possible to evaluate entire signal processing under a unified criterion i.e. Bayes criterion. Moreover we can derive an optimal signal processing scheme that achieves the theoretical limit. This derived scheme shows that all the bases should be combined according to the posterior in stead of selecting a single basis. Although exponential order calculations is required for this scheme, we have derived a recursive algorithm for this scheme, which successfully reduces the computational complexity from the exponential order to the polynomial order.
翻訳日:2022-02-06 08:33:55 公開日:2022-01-26
# CGAN増強心電図信号を用いた不整脈分類

Arrhythmia Classification using CGAN-augmented ECG Signals ( http://arxiv.org/abs/2202.00569v1 )

ライセンス: Link先を確認
Edmond Adib, Fatemeh Afghah and John J. Prevost(参考訳) 心血管疾患を診断する最も簡単な方法は心電図(ECG)解析である。 ECGデータベースは通常、正常心電図が豊富であり、不整脈の検出にも同様に重要な異常症例が不足しているため、高度に不均衡な分布を持つ。 このように、これらのデータセットでトレーニングされたdl分類器は、通常、特にマイナークラスでは、性能が悪い。 不均衡に対処する1つの解決策は、データセットの強化と拡張のために主にgan(generative adversarial networks)を使用して、現実的な合成ecg信号を生成することである。 本研究では,データ拡張が不整脈分類に与える影響を検討する実験を考案した。 MIT-BIH Arrhythmiaデータセットを使用して、ECGのビート生成に2つの方法を採用した。 (i)無条件GAN、すなわち、勾配ペナルティ(WGAN-GP)を有するWasserstein GANを各クラスで個別に訓練する。 (ii) Auxiliary Classifier Wasserstein GAN with gradient penalty (AC-WGAN-GP) という条件付きGANモデルが利用可能なすべてのクラスで訓練され、1つのジェネレータを訓練する。 それぞれのケースで2つのシナリオを定義します。 一 生成したすべての合成ビートが後処理なしで直接使用された場合 二 指定されたテンプレートにより、生成したビートの一部が、そのダイナミックタイムワーピング(dtw)距離に基づいて選択される画面 ResNet分類器は4つの拡張データセットのそれぞれと精度、リコール、F1スコアのパフォーマンス指標に基づいてトレーニングされ、混乱行列は参照ケース、すなわち、不均衡な元のデータセットでトレーニングされたときに比較された。 この結果から,4つのケースにおいて,特に小クラス(通常0から0.27から0.99まで)における測定値の大幅な改善が達成された。 また、実データと比較してDTW距離関数を用いて、生成されたビートの品質を評価する。

One of the easiest ways to diagnose cardiovascular conditions is Electrocardiogram (ECG) analysis. ECG databases usually have highly imbalanced distributions due to the abundance of Normal ECG and scarcity of abnormal cases which are equally, if not more, important for arrhythmia detection. As such, DL classifiers trained on these datasets usually perform poorly, especially on minor classes. One solution to address the imbalance is to generate realistic synthetic ECG signals mostly using Generative Adversarial Networks (GAN) to augment and the datasets. In this study, we designed an experiment to investigate the impact of data augmentation on arrhythmia classification. Using the MIT-BIH Arrhythmia dataset, we employed two ways for ECG beats generation: (i) an unconditional GAN, i.e., Wasserstein GAN with gradient penalty (WGAN-GP) is trained on each class individually; (ii) a conditional GAN model, i.e., Auxiliary Classifier Wasserstein GAN with gradient penalty (AC-WGAN-GP) is trained on all the available classes to train one single generator. Two scenarios are defined for each case: i) unscreened where all the generated synthetic beats were used directly without any post-processing, and ii) screened where a portion of generated beats are selected based on their Dynamic Time Warping (DTW) distance with a designated template. A ResNet classifier is trained on each of the four augmented datasets and the performance metrics of precision, recall and F1-Score as well as the confusion matrices were compared with the reference case, i.e., when the classifier is trained on the imbalanced original dataset. The results show that in all four cases augmentation achieves impressive improvements in metrics particularly on minor classes (typically from 0 or 0.27 to 0.99). The quality of the generated beats is also evaluated using DTW distance function compared with real data.
翻訳日:2022-02-06 08:33:39 公開日:2022-01-26
# 拡張可能な政策一般化のための言語からの不変意味表現の学習

Learning Invariable Semantical Representation from Language for Extensible Policy Generalization ( http://arxiv.org/abs/2202.00466v1 )

ライセンス: Link先を確認
Yihan Li, Jinsheng Ren, Tianrun Xu, Tianren Zhang, Haichuan Gao, and Feng Chen(参考訳) 近年,自然言語命令を強化学習(rl)に取り入れ,意味的に意味のある表現を学習し,一般化を育むことが注目されている。 しかし、言語命令における意味的情報は、通常タスク固有の状態情報と絡み合っており、意味的に不変で再利用可能な表現の学習を妨げる。 本稿では,タスク関連だが環境に依存しないセマンティクスを,例えばトポロジ的構造やテクスチャといったランダムな要素を持つ環境の集合を用いて,命令から抽出する要素ランダム化と呼ばれる表現を学習する手法を提案する。 理論的には、ランダム化による意味論的不変表現の学習の可能性を証明する。 そこでは,目的条件付き低レベル政策の振る舞いを意味論的不変表現として提案することにより,高レベル政策をモデル化する。 課題は,(1)低レベル政策が環境変化に対するタスクに確実に一般化すること,(2) 階層的政策は,解決不能なタスクを複数のサブタスクに分解可能な拡張可能な一般化を示すこと,(3) 簡潔な政策表現として言語トラジェクトリを格納・再生することにより,エージェントはワンショットでタスクを完了できること,すなわち1つの軌道が達成されれば,タスクを完了できること,である。

Recently, incorporating natural language instructions into reinforcement learning (RL) to learn semantically meaningful representations and foster generalization has caught many concerns. However, the semantical information in language instructions is usually entangled with task-specific state information, which hampers the learning of semantically invariant and reusable representations. In this paper, we propose a method to learn such representations called element randomization, which extracts task-relevant but environment-agnostic semantics from instructions using a set of environments with randomized elements, e.g., topological structures or textures, yet the same language instruction. We theoretically prove the feasibility of learning semantically invariant representations through randomization. In practice, we accordingly develop a hierarchy of policies, where a high-level policy is designed to modulate the behavior of a goal-conditioned low-level policy by proposing subgoals as semantically invariant representations. Experiments on challenging long-horizon tasks show that (1) our low-level policy reliably generalizes to tasks against environment changes; (2) our hierarchical policy exhibits extensible generalization in unseen new tasks that can be decomposed into several solvable sub-tasks; and (3) by storing and replaying language trajectories as succinct policy representations, the agent can complete tasks in a one-shot fashion, i.e., once one successful trajectory has been attained.
翻訳日:2022-02-06 08:16:19 公開日:2022-01-26
# (参考訳) クロスモーダル検索のための判別教師付き部分空間学習 [全文訳有]

Discriminative Supervised Subspace Learning for Cross-modal Retrieval ( http://arxiv.org/abs/2201.11843v1 )

ライセンス: CC BY 4.0
Haoming Zhang, Xiao-Jun Wu, Tianyang Xu and Donglin Zhang(参考訳) 現在、異種データ間の測度は、クロスモーダル検索のオープンな問題となっている。 クロスモーダル検索のコアは、異なるタイプのデータ間の類似度を測定する方法である。 この問題を解決するために多くのアプローチが開発されている。 主流の1つとして、サブスペース学習に基づくアプローチは、マルチモーダルデータ間の類似性を直接測定できる共通のサブスペースの学習に注意を払っている。 しかし、既存のアプローチの多くは潜在サブスペースの学習にのみ焦点をあてている。 彼らは、意味的構造情報が十分に保存されないように、識別情報の完全な使用を無視する。 そのため、期待通りには結果が得られない。 本稿では,クロスモーダル検索(DS2L)のための識別的教師付きサブスペース学習を提案し,識別情報を十分に活用し,意味的構造情報をよりよく保存する。 具体的には、まず共有意味グラフを構築し、各モダリティ内の意味構造を保存する。 その後、Hilbert-Schmidt Independence Criterion (HSIC) を導入し、特徴相似性とサンプルの意味相似性との相似性を維持する。 第3に,類似性保存用語を導入することにより,識別データの不十分な使用の欠点を補い,各モダリティにおける意味論的構造情報の保存性が向上する。 3つのよく知られたベンチマークデータセットから得られた実験結果は、比較した古典部分空間学習手法に対する提案手法の有効性と競合性を示している。

Nowadays the measure between heterogeneous data is still an open problem for cross-modal retrieval. The core of cross-modal retrieval is how to measure the similarity between different types of data. Many approaches have been developed to solve the problem. As one of the mainstream, approaches based on subspace learning pay attention to learning a common subspace where the similarity among multi-modal data can be measured directly. However, many of the existing approaches only focus on learning a latent subspace. They ignore the full use of discriminative information so that the semantically structural information is not well preserved. Therefore satisfactory results can not be achieved as expected. We in this paper propose a discriminative supervised subspace learning for cross-modal retrieval(DS2L), to make full use of discriminative information and better preserve the semantically structural information. Specifically, we first construct a shared semantic graph to preserve the semantic structure within each modality. Subsequently, the Hilbert-Schmidt Independence Criterion(HSIC) is introduced to preserve the consistence between feature-similarity and semantic-similarity of samples. Thirdly, we introduce a similarity preservation term, thus our model can compensate for the shortcomings of insufficient use of discriminative data and better preserve the semantically structural information within each modality. The experimental results obtained on three well-known benchmark datasets demonstrate the effectiveness and competitiveness of the proposed method against the compared classic subspace learning approaches.
翻訳日:2022-02-01 14:33:54 公開日:2022-01-26
# スペックルに基づく光暗号システムとその深層学習による顔認識への応用

Speckle-based optical cryptosystem and its application for human face recognition via deep learning ( http://arxiv.org/abs/2201.11844v1 )

ライセンス: Link先を確認
Qi Zhao, Huanhao Li, Zhipeng Yu, Chi Man Woo, Tianting Zhong, Shengfu Cheng, Yuanjin Zheng, Honglin Liu, Jie Tian, and Puxiang Lai(参考訳) 顔認識は最近、認証やセキュリティのために多くの場面で普及している。 一方、顔画像のプライバシーに関する懸念は高まり、これは慎重に保護されるべき繊細な生体認証データである。 ソフトウェアベースの暗号システムは現在、顔画像の暗号化に広く採用されているが、セキュリティレベルはデジタル秘密鍵長の不足やコンピュータパワーによって制限されている。 ハードウェアベースの光暗号システムは、非常に長い秘密鍵を生成し、光速で暗号化することができるが、ダブルランダム位相暗号化のようなほとんどの報告された光学的手法は、システムの複雑さのために他のシステムとの互換性が低い。 本研究では,高効率なスペックルベースの光暗号システムを提案し,実装した。 散乱グラウンドガラスを用いて、ギガビット長の物理秘密鍵を生成し、光速でランダムな光学スペックルを通して顔画像を暗号化する。 顔画像は、よく訓練された復号ニューラルネットワークによってランダムなスペックルから復号化することができ、最大98%の精度で顔認識を実現することができる。 提案する暗号システムは広く適用可能であり、光学スペックルを利用することで、高度なセキュリティの複雑な情報暗号化と復号化のための新しい道を開く可能性がある。

Face recognition has recently become ubiquitous in many scenes for authentication or security purposes. Meanwhile, there are increasing concerns about the privacy of face images, which are sensitive biometric data that should be carefully protected. Software-based cryptosystems are widely adopted nowadays to encrypt face images, but the security level is limited by insufficient digital secret key length or computing power. Hardware-based optical cryptosystems can generate enormously longer secret keys and enable encryption at light speed, but most reported optical methods, such as double random phase encryption, are less compatible with other systems due to system complexity. In this study, a plain yet high-efficient speckle-based optical cryptosystem is proposed and implemented. A scattering ground glass is exploited to generate physical secret keys of gigabit length and encrypt face images via seemingly random optical speckles at light speed. Face images can then be decrypted from the random speckles by a well-trained decryption neural network, such that face recognition can be realized with up to 98% accuracy. The proposed cryptosystem has wide applicability, and it may open a new avenue for high-security complex information encryption and decryption by utilizing optical speckles.
翻訳日:2022-01-31 16:37:41 公開日:2022-01-26
# (参考訳) 神経陰影における微分幾何学 [全文訳有]

Differential Geometry in Neural Implicits ( http://arxiv.org/abs/2201.09263v2 )

ライセンス: CC BY 4.0
Tiago Novello, Vinicius da Silva, Helio Lopes, Guilherme Schardong, Luiz Schirmer, Luiz Velho(参考訳) トライアングルメッシュの離散微分幾何とニューラル暗黙曲面の連続微分幾何を橋渡しするニューラル暗黙の枠組みを導入する。 ニューラルネットワークの微分可能特性と三角形メッシュの離散幾何を利用して、それらを神経暗黙関数のゼロレベル集合として近似する。 ニューラル暗黙関数を訓練するために,主方向間のアライメントなどの高次導関数の項がより幾何学的詳細を知ることを可能にするロス関数を提案する。 トレーニング中、トライアングルメッシュの離散曲率に基づく非一様サンプリング戦略を検討し、より幾何学的な詳細を持つ点にアクセスする。 このサンプリングは、幾何学的精度を維持しながら、より高速な学習を意味する。 本稿では,正規ベクトルや曲率といった神経表面の解析微分幾何学式を提案する。 球面追跡を用いて表面を描画する。 さらに,パラメータ数を削減するために,特異値分解に基づくネットワーク最適化を提案する。

We introduce a neural implicit framework that bridges discrete differential geometry of triangle meshes and continuous differential geometry of neural implicit surfaces. It exploits the differentiable properties of neural networks and the discrete geometry of triangle meshes to approximate them as the zero-level sets of neural implicit functions. To train a neural implicit function, we propose a loss function that allows terms with high-order derivatives, such as the alignment between the principal directions, to learn more geometric details. During training, we consider a non-uniform sampling strategy based on the discrete curvatures of the triangle mesh to access points with more geometric details. This sampling implies faster learning while preserving geometric accuracy. We present the analytical differential geometry formulas for neural surfaces, such as normal vectors and curvatures. We use them to render the surfaces using sphere tracing. Additionally, we propose a network optimization based on singular value decomposition to reduce the number of parameters.
翻訳日:2022-01-29 07:17:38 公開日:2022-01-26
# (参考訳) Factify 2022のチームヤオ:マルチモーダル・ファクト検証のための事前学習モデルとコアテンションネットワークの利用 [全文訳有]

Team Yao at Factify 2022: Utilizing Pre-trained Models and Co-attention Networks for Multi-Modal Fact Verification ( http://arxiv.org/abs/2201.11664v1 )

ライセンス: CC BY 4.0
Wei-Yao Wang, Wen-Chih Peng(参考訳) 近年,ソーシャルメディアは,無数の誤情報や誤情報に接することを可能にしているため,研究分野や社会問題において,誤情報の注目が集まっている。 そこで本研究では,テキストや画像から特徴を抽出する2つの事前学習モデルと,同じモダリティを持つ異なるソースと異なるモダリティを融合する複数のコアテンションネットワークからなるPre-CoFactを提案する。 また, 先行学習モデルを用いて, より優れた性能を実現するためにアンサンブル手法を採用する。 さらに, アブレーション実験の有効性について検討し, 比較のための事前学習モデルについて検討した。 私たちのチームであるyaoは、de-factify @ aaai 2022が主催するfactify challengeで5位(f1-score: 74.585\%)を獲得しました。 私たちの作業のソースコードはhttps://github.com/w ywyWang/Multi-Modal- Fact-Verification-20 21で公開されています。

In recent years, social media has enabled users to get exposed to a myriad of misinformation and disinformation; thus, misinformation has attracted a great deal of attention in research fields and as a social issue. To address the problem, we propose a framework, Pre-CoFact, composed of two pre-trained models for extracting features from text and images, and multiple co-attention networks for fusing the same modality but different sources and different modalities. Besides, we adopt the ensemble method by using different pre-trained models in Pre-CoFact to achieve better performance. We further illustrate the effectiveness from the ablation study and examine different pre-trained models for comparison. Our team, Yao, won the fifth prize (F1-score: 74.585\%) in the Factify challenge hosted by De-Factify @ AAAI 2022, which demonstrates that our model achieved competitive performance without using auxiliary tasks or extra information. The source code of our work is publicly available at https://github.com/w ywyWang/Multi-Modal- Fact-Verification-20 21
翻訳日:2022-01-29 05:38:24 公開日:2022-01-26
# (参考訳) lagoon - オープンソースコミュニティのための分析ツール [全文訳有]

LAGOON: An Analysis Tool for Open Source Communities ( http://arxiv.org/abs/2201.11657v1 )

ライセンス: CC BY 4.0
Sourya Dey, Walt Woods(参考訳) 本稿では,オープンソースソフトウェア(OSS)コミュニティの複雑なエコシステムを理解するためのオープンソースプラットフォームであるLAGOONについて述べる。 このプラットフォームは現在、時空間グラフを使用して、これらのコミュニティによって生成されたアーティファクトを保存および調査し、OSSプロジェクトのセキュリティを侵害する可能性のある悪いアクターを特定するのに役立つ。 lagoonはソースコードリポジトリ、イシュートラッカー、メーリングリスト、プロジェクトwebサイトからのスクレイピングコンテンツなど、いくつかの一般的なソースからアーティファクトを取り込みます。 Ingestionは、データソースからのインクリメンタルアップデートをサポートし、異なるアカウントで同じコミュニティメンバーを認識可能な汎用ID融合プロセスを提供するモジュールアーキテクチャを使用している。 OSSプロジェクトの完全な社会技術グラフの可視化と探索のためのユーザインターフェースを提供する。 データ内のパターンを識別するために機械学習を適用するためのスクリプトが提供されている。 現在の焦点はpythonコミュニティにおける悪役の識別にあるが、プラットフォームの再利用性は、新しいデータと分析で容易に拡張でき、ラグーンが様々なossベースのプロジェクトとそのコミュニティを評価する包括的な手段になる道を開く。

This paper presents LAGOON -- an open source platform for understanding the complex ecosystems of Open Source Software (OSS) communities. The platform currently utilizes spatiotemporal graphs to store and investigate the artifacts produced by these communities, and help analysts identify bad actors who might compromise an OSS project's security. LAGOON provides ingest of artifacts from several common sources, including source code repositories, issue trackers, mailing lists and scraping content from project websites. Ingestion utilizes a modular architecture, which supports incremental updates from data sources and provides a generic identity fusion process that can recognize the same community members across disparate accounts. A user interface is provided for visualization and exploration of an OSS project's complete sociotechnical graph. Scripts are provided for applying machine learning to identify patterns within the data. While current focus is on the identification of bad actors in the Python community, the platform's reusability makes it easily extensible with new data and analyses, paving the way for LAGOON to become a comprehensive means of assessing various OSS-based projects and their communities.
翻訳日:2022-01-29 05:24:54 公開日:2022-01-26
# (参考訳) 創発領域のオープン・リトリーバル質問応答システムにおける言語交叉問題への取り組み [全文訳有]

Addressing Issues of Cross-Linguality in Open-Retrieval Question Answering Systems For Emergent Domains ( http://arxiv.org/abs/2201.11153v1 )

ライセンス: CC BY 4.0
Alon Albalak, Sharon Levy, and William Yang Wang(参考訳) オープンリトライの質問応答システムは一般的に訓練され、確立されたドメインの大規模データセット上でテストされる。 しかし、新規ドメインや新興ドメインのような低リソース設定は、特に信頼性の高い質問応答システムの恩恵を受ける。 さらに、創発ドメインにおける多言語および言語間リソースは少ないため、そのようなシステムはほとんど、あるいは全くない。 本稿では,COVID-19の創発的ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。 本システムでは,検索された文書の信頼性を確保するために,科学論文のコーパスを採用している。 本稿では,創発領域における言語間学習データの不足に対処するために,自動翻訳,アライメント,フィルタリングを用いて英語対全データセットを生成する手法を提案する。 深いセマンティックレトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境でBM25ベースラインを大幅に上回っていることを示す。 このようなシステムをトレーニングし、デプロイするために必要なすべてのコードをサンプルで公開し、システムの機能を説明します。

Open-retrieval question answering systems are generally trained and tested on large datasets in well-established domains. However, low-resource settings such as new and emerging domains would especially benefit from reliable question answering systems. Furthermore, multilingual and cross-lingual resources in emergent domains are scarce, leading to few or no such systems. In this paper, we demonstrate a cross-lingual open-retrieval question answering system for the emergent domain of COVID-19. Our system adopts a corpus of scientific articles to ensure that retrieved documents are reliable. To address the scarcity of cross-lingual training data in emergent domains, we present a method utilizing automatic translation, alignment, and filtering to produce English-to-all datasets. We show that a deep semantic retriever greatly benefits from training on our English-to-all data and significantly outperforms a BM25 baseline in the cross-lingual setting. We illustrate the capabilities of our system with examples and release all code necessary to train and deploy such a system.
翻訳日:2022-01-29 05:14:33 公開日:2022-01-26
# (参考訳) ハイブリッド確率論理プログラムにおける一階文脈特異的重み付け

First-Order Context-Specific Likelihood Weighting in Hybrid Probabilistic Logic Programs ( http://arxiv.org/abs/2201.11165v1 )

ライセンス: CC BY 4.0
Nitesh Kumar, Ondrej Kuzelka, Luc De Raedt(参考訳) 統計的リレーショナルAIと確率論理プログラミングは、これまで主に離散確率モデルに焦点を当ててきた。 その理由は、そのようなモデルの非依存性を簡潔にモデル化し、効率的な推論を提供する構造を提供する必要があるからである。 ベイジアンネットワークでエレガントにモデル化された条件付き独立性、自然に論理規則で表される文脈固有の独立性、関係モデルにおける関連オブジェクトの属性間の独立性は、規則を組み合わせることによって簡潔に表現される。 本稿では,ベイズ論理プログラムの分布節の構文と意味論を統合した,確率的論理プログラミング言語dc#を提案する。 定性的に3種類の無依存を表す。 さらに重要なことは、DC#用のスケーラブル推論アルゴリズムFO-CS-LWについても紹介する。 FO-CS-LW(FO-CS-LW)は、地上モデルにおける条件付き非依存性と文脈固有の非依存性を利用する新しいサンプリング法である。 FO-CS-LWアルゴリズムはCS-LWを統一してアップグレードし、ルールを1次ケースに組み合わせる。

Statistical relational AI and probabilistic logic programming have so far mostly focused on discrete probabilistic models. The reasons for this is that one needs to provide constructs to succinctly model the independencies in such models, and also provide efficient inference. Three types of independencies are important to represent and exploit for scalable inference in hybrid models: conditional independencies elegantly modeled in Bayesian networks, context-specific independencies naturally represented by logical rules, and independencies amongst attributes of related objects in relational models succinctly expressed by combining rules. This paper introduces a hybrid probabilistic logic programming language, DC#, which integrates distributional clauses' syntax and semantics principles of Bayesian logic programs. It represents the three types of independencies qualitatively. More importantly, we also introduce the scalable inference algorithm FO-CS-LW for DC#. FO-CS-LW is a first-order extension of the context-specific likelihood weighting algorithm (CS-LW), a novel sampling method that exploits conditional independencies and context-specific independencies in ground models. The FO-CS-LW algorithm upgrades CS-LW with unification and combining rules to the first-order case.
翻訳日:2022-01-29 05:05:09 公開日:2022-01-26
# (参考訳) 深層強化学習のためのハイパーパラメータチューニング [全文訳有]

Hyperparameter Tuning for Deep Reinforcement Learning Applications ( http://arxiv.org/abs/2201.11182v1 )

ライセンス: CC BY 4.0
Mariam Kiran and Melis Ozyildirim(参考訳) 強化学習(rl)アプリケーションは、エージェントが環境と対話することによって最適な振る舞いを学習できるが、単純な振り子から複雑なデータセンターまで、さまざまなアプリケーションで急速に成功している。 しかし、適切なハイパーパラメータの設定は、RLによって生成された推論モデルにおいて、デプロイされたソリューションのパフォーマンスと信頼性に大きな影響を与える可能性がある。 ハイパーパラメータ検索自体は多くのイテレーションを必要とし、最適なニューラルネットワークアーキテクチャを生み出す最適な設定を見つけるのに計算コストがかかります。 他のニューラルネットワークアーキテクチャと比較して、アルゴリズムの複雑さとシミュレーションプラットフォームが必要なため、ディープRLはハイパーパラメータチューニングをあまり見ていない。 本稿では,様々なrlアプリケーションに対してハイパーパラメータを体系的にチューニングし,進化を通じてアーキテクチャのトレーニング時間とロバスト性を向上させる分散可変長遺伝的アルゴリズムフレームワークを提案する。 単純体育館から複雑な応用まで)多くのRL問題に対するアプローチのスケーラビリティを実証し,ベイズ的アプローチと比較した。 以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストが低く, デプロイに堅牢な最適解が得られた。 実世界の問題に対する深層強化学習制御の推進に本研究は不可欠である。

Reinforcement learning (RL) applications, where an agent can simply learn optimal behaviors by interacting with the environment, are quickly gaining tremendous success in a wide variety of applications from controlling simple pendulums to complex data centers. However, setting the right hyperparameters can have a huge impact on the deployed solution performance and reliability in the inference models, produced via RL, used for decision-making. Hyperparameter search itself is a laborious process that requires many iterations and computationally expensive to find the best settings that produce the best neural network architectures. In comparison to other neural network architectures, deep RL has not witnessed much hyperparameter tuning, due to its algorithm complexity and simulation platforms needed. In this paper, we propose a distributed variable-length genetic algorithm framework to systematically tune hyperparameters for various RL applications, improving training time and robustness of the architecture, via evolution. We demonstrate the scalability of our approach on many RL problems (from simple gyms to complex applications) and compared with Bayesian approach. Our results show that with more generations, optimal solutions that require fewer training episodes and are computationally cheap while being more robust for deployment. Our results are imperative to advance deep reinforcement learning controllers for real-world problems.
翻訳日:2022-01-29 05:04:02 公開日:2022-01-26
# (参考訳) DIREG3D:複数のカメラから3Dハンドを正確に取り出す

DIREG3D: DIrectly REGress 3D Hands from Multiple Cameras ( http://arxiv.org/abs/2201.11187v1 )

ライセンス: CC BY 4.0
Ashar Ali, Upal Mahbub, Gokce Dane, Gerhard Reitmayr(参考訳) 本稿では,3次元ハンドトラッキングのための総合的なフレームワークであるDIREG3Dを提案する。 提案するフレームワークは,カメラ固有のパラメータ,3次元形状,中間2次元キュー,視覚情報をレグレッションパラメータに活用して,ハンドメッシュモデルを正確に表現することができる。 実験の結果,2次元手の大きさ,光学中心からの距離,放射歪みなどの情報は,単分子情報から高信頼な3次元ポーズを導出するのに有用であることがわかった。 さらに, 異なる視点の特徴を融合して, マルチビューカメラのセットアップにこれらの結果を拡張した。

In this paper, we present DIREG3D, a holistic framework for 3D Hand Tracking. The proposed framework is capable of utilizing camera intrinsic parameters, 3D geometry, intermediate 2D cues, and visual information to regress parameters for accurately representing a Hand Mesh model. Our experiments show that information like the size of the 2D hand, its distance from the optical center, and radial distortion is useful for deriving highly reliable 3D poses in camera space from just monocular information. Furthermore, we extend these results to a multi-view camera setup by fusing features from different viewpoints.
翻訳日:2022-01-29 04:50:18 公開日:2022-01-26
# (参考訳) 機械学習に基づく元素置換による結晶構造予測 [全文訳有]

Crystal structure prediction with machine learning-based element substitution ( http://arxiv.org/abs/2201.11188v1 )

ライセンス: CC BY 4.0
Minoru Kusaba, Chang Liu, Ryo Yoshida(参考訳) 化学組成によって形成されるエネルギー的に安定な結晶構造の予測は、固体物理学の中心的な問題である。 原理上、集積原子の結晶状態はエネルギー面を最適化することで決定でき、第一原理計算を用いて評価することができる。 しかし、第一原理計算を用いたポテンシャルエネルギー表面の反復勾配降下は、単位セル当たりの原子数が多いような複雑なシステムでは、極めて高価である。 本稿では,メカニカルラーニングと呼ばれる機械学習アルゴリズムに依存する結晶構造予測(CSP)のユニークな手法を提案する。 多数の既に同定済みの結晶構造に基づいて訓練された二元分類器は、約96.4\%の精度で2つの化学組成によって形成される結晶構造の同型を決定できることが示されている。 未知の結晶構造を持つ与えられた問合せ合成に対して、モデルを用いて、要素置換が適用されるほぼ同一の安定した構造を持つテンプレート結晶の集合を結晶構造データベースから自動的に選択する。 同定されたテンプレートの局所緩和計算とは別に,提案手法では ab initio 計算を使わない。 このサブステーションベースのCSPのポテンシャルは、様々な結晶系で実証されている。

The prediction of energetically stable crystal structures formed by a given chemical composition is a central problem in solid-state physics. In principle, the crystalline state of assembled atoms can be determined by optimizing the energy surface, which in turn can be evaluated using first-principles calculations. However, performing the iterative gradient descent on the potential energy surface using first-principles calculations is prohibitively expensive for complex systems, such as those with many atoms per unit cell. Here, we present a unique methodology for crystal structure prediction (CSP) that relies on a machine learning algorithm called metric learning. It is shown that a binary classifier, trained on a large number of already identified crystal structures, can determine the isomorphism of crystal structures formed by two given chemical compositions with an accuracy of approximately 96.4\%. For a given query composition with an unknown crystal structure, the model is used to automatically select from a crystal structure database a set of template crystals with nearly identical stable structures to which element substitution is to be applied. Apart from the local relaxation calculation of the identified templates, the proposed method does not use ab initio calculations. The potential of this substation-based CSP is demonstrated for a wide variety of crystal systems.
翻訳日:2022-01-29 04:49:30 公開日:2022-01-26
# (参考訳) 注意は説明にはならない [全文訳有]

Attention cannot be an Explanation ( http://arxiv.org/abs/2201.11194v1 )

ライセンス: CC BY 4.0
Arjun R Akula, Song-Chun Zhu(参考訳) 深いニューラルネットワークのようなブラックボックスモデルに解釈可能性を提供することによって、注意に基づく説明(viz. saliency map)は、基礎となるモデルに対する人間の信頼と信頼を改善すると仮定される。 近年,注意重みは,特徴量の勾配に基づく尺度とは無関係であることが示されている。 注意の重み付けが特徴の重要度とよく相関するタスクのみを考えると、これらの注意に基づく説明は、人間の信頼と基礎となるモデルへの依存度を高める上で、どの程度効果的か? 言い換えれば、注意を説明として利用できますか? 我々は,人間の信頼と信頼の増大に注意に基づく説明が適する程度を質的かつ定量的に評価することを目的とした,広範な人間実験を行う。 実験の結果,注意は説明として利用できないことがわかった。

Attention based explanations (viz. saliency maps), by providing interpretability to black box models such as deep neural networks, are assumed to improve human trust and reliance in the underlying models. Recently, it has been shown that attention weights are frequently uncorrelated with gradient-based measures of feature importance. Motivated by this, we ask a follow-up question: "Assuming that we only consider the tasks where attention weights correlate well with feature importance, how effective are these attention based explanations in increasing human trust and reliance in the underlying models?". In other words, can we use attention as an explanation? We perform extensive human study experiments that aim to qualitatively and quantitatively assess the degree to which attention based explanations are suitable in increasing human trust and reliance. Our experiment results show that attention cannot be used as an explanation.
翻訳日:2022-01-29 04:34:52 公開日:2022-01-26
# (参考訳) imacs: 画像モデルによる比較要約 [全文訳有]

IMACS: Image Model Attribution Comparison Summaries ( http://arxiv.org/abs/2201.11196v1 )

ライセンス: CC BY 4.0
Eldon Schoop, Ben Wedin, Andrei Kapishnikov, Tolga Bolukbasi, Michael Terry(参考訳) 適切なディープニューラルネットワーク(dnn)を開発するには、異なるモデルバージョンを評価し比較する、かなりのイテレーションが必要となる。 正確性などのメトリクスは、データセット全体にわたるモデルのパフォーマンスを簡潔に記述したり、モデルバージョンを直接比較するための強力な手段である一方、実践者はモデルの予測に影響を与える要因についてより深く理解したいと考えることが多い。 勾配法や局所近似のような解釈可能性技術は、小さな入力の集合を詳細に調べるために用いられるが、小さな集合の結果がデータセット全体にわたって一般化されるかどうかを判断することは困難である。 2つのDNN画像モデル間の属性の違いを要約するために、勾配モデル属性と集約と可視化技術を組み合わせたIMACSを提案する。 より具体的には、IMACSは評価データセットから健全な入力特徴を抽出し、類似性に基づいてクラスタ化し、類似した入力特徴に対するモデル属性の違いを可視化する。 本研究では,データセット間での2つのモデルの帰属情報を集約し,要約し,比較するためのフレームワークを提案する。また,2つの画像分類モデルの違いを強調する可視化を行い,衛星画像上で訓練された2つのモデル間のドメインシフトに起因する行動の違いを明らかにする。

Developing a suitable Deep Neural Network (DNN) often requires significant iteration, where different model versions are evaluated and compared. While metrics such as accuracy are a powerful means to succinctly describe a model's performance across a dataset or to directly compare model versions, practitioners often wish to gain a deeper understanding of the factors that influence a model's predictions. Interpretability techniques such as gradient-based methods and local approximations can be used to examine small sets of inputs in fine detail, but it can be hard to determine if results from small sets generalize across a dataset. We introduce IMACS, a method that combines gradient-based model attributions with aggregation and visualization techniques to summarize differences in attributions between two DNN image models. More specifically, IMACS extracts salient input features from an evaluation dataset, clusters them based on similarity, then visualizes differences in model attributions for similar input features. In this work, we introduce a framework for aggregating, summarizing, and comparing the attribution information for two models across a dataset; present visualizations that highlight differences between 2 image classification models; and show how our technique can uncover behavioral differences caused by domain shift between two models trained on satellite images.
翻訳日:2022-01-29 04:26:09 公開日:2022-01-26
# (参考訳) 画像からの行動と精神状態の機械学習分類への挑戦と機会 [全文訳有]

Challenges and Opportunities for Machine Learning Classification of Behavior and Mental State from Images ( http://arxiv.org/abs/2201.11197v1 )

ライセンス: CC BY 4.0
Peter Washington, Cezmi Onur Mutlu, Aaron Kline, Kelley Paskov, Nate Tyler Stockham, Brianna Chrisman, Nick Deveau, Mourya Surhabi, Nick Haber, Dennis P. Wall(参考訳) 非言語的な社会的行動や精神状態の識別と検出を行うコンピュータビジョン(CV)分類器は、精神医学や行動科学のデジタル診断や治療に役立つ。 従来型および構造化された分類タスクのためのCV分類器は、データラベリング、前処理、畳み込みニューラルネットワークのトレーニングからなる教師あり学習のための標準的な機械学習パイプラインで開発することができるが、このプロセスで行動表現を試みようとすると、いくつかの痛点が生じる。 ここでは、異種データを扱うこと、偏りのあるモデルを避けること、大規模かつ反復的なデータセットにラベルをつけること、曖昧あるいは複合的なクラスラベルを扱うこと、プライバシの懸念を管理すること、適切な表現を作成すること、パーソナライズモデルである。 データキュレーション、データ拡張、クラウドソースラベル付け、アクティブラーニング、強化学習、生成モデル、表現学習、フェデレーション学習、メタラーニングなど、cvにおける最先端の研究活動について論じる。 われわれは、画像分類器が人間の社会的手がかりを成功かつ確実に検出するために必要な機械学習の進歩を少なくともいくつか強調する。

Computer Vision (CV) classifiers which distinguish and detect nonverbal social human behavior and mental state can aid digital diagnostics and therapeutics for psychiatry and the behavioral sciences. While CV classifiers for traditional and structured classification tasks can be developed with standard machine learning pipelines for supervised learning consisting of data labeling, preprocessing, and training a convolutional neural network, there are several pain points which arise when attempting this process for behavioral phenotyping. Here, we discuss the challenges and corresponding opportunities in this space, including handling heterogeneous data, avoiding biased models, labeling massive and repetitive data sets, working with ambiguous or compound class labels, managing privacy concerns, creating appropriate representations, and personalizing models. We discuss current state-of-the-art research endeavors in CV such as data curation, data augmentation, crowdsourced labeling, active learning, reinforcement learning, generative models, representation learning, federated learning, and meta-learning. We highlight at least some of the machine learning advancements needed for imaging classifiers to detect human social cues successfully and reliably.
翻訳日:2022-01-29 04:06:42 公開日:2022-01-26
# (参考訳) 生成木:敵意と模倣木

Generative Trees: Adversarial and Copycat ( http://arxiv.org/abs/2201.11205v1 )

ライセンス: CC BY 4.0
Richard Nock and Mathieu Guillame-Bert(参考訳) Generative Adversarial Networks (GAN) は、画像のような構造化されていないデータに対して素晴らしい結果を得るが、表形式のデータにはまだ差がある。 本稿では、DT誘導のための教師付きタスクの最高のコンポーネントを数十年前から理解し、損失(適正性)、モデル(ツリーベース)からアルゴリズム(ブースティング)まで、表型データ生成に向けた新たな道筋を提案する。 教師付き損失に関する \textit{properness} 条件 - ベイズ規則の最適性を仮定する - は、dtsによって自明に満足されたキャリブレーション特性を識別者が満たすと、変分ganスタイルの損失定式化を導いてくれる。 次に、表データ分類のためのdtsの優れた特性を、gtsのためのブースティング準拠の \textit{adversarial} トレーニングアルゴリズムで反映する木ベースの生成モデル \textit{generative trees} (gts) を導入する。 また,識別器DTのツリー(グラフ)実行時にジェネレータがコピーし,最も難しい識別タスクのために完了し,従順な収束を促進させるような‘textit{copycat training} も導入する。 我々は、フェイク/現実の区別、フェイクデータからのトレーニング、欠落データ計算などのタスクでアルゴリズムをテストする。 これらのタスクのそれぞれが、GTsがデータ生成(ニューラルネットワークモデルを用いた)やデータ計算の欠如(複雑なツリーベースモデリングによる連鎖方程式による多重計算に基づく)のための高度な手法の高度な状態に対して、比較的単純で解釈可能な -- を提供することができることを示す。

While Generative Adversarial Networks (GANs) achieve spectacular results on unstructured data like images, there is still a gap on tabular data, data for which state of the art supervised learning still favours to a large extent decision tree (DT)-based models. This paper proposes a new path forward for the generation of tabular data, exploiting decades-old understanding of the supervised task's best components for DT induction, from losses (properness), models (tree-based) to algorithms (boosting). The \textit{properness} condition on the supervised loss -- which postulates the optimality of Bayes rule -- leads us to a variational GAN-style loss formulation which is \textit{tight} when discriminators meet a calibration property trivially satisfied by DTs, and, under common assumptions about the supervised loss, yields "one loss to train against them all" for the generator: the $\chi^2$. We then introduce tree-based generative models, \textit{generative trees} (GTs), meant to mirror on the generative side the good properties of DTs for classifying tabular data, with a boosting-compliant \textit{adversarial} training algorithm for GTs. We also introduce \textit{copycat training}, in which the generator copies at run time the underlying tree (graph) of the discriminator DT and completes it for the hardest discriminative task, with boosting compliant convergence. We test our algorithms on tasks including fake/real distinction, training from fake data and missing data imputation. Each one of these tasks displays that GTs can provide comparatively simple -- and interpretable -- contenders to sophisticated state of the art methods for data generation (using neural network models) or missing data imputation (relying on multiple imputation by chained equations with complex tree-based modeling).
翻訳日:2022-01-29 03:32:35 公開日:2022-01-26
# (参考訳) スキップ接続型ニューラルネットワークのプルーニングにおける特徴写像のエネルギー統計について [全文訳有]

On The Energy Statistics of Feature Maps in Pruning of Neural Networks with Skip-Connections ( http://arxiv.org/abs/2201.11209v1 )

ライセンス: CC BY 4.0
Mohammadreza Soltani, Suya Wu, Yuerong Li, Jie Ding, Vahid Tarokh(参考訳) 我々は,隠れた層と予測出力の統計的依存性を計測し,スキップ接続でディープニューラルネットワーク(DNN)を圧縮する新しい構造化プルーニングフレームワークを提案する。 隠れた層のエネルギー統計によって定義される依存測度は、特徴写像とネットワークの出力の間の情報に関するモデルフリーな尺度である。 推定依存測度は、後に冗長層と非可換層の集まりをプルーピングするために使用される。 提案手法のモデル自由度は,特徴写像分布のパラメトリックな仮定が不要であることを保証し,DNNにおける非常に高次元の特徴空間を計算的にアピールする。 各種アーキテクチャの大規模数値実験により, 最先端手法に対する競争性能を有するプルーニング手法の有効性が示された。

We propose a new structured pruning framework for compressing Deep Neural Networks (DNNs) with skip connections, based on measuring the statistical dependency of hidden layers and predicted outputs. The dependence measure defined by the energy statistics of hidden layers serves as a model-free measure of information between the feature maps and the output of the network. The estimated dependence measure is subsequently used to prune a collection of redundant and uninformative layers. Model-freeness of our measure guarantees that no parametric assumptions on the feature map distribution are required, making it computationally appealing for very high dimensional feature space in DNNs. Extensive numerical experiments on various architectures show the efficacy of the proposed pruning approach with competitive performance to state-of-the-art methods.
翻訳日:2022-01-29 03:31:01 公開日:2022-01-26
# (参考訳) DNNFuser:DNN加速器におけるレイヤー融合のための一般化マッパーとしての生成事前学習変換器 [全文訳有]

DNNFuser: Generative Pre-Trained Transformer as a Generalized Mapper for Layer Fusion in DNN Accelerators ( http://arxiv.org/abs/2201.11218v1 )

ライセンス: CC BY 4.0
Sheng-Chun Kao, Xiaoyu Huang, Tushar Krishna(参考訳) dataflow/mappingはdnnアクセラレータの計算とエネルギー効率を決定する。 層内マップスペースに取り組むために多くのマッパーが提案されている。 しかし,層間マップ空間(層間マップ空間)のマップパについてはほとんど議論されていない。 本研究では,この層融合マップ空間に着目したマッパーDNNFuserを提案する。 既存のsata dnnマッピング探索は、検索ベースのマッパーに依存しているが、我々の知る限りでは、ワンショット推論ベースのマッパーを提案する最初の作業である。 我々は、DNNアーキテクチャとして有名な言語モデルGPTを活用し、シーケンスモデリング問題として層融合最適化を学習する。 さらに、訓練されたDNNFuserは、その知識を一般化し、目に見えない条件に対する新しいソリューションを推論することができる。 1つの推論パス内では、DNNFuserは、高度に最適化された検索ベースのマッパーで見つかるものと互換性のあるソリューションを66x-127倍高速に推論することができる。

Dataflow/mapping decides the compute and energy efficiency of DNN accelerators. Many mappers have been proposed to tackle the intra-layer map-space. However, mappers for inter-layer map-space (aka layer-fusion map-space), have been rarely discussed. In this work, we propose a mapper, DNNFuser, specifically focusing on this layer-fusion map-space. While existing SOTA DNN mapping explorations rely on search-based mappers, this is the first work, to the best of our knowledge, to propose a one-shot inference-based mapper. We leverage a famous language model GPT as our DNN architecture to learn layer-fusion optimization as a sequence modeling problem. Further, the trained DNNFuser can generalize its knowledge and infer new solutions for unseen conditions. Within one inference pass, DNNFuser can infer solutions with compatible performance to the ones found by a highly optimized search-based mapper while being 66x-127x faster.
翻訳日:2022-01-29 03:16:59 公開日:2022-01-26
# (参考訳) DiGamma:DNN加速器のHWマッピング協調最適化のためのドメイン認識遺伝的アルゴリズム [全文訳有]

DiGamma: Domain-aware Genetic Algorithm for HW-Mapping Co-optimization for DNN Accelerators ( http://arxiv.org/abs/2201.11220v1 )

ライセンス: CC BY 4.0
Sheng-Chun Kao, Michael Pellauer, Angshuman Parashar, Tushar Krishna(参考訳) DNNアクセラレータの設計には、HWリソース設定とマッピング戦略の2つの重要な部分が含まれている。 それぞれを独立して最適化するための集中的な研究が行われている。 残念ながら、両者を最適化することは極めて大きなクロスカップリング検索スペースのために非常に難しい。 そこで本稿では,HW-Mapping共最適化フレームワーク,HWとマッピングによって構築された巨大な設計空間の効率的な符号化,ドメイン認識型遺伝的アルゴリズムであるDiGammaを提案する。 異なる特性を持つ7つのDNNモデルを用いてDiGammaを評価する。 評価の結果,DiGammaは,エッジおよびクラウド設定において,最高性能のベースライン最適化アルゴリズムと比較して,3.0xと10.0xの高速化を実現することができた。

The design of DNN accelerators includes two key parts: HW resource configuration and mapping strategy. Intensive research has been conducted to optimize each of them independently. Unfortunately, optimizing for both together is extremely challenging due to the extremely large cross-coupled search space. To address this, in this paper, we propose a HW-Mapping co-optimization framework, an efficient encoding of the immense design space constructed by HW and Mapping, and a domain-aware genetic algorithm, named DiGamma, with specialized operators for improving search efficiency. We evaluate DiGamma with seven popular DNNs models with different properties. Our evaluations show DiGamma can achieve (geomean) 3.0x and 10.0x speedup, comparing to the best-performing baseline optimization algorithms, in edge and cloud settings.
翻訳日:2022-01-29 03:05:40 公開日:2022-01-26
# (参考訳) 重み付きおよび有向ランダムドット製品グラフのオンライン変化点検出 [全文訳有]

Online Change Point Detection for Weighted and Directed Random Dot Product Graphs ( http://arxiv.org/abs/2201.11222v1 )

ライセンス: CC BY 4.0
Bernardo Marenco, Paola Bermolen, Marcelo Fiori, Federico Larroca, Gonzalo Mateos(参考訳) ランダムな(方向と重み付き)グラフのシーケンスが与えられた場合、オンライン監視と基盤となるデータ分布の変化の検出の問題に対処します。 我々の考えは,汎用的ランダムドット製品グラフ(RDPG)モデルに基づくグラフ表現学習基板を用いた逐次変化点検出(CPD)技術の実現である。 本稿では,ストリーミンググラフ観測とRDPGの差分を定量化する,効果的なオンライン監視機能の更新について考察する。 この参照分布は、最初の数個のグラフのスペクトル埋め込みによって推定される。 我々は、この動作統計の分布を、誤差レート制御を保証するしきい値の選択に特徴付け、近似を単純化することにより、アルゴリズムの検出精度と遅延に関する洞察を提供する。 結局のところ、RDPG埋め込みの精度の良い解釈性によって説明できる軽量オンラインCDDアルゴリズムである。 これは、広範な計算に依存する既存のグラフCPDアプローチや、観測された時系列全体を保存して処理するグラフCPDアプローチとは対照的である。 RDPGモデルの明らかな制限は、非方向性グラフと非重みグラフのみに適合する点である。 従来の提案と異なり、重み付けグラフに対する非パラメトリックRDPGモデルは、推定と推定を行うために重み付け分布の事前仕様を必要としない。 このネットワークモデリングの貢献は、PDを超えた独立した関心事である。 我々は、重み付き直接グラフのための新しいオンラインCPDアルゴリズムをオープンソースで実装し、(再現可能な)合成および実ネットワークデータ実験によって効率と効率を実証する。

Given a sequence of random (directed and weighted) graphs, we address the problem of online monitoring and detection of changes in the underlying data distribution. Our idea is to endow sequential change-point detection (CPD) techniques with a graph representation learning substrate based on the versatile Random Dot Product Graph (RDPG) model. We consider efficient, online updates of a judicious monitoring function, which quantifies the discrepancy between the streaming graph observations and the nominal RDPG. This reference distribution is inferred via spectral embeddings of the first few graphs in the sequence. We characterize the distribution of this running statistic to select thresholds that guarantee error-rate control, and under simplifying approximations we offer insights on the algorithm's detection resolution and delay. The end result is a lightweight online CPD algorithm, that is also explainable by virtue of the well-appreciated interpretability of RDPG embeddings. This is in stark contrast with most existing graph CPD approaches, which either rely on extensive computation, or they store and process the entire observed time series. An apparent limitation of the RDPG model is its suitability for undirected and unweighted graphs only, a gap we aim to close here to broaden the scope of the CPD framework. Unlike previous proposals, our non-parametric RDPG model for weighted graphs does not require a priori specification of the weights' distribution to perform inference and estimation. This network modeling contribution is of independent interest beyond CPD. We offer an open-source implementation of the novel online CPD algorithm for weighted and direct graphs, whose effectiveness and efficiency are demonstrated via (reproducible) synthetic and real network data experiments.
翻訳日:2022-01-29 02:52:20 公開日:2022-01-26
# (参考訳) マルチモーダル生理データと個人年代記を用いた明日の影響の客観的予測--2020年大学生の健康状態のモニタリングに関する研究 [全文訳有]

Objective Prediction of Tomorrow's Affect Using Multi-Modal Physiological Data and Personal Chronicles: A Study of Monitoring College Student Well-being in 2020 ( http://arxiv.org/abs/2201.11230v1 )

ライセンス: CC BY 4.0
Salar Jafarlou, Jocelyn Lai, Zahra Mousavi, Sina Labbaf, Ramesh Jain, Nikil Dutt, Jessica Borelli, Amir Rahmani(参考訳) 感情状態の監視と理解は、気分に基づく障害の健康機能と治療の重要な側面である。 近年のユビキタスウェアラブル技術の進歩は、精神状態(気分、ストレスなど)を検出し正確に推定し、時間とともに個人を包括的かつ継続的に監視するツールの信頼性を高めている。 個人の精神状態をモデル化する以前の試みは、主観的なアプローチや、少数のモダリティ(例えば、電話、時計)のみに限られていた。 そこで本研究の目的は,複数の商用機器を用いた完全自動的かつ客観的アプローチにより,より正確に影響を予測する能力を検討することである。 1年以上にわたり、スマートウェアラブルと電話を使って大学生の縦断的生理的データと毎日の感情評価を収集した。 その結果,本モデルでは,技術手法に匹敵する精度で翌日の影響を予測することができた。

Monitoring and understanding affective states are important aspects of healthy functioning and treatment of mood-based disorders. Recent advancements of ubiquitous wearable technologies have increased the reliability of such tools in detecting and accurately estimating mental states (e.g., mood, stress, etc.), offering comprehensive and continuous monitoring of individuals over time. Previous attempts to model an individual's mental state were limited to subjective approaches or the inclusion of only a few modalities (i.e., phone, watch). Thus, the goal of our study was to investigate the capacity to more accurately predict affect through a fully automatic and objective approach using multiple commercial devices. Longitudinal physiological data and daily assessments of emotions were collected from a sample of college students using smart wearables and phones for over a year. Results showed that our model was able to predict next-day affect with accuracy comparable to state of the art methods.
翻訳日:2022-01-29 02:15:21 公開日:2022-01-26
# (参考訳) 知識共有と伝達のためのギャップ最小化

Gap Minimization for Knowledge Sharing and Transfer ( http://arxiv.org/abs/2201.11231v1 )

ライセンス: CC0 1.0
Boyu Wang, Jorge Mendez, Changjian Shui, Fan Zhou, Di Wu, Christian Gagn\'e, Eric Eaton(参考訳) 知識の共有と伝達による複数の関連タスクからの学習は、過去20年間でますます重要になっている。 あるタスクから別のタスクに情報を転送するのには、ドメイン間の類似点と相違点を理解することが重要である。 本稿では,学習タスク間の距離の直感的かつ新しい尺度である \emph{performance gap} の概念を紹介する。 タスク間の期待されるリスクの差(例えば$\mathcal{h}$-divergenceやdisrepancy distance)を制限するツールとして使用される既存の尺度とは異なり、理論的には、パフォーマンスギャップは、モデルの複雑さを制御し、より細かい保証につながるデータおよびアルゴリズム依存の正規化子と見なすことができる。 さらに重要なのは、新たな洞察を提供し、知識共有と伝達のための戦略を設計するための新しい原則を動機付けていることだ。 この原理を2つのアルゴリズムでインスタンス化します 1.gapBoostという,転送学習におけるソースドメインとターゲットドメインのパフォーマンスギャップを明示的に最小化する,斬新で原則化されたブースティングアルゴリズム 2.マルチタスク学習のための意味条件マッチングとしてギャップ最小化を再構成する表現学習アルゴリズムである{gapmtnn}。 トランスファーラーニングとマルチタスクラーニングのベンチマークデータセットに関する広範な評価は,我々の手法が既存のベースラインより優れていることを示している。

Learning from multiple related tasks by knowledge sharing and transfer has become increasingly relevant over the last two decades. In order to successfully transfer information from one task to another, it is critical to understand the similarities and differences between the domains. In this paper, we introduce the notion of \emph{performance gap}, an intuitive and novel measure of the distance between learning tasks. Unlike existing measures which are used as tools to bound the difference of expected risks between tasks (e.g., $\mathcal{H}$-divergence or discrepancy distance), we theoretically show that the performance gap can be viewed as a data- and algorithm-dependent regularizer, which controls the model complexity and leads to finer guarantees. More importantly, it also provides new insights and motivates a novel principle for designing strategies for knowledge sharing and transfer: gap minimization. We instantiate this principle with two algorithms: 1. {gapBoost}, a novel and principled boosting algorithm that explicitly minimizes the performance gap between source and target domains for transfer learning; and 2. {gapMTNN}, a representation learning algorithm that reformulates gap minimization as semantic conditional matching for multitask learning. Our extensive evaluation on both transfer learning and multitask learning benchmark data sets shows that our methods outperform existing baselines.
翻訳日:2022-01-29 02:05:26 公開日:2022-01-26
# 注意型エンコーダデコーダASRにおける明示的文脈ベクトル学習による内部言語モデルの推定

Internal language model estimation through explicit context vector learning for attention-based encoder-decoder ASR ( http://arxiv.org/abs/2201.11627v1 )

ライセンス: Link先を確認
Yufei Liu, Rao Ma, Haihua Xu, Yi He, Zejun Ma, Weibin Zhang(参考訳) エンドツーエンド(e2e)音声認識モデルは、トレーニング中にバイアス付き内部言語モデル(ilm)を暗黙的に学習する。 推論中に外部LMを融合させるには、偏りのあるILMが生み出すスコアを推定・減算する必要がある。 本稿では,Lens-Attend-Spell(L AS)モデルに基づく2つの新しい評価手法を提案する。 より単純な方法は、各ステップでLASデコーダのコンテキストベクトルを学習可能なベクトルに置き換えることである。 もう一つのより進んだ方法は、単純なフィードフォワードネットワークを使用してクエリベクトルを直接コンテキストベクトルにマッピングすることで、LASエンコーダとは独立にコンテキストベクトルを生成することである。 学習可能なベクトルとマッピングネットワークの両方がトレーニングデータの転写に基づいてトレーニングされ、LASモデルの他のパラメータが固定されている間、パープレキシティを最小限に抑える。 実験の結果,提案手法により推定されたILMは最も低いパープレキシティを実現することがわかった。 さらに、thresh fusion法や、以前に提案された複数のデータセットに対するilme(internal language model estimation)アプローチを大きく上回っている。

An end-to-end (E2E) speech recognition model implicitly learns a biased internal language model (ILM) during training. To fused an external LM during inference, the scores produced by the biased ILM need to be estimated and subtracted. In this paper we propose two novel approaches to estimate the biased ILM based on Listen-Attend-Spell (LAS) models. The simpler method is to replace the context vector of the LAS decoder at every time step with a learnable vector. The other more advanced method is to use a simple feed-forward network to directly map query vectors to context vectors, making the generation of the context vectors independent of the LAS encoder. Both the learnable vector and the mapping network are trained on the transcriptions of the training data to minimize the perplexity while all the other parameters of the LAS model is fixed. Experiments show that the ILMs estimated by the proposed methods achieve the lowest perplexity. In addition, they also significantly outperform the shallow fusion method and two previously proposed Internal Language Model Estimation (ILME) approaches on multiple datasets.
翻訳日:2022-01-28 15:16:49 公開日:2022-01-26
# 確率最適化のためのmSGDとAdaGradの収束性について

On the Convergence of mSGD and AdaGrad for Stochastic Optimization ( http://arxiv.org/abs/2201.11204v1 )

ライセンス: Link先を確認
Ruinan Jin, Yu Xing, Xingkang He(参考訳) 最も基本的な確率的最適化アルゴリズムの1つとして、確率的勾配降下(SGD)は、過去10年間に機械学習において集中的に開発され、広く適用されてきた。 修正されたSGD型アルゴリズムは、モーメントベースのSGD(mSGD)や適応勾配アルゴリズム(AdaGrad)など、多くの競合や応用においてSGDよりも優れている。 これらの経験的成功にもかかわらず、これらのアルゴリズムの理論的性質は技術的困難のために十分に確立されていない。 この動機により、確率最適化における滑らかな(非凸かもしれない)損失関数に対するmSGDとAdaGradの収束解析に焦点をあてる。 まず、mSGD の反復体が確率 1 の連結定常点の集合に漸近収束していることを証明する。 さらに,mSGDの損失関数は,SGDの損失関数よりも一定の速度で崩壊することを示した。 さらに、AdaGrad の反復は確率 1 で連結された定常点の集合に漸近的に収束することを示す。 また、この結果は、サブシーケンス収束と時間平均の収束に関する文献から結果を拡張する。 以上の収束結果の一般性にもかかわらず, 勾配雑音, 損失関数の凸性, イテレートの有界性などの仮定を緩和した。

As one of the most fundamental stochastic optimization algorithms, stochastic gradient descent (SGD) has been intensively developed and extensively applied in machine learning in the past decade. There have been some modified SGD-type algorithms, which outperform the SGD in many competitions and applications in terms of convergence rate and accuracy, such as momentum-based SGD (mSGD) and adaptive gradient algorithm (AdaGrad). Despite these empirical successes, the theoretical properties of these algorithms have not been well established due to technical difficulties. With this motivation, we focus on convergence analysis of mSGD and AdaGrad for any smooth (possibly non-convex) loss functions in stochastic optimization. First, we prove that the iterates of mSGD are asymptotically convergent to a connected set of stationary points with probability one, which is more general than existing works on subsequence convergence or convergence of time averages. Moreover, we prove that the loss function of mSGD decays at a certain rate faster than that of SGD. In addition, we prove the iterates of AdaGrad are asymptotically convergent to a connected set of stationary points with probability one. Also, this result extends the results from the literature on subsequence convergence and the convergence of time averages. Despite the generality of the above convergence results, we have relaxed some assumptions of gradient noises, convexity of loss functions, as well as boundedness of iterates.
翻訳日:2022-01-28 15:15:37 公開日:2022-01-26
# Synchromesh: トレーニング済み言語モデルからの信頼性の高いコード生成

Synchromesh: Reliable code generation from pre-trained language models ( http://arxiv.org/abs/2201.11227v1 )

ライセンス: Link先を確認
Gabriel Poesia, Oleksandr Polozov, Vu Le, Ashish Tiwari, Gustavo Soares, Christopher Meek, Sumit Gulwani(参考訳) 大規模な事前訓練された言語モデルは、自然言語仕様からプログラムを合成するための柔軟なインターフェイスを提供するためにコードを生成するために使われてきた。 しかし、しばしば出力言語の構文規則や意味規則に違反し、実用的な使用性を制限する。 本稿では,コード生成のための事前学習モデルの信頼性を大幅に向上するフレームワークであるSynchromeshを提案する。 synchromeshには2つのコンポーネントがある。 まず、意味的サンプル選択のための新しい手法であるtarget similarity tuning(tst)を使用して、トレーニングバンクから少数のサンプルを取得する。 TSTは、表面自然言語の特徴の違いにもかかわらず、類似のターゲットプログラムを記述する発話を認識することを学ぶ。 次に、syncmeshはサンプルを事前学習された言語モデルに供給し、制約付きセマンティックデコーディング(csd:stricted semantic decoding)を使用してプログラムをサンプル化する。 CSDは部分出力の制約を利用して完全なプログラムをサンプリングし、言語モデルの再訓練も微調整も必要としない。 我々は,GPT-3 と Codex を用いた自然言語記述から,SQL クエリ,Vega-Lite の可視化,SMCalFlow プログラムの3つの実世界の言語でコードを合成して評価した。 これらのドメインは、構文、スコープ、型付けルール、コンテキスト論理など、CSDが強制できる豊富な制約を示す。 予測精度はCSDとTSTの相補的に向上し,実行時のエラーを効果的に防止する。

Large pre-trained language models have been used to generate code,providing a flexible interface for synthesizing programs from natural language specifications. However, they often violate syntactic and semantic rules of their output language, limiting their practical usability. In this paper, we propose Synchromesh: a framework for substantially improving the reliability of pre-trained models for code generation. Synchromesh comprises two components. First, it retrieves few-shot examples from a training bank using Target Similarity Tuning (TST), a novel method for semantic example selection. TST learns to recognize utterances that describe similar target programs despite differences in surface natural language features. Then, Synchromesh feeds the examples to a pre-trained language model and samples programs using Constrained Semantic Decoding (CSD): a general framework for constraining the output to a set of valid programs in the target language. CSD leverages constraints on partial outputs to sample complete correct programs, and needs neither re-training nor fine-tuning of the language model. We evaluate our methods by synthesizing code from natural language descriptions using GPT-3 and Codex in three real-world languages: SQL queries, Vega-Lite visualizations and SMCalFlow programs. These domains showcase rich constraints that CSD is able to enforce, including syntax, scope, typing rules, and contextual logic. We observe substantial complementary gains from CSD and TST in prediction accuracy and in effectively preventing run-time errors.
翻訳日:2022-01-28 15:15:12 公開日:2022-01-26
# 連合学習のための双対的アプローチ

A dual approach for federated learning ( http://arxiv.org/abs/2201.11183v1 )

ライセンス: Link先を確認
Zhenan Fan, Huang Fang, Michael P. Friedlander(参考訳) 両視点からフェデレーション最適化問題を検討し,Necoraらによって開発された座標降下法に基づくフェデレーション・デュアル座標降下法(FedDCD)と呼ばれる新しいアルゴリズムを提案する。 [最適化理論と応用史、2017年) さらに,不正確な勾配オラクルとネステロフ加速度でFedDCD法を強化した。 提案手法は, 厳密な条件下での最先端の予備的フェデレーション最適化アルゴリズムよりも収束率が高いことを理論的に実証する。 実世界のデータセットに関する数値実験は、我々の分析を支援する。

We study the federated optimization problem from a dual perspective and propose a new algorithm termed federated dual coordinate descent (FedDCD), which is based on a type of coordinate descent method developed by Necora et al. [Journal of Optimization Theory and Applications, 2017]. Additionally, we enhance the FedDCD method with inexact gradient oracles and Nesterov's acceleration. We demonstrate theoretically that our proposed approach achieves better convergence rates than the state-of-the-art primal federated optimization algorithms under mild conditions. Numerical experiments on real-world datasets support our analysis.
翻訳日:2022-01-28 15:00:31 公開日:2022-01-26
# ゼロショット多言語機械翻訳を用いた音声翻訳におけるデータ不足対策

Tackling data scarcity in speech translation using zero-shot multilingual machine translation techniques ( http://arxiv.org/abs/2201.11172v1 )

ライセンス: Link先を確認
Tu Anh Dinh, Danni Liu, Jan Niehues(参考訳) 近年,誤りの伝播を避けるため,エンドツーエンド音声翻訳(ST)が注目されている。 しかし、このアプローチはデータの不足に悩まされている。 直接STデータに大きく依存しており、音声の書き起こしやテキストの翻訳データの利用にはあまり効率が良くない。 関連する多言語翻訳の分野では,ゼロショット翻訳の手法がいくつか提案されている。 主なアイデアは、異なる言語における意味的に類似した文の類似性を高めることである。 音声翻訳とテキスト翻訳データに基づくstモデルを構築し,これらを音声翻訳に適用できるかどうかを検討する。 データ拡張と補助損失関数の効果について検討する。 この手法は限定的なstデータを用いて数発stに適用され、asrモデルから微調整されたstモデルと比較して最大12.9 bleu点と+3.1 bleu点に改良された。

Recently, end-to-end speech translation (ST) has gained significant attention as it avoids error propagation. However, the approach suffers from data scarcity. It heavily depends on direct ST data and is less efficient in making use of speech transcription and text translation data, which is often more easily available. In the related field of multilingual text translation, several techniques have been proposed for zero-shot translation. A main idea is to increase the similarity of semantically similar sentences in different languages. We investigate whether these ideas can be applied to speech translation, by building ST models trained on speech transcription and text translation data. We investigate the effects of data augmentation and auxiliary loss function. The techniques were successfully applied to few-shot ST using limited ST data, with improvements of up to +12.9 BLEU points compared to direct end-to-end ST and +3.1 BLEU points compared to ST models fine-tuned from ASR model.
翻訳日:2022-01-28 14:57:14 公開日:2022-01-26
# 言語間自動音声認識による音声辞書の探索

Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition ( http://arxiv.org/abs/2201.11207v1 )

ライセンス: Link先を確認
Piotr \.Zelasko, Siyuan Feng, Laureano Moro Velazquez, Ali Abavisani, Saurabhchand Bhati, Odette Scharenborg, Mark Hasegawa-Johnson, Najim Dehak(参考訳) データ取得のコストが高いため、自動音声認識(asr)モデルのトレーニングは、文字が書かれていない言語や電話の在庫が不明な言語を含む、ほとんどの既存の言語で問題となる。 過去の研究は、これらの低リソース言語のためのasrシステムを構築するために、多言語学習、転送学習、ゼロショット学習を探求した。 複数の言語からのリソースプールが有用であることが示されているが、トレーニング中に見つからない言語へのASRモデルの適用は、まだ成功していない。 ASRの未確認言語への適応における重要なステップは、未確認言語の電話在庫の作成である。 私たちの研究の最終的な目標は、トレーニング中に目に見えない言語の電話在庫を教師なしの方法で構築することにあります。 本稿では, 1) 未知言語における電話の認識に及ぼす異なる要因(モデルアーキテクチャ、フォノタクティクスモデル、音声表現の種類など)の影響について検討する。 2)電話機が言語をまたいでうまく転送されるか、また、電話の自動在庫作成のさらなる改善のための限界や領域を理解しない分析を提供する。 3) 教師なしの方法で未認識言語の電話インベントリを構築するための異なる方法を示す。 そこで本研究では,13言語を対象に単言語,多言語,多言語,多言語間の実験を行った。 クロス言語的によく認識される、多くのユニバーサル電話トークン(ipaシンボル)を見つけました。 結果の詳細な分析を通じて,固有音,類似音,トーン言語は音素インベントリの発見において依然として大きな課題となっていると結論づけた。

The high cost of data acquisition makes Automatic Speech Recognition (ASR) model training problematic for most existing languages, including languages that do not even have a written script, or for which the phone inventories remain unknown. Past works explored multilingual training, transfer learning, as well as zero-shot learning in order to build ASR systems for these low-resource languages. While it has been shown that the pooling of resources from multiple languages is helpful, we have not yet seen a successful application of an ASR model to a language unseen during training. A crucial step in the adaptation of ASR from seen to unseen languages is the creation of the phone inventory of the unseen language. The ultimate goal of our work is to build the phone inventory of a language unseen during training in an unsupervised way without any knowledge about the language. In this paper, we 1) investigate the influence of different factors (i.e., model architecture, phonotactic model, type of speech representation) on phone recognition in an unknown language; 2) provide an analysis of which phones transfer well across languages and which do not in order to understand the limitations of and areas for further improvement for automatic phone inventory creation; and 3) present different methods to build a phone inventory of an unseen language in an unsupervised way. To that end, we conducted mono-, multi-, and crosslingual experiments on a set of 13 phonetically diverse languages and several in-depth analyses. We found a number of universal phone tokens (IPA symbols) that are well-recognized cross-linguistically . Through a detailed analysis of results, we conclude that unique sounds, similar sounds, and tone languages remain a major challenge for phonetic inventory discovery.
翻訳日:2022-01-28 14:56:57 公開日:2022-01-26
# スパイラルコードと画像処理を用いた自動クイズ評価による連続検査

Continuous Examination by Automatic Quiz Assessment Using Spiral Codes and Image Processing ( http://arxiv.org/abs/2201.11228v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Josef Bigun(参考訳) 本稿では,ハルムスタッド大学において,紙ベースのクイズ試験の結果の評価と報告を自動化する技術ソリューションについて述べる。 紙のキズは安価で、教室のキャンパス教育の範囲内にある。 例えば、多くの学生が信頼されたモバイルデバイスやインターネット、バッテリーなしでそれらを取り込むことができる。 対照的に、クイズの補正はかなりの障害である。 我々は,学生の身元や回答を読み取るためにサブピクセル精度で回答シートを整列する高調波スパイラルを用いた新しい画像処理手法により問題を緩和し,全自動で結果をメールする手法を提案する。 本手法を用いて, 作業負荷の増加を伴わずに, 上記センターの2つのマスターコースで定期的な週次試験を行う。 また,各学生に個別のクイズを付与しながら,各クイズ(週1,週2,週2など)にユニークな識別子を割り当てることも可能である。

We describe a technical solution implemented at Halmstad University to automatise assessment and reporting of results of paper-based quiz exams. Paper quizzes are affordable and within reach of campus education in classrooms. Offering and taking them is accepted as they cause fewer issues with reliability and democratic access, e.g. a large number of students can take them without a trusted mobile device, internet, or battery. By contrast, correction of the quiz is a considerable obstacle. We suggest mitigating the issue by a novel image processing technique using harmonic spirals that aligns answer sheets in sub-pixel accuracy to read student identity and answers and to email results within minutes, all fully automatically. Using the described method, we carry out regular weekly examinations in two master courses at the mentioned centre without a significant workload increase. The employed solution also enables us to assign a unique identifier to each quiz (e.g. week 1, week 2. . . ) while allowing us to have an individualised quiz for each student.
翻訳日:2022-01-28 14:56:32 公開日:2022-01-26
# リニアライズドディープ代入による自己認証分類

Self-Certifying Classification by Linearized Deep Assignment ( http://arxiv.org/abs/2201.11162v1 )

ライセンス: Link先を確認
Bastian Boll, Alexander Zeilmann, Stefania Petra, Christoph Schn\"orr(参考訳) 本稿では,PAC-Bayesリスク認定パラダイム内のグラフ上のメトリックデータを分類するための,新しい確率予測器を提案する。 分類器は、ランダム初期条件を持つ線形パラメータ付きディープ代入フローとして実現される。 最近のpac-bayes文献とデータ依存優先に基づいて、このアプローチが実現される (i)仮説空間の後方分布を学習するための学習目標としてのリスク境界の利用と活用 ランダム化分類器のサンプル外リスク証明書を関連作業よりも効率的に計算する。 経験的テストセットエラーとの比較は,本手法の性能と実用性を示している。

We propose a novel class of deep stochastic predictors for classifying metric data on graphs within the PAC-Bayes risk certification paradigm. Classifiers are realized as linearly parametrized deep assignment flows with random initial conditions. Building on the recent PAC-Bayes literature and data-dependent priors, this approach enables (i) to use risk bounds as training objectives for learning posterior distributions on the hypothesis space and (ii) to compute tight out-of-sample risk certificates of randomized classifiers more efficiently than related work. Comparison with empirical test set errors illustrates the performance and practicality of this self-certifying classification method.
翻訳日:2022-01-28 14:46:56 公開日:2022-01-26
# 大規模重力波検出のための推論最適化AIと高性能計算

Inference-optimized AI and high performance computing for gravitational wave detection at scale ( http://arxiv.org/abs/2201.11133v1 )

ライセンス: Link先を確認
Pranshu Chaturvedi, Asad Khan, Minyang Tian, E. A. Huerta and Huihuo Zheng(参考訳) 2時間以内に192 nvidia v100 gpuに相当する32ノードを使用して、summitスーパーコンピュータでトレーニングした重力波検出のための人工知能モデルのアンサンブルを導入する。 トレーニングが完了したら、NVIDIA TensorRTを使用して、これらのモデルを高速化推論に最適化しました。 我々は,分散推論を行うために,Argonne Leadership Computer FacilityのThetaGPUスーパーコンピュータに推論最適化AIアンサンブルを配置した。 8つのNVIDIA A100 Tensor Core GPUと2つのAMD Rome CPUを持つ20のノードからなるThetaGPUスーパーコンピュータを使用すれば、NVIDIA TensorRTに最適化されたAIアンサンブルは50秒以内に1ヶ月の高度なLIGOデータ(ハンフォードとリビングストンのデータストリームを含む)を取得できた。 私たちの推論最適化AIアンサンブルは、従来のAIモデルと同じ感度を維持している、すなわち、この先進的なLIGOデータセットで以前に特定されたすべての既知のバイナリブラックホールマージを特定し、誤分類を報告せず、従来の人工知能モデルと比較して3倍の推論スピードアップを提供する。 私たちは、AIアンサンブルのパフォーマンスを定量化するために、時間スライドを使用して、最大5年分の高度なLIGOデータを処理しました。 この合成強化データセットでは、我々のAIアンサンブルは、検索された高度なLIGOデータの毎月1つの誤分類を報告します。 また、この5年間の進歩LIGOデータセットを用いて、AIアンサンブルの受信機動作特性曲線を示す。 このアプローチは、大規模でai駆動の重力波検出を行うために必要なツールを提供する。

We introduce an ensemble of artificial intelligence models for gravitational wave detection that we trained in the Summit supercomputer using 32 nodes, equivalent to 192 NVIDIA V100 GPUs, within 2 hours. Once fully trained, we optimized these models for accelerated inference using NVIDIA TensorRT. We deployed our inference-optimized AI ensemble in the ThetaGPU supercomputer at Argonne Leadership Computer Facility to conduct distributed inference. Using the entire ThetaGPU supercomputer, consisting of 20 nodes each of which has 8 NVIDIA A100 Tensor Core GPUs and 2 AMD Rome CPUs, our NVIDIA TensorRT-optimized AI ensemble porcessed an entire month of advanced LIGO data (including Hanford and Livingston data streams) within 50 seconds. Our inference-optimized AI ensemble retains the same sensitivity of traditional AI models, namely, it identifies all known binary black hole mergers previously identified in this advanced LIGO dataset and reports no misclassifications, while also providing a 3X inference speedup compared to traditional artificial intelligence models. We used time slides to quantify the performance of our AI ensemble to process up to 5 years worth of advanced LIGO data. In this synthetically enhanced dataset, our AI ensemble reports an average of one misclassification for every month of searched advanced LIGO data. We also present the receiver operating characteristic curve of our AI ensemble using this 5 year long advanced LIGO dataset. This approach provides the required tools to conduct accelerated, AI-driven gravitational wave detection at scale.
翻訳日:2022-01-28 14:43:47 公開日:2022-01-26
# AIのためのBorn-Infeld(BI) - 最適化のためのエネルギー保存ダイオード(ECD)

Born-Infeld (BI) for AI: Energy-Conserving Descent (ECD) for Optimization ( http://arxiv.org/abs/2201.11137v1 )

ライセンス: Link先を確認
G. Bruno De Luca and Eva Silverstein(参考訳) 強混合(カオス)状態におけるエネルギー保存ハミルトニアンダイナミクスに基づく最適化のための新しい枠組みを導入し,解析的および数値的にその重要な特性を確立する。 プロトタイプはボルン=インフェルド力学の離散化であり、目的関数に依存する2乗相対論的速度制限を持つ。 このタイプの摩擦のないエネルギー保存オプティマイザは、システムの位相空間容積を支配する最小損失付近で自然に減速するまで邪魔にならない。 動的ビリヤードなどのカオスシステムの研究から構築し、一般化を含む機械学習やPDE解決タスクに優れた性能を持つ特定のアルゴリズムを定式化する。 局所的な最小値で停止することはできず、グローバルな最小値を上回ることもできず、非凸損失関数の利点となり、浅い谷ではgd+momentumよりも速く進行する。

We introduce a novel framework for optimization based on energy-conserving Hamiltonian dynamics in a strongly mixing (chaotic) regime and establish its key properties analytically and numerically. The prototype is a discretization of Born-Infeld dynamics, with a squared relativistic speed limit depending on the objective function. This class of frictionless, energy-conserving optimizers proceeds unobstructed until slowing naturally near the minimal loss, which dominates the phase space volume of the system. Building from studies of chaotic systems such as dynamical billiards, we formulate a specific algorithm with good performance on machine learning and PDE-solving tasks, including generalization. It cannot stop at a high local minimum and cannot overshoot the global minimum, yielding an advantage in non-convex loss functions, and proceeds faster than GD+momentum in shallow valleys.
翻訳日:2022-01-28 14:43:18 公開日:2022-01-26
# 線形力学系の混合学習

Learning Mixtures of Linear Dynamical Systems ( http://arxiv.org/abs/2201.11211v1 )

ライセンス: Link先を確認
Yanxi Chen, H. Vincent Poor(参考訳) 本研究では,多重線形力学系 (ldss) の混合をラベルなし短標本軌道から学習する問題について検討した。 時系列データに対する混合モデルの適用性は広いが、エンドツーエンドのパフォーマンス保証を伴う学習アルゴリズムは、既存の文献にはほとんど存在しない。 技術的な問題には、(1)潜在変数の存在(すなわち、軌道の未知のラベル)、(2)サンプルの軌跡の長さがldsモデルの次元$d$よりもずっと小さい可能性、(3)時系列データに固有の複雑な時間依存など、複数の技術的課題がある。 これらの課題に対処するため、我々は2段階のメタアルゴリズムを開発し、各基底構造DSモデルを誤差$\tilde{O}(\sqrt{d/T})$まで効率的に復元することを保証している。 提案手法の有効性を検証し,数値実験による理論的研究を検証する。

We study the problem of learning a mixture of multiple linear dynamical systems (LDSs) from unlabeled short sample trajectories, each generated by one of the LDS models. Despite the wide applicability of mixture models for time-series data, learning algorithms that come with end-to-end performance guarantees are largely absent from existing literature. There are multiple sources of technical challenges, including but not limited to (1) the presence of latent variables (i.e. the unknown labels of trajectories); (2) the possibility that the sample trajectories might have lengths much smaller than the dimension $d$ of the LDS models; and (3) the complicated temporal dependence inherent to time-series data. To tackle these challenges, we develop a two-stage meta-algorithm, which is guaranteed to efficiently recover each ground-truth LDS model up to error $\tilde{O}(\sqrt{d/T})$, where $T$ is the total sample size. We validate our theoretical studies with numerical experiments, confirming the efficacy of the proposed algorithm.
翻訳日:2022-01-28 14:43:03 公開日:2022-01-26
# DiscoScore: BERT と Discourse Coherence によるテキスト生成の評価

DiscoScore: Evaluating Text Generation with BERT and Discourse Coherence ( http://arxiv.org/abs/2201.11176v1 )

ライセンス: Link先を確認
Wei Zhao, Michael Strube, Steffen Eger(参考訳) 近年、文間の相互依存のモデル化など、談話のコヒーレンスの観点から、テキスト生成システムの作成への関心が高まっている。 それでも、最近のBERTベースの評価指標では、コヒーレンスを認識することができず、システム出力の非コヒーレントな要素を罰することができない。 本研究では,多変量を持つ談話距離であるdiscoscoreを導入する。bert を用いて,論点中心理論に依拠して,異なる視点から談話コヒーレンスをモデル化する。 本実験は,要約と文書レベルの機械翻訳(MT)に基づいて評価されたディスコスコアや一般的なコヒーレンスモデルを含む16の非談話・談話指標を含む。 私たちはそれを見つけ (i)10年前に考案された,BERTベースの指標の大部分は,初期の談話基準よりも人間のレーティング・コヒーレンスと相関する。 (II)最近の最先端のBARTScoreは、システムレベルでの運用では弱い - この種のシステムと比較される場合、特に問題となる。 対照的にDiscoScoreは、コヒーレンスだけでなく、現実の一貫性やその他の面において、人間の評価と強いシステムレベルの相関を達成し、BARTScoreを平均10以上の相関点で上回っている。 さらに,ディスコスコアの理解を目指して,評価指標における談話コヒーレンスの重要性を正当化し,一方の変種が他方よりも優れていることを説明する。 私たちのコードは \url{https://github.com/A IPHES/DiscoScore} で利用可能です。

Recently has there been a growing interest in the creation of text generation systems from a discourse coherence perspective, e.g., modeling the interdependence between sentences. Still, recent BERT-based evaluation metrics cannot recognize coherence and fail to punish incoherent elements in system outputs. In this work, we introduce DiscoScore, a discourse metric with multiple variants, which uses BERT to model discourse coherence from different perspectives, driven by Centering theory. Our experiments encompass 16 non-discourse and discourse metrics, including DiscoScore and popular coherence models, evaluated on summarization and document-level machine translation (MT). We find that (i) the majority of BERT-based metrics correlate much worse with human rated coherence than early discourse metrics, invented a decade ago; (ii) the recent state-of-the-art BARTScore is weak when operated at system level -- which is particularly problematic as systems are typically compared in this manner. DiscoScore, in contrast, achieves strong system-level correlation with human ratings, not only in coherence but also in factual consistency and other aspects, and surpasses BARTScore by over 10 correlation points on average. Further, aiming to understand DiscoScore, we provide justifications to the importance of discourse coherence for evaluation metrics, and explain the superiority of one variant over another. Our code is available at \url{https://github.com/A IPHES/DiscoScore}.
翻訳日:2022-01-28 14:42:44 公開日:2022-01-26
# ReforesTree: 深層学習と航空画像を用いた熱帯の森林炭素ストック推定データセット

ReforesTree: A Dataset for Estimating Tropical Forest Carbon Stock with Deep Learning and Aerial Imagery ( http://arxiv.org/abs/2201.11192v1 )

ライセンス: Link先を確認
Gyri Reiersen, David Dao, Bj\"orn L\"utjens, Konstantin Klemmer, Kenza Amara, Attila Steinegger, Ce Zhang, Xiaoxiang Zhu(参考訳) 森林バイオマスは将来の気候にとって重要な影響であり、世界は森林の保護と回復のために、炭素オフセット認定などの高度にスケーラブルな金融計画を必要としている。 単樹を手作業で測定する現在の手動の森林炭素在庫在庫は、時間、労働力、コスト集約であり、主観的であることが示されている。 炭素在庫をかなり過大評価し、最終的に森林融資に不信をもたらす可能性がある。 機械学習とリモートセンシング技術の進歩を活用した影響とスケールの可能性は有望だが、認証のための現在の森林ストックプロトコルを置き換えるためには、高品質である必要がある。 本稿では,エクアドルの6つの森林炭素オフセット地における森林炭素ストックのベンチマークデータセットであるReforesTreeを紹介する。 さらに,安価rgbのみのドローン画像から個別ツリー検出を用いたディープラーニングによるエンド・ツー・エンドモデルが,公式の炭素オフセット認定基準における森林炭素蓄積量を正確に推定することを示す。 また,本モデルでは,小型熱帯林の林分において,最先端のサテライト系森林バイオマスと炭素在庫を上回っている。 本データセットは、炭素オフセットプロジェクトにおけるモニタリング、検証、報告(MVR)のアカウンタビリティと透明性を高めるとともに、正確なリモートセンシングによるグローバルな森林再生資金のスケーリングを目的としている。

Forest biomass is a key influence for future climate, and the world urgently needs highly scalable financing schemes, such as carbon offsetting certifications, to protect and restore forests. Current manual forest carbon stock inventory methods of measuring single trees by hand are time, labour, and cost-intensive and have been shown to be subjective. They can lead to substantial overestimation of the carbon stock and ultimately distrust in forest financing. The potential for impact and scale of leveraging advancements in machine learning and remote sensing technologies is promising but needs to be of high quality in order to replace the current forest stock protocols for certifications. In this paper, we present ReforesTree, a benchmark dataset of forest carbon stock in six agro-forestry carbon offsetting sites in Ecuador. Furthermore, we show that a deep learning-based end-to-end model using individual tree detection from low cost RGB-only drone imagery is accurately estimating forest carbon stock within official carbon offsetting certification standards. Additionally, our baseline CNN model outperforms state-of-the-art satellite-based forest biomass and carbon stock estimates for this type of small-scale, tropical agro-forestry sites. We present this dataset to encourage machine learning research in this area to increase accountability and transparency of monitoring, verification and reporting (MVR) in carbon offsetting projects, as well as scaling global reforestation financing through accurate remote sensing.
翻訳日:2022-01-28 14:39:33 公開日:2022-01-26
# 信頼:知識蒸留を用いた信頼できるアクティブラーニング

TrustAL: Trustworthy Active Learning using Knowledge Distillation ( http://arxiv.org/abs/2201.11661v1 )

ライセンス: Link先を確認
Beong-woo Kwak, Youngwook Kim, Yu Jin Kim, Seung-won Hwang, Jinyoung Yeo(参考訳) アクティブラーニングは、十分なラベルを取得するまで、データラベリング、モデルトレーニング、データ取得のイテレーションとして定義することができる。 データ取得の伝統的な考え方は、反復を通じて、人間のラベルやモデルからの知識が暗黙的に蒸留され、正確性とラベル一貫性が単調に向上するということである。 この仮定の下で、最も最近トレーニングされたモデルは、不確実性/多様性に基づいてデータ取得を要求される現在のラベル付きデータに対する優れたサロゲートである。 私たちの貢献は、この神話を解き明かし、蒸留の新しい目的を提案することです。 ひとつは,反復を通じて学習した知識の喪失を示す例です。 第二に、この理由から、最後のモデルはもはや最高の教師ではない -- このような忘れられた知識を緩和するために、提案した「一貫性」の概念により、先代のモデルの1つを教師として選択する。 この新規蒸留法は以下の3つの点で特徴的であることを示す。 第二に、一貫性はラベル付きデータの不確実性と多様性の両方を改善する。 最後に、一貫性はアノテータが生成するラベルの欠陥を償還する。

Active learning can be defined as iterations of data labeling, model training, and data acquisition, until sufficient labels are acquired. A traditional view of data acquisition is that, through iterations, knowledge from human labels and models is implicitly distilled to monotonically increase the accuracy and label consistency. Under this assumption, the most recently trained model is a good surrogate for the current labeled data, from which data acquisition is requested based on uncertainty/diversit y. Our contribution is debunking this myth and proposing a new objective for distillation. First, we found example forgetting, which indicates the loss of knowledge learned across iterations. Second, for this reason, the last model is no longer the best teacher -- For mitigating such forgotten knowledge, we select one of its predecessor models as a teacher, by our proposed notion of "consistency". We show that this novel distillation is distinctive in the following three aspects; First, consistency ensures to avoid forgetting labels. Second, consistency improves both uncertainty/diversit y of labeled data. Lastly, consistency redeems defective labels produced by human annotators.
翻訳日:2022-01-28 14:07:40 公開日:2022-01-26
# 線形マルコフ決定過程におけるReward-free RLはReward-Aware RLより困難ではない

Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes ( http://arxiv.org/abs/2201.11206v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Yifang Chen, Max Simchowitz, Simon S. Du, Kevin Jamieson(参考訳) Reward-free reinforcement learning (RL) は、エージェントが探索中に報酬関数にアクセスできないような設定を考えるが、探索後にのみ現れる任意の報酬関数に対して、ほぼ最適なポリシーを提案する必要がある。 表の設定では、これはPAC RLよりも難しい問題であり、エージェントが探索中に報酬関数にアクセスでき、状態空間のサイズである$|\mathcal{S}|$で異なる2つの設定における最適なサンプル複雑度を持つことが知られている。 この分離は線形MDPの設定には存在しないことを示す。 まず,$d$ 次元線形 MDP における報酬のない RL の計算効率を$\mathcal{O}(d^2/\epsilon^2)$ とした。 次に、PAC RL 上で $\Omega(d^2/\epsilon^2)$ の一致する下界を示す。 我々の知る限り、本手法は一方向pac設定においても線形mdpにおける最適な$d$依存性を達成する最初の計算効率の高いアルゴリズムである。 このアルゴリズムは、線形mdpを効率的に横断し、任意の「特徴方向」でサンプルを収集し、(線形mdpと同等の)最大状態訪問確率で最適にスケールするサンプル複雑性を享受する、新しい手順に依存している。 線形MDPにおける「良条件」な共変量を得るためにも,この探索手法が適用可能であることを示す。

Reward-free reinforcement learning (RL) considers the setting where the agent does not have access to a reward function during exploration, but must propose a near-optimal policy for an arbitrary reward function revealed only after exploring. In the the tabular setting, it is well known that this is a more difficult problem than PAC RL -- where the agent has access to the reward function during exploration -- with optimal sample complexities in the two settings differing by a factor of $|\mathcal{S}|$, the size of the state space. We show that this separation does not exist in the setting of linear MDPs. We first develop a computationally efficient algorithm for reward-free RL in a $d$-dimensional linear MDP with sample complexity scaling as $\mathcal{O}(d^2/\epsilon^2)$. We then show a matching lower bound of $\Omega(d^2/\epsilon^2)$ on PAC RL. To our knowledge, our approach is the first computationally efficient algorithm to achieve optimal $d$ dependence in linear MDPs, even in the single-reward PAC setting. Our algorithm relies on a novel procedure which efficiently traverses a linear MDP, collecting samples in any given "feature direction", and enjoys a sample complexity scaling optimally in the (linear MDP equivalent of the) maximal state visitation probability. We show that this exploration procedure can also be applied to solve the problem of obtaining "well-conditioned&quo t; covariates in linear MDPs.
翻訳日:2022-01-28 14:05:59 公開日:2022-01-26
# MeltpoolNet: 機械学習を用いた金属添加物製造におけるメルトプール特性予測

MeltpoolNet: Melt pool Characteristic Prediction in Metal Additive Manufacturing Using Machine Learning ( http://arxiv.org/abs/2201.11662v1 )

ライセンス: Link先を確認
Parand Akbari, Francis Ogoke, Ning-Yu Kao, Kazem Meidani, Chun-Yu Yeh, William Lee, Amir Barati Farimani(参考訳) 金属添加物製造(MAM)では, 溶融プール形状と形状を特徴付けることが, 印刷工程の制御と欠陥の回避に不可欠である。 MAMプロセスの複雑な性質から, プロセスパラメータと粉末材料に基づく溶融プール欠陥の予測は困難である。 機械学習(ML)技術は、プロセスパラメータをメルトプールの欠陥の種類に接続するのに有用である。 本研究では,メルトプールキャラクタリゼーションのためのMLベンチマークフレームワークを提案する。 MAM処理条件、材料、メルトプール寸法、メルトプールモード、欠陥タイプを含む80以上のMAM論文から、広範な実験データセットが収集された。 我々は,メルトプール欠陥と幾何予測のための包括的学習フレームワークを作成するために,mamの実現,汎用mlモデル,評価メトリクスを導入した。 このベンチマークは、溶融プール制御とプロセス最適化の基礎となる。 さらに, プロセスパラメータと材料特性からメルトプール幾何を推定し, 解釈可能性を維持しつつ, メルトプール幾何に対するローゼンタール推定より優れていることを示す。

Characterizing meltpool shape and geometry is essential in metal Additive Manufacturing (MAM) to control the printing process and avoid defects. Predicting meltpool flaws based on process parameters and powder material is difficult due to the complex nature of MAM process. Machine learning (ML) techniques can be useful in connecting process parameters to the type of flaws in the meltpool. In this work, we introduced a comprehensive framework for benchmarking ML for melt pool characterization. An extensive experimental dataset has been collected from more than 80 MAM articles containing MAM processing conditions, materials, meltpool dimensions, meltpool modes and flaw types. We introduced physics-aware MAM featurization, versatile ML models, and evaluation metrics to create a comprehensive learning framework for meltpool defect and geometry prediction. This benchmark can serve as a basis for melt pool control and process optimization. In addition, data-driven explicit models have been identified to estimate meltpool geometry from process parameters and material properties which outperform Rosenthal estimation for meltpool geometry while maintaining interpretability.
翻訳日:2022-01-28 14:00:25 公開日:2022-01-26
# Redditにおけるモラル判断の識別と予測のための説明可能なパターン

Explainable Patterns for Distinction and Prediction of Moral Judgement on Reddit ( http://arxiv.org/abs/2201.11155v1 )

ライセンス: Link先を確認
Ion Stagkos Efstathiadis and Guilherme Paulino-Passos and Francesca Toni(参考訳) Redditのフォーラムr/AmITheAssholeでは,ユーザによる具体的な物語に基づいた道徳的問題に関する議論が開催されている。 既存のフォーラムの分析はコメントに重点を置いており、基礎となるデータを公開していない。 本稿では,コメントの新しいデータセットを構築し,フォーラムにおける投稿の分類について検討する。 さらに,ポストによる道徳判断の促進,コメントにおける道徳的姿勢の表現,ポストとコメントの訓練された分類者の判断などに関連するテキストパターンを同定する。

The forum r/AmITheAsshole in Reddit hosts discussion on moral issues based on concrete narratives presented by users. Existing analysis of the forum focuses on its comments, and does not make the underlying data publicly available. In this paper we build a new dataset of comments and also investigate the classification of the posts in the forum. Further, we identify textual patterns associated with the provocation of moral judgement by posts, with the expression of moral stance in comments, and with the decisions of trained classifiers of posts and comments.
翻訳日:2022-01-28 13:20:18 公開日:2022-01-26
# (参考訳) 高次元におけるニューラルインシシデント表面 [全文訳有]

Neural Implicit Surfaces in Higher Dimension ( http://arxiv.org/abs/2201.09636v2 )

ライセンス: CC BY 4.0
Tiago Novello, Vinicius da Silva, Helio Lopes, Guilherme Schardong, Luiz Schirmer, Luiz Velho(参考訳) 本研究は,滑らかな暗黙表面の動的変動をモデル化するための高次微分を許容するニューラルネットワークの利用について検討する。 この目的のために、微分可能な神経暗黙的表面の表現をより高次元に拡張し、アニメーションや表面進化、形状のモーフィング、デザインギャラリーなど、多くの設定で幾何学的変換を活用できるメカニズムを開放する。 この問題は、ニューラルネットワーク関数 $f : \mathbb{R}^3 \times \mathbb{R}^k \rightarrow \mathbb{R}$, ここで$S_c$は暗黙関数 $f(\cdot, c) : \mathbb{R}^3 \rightarrow \mathbb{R}$, $c \in \mathbb{R}^k$ のゼロレベル集合である。 この文脈では、$\mathbb{R}^k$ の各座標に制限され、基礎となる表現は一般偏微分方程式の解であるニューラルホモトピーである。

This work investigates the use of neural networks admitting high-order derivatives for modeling dynamic variations of smooth implicit surfaces. For this purpose, it extends the representation of differentiable neural implicit surfaces to higher dimensions, which opens up mechanisms that allow to exploit geometric transformations in many settings, from animation and surface evolution to shape morphing and design galleries. The problem is modeled by a $k$-parameter family of surfaces $S_c$, specified as a neural network function $f : \mathbb{R}^3 \times \mathbb{R}^k \rightarrow \mathbb{R}$, where $S_c$ is the zero-level set of the implicit function $f(\cdot, c) : \mathbb{R}^3 \rightarrow \mathbb{R} $, with $c \in \mathbb{R}^k$, with variations induced by the control variable $c$. In that context, restricted to each coordinate of $\mathbb{R}^k$, the underlying representation is a neural homotopy which is the solution of a general partial differential equation.
翻訳日:2022-01-28 12:28:06 公開日:2022-01-26
# (参考訳) 散逸的ハミルトンニューラルネット:散逸的・保守的なダイナミクスを別々に学習する [全文訳有]

Dissipative Hamiltonian Neural Networks: Learning Dissipative and Conservative Dynamics Separately ( http://arxiv.org/abs/2201.10085v2 )

ライセンス: CC BY 4.0
Andrew Sosanya and Sam Greydanus(参考訳) 自然の対称性を理解することは、我々の複雑で絶えず変化する世界を理解する鍵となる。 近年の研究では、ハミルトニアンニューラルネットワーク(HNN)を用いて、そのような対称性を直接学習できることが示されている。 しかしHNNは、エネルギーが保存されていないデータセットでトレーニングするときに苦労する。 本稿では,保存的ダイナミクスと散逸的ダイナミクスを同時に識別し分解できるかどうかを問う。 本稿では,ハミルトニアン関数とレイリー散逸関数の両方をパラメータ化する散逸型ハミルトニアンニューラルネットワーク(d-hnn)を提案する。 これらは暗黙のヘルムホルツ分解を表しており、エネルギーの保存のような対称性からの摩擦のような散逸効果を分離することができる。 我々は、減衰した質量ばね系をその摩擦と慣性項に分解するようにモデルを訓練し、この分解が未知の摩擦係数のダイナミクスを予測できることを示す。 そして、我々のモデルを、速度場を分解する大きなノイズの多い海流データセットを含む実世界のデータに適用し、有用な科学的洞察を得る。

Understanding natural symmetries is key to making sense of our complex and ever-changing world. Recent work has shown that neural networks can learn such symmetries directly from data using Hamiltonian Neural Networks (HNNs). But HNNs struggle when trained on datasets where energy is not conserved. In this paper, we ask whether it is possible to identify and decompose conservative and dissipative dynamics simultaneously. We propose Dissipative Hamiltonian Neural Networks (D-HNNs), which parameterize both a Hamiltonian and a Rayleigh dissipation function. Taken together, they represent an implicit Helmholtz decomposition which can separate dissipative effects such as friction from symmetries such as conservation of energy. We train our model to decompose a damped mass-spring system into its friction and inertial terms and then show that this decomposition can be used to predict dynamics for unseen friction coefficients. Then we apply our model to real world data including a large, noisy ocean current dataset where decomposing the velocity field yields useful scientific insights.
翻訳日:2022-01-28 01:22:49 公開日:2022-01-26
# (参考訳) 動的畳み込みを考慮したゼロショットロングフォーム音声クローニング [全文訳有]

Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention ( http://arxiv.org/abs/2201.10375v2 )

ライセンス: CC BY 4.0
Artem Gorodetskii, Ivan Ozhiganov(参考訳) 近年の音声クローン化の進展により,対象話者の音声合成性能は人間レベルと同様に向上した。 しかし、自己回帰音声クローニングシステムはまだテキストアライメントの失敗に悩まされており、長文を合成できない。 本研究では,数秒の参照音声から対象音声を再生し,非常に長い発話に一般化する,注意に基づくテキスト音声合成システムを提案する。 提案方式は, スピーカエンコーダ, シンセサイザ, ユニバーサルボコーダの3つの独立学習成分をベースとする。 動的畳み込み注意(dynamic convolution attention)として知られるエネルギーベースの注意機構と、タコトロン2に基づくシンセサイザーに提案される一連の修正の組み合わせを用いて、長発話への一般化を実現する。 さらに,多種多様なデータを事前学習した話者エンコーダに,合成器とボコーダの両方を条件付けすることにより,効果的なゼロショット話者適応を実現する。 本稿では,音声の自然性,話者の類似性,アライメント一貫性,長文合成能力などの観点から,音声クローンシステムの実装をいくつか比較し,提案手法が,短文の自然性や類似性を高く保ちながら,極めて長い発話に対して理解可能な合成音声を生成することができることを結論づける。

With recent advancements in voice cloning, the performance of speech synthesis for a target speaker has been rendered similar to the human level. However, autoregressive voice cloning systems still suffer from text alignment failures, resulting in an inability to synthesize long sentences. In this work, we propose a variant of attention-based text-to-speech system that can reproduce a target voice from a few seconds of reference speech and generalize to very long utterances as well. The proposed system is based on three independently trained components: a speaker encoder, synthesizer and universal vocoder. Generalization to long utterances is realized using an energy-based attention mechanism known as Dynamic Convolution Attention, in combination with a set of modifications proposed for the synthesizer based on Tacotron 2. Moreover, effective zero-shot speaker adaptation is achieved by conditioning both the synthesizer and vocoder on a speaker encoder that has been pretrained on a large corpus of diverse data. We compare several implementations of voice cloning systems in terms of speech naturalness, speaker similarity, alignment consistency and ability to synthesize long utterances, and conclude that the proposed model can produce intelligible synthetic speech for extremely long utterances, while preserving a high extent of naturalness and similarity for short texts.
翻訳日:2022-01-28 01:10:06 公開日:2022-01-26
# (参考訳) 辺境を越えて - 正確さを損なわない公平性 [全文訳有]

Beyond the Frontier: Fairness Without Accuracy Loss ( http://arxiv.org/abs/2201.10408v2 )

ライセンス: CC BY 4.0
Ira Globus-Harris, Michael Kearns, Aaron Roth(参考訳) 保護されたグループ間で様々な種類のエラーを制御しようとする公正な機械学習の表記は、一般に固定モデルクラスに対する制約付き最適化問題として扱われる。 さまざまな技術的公平性を求めるには、全体的なエラーに対する妥協が必要であり、保護されたグループを増やすことで、すべてのグループにエラー率を増加させる。 私たちの目標は、このような正確さと公正さのトレードオフを破ることです。 我々は、モデルを展開し、エラー率が最適以下であるグループを発見すれば、動的に修正できる単純なアルゴリズムフレームワークを開発する。 保護されたグループを事前に指定する必要はない: 任意の時点で、現在のモデルが最適よりも著しく悪いグループがあることが発見された場合、グループ全体のエラーや以前に特定されたグループのエラーを増加させることなく、そのグループのエラーを改善する単純な更新操作があります。 我々は識別できる群の複雑さを制限せず、それらは任意の方法で交差することができる。 トレードオフ障壁を突破できる重要な洞察は、新しいグループが特定されるにつれて、モデルクラスを動的に拡張することです。 その結果は、ベイズ最適予測器と区別できないモデルへの、少なくとも高い誤差群を見つけることを任務とするモデルへの、確実に高速な収束である。 このフレームワークの2つのインスタンス化について検討する: 外部監査者を招待して現在のモデルのエラーが最適以下であるグループを発見する「バイアスバグ報奨金」設計と、そのエラーが最適以下であるグループの発見を最適化問題として提案するアルゴリズムパラダイムである。 バイアス・バウンティ・ケースでは、モデルがベイズ最適と区別できないと言う場合、バウンティ・プログラムの参加者によって意味される。 理論的解析と実験的検証の両方を提供する。

Notions of fair machine learning that seek to control various kinds of error across protected groups generally are cast as constrained optimization problems over a fixed model class. For such problems, tradeoffs arise: asking for various kinds of technical fairness requires compromising on overall error, and adding more protected groups increases error rates across all groups. Our goal is to break though such accuracy-fairness tradeoffs. We develop a simple algorithmic framework that allows us to deploy models and then revise them dynamically when groups are discovered on which the error rate is suboptimal. Protected groups don't need to be pre-specified: At any point, if it is discovered that there is some group on which our current model performs substantially worse than optimally, then there is a simple update operation that improves the error on that group without increasing either overall error or the error on previously identified groups. We do not restrict the complexity of the groups that can be identified, and they can intersect in arbitrary ways. The key insight that allows us to break through the tradeoff barrier is to dynamically expand the model class as new groups are identified. The result is provably fast convergence to a model that can't be distinguished from the Bayes optimal predictor, at least by those tasked with finding high error groups. We explore two instantiations of this framework: as a "bias bug bounty" design in which external auditors are invited to discover groups on which our current model's error is suboptimal, and as an algorithmic paradigm in which the discovery of groups on which the error is suboptimal is posed as an optimization problem. In the bias bounty case, when we say that a model cannot be distinguished from Bayes optimal, we mean by any participant in the bounty program. We provide both theoretical analysis and experimental validation.
翻訳日:2022-01-28 00:55:34 公開日:2022-01-26
# (参考訳) 事前学習型言語モデルを用いた多言語文法的誤り訂正の一手法 [全文訳有]

A Unified Strategy for Multilingual Grammatical Error Correction with Pre-trained Cross-Lingual Language Model ( http://arxiv.org/abs/2201.10707v1 )

ライセンス: CC BY 4.0
Xin Sun, Tao Ge, Shuming Ma, Jingjing Li, Furu Wei, Houfeng Wang(参考訳) 非英語言語のための文法誤り訂正(GEC)の合成データ構築は、限られた誤り訂正パターンを生成する人間設計および言語固有の規則に大きく依存している。 本稿では,2つのリソースしかアクセスできない新しい非英語言語に対して,gecシステムを効果的に訓練できる多言語gecのための汎用的・言語非依存戦略を提案する。 1)事前訓練された言語間言語モデル(PXLM)と 2)英語と言語間の並列翻訳データ。 提案手法は, PXLM が生成した非自己回帰翻訳とゴールド翻訳を誤り訂正文対とすることで, 言語固有の操作を伴わない多彩な並列GECデータを生成する。 そして、我々はPXLMを再利用し、ECCモデルを初期化し、それ自身で生成された合成データで事前訓練し、さらなる改善をもたらす。 我々はGECの3つの公開ベンチマークに対するアプローチを異なる言語で評価した。 NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。 さらに分析した結果,データ構築手法はルールベースアプローチと相補的であることが示された。

Synthetic data construction of Grammatical Error Correction (GEC) for non-English languages relies heavily on human-designed and language-specific rules, which produce limited error-corrected patterns. In this paper, we propose a generic and language-independent strategy for multilingual GEC, which can train a GEC system effectively for a new non-English language with only two easy-to-access resources: 1) a pretrained cross-lingual language model (PXLM) and 2) parallel translation data between English and the language. Our approach creates diverse parallel GEC data without any language-specific operations by taking the non-autoregressive translation generated by PXLM and the gold translation as error-corrected sentence pairs. Then, we reuse PXLM to initialize the GEC model and pretrain it with the synthetic data generated by itself, which yields further improvement. We evaluate our approach on three public benchmarks of GEC in different languages. It achieves the state-of-the-art results on the NLPCC 2018 Task 2 dataset (Chinese) and obtains competitive performance on Falko-Merlin (German) and RULEC-GEC (Russian). Further analysis demonstrates that our data construction method is complementary to rule-based approaches.
翻訳日:2022-01-27 23:26:57 公開日:2022-01-26
# (参考訳) データ駆動STAPレーダを目指して [全文訳有]

Toward Data-Driven STAP Radar ( http://arxiv.org/abs/2201.10712v1 )

ライセンス: CC BY 4.0
Shyam Venkatasubramanian, Chayut Wongkamthong, Mohammadreza Soltani, Bosung Kang, Sandeep Gogineni, Ali Pezeshki, Muralidhar Rangaswamy, Vahid Tarokh(参考訳) 従来のレーダ,コンピュータビジョン,深層学習の技法の融合を用いて,時空適応処理(STAP)レーダに対する,現在進行中のデータ駆動アプローチを特徴付ける。 isl社が開発した無線周波数モデリングシミュレーションツールrfviewを用いて,可変強度の目標を所定の領域にランダムに配置することにより,受信レーダ信号のリッチなサンプルデータセットを生成する。 この領域内の各データサンプルに対して、所望の試験統計量に置き換えることができる最小分散歪み無応答(MVDR)ビームフォーマの出力パワーの範囲、方位、および出力パワーのヒートマップテンソルを生成する。 これらの熱マップテンソルは、積み重ねられた画像とみなすことができ、空飛ぶシナリオでは、動画のようなタイムインデックス画像スタックのシーケンスを生成する。 私たちの目標は、これらの画像とビデオを使用してターゲットを検出し、その位置を推定すること、すなわち、より高速な領域ベースの畳み込みニューラルネットワーク(より高速なr-cnn)である、オブジェクト検出のためのコンピュータビジョンアルゴリズムを連想させる手順です。 Faster R-CNNは、関心領域(ROI)を決定するための提案生成ネットワーク、ターゲットの周囲にアンカーボックスを配置する回帰ネットワーク、オブジェクト分類アルゴリズムで構成され、自然画像に最適化されている。 我々の研究はレーダーデータのヒートマップ画像の類似ツールを開発する。 そこで本研究では,自然画像のCOCOデータセットに類似した,大規模で代表的な適応型レーダ信号処理データベースを作成する。 予備例として,本論文では,対象位置推定のための回帰ネットワークを提案し,データ駆動型アプローチによる実現可能性と大幅な改善を示す。

Using an amalgamation of techniques from classical radar, computer vision, and deep learning, we characterize our ongoing data-driven approach to space-time adaptive processing (STAP) radar. We generate a rich example dataset of received radar signals by randomly placing targets of variable strengths in a predetermined region using RFView, a site-specific radio frequency modeling and simulation tool developed by ISL Inc. For each data sample within this region, we generate heatmap tensors in range, azimuth, and elevation of the output power of a minimum variance distortionless response (MVDR) beamformer, which can be replaced with a desired test statistic. These heatmap tensors can be thought of as stacked images, and in an airborne scenario, the moving radar creates a sequence of these time-indexed image stacks, resembling a video. Our goal is to use these images and videos to detect targets and estimate their locations, a procedure reminiscent of computer vision algorithms for object detection$-$namely, the Faster Region-Based Convolutional Neural Network (Faster R-CNN). The Faster R-CNN consists of a proposal generating network for determining regions of interest (ROI), a regression network for positioning anchor boxes around targets, and an object classification algorithm; it is developed and optimized for natural images. Our ongoing research will develop analogous tools for heatmap images of radar data. In this regard, we will generate a large, representative adaptive radar signal processing database for training and testing, analogous in spirit to the COCO dataset for natural images. As a preliminary example, we present a regression network in this paper for estimating target locations to demonstrate the feasibility of and significant improvements provided by our data-driven approach.
翻訳日:2022-01-27 23:08:28 公開日:2022-01-26
# (参考訳) 事前学習したグラフモデルを用いたニューラルグラフ-フォネム変換 [全文訳有]

Neural Grapheme-to-Phoneme Conversion with Pre-trained Grapheme Models ( http://arxiv.org/abs/2201.10716v1 )

ライセンス: CC BY 4.0
Lu Dong, Zhi-Qiang Guo, Chao-Hong Tan, Ya-Jun Hu, Yuan Jiang and Zhen-Hua Ling(参考訳) ニューラルネットワークモデルは、G2P変換において最先端の性能を達成した。 しかし、それらの性能は、多くの言語で使用できない大規模な発音辞書に依存している。 本稿では,事前学習型言語モデルBERTの成功に触発されて,グラフeme BERT (GBERT) と呼ばれる,グラフeme情報のみを持つ大規模言語固有の単語リスト上で,自己教師型トレーニングによって構築される事前学習型グラフemeモデルを提案する。 さらに、GBERTを最先端のTransformerベースのG2Pモデル、すなわち細調整GBERTやGBERTをTransformerモデルに注目する2つのアプローチが開発されている。 SIGMORPHON 2021 G2Pタスクのオランダ、セルビア、ブルガリア、韓国のデータセットに対する実験結果から、GBERTベースのG2Pモデルが中・低リソースのデータ条件下での有効性が確認された。

Neural network models have achieved state-of-the-art performance on grapheme-to-phoneme (G2P) conversion. However, their performance relies on large-scale pronunciation dictionaries, which may not be available for a lot of languages. Inspired by the success of the pre-trained language model BERT, this paper proposes a pre-trained grapheme model called grapheme BERT (GBERT), which is built by self-supervised training on a large, language-specific word list with only grapheme information. Furthermore, two approaches are developed to incorporate GBERT into the state-of-the-art Transformer-based G2P model, i.e., fine-tuning GBERT or fusing GBERT into the Transformer model by attention. Experimental results on the Dutch, Serbo-Croatian, Bulgarian and Korean datasets of the SIGMORPHON 2021 G2P task confirm the effectiveness of our GBERT-based G2P models under both medium-resource and low-resource data conditions.
翻訳日:2022-01-27 22:58:54 公開日:2022-01-26
# (参考訳) 医用画像分割用クラスアウェア生成逆変換器 [全文訳有]

Class-Aware Generative Adversarial Transformers for Medical Image Segmentation ( http://arxiv.org/abs/2201.10737v1 )

ライセンス: CC BY 4.0
Chenyu You, Ruihan Zhao, Fenglin Liu, Sandeep Chinchali, Ufuk Topcu, Lawrence Staib, James S. Duncan(参考訳) トランスフォーマーは、医用画像分析領域における長距離依存関係のモデリングにおいて著しく進歩した。 しかし、現在のトランスモデルにはいくつかの欠点がある。 1) 既存の方法では,ナイーブトークン化方式により画像の重要な特徴を捉えられていない。 2)モデルは,シングルスケールの特徴表現のみを考慮し,情報損失に苦しむ。 3)モデルが生成するセグメンテーションラベルマップは、豊富な意味的文脈と解剖学的テクスチャを考慮せずには十分正確ではない。 本稿では,医療用画像分割のための新しい生成型逆変換器であるca-ganformerを提案する。 まず,ピラミッド構造を利用し,マルチスケール表現を構築し,マルチスケールのバリエーションを扱います。 次に、意味構造を持つオブジェクトの識別領域をよりよく学習するために、新しいクラス対応トランスフォーマーモジュールを設計する。 最後に, セグメンテーションの精度を向上し, 高レベルの意味的関連のある内容と低レベルの解剖学的特徴をトランスフォーマーベースの識別器で捉えるための対角訓練戦略を利用する。 実験の結果、CA-GANformerは3つのベンチマークで従来の最先端のトランスフォーマーベースのアプローチを劇的に上回り、Diceを2.54%-5.88%改善した。 さらに質的な実験によって、モデルの内部動作のより詳細な図が提供され、透明性向上の課題に光を当て、トランスファーラーニングがパフォーマンスを大幅に向上し、トレーニング中の医療画像データセットのサイズを削減し、CA-GANformerが下流の医療画像解析タスクの強力な出発点となることを示す。 コードとモデルは一般公開される予定だ。

Transformers have made remarkable progress towards modeling long-range dependencies within the medical image analysis domain. However, current transformer-based models suffer from several disadvantages: 1) existing methods fail to capture the important features of the images due to the naive tokenization scheme; 2) the models suffer from information loss because they only consider single-scale feature representations; and 3) the segmentation label maps generated by the models are not accurate enough without considering rich semantic contexts and anatomical textures. In this work, we present CA-GANformer, a novel type of generative adversarial transformers, for medical image segmentation. First, we take advantage of the pyramid structure to construct multi-scale representations and handle multi-scale variations. We then design a novel class-aware transformer module to better learn the discriminative regions of objects with semantic structures. Lastly, we utilize an adversarial training strategy that boosts segmentation accuracy and correspondingly allows a transformer-based discriminator to capture high-level semantically correlated contents and low-level anatomical features. Our experiments demonstrate that CA-GANformer dramatically outperforms previous state-of-the-art transformer-based approaches on three benchmarks, obtaining absolute 2.54%-5.88% improvements in Dice over previous models. Further qualitative experiments provide a more detailed picture of the model's inner workings, shed light on the challenges in improved transparency, and demonstrate that transfer learning can greatly improve performance and reduce the size of medical image datasets in training, making CA-GANformer a strong starting point for downstream medical image analysis tasks. Codes and models will be available to the public.
翻訳日:2022-01-27 22:45:19 公開日:2022-01-26
# (参考訳) 長期因果効果の同定のための実験データと観測データの組み合わせ [全文訳有]

Combining Experimental and Observational Data for Identification of Long-Term Causal Effects ( http://arxiv.org/abs/2201.10743v1 )

ライセンス: CC BY 4.0
AmirEmad Ghassami, Ilya Shpitser, Eric Tchetgen Tchetgen(参考訳) 本研究では、観察領域と実験領域のデータを用いて、治療変数の長期的な結果変数に対する因果効果を推定するタスクを検討する。 観測データは共起していると仮定されるため、さらなる仮定なしでは、このデータセットは因果推論には使用できない。 また、実験データでは、興味のある一次結果変数の短期バージョンのみが観察されるため、このデータセットだけでは因果推論には使用できない。 最近の研究で、Athey et al. (2020) は、下流の因果効果を特定するために、そのようなデータを体系的に組み合わせる手法を提案した。 彼らのアプローチは、実験データの内部的および外部的妥当性の仮定と、潜在的未確立という新たな仮定に基づいている。 本稿ではまず,提案手法を概観し,未確立仮説について考察する。 そこで本研究では,平均治療効果と治療効果を推定するために,データ融合のための2つの代替手法を提案する。 最初の提案手法は,短期的および長期的成果に対する等価なバイアスを仮定することに基づく。 第2のアプローチは近位因果推論の枠組みに基づいており,この手法では,潜在共起者の治療・所得関係の代理人であるシステム内の余剰変数の存在を仮定する。

We consider the task of estimating the causal effect of a treatment variable on a long-term outcome variable using data from an observational domain and an experimental domain. The observational data is assumed to be confounded and hence without further assumptions, this dataset alone cannot be used for causal inference. Also, only a short-term version of the primary outcome variable of interest is observed in the experimental data, and hence, this dataset alone cannot be used for causal inference either. In a recent work, Athey et al. (2020) proposed a method for systematically combining such data for identifying the downstream causal effect in view. Their approach is based on the assumptions of internal and external validity of the experimental data, and an extra novel assumption called latent unconfoundedness. In this paper, we first review their proposed approach and discuss the latent unconfoundedness assumption. Then we propose two alternative approaches for data fusion for the purpose of estimating average treatment effect as well as the effect of treatment on the treated. Our first proposed approach is based on assuming equi-confounding bias for the short-term and long-term outcomes. Our second proposed approach is based on the proximal causal inference framework, in which we assume the existence of an extra variable in the system which is a proxy of the latent confounder of the treatment-outcome relation.
翻訳日:2022-01-27 22:19:14 公開日:2022-01-26
# (参考訳) フィッシング攻撃検出 - 機械学習に基づくアプローチ [全文訳有]

Phishing Attacks Detection -- A Machine Learning-Based Approach ( http://arxiv.org/abs/2201.10752v1 )

ライセンス: CC BY 4.0
Fatima Salahdine, Zakaria El Mrabet, Naima Kaabouch(参考訳) フィッシング攻撃は、ユーザーのメールが機密で機密性の高い情報を不正に盗むことを目的とした、最も一般的なソーシャルエンジニアリング攻撃の1つだ。 企業や政府ネットワークの基盤となるために、より大規模な攻撃の一部として使用できる。 過去10年間で、これらの攻撃を検知し緩和するために、多くのアンチフィッシング技術が提案されている。 しかし、それらはまだ非効率で不正確である。 したがって、これらの攻撃に対処するために、効率的で正確な検出技術が必要である。 本稿では,機械学習に基づくフィッシング攻撃検出手法を提案する。 ノースダコタ大学のメールサービスを対象とした4000件以上のフィッシングメールを収集し分析した。 関連する10の機能を選択し,大規模なデータセットを構築することで,これらの攻撃をモデル化した。 このデータセットは、機械学習アルゴリズムのトレーニング、検証、テストに使用された。 性能評価には、検出の確率、誤検出の確率、誤報の確率、正確性という4つの指標が用いられている。 実験の結果,ニューラルネットワークを用いた検出精度の向上が期待できることがわかった。

Phishing attacks are one of the most common social engineering attacks targeting users emails to fraudulently steal confidential and sensitive information. They can be used as a part of more massive attacks launched to gain a foothold in corporate or government networks. Over the last decade, a number of anti-phishing techniques have been proposed to detect and mitigate these attacks. However, they are still inefficient and inaccurate. Thus, there is a great need for efficient and accurate detection techniques to cope with these attacks. In this paper, we proposed a phishing attack detection technique based on machine learning. We collected and analyzed more than 4000 phishing emails targeting the email service of the University of North Dakota. We modeled these attacks by selecting 10 relevant features and building a large dataset. This dataset was used to train, validate, and test the machine learning algorithms. For performance evaluation, four metrics have been used, namely probability of detection, probability of miss-detection, probability of false alarm, and accuracy. The experimental results show that better detection can be achieved using an artificial neural network.
翻訳日:2022-01-27 21:35:07 公開日:2022-01-26
# (参考訳) 垂直統合ランダム林の効率的ロバスト化システム [全文訳有]

An Efficient and Robust System for Vertically Federated Random Forest ( http://arxiv.org/abs/2201.10761v1 )

ライセンス: CC BY 4.0
Houpu Yao, Jiazhou Wang, Peng Dai, Liefeng Bo, Yanqing Chen(参考訳) 機械学習モデルを構築するために、複数のリソースにまたがるデータを活用することへの関心が高まっている中、多くの垂直連合学習アルゴリズムが、参加組織のデータのプライバシを保護するために提案されている。 しかし、特に大規模な実世界のデータセットに適用した場合、既存の垂直連合学習アルゴリズムの効率は大きな問題である。 本稿では,垂直連帯ランダム林を対象とした高速で高精度,スケーラブルでロバストなシステムを提案する。 広範な最適化によって、トレーニングとサービスタスクのためのSOTA SecureBoostモデル \cite{cheng2019secureboost } よりも 5\times$ と 83\times$ をスピードアップしました。 さらに,本システムも同様の精度を実現することができるが,スケーラビリティと分割耐性は良好である。 当社のコードは,コミュニティの発展とユーザデータのプライバシ保護を促進するために公開されています。

As there is a growing interest in utilizing data across multiple resources to build better machine learning models, many vertically federated learning algorithms have been proposed to preserve the data privacy of the participating organizations. However, the efficiency of existing vertically federated learning algorithms remains to be a big problem, especially when applied to large-scale real-world datasets. In this paper, we present a fast, accurate, scalable and yet robust system for vertically federated random forest. With extensive optimization, we achieved $5\times$ and $83\times$ speed up over the SOTA SecureBoost model \cite{cheng2019secureboost } for training and serving tasks. Moreover, the proposed system can achieve similar accuracy but with favorable scalability and partition tolerance. Our code has been made public to facilitate the development of the community and the protection of user data privacy.
翻訳日:2022-01-27 21:25:49 公開日:2022-01-26
# (参考訳) 前景,背景,視覚属性に対する画像分類モデルの感度に関する包括的研究 [全文訳有]

A Comprehensive Study of Image Classification Model Sensitivity to Foregrounds, Backgrounds, and Visual Attributes ( http://arxiv.org/abs/2201.10766v1 )

ライセンス: CC BY 4.0
Mazda Moayeri, Phillip Pope, Yogesh Balaji, Soheil Feizi(参考訳) 単一ラベルの教師付きデータセットは、画像分類の急速な進歩を促す一方で、モデルがどのように予測を行うかを定量的に評価するために追加のアノテーションが必要である。 この目的のために、imagenetサンプルのサブセットに対して、オブジェクト全体のセグメンテーションマスクと18ドルの有益な属性を収集します。 私たちはこのデータセットをRIVAL10(RIch Visual Attributes with Localization)と呼び、約2,6k$のインスタンスを10ドル以上のクラスとしています。 rival10を用いて,前景,背景,属性の騒音破壊に対する幅広いモデルの感度を評価する。 本稿では,多種多様な最先端アーキテクチャ (ResNets, Transformers) とトレーニング手順 (CLIP, SimCLR, DeiT, Adversarial Training) について考察する。 ResNetsでは、敵対的なトレーニングによって、モデルが標準的なトレーニングよりも前景よりも背景に敏感になることがわかりました。 同様に、対照的に訓練されたモデルはトランスフォーマーと再ネットの両方において相対的な前景感度も低い。 最後に, 変圧器の適応能力に注目し, 汚損レベルの増加に伴い, 相対的な前景感度を高める。 本手法により,モデルの背景感度を推し進める突発的な特徴を自動で発見し,前景と塩分マップのアライメントを評価する。 最後に,特徴量と意味的属性の接地的局所化を比較することで,特徴量の帰属問題を定量的に研究する。

While datasets with single-label supervision have propelled rapid advances in image classification, additional annotations are necessary in order to quantitatively assess how models make predictions. To this end, for a subset of ImageNet samples, we collect segmentation masks for the entire object and $18$ informative attributes. We call this dataset RIVAL10 (RIch Visual Attributes with Localization), consisting of roughly $26k$ instances over $10$ classes. Using RIVAL10, we evaluate the sensitivity of a broad set of models to noise corruptions in foregrounds, backgrounds and attributes. In our analysis, we consider diverse state-of-the-art architectures (ResNets, Transformers) and training procedures (CLIP, SimCLR, DeiT, Adversarial Training). We find that, somewhat surprisingly, in ResNets, adversarial training makes models more sensitive to the background compared to foreground than standard training. Similarly, contrastively-traine d models also have lower relative foreground sensitivity in both transformers and ResNets. Lastly, we observe intriguing adaptive abilities of transformers to increase relative foreground sensitivity as corruption level increases. Using saliency methods, we automatically discover spurious features that drive the background sensitivity of models and assess alignment of saliency maps with foregrounds. Finally, we quantitatively study the attribution problem for neural features by comparing feature saliency with ground-truth localization of semantic attributes.
翻訳日:2022-01-27 21:09:38 公開日:2022-01-26
# (参考訳) データに対する競争: データ購入がユーザに与える影響は? [全文訳有]

Competition over data: how does data purchase affect users? ( http://arxiv.org/abs/2201.10774v1 )

ライセンス: CC BY-SA 4.0
Yongchan Kwon, Antonio Ginart, James Zou(参考訳) マシンラーニング(ML)は多くの競合サービスプロバイダによってデプロイされるため、基盤となるML予測器も互いに競合するようになり、このような競合の影響やバイアスを理解することがますます重要になる。 本稿では,競合する予測者がラベル付きデータを取得して予測品質を向上できる場合について検討する。 我々はML予測者がアクティブな学習アルゴリズムを使って予算内でラベル付きデータを購入できる新しい環境を導入し、ユーザを引き付けるために競合する。 私たちの環境は、これまでよく研究されていなかった競合システムにおけるデータ取得の重要な側面をモデル化しています。 ML予測器の全体的な性能は、予測器が追加のラベル付きデータを購入できる場合に向上することがわかった。 しかし、意外なことに、ユーザが経験する品質、すなわち、各ユーザが選択した予測器の精度は、個々の予測器が良くなるにつれて低下する可能性がある。 この現象は、データ購入が予測者をより均一にする効果がある一方で、競合相手が各予測者を集団のサブセットに特化するよう促すトレードオフによって自然に発生することを示す。 我々は実験と理論の両方で発見を支持している。

As machine learning (ML) is deployed by many competing service providers, the underlying ML predictors also compete against each other, and it is increasingly important to understand the impacts and biases from such competition. In this paper, we study what happens when the competing predictors can acquire additional labeled data to improve their prediction quality. We introduce a new environment that allows ML predictors to use active learning algorithms to purchase labeled data within their budgets while competing against each other to attract users. Our environment models a critical aspect of data acquisition in competing systems which has not been well-studied before. We found that the overall performance of an ML predictor improves when predictors can purchase additional labeled data. Surprisingly, however, the quality that users experience -- i.e. the accuracy of the predictor selected by each user -- can decrease even as the individual predictors get better. We show that this phenomenon naturally arises due to a trade-off whereby competition pushes each predictor to specialize in a subset of the population while data purchase has the effect of making predictors more uniform. We support our findings with both experiments and theories.
翻訳日:2022-01-27 20:42:25 公開日:2022-01-26
# (参考訳) DSFormer: 高速マルチコントラストMRI再構成のためのデュアルドメイン自己教師型トランス [全文訳有]

DSFormer: A Dual-domain Self-supervised Transformer for Accelerated Multi-contrast MRI Reconstruction ( http://arxiv.org/abs/2201.10776v1 )

ライセンス: CC BY 4.0
Bo Zhou, Jo Schlemper, Neel Dey, Seyed Sadegh Mohseni Salehi, Chi Liu, James S. Duncan, Michal Sofka(参考訳) マルチコントラストMRI(Multi-Contrast MRI)は、放射線学的意思決定を支援するために複数の補完的な画像モダリティを撮像する。 マルチコントラスト間の冗長性を活かすため、複数のコントラストの時間コストを下げる必要があるため、現在のディープアクセラレーションMRI再構成ネットワークは注目されている。 しかし、既存の研究は、主にペア化されたデータと、違法に高価なフルサンプリングされたMRIシーケンスで管理されている。 さらに、レコンストラクションネットワークは通常、長距離相互作用をモデル化する能力に制限のある畳み込みアーキテクチャに依存しており、微細な解剖学的詳細を最適化する可能性がある。 そこで本研究では,MC-MRI再構成を高速化するデュアルドメイン自己教師型トランス (DSFormer) を提案する。 DSFormerは、MC-MRI情報共有を可能にする2つのディープコンディショニング戦略の下で訓練された複数のカスケードスウィントランスフォーマーネットワーク(SwinRN)からなるディープコンディショナルカスケードトランスフォーマー(DCCT)を開発する。 さらに,完全サンプルデータ取得のコストを軽減すべく,dctのためのデュアルドメイン(画像とk空間)自己教師付き学習戦略を提案する。 DSFormerは、電流の完全教師付きベースラインを実験的に上回る高忠実な再構成を生成する。 さらに、DSFormerは、完全な監督または提案した二重ドメインの自己監督によってトレーニングされた場合、ほぼ同じ性能を達成する。

Multi-contrast MRI (MC-MRI) captures multiple complementary imaging modalities to aid in radiological decision-making. Given the need for lowering the time cost of multiple acquisitions, current deep accelerated MRI reconstruction networks focus on exploiting the redundancy between multiple contrasts. However, existing works are largely supervised with paired data and/or prohibitively expensive fully-sampled MRI sequences. Further, reconstruction networks typically rely on convolutional architectures which are limited in their capacity to model long-range interactions and may lead to suboptimal recovery of fine anatomical detail. To these ends, we present a dual-domain self-supervised transformer (DSFormer) for accelerated MC-MRI reconstruction. DSFormer develops a deep conditional cascade transformer (DCCT) consisting of several cascaded Swin transformer reconstruction networks (SwinRN) trained under two deep conditioning strategies to enable MC-MRI information sharing. We further present a dual-domain (image and k-space) self-supervised learning strategy for DCCT to alleviate the costs of acquiring fully sampled training data. DSFormer generates high-fidelity reconstructions which experimentally outperform current fully-supervised baselines. Moreover, we find that DSFormer achieves nearly the same performance when trained either with full supervision or with our proposed dual-domain self-supervision.
翻訳日:2022-01-27 20:19:56 公開日:2022-01-26
# (参考訳) 変分モデルインバージョンアタック [全文訳有]

Variational Model Inversion Attacks ( http://arxiv.org/abs/2201.10787v1 )

ライセンス: CC BY 4.0
Kuan-Chieh Wang, Yan Fu, Ke Li, Ashish Khisti, Richard Zemel, Alireza Makhzani(参考訳) ディープニューラルネットワークの普及を考えると、これらのモデルがトレーニングされた機密データに関する情報を明らかにしないことが重要である。 モデル反転攻撃では、悪意のあるユーザは、教師付きニューラルネットワークのトレーニングに使用されるプライベートデータセットを復元しようとする。 成功したモデル反転攻撃は、プライベートデータセット内の各クラスを正確に記述する現実的で多様なサンプルを生成する必要がある。 本研究では,モデル反転攻撃の確率論的解釈を提供し,多様性と精度の両方を考慮に入れた変動目的を定式化する。 この変動目的を最適化するために、ターゲットデータセットと構造的類似性を共有する公開補助データセットに基づいてトレーニングされた、深層生成モデルのコード空間で定義された変動族を選択する。 実験により,本手法は顔と胸部X線画像のデータセットにおけるターゲット攻撃精度,サンプルリアリズム,多様性の観点から,性能を著しく向上する。

Given the ubiquity of deep neural networks, it is important that these models do not reveal information about sensitive data that they have been trained on. In model inversion attacks, a malicious user attempts to recover the private dataset used to train a supervised neural network. A successful model inversion attack should generate realistic and diverse samples that accurately describe each of the classes in the private dataset. In this work, we provide a probabilistic interpretation of model inversion attacks, and formulate a variational objective that accounts for both diversity and accuracy. In order to optimize this variational objective, we choose a variational family defined in the code space of a deep generative model, trained on a public auxiliary dataset that shares some structural similarity with the target dataset. Empirically, our method substantially improves performance in terms of target attack accuracy, sample realism, and diversity on datasets of faces and chest X-ray images.
翻訳日:2022-01-27 20:04:54 公開日:2022-01-26
# (参考訳) ピニインと文字を用いたエンドツーエンド中国語音声認識用デュアルデコーダトランス [全文訳有]

Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech Recognition with Pinyin and Character ( http://arxiv.org/abs/2201.10792v1 )

ライセンス: CC BY 4.0
Zhao Yang, Wei Xi, Rui Wang, Rui Jiang and Jizhong Zhao(参考訳) エンドツーエンド自動音声認識(ASR)は有望な結果を得た。 しかし、既存のasrメソッドの多くは、特定の言語特性の使用を無視している。 中国語のasrタスクでは、pinyin と character as writing and spelling system はそれぞれ、中国語での相互昇進である。 以上の直感に基づいて,共同ピニインキャラクタASRに向いていない関連モデルの種類を調査し,ピニイン文字と文字の書き起こしの特徴に応じて,二重デコーダトランスを用いた新しい中国語ASRモデルを提案する。 具体的には,Pinyin-character層ワイド線形対話(LWLI)モジュールとPPGAを併用し,Pinyinと文字情報を適応的に融合させることで,多層間相互作用を実現する。 さらに、トレーニングをより安定し、より早く収束させるための2段階のトレーニング戦略が提案されている。 AISHELL-1データセットのテストセットでは、言語モデルを持たない音声-ピニイン-文字-相互作用(SPCI)モデルが、試験セット上で9.85%の文字誤り率(CER)を達成した。

End-to-end automatic speech recognition (ASR) has achieved promising results. However, most existing end-to-end ASR methods neglect the use of specific language characteristics. For Mandarin Chinese ASR tasks, pinyin and character as writing and spelling systems respectively are mutual promotion in the Mandarin Chinese language. Based on the above intuition, we investigate types of related models that are suitable but not for joint pinyin-character ASR and propose a novel Mandarin Chinese ASR model with dual-decoder Transformer according to the characteristics of the pinyin transcripts and character transcripts. Specifically, the joint pinyin-character layer-wise linear interactive (LWLI) module and phonetic posteriorgrams adapter (PPGA) are proposed to achieve inter-layer multi-level interaction by adaptively fusing pinyin and character information. Furthermore, a two-stage training strategy is proposed to make training more stable and faster convergence. The results on the test sets of AISHELL-1 dataset show that the proposed Speech-Pinyin-Charac ter-Interaction (SPCI) model without a language model achieves 9.85% character error rate (CER) on the test set, which is 17.71% relative reduction compared to baseline models based on Transformer.
翻訳日:2022-01-27 19:45:01 公開日:2022-01-26
# (参考訳) Shift OperationがVision Transformerと出会う: 注意メカニズムの極めてシンプルな代替手段 [全文訳有]

When Shift Operation Meets Vision Transformer: An Extremely Simple Alternative to Attention Mechanism ( http://arxiv.org/abs/2201.10801v1 )

ライセンス: CC BY 4.0
Guangting Wang, Yucheng Zhao, Chuanxin Tang, Chong Luo, Wenjun Zeng(参考訳) 視覚変換器(ViT)の成功の鍵は、空間関係をモデル化するための柔軟で強力な方法を提供するため、注意機構が広く信じられている。 しかし、注意機構は本当にViTに欠かせない部分なのか? 他の選択肢に置き換えられるのでしょうか? 注意機構の役割を解明するために、ZERO FLOPとZEROパラメータという非常に単純なケースに単純化する。 具体的には、シフト操作を再考する。 パラメータや算術計算は一切含まない。 唯一の操作は、チャネルのごく一部を隣接する機能間で交換することである。 この簡単な操作に基づいて、シフト操作によってViTの注目層が置換されるShiftViTと呼ばれる新しいバックボーンネットワークを構築する。 ShiftViTは、分類、検出、セグメンテーションなど、いくつかの主要なタスクでうまく機能する。 性能は、強力なベースラインであるSwin Transformerと同等かそれ以上である。 これらの結果は、注意機構がViTを成功させる重要な要因ではないことを示唆している。 ゼロパラメータ操作に置き換えることもできる。 今後の作業では、ViTの残りの部分にもっと注意を払うべきです。 コードはgithub.com/microsoft /SPACHで入手できる。

Attention mechanism has been widely believed as the key to success of vision transformers (ViTs), since it provides a flexible and powerful way to model spatial relationships. However, is the attention mechanism truly an indispensable part of ViT? Can it be replaced by some other alternatives? To demystify the role of attention mechanism, we simplify it into an extremely simple case: ZERO FLOP and ZERO parameter. Concretely, we revisit the shift operation. It does not contain any parameter or arithmetic calculation. The only operation is to exchange a small portion of the channels between neighboring features. Based on this simple operation, we construct a new backbone network, namely ShiftViT, where the attention layers in ViT are substituted by shift operations. Surprisingly, ShiftViT works quite well in several mainstream tasks, e.g., classification, detection, and segmentation. The performance is on par with or even better than the strong baseline Swin Transformer. These results suggest that the attention mechanism might not be the vital factor that makes ViT successful. It can be even replaced by a zero-parameter operation. We should pay more attentions to the remaining parts of ViT in the future work. Code is available at github.com/microsoft /SPACH.
翻訳日:2022-01-27 19:36:58 公開日:2022-01-26
# (参考訳) 複雑な決定の速度, 品質, 最適タイミング: フィールド・エビデンス

Speed, Quality, and the Optimal Timing of Complex Decisions: Field Evidence ( http://arxiv.org/abs/2201.10808v1 )

ライセンス: CC BY 4.0
Uwe Sunde, Dainis Zegners, Anthony Strittmatter(参考訳) 本稿では,意思決定のタイミングが内在的である認知要求決定の現実的な設定における意思決定速度と意思決定品質の関係を実証的に検討する。 move-by-moveデータは、チェスエンジンの人工知能を用いて構築された最良動作の計算ベンチマークと実際の決定の比較に基づいて、決定時間と決定品質に関する極めて詳細な情報を提供する。 その結果、より速い決定はより良いパフォーマンスに結びついていることが判明した。 この結果はドリフト拡散モデルのような手続き決定モデルの予測と一致しており、意思決定者は不確定な評価を伴う決定代替案に関する情報を順次取得する。

This paper presents an empirical investigation of the relation between decision speed and decision quality for a real-world setting of cognitively-demandin g decisions in which the timing of decisions is endogenous: professional chess. Move-by-move data provide exceptionally detailed and precise information about decision times and decision quality, based on a comparison of actual decisions to a computational benchmark of best moves constructed using the artificial intelligence of a chess engine. The results reveal that faster decisions are associated with better performance. The findings are consistent with the predictions of procedural decision models like drift-diffusion-mode ls in which decision makers sequentially acquire information about decision alternatives with uncertain valuations.
翻訳日:2022-01-27 19:24:35 公開日:2022-01-26
# (参考訳) pars: 雑音ラベル学習のための疑似ラベル認識ロバストサンプル選択 [全文訳有]

PARS: Pseudo-Label Aware Robust Sample Selection for Learning with Noisy Labels ( http://arxiv.org/abs/2201.10836v1 )

ライセンス: CC BY 4.0
Arushi Goel, Yunlong Jiao and Jordan Massiah(参考訳) 大規模なデータセットの正確なラベルを取得するには、時間と費用がかかります。 クリーンラベルデータからの学習に対するディープラーニングモデルの依存を減らすために、最近のいくつかの研究はノイズラベルを用いた学習に焦点を当てている。 これらの手法は通常、ノイズロバストモデル(サンプル選択アプローチ、ノイズロバスト損失関数、ラベル補正方法)を学ぶための3つの設計カテゴリに分類される。 本稿では,3つの世界のベストを組み合わせるハイブリッド手法であるpars: pseudo-label aware robust sample selectionを提案する。 具体的には、生/ノイズラベルと推定/修正された擬似ラベルの両方を用いたトレーニングサンプルを自己学習によって活用し、損失分析によってサンプルを曖昧でノイズの多いサブセットに分割する。 その結果、PARSは、ノイズの多いCIFAR-10とCIFAR-100データセット、特に高ノイズと低リソース設定の課題に関する広範な研究において、技術の現状を著しく上回ります。 特にparsは、90%の対称ラベルノイズを持つcifar-100データセットでテスト精度が絶対12%向上し、追加の制限としてトレーニング中にノイズラベルのうち1/5しか利用できない場合にテスト精度が絶対27%向上した。 現実世界のノイズの多いデータセットであるCloting1Mでは、PARSは最先端技術に対する競合的な結果を達成する。

Acquiring accurate labels on large-scale datasets is both time consuming and expensive. To reduce the dependency of deep learning models on learning from clean labeled data, several recent research efforts are focused on learning with noisy labels. These methods typically fall into three design categories to learn a noise robust model: sample selection approaches, noise robust loss functions, or label correction methods. In this paper, we propose PARS: Pseudo-Label Aware Robust Sample Selection, a hybrid approach that combines the best from all three worlds in a joint-training framework to achieve robustness to noisy labels. Specifically, PARS exploits all training samples using both the raw/noisy labels and estimated/refurbishe d pseudo-labels via self-training, divides samples into an ambiguous and a noisy subset via loss analysis, and designs label-dependent noise-aware loss functions for both sets of filtered labels. Results show that PARS significantly outperforms the state of the art on extensive studies on the noisy CIFAR-10 and CIFAR-100 datasets, particularly on challenging high-noise and low-resource settings. In particular, PARS achieved an absolute 12% improvement in test accuracy on the CIFAR-100 dataset with 90% symmetric label noise, and an absolute 27% improvement in test accuracy when only 1/5 of the noisy labels are available during training as an additional restriction. On a real-world noisy dataset, Clothing1M, PARS achieves competitive results to the state of the art.
翻訳日:2022-01-27 19:23:42 公開日:2022-01-26
# (参考訳) TransPPG:遠隔心拍推定用2ストリーム変圧器 [全文訳有]

TransPPG: Two-stream Transformer for Remote Heart Rate Estimate ( http://arxiv.org/abs/2201.10873v1 )

ライセンス: CC BY 4.0
Jiaqi Kang, Su Yang, Weishan Zhang(参考訳) リモートフォトプレチモグラフィ(rppg)を用いた非接触型顔画像を用いた心拍数推定は、多くの応用(遠隔医療など)において大きな可能性を示しており、制約のあるシナリオで信頼できる結果を得た。 しかし, 頭部運動や不安定照明を伴う複雑な環境下においても, 結果の正確性が要求される。 そのため,複雑な環境下でのrPPGの性能向上が課題となっている。 本稿では,重要情報だけでなく,周辺情報を参照として含むマルチスケール適応的空間的・時間的地図(mast_mop)と呼ばれる特徴地図に,各顔映像列を埋め込み,照度不安定など前景と背景に課される均質な摂動を鏡として行う新しい映像埋め込み手法を提案する。 そこで本研究では,MAST_Mopを心拍数(HR)にマッピングする2ストリームトランスフォーマーモデルを提案する。 提案手法は,MAHNOB-HCIとVIPL-HRの2つの公開データセットにおいて,現在の最先端手法を著しく上回っている。 我々の知る限り、Transformer をバックボーンとして初めて、rPPG の時間的依存関係をキャプチャし、2つのストリームスキームを適用して、ノイズ許容のための前景信号に対する対応する摂動のミラーとして背景からの干渉を検出する。

Non-contact facial video-based heart rate estimation using remote photoplethysmography (rPPG) has shown great potential in many applications (e.g., remote health care) and achieved creditable results in constrained scenarios. However, practical applications require results to be accurate even under complex environment with head movement and unstable illumination. Therefore, improving the performance of rPPG in complex environment has become a key challenge. In this paper, we propose a novel video embedding method that embeds each facial video sequence into a feature map referred to as Multi-scale Adaptive Spatial and Temporal Map with Overlap (MAST_Mop), which contains not only vital information but also surrounding information as reference, which acts as the mirror to figure out the homogeneous perturbations imposed on foreground and background simultaneously, such as illumination instability. Correspondingly, we propose a two-stream Transformer model to map the MAST_Mop into heart rate (HR), where one stream follows the pulse signal in the facial area while the other figures out the perturbation signal from the surrounding region such that the difference of the two channels leads to adaptive noise cancellation. Our approach significantly outperforms all current state-of-the-art methods on two public datasets MAHNOB-HCI and VIPL-HR. As far as we know, it is the first work with Transformer as backbone to capture the temporal dependencies in rPPGs and apply the two stream scheme to figure out the interference from backgrounds as mirror of the corresponding perturbation on foreground signals for noise tolerating.
翻訳日:2022-01-27 19:01:46 公開日:2022-01-26
# (参考訳) ノルウェー議会演説コーパス [全文訳有]

The Norwegian Parliamentary Speech Corpus ( http://arxiv.org/abs/2201.10881v1 )

ライセンス: CC BY 4.0
Per Erik Solberg and Pablo Ortiz(参考訳) ノルウェー議会演説コーパス(Norwear Parliamentary Speech Corpus、NPSC)は、ノルウェー議会の会議の記録を収録した音声データセットである。 これは、自動音声認識(ASR)システムのトレーニング用に設計された、未記述のノルウェー語音声を含む、初めて公開されたデータセットである。 録音は手動で書き起こされ、言語コードや話者で注釈付けされ、話者に関する詳細なメタデータがある。 転写は正規化と非正規化の両方に存在し、非標準化された単語は明示的にマークされ、標準化された同値で注釈付けされる。 本データセットの有用性を検証するため,NPSCで訓練されたASRシステムと,原稿読み上げ音声のみを訓練したベースラインシステムを比較した。 これらのシステムは、自発的な方言音声を含む独立したデータセットでテストされた。 npscで訓練されたシステムは、単語誤り率(wer)が22.9%向上し、著しく改善した。 さらに、NPSCのトレーニングは、基準系から高いWERを持つ方言では改善が一般的に大きいため、方言の観点からは「民主化」効果があることが示されている。

The Norwegian Parliamentary Speech Corpus (NPSC) is a speech dataset with recordings of meetings from Stortinget, the Norwegian parliament. It is the first, publicly available dataset containing unscripted, Norwegian speech designed for training of automatic speech recognition (ASR) systems. The recordings are manually transcribed and annotated with language codes and speakers, and there are detailed metadata about the speakers. The transcriptions exist in both normalized and non-normalized form, and non-standardized words are explicitly marked and annotated with standardized equivalents. To test the usefulness of this dataset, we have compared an ASR system trained on the NPSC with a baseline system trained on only manuscript-read speech. These systems were tested on an independent dataset containing spontaneous, dialectal speech. The NPSC-trained system performed significantly better, with a 22.9% relative improvement in word error rate (WER). Moreover, training on the NPSC is shown to have a "democratizing" effect in terms of dialects, as improvements are generally larger for dialects with higher WER from the baseline system.
翻訳日:2022-01-27 18:49:45 公開日:2022-01-26
# (参考訳) 新型コロナウイルス胸部x線分類におけるハイパーパラメータ最適化 [全文訳有]

Hyperparameter Optimization for COVID-19 Chest X-Ray Classification ( http://arxiv.org/abs/2201.10885v1 )

ライセンス: CC BY 4.0
Ibraheem Hamdi, Muhammad Ridzuan, Mohammad Yaqub(参考訳) ワクチンの導入にもかかわらず、コロナウイルス病(COVID-19)は世界的なジレンマであり、デルタや最近のOmicronのような新しい変種を継続的に開発している。 現在の検査基準はポリメラーゼ連鎖反応(PCR)である。 しかし、PCRは高価で遅く、多くの人にはアクセスできない。 一方、x線は20世紀初頭から容易に使われ、比較的安価で、入手が速く、一般的に健康保険の対象となっている。 モデル, ハイパーパラメータ, 拡張を慎重に選択することにより, バイナリ分類では83%の精度で, マルチクラスでは64%の精度で胸部X線からのCOVID-19感染を検出できるモデルを開発することができる。

Despite the introduction of vaccines, Coronavirus disease (COVID-19) remains a worldwide dilemma, continuously developing new variants such as Delta and the recent Omicron. The current standard for testing is through polymerase chain reaction (PCR). However, PCRs can be expensive, slow, and/or inaccessible to many people. X-rays on the other hand have been readily used since the early 20th century and are relatively cheaper, quicker to obtain, and typically covered by health insurance. With a careful selection of model, hyperparameters, and augmentations, we show that it is possible to develop models with 83% accuracy in binary classification and 64% in multi-class for detecting COVID-19 infections from chest x-rays.
翻訳日:2022-01-27 18:39:36 公開日:2022-01-26
# (参考訳) 多様性規則化によるアンサンブルのロバスト性向上と校正 [全文訳有]

Improving robustness and calibration in ensembles with diversity regularization ( http://arxiv.org/abs/2201.10908v1 )

ライセンス: CC BY 4.0
Hendrik Alexander Mehrtens, Camila Gonz\'alez, Anirban Mukhopadhyay(参考訳) 高リスク環境ではキャリブレーションと不確実性推定が重要なトピックである。 そこで本研究では,分布外サンプルを用い,アンサンブルの全体的な精度,キャリブレーション,分布外検出能力を向上した分類タスクのための新しい多様性調整器を提案する。 近年,アンサンブルの多様性への関心が高まる中,データセットシフト時と同様に分布データのキャリブレーションを改善するために,アンサンブルの多様性を明示的に正規化する可能性について体系的に評価した。 多様性の正規化は、個々のメンバ間で重みが部分的に共有され、同じレベルのロバストネスに達するためにアンサンブルメンバーが少ないアーキテクチャにおいて非常に有益であることを示す。 CIFAR-10、CIFAR-100、SVHNの実験では、多様性の正規化はキャリブレーションとロバスト性、および分布外検出に重大な影響を与えることが示された。

Calibration and uncertainty estimation are crucial topics in high-risk environments. We introduce a new diversity regularizer for classification tasks that uses out-of-distribution samples and increases the overall accuracy, calibration and out-of-distribution detection capabilities of ensembles. Following the recent interest in the diversity of ensembles, we systematically evaluate the viability of explicitly regularizing ensemble diversity to improve calibration on in-distribution data as well as under dataset shift. We demonstrate that diversity regularization is highly beneficial in architectures, where weights are partially shared between the individual members and even allows to use fewer ensemble members to reach the same level of robustness. Experiments on CIFAR-10, CIFAR-100, and SVHN show that regularizing diversity can have a significant impact on calibration and robustness, as well as out-of-distribution detection.
翻訳日:2022-01-27 18:30:30 公開日:2022-01-26
# (参考訳) 自然言語推論のためのPair-Level Supervised Contrastive Learning [全文訳有]

Pair-Level Supervised Contrastive Learning for Natural Language Inference ( http://arxiv.org/abs/2201.10927v1 )

ライセンス: CC BY 4.0
Shu'ang Li, Xuming Hu, Li Lin, Lijie Wen(参考訳) 自然言語推論(NLI)は、文対(前提と仮説)の関係を推測する必要がある自然言語理解にとってますます重要なタスクである。 近年の多くの研究は、NLIデータセットから文ペアの関係を取り入れて、文表現を学習することで、対照的な学習を利用している。 しかし,これらの手法は文レベルの表現との比較にのみ焦点をあてる。 本稿では,Pair-level Supervised Contrastive Learning approach (PairSCL)を提案する。 文対の連接表現を学習するために、クロスアテンションモジュールを採用する。 コントラスト学習の目的は、あるクラス内のクラスを一つにまとめ、他のクラスでペアを分割することで、文章ペアの異なるクラスを区別するように設計されている。 NLIの2つの公開データセット上でPairSCLの評価を行い、PairSCLの精度は平均2.1%向上した。 さらに,テキスト分類の7つの転送タスクにおいて,従来の最先端手法よりも優れていた。

Natural language inference (NLI) is an increasingly important task for natural language understanding, which requires one to infer the relationship between the sentence pair (premise and hypothesis). Many recent works have used contrastive learning by incorporating the relationship of the sentence pair from NLI datasets to learn sentence representation. However, these methods only focus on comparisons with sentence-level representations. In this paper, we propose a Pair-level Supervised Contrastive Learning approach (PairSCL). We adopt a cross attention module to learn the joint representations of the sentence pairs. A contrastive learning objective is designed to distinguish the varied classes of sentence pairs by pulling those in one class together and pushing apart the pairs in other classes. We evaluate PairSCL on two public datasets of NLI where the accuracy of PairSCL outperforms other methods by 2.1% on average. Furthermore, our method outperforms the previous state-of-the-art method on seven transfer tasks of text classification.
翻訳日:2022-01-27 18:14:15 公開日:2022-01-26
# (参考訳) 周波数攻撃による3次元攻撃の促進 [全文訳有]

Boosting 3D Adversarial Attacks with Attacking On Frequency ( http://arxiv.org/abs/2201.10937v1 )

ライセンス: CC BY 4.0
Binbin Liu, Jinlai Zhang, Lyujie Chen, Jihong Zhu(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが示されている。 近年,3次元対向攻撃,特に点雲に対する対向攻撃が増加傾向にある。 しかし、先行手法で得られた逆点雲は移動性が弱く、防御が容易である。 これらの問題に対処するため,本論文では,ポイントクラウドの低周波成分により多くの注意を払う新しいポイントクラウド攻撃(AOF)を提案する。 我々は、点雲とその低周波成分からの損失を組み合わせ、敵のサンプルを製作する。 大規模な実験により、AOFは最新技術(SOTA)攻撃と比較して転写性を大幅に改善し、SOTA3D防御法よりも堅牢であることが示された。 さもなければ、クリーンポイントの雲と比較して、aofによって得られる逆ポイントの雲は、外れ値よりも多くの変形を含んでいる。

Deep neural networks (DNNs) have been shown to be vulnerable to adversarial attacks. Recently, 3D adversarial attacks, especially adversarial attacks on point clouds, have elicited mounting interest. However, adversarial point clouds obtained by previous methods show weak transferability and are easy to defend. To address these problems, in this paper we propose a novel point cloud attack (dubbed AOF) that pays more attention on the low-frequency component of point clouds. We combine the losses from point cloud and its low-frequency component to craft adversarial samples. Extensive experiments validate that AOF can improve the transferability significantly compared to state-of-the-art (SOTA) attacks, and is more robust to SOTA 3D defense methods. Otherwise, compared to clean point clouds, adversarial point clouds obtained by AOF contain more deformation than outlier.
翻訳日:2022-01-27 18:03:22 公開日:2022-01-26
# (参考訳) 双知覚類似性を用いた直交ネットワークアライメントのパワーについて [全文訳有]

On the Power of Gradual Network Alignment Using Dual-Perception Similarities ( http://arxiv.org/abs/2201.10945v1 )

ライセンス: CC BY 4.0
Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) ネットワークアライメント(NA)は、ネットワーク構造とノード属性に基づいて、2つのネットワーク間のノードの対応を見つけるタスクである。 本研究の動機は,既存のNA手法が全てのノード対を一度に発見しようとしたため,ノード対応の暫定的な発見によって得られた情報を利用して,ノードマッチング中の次の対応をより正確に見つけることにある。 この課題に対処するため,我々は,段階的マッチングの初期段階で容易に発見できる強い整合性を示すノードペアをフル活用することにより,ノードペアを徐々に発見する新しいNA手法であるGrad-Alignを提案する。 特に、Grad-Alignは、まずグラフニューラルネットワークに基づく2つのネットワークのノード埋め込みを生成する。 そして、複数層埋め込み類似度を含む二重知覚類似度と、異なるスケールのネットワークに適用可能なトベルスキー指数を用いた非対称集合類似度とを演算することにより、ノードを徐々に整列させる。 さらに,エッジ拡張モジュールをgrad-alignに組み込んで構造的一貫性を強化した。 実世界および合成データセットを用いた包括的実験により, grad-alignが最先端のna法を一貫して上回っていることを実証した。

Network alignment (NA) is the task of finding the correspondence of nodes between two networks based on the network structure and node attributes. Our study is motivated by the fact that, since most of existing NA methods have attempted to discover all node pairs at once, they do not harness information enriched through interim discovery of node correspondences to more accurately find the next correspondences during the node matching. To tackle this challenge, we propose Grad-Align, a new NA method that gradually discovers node pairs by making full use of node pairs exhibiting strong consistency, which are easy to be discovered in the early stage of gradual matching. Specifically, Grad-Align first generates node embeddings of the two networks based on graph neural networks along with our layer-wise reconstruction loss, a loss built upon capturing the first-order and higher-order neighborhood structures. Then, nodes are gradually aligned by computing dual-perception similarity measures including the multi-layer embedding similarity as well as the Tversky similarity, an asymmetric set similarity using the Tversky index applicable to networks with different scales. Additionally, we incorporate an edge augmentation module into Grad-Align to reinforce the structural consistency. Through comprehensive experiments using real-world and synthetic datasets, we empirically demonstrate that Grad-Align consistently outperforms state-of-the-art NA methods.
翻訳日:2022-01-27 17:45:49 公開日:2022-01-26
# (参考訳) 変圧器層を有するハイブリッドCNNを用いた肝・肝病変分離術 [全文訳有]

Joint Liver and Hepatic Lesion Segmentation using a Hybrid CNN with Transformer Layers ( http://arxiv.org/abs/2201.10981v1 )

ライセンス: CC BY 4.0
Georg Hille, Shubham Agrawal, Christian Wybranski, Maciej Pech, Alexey Surov, Sylvia Saalfeld(参考訳) 深層学習による肝病変と肝病変の分画は,毎年肝癌の発生頻度の増加により,臨床実践において着実に関連している。 近年, 医用画像分割の分野において, 全般的に有望な結果が得られた各種ネットワーク変異が開発されているが, ほとんどが肝病変の分画に苦慮している。 これは、既存の制限を克服するために畳み込み型とトランスフォーマー型のアーキテクチャの要素を組み合わせるという考えに繋がる。 SWTR-Unetと呼ばれるハイブリッドネットワークは、事前訓練されたResNet、トランスフォーマーブロック、共通のUnetスタイルのデコーダパスで構成されている。 このネットワークは、臨床肝mriや、肝臓腫瘍分画(lits)チャレンジの一般公開されたctデータにも適用された。 さらに、複数の最先端ネットワークが実装され、両方のデータセットに適用され、直接互換性が確保された。 さらに, 相関解析とアブレーション実験を行い, 提案手法のセグメンテーション精度に影響を及ぼす因子について検討した。 Diceの類似度スコアは、MRIデータセットで平均98+-2%、MRIデータセットで81+-28%、CTデータセットでそれぞれ97+-2%、79+25%であり、提案したSWTR-Unetは、追加実装された最先端ネットワークでそれぞれより優れている。 肝病変の分節に対するサーバ間変動が示すように,手動で行う専門家分節と同等のセグメンテーション精度が得られた。 その結果, 臨床実習において貴重な時間と資源を節約できる可能性が示唆された。

Deep learning-based segmentation of the liver and hepatic lesions therein steadily gains relevance in clinical practice due to the increasing incidence of liver cancer each year. Whereas various network variants with overall promising results in the field of medical image segmentation have been developed over the last years, almost all of them struggle with the challenge of accurately segmenting hepatic lesions. This lead to the idea of combining elements of convolutional and transformerbased architectures to overcome the existing limitations. This work presents a hybrid network called SWTR-Unet, consisting of a pretrained ResNet, transformer blocks as well as a common Unet-style decoder path. This network was applied to clinical liver MRI, as well as to the publicly available CT data of the liver tumor segmentation (LiTS) challenge. Additionally, multiple state-of-the-art networks were implemented and applied to both datasets, ensuring a direct comparability. Furthermore, correlation analysis and an ablation study were carried out, to investigate various influencing factors on the segmentation accuracy of our presented method. With Dice similarity scores of averaged 98 +- 2 % for liver and 81 +- 28 % lesion segmentation on the MRI dataset and 97 +- 2 % and 79 +- 25 %, respectively on the CT dataset, the proposed SWTR-Unet outperforms each of the additionally implemented state-of-the-art networks. The achieved segmentation accuracy was found to be on par with manually performed expert segmentations as indicated by interobserver variabilities for liver lesion segmentation. In conclusion, the presented method could save valuable time and resources in clinical practice.
翻訳日:2022-01-27 17:14:16 公開日:2022-01-26
# (参考訳) 変動的タイトネスへの上り坂道--単調性とモンテカルロの目的- [全文訳有]

Uphill Roads to Variational Tightness: Monotonicity and Monte Carlo Objectives ( http://arxiv.org/abs/2201.10989v1 )

ライセンス: CC BY 4.0
Pierre-Alexandre Mattei and Jes Frellsen(参考訳) 我々は、潜在変数モデルを学習するための有望な戦略である重み付き変分推論(IWVI)の理論を再考する。 IWVIはモンテカルロ目標 (Monte Carlo objectives, MCOs) と呼ばれる新しい変分境界を用いており、モンテカルロ推定によって難解な積分を置き換えることで得られる。 Burda, Grosse and Salakhutdinov (2016) は、重要なサンプルの数が増加することで、境界と可能性の間のギャップが確実に狭まることを示した。 この単純な単調性定理に着想を得て、モンテカルロの性質をMCOの厳密性にリンクする一連の漸近的な結果を示す。 より小さなモンテカルロ分散がより良い境界をもたらすという理論に挑戦する。 本研究では,近年の論文における経験的知見を理論的に確認し,正の相関関係が変動ギャップを減少させることを示した。 また、元の単調性定理を非一様重みを考えることで一般化する。 理論的結果のいくつかの実践的な結果について論じる。 我々の仕事は確率的順序の理論から多くのアイデアと結果を借りている。

We revisit the theory of importance weighted variational inference (IWVI), a promising strategy for learning latent variable models. IWVI uses new variational bounds, known as Monte Carlo objectives (MCOs), obtained by replacing intractable integrals by Monte Carlo estimates -- usually simply obtained via importance sampling. Burda, Grosse and Salakhutdinov (2016) showed that increasing the number of importance samples provably tightens the gap between the bound and the likelihood. Inspired by this simple monotonicity theorem, we present a series of nonasymptotic results that link properties of Monte Carlo estimates to tightness of MCOs. We challenge the rationale that smaller Monte Carlo variance leads to better bounds. We confirm theoretically the empirical findings of several recent papers by showing that, in a precise sense, negative correlation reduces the variational gap. We also generalise the original monotonicity theorem by considering non-uniform weights. We discuss several practical consequences of our theoretical results. Our work borrows many ideas and results from the theory of stochastic orders.
翻訳日:2022-01-27 16:53:47 公開日:2022-01-26
# (参考訳) てんかん性脳刺激手術における自動目標位置決め法の比較検討 [全文訳有]

A Multi-rater Comparative Study of Automatic Target Localization Methods for Epilepsy Deep Brain Stimulation Procedures ( http://arxiv.org/abs/2201.11002v1 )

ライセンス: CC BY 4.0
Han Liu, Kathryn L. Holloway, Dario J. Englot, Benoit M. Dawant(参考訳) てんかんは4番目に多い神経疾患であり、世界中の年齢層に影響を与えている。 深部脳刺激(dbs)は、抗てんかん薬や切除手術が良好な結果をもたらすことができない場合、代替治療法として出現している。 手順の立案を容易にし、標準化するために、計画の難しい目標である視床前核(ant)をdbs刺激目標に自動的に局在化させるアルゴリズムを開発することが望ましい。 本研究では、ANT-DBSの様々なローカライゼーション手法をベンチマークすることで、広範な比較研究を行う。 具体的には、従来の登録方法と、ヒートマップマッチングや微分空間から数値変換(DSNT)を含むディープラーニングに基づく手法を含む。 実験の結果,疑似ラベルで訓練されたディープラーニング(dl)ベースのローカライズ手法は,レート間およびレート内変動性に匹敵する性能を達成でき,従来の手法よりも桁違いに高速であることがわかった。

Epilepsy is the fourth most common neurological disorder and affects people of all ages worldwide. Deep Brain Stimulation (DBS) has emerged as an alternative treatment option when anti-epileptic drugs or resective surgery cannot lead to satisfactory outcomes. To facilitate the planning of the procedure and for its standardization, it is desirable to develop an algorithm to automatically localize the DBS stimulation target, i.e., Anterior Nucleus of Thalamus (ANT), which is a challenging target to plan. In this work, we perform an extensive comparative study by benchmarking various localization methods for ANT-DBS. Specifically, the methods involved in this study include traditional registration method and deep-learning-based methods including heatmap matching and differentiable spatial to numerical transform (DSNT). Our experimental results show that the deep-learning (DL)-based localization methods that are trained with pseudo labels can achieve a performance that is comparable to the inter-rater and intra-rater variability and that they are orders of magnitude faster than traditional methods.
翻訳日:2022-01-27 16:33:54 公開日:2022-01-26
# (参考訳) 意味表現に基づく言語バイアス画像分類の評価 [全文訳有]

Evaluating language-biased image classification based on semantic representations ( http://arxiv.org/abs/2201.11014v1 )

ライセンス: CC BY 4.0
Yoann Lemesle, Masataka Sawayama, Guillermo Valle-Perez, Maxime Adolphe, H\'el\`ene Sauz\'eon, Pierre-Yves Oudeyer(参考訳) 人間は、単語が埋め込まれた画像に対して言語バイアスの画像認識を示す。 このような干渉は階層的な意味圏に依存し、人間の言語処理が視覚処理と高度に相互作用することを反映している。 人間と同様、最近の人工モデルはテキストや画像、例えばOpenAI CLIPで共同で訓練されており、言語バイアスの画像分類を示している。 バイアスが人間に類似した干渉を引き起こすかどうかを調べることは、モデルが言語と視覚の合同学習から階層的意味表現をどの程度取得するかを理解するのに役立つ。 本研究では, 認知科学文献の方法論ツールを用いて, 人工モデルのバイアスを評価する。 具体的には、画像に重ね合わせられた単語が異なるカテゴリレベルで画像分類を歪めることができるか、あるいはそれが言語と視覚の共有意味表現に起因するかをテストするベンチマークタスクを導入する。 我々のデータセットは、単語埋め込み画像の集合であり、自然な画像データセットと階層的な単語ラベルと、上位/下位のカテゴリレベルからなる。 このベンチマークテストを用いて,CLIPモデルを評価する。 提示語は,異なるカテゴリーレベルでモデルによる画像分類を歪めているが,その効果は画像と埋め込み語の間の意味的関係には依存しない。 このことは、CLIP視覚処理における意味的単語表現が画像表現と共有されていないことを示唆している。

Humans show language-biased image recognition for a word-embedded image, known as picture-word interference. Such interference depends on hierarchical semantic categories and reflects that human language processing highly interacts with visual processing. Similar to humans, recent artificial models jointly trained on texts and images, e.g., OpenAI CLIP, show language-biased image classification. Exploring whether the bias leads to interferences similar to those observed in humans can contribute to understanding how much the model acquires hierarchical semantic representations from joint learning of language and vision. The present study introduces methodological tools from the cognitive science literature to assess the biases of artificial models. Specifically, we introduce a benchmark task to test whether words superimposed on images can distort the image classification across different category levels and, if it can, whether the perturbation is due to the shared semantic representation between language and vision. Our dataset is a set of word-embedded images and consists of a mixture of natural image datasets and hierarchical word labels with superordinate/basic category levels. Using this benchmark test, we evaluate the CLIP model. We show that presenting words distorts the image classification by the model across different category levels, but the effect does not depend on the semantic relationship between images and embedded words. This suggests that the semantic word representation in the CLIP visual processing is not shared with the image representation, although the word representation strongly dominates for word-embedded images.
翻訳日:2022-01-27 16:27:05 公開日:2022-01-26
# (参考訳) リカレントレコメンデータシステムのためのレコメンデーションドロップアウト [全文訳有]

Recency Dropout for Recurrent Recommender Systems ( http://arxiv.org/abs/2201.11016v1 )

ライセンス: CC BY 4.0
Bo Chang, Can Xu, Matthieu L\^e, Jingchen Feng, Ya Le, Sriraj Badam, Ed Chi, Minmin Chen(参考訳) リカレントレコメンダシステムは,ユーザの行動軌跡の時間的ダイナミクスを捉えることに成功している。 しかし、リカレントニューラルネットワーク(RNN)は長期依存の学習が困難であることが知られている。 その結果、rnnベースのレコメンダシステムは短期ユーザーの興味を過度に重視する傾向がある。 これは"recency bias"と呼ばれ、長期的なユーザエクスペリエンスやエコシステムの健全性に悪影響を及ぼす可能性がある。 本稿では,リカレントレコメンダシステムにおけるリカレントバイアスを軽減するために,簡易かつ効果的なデータ拡張手法であるリカレントドロップアウト手法を提案する。 シミュレーション実験,オフライン実験,大規模産業レコメンデーションプラットフォームでのライブ実験など,各種実験環境での定期的ドロップアウトの有効性を実証する。

Recurrent recommender systems have been successful in capturing the temporal dynamics in users' activity trajectories. However, recurrent neural networks (RNNs) are known to have difficulty learning long-term dependencies. As a consequence, RNN-based recommender systems tend to overly focus on short-term user interests. This is referred to as the recency bias, which could negatively affect the long-term user experience as well as the health of the ecosystem. In this paper, we introduce the recency dropout technique, a simple yet effective data augmentation technique to alleviate the recency bias in recurrent recommender systems. We demonstrate the effectiveness of recency dropout in various experimental settings including a simulation study, offline experiments, as well as live experiments on a large-scale industrial recommendation platform.
翻訳日:2022-01-27 16:11:48 公開日:2022-01-26
# (参考訳) 関数情報を用いたガウス過程モデリングのためのカーネルベースアプローチ [全文訳有]

A Kernel-Based Approach for Modelling Gaussian Processes with Functional Information ( http://arxiv.org/abs/2201.11023v1 )

ライセンス: CC BY 4.0
John Nicholson, Peter Kiessler, and D. Andrew Brown(参考訳) ガウス過程は、機械学習と統計学における継続的プロセスのモデリングにおいて最も有用なツールの一つである。 プロセスの値が有限個の点の集まりで知られている場合、ガウス過程を用いてこれらの値を補間して他の場所での予測や不確実な定量化に用いられる曲面を構築することができる。 しかし、利用可能な情報が有限個の点の集まりの形で存在することは必ずしもそうではない。 例えば、境界値問題にはドメインの境界に関する情報が含まれており、これは典型的なガウス過程の手法には組み込めない非可算な点の集合である。 本稿では、再現カーネルヒルベルト空間を利用したガウス過程モデルを構築し、条件予測と直交射影の同値性を利用して、非可算情報を持つ場合の典型的有限ケースを統一する。 数値的な考察や概念実証を含む統計モデルでこの構成について議論する。

Gaussian processes are among the most useful tools in modeling continuous processes in machine learning and statistics. If the value of a process is known at a finite collection of points, one may use Gaussian processes to construct a surface which interpolates these values to be used for prediction and uncertainty quantification in other locations. However, it is not always the case that the available information is in the form of a finite collection of points. For example, boundary value problems contain information on the boundary of a domain, which is an uncountable collection of points that cannot be incorporated into typical Gaussian process techniques. In this paper we construct a Gaussian process model which utilizes reproducing kernel Hilbert spaces to unify the typical finite case with the case of having uncountable information by exploiting the equivalence of conditional expectation and orthogonal projections. We discuss this construction in statistical models, including numerical considerations and a proof of concept.
翻訳日:2022-01-27 15:55:29 公開日:2022-01-26
# (参考訳) 運動量カプセルネットワーク [全文訳有]

Momentum Capsule Networks ( http://arxiv.org/abs/2201.11091v1 )

ライセンス: CC BY 4.0
Josef Gugglberger and David Peer and Antonio Rodr\'iguez-S\'anchez(参考訳) カプセルネットワークは、多くのコンピュータビジョンタスクで有望な結果を達成したニューラルネットワークのクラスである。 しかし、ベースラインカプセルネットワークは、高い計算とメモリ要求のために、より複雑なデータセットの最先端の結果に到達できなかった。 我々はmomomental capsule network (mocapsnet) と呼ばれる新しいネットワークアーキテクチャを提案することでこの問題に取り組む。 MoCapsNetsは、ResNetsの一種であるMomentum ResNetsにインスパイアされている。 可逆ネットワークは、バックプロパゲーションアルゴリズムにおいてフォワードパスのアクティベーションを再計算することで、メモリ要求を大幅に削減することができる。 本稿では,カプセルネットワークに対して可逆的残留ビルディングブロックをどのように適用できるかという枠組みを提案する。 我々は,MNIST,SVHN,CIFAR-10 のベースラインカプセルネットワークの精度をはるかに低くして,MoCapsNetが精度を上回っていることを示す。 ソースコードはhttps://github.com/m oejoe95/MoCapsNetで入手できる。

Capsule networks are a class of neural networks that achieved promising results on many computer vision tasks. However, baseline capsule networks have failed to reach state-of-the-art results on more complex datasets due to the high computation and memory requirements. We tackle this problem by proposing a new network architecture, called Momentum Capsule Network (MoCapsNet). MoCapsNets are inspired by Momentum ResNets, a type of network that applies reversible residual building blocks. Reversible networks allow for recalculating activations of the forward pass in the backpropagation algorithm, so those memory requirements can be drastically reduced. In this paper, we provide a framework on how invertible residual building blocks can be applied to capsule networks. We will show that MoCapsNet beats the accuracy of baseline capsule networks on MNIST, SVHN and CIFAR-10 while using considerably less memory. The source code is available on https://github.com/m oejoe95/MoCapsNet.
翻訳日:2022-01-27 15:33:20 公開日:2022-01-26
# (参考訳) SCAI-QReCC共有質問応答タスク [全文訳有]

SCAI-QReCC Shared Task on Conversational Question Answering ( http://arxiv.org/abs/2201.11094v1 )

ライセンス: CC BY 4.0
Svitlana Vakulenko, Johannes Kiesel, Maik Fr\"obe(参考訳) Search-Oriented Conversational AI (SCAI)は、会話検索の分野を前進させる最近の研究に常に注目する、確立された会場である。 SCAI'21は独立したオンラインイベントとして組織され、会話型質問応答の共有タスクを特徴とした。 この課題に対して全参加者が回答生成モデルを用いて実験を行った結果,回答の正確性の評価は大きな課題であり,現在の研究ギャップであることがわかった。 自動評価の他に,2つのクラウドソーシング実験を行い,回答の妥当性と忠実度に関するアノテーションを収集した。 この共有タスクの結果として、評価に用いる元の会話型QAデータセットはさらに拡張され、参加者システムが生成した代替の正解が得られた。

Search-Oriented Conversational AI (SCAI) is an established venue that regularly puts a spotlight upon the recent work advancing the field of conversational search. SCAI'21 was organised as an independent on-line event and featured a shared task on conversational question answering. Since all of the participant teams experimented with answer generation models for this task, we identified evaluation of answer correctness in this settings as the major challenge and a current research gap. Alongside the automatic evaluation, we conducted two crowdsourcing experiments to collect annotations for answer plausibility and faithfulness. As a result of this shared task, the original conversational QA dataset used for evaluation was further extended with alternative correct answers produced by the participant systems.
翻訳日:2022-01-27 15:18:43 公開日:2022-01-26
# プライバシ保存型ロジスティック回帰トレーニングの高速化

Privacy-Preserving Logistic Regression Training with a Faster Gradient Variant ( http://arxiv.org/abs/2201.10838v1 )

ライセンス: Link先を確認
John Chiang(参考訳) 暗号化データセット上でのロジスティック回帰トレーニングは,セキュリティ上の懸念に対して,長年にわたって魅力的なアイデアだった。 本稿では,ロジスティック回帰のための高速勾配変法であるQuadratic Gradientを提案し,それを特殊同型暗号方式を用いて実装する。 この勾配不変量の核は、ニュートン法から単純化された固定ヘッセンの延長と見なすことができ、これはヘッセン行列から情報をナイーブ勾配に抽出し、ネステロフの加速勾配(NAG)、アダグラード等に拡張することができる。 2017年のidashコンペティションで提供された遺伝子データセットとmnistデータベースからの画像データセットで、様々な勾配$ascent$メソッドを評価した。 実験の結果,拡張した手法はより高速に収束し,時には収束結果も良くなることがわかった。 また,完全バッチnagとミニバッチnagで勾配変形を実装し,暗号化されたドメイン内の大規模データセット上でロジスティック回帰モデルをトレーニングする。 この勾配の変種を装備したフルバッチNAGとミニバッチNAGは、どちらもオリジナルよりも高速である。

Logistic regression training on an encrypted dataset has been an attractive idea to security concerns for years. In this paper, we propose a faster gradient variant called Quadratic Gradient for logistic regression and implement it via a special homomorphic encryption scheme. The core of this gradient variant can be seen as an extension of the simplified fixed Hessian from Newton's method, which extracts information from the Hessian matrix into the naive gradient, and thus can be used to enhance Nesterov's accelerated gradient (NAG), Adagrad, etc. We evaluate various gradient $ascent$ methods with this gradient variant on the gene dataset provided by the 2017 iDASH competition and the image dataset from the MNIST database. Experimental results show that the enhanced methods converge faster and sometimes even to a better convergence result. We also implement the gradient variant in full batch NAG and mini-batch NAG for training a logistic regression model on a large dataset in the encrypted domain. Equipped with this gradient variant, full batch NAG and mini-batch NAG are both faster than the original ones.
翻訳日:2022-01-27 14:43:26 公開日:2022-01-26
# S$^2$NN: エネルギー効率のよいシングルステップニューラルネットワークのためのスパイキングサロゲート勾配の時間ステップ削減

S$^2$NN: Time Step Reduction of Spiking Surrogate Gradients for Training Energy Efficient Single-Step Neural Networks ( http://arxiv.org/abs/2201.10879v1 )

ライセンス: Link先を確認
Kazuma Suetake, Shin-ichi Ikegawa, Ryuji Saiin and Yoshihide Sawada(参考訳) ニューラルネットワークのスケールが増加するにつれて、計算コストとエネルギー効率の低下を実現する技術が必要となる。 このような要求から、スパイキングニューラルネットワーク(SNN)やバイナリニューラルネットワーク(BNN)など、さまざまな効率的なニューラルネットワークパラダイムが提案されている。 しかしながら、推論の精度の低下や遅延といった、頑丈な欠点がある。 これらの問題を解決するために、計算コストが低く高精度なエネルギー効率の高いニューラルネットワークであるシングルステップニューラルネットワーク(S$^2$NN)を提案する。 提案したS$^2$NNは、秘密層間の情報をスパイクによってSNNとして処理する。 それでも、時間次元がないため、トレーニングやBNNのような推論フェーズに遅延がない。 したがって、提案したS$^2$NNは、時系列処理を必要とするSNNよりも計算コストが低い。 しかし、S$^2$NNはスパイクの非微分性の性質のため、na\"{i}veのバックプロパゲーションアルゴリズムを採用できない。 我々は、マルチタイムステップSNNのサロゲート勾配を1ステップに減らし、適切なニューロンモデルを推定する。 得られたニューロンモデルにより、S$^2$NNは既存のSNNやBNNのニューロンモデルよりも正確かつエネルギー効率の高いトレーニングが可能になることを実験的に実証した。 また,提案したS$^2$NNは,高エネルギー効率で完全精度のネットワークに匹敵する精度が得られることを示した。

As the scales of neural networks increase, techniques that enable them to run with low computational cost and energy efficiency are required. From such demands, various efficient neural network paradigms, such as spiking neural networks (SNNs) or binary neural networks (BNNs), have been proposed. However, they have sticky drawbacks, such as degraded inference accuracy and latency. To solve these problems, we propose a single-step neural network (S$^2$NN), an energy-efficient neural network with low computational cost and high precision. The proposed S$^2$NN processes the information between hidden layers by spikes as SNNs. Nevertheless, it has no temporal dimension so that there is no latency within training and inference phases as BNNs. Thus, the proposed S$^2$NN has a lower computational cost than SNNs that require time-series processing. However, S$^2$NN cannot adopt na\"{i}ve backpropagation algorithms due to the non-differentiabilit y nature of spikes. We deduce a suitable neuron model by reducing the surrogate gradient for multi-time step SNNs to a single-time step. We experimentally demonstrated that the obtained neuron model enables S$^2$NN to train more accurately and energy-efficiently than existing neuron models for SNNs and BNNs. We also showed that the proposed S$^2$NN could achieve comparable accuracy to full-precision networks while being highly energy-efficient.
翻訳日:2022-01-27 14:43:04 公開日:2022-01-26
# サーバサイドのステップ化とサンプリングがフェデレーション最適化に役立つ

Server-Side Stepsizes and Sampling Without Replacement Provably Help in Federated Optimization ( http://arxiv.org/abs/2201.11066v1 )

ライセンス: Link先を確認
Grigory Malinovsky, Konstantin Mishchenko and Peter Richt\'arik(参考訳) 本稿では,フェデレート学習におけるサーバサイド最適化の理論的検討を行う。 我々の結果は、クライアントデータのローカルパスを伴うフェデレーション平均化(FedAvg)のコンテキストにおいて、クライアント更新を余分なパラメータでスケーリングするという広く普及しているヒューリスティックが非常に有用であることを示す最初のものです。 各ローカルパスはRandom Reshufflingを使って置き換えることなく実行される。 特に,局所的なステップサイズが小さく,FedAvgがすべてのクライアントに対してRandom Reshufflingと連動して更新方向を与えると,得られた方向を大きく飛躍させ,凸,強凸,非凸の目標に対する速度を改善することができる。 特に、非凸状態においては、$\mathcal{O}\left(\varepsilon^{-3}\right)$から$\mathcal{O}\left(\varepsilon^{-2}\right)$への収束率の増大が得られる。 この結果は、単一ノード上でランダムな再シャッフルを行う場合でも新しい。 対照的に、局所的なステップサイズが大きい場合、小さなサーバ側ステップサイズを用いてクライアントサンプリングのノイズを制御することができる。 私たちの知る限りでは、ローカルなステップがコミュニケーションのボトルネックを克服するのに役立つのは、これが初めてです。 共用学習における適応型サーバサイド最適化の実践について,大小のサーバサイドステップの利点を活かし,形式的な正当性を与える。 さらに,この手法をより実用的な部分的クライアント参加を支援するアルゴリズムの変種を検討する。

We present a theoretical study of server-side optimization in federated learning. Our results are the first to show that the widely popular heuristic of scaling the client updates with an extra parameter is very useful in the context of Federated Averaging (FedAvg) with local passes over the client data. Each local pass is performed without replacement using Random Reshuffling, which is a key reason we can show improved complexities. In particular, we prove that whenever the local stepsizes are small, and the update direction is given by FedAvg in conjunction with Random Reshuffling over all clients, one can take a big leap in the obtained direction and improve rates for convex, strongly convex, and non-convex objectives. In particular, in non-convex regime we get an enhancement of the rate of convergence from $\mathcal{O}\left(\varepsilon^{-3}\right)$ to $\mathcal{O}\left(\varepsilon^{-2}\right)$. This result is new even for Random Reshuffling performed on a single node. In contrast, if the local stepsizes are large, we prove that the noise of client sampling can be controlled by using a small server-side stepsize. To the best of our knowledge, this is the first time that local steps provably help to overcome the communication bottleneck. Together, our results on the advantage of large and small server-side stepsizes give a formal justification for the practice of adaptive server-side optimization in federated learning. Moreover, we consider a variant of our algorithm that supports partial client participation, which makes the method more practical.
翻訳日:2022-01-27 14:42:41 公開日:2022-01-26
# 不完全データを用いた視聴覚感情認識のためのセルフアテンション融合

Self-attention fusion for audiovisual emotion recognition with incomplete data ( http://arxiv.org/abs/2201.11095v1 )

ライセンス: Link先を確認
Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj(参考訳) 本稿では,音声視覚感情認識を用いたマルチモーダルデータ解析の問題点について考察する。 本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。 先行研究の多くは推論中は常に両方のモダリティが存在するという理想的シナリオを考察しているが、一方のモダリティが欠落したりうるさかったりする制約のない環境でモデルの頑健性を評価し、これらの制限をモダリティドロップアウトの形で緩和する方法を提案する。 最も重要なことに、このアプローチに従うと、1つのモダリティの欠如/ノイズ表現の下でパフォーマンスが劇的に向上するだけでなく、標準の理想設定におけるパフォーマンスも向上し、競合するメソッドよりも向上する。

In this paper, we consider the problem of multimodal data analysis with a use case of audiovisual emotion recognition. We propose an architecture capable of learning from raw data and describe three variants of it with distinct modality fusion mechanisms. While most of the previous works consider the ideal scenario of presence of both modalities at all times during inference, we evaluate the robustness of the model in the unconstrained settings where one modality is absent or noisy, and propose a method to mitigate these limitations in a form of modality dropout. Most importantly, we find that following this approach not only improves performance drastically under the absence/noisy representations of one modality, but also improves the performance in a standard ideal setting, outperforming the competing methods.
翻訳日:2022-01-27 14:42:15 公開日:2022-01-26
# 可逆音声変換

Invertible Voice Conversion ( http://arxiv.org/abs/2201.10687v1 )

ライセンス: Link先を確認
Zexin Cai, Ming Li(参考訳) 本稿では,音声変換のための非可逆ディープラーニングフレームワークINVVCを提案する。 音声変換システムと本質的に一致する可能性のある脅威に対して設計されている。 具体的には、ソースの同一性をトレース可能な非可逆フレームワークを開発する。 このフレームワークは、アフィンカップリング層からなる一連の可逆 1\times1$ の畳み込みとフローに基づいている。 本稿では,並列学習データを用いた一対一音声変換と多対一音声変換に適用する。 実験結果から,本手法は音声変換において顕著な性能を示し,変換結果を転送時と同じパラメータを用いて入力元に戻すことができることがわかった。

In this paper, we propose an invertible deep learning framework called INVVC for voice conversion. It is designed against the possible threats that inherently come along with voice conversion systems. Specifically, we develop an invertible framework that makes the source identity traceable. The framework is built on a series of invertible $1\times1$ convolutions and flows consisting of affine coupling layers. We apply the proposed framework to one-to-one voice conversion and many-to-one conversion using parallel training data. Experimental results show that this approach yields impressive performance on voice conversion and, moreover, the converted results can be reversed back to the source inputs utilizing the same parameters as in forwarding.
翻訳日:2022-01-27 14:42:00 公開日:2022-01-26
# ソーシャルレコメンデーションのための動的および静的表現を用いたグラフニューラルネットワーク

Graph Neural Networks with Dynamic and Static Representations for Social Recommendation ( http://arxiv.org/abs/2201.10751v1 )

ライセンス: Link先を確認
Junfa Lin, Siyuan Chen, Jiahai Wang(参考訳) グラフニューラルネットワークに基づくレコメンダシステムは、ソーシャルネットワークを含む様々な側面情報を学ぶ能力に優れており、研究の関心が高まっている。 しかしながら、以前の作業は通常、ユーザをモデリングすることに重点を置いている。 また,利用者の動的関心のように見えるアイテムのアトラクションが時間とともに変化する可能性も少なく,アイテム間の相関関係も考慮されない。 これらの制約を克服するために,ユーザやアイテムの動的かつ静的な表現を考慮し,それらのリレーショナルな影響を取り入れた,動的かつ静的なソーシャルレコメンデーションのためのグラフニューラルネットワーク(GNN-DSR)を提案する。 GNN-DSRは、ユーザの興味とアイテムの魅力の短期的動的および長期的静的相互作用表現をモデル化する。 さらに、注目機構を用いて、対象ユーザに対するユーザの社会的影響と、所定のアイテムに対する相関項目の影響を集約する。 ユーザとアイテムの最終潜在要素を組み合わせることで、予測を行う。 3つの実世界のレコメンデータシステムデータセットの実験は、GNN-DSRの有効性を検証する。

Recommender systems based on graph neural networks receive increasing research interest due to their excellent ability to learn a variety of side information including social networks. However, previous works usually focus on modeling users, not much attention is paid to items. Moreover, the possible changes in the attraction of items over time, which is like the dynamic interest of users are rarely considered, and neither do the correlations among items. To overcome these limitations, this paper proposes graph neural networks with dynamic and static representations for social recommendation (GNN-DSR), which considers both dynamic and static representations of users and items and incorporates their relational influence. GNN-DSR models the short-term dynamic and long-term static interactional representations of the user's interest and the item's attraction, respectively. Furthermore, the attention mechanism is used to aggregate the social influence of users on the target user and the correlative items' influence on a given item. The final latent factors of user and item are combined to make a prediction. Experiments on three real-world recommender system datasets validate the effectiveness of GNN-DSR.
翻訳日:2022-01-27 14:41:50 公開日:2022-01-26
# 最大変換可能なパターンによる音楽の理解と圧縮

Understanding and Compressing Music with Maximal Transformable Patterns ( http://arxiv.org/abs/2201.11085v1 )

ライセンス: Link先を確認
David Meredith(参考訳) 本稿では, 点集合内のすべての最大パターン, $D\in\mathbb{R}^k$ を, ユーザが指定したクラス, $F$ のビジェクションの変換によって関連付ける多項式時間アルゴリズムを提案する。 また,これらの極大パターンの出現集合を発見し,それらの出現集合のコンパクト符号化を用いて入力点集合のロスレス圧縮符号化を計算する第2のアルゴリズムを提案する。 e=\left\lbrace\left\la ngle p_1, t_1\right\rangle,\le ft\langle p_2, t_2\right\rangle,\ld ots\langle p_{\ell}, t_{\ell}\right\rangle\right\ rbrace$, ここで各$\langle p_i,t_i\rangle$ は、$p_i\subseteq d$ と$d$ の他の部分集合に$p_i$ を写像する変換の集合 $t_i\subset f$ からなる。 各変換は、実値のベクトルによって符号化され、それが$f$で一意に識別され、このベクトルの長さは$f$の複雑性の尺度として用いられる。 民謡旋律を調律族に分類する作業において,3つの異なる複雑性の変換クラスを持つ新しい圧縮アルゴリズムを評価する。 テストされたクラスの最も複雑なものは、転置、反転、逆行、増補、縮小といった音楽変換のすべての組み合わせを含む。 変換クラスの拡張により、このタスクのパフォーマンスが改善された。 しかし、データセット(この場合は民謡旋律)が短すぎて、大きな変換クラスで発見できる可能性のあるパターン関係の潜在的多さから恩恵を受けるには単純すぎるため、圧縮係数を平均的に改善しなかった。

We present a polynomial-time algorithm that discovers all maximal patterns in a point set, $D\in\mathbb{R}^k$, that are related by transformations in a user-specified class, $F$, of bijections over $\mathbb{R}^k$. We also present a second algorithm that discovers the set of occurrences for each of these maximal patterns and then uses compact encodings of these occurrence sets to compute a losslessly compressed encoding of the input point set. This encoding takes the form of a set of pairs, $E=\left\lbrace\left\la ngle P_1, T_1\right\rangle,\le ft\langle P_2, T_2\right\rangle,\ld ots\left\langle P_{\ell}, T_{\ell}\right\rangle\right\ rbrace$, where each $\langle P_i,T_i\rangle$ consists of a maximal pattern, $P_i\subseteq D$, and a set, $T_i\subset F$, of transformations that map $P_i$ onto other subsets of $D$. Each transformation is encoded by a vector of real values that uniquely identifies it within $F$ and the length of this vector is used as a measure of the complexity of $F$. We evaluate the new compression algorithm with three transformation classes of differing complexity, on the task of classifying folk-song melodies into tune families. The most complex of the classes tested includes all combinations of the musical transformations of transposition, inversion, retrograde, augmentation and diminution. We found that broadening the transformation class improved performance on this task. However, it did not, on average, improve compression factor, which may be due to the datasets (in this case, folk-song melodies) being too short and simple to benefit from the potentially greater number of pattern relationships that are discoverable with larger transformation classes.
翻訳日:2022-01-27 14:40:33 公開日:2022-01-26
# (参考訳) ニューラルネットワークにおける最適経路探索とタスク依存学習の組み合わせ [全文訳有]

Combining optimal path search with task-dependent learning in a neural network ( http://arxiv.org/abs/2201.11104v1 )

ライセンス: CC BY 4.0
Tomas Kulvicius, Minija Tamosiunaite and Florentin W\"org\"otter(参考訳) 連結グラフの最適経路を見つけるには、グラフの端を移動する際の最小の総コストを決定する必要がある。 この問題は、通常すべてのエッジに対してコストが予め定義された古典的なアルゴリズムによって解決できる。 従来の計画手法は、通常、あるタスクの要求に従う適応的な方法でコストを変更したい場合、使用できない。 ここでは、コスト値をシナプス重みに変換することで、経路探索問題のニューラルネットワーク表現を定義できることを示し、ネットワーク学習機構を用いたオンラインウェイト適応を可能にする。 1 の最初のアクティビティ値から始めると、このネットワークにおけるアクティビティの伝播は、ベルマン・フォードアルゴリズムによって発見されたものと同一の解へとつながる。 ニューラルネットワークは、Bellman Fordと同じアルゴリズムの複雑さを持ち、さらに、ネットワーク学習機構(例えば、Hebbian Learning)が、手作業に応じて結果のパスを増大させるネットワークの重みを適応可能であることを示すことができる。 障害のある環境でのナビゲーションの学習や,特定の経路ノードのシーケンスに従う学習によってこれを実証する。 したがって、この表現された新しいアルゴリズムは、経路拡張(学習による)が自然な方法で経路発見と直接結合される、異なるタイプのアプリケーションを開くことができる。

Finding optimal paths in connected graphs requires determining the smallest total cost for traveling along the graph's edges. This problem can be solved by several classical algorithms where, usually, costs are predefined for all edges. Conventional planning methods can, thus, normally not be used when wanting to change costs in an adaptive way following the requirements of some task. Here we show that one can define a neural network representation of path finding problems by transforming cost values into synaptic weights, which allows for online weight adaptation using network learning mechanisms. When starting with an initial activity value of one, activity propagation in this network will lead to solutions, which are identical to those found by the Bellman Ford algorithm. The neural network has the same algorithmic complexity as Bellman Ford and, in addition, we can show that network learning mechanisms (such as Hebbian learning) can adapt the weights in the network augmenting the resulting paths according to some task at hand. We demonstrate this by learning to navigate in an environment with obstacles as well as by learning to follow certain sequences of path nodes. Hence, the here-presented novel algorithm may open up a different regime of applications where path-augmentation (by learning) is directly coupled with path finding in a natural way.
翻訳日:2022-01-27 14:39:14 公開日:2022-01-26
# 赤外・可視画像融合のための結合畳み込みオートエンコーダネットワーク

A Joint Convolution Auto-encoder Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2201.10736v1 )

ライセンス: Link先を確認
Zhancheng Zhang, Yuanhao Gao, Mengyu Xiong, Xiaoqing Luo, and Xiao-Jun Wu(参考訳) 背景: 冗長で補完的な関係を傾けることは、人間の視覚システムにおいて重要なステップです。 クロタリーナ動物の赤外線認識能力に触発され,赤外線および可視画像融合のためのジョイント畳み込みオートエンコーダ(JCAE)ネットワークを設計した。 メソッド: 私たちの重要な洞察は、赤外線と可視光のペア画像を同時にネットワークに供給し、エンコーダストリームを2つのプライベートブランチと1つの共通ブランチに分離することであり、プライベートブランチは補完的な特徴学習に、共通ブランチは冗長な特徴学習に、それぞれ機能する。 また、2つの融合ルールを構築し、冗長かつ補完的な特徴を融合機能に統合し、デコーダ層に供給して最終的な融合画像を生成する。 融合規則の構造を詳述し,マルチタスク損失関数について説明する。 結果: JCAEネットワークは主観的効果と客観的評価の指標の両方で良好な結果が得られる。

Background: Leaning redundant and complementary relationships is a critical step in the human visual system. Inspired by the infrared cognition ability of crotalinae animals, we design a joint convolution auto-encoder (JCAE) network for infrared and visible image fusion. Methods: Our key insight is to feed infrared and visible pair images into the network simultaneously and separate an encoder stream into two private branches and one common branch, the private branch works for complementary features learning and the common branch does for redundant features learning. We also build two fusion rules to integrate redundant and complementary features into their fused feature which are then fed into the decoder layer to produce the final fused image. We detail the structure, fusion rule and explain its multi-task loss function. Results: Our JCAE network achieves good results in terms of both subjective effect and objective evaluation metrics.
翻訳日:2022-01-27 14:19:48 公開日:2022-01-26
# 多状態文脈隠れマルコフモデルに基づく赤外および可視画像融合

Infrared and visible image fusion based on Multi-State Contextual Hidden Markov Model ( http://arxiv.org/abs/2201.10739v1 )

ライセンス: Link先を確認
Xiaoqing Luo, Yuting Jiang, Anqi Wang, Zhancheng Zhang, and Xiao-Jun Wu(参考訳) 伝統的な2状態隠れマルコフモデルは、高周波係数を2つの状態(大きな状態と小さな状態)に分割する。 このようなスキームは、高周波サブバンドの不正確な統計モデルを作成し、融合結果の品質を低下させる。 本稿では, NSST係数の強い相関関係と詳細度を十分に考慮した, サブサンプルでないシャーレット領域における赤外線および可視画像融合のための多状態隠れマルコフモデル(MCHMM)を提案する。 この目的のために、正確なソフトコンテキスト変数を、コンテキスト相関の観点から対応するように設計する。 そして、MCHMMによって提供される統計的特徴を高周波サブバンドの融合に利用する。 視覚品質を確保するため,低周波サブバンドに対して,地域エネルギーの差に基づく融合戦略を提案する。 実験の結果,本手法は主観的および客観的に,他の融合法と比較して優れた性能が得られることがわかった。

The traditional two-state hidden Markov model divides the high frequency coefficients only into two states (large and small states). Such scheme is prone to produce an inaccurate statistical model for the high frequency subband and reduces the quality of fusion result. In this paper, a fine-grained multi-state contextual hidden Markov model (MCHMM) is proposed for infrared and visible image fusion in the non-subsampled Shearlet domain, which takes full consideration of the strong correlations and level of details of NSST coefficients. To this end, an accurate soft context variable is designed correspondingly from the perspective of context correlation. Then, the statistical features provided by MCHMM are utilized for the fusion of high frequency subbands. To ensure the visual quality, a fusion strategy based on the difference in regional energy is proposed as well for lowfrequency subbands. Experimental results demonstrate that the proposed method can achieve a superior performance compared with other fusion methods in both subjective and objective aspects.
翻訳日:2022-01-27 14:19:31 公開日:2022-01-26
# ASFD: 自動かつスケーラブルな顔検出器

ASFD: Automatic and Scalable Face Detector ( http://arxiv.org/abs/2201.10781v1 )

ライセンス: Link先を確認
Jian Li, Bin Zhang, Yabiao Wang, Ying Tai, ZhenYu Zhang, Chengjie Wang, Jilin Li, Xiaoming Huang, Yili Xia(参考訳) 現在のマルチスケールベース検出器と並行して、特徴集約・拡張(FAE)モジュールは最先端物体検出において優れた性能向上を示した。 しかし、これらの手作りのFAEモジュールは、主にトレーニングとコーパス、COCO vs. WIDER Faceの相当な分布差のため、顔検出に不整合性を示す。 この問題に対処するため,我々は,データ分散の効果を本質的に分析し,既存のすべてのfaeモジュールをかなりマージンで上回る,差別化可能なアーキテクチャ探索によってautofaeと呼ばれる効果的なfaeアーキテクチャを探索することを提案する。 AutoFAEと既存のバックボーンが見つかると、スーパーネットはさらに構築され、訓練され、異なる複雑さの制約の下で自動的に検出器のファミリーを取得する。 一般的なベンチマークであるWIDER FaceとFDDBで実施された大規模な実験は、提案された自動かつスケーラブルな顔検出器(ASFD)ファミリーの最先端の性能と効率のトレードオフを実証している。 特に、当社の強力な ASFD-D6 は、WIDER Face テストで AP 96.7/96.2/92.1 よりも優れており、軽量の ASFD-D0 は約3.1 ms、VGA解像度の画像を持つ V100 GPU では 320 FPS 以上である。

Along with current multi-scale based detectors, Feature Aggregation and Enhancement (FAE) modules have shown superior performance gains for cutting-edge object detection. However, these hand-crafted FAE modules show inconsistent improvements on face detection, which is mainly due to the significant distribution difference between its training and applying corpus, COCO vs. WIDER Face. To tackle this problem, we essentially analyse the effect of data distribution, and consequently propose to search an effective FAE architecture, termed AutoFAE by a differentiable architecture search, which outperforms all existing FAE modules in face detection with a considerable margin. Upon the found AutoFAE and existing backbones, a supernet is further built and trained, which automatically obtains a family of detectors under the different complexity constraints. Extensive experiments conducted on popular benchmarks, WIDER Face and FDDB, demonstrate the state-of-the-art performance-efficien cy trade-off for the proposed automatic and scalable face detector (ASFD) family. In particular, our strong ASFD-D6 outperforms the best competitor with AP 96.7/96.2/92.1 on WIDER Face test, and the lightweight ASFD-D0 costs about 3.1 ms, more than 320 FPS, on the V100 GPU with VGA-resolution images.
翻訳日:2022-01-27 14:19:14 公開日:2022-01-26
# monodistill: モノキュラー3次元物体検出のための空間的特徴の学習

MonoDistill: Learning Spatial Features for Monocular 3D Object Detection ( http://arxiv.org/abs/2201.10830v1 )

ライセンス: Link先を確認
Zhiyu Chong, Xinzhu Ma, Hong Zhang, Yuxin Yue, Haojie Li, Zhihui Wang, Wanli Ouyang(参考訳) 3Dオブジェクト検出は3Dシーン理解の基本的な課題であり、モノクルベースの手法はステレオベースやLiDARベースの手法の経済的代替として機能する。 しかし、空間的手がかりがないため、単一の画像から3次元空間内の物体を正確に検出することは極めて困難である。 そこで本研究では,lidar信号からの空間情報を単眼3d検出器に導入する簡易かつ効果的な手法を提案する。 特に、まずLiDAR信号を画像平面に投影し、RGB画像と整列させる。 その後、得られたデータを用いてベースラインモデルと同じアーキテクチャで3D検出器(LiDAR Net)をトレーニングする。 最後に、このLiDAR Netは、学習した知識をベースラインモデルに転送する教師として機能する。 実験の結果,提案手法はベースラインモデルの性能を著しく向上させ,kittiベンチマークの単眼ベースメソッドでは1^{st}$ placeをランク付けできることがわかった。 さらに,我々の設計の各部分の有効性をさらに証明し,LiDARネットからベースラインモデルが何を学んだかを示す広範なアブレーション研究を行った。 私たちのコードは \url{https://github.com/m onster-ghost/MonoDis till} でリリースされます。

3D object detection is a fundamental and challenging task for 3D scene understanding, and the monocular-based methods can serve as an economical alternative to the stereo-based or LiDAR-based methods. However, accurately detecting objects in the 3D space from a single image is extremely difficult due to the lack of spatial cues. To mitigate this issue, we propose a simple and effective scheme to introduce the spatial information from LiDAR signals to the monocular 3D detectors, without introducing any extra cost in the inference phase. In particular, we first project the LiDAR signals into the image plane and align them with the RGB images. After that, we use the resulting data to train a 3D detector (LiDAR Net) with the same architecture as the baseline model. Finally, this LiDAR Net can serve as the teacher to transfer the learned knowledge to the baseline model. Experimental results show that the proposed method can significantly boost the performance of the baseline model and ranks the $1^{st}$ place among all monocular-based methods on the KITTI benchmark. Besides, extensive ablation studies are conducted, which further prove the effectiveness of each part of our designs and illustrate what the baseline model has learned from the LiDAR Net. Our code will be released at \url{https://github.com/m onster-ghost/MonoDis till}.
翻訳日:2022-01-27 14:18:47 公開日:2022-01-26
# ステレオ内視鏡による深度推定と点計測のための光学追跡の比較

Comparison of Depth Estimation Setups from Stereo Endoscopy and Optical Tracking for Point Measurements ( http://arxiv.org/abs/2201.10848v1 )

ライセンス: Link先を確認
Lukas Burger, Lalith Sharan, Samantha Fischer, Julian Brand, Maximillian Hehl, Gabriele Romano, Matthias Karck, Raffaele De Simone, Ivo Wolf, Sandy Engelhardt(参考訳) 術中僧帽弁の最小侵襲的修復を支援するため、赤外線追跡スタイラスを用いて弁からの定量的測定を行うことができる。 内視鏡画像とともに手動で計測した点を視認することが望ましい。 したがって、両座標系を繋ぎ、その点を画像面に投影する前提条件である手目校正が必要である。 これに対する補完的なアプローチは、3D座標を得るために視覚に基づく立体セットを用いて興味のある点を検出し、三角測量することである。 本稿では,厳密なファントムと術中シナリオに類似した2つの患者個体間シリコンレプリカの両アプローチを比較した。 予備的な結果から,3次元ランドマーク推定は,手作業でラベル付けするか,ディープラーニング手法で部分的に自動検出することで,スタイラス計測よりも高精度な三角距離計測が可能となった。

To support minimally-invasive intraoperative mitral valve repair, quantitative measurements from the valve can be obtained using an infra-red tracked stylus. It is desirable to view such manually measured points together with the endoscopic image for further assistance. Therefore, hand-eye calibration is required that links both coordinate systems and is a prerequisite to project the points onto the image plane. A complementary approach to this is to use a vision-based endoscopic stereo-setup to detect and triangulate points of interest, to obtain the 3D coordinates. In this paper, we aim to compare both approaches on a rigid phantom and two patient-individual silicone replica which resemble the intraoperative scenario. The preliminary results indicate that 3D landmark estimation, either labeled manually or through partly automated detection with a deep learning approach, provides more accurate triangulated depth measurements when performed with a tailored image-based method than with stylus measurements.
翻訳日:2022-01-27 14:18:24 公開日:2022-01-26
# 遠隔指導による手続き活動認識の学習

Learning To Recognize Procedural Activities with Distant Supervision ( http://arxiv.org/abs/2201.10990v1 )

ライセンス: Link先を確認
Xudong Lin, Fabio Petroni, Gedas Bertasius, Marcus Rohrbach, Shih-Fu Chang, Lorenzo Torresani(参考訳) 本稿では,細粒度で多段階な活動(例えば,レシピの異なる料理,異なる家庭の改良,さまざまな芸術や工芸品の制作など)を,数分以内の長編ビデオから分類する問題を考える。 これらのアクティビティを正確に分類するには、タスクを構成する個々のステップを認識するだけでなく、その一時的な依存関係を捉える必要がある。 この問題は従来のアクション分類とは大きく異なり、モデルは通常、わずか数秒の動画に最適化され、単純なアトミックアクションを含むように手作業でトリミングされる。 ステップアノテーションは、プロシージャ活動の個々のステップを認識するためのモデルのトレーニングを可能にするが、この領域の既存の大規模データセットは、長いビデオで時間境界を手動で注釈付けすることの禁止コストのため、そのようなセグメントラベルを含まない。 そこで本研究では,多種多様な複雑な活動の実行に必要なステップを詳細に記述したテキスト知識ベース(wikiHow)の遠隔監視を活用して,指導ビデオのステップを自動的に識別する手法を提案する。 提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。 これらの自動ラベル付きステップを(手動の監督なしで)認識するために訓練されたビデオモデルは、4つの下流タスクにおいて優れた一般化性能を達成する表現(手順アクティビティの認識、ステップ分類、ステップ予測、エゴセントリックビデオ分類)をもたらす。

In this paper we consider the problem of classifying fine-grained, multi-step activities (e.g., cooking different recipes, making disparate home improvements, creating various forms of arts and crafts) from long videos spanning up to several minutes. Accurately categorizing these activities requires not only recognizing the individual steps that compose the task but also capturing their temporal dependencies. This problem is dramatically different from traditional action classification, where models are typically optimized on videos that span only a few seconds and that are manually trimmed to contain simple atomic actions. While step annotations could enable the training of models to recognize the individual steps of procedural activities, existing large-scale datasets in this area do not include such segment labels due to the prohibitive cost of manually annotating temporal boundaries in long videos. To address this issue, we propose to automatically identify steps in instructional videos by leveraging the distant supervision of a textual knowledge base (wikiHow) that includes detailed descriptions of the steps needed for the execution of a wide variety of complex activities. Our method uses a language model to match noisy, automatically-transc ribed speech from the video to step descriptions in the knowledge base. We demonstrate that video models trained to recognize these automatically-labele d steps (without manual supervision) yield a representation that achieves superior generalization performance on four downstream tasks: recognition of procedural activities, step classification, step forecasting and egocentric video classification.
翻訳日:2022-01-27 14:15:19 公開日:2022-01-26
# 自己注意型神経バッグ

Self-Attention Neural Bag-of-Features ( http://arxiv.org/abs/2201.11092v1 )

ライセンス: Link先を確認
Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj(参考訳) 本稿では,多変量列データの注意定式化について提案する。 我々は、最近導入された2D-Attentionの上に構築し、直接学習するのではなく、潜在空間を通して特徴/時間次元の関連性を定量化し、注意学習方法論を再構築する。 さらに,特徴と時間的表現を独立に扱うことなく,関連情報を強調した2次元共同注意マスクを学習する特徴時間的注意機構を提案する。 提案手法は様々なアーキテクチャで利用可能であり,機能抽出モジュールのNeural Bagとともに,その応用を特に評価する。 いくつかのシーケンスデータ解析タスクの実験は、標準的な手法と比較して、我々の手法がもたらす改善性能を示している。

In this work, we propose several attention formulations for multivariate sequence data. We build on top of the recently introduced 2D-Attention and reformulate the attention learning methodology by quantifying the relevance of feature/temporal dimensions through latent spaces based on self-attention rather than learning them directly. In addition, we propose a joint feature-temporal attention mechanism that learns a joint 2D attention mask highlighting relevant information without treating feature and temporal representations independently. The proposed approaches can be used in various architectures and we specifically evaluate their application together with Neural Bag of Features feature extraction module. Experiments on several sequence data analysis tasks show the improved performance yielded by our approach compared to standard methods.
翻訳日:2022-01-27 14:14:51 公開日:2022-01-26
# 自律運転における物体検出のための適応インスタンス蒸留

Adaptive Instance Distillation for Object Detection in Autonomous Driving ( http://arxiv.org/abs/2201.11097v1 )

ライセンス: Link先を確認
Qizhen Lan and Qing Tian(参考訳) 近年、知識蒸留(KD)は効率的なモデルを導出する有効な方法として広く用いられている。 大きな教師モデルを模倣することで、軽量な生徒モデルはより効率良く同等のパフォーマンスを達成できる。 しかし,既存の知識蒸留法のほとんどは分類作業に重点を置いている。 特に時間に敏感な自動運転シナリオにおいて、物体検出に知識蒸留を応用した研究は限られている。 本稿では,教師から生徒に知識を選択的に付与し,知識蒸留の性能を向上させるための適応型インスタンス蒸留法を提案する。 全てのインスタンスを等しく扱う従来のKD法とは異なり、我々のAIDは教師モデルの予測損失に基づいて、インスタンスの蒸留重量を注意深く調整することができる。 提案手法の有効性を,KITTIおよびCOCOトラヒックデータセットを用いた実験により検証した。 以上の結果から,本手法は既存の注目誘導型・非局所蒸留法の性能を向上し,単段・二段両検出器の蒸留結果の改善を図っている。 ベースラインと比較すると,AIDは1段検出器と2段検出器で平均2.7%,2.05%のmAP上昇を示した。 さらに,AIDは,教師モデルの性能向上に有効であることが示された。

In recent years, knowledge distillation (KD) has been widely used as an effective way to derive efficient models. Through imitating a large teacher model, a lightweight student model can achieve comparable performance with more efficiency. However, most existing knowledge distillation methods are focused on classification tasks. Only a limited number of studies have applied knowledge distillation to object detection, especially in time-sensitive autonomous driving scenarios. We propose the Adaptive Instance Distillation (AID) method to selectively impart knowledge from the teacher to the student for improving the performance of knowledge distillation. Unlike previous KD methods that treat all instances equally, our AID can attentively adjust the distillation weights of instances based on the teacher model's prediction loss. We verified the effectiveness of our AID method through experiments on the KITTI and the COCO traffic datasets. The results show that our method improves the performance of existing state-of-the-art attention-guided and non-local distillation methods and achieves better distillation results on both single-stage and two-stage detectors. Compared to the baseline, our AID led to an average of 2.7% and 2.05% mAP increases for single-stage and two-stage detectors, respectively. Furthermore, our AID is also shown to be useful for self-distillation to improve the teacher model's performance.
翻訳日:2022-01-27 14:14:40 公開日:2022-01-26
# 文化的厳密度指数の妥当性と創造性と秩序との関連はともに急激であり、ジャクソンらへのコメント

Both the validity of the cultural tightness index and the association with creativity and order are spurious -- a comment on Jackson et al ( http://arxiv.org/abs/2201.10812v1 )

ライセンス: Link先を確認
Alexander Koplenig and Sascha Wolfer(参考訳) ネイチャー・ヒューマン・ビヘイビア(nature human behavior)に掲載された研究によれば、アメリカ文化の歴史的緩やかは、より高い創造性と低い秩序の間のトレードオフと関係しているという。 この目的のためにジャクソンらは、Google Books Ngram コーパスに基づく文化的厳密さの言語指標を作成し、この指標を用いて1800年から2000年の間にアメリカのノルムが緩んだことを示す。 我々は、アメリカ文化の潜在的な緩みとクリエイティビティ/秩序との統計的関連に無関心であり続けるが、ジャクソンらによって用いられる手法は、指標の妥当性を検証したり、クリエイティビティ/秩序との関係を確立するのに適していない。

It was recently suggested in a study published in Nature Human Behaviour that the historical loosening of American culture was associated with a trade-off between higher creativity and lower order. To this end, Jackson et al. generate a linguistic index of cultural tightness based on the Google Books Ngram corpus and use this index to show that American norms loosened between 1800 and 2000. While we remain agnostic toward a potential loosening of American culture and a statistical association with creativity/order, we show here that the methods used by Jackson et al. are neither suitable for testing the validity of the index nor for establishing possible relationships with creativity/order.
翻訳日:2022-01-27 14:14:21 公開日:2022-01-26
# CodeRetriever: ユニモーダルとバイモーダルのコントラスト学習

CodeRetriever: Unimodal and Bimodal Contrastive Learning ( http://arxiv.org/abs/2201.10866v1 )

ライセンス: Link先を確認
Xiaonan Li, Yeyun Gong, Yelong Shen, Xipeng Qiu, Hang Zhang, Bolun Yao, Weizhen Qi, Daxin Jiang, Weizhu Chen, Nan Duan(参考訳) 本稿では,関数レベルのコードセマンティック表現,特にコード検索タスクを訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。 ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。 バイモーダルなコントラスト学習には、ドキュメントとコードのインラインコメントを活用してテキストコードペアを構築します。 どちらのコントラスト目的も、事前トレーニングのために大規模なコードコーパスを完全に活用することができる。 いくつかの公開ベンチマーク(CodeSearch、CoSQAなど)の実験結果は、ゼロショット設定におけるCodeRetrieverの有効性を示している。 ドメイン/言語指定の下流データで微調整することで、CodeRetrieverは、既存のコードトレーニング済みモデルよりも大幅に改善された、新しい最先端のパフォーマンスを実現する。 コード、モデルチェックポイント、構築されたデータセットを一般公開します。

In this paper, we propose the CodeRetriever model, which combines the unimodal and bimodal contrastive learning to train function-level code semantic representations, specifically for the code search task. For unimodal contrastive learning, we design a semantic-guided method to build positive code pairs based on the documentation and function name. For bimodal contrastive learning, we leverage the documentation and in-line comments of code to build text-code pairs. Both contrastive objectives can fully leverage the large-scale code corpus for pre-training. Experimental results on several public benchmarks, (i.e., CodeSearch, CoSQA, etc.) demonstrate the effectiveness of CodeRetriever in the zero-shot setting. By fine-tuning with domain/language specified downstream data, CodeRetriever achieves the new state-of-the-art performance with significant improvement over existing code pre-trained models. We will make the code, model checkpoint, and constructed datasets publicly available.
翻訳日:2022-01-27 14:14:05 公開日:2022-01-26
# コード付きフェデレーションドロップアウトのための高速サーバ学習率チューニング

Fast Server Learning Rate Tuning for Coded Federated Dropout ( http://arxiv.org/abs/2201.11036v1 )

ライセンス: Link先を確認
Giacomo Verardo, Daniel Barreira, Marco Chiesa and Dejan Kostic(参考訳) クロスデバイスフェデレーション学習(FL)では、計算能力の低いクライアントは、潜在的にプライベートデータではなくパラメータ更新を交換することで、共通マシンモデルを訓練する。 Federated Dropout (FD)は、各トレーニングラウンドで更新されるモデル変数のサブセットを選択することにより、FLセッションの通信効率を改善する技術である。 しかし、FDは標準FLに比べてかなり精度が低く収束時間も高い。 本稿では、各クライアントで異なるサブモデルを使用することで、符号化理論を利用してFDを強化する。 また、サーバ学習率のハイパーパラメータを慎重に調整することで、noドロップアウトケースのトレーニング速度と最終精度を最大化することができることを示した。 EMNISTデータセットの場合、この精度を達成するのに2.43倍の帯域幅が必要であり、このメカニズムはノードロップアウトケースの最終精度の99.6%を達成する。

In cross-device Federated Learning (FL), clients with low computational power train a common machine model by exchanging parameters updates instead of potentially private data. Federated Dropout (FD) is a technique that improves the communication efficiency of a FL session by selecting a subset of model variables to be updated in each training round. However, FD produces considerably lower accuracy and higher convergence time compared to standard FL. In this paper, we leverage coding theory to enhance FD by allowing a different sub-model to be used at each client. We also show that by carefully tuning the server learning rate hyper-parameter, we can achieve higher training speed and up to the same final accuracy of the no dropout case. For the EMNIST dataset, our mechanism achieves 99.6 % of the final accuracy of the no dropout case while requiring 2.43x less bandwidth to achieve this accuracy level.
翻訳日:2022-01-27 14:12:59 公開日:2022-01-26
# 自動運転車の協調対応車線変更手法

A Cooperation-Aware Lane Change Method for Autonomous Vehicles ( http://arxiv.org/abs/2201.10746v1 )

ライセンス: Link先を確認
Zihao Sheng, Lin Liu, Shibei Xue, Dezong Zhao, Min Jiang, Dewei Li(参考訳) 自動運転車の車線変更(avs)は複雑な動的交通環境において重要だが困難なタスクである。 安全性の確保と高い効率の確保が難しいため、AVは比較的保守的な車線変更戦略を選択する傾向にある。 保守主義を回避するため,車両間の相互作用を利用した協調型車線変更手法を提案する。 まず,AVと他者間の協調の可能性を探るため,対話的な軌道予測手法を提案する。 さらに、安全性、効率、快適性を考慮し、車線変更の決定を行うように設計されている。 その後,モデル予測制御(MPC)に基づく動作計画アルゴリズムを提案し,車線変更時の衝突を避けるために,AVの判断と周囲の車両の対話動作を制約に組み込む。 定量的評価の結果,インタラクティブ予測を行わない手法と比較すると,avと他車両の運転効率をそれぞれ14.8$\%$と2.6$\%$で向上させ,車両間相互作用の適正な利用がavの保守性を効果的に低減し,avと他車両の協調を促進することが示唆された。

Lane change for autonomous vehicles (AVs) is an important but challenging task in complex dynamic traffic environments. Due to difficulties in guarantee safety as well as a high efficiency, AVs are inclined to choose relatively conservative strategies for lane change. To avoid the conservatism, this paper presents a cooperation-aware lane change method utilizing interactions between vehicles. We first propose an interactive trajectory prediction method to explore possible cooperations between an AV and the others. Further, an evaluation is designed to make a decision on lane change, in which safety, efficiency and comfort are taken into consideration. Thereafter, we propose a motion planning algorithm based on model predictive control (MPC), which incorporates AV's decision and surrounding vehicles' interactive behaviors into constraints so as to avoid collisions during lane change. Quantitative testing results show that compared with the methods without an interactive prediction, our method enhances driving efficiencies of the AV and other vehicles by 14.8$\%$ and 2.6$\%$ respectively, which indicates that a proper utilization of vehicle interactions can effectively reduce the conservatism of the AV and promote the cooperation between the AV and others.
翻訳日:2022-01-27 14:12:00 公開日:2022-01-26
# クロスバリデーションによるCoxモデルテスト誤差の信頼区間

Confidence intervals for the Cox model test error from cross-validation ( http://arxiv.org/abs/2201.10770v1 )

ライセンス: Link先を確認
Min Woo Sun, Robert Tibshirani(参考訳) クロスバリデーション(CV)は、モデルのテストエラーを推定する統計学習において最も広く使われている手法の1つであるが、その振る舞いはまだ完全には理解されていない。 CVからの推定値を用いたテスト誤差の標準信頼区間は、名目レベル以下である可能性が示されている。 この現象は、各試料がCV中のトレーニングと試験の両方の手順で使用され、その結果、CV推定誤差が相関するからである。 この相関を考慮せずに、分散の見積もりは、必要以上に小さくなる。 この問題を軽減する一つの方法は、ネストcvの代わりに予測誤差の平均二乗誤差を推定することである。 このアプローチは標準cvの間隔よりも優れたカバレッジを達成することが示されている。 本研究では,ネストCVのアイデアをCox比例ハザードモデルに一般化し,この設定に対する様々なテストエラーの選択について検討する。

Cross-validation (CV) is one of the most widely used techniques in statistical learning for estimating the test error of a model, but its behavior is not yet fully understood. It has been shown that standard confidence intervals for test error using estimates from CV may have coverage below nominal levels. This phenomenon occurs because each sample is used in both the training and testing procedures during CV and as a result, the CV estimates of the errors become correlated. Without accounting for this correlation, the estimate of the variance is smaller than it should be. One way to mitigate this issue is by estimating the mean squared error of the prediction error instead using nested CV. This approach has been shown to achieve superior coverage compared to intervals derived from standard CV. In this work, we generalize the nested CV idea to the Cox proportional hazards model and explore various choices of test error for this setting.
翻訳日:2022-01-27 14:11:39 公開日:2022-01-26
# 捕捉RGBアルベドからの分光生体物性の推定

Estimation of Spectral Biophysical Skin Properties from Captured RGB Albedo ( http://arxiv.org/abs/2201.10695v1 )

ライセンス: Link先を確認
Carlos Aliaga, Christophe Hery, Mengqi Xia(参考訳) 簡単なRGBアルベドキャプチャーからヒト皮膚のスペクトル特性を再構成・操作する新しい手法を提案する。 この目的のために,我々はモンテカルロ光シミュレーションを,その最も重要な構成要素によってパラメータ化された正確な生体物理学的皮膚層モデル上で活用し,可能な色範囲をカバーする。 このモデルの実用的複雑さにより、任意のアルベドから最も可能性の高い皮膚特性への逆写像を学習することができる。 われわれの技術は皮膚のあらゆるタイプを忠実に再現することができ、顔の唇や不完全といったより困難な領域を自動的に扱うのに十分な表現力を持っている。 皮膚のパラメーターマップの滑らかさのおかげで、アルベドは有意義な生物学的性質によって堅牢に編集できる。

We present a new method to reconstruct and manipulate the spectral properties of human skin from simple RGB albedo captures. To this end, we leverage Monte Carlo light simulation over an accurate biophysical human skin layering model parameterized by its most important components, thereby covering a plausible range of colors. The practical complexity of the model allows us to learn the inverse mapping from any albedo to its most probable associated skin properties. Our technique can faithfully reproduce any skin type, being expressive enough to automatically handle more challenging areas like the lips or imperfections in the face. Thanks to the smoothness of the skin parameters maps recovered, the albedo can be robustly edited through meaningful biophysical properties.
翻訳日:2022-01-27 14:11:23 公開日:2022-01-26
# 視覚・言語ナビゲーションのための自己教師付き3次元意味表現学習

Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation ( http://arxiv.org/abs/2201.10788v1 )

ライセンス: Link先を確認
Sinan Tan, Mengmeng Ge, Di Guo, Huaping Liu and Fuchun Sun(参考訳) 視覚言語ナビゲーションタスクでは、具体化エージェントは言語指示に従い、特定の目標にナビゲートする。 多くの実践的なシナリオにおいて重要であり、コンピュータビジョンとロボティクスのコミュニティから広く注目を集めている。 しかし、既存の作品のほとんどはRGB画像のみを使用しており、シーンの3D意味情報を無視している。 この目的のために,voxelレベル3dセマンティクス再構成を3dセマンティクス表現にエンコードする,新しい自己教師付き学習フレームワークを開発した。 具体的には、特定の3D領域における特定のクラスのオブジェクトの有無を予測するプリテキストタスクとして、リージョンクエリタスクを設計する。 そして,LSTMに基づくナビゲーションモデルを構築し,視覚言語対の3次元意味表現とBERT言語機能を用いて学習する。 実験の結果,提案手法は,R2Rデータセットの検証未確認とテスト未確認の分割に対して,68%と66%の成功率を達成した。

In the Vision-and-Language Navigation task, the embodied agent follows linguistic instructions and navigates to a specific goal. It is important in many practical scenarios and has attracted extensive attention from both computer vision and robotics communities. However, most existing works only use RGB images but neglect the 3D semantic information of the scene. To this end, we develop a novel self-supervised training framework to encode the voxel-level 3D semantic reconstruction into a 3D semantic representation. Specifically, a region query task is designed as the pretext task, which predicts the presence or absence of objects of a particular class in a specific 3D region. Then, we construct an LSTM-based navigation model and train it with the proposed 3D semantic representations and BERT language features on vision-language pairs. Experiments show that the proposed approach achieves success rates of 68% and 66% on the validation unseen and test unseen splits of the R2R dataset respectively, which are superior to most of RGB-based methods utilizing vision-language transformers.
翻訳日:2022-01-27 14:09:36 公開日:2022-01-26
# ディープラーニングを用いた構造MRIによる変形性膝関節症の予測

Predicting Knee Osteoarthritis Progression from Structural MRI using Deep Learning ( http://arxiv.org/abs/2201.10849v1 )

ライセンス: Link先を確認
Egor Panfilov, Simo Saarakkala, Miika T. Nieminen, Aleksei Tiulpin(参考訳) 構造MRIによる膝関節症(KOA)進行の正確な予測は、疾患の理解を深め、臨床試験を支援する可能性がある。 先行技術は手動でデザインされたイメージングバイオマーカーに焦点を合わせており、MRIスキャンに存在するすべての疾患関連情報を十分に活用するものではないかもしれない。 対照的に,本手法では,Deep Learningを用いて生データから終末までの関連表現を学習し,進行予測に使用する。 この方法は2D CNNを用いてデータをスライス的に処理し、抽出した特徴をTransformerを使って集約する。 大コホート(n=4,866)で評価し,従来の2Dおよび3D CNNモデルより優れ,平均精度0.58\pm0.03$,ROC AUCが0.78\pm0.01$である。 本稿では,構造MRIによるエンドツーエンド KOA 進行予測のベースラインを設定する。 私たちのコードはhttps://github.com/M IPT-Oulu/OAProgressi onMRで公開されています。

Accurate prediction of knee osteoarthritis (KOA) progression from structural MRI has a potential to enhance disease understanding and support clinical trials. Prior art focused on manually designed imaging biomarkers, which may not fully exploit all disease-related information present in MRI scan. In contrast, our method learns relevant representations from raw data end-to-end using Deep Learning, and uses them for progression prediction. The method employs a 2D CNN to process the data slice-wise and aggregate the extracted features using a Transformer. Evaluated on a large cohort (n=4,866), the proposed method outperforms conventional 2D and 3D CNN-based models and achieves average precision of $0.58\pm0.03$ and ROC AUC of $0.78\pm0.01$. This paper sets a baseline on end-to-end KOA progression prediction from structural MRI. Our code is publicly available at https://github.com/M IPT-Oulu/OAProgressi onMR.
翻訳日:2022-01-27 14:09:21 公開日:2022-01-26
# iPad 世代間でのコンピュータビジョンタスクにおけるTrueDepth Sensor Data の課題

On the Issues of TrueDepth Sensor Data for Computer Vision Tasks Across Different iPad Generations ( http://arxiv.org/abs/2201.10865v1 )

ライセンス: Link先を確認
Steffen Urban, Thomas Lindemeier, David Dobbelstein, Matthias Haenel(参考訳) 2017年、AppleはiPhone XでTrueDepthセンサーを導入した。 その主な用途は生体顔認証であるが、セグメンテーション、ポートレート画像生成、メートル法3D再構成といった他のコンピュータビジョンタスクに対する正確な深度データの利用は自然に見え、様々なアプリケーションの開発に繋がる。 本報告では,iphoneおよびipadの各世代を含む各種デバイスにおけるtruedepthデータの信頼性を調査し,すべてのテスト対象ipadにおける2つの異なる重要な問題を明らかにする。

In 2017 Apple introduced the TrueDepth sensor with the iPhone X release. Although its primary use case is biometric face recognition, the exploitation of accurate depth data for other computer vision tasks like segmentation, portrait image generation and metric 3D reconstruction seems natural and lead to the development of various applications. In this report, we investigate the reliability of TrueDepth data - accessed through two different APIs - on various devices including different iPhone and iPad generations and reveal two different and significant issues on all tested iPads.
翻訳日:2022-01-27 14:09:01 公開日:2022-01-26
# ベイズに基づく単光ライダーシステムのためのディープアンローリングアルゴリズム

A Bayesian Based Deep Unrolling Algorithm for Single-Photon Lidar Systems ( http://arxiv.org/abs/2201.10910v1 )

ライセンス: Link先を確認
Jakeoung Koo, Abderrahim Halimi, Stephen McLaughlin(参考訳) 現実のアプリケーションに3Dシングルフォトライダイメージングをデプロイすることは、高ノイズ環境におけるイメージングを含む複数の課題に直面している。 統計や学習に基づくフレームワークに基づいて,これらの問題に対処するアルゴリズムが提案されている。 統計的手法は推論パラメータに関する豊富な情報を提供するが、仮定されたモデル相関構造によって制限される。 本稿では,統計的ベイズアルゴリズムを単一光子ライダーデータから頑健な画像再構成を行うための新しいディープラーニングアーキテクチャ,すなわち,アルゴリズムの反復ステップをニューラルネットワーク層に変換する。 その結果得られたアルゴリズムは、統計的および学習ベースのフレームワークの両方の利点を享受し、ネットワーク解釈性を改善した最良の見積もりを提供する。 既存の学習ベースソリューションと比較して、提案アーキテクチャではトレーニング可能なパラメータの数を減らし、ノイズや誤モデリングの影響を受けやすく、不確実性を含む推定値に関するより豊富な情報を提供する。 合成データと実データの結果は、最先端のアルゴリズムと比較した場合の推論の品質と計算複雑性に関する競合結果を示している。

Deploying 3D single-photon Lidar imaging in real world applications faces multiple challenges including imaging in high noise environments. Several algorithms have been proposed to address these issues based on statistical or learning-based frameworks. Statistical methods provide rich information about the inferred parameters but are limited by the assumed model correlation structures, while deep learning methods show state-of-the-art performance but limited inference guarantees, preventing their extended use in critical applications. This paper unrolls a statistical Bayesian algorithm into a new deep learning architecture for robust image reconstruction from single-photon Lidar data, i.e., the algorithm's iterative steps are converted into neural network layers. The resulting algorithm benefits from the advantages of both statistical and learning based frameworks, providing best estimates with improved network interpretability. Compared to existing learning-based solutions, the proposed architecture requires a reduced number of trainable parameters, is more robust to noise and mismodelling effects, and provides richer information about the estimates including uncertainty measures. Results on synthetic and real data show competitive results regarding the quality of the inference and computational complexity when compared to state-of-the-art algorithms.
翻訳日:2022-01-27 14:08:50 公開日:2022-01-26
# 画像感情分類のための多彩なプロンプト構成の学習

Learning to Compose Diversified Prompts for Image Emotion Classification ( http://arxiv.org/abs/2201.10963v1 )

ライセンス: Link先を確認
Sinuo Deng, Lifang Wu, Ge Shi, Lehao Xing, Meng Jian(参考訳) Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。 CLIPは最近、ビジュアル質問回答(Visual Question Answering)のような幅広いダウンストリームの視覚言語タスクにおいて、その優位性を示しているが、イメージ感情分類(IEC)についてはいまだ調査されていない。 IECタスクにCLIPを適用するには、3つの大きな課題がある。 本稿では,IECにCLIPを効果的に適用する方法を示す汎用フレームワークを提案する。 私たちはまず,CLIPの事前学習目的を模倣するプロンプトチューニング手法を導入し,CLIPに含まれるリッチな画像とテキストセマンティクスを活用する。 次に,インスタンスのカテゴリや画像の内容に条件付けすることで,インスタンス固有のプロンプトを自動生成する。 6つの広く利用されている情緒的データセットの評価結果から,提案手法はIECタスクにおける最先端の手法(感情ROIデータセットでは最大9.29%の精度向上)よりも優れており,パラメータはわずかであった。 私たちのコードは研究目的で公開されます。

Contrastive Language-Image Pre-training (CLIP) represents the latest incarnation of pre-trained vision-language models. Although CLIP has recently shown its superior power on a wide range of downstream vision-language tasks like Visual Question Answering, it is still underexplored for Image Emotion Classification (IEC). Adapting CLIP to the IEC task has three significant challenges, tremendous training objective gap between pretraining and IEC, shared suboptimal and invariant prompts for all instances. In this paper, we propose a general framework that shows how CLIP can be effectively applied to IEC. We first introduce a prompt tuning method that mimics the pretraining objective of CLIP and thus can leverage the rich image and text semantics entailed in CLIP. Then we automatically compose instance-specific prompts by conditioning them on the categories and image contents of instances, diversifying prompts and avoiding suboptimal problems. Evaluations on six widely-used affective datasets demonstrate that our proposed method outperforms the state-of-the-art methods to a large margin (i.e., up to 9.29% accuracy gain on EmotionROI dataset) on IEC tasks, with only a few parameters trained. Our codes will be publicly available for research purposes.
翻訳日:2022-01-27 14:08:31 公開日:2022-01-26
# One shot PACS:患者特異な解剖学的文脈と形状 : 胸椎縦円錐X線CTの経時的登録分類

One shot PACS: Patient specific Anatomic Context and Shape prior aware recurrent registration-segment ation of longitudinal thoracic cone beam CTs ( http://arxiv.org/abs/2201.11000v1 )

ライセンス: Link先を確認
Jue Jiang, Harini Veeraraghavan(参考訳) 画像誘導適応肺放射線療法は、治療コーンビームct(cbct)画像からの正確な腫瘍および臓器の分画を必要とする。 胸部CBCTは, 軟部コントラストの低さ, 画像所見, 呼吸運動, 胸腔内解剖学的変化により, 分画が困難である。 そこで我々は, 経胸部CBCTセグメンテーションのための新しい患者固有の解剖コンテキストと形状, PACSを意識した3次元再登録ネットワークを開発した。 セグメンテーションと登録ネットワークはエンドツーエンドのフレームワークで同時に訓練され、畳み込み型長期記憶モデルで実装された。 登録ネットワークは,計画ct(pct)とcbct画像のペアを用いて教師なしで訓練し,順次変形した画像列を生成する。 セグメンテーションネットワークは、漸進的に変形したpct(解剖学的文脈)とpct区切り(形状的文脈)とcbct画像を組み合わせたワンショット設定で最適化された。 提案法では, 腫瘍(dsc: 0.83$\pm$ 0.08, surface dsc [sdsc]: 0.97$\pm$ 0.06, hausdorff distance: 995^{th}$%ile [hd95]: 3.97$\pm$3.02mm) と食道(dsc: 0.78$\pm$ 0.13, sdsc: 0.90$\pm$0.14, hd95: 3.22$\pm$2.02) を複数法より精度良く評価した。 アブレーション試験や比較実験も行われた。

Image-guided adaptive lung radiotherapy requires accurate tumor and organs segmentation from during treatment cone-beam CT (CBCT) images. Thoracic CBCTs are hard to segment because of low soft-tissue contrast, imaging artifacts, respiratory motion, and large treatment induced intra-thoracic anatomic changes. Hence, we developed a novel Patient-specific Anatomic Context and Shape prior or PACS-aware 3D recurrent registration-segment ation network for longitudinal thoracic CBCT segmentation. Segmentation and registration networks were concurrently trained in an end-to-end framework and implemented with convolutional long-short term memory models. The registration network was trained in an unsupervised manner using pairs of planning CT (pCT) and CBCT images and produced a progressively deformed sequence of images. The segmentation network was optimized in a one-shot setting by combining progressively deformed pCT (anatomic context) and pCT delineations (shape context) with CBCT images. Our method, one-shot PACS was significantly more accurate (p$<$0.001) for tumor (DSC of 0.83 $\pm$ 0.08, surface DSC [sDSC] of 0.97 $\pm$ 0.06, and Hausdorff distance at $95^{th}$ percentile [HD95] of 3.97$\pm$3.02mm) and the esophagus (DSC of 0.78 $\pm$ 0.13, sDSC of 0.90$\pm$0.14, HD95 of 3.22$\pm$2.02) segmentation than multiple methods. Ablation tests and comparative experiments were also done.
翻訳日:2022-01-27 14:08:08 公開日:2022-01-26
# 秘密鍵を用いた圧縮・学習可能な画像変換とその応用の概要

An Overview of Compressible and Learnable Image Transformation with Secret Key and Its Applications ( http://arxiv.org/abs/2201.11006v1 )

ライセンス: Link先を確認
Hitoshi Kiya, AprilPyone MaungMaung, Yuma Kinoshita, Imaizumi Shoko, Sayaka Shiota(参考訳) 本稿では秘密鍵を用いた画像変換とその応用について概説する。 秘密鍵を用いた画像変換により、平易な画像上の視覚情報を保護するだけでなく、キーで制御されたユニークな特徴を画像に埋め込むことができる。 さらに、多くの暗号化手法が、機械学習のために圧縮可能で学習可能な暗号化画像を生成することができる。 このような変換の様々な応用は、これらの特性を用いて開発されている。 本稿では,プライバシ保護機械学習と対角的堅牢な防御に適用可能な,学習可能な画像暗号化と呼ばれる画像変換のクラスに焦点を当てる。 変換アルゴリズムと性能の詳細な記述が提供される。 さらに,様々な攻撃に対する堅牢性についても論じる。

This article presents an overview of image transformation with a secret key and its applications. Image transformation with a secret key enables us not only to protect visual information on plain images but also to embed unique features controlled with a key into images. In addition, numerous encryption methods can generate encrypted images that are compressible and learnable for machine learning. Various applications of such transformation have been developed by using these properties. In this paper, we focus on a class of image transformation referred to as learnable image encryption, which is applicable to privacy-preserving machine learning and adversarially robust defense. Detailed descriptions of both transformation algorithms and performances are provided. Moreover, we discuss robustness against various attacks.
翻訳日:2022-01-27 14:07:29 公開日:2022-01-26
# rtnet : 糖尿病網膜症マルチレシオンセグメンテーションのための関連トランスフォーマネットワーク

RTNet: Relation Transformer Network for Diabetic Retinopathy Multi-lesion Segmentation ( http://arxiv.org/abs/2201.11037v1 )

ライセンス: Link先を確認
Shiqi Huang, Jianan Li, Yuze Xiao, Ning Shen and Tingfa Xu(参考訳) 自動糖尿病網膜症 (DR) 病変の分節は眼科医の診断に有効である。 この課題に関して多くの研究が行われてきたが、ほとんどの先行研究は病変の病理組織を考慮せず、ネットワークの設計にあまりに注意を払っていた。 DR病変の病因を事前に調査した結果,特定の病変は特定の血管に近接し,互いに相対的なパターンを呈することが明らかとなった。 自己注意変換器は病変の特徴間のグローバルな依存関係を生かし,相互注意変換器は病変と血管の特徴間の相互作用を可能とし,複雑な基底構造による病変検出の曖昧さを軽減するために,貴重な血管情報を統合することで,病変と血管の特徴間の相互作用を緩和する。 さらに,この小さな病変パターンをまず捉えるために,ディープネットワークに詳細な情報を保存できるグローバルトランスフォーマーブロック(gtb)を提案する。 上記の二重ブランチのブロックを統合することで、ネットワークは4種類の病変を同時に分割する。 IDRiDとDDRデータセットに関する総合的な実験は、我々のアプローチの優位性をよく示している。

Automatic diabetic retinopathy (DR) lesions segmentation makes great sense of assisting ophthalmologists in diagnosis. Although many researches have been conducted on this task, most prior works paid too much attention to the designs of networks instead of considering the pathological association for lesions. Through investigating the pathogenic causes of DR lesions in advance, we found that certain lesions are closed to specific vessels and present relative patterns to each other. Motivated by the observation, we propose a relation transformer block (RTB) to incorporate attention mechanisms at two main levels: a self-attention transformer exploits global dependencies among lesion features, while a cross-attention transformer allows interactions between lesion and vessel features by integrating valuable vascular information to alleviate ambiguity in lesion detection caused by complex fundus structures. In addition, to capture the small lesion patterns first, we propose a global transformer block (GTB) which preserves detailed information in deep network. By integrating the above blocks of dual-branches, our network segments the four kinds of lesions simultaneously. Comprehensive experiments on IDRiD and DDR datasets well demonstrate the superiority of our approach, which achieves competitive performance compared to state-of-the-arts.
翻訳日:2022-01-27 14:07:19 公開日:2022-01-26
# データ配信サービスを用いた複数移動ロボットの行動木に基づく非同期タスク計画

Behavior Tree-Based Asynchronous Task Planning for Multiple Mobile Robots using a Data Distribution Service ( http://arxiv.org/abs/2201.10918v1 )

ライセンス: Link先を確認
Seungwoo Jeong, Taekwon Ga, Inhwan Jeong, Jongeun Choi(参考訳) 本研究では,行動木(bt)上に構築する複数ロボットのためのタスク計画フレームワークを提案する。 BTはデータ配信サービス(DDS)と通信してデータを送受信する。 単一ティッチを持つ1つのルートノードから派生した標準BTは、複数のロボットには適さないため、新しいタイプのBTアクションと改良されたノードが提案され、DDSを介して複数のロボットを非同期に制御する。 ロボットのタスクを効率的に計画するために、1つのタスク計画ユニットを提案タスクタイプで実装する。 タスク計画部は、単一の合体BTを介して各ロボットにタスクを同時に割り当てる。 任意のロボットが割り当てられたタスクを実行中に障害に陥ると、ロボットに埋め込まれた別のBTが実行され、障害を克服するためにリカバリモードに入る。 この機能を実現するために、タスクに対応するBT内のアクションを変数として定義し、DDSと共有することにより、タスク計画部とロボット間で任意のアクションを交換できるようにする。 実世界のアプリケーションにおける我々のフレームワークの実現可能性を示すため、3台の移動ロボットをDDSを介して4つの目標位置へ交互に移動させる実験を行った。

In this study, we propose task planning framework for multiple robots that builds on a behavior tree (BT). BTs communicate with a data distribution service (DDS) to send and receive data. Since the standard BT derived from one root node with a single tick is unsuitable for multiple robots, a novel type of BT action and improved nodes are proposed to control multiple robots through a DDS asynchronously. To plan tasks for robots efficiently, a single task planning unit is implemented with the proposed task types. The task planning unit assigns tasks to each robot simultaneously through a single coalesced BT. If any robot falls into a fault while performing its assigned task, another BT embedded in the robot is executed; the robot enters the recovery mode in order to overcome the fault. To perform this function, the action in the BT corresponding to the task is defined as a variable, which is shared with the DDS so that any action can be exchanged between the task planning unit and robots. To show the feasibility of our framework in a real-world application, three mobile robots were experimentally coordinated for them to travel alternately to four goal positions by the proposed single task planning unit via a DDS.
翻訳日:2022-01-27 14:06:25 公開日:2022-01-26
# データ適応スペクトログラムのための学習可能なウェーブレットパケット変換

Learnable Wavelet Packet Transform for Data-Adapted Spectrograms ( http://arxiv.org/abs/2201.11069v1 )

ライセンス: Link先を確認
Frusque Gaetan and Fink Olga(参考訳) 複雑なシステムの状態に関する高周波データ(例えば音響モニタリング)の取得が普及している。 このような高周波信号は典型的には、異なる時間スケールと異なる種類の循環的挙動にまたがる時間依存性を含む。 このような信号を処理するには、特に有意義な時間周波数特徴の抽出に注意を要する。 これは時間がかかり、パフォーマンスはパラメータの選択に依存することが多い。 これらの制約に対処するために,学習可能なウェーブレットパケット変換のためのディープラーニングフレームワークを提案する。 学習された特徴は、データセットの重要な時間周波数情報を含むスペクトログラムとして表現することができる。 提案手法の特性と性能を,改良されたスペクトルリークを評価し,音響モニタリングのための異常検出タスクに適用することにより評価した。

Capturing high-frequency data concerning the condition of complex systems, e.g. by acoustic monitoring, has become increasingly prevalent. Such high-frequency signals typically contain time dependencies ranging over different time scales and different types of cyclic behaviors. Processing such signals requires careful feature engineering, particularly the extraction of meaningful time-frequency features. This can be time-consuming and the performance is often dependent on the choice of parameters. To address these limitations, we propose a deep learning framework for learnable wavelet packet transforms, enabling to learn features automatically from data and optimise them with respect to the defined objective function. The learned features can be represented as a spectrogram, containing the important time-frequency information of the dataset. We evaluate the properties and performance of the proposed approach by evaluating its improved spectral leakage and by applying it to an anomaly detection task for acoustic monitoring.
翻訳日:2022-01-27 14:06:05 公開日:2022-01-26
# 倫理的機械学習のための因果関係の約束と課題

Promises and Challenges of Causality for Ethical Machine Learning ( http://arxiv.org/abs/2201.10683v1 )

ライセンス: Link先を確認
Aida Rahmattalabi, Alice Xiang(参考訳) 近年、法的枠組みとの互換性、人間の利害関係者の解釈可能性、観察データに固有のスプリアス相関に対する堅牢性などにより、公正な意思決定システムを設計するための因果的推論への関心が高まっている。 しかし、近年の因果的公平性に対する注意は、現在の因果的公平性アプローチを文献に応用することに対する実践的かつ認識論的課題により、大きな懐疑論を伴っている。 本稿では, 計量学, 社会科学, 生物医学における因果関係に関する長年の実証研究に動機づけられ, 因果関係の公平さの適切な適用条件を「潜在的成果の枠組み」に基づいて概説する。 我々は,因果的フェアネス文学においてしばしば無視される因果的推論の重要な側面を強調する。 特に,人種やジェンダーなどの社会的カテゴリーにおける介入の性質とタイミングを特定することの重要性について論じる。 正確には、不変属性への介入を仮定する代わりに、その認識に焦点を移すことを提案し、公平性評価の意義について議論する。 このような介入の概念化は, 因果仮説の妥当性を評価し, 治療後バイアスを回避しつつ, 適切な因果分析を行う上で重要である。 その後、統計的相関に依存するものを含め、既存の公正度指標の限界に因果性がどのように対処できるかを説明する。 具体的には、共通統計的フェアネス概念の因果的変種を導入し、因果枠組みの下でフェアネスの異なる概念の間に根本的な食い違いがないという新しい観察を行う。 最後に,処理後変数が存在する場合に,不公平性の評価と緩和のためのアプローチを実証する広範囲な実験を行った。

In recent years, there has been increasing interest in causal reasoning for designing fair decision-making systems due to its compatibility with legal frameworks, interpretability for human stakeholders, and robustness to spurious correlations inherent in observational data, among other factors. The recent attention to causal fairness, however, has been accompanied with great skepticism due to practical and epistemological challenges with applying current causal fairness approaches in the literature. Motivated by the long-standing empirical work on causality in econometrics, social sciences, and biomedical sciences, in this paper we lay out the conditions for appropriate application of causal fairness under the "potential outcomes framework." We highlight key aspects of causal inference that are often ignored in the causal fairness literature. In particular, we discuss the importance of specifying the nature and timing of interventions on social categories such as race or gender. Precisely, instead of postulating an intervention on immutable attributes, we propose a shift in focus to their perceptions and discuss the implications for fairness evaluation. We argue that such conceptualization of the intervention is key in evaluating the validity of causal assumptions and conducting sound causal analysis including avoiding post-treatment bias. Subsequently, we illustrate how causality can address the limitations of existing fairness metrics, including those that depend upon statistical correlations. Specifically, we introduce causal variants of common statistical notions of fairness, and we make a novel observation that under the causal framework there is no fundamental disagreement between different notions of fairness. Finally, we conduct extensive experiments where we demonstrate our approach for evaluating and mitigating unfairness, specially when post-treatment variables are present.
翻訳日:2022-01-27 14:05:53 公開日:2022-01-26
# コールドスタートレコメンデーションのためのスパーシティ規則化

Sparsity Regularization For Cold-Start Recommendation ( http://arxiv.org/abs/2201.10711v1 )

ライセンス: Link先を確認
Aksheshkumar Ajaykumar Shah and Hemanth Venkateshwara(参考訳) 近年, コールドスタート勧告問題に対してGAN(Generative Adversarial Networks)が適用されているが, これらのモデルのトレーニング性能は, 温かいユーザの購入行動の極端に疎らさによって阻害されている。 本稿では,ユーザ人口統計とユーザの嗜好を組み合わせることにより,ユーザ-ベクトルの新たな表現法を提案する。 本システムでは,二元的ユーザ製品間インタラクション(簡易フィードバック)ではなく,重み付けされたユーザ製品選好(テストフィードバック)を用いて,ユーザ購入行動のモデル化を行う。 これを用いて, 温かいユーザへの過度な適合を回避し, トレーニング安定性を保証したスパースユーザ購入行動を活用した, 冷水星推薦のための新しいスパース対逆モデルSRLGANを開発した。 SRLGANを2つの一般的なデータセットで評価し、最先端の結果を示す。

Recently, Generative Adversarial Networks (GANs) have been applied to the problem of Cold-Start Recommendation, but the training performance of these models is hampered by the extreme sparsity in warm user purchase behavior. In this paper we introduce a novel representation for user-vectors by combining user demographics and user preferences, making the model a hybrid system which uses Collaborative Filtering and Content Based Recommendation. Our system models user purchase behavior using weighted user-product preferences (explicit feedback) rather than binary user-product interactions (implicit feedback). Using this we develop a novel sparse adversarial model, SRLGAN, for Cold-Start Recommendation leveraging the sparse user-purchase behavior which ensures training stability and avoids over-fitting on warm users. We evaluate the SRLGAN on two popular datasets and demonstrate state-of-the-art results.
翻訳日:2022-01-27 14:05:25 公開日:2022-01-26
# 連続学習が可能な分割階層構造をもつ適応共振理論に基づく位相クラスタリング

Adaptive Resonance Theory-based Topological Clustering with a Divisive Hierarchical Structure Capable of Continual Learning ( http://arxiv.org/abs/2201.10713v1 )

ライセンス: Link先を確認
Naoki Masuyama, Narito Amako, Yuna Yamada, Yusuke Nojima, Hisao Ishibuchi(参考訳) 可塑性安定性ジレンマを扱う能力により、適応共鳴理論(art)は連続学習を実現する効果的なアプローチと考えられている。 しかし、一般的にARTベースのアルゴリズムのクラスタリング性能は、データに依存し、手動で指定される警戒パラメータのような類似性しきい値に強く依存する。 本稿では,データポイントの分布から類似度閾値を自動的に推定するメカニズムを備えた,アートベーストポロジカルクラスタリングアルゴリズムを提案する。 また,情報抽出性能を向上させるため,提案アルゴリズムに階層構造を導入することで,連続学習が可能な分割型階層クラスタリングアルゴリズムを提案する。 シミュレーション実験により,最近提案する階層クラスタリングアルゴリズムと比較して,クラスタリング性能が比較評価された。

Thanks to an ability for handling the plasticity-stability dilemma, Adaptive Resonance Theory (ART) is considered as an effective approach for realizing continual learning. In general, however, the clustering performance of ART-based algorithms strongly depends on a similarity threshold, i.e., a vigilance parameter, which is data-dependent and specified by hand. This paper proposes an ART-based topological clustering algorithm with a mechanism that automatically estimates a similarity threshold from a distribution of data points. In addition, for the improving information extraction performance, a divisive hierarchical clustering algorithm capable of continual learning is proposed by introducing a hierarchical structure to the proposed algorithm. Simulation experiments show that the proposed algorithm shows the comparative clustering performance compared with recently proposed hierarchical clustering algorithms.
翻訳日:2022-01-27 14:05:08 公開日:2022-01-26
# サロゲートグラディエントDescentを用いたメタラーニングスパイクニューラルネットワーク

Meta-learning Spiking Neural Networks with Surrogate Gradient Descent ( http://arxiv.org/abs/2201.10777v1 )

ライセンス: Link先を確認
Kenneth Stewart, Emre Neftci(参考訳) エッジおよびオンラインタスクパフォーマンスにおける適応的な"ライフロング"学習は、AI研究の野心的な目標である。 Spiking Neural Networks(SNN)を実装するニューロモルフィックハードウェアは、リアルタイム、イベントベース、ローカルコンピューティングパラダイムがエッジ実装や高速学習に適しているため、この点において特に魅力的である。 しかし、最先端のSNNトレーニングを特徴付ける長く反復的な学習は、ニューロモルフィックハードウェアの物理的性質とリアルタイム操作とは相容れない。 メタ学習のような二段階学習は、これらの制限を克服するために、ディープラーニングでますます使われている。 本研究では, 勾配推定のためのスパイキングしきい値関数を近似した代理勾配法を用いて, SNNにおける勾配に基づくメタラーニングを実証する。 シュロゲート勾配は、モデル非依存メタラーニング (MAML) のような2階勾配メタラーニング手法を2回微分可能、確立可能、効果的に利用することができる。 我々は,MAMLを用いたSNNのメタトレーニングが,イベントベースメタデータ上でMAMLでトレーニングされた従来のANNのパフォーマンスを上回ることを示す。 さらに,高精度の重みや勾配を必要とせず,高速な学習を実現するというメタラーニングの特長を実証する。 本研究では,メタラーニング技術が,実世界の問題にニューロモルフィック学習技術の展開にどのように役立つかを強調した。

Adaptive "life-long" learning at the edge and during online task performance is an aspirational goal of AI research. Neuromorphic hardware implementing Spiking Neural Networks (SNNs) are particularly attractive in this regard, as their real-time, event-based, local computing paradigm makes them suitable for edge implementations and fast learning. However, the long and iterative learning that characterizes state-of-the-art SNN training is incompatible with the physical nature and real-time operation of neuromorphic hardware. Bi-level learning, such as meta-learning is increasingly used in deep learning to overcome these limitations. In this work, we demonstrate gradient-based meta-learning in SNNs using the surrogate gradient method that approximates the spiking threshold function for gradient estimations. Because surrogate gradients can be made twice differentiable, well-established, and effective second-order gradient meta-learning methods such as Model Agnostic Meta Learning (MAML) can be used. We show that SNNs meta-trained using MAML match or exceed the performance of conventional ANNs meta-trained with MAML on event-based meta-datasets. Furthermore, we demonstrate the specific advantages that accrue from meta-learning: fast learning without the requirement of high precision weights or gradients. Our results emphasize how meta-learning techniques can become instrumental for deploying neuromorphic learning technologies on real-world problems.
翻訳日:2022-01-27 14:04:54 公開日:2022-01-26
# (参考訳) 二元データにおける構造検出のための確率的潜在変数モデル [全文訳有]

A probabilistic latent variable model for detecting structure in binary data ( http://arxiv.org/abs/2201.11108v1 )

ライセンス: CC BY 4.0
Christopher Warner, Kiersten Ruda, Friedrich T. Sommer(参考訳) 分散バイナリデータ中のパターンのノイズや近似的な繰り返しを検出するための,新しい確率的二項潜在変数モデルを提案する。 このモデルは"Noisy-OR model"(ヘッカーマン、1990年)に基づいており、以前は病気やトピック・モデリングに使われていた。 このモデルの能力は、網膜ニューロンから記録中の構造を抽出することで証明されるが、ノイズの多いバイナリーデータの潜在構造の発見とモデル化に広く応用することができる。 神経データをスパイクする文脈では、個々のニューロンのスパイクをニューロンのグループの"Cell Assemblies"(CA)という用語で説明する。 モデルは、セルアセンブリのアクティビティを記述する2進潜変数のセットでスパースアクティビティを推論する。 細胞組立体の潜伏変数が活性化されると、この組立体に属するニューロンが不活性となる確率を減少させる。 潜在成分の条件付き確率カーネルは、予測最大化スキームのデータから学習され、潜在状態の推測とモデルへのパラメータ調整を含む。 ホワイトノイズ刺激と自然刺激による網膜反応を統計的に類似させるために構築した合成スパイク列車のモデルについて, 徹底的に検証した。 また, 網膜神経節細胞 (RGC) に記録された刺激応答にも本モデルを適用し, 得られた構造について検討した。

We introduce a novel, probabilistic binary latent variable model to detect noisy or approximate repeats of patterns in sparse binary data. The model is based on the "Noisy-OR model" (Heckerman, 1990), used previously for disease and topic modelling. The model's capability is demonstrated by extracting structure in recordings from retinal neurons, but it can be widely applied to discover and model latent structure in noisy binary data. In the context of spiking neural data, the task is to "explain" spikes of individual neurons in terms of groups of neurons, "Cell Assemblies" (CAs), that often fire together, due to mutual interactions or other causes. The model infers sparse activity in a set of binary latent variables, each describing the activity of a cell assembly. When the latent variable of a cell assembly is active, it reduces the probabilities of neurons belonging to this assembly to be inactive. The conditional probability kernels of the latent components are learned from the data in an expectation maximization scheme, involving inference of latent states and parameter adjustments to the model. We thoroughly validate the model on synthesized spike trains constructed to statistically resemble recorded retinal responses to white noise stimulus and natural movie stimulus in data. We also apply our model to spiking responses recorded in retinal ganglion cells (RGCs) during stimulation with a movie and discuss the found structure.
翻訳日:2022-01-27 14:03:07 公開日:2022-01-26
# 誰の言語が高品質か? テキストデータ選択における言語イデオロギーの測定

Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection ( http://arxiv.org/abs/2201.10474v2 )

ライセンス: Link先を確認
Suchin Gururangan, Dallas Card, Sarah K. Dreier, Emily K. Gade, Leroy Z. Wang, Zeyu Wang, Luke Zettlemoyer, Noah A. Smith(参考訳) 言語モデルは、多種多様なテキストデータに対する巨大なウェブダンプに依存している。 しかし、これらの情報源は好ましくない内容に満ちている。 そのため、ウィキペディア、書籍、ニュースワイヤといったリソースは、言語モデリングに最も適したWebテキストを自動的に選択するアンカーとして機能することが多い。 全国の学生が執筆した米国の高校新聞記事の新しいデータセットを用いて、gpt-3で使用される品質フィルターによってどの言語が好まれるかを調査した。 より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。 次に,フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。 高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。

Language models increasingly rely on massive web dumps for diverse text data. However, these sources are rife with undesirable content. As such, resources like Wikipedia, books, and newswire often serve as anchors for automatically selecting web text most suitable for language modeling, a process typically referred to as quality filtering. Using a new dataset of U.S. high school newspaper articles -- written by students from across the country -- we investigate whose language is preferred by the quality filter used for GPT-3. We find that newspapers from larger schools, located in wealthier, educated, and urban ZIP codes are more likely to be classified as high quality. We then demonstrate that the filter's measurement of quality is unaligned with other sensible metrics, such as factuality or literary acclaim. We argue that privileging any corpus as high quality entails a language ideology, and more care is needed to construct training corpora for language models, with better transparency and justification for the inclusion or exclusion of various texts.
翻訳日:2022-01-27 13:40:14 公開日:2022-01-26
# S2MS: 自己監督型学習駆動多スペクトルCT画像強調

S2MS: Self-Supervised Learning Driven Multi-Spectral CT Image Enhancement ( http://arxiv.org/abs/2201.10294v2 )

ライセンス: Link先を確認
Chaoyang Zhang, Shaojie Chang, Ti Bai, and Xi Chen(参考訳) 光子計数分光CT(PCCT)は、走査された物体のエネルギー特性を反映して、異なるエネルギーチャネルで再構成された減衰マップを生成することができる。 限られた光子数と各エネルギーチャネルの非理想検出器応答のため、再構成された画像は通常多くのノイズを含む。 ディープラーニング(DL)技術の発展に伴い,ノイズ低減のための多種多様なDLベースモデルが提案されている。 しかし、ほとんどのモデルはトレーニングラベルとしてクリーンなデータセットを必要としており、医療画像分野では必ずしも利用可能ではない。 各チャンネルの再構成画像の類似性から着想を得て,マルチスペクトルチャネル(S2MS)を用いた自己教師付き学習に基づくPCCT画像強調フレームワークを提案する。 s2msフレームワークでは、入力ラベルと出力ラベルの両方がノイズ画像である。 具体的には、1つの単一チャネルイメージを出力として、他の単一チャネルイメージとチャネルサムイメージを入力としてネットワークを訓練し、余分なコストなしでスペクトルデータ情報を完全に使用できる。 AAPM低線量CTチャレンジデータベースに基づくシミュレーションの結果,提案したS2MSモデルは,臨床応用におけるPCCTの画質向上の可能性を秘めた従来のDLモデルと比較して,ノイズを抑え,詳細を効率的に保存できることがわかった。

Photon counting spectral CT (PCCT) can produce reconstructed attenuation maps in different energy channels, reflecting energy properties of the scanned object. Due to the limited photon numbers and the non-ideal detector response of each energy channel, the reconstructed images usually contain much noise. With the development of Deep Learning (DL) technique, different kinds of DL-based models have been proposed for noise reduction. However, most of the models require clean data set as the training labels, which are not always available in medical imaging field. Inspiring by the similarities of each channel's reconstructed image, we proposed a self-supervised learning based PCCT image enhancement framework via multi-spectral channels (S2MS). In S2MS framework, both the input and output labels are noisy images. Specifically, one single channel image was used as output while images of other single channels and channel-sum image were used as input to train the network, which can fully use the spectral data information without extra cost. The simulation results based on the AAPM Low-dose CT Challenge database showed that the proposed S2MS model can suppress the noise and preserve details more effectively in comparison with the traditional DL models, which has potential to improve the image quality of PCCT in clinical applications.
翻訳日:2022-01-27 13:39:58 公開日:2022-01-26
# 動脈壁のマスキングによるプラークセグメンテーション

Plaque segmentation via masking of the artery wall ( http://arxiv.org/abs/2201.10424v2 )

ライセンス: Link先を確認
Antonio Tejero-de-Pablos, Hiroaki Yamane, Yusuke Kurose, Junichi Iho, Youji Tokunaga, Makoto Horie, Keisuke Nishizawa, Yusaku Hayashi, Yasushi Koyama, Tatsuya Harada(参考訳) 冠動脈内プラークの存在は患者の生命にとって大きなリスクである。 特に、非石灰化プラークは検出が難しく、石灰化プラークよりも破裂しやすいため、大きな課題となる。 現在のディープラーニング技術は、通常の画像の正確なセグメンテーションを可能にするが、医療画像のパフォーマンスは依然として低く、その主な原因は、同じ範囲に落下する無関係な部分の曖昧さと曖昧なボクセル強度である。 本稿では,冠動脈のCCTA-CPRスキャンにおける石灰化プラークおよび非石灰化プラークの分画法を提案する。 入力スライスはマスキングされ、壁容器内のボクセルのみがセグメンテーションとして考慮される。 また, 異なる種類のマスクを用いて, プラークセグメンテーションにおける容器マスキングの可能性を検証することで, 徹底的な評価を行う。 本手法は, 定量および定性的評価において, 難解な非石灰化プラークであっても, 正確なプラーク形状を実現するために, セグメンテーション性能を著しく向上させる。 われわれは,この発見が今後,高性能プラークセグメンテーションの研究につながると信じている。

The presence of plaques in the coronary arteries are a major risk to the patients' life. In particular, non-calcified plaques pose a great challenge, as they are harder to detect and more likely to rupture than calcified plaques. While current deep learning techniques allow precise segmentation of regular images, the performance in medical images is still low, caused mostly by blurriness and ambiguous voxel intensities of unrelated parts that fall on the same range. In this paper, we propose a novel methodology for segmenting calcified and non-calcified plaques in CCTA-CPR scans of coronary arteries. The input slices are masked so only the voxels within the wall vessel are considered for segmentation. We also provide an exhaustive evaluation by applying different types of masks, in order to validate the potential of vessel masking for plaque segmentation. Our methodology results in a prominent boost in segmentation performance, in both quantitative and qualitative evaluation, achieving accurate plaque shapes even for the challenging non-calcified plaques. We believe our findings can lead the future research for high-performance plaque segmentation.
翻訳日:2022-01-27 13:39:37 公開日:2022-01-26
# コンバージェンスとプライバシ保証による確率符号化型フェデレーション学習

Stochastic Coded Federated Learning with Convergence and Privacy Guarantees ( http://arxiv.org/abs/2201.10092v2 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Songze Li and Yuyi Mao and Jun Zhang(参考訳) フェデレーション学習(federated learning, fl)は、プライバシを保護した分散機械学習フレームワークとして、多くのクライアントが生のデータを共有するのではなく、パラメータサーバとモデル更新を交換して機械学習モデルを協調的にトレーニングする。 それでも、FLトレーニングは、クライアントの不均一な計算資源と変動する通信速度によって引き起こされるトラグラーによって、緩やかな収束と不安定な性能に悩まされている。 本稿では,ストラグラー問題を緩和するために,確率的符号化フェデレーション学習(SCFL)というプログラミングFLフレームワークを提案する。 提案フレームワークでは,各クライアントが局所データのランダムな線形結合に付加ノイズを加えることにより,プライバシ保護符号化データセットを生成する。 サーバは、コード化されたデータセットをすべてのクライアントから収集し、複合データセットを構築する。 トレーニングプロセスにおいて、サーバおよびクライアントは、ミニバッチ確率勾配降下(SGD)を行い、サーバはモデル集約において化粧語を追加して、偏りのない勾配推定値を得る。 我々は、相互情報差分プライバシー(MI-DP)によるプライバシー保証を特徴付け、連合学習における収束性能を分析する。 さらに,プライバシ制約が収束率に与える影響を分析することで,提案手法のプライバシ性能のトレードオフを実証する。 最後に,データプライバシを保ちながら高速収束を実現する上でSCFLの利点を示す数値実験を行った。

Federated learning (FL) has attracted much attention as a privacy-preserving distributed machine learning framework, where many clients collaboratively train a machine learning model by exchanging model updates with a parameter server instead of sharing their raw data. Nevertheless, FL training suffers from slow convergence and unstable performance due to stragglers caused by the heterogeneous computational resources of clients and fluctuating communication rates. This paper proposes a coded FL framework, namely stochastic coded federated learning (SCFL) to mitigate the straggler issue. In the proposed framework, each client generates a privacy-preserving coded dataset by adding additive noise to the random linear combination of its local data. The server collects the coded datasets from all the clients to construct a composite dataset, which helps to compensate for the straggling effect. In the training process, the server as well as clients perform mini-batch stochastic gradient descent (SGD), and the server adds a make-up term in model aggregation to obtain unbiased gradient estimates. We characterize the privacy guarantee by the mutual information differential privacy (MI-DP) and analyze the convergence performance in federated learning. Besides, we demonstrate a privacy-performance tradeoff of the proposed SCFL method by analyzing the influence of the privacy constraint on the convergence rate. Finally, numerical experiments corroborate our analysis and show the benefits of SCFL in achieving fast convergence while preserving data privacy.
翻訳日:2022-01-27 13:39:17 公開日:2022-01-26
# 1人の学生がすべての専門家を知っている:スパースからデンスまで

One Student Knows All Experts Know: From Sparse to Dense ( http://arxiv.org/abs/2201.10890v1 )

ライセンス: Link先を確認
Fuzhao Xue, Xiaoxin He, Xiaozhe Ren, Yuxuan Lou, Yang You(参考訳) 人間の教育システムは、複数の専門家によって1人の生徒を訓練します。 Mixture-of-experts (MoE)は、複数の専門家を含む強力なスパースアーキテクチャである。 しかし、疎いMoEモデルは実装が難しく、過度に適合し、ハードウェアフレンドリーではない。 本研究は,人間教育モデルに触発された新しい課題である知識統合を提案し,1つのまばらなMoEと同じくらいの知識を持つ高密度学生モデル(OneS)を得る。 本稿では,知識収集と知識蒸留を含む一般的な訓練枠組みを提案する。 具体的には,まずSingular Value Decomposition Knowledge Gathering (SVD-KG)を提案する。 そして, 知識蒸留による密集した学生モデルを精錬し, 収集音を相殺する。 ImageNetでは、OneSはMoEから611.7\%の利益を得られる。 OneSは$78.4\%の精度で$15$Mのパラメータしか得られない。 4つの自然言語処理データセットにおいて、OneSは800.2\%のMoE利益を得て、同じアーキテクチャとトレーニングデータを使用してSoTAを511.7\%で上回る。 加えて、MoEと比較すると、OneSはハードウェアフレンドリーなアーキテクチャのため、$3.7 \times$推論スピードアップを達成できる。

Human education system trains one student by multiple experts. Mixture-of-experts (MoE) is a powerful sparse architecture including multiple experts. However, sparse MoE model is hard to implement, easy to overfit, and not hardware-friendly. In this work, inspired by human education model, we propose a novel task, knowledge integration, to obtain a dense student model (OneS) as knowledgeable as one sparse MoE. We investigate this task by proposing a general training framework including knowledge gathering and knowledge distillation. Specifically, we first propose Singular Value Decomposition Knowledge Gathering (SVD-KG) to gather key knowledge from different pretrained experts. We then refine the dense student model by knowledge distillation to offset the noise from gathering. On ImageNet, our OneS preserves $61.7\%$ benefits from MoE. OneS can achieve $78.4\%$ top-1 accuracy with only $15$M parameters. On four natural language processing datasets, OneS obtains $88.2\%$ MoE benefits and outperforms SoTA by $51.7\%$ using the same architecture and training data. In addition, compared with the MoE counterpart, OneS can achieve $3.7 \times$ inference speedup due to the hardware-friendly architecture.
翻訳日:2022-01-27 13:38:51 公開日:2022-01-26
# 深い視覚的特徴の自然言語記述

Natural Language Descriptions of Deep Visual Features ( http://arxiv.org/abs/2201.11114v1 )

ライセンス: Link先を確認
Evan Hernandez, Sarah Schwettmann, David Bau, Teona Bagashvili, Antonio Torralba, and Jacob Andreas(参考訳) ディープネットワークのいくつかのニューロンは、入力の非常に特定の知覚的、構造的、意味的な特徴を認識することに特化している。 コンピュータビジョンでは、色、テクスチャ、オブジェクトクラスといった個々の概念カテゴリに対応するニューロンを特定する技術が存在する。 しかし、これらの技術は範囲に限られており、ニューロンの小さなサブセットとネットワーク内の行動のみをラベル付けする。 ニューロンレベルの計算のよりリッチな特徴付けは可能か? 我々は,ニューロンをオープンエンド,コンポジション,自然言語記述で自動的にラベル付けする手法(MILAN,相互情報誘導型ニューロン言語アノテーション)を導入する。 ニューロンが与えられたとき、ミラノはニューロンが活動している画像領域とポイントワイズな相互情報を最大化する自然言語文字列を探索して記述を生成する。 MILANは、学習した特徴においてカテゴリ、リレーショナル、論理構造をキャプチャするきめ細かい記述を生成する。 これらの記述は、多種多様なモデルアーキテクチャとタスクのセットにわたる人為的な特徴記述と高く一致し、学習されたモデルの理解と制御を支援する。 自然言語ニューロン記述の3つの応用について述べる。 まず、MILANを用いて、視覚モデルにおける属性、カテゴリ、関係情報に選択されたニューロンの分布と重要性を特徴付ける。 第二に、これらの特徴を曖昧にすることを目的としたデータセットでトレーニングされたモデルにおいて、人種や性別といった保護されたカテゴリに敏感な、監査にMILANを使用します。 最後に,テキストの特徴に敏感なニューロンをクラスラベルと突発的に相関させることにより,画像分類器の堅牢性を向上し,編集にMILANを用いる。

Some neurons in deep networks specialize in recognizing highly specific perceptual, structural, or semantic features of inputs. In computer vision, techniques exist for identifying neurons that respond to individual concept categories like colors, textures, and object classes. But these techniques are limited in scope, labeling only a small subset of neurons and behaviors in any network. Is a richer characterization of neuron-level computation possible? We introduce a procedure (called MILAN, for mutual-information-g uided linguistic annotation of neurons) that automatically labels neurons with open-ended, compositional, natural language descriptions. Given a neuron, MILAN generates a description by searching for a natural language string that maximizes pointwise mutual information with the image regions in which the neuron is active. MILAN produces fine-grained descriptions that capture categorical, relational, and logical structure in learned features. These descriptions obtain high agreement with human-generated feature descriptions across a diverse set of model architectures and tasks, and can aid in understanding and controlling learned models. We highlight three applications of natural language neuron descriptions. First, we use MILAN for analysis, characterizing the distribution and importance of neurons selective for attribute, category, and relational information in vision models. Second, we use MILAN for auditing, surfacing neurons sensitive to protected categories like race and gender in models trained on datasets intended to obscure these features. Finally, we use MILAN for editing, improving robustness in an image classifier by deleting neurons sensitive to text features spuriously correlated with class labels.
翻訳日:2022-01-27 13:38:30 公開日:2022-01-26
# ベイズニューラルネットワークによる表現の多様性の可視化

Visualizing the diversity of representations learned by Bayesian neural networks ( http://arxiv.org/abs/2201.10859v1 )

ライセンス: Link先を確認
Dennis Grinwald, Kirill Bykov, Shinichi Nakajima, Marina M.-C. H\"ohne(参考訳) 説明可能な人工知能(XAI)は、学習機械を不透明にすることを目的としており、研究者や実践者がニューラルネットワークの意思決定戦略を明らかにするための様々なツールを提供する。 本研究では,ベイズニューラルネットワーク(BNN)で学習した特徴表現の多様性を探索し,可視化するために,XAI手法をどのように利用できるかを検討する。 私たちのゴールは、意思決定戦略によってBNNのグローバルな理解を提供することです。 a) 特徴の可視化による可視性及び視認性 b) 対照学習によって学習される距離尺度で定量的に測定できる。 本研究は,基本的な意思決定戦略に関して,人間理解可能な特徴情報の観点からの後方分布に関する新たな知見を提供する。 主な発見は以下のとおりである。 1)グローバルXAI手法を用いて,BNNインスタンスの意思決定戦略の多様性を説明する。 2)モンテカルロドロップアウトはマルチスワグのマルチモーダル後方近似と比較して特徴表現の多様性が増大する。 3)学習特徴表現の多様性は,不確実性推定と高い相関を示し, 4)マルチモーダル後方のモード間多様性は,ネットワーク幅の増加とともに減少し,モード内多様性は増加する。 我々の発見は、最近のディープニューラルネットワーク理論と一致しており、この理論が人間の理解可能な概念の観点で何を意味するのか、さらに直観を与えている。

Explainable artificial intelligence (XAI) aims to make learning machines less opaque, and offers researchers and practitioners various tools to reveal the decision-making strategies of neural networks. In this work, we investigate how XAI methods can be used for exploring and visualizing the diversity of feature representations learned by Bayesian neural networks (BNNs). Our goal is to provide a global understanding of BNNs by making their decision-making strategies a) visible and tangible through feature visualizations and b) quantitatively measurable with a distance measure learned by contrastive learning. Our work provides new insights into the posterior distribution in terms of human-understandable feature information with regard to the underlying decision-making strategies. Our main findings are the following: 1) global XAI methods can be applied to explain the diversity of decision-making strategies of BNN instances, 2) Monte Carlo dropout exhibits increased diversity in feature representations compared to the multimodal posterior approximation of MultiSWAG, 3) the diversity of learned feature representations highly correlates with the uncertainty estimates, and 4) the inter-mode diversity of the multimodal posterior decreases as the network width increases, while the intra-mode diversity increases. Our findings are consistent with the recent deep neural networks theory, providing additional intuitions about what the theory implies in terms of humanly understandable concepts.
翻訳日:2022-01-27 13:38:04 公開日:2022-01-26
# 確率的保証付きニューラルネットワークのポストトレーニング量子化

Post-training Quantization for Neural Networks with Provable Guarantees ( http://arxiv.org/abs/2201.11113v1 )

ライセンス: Link先を確認
Jinjie Zhang, Yixuan Zhou, Rayan Saab(参考訳) ニューラルネットワークは幅広いアプリケーションで著しく成功したが、リソースに制約のあるハードウェアで実装することは、依然として激しい研究分野である。 ニューラルネットワークの重みを量子化された(例えば4ビットやバイナリ)ものに置き換えることで、計算コスト、メモリ、消費電力の大幅な削減が達成される。 学習後のニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正し,その誤差を厳密に解析する。 単層ネットワークの量子化において、相対二乗誤差は本質的に重み数、すなわち過パラメトリゼーションのレベルで線形に崩壊する。 この結果は、入力分布の幅と、完全接続アーキテクチャと畳み込みアーキテクチャの両方にまたがる。 この手法を実証的に評価するために,数ビット/重量で複数の共通アーキテクチャを定量化し,imagenetでテストし,精度の損失を小さく示した。 また,バイアス補正や混合精度量子化などの標準修正により,精度がさらに向上することを示す。

While neural networks have been remarkably successful in a wide array of applications, implementing them in resource-constrained hardware remains an area of intense research. By replacing the weights of a neural network with quantized (e.g., 4-bit, or binary) counterparts, massive savings in computation cost, memory, and power consumption are attained. We modify a post-training neural-network quantization method, GPFQ, that is based on a greedy path-following mechanism, and rigorously analyze its error. We prove that for quantizing a single-layer network, the relative square error essentially decays linearly in the number of weights -- i.e., level of over-parametrization . Our result holds across a range of input distributions and for both fully-connected and convolutional architectures. To empirically evaluate the method, we quantize several common architectures with few bits per weight, and test them on ImageNet, showing only minor loss of accuracy. We also demonstrate that standard modifications, such as bias correction and mixed precision quantization, further improve accuracy.
翻訳日:2022-01-27 13:36:26 公開日:2022-01-26
# 2040画像のみの視覚トランスフォーマーの訓練

Training Vision Transformers with Only 2040 Images ( http://arxiv.org/abs/2201.10728v1 )

ライセンス: Link先を確認
Yun-Hao Cao, Hao Yu and Jianxin Wu(参考訳) 視覚変換器(ViT)は、視覚認識のための畳み込みニューラルネットワーク(CNN)の代替として登場した。 CNNと競合する結果を得るが、典型的な畳み込み帰納バイアスの欠如により、一般的なCNNよりもデータ不足が増す。 それらはしばしばJFT-300Mまたは少なくともImageNetで事前訓練され、限られたデータでViTを訓練する研究はほとんどない。 本稿では,限られたデータ(2040画像など)でViTをトレーニングする方法を検討する。 提案手法は,特徴のアライメントとインスタンスの類似性の両方を捉えることができるという点で,他の手法よりも優れているという理論解析を行う。 様々なViTバックボーンの下で7つの小さなデータセットをスクラッチからトレーニングすると、最先端の結果が得られる。 また,スモールデータセットの転送能力を調査し,スモールデータセットから学習した表現が大規模なイメージネットトレーニングを改善できることを見出した。

Vision Transformers (ViTs) is emerging as an alternative to convolutional neural networks (CNNs) for visual recognition. They achieve competitive results with CNNs but the lack of the typical convolutional inductive bias makes them more data-hungry than common CNNs. They are often pretrained on JFT-300M or at least ImageNet and few works study training ViTs with limited data. In this paper, we investigate how to train ViTs with limited data (e.g., 2040 images). We give theoretical analyses that our method (based on parametric instance discrimination) is superior to other methods in that it can capture both feature alignment and instance similarities. We achieve state-of-the-art results when training from scratch on 7 small datasets under various ViT backbones. We also investigate the transferring ability of small datasets and find that representations learned from small datasets can even improve large-scale ImageNet training.
翻訳日:2022-01-27 13:35:41 公開日:2022-01-26
# セマンティックガイダンスを用いたインタラクティブな画像描画

Interactive Image Inpainting Using Semantic Guidance ( http://arxiv.org/abs/2201.10753v1 )

ライセンス: Link先を確認
Wangbo Yu, Jinhao Du, Ruixin Liu, Yixuan Li, Yuesheng zhu(参考訳) イメージインパインティングアプローチは、ディープニューラルネットワークの助けを借りて大きな進歩を遂げた。 しかしながら、既存のアプローチは主に、ニューラルネットワークが学習した事前分布を活用して、単一の影響結果を生成すること、あるいは、制御可能性について十分に研究されていない複数のソリューションを出力することに焦点を当てている。 本稿では,ユーザが自身の好みや記憶によってインペイント結果をカスタマイズできる新しいイメージインペイント手法を提案する。 具体的には,ニューラルネットワークの先行利用と,劣化した画像を共同で塗布するためのユーザ指導の2段階からなる。 第1段階では、新規な空間的注意機構に基づくオートエンコーダを配置して、破損した画像の再構成特徴と、ユーザインタラクションの媒体としてセマンティックマスクを提供する粗い塗装結果を生成する。 第2段階では、予め再構成された特徴を取り入れたセマンティックデコーダを採用して、ユーザのカスタマイズされたセマンティックマスクによってガイドされた微細な塗布結果を合成し、最終塗布結果が第1段で再構成されたテクスチャや色を保存しつつ、ユーザのガイダンスと同じ内容を共有する。 広汎な実験は、我々のアプローチが品質と制御可能性に影響を与えていることを示す。

Image inpainting approaches have achieved significant progress with the help of deep neural networks. However, existing approaches mainly focus on leveraging the priori distribution learned by neural networks to produce a single inpainting result or further yielding multiple solutions, where the controllability is not well studied. This paper develops a novel image inpainting approach that enables users to customize the inpainting result by their own preference or memory. Specifically, our approach is composed of two stages that utilize the prior of neural network and user's guidance to jointly inpaint corrupted images. In the first stage, an autoencoder based on a novel external spatial attention mechanism is deployed to produce reconstructed features of the corrupted image and a coarse inpainting result that provides semantic mask as the medium for user interaction. In the second stage, a semantic decoder that takes the reconstructed features as prior is adopted to synthesize a fine inpainting result guided by user's customized semantic mask, so that the final inpainting result will share the same content with user's guidance while the textures and colors reconstructed in the first stage are preserved. Extensive experiments demonstrate the superiority of our approach in terms of inpainting quality and controllability.
翻訳日:2022-01-27 13:35:24 公開日:2022-01-26
# 差別的に訓練されたゼロショット学習モデルについて

How Robust are Discriminatively Trained Zero-Shot Learning Models? ( http://arxiv.org/abs/2201.10972v1 )

ライセンス: Link先を確認
Mehmet Kerim Yucel, Ramazan Gokberk Cinbis, Pinar Duygulu(参考訳) データシフトの堅牢性は活発な研究トピックであるが、主に教師付きの観点から研究され、ゼロショット学習(ZSL)モデルの堅牢性はほとんど無視されている。 本稿では,画像劣化に対する識別的ZSLの堅牢性に関する新しい解析法を提案する。 私たちは、よく知られたラベル埋め込みモデルを利用して、共通の腐敗と防御のセットにそれを適用します。 汚損解析を実現するため,最初のZSL汚損頑健性データセットSUN-C,CUB-C,AWA2-Cをキュレート・リリースする。 我々は,データセットの特徴,クラス不均衡,見知らぬクラス間のクラス遷移傾向,およびZSLとGZSLのパフォーマンスの相違を考慮し,分析を行った。 この傾向は,ZSL法に固有の厳密なクラス不均衡とモデル弱さによってさらに悪化している。 次に,zslにおける敵意攻撃に基づく結果と組み合わせることで,敵意攻撃時に発生する疑似ロバスト効果など,腐敗と敵意の異なる効果を浮き彫りにする。 また, ラベル埋め込みモデルに対して, 特定の破壊堅牢性向上手法による新たな強塩基性を得る。 最後に,ZSLモデルにおいて,ロバスト性向上のための既存手法はやや有効であるが,具体的な効果は得られないことを示す。

Data shift robustness is an active research topic, however, it has been primarily investigated from a fully supervised perspective, and robustness of zero-shot learning (ZSL) models have been largely neglected. In this paper, we present a novel analysis on the robustness of discriminative ZSL to image corruptions. We leverage the well-known label embedding model and subject it to a large set of common corruptions and defenses. In order to realize the corruption analysis, we curate and release the first ZSL corruption robustness datasets SUN-C, CUB-C and AWA2-C. We analyse our results by taking into account the dataset characteristics, class imbalance, class transition trends between seen and unseen classes and the discrepancies between ZSL and GZSL performances. Our results show that discriminative ZSL suffer from corruptions and this trend is further exacerbated by the severe class imbalance and model weakness inherent in ZSL methods. We then combine our findings with those based on adversarial attacks in ZSL, and highlight the different effects of corruptions and adversarial examples, such as the pseudo-robustness effect present under adversarial attacks. We also obtain new strong baselines for the label embedding model with certain corruption robustness enhancement methods. Finally, our experiments show that although existing methods to improve robustness somewhat work for ZSL models, they do not produce a tangible effect.
翻訳日:2022-01-27 13:35:01 公開日:2022-01-26
# Jaliscoのマルチクラス土地被覆解析と実世界のマルチスペクトル・リリーフデータを用いた軽量共振器を用いた分類

Jalisco's multiclass land cover analysis and classification using a novel lightweight convnet with real-world multispectral and relief data ( http://arxiv.org/abs/2201.10985v1 )

ライセンス: Link先を確認
Alexander Quevedo, Abraham S\'anchez, Raul Nancl\'ares, Diana P. Montoya, Juan Pacho, Jorge Mart\'inez, and E. Ulises Moya-S\'anchez(参考訳) 地球規模の気候変動、農業のレジリエンス、森林伐採管理の理解は、土地利用・土地被覆変化(LULCC)のタイムリーな観察に依存している。 近年,Land Cover(LC)のグローバルおよび同質データの自動分類に,いくつかのディープラーニング(DL)手法が適用されている。 しかし、これらのDLモデルは現実世界のデータに効果的に適用できない。 すなわち、多数のクラス、マルチシーズンのデータ、多様な気候領域、高不均衡ラベルデータセット、低空間解像度である。 本研究では,LC分類と解析を行い,これらの問題をJalisco領域で扱うための軽量(89kパラメータのみ)畳み込みニューラルネットワーク(ConvNet)を提案する。 グローバルアプローチとは対照的に、地域データは、政策立案者が土地利用と管理、保全地域または生態系サービスを計画しなければならない状況固有のものを提供する。 本研究では,実世界のオープンデータソースを3つ組み合わせて13のチャネルを得る。 組込み分析は,いくつかのクラスにおいて限られた性能を期待し,最も類似したグループ化を行う機会を与え,その結果,テスト精度は73 %から83 %に向上した。 本研究は,地球上の生命に関する国連持続可能な開発目標(SDG)を達成するために,限られたデータソースや計算資源を持つ他の地域グループを支援することを願っている。

The understanding of global climate change, agriculture resilience, and deforestation control rely on the timely observations of the Land Use and Land Cover Change (LULCC). Recently, some deep learning (DL) methods have been adapted to make an automatic classification of Land Cover (LC) for global and homogeneous data. However, most of these DL models can not apply effectively to real-world data. i.e. a large number of classes, multi-seasonal data, diverse climate regions, high imbalance label dataset, and low-spatial resolution. In this work, we present our novel lightweight (only 89k parameters) Convolution Neural Network (ConvNet) to make LC classification and analysis to handle these problems for the Jalisco region. In contrast to the global approaches, the regional data provide the context-specificity that is required for policymakers to plan the land use and management, conservation areas, or ecosystem services. In this work, we combine three real-world open data sources to obtain 13 channels. Our embedded analysis anticipates the limited performance in some classes and gives us the opportunity to group the most similar, as a result, the test accuracy performance increase from 73 % to 83 %. We hope that this research helps other regional groups with limited data sources or computational resources to attain the United Nations Sustainable Development Goal (SDG) concerning Life on Land.
翻訳日:2022-01-27 13:32:58 公開日:2022-01-26
# CsFEVERとCTKFacts: ファクト検証のためのチェコのデータセット

CsFEVER and CTKFacts: Czech Datasets for Fact Verification ( http://arxiv.org/abs/2201.11115v1 )

ライセンス: Link先を確認
Jan Drchal, Herbert Ullrich, Martin R\'ypar, Hana Vincourov\'a, V\'aclav Moravec(参考訳) 本稿では,自動ファクトチェック機械学習モデルのトレーニングを目的とした2つのチェコデータセットを提案する。 具体的には、テキストクレームの妥当性を(おそらく)検証されたコーパスに評価するタスクに対処する。 このシステムの出力は、証拠文書を補完するクレーム分類支援(REFUTES)またはNEI(Not Enough Info)のみである。 まず、有名なwikipediaベースのフィーバーデータセットの自動生成チェコ版である約112kクレームのcsfeverを公開します。 私たちは機械翻訳と言語アライメントのハイブリッドアプローチを採用し、同じ方法(とツール)を他の言語にも簡単に適用できるようにしました。 第2のデータセットである3,097件のクレームのctkfactsは、約200万のチェコの報道機関のコーパスに基づいている。 我々は、フィーバーアプローチに基づく拡張手法を提案する。 特に,非ハイパーリンクコーパスに対して,より広いクレームコンテキスト(辞書)を自動的に生成する手法について述べる。 データセットは、モデルオーバーフィットにつながるアノテーションパターンであるsplious cuesで分析される。 ctkfactsはアノテーション間合意のためにさらに検討され、共通注釈エラーの類型が抽出される。 最後に、ファクトチェックパイプラインの全ステージにベースラインモデルを提供します。

In this paper we present two Czech datasets aimed for training automated fact-checking machine learning models. Specifically we deal with the task of assessment of a textual claim veracity w.r.t. to a (presumably) verified corpus. The output of the system is the claim classification SUPPORTS or REFUTES complemented with evidence documents or NEI (Not Enough Info) alone. In the first place we publish CsFEVER of approximately 112k claims which is an automatically generated Czech version of the well-known Wikipedia-based FEVER dataset. We took a hybrid approach of machine translation and language alignment, where the same method (and tools we provide) can be easily applied to other languages. The second dataset CTKFacts of 3,097 claims is built on the corpus of approximately two million Czech News Agency news reports. We present an extended methodology based on the FEVER approach. Most notably, we describe a method to automatically generate wider claim contexts (dictionaries) for non-hyperlinked corpora. The datasets are analyzed for spurious cues, which are annotation patterns leading to model overfitting. CTKFacts is further examined for inter-annotator agreement, and a typology of common annotator errors is extracted. Finally, we provide baseline models for all stages of the fact-checking pipeline.
翻訳日:2022-01-27 13:32:34 公開日:2022-01-26
# セマンティクス画像セグメンテーションのための自動圧縮サブセットプルーニング

Auto-Compressing Subset Pruning for Semantic Image Segmentation ( http://arxiv.org/abs/2201.11103v1 )

ライセンス: Link先を確認
Konstantin Ditschuneit and Johannes S. Otterbach(参考訳) 最先端のセマンティックセグメンテーションモデルは、高いパラメータ数と遅い推論時間によって特徴づけられ、リソース制約のある環境でのデプロイメントには適さない。 この課題に対処するため、新しいオンライン圧縮手法として、textsc{Auto-Compressing Subset Pruning}, \acospを提案する。 acospの中核は、効果的な温度アニーリングスケジュールに基づいて、セグメンテーションモデルにおける各畳み込みの各チャネルのチャネル選択メカニズムを学習することである。 トレーニング開始時に高容量モデルを提供することと、モデルが保持チャネルに概念を圧縮することを強制する圧縮圧力との間に重要な相互作用を示す。 我々は \segnet と \pspnet アーキテクチャに \acosp を適用し、 \camvid, \city, \voc, \ade データセットでトレーニングした場合の成功を示す。 その結果, 圧縮率の低いセグメンテーションモデルの圧縮に対する既存のベースラインと競合し, 高い圧縮比で性能を著しく向上し, パラメータの93%以上を除去しても許容できる結果を得た。 さらに、 \acospは概念的にはシンプルで実装が容易で、他のデータモダリティ、タスク、アーキテクチャに簡単に一般化できる。 私たちのコードは \url{https://github.com/m erantix/acosp} で利用可能です。

State-of-the-art semantic segmentation models are characterized by high parameter counts and slow inference times, making them unsuitable for deployment in resource-constrained environments. To address this challenge, we propose \textsc{Auto-Compressing Subset Pruning}, \acosp, as a new online compression method. The core of \acosp consists of learning a channel selection mechanism for individual channels of each convolution in the segmentation model based on an effective temperature annealing schedule. We show a crucial interplay between providing a high-capacity model at the beginning of training and the compression pressure forcing the model to compress concepts into retained channels. We apply \acosp to \segnet and \pspnet architectures and show its success when trained on the \camvid, \city, \voc, and \ade datasets. The results are competitive with existing baselines for compression of segmentation models at low compression ratios and outperform them significantly at high compression ratios, yielding acceptable results even when removing more than $93\%$ of the parameters. In addition, \acosp is conceptually simple, easy to implement, and can readily be generalized to other data modalities, tasks, and architectures. Our code is available at \url{https://github.com/m erantix/acosp}.
翻訳日:2022-01-27 13:32:14 公開日:2022-01-26
# 温度場再構築のためのパッチワイズトレーニングに基づく深層学習手法

A deep learning method based on patchwise training for reconstructing temperature field ( http://arxiv.org/abs/2201.10860v1 )

ライセンス: Link先を確認
Xingwen Peng, Xingchen Li, Zhiqiang Gong, Xiaoyu Zhao, Wen Yao(参考訳) 物理場再構成は工学系の計測と制御に非常に望ましい。 限られた観測から温度場の再構成は電子機器の熱管理において重要な役割を担っている。 深層学習は物理場再構成に使われてきたが、大きな勾配を持つ領域の正確な推定はいまだに困難である。 そこで本研究では,限られた観測から電子機器の温度場を正確に再構築するためのパッチワイズトレーニングに基づく新しい深層学習手法を提案する。 まず、電子機器の温度場再構成(TFR)問題を数学的にモデル化し、画像から画像への回帰タスクとして変換する。 次に,適応型unetと浅層多層パーセプトロン(mlp)からなるパッチワイズトレーニング・推論フレームワークを開発し,観測から温度場へのマッピングを確立する。 適応UNetは温度場全体を再構成し、MLPは温度勾配が大きいパッチを予測するように設計されている。 有限要素シミュレーションデータを用いて,提案手法の精度を示す実験を行った。 さらに, 異なる熱源配置, 異なる電力強度, 異なる観測点位置の事例を調査することにより, 一般化を評価する。 再構成された温度場の絶対誤差はパッチワイドトレーニング法で1K未満である。

Physical field reconstruction is highly desirable for the measurement and control of engineering systems. The reconstruction of the temperature field from limited observation plays a crucial role in thermal management for electronic equipment. Deep learning has been employed in physical field reconstruction, whereas the accurate estimation for the regions with large gradients is still diffcult. To solve the problem, this work proposes a novel deep learning method based on patchwise training to reconstruct the temperature field of electronic equipment accurately from limited observation. Firstly, the temperature field reconstruction (TFR) problem of the electronic equipment is modeled mathematically and transformed as an image-to-image regression task. Then a patchwise training and inference framework consisting of an adaptive UNet and a shallow multilayer perceptron (MLP) is developed to establish the mapping from the observation to the temperature field. The adaptive UNet is utilized to reconstruct the whole temperature field while the MLP is designed to predict the patches with large temperature gradients. Experiments employing finite element simulation data are conducted to demonstrate the accuracy of the proposed method. Furthermore, the generalization is evaluated by investigating cases under different heat source layouts, different power intensities, and different observation point locations. The maximum absolute errors of the reconstructed temperature field are less than 1K under the patchwise training approach.
翻訳日:2022-01-27 13:31:50 公開日:2022-01-26
# セルフピクセルワイズ正規化による画像生成

Image Generation with Self Pixel-wise Normalization ( http://arxiv.org/abs/2201.10725v1 )

ライセンス: Link先を確認
Yoon-Jae Yeo, Min-Cheol Sagong, Seung Park, Sung-Jea Ko, Yong-Goo Shin(参考訳) 領域適応正規化(RAN)法はGAN(Generative Adversarial Network)に基づく画像と画像の変換技術で広く用いられている。 しかし,これらの手法では,画素逆アフィン変換パラメータを推定するためにマスク画像が必要となるため,マスク画像のペア化を伴わない一般画像生成モデルでは適用できない。 そこで本研究では, マスク画像を用いずにピクセル適応アフィン変換を行うことで, 生成性能を効果的に向上させる新しい正規化法であるself pixel-wise normalization (spn) を提案する。 提案手法では,特徴マップを前景と背景領域に分割する自己相対性マスクから変換パラメータを導出する。 自己相対性マスクの可視化は、spnがフォアグラウンドとして生成される単一のオブジェクトを効果的にキャプチャすることを示している。 提案手法は,外部データを用いずに自己相対性マスクを生成するため,既存の生成モデルにも容易に適用できる。 様々なデータセットに関する広範囲な実験により,提案手法がフレシェインセプション距離 (fid) とインセプションスコア (is) の観点で画像生成手法の性能を著しく改善していることが明らかとなった。

Region-adaptive normalization (RAN) methods have been widely used in the generative adversarial network (GAN)-based image-to-image translation technique. However, since these approaches need a mask image to infer the pixel-wise affine transformation parameters, they cannot be applied to the general image generation models having no paired mask images. To resolve this problem, this paper presents a novel normalization method, called self pixel-wise normalization (SPN), which effectively boosts the generative performance by performing the pixel-adaptive affine transformation without the mask image. In our method, the transforming parameters are derived from a self-latent mask that divides the feature map into the foreground and background regions. The visualization of the self-latent masks shows that SPN effectively captures a single object to be generated as the foreground. Since the proposed method produces the self-latent mask without external data, it is easily applicable in the existing generative models. Extensive experiments on various datasets reveal that the proposed method significantly improves the performance of image generation technique in terms of Frechet inception distance (FID) and Inception score (IS).
翻訳日:2022-01-27 13:31:32 公開日:2022-01-26
# 逐次学習による不均一フェデレーション学習の高速化

Speeding up Heterogeneous Federated Learning with Sequentially Trained Superclients ( http://arxiv.org/abs/2201.10899v1 )

ライセンス: Link先を確認
Riccardo Zaccone, Andrea Rizzardi, Debora Caldarola, Marco Ciccone, Barbara Caputo(参考訳) federated learning(fl)は、ローカルデータ共有を必要とせず、エッジデバイスの協調を可能にすることにより、プライバシに制約されたシナリオでマシンラーニングモデルをトレーニング可能にする。 このアプローチは、ローカルデータセットの統計分布とクライアントの計算の不均一性が異なるため、いくつかの課題を提起する。 特に、高度に非I.d.データの存在は、トレーニングされたニューラルネットワークのパフォーマンスと収束率の両方を著しく損なうため、集中的なシナリオに匹敵するパフォーマンスに達するために要求される通信ラウンドの数を増やします。 提案するFedSeqは,ヘテロジニアスなクライアント,すなわちスーパークオリアンのサブグループのシーケンシャルトレーニングを利用して,集中型パラダイムをプライバシに適合した方法でエミュレートするフレームワークである。 通信ラウンドの固定予算を考えると、FedSeqは最終的な性能と収束速度の観点から、いくつかの最先端のフェデレーションアルゴリズムより優れ、あるいは適合していることを示す。 最後に,本手法は文献で利用可能な他の手法と容易に統合できる。 実験の結果、既存のアルゴリズムとFedSeqを組み合わせることで、最終的な性能と収束速度がさらに向上することが示された。 我々は,CIFAR-10 と CIFAR-100 で本手法を試験し,その実効性を示す。

Federated Learning (FL) allows training machine learning models in privacy-constrained scenarios by enabling the cooperation of edge devices without requiring local data sharing. This approach raises several challenges due to the different statistical distribution of the local datasets and the clients' computational heterogeneity. In particular, the presence of highly non-i.i.d. data severely impairs both the performance of the trained neural network and its convergence rate, increasing the number of communication rounds requested to reach a performance comparable to that of the centralized scenario. As a solution, we propose FedSeq, a novel framework leveraging the sequential training of subgroups of heterogeneous clients, i.e. superclients, to emulate the centralized paradigm in a privacy-compliant way. Given a fixed budget of communication rounds, we show that FedSeq outperforms or match several state-of-the-art federated algorithms in terms of final performance and speed of convergence. Finally, our method can be easily integrated with other approaches available in the literature. Empirical results show that combining existing algorithms with FedSeq further improves its final performance and convergence speed. We test our method on CIFAR-10 and CIFAR-100 and prove its effectiveness in both i.i.d. and non-i.i.d. scenarios.
翻訳日:2022-01-27 13:31:11 公開日:2022-01-26
# 進化的アルゴリズムに基づく自動質問応答フレームワーク

An Automated Question-Answering Framework Based on Evolution Algorithm ( http://arxiv.org/abs/2201.10797v1 )

ライセンス: Link先を確認
Sinan Tan, Hui Xue, Qiyu Ren, Huaping Liu and Jing Bai(参考訳) QA(Deep Learning Model for a Question-Answering)タスクを構築するには、多くの人的努力が必要です。 複数のデータセットで異なる優れたモデルを見つけるのはさらに難しくなります。 最近の研究によると、最高のモデル構造は使用されるデータセットと関連しており、1つのモデルはすべてのタスクに適応できない。 本稿では,複数のデータセットに対してネットワークアーキテクチャを自動的に調整できる自動質問応答フレームワークを提案する。 我々のフレームワークは、安定して複数のデータセットシナリオに適した革新的な進化アルゴリズムに基づいている。 探索のための進化アルゴリズムは、先行知識を初期集団に組み合わせ、性能推定器を用いて、候補モデルアーキテクチャの性能を予測して非効率な突然変異を避ける。 初期個体群で使われる事前知識は進化アルゴリズムの最終結果を改善することができる。 性能推定器は、試行回数が増えるにつれて、人口の悪い性能のモデルを素早くフィルタリングし、収束を早めることができる。 本フレームワークはSQuAD 1.1では78.9 EM,86.1 F1,SQuAD 2.0では69.9 EM,72.5 F1を達成する。 NewsQAデータセットでは、見つかったモデルは47.0 EMと62.9 F1を達成する。

Building a deep learning model for a Question-Answering (QA) task requires a lot of human effort, it may need several months to carefully tune various model architectures and find a best one. It's even harder to find different excellent models for multiple datasets. Recent works show that the best model structure is related to the dataset used, and one single model cannot adapt to all tasks. In this paper, we propose an automated Question-Answering framework, which could automatically adjust network architecture for multiple datasets. Our framework is based on an innovative evolution algorithm, which is stable and suitable for multiple dataset scenario. The evolution algorithm for search combine prior knowledge into initial population and use a performance estimator to avoid inefficient mutation by predicting the performance of candidate model architecture. The prior knowledge used in initial population could improve the final result of the evolution algorithm. The performance estimator could quickly filter out models with bad performance in population as the number of trials increases, to speed up the convergence. Our framework achieves 78.9 EM and 86.1 F1 on SQuAD 1.1, 69.9 EM and 72.5 F1 on SQuAD 2.0. On NewsQA dataset, the found model achieves 47.0 EM and 62.9 F1.
翻訳日:2022-01-27 13:29:04 公開日:2022-01-26
# マルチエージェント強化学習におけるセマンティクス・エプシロン・グリーディ探索戦略の活用

Exploiting Semantic Epsilon Greedy Exploration Strategy in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2201.10803v1 )

ライセンス: Link先を確認
Hon Tik Tse, Ho-fung Leung(参考訳) マルチエージェント強化学習(marl)は多くの実世界のアプリケーションをモデル化できる。 しかし、多くのMARLアプローチはエプシロンの欲求に依存しており、ハードシナリオにおける有利な状態の訪問を妨げかねない。 本稿では,MARL 処理のための新しいアプローチ QMIX(SEG) を提案する。 本手法では,QMIX値関数分解法を用いてエージェントごとのポリシーを訓練し,新しいセマンティック・エプシロン・グリーディ(SEG)探索戦略を提案する。 SEGは従来のエプシロングリード探査戦略の単純な拡張であるが、MARLの性能を大幅に改善することが実験的に示されている。 まず、同様の効果を持つアクションのグループにアクションをクラスタ化し、次に、アクション選択のための二段階のエプシロングリーディ探索階層でグループを使用します。 我々はSEGが原子行動よりも豊かな意味を持つ行動群を探索することで意味探索を促進することを論じる。 実験により、QMIX(SEG)はQMIXよりも優れており、StarCraft Multi-Agent Challenge (SMAC)ベンチマークにおける現在の最先端のMARLアプローチと強い性能の競合をもたらすことが示された。

Multi-agent reinforcement learning (MARL) can model many real world applications. However, many MARL approaches rely on epsilon greedy for exploration, which may discourage visiting advantageous states in hard scenarios. In this paper, we propose a new approach QMIX(SEG) for tackling MARL. It makes use of the value function factorization method QMIX to train per-agent policies and a novel Semantic Epsilon Greedy (SEG) exploration strategy. SEG is a simple extension to the conventional epsilon greedy exploration strategy, yet it is experimentally shown to greatly improve the performance of MARL. We first cluster actions into groups of actions with similar effects and then use the groups in a bi-level epsilon greedy exploration hierarchy for action selection. We argue that SEG facilitates semantic exploration by exploring in the space of groups of actions, which have richer semantic meanings than atomic actions. Experiments show that QMIX(SEG) largely outperforms QMIX and leads to strong performance competitive with current state-of-the-art MARL approaches on the StarCraft Multi-Agent Challenge (SMAC) benchmark.
翻訳日:2022-01-27 13:28:46 公開日:2022-01-26
# 品質を考慮したIoEサービス配信のための説明可能な人工知能フレームワーク

An Explainable Artificial Intelligence Framework for Quality-Aware IoE Service Delivery ( http://arxiv.org/abs/2201.10822v1 )

ライセンス: Link先を確認
Md. Shirajum Munir, Seong-Bae Park, and Choong Seon Hong(参考訳) 第6世代(6G)無線ネットワークの中核的な構想の1つは、すべてのインターネット(IoE)を自律的に制御するための人工知能(AI)を蓄積することである。 特に、IoEサービスデリバリの品質は、人、データ、プロセスなど、IoEのコンテキストメトリクスを分析することによって維持されなければなりません。 しかし、AIモデルがネットワークサービスプロバイダに対する解釈と直感の湖を思いついたときに、課題が伴う。 そこで本稿では、品質に配慮したIoEサービス配信のための説明可能な人工知能(XAI)フレームワークを提供する。 まず、IoEサービス利用者のチャネル品質指標(CQI)を最大化することを目的として、IoEのネットワークダイナミクスとコンテキストメトリクスを考慮した品質認識型IoEサービス配信の問題を定式化する。 次に,shapley値の解釈により文脈行列の説明可能な係数を推定する定式化問題を解くために回帰問題を考案する。 第三に、XAI対応品質対応IoEサービス配信アルゴリズムは、アンサンブルに基づく回帰モデルを用いて、行列間のコンテキスト関係の解釈を確実にし、ネットワークパラメータを再設定することで実装される。 最後に、実験の結果、アップリンク改善率はAdaBoostとExtra Treesでそれぞれ42.43%と16.32%となり、ダウンリンク改善率は28.57%、14.29%に達した。 しかし、AdaBoostベースのアプローチでは、IoEサービスユーザのCQIを維持することはできない。 したがって,本モデルでは,精度と解釈可能性のトレードオフを他のベースラインよりも軽減するための性能向上が期待できる。

One of the core envisions of the sixth-generation (6G) wireless networks is to accumulate artificial intelligence (AI) for autonomous controlling of the Internet of Everything (IoE). Particularly, the quality of IoE services delivery must be maintained by analyzing contextual metrics of IoE such as people, data, process, and things. However, the challenges incorporate when the AI model conceives a lake of interpretation and intuition to the network service provider. Therefore, this paper provides an explainable artificial intelligence (XAI) framework for quality-aware IoE service delivery that enables both intelligence and interpretation. First, a problem of quality-aware IoE service delivery is formulated by taking into account network dynamics and contextual metrics of IoE, where the objective is to maximize the channel quality index (CQI) of each IoE service user. Second, a regression problem is devised to solve the formulated problem, where explainable coefficients of the contextual matrices are estimated by Shapley value interpretation. Third, the XAI-enabled quality-aware IoE service delivery algorithm is implemented by employing ensemble-based regression models for ensuring the interpretation of contextual relationships among the matrices to reconfigure network parameters. Finally, the experiment results show that the uplink improvement rate becomes 42.43% and 16.32% for the AdaBoost and Extra Trees, respectively, while the downlink improvement rate reaches up to 28.57% and 14.29%. However, the AdaBoost-based approach cannot maintain the CQI of IoE service users. Therefore, the proposed Extra Trees-based regression model shows significant performance gain for mitigating the trade-off between accuracy and interpretability than other baselines.
翻訳日:2022-01-27 13:28:23 公開日:2022-01-26
# リーマン多様体上のシャープ確率零次ヘッセン推定器に向けて

Towards Sharp Stochastic Zeroth Order Hessian Estimators over Riemannian Manifolds ( http://arxiv.org/abs/2201.10780v1 )

ライセンス: Link先を確認
Tianyu Wang(参考訳) 我々は、$n$次元完備リーマン多様体上で定義される実数値函数に対するヘッセン推定子を研究する。 O(1)$関数評価を用いた確率ゼロ階ヘッセン推定器を提案する。 リプシッツ・ヘッセンの滑らかな実数値関数 $f$ に対して、我々の推定子は位数 $ O \left(L_2 \delta + \gamma \delta^2 \right) $ のバイアス境界を達成し、ここで L_2 $ はヘッセンのリプシッツ定数、$ \gamma $ はレヴィ・チヴィタ接続と関数 $f$ の両方に依存し、$\delta$ は有限差分ステップサイズである。 我々の知る限りでは、この結果は、基礎となるリーマン多様体の幾何学に明示的に依存するヘッセン推定子に束縛された最初のバイアスを与える。 おそらくもっと重要なことは、バイアスバウンドが次元$n$で増加しないことです。 これにより、$O(1)$-evaluation Hessian estimator に対する最もよく知られたバイアスが改善され、$n$で二次的に増加する。 また,hessian estimatorsに基づく下流計算についても検討した。 本手法の優越性は経験的評価によって証明される。

We study Hessian estimators for real-valued functions defined over an $n$-dimensional complete Riemannian manifold. We introduce new stochastic zeroth-order Hessian estimators using $O (1)$ function evaluations. We show that, for a smooth real-valued function $f$ with Lipschitz Hessian (with respect to the Rimannian metric), our estimator achieves a bias bound of order $ O \left( L_2 \delta + \gamma \delta^2 \right) $, where $ L_2 $ is the Lipschitz constant for the Hessian, $ \gamma $ depends on both the Levi-Civita connection and function $f$, and $\delta$ is the finite difference step size. To the best of our knowledge, our results provide the first bias bound for Hessian estimators that explicitly depends on the geometry of the underlying Riemannian manifold. Perhaps more importantly, our bias bound does not increase with dimension $n$. This improves best previously known bias bound for $O(1)$-evaluation Hessian estimators, which increases quadratically with $n$. We also study downstream computations based on our Hessian estimators. The supremacy of our method is evidenced by empirical evaluations.
翻訳日:2022-01-27 13:27:54 公開日:2022-01-26
# FIGARO:ファイングラインドアートコントロールによるシンボリック音楽の生成

FIGARO: Generating Symbolic Music with Fine-Grained Artistic Control ( http://arxiv.org/abs/2201.10936v1 )

ライセンス: Link先を確認
Dimitri von R\"utte, Luca Biggio, Yannic Kilcher, Thomas Hoffman(参考訳) 近年、ディープニューラルネットワークによる音楽生成は活発な研究の領域となっている。 生成したサンプルの品質は着実に向上しているが、ほとんどの方法は生成したシーケンスに対する最小限の制御しか行えない。 本稿では,対象シーケンスに関する高レベル特徴を抽出し,対応する高レベル記述が与えられたシーケンスの条件分布をシーケンス間モデリング設定で学習することにより,グローバルレベルで細粒度制御可能な生成を可能にする,自己教師付き \emph{description-to-seque nce} タスクを提案する。 我々は,記号音楽にemph{description-to-seque nce}モデルを適用することにより,FIGARO(Fine-fine music Generation via Attention-based, RObust control)を訓練する。 学習されたハイレベルな特徴と強い帰納的バイアスとして振る舞うドメイン知識を組み合わせることで、モデルは最先端の成果を制御可能なシンボリック音楽生成で達成し、トレーニング分布を超えて一般化する。

Generating music with deep neural networks has been an area of active research in recent years. While the quality of generated samples has been steadily increasing, most methods are only able to exert minimal control over the generated sequence, if any. We propose the self-supervised \emph{description-to-seque nce} task, which allows for fine-grained controllable generation on a global level by extracting high-level features about the target sequence and learning the conditional distribution of sequences given the corresponding high-level description in a sequence-to-sequence modelling setup. We train FIGARO (FIne-grained music Generation via Attention-based, RObust control) by applying \emph{description-to-seque nce} modelling to symbolic music. By combining learned high level features with domain knowledge, which acts as a strong inductive bias, the model achieves state-of-the-art results in controllable symbolic music generation and generalizes well beyond the training distribution.
翻訳日:2022-01-27 13:27:30 公開日:2022-01-26
# 物理インフォームド ConvNet: 浅層ニューラルネットワークから物理場を学ぶ

Physics-informed ConvNet: Learning Physical Field from a Shallow Neural Network ( http://arxiv.org/abs/2201.10967v1 )

ライセンス: Link先を確認
Pengpeng Shi, Zhi Zeng, Tianshou Liang(参考訳) ビッグデータベースの人工知能(AI)は、ほぼすべての科学と技術において、深い進化をサポートする。 しかしながら、データ不足やノイズのため、マルチ物理システムのモデリングと予測は依然として課題である。 ドメイン知識を「教える」ことによるニューラルネットワークの一般化能力の向上と、物理法則と組み合わせた新しい世代のモデルの開発は、機械学習研究の有望な領域となっている。 物理情報(PINN)に埋め込まれた「ディープ」完全連結ニューラルネットワークとは違い、物理インフォームド畳み込みネットワーク(PICN)と呼ばれる新しい浅いフレームワークは、CNNの観点から推奨されており、物理場はデコンボリューション層と単一畳み込み層によって生成される。 予め訓練された浅層畳み込み層を用いて、物理演算子を形成する差分フィールドを構築する。 効率的な線形補間ネットワークは、不規則幾何領域における境界条件を含む損失関数と物理的制約を計算する。 現在の発展の有効性は、非線形物理作用素方程式の解法(および推定)とノイズ観測による物理情報の回復を含むいくつかの数値的なケースを通して説明される。 物理場を多周波成分で近似する際の潜在的な利点は、PICNが物理インフォームド機械学習における代替ニューラルネットワークの解法になりうることを示している。

Big-data-based artificial intelligence (AI) supports profound evolution in almost all of science and technology. However, modeling and forecasting multi-physical systems remain a challenge due to unavoidable data scarcity and noise. Improving the generalization ability of neural networks by "teaching" domain knowledge and developing a new generation of models combined with the physical laws have become promising areas of machine learning research. Different from "deep" fully-connected neural networks embedded with physical information (PINN), a novel shallow framework named physics-informed convolutional network (PICN) is recommended from a CNN perspective, in which the physical field is generated by a deconvolution layer and a single convolution layer. The difference fields forming the physical operator are constructed using the pre-trained shallow convolution layer. An efficient linear interpolation network calculates the loss function involving boundary conditions and the physical constraints in irregular geometry domains. The effectiveness of the current development is illustrated through some numerical cases involving the solving (and estimation) of nonlinear physical operator equations and recovering physical information from noisy observations. Its potential advantage in approximating physical fields with multi-frequency components indicates that PICN may become an alternative neural network solver in physics-informed machine learning.
翻訳日:2022-01-27 13:27:09 公開日:2022-01-26
# 教師なし実世界画像超解像のための多重確率分解生成器の学習

Learning Multiple Probabilistic Degradation Generators for Unsupervised Real World Image Super Resolution ( http://arxiv.org/abs/2201.10747v1 )

ライセンス: Link先を確認
Sangyun Lee, Sewoong Ahn, Kwangjin Yoon(参考訳) 教師なしリアルワールドスーパーレゾリューション(USR)は、ペアデータが利用できない場合に低解像度(LR)入力を与えられた高解像度(HR)イメージを復元することを目的としている。 最も一般的なアプローチの1つは、GANを使ってノイズの多いLR画像を合成し、合成データセットを使用してモデルを教師付きで訓練することである。 劣化生成器のモデル化の目的は、HR画像が与えられたLR画像の分布を近似することである。 先行研究は単に条件分布をデルタ関数として仮定し、HR画像からLR画像への決定論的マッピングを学習した。 その代わり,確率的劣化発生器を提案する。 劣化生成器は深い階層的潜在変数モデルであり,複雑な分布のモデル化に適している。 さらに,複数の劣化生成器を訓練し,モードカバレッジを高め,新しい協調学習を適用した。 我々は,PSNRとSSIMの観点からベンチマークデータセットのベースラインを数点上回り,未知のデータ分布に対する手法の堅牢性を示す。

Unsupervised real world super resolution (USR) aims at restoring high-resolution (HR) images given low-resolution (LR) inputs when paired data is unavailable. One of the most common approaches is synthesizing noisy LR images using GANs and utilizing a synthetic dataset to train the model in a supervised manner. The goal of modeling the degradation generator is to approximate the distribution of LR images given a HR image. Previous works simply assumed the conditional distribution as a delta function and learned the deterministic mapping from HR image to a LR image. Instead, we propose the probabilistic degradation generator. Our degradation generator is a deep hierarchical latent variable model and more suitable for modeling the complex distribution. Furthermore, we train multiple degradation generators to enhance the mode coverage and apply the novel collaborative learning. We outperform several baselines on benchmark datasets in terms of PSNR and SSIM and demonstrate the robustness of our method on unseen data distribution.
翻訳日:2022-01-27 13:26:46 公開日:2022-01-26
# 建物被害評価のためのデュアルタスクシームス変圧器フレームワーク

Dual-Tasks Siamese Transformer Framework for Building Damage Assessment ( http://arxiv.org/abs/2201.10953v1 )

ライセンス: Link先を確認
Hongruixuan Chen, Edoardo Nemni, Sofia Vallecorsa, Xi Li, Chen Wu, Lars Bromley(参考訳) 人道的救済と災害対応には,建物被害の程度に関する正確な,きめ細かい情報が必要である。 しかしながら、遠隔センシングの解釈タスクでよく使われるアーキテクチャであるため、畳み込みニューラルネットワーク(cnns)はピクセル間の非局所関係をモデル化する能力が限られている。 近年,自然言語処理における長距離依存性をモデル化するためのTransformerアーキテクチャが提案されている。 本稿では,コンピュータビジョン分野におけるトランスフォーマーアーキテクチャのフロンティア進歩を考えると,トランスフォーマーによる損傷評価アーキテクチャ(DamFormer)を設計するための最初の試みを示す。 DamFormerでは、シアム変換器エンコーダが最初に構築され、入力されたマルチテンポラル画像ペアから非局所的および代表的深い特徴を抽出する。 次に、ダウンストリームタスクのための情報を融合するマルチタイムフュージョンモジュールを設計する。 最後に、軽量なデュアルタスクデコーダが最終予測のために複数のレベル機能を集約する。 我々の知る限り、このような深層トランスフォーマーベースのネットワークがマルチテンポラルリモートセンシングの解釈タスクのために提案されたのは初めてである。 大規模損傷評価データセット xbd の実験結果は,トランスフォーマーアーキテクチャの可能性を示している。

Accurate and fine-grained information about the extent of damage to buildings is essential for humanitarian relief and disaster response. However, as the most commonly used architecture in remote sensing interpretation tasks, Convolutional Neural Networks (CNNs) have limited ability to model the non-local relationship between pixels. Recently, Transformer architecture first proposed for modeling long-range dependency in natural language processing has shown promising results in computer vision tasks. Considering the frontier advances of Transformer architecture in the computer vision field, in this paper, we present the first attempt at designing a Transformer-based damage assessment architecture (DamFormer). In DamFormer, a siamese Transformer encoder is first constructed to extract non-local and representative deep features from input multitemporal image-pairs. Then, a multitemporal fusion module is designed to fuse information for downstream tasks. Finally, a lightweight dual-tasks decoder aggregates multi-level features for final prediction. To the best of our knowledge, it is the first time that such a deep Transformer-based network is proposed for multitemporal remote sensing interpretation tasks. The experimental results on the large-scale damage assessment dataset xBD demonstrate the potential of the Transformer-based architecture.
翻訳日:2022-01-27 13:25:49 公開日:2022-01-26
# Twitter-Demographer: Twitterデータを強化するフローベースのツール

Twitter-Demographer: A Flow-based Tool to Enrich Twitter Data ( http://arxiv.org/abs/2201.10986v1 )

ライセンス: Link先を確認
Federico Bianchi, Vincenzo Cutrona, Dirk Hovy(参考訳) twitterのデータは自然言語処理(nlp)や社会科学研究に不可欠なものとなり、近年様々な科学的発見を駆り立てている。 しかし、テキストデータだけでは研究を行うには不十分な場合が多く、特に社会科学者は様々な要因の分析と制御を行うためにより多くの変数が必要である。 ユーザの位置情報、年齢、ツイート感情などの情報をどのように強化するかは、匿名性や再現性に影響を及ぼし、専用の努力を要する。 本稿は、Twitter-Demographerについて説明する。これはシンプルなフローベースのツールで、Twitterのデータをツイートやユーザーに関する追加情報で強化する。 Twitter-DemographerはNLPの実践者や(計算的な)社会科学者を対象とし、データセットを集約された情報で強化し、再現性を促進し、疑似匿名のためのアルゴリズムによるプライバシ・バイ・デザインの手段を提供する。 フローベースのプログラミングパラダイムにインスパイアされた設計選択を議論し、容易にチェーン化して拡張可能なブラックボックスコンポーネントを使用する。 また、このツールの使用に関する倫理的問題や、疑似匿名性を促進するための組み込み対策についても分析した。

Twitter data have become essential to Natural Language Processing (NLP) and social science research, driving various scientific discoveries in recent years. However, the textual data alone are often not enough to conduct studies: especially social scientists need more variables to perform their analysis and control for various factors. How we augment this information, such as users' location, age, or tweet sentiment, has ramifications for anonymity and reproducibility, and requires dedicated effort. This paper describes Twitter-Demographer, a simple, flow-based tool to enrich Twitter data with additional information about tweets and users. Twitter-Demographer is aimed at NLP practitioners and (computational) social scientists who want to enrich their datasets with aggregated information, facilitating reproducibility, and providing algorithmic privacy-by-design measures for pseudo-anonymity. We discuss our design choices, inspired by the flow-based programming paradigm, to use black-box components that can easily be chained together and extended. We also analyze the ethical issues related to the use of this tool, and the built-in measures to facilitate pseudo-anonymity.
翻訳日:2022-01-27 13:22:23 公開日:2022-01-26
# サイバートラスト:説明可能なAI(AI2)

Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) ( http://arxiv.org/abs/2201.11117v1 )

ライセンス: Link先を確認
Stephanie Galaitsi, Benjamin D. Trump, Jeffrey M. Keisler, Igor Linkov, Alexander Kott(参考訳) AIの進歩の恩恵を受けるためには、ユーザーとAIシステムのオペレーターがそれを信頼する必要がある。 信頼は複数の相互作用から生じ、予測可能で望ましい行動は時間とともに強化される。 AI操作をある程度理解したシステムのユーザを提供することは、予測可能性をサポートすることができるが、AIは、人間の認識と照合可能な人だけにAI能力を制約するリスクを自ら説明せざるを得ない。 AIシステムは、決定分析的な視点とフォーマルなツールをAIに持ち込むことによって信頼を構築する機能で設計されるべきである、と私たちは主張する。 説明可能なAIを達成する代わりに、解釈可能な行動可能なAIを開発するべきです。 Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。 そうすることで、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼基盤を確立し、その計算能力の展開と向上による幅広いメリットを確実にすることができる。

To benefit from AI advances, users and operators of AI systems must have reason to trust it. Trust arises from multiple interactions, where predictable and desirable behavior is reinforced over time. Providing the system's users with some understanding of AI operations can support predictability, but forcing AI to explain itself risks constraining AI capabilities to only those reconcilable with human cognition. We argue that AI systems should be designed with features that build trust by bringing decision-analytic perspectives and formal tools into AI. Instead of trying to achieve explainable AI, we should develop interpretable and actionable AI. Actionable and Interpretable AI (AI2) will incorporate explicit quantifications and visualizations of user confidence in AI recommendations. In doing so, it will allow examining and testing of AI system predictions to establish a basis for trust in the systems' decision making and ensure broad benefits from deploying and advancing its computational capabilities.
翻訳日:2022-01-27 13:22:02 公開日:2022-01-26
# Deep Image Deblurring: A Survey

Deep Image Deblurring: A Survey ( http://arxiv.org/abs/2201.10700v1 )

ライセンス: Link先を確認
Kaihao Zhang, Wenqi Ren, Wenhan Luo, Wei-Sheng Lai, Bjorn Stenger, Ming-Hsuan Yang, Hongdong Li(参考訳) 低レベルのコンピュータビジョンでは、ぼやけた入力画像からシャープなイメージを復元することを目的としている。 近年のディープラーニングの進歩は、この問題の解決に大きな進歩をもたらし、多数の遅延ネットワークが提案されている。 本稿では,最近発表された深層学習に基づくイメージデブラリング手法の包括的かつタイムリーな調査を行い,コミュニティに有用な文献レビューとして提供することを目的とした。 まず、画像のぼかしの一般的な原因を議論し、ベンチマークデータセットとパフォーマンスメトリクスを導入し、さまざまな問題定式化を要約する。 次に,アーキテクチャ,損失関数,アプリケーションに基づく畳み込みニューラルネットワーク(cnn)を用いた手法の分類を行い,詳細なレビューと比較を行う。 さらに,顔画像やテキスト,ステレオ画像など,ドメイン固有の難読化アプリケーションについても論じる。 主要な課題と今後の研究方向性について論じる。

Image deblurring is a classic problem in low-level computer vision, which aims to recover a sharp image from a blurred input image. Recent advances in deep learning have led to significant progress in solving this problem, and a large number of deblurring networks have been proposed. This paper presents a comprehensive and timely survey of recently published deep-learning based image deblurring approaches, aiming to serve the community as a useful literature review. We start by discussing common causes of image blur, introduce benchmark datasets and performance metrics, and summarize different problem formulations. Next we present a taxonomy of methods using convolutional neural networks (CNN) based on architecture, loss function, and application, offering a detailed review and comparison. In addition, we discuss some domain-specific deblurring applications including face images, text, and stereo image pairs. We conclude by discussing key challenges and future research directions.
翻訳日:2022-01-27 13:20:26 公開日:2022-01-26
# 一級埋め込みによる逆蒸留による異常検出

Anomaly Detection via Reverse Distillation from One-Class Embedding ( http://arxiv.org/abs/2201.10703v1 )

ライセンス: Link先を確認
Hanqiu Deng, Xingyu Li(参考訳) 知識蒸留(KD)は,教師なし異常検出(AD)の課題に対して,有望な結果をもたらす。 教師学生(T-S)モデルにおける異常の表現差はADに不可欠な証拠となる。 しかし、以前の研究で教師と生徒のモデルを構築するために類似または同一のアーキテクチャを使用すると、異常表現の多様性が阻害される。 そこで本研究では,教師エンコーダと学生デコーダからなる新しいT-Sモデルを提案する。 生画像を直接受信する代わりに、学生ネットワークは教師モデルの1クラス埋め込みを入力として取り、教師のマルチスケール表現を復元する。 本研究の知識蒸留は,本質的には抽象的,高レベルなプレゼンテーションから低レベルな機能へと始まります。 さらに,T-Sモデルに,トレーニング可能な一クラスボトルネック埋め込み(OCBE)モジュールを導入する。 得られたコンパクト埋め込みは、正規パターンに関する本質的な情報を効果的に保存するが、異常摂動は放棄する。 提案手法の有効性と一般化性を示すため,ad と one-class novelty detection benchmark の広範な実験を行った。

Knowledge distillation (KD) achieves promising results on the challenging problem of unsupervised anomaly detection (AD).The representation discrepancy of anomalies in the teacher-student (T-S) model provides essential evidence for AD. However, using similar or identical architectures to build the teacher and student models in previous studies hinders the diversity of anomalous representations. To tackle this problem, we propose a novel T-S model consisting of a teacher encoder and a student decoder and introduce a simple yet effective "reverse distillation" paradigm accordingly. Instead of receiving raw images directly, the student network takes teacher model's one-class embedding as input and targets to restore the teacher's multiscale representations. Inherently, knowledge distillation in this study starts from abstract, high-level presentations to low-level features. In addition, we introduce a trainable one-class bottleneck embedding (OCBE) module in our T-S model. The obtained compact embedding effectively preserves essential information on normal patterns, but abandons anomaly perturbations. Extensive experimentation on AD and one-class novelty detection benchmarks shows that our method surpasses SOTA performance, demonstrating our proposed approach's effectiveness and generalizability.
翻訳日:2022-01-27 13:20:12 公開日:2022-01-26
# 半監督対象検出のための相互誤差増幅の修正

Mitigating the Mutual Error Amplification for Semi-Supervised Object Detection ( http://arxiv.org/abs/2201.10734v1 )

ライセンス: Link先を確認
Chengcheng Ma, Xingjia Pan, Qixiang Ye, Fan Tang, Yunhang Shen, Ke Yan, Changsheng Xu(参考訳) 半教師付き物体検出(SSOD)は近年大きな進歩を遂げている。 しかし,自己ラベル付SSOD法の性能は依然として限られている。 実験結果から,この現象の背後にある理由は,擬似ラベルと訓練された検出器の相互誤り増幅にあることが明らかとなった。 本研究では,擬似ラベルの補正機構を導入し,相互誤り増幅を緩和することを目的としたクロス・インストラクション(CT)手法を提案する。 CTは同じ構造だがパラメータの初期化が異なる複数の検出器を同時に訓練する。 他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,1つの検出器によって予測される境界ボックスを高い信頼スコアを持つ他の検出器によって予測される対応するボックスを用いて修正するラベル整形モジュール(LRM)を提案する。 このように、CTは自己ラベル化や既存の相互指導方法と比較して擬似ラベル品質を高め、相互誤り増幅を合理的に緩和することができる。 SSD300とFaster-RCNN-FPNの2つの一般的な検出器構造において、提案手法は、Pascal VOCおよびMS-COCOベンチマークの2.2%の絶対mAP改善により、一貫した改善と、最先端のSSOD法よりも優れている。 コードはgithub.com/machengch eng2016/CrossTeachin g-SSODで入手できる。

Semi-supervised object detection (SSOD) has achieved substantial progress in recent years. However, it is observed that the performances of self-labeling SSOD methods remain limited. Based on our experimental analysis, we reveal that the reason behind such phenomenon lies in the mutual error amplification between the pseudo labels and the trained detector. In this study, we propose a Cross Teaching (CT) method, aiming to mitigate the mutual error amplification by introducing a rectification mechanism of pseudo labels. CT simultaneously trains multiple detectors with an identical structure but different parameter initialization. In contrast to existing mutual teaching methods that directly treat predictions from other detectors as pseudo labels, we propose the Label Rectification Module (LRM), where the bounding boxes predicted by one detector are rectified by using the corresponding boxes predicted by all other detectors with higher confidence scores. In this way, CT can enhance the pseudo label quality compared with self-labeling and existing mutual teaching methods, and reasonably mitigate the mutual error amplification. Over two popular detector structures, i.e., SSD300 and Faster-RCNN-FPN, the proposed CT method obtains consistent improvements and outperforms the state-of-the-art SSOD methods by 2.2% absolute mAP improvements on the Pascal VOC and MS-COCO benchmarks. The code is available at github.com/machengch eng2016/CrossTeachin g-SSOD.
翻訳日:2022-01-27 13:19:54 公開日:2022-01-26